Updates, die von Attacken schwer zu unterscheiden sind, Teil II
Am Donnerstag, dem 29. Juni, hat ein Microsoft-Patch für das Active-Directory
vom RRZE unseren Netapp Filer für alle Windows-Userinnen unbenutzbar gemacht.
Der Filer hat einige Jahre auf dem Buckel, war aber auch extrem teuer.
Leider hat er kein ssh-fähiges Interface zu den Filesystemen, so dass
etwas Gehacke nötig war, die Daten der Userinnen auf eine
andere Maschine umzuziehen (keine Authentisierung...). Die Rechte-Struktur
auf der Ersatzmaschine so nachzubaun, dass die Richtigen aufs Richtige
von Windows aus zugreifen können, war nicht so einfach. Dass
netapp für die älteren OnTAP Versionen keinen Patch zur
Verfügung stellt, ist sehr enttäuschend.
Und dass ich seit mehr als einer Woche noch drauf warte,
dass mein Antrag auf Zugang zur netapp KnowledgeBase bearbeitet wird,
auch...
[/bauerm]
permanent link
Gegen Angreifer gibt mir das System einige Werkzeuge, dass die da nicht
advancedpersistentthreat upgrade
Am 5. Mai hat ein Ubuntu Update von Ruby das Puppet zerschossen,
weil die puppet:///
URLs ab da falsch geparst werden:
Wie ich das gemerkt hab, war meine erste Reaktion: "dann nageln wir
die Ruby Version in /etc/apt/preferences.d fest und verhindern den Upgrade".
Ja, aber wie krieg ich das auf die betroffenen Rechner, wenn Puppet nicht mehr geht?
Zwei Tage später haben die Ubuntesen den Patch wieder zurückgerollert.
root
werden und Blödsinn machen.
Gegen Package-Updates mit cronapt
hilft nix, weil die über Nacht beliebige
post-install
Skripte als root
ausführen.
Und nicht Upgraden geht auch nicht, weil die CVEs im Stundentakt einschlagen.
Und die Maintainer brauchen gar nicht bösartig oder inkompetent sein,
bei 106 Packages und Abhängigkeiten und schlecht
zu testenden Nebeneffekten (wie den seltsamen puppet:///
URLs)
haben die keine Chance, keine Fehler zu machen.
[/bauerm]
permanent link
Zabbix-Proxy auf Ubuntu
Nach dem Upgrade auf den neuen Zabbix Proxy kam
systemd[1]: zabbix-proxy.service: Can't open PID file /run/zabbix/zabbix_proxy.pid (yet?) after start: No such file or directory
Rumgesucht, den Pfad gibts, gehoert den Richtigen. Ists in unserer Config falsch???
In /etc/zabbix/zabbix_proxy.conf kann man ein
PidFile
angeben, das
ist der Pfad zum PID file. Kann man machen. Aber in /etc/init.d/zabbix-proxy:
DIR=/var/run/zabbix
PID=$DIR/$NAME.pid
wird das hart druebercodiert. Fein, dann nehmen wir eben den Pfad.
Hilft aber nix, weil auf PoetteringOS alles nochmal wo ganz anders stehen muss,
naemlich in /lib/systemd/system/zabbix-proxy.service:
PIDFile=/run/zabbix/zabbix_proxy.pid
Aber auch diesen Pfad gibts, gehoert den Richtigen, usw.
In den Logs steht dann aber statt was mit Pidfile:
The proxy does not match Zabbix database. Current database version (mandatory/optional):
05000000/05000004. Required mandatory version: 06000000.
Die Vehlermehldung selbst war also phalsch, nicht das Pidfile, sondern das
Datenbankschema ist das Problem. Nachdem der Proxy eh nur umschaufelt, reichte
es, das sqlite-file zu loeschen, damit eine neu schematisierte DB angelegt wird.
[/bauerm]
permanent link
Ubuntu Upgrades...
Aus "Never change a running system!" folgt natuerlich "Never upgrade a running system!".
Und die Kwalitätssoftware, die man in PoetteringOS so hat, macht das deutlich:
Wenn man Ubuntu in zwei Schritten von xenial ueber bionic auf focal upgraded, dann aendert
sich die Version von fail2ban (klar). Und verschiedene Versionen von fail2ban haben
verschiedene Ideen was der loglevel bedeutet. In der alten Version war
loglevel = 1
ein sparsamer Logging-modus (INFO), unter der Version auf focal ist es
der "Erzaehl mir mehr von deiner Blinddarm-OP" Modus. Siehe:
https://github.com/fail2ban/fail2ban/issues/2008#issuecomment-355189381
Dadurch ist die Platte mit /var/log vollgelaufen.
Und was macht fail2ban, wenns keine logs zum Regexp-Matchen mehr hat?
Nix mehr blocken...
[/bauerm]
permanent link
SIGILL
taucht wieder auf, und stoert meine Vorlesung! Die
libopenblas
, die
von Sagemath 9.4 im eigenen Baum installiert wird, kompiliert mit den Defaults, d.h
der Compiler sucht sich die exotischsten Features der CPU, auf der gebaut wird, und
zementiert die Opcodes in die dynamische Bibliothek. Und die crasht dann auf allen
anderen Intel CPUs, die irgendeins der Features nicht haben. Wuergaround:
In
so einbaun, dass kein anderes
OPENBLAS_CONFIGURE="$OPENBLAS_CONFIGURE DYNAMIC_ARCH=1"
OPENBLAS_CONFIGURE="$OPENBLAS_CONFIGURE TARGET=CORE2"
TARGET
definiert wird. Dann mit
./sage -p openblas
baun. Das kompiliert die libopenblas
mit den Features
eines Intel Core2, was effektiv ein Celeron ist (Baujahr 2007, TÜV seit 2013 abgelaufen).
Sollte auf allen Intelkisten hier im Gebaeude gehen, im CIP Pool getestet. Tut.
[/bauerm]
permanent link
To the universal deployment of IPv6
war ein beliebter, ironischer Trinkspruch auf IETF Meetings. Wie universal
das ist, kann man an folgendem sehen. Wenn man den
sshd
mit
der Konfig X11Forwarding yes
und X11UseLocalhost yes
startet, dann geht in dem Default-Setup von Ubuntu kein X-Forwarding,
wenn man keine IPv6-Loopback-Addr ([::1]
) auf dem lo
Interface hat.Dazu gibt es keine verdammte Fehlermeldung, ausser
"Failed to allocate internet-domain X11 display socket."
und in der steht nicht, warum. Wenn man dann in die C-sourcen von OpenSSH schaut,
findet man (beim aktuellen OpenSSH) in channel.c
in der Zeile 4744:
for (display_number = x11_display_offset;
display_number < MAX_DISPLAYS;
display_number++) {
...
getaddrinfo(NULL, strport,
&hints, &aitop))
...
sock = socket(ai->ai_family, ai->ai_socktype,
ai->ai_protocol);
...
if (bind(sock, ai->ai_addr, ai->ai_addrlen) == -1) {
debug2_f("bind port %d: %.100s", port,
strerror(errno));
close(sock);
...
}
if (display_number >= MAX_DISPLAYS) {
error("Failed to allocate internet-domain X11 display socket.");
return -1;
}
D.h. der socket
call funktioniert auf einem PoetteringOS ohne IPv6,
wenn die ai_family == AF_INET6
ist, aber das bind
schlaegt fehl, und darauf gibts nur eine Debug-Nachricht auf Level DEBUG2
.
Und weil das keinen Abbruch der Schleife erzwingt, zaehlt die aeussere Schleife
froehlich bis MAX_DISPLAYS
, und stirbt dann mit einer eher obskuren Vehlermehldung.
Wenn man die AddressFamily
vom Default any
auf inet
umstellt, geht wieder alles.
WeheheeeeTeeheEhehhhfFFFF
[/bauerm]
permanent link
Linux vs. Internet
Unser Puppet benutzt an diversen Stellen
@fqdn
bzw
$facts['networking']['fqdn']
Und das schlägt gelegentlich fehl, weil der FQDN überraschenderweise
GROSSBUCHSTABEN
enthält. WARUM?
Also: Bei richtigen Betriebssystemen, für Server und so, steht die FQDN
in einem Config-File. Bei Linux steht nur der Hostname in einem
Config-File, das hostname
Kommando kann die FQDN laut Manpage
nicht setzen. Wenn es den FQDN sucht, nimmts jede IP auf jedem Interface und
macht da drauf einen DNS-reverse Lookup (d.h. wenn grad kein Netz/kein DNS,
und kein Eintrag in /etc/hosts
, dann hat die Maschine gar keinen FQDN).
OK, das erklärt aber die GROSSBUCHSTABEN nicht.
Mit Hilfe vom DNS Admin vom RRZE folgendes erfahren: Die DNS Anfrage liefert das,
was beim nächsten DNS Server im Cache liegt. Und der merkt sich die letzten Antworten
auf Anfragen, zusammen mit der Anfrage. Und weil im DNS GROSSkleinschreibung egal
ist, kann jeder nach z.B. WwW.mAtH.fAu.De
fragen. Und das wird
gespeichert. Und die nächste Antwort auf die Anfrage nach www.math.fau.de
enthält die CaMeLcAsEd Schreibung. Und wenn die Anfrage von hostname -f
kommt, weil der Rechern mit Hostname www
seine FQDN rausfinden will,
dann fragt der danach als WwW.mAtH.fAu.De
beim Puppetserver. Und der
sagt: Host unbekannt.
Also: eigenen Puppet-Fact @FqDn
schreiben, der immer lowercase ist...
[/bauerm]
permanent link
14.10.2021,
Wenn man von einem NFS gemounteten Client, auf einen ZFS Snapshot zugreifen will, klappt das nur
wenn der NFS Export mit der Option "crossmnt" exportiert wurde.
Da die Snapshots als Readonly "Filesysteme" eingehaengt werden, kann man vom Client aus nur so auf
die Snapshots z.B. fuer die Wiederherstellung von Files zugreifen.
-> Again what learned :)
[/bayer]
permanent link
Nachtrag zu dem SIGILL in libopenblas
Post: Die libopenblas ist laut
SageMath/build/pkgs/openblas/spkg-install.in
mit
DYNAMIC_ARCH=1
gebaut. D.h. die sollte alle Architekturen koennen. Man kann der openblas mitgeben,
welche man moechte, und zwar mit
OPENBLAS_CORETYPE=$ARCH
wobei ARCH den hippen West-coast Intel-Codenamen angibt (Sandybridge, Skylake, Nehalem, ...)
Aber: das einzige, was sich aendert, wenn ich auf einem Sandybridge-Xeon das Sagemath
mit
env OPENBLAS_CORETYPE=Sandybridge
starte (und dann plot(cos(x), (x,0,10)) ausfuehrn lasse), ist,
dass im Stacktrace nach dem SIGILL jetzt
/software/sagemath/.../lib/libopenblas.so.0(sdot_k_SANDYBRIDGE+0xfd)
statt
/software/sagemath/.../lib/libopenblas.so.0(sdot_k_NEHALEM+0xfd)
steht. Man fragt sich...
[/bauerm]
permanent link
Wordpress, das Blogging Framework
Wenn man in Wordpress™ einen Blogeintrag mit post_name = Mein Sommerurlaub 2021 macht,
und ein paar Tage später einen mit post_name = Mein Sommerurlaub 2021, dann überschreibt
der zweite den ersten. Und das ist OK so, weil das ist ein Blog Eintrag, und wenns einen neuen
gleichen Namens gibt, dann soll der den alten ersetzen.
Wenn man ein Kalender-Plugin in Wordpress einbaut, dessen ENDPOINT
Events heisst, sieht man unter $url/events und $url/index.php/events den aktuellen
Kalender, genau wie erwartet.
Wenn danach jemand ein Posting anlegt, dass Events heisst, dann ist der Kalender weg,
und man sieht statt dessen dieses Posting. Weniger OK, das.
Es nützt nichts, das Posting umzubenennen. Ich hab knietief in DB-Dumps gewühlt,
um den Eintrag zu finden, der die rewrite-rule vom Kalender kaputtmacht, und nix gefunden.
Wenn man das Posting, das mal Events hiess, aber kopiert und dann löscht,
funktionierts wieder. Weissderhimmelwarum...
[/bauerm]
permanent link
Ein Tag, den man im Kalender anstreichen muss:
Eine
SIGILL
(Illegal Instruction) hab ich
glaubich zum letzten mal Ende der 90er gesehen. Dieser SIGILL
wird
von der libopenblas.so
geworfen, die mit Sage 9.3 ausgeliefert wird.
Diese Lib ist scheinz mit Gentoo-artigen -O99 -malles_was_geht
kompiliert
worden. Auf dem System des Autors/der Autorin waren die entsprechenden Intel Extensions
da, auf den meisten von unseren gibts die nicht. Ein Würgaround waers, die
Compiler-Options von dieser Lib aus dem Build-System von Sage rauszufummeln, und die
Lib mit diesen Options, aber ohne das -malles_was_geht
lokal zu baun,
und das shared object file zu ersetzen...
[/bauerm]
permanent link
Ubuntu macht Upgrades einfach. Auf dem monitor liess sich das von xenial auf bionic ohne
reinstall hochziehen. Also noch das /etc/apt/sources.list umgebaut und auf den bionic-teil von
unserem Mirror zeigen lassen. Aber manche Packages, die alle anderen bionic-Kisten sehen, sieht
der monitor nicht, weswegen puppet-runs abbrechen, undundund. Nach ganz viel Gefuddel findet man
raus, dass zusaetzlich zu amd64 auch i386 Pakete gesucht — und nicht gefunden werden, und
dann scheint das apt update lieber stehen zu bleiben.
Ein "grep -r i386 /etc/" bringt nix zutage. Nach einigem Suchen im Internerz stellt sich raus,
dass beim Upgrade die "foreign-architecture" i386 nach /var/lib/dpkg/arch geschrieben
wurde, wo man als Unixler latuernich gar nicht suchen wuerde, weil Configfiles sind in /etc/.
Mal den Poettering anhaun, ob er auch noch die Windows-Registry nachfrickelt...
[/bauerm]
permanent link
Kwalitaetssoftware, woheen man bleeect: der
smartd
auf neubau-55-018 meldet am Samstag:
Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 193 to 181
Die Festplatte war also nicht mehr 193° heiss, sondern nur noch 181° Celsius. Wenn man mit
smartctl -l devstat /dev/sda
die Platte fragt, erfaehrt man:
[..]
0x05 0x020 1 40 --- Highest Temperature
[..]
dass die Platte nie waermer als 40° war. Wehehe Teeheh Ehhefffff
[/bauerm]
permanent link
python3 cryptography x509
Mein altes certrenew.sh skript vom März 2017 tut nicht mehr.
Da wurde mit tempfiles, awk, sed und wildem Gescripte ein Cert per openssl s_client
runtergeladen, umgebaut und mit neuem key zu einem CertificateSigningRequest zusammengebaut.
Vermutlich hat sich der Output von OpenSSL leicht veraendert und tschoing, schepper
nix geht mehr.
Also das ganze nochmal in Python, mit dem allseits verwendeten Module cryptography.
Das hat AFAICS keine Moeglichkeit, um ein Cert von einem laufenden Service
runterzuladen (dazu muesste es SSL, TLS und mindestens noch STARTTLS koennen). Also
mit socket + ssl (standard-libraries in Python) probiert. Das ssl hat tatsaechlich eine
getpeercert() Methode, aber die liefert ein Dictionary von Strings, zu denen man dann
raten kann, aus welcher abgedrehten X.503-Erweiterung sie stammen, bzw was die ObjectID
von der Erweiterung ist. Also doch wieder openssl, Zert rausparsen und in
cryptography.x509.load_pem_x509_certificate() stopfen. Das stirbt sofort, und liefert
als fehlermeldung einen Link aufs FAQ Why can't i import my pem file.
D.h. das ist eine beliebte Frage, es geht nicht, und sie fixens nicht. Ein wegdokumentierter Bug.
Der besteht darin, dass man einen String uebergeben muss, der mit
-----BEGIN
losgeht, mit dem passenden
-----END
endet, und dazwischen duerfen nur Zeilen zu exakt 64 Zeichen stehen. Also wiiiieeder
elendes Stringzerparsen und -umformen.
Ok, fein, er frisst das Zert, und man kann alle Extensions rausholen.
Aber die leben in einer eigenen Welt/Namensraum, der nicht der
gleiche ist, wie die, aus denen man CertificateRequests bauen kann.
Dort sinds naemlich ExtensionTypes statt Extensions.
Und es gibt keine Konvertierfunktionen AFAICS. Also wiiiieeeder von hand die OIDs
in absurde Aufrufe wie
csr.add_extension(x509.ExtendedKeyUsage([x509.oid.ObjectIdentifier('2.5.29.37.1')]), critical=True)
stopfen, und wenn das DFN-CERT mal beschliesst, andere in die Zerts zu packen, dann
verwerfen Sie die Antraege aus meinem Code...
Nebenbei bemerkt, dass die OIDs nicht etwa in zwei sauberen Dicts oder davon abgeleiteten
Strukturen gelagert werden, in denen man schnell mal in beide Richtungen nachschaun koennte,
sondern in
1. einer Methode, die einen String ala '1.2.3' kriegt (woher man den wissen sollte?)
x509.oid.ObjectIdentifier()
2. Konstanten, z.b.
x509.ExtensionOID.SUBJECT_ALTERNATIVE_NAME
3. implizit in Methoden
x509.BasicConstraints()
Die Parameter fuer KeyUsage in csr.add_extension sind etwas anders als in den Policies
von OpenSSL, so dass ich jetzt raten durfte, was nonrepudiation
in dieser Sprache ist.
Quintessenz/Takeaway/TL;DR
Alles was der Peter Gutmann vor Ewigkeiten ueber X.509 geschrieben hat
stimmt immer noch.
[/bauerm]
permanent link
Drecksglump, elendiges!
Es reicht nicht, wie vorher behauptet, aus, auf einer Nexenta mit Coraid Shelfs die
symlinks von /dev/dsk/ nach /devices/ethdrv/ zu checken. Das luegt eventuell, zum
Beispiel am letzten Mittwoch, wo wir von dem einen auf den anderen Head umgeschenkt haben.
Danach war dann ein ganzes Shelf weg, dh wenn jetzt noch eine (nicht-spare, nicht-cache) Platte
ausfaellt, wirds katastrophal. Die Links waren da, also haben devfsadm und cfgadm ihre Arbeit getan,
aber vielleicht nicht der Treiber von Coraid. Wenn man wirklich wissen will, ob die Nexenta
alle Platten sieht, muss man
ethdrvadm list-devices
rufen und schaun, ob hinter jedem Plattennamen die Nummer des Shelfs steht, wo die drin ist.
Noch bloeder: Weil der eine sichtbare Shelf eine Spare Platte hatte, hat die Nexenta angefangen,
damit einen Mirror zu resilvern. Also drei Tage warten, bis ein weiterer Head-schwenk ratsam
ist. Das hab ich jetzt grad angeworfen. Weil die wiederentdeckten Mirror-platten schon
im Zpool bekannt waren und Metadaten drauf sind, geht das jetzt hoffentlich schneller.
Ja, war schneller. Nach 4 Stunden 46 Minuten war die Ruecksilbern fertig, die eingesprungene Spare
(die leer war, und wo das Ruecksilbern mehrere Tage gedauert hat) ist dank
zpool detach coraid01 $plattenname
wieder als Spare verfuegbar.
UFFFFFFF.
[/bauerm]
permanent link
systemd-networkd
Heute frueh hat der networkd anscheinend spontan beschlossen, dem Ether Interface auf unserem neuen Mailserver
eine IP aus einem fueheren Leben wiederzugeben — ohne die aktuelle zu loeschen. D.h ein Teil vom Traffic
geht mit einer IP raus, die inzwischen noch ein zweiter Rechner im Netz hat, und alles geht schief.
Rauspingen geht nicht, gepingt werden geht. Insbesondere geht kein DNS mehr -> keine MX lookups -> keine
rausgehende Mail -> Veraergerte User.
Ich hab als alter Stevens-"TCP/IP Illustrated"-Graubart mit ifconfig nachgeschaut. Weil die Linuxler
die Interaktion Userspace/Kernelspace wohl verbockt haben (sind ja mindestens zwei unterschiedliche Teams),
hat ifconfig nur die korrekte Adresse gezeigt. Ohne den Herrn Ruderich waer ich nicht
(oder erst viel spaeter) draufgekommen, mit
ip addr
nachzuschaun.
Naechstes Linuxfeature: Wenn man mit
ip addr delete $dieip dev $dasinterface
die Adresse wegloescht, wird die Default-Route mitgeloescht, auch wenn eine zweite Adresse auf
dem Interface existiert, die im gleichen Netz liegt. Also nachgefixt.
Nach
systemctl disable systemd-networkd.service
systemctl mask systemd-networkd.service
kill -9 $(die ip von systemd-networkd)
sollte der auch nicht mehr reinpfuschen. De-installieren kann man ihn nicht, weil er teil des systemd Packages
ist.
Mehr und mehr komm ich zur Überzeugung, dass man Server ausschliesslich mit *BSD oder Alpine Linux betreiben sollte
[/bauerm]
permanent link
Den Mailserver auf neue Hardware und neues Ubuntu gebracht.
1. postfix/dovecot angehalten
2. /var/mail weggesichert
3. /var/mail auf neuer maschine ge-rsync-t
4. Zertifikate, keys, kerberos keytabs von altem auf neuen server gezogen
5. Weil apache2 -> hiawatha umstellung, keys+cert+chain entsprechend umgewandelt
6. auf beiden maschinen /etc/network/interfaces mit neuen addrs versehen
7. reboots
8. hostnames umgestellt und in diversen configfiles geaendert
9. postfix/dovecot/webmailer restart
10. Rewrite rules in hiawatha reingebaut, damit der webmailer unter allen beliebten URLs erreichbar ist
11. Firewall rules auf dem neuen Mailer angepasst
12. Zuruecklehnen und den einprasselnden SMTP/IMAP/Submission Verbindungen zuschaun.
Und weil ja nie was glattgehen kann:
13. Feststellen, dass ein paar ConfigVersehen aus der Gruenderzeit dieses Deparments uns beissen koennen:
Bei der LDAP+Kerberos Einfuehrung gabs Verwirrung, weil in LDAP (genauer in der posixAccount Class)
die "uid" nicht die POSIX uid ist (waer ja auch zu einfach). Die "uid" ist — nicht die unique ID, weil das
ist ja der Distinguished Name — der login-name, die POSIX uid heisst "uidNumber" (logisch). Und so
kam es, dass wir Accounts angelegt hatten, die eine uid als uid hatten. Dass man sich dann nicht einloggen
kann, weil die POSIX-uid als name im kerberos benutzt wird statt dem usernamen, fiel schnell auf.
Statt die rauszuloeschen, haben wir damals einfach noch eine uid drangepappt, naemlich den username.
Und das ging ganz wunderbar, weil nslcd+pam_krb5 irgendwie die nicht-numerische uid genommen haben.
Das ist mit dem neuen sssd genau andersrum, der nimmt lieber Zahlen, wenn vorhanden. Und die zehnoderso
User, die damals unbewusst LDOPfer des Irrtums waren, kamen nicht mehr an ihre Mails. Dreck.
Mein altes fixusername Skript, das mit ldap_modify und
changetype: modify
replace: uid
uid: $newname
funktioniert hat, tut warumauchimmer nicht, wenn es zwei uids fuer den DName gibt. Loesung ist
changetype: modrdn
newrdn: uid=$newuid
deleteoldrdn: 1
Mit
for i in `seq 0 9`; do ldapsearch "(uid=$i*)"; done
durchgeschaut und alle korrigiert.
[/bauerm]
permanent link
Eingewachsene Fussnägel und Protokolle von Microsoft
Das RRZE hat — völlig zurecht — das über 30 Jahre alte, von Anfang an
total unsichere SMB1 Protokoll zentral abgeschaltet. Jede Implementation bei uns (Windows10, Samba, Netapp)
kann SMB2 oder höher ⇒ sollte bei uns keine Probleme machen.
Aaaaaber: GroupPolicies werden vom DomainController nicht per LDAP überreicht, sondern
in einem SMB-Share. Unser NetAppserver muss SMBx mit dem DC sprechen, damit er die ziehen kann. Und
wenn er sie nicht hat, funktioniert CIFS in Richtung unserer WindowsClients nicht richtig. Es gibt
keine Fehlermeldung, manche Laptops/User können die Shares von der Netapp nicht sehen, manchmal kann
man Lesen, manchmal Schreiben, manchmal dauerts ewig... Aber waruum kann die NetApp die shares vom DC
nicht kriegen? Laut
> options cifs
[..]
cifs.smb2.enable on
[..]
Warum kriegt man keinen vernünftigen Fehler auf
> cifs testdc
sondern
CIFS: Warning for server \\FAUDC1: Connection terminated.
??? Wohl weil er versucht SMB1 mit dem DC zu sprechen.
Neben "options cifs" gibts auch noch
cifs control show
und da sieht man
smb1.enable
und
smb1.client.enable
Wenn man die auf "off" setzt, kommt die Warnung, dass die Netapp (oder ein "client"?) jetzt gar nichts mehr machen
kann (stimmt auch, wie ein "cifs testdc" zeigt). Die supergeheime Option
options cifs.smb2.client.enable on
wird von der Netapp CLI nicht angezeigt, wenn man mit "options" sich alle Einstellungen dumpen lässt.
Sobald man das aber eingegeben hat, scheint zumindest ein Kunde wieder glücklich zu sein.
Kwalitätssoftwähr wohin man blickt.
[/bauerm]
permanent link
Puppetpuppetpupppet:
Es gibt eine
interface
resource, aber die betrifft nur Ports an Cisco (und ausschliesslich Cisco) Swiches und Routern.
Ich muss wohl mein eigenes puppet plugin fuer Linux Interfaces basteln.
Angesichts des Minenfelds aus networkmanager, netplan, systemd-services, usw wird
das wohl nicht einfach werden...
Mercurial:
Wenn man verzweigen will, muss man vorher wissen, dass man verzweigt.
Also Workflow:
% hg branch "test ob feature \$dings in puppet geht"
% hg commit
% hg branches # zweigt jetzt zwei, und "default" ist "inactive"
% fuddl
% hg commit
% schraub
% hg commit
% bastel
% hg commit
# wenns geklappt hat:
% hg merge default # danach gibts nur noch einen branch
# wenns nicht geklappt hat:
% hg commit --close-branch # der "test ob..." branch wird ab jetzt ignoriert
% hg up default # danach gibts nur noch einen branch
[/bauerm]
permanent link
09.12.2019,
Nach dem wir immer wieder Fehler auf dem neuen Fileserver fuer die Studenten hatten,
haben wir uns entschlossen von FreeBSD auf Ubuntu zu wechseln.
Leider wurden die Fehler damit nicht behoben (Datenuebertragungsfehler).
Wir konnten das ganze auf den Super Tollen High Speed Cache Controller von HP eingrenzen.
HPE Smart Array P816i-a SR Gen10 Bios Version 1.98
Alle Versuche in der Konfiguration des Controllers dem Fehler Herr zu werden schlugen fehl.
Schluss endlich brachte ein Bios-Update auf Version 1.99 Abhilfe. Bis jetzt (33 Tage Uptime)
ist der Fehler nicht mehr aufgetreten.
[/bayer]
permanent link
12.09.2019,
Neuer Fileserver fuer den Cip-Pool ist in Betrieb.
Nutzdaten im ZFS verfuegbar immo ca. 9TB. Dafuer haben wir auch die
Quota auf 3GB pro User angehoben. 2 SSDs a 800GB als Cache-Device im ZFS
sollen fuer die noetige Geschwindigkeit sorgen.
[/bayer]
permanent link
20.08.2019,
Netapp Cluster FAS2552 Shelf, Disk und Firmwareupdate durchgefuehrt.
Der FAS2552 Cluster hat jetzt die Version 8.2.5P3 7-Mode.
Auf die naechsten 1074 Tage UPTIME :)
[/bayer]
permanent link
16.08.2019,
Netapp FAS2554 Diskupdate und Firmwareupdate durchgefuehrt.
Die FAS2554 hat jetzt Version 8.2.5P3 7-Mode.
Auf die naechsten 1070 Tage UPTIME :)
[/bayer]
permanent link
24.07.2019,
Maple Bug aufgedeckt:
abs(3/(4 - 4/(1 + sqrt(3))) + sqrt(3)*I/(4 - 4/(1 + sqrt(3))));
# result: (1+sqrt(3))/2
maple Maple_Error_2019
Workaround:
a := (4 - 4/(1 + sqrt(3)));
ea := evala(a);
b := abs(3/ea+sqrt(3)*I/ea);
evala(b);
Fehler seit Version 2017 vorhanden.
[/bayer]
permanent link
19.07.2019,
Nach einem Boot von Ubuntu 18.04 wieder kein DNS.
sudo apt install resolvconf
Hier die DNS-Serve eintragen:
/etc/resolvconf/resolv.conf.d/head
nameserver 131.188.0.10
nameserver 131.188.0.11
Jetzt den Service restarten:
sudo service resolvconf restart
[/bayer]
permanent link
Bugs-as-a-Service-through-DBus von Ubuntu:
Ubuntu Bionic kommt mit systemd (erster Fehler). Und systemd hat einen "service" systemd-resolved.service
(zweiter Fehler, weil wenn der nicht laeuft, gehen keine reverse-lookups, und dann evtl auch keine filterregeln,
nfs/cifs/sshfs-mounts, und dann evlt auch keine weiteren systemctl services).
Und im Gegensatz zu anderen services, die man gar nicht totkriegt, startet systemctl diesen Dienst nicht neu,
wenn er ausfaellt (dritter Fehler: die Funktionalitaet war mal eine Bibliotheksfunktion in libresolv bzw glibc,
und hat funktioniert solang man nicht /etc/resolv.conf oder bei Linux/Solaris /etc/nsswitch.conf kaputtgemacht hat).
Also faellt er aus. Und es gibt keine Fehlermeldung von `journalctl -xe` dazu (vierter Fehler).
[/bauerm]
permanent link
$ find /usr/ -perm -4000
/usr/lib/dbus-1.0/dbus-daemon-launch-helper
/usr/lib/openssh/ssh-keysign
/usr/lib/eject/dmcrypt-get-device
/usr/lib/chromium-browser/chrome-sandbox
/usr/lib/xorg/Xorg.wrap
/usr/lib/kde4/libexec/fileshareset
/usr/lib/policykit-1/polkit-agent-helper-1
/usr/sbin/pppd
Das sind Binaries, die auf unserem Ubuntu mit setuid Bits ausgeliefert werden.
Und wenigstens ein paar davon haben schon ein Vorstrafenregister:
[/bauerm]
permanent link
Umgekehrtes Problem zu letzter Woche: auf einem Server versucht 'apt-get dist-upgrade' unser meta-Packet fuer Arbeitsplaetze
zu installieren. Das Ding hat laut dpkg-query keine Reverse-Dependencies, d.h. es gibt kein Packet unter der Sonne, das
zum Upgraden dieses Packet braeuchte. Und es gibt keine Puppet-Rule, die es installieren soll, und es gibt keinen
Eintrag in den diversen apt-spezifischen Directories, dass es installiert werden sollte. Vollkommen unklar, woher
der Wille zum Install kommt. Explizit verbieten kann man das durch eine Datei in /etc/apt/preferences.d/ mit
dem Inhalt
Package: $das_unerwuenschte_Packet_der_Wahl
Pin: release n=xenial*
Pin-Priority: -3
(Negative Prioritaet verhindert Installation. (Prioritaet == 0 erzeugt laut manpage undefined behaviour))
[/bauerm]
permanent link
Ueber Nacht hat ein Ubuntu Update unser dep-base Packge geloescht, das als Meta-pacakge alle unsere Wunschsoftware
enthaelt. Saudumm. Das dep-base hat jetzt ein "Essential: Yes" im control file.
[/bauerm]
permanent link
02.05.2019,
Mit den Metapaketen von Ubuntu 16.04 linux-image-generic-hwe-16.04-edge
und linux-headers-generic-hwe-16.04-edge werden die Kernel 4.15.x
installiert die mit Virtualbox und NVidia problemlos zusammenarbeiten.
Die Kernel-Module werden mit den 4.15er Kernel fehlerfrei gebaut.
Rsync ueber SSH auf eine alte interne NAS-Box die keine Updates mehr
bekommt.
rsync -vah -e "ssh -oKexAlgorithms=+diffie-hellman-group1-sha1"
Matlab 2018b auf einem Rechner mit Ubuntu 16.04 ohne X benoetigt das Paket libxmu6 sonst:
Fatal Internal Error: Unexpected exception: 'N9MathWorks6System15SimpleExceptionE:
Dynamic exception type: std::runtime_error std::exception::what: Bundle#8 start
failed: libXt.so.6: cannot open shared object file: No such file or directory
' in createMVMAndCallParser phase 'Creating local MVM'
[/bayer]
permanent link
Mindestens ein Wordpress plugin (redirection) aendert beim Upgrade mit "ALTER TABLE" (ALTER SCHWEDE)
seine Lieblingstabelle. Dass sie ausserdem VIEWs auf die gleiche Tabelle mit expliziten Spaltenname gemacht hatten,
vergessen sie leider. Und dann schmeißt das Plugin Errors zu nicht-existenten Feldern, und man muss
den VIEW explizit nachfrickeln, nur halt mit den neuen Fehldern....
[/bauerm]
permanent link
Aus gegebenem Anlass verlinken wir hier mal einen Artikel, den die
EU Internet Referral Unit für terroristische Propaganda halten.
[/bauerm]
permanent link
Wies ausschaut, kann virtualbox weder in Version 5.x noch 6.x auf 4.4.0-14[3-9] Kerneln laufen. Problem ist ein
— im weitestens Sinne des Wortes — Treiber, der im post-install Skript kompiliert und dann
installiert wird (d.h. man kriegts normalerweise nicht mit). Der C-Code versucht die Funktion get_user_pages()
zu rufen, nimmt aber eine andere Anzahl Parameter als der 4.4 Kernel ab 143 vorschreibt.
https://askubuntu.com/questions/1126591/virtualbox-error-after-last-ubuntu-software-update
Loesung auf einem Sekretariats PC:
Per hand den 4.4-142 mit headern installiert,
in grub.cfg alle neueren Kernel entfernt,
reboot
virtualbox-5.1 neu installiert,
tut
Man kann die Periode, in der FAUBox nachschaut, obs was zu synchen gibt, veraendern. Sollte das nicht
ueber die GUI gehen, dann gibts noch eine Zeile in
%AppData%\PowerFolder\*-Folder.config
die massenweise "true" enthaelt. Die nicht-0, nicht-1 Zahl da drin ist die Anzahl, das einzelne "m" oder "h"
gibt an, obs Minuten oder Stunden sind.
[/bauerm]
permanent link
Egal was das Netz sagt, die Maximale Upload Groesse in unserer Wordpress Version heisst fileupload_maxk und wird
in und mit wp-admin/network/settings.php gesetzt, und das zeigt unser Admin Menü nicht an.
Die Eintraege in php.ini, wp-config.php uswusf. sind nur zum Spass da, und werden ignoriert.
Weitere interessante Uploadlimitierende Variablen in den Wordpress Sourcen sind:
memory_limit
upload_max_filesize
upload_size_limit
WP_MEMORY_LIMIT
Die hochzudrehen hat keinen Einfluss, weil irgendwo noch ein Minimum gebildet wird. Nach Pruefen und bis zum endgueltigem
Ausgeben der Maximalen Upload Groesse ist der Zahlenwert so oft fehlerhaft von MB nach KB nach B und zurueck gewandelt worden,
dass uns ein MegaByte fehlt. Aber was will man erwarten, ist ja PHP.
Und natuerlich muss man auch die MaxRequestSize in der hiawatha.conf aufbohren.
[/bauerm]
permanent link
Glorio! Wenn man weiss, dass der Hersteller Alpha in seinen Uninterruptable PowerSupplies Messgeraete von
Riello verbaut (obwohl der Verkaeufer eine MIB von NetMan gemailt hat), und man sich die Finger blutig
sucht, kann man mit
snmpwalk -v 2c -m RIELLOUPS-MIB -M /usr/local/share/snmp/mibs:/tmp/mibs -c public $UPS_IP 1.3.6.1.4.1.5491
die Messwerte mit menschenverstaendlichen Namen auslesen. Ich hab die MIBs
im Source-Tree von librenms gefunden.
[/bauerm]
permanent link
Die Konfiguration von slapd liegt nur zum Teil in /etc/ldap/slapd.conf. Dort kann man einstellen, was fuer eine
Datenbank als Backend genommen wird, und einige Optionen dafuer setzen, aber halt nicht alle. Insbesondere
nicht, dass ein BerkeleyDB/SleepyCatDB Backend seine Transaktionslogs bitte wieder loescht, nachdem sie
in die Datenbank integriert sind. Das geht mit einer Zeile in /var/lib/ldap/DB_CONFIG:
set_flags DB_LOG_AUTOREMOVE
Muss man erstmal draufkommen, wenn die Platte volllaeuft...
[/bauerm]
permanent link
Stellt sich raus, dass die Ubuntu/Debian Welt mindestens drei Ansaetze hat, einem Interface mehrere IP Adressen
zu geben
https://wiki.debian.org/NetworkConfiguration#Multiple_IP_addresses_on_one_Interface
Und mindestens eine davon ist "dangerous"! Spannende Zeiten....
Ausserdem stellt sich raus, dass man einem DHCP Server explizit sagen muss, dass zwei "subnet"s auf
dem gleichen Interface liegen, mit "shared-networks" drumrum. Hat irgendjemand im letzten Jahr
aus dhcpd.conf rausgeloescht, seit dem ging die autoconf von Laptops nicht mehr...
[/bauerm]
permanent link
Seit mindestens einem Jahr liefert zabbix keine Temperaturdaten mehr. Auf Anfrage eines HPC Rechnenden neu
implementiert, zieht jetzt das Maximum aller Core-Temperaturen pro Rechner.
Bei der Gelegenheit --- aber wohl ohne Zusammenhang --- hat sich die Queue auf dem zabbix-proxy auf > 12000
angestaut. Nach eingehenden Logfile-Analysen hat ein Restart der zabbix-server und zabbix-proxy Prozesse
das wieder behoben.
[/bauerm]
permanent link
Zuviel Sicherheit macht Webseiten unsichtbar. Apple hat die maximale Groesse von RSA Keys auf 4096 festgenagelt. Hintergrund ist unklar.
Evtl so ein Bill Gates "640 Kilobytes sind genug fuer jeden". Browser, die gegen die Apple-eigene
Cryptolib gelinkt sind, haben deswegen unsere Webseite (4192 bit RSA) nicht angezeigt. Runtergeschraubt.
[/bauerm]
permanent link
Spass mit Transzendenten Funktionen: Was ist der cosinus von 9223372035620657689 ?
Fragen wir den Computer (der Computer hat immer Recht):
In C, mit libm:
#include <stdio.h>
#include <math.h>
int
main(int argc, char **argv)
{
printf("%.33f\n", cosf(9223372035620657689));
}
Antwort auf Intel i386:
0.011800076812505722045898437500000
Antwort auf AMD i386:
0.158410862088203430175781250000000
Das ganze nochmal in Sage:
x = RealField(100) (9223372035620657689)
print "%.80f" % x.cos()
0.00000000010178327217734091707966646264986107506267387634579790756106376647949219
Aber auch:
RDF(9223372035620657689).cos()
-1.4607242193325502e+25 ( das ist <<< -1.0 !)
Aber auch:
RealField(53)(sum((-1)^k * (x^(2*k)/factorial(2*k)), k , 0, oo).limit(x=9223372035620657689))
0.0531136888723055
Moral: cosinus nur für Wertebereiche rufen, die in Schulbüchern vorkommen
(nur wenige Vielfache von π von der Null entfernt). Für grosse Werte: hic sunt leones
[/bauerm]
permanent link
Scheint noch ein bisschen früh, auf Puppet 5 zu wechseln:
`puppet master compile` fails to save the catalog with arbitrary binary data in file resources
(Puppet 5 kann nur UTF-8 Daten in Files. Bei uns ein Ausschlusskriterium, weil binär)
Ok, das wirft wohl nur auf der Kommandozeile Errors.
Teilerfolg: sowohl ein std-Client als auch ein std-Server wuerde jetzt aus dem
schnell portierten puppet5 master ziehen koennen.
[/bauerm]
permanent link
Puppet5 Fortschritt: alle facts zu @facts gemacht, die klasse mitarbeiterpc taet jetzt durchlaufen,
WENN NICHT puppet5 alles json wandeln wuerde. Dabei gibts bei einem Binaerfile einen "defektes UTF-8" Error.
Der puppet5 facter kennt keine lsbdistnames,
puppet facts show
zeigts aber an.
[/bauerm]
permanent link
Der Default für libvirt-Netze bei Ubuntu ist NAT. Hat ein bisschen gedauert, bis mir aufgefallen ist,
warum die virtuelle kiste kein DHCP kriegt... Kann man in /etc/libvirt/qemu/network/default.xml umstellen,
muss dann aber auch sicherstellen, dass eine evtl benoetigte bridge dann auch da ist.
Der puppet5 support fuer bionic ist schlecht. Die apt-sources von puppetlabs sind defekt (bzw. die Verzeichnisse dahinter),
so dass man nix aus dem repo installieren kann.
Folgendes macht die Testerei von allerneuestem puppet leichter: wenn ein host ahost schon mal per
puppet agent --test --noop
vorbeigeschaut hat, dann liegen seine facts in einem YAML file auf dem server/master. Und dann kann man den
master fragen, was er denn schicken wuerde, wenn ahost nochmal vorbeischaut:
puppet master --verbose --no-daemonize --logdest console --compile ahost --debug
So hat man die Fehlermeldungen, und im Erfolgsfall das Manifest fuer ahost, auf dem Bildschirm und kann
weiterfriqueln... Unsere Vorarbeiten zur Umstellung haben sich gelohnt, das geht relativ glatt voran.
[/bauerm]
permanent link
Kopieren von libvirtsh "Domains"/Guests/Hosts/schlechtenamenskonvention: Es gibt ein
virsh migrate
aber das loescht die urspruengliche Domain. Nicht was man will. Zwischen Maschinen verlangt
es auch noch root-Zugang per ssh. Es gibt ausserdem noch virt-clone (nicht etwa "virsh clone" oder virclone, wegen
schlechtenamenskonvention). Das kann man folgendermassen rufen:
virt-clone -n $domain-clone --original-xml /etc/libvirt/qemu/$domain.xml -f /var/lib/libvirt/images/$domain-clone.qcow2
(wir reden von qemu-images. Keine Ahnung ob man so von KVM oder virtualbox nach qemu konvertieren könnte)
Das -n ist der Name der neuen Domain, nicht der Name der alten. Das -f gibt
das image-file an, wohin geclont werden soll. Sollte im --original-xml mehr als ein Disk image definiert sein,
kann man das -f wohl auch mehrfach angeben, aber in welchem was landet …
Nach dem Clonen möchte man naiverweise vielleicht annehmen, dass der geclonte Domain in irgendeiner Liste verfuegbarer
Domains auftaucht. Tut er aber nicht. Wenn man nicht -d angegeben hat (Debug), dann wird
eine Datei /etc/libvirt/qemu/$domain-clone.xml heimlich angelegt, die den neuen Domain beschreibt.
Erst nach
virsh define /etc/libvirt/qemu/$domain-clone.xml
und
virsh create /etc/libvirt/qemu/$domain-clone.xml
taucht der Domain im Output von
virsh list
auf. Und zwar als running. Eventuell tat man Gut daran, auch noch die --mac 00:11:22:33:44::55 Option mitzugeben,
sonst haben jetzt beide Domains die selbe IP und schiessen sich gegenseitig die TCP Connections weg.
Oder kreiert mit
virsh create --paused /etc/libvirt/qemu/$domain-clone.xml
Vorteil des nicht-Automatismus: man kann vor dem virsh define die XML Datei umschreiben und MAC und Pfade anpassen.
[/bauerm]
permanent link
Wordpress (wie vorgeschrieben) mit den RRZE Plugins/Themes installiert. Martin hat schon ganz schoen viel Inhalt
portiert. Unpraktisch ist, dass der 'sitename' zwar einstellbar und in einer Datenbank gespeichert ist, aber
das Theme in seine eigene Konfig einfach absolute URLs reinschreibt. D.h. wenn man den Server umbenennt,
gibts lauter kaputte images... Loesung auf die Schnelle war
mysqldump | sed "s,$altername,$neuername/g" > /tmp/new
mysql < /tmp/new
[/bauerm]
permanent link
Auf Windows 10 ist Firefox 59.0.3 fuer manche User unbenutzbar langsam. Statt dessen Chrome installiert und
Bookmarks umgezogen.
Um bessere User Experience zu erzeugen (oder wozu sonst?) haben die GRUB Leute in ihrem grub.cfg die Pfade
zu den vmlinuz-Files jetzt absolut zu /boot statt absolut zu /. Damit ging unser kernel_cleanup Skript
nicht -> auf mindestens einer Maschine uebergelaufenes /boot. Fixed.
[/bauerm]
permanent link
WAAAA. Aus unbekanntem Grunde findet der GRUB seine module nicht mehr. Die liegen seit spaetestens Februar
in /usr/lib/grub/, was bei uns nicht auf der root-platte ist, aber bis heut nacht gabs das Problem nicht.
Per puppet-exec kopieren.
Und latuernich geht jetzt auch das rescue-linux vom PXE boot nicht mehr.
UPDATE: stellt sich raus: das ging noch nie. Aber man kann im FAI unter /srv/fai/config/hooks eine Datei
mit namen z.b. savegrub anlegen, und im pxelinux.cfg dann FAI_ACTION=savegrub setzen, dann wird
die Datei nach dem Netz-Boot ausgefuehrt. Damit haben wir jetzt > 30 CIP Rechner wiederbelebt.
[/bauerm]
permanent link
Angefangen, unser puppet-setup fuer einen Upgrade auf 5.x umzustellen. Man kann die Node-Klassifikation
tatsaechlich ohne Hiera machen, was mich beruhigt (ich finde YAML als Configfile-Sprache nicht arg
viel besser als XML). Und exakt ge-scope-te Variablen sind jetzt schon ein Vorteil.
Und fertiggestellt: unser site.pp ist jetzt vererbungsfrei. Dabei sind wieder mal duplizierte Sachen
aufgefallen, muss noch einiges geradegezogen werden.
[/bauerm]
permanent link
Die nexone hat jetzt eine aktuelle openssh in /usr/local/bin. Auf der nextwo muss man seltsamerweise
noch export LD_LIBRARY_PATH=/root/lib davor machen. Auf nexone geht damit auch das backup auf die QNAP
wieder.
[/bauerm]
permanent link
Einen historischen HP Drucker in den CIP-2 gestellt, und so nach und nach in Betrieb genommen.
Henriette hat rausgekriegt, wie man die hplip PPDs umschreiben muss, damit auch doppelseitig
gedruckt werden kann. Leider ist der Einzug von dem Ding arg fehleranfaellig, vielleicht finden
wir noch Ersatzwalzen.
In einen anderen Drucker hatten sich Steifchen von Etiketten auf die Walze geklebt, die den
ueberschuessigen Toner wegtransportiert. Hat lustige Muster gemacht. Fixed.
Ein Windows in einer VirtualBox hat seine virtuelle Platte bis aufs letzte Byte zugemuellt.
Leider hat Windows kein Tool ala DiskUsage (du) an Bord. Mit viel Rumgeklicker rausgekriegt,
dass sich irgendwo in dem WINDOWS\ subdir 16 Gigabyte verstecken. Sieht eher nach Filesystem
Fehler aus. Virtuelle Platte um 20 Gb erweitert, mit Windows Bord-Tools Partition vergroessert,
tut wieder.
Dabei rausgefunden, dass es nicht ganz einfach ist, die Snapshots von den Virtual Disks aus dem ZFS
zu benutzen. VirtualBox meckert rum, dass es eine Disk mit dieser UUID schon gibt. Ja genau,
nur dass diese hier die andere von gestern ist...
CIP Pool 1 auf Ubuntu 16.04 gebracht.
[/bauerm]
permanent link
Das fenics Problem
loest sich, indem man gar nicht erst versucht, die fuer Python2 installierten Module zu benutzen,
sondern alles mit Python3 macht. Warum die defekten Python2 Dinger ueberhaupt installiert wurden,
bleibt eine elementare Frage.
[/bauerm]
permanent link
Ubuntu 16.04: dem LaTeX Editor kate fehlen Icons, u.a. beim Suchen/Ersetzen-Dialog. Das laesst
sich leicht beheben, wenn man <trommelwirbel crescendo="on"/> das libqt5libqgtk2
Paket nachinstalliert (man kanns nur nicht aussprechen). Warm das nicht als Dependency im
kate drinsteht, weiss eine hoehere Macht.
Man kann zwei Monitore in einer Gnome Umgebung betreiben, und mit der Maus vom linken zum rechten
wechseln, indem man an den linken Rand des rechten Monitors faehrt. Dann nervt allerdings
das Overview Feature der org.gnome.shell, weil an der Oberkante des linken Rands die Maus
nicht in den anderen Monitor wechselt, sondern eine Uebersicht aller Fenster, verkleinert,
im linken Monitor gezeigt wird. Stellt sich raus, dass der Name dafuer hot corner ist,
und in frueheren Versionen von Gnome konnte man das mit einem Tweak Tool abstellen.
Inzwichen muss man ein Buendel Javascript von github runterladen und an passender Stelle
auspacken, damit man das wegkriegt. Goldene Zeiten, wenn eine Desktopumgebung zusaetzlich
zu einem DBus-Sniffer einen Javascript Debugger braucht.
[/bauerm]
permanent link
Ein noch nicht identifiziertes Ubuntu Update hat unser NFS3 Setup kaputtgemacht. Die Fehlermeldung
beim
mount
erzaehlt was von einem nicht laufenden rpc.statd. Der laeuft aber.
Mit NFSv4 gehts, und wenn man locking explizit ausschaltet auch. Als Wuergaround reingebaut.
[/bauerm]
permanent link
fenics: Wenn man es hier
auf Ubuntu 14.04 aus Ubuntu-Packages installiert
auf Ubuntu 16.04 aus fenicsproject-eigenen Packages installiert
auf Ubuntu 16.04 nach Anleitung aus den git-repos baut und installiert
kann es in keinem Fall das erste Beispiel aus dem fenics Tutorial (
ft01_poisson.py
)
ausfuehren. Um Debugging interessanter zu machen, ist der Fehler jedesmal ein anderer.
Das Design buchstabiert schon Untergang (wie der Amerikaner sagt), indem z.B. ein Python-Modul
zur Laufzeit in einem Tempdir einen Dateibaum anlegt, in dem ein CMakeFile liegt,
das in einem anderen Tempdir einen Dateibaum anlegt, in dem ein Makefile liegt,
in dem die Pfade zu den SWIG-Includes nicht stimmen.
Wie ein Meister des Verbrechens verwischt fenics seine Spuren, indem es die Tempdirs zum Teil
loescht, wenn Fehler auftreten.
[/bauerm]
permanent link
Wir haben jetzt ein Zabbix Skript, dass die Restlebenszeit unserer SSL Zertifikate abcheckt, auch
fuer IPP und SMTP Submission.
[/bauerm]
permanent link
Angefangen hat es damit, dass einem Mitarbeiter seit Montag die Maschine mehr oder minder
zuverlaessig einfriert (Ubuntu 14). Woran das liegt, war vollkommen unklar, bekannt war nur, dass ein
rm -rf $HOME/.kde
das Problem eine Zeitlang behebt. Vermutungen waren
- Defektes RAM => kann nicht sein, Problem taucht einen Rechner weiter genauso auf
- Kernel Panic wegen Speicher/CPU Last => Logs und Statistiken sagen das Gegenteil
- KDE Programmierfehler => Kollege mit gleicher Config hat das Problem nicht
Also erstmal keine Idee. Logs durchgeschaut, was sich denn in den letzten Tagen auf der
Maschine geaendert hat. ISC Tools? Wohl kaum. Der Linux Kernel? Seltsam.
Wie mir der Betroffene ein Ergebnis seiner Arbeit zeigen will
(in einem PDF), friert die Kiste ein. Neue Vermutung: Acroread 9 for Linux.
Am naechsten Rechner ausprobiert -> friert die Maschine sofort ein.
Versucht, das unter Ubuntu 16.04 nachzustellen -> friert nicht ein.
Reboot der 14er Maschine, statt dem -140 Kern den -138 genommen -> friert nicht mehr ein.
Was ist der Unterschied? Die Intel Firmware und die Wuergarounds fuer die Spectre/Meltdown Bugs.
Welche absurden Assembler-Verenkungen der Acroread macht, dass die neue Intel Firmware zuverlaessig
den Rechner vollbremst, bleibt unklar, vielleicht Anti-Debugging-Obskurantismus...
Der Mitarbeiter hatte den Acroread als default-PDF View eingestellt, und deswegen wurde
der auch zum Erzeugen von Thumbnails im Filebrowser benutzt; und das KDE merkt sich, welche
Fenster offen sind, und deswegen...
MERKE:
Der Teufel steckt im Detail und in Intel Firmware Patches.
https://usn.ubuntu.com/usn/usn-3531-2/
[/bauerm]
permanent link
10.01.2018,
Nach der jaehrlichen Wartung, im Dezember, der USV Anlage in unserem grossen
Serverraum, wurde festgestellt das ein Luefter und 6 Akkus defekt sind.
Gestern war der Monteur im Haus und hat Luefter und die besagten Akkus
getauscht. Nun steht einem Stromausfall nichts mehr im Weg, was wir uns
natuerlich trotzdem nicht Wuenschen.
Im Haus sind wir mit dem Upgrade auf Ubuntu 16.04 so gut wie fertig. Jetzt
sind AM2 und AM3 dran. Den CIP-Pool werden wir in der Vorselungsfreien Zeit
hochziehen wenn die Klausuren durch sind.
[/bayer]
permanent link
Die rstudio.com Leute haben zwei Ubuntu Packete gebaut, eins fuer <=14.04, eins fuer >= 16.04. Die Dateien
heissen verschieden, aber in den DEBIAN/control files heissen die Pakete gleich. Damit kann man die
nicht gleichzeitig in einem Ubuntu-Repo haben, weil der pro Paketnamen genau eine Datei im Baum unter
pool/main/
erlaubt. Die Unterscheidung nach Ubuntuversionen passiert beim Erzeugen der
dists/$name/main/binary-$arch/Packages.bz2
wo dann Pfade nach pool/main/... drinstehen. D.h. wir koennen nicht auf einem Repo beide Pakete haben,
weil Paketname+Version eindeutig sein muessen, es durch die Schusselei der rstudiosi aber nicht sind.
Würgaround:
dpkg -x rstudio_xenial...deb rstudio-xenial
dpkg -e rstudio_xenial...deb rstudio-xenial/DEBIAN
cd rstudio-xenial
vi DEBIAN/control
in der Package: Zeile den Namen von rstudio auf rstudio-xenial genaendert.
cd ..
dpkg -b rstudio-xenial/DEBIAN rstudio_xenial...deb
Neue Variante ins Repo. Nachteil: es wird kein Update von den Rstudios geben, weil die Packetnamen
dann nichts mehr miteinander zu tun haben.
[/bauerm]
permanent link
Software Engineering at its finest: Maple 2017 wie von seinem Install-Skript installiert, xmaple starb bei
uns mit einem Double Free in dem Java Runtime, das sie mitliefern (weil man das schon vorhandene nicht
nehmen kann, weil Java ist ja so portabel! "Write once, transfer complete development environment to everywhere!")
Auf Anfrage meinte Maplesoft, dass dies daher kaeme, dass unsere Software auf einem NFS-Verzeichnis liegt,
und NFS wird nicht unterstuetzt. Damit hatten wir es damals bewenden lassen, ...
Bei genauerem Nachschaun stellt sich raus, dass der Fehler
in der libfreetype.so passiert, die von MATLAB2017a stammt.
Beim Installieren hat Maple irgendwie mitgekriegt, dass im gleichen Verzeichnis auch eine Matlab Installation
liegt, und hat den LD_LIBRARY_PATH um das lib/ Subdir von Matlab erweitert. Damit findet es dort eine libfreetype
bevor es ueberhaupt in /usr/lib sucht. Sobald man das im maple-Startskript wegmacht, funktioniert xmaple.
[/bauerm]
permanent link
Eine Maschine war im Inventar unauffindbar, wurde aber in Zabbix und Puppet-Dashboard als up-and-running
gemeldet. Weder SSH- noch ping-bar. Aber wo steht die Dose? Ina ist draufgekommen, dass wir ja im
Puppet Facts-File zu der Maschine auf dem Master nachschaun koennen, was die dort gemeldete MAC ist,
und dann im Inventar danach suchen. Hat auch geklappt, die Maschine war als eine Zahl statt Namen eingetragen.
FIXED.
[/bauerm]
permanent link
Ubuntu ist benutzerfreundlich! Weiss jeder, die klassische Linux-Anfaenger-Distib. Und wenn man in
Unity Dash auf die "Windows"-Taste drueckt, kann man nach Programmen suchen lassen. Aber die werden
recht willkuerlich gefiltert, ausser wenn man den Namen fast ganz ausschreibt. Konkreter Fall ist rstudio, vertreten
als rstudio-0.99 und rstudio-1.0. Das 0.99 wird sofort angezeigt, wenn man "rs" getippt hat, das 1.0 bei manchen
Usern aber nicht, sondern erst, wenn sie "rstu" tippern. Als rationaler Betrachter wuerde man meinen, dass weitere
Buchstaben das Ergebnis hoechstens noch einschraenken, und gibt deswegen bei "rs" und nur einer rstudio-variante
auf.
In diesem Zusammenhang interessant: Wenn man sich eine _Datei_ ".cache" ins HOME legt, und die mit
chmod 0000 .cache
unanfassbar macht, dann kann man sich nicht mehr in eine Ubuntu oder GNOME Session einloggen.
Denn dann haengt sich das
init --user
auf, was bei den genannten alle weiteren Programme starten sollte.
[/bauerm]
permanent link
Mysql-Error-Zombie-Apocalyptusbonbon: Der Fehler aus dem Jahre 2013, den wir im kühlen Grabe wähnten,
kommt gruselig wieder (Halloween?) Inzwischen ist sogar "MEDIUMTEXT" zu klein, um die Fehlermeldungen
vom puppet dashboard aufzunehmen. Also schreibt es eine Fehlermeldung. Wohin? In die Datenbank.
In eine Spalte vom Typ "MEDIUMTEXT", was einen Fehler erzeugt... Die "details" in "delayed_job_failures"
hab ich jetzt mal auf "LONGTEXT" gesetzt.
[/bauerm]
permanent link
Endlich sichergestellt, dass die verwendete Version von printadmin dieselbe wie im Repo ist.
Das SQLAlchemy als ORM ist zwar lustig, wenn man aber db.session.add/execute/whatever mit den entsprechenden
Methoden in den Row-Objekten mischt, kriegt man
Object '< ... >' is already attached to session '...'
[/bauerm]
permanent link
Wozu hat man RAID? Wegen der Zuverlaessigkeit. Nur dass bei den HP Servern der RAID Controller
manchmal vor den Platten stirbt, so auf dem memserver. Der Controller wurde auf Garantie getauscht.
[/bauerm]
permanent link
memserver debugging, maple prozesse haengen nach langer laufzeit, aber nicht alle und nicht immer. Suche
nach Fehlerquellen:
- Speicher defekt?
- Lizenzserver unerreichbar (Windows => wird mindestens einmal im Monat rebootet)
- Zugriff aufs NFS HOME fehlerhaft?
[/bauerm]
permanent link
Problem mit Puppet+Autoinstaller: wenn eine Maschine zum ersten Mal hochfaehrt, kennt der puppet master
sie nicht; man muss manuell den Zertifikatsantrag, den der agent schickt, signieren lassen. Wenn man
die autosign Option benutzt, signiert man unbesehen automatisch jedes Zert, das uebers Netz kommt, also
besser nicht. Aaaaber: wir installieren uebers Netz, warum also nicht die Keys und ein signiertes Zert
gleich mit installieren? Auf den ersten Blick deswegen, weil puppet keinerlei Unterstuetzung fuers
signieren von Keys-in-Files anbietet.
Lösung: ein Skript, das im Dateibaum des autoinstallers an passender Stelle das Keymaterial erzeugt,
daraus CSRs baut und mit dem ca-Key vom puppet master unterschreibt, mit den passenden Extensions:
nsComment = "Puppet Ruby/OpenSSL Internal Certificate"
basicConstraints = CA:FALSE
subjectKeyIdentifier = hash
keyUsage = digitalSignature, keyEncipherment
Die Keys+Zerts werden dann vom Installer auf die Maschinen kopiert.
Bleibt noch das Problem, dass Puppet seinen eigenen Zerts nicht glaubt: Wenn schon ein Zert existiert, dann
wird das neue ignoriert. Also vor der Installation auf dem master mit
puppet cert clean $diemaschinedieinstalliertwerdensoll
das alte Zert loeschen.
[/bauerm]
permanent link
13.09.2017,
Gestern war es soweit: Nach 2 Wochen und 2 Tagen kam doch schon
die bestellte Platte von der Firma Bechtle Nuernberg. Bis heute
hat keiner auf meine Mail reagiert. Hier wird Service direkt am
Kunden praktiziert. Was doch so ein Rahmenvertrag ausmacht den
man fest bis 31.12.2020 in der Tasche hat.
[/bayer]
permanent link
11.09.2017,
Heute war Kabelkampftag. Was das ist ? Wenn auf einmal nach einer
Neuinstallation das Netzwerkkabel nicht mehr funktioniert. Wir
installieren Ubuntu 16.04 auf den Rechnern. Nach der installation
des 16er Ubuntus hatten verschiedene Rechner kein Netz mehr. Nach
Austausch des Netzwerkkabels funktioniert wieder alles. WTF
Siam (www.siam-gs17.de) ist in vollem Gange.
Die am 28.8.17 bestellte Festplatte fuer den Server ist bis jetzt
nicht eingetroffen. Ich habe am Donnerstag den 7.9 eine Mail an
Bechtle geschrieben das 2 Wochen rum sind und ob die Platte
diese Woche kommt. Diese Mail blieb bis jetzt UNBEANTWORTET !!!
[/bayer]
permanent link
07.09.2017,
Mehr Infos zu Siam bekommen www.siam-gs17.de :
Die SIAM ist bekanntlich die groesste und wichtigste Organisation
zur Foerderung der Angewandten Mathematik, ist Herausgeber von
Journals und Fachliteratur, sowie Ausrichter etlicher
Konferenzreihen, zumeist in den USA.
Am Sonntag wird die Tagung mit einem Icebreaker in der Orangerie
eroeffnet, und ab Montag morgen werden dann ca. 500
Wissenschaftlerinnen und Wissenschaftler aus aller Welt etwa
420 Vortraegen lauschen und sich an 50 Postern informieren.
80% der Teilnehmer kommen dabei aus dem Ausland, es werden
gleich viele Teilnehmer aus den USA wie aus Deutschland erwartet.
Die Tagung besitzt also eine hohe internationale Sichtbarkeit.
Sie wird Minisymposia in sieben parallelen Schienen zu
Forschungsthemen der Angewandten Mathematik aus den Bereichen der
Klimaforschung, der Prozesse in poroesen Medien, und der
Ozeanographie bieten.
[/bayer]
permanent link
04.09.2017,
Was fuer ein Morgen: Stromausfall in einigen Bueros. Es sind nur
die Steckdosen ohne Strom in ca. 6 Bueros. Leitwarte verstaendigt.
Sicherung wieder reingedrueckt ... mal schauen wie lange es haelt.
Laut Zabbix sind die Rechner am Samstag morgen um 6 Uhr dem Strom-
ausfallt zum Opfer gefallen :(
Doktorand kommt zu mir ins Buero mit der Bitte um einen Rechner ...
nur kennt er seine Bueronummer nicht ... also wo den Rechner
hinstellen ?
[/bayer]
permanent link
30.08.2017,
Wir installieren munter 16.04 auf den neubau Rechnern.
Erste Probleme in Form von nicht richtig funktionierenden
Windowsmanagern hatten wir schon.
Schnell noch 100 Gastaccounts fuer www.siam-gs17.de angelegt.
[/bayer]
permanent link
28.08.2017,
Und wieder dreht sich das Karussell weiter und das meistens am
Wochenende. Es ist wieder eine Platte an einem Server ausgefallen.
Ich habe die Platte bei der Firma Bechtle bestellt ... ich bin gespannt
ob das ganze wieder 2 Wochen Plus dauert.
[/bayer]
permanent link
25.08.2017,
Heute erstmal ein paar ILO Interfaces upgedatet. Nach dieser Meldung:
Die Management-Software Integrated Lights-out von HP-Servern
enthaelt eine Sicherheitsluecke, ueber die Angreifer aus der Ferne
Schadcode ausfuehren koennen, ohne sich anmelden zu muessen. 8(
[/bayer]
permanent link
24.08.2017,
Zabbix Client auf eine hoehere Version gezogen, dabei gleich
die alten Sources Listen angepasst.
Lucie hat jetzt auch die GIT-LAB Keys fuer APT in Puppet zum
verteilen eingebaut.
[/bayer]
permanent link
23.08.2017,
Nach zwei(2) Wochen hat es die Firma Bechtle doch schon geschafft
mir fuer das kaputte Raid eine 2TB SATA Platte zu schicken (WTF).
Da ist ja eine Direktlieferung/import aus dem Herstellerland schneller ...
Die Stromabschaltung haengt uns immer noch ein bisschen nach (Luefter
machen auf ein mal Geraeusche usw.).
Nebenbei das Webinterface des Backupmailers upgedatet, dabei festgestellt
das manche Plugins die wir verwenden nicht mehr laufen.
Lucie hat die GPG Keys fuer APT und Ubuntu 16.04 auf Stand gebracht :)
so das wir sie jetzt mit Puppet verteilen koennen.
[/bayer]
permanent link
22.08.2017,
Leider haben die boesen Jungs den Mailaccount einer Mitarbeiterin aufgehackt.
An dieser Stelle sei nochmal darauf hingewiesen wie wichtig ein gutes Passwort
ist und dass man sich nicht darauf verlassen kann was ein Mitarbeiter fuer ein
Passwort waehlt. Deswegen Zwangspasswort ! Das RRZE hat unseren Mailer komplett
gesperrt aber leider mir nicht Bescheid gegeben. So musste ich erstmal debuggen
was mit dem Mailer los ist.
Das Rechnenzentrum hat dann unseren Mailer wieder aus der Haft entlassen nachdem
ich den betreffenden Account disabelt und die Queue mit ueber 25000 Spammails
gereinigt habe. Was fuer ein Montag nach der Stromabschaltung ...
[/bayer]
permanent link
21.08.2017,
Nach der, vor einer Woche angekuendigten Stromabschaltung, sind die Nachwehen
leider immer noch gross. Diverse Arbeitsstationen kommen nicht mehr hoch,
manche Server haben Paketverluste weil die Switche zwischendrin weg waren.
[/bayer]
permanent link
08.08.2017,
Wir rollen langsam Ubuntu 16.04 aus. Mal sehen wo es bei den Powerusern noch
haengt.
Eine Platte im AM3 Raid ist defekt. Der HP Controller hat dann natuerlich
das ganze RAID mit 12 Platten deaktiviert (WTF). Nach einem Reboot des
Servers konnte man im BIOS des Controllers das RAID wieder aktivieren. Neue
Platte ist bestellt.
[/bayer]
permanent link
07.08.2017,
HP Drucker der nach einem Firmwareupdate sich selber nicht mehr kannte, spielt wieder mit :)
Der HP-Support hat uns eine neue SSD zugeschickt die sich dann mit der neuen Firmware
flashen lies.
Fuer Ubuntu 16.04 Octave 4.2.1 gebaut und per Puppet nur auf die 16er Ubuntus verteilt. Wenn
es mit GUI sein soll, sollte das Paket qttools5-dev-tools zum bauen installiert sein.
[/bayer]
permanent link
Der Head-Schwenk von nextwo auf nexone ging wohl glatt. Vorher wurde mit
file /dev/dsk* | grep -v broken | sort > /tmp/$(hostname).dsks
auf beiden Heads und anschliessendem diff der zwei Dateien sichergestellt, dass beide Heads die
Platten gleich identifizieren. Die Nexone war frisch rebootet, alle Dienste verfuegbar,
und die WebGui hatte unter "Settings->HA Cluster" auf beiden die selbe Anzeige des Zustands.
Uff. Mal schaun, was trotzdem alles haengengblieben ist...
[/bauerm]
permanent link
Faszination Technik! Puppet Master hat ein Zertifikat (self-signed), das bald am versterben ist.
Es gibt keine Technik fuer eine Key-Rollover.
Also die alten openssl {x509,req,..} skillz ausgepackt und ihm mit dem gleichen Key ein neues
Zert fuer die naechsten Jahre gemacht. Getestet, ob die Signaturen tatsaechlich noch stimmen,
etc. Ok, wie kriegt man das neue Zert auf alle clients? Wenn man auf puppet, Version > 3.6, das
Zertifikat der CA auf dem client loescht, holt sich der agent das einfach vom Server.
Signature kann er nicht checken, aber das ist halt so eine Henne-Ei Problem.
Wenn man das ganze auf einem puppet mit kleinerer Version macht, dann laeuft man in den Originellen Fehler,
dass er das Zert holen will, den Download aber zertifiziert haben will, und deswegen das Zert holen will,...
Stack overrun.
[/bauerm]
permanent link
Zabbix ist immer gut fuer Ueberraschungen, wenn man
0. einen host in einer Expression referenzieren will, muss man die FQDN reinschreiben,
an allen anderen Stellen der GUI reicht der name.
1. einen Trigger auf host A definiert, und da drin ein Item von host B referenziert,
dann wird der Trigger an Host B angezeigt.
2. versucht Trigger in Templates zu bauen, dann kann man in die Description ein {HOSTNAME}
reinschreiben, und das wird pro host durch den namen ersetzt. Wenn man das in der Trigger Expression
macht, dann nicht.
Auf mem ist jetzt die Maple Installation auf einer lokalen Platte repliziert und per bind-mount ueber
das Original aus dem NFS gehaengt. Die Hoffnung ist, dass dann die unerklaerlichen Abstuerze nicht
mehr passieren (Voodoo-Computing).
[/bauerm]
permanent link
07.07.2017,
Firmware update auf einem HP-Drucker ist fehlgeschlagen. Drucker kennt sich selber nicht mehr.
Wir haben aber noch Garantie auf dem Drucker. Mit dem HP-Support in Verbindung gesetzt, jetzt
bekommen wir erstmal ein paar Teile zugesand.
Auf einem neuen Lenovo Laptop ein Dualbootsystem mit Ubuntu und Windows installiert. Beides
als UEFI Umgebung.
[/bayer]
permanent link
Okuson test-installiert, laeuft, hat aber organisatorische Probleme.
CIP-Papierberg umgeschichtet, ein bisschen haben wir noch.
[/bauerm]
permanent link
Historische Fehler in historischen TeX Dokumenten gefixt.
Mal nach einem Collaborative Authoring Tool fuer Mathematiker gesucht, das faehig ist,
Aenderungen diverser Autoren auch in PDFs farbig zu kennzeichnen.
[/bauerm]
permanent link
Dell Laptops haben eine Garantie von einem Jahr fuer Akkus. Was machen also Dell Akkus
nach spaetestens zwei Jahren? Genau. Angebot fuer Ersatz+Technikerstunden eingeholt.
Frasch hat wegen einem lustigen Problem mit der Nachverfolgung eines Toners aus dem Jahre 2015 angerufen.
Die Klimaanlagen im PC Pool schalten sich automatisch aus, wenn ein Fenster offen ist. Das Öffnen
von Fenstern unterstützt die Kühlung also nicht!
Klimaanlage in PC Pool 2 defekt, Haustechnik ist informiert.
[/bauerm]
permanent link
Wenn Dropbox meldet, dass der user/die userin eine zu alte Version von Dropbox verwaende,
aber die neueste Version fuer linux installiert ist (2015...), dann laesst sich
das beheben, indem man den .dropbox-dist Ordner loescht, und das ganze zeugs von
/usr/bin/dropbox neu installieren laesst. Danach gehts wie erwartet...
MATLAB kann symbolische Algebra! Ja, weil es gegen shared libraries von Maple linkt.
Und das geht unter bestimmten Umstaenden (falscher LD_LIBRARY_PATH) in Matlab 16a
nicht, mit 17a gehts dann wieder.
Einen SATA-nach-USB Konverter durch LÖTEN wieder betriebsbereit gemacht.
Das fenics/dolphin package heisst ab jetzt fenics2017, wird aber nur fuer xenial und
spaeter gebaut. Wers neuer braucht, dem wuerden wir es auch bauen.
[/bauerm]
permanent link
Wiedermal was ueber Kerberos gelernt, und unser setup besser per puppet verteilbar
gemacht.
[/bauerm]
permanent link
R-Update, und alle relevanten Packages nachinstalliert. Aus Rstudio testbaR mit
env RSTUDIO_WHICH_R=/software/R/R-3.4.0/bin/R rstudio
[/bauerm]
permanent link
Was bisher geschah:
* Zwei neue Hilfskraefte zur Vertragsunterschrift gebracht
* Angeknabberte Netzkabel im PC Pool 1 ausgetauscht, dabei auf passende Laengen geachtet
* Bureaux aufgeraeumt
* Uebersicht ueber rumgammelnde HP Toner gemacht, werden tatsaechlich alle gebraucht
* Versucht, den Maple-Hangs hinterherzudebuggen. GDB zeigt den Stack, und die
letzten sieben Frames sind von Funktionen innerhalb von Maple, von denen weder
Name noch Parameterliste bekannt sind. Dang :(
[/bauerm]
permanent link
Aus gegebenenem Anlass rate ich jederperson, die mit puppet rummacht, folgendes ins relevante
.hgrc oder git-Äquivalent einzutragen:
[hook]
pretxncommit.grammar = hg status | grep "^[AM]" | cut -d " " -f2- | \
while read X; do \
case "$X" in \
*.pp) puppet parser validate --verbose "$X" || exit 1;; \
*.erb) erb -x -T '-'"$X" | ruby -c || exit 1;; \
esac; done;
Das schaut auf die veraenderten Dateien (hg status) und sucht die .pp
und .erb Files, und jagt die durch die passenden Syntax Checks.
Erfolg ist, wenn ein Tippfehler gar nicht erst ins Repo kommt.
[/bauerm]
permanent link
Unsere SSL Zertifikate hatten das Problem, dass sie zwar nicht abgelaufen sind, dafuer
aber das Hash-Verfahren, das beim Signieren verwendet wurde, als unsicher eingestuft wird.
Das fuehrte dazu, dass diverse Webbrowser den Benutzern erschreckende Warnungen angezeigt
haben, und genau dagegen hat man ja extra Zertifikate eingefuehrt < unicode_smiley_mit_augenzwinkern >
Also schnell ein Shellskript gebastelt, dass per
openssl s_client -showcerts
das aktuelle Zert eines Servers ausliest und SubjectName und alle AlternativeNames rausholt.
Danach baut es einen neuen Key und einen CertSigningRequest, in dem alle AltNames drinsind.
Damit Antrag nach RRZEREZept erstellt und signiert gekriegt. ABER: man muss latuernich auch
noch die ZertifikatsKette, die das jeweilige ServerZert mit der Root CA der
TelekomTochter T-TeleTrust verbindeT, austauschen, weil in der alten Cert-Chain auch noch
SHA-1-basierte Signaturen drin sind. Kaum hat man das gemacht, schon geht alles wieder warnungsfrei.
Bei Zerts fuer Gitlab gibts den Fehler, dass
gitlab-ctl reconfigure
keineswegs die geaenderten Keys/Certs in seinen privaten nginx nachlaedt. Mit
gitlab-ctl restart
gehts aber.
Auf unserer Homepage gabs noch Bildchen, die per http (ohne s) reingeladen wurden.
Das fuehrt — voellig korrekt — zu Warnungen. Zum Glueck liegt unser Stylsheet
als Text vor und wird nicht vom Typo3 autogeneriert, also per Hand die Links zu https gemacht.
[/bauerm]
permanent link
Gestern war wieder so ein Tag... Nachdem wir den zabbix-server fuer eine Wartung runtergefahren
haben, sind mehr als die Haelfte der studentischen Arbeitsplaetze mit absurden, und immer
anderen Symptomen unbrauchbar. Aber Waruuuuuum? Recherche in /var/log/syslog der betroffenen
zeigt, dass in dem Moment, wo der Server weg war, die zabbix_agents auf den Kisten sich
wahnsinnig viel Speicher gegriffen haben. Was macht Linurx in solchen Momenten? Der Kernel
ruft den oom-killer <fanfare dramatisch="yes"/> Der oom-killer ist kein Killer im Auftrags-Stil,
sondern ein wahnsinniger Amoklaeufer im Amerikanisches-Schulsystem-Stil, der bringt
zufaellige Prozesse um, in der Hoffnung, dass so Speicher frei wird. Und weil die zabbix-agents
weiter Speicher reserviert haben, hat der oom-killer so lange um sich geschossen, bis er
zufaellig den zabbix-agent erwischt hat. Bis dahin lagen meistens schon sshd, puppet und
der login manager am Boden, daher die Probleme. Vorlaeufiger Fix: memory-overcommitment
ausgeschaltet, das zabbix wird von nun an alleine sterben, der oom-killer lebt zurueckgezogen
im Zeugenschutzprogramm des Linuxkernels unter einem Decknamen.
Ein argentinischer Gast wunderte sich, warum es hier kein offenes WaveLAN gibt. Nachdem
er ueber die rechtliche Lage in Deutschland aufgeklaert wurde (Stoererhaftung), kommentierte er voellig korrekt:
"That's Stalinism."
Dem Webserver ein neues Zertifikat gegeben, jetzt mit SHA256 als Hashing Verfahren.
[/bauerm]
permanent link
Wir brauchen mehr Tests! Nach Upgrades von Servern sind ssh-hostkeys verbuxelt, so dass
rsnapshot nicht mehr mit ihnen reden will, und die ssh-version auf dem fileserver
kann nicht mehr mit den allerneuesten ssh versionen reden, weil die KexAlgorithms keine
Schnittmenge mehr haben. Letzteres kann man evtl per puppet im sshd_config fixen, ersteres
ist im jetztzigen Setup nur per Hand moeglich. Es gibt jetzt wieder rsnapshots allen
Servern ausser repo....
[/bauerm]
permanent link
Hochleistungsrechner schreibt mit Hochleistung auf den Fileserver, ueber Hochleistungsleitung.
Leider gibts die Datei nicht, in die er schreibt -> NFSv4.ERR. Er schreibt aber weiter, und
das mit mehreren Mbit pro Sekunde. Der Prozess dahinter muss weiterlaufen, also Wuergaround:
Traffic throttleing auf dem Hoeschstleistungsrechner:
tc qdisc add dev $DEV root handle 1: cbq avpkt 1000 bandwidth 10mbit
tc class add dev $DEV parent 1: classid 1:1 cbq avpkt 15000 rate 10Mbit prio 2 bounded isolated
tc filter add dev $DEV parent 1: protocol ip u32 match ip dst $FILESERVERIP flowid 1:1
(Die erste Zeile legt scheinbar (und anscheinend) die Bandbreite auf 10mbit, aber das Linux
ignoriert das froehlich und schreibt die tatsaechliche der Schnittstelle in die Regel)
Die zweite Zeile macht eine Class-Based-Queueing Regel und laesst nur 10 Mbit durch,
die dritte zwingt allen Traffic zum Fileserver durch den Strohhalm. Das Ergebnis ist weit
langsamer als 10mbit, fuer unseren Fall aber wohl ok.
[/bauerm]
permanent link
Python wertet default-Parameter zur Startzeit des Programms. Bespiel:
from datetime import datetime
from time import sleep
def gebeuhrzeit(dobj = datetime.now()):
return "%d:%d:%d" % (dobj.hour, dobj.minute, dobj.second)
for i in range(100):
print gebeuhrzeit()
sleep(1)
Die Zeit bleibt konstant. Als Bug gefunden in einer Webapp...
[/bauerm]
permanent link
Ueber die Weihnachtsvorlesungsfreiezeit ausprobiert, wie man Maschinen automatisch
runterfahren und ueber Wake-on-LAN morgens wieder aufwecken kann. Dabei ein paar
Maschinen gefunden, die kein korrektes BIOS Setup dafuer hatten.
Ok, wir wollen wissen, ob auf allen Maschinen die BIOS Passwoerter gesetzt sind (minimale
physikalische Sicherheit und so). Ok, dmidecode -t 24 (na logisch, 24!) liefert die
Daten, muss aber als root laufen. Also kann zabbix das nicht (zum Glueck). Weil puppet
eh als root laeuft, ein kleines Fact-Plugin gebaut, dass jetzt auch diese Info aus
dmidecode zum Fact macht. Aber zabbix kann die facts wieder nicht sehen, weil man dafuer
facter -p als root laufen lassen muss. Aber puppet zieht auf dem master die client facts
in YAML files. Also kann man auf dem puppetmaster die YAML factfiles durchgreppen. Aber
das Directory, wo die drinliegen, gehoert puppet und zabbix kann da nicht reinschaun. Also
einen cronjob gebaut, der die YAMLfiles durchgreppt und Namen von Rechnern ohne BIOS Passwd
in eine Datei in /var/tmp ausgibt. Danach einen UserParameter fuer zabbix gebaut, der
diese Datei liest, daraus ein Zabbix Item fuer den puppetmaster gemacht, und darauf einen
Trigger mit Level "Disaster" gesetzt, wenn der String nicht leer ist. Tut. Dabei rausgefunden,
dass /etc/zabbix/zabbix_agentd.d/ vollkommen ignoriert wird, und auf wie viele Arten man
ein ZBX_NOTSUPPORTED erzeugen kann.
[/bauerm]
permanent link
Stellt sich raus, dass postfix fuer Absenderadressen strenge Regeln hat, als fuer
Empfaengeradressen. Wenn ein Absender mit einer lokalen Adresse nicht existiert,
wird die Mail an einen Lokalen Empfaenger verworfen. D.h. wenn man als noreply@math.fau.de
sendet, wird das nicht ankommen. Einige Log-Eintraege bestaetigen das, aber niemand
hat sich gemeldet, bis gestern nachmittag. Wenn man noreply in den aliases eintraeg ---
was ihn zu einem korrekten Empfaenger macht --- gehts immer noch nicht. Gefixt.
Waaa. Ubuntu kann jetzt EFI Secure Boot. Das heisst, dass mindestens ein Mitarbeiterlaptop
kein Netz mehr hatte, weil der e1000e Treiber nicht signiert war. Und ohne Netz kann
man kein Update fahren, und selbst wenn man kann, laesst sich das KernelModule nicht
laden, um wieder Netz zu haben. Mit Mokutil das secureboot ausgeschaltet -> Verhalten
wie vorher == Geht wieder.
[/bauerm]
permanent link
Das Default-Colorscheme fuer Sagemath im Terminal ist LightBG, also fuer hellen Hintergrund.
Auf einem Weiss-auf-Schwarz Terminal kriegt man dunkelblaue Schrift, nicht so gut.
Sage hat kein globales Configfile, nur $HOME/.sage/init.sage pro User. Also in den
Sage sourcen
/local/lib/python2.7/site-packages/sage/repl/configuration.py
in Zeile 72 den Default auf 'Linux' aendern. Fuer Leute mit hellem Hintergrund:
%color LightBG
ins .sage/init.sage
[/bauerm]
permanent link
TYPO3!!!!! Wenn man ein "Form" Formular hat, und das ver-mail-bar machen moechte, dann kann man
im "List"-view unter "Page-Content" auf das kleine "+"-im-Kasten klickern, und dort einen
Subheader auswaehlen, also einen Untertitel. Und wenn man in dem eine Emailaddresse
eintraegt, dann wird das die Ziel-Adresse der Mails, die generiert werden, wenn jemand im
Form auf "Absenden" klickt. Wenn man bei irgendwas anderem einen "Subheader" anlegt, dann
wird das ein Untertitel. Zusaetzlich kann man einen "Startingpoint" definieren, dass ist
die Seite, die nach dem Absenden der Mail angezeigt wird. Die Typen haben existierende
Datenbankfelder missbraucht, statt fuer Mails sinnvolle anzulegen. (Danke an Lucie und Pascal
fuers Rausfinden)
[/bauerm]
permanent link
11.11.2016,
Nachdem am Mittwoch ein User unseren Server mit 600 GB nicht Sicherungwuerdigen
Daten geflutet hat, faellt die Entscheidung eine Quota fuer alle User einzurichten
nicht schwer. Ab sofort haben nicht nur Studenten sonder auch Mitarbeiter ein
Quota.
Seit ein paar Wochen kann man aus dem Okular raus nicht mehr doppelseitig auf die
Lexmarkdrucker drucken. Die Option ist zwar vorhanden, aber ausgegraut.
Ein durchforsten der PPD Files brachte leider nichts. Erst nachdem ich die
Connection der Drucker von ipp auf socket umgestellt habe war auch die Option
fuer doppelseitigen Druck wieder anwaehlbar WTF.
[/bayer]
permanent link
19.10.2016,
Herr Prof. Dr. Dr. h. c. Karl Strambach ist tot. Wir moechten hiermit unser Beileid ausdruecken.
[/bayer]
permanent link
Wenn man bei unserem puppet setup am Mercurial vorbei unter
/etc/puppet/test/modules/einmodule/
eine Datei anlegt, dann wird mercurial das Verzeichnis nie loeschen. Und dann wird
puppet denken, dass fuer Maschinen im Testnetz ein manifests/blah.pp existieren muesste,
und dann gibts einen schwer erklaerbaren Error. Bitte nur durch mercurial auf /etc/puppet arbeiten!
Thunderbird Fastthinathion: Accountsettings->Copies&Folder gibt die Moeglichkeit, versandte
Mails unter dem Punkt "Sent" im Folder "name@server/Sent" abzulegen, oder aber unter dem
Punkt "Other" im Folder "name@server/Sent" abzulegen. Bei mindestens einem Account geht
ersteres nicht, zweiteres schon. What were they thinking...
Dem WiMa Serverrack einen Ersatzmonitor aus alten Bestaenden gegeben.
[/bauerm]
permanent link
14.10.2016,
Nach dem ersten Update des neue Fileservers wissen wir auch warum man
hier gerne ein bisschen mehr ausgeben darf. Das Update der Netapp
verlieft ohne Probleme, der Clusterschwenk von einem Head auf den
anderen lief in unter 3 Sekunden ab ... Wahnsinn, so soll es sein.
Wenn ich da an Nexenta denk ... da kann das schonmal 20 Sekunden dauern.
An den Clients konnt ohne Unterbrechung weitergearbeitet werden.
Auf dem neuen VirtualBox Headless Server wurden jetzt die virtuellen Maschinen
vom alten Virtserver umgezogen.
[/bayer]
permanent link
Nach dem Durchtesten der "Netzersatzanlage" war im Bureaux vom Martin der Strom
weg. Eher schlecht.
Ebenfalls nach dem Durchtesten der "Netzersatzanlage" ist auf einer Steckerleiste
im Serverraum der Strom weg gewesen. Die Leiste versorgt unter anderem den
Fileserver und den Switch dorthin. Zum Glueck haben wir da nur Hardware mit
zwei Netzteilen und eine USV die alle Spannungsspitzen glaettet auf der zweiten
Steckerleiste.
Bei der Umstellung auf Ubuntu 16.04 faellt auf, dass
1. die Filesystem-Angaben nfs4 vs nfs neuerdings ignoriert werden
2. der nfsd+mount+rpcgssd wohl einen BUG hat:
_raw_spin_lock+0x21/0x30
gss_cred_init+0x22b/0x3c0 [auth_rpcgss
? wake_atomic_t_function+0x60/0x60
? gss_destroy_nullcred+0x2c/0x70 [auth
rpcauth_lookup_credcache+0x206/0x2a0 [
gss_lookup_cred+0xe/0x10 [auth_rpcgss]
rpcauth_lookupcred+0x8b/0xd0 [sunrpc]
? rpc_wake_up_first+0x70/0x1b0 [sunrpc
rpcauth_refreshcred+0x162/0x1b0 [sunrp
? xprt_lock_and_alloc_slot+0x6a/0x80 [
? call_bc_transmit+0x190/0x190 [sunrpc
? call_retry_reserve+0x60/0x60 [sunrpc
? call_retry_reserve+0x60/0x60 [sunrpc
call_refresh+0x3c/0x70 [sunrpc]
__rpc_execute+0x91/0x470 [sunrpc]
rpc_execute+0x5a/0xb0 [sunrpc]
rpc_run_task+0x70/0x90 [sunrpc]
nfs4_call_sync_sequence+0x63/0xa0 [nfs
_nfs4_lookup_root.isra.61+0xda/0x100 [
nfs4_lookup_root+0x61/0x110 [nfsv4]
nfs4_lookup_root_sec+0x69/0x90 [nfsv4]
nfs4_find_root_sec+0x7c/0xc0 [nfsv4]
nfs4_proc_get_rootfh+0x39/0x90 [nfsv4]
nfs4_get_rootfh+0x5a/0x140 [nfsv4]
? rpc_clone_client_set_auth+0x51/0x70
? kmem_cache_alloc_trace+0x183/0x1f0
nfs4_server_common_setup+0x9f/0x1d0 [n
nfs4_create_server+0x2db/0x390 [nfsv4]
? find_next_bit+0x15/0x20
nfs4_remote_mount+0x2e/0x60 [nfsv4]
mount_fs+0x38/0x160
? __alloc_percpu+0x15/0x20
vfs_kern_mount+0x67/0x110
nfs_do_root_mount+0x84/0xc0 [nfsv4]
nfs4_try_mount+0x44/0xd0 [nfsv4]
? get_nfs_version+0x27/0x90 [nfs]
nfs_fs_mount+0x67b/0xd90 [nfs]
? nfs_clone_super+0x130/0x130 [nfs]
? param_set_portnr+0x70/0x70 [nfs]
mount_fs+0x38/0x160
[/bauerm]
permanent link
Lexmark Printer sind sooo ein Rotz. Man stellt "default paper feed" auf "manual",
was macht das Ding: weiter aus Fach 1 ziehen. Man nimmt ihm Fach eins weg, er
meldet Papierprobleme, man sollte Fach 1 fuellen. D.h. man kann ueber das Menue
keinen Manual Feed konfigurieren. Wenn man den Paper Type auf "Transparent" stellt,
und dann eine Folie bedrucken laesst, haftet der Toner nicht -> Alles verwischt.
Warum haben wir denen Geld fuer die Drucker gegeben ?!?!
[/bauerm]
permanent link
06.09.2016,
neubau-60 ist jetzt repo Server. Der alte repo Server wurde
ausgemustert da Uralthardware.
[/bayer]
permanent link
02.09.2016,
Da die Rechner im Haus jetzt 5 Jahre auf dem Buckel haben, muessen
wir uns um Ersatz kuemmern. Der ein oder andere ist schon ausgefallen.
Da wir ja ueber den Rahmenvertrag des RRZE Rechner bestellen muessen,
haben wir uns mal einen Konfig der Rechner zusammengestellt. Wenn
man dann die Preise im Internet vergleicht, stellt man sich doch die
Frage -> warum Rahmenvertrag wenn die Preise gleich sind.
Der Hammer kommt aber erst noch -> wir haben keinen Windows Server
in unserem Netz auf den wir in irgendeiner Form zugreifen. Die neuen
Rechner lassen sich laut RRZE nur noch mit Windows Lizenz bestellen
die ueber 70 Euro pro Rechner kostet. Wir verwenden Linux und kein
Windows, warum also eine Lizenz mitkaufen ? Stichwort Steuergelder ...
Haushalt ist knapp usw.
Unser Inventar wurde von Daniel aufgebohrt. Sehr gute Arbeit hat er
geleistet. Verschiedene Zustaende der CIP-Rechner werden jetzt in der
CIP-Map verschiedenfarbig dargestellt.
Ich habe auf neuer Hardware einen VirtualBox Headless Server eingerichtet.
Dort laeuft jetzt ein Backup Mailserver, und der neue GITlab Server.
Da der alte GITlab Server diverse Probleme gemacht hat und die Version
schon uralt war, haben wir kurzerhand einen neuen aufgesetzt und die
ganzen Projekte migriert. Danke an Lucie fuer die Migration der Projekte.
Einen neuen Laptop fuer einen Professor bestellt der gerne ein Dualbootsystem
haette. Laptop ist geliefert worden und es wurde versucht Ubuntu zu installieren.
Es stellt sich heraus dass wenn im Bios, der Sata Controller auf Raid steht, Ubuntu
16.04 keine Festplatte oder SSDs erkennt, und sich nicht installieren
laesst. Stellt man den Eintrag auf AHCI, so kann man Ubuntu installieren
aber Windows bootet nicht mehr. Der Trick besteht darin, Windows einmal im
Abgesicherten Modus hochzufahren (was irgendwelche Treiber aktiviert) im
AHCI Modus, dann Bootet er auch wieder im Normalen Modus ... Wahnsinn.
Neuen Rechner fuer die Geschaeftsstelle fertig gemacht. Wenn nur alles
so einfach waere.
Auf den Netapp's habe ich neu Treiber fuer die Platten und Shelfs installiert,
in Vorbereitung auf das BS Update am naechsten Freitag.
Im Pruefungsamt kann man keine Scans mehr als PDF verschicken. Drucker zu-
rueckgesetzt ... jetzt spielt er wieder.
2 Rechner im CIP-Pool sind verstorben ... bei dem einen ist das Netzteil und das
Mainboard getauscht worden, beim anderen nur das Mainboard.
Die Passwoerter des Inventars und des Druckaccountings wurden angepasst.
[/bayer]
permanent link
04.08.2016,
Nach ausgiebiger Vorbereitung nun den neuen Monitor-Server in Betrieb
genommen. Immer wieder Erstaunlich was trotz Vorbereitung dann noch
alles zu machen ist ... Backupscripte, CronJobs, Mountpoints usw.
[/bayer]
permanent link
27.07.2016,
Auf neubau-37 einen VM Server gebaut. Dort die Backup-Mailserver-VM
importiert (die natuerlich erst von VDI in RAW konvertiert werden muss).
NFS Verzeichnisse eingebunden fuer Backups der VMs.
[/bayer]
permanent link
26.07.2016,
Fuer Wigand einen Rechner auf Ubuntu/Linux installiert.
cip-54-55 hat ein neues Mainboard bekommen ... neu Installiert und in den CIP-Pool
geschafft.
Einen Backupmailserver unter Ubuntu 16.04 in einer VM installiert, inkl.
Roundcube Webinterface. Testmails sind raus. Dieser Server hat aber immo
keinen MX-Record.
Utax-Kopierer druckt nicht mehr. Alle Abdeckungen geoeffnet und wieder geschlossen
... jetzt geht er wieder 8( ... warum das ganze ... bleibt ein Raetsel.
Octave 4.0.3 mit GUI gebaut. Module fem-fenics, geometry, linear-algebra, splines
und symbolic installiert und in den Autoloader eingebaut. Module die nicht auto-
matisch geladen werden sind: bim, fpl, general, msh und mvn.
[/bayer]
permanent link
Platte in neubau-233 gewechselt.
Der lexmark X7xx im zweiten Stock hat Grauschleier im Hintergrund gedruckt, wurde
von einem Frasch Mitarbeiter auf defekte Tonerkartuschen zurueckgefuehrt und
prompt behoben.
Man sollte beim Anlegen von Accounts auch gleich fragen, in welchem Mailverteiler
die Person landen soll. Das ist jetzt mehrfach vergessen worden :/
LibreOffice/Calc druckt default auf US Letter. Lexmark Printer nehmen das froehlich
entgegen, und verwerfen es ohne Fehlermeldung. Wenn man per
Drucken->Options->use printer default format
oderso erzwingt, dass genommen wird, was im Drucker eingestellt ist, nimmt
LibreOffice faelschlicherweise wieder US Letter. Wenn jetzt noch in
Drucken->derdrucker->Properties
das Papirformat auf A4 setzt, druckt der Drucker. Aber Libreoffice skaliert
das Druckwerk nicht auf A4, so dass nur ein Teil auf dem Blatt ist.
Kwalitaetssoftwaer wohin man blickt. Heulen koennt ich!
[/bauerm]
permanent link
06.07.2016,
Netzwerkdose in meinem Buero geaendert. Das AM3 Netz zum testen
drauf legen lassen.
Neubau-218 ist verschieden. Rechner startet nicht mehr, Mainboard
defekt. Zum Glueck noch bis Oktober Garantie.
[/bayer]
permanent link
05.07.2016,
KEK macht Probleme bei der Anmeldung. Rechner ins Zimmer geholt ...
jetzt Bootet der Rechner nicht mehr. Platte wird im BIOS nicht mehr erkannt
Andere Platte zum testen eingebaut -> funzt :) Neue Platte geordert.
Drucker im Seki eines Lehrstuhls bricht immer mit einem Fehler ab. Ist Leider
der einzige Drucker mit FAX. Da die Garantie abgelaufen ist, wird jetzt
erstmal ein KV fuer die Rep. generiert.
[/bayer]
permanent link
Festplatte im RAID vom memserver kurz vorm Sterben. Ersatz geordert.
[/bauerm]
permanent link
19.04.2016,
Wir testen an 3 Rechner ufw. Neben diversen offenen Ports zur Administration
braucht es auch noch offenen Ports fuer z.B. Zabbix.
Mal schauen was Puppet usw. noch brauchen ... wir Testen.
[/bayer]
permanent link
15.04.2016,
Gestern und heute wurden bei 17 HP-Server die ILO Schnittstellen
auf die jeweils aktuelle Firmware upgedatet.
Es wurde einige Fehler behoben z.B.: There is no POST error after
one or more fans are removed.
[/bayer]
permanent link
14.04.2016,
Wir koennen keine Netzwerkhardware die ueber den Rahmenvertrag laeuft selber
bestellen. Diese Bestellungen (warum auch immer) muessen ueber das RRZE laufen.
Desweiteren muessen Bestellungen die 5000 Euro uebersteigen in "Schriftform"
bestellt werden. Einfache telefonische (Pizza) Bestellung reicht nicht aus :)
[/bayer]
permanent link
12.04.2016,
Nachdem sich Nexenta bei uns gemeldet hat, und uns einen 40 Tage Trailzugang verschafft hat,
haben wir Versucht den Cluster upzudaten. Leider war der Versuch nicht von Erfolg gekroent.
Das NFS war brutal instabil. Nach 1,5 Stunden Fehlersuche (Clientreboots, Logfiles sichten usw.)
haben wir den Versuch abgebrochen und sind wieder auf die alte Version zurueck.
Einer unserer Leihlaptops macht Probleme. Windows stuerzt auf einmal mit einem Bluescreen ab.
Mit Ubuntu LifeCD gebootet und mal die Smartwerte der SSD angeschaut. Die Samsung-SSD ist
nach nur 134 Stunden Betrieb defekt. Heute kommt der Dell-Support und tauscht das Laufwerk.
Ein anderer Laptop wurde nach Gebrauch zurueckgebracht. Aufgeklappt -> Streifen im Display.
Dell Support angerufen, Monteur kommt heute und bastelt ein neues Display rein.
Ein Rechner wurde letzte Woche aus dem Cip-Pool in mein Buero gestellt -> Ursache Luefter zu laut.
Seitenverkleidung entfernt -> Fehlersuche -> Festplatte macht diese Grauesche. Die Firma
Frasch benachrichtigt (da die Rechner ja noch Garantie haben). Neue Festplatte eingebaut und
Rechner installiert. Jetzt steht er wieder im Cip-Pool.
Rechner eines Professors ist ausgegangen und laesst sich nicht mehr einschalten. So wie es aus-
sieht ist das Mainboard defekt. Firma Frasch hat den Rechner geholt. Ersatzrechner wurde
aufgestellt.
Auf avana wird kein Puppet mehr ausgefuehrt. Puppet meldet dass das Lockfile schon existiert.
(/var/lib/puppet/state/agent_catalog_run.lock exists)
ps zeigt aber keinen puppet-agent (/usr/bin/ruby /usr/bin/puppet agent)
Lockfile geloescht und Puppet angeworfen. Jetzt laueft Puppet wieder.
[/bayer]
permanent link
Damit Studenten nicht 6.18855838e-15 Euros in ihren Druck-accounts haben, wollten
wir mal testen, ob man in sqlite statt FLOAT auch DECIMAL(8,2) nehmen koennte.
Tut nicht, weil sqlite nur Ganzzahl vs Real kennt, und wenn man aus einem dump
eine 6.18855838e-15 kommt, wird das DECIMAL zu FLOAT befoerdert, und wir haben
wieder den mist...
[/bauerm]
permanent link
Tippfehler in einem Backupskript gefixt...
Webservergefrickl. Das Typo3, sein automatischer Update und seine Plugins
vertragen sich nicht untereinander. Was fuer Pluginuser wie uns eher bloed ist..
Wieder was gelernt: Man kann mit /sbin/status den Zustand eines Dienstes abfragen,
aber nicht aus einer Rootshell. Dort kriegt man den wenig sinnigen Vehler
"unknown job". Wenn man strace ueber beide Aufrufe laufen laesst, finden man
raus, dass die Rootshell auf einen anderen AF_LOCAL Socket verbindet als die
sudo Variante, und die nach einigem Gelaber verschiedene Antworten kriegen.
Also
$ sudo -s
# /sbin/status sshd
liefert
Unknown job: sshd
aber
$ sudo /sbin/status sshd
liefert
ssh start/running, process 1176
In der Manpage von status sieht man, dass DBUS involviert ist, und hoert auf,
sich zu fragen...
[/bauerm]
permanent link
16.03.2016,
Nachdem wir eine Meldung der Netapp-Backupmaschine bekamen: Out of Data qual_devices_v3 file
bin ich der Sache mal auf den Grund gegangen.
Das besagte File hat dem Timecode 20141210, aktuell soll es wohl 20151005 sein.
Das etc des Filers eingehaengt, von der Netapp Supportseite das aktuelle File runtergeladen,
und ins etc des Filers geschoben.
Der Filer meldet jetzt: Disk 0a.01.23 Shelf 1 Bay 23 [NETAPP X308_HMRKP03TSSA NA01] S/N [P9HVHNHY]
has been inserted into the system ???
Was ist da passiert ? Es sieht wohl so aus als dass die besagte Platte bis dato nicht im System
vorhanden war. Ein Blick in die Logfiles bringt es an den Tag:
Platte die schon im System war: Power-on Hours: 6760 Blocks written: 2853915852
Die besagte alte/neue Platte: Power-on Hours: N/A Blocks written: 0
[/bayer]
permanent link
Daniel hat rausgekriegt, wie man im Zabbix Dashboard schon Abgearbeitetes
als erledigt markieren kann, so dass es nicht mehr angezeigt wird. Gut so.
Erste Experimente mit dem ufw Puppetmodul schaun gut aus. Rollout!
[/bauerm]
permanent link
Zabbix relevations: alle Templates sind in Wirklichkeit hosts (mit status=3).
Der Mechanismus, der hosts einem Template zuordnet, kopiert
einfach alle einstellungen des Templates in alle betroffenen hosts
(und auch templates, wenn die aufeinander angewandt werden).
Das ist der Grund, warum viele Trigger extrem wiederholt in der
Datenbank liegen. Ein Ansatz, das klarer zu machen, ist, keine
Templates auf einander zu beziehen, sondern essentielles in wenige,
nicht gegenseitig vererbte Templates zu stopfen, und dann den hosts
mehrere zu geben. Das ganze scheint bei unserer Version noch im
Fluss gewesen zu sein, man findet Felder, die immer leer sind, die
wohl frueher one-to-many beziehungen implementiert haben, was inzwischen
many-to-many ueber extra join-tables geworden sind, und eine Version
spaeter gibts die stets leeren felder nicht mehr.
[/bauerm]
permanent link
Zabbix relevations: Templates sind dingens oder zumsls oder
entities, die man an hosts pappen kann. In der Datenbank aeussert
sich das so, dass die foreign keys templateid diverser tables auf
immer wieder mal was anderes deuten. In hosts deutets zum Beispiel auf hosts,
in triggers auf triggers, in optemplate auf hosts, in items auf items. In unserem
setup liegen alle Templates, die man in der WebGUI sehen kann, in hosts,
und unterscheiden sich von echten hosts dadurch, dass ihr
status
3 ist.
Plan fuer morgen: Per SQL rauskriegen, wie die Trigger/Items in unseren Templates
eindeutifiziert werden koennen, so dass wir weniger und nicht-ueberlappende Templates haben,
siehe diesen Post
[/bauerm]
permanent link
Was ein Tag! Nachdem am Montag der Strom ausgefallen war, wurde eine Sekretariatsmaschine
ploetzlich unbenutzbar (schwarzer Bildschirm statt login). Der dreckige Wuergaround, der
mir (mangels einer lehrstuhleigenen Ersatzmaschine) eingefallen war, konnte heute nicht
mehr reproduziert werden ⇒ Maschine ersetzt, puppet Eintrag auf die neue umgebogen,
geht scheinz wieder.
Damits uns nicht langweilig wird, sagt die norton:
IO Error: could not read block 500 on /dev/sdc1
Man kann nicht mal ein ls auf dem Mountpoint machen.
Man kanns auch nicht unmounten, weil noch drei Prozesse offene Filedescriptors in
dem FS haben.
Häh? Das ist ein RAIDshelf von HP, genauer ein RAID 50 (mirrored stripes). Wie kann
da ein Block nicht lesbar sein?? Also mit
hpacucli controller all show config
mal nachgeschaut, alle Platten sind OK,
Controller Status: OK
Cache Status: OK
Battery/Capacitor Status: OK
Aber:
logicaldrive 1 (18.2 TB, RAID 50, Failed)
Also: alle Platten sind OK, Controller, Cache und Batterie sind OK, das RAID ist aber
trotzdem kaputt. Einzige Moegliche Erklaerung: Firmwarebug. Martin hatte den
Mut, beim Startup die Repair-but-potentially-lose-data Option zu waehlen. Danach
mit xfs_repair drueber und alle Daten sind noch da. Uff.
[/bauerm]
permanent link
Die Uni hat ein Centrales System zur Verwaltung(?) von Publikationen, genannt CRIS.
Und hat anscheinend Geld dafuer ausgegeben. Das Ding hat einen Export von Publikationen
ueber eine RESTful API, hier dokumentiert.
Ok, was soll das tun? Eine Publikationsliste zurueckgeben, zur Weiterverarbeitung
durch oBdA ein Computerprogramm.
Sie behaupten, XML zu nehmen. OK, kann man machen, ist seit ca. 2010 nicht mehr so das
Encoding der Wahl, aber was solls, wir haben ja XSLT und sowas. Bibliographische
Daten in XML haben schon mehrere Leute gemacht, schaut dann immer aus wie
<bibitem>
<authors>
<author><firstname>Joe R.</firstname><lastname>Hacker</lastname></author>
<author><firstname>Eva Lu</firstname><lastname>Ator</lastname></author>
</authors>
<title>First steps with XML</title>
<year>1998</year>
<publisher>Wiley Coyote & Sons Inc.</publisher>
</bibitem>
you get the drift...
Die CRISler haben das mit dem XML so richtig gar nicht kapiert. Deren Format sieht so aus
<infoObjects size="4">
<infoObject type="Publication">
<attribute disposition="string" language="0" name="cfTitle">
<data> Der Titel </data>
</attribute>
<attribute disposition="string" language="0" name="srcAuthors">
<data> Rster E., Weiter Z., Ritter D. </data>
</attribute>
<attribute disposition="year" language="0" name="publYear">
<data> 2012</data>
</attribute>
<attribute disposition="string" language="0" name="exportAuthors">
<data> Rster:Erich|Weiter:Zacharias|Ritter:Dieter</data>
</attribute>
<attribute disposition="choicegroup" language="0" name="Publication type">
<data> 3338</data>
<additionalInfo> Article in Edited Volumes</additionalInfo>
</attribute>
...
Was daran falsch ist, ist so ziemlich alles.
Diese Sch*!%se ist mit XSLT o.ae. nur unter solchen Schmerzen verarbeitbar, dass es niemand machen wird.
[/bauerm]
permanent link
Webserverlogtag
Der Apache redet mit seinen Kind-Prozessen (wovon er immer viele hat) ueber
"dummy-connections". Die verbinden im Klartext auf scheinz zufaellig gewaehlte
ports der Kind-Prozesse. Jedesmal, wenn der Papa-Apache den Port 443 von einem
Kind-Apache erwischt, stirbt der mit Signal 6 (ABORT), weil da jemand nicht-SSL
auf einem SSL Port redet. Und auf dem Totenbett schreibt der Kind-Prozess noch
schnell vier Zeilen Logs.
Wenn der erste Kind-Prozess so ueber Orkus/Lethe/Styx ist, will apport einen
Nachruf schreiben und hat dafuer einen coredump in /var/crash abgelegt.
Wenn aber Sekunden spaeter der naechste stirbt, kann er nicht noch einen
coredump unter dem gleichen Namen ablegen und schreibt dazu eine dreizeilige Meldung
in die Logs
Summa summarum erzeugen apache2 und apport so in wenigen Tagen Megabyte an nutzlosen
Logs.
Achja, wenn man modpython und modwsgi gleichzeitig enabled hat, kriegt man zwar
keine Warnung, dass dies nicht schlau ist oderso, dafuer alle Naslang einen
Fatal Python error: PyEval_AcquireThread: NULL new thread state
in den Logs.
[/bauerm]
permanent link
10.02.2016,
SSD-Firmware bei der NetAPP auf Stand gebracht.
Dazu per NFS die BS-Platte gemountet und unter
/etc/disk-fw die neuen Files reingeschoben. Die
Updates der SSDs macht die NetAPP dann alleine.
npb:ses.inconsistent.config:CRITICAL an der Backup-NetAPP
Inconsistent configuration detected for shelf connected
to host adapter 0b.
Merke: Das Runde muss ins Eckige. Die Kabel der Shelfs
haben Kennzeichnungen (rund und viereckig). Die Kabel
muessen immer von "Eckig" ins "Runde".
Fuer AM3 einen Lexmark-Drucker neu eingerichtet.
Der Drucker wurde vor einer Woche neu gekauft. Ein
Blick auf die Firmware sagt, dass es eine neue gibt.
Neue Firmware auf der Lexmark-Webseite runtergeladen.
Die neue Firmware ist von 11/2014 !!! Kann mir jemand
sagen, warum Lexmark nicht gleich die neueste Firmware
installiert ??? Da werden neue Drucker mit alter
Firmware ausgeliefert !
[/bayer]
permanent link
Ersatzplatte in der Coraid ist resilvered, die spareplatte kriegt man mit
zpool add coraid01 spare $spareplattenid
wieder an ihren platz
[/bauerm]
permanent link
Man kann den Textblock in einem PDF oder PS nach rechts verschieben moechte,
zum Beispiel, weil man das links heften moechte, dann geht das so:
1. PDF nach PS wandeln:
pdf2ps datei.pdf
2.pstops 2:0\(1cm,0\),1\(-1cm,0\) < datei.ps > dateiverschoben.ps
verschiebt jede gerade Seite um 1 cm nach rechts, jede ungerade um 1 cm
nach links (damit doppelseitig immer auf der Bindungsseite zusaetzlich
Platz ist)
[/bauerm]
permanent link
Platte ersetzt und mit
zpool detach coraid01 $plattenid
zpool attach coraid01 $plattenid
zpool replace coraid01 $spareplattenid $plattenid
die spare platte durch die neue ersetzt.
Mit etwas Gebastl+Heuristics die Kalender aus dem Typo3 user_tud_calendar (und
der FrontEnd User Tabelle)
1. in eine sqlite DB gezogen (man muss die MySQLismen aus dem dump rausfiltern)
2. mit python + vobject nach vCalendar gewandelt
3. auf einen CalDAV Server (Baikal) hochgeladen
4. mit Thunderbird+Lightning getestet
5. Ergebnis von 2. als read-only file zum Download abgelegt
6. mit Thunderbird+Lightning getestet
Geht scheinz alles.
[/bauerm]
permanent link
Wieder ist eine Platte vom alten Fileserver ausgefallen, aber eine hotspare ist
eingesprungen, und grad laeuft alles auf der mirror-platte.
In den mail.logs finden sich Zeilen der Form:
dovecot: imap-login: Maximum number of connections from user+IP exceeded
Scheint daran zu liegen, dass z.b. thunderbird versucht, alle mail-folder
gleichzeitig anzufassen, und wenn das mehr als die
dovecot->protocol->imap->mail_max_userip_connections
sind, dann verweigert der Server. Auf 40 hochgesetzt.
[/bauerm]
permanent link
Um bei uns auf einem NFSv4 mount von Netapp ueberhaupt ein chown machen zu koennen, muss
man mindestens auf der netapp
nfs.v4.enable on
nfs.v4.id.allow_numerics on
und auf Linurx:
echo "Y"| sudo dd of=/sys/module/nfs/parameters/nfs4_disable_idmapping
setzen, weil die Kommunikation zwischen
irgendwie nicht klappt. Wenn man zusaetzlich noch NFSv4 ACLs haben will, reicht es
bei weitem nicht die Pakete nfs-common und acl installiert zu haben, es fehlt noch
nfs4-acl-tools
[/bauerm]
permanent link
Gelernt: man kann in der Python IDE "IDLE" das modul multiprocessing nicht benutzen. Tut man
es doch, bleibt das ding haengen, nachdems ein paar dutzend kindprozesse gestartet hat,
und die ueberleben den logout des Users.
Der cip1-printer5 hat seinen Geist aufgegeben. Nach 11 Jahren treuen Diensten haben wir
ihn jetzt fuer immer pausiert.
Klassischer Ubuntu Bug: Firefox stellt den Ort um, wo Downloads erstmal landen, und testet
das nur mit einem User. Kurz drauf weisst jemand drauf hin, dass alle anderen User auf
der Maschine nix mehr runterladen koennen, weil das Verzeichnis dem ersten
Downloader gehoert (bug 1233434).
Die Ubuntuler uebernehmen den Bug, testen wieder mit genau einem User, finden den
Bug nicht, und lassen das Problem zwei Wochen ungepatcht.
[/bauerm]
permanent link
Interesting Times! Ein SEO (Search Engine Optimizer, nicht etwa Superior Executive Officer) hat unseren
Webserver benutzt, um anderen Webseiten bei Google bessere Chancen zu geben. Betroffen war nur ein
Account im Typo3. Folgen: Wir haben viel ueber das Typo3 Framework gelernt, und den Webserver so
abgedichtet, dass eine Wiederholung eher schwierig wird.
Eine Workstation ist wegen Plattenfehler verstorben. Fehlermode ist eine oot partition, bei der fsck
nur nach Beantwortung einer ernsten Frage weitermacht, und das geht im automatischen bootup nicht.
[/bauerm]
permanent link
Mehr Thunderbolt->Ether converter bestellt, weil jetzt schon einer ausgeliehen ist und dauernd Leute
mit Airbooks ankommen und Matlab installiert haben wollen.
Wieder was gelernt: Wenn winbindd noch keine Verbindung zum AD hat, und versucht einen User abzufragen,
und eine Gibts-nicht Meldung kriegt, dann merkt er sich das **ueber den restart und reboot hinweg**,
und behauptet ab jetzt, dass es den User nicht gibt (Negative caching, saudumm). Loesung:
cd /var/lib/samba
sudo rm winbindd*
sudo service winbind restart
und schon gehts (TM)
[/bauerm]
permanent link
Der Jonathan hat den SingleSignOn Server benutzen koennen, um Userauth fuer einen Uebungsabgabenserver
zum achen, sehr cool.
Lob von einem ehemaligen Industriemitarbeiter nach Hilfleistung: "Das haette bei
[/bauerm]
permanent link
Weiterem Gast mit Antraegen ans RRZE geholfen. Man kann ein iBook so kaputtkonfigurieren (lassen), dass
DHCP auch dann nicht geht, wenn mans explizit einschaltet :( Zum Glueck gabs ein zweites Notebook.
[/bauerm]
permanent link
Der neue Management Server ist angekommen.
[/bauerm]
permanent link
Einem Gast mit einem SONY VGP-WAR100 versucht zu helfen. Sein Laptop hat keinen Etherstecker,
statt dessen hat sein Netzteil ein Dongle mit einem Etherstecker und drei LEDs, auf dem
eine Linux Wifi->Ether Bridge mit Web-Interface laeuft. Ergebnis: funktioniert nicht an
unserem Netz. Keine Ahnung warum. Ans RRZE weitergewiesen, um dort einen FAU-Guest Account
zu beantragen, ging wohl.
[/bauerm]
permanent link
Das Aufraeumscript gefixt, dass auch indices und permissions repariert werden. Monitor tut wieder.
Bei einer Maschine in AM2 ist die Graphikkarte abgeraucht. Ersatz kommt wohl.
[/bauerm]
permanent link
Platte auf monitor mal wieder uebergelaufen, wegen Datenmasse von zabbix. In ~robauerm/bin liegt
ein aufraeumscript, das mit SELECT INTO, TRUNCATE, DROP TABLE, ALTER TABLE eine verkuerze
Version von history und history_uint macht und den Plattenplatz sicher freigibt.
Um dem VACCUM vom Postgres eine Chance zu geben, kann man z.B. folgendes probieren:
CREATE OR REPLACE FUNCTION cleanup() RETURNS trigger AS $$
BEGIN
DELETE FROM history WHERE clock < ( (extract(epoch from now()))::int - 24*3600*7);
RETURN NEW;
END;
$$ LANGUAGE 'plpgsql';
CREATE TRIGGER cleanuphistory AFTER INSERT ON history EXECUTE PROCEDURE cleanup();
In einer Demo-DB in unserem Postgres getestet, vernichtet die alten Eintraege bei jeden INSERT...
[/bauerm]
permanent link
29.09.2015,
Homes fuer 630 neue Studenten angelegt. Damit ein einloggen
in den CIP-Pool moeglich ist. Das neue Semester kann kommen.
[/bayer]
permanent link
11.09.2015,
Puppetrezept gebastelt, dass einen abgebrochenen dpkg wieder
in die "Gaenge" bringt.
Einen MAC und 2 MAC-Nootbook`s auf "Yosemite" upgedatet.
Man MERKE: wenn bei dem Updateprozess "noch 7 Minuten"
steht ... dauert es noch locker 2 Stunden und mehr, bis er
fertig ist ...
[/bayer]
permanent link
10.09.2015,
Matlab R2015b Research fuer die Nutzung im Haus installiert,
Desktop-Files und Symlinks erstellt und per Puppet verteilt.
Die Platte des Management-Servers ist vollgelaufen. Gewinner ist
*Trommelwirbel* ... die Mysql-DB des Puppetdashboards.
Erstmal Workers anhalten:
service puppet-dashboard-workers stop
Die Jobs clearen:
rake jobs:clear RAILS_ENV=production
Dann alles aelter als 2 Wochen wegwerfen:
rake RAILS_ENV=production reports:prune upto=2 unit=wk
Jetzt noch verwaiste Eintraege loeschen:
rake RAILS_ENV=production reports:prune:orphaned
Dann das ganze schrumpfen:
rake RAILS_ENV=production db:raw:optimize
Workers wieder starten nicht vergessen:
service puppet-dashboard-workers start
Jetzt haben wir wieder 150GB frei ... die Frage ist wie lang.
[/bayer]
permanent link
09.09.2015,
Rechner eines Profs hat Grafikfehler. Der Lehrstuhladmin ist leider
nicht da. Rechner schnell ausgetauscht so dass der Prof weiterarbeiten
kann. Lehrstuhladmin ist naechste Woche wieder da, so dass wir unseren
Rechner dann wieder haben koennen.
[/bayer]
permanent link
08.09.2015,
Will man an einem MAC den Firefox updaten und es kommt zu der Meldung
"Sie haben nicht ausreichende Berechtigungen" trotz Admin-Konto, dann
hilft es das Icon unten aus der Schnellstartleiste zu loeschen. Danach
hat sich der Firefox updaten lassen ... WTF.
[/bayer]
permanent link
07.09.2015,
Fehlermeldung auf virtserver: Info: Not using expired certificate for ca from
cache; expired at Sun Jul 26 09:28:06 UTC 2015.
ein "rm -rf /var/lib/puppet/ssl" loescht das Certificat am Client.
ein "puppt cert clean virtserver" loescht das Certificat auf dem Server.
Eine neue Anfrage an den Server und ein "sign" behebt das Problem.
Es gibt immer wieder Probleme mit dem Uni-Wlan und MACs.
Da der Verantwortliche vom RRZE im Urlaub ist, den MAC erstmal per Kabel
ans LAN gebunden.
Jetzt beinhaltet das Paket cups-filters das Pakte ghostscript-cups.
Puppetrezept angepasst.
[/bayer]
permanent link
04.09.2015,
2 neue User angelegt und einen alten User reaktiviert.
Puppetrezept fuer Zabbix auf FQDN in der Clientkonfig abgeaendert.
In den Zabbix Triggern fuer den dpkg: dpkg -l | egrep -v '^(ii|rc)' | sed -n '5,$p' |wc -l
noch den ri aufgenommen: dpkg -l | egrep -v '^(ii|rc|ri)' | sed -n '5,$p' |wc -l
Userwunsch nach texstudio im Cip-Pool nachgekommen:
if $hostname =~ /cip-54-/ {package { "texstudio": ensure => "latest" }}
Diesmal ueber Puppet installiert, da dep-base einen ganzen Tag gedauert haette, und "nur"
Cip-Pool ausreichend war.
[/bayer]
permanent link
01.09.2015,
Ein Hub funktioniert nicht mehr. Steckernetzteil defekt ... erneuert.
Fuer AM1 ein Funktionsmailadresse angelegt inkl. Weiterleitung.
Einen neuen User/Mitarbeiter in die Geheimnisse des Computers eingefuehrt.
Sagemath 6.8 installiert.
[/bayer]
permanent link
25.08.2015,
neubau-204 ruehrt sich nicht mehr -> evtl. Netzteil oder Mainboard defekt.
Rechner hat noch Garantie ... Fa.Frasch kuemmert sich.
Matlabprozesse auf Sultana waren defunc. Ein Reboot auf der Kommandozeile brachte
nur ein komplettes Einfrieren der Maschine. Nach einem beherzten Druck auf den
Powerbutton kam die Maschine wieder hoch.
[/bayer]
permanent link
24.08.2015,
Webinterface "Roundcube" des Mailers auf Version 1.1.2 geupdatet.
[/bayer]
permanent link
RAID Platte auf der Sultana ausgetauscht. Die ist zwar groesser als die originale,
aber das
hpacucli ctrl all diag file=/tmp/diag.zip
cd /tmp && unzip -x diag.zip && more ADUReport.txt
zeigt, dass er das Root-RAID rekonstruiert. Koennt morgen fertig sein.
[/bauerm]
permanent link
Schluss mit Feature-Upgrades! Ab jetzt nur noch Sicherheits-Upgrades automatisch, die
SchnickSchnack-neueChromLeiste-UpsWirHabenDenKonfigfileParserZerschossen-Upgrades
machen wir nur noch an wohldefinierten Datümern.
[/bauerm]
permanent link
Auf der sultana ist eine der root-Raidplatten ausgefallen. LED war rot, nach einmal rausrupfen und
wiederreinstecken wars laut hpacucli am rebuilden. Ein paar Stunden spaeter gibts eine Warnung
wegen Failure predicted. Ersatz ist bestellt und unterwegs.
Stellt sich raus, dass wir mit Scribus ein Desktop Publishing Tool haben, das LaTeX importieren kann. Lustig.
Man kann ohne rootRechte rauskriegen, welche TCP Verbindungen offen sind: netstat -tup
Interessant ist dann der Output von
netstat -tunp | expand -1 | grep -v "131\.188\..*:.* 131.188."| \
grep -v "131\.188\.54..*:.* 10\." | \
grep -v "131\.188\.54.*:.* 127.0" | \
awk '{print $5}' | cut -d":" -f1 | grep -v 127.0.0.1 | sort -u | while read i; do nslookup $i; done | grep "name ="
Nicht verwirrent lassen, ein gewisser Prozentsatz sind die erfolglosen SSH password guessing attacks.
[/bauerm]
permanent link
Friday, July 31, 2015 16:17:06
[/bauerm]
permanent link
Der Inventarserver geht ploetzlich nicht mehr, weil
BuildError: ('computerview.edit_view', {'id': 242}, None)
Wenn man mit
sudo -u inventar python -c "execfile('wsgi/inventar.wsgi')"
das Ding auf port 5000 laufen laesst, geht aber alles. Ein
Diff gegen den Sourcetree vom Juni zeigt nur dort Aenderungen,
wos keinen Einfluss haben kann (und auch keinen hat, sonst waers
auf port 5000 ja auch kaputt).
[/bauerm]
permanent link
Bei einem Windows in der virtbox auf Anraten des Windows-Teams den FAUSUS Update server eingestellt.
Angefangen, auf allen Servern identische UID/GIDs fuer real existierende HOMEs zu machen, ekliges
Gefuddl.
[/bauerm]
permanent link
Es wird _dringend_ Zeit, von Nvidia wegzukommen! Der Upgrade von 331 auf 340 installiert einen
kernel Treiber, der checkt, ob ihn jemand falsch ruft (alte sharedlib z.b.) und das
loggt im _millisekundentakt_, dass jemand die API falsch benutzt, und zwar vier verschiedene
Zeilen, so dass syslog keine Chance hat, etwas in der von 'diese Zeile kam hundert mal'
zu loggen. Ergibt nach ein paar Stunden 8.2 Millionen Zeilen Bloedsinn
in /var/log/kern.log _und_ /var/log/messages. Per Puppet in jedes /etc/rsyslog.d/client.conf
ein
:msg, contains, 'NVRM:' ~
reingebaut, das schmeisst alle Zeilen von NVIDIA weg. So ein ROTZ!
Offizielle Erklaerung der Ubuntuheinzen ist, dass man natuerlich vor einem NVidia Upgrade
alle nvidia-Packete de-installiert, und erst dann den neuen Treiber in-stalliert.
Als Nebeneffekt haben alle Maschinen Hunderte von Gb per syslog auf den monitor geschrieben, der
dann kollabiert ist (/var/log voll).
[/bauerm]
permanent link
VIM vs ISO 8859-1: Wenn man in einer Datei in einer Zeile ein Ü hat,
und versucht das mit vim zu editieren, dann schreit der ganz laut ueber illegal
UTF-8. Und nicht nur dass, er zeigt die komplette Zeile nicht an. Wenn man die
Datei versucht zu speichern, meckert er wieder rum, und wenn man mit :w! speichert,
schneidet er alle Zeilen hinter der mit Ü inklusive
ab. Wenig hilfreich. Entweder mit was anderem editern (z.b. emacs, der kanns) oder
mit recode wandeln und dann erst editern. Son Mist.
Nvidia Treiber Auto-Upgrade: Der nvidia-340 Treiber installiert sich parallel zum -331,
und wenn man letzteren entfernen will, werden beide geloescht. D.h. upgrade
mit apt-get funktioniert nicht. Wenn beide Treiber installiert sind,
dann kann man nach dem Ausloggen eine Viertelstunde warten, bis
sich der Kernel entschieden hat, welchen Treiber er nimmt (schwarzer Bildschirm).
Also Puppet Rezept gebastelt, das erst -331 loescht (und damit auch -340), und
dann -340 installiert. Scheint zu klappen.
Und wieder fragt man sich, ob Ubuntu noch ertragbar ist..
[/bauerm]
permanent link
Was bisher geschah:
- Lexmark mal wieder: Wenn man den USB Port am Drucker abschalten moechte,
dann kann man auf der WebGUI das 'disable' klickern bis man blau wird,
das disablet gar nix, man muss statt dessen den "USB Buffer" auf 0 Bytes
setzen. Und das wird nicht in dem Konfig-File gespeichert, das man
ex/importieren kann, also muss mans auf jedem Drucker einzeln machen
(Danke an Andi).
- Aus gegebenem Anlass ein puppet modul workshops gebaut, dass user lokal
im CIP Pool anlegt, mit expire-nden Accounts.
Dabei stellt sich raus, dass puppets
password => sha1(klartext)
keineswegs einen SHA1-gehashten /etc/shadow eintrag erzeugt, wie in der
Doku steht, sondern was kaputtes. Also mit
openssl password -1 -stdin
und einem Shellskript aus einer Liste von Klartexten erzeugt...
- In einem Sekretariat hat sich ein Lexmark selbst vom Netz genommen, und
auch nach dem ueblichen Aus-Ein-Schalten gings nicht, bis Andi die
"Netzwerk Config Drucken" Option am Geraet benutzt hat, dann hat der Drucker
sich ploetzlich erinnert und angefangen, alles zu drucken, was in der
Warteschlange war.
- Wenn man eine Bibliography (mit eigenen bibitems) in Std-LaTeX mit
rechtsbuendiger Nummerierung haben will, muss man dem
\begin{thebibliography}
noch ein {nn} anfuegen (!?)
- Auf Windows 8 auf einem Tablet Software installieren ist kein Spass.
Andi kriegt noch raus, wie man installiertes Zeugs fuer alle User
des Geraets zugaenglich macht, wenn die 1. keinen Microsoft Appstore
Account haben, und 2. das Geraet offline ist... So ein Schwachsinn!
[/bauerm]
permanent link
Vor/Gestern die sterbliche Huelle des PCs im Pruefungsamts (Baujahr 199x) seziert
und zwei funktioniernde IDE Platten rausgeholt. Backup von NTFS per IDE->USB Wandler auf Linux.
Interessanter Effekt auf dem Mac danach: Auf Linux mit gnu-tar auf einen
USB Stick (vfat) geschrieben, auf dem Mac mit deren tar im HOME ausgepackt;
die GUI und die Shell sehen alle Dateien, file(1) weiss, dass bestimmte Dateien
Word Dokumente sind, geschrieben von .. am .. mit Version ..., ... viele Seiten,
der File-Selector in Word und OpenOffice sieht die Dateien, aber wenn man sie
"oeffnen" will, kommt der Error, dass sie nicht existieren. Wenn man die tar-files
mit gnu-tar im USB Stick auspackt, und das resultierende Verzeichnis per Maus-drag-and-drop
aufs Desktop zieht, dann koennen Word und OpenOffice die Dateien lesen.
Soooo benutzerfreundlich...
Note to self: Wenn man an Mailserverconfigs was aendert, sollte man vor dem Neustart
von Postfix, und auch vor newaliases(1), unbedingt mal im etckeeper nachschaun, was
der diff wirklich ist, evtl hat man ja aus Versehen was geloescht....
Irgendeine Aenderung einer Packetabhaengigkeit zusammen mit cron-apt autoremove -y
hat essentielle Teile des Ubuntu/Unity Desktops entfernt. Wenn man ubuntu-desktop
nachinstalliert, zieht das Packete der Art
libnasebohren2.1++
amazonwerbungseinblender3.0
socialmediaautobenachrichtiger0.01
libohrenputzen3bzr23415.7577
lasse_den_user_das_etherinterface_umkonfigurieren_nur_heisst_das_packet_nicht_so.0.99.857.git.10c585b06a1062db825e672931a428cf
nach sich. Den Mist schaufeln wir langsam weg und fragen uns, ob Ubuntu tatsaechlich
noch tragbar ist.
[/bauerm]
permanent link
Der Printserver fuers Haus ist gestorben. Auf Ersatz-Server umgezogen. Dabei
gleich einen Upgrade auf Ubuntu 14.04 gemacht. Das hplip Packet nachinstalliert
und damit gehen jetzt die meisten Drucker wieder. Bei ein paar muss man noch
der Hand Filter aus proprietaeren Packeten nachinstallieren, zum Beispiel
bei den UTAXen.
[/bauerm]
permanent link
Das NFS idmap Problem erscheint immer seltsamer. Weil es Linux ist, gibt es
mehr als eine Methode, die Userid des Owners zu ermitteln:
https://www.kernel.org/doc/Documentation/filesystems/nfs/idmapper.txt
Entweder rpc.idmapd oder request-key. Letzteres mal schnell wie dokumentiert
ausprobiert, funktioniert nicht. Also weiter rpc.nfsidmapd debuggen...
Failover auf nextwo ausgefuehrt, resilvering laeuft.
Man kann ein OpenSolaris/NexentaOS zum genauen Nachschaun nach Hardware beim
Bootup bringen, wenn man vor dem shutdown ein File /reconfigure anlegt...
[/bauerm]
permanent link
Wir sind Mitglied in einem grossen Club, wie sich rausstellt:
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=758870
https://bugs.launchpad.net/fedora/+bug/1124250
http://article.gmane.org/gmane.linux.nfs/67156
Das mit dem nfsidmap ist ein Kernel Problem, und als solches
bekannt seit 2013. Betrifft auch viel kleinere Installationen als unsere.
Vollkommen krank, die haben neben den rpc.idmapd (der in services status nicht
auftaucht) noch einen wirren key-request mit eigenem in-kernel Cache
gebaut, und diese Caches voellig unterdimensioniert. Ausserdem
scheint er ein "kenn ich nicht" ewig zu cachen, so dass ein nicht-Erkennen
wegen Speichermangel zu ewigem nicht-Erkennen fuehrt (deswegen scheint
das nfsidmap -c zu helfen, dass leert die Caches, und dann wird neu probiert).
Einen hotfix mit heisser Nadel gestrickt, der jetzt im Betrieb die
Groessen der Caches per sysctl hochsetzt. So ein Roooooooootz.
[/bauerm]
permanent link
Nachdem es viele berechtigte Beschwerden ueber die Zaehigkeit vom NFS gab,
hab ich einen Fileserverschwenk gestartet. Und hab voher nicht geprueft,
ob der andere Head alle Platten sieht, und auch nicht, ob der DNS Server,
der im resolv.conf steht, ueberhaupt reagiert. Beides war nicht der Fall.
*selbstohrfeig*. Das System laeuft jetzt wieder, aber wieder nur auf
der haelfte der Platten. Werd am Wochenende wieder auf nextwo schwenken,
der sieht wieder alle, und die platten wieder ins zfs bringen...
Backups laufen.
neubau-223, ein P700 aus der Erstausstattung, hat nur 4Gb RAM. Lieferant
sagt, es sollten 12 sein. Unabhaengig(?) davon haengt sich die "Ubuntu"
Oberflaeche glorios auf, mit allen CPUs auf 100% und alles RAM belegt,
ausschliesslich fuer X, ibus, compiz und solchen Unfug.
NFS Probleme, Teil 3: der rpc.idmapd macht auch auf anderen Maschinen Probleme,
und user sind dort nfs-nobody.
Memserver installiert. Ist noch ein Gen8 HP, aber hpacucli funktioniert
nicht. hpssaducli tut, meldet aber ein "Drive 1 is queued for rebuilding".
Waere nett, wenn ers mal aus der Schlange liesse und den Rebuild macht,
der Test mit dem Plattenrupfen ist schon Tage her...
[/bauerm]
permanent link
Das hpssaducli kann XML Output, und in dem kann man nach
[/bauerm]
permanent link
HP hatte mal ein schoenes Tool mit dem geistreichen Namen hpacucli, mit dem
man einfachst den Gesundheitszustand eines Server-RAIDs abfragen konnte.
Darauf aufbauend hatte ich einen Cronjob, der gelegentlich nachschaut, ob
alles OK ist, falls nein, schickt er eine Mail. Latuernich kann man das
als Hardwarehersteller nicht auf sich sitzen lassen. Deswegen gibts das
Tool jetzt nicht mehr, statt dessen ein aehnlich benamstes: hpssaducli,
welches statt einer Zeile pro Platte, mit einem "OK" an einer bestimmten
Stelle, lieber 160 Kb Unfug inklusive hexdump der Firmware ausgibt. Hab
bis jetzt noch nicht raus, welche der 11716 Zeilen ueberhaupt den
Zustand des RAIDs beschreiben soll.
[/bauerm]
permanent link
Sultana und Norton eine HE nach unten transportiert, weiter geht nicht, weil da
die Steckerleiste ist. Nach Update von Norton stellt sich raus, dass ein NFS
mount _fast_ alle Userhomes als nfs-nobody sieht. Wenn man rpc.idmapd mit
debug options startet, sieht man, dass er immer wieder mal unmotiviert ein
paar Anfragen per nss_getpwent macht und mit der Zeit immer mehr UIDs kennt.
Fuer Leute, die sich einloggen wollen, aber ein Problem, weil z.b. sshd
erstmal prueft, ob das .ssh/authorized_keys ihnen wirklich gehoert.
Wenn man mit nfsidmap -c den Cache von diesem Lookupdings flush-t, und dann
mit ls -l nach den IDs bittet, kennt er ploetzlich mehr. Diesen Mechanismus
hab ich in eine Schleife gepackt und damit am Ende alle UserIDs korrekt
ge-idmap-ped gekriegt. Auf Avana wars das gleiche Problem. Das rpc.idmapd
wird nicht von irgend jemandem gestartet, passiert anscheinend so nebenher
beim mounten von NFS files.
[/bauerm]
permanent link
Die Webserver Umstellung hat begonnen. Natuerlich gings nicht sofort glatt, weil die
MAC des alten Servers noch in den ARP Caches von laenger laufenden Maschinen,
unter andem des Routers, waren.
Gestern gabs einen Fileserverslowdown nachdem alle 48 CPUs von norton gleichzeitig
ins NFS geschmiert haben. Grund war ein wildgewordenener Prozess, der ohne
Pause ge-fork(2)-t hat, und seine Kindprozesse haben in Bursts geschrieben...
[/bauerm]
permanent link
Auf monitor waren die massen der zabbix daten auf 600Gb angelaufen. Man kann das per hand
retten, wie vor einiger Zeit beschrieben , aber das zieht sich, und zabbix muss definitiv aus sein (und man muss die
die ownership der tabellen richtig hinkriegen). Vielleicht doch mal zum SQL Guru werden
und das mit partitions, table inheritance, stored procedures, triggers und rules
hinfummeln.
[/bauerm]
permanent link
23.04.2015,
Heute Nacht um "00:31:46" hat sich der "mysql-server-core-5.5" upgedatet.
Gestartet hat er sich allerdings nicht wieder. Ein "/etc/init.d/mysql start" half.
[/bayer]
permanent link
Wer R-3.1.3 auf Ubuntu selbst bauen will, der muss sicherstellen, dass libcairo2-dev installiert
ist, weil R sonst zwar ein library/grDevices/cairo.so baut, in dem dann aber kein Symbol ist.
Kriegt man mit objdump -t library/grDevices/cairo.so raus.
Wer rstudio bauen will, muss die Anleitung in INSTALL ignorieren, weil vor der ganzen
CMake Magie erstmal die Skripten in dependencies/linux/ ausgefuehrt werden muessen. Die
installieren benoetigte libs. Wenn man das nicht tut, schmeisst CMake autogenerierte Errors,
die auf Fehler in autogenerierten Files hinweisen, was so richtig gar nix nuetzt.
[/bauerm]
permanent link
14.04.2015,
Puhh bis jetzt 202 Rechner upgedatet ... weitere folgen.
Der Netapp Testserver wird am Montag wieder abgeholt :(
[/bayer]
permanent link
02.04.2015,
Wahnsinn ... ueber Nacht hat Mendeley ihren Mirror geaendert.
Jetzt laeuft der apt natuerlich in einen Fehler. Nachdem wir jetzt
auf 14.04 updaten, hab ich kuerzerhand den Mirror entfernt, evtl.
reicht ja auch das in 14.04 mitgelieferte Mendeley.
An einer Netzwerkdose im Seki der Geschaeftsstelle war urploetzlich
ein falsches Netz geschaltet. Das gab auf der Windows-Kiste seltsame
Probleme. Da manche Anwendungen an die IP gebunden sind, streiken
diese dann. Nach einer Mail und einem Telefonat war dann wieder das
richtige Netz geschaltet ...
[/bayer]
permanent link
31.03.2015,
Neuen Drucker Lexmark C950 printer-68 installiert. Er soll den alten
printer-81 ersetzten. Der neue Drucker wurde im Raum 01.310
platziert und der alte printer-81 in den Raum 02.310 ausgelagert.
Neues File fuer das Druckkontingent erstellt:
wbinfo --group-info=IdM_MatheCipPool > neueDatei
[/bayer]
permanent link
26.03.2015,
R-3.1.3 fuer Ubuntu 14.04 unter /software gebaut und einige Pakete nachinstalliert.
install.packages("Hmisc", dependencies = TRUE)
install.packages("Rcmdr", dependencies = TRUE)
Ergebins einsehen:
packinfo <- installed.packages (fields = c ("Package", "Version"))
packinfo[,c("Package", "Version")]
ggf. die Pakete updaten:
update.packages()
[/bayer]
permanent link
24.03.2015,
Die CIP-Pools und Praktikumsraeume sind auf Ubuntu 14.04 LTS upgedatet worden.
Die Installation der In-Haus-Rechner laeuft auf vollen Touren.
Die Puppet-Dashboard Datenbank mit einer Groesse von 20GB geloescht, und neu erstellt.
[/bayer]
permanent link
Server Monitoring ein bisschen vorangebracht, nachdem das hp-health packet jetzt
wohl funktioniert.
[/bauerm]
permanent link
Unser Gurobi Token Server hat nach einer Re-Installtion eine neue HostID gehabt.
Dank prompter Hilfe vom Hersteller gefixt und ein puppet-Modul fuer den Dienst
eines Token Servers gebaut.
[/bauerm]
permanent link
Wieder mal mit Kerberos+NFS4 gespielt. Kwalitaetssoftwaer, wohin man blickt.
Der rpc.gssd, der immer mal wieder umbenannt wird, und in jeder Distro anders heisst,
hat in der manpage die Worte stehen:
-p path
Tells rpc.gssd where to look for the rpc_pipefs filesystem.
The default value is "/var/lib/nfs/rpc_pipefs".
Weil /var/lib/nfs/rpc_pipefs auch tatsaechlich der Ort ist, wo die AF_UNIX Sockets etc
bei uns rumliegen, braucht man diese Option also nicht. Mit der -v Option wird
laut Manpage die verbosity hochgedreht. Wenn man den gssd mit -fvvvv startet,
sollte er also sehr verbose im Vordergrund laufen, zum Debuggen. Wenn man das
aber macht, kriegt man die Meldung
beginning poll
und dann gar nix mehr. Nach einiger Zeit schaut man dann mal, ob er ueberhaupt laeuft?
Nein, tut er nicht. Warum nicht ??? Und wenn er schon maximal verbose ist, warum
sagt er nicht, warum er sich ueber den Orcus macht ???!??!elf!zwoelf?
Also, strace anwerfen, und was sehen wir da, kurz vor dem write(2, "beginning poll\n")?
openat(AT_FDCWD, "/run/rpc_pipefs", O_RDONLY|O_NONBLOCK|O_DIRECTORY|O_CLOEXEC) = 3
Die Manpage luegt, und das -v ist pour el cul, wie der Franzose sagt.
Mit der -p Option und dem richtigen Pfad funktionierts dann soweit, dass man
andere Fehler sehen kann...
[/bauerm]
permanent link
19.02.2015,
Puppet Dashboard hat ueber 12000 Pending Tasks !
ein: sudo -u puppet-dashboard rake RAILS_ENV=production reports:prune upto=1 unit=mon
loescht alle reports aelter als 1 Monat.
ein: sudo -u puppet-dashboard rake RAILS_ENV=production db:raw:optimize
optimiert die MySQL DB.
[/bayer]
permanent link
Heut gabs einen Ausfall von Logins am CIP Pool, weil einige von den DomainControllern
nicht liefen. Geht wieder. Evtl die Liste der Domaincontroller um die in Nuernberg
erweitern..
[/bauerm]
permanent link
MySQL mal wieder. Wir haben eine Tabelle mit 3 Mio Zeilen, es gibt ausser
der mysql CLI keine User, alle daemons, die potentiell reinschreiben,
laufen nicht. Man kann aus der Tabelle mit DELETE immer nur ein paar
Tausend Zeilen rausloeschen, weil Mysql sonst mit einem Lock error
abbricht, entweder ein Timeout oder zu viele Locks. 3 Mio Zeilen
sind wirklich nicht Big Data, das konnte DB2 auf CP/M 1980 schon.
[/bauerm]
permanent link
HPC Code auf Sultana laeuft in OOM errors. Kommt vom Memory Overcommitment im Kernel,
kann man abstellen mit
sysctl -w vm.overcommit_memory=2
Mehr dazu auf
uni twente
Zitat:
Linux on the other hand is seriously broken.
[/bauerm]
permanent link
19.12.2014,
Merry Christmas and Happy New Year !!!
[/bayer]
permanent link
Die Sultana kriegt Firmware Errors von der Netxen 10Gb Karte....
[/bauerm]
permanent link
Gestern (ich hatte Urlaub) riefen um 9:00 die blauen Maenner vom technischen Dienst an,
dass sie jetzt mal eben den Stom im Ersten Stock abdrehen (wo auch Infrastruktur von
uns steht). Angekuendigt war diese Aktion fuer Anfang _November_. Der Jonathan hat den
Systemen waehrend der schlimmen Operation die Hand gehalten, wofuer ich ihm danken moechte.
Zum Glueck ist nix schlimmes passiert.
Neue Apple UX Erlebnisse: Identische PDF Files, eins per thunderbird aus einem Attachment gezogen,
das andere per webmailer, zeigen unterschiedliches Verhalten, wenn man sie mit Acroread
anschaun will. Bei dem aus dem thunderbird kommt "unknown error" oder "Adobe Reader kann nicht
geoeffnet werden", bei dem anderen gehts.
Gestern zwei PCs in den Raeumen der Ex-Biomathematik aufgebaut (neubau-240 und neubau-198).
Jemand hat das DEBIAN/control file von dep-base-precise auf den Stand von vor vier Jahren zurueckgesetzt.
In den rsnapshots war die neueste Version schon nicht mehr, weil mehr als eine Woche her.
Zum Glueck gabs auf der Nexenta noch einen Snapshot aus der FileserverKrise, der rsnapshots
enthalten hat. Wiederhergestellt und auf Wunsch noch ein Packet dazu...
Neue/Alte Erkenntnis: man kann auf der Graphischen Oberphlaeche von Nexenta zwar auto-snapshots anlegen,
aber die snapshotten dann immer _alles_. D.h. auch so tolle sachen wie die rsnapshots, die
eh schon viel duplizieren... Per Command Line Interphace korrigiert (und da kann man auch
nicht aendern, welches "volume" gesnapshottet wird, man kann nur loeschen und einen neuen mit
korrektem volume anlegen. *grummel*)
[/bauerm]
permanent link
Niemand kann sich auf rondo einloggen. Der Grund: das Datum auf der rondo
ist der 1. November 2023. Der authserver weigert sich, mit clients aus
der Zukunft zu reden. Warum der openntpd die Uhrzeit nicht fixt:
adjusting local clock by -281358460.263632s
adjtime failed: Invalid argument
D.h. wenn die Uhr mal so weit von den Timeservern weg ist, kann adjtime(3)
sie auch nicht mehr korrigieren. Drexglump! Also
sudo ntpdate -b ntp1.fau.de
[/bauerm]
permanent link
Zu dem Ubuntu R-base Packet gibts ein r-recommended, was aber gar nicht recommended
ist, sondern mandatory. D.h. man kann das gar nicht nicht installieren. Damit
sind meine Plaene zunichte, alles aus selbst-kompilierten Packeten zu haben...
Ohmann. Das CRAN Package RHmm kann man aus unklaren Gruenden nicht mehr per
install.packages installieren, deswegen hats jetzt gefehlt. Wenn man die
sourcen runterlaed, auspackt, und dann mit
R CMD build RHmm
ein RHmm_2.1.0.tar.gz erzeugt, dann kann man dieses mit
install.packages('pfad/zum/RHmm_2.1.0.tar.gz', NULL)
doch wieder bauen. Jetzt in die Rpackages Liste eingefuegt.
Unsichtbar gewordene spare-platte in der Coraid wieder aktiviert:
cat /dev/ethdrv/devices zeigt die platte nicht.
zpool status zeigt sie als unavailable
coraid console zeigt sie nicht.
setslotled spare 10 (laemplein leuchtet)
Platte rausrupfen, wieder reinstecken.
coraid console zeigt sie als Disk, aber ohne Role (d.h. LUN-name), list -l
zeigt sie nicht.
jbod 2.10
list -l zeigt sie
cat /dev/ethdrv/devices zeigt sie
zpool status listet sie als unavailable
zpool remove coraid01 c2t2d10
zpool add coraid01 spare c2t2d10
zpool status zeigt sie als avail
setslotled reset 10 (laemplein leuchtet nicht mehr)
[/bauerm]
permanent link
Nach der Ankuendigung, 4004 Stunden zum re-Silvern der Platten zu brauchen,
ist das ZFS jetzt nach 25h32m fertig geworden. Naja, besser als andersrum...
[/bauerm]
permanent link
Failover von nexone auf nextwo gemacht. Hat fast 20 Minuten gedauert, und nebenher
ist die nexone gecrashed. Nach ihrem Verscheiden hat die nextwo dann uebernommen
und rekonstruiert grad die anderen RAID-Platten:
pool: coraid01
state: ONLINE
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Fri Nov 14 12:20:02 2014
5.37G scanned out of 16.0T at 1.76M/s, 2650h20m to go
5.37G resilvered, 0.03% done
Man beachte die voraussichtlichen 2600 Stunden Rekonstruktionszeit (110 Tage).
R-Packete wieder dem Ubuntu entrissen. Ubuntu hat nur wenige CRAN Packete, und
die sind wiederum Abhaengigkeiten von Packeten, die wir von Hand unter
/usr/local/lib/R installieren. NAch einem apt-get upgrade passen die dann
nicht mehr zusammen. Die CRAN-Sachen sind jetzt alle konsistent fuer eine
R-Version kompiliert, und die ist per "verions-pinning" festgelegt
("it's not dead. It's probably pinning for the fjords").
[/bauerm]
permanent link
AAAAAAArg. Freebsds bsdtar behauptet, cpio-streams lesen zu koennen. Das ist
leider nicht wahr. Nach 52 Gb ist das ding heut nacht gestorben und hat
zum Abschied ein paar Files mit vergarbelten, ewig langen Namen angelegt.
Das ganze nochmal mit scp -r von der QNAP. Das wird wieder Wochen dauern.
Verdammt
[/bauerm]
permanent link
mathe-backup (Offsite Maschine in einem Rack im RRZE) re-aktiviert, indem wir
den kaputten zpool ueberbuegelt habe.
Fein, dann kann man ja ein Backup auf die kiste machen! Also
find homes -print0 | grep -v "\.zfs/" | cpio -o0 | gzip -1 | \
openssl enc -e -aes-256-cfb -kfile $keyfile | nc $mathebackup 1234
und
nc -l 1234 | openssl enc -d -aes-256-cfb -kfile $keyfile | gzip -d | cpio -ivlm
ABER: kein cpio auf mathe-backup!
Rausgefunden, dass /usr/bin/bsdtar cpio vielleicht lesen kann.
ABER: kein openssl auf mathe-backup. Also installieren:
pkg_add -r openssl
Schmeisst "Filesystem Full".
Also
pkg_add -p /zpool/pkgs -r openssl
Tut.
ABER: findet libssl.so. nicht.
Also ldconfig -m /zpool/pkgs/lib.
Grad laeuft ein Test-Backup, mal schaun...
[/bauerm]
permanent link
Panisch Backups in alle Richtungen gemacht, Umschwenk vermutlich am Freitag....
Damit das Zabbix seine backups machen kann, braucht es eine Erlaubnis.
Weil SQL doof ist, geht das so:
GRANT ALL ON ALL TABLES in schema public to zabbix;
Auf der QNAP kann man keine /etc/exports aus den configs erzeugen, weil die
Lumpensaecke ein shared object (libuLinux_naspriv.so.2) nicht mit ausgeliefert haben.
Sehr schlecht, wenn das der Fallback sein soll...
Das Postgres hat auf 24 CPUs 100% Last erzeugt und war dabei, den swap aufzufuellen.
Unklar warum.
Auf der zabbix Datenbank im Postgress die grossen tables mit
SELECT INTO ... WHERE clock > ($grad_eben - 7*24*3600);
wegkopiert (nur die Daten der letzten Woche), und dann mit TRUNCATE geloescht.
hat mehr als 300 Gb Plattenplatz freigemacht. Automatisiert muesste das so aussehen:
# Vorher zabbix stoppen...
tables="history history_uint history_str history_text history_sync history_text_sync \
history_uint_sync" # weitere?
now=`date +"%s"`
for t in $tables; do
echo "SELECT * INTO ${t}_new FROM $t WHERE clock > $now - 7*24*3600;
TRUNCATE TABLE $t;
DROP TABLE $t;
ALTER TABLE ${t}_new RENAME TO $t;" | psql -U zabbix $DBNAME
done
Evtl sollte man das in ein "BEGIN .. COMMIT" wickeln.
[/bauerm]
permanent link
Die off-site Maschine stirbt weiter im zfs receive... Dreck.
Das ps Kommando auf QNAP sieht zwar wie das std-Linux ps aus, ignoriert aber
alle Options.
[/bauerm]
permanent link
Unschoener Effekt: nachdem es einen gemeinsamen snapshot von Fileserver und ZFS backup
auf einer off-site Maschine gab,
zfs send -I @der_alte_snapshot daszfs@der_neueste_snapshot | ssh $offsite "zfs receive -vF $zfswurzeldort"
probiert. Das hat die $offsite Maschine ins Coma geschickt. Nach einem reset per iLo
sagte sie
Solaris: WARNING: can't open objset for zpool/backup-coraid/homes/staff/%recv
und reagierte nicht mehr. Nach zwei hard-resets per iLo gings dann erstmal wieder
Screen auf der QNAP stirbt mit einem angeblichen termcap error. Tatsaechlich fehlt
ein Hinweis auf die schon existierende /usr/share/terminfo/:
export TERMINFO=/usr/share/terminfo
fixt das Problem.
Durch Fehlkonfig unsererseits hat die Nexenta auch snapshots von den Ubuntu Mirrorn
gemacht, totale Platzverschwendung...
Auf FreeNAS ist screen nicht installiert, dafuer tmux (escape Seq ist ^B)
[/bauerm]
permanent link
Heut frueh wollten wir einen Fileserver-Head-Schwenk machen, weil manche CIFS Shares nicht
mehr mountbar waren und wir keine andere Loesung gefunden haben. Das ging brutal schief,
weil der zweite Head aus unerfindlichen Gruenden ein komplettes Plattenshelf nicht mehr
kannte. Nach einem Zurueckschwenk waren dan natuerlich alle Mirror-Paare degraded, und
weil die zweite Maschine die Platten nicht gesehen hat, hat sie die Namen durch UUIDs
ersetzt, die nix mehr zugeordnet sind. zfs replace funktioniert mit einem i/o error
nicht mehr (d.h. auch die erste Maschine sieht die Platten nicht mehr). Wir fahren
jetzt also ein RAID0 aus lauter kaputten RAID1 Paaren. Herr Longariva vom RRZE konnte
ein paar Tips geben, wie man mit devfsadm auf der anderen Maschine wieder auf die
Platten zugreifen kann, aber das NFS/CIFS kommt jetzt von der Maschine, die nur
die Haelfte sieht. Ohmann. Dass laengere Zeit die Haelfte aller Platten ausfaellt,
war natuerlich nicht im Fehlerszenario vorgesehen. Alle Mitarbeiter- und Studentenhomes
sind noch auf Backups, insofern keine Userdaten in Gefahr, aber trotzdem eine
eklige Vorstellung, dass jetzt eine ausfallende Platte reicht, alles ins Grab zu
reissen. Ein zfs send -R aller Daten laeuft auf die norton (nur dort ist genug Platz),
aber das braucht 12 Tage (sind 15 Terabyte).... Danach testen wir mal, ob ein
Schwenk auf die andere Maschine zu einem re-silvering der Mirrors fuehrt, oder
ob dann alles stehnbleibt.
[/bauerm]
permanent link
Seltsamer Effekt auf cups: die Uhrzeiten der Printjobs in der Web-Oberflaeche liegen
drei Stunden zurueck, obwohl grad gedruckt wurde. Nebst diesem Problem kann sich
kein Admin mehr ueber die web. GleichzeiWeb-Oberflaeche einloggen. Logs enthalten keinen erkennbaren
Hinweis. Restart von cups bringt nix. Erst ein reboot rettet
[/bauerm]
permanent link
Auf einer Maschine liess sich zabbix nicht mehr starten, das Startup skript meldet nix
(weil die Typen den stdout, stderr nach /dev/null umleiten). Es stellt sich raus,
dass die neue Version vergisst, ein /var/log/zabbix-agent/ zu erstellen, und dann
stirbt der agentd beim Starten. Gefixt.
[/bauerm]
permanent link
Um unser Druckeraccounting von einem Semester auf das naechste zu bringen
(und dabei die Druckkontingente wieder auf 0 zu setzen), muss man wie
folgt vorgehen:
1. auf neubau-33 in /home/printadmin/printadmin.cfg die Variable
PRINT_RESET_WS
auf einen String der Form "tag monat jahr" setzen, ab dem das
neue Semester beginnen soll.
2. den cups anhalten, damit nicht in der datenbank geschmiert wird,
waehrend man sie anpasst.
3. die datenbank in /etc/pykota sichern
4. mit sqlite in der Datenbank:
4.1 die Trigger entfernen
4.2 in allen eintraege in users, die negativen "stud" Wert haben,
diesen negativen Wert auf "cash" addieren (soviel sind die
ueber das Kontingent in ihren Bargeldbereich reingelaufen)
4.3 alle sonstigen stud-Werte auf 0 setzen
4.4 alle balance Werte auf stud+cash setzen
4.5 Trigger wieder anlegen (z.b.
echo ".schema" | sqlite3 $backup.db | sed -n '/TRIGGER/,$p' | sqlite3 $db
)
4.6 nochmal mit ein paar selects nachschaun, obs so passt
5. cups wieder starten
6. mit dem web-frontend nachschaun, ob
6.1 die Semesterbezeichung stimmt
6.2 die Useraccounts tatsaechlich hoechstens die Bargeldwerte als "Balance"
haben.
[/bauerm]
permanent link
Interessantes Problem mit puppet-dashboard: das Passenger Module fuer Apache stirbt mit:
[ pid=24133 file=ext/apache2/Hooks.cpp:727 time=2014-09-01 14:58:33.756 ]:
Unexpected error in mod_passenger: An error occured while sending the request body to the request handler: Broken pipe (32)
Backtrace:
(empty)
Man beachte die hilfreiche Unterscheidung zwischen Erwarteten und Unerwarteten Fehlern. Dies hier
ist also ein Unerwarteter. Danach ist der Port 3000 auf localhost dicht, auf dem Dashboard seine
Reports erwartet, und puppet master meckert:
puppet-master[3726]: Report processor failed: Connection refused - connect(2)
Es scheint, dass wenn man dann mit
/etc/init.d/puppet-dashboard restart
das dashboard wieder startet, dann nimmt der eine Webrick Instanz, also einen kleinen Webserver
in Ruby und lauscht mit dem auf port 3000. Der hat keine Authentisierung. Doh, wie Dr. H. Simpson
sagen wuerde. Nach einem stop von Dashboard und Restart von Apache (in der Reihenfolge) geht
alles wieder.
[/bauerm]
permanent link
25.08.2014,
LibreOffice bringt Fehlermeldungen:
The following packages have unmet dependencies:
libreoffice-base : Depends: libreoffice-base-core (= 1:4.3.0-0ubuntu1~precise1) but 1:4.3.0-3ubuntu1~precise1 is installed
Depends: libreoffice-base-drivers (= 1:4.3.0-0ubuntu1~precise1) but 1:4.3.0-3ubuntu1~precise1 is installed
Depends: libreoffice-core (= 1:4.3.0-0ubuntu1~precise1) but 1:4.3.0-3ubuntu1~precise1 is installed
libreoffice-core : Breaks: libreoffice-base (< 1:4.3.0-3ubuntu1~precise1) but 1:4.3.0-0ubuntu1~precise1 is installed
Diese Eingaben beheben das Problem:
mv /var/lib/dpkg/info/libreoffice-base.* /tmp/
dpkg --remove --force-remove-reinstreq libreoffice* python-uno
dpkg -P --force-all libreoffice*
apt-get -f install -y
[/bayer]
permanent link
20.08.2014,
Einen neuen CIP-Pool Printserver installiert (auf HP Hardware ... der alte war ein Desktop Rechner)
Der Server laeuft auf Ubuntu 14.04 LTS. Rackschienen eingebaut, Server verdrahtet inkl. ILO ... laeuft :)
Jonathan hat das Puppet-Dashboard auf 1.2.23 aktualisiert.
[/bayer]
permanent link
Angefangen, den Upgrade von Ubuntu 12.04 nach 14.04 vorzubereiten. Auf einem Testserver installiert
und die relevanten puppet-module so umstrukturiert, dass sie jetzt mit mehreren distribs
funktionieren. Dabei rausgefunden, dass die [environment] Konfig-Section im puppet.conf
nicht mehr funktioniert, d.h. Maschinen die ins $testnetz sollen, muessen mit
puppet agent --environment test --test
konfiguriert werden, damit sie mitkriegen, dass sie im $testnetz sind. Der ersten puppet
run legt das dann dauerhaft fest.
[/bauerm]
permanent link
Daruuum druckt der keine Geviertstriche: Andi hat rausgekriegt, wie man die Filter-Pipeline simuliert
und hat damit mal alle Zwischenschritte erzeugt. Entweder beim Wandeln von pdf nach "raster" mit
gsraster oder beim Wandeln von "raster" nach "gutenprint" mit rastertogutenprint gehen die
Geviertstriche hops. Beide Programme sind uralt und das Problem war bis jetzt nicht aufgetreten.
Man kann wohl davon ausgehen, dass irgendein sonstiger Input dieser Programm sich geaendert hat.
Kaum eines dieser Filterprogramme hat eine Dokumentation, und das "raster" format kennt niemand
ausser cups (deswegen ist noch ungewiss, welcher der beiden Filter die Geviertstriche wegschmeisst).
Wenn man unbedingt ein "raster" haben will: gs -sDEVICE=cups filename.{pdf,ps}....
Nachdem das entsprechende PPD, das auf Gutenprint basierte, durch ein anderes auf foomatic-Basis ersetzt wurde,
gehts wieder (mit anderen Abstaenden an den Raendern, die Umwandlungen sind also nicht verlustfrei).
[/bauerm]
permanent link
Den kaputten printer-80 durch einen anderen kaputten HP ersetzt, um die Probleme zu analysieren, die
bei einem alten HP im Haus auftauchen. Naemlich, dass manche Zeichen in Dokumenten nicht gedruckt
werden (vermindert den ROI). Bei einer kurzen Debugging Session mit cups kann man sehen, dass auf
dem betroffenen Printer ein PDF durch folgende Filter-Pipeline geschickt wird (wobei fast alle
Filter undokumentierte Binaries in /usr/lib/cups/filters sind):
1. pdftops
2. pstopdf
3. pdftopdf
4. pstoraster
5. rastertogutenprint
6. ???
,,Aber waruuuum??"
[/bauerm]
permanent link
Glorio! Der Jonathan hat durch Einfuehren von INDEXes zu den (itemid,clock) Paaren in den history* Tabellen
der Zabbix Datenbank _alle_ Anfragen wesentlich schneller gemacht. Insbesondere zeigt das "Latest Data"
jetzt die Daten eines Rechners bevor der automatische Reload der Seite zuschlaegt und das ganze zur
Endlosschleife ohne Ergebnis macht. Sehr schoen.
[/bauerm]
permanent link
Kwalitaetssoftware, wohin man blickt! Der Apple iCal benutzt den Apple iSchluesselring wenn man ein .ics File
aus dem Netz "abonniert". Wenn da drin ein Username steht, der nicht auf das File zugreifen darf, dann
fragt iCal nochmal nach Username und Passwort, __verwirft__ diese dann aber. Erst wenn man die Info mit dem
falschen Usernamen aus dem iSchluesselbund entfernt, wird die eingetippte username+passwd Info benutzt,
um die Datei zu holen.
[/bauerm]
permanent link
Zu dem alten Post ueber nexenta SVCs:
Sollte einer der "services" in Zustand "maintainance" haengenbleiben, dann muss man ihn erst mit
svcadm clear $dersevicenamederwieeinerurlausschaut
von seinem Makel befreien, sonst laesst er sich nicht starten..
Jonathan hat dem neuen Zabbix eine neue DB gegeben, dementsprechend musste auch cipmap leicht modifiziert werden....
[/bauerm]
permanent link
Das Zabbix hat nach dem Upgrade _alle_ Server als "unreachable" gemeldet (dabei aber gleichzeitig froehlich
Daten von ihnen eingesammelt). Das lag --- wie sich rausstellte --- daran, dass es ausgeloeste
Trigger in den alten Daten gab, die wir in die neue rueberkopiert hatten, und zu diesen Triggern
gab es keine items mehr, die haetten melden koennen, dass die Maschinen wieder erreichbar sind.
Loesung war, per SQL die Trigger zu finden und zu loeschen, "Loeschung als Loesung" wie das der
Jonathan ausgedrueckt hat.
(Die tolle normalform ist IIRC: host -> item -> function <- trigger, aber in trigger stehen dann
die IDs der functions in einem _string_, z.b. {12345} > 1, heisst, wenn der messwert, der zu dem
item gehoert, dass von der function 12345 referenziert wird, kleinergleich 1 ist, dann wird der
trigger ausgeloest.)
[/bauerm]
permanent link
Verdammt. Mehr als eine Stunde Downtime, weil nach einem NexentaStor Upgrade die Linux Kernels mit
INFO: task $processname:$pid blocked for more than 120 seconds.
rumjammert und man sich nicht einmal einloggen kann, wenn die UId nur lokales HOME hat. Aus letzterem
Grund konnte ich auch keinen Downgrade auf NFSv3 per puppet durchsetzen, weil man eben gar nicht
auf die Kisten kam. Nachdem beide heads wieder auf 3.1.4.2 runtergezogen sind, geht jetzt wohl alles
wieder.
Happrauxpault: mit der neuen puppet version gibts kein
puppet kick $hostname
mehr, weil aeh, man soll noch ein tolles Tool installieren (mcollect), das in Java geschrieben ist, und
AMPQ benutzt. Na klar.
[/bauerm]
permanent link
Inzwischen eine Menge ueber PHP Plugins innerhalb von Typo3 gelernt, und dabei das Workshop-Registration-Plugin
umgebastelt. Wird von der kommenden Fall School benutzt werden. (Danke an Wigand!)
Dank freundlicher Unterstuetzung des Herstellers GuRoBi (Optimierungssoftware) im PC Pool installiert.
Sollte jetzt von einer Shell aus mit gurobi.sh zu rufen sein. Lizenzserver ist die neubau-33.
[/bauerm]
permanent link
Aarrrgl. Typo3. Wenn man ein Plugin umschreibt, dann muss man dem Typo3 sagen, dass man
was gemacht hat, weil es sonst naemlich die alte Version weiter anzeigt. Und wie sagt
man das wohl????? Indem man unter "Extension Manager" den Punkt "Backup/Delete" anklickert!
Na klar.
[/bauerm]
permanent link
Wenn die Dienste auf der Nexenta nicht mehr moegen (deadlocks? dbus-hang-yourself-service-busd?),
dann ist die Empfehlung des Herstellers:
svcadm -v disable nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon
[... warten ...]
svcs nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon
[ wiederholen, bis alles "offline" ist ]
[ Sachen, die in "maintainance" steckenbleiben mit 'svcadm clear $svc' restartbar machen ]
[ Die logs, die man per 'svcs -vx' angeboten kriegt, helfen gar nix, typischerweise "restarting too quickly" ]
svcadm -v enable nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon
svcs nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon
[ wiederholen und warten, bis alles wieder "online" ist ]
[ Das SUN svc-framework weiss seit 199x ueber Abhaengigkeiten Bescheid, was die Linuxler bis jetzt nicht auf die Reihe kriegen ]
[/bauerm]
permanent link
Ein Dell Laptop hatte das interessante Symptom, dass es nach wenigen Minuten eingefroren ist,
spaeter hat es nicht einmal mehr gebootet (nur eine der Caps/Num-Lock LEDs hat geblinkt).
Stelltes sich raus, dass ein RAM-Modul nicht richtig im Sockel stak. Dies Latitude Serie
ist gut konstruiert, man kommt leicht an den Speicher und die haben sogar dran gedacht,
die BIOS-Batterie mit in den Schacht zu legen, so dass auch diese extrem einfach zu wechseln
waere.
[/bauerm]
permanent link
Folgendes Script liefert auf dem management alle MAC Adressen von cip-Pool Rechnern:
#!/bin/sh
echo "select computer.hostname, mac_address.mac_address from mac_address, computer where computer.hostname like 'cip-%' and mac_address.computer_id = computer.id;" | sudo -u postgres psql -U postgres inventar
(Ja, man haette das auch mit einem JOIN machen koennen...)
[/bauerm]
permanent link
Das NFSv4 hat ernste Probleme. Man kann auf zwei Maschinen parallel ins HOME
schreiben, und wenn man dann per
ls -lrt
die Dateien nach dem Zeitpunkt der letzten Aenderung sortieren laesst, kriegt
man auf beiden Maschinen verschiedene Outputs, d.h. die Metadaten werden nicht
synchronisiert, und das fuer _Minuten_!
[/bauerm]
permanent link
Frau Echtermeyer kann wieder streifenfrei drucken. Nach langer Fehlersuche konnten wir
das PPD fuer den Drucker als Taeter identifizieren, und Nikos hat ein anderes PPD
installiert, mit dem es jetzt geht!
Nach nur zwei Stunden (in Minuten: 120) konnten Bjoern und ich in den Sourcen von paramiko
den Bug finden, der das fabric fuer uns unbenutzbar gemacht hat. In der Routine zum
Einlesen von ECDSA keys wird die KeyWord Option "validate_points" nicht explizit auf False
gesetzt, was den Code in ecdsa/keys.py (anderes Python Modul) dazu bringt, die Parameter
im gelesenen Key auf Korrektheit zu pruefen und das dauert bei 773 Keys im known_hosts
dann 20 Sekunden pro Aufruf. Da die Keys in known_hosts sowieso schonmal im Betrieb
getestet wurden (sonst waern sie nicht drin), kann man IMHO davon ausgehen, dass die
zumindest wohlgeformt sind. Sobald man "validate_points=False" reinschreibt, gehts
wieder blitzschnell.
[/bauerm]
permanent link
Heut sind von 11:03 bis 11:05 auf manchen Mitarbeitermaschinen die HOMEs
weggewesen. Nach einiger Recheche stellt sich raus:
- NFS mounts erlauben wir nur von Maschinen mit Namen in {mi,am}.uni-erlangen.de
- der Fileserver muss also reverse-lookups auf IPs machen
- dazu muss er mit einem DNS server reden, wenn die IP->Name Abbildungen nicht
alle in /etc/hosts stehen
- der einzige(!) DNS Server in /etc/resolv.conf ist eine Windows AD Maschine
vom RRZE
- das ist so, weil die Microsoftler Deppen sind, und deswegen ein AD nur dann
zum Authentisieren genutzt werden kann, wenn er auch gleichzeitig der einzige
DNS Server ist. Den AD brauchen wir fuer unsere Studentischen Arbeitsplaetze.
- und dieser eine AD/DNS Server wurde unangekuendigt rebootet
- und deswegen konnten die Wissenschaftlichen Arbeitsplaetze, die gar keinen AD
benutzen, auch nicht an die HOMEs
Abhilfe (ungetestet): alle Maschinen ins /etc/hosts vom Fileserver. Wenn neue Namen auftauchen,
muss man in dieser Datei nachziehen...
[/bauerm]
permanent link
Viel passiert inzwischen, unter anderem
- hat Jonathan den Installserver sicherer gemacht (sshfs statt nfs)
- hat Bjoern den puppet master so eingerichtet, wie die Programmierer
sich das gedacht haben, naemlich mit apache+rack+passenger
- wurden dabei auch gleich noch ein paar sehr alte configs angepasst
Dank Unterstuetzung im RRZE durften wir zwei fette HP Drucker anschaffen
(laut Hersteller fuer Lasten von 30.000 Seiten pro Monat ausgelegt),
die jetzt im Kopierraum 1.Stock und natuerlich im CIP Pool ihren
Dienst tun. Das Adobe Reader Plugin fuer den Firefox kann
PDFs so kaputtmachen, dass auch diese Drucker sie nicht mehr moegen,
also Finger weg von dem Muell!
[/bauerm]
permanent link
29.04.2014,
Den 2ten unserer neuen Drucker heute in den PC-Pool gestellt.
Angeschlossen, konfiguriert, Papier aufgefuellt und getestet -> geht :)
Er ist jetzt cip1-printer4. Den alten cip1-printer4 abgebaut und im
Serverraum eingemottet (ein Papierfach ist defekt und hat immer
Papierstau verursacht).
[/bayer]
permanent link
28.04.2014,
Am Freitag wurden unsere beiden neuen Drucker geliefert.
HP LaserJet M806 (A4 und A3). Einer wiegt um die 86 KG 8)
Der erste der beiden ist nun im Printerraum 01.310 (printer-70) installiert
und laeuft soweit. Der zweite soll in den grossen PC-Pool.
[/bayer]
permanent link
24.04.2014,
Maple 18 installiert, ist jetzt im Netz verfuegbar (Department und PC-Pool).
Matlab 2014a Research installiert (nur Department).
[/bayer]
permanent link
OK, die stuendlichen Snapshots gehen wieder
(Einige Stunden spater:)
Auch die taeglichen Snapshots gehen wieder
Apple ist soooo benutzerfreundlich. Wenn der User mit Safari oder Firefox eine
PDF Datei runterlaedt, vermutlich in der Absicht, sie zu lesen oder zu drucken,
dann zeigen Preview (dt. Vorschau) und der Adobe Reader die Fehlermeldung
"Die Datei ist beschaedigt"
und schlagen vor, sie in den Muell zu werfen.
Wenn man die Datei mit pdf2ps nach PostScript wandelt und dann mit Preview "oeffnet",
dann wandelt der es wieder nach PDF und kanns anzeigen. Wenn man die Datei nach
/tmp bewegt und in $HOME/Downloads einen symlink nach /tmp/$diedatei.pdf macht,
kann ers auch anzeigen. Wunder der Technik (und User Experience, im Folgenden als UX
abgekuerzt). Nachdem die Apple Community ja vieleviele Foren hat, schaut man da
mal rum und findet Kwalitaetsvorschlaege wie z.B. den Adobe Reader Plugin zu entfernen
(der hat ja funktioniert), den Adobe Reader auf eine bestimmte Version zu bringen
(unsere ist neuer), die Datei nochmal runterzuladen (bringt nix), sie mit dem
Disketten-Icon des Reader Plugins zu speichern (bringt nix), usf.
Also in der Shell mal schaun, was an diesen Dateien anders ist:
file *
sagt, dass sind alles PDFs,
ls -l
in zeigt Zeilen der Form
-rw------@ 1 user group 135245 Jan 19 2014 tr-20003.pdf
Was bedeutet der Kringel am Ende der Permissions??? Also in die Manpage von ls(1)
geschaut. Keine Erwaehnung des Kringels (UX++). Mit
ls -lO
nach moeglichen BSD flags (chflag(1)) geschaut, keine. Tante Google verweist
auf eine Erklaerung, dass das "extended attributes" sind (wie das MacOS die
auf NFS gespeichert kriegt waer noch spannend). Mit
xattr $datei.pdf
kann man sehen, dass hier
com.apple.quarantine
als Attribute gesetzt ist, mit
xattr -d com.apple.quarantine $datei.pdf
kann man das auch entfernen, und die PDF Viewer akzeptieren die Datei dann,
aber beim naechsten Download hat man das Problem ja wieder (UX++).
Eine Moeglichkeit, diesen Unfug zu beenden, ist angeblich
defaults write com.apple.LaunchServices LSQuarantine -bool NO
Das kann man als User und als Sysadmin eingeben und kriegt eventuell verschiedene Antworten
auf
defaults read | grep LSQ
(UX++)
Wenn man in der Suchzeile rechts oben "Launch" eingibt, kriegt man keinen Hinweis auf
diesen Service, der fuer andere Programme Daten ablegt und diese lustigen xattr dranhaengt
(UX++).
Und nochwas: Wenn man in einem Terminal auf MacOS eine Pipe | tippt, muss man wegen
den kranken Tastaturen auf Alt+7 druecken. Wenn man danach noch einen Space tippert,
weil das einfach schoen ausschaut, und den Finger nicht von der Alt-Taste genommen
hat, dann wird da ein Space auf den Bildschirm gemalt und man tippt froehlich weiter,
zum Beispiel
defaults read | grep LSQ
Dann kriegt man den Fehler
grep: command not found
und tippt
which grep
was
/usr/bin/grep
liefert.
Was ist die Erklaerung? In den Mac-Guru-Foren wird empfohlen:
1. das System neu zu installieren
2. die Tastatur an einen anderen USB Port zu haengen
3. eine PC Tastatur zu nehmen (eh schlauer)
Was aber das tatsaechliche Problem ist:
Das nach der Pipe ist kein Space (U+0020),
sondern der non-breaking Space (U+00A0). Und der ist (auch bei Apple(TM))
nicht in der Liste $IFS der Field-Separators der Shell und wird deswegen als Teil des Kommandonamens
genommen, und ein Kommando " grep" gibt es wirklich nicht.
What were they thinking?!??
[/bauerm]
permanent link
Probleme mit Nexenta:
1. die cronjobs ("runners") die stuendlich, taeglich, woechentlich Snapshots machen,
haengen wegen einem angeblich noch laufenden snapshot.
2. damits nicht so langweilig ist, hingen auch noch die WebGUI und die Kommandozeilenoberflaeche,
wenn mann letztere nach dem Zustand der runners befragt.
Ist gemeldet, und nach einem svcadm disable,enable,clear,restart scheint zumindest
die Web GUI wieder dazusein, und die CLI meldet sich wieder. Ob snapshots gemacht werden....
[/bauerm]
permanent link
17.04.2014,
Gestern war die Software Maple ohne Funktion. Programm aufgerufen -> Lizenz Error !
Mail an die Software-Leute des RRZE ergab, dass der von uns benutzte Lizenz-
Server abgeschaltet wurde. Die Mail mit der Ankuendigung kam bei mir nicht an.
Alle Maple Installationen auf den neuen Lizenzserver umgebogen.
Mail ueber Umstellung von Matlab kam heute: Aus technischen Gruenden wurde der
Lizenzmanager fuer MATLAB Research auf dem neuen Lizenzserver license1
installiert. Alle Matlab Installationen heute Morgen umgebogen.
Die Teaching Version von Matlab behaellt den alten Lizenzserver nur die
Research Version ist von der Umstellung betroffen.
Die beiden Dozenten-Rechner in den Prakrikumsraeumen machen uns Sorgen:
leider ist es nicht nur so, dass aufgrund der fehlenden Graphikkarten auf den
Dozentenrechnern in den Praktikumsraeumen Paraview nicht laeuft, sondern auch
Matlab abstuerzt wenn man mittelgrosse bis grosse Plots erstellt. Die Beamer
haben nur einen VGA-D-SUB Anschluss.
Die Nvidia-Karten wurden bei den Dozenten Rechnern entfernt um mit den Beamern
arbeiten zu koennen ... wir sind auf der Suche nach einer Loesung ... die wir
in Form eines Puppet-Moduls gefunden haben. Es wird per Puppet ueberprueft ob eine
Nvidia-Karte vorhanden ist, wenn nicht werden alle Nvidia-Treiber deinstalliert
und ein Intel-Treiber nachgeschoben. Tests mit Paraview und Matlab stehen noch aus.
Bjoern macht immo einen Webserver Abzug um diesen in einer Virutellen Maschine
ans laufen zu bekommen -> Typo3 Update steht an.
Mit dem Tool: http://schwarzvogel.de/pkgs/lib_users-0.7.tar.gz die Server ueberpruefgt,
ob noch und ggf. welche Prozesse "geloeschte Bibliotheken" verwenden (Heartbleed Bug).
Neue Ueberlegung zum FAI Installer: Wir sollten Generell von PXE Booten und dann ent-
scheiden ob installiert wird oder nicht (spart die Rennerei durchs ganze Haus bei einer
Neuinstallation).
[/bayer]
permanent link
Nach dem katastrophalen Bug in OpenSSL wird klar, dass die Grundannahme der Public Key
Kryptographie einfach falsch ist, naemlich, dass der geheime Schluessel geheim bleibt.
Bis wir was besseres kriegen, haben wir nach einem Update der betroffenen Libraries
erstmal alle Server-Keys ersetzt, bei denen Benutzer sich per Passwort ueber TLS/SSL
einloggen konnten (WWW/SMTP/IMAP). Server ohne normale Benutzer werden nachgezogen.
[/bauerm]
permanent link
Heute gabs einen Nexenta-Head-Umschwenk, von der alten Version 3.1.4.2 auf nexone
zur 3.1.5 auf nextwo. Leider enttaeuschend, weil die HOMEs von Linux und MacOS
nicht mehr vernuenftig zugreifbar waren. Also Schwenk zurueck und Downgrade
von nextwo auf 3.1.4.2.
Beide Heads gehen wieder, per Failover getestet.
Im CIP Pool eingefuehrt, dass User ohne HOME sich nicht einloggen koennen. Dafuer
ein kleines pam Modul geschrieben, das man in common-session einbaun kann.
Nach einem seltsamen Problem auf den Nexentas (kein Traffic nach aussen), hat
Martin --- nach Art von Sherlock Holmes' "Wenn alles Moegliche ausgeschlossen ist..." ---
eine Filterregel ausserhalb unseres Netzes als die Schuldige erkannt.
[/bauerm]
permanent link
Wenn man sehen moechte, welche Hardewareprobleme ein HP Server hat, so geht das
mit
hplog -v
zum Beispiel gestern frueh:
ID Severity Initial Time Update Time Count
-------------------------------------------------------------
0018 Repaired 05:46 04/01/2014 05:46 04/01/2014 0001
LOG: System Power Supply: General Failure (Power Supply 2)
0019 Repaired 05:46 04/01/2014 05:46 04/01/2014 0001
LOG: System Power Supplies Not Redundant
[/bauerm]
permanent link
Der angekuendigte Stromausfall ist ohne Probleme rumgegangen. Das einzige, was nicht
funktioniert hat, waren die DECT Telefone. D.h. wenn etwas anderes nicht funktioniert
haette, z.B. punktuell das Netz bei einigen Mitarbeitern, dann haetten wirs nicht
gut mitgekriegt.
Zusammen mit Nikos und Kathrin das Problem der hohen Last auf Monitor angegangen.
Wenn man einen zabbix-proxy installiert, muss man auf den betroffenen Clients
den "Server" im zabbbix_agentd.conf auf den Proxy umsetzen, was natuerlich leicht
mit puppet zu machen ist. Aber das umkonfigurieren der Clients am Server, so dass
der die Werte vom Proxy und nicht vom Client erwartet, ist nicht skriptbar.
Webprogrammierer, der Teufel soll sie alle holen. Also entweder einen Hiwi eine
Stunde klickern lassen, oder bei einmal Klickern das SQL Statement mitsniffen,
das die Konfig in der Datenbank aendert und dann damit skripten...
Wieder mal die Eleganz der Softwarebestellung beim RRZE bewundert. Die Preise stehen
in einer Liste, die kryptischen Codenamen der Lizenzen auf einer zweiten und bestellen muss
man die Lizenzen mit einem Formular, das Daten aus beiden Listen erfordert.
Noch ein Spass: das LDAP, das getpwent und der Kerberos haben verschiedene Ideen von
Gross- und kleinschreibung. Dem OpenLDAP gross/Klein egal, wenn
man versucht, uids von Gross nach klein zu aendern. Das getpwent liefert aber die
Grosse Version, und der Kerberos findet dann keinen User dazu, weil der scheinz
alles kleinmacht. Also: User im LDAP loeschen, user neu anlegen, gleiche posixUid
geben, dann gehts wieder.
[/bauerm]
permanent link
Die Report-logs vom puppet dashboard und die MySQL Datenbank gleichen Inhalts sind wieder mal
uebergelaufen. Wenn man in MySQL "OPTIMIZE TABLE tablename" startet, dann explodiert
der Speicherverbrauch auf der Platte. Wenn die Platte vorher schon knapp mit freiem
Speicher war, dann wird das nicht fertig...
Es gibt jetzt einen Laptop fuer die CIP Aufsicht, so dass wir auch im PC Pool 1 sichtbar
anwesend sein koennen.
[/bauerm]
permanent link
Stichtag fuers Druckkontingent! Alle Durck-Accounts der Studenten auf 0 Euronen gesetzt,
damit die Buchhaltung uns nicht Geld verweigert.
Kwalitaetssoftware, wohin man blickt: gvfsd-metadata (ein daemon, dessen Zweck eher unklar ist),
frisst auf zwei Maschinen 50% CPU und macht 3Mb/s kontinuierlich Schreibvorgaenge auf
stale NFS files. Laesst sich toeten, ohne dass jemand was merkt....
Bjoern hat einen gitlab-Server aufgesetzt, wo wir git Repos mit Bugtack und Projektwiki
anbieten koennen. Momentan sind unsere internen Projekte drin.
[/bauerm]
permanent link
Zum zweiten Mal hat jemand eine Kaffeesatz-Auffangschale unwiederbringlich in den Muell
geworfen. Wenn die Leute nicht mal eine Kaffeemaschine korrekt bedienen koennen, soll
man ihnen einen Rechner hinstellen???
Zabbix Test fuer die Anwesenheit von Rcmdr implementiert. Momentan ueberall im CIP installiert.
[/bauerm]
permanent link
Stromausfall im zweiten Stock. Die Leitwarte ist informiert
[/bauerm]
permanent link
Nachdem das lshw auf HP ProLiant Servern 100% CPU frisst, ohne ein Ergebnis zu liefern,
machen wir das jetzt dort nicht mehr, um die Graphic Karte zu erkunden (eh Unfug auf
den Servern)
[/bauerm]
permanent link
Weissburgunder ist jetzt auf precise, und haengt am management. Fehlt nur noch der
virtserver.
[/bauerm]
permanent link
Mit Patrick ueber die neue Version der Druckeraccountverwaltungssoftware geschaut,
muss noch ein bisschen was gefixt werden, sonst schauts gut aus.
Mitarbeiterseite angelegt/reaktiviert. Das Typo3 ist sehr seltsam.
[/bauerm]
permanent link
Auf folgende Art kann man einen mercurial (hg) Repository Server auf Ubuntu installieren,
der beim commit/push gegen libpam authentisiert. Das kann dann pro Repository noch
eingeschraenkt werden:
/var/hg angelegt und auf www-data chownen
hgweb.wsgi aus /usr/lib/python*/site-package/mercurial/... nach /var/hg/cgi kopieren
/etc/apache2/conf.d/hg;
WSGIScriptAlias /hg "/var/hg/cgi/hgweb.wsgi"
[/bauerm]
permanent link
iMac setup: Userhomes am besten ueber /etc/auto_home: dort /home $server:$exportpath $options
eintragen. User anlegen, z.b. mit dem graphischen Tool. Dann die UID der User auf die
im NFS umbiegen:
dscl . -change /Users/$username UniqueID $old $new
wobei $old im Bereich ab 501 liegt.
MacTex von tug.org/mactex installieren.
[/bauerm]
permanent link
11.02.2014,
Bei unseren Rechnern sterben so langsam die Festplatten weg.
Status Remaining LifeTime(hours) LBA_of_first_error
Completed: read failure 90% 20844 87185771
Wir haben 5 Jahre Garantie ... zum Glueck.
Wir haben uns leider aus einem Drucker ausgesperrt. Wenn man den Drucker jetzt
ueber den Menuepunkt "auf Werkseinstellungen zuruecksetzen" zuruecksetzt, wird
alles zurueckgesetzt nur nicht die Netzwerkeinstellungen ...???
Auf Nachfrage wurde uns mitgeteilt, (Danke dafuer an die Firma Frasch) dass es in einem
geheimen Menue einen geheimen Punkt gibt, der die Ruecksetzung der Netzwerkeinstellungen
zulaesst.
[/bayer]
permanent link
06.02.2014,
Wir haben nun 3 (in Worten: DREI) neue Hilfskraefte :)
Sie stehen ab naechstem Semester bereit und werden
hier mitwirken.
[/bayer]
permanent link
Unsere Mailinglisten entsprachen nicht den Vorgaben, die auf der internen Infoseite
dazu erklaert waren. Peinlich... Angefangen, das geradezuziehen und die Infoseite
etwas eindeutiger gemacht.
Stellt sich raus, dass Lexmark Drucker, wenn Sie Input bekommen, der um Letter-Format Papier
bittet, diesen Input still wegschmeissen. Fuer CUPS heisst das: "Erfolgreich 0 Seiten gedruckt".
Und natuerlich keine Fehlermeldung oder sonstwas. Drecksglump.
[/bauerm]
permanent link
31.01.2014,
Greeter Text im CIP-Pool geaendert da wir Hilfskraefte brauchen:
ACHTUNG: Wir suchen Studentische Hilfskraefte
in der Rechnerverwaltung !!!
Bei Interesse melden Sie sich bitte hier
in der Mathematik im Raum 01.330
[/bayer]
permanent link
Ubuntu installiert den gnome-keyring-daemon, und das auch fuer gpg. Das heisst,
dass Enigmail (gpg-plugin fuer Thunderbird) den gpg-agent startet, ihn dann aber
nicht benutzt, weil der gnome-keyring schon laeuft. Damit ignoriert er natuerlich
auch alle Einstellungen, die man fuer gpg-agent angelegt hat, und gnome-keyring-daemon
kann nicht so einfach konfiguriert werden, passphrases nach k Sekunden zu vergessen.
Tipp aus einem Forum: "Dann loesch doch einfach /etc/xdg/autostart/gnome-keyring-daemon-gpg"
Darauf im Forum: "Dann hat gar kein User mehr gnome-keyring-daemon"
Antwort im Forum: "Ach so, Du hast mehrer User auf der Maschine?"...
Gnome, die Single-User-Oberflaeche.
[/bauerm]
permanent link
Wieder was gelernt. Wenn der Mailserver jemandem die falsche UID zuordnet, dann
reicht es _nicht_ nscd und nslcd zu restarten, nein, man muss auch dovecot
selbst restarten, weil das die Daten _nochmal_ cache-t.
[/bauerm]
permanent link
Aaargl. Der Fileserver reagiert extrem zufaellig und extrem langsam. Eine Matlab Uebung
konnte praktisch nicht gehalten werden, weil das zu zaeh war. Top sagt, dass 31%
der CPU Zeit im Kernel verbracht wird.
Pingstatistik:
1893 packets transmitted, 1893 packets received, 0.0% packet loss
round-trip min/avg/max/std-dev = 0.142/12.511/1579.616/65.738 ms
^^^^^^^^^^^^^^^
Also 1.5 Sekunden warten auf ein Ping. Der Rest vom Netz ist schnell. Statistiken
auf der Maschine (top, nfssrvtop, darkstats, snoop, arcstats, dladm show-aggr -s) sagen,
dass alles im unteren gruenen Bereich ist, massen Speicher, CPU, Platte, Cache frei,
Platten schnell, Netz super....
Loesung, die der Martin vorgeschlagen hat: nfsd als Service stop, starten. Und schon
geht alles wieder. Wenn man im Userspace absolut nix sieht von den Performanceeinbruechen,
dann sieht das nach Kernel-Problemen aus. Und dass jetzt die CPU nur noch 1.7% im
Kernel verbringt klingt auch nach uneffizienten Datenstrukturen, Huehnerkaempfe um
Locks und sowas.
[/bauerm]
permanent link
Seit 6.1 gabs unglaublich viel Datenverkehr auf dem Storage-Switch, also am
Fileserver. Weil wir dem Output von Darkstat nicht glauben wollten, hab ich
folgenden Einzeiler geschrieben, der die haeufigsten Kommunikationspartner
des Fileservers auf demselben raussucht:
snoop -c 100000 -d aggr1 cluster | awk '{print $1; print $3;}' | sort | uniq -c | sort -n | tail
Stellt sich raus, dass helios 99% Prozent des Traffics erzeugt hat. Warum, ist
noch unklar (NFSv4 Bug in Linux? Klingt extrem wahrscheinlich...).
Den zweiten Fileserverhead auf Nexenta 3.1.5 gebracht. Und natuerlich macht der
Upgrade wieder einen Downgrade des Coraid Etherdrv, so dass wir falsche Meldungen
zu angeblich nicht verfuegbaren Platten kriegen... Also auch noch re-upgrade
des Treibers auf 6.0.5-R3...
[/bauerm]
permanent link
Die neubau-103 war der erste Server aus dem Neubaubestand, also hatten wir da alles
Moegliche, vom Installserver bis zu DHCP server mal drauf. Der Update hat das
alles weggeraeumt, wodurch man schoen sehen konnte, wo in der Infrastruktur noch
die neubau-103 vorkam. U.a. stand in den DHCP Options fuer den PC Pool die 103
als TFTP Server drin. Gefixt.
Latuernich hab ich was uebersehen: der kerberos key fuer die neubau-103 war nicht
nur auf ihr selber falsch, sondern auch im puppet. Also wurde der richtige
nachts ueberbuegelt. Gefixt.
Dovecot hat beim Versionsupdate sein eigenes Konfigfile nicht mehr gemocht, also
Rumgewuerge mit Wiki eintraegen von dovecot.org, bis das so halbwegs ging.
Ein paar globale User waren auf der neubau-103 auch lokal vorhanden, mit anderen
passwoertern _und UIDs_. Dang. Gefixt.
Das roundup (bugtracker) konnte keine Mails mehr verschicken, was wiederum verhindert
hat, dass wir das als Bug eintragen konnten: Der unmeldbare Bug!!!
Dank Nikos gibts jetzt im Zabbix einen "Screen" der die Interface Statistiken der
relevanten Server im Keller graphisch darstellt.
Fabian hat in den letzten zwei Tagen noch die fehlenden IMAP/Roundcube Features gefixt,
Danke!
[/bauerm]
permanent link
Unsere Tests am Freitag haben funktioniert, aber an der Flut von > 200 parallelen
IMAP Sessions scheitert die dovecot-default-config. Der relevante Abschnitt im config file:
service imap-login {
service_count = 0 # Was sonst ?!?
}
Das startet parallele auth-daemons, wenns eng wird. Tut, mehr als 240 User Verbindungen
geleichzeitig.
Auf einigen Maschinen ist die Unity Leiste am linken Rand des Desktops verschwunden.
Man kann restarten was man will, nur reboot hilft. Kwalitaetssoftware wohin man blickt...
Auf zwei Maschinen sind Platten ausgefallen, eine mit dem huebschen Effekt, dass
smartctl meldet, es haett leider gar keine Daten ueber die Platte, ausser dass
sie 4.16 GB gross ist (die Platte hat 1TB).
Die FSV Software wirft Fehler. Auf Nachfrage stellt sich raus, dass der Server
auf neuen Stand gebracht wird, und keine Buchungen moeglich sind _bis 13ten Januar_!
[/bauerm]
permanent link
Mailserver Update ist im wesentlichen durch. Was noch nicht geht, ist das
managesieve... Die Maschine hat jetzt neueste Firmware, einen 3.8 Kernel,
alle ubuntu updates, usw Und latuernich haben mehrere Programme inszwischen
eine andere config-file Grammatik, damits nicht so einfach ist...
[/bauerm]
permanent link
Ein Bot hat auf einem unserer Drucker Unfug gedruckt. Und der Drucker hat zwar eine
Access Control List, ignoriert die aber nachweislich. Wuergaround: Der Netzwerk-konfig
den default-router wegnehmen, dann geht schon mal kein TCP von draussen mehr, und weil
der printserver im gleichen netz steht, koennen wir noch drucken. Bled das...
[/bauerm]
permanent link
Gerade festgestellt, dass TeXmaker den Spellchecker myspell benutzt, und der default
nur ein deutsches Woerterbuch installiert (in /usr/share/myspell). Ein US-Englisches
nachinstalliert.
[/bauerm]
permanent link
10.12.2013,
Es ist garnicht sooo einfach unter Windows 7 SP1 Professional ein Sprachpaket zu installieren.
Bei den Versionen Ultimate und Enterprise ist der Sprachwechsel vorgesehen ... nicht so
unter den Versionen darunter.
Sprachpaket hier herunterladen: http://www.technize.net/windows-7-sp1-language-packs-direct-download-links-kb2483139/
Dann das Programm exe2cab hier herunterladen: http://www.y-m-e.net/wp-content/uploads/2011/05/exe2cab.zip
Nach der Umwandlung des Sprachpakets, dieses installieren: dism /online /add-package /packagepath:c:\das-cab-file.cab
Danach mit diesem Tool das Sprackpaket auswaehlen: http://www.froggie.sk/
Und schon hat man z.B. unter einem Deutschen Windows auch Englisch zur Auswahl ;)
[/bayer]
permanent link
Waaaaahnsinn. Der puppetmaster meldet seit Jahren immer wieder
Could not retrieve catalog from remote server:
Error 400 on SERVER: could not obtain a database connection within 5 seconds.
The max pool size is currently 5; consider increasing it.
Damit will er keineswegs sagen, dass die Datenbank zu wenig Verbindungen annimmt.
Tatsaechlich hat das verfluchte ActiveRecord (Ruby ORM) einen Pool von Verbindungen
zur Datenbank, ueber die es mit einem globalen Lock herrscht. Standardmaessig sind
das fuenf Verbindungen, um die sich die Objekte dann pruegeln koennen, wenn sie in
die Datenbank geschrieben werden moechten. Und wie das bei Objektorientierung so
ist, hat fast jedes Objekt noch ein Schwesterchen, fuenf Kinder und vierzig Enkel,
so dass es ganz schoen eng werden kann. Die Fehlermeldung kommt von der ungefangenen
Exception in ActiveRecord, und das kann natuerlich nicht wisssen, dass die configoption
in puppet
dbconnections
heisst. Wie auch sonst!
[/bauerm]
permanent link
The case of the duplicated serial number is solved! Stellt sich raus, dass der
Fuerstliche Hoflieferant auf einer Rechnung eine Seriennummer doppelt, eine andere
dafuer nicht genannt hat. Das so im Inventar unsichtbar gemachte Geraet
(Codename "Stealth Printer", deutsch: "Tarnkappendrucker") war im Keller unter einem
Stapel von Druckern mit Inventarnummern. Steht jetzt als "mystery printer" im
Inventar, sobald wir eine Inventarnummer vom Schloss kriegen, wird er als ehrbarer
Drucker eingetragen.
[/bauerm]
permanent link
Triumph der Technik! Die USV im Serverraum kann per snmpwalk abgefragt werden:
snmpwalk -v 1 -m Upsmate.mib -c public $usvip 1.3.6.1.4.1
Das MIB file hab ich von
http://www.megatec.com.tw/Download.htm#NetAgent.Manual
Der Output laesst noch zu wuenschen uebrig. Seltsamerweise muss man die gemeldeten
Sensoren naemlich am Geraet selbst einrichten, default ist da gar nix.
[/bauerm]
permanent link
Maileinstellungen der nicht-Mail-Server korrigiert.
Ein Techniker von AdPoS hat die USV im Serverraum durchgeprueft. Dabei ist aufgefallen,
dass die Batterien keine Polkappen haben, und zu eng am Gehaeuse stehen, als dass man
an jede rankaeme. Und natuerlich ist eine mittendrin defekt. In den naechsten Monaten
auswechseln...
[/bauerm]
permanent link
Unser Zabbix hat einen grauenvollen Verhau von Templates... Nach laengerem Einsatz von
Graphviz rausgefunden, dass das ciproot template das Template unter allen PC Messungen
ist (nicht nur im CIP pool). Items und Trigger also dort definieren.
Aufbauend auf den configs gestern vier Items und zwei Trigger fuer SMART Warnungen gebaut.
Anregung kam aus
http://research.google.com/archive/disk_failures.pdf
[/bauerm]
permanent link
Ein Zabbix agentd config gebastelt, das die relevanten SMART stats aus den Platten ausliest,
damit wir evtl frueher mitkriegen, dass sich eine zum Sterben hinlegt.
[/bauerm]
permanent link
Team Symmetriegruppen mit einem handgekrimpten 30 Meter Etherkabel fuer die Lange Nacht
der Wissenschaften ausgeholfen.
[/bauerm]
permanent link
Wenn Oracles Virtualbox neu installiert ist, und man ein USB Geraet einer Virtuellen Maschine
zuordnen moechte, bekommt man in Version 4.2.18 den Fehler, dass nur mit dem ExtensionPack
USB moeglich waere. Wenn man als root diesen ExtensionPack installiert, und dann also Normaluser
versucht, die gleiche Virtuelle Maschine neu zu starten (nach einem Restart von Virtualbox),
bekommt man den Fehler, dass nur mit dem ExtensionPack USB moeglich waere. Wenn man jetzt
also Normaluser versucht, den ExtensionPack zu installieren (was nicht klappen kann, weil der
nach /usr/lib entpackt wird), kriegt man den Fehler, dass der ExtensionPack schon installiert
ist. Erst danach wird erkannt, dass er tatsaechlich installiert ist, und man kann USB
Geraete benutzen. Kann man sich gar nicht ausdenken, sowas...
[/bauerm]
permanent link
Grade schmerzlich rausgefunden, dass die Default-Lifetime eines Zertifikats nach
openssl x509 ...
einige wenige Tage ist. Also den ganzen non-std Tanz mit den genrsa/req/x509/x509 -text/... nochmal
[/bauerm]
permanent link
Ubuntu Upgrade grossteils fertig, nur noch drei Maschinen sind natty!
[/bauerm]
permanent link
Nach drei identischen Installationen auf drei identischen Maschinen gabs bei der vierten
bei "apt-get update" den hilfreichen error:
W: GPG error: http://mirror.mi.uni-erlangen.de precise Release: The following signatures were invalid: BADSIG 384B82B07979BB93 ...
Das erklaert nicht, was da falsch signiert wurde, d.h. es gibt keinerlei Hinweise, wie
der Fehler zu beseitigen waere. Tante Google bringt als TOP hits drei Blog/stackoverflow
Eintraege, die einstimmig folgendes vorschlagen:
apt-get clean
cd /var/lib/apt
mv lists lists.old
mkdir -p lists/partial
apt-get clean
apt-get update
Keiner der Artikel erklaert, welches Problem dabei auf welche Art behoben wird. Zeile drei
koennte genausogut
opfereeinenschwarzenhahnbeimitternachtundstreuediefederninallewinde
heissen. Es hat was mit einem kaputten Zustand zu tun, den apt in /var/lib/apt/lists haelt
(auf dem mirror mussten wir gar nix aendern). Also ist die Fehlermeldug vllokommen flasch!
Nicht die Signatur ist kaputt, sondern irgendwas wurde nur teilweise runtergeladen und dann
faelschlicherweise nicht nochmal gezogen. So ein Rotz!
[/bauerm]
permanent link
Mysql mal wieder. Puppet-dashboard schmeisst Vehler, weils keine Fehlermeldungen in die
Relationale DatenBank (ACID!) schreiben kann. Das loggt puppet-dashboard in die logs,
mit einer Frequenz von ca 50 Hz, so dass die Platte volllaeuft. Hab fast alle TEXT
columns auf MEDIUMTEXT geALTERt.
[/bauerm]
permanent link
AAAAArgl. Also: bestimmte NVIDIA Karten vertragen das nvidia-current (oder nvidia-current-updates,
die Beschreibungen sind wortgleich, warum gibts dann zwei?), andere besser das
nvidia-319. Letzteres kann man nur installieren, wenn man vorher das andere entfernt hat.
Im puppet gefrickelt, dass dann der 319 installiert wird, wenn eine Quadro600 vorliegt,
sonst, wenn NVIDIA, dann current, sonst keine Aktion.
<knock KnockDirection="on" KnockMaterial="wood" KnockRepetitions="3" WithEmphasis="yes" />
[/bauerm]
permanent link
Wenn man im laufenden Betrieb die printer.conf von einem cupsd aendert, dann schreibt
der sie stillschweigend noch mal um. Und schmeisst dabei alle "Filter: " Definitionen
raus; d.h. man kann nicht mehr drucken. Kwalitaetssoftware wohin man blickt.
Neues facter Plugin geschrieben, dass mittels "lshw -C display" Hersteller und Modellnamen
der Graphikkarte ausliest. Relevant, weil die diversen NVidia Treiber auf manchen Modellen
nur in bestimmten subsubVersionen funktionieren.
Der puppetmaster sammelt die facts aller kontrollierten Maschinen. Diese sind auch
ueber Dashboard durchsuchbar (daher wissen wir jetzt wieder, dass zwei cip-Maschinen
gar keine Nvidia Karte haben...). Die Daten liegen in /var/lib/puppet/yaml/$hostname.yaml
(nicht etwa in /var/lib/puppet/client_data, oder .../client_yaml, oder .../facts).
[/bauerm]
permanent link
neubau-133 in Betrieb genommen.
[/bauerm]
permanent link
entdeckt, dass puppet-lint ganz nuetzlich waer, um unsere puppet-config zu testen.
Riesen-Diff am Horizont.
[/bauerm]
permanent link
Von Herrn Neurath am RRZE gelernt, dass folgendes Shell-Kommando ein AppleMacbook
updatet:
softwareupdate -a -i
Scheint zu tun. (Kein Update von Adobe Produkten oder Firefox)
Das Printadmin webapp ein bisschen geaendert.
Bjoern schraubt an einer L"osung PXE Installationen ohne PXE-faehige Mainboards
zu machen.
Castor auf neues Ubuntu gebracht. Fuers PXE Booten muss man _beide_ Interfaces
im BIOS einschalten.
[/bauerm]
permanent link
Bjoern hat rausgefunden, wie man das CUPS web interface auf https zwingt:
<Location /admin>
Encryption Required
...
</Location>
Muss man fuer alle Location-URLs wiederholen, wies ausschaut.
[/bauerm]
permanent link
Dem IBZ im H11 geholfen.
Studentische Druckabrechnung vorgezogen.
Probleme beim puppet-upgrade (der server hatte 3.3, weil in seinem apt-sources das
repos von puppetlabs drin war, die clients hatten 2.7 mit dem ubuntu-repos).
Inzwischen hoffentlich ausgebuegelt.
[/bauerm]
permanent link
19.09.2013,
mathe-backup nach der Stromabschaltung wieder hochgefahren.
Dabei das ILO4 noch upgedatet.
Verdrucktes Freikontingent fuer vergangenes Semester betraegt ca. 9100 Euro.
[/bayer]
permanent link
Beide Nexenta Heads auf neuesten Stand gebracht. Mit fmdump die Vehler- und Phaultreports
der letzten Monate angeschaut. Es kippen immer wieder mal Bits um, aber ZFS
repariert das immer automatisch. Warum das alles so langsam geworden ist, laesst
sich AFACS nicht aus den logs lesen.
Beide Nexentas ins ILO Netz gehaengt. Kommt aber nix an.
Die Nexentas schmeissen wieder die Heartbeat errors. Lieg an dem CoraidHBA Treiber,
der durch den Upgrade einen Downgrade erfahren hat. Also nochmal haendischer
update der Coraid-Driver. Dazu etherdrive-hba-solaris-6.0.5-R2.tar.gz auspacken,
dann
pkgadd -d . CORDethdrv
[/bauerm]
permanent link
Wir gehen mit der Zeit! Wallpaperupate
puppet war auf dem management auf version 3.3 und auf den clients auf 2.7. In
manchen Faellen fuehrte das dazu, dass der zentrale filebucket nicht ging,
was dazu fuehrte, dass gar keine Dateien mehr auf neuen stand gebracht wurden.
Auch auf den Clients neue puppet version
Dabei (wieder) gelernt, dass in /etc/apt/trusted.gpg.d/ keine MIME-codierten
.gpg files liegen duerfen. Wenn doch, dann schlagen _alle_ Signaturchecks
fehl (saudumm).
Wieder ein puppet-testnetz eroeffnet, momentan nur mit einer Maschine, aber
fuer kitzelige Aenderungen am Kerberos-Setup vielleicht geschickter.
Apropos, der authserver prueft jetzt per cronjob alle 5 Minuten, ob sich
ein Eintrag relevant geaendert hat, und synct dann die DB auf den secondary.
Tagesgeschaeft: User angelegt und in die zahlreichen ACLs eingetragen. Zugangskarten
fuer die PC Pools freigeschalten.
[/bauerm]
permanent link
Kaum hat man das eine am Laufen, faellt das andere zamm. Der puppet "tidy" Type
soll Dateibaeume aufraeumen koennen. Kann er aber nur fuer winzige Baeume mit
ein paar hundert Eintraegen. Auf dem Management, wos 1.x Millionen Eintraege
sind, frisst er statt dessen alles RAM und killt die Maschine. This is
a known bug (http://projects.puppetlabs.com/issues/21249). Weil das der
DHCP Server hier ist, bleiben dann die Arbeitsplaetze ohne Adresse, und damit
kann dann keiner Arbeiten...
Duplizierten DHCP Server aufsetzen als Fallback fuer den management..
[/bauerm]
permanent link
13.09.2013,
Hurra ... der authserver wurde heute Morgen upgedatet auf
12.04 lts. Files wieder zurueckgespielt und alle Dienste
wieder ans laufen gebracht. Das Wochenende kann kommen :)
[/bayer]
permanent link
Authserver update erfolgreich, wies ausschaut.
[/bauerm]
permanent link
Man sollte bei einem Kerberos Setup mit zwei Servern nicht vergessen, dass manche
Clients sich die Adresse(n) aus dem DNS holen, aus einem
_kerberos._tcp.$derdomain 10 1 88 SRV $derserver
ResourceRecord. Vom DNS Team nachtragen lassen.
[/bauerm]
permanent link
Aus gegebenem Anlass die Apache-Config so geaendert, dass Key-Agreement Protokolle bevorzugt
werden, die Perfect Forward Secrecy ermoeglichen. Die www.ssllabs.com stufen unseren
Server jetzt als A ein. In your face, Moody's!
Nikos hat im kompletten Gebaeude bei den Haengetafeln in den Bueros geprueft, ob die auch
fest an der Wand montiert sind (Gebot vom Sicherheitsbeauftragten). In 72 Faellen
waren die Halterungen gebrochen oder locker.
[/bauerm]
permanent link
10.09.2013,
Firefox Cache local legen:
about:config
anlegen als string:
browser.cache.disk.parent_directory
value:
/var/tmp
[/bayer]
permanent link
Nachdem der Fileserver unertraeglich langsam geworden war, haben auf allen
Ebenen Ursachen gesucht. Auffaellig ist, dass besonders die Syscalls
openat und fstatat unglaublich langsam waren, was ein Netzproblem praktisch
ausschliesst. Die Logs der LDAP Server zeigen keine auffaellige Aktivitaet
des Fileservers, sind also wohl auch nicht die Bremse. Letztlich scheint
es der NFSv4 Server selbst zu sein, der immer langsamer wurde. Heute, 10:00,
haben wir per Failover den anderen Head aktiviert und seitdem ist es wieder
ok.
Der Webserver hat jetzt ein Zertifikat, das praktisch alle denkbaren Hostnames
in https-URLS zulaesst. Hoffentlich keine Warnungen von Browsern mehr.
Patrick hat den Postgresql Server ueberlistet, tatsaechlich Authentisierung
per SSL-Client-Zertifikat zu akzeptieren: Auf der Serverseite in
pg_hba.conf
folgende Zeile rein
hostssl $username $datenbankname 0.0.0.0/0 cert clientcert=1
Der Server private key und sein Cert muessen im $HOME des postgresql users liegen, unter
$postgresversion/main/
mit passenden Permissions.
Auf der Clientseite folgendes (offensichtliches) Kommando
psql 'host=$server dbname=$datenbankname user=$username sslmode=verify-ca sslcert=client.crt sslkey=client.key sslrootcert=root.crt'
Maple auf neueste Version gebracht.
Weitere Tests mit dem LDAP/Kerberos Fallback Setup.
[/bauerm]
permanent link
Und nun die Aufloesung zu der Frage, wie man mit einem SQL Statement den Zustand der Rechner
im Zabbix abfragt:
now=`date +"%s"`
echo $now
cat << EOF | psql -U postgres zabbix
SELECT DISTINCT host, t.description, f.triggerid, t.value, i.lastvalue, t.lastchange
FROM triggers t
INNER JOIN functions f ON ( f.triggerid = t.triggerid )
INNER JOIN items i ON ( i.itemid = f.itemid )
INNER JOIN hosts ON ( i.hostid = hosts.hostid )
INNER JOIN events e ON ( e.objectid = t.triggerid )
WHERE
(e.object-0)=0
AND (t.value=1 OR (t.value =0 AND ($now - t.lastchange <60)))
AND hosts.status =0
AND i.status =0
AND t.status =0
GROUP BY f.triggerid, hosts.host, t.description, t.value, i.lastvalue, t.lastchange
ORDER BY t.lastchange DESC;
EOF
Sehnse, war doch ganz einfach.
Backupscript fuer die Auth-daten vom authserver umgebaut und getestet. Tut nach ersten Tests wohl.
[/bauerm]
permanent link
05.09.2013,
Alle iLO-Interface auf die Firmware 1.57 gebracht. Neuer Webserver-1 hatte noch keine
iLO-Adresse ... eingerichtet.
Die Login-Namen der Studenten aus dem AD geholt und mit unserem LDAP verglichen.
Bereinigung steht aus ...
[/bayer]
permanent link
Das Problem mit dem slapadd lag daran, dass slapcat (und slapd) automatisch /etc/ldap/slapd.conf
lesen, slapadd aber nicht. Daher kannte er die Schemata nicht, die dort importiert werden.
Man sollte auch nicht vergessen, nach einem slapadd das ganze Verzeichnis mit den OpenLDAP
Datenbanken nach openldap zu chownen :/
Die Konfigs vom Kerberos kann man latuernich nicht einfach rueberkopieren, weil das als
ldap://URL noch der authserver drinsteht. XXX sollte man auf beiden auf 127.0.0.1 stellen,
dan hat man das Gefuddel nicht mehr.
Scheint jetzt zu tun.
Patrick hat rausgefunden, wie man aus der Zabbix Database per SQL rauskriegen kann, welche
Trigger grad ausgeschlagen haben, auf welchen Rechnern und warum. Aufloesung folgt!
Dropbox in seiner Ubuntu Inkarnation hat beim Neustarten (von Dropbox) alle "Shared Folders"
verlassen. Laesst sich durch non-std Installation (von Dropbox.com) loesen.
Puppet kann nicht User Gruppen hinzufuegen, ohne die in /etc/passwd anzulegen. Wenn die
User schon im LDAP existieren, koennen sie sich danach nicht mehr einloggen :(
Loesung: Betroffene Gruppen aus /etc/group loeschen, im LDAP anlegen und user dort
hinzufuegen.
Ein Skript (ldap2nis.pl) zum Wandeln von LDAP Logindaten nach good-old /etc/{passwd,group}
so erweitert, dass es jetzt auch die Mitglieder einer Gruppe mit extrahiert. Somit
haben wir ein Fallback, notfalls die passwd/group per Puppet zu verteilen, und den
Kerberos neu aufzusetzen, wenn mit dem Authserver alles schiefgeht.
<knock KnockDirection="on" KnockMaterial="wood" KnockRepetitions="3"/>
[/bauerm]
permanent link
Stellt sich raus, dass Puppet Variablen aus site.pp o.ae. in EmbeddedRuby mit einem @ referenziert
werden muessen(?). Also
<%= variable %>
tut, aber
<% if defined?(variable) %><%= variable %><% end %>
tut nicht, weil es natuerlich
<% if defined?(@variable) %><%= variable %><% end %>
heissen muss. WTF??
Patrick verheiratet unser Inventar mit dem Puppet-Dashboard und mit den Zabbix Messwerten,
sehr schoen.
Auf den vmhosts noch hingekriegt, dass die nach der Installation nicht dauernd apt-get updates
machen, sobald mal das virtualbox repos in den apt-sources ist.
Seltsamerweise kann OpenLDAP seinen eigenen Output (slapcat) nicht lesen (slapadd stirbt
mit str2entry: invalid value for attributeType objectClass ...). Wuergaround fuer ein
backup basteln.
[/bauerm]
permanent link
Der Reboot von management hat nicht funktioniert, weil er noch offene filedeskriptoren
ins NFS hatte, die Prozesse unkillbar machen (bloede Idee, das). Was durchaus gekillt
wurde, ist der DHCP Server. Weil tatsaechlich zwei unserer Server ihre IP per DHCP
kriegen, und Linux lieber eine IP wegschmeisst, wenn der Server nicht antwortet,
sind uns die beiden weggebrochen.
Alle Server auf Statische IPs festgenagelt.
Neubau-31 ist jetzt offiziell zweiter Authserver.
Auch dovecot ist jetzt so konfiguriert, dass es evtl. auf den anderen LDAP server zugreift.
Tests mit dem "ausfallsicheren" Setup.
[/bauerm]
permanent link
Nach einigen Tests haben wir jetzt ein Setup, in dem LDAP und Kerberos von zwei Servern
gleichzeitig zur Verfuegung gestellt werden. Damit steht einem Server-Upgrade des
Authservers nicht mehr viel im Weg.
Der management haengt in einem apt-mirror, weil er nicht mehr auf das NFS Verzeichnis
schreiben kann. Warum das so ist, bleibt schleierhaft.
[/bauerm]
permanent link
29.08.2013,
Rechner neubau-55-011 von XP auf Win7 upgedatet. Rechner wurde gleich an
die fauad angeschlossen, damit ist dann auch ein Laufwerksmount zur Coraid
moeglich. Dem Rechner wurden 2 GB RAM gespendet, damit hat er nun 4 GB.
Rechner neubau-55-005 von 4 auf 8 GB RAM aufgestockt.
Florian hat die Drucker im Zabbix ergaenzt. CIP1-Printer1 und Printer-71 haben gefehlt.
Tonerbestand ueberprueft und abgeglichen. Fehlende Toner bestellt.
[/bayer]
permanent link
Der Authserver ist mit dem jetztigen Zustand auf neubau-31 repliziert. Wenn was schiefgeht,
im puppet in manifests/site.pp und modules/krbclient/manifests/init.pp die entsprechenden
variablen verdrehen und beten, dass puppet dann noch laeuft...
[/bauerm]
permanent link
Glorio! William hat das Zabbix dazu gebracht, unseren Webserver zu pruefen. Wenn naechstes
Mal die MySQL wegen einem Update stehen bleibt, kriegen wirs schneller mit.
[/bauerm]
permanent link
12.08.2013,
CIP-54-18 macht Probleme, stuerzt immer wieder ab bzw. haengt sich auf.
Festplattentest durchgefuehrt - defekte Sectoren erkannt - Platte getauscht.
CIP1-Printer-1 ist defekt - druckt nur Streifen - wenn man den Toner rausnimmt
kommen einem Einzelteile entgegen. Antrieb fuer die Tonertrommel hat sich in seine Bestandteile
aufgeloest. Jubel Freu "Super Lexmarkdrucker" -> bei 150000 Seiten faellt das Ding auseinander -> Dreck.
Techniker vom Frasch stand sofort auf der Matte und hat das Ding instandgesetzt.
CIP1-Printer-3 hat einen neuen Maintenance Kit bekommen, dazu wieder den halben Drucker zerlegt.
Einen Raum im Keller freigeraeumt. Dort werden Teile fuer die "Lange Nacht der Wissenschaften"
gelagert.
[/bayer]
permanent link
Wie passend. Ueber Nacht gabs einen mysql-server-core update von Ubuntu. Hat den Webserver
und das Puppet-Dashboard zerschossen, weil das init.d/mysql danach nicht mehr tut.
Fehlermeldung:
ERROR: 1050 Table 'plugin' already exist
NATUERLICH EXISTIERT DER SCHON, ist ja eine Datenbank und kein Datengrab, wo nach jedem
Restart alle Tables weg sind.
Das init.d Skript nimmt mysqld-safe zum starten, wenn man mysqld auf der Kommandozeile
tippt, gehts scheintz.
Noch ein klassischer Sideeffect des Upgrades war, dass die innodb_file_per_table=ON Zeile
jetzt (genauer seit 04:45) illegal ist, und die Tabellen auf dem Management verloren
gegangen sind. Dank folgender Zeilen haben wir die DB (leer) wieder einrichten koennen:
cd /usr/share/puppet-dashboard/
export RAILS_ENV=production
rake db:reset
(Es zahlt sich unerwartet aus, mal Ruby-on-Rails Developer gewesen zu sein)
[/bauerm]
permanent link
OK, wer nicht unendlich viel Plattenplatz hat, der setzt
innodb_file_per_table=ON
Nota Bene: wenn man statt "ON" "1" schreibt, gibt das _keinen_ Fehler, und die Option
bleibt auf "OFF". Mit der Option auf "an" kann MySQL angeblich seine Tabellen auch
wieder kleiner machen. Unbedarfte haetten vielleicht erwartet, dass dies der Default
ist.
[/bauerm]
permanent link
MySQL hat eine eingebaute Beschraenkung auf der Anzahl an Locks, die es halten kann.
Wenn das Ding ein paar Tausend Eintraege in einer Tabelle mit Foreign-Keys loeschen soll,
dann holt es sich scheinz fuer jeden Eintrag ein Lock. Und dann stirbts mit der Meldung
'The total number of locks exceeds the lock table size'
Eine Fehlermeldung sollte immer einen Tip enthalten, wie man den Fehler behebt. Diese hier enthaelt
sowas nur sehr vage. Es gibt eine Konfig-Variable innodb_buffer_pool_size (was nix mit
lock table size zu tun haben kann, vom Namen her), die hoeher gesetzt werden koennte. Hab die jetzt
mal auf 60MB gesetzt und teste... Die Std-Einstellungen sind nicht geeignet, eine
Datenbank mit ein paar Millionen Eintraegen zu managen, sonDreck.
Noch besser: MySQL loescht nach dem Hochsetzen der innodb_buffer_pool_size auch dann nicht,
wenn man ein LIMIT 1000 dahintersetzt (also nur 1000 Eintraege loescht). Wenn man dann mit
LIMIT 1 loescht gehts, und auch LIMIT 10, LIMIT 100 und LIMIT 1000 gehen dann ploetzlich.
Nondeterministic Databases....
[/bauerm]
permanent link
Dank an J. Mueller fuer den Hinweis, dass unsere Zert-Chains kaputt waren. Dank der schnellen
Mithilfe des CA-Teams vom RRZE haben wir jetzt korrekte Zerts fuer alle registrierten namen
unseres Webservers. Folgendes Kommando baut eine Testverbindung auf und zeigt die verwendeten
Zertifikate:
openssl s_client -connect www.math.fau.de:443 -CAfile /etc/ssl/certs/Deutsche_Telekom_Root_CA_2.pem
[/bauerm]
permanent link
Die TUM in Garching liegt noch viel mehr am Ende der Welt als unser Gelaende hier, und
Infrastruktur gibts genausowenig. Eliteuniversitaet, my ass...
Ein Eduroam Setup, das hier funktioniert, funktioniert nicht in Garching. Nach etwas Gefuddl
an Parametern hatte ich fuer 5 minuten Netz, dann wars wieder tot.
Die Leute, die VirtualBox benutzen, werden von dem entsprechenden Puppet Modul jetzt in
die Gruppe vboxusers gestopft, damit die auf USB Zugriff haben.
Noch mehr kritische Infrastruktur uebernommen: Reinigung der Kaffeemaschine obliegt jetzt Franzi.
[/bauerm]
permanent link
Seit dem Stromausfall ist bei allen RRZE Routern hier im Haus ein Netzteil tot, wird aus
dem RRZE gemeldet. Gebaeudetechnik war da, kommt aber nicht in die Schraenke..
[/bauerm]
permanent link
Klausuren angelegt. Backup als cronjobs scheint zu funktionieren <knock direction="on" material="wood"/>
Stromausfall! Die Gebaeudeleittechnik hat die SV kurzgeschlossen.
Stellt sich raus, dass einer unserer Switches doch nur ein Netzteil hat, und der auch noch
in der SV haengt. Sollten wir bei Gelegenheit --- vielleicht zusammen mit anderen Umstellungen
--- mal umstoepseln.
ntp1.fau.de war tot. Hab alle ntpd.conf, startup skripten etc, so umgebastelt, dass
sie --- wo moeglich --- alle drei NTP server nehmen.
[/bauerm]
permanent link
Ein User kann sich von _manchen_ Maschinen nicht auf dem Webmailer einloggen.
Weiter raetselhaft.
[/bauerm]
permanent link
Laptops von Mitarbeitern wieder zum Laufen gebracht.
cronjobs fuers backup repariert.
[/bauerm]
permanent link
ethdrv auf nexone auf neuesten Stand gebracht. Insofern hatte der Absturz gestern auch
Vorteile.
LED an der c1t2d10 wieder auf blau gesetzt.
[/bauerm]
permanent link
Um 11:11:01 auf nexone:
Jul 15 11:11:01 nexone unix: [ID 836849 kern.notice]
Jul 15 11:11:01 nexone ^Mpanic[cpu5]/thread=ffffff2e0bb52180:
Jul 15 11:11:01 nexone genunix: [ID 783603 kern.notice] Deadlock: cycle in blocking chain
Jul 15 11:11:01 nexone unix: [ID 100000 kern.notice]
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf83b0 genunix:turnstile_block+795 ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8410 unix:mutex_vector_enter+261 ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8430 nfssrv:rfs4_dbe_lock+15 ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf84c0 nfssrv:rfs4_op_release_lockowner+15f ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8650 nfssrv:rfs4_compound+19b ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf86e0 nfssrv:rfs4_dispatch+178 ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf89e0 nfssrv:common_dispatch+74c ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8a00 nfssrv:rfs_dispatch+2d ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8ae0 rpcmod:svc_getreq+19c ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8b40 rpcmod:svc_run+16e ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8b70 rpcmod:svc_do_run+81 ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8e30 nfs:nfssys+765 ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8ec0 genunix:dtrace_systrace_syscall32+11a ()
Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8f10 unix:brand_sys_sysenter+1e0 ()
Jul 15 11:11:01 nexone unix: [ID 100000 kern.notice]
Jul 15 11:11:01 nexone genunix: [ID 672855 kern.notice] syncing file systems...
Passierte waehrend eines Backups mit zfs send
Wieder was neues: /var/log auf monitor war 98% voll, durch die logs von zwei cip-pool maschinen
bei denen kernel-logs der Art:
Jun 20 16:15:04 cip-54-68 kernel: [42939.730035] Emergency Thaw on sda2
und Meldungen ueber wildgewordenen pulseaudio Prozesse millionenfach drin waren.
[/bauerm]
permanent link
Sternstunden der Informatik: Wir haben jetzt Zabbix Items und Triggers fuer die Tiefe
der PrintQueues, sehen also, wenn ein Druckjob viele andere aufhaelt. Dank an Nikos.
[/bauerm]
permanent link
Defekte Platte im Fileserver ausgetauscht: Dank Hotspares kam es nur sehr kurz zu
einem nicht perfekt gespiegeltem Setup.
zpool status
zeigt, welche platte kaputt ist
ls -l /dev/dsk/c2t1d10
zeigt den link nach /dev/devices/ethdrv
aus dem man die Plattennummer im CoRaid schliessen kann.
Mit
setslotled fault 10
kann man im cec die Platte leuchten lassen.
Mit
eject $plattennummer
in richtigen Shelf-cec ist die platte dann erstmal weg.
Mit
jbod $shelf.$platte
taucht der Ersatz dann wieder auf.
Mit
zpool detach coraid01 c2t1d10
vergisst ZFS die kaputte Platte, dann kann man sie rausrupfen und ersetzen.
zpool add coraid01 spare c2t1d10
wird die neue platte zum neuen spare
[/bauerm]
permanent link
Hilfreich, wenn man eine Datei per puppet geloescht/veraendert hat, und wissen moechte,
was da drin war (z.b. um sie zu rekontruieren):
find /var/lib/puppet/bucket -name "paths" | xargs grep -l /wie/die/datei/hiess
liefert den pfad innerhalb von bucket, dort findet man dann
a/b/c/d/e/f/0/34786583746/contents
die den damaligen inhalt der Datei enthaelt.
Im Uebungsraum 5 hing der Beamer schief, weil sich Schrauben gelockert hatten. geFIXt.
[/bauerm]
permanent link
Durch einen Vortrag auf der pycon draufgekommen, mal nachzuschaun, wie gut die Indizes
auf unserer zabbix Datebank funktionieren. Die hit ratio kriegt man mit
select 'index hit rate' as name,
(sum(idx_blks_hit)) / sum(idx_blks_hit + idx_blks_read) as ratio from pg_statio_user_indexes;
Leider ignoriert unser postgres die indizes komplett!
SQL never fails to amaze:
In /etc/postgresql/9.1/postgresql.conf eingefuegt:
shared_preload_libraries = 'pg_stat_statements'
Das postgresql-contrib-9.1 Packet installiert,
postgresql neu gestartet,
in der Datenbank als user postgres mit
CREATE EXTENSION pg_stat_statements;
die Extension angelegt (ansonsten gibts die Tabelle einfach nicht),
und mit
select (total_time / 1000 /60) as total,
(total_time/calls ) as avg,
query from pg_stat_statements where query ~ 'select'
order by 1 desc limit 20;
die zaehesten Anfragen an die DB rausgekriegt.
[/bauerm]
permanent link
Im PC Pool 1 ist heute nach dem Einschalten der Klimaanlage Wasser getropft. Auf
einen Tisch, von dem direkt auf einen Bodentank. Nach dem Ausschalten kam noch
mehr Wasser nach. Wir haben die berieselten Rechner vom Stromnetz genommen, den
Einschalter der Klimaanlage ueberklebt und die Leitwarte informiert. Mit sofortigen
Aktionen ist jedoch nicht zu rechnen, wie man uns versichert, sind die Teams der
Leitwarte an vielen Baustellen taetig...
[/bauerm]
permanent link
Wieder mit Kerberized NFSv4 rumgespielt. Das ist zum Erb-rechen. Ich hab jetzt
Linux,NexentaStor und einen Kerberos KDC so weit, dass
1. der nfsd auf nexenta _nicht_ stirbt, wenn man nfssec anschaltet
2. der rpc.gssd auf linux laeuft
mounten geht aber noch nicht
[/bauerm]
permanent link
Dem Pruefungsamt mit dem Ausdruck von Diplomzeugnissen nach hiesigen Vorlagen geholfen.
Die dringensten zwei sind jetzt auf jeden Fall schonmal raus.
Der Fileserver hat wieder alle Platten so wie sie sein sollen. *KlopfAufHolz()*
[/bauerm]
permanent link
13.06.2013,
Neue Episode des Fileservers hat begonnen. Nachdem der Fileserver nach
dem Update auf die neue Firmwareversion wieder anfaengt HEARTBEAT Meldungen
auszuspucken, ist der alte Call bei Nexenta wieder aufgemacht worden.
nmc> support -s /var/tmp verbosity = 4 Nachdem einige Logs zusammengepackt
wurden und per ftp zu Nexenta versand wurden harren wir mal der Dinge die da
kommen. Wir sind gespannt ob nach jedem Update das Drama mit den HEARTBEAT
Meldungen von vorne losgeht ... jede Stunde zwischen 60 und 120 Mails:
HA Cluster event: LOG_WARN RSF_HEARTBEAT heartbeat=5
[/bayer]
permanent link
Puppet-Dashboard: MySQL erweisst sich wie immer als die falsche Wahl. Unsere Setups erzeugen
so grosse Reports, dass sie nicht in eine Spalte vom Typ "TEXT" passen (64Kb Oberkante).
Das erzeugt einen Fehler, der natuerlich auch in die Datenbank geschrieben werden muss, diesmal
in der Tabelle "errors", wo er aus dem gleichen Grund nicht in die "TEXT" Spalte "details"
passt -> Doppelfehler, Abbruch. Mit Bjoern grad die beiden Spalten per "ALTER TABLE" auf
"MEDIUMTEXT" geaendert, jetzt ist das ploetzlich rasend schnell.
Nochmal Reparaturen an den festgezurrten R-Packeten. Erlaeuterung: Jedesmal, wenn Ubuntu einen
Update auf Teile dieses Statistik-Packets macht, zerbrechen lokal kompilierte Zusatzpackete,
die fuer Veranstaltungen genutzt werden. Um das zu verhindern, haben wir dem lokalen Packetmanager
untersagt, eine Reihe von Basis-Packete zu aendern. Annahme dahinter war natuerlich, dass
weitere Packete dann nur in Abhaengigkeit von den Basis-Packeten installiert werden, also
ebenfalls auf altem Stand bleiben. Das ist aber nur dann so, wenn die Package-Maintainer
die Abhaengigkeiten richtig eintragen... Heute musste ein weiteres Packet auf eine fixe
Version festgenagelt werden.
[/bauerm]
permanent link
Stellt sich raus, dass die MAC Adressen eines aggregierten Interfaces nicht mit der
Menge der Interfaceadressen des Buendels uebereinstimmen. Bloed wenn man daraus
ACLs baut, und sich dann aussperrt.
Tool zum Bearbeiten von PDFs: Xournal. Erlaubt markieren, reintexten, ausradieren, etc
in PDFs.
[/bauerm]
permanent link
07.06.2013,
Der Scrub am Fileserver ist fertig: scan: scrub repaired 0 in 120h22m with 0 errors
Nach schlappen 120 Stunden ... :(
[/bayer]
permanent link
MAC Adressen eines aggregierten Interfaces unter OpenSolaris rauskriegen:
dladm show-aggr -x aggr1
[/bauerm]
permanent link
05.06.2013,
Der Fileserver macht immer noch Probleme. Feststellung: es laeuft seit 01.06.2013
ein Scrub auf den Datenplatten. Aussage laut Doku: Scrubbing is a resource-consuming
task. It is preferable to schedule scrubbing during a maintenance window. Hmm maintenance
window ... wir haben kein maintenance window. Den Auto-Scrub Task abgeaendert.
Wir haben noch ein Update an einem der beiden Heads/Shelfs durchgefuehrt, auf Version
3.1.4.1. Der aktive Teil des Clusters befindet sich noch auf 3.1.3.5. Seit dem Update
des inaktiven Teil des Clusters bekommen wir wieder zeitweise Heartbeat Fehlermeldungen.
[/bayer]
permanent link
Das Skript, das unsere zfs snapshots auf den offsite-server pusht, so verbessert, dass es
selbststaendig rauskriegt, was drueben schon ist.
[/bauerm]
permanent link
03.06.2013,
Boah ... an unserem Backupserver laufen Fehlermeldungen auf und das
Webinterface ist nicht mehr erreichbar:
kernel: pid 1898 (lighttpd), uid 0, was killed: out of swap space
kernel: pid 24387 (sshd), uid 0, was killed: out of swap space
OK erstmal lighttpd starten /etc/rc.d/lighttpd start.
Dann swap einrichten: unter Disks -> ZFS -> Volumes neues Volumen mit Name
swap einrichten. Jetzt unter System -> Advanced -> Swap das Swap-Volumen ein-
binden: Type auf Device aendern, und Device auf Pfad /dev/zvol/zpool/swap ein-
stellen. Jetzt haben wir 16GB RAM und 32GB Swap ... beobachten.
Unser Fileserver macht mal wieder Probleme. Nachdem eine Uebung im PC-Pool ist
und ca. 30 Plaetze Mathlab, Browser usw. offen haben, ist z.B. der Browser nicht
mehr bedienbar (graut aus und braucht Sekunden bis er reagiert).
Wir habe dann um den Fehler einzugrenzen per smb ein 2,6 GB File kopiert.
Unter smb tritt der Fehler nicht auf.
Die Werte: "Concurrent NFSD Servers" von 1024 auf 4096 und "Concurrent LOCKD Servers"
von 1024 auf 4096 geaendert.
Ausserdem noch: "NFSD queue length" von 128 auf 512 und "LOCKD queue length" von 128
auf 512 geaendert.
[/bayer]
permanent link
Erster Schritt in Richtung Zabbix Ersatz: Performance Test mit Tokyocabinet Table Database
ergibt, dass der in einer 570Mb Database mit > 7 Millionen kuenstlich generierten Eintraegen
in vernuenftiger Zeit eine relativ komplexe Query schafft ("Finde alle Eintrage,
die zwischen zwei gegebenen Timestamps angelegt wurde, Host A und B betreffen,
bei denen der Messwert die Uptime ist, und nur wenn diese groesser als ein k ist"
=> 21 Sekunden realtime, auf einem Intel CoreDuo, 1.6 GHz, 4000 Ergebnisse).
Die 7 Millionen Eintraege zu schreiben hat auf meiner alten Muehle 40 Minuten gedauert,
im Schnitt etwa 3042 Eintraege pro Sekunde (Unser Zabbix ballert mit 500 Inserts/Updates
auf die DB.)
[/bauerm]
permanent link
28.05.2013,
So wie es aussieht benoetigen wir fuer unseren Fileserver Coraid/Nexenta einen
Schreibbeschleuniger/ZIL/SLOG. In Frage kommt wohl nur ein STEC ZeusRAM.
Wir muessen wohl unsere Hotspare Platten zu Coldspare Platten
machen und an deren Stelle die ZeusRAM SSDs einbauen. Unsere vorhandenen
SSDs sind als Lesecache konfiguriert und koennen nicht aufgeteilt werden,
da ZFS alleinigen Zugriff auf eine Disk oder SSD braucht.
[/bayer]
permanent link
Inventarisierung mit der ZUV und der Physik zusammen abgeschlossen (erstmal).
Durch fiese(!) EmbeddedRuby Fummelei die dhcpd.confs der zwei DHCP Server vereint ("Up ewig ungedeelt!").
Geht mit <% if classes.member?("daseinedhcpservermodul") -%> teil des configfiles <% end -%>
classes ist die liste der grad fuer diesen node eingesammelten klassen, in unserem fall
hat jeder DHCP Server genau eine Klasse. In den init.pp der _beiden_ Module steht dann als
file { '/etc/dhcp/dhcpd.conf': content => template('zentralesmodul/dhcpd.conf.erb')
und jedes zieht sich seinen teil raus. Nie wieder doppeltes Einpflegen von MAC Adressen!
[/bauerm]
permanent link
24.05.2013,
management-Server jammert das er keinen Platz mehr hat.
unter /usr/share/puppet-dashboard/log liegt ein File delayed_job.log
das 57 GB !!! hat. Geloescht.
[/bayer]
permanent link
23.05.2013,
Backup Server auf FreeBSD 9.1-RELEASE-p3 9.1.0.1 - Sandstorm (revision 724) upgedatet.
[/bayer]
permanent link
17.05.2013,
Was in den letzten Tagen sehr auffaellt, ist dass die Performance beim
Lesen vom Server extrem schlecht ist. Das Problem taucht auf, wenn mehr als
etwa 30 User gleichzeitig arbeiten. Die Anwendungen sind alles andere als
datenintensiv, nur ein Webbrowser, eine Shell und eine mathematische
Software (Matlab, R, oder Maple), die aber nie massiv Daten schreiben.
Tipp von Nexenta: NFS-Share Option "atime" abschalten ... weitere Tipps sollen
folgen.
[/bayer]
permanent link
Verteilerlisten per Auge, Mitarbeiterliste, Mundpropaganda und Univis auf neuen Stand gebracht.
Das Pruefungsamt im Haus wird voruebergehend vom Pruefungsamt in der Stadt uebernommen; entsprechende
Mailfilter gebaut.
Sagemath ist jetzt installiert. Nettes Gesamtpacket fast aller open-source Mathematikpackete, mit
einer vereinenden Python-API.
[/bauerm]
permanent link
Stellt sich raus, dass gpg-keys in /etc/apt/trusted.gpg.d/ nicht im ASCII Format abgelegt
werden duerfen. Wenn ein einziger Key im ASCII Format dort liegt, werden auch alle anderen
keys nicht eingelesen. It's ank.tcl all over again...
Das Ubuntu Package virtual-box hat eine run-time Abhaengigkeit von linux-headers-generic,
die aber nicht im Package verzeichnet ist. Wenn man virtualbox startet, stirbs. Die
Fehlermeldung, was genau schiefgeht, findet man in den install-logs als warning.
Noch ein Laptop entdeckt!
Der Deutsche Akademische AuslandsDienst hat eine Webseite, ueber
die man Antraege auf Foerdergelder hochladen koennen soll. Das wird durch vollkommen
unmoegliches Webdesign verhindert, was natuerlich Geld spart. Es mag auf der Welt eine
Windows-maschine (was anderes ist nicht erlaubt) geben, die die richtige Kombination
von Webbrowserbugs und veralteten Plugins hat und das darstellen kann; und ich vermute,
die steht beim DAAD. Ob wir uns als Steuerzahler drueber freuen oder als Akademiker drueber
aergern sollen?
[/bauerm]
permanent link
UDZ + FSV bei Frau Kulzer eingerichtet (Wenn Ihnen diese Abk. etwas sagen, bedauere ich Sie)
Drei Laptops durch intensive Recherche wiedergefunden und inventarisiert, Glorio!
Inventarisierung ist soweit fertig, dass wir sie der ZUV uebergeben koennen.
Auf monitor eine Platte freigeschaufelt.
[/bauerm]
permanent link
13.05.2013,
Lexmark X463de :
Maintenance Kit am Cip1-Printer1 getauscht. Dazu den ganzen (naja fast)
Drucker zerlegt. Dann mit den Tasten 2+6 in ein spezial Menue gewechselt
und den Zaehler des Maintenance Kit zurueckgesetzt. Danach noch die rote
Abbrechen-Taste lange gedrueckt um den Einbau des Fotokits zu bestaetigen,
und alles war wieder gut. Schauen wir mal wie lange ...
[/bayer]
permanent link
Es gibt scheinz kein Tool, das einem die Forward-Dependencies eines Ubuntu-Packages
aus dem momentanen repos-Stand ableitet. Der Tip, das aus irgendwelchen Ubuntu
Webseiten rauszulesen ist Unfug, weil in unserem apt-sources auch andere Repos stehen,
wo weitere Packages mit Abhaengigkeiten untereinander und/oder von den Ubuntu Packages
sind.
Wenn man die R-Packages (die _nicht_ von Ubuntu geliefert werden) nachbauen will,
dann startet man
sudo env HOME=/ R
und laesst dann die Folge von Kommandos aus puppet/modules/addsoft/manifests/r.pp
unten durchlaufen. Ergebnis ist, dass in /usr/local/lib/R/site-library zahlreiche
Dateien in den subdirs auftauchen/ersetzt werden. Die muss man dann in ein tar.gz
file packen (das ganze site-library) und auf dem management unter /var/www als
Rpackages-$version.tar.gz ablegen.
R updates durchgezogen. Es gibt jetzt puppet/modules/addsoft/manifests/r.pp, wo
die Version von R und Rstudio festgenagelt wird, und per exec/creates die Rpackages
vom management gezogen werden.
Wieder was gelernt: puppet classes duerfen keine Grossbuchstaben enthalten. Genau wie
nicht in Ruby, Ada, C++,...
Dhcp Server von neubau-103 auf den management bewegt. Tut scheintz.
Der cip1-printer1 kapiert nicht, dass er ein frisches PhotoKit hat. Auch nach mehrmaligem
Aus/Einschalten glaubt er, man muesse das PC-Kit wechseln, und schlaegt vor, damit
zu beginnen, wenn man "any button" drueckt. Nur kann man auf jegliche Button druecken,
er tut nix.
[/bauerm]
permanent link
neubau-126 hatte sich komplett weggehaengt, der Bildschirm hat aber noch was angezeigt...
Eine duestere Woche fuer die RJE Station, zwei mitarbeiter im Ausland, einer verletzt,
einer verhindert...
Aaaaargl. Durch das R-update von Ubuntu sind alle installierten Packages kaputtgegangen.
Man muss also im puppet die Version festnageln. So ein rotz!
[/bauerm]
permanent link
User fuer diverse Vorlesungen erzeugt/getestet
Katrin hat einen Tipp fuer verzweifelt druckenden Studenten: im Dash "Printing" suchen lassen,
das empfohlene Tool starten, Drucker der Wahl anklickern und schaun, wie die Print Queue
aussieht. Damit kann man auch eigene Druckjobs toeten. Weitersagen!
Der printer-cip1-5 hatte die Einstellung im .PPD file, dass er den Benutzer bittet, Letter
nachzulegen, wenn das Format Letter ist. Was natuerlich niemand tut. FIXED
[/bauerm]
permanent link
Uebers Wochenende hat Ubuntu das r-base Package auf neuen Stand gebracht. Und wer haette
es gedacht, die R-Entwickler haben aus ihrer libr.so eine Funktion entfernt, naemlich
Rt_PrintWarnings. Und latuernich benutzt das rstudio diese Funktion. Und weil die Ubuntus
es ewig nicht gepackt haben, da eine neue Version davon zu packetieren, haben wir unseren
eigenen Clone in local.packages. Und der stirbt dann mit unknown symbol. Also neues rstudio.deb
von rstudio.com geholt, das alte aus /var/local.packages/pool/main/r entfernt. Dann kam
das Problem, dass unser mirror immer noch die alte Version in dists/precise/.../Packages hatte,
und die trotz reprepro -Vb ... remove rstudio nicht weggemacht hat. Also
sudo rm dists/precise/.../Packages*
und mit reprepro -Vb ... includedeb ... neu bauen lassen. Tut anscheinend.
Sicherheitseinweisung bekommen und gleich weiterpropagiert.
[/bauerm]
permanent link
AM3 schaut nach, ob ihr Netz fuer diverse Softwares beim RRZE freigeschaltet ist.
Keine zabbix Meldung mehr wegen "puppet not running" auf management. Die puppetclient/puppet.conf
schreibt ihr PIDfile jetzt dahin, wo /etc/init.d/puppet danach sucht. Gibt keine
Kollisionen, weil die anderen PIDfiles von diversen Puppetelementen anders heissen. FIXED
Die Dashboard Worker haben wieder mal aufgegeben. Nach einem Schubs mit kill -9 und
/etc/init.d/puppetidashboard-workers start
geht jetzt wieder (3649 pending tasks....)
[/bauerm]
permanent link
Der sshd_config update hat latuernich Seiteneffekte gehabt: auf den AM3 maschinen
steht jetzt drin, dann nur Mitglieder von den Gruppen am3* sich einloggen duerfen.
Damit sind 1. wir, 2. Studenten draussen. SemiGefixt, indem jetzt die Gruppe Sam
(mit grossem S) auch darf. Damit koenne wir schonmal helfen...
Auf nextwo laeuft wieder darkstat, um Performanceprobleme zu monitoren
Das Backup des Webservers auf den Fileserver zusammen mit dem Backup auf die off-site Maschine
hat arg viel Last auf den Fileserver gebracht. Besser nachts.
Webmaster kaempfen weiter mit den Umlauten aus den univis-Importen
Das Rechenzentrum hat doch Ausnahmen fuer die @fau.de Adressen zugelassen, statt dem
Vornameausderpersonalakte.Nachnameausderpersonalakte@fau.de . Gut so!
[/bauerm]
permanent link
29.04.2013,
PC-Pool Drucker
HP LJ 9000 cip1-printer5 Druckcounter: 562765 Seiten
[/bayer]
permanent link
25.04.2013,
PC-Pool Drucker
Lexmark X463de cip1-printer1 Druckcounter: 107532 Seiten
Lexmark X463de cip1-printer3 Druckcounter: 77378 Seiten
HP LJ P3005 cip1-printer4 Druckcounter: 159748 Seiten
Lexmark X463de cip2-printer1 Druckcounter: 75577 Seiten
[/bayer]
permanent link
Eine globale sshd_config fuer alle per puppet durch die Gegend geschoben.
hoelder sollte wieder tun.
[/bauerm]
permanent link
Martin und Bjoern haben den ausgeschlachteten cip-Rechner wieder zum Leben erweckt, mit
neuer CPU, Speicher, Platte und Graphikkarte. Laeuft wieder, als cip-54-125
Mit Bjoern durch die Sourcen diverser PHP libs gegangen, um rauszufinden, warum ploetzlich
Lehrveranstaltungen, die wir aus univis importieren, keine Umlaute mehr haben koennen.
Dabei rausgefunden, dass PHP mindestens 5 (in Worten: fuenf) globale Variablen hat, die
was mit Encodings zu tun haben. Zusaetzlich hat das importierte XML ein Encoding, die
vom Apache servierte Webseite eins, und jeder Table im Mysql ein eigenes.
Das ist alles so unvorstellbar krank programmiert, mit duplizierten Codebloecken ueberall,
und ganz wirren Vorstelllungen, wie z.b. Unicode funktioniert.
[/bauerm]
permanent link
Wenn ich nochmal die Wahl haette, wuerd ich statt puppet jetzt wohl Ansible nehmen,
ist besser durchdacht, wie scheint. U.a. gibts nur eine DomainSpecificLanguage statt
mehrere, und sie machen alles durch ssh durch, statt ein kaputtes SSL+CA im Eigenbau.
[/bauerm]
permanent link
28.03.2013,
Eine neue Kaffeemaschine ist eingetroffen und in Betrieb genommen :)
Wir sind wieder am Druckkontingent freischalten. Wie immer am Semester-
beginn. Da wir 5 Drucker in den PC-Pools haben sollte das auftretende
Druckvolumen kein Problem sein.
Das Script fuer das ZFS-Send auf den Backupserver laeuft nun auch
ohne Probleme. Gesichert werden staff, stud und am2home.
[/bayer]
permanent link
Nach dem Auto-reboot in der Nacht funktioniert auf den cip-Maschinen einiges nicht mehr.
Drecks-Unity! Beim Versuch, alle per puppet zu rebooten, konnten wir herausfinden,
dass /etc/motd folgendermassen kreiiert wird:
1. init ruft /etc/init/mounted-run.conf (das ist _kein_ konfig-file)
2. /etc/init/mounted-run.conf ruft alle Skripten in /etc/update-motd.d und schreibt
den Output nach /var/run/motd
3. /etc/update-motd.d/98-reboot-required ruft /usr/lib/update-notifier/update-motd-reboot-required
4. /usr/lib/update-notifier/update-motd-reboot-required schreibt den Inhalt von
/var/run/reboot-required
Das Designprinzip des Keep-it-Simple wurde hier durch mehrere Design-Patterns toedlich
verletzt.
[/bauerm]
permanent link
Inventarisieren ist wie Ostern. Was wir schon alles gefunden haben....
Halali! Zur Laptopjagd geblasen. Die ZUV will wissen, wer die Dinger hat.
Ueber Nacht ist der funkelnagelneue mathe-backup abgeschmiert. Reboot ueber ILO interface,
hat ueber zwei Stunden gedauert. Vielleicht ein BUG in der ZFS Umsetzung, kam naemlich
nach einem gewaltsam abgebrochenen
zfs receive + zfs destroy -r
Laeuft wieder.
[/bauerm]
permanent link
Der grub-passwd test im Zabbix lief nur auf der alten GRUB version. geFIXt
Monitor laeuft nach dem upgrade sehr viel besser. Ueber die Gruende kann man
nur Vermutungen anstellen. Aber: "Nihil est sine ratione, cur potius sit quam non sit."
Inventarisierung wieder mal, und interessante Sachen gefunden. Falsch inventarisierte
Maschinen, unbekannte Drucker, doppelt inventarisierte Drucker, nie im puppet eingetragene,
aber laufende Maschinen, im Zabbix verzeichnete, aber nicht-existente Maschinen...
Fuer Herrn Savchuk einen Drucker installiert.
[/bauerm]
permanent link
Das kernel_cleanup skript hat nicht fuer precise funktioniert, weil die neue GRUB version
natuerlich ein anderes config-file und -format hat. geFIXt
[/bauerm]
permanent link
Monitor neu aufgesetzt. Dabei rausgefunden, dass:
- postgresql nicht mehr auf port 5432 lauscht
- das ubuntu package zabbix-server-pgsql keineswegs alle noetigen PHP Modules
installiert
- die minimale Oberschranke fuer PHP executions laut zabbix 5 Minuten betraegt.
HighPerformance?
Einen ueber 2 Meter grossen Schrank zwischen zwei Raeumen im 2 Stock bewegt.
Simon hat der neubau-32 ein ILO Interface gebaut.
Die Biomathematik hat einen eigenen Drucker bekommen (printer-90)
Angefangen, Zabbix aufzuraeumen
Das Module ubuntubugs aus der Puppet conf fuer die Server klasse entfernt (das Module hatte
den bloeden Nebeneffekt, alle Packages zu installieren, von denen ein KDE Tool abhaengt)
Nikos hat ein Skript gebaut, dass Usern zugang zu Windows "shares" erlauben kann,
authentifiziert ueber das RRZE AD
Zwei Maschinen fuer AM2 so lange installiert, bis es endlich ging.
Alle Toner fuer Frau Forkels Drucker sind jetzt in einem begehbaren Wandtresor gelagert,
Herr Bayer hat den Schluessel
[/bauerm]
permanent link
28.03.2013,
CIP-54-82 lebt wieder. Ein Frasch Mitarbeiter hat die Platte
schnell und unkompliziert Ausgetauscht, schnell neu installiert,
jetzt rennt er wieder.
Mathematica 9.0 wird als Einzelplatzt Lizenz fuer einen MAC benoetigt.
RRZE eingeschaltet ... harren wir mal der Dinge die da kommen.
Nach diversen Umzuegen von Mitarbeiter im Haus stimmt unsere Inventar-
liste nicht mehr. Wir sind dabei Zimmer fuer Zimmer abzuklappern.
Das Gute daran: Wir haben in der Bio-Mathematik einen lange vermissten
Rechner wiedergefunden -> gleich Inventarisiert.
[/bayer]
permanent link
27.03.2013,
LaTeX-Paket(e) nachinstallieren von www.ctan.org
- cd ~
- mkdir texmf
- mkdir texmf/tex
- Paket herunterladen und unter ~/texmf/tex/ abspeichern
- texhash ausfuehren
bzw. - texhash ~/texmf/tex/
Somit ist jeder User selber in der Lage evtl. fehlende Pakete
nach zu installieren.
CIP-54-82 ist defekt (so wie es aussieht ist die Platte Schrott).
[/bayer]
permanent link
26.03.2013,
tex Packet fuer einen Professor Zentral nachinstalliert (pstoedit).
Simon hat wiedermal die Tuerschildvorlage in tex gefixt. Zu beachten ist
beim Ausdrucken das Page Scaling "None" ausgewaehlt wurde. Simon hat die
FAQs und die Seite PC-Pools ver-schoen-huebscht.
Matlab Version R2013a am Server installiert und die Links angepasst. Somit
ist die Version im Haus verfuegbar.
Maple 16 Einzelplatz Lizensen im RRZE verlaengert mit der Option auf Version 17.
Am Server die Maple Version 17 installiert, Sie sollte jetzt auch im Haus
verfuegbar sein.
Trotz Semesterferien haben wir viel "Laufkundschaft", es tauchen immer wieder
neue Probleme auf. So mussten wir wieder verschiedene Laptops ueberpruefen
fuer das Gaestehaus. Natuerlich waren diese NICHT auf dem aktuellen Stand,
und wir konnten (in Einzelfaellen) kurzfristig keine schnelle Loesung anbieten.
Bjoern hilft verschiedenen Usern bei der Umgewoehnung auf das neue Typo3 und
fixt noch kleinere Bugs.
Am Freitag haben wir noch von der Konferenz die Tische und Schilder wieder in
den Keller gewuchtet. Danach den Raum fuer die Studenten in Ordnung gebracht.
Wir haben nun eine Werkzeugkoffer (Fahrbar mit 159 Teilen). Wir sind nun auch
in der Lage, eine Tisch umzubauen ... was wir getan haben (Tischplatte um 180
Grad gedreht).
Alle Lexmark X463de wurden auf die Abschaltung der Klingel ueberprueft. Es waren
doch noch welche dabei wo die Option nicht ausgeschaltet war:
X463: haekchen bei 'enable fax receive' entfernen und 'ringer volumen' auf 'off'.
Witz daran ist, das diese Drucker garkein Fax haben ... und warum auch immer,
fangen diese Drucker manchmal das Klingeln an und hoeren nicht mehr auf *WTF*.
[/bayer]
permanent link
21.03.2013,
Wigand und Bjoern haben den Webserverumzug vollendet. Nach diversen
Startproblemen laeuft das System jetzt Rund. Die neue Version von Typo3
macht uns noch ein bisschen zu schaffen (alles anders und andersherum).
Patrick hat sehr sinnvolle Erweiterungen in das Druckkontingent eingebaut.
Es kann jetzt z.B. mit einem Knopfdruck das Semesterupdate aufgeladen werden.
An den Lexmarkdruckern im CIP-Pool wurde der Arbeitsspeicher aufgeruestet.
Die Drucker haben jetzt 640 MB Speicher wodurch sich die Segfaults reduzieren
sollen ... schau ma mal.
Der Drucker von Frau Graessel druckt nun auch aus Firefox und Thunderbird heraus.
Nach langem Suchen stellte sicher heraus, dass das PPD-File kaputt war. Der Drucker
druckte aus allen Programmen nur nicht aus Thunderbird und Firefox, Chrom wiederum
ging auch. Nach Austausch des PPD-Files war der Spuk vorbei.
Dovecot conf enthielt Fehler ... gefixt (Danke fuer den Hinweis ...).
Da es vermehrt Probleme mit Libreoffice gibt, wird bei einer Sekretaerin die 4.0er
Version installiert. Sie soll dann mal Testen ob diverse Problem behoben sind und
es Global ausgerollt werden kann.
Grosses Drama -> Die Kaffeemaschine ist kaputt <- wie soll es nur weitergehen ??
Laut Hoerensagen hat Sie noch Garantie :)
Der Backup-Server wird heute ins RRZE gestellt. IP-Adressen fuers LAN und fuers ILO
angepasst. Das ILO ist nur vom UNI-Internen Netz erreichbar. Heute kam auch das
HP-Care-Pack Zertifikat - Wahnsinn Garantie bis 03/2018.
Bei den Lexmark X463de Druckern haben wir nun endlich die Option zum abschalten der
Lampe des Papierfachs gefunden. Settings - General Settings - Output Lighting -
Power Saver - Off.
[/bayer]
permanent link
Nach dem Eintrag von gestern hat uns einer unserer Leser darauf hingewiesen, dass
es von HP durchaus eine neue Version von hpacucli gibt, nur halt nicht in den
Package Repositories von Ubuntu. Vielen Dank, werden wir umsetzen!
Fuer Herrn Neumann und Frau Frieser von der Biomathematik neue Maschinen hingestellt und
installiert. Vielleicht mal wieder nachbestellen..
Das hpraidcheck geht nur als root, damit kann man also nicht so leicht einen zabbix-test
bauen.
Mittels hpraidcheck einen cronjob gebastelt, der mails verschickt, wenn was schiefgeht.
Dazu braucht man natuerlich funktionierende Mailer auf den Servern. Die sind jetzt
mit einem minimal konfigurierten postfix umgesetzt. Lauscht nur auf localhost, leitet
an den mailserver weiter. Das ganze Getestet, indem wir eine Platte aus dem RAID von
neubau-31 gerupft haben. Funktioniert.
Die Datenbank fuer puppet-dashboard auf management wurde per
rake RAILS_ENV=production reports:prune upto=1 unit=mon
bis auf ein Monat zurueck aufgeraeumt. 80% weniger Plattenplatz, allerdings
erst nach mysqldump; rm $innodb; mysqlrestore, weil MySQL bekanntermassen
nichts loeschen kann: http://bugs.mysql.com/bug.php?id=1341
Nach einer Kooperationsplatform fuer Autoren geforscht, einfachster Ansatz ist
etherpad.org. Kann man auf beta.etherpad.org ausprobieren.
Fuer die Konferenz naechste Woche Tische aus dem Keller geschleppt.
Hou-sing Vertrag beim Reichenzentrum eingereicht, wir koennen die Maschine naechste
Woche reinstellen. Wir sollten aber vorher das ILO noch konfigurieren...
[/bauerm]
permanent link
Frau Kulzer schwaermt von dem HP P3005, der den Lexmark ersetzt hat. Soviel zum Rahmenvertrag.
Stellt sich raus, dass z.B. HP's hpacucli (zum Abfragen des RAID Controllers) nicht unter
linux-3.x laeuft, wie etwa Ubuntu-precise. Stellt sich ausserdem raus, dass Linux extra Kernel-code
hat, um so ein bisschen vorzuspiegeln, es waere nicht Linux-3.x sondern z.b. Solaris oder
linux-2.6. Eine Utility namens uname26 tut genau das und startet dann ein uebergebenes Programm
in dieser Fake-Umgebung. Testcase:
% uname -a
Linux management 3.2.0-39-generic #62-Ubuntu SMP [..]
% uname26 uname -a
Linux management 2.6.42-39-generic #62-Ubuntu SMP [..]
Damit kann man dann das kaputte hpacucli wieder starten und kriegt mit, ob Platten kaputt sind:
sudo uname26 hpacucli ctrl slot=0 pd all show status
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, 300 GB): OK
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, 300 GB): OK
Bjoern hat den am3dhcp neu installiert. Waehrenddessen hat ein PC, der grad im Serverraum
rumstand, die Arbeit von am3dhcp gemacht, war mit puppet ganz einfach.
Die P700 bei AM1 machen Laerm mit den Ventilatoren. Dummerweise kann man keinen Einfluss
auf die Steuerung nehmen.
Auf servern, die im puppet hpserver sind, gibts jetzt ein hpraidcheck, das returnstatus 0
liefert, wenn alle Platten OK sind, und 1 wenn nicht. Noch in Zabbix einbaun...
[/bauerm]
permanent link
Ein backupskript fuer die neubau-34 gebaut, das mit zfs send/receive die relevanten
FSe rueberschiebt
Puppet ist so kaputtttt. Die Sshkey resource hat als unique identifier nur den hostname, nicht
hostname+keytype, also kanns pro host nur einen rsa key (oder einen dss key) geben. Ecdsa
(Baujahr 2008oderso) kennt er nicht. Und das so generierte /etc/ssh/ssh_known_hosts hat
permission 600, so dass es von ssh sowieso ignoriert werden muss. Deppen allesamt.
Das Problem mit den selbst-disable-den Druckern ist geloest. Es lag daran, dass ein weiterer
Host im cipdruckernetz die gleiche IP wie der Cupsserver hatte. Die Fehlermeldung
"ipp returned 4" deutet da aber nicht drauf hin...
Frau Kulzer ist von ihrem Lexmark so enttaeuscht (mit Windows Treibern), dass wir ihr
heute einen uralten HP 3005 hingestellt haben. Tut alles gewuenschte ausser Scannen.
Webserver: Im Typo3 kann man jetzt auf Kalendereintraege bis 2010 zugreifen
Patrick baut am Druckeraccounting weiter. Mit SQL Trickserei (Triggers) kann man ein
Pseudokonto basteln, dass aus Bareinzahlung und Studiengebuehren besteht, beim
Abbuchen wird immer gleichzeitig von den Gebuehren abgebucht. Am Semesterende kann
man dann erkennen, ob von den Bareinzahlungen noch was da ist und die ins naechste
Semester retten.
Andi hat den Bugtracker aufgeraeumt.
[/bauerm]
permanent link
neubau-32 in den Serverraum umgetopft, wegen dem Laerm.
[/bauerm]
permanent link
07.03.2013,
Der Neu bestellte HP DL380p Gen8 CTO Server ist eingetroffen.
Es wurde ein FreeBSD (auf USB-Stick) mit ZFS installiert.
Von den 21.8T sind nach der Installation des RAIDZ1-Pools
noch ca. 10.8T frei. Der Server soll ins RRZE als Backupserver.
Das Nexenta-Heartbeat Problem scheint geloest ... endlich.
[/bayer]
permanent link
Der math-backup, den Martin zum Laufen gebracht hat, versteht ZFS send-receive. Sehr praktisch.
Momentan clont die Nexenta alle HOMEs (9 Tb) mit 500Mbps drauf. Einen Housing Vertrag
haben wir vorbereitet, fehlendes Detail ist, wie wir an die Kiste kommen, wenn Platten sterben.
[/bauerm]
permanent link
Puppetverbesserungen: das /etc/init.d/zabbix-agent hatte von Ubuntu einen falschen Pfad
zum PID File, und hat deswegen immer geglaubt, dass der zabbix-agent tot ist. FIXED
Man muss anscheinend bei manchen 'subscribe's noch eine refreshonly => true setzen,
damit der entsprechende Dienst nur dann neu gestartet wird, wenn sich z.b. das Konfigfile
aendert. FIXED
In einem Eigenbau Exec war der Pfad zu dem File in 'creates' falsch, da wurde das latuernich
jedesmal ausgefuehrt. FIXED
Nach ein paar anderen Fixes haben wir jetzt erstmals eine Mehrheit von "unchanged" Maschinen,
was ja grad die Idee bei Puppet ist (Deklarative Sprache, Idempotente Operationen,...)
[/bauerm]
permanent link
Fileserver mit zwei Heads und zwei Shelves auf neuesten Stand gebracht, keine unsinnigen
Fehlermeldungen mehr.
[/bauerm]
permanent link
Erfolg! Aus den Coraid EtherDrive HBA for Solaris Release Notes v6.0.5-R2 vom 14.2.2013:
Release Note Summary for v6.0.5
Resolved Issue:
RSF-1 cluster heartbeat timeouts
Nexenta no longer reports RSF-1 cluster heartbeat timeouts when small write/reads
are issue[sic] to one or more target LUNs.
[/bauerm]
permanent link
15.02.2013,
Woche 3 im Heartbeat-Wahnsinn ist fast vorbei.
Nach verschiedenen Versuchen soll jetzt wohl der Ethernet-Driver
den wir einsetzten die Probleme verursachen (6.0.0.7) aktuell ist 6.0.5-R0.
Gestern war der Techniker der USVs endlich hier, und hat an der defekten USV
im Serverraum von AM1 eine der 60 Batterien ausgetauscht.
Am Mittwoch sind wir auf den neuen Printserver umgezogen. Seltsam -> manche
drucken trotzdem noch auf den alten Server ???
[/bayer]
permanent link
CoRAID upgrade auf Shelf 1 gestartet. Spannend, da kann man RAM Disks anlegen, die dann
ueber den EtherDrv im Solaris auftauchen. Bringt einen auf Ideen...
Tipp vom Nexenta Support, alle Fehlermeldungen auf einmal:
fmdump -eV
Alle Shelves sind jetzt auf der aktuelle CorOs Release.
Was noch fehlt sind die Treiber-Updates auf den Nexenta-Heads
[/bauerm]
permanent link
Ein Techniker von HAC (die den RSF-Monitor im Fileserver programmiert haben), war auf unserer
Installation unterwegs und konnte einen (nicht alle) Fehler auf die Interaktion
NexentaOS<->CoRAID zurueckfuehren.
[/bauerm]
permanent link
Durch einen saudummen Vertipper wurde der Authentisierungsserver (an dem _alles_ haengt)
heute aus Versehen --- aber erfolgreich --- auf die neueste Ubuntuversion gebracht. Ufffff.....
Der DHCP Server fuer das AM3 Netz wurde absichtlich und erfolgreich auf den neuesten Stand gebracht.
[/bauerm]
permanent link
Die Hersteller des High-Availablity Tools braucht mehr Logs, haben wir geschickt.
Die "database locked" Meldungen vom puppet, die alle Updates blockiert haben, liessen
sich durch Einsetzen eines "autocommit" => true und "timeout" => 10000 in den
puppet sourcen in rails.rb etwas mildern. Gibt aber immer noch Fails im puppet
dashboard
cip-54-85 aus der Quarantaene wieder in den Praktikumsraum 2 gestellt.
[/bauerm]
permanent link
Seit Tagen versuchen wir rauszukriegen, warum die Nexenta Heads alle paar Sekunden glauben,
dass der jeweils andere zu zwei Dritteln tot ist. Der NexentaSupport wollte das auf die 0.03 Sekunden
Schreiblatenz zurueckfuehren, was bei einer sekundengenauen Synchronisation IMHO eher
unwahrscheinlich ist. Nachdem wir die Heartbeat-config so umgebaut hatten, dass jetzt
die zwei Spare-Platten dafuer benutzt werden, auf denen gar nicht geschrieben wird,
kommen wieder Heartbeat Errors. Nach einer Telefonkonferenz mit Vertrieb und Support
wird jetzt der Hersteller des High-Availablity Tools Rede und Antwort stehen muessen.
[/bauerm]
permanent link
Martin hat deutlich gemacht, dass uns die Heartbeat Flaschmeldungen nerven und dass wir
als Gold-Support Kunden eine Loesung wuenschen. Schau mer mal
[/bauerm]
permanent link
Nachdem die Fileserver nach dem Upgrade am Samstag sauber weiterliefen, gabs heute eine kleine
Katastrophe. Wenn auf einem Fileserver der rsfmon stirbt, wird der sofort als tot erkannt;
aber dass heisst nicht notwendig, dass der andere uebernimmt. Keine Ahnung wies dazu kommen
konnte, dass die Einstellung auf "manual" stand, auf jeden Fall hats ein paar Minuten
gedauert, bis der Export wieder da war. Dreck.
Nach dem Neustart war die /etc/resolv.conf wieder ueberschrieben, muss man wohl per nmc setzen..
Arrrggglllll! Die /etc/resolv.conf wird von NMS verwaltet, und zwar unter dem punkt:
setup network service cifs-server edit-settings resolv.conf
Na klar!
Puppet macht Probleme: "database is locked" was bei SQLite3 ein seltsames phaenomaen ist.
[/bauerm]
permanent link
Strom ist um 10:10 abgeschlatet worden, Server laufen noch, Netz tut.
Fileserver ist jetzt wieder nexone. Wie das mit den CIFS-mounts (am2share) ist, muss noch getestet
werden.
Nextwo ist jetzt auf neuestem (-stable) Stand.
Der scrub (ZFS Filesystemcheck) laeuft ab jetzt monatlich statt woechentlich
Der mailserver hat jetzt wesentlich mehr platz fuer neue Mails, /var/mail ist jetzt das
1TB RAID, das alte /var/mail liegt unter /var/mail.vor.dem.sdb1.mount. Wenn alles klar ist,
kann man die loeschen.
Mailsystem hab ich jetzt erstmal auf die triviale Art getestet, mails scheinen wie ueblich reinzukommen..
[/bauerm]
permanent link
Der Nexenta Support sagt, ich muss keine Angst haben, Heartbeats auf Platten zu konfigurieren,
die Teil eines Zpools sind. Ich verlass mich jetzt mal drauf.
[/bauerm]
permanent link
Die Lexmarker sind ja sooooo bloed: Wenn man einem Netz in der WebGUI des Druckers das Drucken
verbietet, dann werden die nicht etwa mit einem ICMP Unreach oder ICMP Policy geblockt,
sondern die Druckjobs werden angenommen und gespeichert, bis das Netz eventuell freigegeben wird,
dann wird gedruckt.
Am Samstag waehrend des Stromausfall steht an:
- auf dem Mailserver das /var/mail auf die 1TB Platte bewegen, am besten direkt als /var/mail mounten
- Nexone genauso auf den AD-server vom RRZE einstellen wie das Nexone schon ist
Heartbeat Platten sind jetzt Nexenta-Support-konform konfiguriert.
[/bauerm]
permanent link
31.01.2013,
Der Drucker HP9000 druckt nicht mehr ... Meldung: Renew MAINTENANCE KIT.
Nach Austausch des MAINTENANCE KITs:
1. Turn the printer off.
2. Press and hold the checkmark (Select) button.
3. Turn the printer on while still holding the checkmark (Select) button.
4. Continue to hold the checkmark button down until all three control
panel lights (LEDs) illuminate, and then release it. "Select Language"
will appear on the control panel.
5. Use the Up Arrow to scroll to NEW MAINTENANCE KIT.
6. Press the checkmark button.
7. Verify that the maintenance count was reset by printing a
configuration page: press the checkmark, scroll to "INFORMATION" and
press checkmark, scroll to "PRINT CONFIGURATION" and press checkmark.
Desweiteren wurde am Drucker Lexmark X734 (Raum 02.350) die komplette Scan-Einheit
auf Garantie ausgetauscht.
cip-54-19 macht Probleme (grosser Datentransfer) und stuerzt ab (defunc) ... neu installiert.
Da der CITRIX/UDZ Client nicht sauber unter Ubuntu-Linux laeuft, wurde ein VM mit Windows 7
installiert. Tests laufen z.Z.
[/bayer]
permanent link
Die Aenderungen, die noetig waren, um NFSv4 parallel zu AD-authentisierem CIFS betreiben
zu koennen, sind vom Nexentagefuddl ueberschrieben worden. Stellt sich raus, dass man
Aenderungen am /etc/default/nfs im NMC mit 'setup network service nfs-server edit-settings'
machen muss, sonst ueberschmiert er die wieder. Auf beiden Maschinen gesetzt.
Ergebnis der Dienstbesprechung ist u.a. dass wir unsere verschiedenen internen und externen
Dokumentationen zusammenfuehren sollten.
Evtl koennen wir mit dem moinmoin Nachfolger ein Wiki-mit-Bugtracker ala fossil-scm.org machen.
Lexmark X463 koennen zwar nur schwarz-weiss drucken, aber _doppelseitig_ farbig scannen,
Lexmark X734 kann farbig drucken, aber nur _einseitig_ scannen.
Auf kek.am lag kein kerberos keytab. Nachdem er eine hat, kann man sich nicht mehr einloggen.
Superb! Wegen heftiger Rechnungen war kein Reboot moeglich, entfernen des Keys hat erstmal
geholfen, aber einem User, der schon eingeloggt war, ist die X Session eingefroren. Alle
gnome, ubuntu, etc-artigen Prozesse abgeschossen, /etc/init.d/lightdm restart und schon
gings wieder.
In der vorlesungsfreien Zeit stehen gewaltige Umbauten an. Unter anderem Upgrades fast aller Server.
[/bauerm]
permanent link
24.01.2013,
Metadaten bzw. Informationen von PDFs aendern:
auslesen:
pdftk h1.pdf dump_data output aendern.txt
aendern.txt bearbeiten ...
und wieder zurueck ins PDF:
pdftk h1.pdf update_info aendern.txt output h11.pdf
[/bayer]
permanent link
23.01.2013,
Die Kameras fuer die Praktikumsraeume wurden heute montiert.
Wenn diese dann in Betrieb genommen wurden, koennen die Studenten
in diese Raeume ausweichen.
Leider macht der Heartbeat der Nexenta immer noch Probleme ...
Und die Lexmark X463 Drucker stuerzen weiterhin wie gewohnt ab ...
Wir laufen wie immer zu den Druckern und muessen diese neu starten
um sie wieder zu beleben, nicht zu vergessen den Papierstau der dabei
entsteht.
[/bayer]
permanent link
Am Rahmenvertrag vorbei(!) ein Problem an einem
[/bauerm]
permanent link
nexone (FileserverAdmiral) ist auf die neueste NexentaStor Version gebracht. Beim naechsten
(hoffentlich geplanten) Stromausfall werden wir die nextwo (FileserverKonteradmiral) ausschalten,
dann kriegt nexone wieder die Platten und wir koennen in Ruhe nextwo auf die neue Version
bringen. Aergerlicherweise sehen die beiden Server seit dem Upgrade eine Platte nicht, ueber
die sie per SCSI-Kommandos eine Art Dead-Peer-Detection machen. Der Support ist informiert...
Endlich das eklige msttcorefont-installer Problem gefixt. Hierbei besonders widerlich ist,
dass das Packet installiert wird, aber die Fonts dann nicht, bis der Admin (was nicht der
"End User" aus dem Wort "End User's License Agreement" ist) ein Programm startet, dort
"Ok" klickert ohne die Lizenz gelesen zu haben, und dann muss man das Packet mit --reinstall
nochmal installieren. Das ist aus vielen Perspektiven total krank. Und das aeussert sich
dann mit puppet nochmal besonders, weil puppet fuer Packete nur die Zustaende "abwesend" und
"installiert" kennt. Wuergaround:
exec { 'msttcorefonts-defect':
onlyif => '/usr/bin/test -f /usr/share/fonts/truetype/msttcorefonts/README',
path => '/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin',
command => '/bin/sh -c "echo ttf-mscorefonts-installer
msttcorefonts/accepted-mscorefonts-eula select true |
debconf-set-selections &&
apt-get install --reinstall ttf-mscorefonts-installer"',
}
exec { 'accept-msttcorefonts-license':
onlyif => 'debconf-get-selections |
grep "ttf-mscorefonts-installer[ ]*msttcorefonts/accepted-mscorefonts-eula"
| awk \'{print $4}\' | grep -q false',
command => '/bin/sh -c "echo ttf-mscorefonts-installer
msttcorefonts/accepted-mscorefonts-eula select true | debconf-set-selections',
}
package { 'ttf-mscorefonts-installer':
require => Exec['accept-msttcorefonts-license'],
ensure => installed,
}
Exec['msttcorefonts-defect'] pr"uft, ob das README rumliegt, das nur dann rumliegt, wenn die
Installation nur zur Haelfte ausgefuehrt wurde, setzt dann die debconf variable, und installiert
mit --reinstall nochmal.
Exec['accept-msttcorefonts-license'] prueft, ob die debconf Variable false ist, und setzt auf
true.
Das Package wartet auf Exec['accept-msttcorefonts-license'] und installiert dann. So ein Rotz.
[/bauerm]
permanent link
Auf magische Art hat sich das Problem mit dem ActiveDirectory geloest, die nextwo konnte sich
heute frueh anmelden und seit dem funktioniert wieder alles.
[/bauerm]
permanent link
WAaaaaaaa.
Durch eine nicht geklaerte Folge von Vorfaellen ist heute (oder gestern frueh, nicht jedoch
nachtmittags) unsere Verbindung vom Fileserver zum RRZE ActiveDirectory weggefallen. Das hatte
zur Folge, dass u.a. die Mitarbeiter von AM2 nicht mehr an ihre HOMEs kamen. Unsere Reparaturversuche
wiederum hatten als Nebeneffekt, dass alle NFSv4 HOMEs der restlichen Mitarbeiter in Mitleidenschaft
gezogen wurden. Nach zehn Stunden Debugging, Telefonanten mit RRZE und Nexenta.com, Emails
an dieselben schauts so aus:
- der DNS Server, an den sich der CIFS/smb Server auf nextwo wenden wollte, war vom
Stromausfall am Samstag betroffen und wurde gestern 14:00 wieder in Betrieb genommen, um
dann heute frueh ganz ausgeschaltet zu werden. Das letzteres mal passieren wuerde, war klar.
- nachdem wir einen anderen DNS Server eingetragen hatten, konnte die nextwo trotzdem nicht
mit dem AD reden, erst die Umstellung auf den AD Server als DNS Server + die Manipulation
von /etc/resolv.conf auf domainname=fauad.fau.de search=fauad.fau.de hat das behoben
(warum????!??). Der Std-DNS Server (131.188.0.10) kann nicht fuer CIFS/smb genommen werden,
weil er nicht "authoritative" ist.
- Nach dieser Umstellung hat der NFSv4 server versucht, alle usernamen als user@fauad.fau.de
aufzuloesen (NFSv4 braucht usernamen statt UIDs), und unser LDAP Server hat gemeldet, dass
er den domain nicht kennt (stimmt auch). Nachdem wir in /etc/default/nfs die Zeile
NFSMAPID_DOMAIN=mi.uni-erlangen.de
(was sonst?) eingetragen hatten, ging das NFSv4 wieder.
- Martin konnte mit seiner mu-Kennung aus dem AD auf SMB Shares zugreifen, Wigand nicht (?!#??)
- Obwohl so Sachen wie _ldap._tcp.dc._msdcs.fauad.fau.de abfragbar sind, meldet der idmapd
Couldn't open an LDAP connection to any global catalog server!
[/bauerm]
permanent link
14.01.2013,
Lexmark X463de schmiert und druckt nur mit Streifen.
Es sind Pins verbogen ...
[/bayer]
permanent link
17.01.2013,
Nach den Problemen mit dem File-Server hatten wir am File-Server eine
Overhead von ca. 700 MB. Das ist auf die Clients zurueckzufuehren, die
den NFS-Share kurz verloren haben und dadurch abgestuerzt sind (defunc).
Nach Neustart der CIP und Neubau Rechner sank der Overhead ...
[/bayer]
permanent link
Fuer die Filesystem Freezes gibt es folgende Erklaerungsmoeglichkeiten IMHO:
1. Netzproblem (eher nicht)
2. Fileserverproblem (auch eher weniger, das Ding packt eigentlich mehr Last)
3. UID/GID Aufloesung ueber nscd+nslcd+LDAPuebersnetz+Authserver (eher wahrscheinlich,
der ganze @$(*&%$&% ist viel zu komplex)
4. probleme mit dem rpc.idmapd (essenzielle Komponente von NFSv4, und unter Linux vermutlich
nicht gut getestet. Von emperor haben wir logs, wo der innerhalb einer Sekunde ein
paar dutzend Mal mit Status=1 stirbt (und die Manpage sagt natuerlich nicht, was
dieser Status sein soll))
Diagnoseaufbauten:
- Wegen 3. mal eine Maschine mit allen Usern in /etc/passwd und ohne LDAP/nslcd/nscd
konfigurieren. Die Authentisierung kann trotzdem ueber Kerberos laufen.
- Wegen 4. mal eine (andere) Maschine mit rpc.idmapd mit Debug-options laufen lassen
und logs anschaun
- Auf einer weiteren Maschine mal ein Programm laufen lassen, dass die Write/Read
Performance ueber NFSv4 misst und meckert wenn das zu langsam wird.
[/bauerm]
permanent link
Das mit der Bimmelabhilfe hat leider nicht funktioniert.
Sideeffect der Umnummerierung der Studenten ist, dass sie nicht mehr auf die alten (vor 19.12)
Snapshots ihrer HOMEs zugreifen koennen. Im Notfall koennen wir sie aus dem Fileserver
ziehen.
Bei AM3 verdunkeln die Monitore an den neuen Workstations und wachen nicht mehr auf.
Bisher einzige Abhilfe ist reboot. Das ist unakzeptabel, weil die ja grad eben
Datenvisualisierung machen sollen. Frau Baeumler hat uns ihren Rechner ausgeliehen,
damit wir den mal anschaun koennen, wenn was passiert.
Der HP 9000, den uns die Informatik netterweise geschenkt hat, ist jetzt fertig zum
Einsatz im CIP Pool. Wir haben die Fixiereinheit ausgetauscht und ein bisschen mit
den unleserlichsten Skripten getestet. Jetzt kommt die Innenarchitektonische Frage,
wo man dieses 65x75x50 cm^3 Monster hinstellen kann, ohne
a) die Sicht auf Vortragende zu verstellen
b) Fluchtwege zu blockieren
Die Backup Maschine von QNAP (einer von 4 (in Worten: vier) Backupmechanismen) laesst
keinen Zugriff per NFS mehr zu (??!??). Workaround: Backup per rsync-over-ssh.
[/bauerm]
permanent link
27.12.2012,
Merry Christmas and Happy New Year !!!
[/bayer]
permanent link
Alle PC Pool Maschinen auf den neuen AD Server umgezogen. Alle Studentenhomes dazu
passend umnummeriert. Allen (hoffentlich) RJE Hiwis im LDAP die neue UID gegeben.
Die Kaskade aus Caches von nslcd und nscd kann die alten UIDs verdammt lange halten.
Martin hat einen HP LJ 9000 in der Uni-internen Tauschzentrale gefunden, perfekt
fuer den PC Pool, 3100 Blatt Magazin, bis zu 50 Blatt/minute. Ich hoffe sehr, dass wir
den kriegen.
Bjoern hat eine Idee, woher das bescheuerte Bimmeln der (nicht FAX-faehigen) Lexmarks kommen
koennte, und testet jetzt die Abhilfe dazu.
[/bauerm]
permanent link
Aaaaaaaaargl.
ldapsearch -x 'homeDirectory=/home/stud/viktor'
liefert ein Ergebnis, dessen homeDirectory tatsaechlich /home/stud/viktor ist.
ldapsearch -x 'uid=*stud*'
liefert zwei Ergebnisse, deren Username "stud" enthaelt.
ldapsearch -x 'homeDirectory=*stud*'
und
ldapsearch -x 'homeDirectory*=stud'
liefern _kein_ Ergebnis. Das OpenLDAP kann also auf manchen Feldern subtring-Matches und
auf manchen nicht. Kwalitaetzsoftware wohin man blickt.
[/bauerm]
permanent link
14.12.2012,
xfce ist total kaputt. Nach Benutzung von Thunderbird und/oder
Firefox kann es vorkommen das die Workspaces nicht mehr benutzbar sind.
Es ist nur noch der aktuelle Workspace anklickbar und das Programm
welches zuletzt offen war laesst sich nicht mehr verschieben, schliessen
usw. Abhilfe schafft das auslogge und das anmelden ueber die Konsole.
Hier in ~.cache/sessions alle Dateien des xfce loeschen ... WTF %$@*.
Drucker 92 druckt nicht mehr. Druckauftrag steckt fest. Ueber CUPS Webfront-
end Druckauftrag geloescht ... bringt nix. Auf dem Printserver nach ipp gegrept,
mit kill -9 abgeschossen ... Erfolg !!??
[/bayer]
permanent link
Interessante Kette von Effekten: vor zwei Wochen hat das RRZE zwei DNS Server abgeschaltet,
was auch ausreichend angekuendigt war. Dummerweise haben wir das ueberall, ausser auf
den Fileservern umgebogen. Dadurch gab es eines Vormittags dann auf einigen Maschinen
das Problem, dass der Fileserver ihre Namen nicht abfragen konnte, und deswegen Zugang
verweigert hat. Das wiederum hat Prozesse gestoert, die Dateien auf dem Server offen hatten.
Das Problem haben wir in wenigen Minuten behoben, aber Linux kann anscheinend im Gegensatz zu Solaris
die Verbindung mit dem NFS Server nicht wieder aufnehmen. Und was noch erstaunlicher ist,
die haengenden read/write/open/access/stat/etc syscalls erzeugen _weiter Traffic_ zum
NFS Server, aber ohne jemals wieder in sync zu kommen. Dadurch hatten wir auf dem
Fileserver Switch zeitweise _2Gb/s_ Datenlast. Dass der Server das ohne grosses Jammern
mitgemacht hat, zeigt IMHO, dass wir da eine gute Wahl getroffen haben. Wir sind
dann alle Maschinen durchgegangen und haben nach
[/bauerm]
permanent link
05.12.2012,
Bugs verstecken sich ueberall. Nach dem Update auf Ubuntu 12.04
kommen so nach und nach verschieden Bugs zum Vorschein. Einer davon
betrifft Kile. Kile oeffnet Files mit mehr als 1024 Characters, nur mit
Fehlermeldung und im "Readonly Modus". Abhilfe schafft unter
settings > configure editor > open/save den Wert "line length limit"
auf 0 zu setzten. Des weiteren merkt sich Kile die im "Readonly Modus"
geoeffneten Dateien ... um Sie wieder bearbeiten zu koennen muss man
Sie im Tools Menue wieder "freischalten".
[/bayer]
permanent link
04.12.2012,
Unser Serverraum war abgesperrt. Trotz Zutrittskontrolle und Offline-
schloessern war die Tuere zum Serverraum verschlossen. Der nette Herr
vom Schliessdienst wusste auch nicht wie das zu Stande kommt, da
"eigentlich" nur Er einen Schluessel hat.
Die Netzwerkversion von Mathematica wurde um die Version 9.0 erweitert.
Maple 16 wurde auf die Version 16.02, und Maple 15 wurde auf die
Version 15.01 upgedatet.
[/bayer]
permanent link
Herr Leonhard hat rausgefunden, dass den Kopierer einen USB Anschluss hat, und man
mit einem PCL6 Treiber von Windows aus da auch automatisches Klammern aktivieren
kann. Nuetzlich fuer unsere Klausurmassen.
Der Klausurengenerator fuer Herrn Richard erzeugt brav Debian Pakete mit Klausurusern
und deren HOMEs, das Entpacken der Inhalte in die HOMEs schlaegt aber manchmal fehl.
Das ist besonders dann tragisch, wenn dort schon veraltete Inhalte liegen. Per Hand
nachgefrickelt um sicherzustellen, dass bei der naechsten Klausur auch alles gutgeht.
[/bauerm]
permanent link
03.12.2012,
So wie es aussieht hat das RRZE heute die alten DNS-Server abgeschaltet.
Wir hatten per Puppet schon die neuen Server an die Clients verteilt ...
allerdings mussten wir bei dem ein oder anderen Server "Hand" anlegen :)
[/bayer]
permanent link
Zu dem "niemand hier hat jemals von JOIN gehoert" PHP Fricklern: Man kann
(zumindest in sqlite3) die strings zum Vergleichen mit LIKE als nested
SELECT bauen:
SELECT * FROM foo WHERE bar LIKE (SELECT "%"|| bar FROM foo WHERE quux="221");
Packete fuer R nachinstalliert, die Ubuntu nicht auf dem aktuellen Stand haelt.
Wenn ein Prozess offene Filedescriptors auf Dateien vom NFS Server hat, und
den grad nicht erreichen kann, dann kann man den Prozess nicht kill-en,
und natuerlich dann die Maschine auch nicht sauber runterfahren.
Weitere lustige Sachen mit libcairo in Python gehackt.
Bjoern hat das Raetsel mit der verschwundenen UserGruppe im Typo3 geloest,
das war eine Gruppe, die nur unter dem Domain "studium" sichtbar war.
Nachdem wir immer ueber math.fau.de drangehen, wurde die teilweise versteckt.
Ist repariert.
[/bauerm]
permanent link
Typo3 ist soooo kaputtt. Um rauszukriegen, wer in einer bestimmten Usergruppe ist,
gibts in der tollen Webgui gar nix. Was man machen kann, ist jemanden finden, der
bekanntermassen in der Gruppe ist, seine Nutzerinformation mit dem i-im-kringel
anzeigen lassen, dort raten, dass z.b. 18 die Gruppennummer von StudiumWebEditor
ist, und dann per hand folgende URL eingeben:
https://www.algeo.math.fau.de/typo3/show_item.php?table=be_groups&uid=18
Dann kriegt man die uids --- nicht die namen --- aller Mitglieder der Gruppe 18.
Mit denen kann man dann einen SQL Query an die Datenbank schicken:
select username from be_users where uid in (80,40,129,144,131,93,65,176,173);
Oder man daddelt per hand durch die URLs
https://www.algeo.math.fau.de/typo3/show_item.php?table=be_users&uid=80
fuer alle Usernummern aus obiger Antwort.
Dann schaut man natuerlich mal nach, wie das mit der Gruppen<->Nutzer Zuordnung gemacht
ist. Und stellt fest, dass die Deppen nicht wissen, was ein Join-Table ist! Es gibt
in be_users eine Spalte groupname, in der die IDs der Gruppen des Nutzers,
_mit kommata getrennt_ drinstehen. D.h. die Datenbank wird ueberhaupt nicht benutzt,
die IDs werden als String eingelesen und mit einem zweiten Query den Gruppen zugeordnet.
*stirnklatsch* Wer hat die in die Naehe eines Computers gelassen???
Folgendes funktioniert fuer Gruppe 18, bis wir eine Gruppe mit nummer 118 oder 180 haben:
select username from be_users where groupname LIKE "%18%";
Fuer Gruppe z.b. Nummer 1 geht LIKE "%1%" nicht, weil man nicht wissen kann, ob die 1 nicht
die erste oder letzte Ziffer einer anderen Zahl ist!
[/bauerm]
permanent link
22.11.2012,
Norton macht Probleme. Am externes RAID des Norton ist mal wieder ein
Platte defekt. Platte gegen eine Neue getauscht (alte hat noch Garantie,
die es nun einzufordern gilt).
Es stellt sich heraus das fuer die iLO-Schnittstellen der HP Server eine
neue Firmware vorhanden ist (iLO3 v1.50) ... an allen HP Servern installiert.
Die Installationen der Workstations im Haus geht voran -> 50 Maschinen sind
schon installiert.
Das W-LAN des RRZE macht Probleme. Es werden einfach manchmal keine IP-Adessen
verteilt. Der DHCP-Server fuer das W-LAN ist defekt und der Ersatz-DHCP ist
nicht eingesprungen.
Staendige Verbindungsabbrueche im W-LAN des RRZE. Nach Ruecksprache mit dem RRZE
wird der Fehler in den naechsten 2 Wochen gefixt.
[/bayer]
permanent link
19.11.2012,
Neuinstallation der Numbercruncher Norton und Sultana steht an.
Sultana neu installiert auf 12.04 LTS Server.
[/bayer]
permanent link
13.11.2012,
USV im Serverraum AM2 piepst mit dem Fehler "Batt Error". Leitwarte verstaendigt ... sind dafuer
nicht zustaendig. Bei dem Kollegen der Firma S... angerufen ... kuemmern sich.
Die Matlab Lizenzen sind sehr begehrt ... hoffentlich sind Sie bald weg.
Seite Rechnerverwaltung/faq abgeaendert. Roundcube Anleitung verfasst.
Linkchecker ueber die math.fau.de gejagt ... Wigand hat die Fehler beseitigt.
Neuen Printserver aufgesetzt (12.04) (Spende alter Hardware von AM3, mit neuen Platten versehen) ...
Patrik M. hat die Drucker eingerichtet ... Test steht noch aus.
Nochmal an der smb.conf gefrickelt ... laeuft etz unter FAUAD. Das Problem: die User bekommen andere ID's,
was bedeutet, wenn wir den CIP-Pool umstellen muessen wir die ganzen Homes der CIP-User abaendern.
5 Rechner fuer AM3 installiert - kek, helios, emperor, bastardinha und brunello. Typ Fujitsu Celsius R920.
Alle Rechner in den Cip-Pools und Praktikum Raeumen auf Ubuntu 12.04 hochgezogen. Die Rechner im Department
werden nach und nach hochgezogen. Das Update der Server auf 12.04 steht noch an.
Frau Graessel ist in den Raum 01.385 umgezogen ... Rechner, Drucker und FAX mit umgezogen und Webseite
angepasst.
Die FAU-Card schliesst jetzt alles, auch unsere Serverraeume. Um die Karte fuer die Serverraeume zu
aktivieren muss man sie an der Validierungsstation freischalten. Diese Freischaltung gilt 25 Std.
Achtung nicht 24 und auch nicht 26 NEIN 25 Stunden. Innerhalb dieser Zeit kann man die Server-
raeume betreten, danach ist eine erneute Validierung erforderlich.
[/bayer]
permanent link
Was geschah im letzten Monat:
Neuer Printerserver wurde aufgesetzt und auf neuer Hardware installiert. Er uebernimmt
die Printserverfunktion des neubau-103, um den so langsam zum reinen Mailserver
zu reduzieren
Nach und nach und beginnend mit den PC Pools und Praktikumsraeumen wurden und werden
die Maschinen auf Ubuntu 12.04 gebracht.
Das Problem mit der Namensaufloesung in NFSv4 wurde geschickt umschifft, so dass
der CIP Pool wieder NFSv4 hat.
Das Bauamt, das Gebaeudemanagement und diverse andere wurden von unserem Wunsch
informiert, die Klimaanlagen in Serverraeumen doch bitte an der zentralen
Leitwarte anzuschliessen.
Wenn man in Puppet eine File Resource anlegt, und sich bei dem "ensure" Attribut
vertut, indem man statt "present" "exists" angibt, ist die Fehlermeldung nicht
etwa
"Ihr 'ensure' hat einen Wert dens nicht gibt, nehmen sie 'present', 'absent', 'directory' oder 'link'",
sondern:
"You cannot specify more than one of content, source, target at /etc/puppet/modules..."
Die Studierenden bitten darum, den Praktikumsraum 1 benutzen zu koennen, wenn der
PC Pool 1 mit Lehrveranstaltungen belegt ist. Antrag ist wohl gestellt...
Der Umzug der Maschinen von ziusudra als puppet server zur management schreitet so
langsam fort. Eine ganz besondere Herausforderung ist es, management selbst als
puppet-client seiner selbst zu konfigurieren.
Martin hat auf der cip-54-123 ein funktionierendes Setup fuer Authentisierung gegen
den _neuen_ AD Server des RRZE. Weil wir aber die posixUids der Studenten aus
den SIDs im AD generieren, und diese widerum den Umzug auf den neuen Server nicht
ueberlebt haben, muessen wir in einer Nacht&Nebel Aktion alle Studentischen HOMEs
auf die neuen generierten posixUids umwidmen, und fuer unsere Hiwis auch die
posixUids im LDAP, damit die ihr HOME weiterbenutzen koennen. Sehr flexibel, und
insbesondere wacklig, das alles.
Ein klassisches puppet-Problem: die hirnlosen Fehlermeldungen mal wieder. Was soll
der geneigte Leser dem folgenden entnehmen:
"Failed to apply catalog: Could not intern from pson: source '"#
[/bauerm]
permanent link
AAaaargl. NFSv4 macht permissions nicht an numerischen IDs fest, sondern an Namen.
Das impliziert, dass Client und Server Namens-lookups auf die gleiche Datenbank
machen. Das ist bei unserem CIP Pool nicht der Fall, da kommen die Namen auf dem
Client vom AD des RRZE und auf dem Server haben die HOMEs einfach die passenden
numerischen IDs. Das klappt aber nur mit NFSv3. Nachdem die AD Integration schon
auf den CIP Clients eine unglaublich eklige Friquelage war, moechten wir das
nicht auf dem Server wiederholen (ausserdem muessten wir dann die UIDs aller
Mitarbeiter, die noch ihre Studi-Accountnamen benutzen, auf die vom CIPpool umstellen).
Also Rollback auf NFSv3.
Das RRZE AD Team dreht um Weihnachten rum den AD ab, an dem unser CIP Pool haengt.
Martin hatte im Juni/Juli in harten Kleinstarbeit eine funktionierende Konfig dafuer
gebaut. Scheint nach der Neuinstallation aber nicht mehr zu funktionieren.
[/bauerm]
permanent link
Bugsbugsbugs. Die Zabbix+Postgres Mischung auf monitor hat eine systemlast von 21 erreicht,
die Messwerte der zabbix_agents kommen gar nicht mehr in der Datenbank an, sondern
liegen stundenlang in Queues. Mit diversen Mitteln versucht, Performance zu verbessern,
leider erfolglos. Martin macht einen Update der Packete und wir versuchen noch an
der Postgres Performance zu drehen.
Ein Monsterproblem ist der merge der diversen puppet-repo-Aeste...
Der CIP Pool ist auf Ubuntu precise gebracht, Patrik W. hat dabei noch einen PC
mit kaputtem RAM aufgespuert. Qua Garantie von Frasch repariert. Gut so.
Ausserdem wurde dabei ein nicht-inventarisierter Rechner gefunden
[/bauerm]
permanent link
RRZE Netzteam hat unserer load-balancing Cisco im Serverrack einen zweiten Glasfaser-Uplink
gegeben, ab jetzt serviert also der fileserver mit _doppelter_ Lichtgeschwindigkeit.
Dass unsere Klimaanlagen nicht an der Leitwarte des ATD angeschlossen sind, liegt daran,
dass sie NICHT ABGENOMMEN sind (seit einem Jahr). Uns haette ja jemand andeuten koennen,
dass wir da staendig selber ein Auge drauf haben muessten, weil wenn was schiefgeht,
sinds unsere Server die sterben.
Nette Art Puppet-Rezepte auszuprobieren: Eine Datei anlegen, in der ein default node
definiert wird, der das gewuenschte als Zustand hat, und die Module/Templates dazu
in /tmp/foo/ ablegen, dann auf einer Testmaschine
puppet apply -v --moduledir=/tmp/foo --templatedir=/tmp/foo
Das tut dann ohne Kontakt zum zentralen puppet master.
[/bauerm]
permanent link
25.09.2012,
Der Mailserver hat am Wochenende seinen Dienst eingestellt.
Grund war dass der nslcd durch ein Security-Update kaputtgefixt wurde.
Nach einem abschiessen und Neustart des Dienstes konnten sich die User wieder
anmelden. Es gingen keine Mails verloren !
Eine Platte im AM3 18T-Raid MSA60 ist defekt, schnell Ersatz geordert und Platte verbaut.
Mit HP Kontakt aufgenommen da die Platte erst 18 Monate alt ist.
Soeben kam der Anruf von HP dass die Platte nur ein Jahr Garantie hat (da SATA) WTF !!!
Es gilt nun zu klaeren ob wir ein HP CarePacket mit geordert haben ... wenn ja
dann hat die Platte noch Garantie.
Ein Mitarbeiter hat versehentlich Mails geloescht ... aus dem Backup wieder hergestellt.
Bjoern hat eine VM mit Windows 7 und Office 2010 aufgesetzt.
Bei einer Neuinstallation werden DHCP-Requests nicht innerhalb 15s beantwortet,
was dazu fuehrt dass die Installation abbricht. Mit dem RRZE gesprochen ... es wurde
das Spanning Tree an den RRZE-Switches fuer unsere Netze abgeschaltet.
[/bayer]
permanent link
Python ist lustig, man kann wie in Haskells Lazy Evaluation z.b. die Fibonaccizahlen an
ihren eigenen zwei Haaren aus dem Sumpf ziehen:
def _fib_lazy():
yield 1
yield 1
a = _fib_lazy()
b = _fib_lazy()
b.next()
while True:
yield (a.next() + b.next()) # keine rekursion, a und b halten Zustand
def _lazyref(f,n):
c=1
o=f()
while c < n:
o.next()
c += 1
return o.next()
def fib_lazy(n):
return _lazyref(_fib_lazy,n)
Ruecksprache mit einem Nexenta developer gehalten, er bastelt ein beispielsetup, wir auch.
Kwalitaetssoftware wohin man blickt: auf linux-2.6.38-12 verschwindet der rpc_pipefs mount
ohne irgendeine Fehlermeldung, darauf versagt rpc.idmapd mit fehlermeldungen, und alle
Dateien in NFS4 mounts gehoeren ploetzlich nobody:nogroup. Hat ein bisschen gedauert,
bis ich das gefunden hab...
[/bauerm]
permanent link
Webgefrickel fuer Herrn Lembcke. Stellt sich raus, dass man mit der "Page" Option im
Typo3 keine Links auf .html Dateien im /fileadmin-Baum setzen kann, also werden das
immer "externe" Links auf www.math.fau.de.
Mitarbeiter schicken sich gegenseitig Word Dokumente, die eine mit Word,
die andere mit Libreoffice. Effekt: Tabellenspalten verkuemmern, lichten sich, verschwinden.
Anscheinend ein bekanntes Problem. Momentaner Workaround: beide schicken in .rtf Format,
in der Annahme, dass bei weniger komplexen Formaten auch weniger schief gehen kann.
Nexenta weiter mit Bugreports belaestigt.
Angefangen, Python zu lernen
[/bauerm]
permanent link
Argl. nachdem die neubau-* maschinen ja nie rebootet werden und wir die nicht neu installiert
haben, laufen durch die kernel-updates die root-Partitionen voll. Und der 2.6.38-16 kernel
macht irgendwas brutal falsch. Also per puppet den 16er deinstalliert und den cronjob zum
kernel-aufraeumen auf allen Maschinen, nicht nur cip-Pool, installiert. mal schaun...
Weiteres postgresql performace tuning: Nachdem die Last staendig ueber 5 lag, mal in der
postgresql.conf rumgeschaut und den commit_delay auf 100000 gesetzt. Wenn ich das richtig
verstehe, erlaubt das der DB, Schreibvorgaenge zu buendeln, was dann weniger IO macht.
Scheint zu helfen, die Last ist jetzt immer kleiner als 5 und das System reagiert schneller...
Florian hat ein IPMI Template im Zabbix eingerichtet, mit monitor als erste Maschine.
Bis jetzt keine Messwerte...
[/bauerm]
permanent link
Nach einem Reboot von nextwo haben nexone und nextwo fleissig ueber 250 Emails verschickt, mit
der Meldung, dass der jeweils andere tot ist, was sie ueber die Disk-Probes rausgefunden haben.
Strange.
[/bauerm]
permanent link
Die letzten drei Tage standen im Schatten der Puppet-Tree Aenderungen. Wir hatten extra
die ziusudra-puppet.conf und das ssl subdir auf ziusudra aus der Versionskontrolle entfernt,
damit wir fuer beide puppet-server denselben Tree benutzen koennen. Die Folge war aber,
dass auf der ziusudra Dateien entfernt wurden, bzw mit spaeteren Varianten vom management
ueberschrieben. Nuetzliche Kommandos zum Debuggen:
openssl x509 -text < fragliches.cert.pem
(hier ist interessant ob
1. der hostname richtig ist
2. das Begin/End Datum passt
3. der key CA spielen darf oder nicht
)
openssl verify -CAfile /pfad/zum/ca.pem fragliches.cert.pem
openssl s_client -CAfile /pfad/zum/ca.pem -cert /pfad/zum/host/key \
-key /pfad/zum/key.pem -connect server:8140
[/bauerm]
permanent link
Der Merge der zwei puppet Baeume war nicht ganz folgenlos: in manifests/site.pp war noch
der fileserver als management eingetragen, was fuer die Maschinen mit Certs von der ziusudra
tragisch war:
1. puppet.conf von ziusudra ziehen
2. merken, dass sich was geaendert hat
3. versuchen, die alte Version auf den fileserver zu laden,
5. klappt nicht, trotzdem puppet restarten
6. Weiter bei 1
Dementsprechend hoch war der Traffic auf dem Puppet server... Heut nacht gegen drei wars
dann fertig debuggt und repariert.
ILO3 Schnittstellen auf den Servern konfiguriert. Da gibts aber noch mehr zu tun...
Eine offene Frage ist, ob man User anlegen kann, die ausschliesslich einen read-only
Zugriff ueber IPMI auf die Sensoren haben; das waere fuer automatische Abfragen zu
Stromverbrauch, Netzteilzustand, Chassistemperatur etc die sinnvolle loesung.
Auf vielfachen Wunsch hin haben Herr Hild und ich die automatischen Tuerschliesser von Druckerraum
und Damentoilette so umgestellt, dass man nicht mehr fuerchten muss, dass einem die Hand
abgehackt wird, wenn die Tuer zufaellt.
[/bauerm]
permanent link
Kwalitaetssoftware:
/etc/init.d/puppetmaster restart geht nicht, weil er /var/run/pupppetmaster.pid nicht
schreiben kann, aber hat trotzdem exit status 0 und meldet "Done"
Wenn der puppetmaster sein /etc/puppet/puppet.conf oder /etc/puppet/auth.conf
nicht lesen kann, weil die z.b. nicht puppet gehoeren, dann stirbt er nicht,
sondern benutzt default-Settings, was latuernich total zufaellige Ergebnisse
liefern kann.
Mit Bjoern die Mercurial-Aeste von ziusudra und dem neuen Management-Server zusammengefuehrt.
Seiteneffekt davon ist, dass einige eher experimentelle Features auf den cip-Pool Rechnern landen...
Wegen dem Gaeste-Wavelan fuer den Workshop diese Woche war noch etwas Ruecksprache mit dem RRZE
noetig.
Die Server ILO-Ports sind jetzt in einem eigenen Netz.
[/bauerm]
permanent link
Testserver ist jetzt management-Server. Neue Puppetinkarnation mit dashboard laeuft da,
spaeter soll auch der Installserver dahin wandern. Erstmal muss aber der Upgrade auf
quantal oder precise funktioniert haben.
Martin hat eine neue Matlab Version installiert, lief mit relativ wenigen Problemen.
[/bauerm]
permanent link
Das Automatisierte Anlegen von Klausurusern mit vorgebenen HOMEs ist jetzt ueber
auto-generierte Debian-Pakete implementiert, die man dann per puppet auf den
PC Pools installieren kann.
[/bauerm]
permanent link
Mal schnell das facter um die Faehigkeit erweitert, jede Sorte von benamster Information, die von
dmidecode aus dem BIOS gelesen werden kann, auch als Fact(TM) darzustellen. Damit koennen wir u.a.
die BIOS Versionen und die Seriennummern auslesen, ohne an die Hardware zu muessen.
Mit Bjoern diskutiert, wie eine wahrlich zentrale Administration funktionieren koennte. Zu diesem
Zweck den Testserver auf management umbenannt und begonnen, mit puppet-dashboard zu spielen.
Die Testnetz-Maschinen werden jetzt von dort aus verwaltet. Interessantes Problem bleibt die
Kommunikation zwischen den Komponenten
Inventarsystem
Puppetmaster
Installserver
Authserver
Monitoring gemessener vs. erwareter Werte
Das Anlegen von Usern fuer Onlineklausuren durch ein Shellskript weitgehend automatisiert.
Was noch fehlt, ist das automatische Anlegen und Auffuellen der HOMEs.
Florian hat rausgekriegt, wie man das Adobe Readerplugin automatisch entfernen kann und statt
dessen z.B. ocular als default Reader definieren kann. Und hat auch gleich ein puppet Module
dazu gebaut.
[/bauerm]
permanent link
Puppet Erkenntnisse bei Execs:
logoutput => true,
macht den Output im Log sichtbar
refreshonly => true
fuehrt das Exec nur aus, wenn es von woanders mit
notify => Exec['dernamedesExecs']
angeschubst wird.
Das VACUUM FULL von PostgreSQL auf unseren zabbix Daten braucht mehr als 24 Stunden. Der Florian
baut jetzt die klassische MySQL Wuergaround-Loesung, bei der mit dump/restore nur die lebendigen Daten
als komprimiertes ASCII Datei weggesichert und in einem neuen DB-file restauriert werden.
Das alte kommt dann auf den Muell.
[/bauerm]
permanent link
30.08.2012,
Simon hat das Tuerschild in tex gebaut. Ist nun im Infocenter
auf der Homepage verfuegbar.
Micha braucht dringend Daten von dem alten AM Server. Aus dem Keller
geholt und das Raid und den Server verkabelt. Nach einigen Ver-
suchen hatten wir Zugriff auf das externe Raid und haben ca. 7GB
Daten geholt.
Es wurden alle iLO an den Servern eingerichtet und getestet. Nicht
ganz trivial weil die Schnittstellen ueber XML konfiguriert werden
(es galt ein Reboot zu vermeiden). Unter Ubuntu beoetigt man
diverse HP Software die das konfigurieren der iLO vom BS aus erlaubt.
Simon hat eine Anleitung verfasst :)
Auf dem Monitor wurde die iLO auf 1.28 geupdatet.
[/bayer]
permanent link
Der Allgemeine Technische Dienst sieht unsere Klimaanlagen nicht! D.h. wenn im Serverraum im Keller
Wasser austritt, dann pfeift die Klimaanlage, wir hoerens aber nicht, und wenn das Wasser
die Racks erreicht, merkens alle im Haus :( Beim Bauamt gemeldet, mal schaun,
wann das korrigiert wird.
[/bauerm]
permanent link
21.08.2012,
Das RRZE hat sich heute wegen den Zeiterfassungskonten gemeldet.
Es funktioniert jetzt alles wieder und die Mitarbeiter koennen
sich einloggen.
Wir haben unseren Lagerraum aufgeraeumt. Es waren noch Unmengen
von Umzugskisten im Lagerraum. Es wurde gleich eine "kleine"
Inventarliste angefertigt.
Printer-83 aus den FAQ des Webauftrittes entfernt.
[/bayer]
permanent link
20.08.2012,
Der Lexmark-Drucker X463 einer Sekretaerin hat keine Lust Duplex zu Drucken.
Monteur von der Firma Frasch hat ihn gleich zerlegt ... jetzt geht er
wieder !!?? Es wird trotzdem ein neuer Duplex-Sensor in den naechsten
Tagen eingebaut.
Das RRZE hat ihre Zeiterfassungssoftware upgedatet. Bei manchen ist ein
Login moeglich bei manchen nicht. Mail an das RRZE geschrieben mit der
Bitte die betreffenden Accounts zu ueberpruefen.
Das Sonnenrollo in meinem Zimmer wird heute instandgesetzt. Dies war
ohne Funktion seit dem Einzug :(
[/bayer]
permanent link
17.08.2012,
Wir haben heute Morgen unseren Lexmark-Drucker getestet.
Leider ohne Erfolg - er nimmt sich nicht die IP-Adresse
vom DHCP-Server. RRZE darueber Infomiert das die Umstellung
am Switch nichts gebracht hat. Wir haben den Drucker nun wieder
auf seine IP festgenagelt.
[/bayer]
permanent link
16.08.2012,
Ersten CIP-Rechner ins Testnetz aufgenommen und mit 12.04 installiert.
Alle Programme (Matlab usw.) laufen, und die CIP-Drucker sind auch ansprechbar.
Klimaanlage im Serverraum AM2 in Betrieb genommen - Der Umzug steht bevor.
Heute wird die Netzanbindung im Serverraum AM2 durch das RRZE gepatcht.
AM2 braucht keinen Switch, da RJ45 und LWL direkt am Panel in ausreichender Menge
verfuegbar sind.
Es stellte sich nach einem Gespraech mit der Netzabteilung des RRZE heraus, das in den Bueros
keine Switche an den Dosen installiert werden duerfen. Die RRZE-Switche sind so konfiguriert
das Dosen an denen ein Switch angeschlossen ist gedrosselt bzw. abgeschaltet werden.
Desweiteren ist die Aussage, wenn wir Probleme mit der Zuteilung von DHCP-Adressen
haben, an den RRZE-Switchen, das "Spanning Tree Protocol" geaendert werden muss.
Es wurde zu Tests an einer Dose abgeaendert ... wir werden Testen.
[/bayer]
permanent link
15.08.2012,
Alle Lexmark-Drucker X463 und X464 mit neuer Firmware versorgt.
X734 wurde auch mit neuer Firmware bestueckt.
Wir haben bei unseren HP-Servern die iLO Schnittstellen verkabelt.
Es muessen nun die iLO's noch konfiguriert werden - Vorstellung ist:
Alle iLO's auf einem Switch in einem eigenen Netz.
Den 3ten Rechner fuer Wigand eingerichtet.
[/bayer]
permanent link
14.08.2012,
Wigand hat gestern mit dem neuen Install-Script 2 Rechner
installiert - funktioniert.
Fuer AM2 haben wir fehlende Homes auf dem Fileserver erstellt.
Die Lexmark-Drucker X463 brauchen ein Firmwareupdate auf P631.
CIP-Pools sind upgedatet - Drucker im Haus -> in Arbeit.
[/bayer]
permanent link
10.08.2012,
Nach diversen Versuchen, wird svn ohne WebSVN installiert.
WebSVN hat sich als nicht praktikabel erwiesen.
Bjoern hat eine neue Installation aufgesetzt die eine vorhandene
Windowsinstallation in Ruhe laesst, und dazu Ubuntu 12.04 installiert.
Allerdings muss nach der Installation von Ubuntu der Windows-Bootloader
gefixt werden.
Nach dem Versuch unseren Lagerraum zu betreten, mussten wir feststellen
das der "Schluessel" nicht mehr passt. Leitwarte eingeschaltet - unser
"Schluessel" wurde neu eingelesen - Zugang wieder moeglich.
[/bayer]
permanent link
09.08.2012,
Roundcube wurde parallel auf 0.80 geupdatet, es muss jetzt getestet werden.
Techniker von Firma Frasch war da und hat eine Lexmark-Drucker wiederbelebt.
Bjoern hat jetzt einen Stand von 12.04, den wir nochmal testen muessen.
[/bayer]
permanent link
06.08.2012,
Auf dem Testserver ein Subversion Repositorie installiert.
Wigand will seinen Repo-Server abschalten, und zu uns umziehen ...
er kann jetzt mal Testen.
Nvidia flickt seine Treiber:
http://nvidia.custhelp.com/app/answers/detail/a_id/3140
[/bayer]
permanent link
02.08.2012,
Gestern wurde uns die "High Performance Workstation Celsius R920" geliefert.
Nach diversen Tests stellt sich heraus, das nur ein bestimmter Nvidia-Treiber
die verbaute Quadro 2000 unterstuetzt.
Auf meinem Rechner zu Testzwecken Ubuntu 12.04 installiert.
Firma Frasch hat sich gemeldet: der Industry-sized "Abteilungsdrucker"
schmiert genau so ab wie unser X463. Herr Frasch teilte mir mit das
die Informatik einen W850dn hat. Getestet schmiert auch ab ...
aliases.mi Liste angefangen auszumisten.
[/bayer]
permanent link
Stellt sich raus, dass man fuer Lexmark E360 ganz anderen Toner braucht als fuer Lexmark X363. Duh.
Die Lebenszeit einer Lexmark "PC unit" (Fixiereinheit) ist ein extrem kleines Vielfaches der
Lebenszeit einer Tonerkassette. D.h. nicht nur der Preis des Toners pro Seite ist relevant,
sondern auch der dieses Verschleissteils.
Angefangen, Gruppen-IDs aus der Bismarckstrassenzeit geradezuziehen.
[/bauerm]
permanent link
Ein Mitarbeiter hat sich von einer Phishing-mail verleiten lassen, Passwort und Accountname
an Spammer herauszuruecken, so gegen 10:00. Kurz darauf begannen zwei IPs aus Lagos, ueber
unseren Webmailer an Tausende von (alphabetisch sortierten) Adressen Muell zu mailen. An
der mailqueue Laenge war das nicht zu bemerken, da die Angreifer wenige mails mit Tausenden
von Adressen im To: Feld verschickt haben. Herr Marquardt vom RRZE hat uns auf die auffaellige
Verbindungsmenge an verschiedenste Server auf der Welt hingewiesen und wir konnten innerhalb
relativ kurzer Zeit die Flut daemmen, die Ursache finden und den Account sperren.
Die Firma Frasch stellt uns einen Industry-sized "Abteilungsdrucker" von Lexmark zum Testen
zur Verfuegung, weil es qua Rahmenvertrag wesentlich guenstiger waere, diesen in den
CIP Pool zu stellen, als einen vergleichbaren HP (fuer den wir wohl eine Ausnahmegenehmigung
bekommen wuerden). Ist natuerlich nur dann interessant, wenn der nicht auch an Adobe-Output
stirbt.
Das NFSv4 in Ubuntu-Linux ist so kaputt, dass wir das nicht benutzen koennen. Mal mit Nexenta
reden.
[/bauerm]
permanent link
Stresstest von Ubuntu precise hat begonnen, erste Bugs/Unvertraeglichkeiten tauchen auf.
Das Ubuntu precise hat einen std-kernel mit einem ekligen BUG im NFSv4:
NFS: nfs4_reclaim_open_state: Lock reclaim failed!
Subber! Genau das, was man fuer ein Upgrade haben moechte. Scheint dieser hier zu sein:
https://bugs.launchpad.net/ubuntu/+source/linux/+bug/974664
In Ubuntu quantal gibts einen Kernel, der den betroffenen Prozess dann nicht killt, sondern
nur den Fehler loggt, aber der Fehler ist noch da.
[/bauerm]
permanent link
Die Serverraeume von AM[123] sind wohl ausreichend direkt verkabelt (an einen switch vom
RRZE in einem Raum, den die Schliesstechnik erstmal gegen das RRZE gesichert hat), so
dass Maschinen nach Absprache ohne einen dazwischenstehenden Switch angeschlossen werden
koennen.
Mails eines Mitarbeiters aus dem Mailbackup gerettet
Linux hat keine update-Option fuer mount, so dass mount options nur durch umount/mount-mit-neuen-optionen
geaendert werden koennen. Das fuehrt dazu, dass man i.A. nur dann mount-options aendern kann,
wenn keine User eingeloggt sind. Saubloed. Aktueller Fall ist die noacl Mount option, damit
das GNU 'cp -p' funktioniert, weil sonst die Makefiles von zahlreichen Tools stehenbleiben.
[/bauerm]
permanent link
Stellt sich raus, dass beide Nexenta Heads teilweise verklebte Lueftungsschlitze am
Gehaeuse hatten. Gefixt.
Serverraum ist inventarisiert. Mit dem Testserver koennte man mehr anstellen...
CIP Pool und Grossteil der Drucker ist inventarisiert.
[/bauerm]
permanent link
Mit der gesamt-Inventarisierung begonnen. Nicht ganz trivial...
Mehrere SQL/awk Skripten gebastelt, die den PCs Seriennummern (von Frasch) nach MAC-adressen
zuteilen, bzw diejenigen raussuchen, die keine Inventarnummer haben, obwohl sie sollten
Das Inventar Python-Skript und die DB erweitert, so dass auch Seriennummern reinpassen.
Stellt sich raus, dass Google Chromium keine Konfig-Files fuer die Application-Handler
hat. Er ruft statt dessen xdg-open mit dem Dateiname/URL. Wie jedoch xdg-open
konfiguriert wird, ist noch rauszufinden..
"Every problem in computer science can be solved by introducing indirection, except the
problem of too much indirections"
[/bauerm]
permanent link
Endlich, endlich, eine Liste aller "Kunst am Bau" im Suedgelaende:
http://www.seniorennetz-erlangen.de/ErlangenVirtuell/hedayati/kunst/kunst03.html
[/bauerm]
permanent link
Jowza! Shutdown per cronjob funktioniert, und die Linux Manpage zu shutdown ist defekt
(wie haette es anders sein koennen?), da steht die shutdown-message als optional drin,
ist sie aber nicht.
Powersave Module vereinfacht und fuer cip-pool 2 in betrieb genommen. morgen mal nachschaun.
Dem Departments-Voltmeter eine neue Batterie spendiert
Die Serverraeume von AM[123] sind zwar verkabelt, aber es wurden keine Switches eingeplant.
Verhandlungen ueber Recycling alter 3com Gigabit Switches laufen jetzt mit dem RRZE Netzteam
Das "Photo Transfer Kit" in zwei PC Pool Drucker ist hinueber, Ersatz eingebaut und neuen
bestellt.
[/bauerm]
permanent link
Gelernt: in vi kann man eine Datei mit owner root, mode=644 schreiben, in dem man
mit
:w ! sudo tee %
abspeichert.
Heissa! Im Serverraum sind jetzt die AV ("AusVall") Leisten zu USV Leisten ummontiert
worden. Ist jetzt zwar unsymmetrisch zwischen SV (Dieselgenerator dahinter) und
USV, so dass vielleicht ein paar Maschinen nach dem Ableben der USV gar keinen
Strom mehr haben, aber das koennen wir noch geschickt steckern.
Puppet Dashboard koennte interessant sein.
[/bauerm]
permanent link
Einen wireless Accesspoint fuer Herrn Fiebig getestet
Die ersten Inventarnummern kommen rein, heute norton und sultana belabelt
Herr Schmid hat ein paar Tips zu RRZE-nahen Gremien gegeben.
Nochmal wegen einer Kostenstellenanordnungsverfuegungsnummer bei der ZUV nachgefragt.
Im puppet rumgeraeumt. Das Ubuntu/Debian macht es zum Teil unmoeglich, rauszukriegen,
ob ein service (i.e. ein init-skript) installiert ist, weil deren 'invoke-rc.d' undefinierte
Werte liefert.
[/bauerm]
permanent link
Im RRZE klargestellt, dass das 131.188.102.0/24 noch unter Kontrolle von Alex steht
Evan Powell von Nexenta war da, um zu hoeren, was ich an NexentaStor gut oder schlecht
finde. Ergebnis ist hoffentlich, dass
- sich das devteam um NFSsec kuemmert
- die ReDuplikation von LDAP Daten innerhalb vom HA Paar geklaert wird
- die Diagnosedaten von Coraid shelves besser integriert werden
- wir einen direkteren Draht zu Entwicklern kriegen
Noch ein HP Printer verstorben
Es gibt ein NexentaOS "plugin" fuer virtuelle iscsi-tapes:
http://www.nexentastor.org/projects/vtape/repository/revisions/0/entry/nexenta-vtape/
genau sowas hab ich fuer Backups gesucht, das kann man schoen mit z.b. bacula verheiraten
und dann sowohl auf tapes alsauch auf schnelle (und grosse) Platten schreiben. Wenn
eine 3TB Platte 100 Euro kostet, ist das ein guter deal. Nur noch Hardware dafuer
auftreiben.
Weiter im Bugtracker aufgeraeumt
[/bauerm]
permanent link
Die "erweiterte Unileitung" ist auf die verblueffende Idee gekommen, dass man alle
Mailadressen, von Mitarbeitern und allen Studenten, welche die uni jemals haben
wird, alle am RRZE unter der domain fau.de, ohne subdomains(!), halten koennte.
Das ist aus so vielen Gruenden Unfug, dass ich gleich mit dem RRZE konferieren musste,
und die finden das interessanterweise auch nicht toll. Ohne das permanente
Allmachtstreben waere es aber auch unmoeglich gewesen, diese Forderung ueberhaupt
zu stellen. Auswirkung waere, dass alle, inklusive der Profs, ihre jetztige Mailadresse
nicht mehr als Absender benutzen koennen, was alle Eintraege auf Webseiten,
Papers, Visitenkarten wertlos machen wuerde. Zusaetzlich waere die Mail dann
ausschliesslich in den Haenden des RRZE, und was bei denen so laeuft, haben
wir beim Stromausfall und bei dem DNS Server Desaster mitgekriegt. Die Unileitung
sollte sich IMHO vom Gedanken verabschieden, dass das RRZE ein ISP mit 24/7 Support,
redundanter Netzanbindung und ausreichendem Etat waere, ist es nicht, wird es nie werden.
[/bauerm]
permanent link
Der export des RAIDs von norton zu einer virtuellen Maschine war als
/volume *.ein.domain(rw) 11.22.33.44(rw)
(fuer passende werte) dringestanden, nfs mag aber keine ips ohne prefixlen,
und desterwegen kann das nie funktioniert haben. seltsam...
[/bauerm]
permanent link
05.07.2012,
Heute haben wir unseren neuen CISCO-Switch in Betrieb genommen. Das ganze war nicht ganz trivial,
da die LACP config nachgebaut, und eine VLAN fuer den Heartbeat eingerichtet werden musste.
Wir haben dann im laufenden Betrieb den Switch getauscht, was dank redundanter Anbindung ohne Downtime
geklappt hat. Dadurch haben wir jetzt einen intenen Uplink von 20 GBit, und 2 Netzteile (USV und Diesel-Netz).
Lexmark hat mal wieder ein neues Firmware-Update rausgebracht ... installiert, getestet, schmiert
immer noch ab.
Zugang auf unseren 3com-Switch ist wieder gegeben ... :)
[/bayer]
permanent link
04.07.2012,
Auf das am2home wurde heute der Snapshot aktiviert. Es werden jetzt stuendlich und taegliche
Snapshots erstellt. Wenn man nun mit einem Windows-Client mit der rechten Maustaste "Eigenschaften" waehlt,
dann in den Reiter "Vorgaengerversionen" wechselt, kann man die Snapshots verwenden wenn benoetigt.
[/bayer]
permanent link
Die Maenner von MIK haben unsere Server fuer Klinik-Patienten freigeschaltet.
Stellt sich raus, dass die sieve-Regeln fuer dovecot nicht etwa /var/mail/$user/sieve/roundup.sieve
heissen, sondern /var/mail/$user/.dovecot.sieve
Angefangen, ein global verteiltes sshd_config, mit dem auch Kerberos Authentication moeglich
ist.
neubau-195 spielt Wachauf-Maennchen fuer alle Linux-Maschinen ausser CIP Pool
Martin hat hingezaubert, dass AM2 Windows Maschinen/User ihre HOMEs von der Nexenta per
CIFS holen koennen, Wigand kopiert jetzt lokale HOMEs auf den Fileserver. Martin
hat mit Wigand ein Skript geschrieben, das beim Login jedes Users HOME automagisch
mountet (als U:).
am3share und am2home sind jetzt im Backup.
[/bauerm]
permanent link
02.07.2012,
Es wurde heute der erste CIP-Rechner erfolgreich in die fauad gejoint.
Nur das Problem dass jetzt Auftritt ist, das die User eine andere UID bekommen.
Ganz schlecht weil die User/Studenten kommen so nicht mehr auf ihr Home.
[/bayer]
permanent link
29.06.2012,
Wir haben gruenes Licht vom RRZE. Sie haben uns in die fauad.fau.de aufgenommen.
Das beudeutet dass die Rechner jetzt Alles wieder ueber einen Server bekommen (User und Rechner Account).
Wir haben erfolgreich unseren File-Server an die AD-Domain fauad.fau.de gejoint.
Es wurde gleich ein Share fuer die AM2 angelegt und Rechte verteilt - :)
Die koennen nun auch, nach dem Umzug ihrer Rechner in die fauad, mit Ihren Windows-Rechnern unseren File-Server benutzen.
Da wir jetzt die frauad nutzten koennen und der alte Server uedc1 irgendwann abgeschaltet wird, muessen wir
alle CIP-Rechner in die fauad eintragen und die smb.conf anpassen, so dass ein Join in die fauad moeglich wird.
[/bayer]
permanent link
Martin hats fertig gebracht, den Fileserver mit dem RRZE ActiveDirectory Serivce zu verbinden,
so dass wir jetzt anfangen koennen, Windows-Maschinen HOMEs auf dem Fileserver zu geben.
Wichtig auch fuer AM2.
Stellt sich raus, dass unser Netz fuer Klinikpatienten _verboten_ ist. Versucht, darauf
Einfluss zu nehmen, leider ist der Verantwortliche nicht erreichbar.
Im Roundup etwas aufgeraeumt
Es war latuernich Unfug, erst ein /etc/apt/trusted.gpg per puppet auszuliefern, und dann
per puppet mit apt-key einen key hinzuzufuegen, weil beim naechsten Durchlauf dann
das trusted.gpg eine andere Checksum hat, und vom puppet wieder ueberbuegelt wird...
Es scheint als ob man aus einem cronjob auf gar keinen Fall ein Linux runterfahren kann,
egal welche shutdown/halt/poweroff Kommandos man benutzt...
[/bauerm]
permanent link
28.06.2012,
Gestern wurden von uns 2 (high-performance) Scanner auf einem Windows-Rechner installiert.
Da mit diesen Scannern Umfrage-Auswertungen gescannt werden sollen, wurde noch ein Programm namens EvaSys installiert.
Funktion war soweit gegeben, bis auf das Upload auf den Server. Nach Recherchen des Users wurde dann heute
Passwoerter nachgetragen - damit klappt dann auch der Upload.
Nach diversen Versuchen meinerseits unseren File-Server fuer die Nutzung der Windows-Kisten von AM2 brauchbar zu machen
(Samba, AD Join usw.) habe ich (nach ein paar Mails) diverse Gespraeche mit dem RRZE gefuehrt.
Es stellte sich heraus, dass noch mehr Leute (nicht nur wir) Probleme haben, sich ans AD zu Joinen.
Das Windows-Team vom RRZE wird den "Forest" aufloesen und wieder zu einer "normalen" Domain-Struktur zurueck switchen !!!
Wenn wir gruenes Licht vom RRZE bekommen besteht auch die Moeglichkeit die CIP-Maschinen auf die fauad.fau.de umzustellen.
[/bayer]
permanent link
Folgendes lustige SQL Statement liefert alle Rechner aus der InventarDB, bei denen die
Macaddressen definitiv nicht stimmen:
select rechnername from rechner, mac_adresse where length(mac_adresse) < 17 and rechner.id = rechner_id;
Inventardatenbank weiter auf Konsistenz geprueft.
Einer der cip Rechner arbeitet jetzt als Wach-auf-Posten fuer alle anderen und schickt
wake-on-lan packete an alle MACs (die in puppet/modules/powersave/manifests/wakeywakey
definiert sind).
Traeume werden wahr! Bjoern und Nikos habens hingekriegt, auf Ubuntu 12.04 das Departmentslogo
auf die Login-Screens zu zaubern.
[/bauerm]
permanent link
Den 3com Switch zum Fileserver wollen wir austauschen, weil er nur ein Netzteil hat. Dazu
haben wir einen dicken Cisco Switch besorgt und wollten jetzt die Konfig aus dem 3com
auslesen. Dazu Schritt 1: Ein Passwort fuer Admin setzen und SSH einschalten, damit
man von aussen draufkommt. Das haben wir per serieller Konsole, und dann WebGUI auch
gemacht. Nur dass
1. Das Passwort Setzen in WebGUI und Konsole nur bewirkt, dass man nur noch auf der
Konsole als admin reinkommt
2. Enable SSH nicht heisst, dass man per SSH draufkommt, weil die Trottel von 3com
nicht automatisch einen SSH Hostkey erzeugen, wenn man das einstellt. D.h. man
haette ueber Security->Certificates->new->RSA ein SSH Zert erstellen muessen.
Mal schaun, wie wir wieder auf die Kiste kommen. BUGSBUGSBUGS
Frau Hilbig hat zwei! Scanner ins Bureaux gekriegt.
Es gibt die Anregung, die PC Pools morgens automatisch zu entriegeln, wie in der Informatik,
so dass die Studis nicht mehr Stuehle und Muelleimer in die Tuer stellen muessen.
[/bauerm]
permanent link
Nach Beratung mit dem HPC Team faellt auf, dass die NetXen Probleme seit dem Firmware Update
wohl hauptsaechlich vom Userspace erzeugt wurden, netperf zeigt z.b. maximalen Durchsatz.
[/bauerm]
permanent link
Nach Telefonaten mit Bechtle und HP herausgefunden, dass sich HP keineswegs fuer den
nx_nic Treiber verantwortlich fuehlt, und nach eigener Aussage "keinen Finger krumm"
machen wuerde, um uns da zu helfen, es sei denn, wir bezahlen einen Linux-Software-Support
Vertrag. Daher Tip von Bechtle, die uns die Server verkauft haben, die QLogic/NetXen Karten
stillzulegen und eine Intel Quadport reinzustopfen.
Die AM3 Maschinen sind jetzt im Zabbix.
Auf neubau-103 laufen zwei imap-Prozesse pro User, der/die da seine/ihre Mailbox beobachtet.
Momentan mehr als 400 Prozesse, was das Zabbix durcheinanderbringt.
[/bauerm]
permanent link
20.06.2012,
Verschiedene Tests ergaben das Sultana und Norton (sind fast Baugleich)
(HP DL585 G7) auf 53.8MB/s beim kopieren per scp kommen.
Ist nicht besonders toll, aber nichts im Vergleich zu 10 min. fuer 50 MB.
[/bayer]
permanent link
Fast alle Maschinen hatten die AM3 NFS Mounts eingetragen (obwohl sie die nicht
benutzen konnten), wieder entfernt.
Nexenta angefragt, wies ausschaut mit NFSsec.
Wir signieren jetzt unsere lokalen Ubuntu Repos, damit ubuntu 12.04 von da installieren kann.
testnetz um eine ubuntu 12.04 maschine erweitert
Die ziusudra hing mit zwei Kabeln in einem Ausfallstromnetz, daher der reboot, die Netzteile
sind ok.
Das Skript zum entfernen unbenutzter, alter Linux images aus dem root-filesystem
getestet. tut, und wird bald die cip maschinen freischaufeln.
[/bauerm]
permanent link
18.06.2012,
Stromausfall von Freitag auf Samstag ! WTF !!!
1 Server hat die Stunde !! (1 STUNDE !!!) Stromausfall nicht ueberlebt.
Samstag frueh -> ziusudra durchgebootet ... ist wieder am Leben.
Das Buero 330 war Leider auch komplett Stromlos am Samstag morgen -> Leitwarte angerufen evtl. Sicherung drausen ...
Heute morgen noch diverse Nachwehen des Stromausfalls behoben ...
Sultana und Norton wurden mit der aktuellen BIOS-DVD von HP geupdatet (HP SSP 2012.06.0).
Die Netzwerkkarten-BIOS der beiden Server haben jetzt 4.0.585 statt 4.0.555 - hoffentlich hilfts.
-> hat nicht geholfen ... nach ein paar Tests stellt sich heraus: Sultana humpelt immer noch ... hat
Schluckauf ... und Grippe hat sie auch noch :)
[/bayer]
permanent link
Der Stromausfall hat unsere Server nicht beeintraechtigt, bis auf die Ziusudra,
die wohl ein defektes Netzteil hat. Schlecht.
Weiter am Energiespar-Modul gebaut.
Der FAInstaller installiert jetzt Ubuntu 12.04 und wir haben den mirror und die
meisten Konfig-Files im puppet dafuer angepasst.
Stellt sich raus, dass aufgrund unklarer Ursachen der cronjob mit dem
apt-get dist-upgrade nie ein update-grub/grub-install ausfuehrt. Per
puppet nachgeliefert.
Aufbauend darauf angefangen, einen cronjob zu basteln, der immer nur die
zwei aktuellsten kernels aus dem grub/menu.lst
und den grade laufenden als package installiert laesst. Sollte uns aus
dem "root voll" Problem helfen.
Stellt sich raus, dass HP fuer ihr DL585G7 einen speziellen Netzkartentreiber
empfehlen, den nx_nic (nicht zu verwechseln mit dem netxen_nic). Nachteil:
1. Das ist ein Redhat src-rpm
2. Das Kernelmodul da drin kompiliert nicht mit auch nur entfernt aktuellen
Kernel Versionen
Eine Stunde lang an den sourcen gefrickelt, bis das Modul kompiliert hat, in
dem sind jetzt aber bestimmte Funktionen zu Multicast auskommentiert (weil grad
da die Linuxler ihre kernel-internen structs umgebaut haben, und ich grad nicht
sehe, welche Typen sie neuerdings verwenden...). D.h. das wird nur rudimentaer
funktionieren. Mal ein ernstes Woertchen mit HP reden.
[/bauerm]
permanent link
15.06.2012,
Die neuen Schloesser wurden in die Serverraeume eingebaut.
Extra Zugangschip bekommen - nur 2 erstmal fuers ganze Haus ??!!
Bei 2 Rechner im CIP die gestern besetzt waren das BIOS geaendert.
Sultana macht immer noch mukken - Laut HP:
HP ProLiant and HP StorageWorks Systems: HP NC375i, NC375T,
NC522SFP, NC523SFP, CN1000Q Network Adapters - FIRMWARE UPGRADE REQUIRED
[/bayer]
permanent link
14.06.2012,
WOL heute nochmal auf ein paar CIP-Rechnern getestet nachdem wir das BIOS umgestellt haben - funzt.
Bei 99 Rechnern nun das BIOS geaendert ... bei 5 ist das Passwort falsch @#*%$# der Rest war besetzt.
Muessen nun die Rechner aufschrauben und per Jumper das BIOS zuruecksetzen &*%$%@.
Fail2Ban funzt net sauber - conf geaendert und per puppet ausgerollt.
[/bayer]
permanent link
Angeregt von
https://www.maths.ox.ac.uk/notices/it/green-it/technical-implementation
angefangen, per puppet einen Runterfahr- und Wieder-aufwach-Maschinierie
fuer CIP Pool Maschinen zu basteln.
[/bauerm]
permanent link
13.06.2012,
Wake on LAN getestet ... Es muss erstmal im BIOS unter "Power" alles auf ACPI (??) gestellt werden.
Es wurde dann auf allen CIP-Maschinen das Paket "wakeonlan" installiert.
Jetzt mit wakeonlan xx:xx:xx:xx:xx:xx von einem anderen CIP-Rechner den Rechner wieder nach einem
shutdown aufwecken - funzt :)
[/bayer]
permanent link
12.06.2012, bay
Firefox legt den Cache in den Userhomes an ... soooo gross wie er auch immer will.
Schlecht da User teilweise mehr als 2GB Cache in Ihrem User-Home haben.
Folgende Eintraege in /etc/firefox/syspref.js ergaenzt:
lockPref("browser.cache.disk.smart_size.enabled", false);
lockPref("browser.cache.disk.capacity", 524288);
Rueckmeldung von Lexmark wegen Segfault:
Unter CUPS 1.6 und Acroread 10.1.3 tritt der Fehler nicht auf ... *WTF*
Unter Ubuntu-Linux gibt es noch kein Paket Acroreader 10.1.3.
Aktuell Version von www.acrobat ... ist 9.5.1 ????
[/bayer]
permanent link
Lexmark bestaetigt, dass nur ein Adobe Reader Update auf 10.xxxx was verbessert, und dass
sie das nicht als ihr Problem sehen. Den 10.xxx gibts nicht fuer Linux.
Daraus koennen wir nur folgern, dass wir den Adobe Reader und insbesondere das verfluchte
Firefox Plugin de-installieren muessen. Wir sind drueber.
Maple Lizenzen fuer Studenten sind angekommen!
Das puppet kapiert nicht, dass es fuer zabbix-agent und fail2ban schon init-skripten gibt,
und meldet, dass die nicht "enabled" waere. Diverse Versuche unternommen, ihm das auszutreiben.
Singular (Gruppentheoriepacket) fuer Frau Schalke installiert.
Das DruckerNetz der PC Pools haengt jetzt am monitor-server, so dass wir mit den schon
vorhandenen SNMP checks per zabbix den tonerfuellstand sehen.
[/bauerm]
permanent link
11.06.2012, bay
Homes von 1 Benutzer nach Firefox/Thunderbird Crash gefixt.
Raid-BIOS von HP DL380 geupdatet: ** CRITICAL ** Systems
ROMPaq Firmware Upgrade for HP ProLiant DL380 G7 (P67) Servers
2011.05.05 (A) 6 Jul 2011
2 neue Mailboxen angelegt und 3-4 Aliases eingebaut.
Die Serverraeume sollen wohl die lang ersehnte elektronische Schliessanlage bekommen ... "in den naechsten Tagen".
Neue Version des Lexmark X463 PPD's getestet ... schmiert immer noch ab (Segfault).
[/bayer]
permanent link
FAI hat 4 (in Worten: Vier) relevante Filesysteme (/etc/fai auf dem installserver,
/srv/fai/nfsroot wird auf den Client beim Installieren vermountet,
das RAMFS im Installkernel, und das Filesystem, das auf dem Client zusammengebastelt wird)
Das machts schwierig, rauszukriegen, wo was fehlt oder zu alt ist. Der Bjoern hat das
fuer GRUB jetzt rausgekriegt, tut jetzt!
Bjoern hat weiter an dem Workshop-PHP-Dings geschraubt, so dass jetzt sogar MS Excel die
CSVe schluckt, wenn mehrzeilige Eintraege drin sind. Cool.
Herrn Brunners HOME aus dem uralt-Ziusudra-Backup gerettet, er wollte auf seine alte Webseite
zugreifen koennen. Das Backup liegt auf der muehle unter /mnt/ und ist ein riesiges
bzip2tes, cpio-formateliges Archiv. Da drin was suchen dauert Stunden, u.a. weil die
muehle mit den rsnapshots permanent auf 60% CPU laeuft, wenn sonst nix ist.
Auf der ziusudra mutig das puppet auf 2.7.14 gezogen (das alte gem_home liegt in meinem
HOME als tgz, wenn alles schiefgeht). Tests zeigen, dass alles glattgeht, bis auf die
fiesen Tricksereien, die ich fuer das klausur_user Modul verbrochen habe, und darum
ists nicht schade.
Point-of-Interest: puppet-2.6 Clients koennen sich ohne Zertifikat an den 2.7 Master wenden
und kriegen alles, was zu ihrem namen gehoert. Regression tests????
Das neue Puppet ist massivst schneller.
[/bauerm]
permanent link
Argllll. puppet --parseonly bemerkt _keinen_ Fehler wenn man sowas schreibt:
require => [Package['openntpd'],
d.h. mein tolles .hg/hgrc packts nicht. Dreck.
Bjoern hat den FAI soweit, dass er jetzt Ubuntu 12.04 installiert, nur der GRUB zickt (natuerlich,
so ein Muell).
[/bauerm]
permanent link
Auf monitor per
sudo -u postgres /usr/lib/postgresql/8.4/bin/postgres --single -D /etc/postgresql/8.4/main -d 5 zabbix
das postgres im Single-User mode gestartet, und per VACUUM und CLUSTER die database vom
zabbix geschrumpft.
Festgestellt, dass es nicht reicht, das autovacuum im postgres.conf einzuschalten, man
muss auch das track_count auf on setzten. :/
Die Debian/UbuntuTrottel setzen in keinem verdammten Stop-Skript ihres verfluchten SysVinitImitats
die Hardware Uhr auf die Systemzeit, die wir muehevoll per NTP auf FemtoSekunden genau
setzen. Das init-skript von openntpd entsprechend geaendert und im Testnetz ausprobiert.
[/bauerm]
permanent link
06.06.2012, bay
Homes von 5 Benutzer nach Firefox/Thunderbird Crash gefixt.
Dauert ... da der Cache zum Teil mehr als 2 GB hat !!!
Gast-Prof. gurkt mit einem 17" TFT rum - gegen einen 24" getauscht.
[/bayer]
permanent link
Herr Flammer und ein Entwickler von Nexenta versuchen sich seit einigen Tagen an
einem NFSv4+Kerberos Setup, und haben heute einen Testaccount auf neubau-102 gekriegt,
also im Testnetz.
Geschaeftsordnung fuer den Bereich Rechenanlage eingereicht. Wir brauchen weiterhin
dringenst einen Drei-Wort-Titel, der sich auf RJE abkuerzt!
[/bauerm]
permanent link
Grund fuer den Hang des monitors war, dass
1. die BIOS Uhr auf Februar 2011 zurueckgefallen war
2. es fuer Linux ein Error ist, wenn die "Last Mounted" Zeit eines Filesystems in der
Zukunft liegt.
ad 1.: Wir haben die Maschine sauber runtergefahren, eins der Shutdown Skripten sollte
die Uhrzeit der RealTimeClock auf die Systemzeit setzen. Warum hat das nicht
funktioniert?
ad 2.: Das ist eine saudumme Idee. Wie soll der Admin auf diesen Fehler reagieren? Warten
bis die aktuelle Zeit nach der "Last Mounted" Zeit ist???
Die Unerreichbarkeit des Fileservers gestern hatte fuer Firefox User katastrophale Auswirkungen,
weil der Firefox seine Bookmarks wegschmeisst, sobald eine Handvoll Dateien nicht in sync
sind. Wir rekonstruieren aus den snapshots von gestern.
Der mirror.mi.uni-erlangen.de mirrort jetzt auch Ubuntu "precise". Einer der ersten Schritte
richtung Upgrade.
Bjoern hat den FAI Server soweit, dass er mit einem neuen Kernel installiert.
Das FAI-Server Modul im Puppet aufgesplittet, so das dhcpd getrennt konfiguriert werden
kann, obwohl der FAI die Adressen braucht und dhcpd den Clients die install-kernels und
next-server mitteilen muss.
[/bauerm]
permanent link
Dem Windowsteam vom RRZE ist ein Teil seiner Domaincontroller abgeschmiert, und der
Effekt war, dass sich im CIP Pool niemand einloggen konnte. Nach einigen Telefoniereien
haben sie das Ding wieder flott gekriegt.
Stromaufall im Serverraum: der SV Stromkreis war tot, alle Server und der RRZE-switch
haben zwei Netzteile in getrennten Stromkreisen, das war also kein Problem. Aber
der Switch vor dem Fileserver, den wir durch eine Cisco ersetzen wollen, hat nur
ein Netzteil, und das grad im SV. Dadurch war der Fileserver insgesamt weg vom Fenster,
bled.
Auf dem Monitor war ein BIOS Passwd gesetzt, an das sich niemand erinnern kann. Server
ausgebaut, und per DIP-Switch, Einsteckern, Hochfahren das NVRAM samts Passwd geloescht.
Nachdem die zwei SATA Platten als RAID1 nur fuer die Logs und die Zabbix DB benutzt
werden, haben wir da den WriteCache eingeschaltet. Morgen nochmal rebooten, momentan
ist das Ding nicht ansprechbar (??)
Die Ziusudra kommt nach einem Stromausfall nicht von alleine wieder hoch. Im BIOS gefummelt,
die Option "Trotz Fehlern hochfahren" gewaehlt, weil das die einzige war, die irgendwie
auf das Problem gepasst hat.
Unter Ubuntu ist /usr/include/asm (ein Linuxismus) kein Link auf /usr/include/asm-generic
wie auf anderen Linuxen, und deswegen sterben Builds typischerweise. Ist jetzt per
puppet so gefixt, dass auf Ubuntu 11.04 /usr/include/asm der passende Symlink ist.
NFS fuer AM3: den Norton.Am dazu gebracht, das fette SAS RAID mit seinen 20TB per NFS(v3)
an AM3 Maschinen als /am3raid zu exportieren. Ging mit Puppet erstaunlich leicht.
[/bauerm]
permanent link
Anleitung zu hpacucli:
http://www.datadisk.co.uk/html_docs/redhat/hpacucli.htm
Auf dem Webserver im Betrieb 2 1TB Platten eingebaut, zu einem RAID1 verbunden, formatiert
und gemountet. Der apt-mirror liegt jetzt dort
In /home/stud/team/BIOS* liegt ein shellskript von HP, das die RAIDcontroller Firmeware
aus Linux heraus patcht. Muesste man auf allen HP Server ausfuehren.
Unsere Server haben z.T. recht alte BIOSe.
Frasch kann unsere LexmarkCrashes reproduzieren und nervt den Hersteller parallel zu uns.
Herr Wolf hat uns die Zuse Z23 im RRZE gezeigt. Sehr eindrucksvoll.
[/bauerm]
permanent link
Drucker von Frau Frieser vom AM2 Netz in das unsrige bewegt.
Ein Techniker von Frasch hat den Drucker von Herrn Kronz behandelt, nachdem das Problem
mit dem Grauschleier wieder aufgetreten ist.
Platten von HP fuer den Webserver sind angekommen.
Das Tool zum Konfigurieren von RAID Controllern auf HP Proliant Servern heisst hpacucli
und ist fuer Ubuntu von
http://downloads.linux.hp.com/SDR/downloads/ProLiantSupportPack/Ubuntu/pool/non-free/
runterzuladen. Die HP.com Seiten sind vollkommen desorganisiert, nicht mal die Suche
funktioniert.
hpacucli in unseren apt-mirror gelegt, auf webserver-1 installiert. Tut.
Mit
ctrl all show config detail
kann man sich zeigen lassen, was drin ist.
Es gibt weitere proprietaere Software von HP zum Monitoring des RAIDs, was wir
unbedingt ins Zabbix einbauen muessen! RAID Mirror nuetz nix, wenn man den Ausfall
der ersten Platte erst bemerkt, wenn die zweite stirbt.
[/bauerm]
permanent link
Norton (HP 585) installiert.
"tcp" als mount-option fuer alle NFS verzeichnisse eingefuehrt, wird erst nach reboot aktiv
(oder nach
umount /homes/{staff,stud}; mount -a
), weil das *&^%$^ Linux keine update-Option fuer mount kennt.
Bis Dienstag werden die AM3ler ihre Jobs auf der sultana beenden, dann machen wir einen
remount aller homes dort
NFSv4 laeuft im Testnetz gut, Tests mit 100GB dateien zeigen einen Perfomancegewinn.
Im Testnetz alle mounts per nfsv4.
[/bauerm]
permanent link
Der Lexmark bei Herrn Kronz hat nach kurzem Transport beim doppelseitig Drucken die
Vorderseiten eingegraut. Nach ein paar Dutzend Seiten Testdrucken war der Tonerstaub
dann weg. Geht wieder.
Wir haben einen CIP Rechner neu aufgesetzt, und obwohl der sich definitiv nicht
im AD-sinne "join"en kann, authentisiert er User. Gut so, da koennen wir leicht
Maschinen ersetzen. Ob das allerdings im Sinne des Betreibers (des AD) ist, weiss ich nicht.
Mit Nico Neuss angefangen, den 48-CPU Hobel (norton.am) zu installieren.
PC von Frau Hild ins Netz integriert.
[/bauerm]
permanent link
Saturday, May 26, 2012 00:38:06
Herr Galea vom RRZE hat uns Infos zu dem LDAP Setup geschickt. Mal ausprobieren.
neubau-109 hatte keine Platte mehr. Ersetzt. Wo ist das Original?
Datenbank-Schrumpfen ist jetzt ein Cron-Job.
PDFs kann man mit
pdftk 1.pdf 2.pdf 3.pdf output 123.pdf
zusammenkleistern.
Die DruckerTreiber (PPDs) im cups haben zum Teil immer noch "Letter" eingestellt/erlaubt.
Sollten wir fixen.
Die Studenten wuenschen sich Tacker und Locher an den Druckern. Wird angeschafft.
Dass Unity (depperte iPhone-imitat Oberflaeche von Ubuntu) zum Stichwort "PDF" weder
evince noch okular anzeigt, war ein "Well-known" Bug. Heute von Katrin und Martin
repariert worden, indem zusaetzliche Dateien in /usr/share/applications angelegt
wurden, die dem Unity sagen, dass evince und okular pdf-viewer sind.
Die Z23, die lange Zeit im Serverraum der Bismarckstrasse stand, ist jetzt im RRZE
zu besichtigen (ISER). Mit den Authoritaeten Kontakt aufgenommen, um mal einen
Blick auf diese Maschine werfen zu koennen.
Herrn Bocks altes public_html aus dem ziusudra Backup gerettet. Wird noch ins Typo3
eingepflogen.
Die Nexenta Leute von Basis formuliern wohl grad an den Forderungen gegenueber nexenta.com
bezueglich NFSv4+Kerberos Support.
[/bauerm]
permanent link
Herr Galea vom RRZE hat uns Infos zu dem LDAP Setup geschickt. Mal ausprobieren.
neubau-109 hatte keine Platte mehr. Ersetzt. Wo ist das Original?
Datenbank-Schrumpfen ist jetzt ein Cron-Job.
PDFs kann man mit
pdftk 1.pdf 2.pdf 3.pdf output 123.pdf
zusammenkleistern.
Die DruckerTreiber (PPDs) im cups haben zum Teil immer noch "Letter" eingestellt/erlaubt.
Sollten wir fixen.
Die Studenten wuenschen sich Tacker und Locher an den Druckern. Wird angeschafft.
Dass Unity (depperte iPhone-imitat Oberflaeche von Ubuntu) zum Stichwort "PDF" weder
evince noch okular anzeigt, war ein "Well-known" Bug. Heute von Katrin und Martin
repariert worden, indem zusaetzliche Dateien in /usr/share/applications angelegt
wurden, die dem Unity sagen, dass evince und okular pdf-viewer sind.
Die Z23, die lange Zeit im Serverraum der Bismarckstrasse stand, ist jetzt im RRZE
zu besichtigen (ISER). Mit den Authoritaeten Kontakt aufgenommen, um mal einen
Blick auf diese Maschine werfen zu koennen.
Herrn Bocks altes public_html aus dem ziusudra Backup gerettet. Wird noch ins Typo3
eingepflogen.
Die Nexenta Leute von Basis formuliern wohl grad an den Forderungen gegenueber nexenta.com
bezueglich NFSv4+Kerberos Support.
[/bauerm]
permanent link
Kurze Patchkabel fuer den Serverrack geordert.
Lustiger Bug: man kann keine Dateien auf einen user chown-en, wenn dessen Quota voll ist,
weil das chown aus Sicht von Quota das gleiche ist, wie eine Datei anlegen.
Das ewig-wachsende-Datenbank Problem ist geloest. Wenn man bei PostgreSQL erst alle
Tabellen Re-Indiziert, und dann erst VACUUM drueber laufen laesst, geht das einigermassen
schnell und schaufelt Plattenplatz frei.
Es stellt sich raus, dass man Userauthentisierung auch gegen einen zentralen _LDAP_ Server
machen kann, und nach der Verwaldung des ActiveDirectories scheint das die sinnvollste
Loesung fuer Studentenlogins zu sein (Winbind aus dem Samba Packet kann nicht mit mehr
als einem Baum umgehen).
[/bauerm]
permanent link
Mit Herrn Ritter vom RRZE wegen der Winbind Probleme mit dem ActiveDirectory gesprochen.
Er schickt uns eine Konfig, die bei ihnen funktioniert. Zusatztip: Samba/Winbind
speichern Settings in .tdb files, die nicht mit dem Konfigfiles synchronisiert werden.
Herr Heinrich vom RRZE hat uns die Kameras zusammen mit Bjoern scharf gestellt.
Weiterer Rahmenvertrag: Cisco Switches duerfen nur von T-Systems gekauft werden (WTF!?!),
und die haben Lieferzeiten von 6 (in Worten: sechs) Wochen.
[/bauerm]
permanent link
Firefox ist bei manchen Usern kaputt. Genauer wohl eins der places.sqlite files, weil man mit
der Bookmark Backup Funktion (unter "show all bookmarks" versteckt) die JSON files
aus bookmarkbackups nicht mehr restaurieren kann. Ausserdem kann man nicht mehr mit
sqlite3 auf das places.sqlite zugreifen, weil das korrupt ist.
Zum Glueck haben wir ja ZFS und koennen auf alte snapshots zugreifen, und ich hab
ein skript gebaut (places2bookmarks), das aus einem places.sqlite ein html file
macht, mit dem man die booksmarks restaurieren kann.
[/bauerm]
permanent link
Es gibt einen git-repository Server auf webserver-1. Wird mit gitolite verwaltet.
Wer ein repos drauf haben will, sollte eine mail an problems schreiben, mit dem
Namen des repos und den ssh-pubkeys der Leute, die drauf zugreifen sollen.
gitolite ist lustig, weil seine Configs selbst ein repository sind,
1TB Platten-Paerchen fuer den Webserver bei Bechtle bestellt. Unter anderem fuer
den Ubuntu Mirror noetig.
[/bauerm]
permanent link
Eine Platte vom Fileserver ist ausgefallen, per Postreiter aus Muenchen Ersatzplatte
bekommen. Eingebaut. Mit dem coraid kann man per cec reden:
cec e1000g0
1 (waehlt das erste shelf)
setslotled fault 10 (laesst die _elfte_ platte blinken)
ctrl-\ q ctrl-d (raus)
Das roundup/inventar war mit einem .htaccess geschuetzt, das nur mit Typo3-Backend Password
Zugriff erlaubt hat. Beim Versuch, das zu aendern auf: intern frei, von extern nur mit
Password, hat sich herausgestellt,
Erstens: dass
AllowOverride AuthConfig
keineswegs erlaubt, in .htaccess ein "allow from 131.188...." zu definieren.
Sowas muss mit "AllowOverride AuthConfig _Limit_" erlaubt werden. WTF!!!!!!
Zweitens: Dass "Satisfy any" fuer "Erlaube Zugriff, wenn irgendeins der obigen
Kriterien erfuellt ist" keineswegs ein logisches "Oder" ist, sondern nur dann funktioniert,
wenn die "Allow from..." Statements _vor_ den LoginPerTypo3 stehen. WTF!!!!!
[/bauerm]
permanent link
Frau Wendler hat nach zahlreichen Jahren einen neuen Drucker bekommen, einen Lexmark.
[/bauerm]
permanent link
Mit Maplesoft in Aachen telefoniert, wir koennen Maple als Studentenlizenz zum gleichen
Preis wie frueher kriegen. Schriftliches Angebot folgt.
Herrn Kronz einen Drucker installiert.
Alle Server im rechten Rack so umverstromt, dass je ein Stecker in Dieselgenerator-gesichertem
Stromnetz und einer im USV Netz steckt. Beruhigend. Andere Admins informiert.
Das Billg-NAS (mit 8 TB RAID) ist jetzt per NFS am Nexenta und wir haben erstmal ein rsync aller HOMEs
ohne jegliche Beschraenkung angeschubbst. Roedelt noch.
Bjoern hat ein Univis Plugin fuer Typo3 entwickelt, das ueber die Univis-IDs der Mitarbeiter
an beliebigen Stellen in unserem Orga-Baum (der im Typo3 als Verzeichnisbaum von Mitarbeitern
modelliert ist) alle Vorlesungen/Seminare/etc des Organisationastes als huebsche Liste
autogenerieren kann. Cool
Frau Forkel kriegt einen A3 Backup-Drucker, damit sie auch weiter Zeugnisse drucken kann.
Herrn Plaumanns legendaere Homepage wurde groesstenteils nach historischen Quellen wieder
aufgebaut.
[/bauerm]
permanent link
Leider koennen wir die Leute mit math.uni-erlangen.de Account nicht einfach vom
RRZE wegziehen, weil die Nutzung des RRZE Kalender-Exchange-Servers diese Accounts
zwangsweise erfordert, d.h. Mailaccount umziehen -> kein Kalender aufm Handy.
Mal mit dem RRZE absprechen.
Wir koennen gar keine Maschinen mehr ins RRZE AD joinen. Das behindert jetzt
auch den Umzug der AM2 HOMEs.
[/bauerm]
permanent link
Der Fileserver wurde heute _im Betrieb_ auf eine neue Version gebracht, wie auch
die Plattenarrays. Dazu wurde erstmal auf dem fallback system die systemsoftware
und die Treiber auf neuen Stand gebracht, dann per manual failover das ZFS vom
anderen Server uebernommen, und dann der auf neuen Stand gebracht. Danach
wurde die Firmware des ersten Shelfs a.n.S.g., dann des zweiten. Es gab keine
Fileserverausfaelle ueber die ganze Zeit.
Der Switch im Serverschrank wurde im Betrieb ausgetauscht gegen einen mit
zwei Netzteilen, denn was nuetzt die redundante Stromversorgung der Server,
wenn beim Ausfall sowieso niemand die Server erreichen kann...
Endlich koennen wir reproduzierbar zeigen, wie schlecht die Lexmark Firmware ist.
Wir haben einen crashmich pseudoDrucker eingerichtet und mit dem Lexmark PPD
konfiguriert. Er druckt ueber tcp auf einen port auf einem Rechner, wohinter
ein shellskript einfach alles in eine Datei schreibt. Nachdem Katrin erfolgreich
einen Lexmark crashen konnte, wurde das PostScript so archiviert (und gegen einen
anderen Lexmark getestet). An Lexmark gemailt, damit dies auch ausprobieren koennen.
Wieder einmal zeigte sich, dass man fuer je zwei Laptops stets ein Ersatznetzteil kaufen
muss. Wird uns zurueckerstattet.
[/bauerm]
permanent link
Bjoern hat ein allgemein einsetzbares Workshop-Anmeldungsplugin fuer Typo3 geschrieben.
Wird noch von Frau Kulzer getestet.
Die NVidia Karten haben nicht etwa einen HDMI Ausgang, sondern einen DisplayPort. Und
der geht nicht an die Beamer im PC Pool 1. Adapter besorgen...
Beim Mailteam RRZE gefragt, wie der Umzug von math.uni-erlangen.de zu bewerkstelligen
waere. Sollte kein Problem sein, sagt Petri.
Stellt sich raus, dass Authentisierung per Kerberos Ticket durchaus schon funktioniert,
aber nur dann, wenn man in /etc/hosts alle fqdns vor die puren hostnames stellt.
Technik, die entgeistert!
In sshd_config fehlten noch
GSSAPIAuthentication yes
GSSAPICleanupCredentials yes
[/bauerm]
permanent link
Puppet repos ausgetauscht, jetzt nur noch 14.7 Mb gross!
Wir koennen jetzt den Druckerabsturz reproduzieren. Ein Herr von Lexmark wuerde
sich das auch anschaun.
Der Nvidia Update auf 295.40 gilt als extrem buggy, aber mit anderen linux-kernels
und Graphikkarten als bei uns. Tun wirs trotzdem?
[/bauerm]
permanent link
Stellt sich raus, dass die Elektriker im Serverraum nicht, wie ausgemacht, einen Stromkreis
mit Dieselgenerator-Backup und einen mit aktiver USB als Backup gelegt haben,
sondern einen ohne Backup, einen mit Diesel Backup und einen mit USV. Die
Leitung ohne Backup ist fuer uns total nutzlos, wir brauchen drei Leisten mit Diesel und
drei Leisten mit mit USV.
[/bauerm]
permanent link
Weiter auf neubau-195 mit NFSsec rumgespielt. Es ist grauenvoll. Dutzende von rpc Diensten,
unerwartete kernel module, sinnlose Fehlermeldungen. Die meisten Beschreibungen im Netz
kommen nichtmal bis zum "mount" Befehl.
Frau Meusburger moechte ein AnmeldeWebFormular fuer Workshops. Absolut sinnvoll,
und idealerweise recyclebar. Bjoern versucht das innerhalb von Typo3 hinzukriegen.
[/bauerm]
permanent link
Wenn man einer NexentaKiste ein /etc/krb5.conf gibt, dann versucht sie, jede
ssh Verbindung per GSSKeyEx zu authentisieren. Wenn das nicht klappt, faellt
sie nicht etwa auf PubkeyAuthentication zurueck, sondern verweigert den Zugang.
Nicht lustig.
Der Nvidia Bug, der die Maschinen beim runterfahren einfriert, laesst sich mit
einem Update beheben, aber weils Ubuntu ist, kommt das Package natuerlich von
einer non-Std Quelle.
Herr Seidel kann mit einem PDF deterministisch den foomatic pdf->postscript konverter
(mit dem Lexmark-PPD) toeten.
[/bauerm]
permanent link
Wenn ein Gast im Gaestehaus der Uni mit Laptop ankommt, muss er wohl manchmal
ein Formular vom RRZE unterzeichnet anbringen, damit das Laptop ins Netz darf.
Im Formular versichert der Admin des einladenden Instituts, dass "der Rechner
des Gastes auf dem neuesten Sicherheitsstand ist".
Nach laengerer Recheche stellt sich heraus, dass niemand im RRZE mehr weiss,
wie genau das festzustellen ist, und welchen sinn das haben soll, wenn der
Admin am 17.4 unterschreibt, dass es auf neuesten Stand ist, wenn der Laptop
am 18.4 dann im Gaestehaus laeuft.
In Richtung NFSv4 mit Kerberos folgende Dokus gefunden
http://blather.michaelwlucas.com/archives/796
http://www-theorie.physik.unizh.ch/~dpotter/howto/kerberos
Der Daemon, der auf Nexneta UIDs nach Kerberos "Principals" uebersetzt, heisst
(latuernich) /usr/lib/nfs/nfsmapid und nicht idmapd (der macht das
fuer Windows SIDs). Erste Tests mit NFSv4 auf Linux ohne Authentsierung zeigen,
dass man den rpc.idmapd (auf linux) und svc:/network/nfs/mapid:default (nexenta)
laufen haben muss. Auf der nexenta Seite muss der LDAP client kongfiguriert
sein. Achtung, die Config wandert nicht auf nextwo, d.h. man muss das dort nochmal
anlegen. Auf Linux kann der rpc.idmapd nur laufen, wenn er
ein /var/lib/nfs/rpc_pipefs/nfs findet, das man kriegt wenn man
rpc_pipefs /var/lib/nfs/rpc_pipefs rpc_pipefs defaults 0 0
(was sonst??? Na klar!) in /etc/fstab reinschmiert und
mount rpc_pipefs
aufruft. Danach werden die UIDs umgesetzt. Getestet mit einem eigenen ZFS auf
nexenta und linuxseitig nur auf neubau-195.
Was man auf Nexenta gar nicht machen darf, auch wenns in der Doku drinsteht,
ist in /etc/nfssec.conf eine der krb-authentisierungs Einstellungen einschalten,
das toetet den server.
[/bauerm]
permanent link
Nach den seltsamen, nicht sehr aussagekraeftigen Fehlermails ueber nicht-existente
snapshots am 30.3 hat das nexenta komplett aufgehoert, snapshots zu machen.
Ein Glueck, dass wir auf der ziusudra noch rsyncen.
Bei Nexenta ein Ticket eroeffnet, und den deutschen Nexenta Sales Engineer
genervt.
Per svcadm clear/restart von rmvolmgr und dbus daemon die snapshot servcices
wieder zum laufen animiert.
Das RRZE musste zugestehen, dass wir laut ihren eigenen Benutzerrichtlinien (von 1995)
den Admins der lokalen Netze einen Monitor Port zugestehen muessen. Darum gebeten.
[/bauerm]
permanent link
Das puppetrepos ist jetzt von 446MB auf 14MB geschrumpft und laesst sich von
Mercurial klonen. Das autoclone hatte ein Problem mit nicht-existenten
Subverzeichnissen, was ich noch per Hand reparieren musste. Bei Gelegenheit
mal umstellen.
[/bauerm]
permanent link
Stellt sich raus, dass alle Mitarbeiter des RRZE, die mit Lexmark Druckern auf CUPS
zu tun haben, die Dinger extrem schlecht finden. Scheint kein Ausschreibungskriterium
gewesen zu sein.
LDAP ist noch viel bescheuerter als gedacht. Ein User kann nicht gleichzeitig
eine "Person" und ein "Account" sein, d.h. wenn wir z.b. das Adressbuch im
Webmailer nutzen wollten, muessten wir fast alle "posixAccount"-Nutzerdaten in einem
weiteren Baum als "inetOrgPerson" duplizieren, weil nur eine "Person" Vor-
und Nachnamen haben kann, als "Account" gibts nur einen CommonName, bzw ein GecosField,
wo Vor- und Nach nicht getrennt werden. Das ist alles so saudumm, dass ich
jetzt sehr dazu neige, LDAP zur Nutzerverwaltung komplett zu kicken und durch ein
zentrales /etc/passwd zu ersetzen, das per puppet auf die Maschinen kommt.
[/bauerm]
permanent link
Das Lexmark PPD fuer X46[34] Drucker setzt als default-papersize (und printarea und ein dutzend
weitere Parameter) "Letter" ein. Das ist _falsch_, fast ueberall auf dem Planeten. Per
Hand gefixt, man kann jetzt Artikel mit reinkodiertem Letter-Format auf Lexmark ausdrucken.
Das Windows Team hat lustig weiter Server, Realms, Domains, Workgroups umbenannt, so dass wir
keine CIP Rechner mehr "join"en koennen.
Webserver-1 hat jetzt ein backup der typo3 installation.
Per puppet ein basis-paket fuer backup von Maschinen gebastelt.
Martin Bayer hat angefangen, den ganzen Papierkram zu sichten und zu ordnen.
[/bauerm]
permanent link
Webserver, Imapserver und Mailserver haben jetzt total sichere vollstaendig zertifizierte
Zertifikate.
[/bauerm]
permanent link
Bloede Probleme mit dem rsyslogd, er mag die Configzeile
$InputUDPServerBindRuleset remote
nicht, dabei ist das Ruleset remote definiert und funktioniert fuer das TCP Modul,
und das InputUDPServerBindRuleset steht in der Doku genau so. Dreckszeug
Das AutoVacuum von postgresql tut nicht zur zufriedenheit.
Alle PC Pools sind verkabelbunden und geflachsteckert
Das RRZE hat --- ohne irgendwas zu sagen --- ihre ActiveDirectory Server umbenannt. Dank
puppet kein grosser Act das zu fixen, aber halt schon nicht so der Service, den
man erwarten wuerde.
Validierbare Zertifikate fuer imap,smtp und web server von der DFN CA am RRZE
gekriegt. Dabei festgestellt, dass die openssl optionen fuer "req" nicht ganz
so wie in der Doku funktionieren.
Mit Wigand Rathmann abgesprochen, wie das webserver backup funktionieren soll.
Das Papierformat im Bezug aufs Drucken zahlreicher Programme unter Ubuntu kann abhaengen von:
1. der Einstellung in /etc/papersize
2. dem Wert von LC_PAPER (Letter fuer en_US.*, A4 fuer fast alle anderen)
3. Einstellungen im Dokument selbst (PDF, PS)
4. Einstellungen im CUPS, oder foomatic oder PPD Files
5. Einstellungen am Drucker
6. weiteren, unbekannten Faktoren
Beim Login ueber gdm laeuft jetzt ein Skript, das die verfluchten .parentlock files
von Thunderbird und Firefox im HOME des Users loescht. Solche Skripte liegen
nicht etwa in /etc/gdm/PostLogin, sondern in /etc/xdg/autostart. Und das ist
dann ein INI-formatiertes File, welches das anderer ruft...
Frau Graessels Bureaux ist einsatzfaehig
[/bauerm]
permanent link
Auf ziusudra den alten zpool geloescht, mit fuenf 1Tb Platten neu zusammengesetzt und
begonnen neue HOMEs dorthin zu sichern
Nikos und Patrick haben den PC Pool 1 neu versteckert und verkabelbunden
[/bauerm]
permanent link
Es laeuft ein Backup aller Mails im Stundentakt auf einer Maschine im 2 Stock.
Zu dem Zweck ein 2Tb RAID-1 aus zwei USB Platten gebastelt. Mit rsnapshot
implementiert.
Alle alten HOMES (Stand September 2011) von der ziusudra auf besagtes RAID gebracht.
Alle alten Backups (gesar,nimrod) ebenso
Franzi und Katrin haben alle PCs in den Praktikumsraeumen Versicherungskonform
verkabelt und verkabelbunden
Simon hat ausser Dienst ein LaTeX Template fuer die neuen Tuerschilder gemacht.
Die ZUV hat in ihrem Template den Font auf Helvetica festgenagelt, den haben wir
auf den Windowskisten aber nicht. In LaTeX haben wir sie mit dem helvet Package,
und erste Test mit dem Schild von Frau Graessels neuem Bureaux zeigen, dass wir
sehr nah am ZUV Tempate sind
[/bauerm]
permanent link
Was bisher geschah:
Der Techniker von Dell war da und hat die zwei defekten Laptops repariert
Herr Flammer von Basis war da und hat 42 Tb Platten eingebaut, Lizenzen
mussten noch eingespult werden.
Die Versicherung weisst dringlich darauf hin, dass
unsere Verkabelung in den PC Raeumen Stolperfallen enthaelt
die Bodentanks nicht zugehen, weil die Stromstecker rausragen.
um das zu beseitigen, wurden 110 Kabel mit geknicktem Stecker und 800 Meter
Kabelbinder beschafft.
Was heute geschah:
Angefangen, die PCs korrekt zu besteckern und zu verkabelbinden
Mit viel Handarbeit die Platten im CoRaid belebt und als 7 weitere
mirror-Paerchen zum pool dazugefuegt. Jetzt haben wir 30 Tb Platz.
[/bauerm]
permanent link
Vorschlag von den Studenten: Praktikumsraum 1 und PC Pool 1 vertauschen, dann waere
mehr Platz fuer Praktika und die Pools waeren nebeneinander, wodurch Betreuung einfacher
wird.
Angebot von Basis erheblich runtergefeilscht.
Einfuehrung SMARTboards mitgemacht. Eindrucksvoll, sogar die Schrifterkennung funktioniert.
[/bauerm]
permanent link
Neues Mailing-listen Schema erarbeitet. Veroeffentlichung folgt.
Stellt sich raus, puppet module muessen als erste Zeile eine "class" definition haben,
sonst wirft er keinen fehler, inkludiert das Modul aber trotzdem nicht. Saudummer BUG.
[/bauerm]
permanent link
Irgendwas hat ueber Nacht die Permissions auf /var/mail/bayer so verdreht, dass
postfix keine mails mehr an ihn zustellen konnte.
Bjoern und Martin eine Blitzeinfuehrung puppet gegeben.
Wir koennten mal unseren Webserver (und mailserver) von der RRZE CA signieren lassen.
Von vier gekauften Dell Precision M4600 sind jetzt schon zwei defekt, einer hatte
von Anfang an Memory Fehler, der andere ist durchgeschmort.
Stellt sich raus, dass puppet-modules nicht so heissen duerfen wie die nodes zu denen
sie gehoeren. Saudummer BUG.
[/bauerm]
permanent link
Die anderen Admins beginnen, das roundup produktiv zu nutzen, sehr schoen.
[/bauerm]
permanent link
Nuetzliches kommando, um unauslieferbare Mails zu kicken:
postqueue -p |sed -n ' /^[0-9A-F]/p' | awk '{print $1}' | sort -u | postsuper -d -
[/bauerm]
permanent link
Die nameserver vom RRZE hatten heute ernste Probleme, alles war ruckelig und zaeh.
Extensive Tests vom Martin und den Frasch Leuten deuten stark darauf hin,
dass unsere Reboot Probleme vom Ubuntu Kernel in Kombination mit der Fujitsu Hardware
kommen. Generische Tipps aus der ubuntu szene:
- kernel mit noapic starten (da gibts natuerlich 10^3 Varianten davon)
- kernel ohne acpi starten
Testen wir mal.
Die AM3 haetten gerne wieder dynamische DHCP Adressen fuer Laptops. Mit dem
aktuellen Setup geht das nicht, weil
1. Linux nicht multihomed/triangle routing tut
2. Der ISC dhcpd zwar die zusatz-Info vom dhcp-proxy vom RRZE erkennt,
aber bei unbekannten MACs dann immer die erste definierte range nimmt
3. Da drum rum zu werkeln mit einer zweiten Adresse und firewall rules, die
da nur packete vom RRZE reinlassen etc, einfach zu anfaellig ist.
Loesung muss wohl sein, einen weiteren DHCP Server _im_ AM3 Netz zu betreiben. Ist
mit puppet kein Problem, erfordert aber echte Hardware (s.o.)
Deswegen versucht, die ex-andromache wieder flott zu kriegen, bisher erfolglos, weil
der Autoinstall Kernel die Platten nicht mag.
Wir haben immer noch keinen zusaetzlichen Strom im Serverraum
[/bauerm]
permanent link
RRZE entschuldigt sich fuer den z.T. schlechten WiFi Empfang und empfiehlt, wo
moeglich, auf 5Ghz einzustellen, weil dann die Konkurrenz mit den Smartphones
der Studenten kleiner ist.
Zwei Platten im Coraid sind wohl schon lange ohne Volume. Bug? Versehen beim Einrichten?
[/bauerm]
permanent link
Neue Erkenntnis: wenn man mit 'zfs set' oder so was am nexenta dreht, dann wird
das von der WebGUI eventuell ueberschrieben, sogar dann wenn man gar nix anklickt,
was man mit zfs geaendert hat.
Schulung beim RRZE zu deren ActiveDirectory Modell mitgemacht. Erstaunlich, wie die
MSler das LDAP noch kraenker hingekriegt haben. Es wurde auch klar, dass ein paar
der duemmeren Designs in Puppet aus der Ecke kommen.
Angebot fuer weitere 15Tb (nach doppel-RAID) eingeholt, leider etwas teuer.
Nexenta empfahl:
1. Cacheplatte per
setup volume coraid01 remove-lun
aus dem volume zu entfernen
2. Ein neues volume mit nur der SSD drin zu erstellen
create volume
3. Das neue volume zu zerstoeren
4. Die SSD per
setup volume coraid01 grow cache c2t2d15
wieder einzugliedern
Hat funktioniert.
[/bauerm]
permanent link
Mit dem Nexenta Support nochmal Kontakt aufgenommen, wegen der CAcheplatte die
in 'zpool status' als UNAVAILABLE gemeldet wird.
[/bauerm]
permanent link
Vor lauter Orientierungsseminar zu fast nix gekommen.
Uns sterben nach dem reboot im CIP Pool immer wieder Maschinen, aber immer andere.
Die 118 Softwarelizenzen fuer Matlab waren leider im falschen IP Range, nachdem wir
die CIP Maschinen in ein privates gezogen hatten.
Martin Bayer besucht eine Einfuehrung des RRZE in deren ActiveDirectory Gefuddl.
[/bauerm]
permanent link
Vor lauter Orientierungsseminar zu fast nix gekommen.
Tobias hat uns ein paar PostgreSQL Tuning-Tips gegeben:
1. Das Postgres bei uns hatte die ubuntu std-settings, die fuer einen
C64 mit Memory Erweiterung angemessen gewesen waeren.
2. shared_buffers kann man von einer Handvoll MBs auf 50% des Speichers
setzen, in unserem Fall involviert das ein
echo $sehrgrossezahl > /proc/sys/kernel/shmmax
und entsprechenden Edit in /etc/sysctl.conf
3. work_mem auf das 32-fache erhoeht
4. effective_cache_size ist keine Konfig, sondern eine Hilfe fuers PostgreSQL,
um abschaetzen zu koennen, wieviel Platz auf der Maschine ist. Sollte 75%
vom RAM darstellen -> ver-80-zigfacht
Jetzt fuehlt sich das schon deutlich schneller an.
Nikos, William und Martin haben die mysterioesen Druckerpannen aufgeklaert. Das lag
an den STD-Einstellungen vom Thunderbird, alles auf US-Letter ausdrucken zu wollen.
Das CUPS schickt den resultierenden Mist an den Drucker, der schaut kurz nach, ob
irgendwo Letter geladen ist (ist es nicht) und bricht den Druckjob ab. Abhilfe in
der Thunderbird Config. Nach einer globalen Loesung suchen wir noch.
[/bauerm]
permanent link
Es sieht immer mehr danach aus, als ob die geschickteste Art der Userverwaltung waere,
ein /etc/passwd + /etc/group per puppet auf alle Rechner zu push-en, die Hash-felder
in der passwd leer zu lassen und die Authentisierung vom Kerberos machen zu lassen.
[/bauerm]
permanent link
Martin Bayer hat den ex-virtserver Server mit neuestem BIOS versehen, was auch der
Vorschlag vom HP Support war.
Feiner unterschied in puppet: content => puppet:///foo/bar ist was anderes als
source => puppet:///foo/bar
In puppet/fileserver.conf hatte ich das AM3 Netz vergessen
Herrn Neebs Problem mit dem Drucken von Emails aus Thunderbird reproduziert -> geht nicht mit
Lexmark, geht mit HP. PPD file mal austauschen.
Zum ersten mal mit 'puppet apply' gespielt, sehr nett
Die CIP Rechner rebooten nicht mehr synchron, sondern abhaengig von der IP zu verschiedenen
Zeiten, schau mer mal, ob das was bringt.
[/bauerm]
permanent link
Herr Bayer hat seinen Dienst angetreten, sehr gut!
Herr Bayer und Herr Rathmann habens fertiggebracht, das RRZE Office-Aktivierungs-Skript
so zu patchen, dass es die Software dort sucht, wo sie installiert ist. Frau Echtermeyer
hat jetzt "aktiviertes" Office.
Die Elektrik installiert jetzt die Kameras.
Fuer die Fachschaft beim RRZE um ein /28 Netz gebettelt.
Anweisungen von Nexenta Inc befolgt, nexone macht wieder snapshots, nmc laeuft wieder,
war nur eine serie von svcadm commandos zum status clear und restart von daemons.
Schoen.
Der HP Support hat eine Mail geschickt, dass wir auf diverse Arten Daten ueber den
defekten Server liefern sollen. Unter anderem sollten wir ein Skript ausfuehren
cfg2html, das von einer HP.com Seite runterzuladen war. Orginellerweise hatte
das statt \n als Zeilenenden \r\n und das laesst sich dann halt nicht ausfuehren
('/bin/bash^M' no such file...). Und noch viel orginellererweise zeigt der vim
diese kaputten Zeilenenden nicht an, und laesst sie einen auch nicht mit
:s/^V^M//
oder
:1,$! tr -d "\015"
wegloeschen. WAAAAAA.
[/bauerm]
permanent link
Ganz viel Gefrickel mit Kerberos und LDAP und GSSAPI und SASL. Es ist grauenvoll (und optional,
weil in SASL immer alles Optional ist. Die brauchen eine Lookup Funktion um rauszukriegen,
ueber welche Mechanismen sich vielleicht authentisieren koennte, und gewichten die dann
mit Zahlen, und jeder Mechanismus hat ein anderes Naming Scheme, also hat z.b. das OpenLDAP
eine konfigurierebare search-replace regexp zum Umschreiben von GSSAPP/Kerberos Namen
in LDAP DNs. It makes the mind boggle).
Mit solchen Qualitaetsfehlermeldungen wie:
ldap_sasl_interactive_bind_s: Local error (-2)
additional info: SASL(-1): generic failure: GSSAPI Error: Unspecified GSS failure.
Unser Postfix war weit offen. Keine Ahnung wer da zuletzt dran geschraubt hat.
Die Integration der AM3 Maschinen hat noch ein paar Stolpersteine, aber wir arbeiten dran...
Erster Testlaut einer Backuploesung mittels rsync-over-ssh mit einem eingeschraenktem
authorized_key fuer root. Koennte gehen, laesst sich evtl auch noch mit puppet verhuebschen
(was wird von wo nach wohin gebackuppelt...)
[/bauerm]
permanent link
Zimmer 331 von Altbaulasten gereinigt.
Serverraum teilweise entmuellt
Die Uni-eigene Entsorgung, die ueber Univis gar nicht zu finden ist, nimmt unsere
Dutzende von Kilo Kupferkabel ab, wir kriegen einen Drahtgittercontainer zum
Reinschmeissen.
Wir habens geschafft, Frau Echtermeyers Windows-in-Virtualbox zu "aktivieren". Das ist
alles andere als trivial, dazu gibts
http://webserver-1.mi.uni-erlangen.de/cgi-bin/roundup.cgi/problems/issue157
Der Fileserver macht seit Ende Dezember keine Snapshots mehr, man kommt nicht
an das WebGUI und das CLInterface laesst sich nicht mehr starten. Basis.biz
angejammert.
Von Bechtle haben wir zwar einen 24 Stunden Support, aber in den 24 Stunden schreiben
die nur eine Mail, wo drinsteht, dass sie eine Seriennummer und eine Rechnung
zu dem kaputten Geraet haben wollen. Hab von der Vertriebsabteilung die Rechnung
mailen lassen und gleich wieder an den Support zurueckgeschickt. Fantastisch.
Ala lsof -i auf OpenSolaris:
pfiles `ptree | awk '{print $1}'` | egrep '^[0-9]|port:'
[/bauerm]
permanent link
Was ein Tag.
Das AM3 Netz war auf neubau-103 eth2 da. War am Freitag wohl noch zu frueh gewesen.
Auf Nexone geht das nmc nicht mehr. Das ist _das_ configtool fuer nexenta Fileserver.
svcs -xv (und dann ein bisschen logfiles kramen) zeigt einen Perl Error und wenn
man in die Perlmodule schaut, die den Error erzeugen, dann sieht man grauenvolles,
naemlich obfuscated Perl. Laut Support brauchts zum Reparieren einen kompletten
Software Upgrade, zu dem man Downtime einplanen sollte. Waaa.
Fuer AM3 NFS setup umgebaut, dabei einiges ueber die sharenfs optionen gelernt...
Auf neubau-103 eth2 eine unbesetzte Adresse im AM3 Netz gegeben.
Um das DHCP Serversetup vom AM3 nachzubaun/umzuziehen, den dhcpd auch auf eth2
gestartet. Ergebnis: Linux ist nicht so recht auf multihoming eingestellt.
Wenn Antwortpackete nicht auf dem Interface reinkommen, auf dem die Datagramme/Request
per TCP/ICMP raus sind, dann sehen die sendenden Programme das nicht, tcpdump
tcpdump aber schon. Kaputte Software. Zur Kroenung ist dann die neubau-103 auch
noch stehengeblieben, keine Antwort mehr auf gar nix, Tippen an der Konsole ging,
Einloggen nicht. Reboot und das mit dem eth2 im AM3 Netz wieder raus.
Statt dessen das RRZE gebeten, per DHCP Proxy Anfragen aus dem AM3 Netz zur neubau-103
zu lenken. Funktioniert, getestet von Weller.
Das Skript zum Erzeugen von Debian Meta-Packages, die unsere Lieblingssoftware in einem
Schwung installieren, hatte den interessanten Bug, dass es bei jedem Update der Liste
alle frueheren Versionen dieses Meta-Packages mit eingepackt hat (weil die im gleichen
Directory rumlagen wie das debian/control file). Dadurch wurden die mit jedem Update
exponentiell groesser, bis das dpkg-deb sie wegen Speichermangel nicht mehr bauen
konnte. Skript umgeschrieben, dass es neu gebaute Packete in einem tmpdir ablegt,
von wo sie dann in den mirror-tree verschoben werden. Getestet, tut.
[/bauerm]
permanent link
Thu Feb 23 16:51:44 CET 2012
Versuchsweise mal epylog angeschaut, leider verschweigt die Doku vollkommen, wie man
da die Logdateien angibt, die durchsucht werden sollen.
Statt dessen scheint logsurfer interessant zu sein. Dummerweise gibts kein Ubuntu Package
dazu, aber inzwischen bin ich willens das selber zu bauen.
Aus Daten von AM3 ein dhcpd.conf-Fragment gebaut, das man aktivieren kann, sobald
das Netz in neubau-103 steckt.
[/bauerm]
permanent link
Mittels dem magischen "office_activate.bat" vom RRZE das Office auf Frau Echtermeyers
VirtualBox "aktiviert". Das "Enterprise" Windows darauf ist aber noch nicht
"aktiviert", was mich stutzig macht.
Aus der kaputten DL480/5 die kernel logs mit den Panic messages extrahiert und
an bechtle.de geschickt
AM3 auf neubau-103 getestet, ich finds nicht. Evtl mit Glaeser vom RRZE mailen...
Wiki Update: Altes raus, Neues rein
Mit Basis Kontakt aufgenommen wegen diverser Fileserver sachen.
Mit Kerberos-Einbindung Fileserver begonnen, soll irgendwann NFSv4 erlauben
LDAP Support fuer Fileserver ist soweit, dass er unsere User kennt
[/bauerm]
permanent link
Versuchsweise mal epylog angeschaut, leider verschweigt die Doku vollkommen, wie man
da die Logdateien angibt, die durchsucht werden sollen.
Statt dessen scheint logsurfer interessant zu sein. Dummerweise gibts kein Ubuntu Package
dazu, aber inzwischen bin ich willens das selber zu bauen.
Aus Daten von AM3 ein dhcpd.conf-Fragment gebaut, das man aktivieren kann, sobald
das Netz in neubau-103 steckt.
[/bauerm]
permanent link
Puppet error: Could not retrieve catalog from remote server: hostname was not match with the server certificate
Abgesehen von dem kaputten Englisch ist das nicht hilfreich, weil nicht gesagt wird,
_welcher_ hostname denn nicht passt. Nach etwas rumsuchen stellt sich raus,
dass es die "server" Zeile in puppet.conf war, in der eine IP statt "puppet" stand.
Fuer AM3 alle User ins LDAP/Kerberos gezogen, HOMEs angelet, maildirs angelegt, etc
Das RRZE erlaubt unter math.fau.de nur CNAMEs, mal ueberlegen was wir da reintun.
Koennte man als massive Symbolic-Link Farm benutzten ala
username.math.fau.de CNAME neubau-123...
raumnummerhintenlinks.math.fau.de CNAME neubau-123...
funktionsname.math.fau.de CNAME neubau-123...
[/bauerm]
permanent link
Siemens montiert uns die Videokameras, Papierkram wegen Zulassung ist auf dem Weg.
Shellskripten zum Hinzufuegen von Gruppen/dero Mitgliedern ins LDAP geschrieben,
das ist alles soooo krank. Und die Checken nicht mal, obs die uids von den
Membern ueberhaupt gibt. Null Semantik fuer unglaubliche Redundanz.
[/bauerm]
permanent link
Das Bauamt/die Arbeitssicherheit sieht auch, dass die Bodentanks in den CIPs/Praktikumsraeumen
zu hoch gebaut sind, und da dauernd Kabel abknicken. Wird bemaengelt.
Haben zwei Schraenke fuer Toner+Papier in den CIP Pools aquiriert.
Das MS Office "Professional Plus" von Frau Echtermeier jammert wegen eines
Lizenzkeys rum. Sehr professionell.
[/bauerm]
permanent link
Mit den AM3 Admins abgesprochen, dass
1. sie ihr Netz behalten, RRZE (Glaeser) wurde davon informiert
2. die zentralen Server das AM3 DHCP uebernehmen, inklusive
eines dynamischen Bereichs innerhalb des AM3 Netzes.
3. die Drucker von AM3 im zentralen Drucksystem eingetragen werden,
aber innerhalb ihres Broadcast Domains Apple-Rendezvous senden,
so dass Laptops am Druckserver vorbei drucken koennen.
Das Rechenzentrum bietet uns nur ungern Backuploesung, weil ihre Bandmaschinen
schon ausgelastet sind, und grad was neues beantragt/angeschafft wird. Wann
und was genau ist noch nicht klar, auf jeden Fall was mit nichtfreien Clients.
Fuer Bacula gibts eine Anbindung. Laeuft vermutlich darauf raus, dass wir
erstmal was eigenes baun. Mir schwebt da ein rsync-cronjob mit einem
authorized_keys file vor, um wenigstens die Configs der Server zu sichern.
Der Server, den wir fuer die virtuellen Maschinen ausgesucht hatten, eine HP DL485,
hat einen Hau. Memorycheck sagt alles ok, aber alle naslang gibts Kernelpanics.
Die baugleichen Maschinen im gleichen Rack laufen mit genau dem selben Linux.
Deswegen einen anderen genommen. Bechtle benachrichtigen.
Im puppet das installserver modul aufgeraeumt und marginal verbessert.
Die AM3 Admins haben jetzt einen Testrechner (neubau-55-053)
[/bauerm]
permanent link
Frau Kulzer hat interessante Fehler in den Lexmark Printern gefunden. Unter anderem
wird zwischen den ersten zwei Seiten, die man manuell in das Ding fuettert, unaufgefordert
eine Kopie aus der Scan-Einheit gemacht (typischerweise eines leeren Blattes)
Nikos und Katrin haben rausgefunden, dass man mit den Lexmarks in CIP1 nur Dateien bis 1Mb
drucken kann. Mal verfolgen...
Es gibt Unterstuetzung fuer Usergruppen im RRZE AD, allerdings nicht in faudc1, den wir
reinkonfiguriert haben, oder faudc2, der ein clone davon ist, sondern in fauad, der
nicht mal unsere Maschinen kennt. Naechste Woche mal mit Frau Kugler reden, wie wir
da rein/rankommen.
Herr Neeb hatte sich beschwert, dass seine Druckjobs zu lange brauchen. Nikos hat das
experimentell bestaetigen koennen und es auf die IP zurueckgefuehrt. Auch das fordert
genauere Nachforschung...
Nach der Umstellung von MySQL (so ein Haufen Rotz!) auf PostgreSQL waren alle konfigs
und alle entdeckten clients weg, und seltsamerweise haben sich bei dem neu aufgesetzten
auch noch nicht alle wieder gemeldet...
Nach Durchsicht der Besoldungsverordnung stellt sich raus, dass mit der Besoldung, die
wir Tobias' Nachfolger anbieten koennen, die "Verantwortung ueber alle Maschinen im
Maschinensaal" einhergeht und der Job dann anspruchsvoll ist, wenn "mehr als
1.5 Stapel gleichzeitig abgearbeitet werden" (Stapel == Lochkartenstapel). Die Bezeichnung
auf dem Besoldungsniveau ist dann nicht mehr Systemadminstrator sondern Maschinenbediener.
Wir brauchen dringend eine besser bezahlte Adminstelle!
Mit Puppet automatisch ueberall lokale User anlegen, die ein vorgefertigtes HOME haben,
wie es fuer Klausuren am Rechner benoetigt wird, ist gar nicht so einfach... In den
Changes 1050:81cba959e0e1 - 1077:1eef4baee6d4 scheint das jetzt implementiert zu
sein.
Im Raum 01.330 gibts jetzt Ersatztoner fuer HP P3005 und im Druckraum 01 fuer HP 4700.
Nach drei Monaten endlich das Buero aufgeraeumt und die Buecher grob einsortiert.
Der Virtualbox Server scheint down zu sein, mal mit den AM3 admins reden.
Der IMAP Server hat jetzt Support fuer Filter (sieve). Dadurch laesst sich auch
eine Art vacation basteln, indem man im roundcube unter Einstellungen->Filter
eine Match-Regel anlegt und in einem Drop-Down weiter unten dann "Abwesenheitsnotiz"
auswaehlt. Da kann man dann auch den Text eingeben. Sehr schoen, weil die
Alternative, den vacation text im LDAP ablegen zu muessen, wirklich grauslig ist.
Den Druckern in den CIP Pools zusatz "Tray"s mit 550 Blatt Kapazitaet gegeben.
Papier fuer die CIP Pools beiseite geraeumt, erstmal 2000 Seiten, das wird
aber nicht lang halten. Idealerweise sollten wir absperrbare Schraenke fuer
Papier+Toner in den Pools haben.
Die Lexmarks wechseln (sinnvollerweise) nur dann von einem Papierfach zum anderen,
wenn dort auch das gleiche Papier hinkonfiguriert ist. Leider ist default fuer
tray 1 "plain paper" und fuer tray 2 was anderers. Das muessen wir in der
std-config, die wir per .ucf auf neue Drucker hochladen, noch korrigieren.
[/bauerm]
permanent link
Stromzufuhr an einem Bodentank im CIP Pool 1 war aus, wohl weil die Kabel zu
stark geknickt werden, wenn jemand auf den Deckel tritt. Haben die Stromkabel
durch welch mit abgewinkelten Steckern ersetzt.
Mehrere Leute beschweren sich --- wohl zu Recht --- ueber zu langsames Drucken.
Erleuchtung: Mit XeLaTeX und dem fontspec Package kann man praktisch jeden
OTF Font ohne Aufwand benutzen. Sehr cool.
Puppet hat seit 2.6 ein "push" bzw "kick" Feature. In Gegensatz zu den Aussagen
einiger HOWTOS im Netz brauchts dazu zwei (WARUM??) Configdateien, in denen
redundanteweise drinsteht, dass server xyz einen puppetrun anschubsen darf.
ist jetzt per zentral verteilter puppet.conf eingeschaltet, kann per
puppet kick --host $hostname1 --host $hostname2 ...
fuer die genannten Hosts getan werden. Leider geht das kick --all nur mit
einer LDAP (WARUM??) Datenhaltung aller nodes.
Ueber Nacht das klausur_user so umgebaut, dass jetzt hoffentlich relativ
einfach eine masse klausuruser mit vorgegebenen passwoertern und Inhalt
des HOMEs erzeugt werden koennen.
[/bauerm]
permanent link
Zabbix ist neu aufgesetzt, jetzt mit postgresql als Backend.
Frau Wendler ist auf das interessante Problem gestossen, dass \marginpar in LaTeX Beamer Folien
zu dem unschoenen Fehler
! LaTeX Error: Float(s) lost.
fuehrt. Das versteht aber niemand, wie auch in
http://www.tex.ac.uk/cgi-bin/texfaq2html?label=fllost
zugegeben wird.
[/bauerm]
permanent link
Es gibt jetzt ein Laptop-DHCP-Netz 192.168.65/24, in dem alle unbekannten MACs landen
Erste Drucker in den CIP Pools, vorlaeufig nur gegen die 600 Freiseiten Quota aus
Studiengebuehren. Daten zu den Usern werden in eine sqlite DB gehalten, User hinzufuegen
geht mit ~sam/pykotadduser/pykotadduser.py.
Frau Echtermeyer moechte aus dem UZD (windowsterminal am RRZE) auf einem unserer Drucker
drucken koennen. Das funktioniert schon fuer Frau Schinderls PC. Mit diversen Leuten
am RRZE emailiert und telefoniert. Bis jetzt ohne Ergebnis.
Herrn Neebs Laptop installiert und uebergeben.
Lexmark printer koennen wohl kein StartTLS. Auf jeden Fall kann man keine Mailweiterleitung
ueber port 587 zum laufen kriegen.
Der Zabbix ist so ein (*%&^%$^(. In allen Konfig-files, im DNS und in der DB des Dingens
selber steht der server jetzt als "monitor", trotzdem erzaehlt jeder Client
....failed: host [monitor] not found
[/bauerm]
permanent link
Das elendige zabbix-install-ueber-puppet problem mit einem Spucke+Bindfaden Trick
geloest. puppet ist manchmal seltsm
Beim Kopiern der Daten von MySQL auf PostgreSQL ist die Platte uebergelaufen :(
Das ganze PostgresQL ist jetzt ein Link auf /var/log/postgres, wo mehrere
hundert GB frei sind...
Bjoern hat fuer Frau Echtermeyer ein Windows in einer Virtualbox angelegt.
Der alte pan von Herrn Knop macht Probleme im Multi-Display mode, Patrick hat
da viel Arbeit reingesteckt, aber tut nicht...
Serverraum hat zu wenig Stecker. Alex Prechtel meint, dass die Elektriker
sowieso noch wegen den anderen Serverraeumen kommen. Evtl also nochmal 16A reinlegen
lassen.
Rechner fuer Herrn Greven installiert.
Fuer Frau Graessel einen fuerchterlichen Workaround fuer das kaputte thunderbird gebastelt
[/bauerm]
permanent link
Herr Greven moechte auch einen PC, wir sind dran
Wigand hat eine Loesung fuer das Gemeinsame Nutzen von Kalendern mit Lightning,
ueber ein DAV Modul im Apache. Scheint einfach.
Das Druckernetz mit Dosen befuettert. Herr Glaeser traegt das ein.
Unser "Kontakterpersonen" Account beim RRZE war abgelaufen. Was mit keinem
Wort erwaehnt wurde. Verlaengert.
Frau Echtermeyer moechte wieder ein Windows haben, wir legen das in eine
VirtualBox und ziehen ihre Daten vom Backup rein.
Um Zabbix von MySQL auf Postfix versucht umzustellen, das ist nicht vollkommen trivial..
[/bauerm]
permanent link
Herrn Geyer seine alte url wiedergegeben
Unbeabsichtiger Test: Klimaanlage im Serverraum 16 Stunden ausgeschaltet gelassen,
erzeugt nicht sehr viel Hitze (27 Grad). Ufffff
Waaaa. MySQL (das wir als Backend fuer Zabbix nehmen) kann keine Daten loeschen.
Nachdem wir "nur" 50 Gb Partition haben, macht das schnell Probleme.
[/bauerm]
permanent link
Herr Knauf moechte seinen Kalender fuer Frau Moch einsehbar machen
auch gehen, aber der default legt die Termine in einem sqlite file
im Home ab, und das kann zwengs permissions keiner lesen. Loesung vermutl
ein zentraler CalDAV Server, evtl beim RRZE.
Mit den AM3 Admins besprochen, wie wir einen "Virtualisierungs Server", den
zweiten CPU Server und eine erste Testmaschine einrichten.
[/bauerm]
permanent link
Der Drucker von Frau Meusburger raucht. Das ist der ehemalige f, der sicher
schon mehrere hundertausend Seiten gedruckt hat. Durch einen neuen Lexmark
ersetzt.
Unsere Nutzerrichtlinien sind aus dem Jahr 1995. Durch die aktuellen vom RRZE
ersetzt.
[/bauerm]
permanent link
Rausgefunden, dass die Lexmarkprinter ihre Konfig in einem Textformat dump-en koenen.
Damit koennen wir neue Drucker schnell auf
Habeamus Hiwiam! Wir haben eine neue Mitarbeiterin mit einem 7 Stunden Vertrag.
[/bauerm]
permanent link
Weitere Laptops diverser Leute ins DHCP
Um Freidrucke und Uebergriffe auf Server vom CIP Pool aus zu vermeiden, muessen wir
die Drucker wohl in ein eigenes Netz stellen. Dazu muessen wir aber die Dosennummern
wissen, die wiederum ...
OK eigenes Druckernetz, 192.168.55.0/24, das absolut nicht routebar ist. Kommt im Serverraum aus
Switchport 25, geht nur zu den designierten Dosen im Erdgeschoss. Drucker in Stockwerken drueber
koennen wir da noch mit reinhaengen.
[/bauerm]
permanent link
Thunderbird Setup fuer Herrn Berens auf seinem privatem Laptop hingefummelt.
Der Laptop, den wir fuer Herrn Keller bestellt hatten, hat einen Hardware (Memory) Fehler,
wird zurueckgeschickt. Zum Glueck haben wir mehrere bestellt.
Herr Juergensen vom RRZE IZI versucht weiterhin, Frau Forkels A3 Drucker (der schon mal ging)
in das Windows-Zentralsystem einzubinden.
Vandalismus: Aus mehreren CIP Rechnern sind Festplatten und Prozessoren gestohlen worden.
Prechtel wegen Kamera gefragt. Frasch wegen Kensington Locks gefragt, 10 Euro, koennten
Donnerstag geliefert werden.
[/bauerm]
permanent link
Tobias hat gekuendigt. Sehr schlecht.
Mit der reduzierten Adminkraft koennen wir nicht mehr so schnell reagieren, wir stellen
auf Betrieb wie in der freien Wirtschaft um, alles geht jetzt ueber
http://www.math.uni-erlangen.de/problems
Jemand hat printer-85(-ds) geschrottet, hat kein Netz mehr. keine Ahnung was tun.
Drucker sind geliefert, wir versuchen einen mal Studentenfest zu machen, dann kriegen
die auch Drucker.
[/bauerm]
permanent link
Tobias hat bis 5:00 frueh CIP Pool re-installiert. Mal schaun, obs was hilft.
Der Stromausfall hat die Server nicht erwischt, wies ausschaut. Ob die Elektriker
jetzt alles angeschlossen haben, bleibt herauszufinden.
Mit Johannes Mueller vom Wima Lehrstuhl dem Elektriker vorgegeben,
wie er den WiMA Schrank mit Steckerleisten versorgen soll. Die sind dann
an einem eigenen Draht.
Weiter Einbruch hinterhergearbeitet. Scheissjob. Passwds geaendert, mount options
verbessert.
Auf einem CIP PC ist uns das BIOS zerschossen worden.. mal schaun
Gesamt-Quota fuer den /stud Ast eingetragen, 6Tb.
Nikos hat einen schoenen Start-Screen fuer Logins gemacht, auf dem schonmal die
relevante Info steht...
Rausgefunden, dass man den verfluchten "Sie koennten auf die naechste Ubuntu Version
upgraden" update-manager ausschalten kann, mit
gconftool -s --type bool /apps/update-notifier/auto_launch false
Das kann man auch in XML uebersetzten und zu einer globalen Option machen.
(ist im puppet, aber ungetestet).
In den alten HOMEs lagen faelschlich kopierte .zfs dirs...
Einen puppet-change gebaut, der auf dem CIP pool mit etwas Glueck einen Bildschirmhintergrund
zeigen sollte, auf dem u.a. die Telefonnummer des HiwiTelefons steht.
Das 4Tb grosse File war gar nicht so leicht zu loeschen, weils natuerlich in die
snapshots wandert, sobald mans wegmacht. Also per skript:
while [ $u -gt 17000000000 ] ; do x=`for i in snap-*; do zfs get -Hp used coraid01/homes/stud@$i; done | awk '{print $3 " " $1}' | sort -n | tail -1| tee /tmp/used | awk '{print $2}'`; u=`awk '{print $1}' < /tmp/used`; echo $u; echo $x; y=`echo $x| sed 's/^.*@//'`; echo $y; zfs destroy coraid01/homes/stud@$y; done
alle snapshots geloescht, bis zur ctime dieses files (22.11, 23:45).
Frasch hat den alten pan wiedergebracht, eine Platte war defekt. Das ist jetzt die dritte
Platte in dem PC die kaputtgeht.
[/bauerm]
permanent link
Frau Forkels iMac das Drucken beigebracht.
Frau Graessel hat das Problem, dass MacOS nur sehr bedingt Gruppen-Schreibrechte
auf Dateien kapiert. In der Shell kein Problem, aber die GUI und diverse Programme
erlauben ihr nicht, auf Dateien/Verzeichnisse zuzugreifen, auf denen sie nicht
Inhaberin ist, aber Gruppenschreibrechte hat.
Frau Forkels uraltPC mit einigem Aufwand einen Drucker gegeben (USB funktioniert nur ein paar
Seiten lang, dann haengts)
Diverse Webmaster Anfragen weitergeleitet.
AM2 wuenscht HOMEs per CIFS, und Authentisierung gegen das RRZE AD. Mal schaun wie wir
das schaffen. Herr Graef kann unterstuetzen, der hat schon alles gemacht..
Die Elektriker haben den CIPPool 2 abgesperrt, und den einzigen Schluessel mitgenommen..
Amerik. Tastaturen sind jetzt da.
Defekten Monitor von Frau Kulzer an Frasch zum Austausch weitergegeben.
Defekten PC von Herrn Knop an Frasch uebergeben.
Den CPU Server von AM3 reaktiviert, er war mit dem falschen Etherport angeschlossen
gewesen, und hat dann einige Zeit gebraucht, bis er sich eine DHCP Addr geholt hat.
Versuch, einen NAT-Gateway auf neubau-103 aufzusetzen. Durch Tippfehler (oder falsches HOWTO)
kam kurze Zeit jeder ausgehende Traffic von 10.131.54.1 ...
Wir wurden letzte Woche auf ein ernstes Sicherheitsproblem hingewiesen. Das Problem wurde
umgehend behoben, jetzt erreicht uns aber die Information, dass zahlreiche Leute
das Sicherheitsloch ausgenutzt haben, um auf den cip-pool Maschinen Unfug zu treiben.
Massnahmen begonnen, das einzudaemmen. User des CIP pools sollten auf jeden Fall ihre
Passwoerter aendern.
Beim Durchschaun der NFS HOMEs ein .xsession-errors.old gefunden, das 4 _Terabyte_ gross
war. Scheint aber tatsaechlich der Output von einem X-wasauchimmer zu sein, wo der
User eine Endlosschleife programmiert hatte. Quotas einfuehren...
[/bauerm]
permanent link
Das Ubuntu Package nslcd installiert kein Startup-Skript => man wuerde sich nie
einloggen koennen. Bei uns ist das nicht so arg aufgefallen, weil puppet das
nach ein paar Minuten startet, wenns nicht laeuft. Das Startup-Skript wird
jetzt ebenfalls von puppet installiert, wos nicht existiert.
Frau Forkels Igel endlich ans Netz gekriegt. Es ging nicht ueber das Windows-uebliche
Systemsteuerung->Netwerke->TCP/IPv4->Gefuddel, sondern ueber einen kleinen gelben
Boppel am unteren Bildschirmrand.
Drucker aus der Bismarckstrasse wieder zum Leben erweckt, so dass etwas mehr Drucker da sind.
[/bauerm]
permanent link
Herrn Knops (nicht sehr) alter PC Pan scheint verstorben. Frasch fragen.
Frasch wegen Steckerleisten fuer Serverschraenke angefragt. Er hat voellig
richtig darauf hingewiesen, dass durchs Kaskadieren von Steckerleisten
die maximale Leistung der Wurzel-Steckerleiste auch nicht groesser wird.
Und bei unserer Servermasse koennt das bald knapp werden. Deswegen
(und wegen der immer noch nicht fertigen Bodentanks in den Praktikumsraeumen)
die Elektriker angemailt.
Herr Prechtel hat uns netterweise MATLAB auf den fileserver installiert. Dazu
hat neubau-195 schreibrechte auf dem /volumes/coraid01/kommerz auf nexenta.
[/bauerm]
permanent link
Gelernt, dass man am Igel Terminal "Shift" beim Ausloggen druecken muss, wenn man einen
Login Screen haben will. Wichtig zum Umnummerieren von Forkels Maschine.
Im Raum 1.346 gabs keinen Strom. Bauleitung benachrichtigt.
Mukherje hatte noch keinen Rechner, sonst sind die noch nicht aufgebauten im zweiten
Stock alle in Biomath Zimmern.
Frau Sandersons alter PC (ex Hephaistos) hat einen seltsamen Monitorausgang, und der
Adapter auf 2x DVI ist beim Umzug wohl verlegt worden. Morgen einen einkaufen,
vorlaeufig einen neuen PC hingestellt.
Wir haben nur noch fuenf PCs auf Reserve, und noch weniger Monitore. Nachbestellen.
Im Serverraum aufgeraeumt. Es gibt immer noch keine Stromversorgung fuer einen
dritten Serverschrank, und weder Strom noch Netz in den Waenden.
Weiter Mailprobleme verfolgt. Der Postmaster vom RRZE sagt, bei ihnen wird nichts
abgezweigt oder umgeschrieben, was fuer mi.uni-erlangen.de ist. Wenn also eine
Mail nicht in unseren Logs auftaucht, dann ist sie nie bis zur Uni gekommen.
Als Arbeitsgrundlage gut zu wissen.
Nachdem Herr Burlacu darauf hingewiesen hat, dass es noch Studenten-HOMEs auf
dem Fileserver gibt, die in der Bismarckstrasse mit den dortigen UIDs erzeugt
worden waren, wurden heute die letzten davon auf die UIDs umgeeignet, die
aus unserem AD/Winbind Setup vergeben werden.
[/bauerm]
permanent link
Neuen Server installiert. Weil HP die MACs nicht leicht zugaenglich aufdruckt, musste
ich dazu im Serverraum erstmal dhcp Server fuer das iLO der Maschine spielen, mich
dort dann einloggen (da gibts eine Moeglichkeit SSH pubkeys hochzuladen, das sollten
wir verfolgen...), da auf textcons zu wechseln und dann PXE boot anzustossen.
Der neuen Server soll fuer Monitoring, Logs und als Fallback fuer LDAP/Kerberos
dienen.
Nachdem die Drucker so ewig auf sich warten lassen, haben wir jetzt alle verbleibenden
in Dienst genommen. Und die sind so inhomogen wie sies eben schon waren.
Ajax wieder in Betrieb genommen, jetzt als neubau-120.
Erster Diebstahl: jemand hat eine Nvidia GeForce 405 aus einem PC im zweiten Stock gestohlen.
Knops Mail Folder auf den IMAP Server gezogen, ging wohl gut, die Prozedur ist im
wesentlichen automatisiert. Mailfolder dieser Art erkennt man an der Zeile:
This text is part of the internal format of your mail folder, and is not
Weitere Laptops ins Netz aufgenommen.
[/bauerm]
permanent link
Frasch kann die 20 Drucker nicht vor Dezember liefern. Dreck
Ein Side-effect der OpenLDAP Bugs war, dass unsere Liste erlaubter Empfaenger zu kurz
war, und deswegen Mail abgelehnt wurde.
Nachdem das Bauamt ab heute die Schloesser in der Bismarckstrasse austauscht, haben Tobias
und ich alle Server von dort geholt. War etwas kniffelig, wegen den verschiedenen Schienensystemen,
und weil wir ganz schoen zu schleppen hatten. Was wir in der Hektik vollkommen vergessen
hatten, war, dass die helena noch an zahlreichen Stellen als DNS server drinsteht, oft
sogar als einziger. Saubloed. Und die ziusudra stand noch nicht mit ihrer neuen Adresse
im DNS und auch nicht in den /etc/hosts, die sie selber verteilt hat. Auch Saudumm.
Dadurch war der Betrieb grossflaechig gestoert. Gut Ding muss Weile haben.
Backup aller Mails von helena gemacht.
Die zwei iMacs hier sind jetzt vollkommen kaputtkonfiguriert.
Auf der ziusudra war noch YP an, dementsprechend langsam war alles, weil ja kein YP MAster
mehr da war.
Neuen Trick gelernt: Wenn man nicht als root auf eine Kiste kommt, und von der als Root
(per sudo o.ae.) ein Backup auf eine andere ziehen will (und grad kein Netcat auf der Maschine ist),
dann kann man folgendes tun:
A# mkfifo /tmp/out
A# tar cf - das_directory | gzip -1 > /tmp/out
B% ssh -l nichtroot A 'cat /tmp/out' | ssh C 'cd /var/tmp/ && tar xfz -'
Das entpackte Backup liegt dann auf C:/var/tmp
Frau Humbach einen PC hingestellt, da das mit den iMacs noch warten muss
Mailproblemen hinterdebuggt. Noch unklar.
Frau Kulzers HOME auf eine externe Platte gezogen.
Bei einem Laptop war von Urzeiten her die helena als DNS Server reinkonfiguriert, obwohl
die IP per DHCP bezogen wurde. Wenn man das auf "Automatisch beziehen" umstellt, gehts.
Herrn Stummers Celsius R570 installiert. Da war im BIOS von Werk ab das Booten per PXE
ausgeschaltet, was man ueber einen Dialog tief unter "Advanced Peripheral Configuration" oder
so wieder einschalten konnte.
Es sind jetzt sechs Drucker im Netz verfuegbar. In meinem Bureaux steht noch mindestens
ein weiterer.
Auf neubau-103 ein Skript /home/sam/bin/mkimapfolder gebaut. Das benutzt das (etwas gepatchte)
/home/sam/mb2mb.pl, um aus "folders" vom alten Thunderbird echte Folder auf dem IMAP
Server zu machen. Mit den Mails von knop mit dessen Genehmigung ausprobiert.
Argumente sind der Name des Folders (der in mbox Format sein muss), und der Name der Mailbox,
wos hinsoll.
Den alten ajax auf neubau-120 uminstalliert.
Beim alten Cadmus fehlt ein Doppel-DVI auf DVI Kabel
Im Praktikumsraum 1 haben die Elektriker durch hartes Ausschalten einen sehrsehr seltsamen
Fehler produziert. Der Bildschirm ist auf der linken Haelft voellig ok, auf der rechten
hat er eine 640x400 Aufloesung
[/bauerm]
permanent link
Stellt sich raus, dass OpenLDAP als _default setting_ nur 500 Antworten liefert. Laesst
sich mit "size limit unlimited" im slapd.conf abstellen. Deswegen ist unser std-test
getent passwd | grep tobias
immer fehlgeschlagen, obwohl die Maschinen bestens mit dem LDAP reden konnten.
Wer denkt sich sowas aus??? *doppelstirnklatsch*
[/bauerm]
permanent link
neubau-115 ist noch laptopk -> reinstall
Mehrere Maschinen reinstalliert, ueberall mit einem account aus dem kerberos getestet,
geht ueberall ausser neubau-229.
Unglaublich! nslcd laesst sich mit -d starten (debug) und wenn man "getent passwd" ruft,
schmeisst er "ldap_result failed: Size limit exceeded". *stirnklatsch*
Testen die das mit einem einzigen User !?!?!?!?
Einmal durch alle Raeume in beiden Stockwerken und alle Maschinen durchgeschaut,
einige brauchen installs, Kabel, keytabs,...
Eine Latte Eintraege ins roundup deswegen.
Passwort von Frau Wendler ausgetauscht, das Login geht jetzt.
[/bauerm]
permanent link
Thursday, November 10, 2011 00:35:57
Loglevel auf OpenLDAP wieder ganz zurueckgedreht, das scheint den meissten delay zu machen.
Hoffentlich hilft das.
Einige Maschinen konnten per Wake-On-Lan geweckt werden, dazu muss man im BIOS unter
Security das Skip on Wake-On-Lan _enabled_ werden (sonst braucht man ein passwd)
Pythonfragment, um strings nach hex zu wandeln (falls man doch mal Passwds braucht)
toHex = lambda x:"".join([hex(ord(c))[2:].zfill(2) for c in x])
Auf einigen Maschinen nach dem WoL per Hand ueber ssh mit
apt-get update && apt-get dist-upgrade && puppetd --test
repariert, was noch ging.
Maschinen, auf denen LDAP+Kerberos erfolgreich getestet wurde:
neubau-195 (bauerm)
neubau-215 (bauerm)
neubau-222 (bauerm)
neubau-235 (Schalke)
Bei manchen half ein reboot vorher (???)
neubau-114 glaubte "laptopd" zu sein, fixed.
Beim autoinstall kann eine Maschine an mehreren Punkten haengen:
Beim DHCP,
wenn das Kabel defekt/nicht angeschlossen ist
-> Neues Kabel anschliessen
wenn die Dose an der Wand nicht geht
-> Mail an Prechtel
wenn die MAC Adresse nicht im puppet/FAI Server konfiguriert ist
-> Mail/Zettel mit der MAC an bauerm/michelis
Beim puppet run,
wenn die Kiste noch nicht signiert ist
-> Nachricht an bauerm/michelis
wenn es keine Kerberos Keytab dafuer gibt
-> Nachricht an bauerm/michelis
[/bauerm]
permanent link
Loglevel auf OpenLDAP wieder ganz zurueckgedreht, das scheint den meissten delay zu machen.
Hoffentlich hilft das.
Einige Maschinen konnten per Wake-On-Lan geweckt werden, dazu muss man im BIOS unter
Security das Skip on Wake-On-Lan _enabled_ werden (sonst braucht man ein passwd)
Pythonfragment, um strings nach hex zu wandeln (falls man doch mal Passwds braucht)
toHex = lambda x:"".join([hex(ord(c))[2:].zfill(2) for c in x])
Auf einigen Maschinen nach dem WoL per Hand ueber ssh mit
apt-get update && apt-get dist-upgrade && puppetd --test
repariert, was noch ging.
Maschinen, auf denen LDAP+Kerberos erfolgreich getestet wurde:
neubau-195 (bauerm)
neubau-215 (bauerm)
neubau-222 (bauerm)
neubau-235 (Schalke)
Bei manchen half ein reboot vorher (???)
neubau-114 glaubte "laptopd" zu sein, fixed.
Beim autoinstall kann eine Maschine an mehreren Punkten haengen:
Beim DHCP,
wenn das Kabel defekt/nicht angeschlossen ist
-> Neues Kabel anschliessen
wenn die Dose an der Wand nicht geht
-> Mail an Prechtel
wenn die MAC Adresse nicht im puppet/FAI Server konfiguriert ist
-> Mail/Zettel mit der MAC an bauerm/michelis
Beim puppet run,
wenn die Kiste noch nicht signiert ist
-> Nachricht an bauerm/michelis
wenn es keine Kerberos Keytab dafuer gibt
-> Nachricht an bauerm/michelis
Noch 10 Gigabit-5-Port Switches bestellt, da einige Bueros zu wenige Datendosen haben.
Zwei Gigabit-16-Port Switches bestellt, um ein Testnetz aufzubaun
Nochmal Amerikanische Tastaturen geordert, Deutsche verwirren nur
Amerikanische Tastatur an Wendlers iMac
Bei Fairbairn, Merigon, Neeb Maschine so hingebogen/reinstalliert, dass Login ging.
William und Andreas sind durch fast alle Bueros und haben weiter aufgebaut, BIOS Settings
eingestellt, laufende Systeme auf neuen Stand gebracht, um den puppet bug auszubueglen,
puppet runs angestossen, um die konfigs auf neuen Stand zu bringen, ...
Grad eben laufen 45 Maschinen im Neubau Netz. Das scheint etwas wenig.
[/bauerm]
permanent link
Hoelle. Der OpenLDAP Server spinnt manchmal und muss dann restartet werden, und das
ist nicht leicht zu diagnostizieren. Dadurch wurden bei uns Mails verworfen, weil
im postfix/main.cf eine ldap-map fuer die local-recipients steht, und das ding
halt nicht geantwortet hat.
Drucksystem angefangen, zwei Drucker haben wir jetzt schon.
Niemand vom IZI ist erreichbar, um Frau Forkels Igel-Terminal zu rekonfiguren
IMAP "Folder" die mittels thunderbird o.ae. auf dem alten System angelegt wurden,
sind einfach mbox-Files im HOME der user. Wenn man die in echte IMAP Folder
auf dem Server wandeln will, kann man das z.b. mit dem mb2md.pl Skript machen
(http://dovecot.org/tools/mb2md.pl)
Fuer $user mit $mfolder im $HOME ginge das so (auf dem mailserver, nachdem
man da $HOME/$mfolder hinkopiert hat):
perl /home/sam/mb2md.pl -WUL -s $HOME/$mfolder -d /var/mail/$user/.$mfolder
chown -R $user /var/mail/$user/.$mfolder
echo "$mfolder" >> /var/mail/$user/subscriptions
Erst wenn man letzteres gemacht hat, zeigen die diversen imap reader die folder an...
Probleme mit den Macs: Wenn die kein Netz beim Startup haben, haengen sie sich auf.
Durch die obige Panne mit puppet auf Ubuntu waren die meisten Maschinen nicht in dem
Zustand, dass sie mit dem kerberos Server haetten reden koennen. Manche user haben die
Maschinen ausgeschaltet oder schlagengelegt, so dass wir da auch nix dran aendern konnten.
[/bauerm]
permanent link
Aha. Ein Teil des Kerberos Setups benutzt /etc/krb5.keytab, ein anderer eine Database.
Authentisierung ueber ssh/gdm/... funktioniert nur, wenn _alle_ Hostkeys aller Clients
in der /etc/krb5.keytab vom Kerberos Authserver stehen. Da wir die keytabs schon
erzeugt haben, bevor die Maschinen installiert waren, ging das importieren aller dann mit
(for i in `echo /etc/krb5.keytab; ls *.keytab`; do
echo "read_kt $i";
done; echo "write_kt /tmp/all.keytab") | ktutil
mv /tmp/all.keytab /etc/krb5.keytab
Na toll: https://bugs.launchpad.net/ubuntu/+source/facter/+bug/885998
Die haben puppet kaputtgemacht, vier Tage bevor wirs fuer ueber mehr als 200 Rechner laufen
lassen.
Mailserverumstellung dauert jetzt noch 21 Stunden, dann sind die DNS Eintraege umgebogen.
Die Umzugsfirma hat keinen einzigen Drucker aus dem Keller hergebracht, macht das Einrichten
eines Drucksystems schwierig.
[/bauerm]
permanent link
Sat Nov 5 16:21:23 CET 2011
Auf ziusudra mein home unshared und auf helena meine addr als alias zu math.fau.de
eingetragen. Geht.
Alias maps fuer postfix aus textfiles:
postalias hash:/etc/mi.aliases
Liest das /etc/mi.aliases und schreibt ein /etc/mi.aliases.db
Die mi.aliases auf dem neuen mailserver funktionieren (waren aus den
.forwards des alten generiert)
[/bauerm]
permanent link
Mon Nov 7 21:28:20 CET 2011
Was ein Tag. Die Raumnummern mancher Bueros stimmen nicht, deswegen sind die ueberzaehligen
Rechner in der Geschaeftsstelle im ersten Stock gelandet. Alle neuen Server sind
wohlbehalten angekommen, und wir haben jede Menge ueber Rackschienen gelernt. Fileserver
vermisst ein 10GBit Netzkabel, ist davon aber nicht angefochten, und serviert weiter
alle HOMEs, CIP pool scheint weiter zu laufen. Webserver wurde unsanft runtergefahren,
hat aber ueberlebt. Installserver verteilt wenigstens Adressen. Im Buero von Bauer als
auch Michelis gibts keinen Strom.
Mailserver akzeptiert MSA (mail submission protocol, port 587), wenns ueber TLS geht.
imap auf Mailserver geht.
helena, ziusudra, faiserver und nimrod laufen tapfer im Altbau weiter, so dass dort
Mail angenommen wird, webserver noch tut, laptops noch adressen und netz kriegen,
und die helena noch auf die .forwards zugreifen kann (HOMEs werden nicht mehr
exportiert, sobald ein Skript durchgelaufen ist, das jetzt schon eine Stunde laeuft.)
[/bauerm]
permanent link
Sun Nov 6 00:49:45 CET 2011
Wenn man fuer postfix ldap maps nehmen will, muss man eine art konfig file
schreiben, in dem server, und searchbase angegeben werden. Wenn der Mailserver
nach der Exisitenz eines users fragt, stellt er dummerweise die Frage nach
einem Attribut, das in unserem LDAP setup nicht existiert. Das kann man
aendern indem man "query-filter = (uid=%u)" einbaut, dann wird der
Username genommen.
Waaa. Beim Mailkonvertieren gemerkt, dass eine ganze Reihe user nicht im kerberos
oder LDAP sind. Viele User auf einmal anzulegen, scheint ein schwieriges Problem.
[/bauerm]
permanent link
Was ein Tag. Die Raumnummern mancher Bueros stimmen nicht, deswegen sind die ueberzaehligen
Rechner in der Geschaeftsstelle im ersten Stock gelandet. Alle neuen Server sind
wohlbehalten angekommen, und wir haben jede Menge ueber Rackschienen gelernt. Fileserver
vermisst ein 10GBit Netzkabel, ist davon aber nicht angefochten, und serviert weiter
alle HOMEs, CIP pool scheint weiter zu laufen. Webserver wurde unsanft runtergefahren,
hat aber ueberlebt. Installserver verteilt wenigstens Adressen. Im Buero von Bauer als
auch Michelis gibts keinen Strom.
Mailserver akzeptiert MSA (mail submission protocol, port 587), wenns ueber TLS geht.
imap auf Mailserver geht.
helena, ziusudra, faiserver und nimrod laufen tapfer im Altbau weiter, so dass dort
Mail angenommen wird, webserver noch tut, laptops noch adressen und netz kriegen,
und die helena noch auf die .forwards zugreifen kann (HOMEs werden nicht mehr
exportiert, sobald ein Skript durchgelaufen ist, das jetzt schon eine Stunde laeuft.)
[/bauerm]
permanent link
Wenn man fuer postfix ldap maps nehmen will, muss man eine art konfig file
schreiben, in dem server, und searchbase angegeben werden. Wenn der Mailserver
nach der Exisitenz eines users fragt, stellt er dummerweise die Frage nach
einem Attribut, das in unserem LDAP setup nicht existiert. Das kann man
aendern indem man "query-filter = (uid=%u)" einbaut, dann wird der
Username genommen.
Waaa. Beim Mailkonvertieren gemerkt, dass eine ganze Reihe user nicht im kerberos
oder LDAP sind. Viele User auf einmal anzulegen, scheint ein schwieriges Problem.
[/bauerm]
permanent link
Auf ziusudra mein home unshared und auf helena meine addr als alias zu math.fau.de
eingetragen. Geht.
Alias maps fuer postfix aus textfiles:
postalias hash:/etc/mi.aliases
Liest das /etc/mi.aliases und schreibt ein /etc/mi.aliases.db
Die mi.aliases auf dem neuen mailserver funktionieren (waren aus den
.forwards des alten generiert)
[/bauerm]
permanent link
Thu Sep 7 15:44:11 CEST 2011
Neuen Webserver auf einer ProLiant 380 aufgesetzt. Dafuer den
FAI-Server um das Modul webserver erweitert und die Konfiguration
auch ins puppet reingespiegelt. Webserver musste unten in den
switch-Schrank gelegt werden, da im Serverraum die Sicherungen zu
schwach sind.
Wed Oct 5 18:18:35 CEST 2011
Drucken klappt endlich fuer den Neubau. Unbekannte Nutzer werden
automatisch angelegt, unbekannte Printer ebenso. Zur Zeit ist noch
ein Accounting aktiv. Jeder User wird zur Zeit mit einem Accounting
von 25.0 Credits versehen und jede Seite kostet 0.05. Vielleicht so
lassen um Massendrucker zu entlarven? Man kann sie ja jederzeit
hochsetzen.
[/michelis]
permanent link
Verzweiflung! ausserhalb von Praktikumsraum II geht kein Einloggen. Schlecht.
Mit Frau Loehlein nach Ursachen geforscht. Ein Restart von winbindd behebt
das Problem. Einen entsprechenden Cronjob auf allen neubau cip Maschinen
eingerichtet. Warum das aber so ist weiss niemand.
Patrik Muehlbauer konnte sich (wie mehr als hundert andere) nicht uebers
ActiveDirectory einloggen. Nachdem er in idm.uni-erlangen.de sein passwd
geaendert hatte, gings. Magie!
Folgende cip Maschinen tun nicht richtig:
cip-54-18
cip-54-35
cip-54-50
cip-54-57
cip-54-87
Bei 87 liegts daran, dass der noch nicht mit dem puppet redet.
Patrik hat die Verkabelung des Fileservers aufgezeichnet, so dass der Aufbau
"einfach" sein sollte
Zeug verpackt. Die werden fluchen.
Das Rackschrankproblem scheint umgangen, wir haben 2 * 24 - 2 Dosen frei
Hab noch eine Anleitung zum Ein/Anbau von HP Rackschienen gefunden, beruhigend
Einen DNS Server fuer mi.uni-erlangen.de aufgesetzt und dort neubau-103 als
MX fuer den ganzen domain rein. Funktioniert!
aruru ausgemacht.
Mit Simon Betz die restlichen Maschinen in CIP Pool 1 verkabelt und installiert.
Tut!
Begruessungszettel mit Username+Passwort und ein paar Tips fuer die Mitarbeiter
ausgedruckt. Sollte die Installation klappen, koennen die damit sofort loslegen.
Dieses Weblog auf den neuen Webserver bewegt!
[/bauerm]
permanent link
Frasch hat die 60 weiteren PCs, Stromkabel, Netzkabel, Mehrfachstecker und
den letzten Rackschrank geliefert. Die PCs+Monitoree stehen in Kisten
in den Bueros. William hat mit dem Verkabeln angefangen, an mindestens
einem Arbeitsplatz sind aber arg wenig Stromdosen, deswegen Anschlusskabel
an das PC Netzteil fuer den Monitor geordert (und bekommen).
Serverraum: die Elektriker haben nur fuer zwei Rackschraenke Strom geliefert,
heut mittag stand schon der dritte (von AM2) drin, und der musste sich
schon Strom aus den Dosen der zwei ziehen. Heute muesste auch noch der Schrank
von WiMa kommen, und der braucht auch noch Strom. Prechtel hat das Problem
an die Elektriker gemeldet, die bis morgen was machen werden (aber was?).
Skript geschrieben, dass unsere dhcp konfig im Altbau auf den neubau abbildet,
d.h. laptops mit bisher fixen addressen kriegen weiter fixe addr, nur andere,
und maschinen, die bisher vom autoinstaller kamen, tun das weiter.
Fuer neubau-110 - neubau-246 kerberos keytabs erzeugt und im puppet integriert.
Sollten jetzt per puppet auf die Maschinen gebuegelt werden.
Wieder ActiveDir Probleme: Login geht nur noch auf den Maschinen
cip-54-x fuer x \in {59,..,95}
Das deckt sich im wesentlichem mit Praktikumsraum 2.
Herrn Ritter vom RRZE angemailt.
Kerberos Probleme: im Testaufbau neubau-99 (der gestern noch funktioniert
hat), kann man sich nicht mit einem LDAP/Kerberos account per ssh einloggen
[/bauerm]
permanent link
Gepackt, Schrott weggeraeumt
Testlauf: neubau-99 von winbind-client zu einem krb5-client gemacht. Tut nach
einem uebertrag eines host/principals in einer keytab. Mal fuer alle neubaumaschinen
vorbereiten
Fuchs vom RRZE sagt, wir koennen das neubau Netz nicht gleichzeitig im Norden
und im Sueden haben. Meine Annahme, dass das geht, beruht wohl auf einem Missverstaendnis,
bei der AM1/2 ging das, weil die zusammen mit dem Neubau an einer Routerinfrastruktur
hingen, bei uns gehts nicht :( D.h. wir muessen die Kisten alle auf einmal
ruebertragen, und vorher kgeht kein Auto-install
[/bauerm]
permanent link
Waaa. Ein GConf Error haelt den gdm davon ab, User rein zu lassen. Natuerlich!
Wir hatten auf dem autoinstaller das /tmp vergessen, und das lag in der sehr
kleinen /root. Per Puppet angelegt.
Mail ans Windowsteam geschrieben, dass da ca 120 Accounts bei uns sind, die
im AD nicht existieren. Um Erklaerung gebeten.
Alle UIDs der Studenten, die aus dem AD authentifiziert werden koennen, im
Altbau CIP Pool auf die Neubau UIDs gebracht.
Mountpoints fuer Studenten umgesetzt auf server-15:/volumes/coraid01/stud,
so dass ueberall der Neubau-FileServer benutzt wird.
Desgleichen auf helena (da tut der automounter aus unbekannten Gruenden nicht,
man muss also von hand mounten)
Auf helena die mailboxen ge-chown-t
Geruechteweise soll am Mittwoch eine Sprechstunde zu einer Matlab-Vorlesung
in einem CIP Pool laufen. Leider keine Anfrage von den Veranstaltern, daher
unklar, ob denen Octave reichen wird. Auf Verdacht mal eine Matlab Campus-Netzlizenz
bestellen.
Hinweis auf Umzug auf die uralt-Webseite
[/bauerm]
permanent link
Test von MailSubmission auf port 587 auf neubau-103 mit dem msmtp. Konfig:
StartTLS, Auth Plain, einen testuser aus dem LDAP/Kerberos genommen,
Mail wird von ausserhalb der Uni akzeptiert. Klingt ja schonmal gut!
[/bauerm]
permanent link
Heute erster Testlauf mit "echten" Usern in Herrn Richards R-Praktikum.
+ Logins gehen! R laeft! Die Leute koennen sich aufs wesentliche konzentrieren.
- cip-54-87 hat einen hau. (da laeuft puppet, ist aber auf dem server nicht
bekannt)
- Das Ubuntu Login ist katastrophal. Keiner kapiert, dass man da durch mehr
als zwanzig Accountnamen durchscrollen muss, bevor der Punkt "other"
auftaucht, den man dann klickern muss. Danach kann man seinen Usernamen
eingeben, und nach dem "Return" tauchen unten am Bildschirm winizig kleine
Menuepunkte auf, die einem erlauben, u.a. die Tastatur auf Deutsch zu stellen.
Hat vielen Probleme gemacht.
- Evtl dort auf default-Deutsch stellen, wo deutsche Tastaturen dranhaengen...
Erste Fixes:
+ Die bescheuerte Liste ehemals eingeloggter User entfernt. Es wird einfach
Name+Password gefragt
[/bauerm]
permanent link
Untige smb.conf genommen und ins Puppet. Scheint im wesentlichen zu tun.
Andreas Demuth hat im grossen CIP Pool versucht, Maschinen zu installieren,
ging nicht, weil kein Netz da war. RRZE angefragt, war nach kurzem da,
Installation lief durch.
Andreas Demuth hat im Praktikumsraum 1 versucht, Maschinen zu installieren,
ging nur bei manchen, weil kein Strom da war. Herrn Joerres drauf hingewiesen.
Spaeter kam wohl ein Elektriker vorbei, der ein paar Sicherungen wieder eingeschaltet
hat. Warum die draussen waren???
Der Cip Pool laesst sich nur mit viel Geschick oeffnen; nachdem mir Herrn Joerres
versichert hat, dass es geht, hab ichs zusammen mit Simon Betz probiert, und
wir habens nach einigen Fehlversuchen geschafft. Auch dort Installation angeworfen.
Jetzt sollten fast alle 120 Maschinen installiert sein. Einige haben kein Netz, einige
keine Strom, wegen Pfusch mit den Bodentanks, aber der Rest sollte tun.
Mit Herrn Ritter vom RRZE ueber die Inadaequanz von ActiveDirectory+Samba+Support gesprochen.
Er haelt das weiter fuer sinnvoll und bietet jede Hilfe an. An unserem
Setup bemaengelt er, dass wir nicht die vom RRZE vorgegebenen uidNumbers benutzen.
Er raeumt aber auch ein, dass die nicht vernuenftig genutzt werden koennen, wenn
man Kollisionen mit uids eigener Mitarbeiter verhindern will, weil das RRZE
weder ein Minimum noch ein Maximum gesetzt hat, unter/ueber denen man selbst
uids vergeben kann. Er verspricht uns eine LDAP/AD Group fuer Natfak Studenten.
Mit Studenten aus dem Programmierkurs den CIP Pool getestet, kaum jemand konnte
sich einloggen, weil auf vielen Maschinen kein winbindd lief (obwohl das als Service
im Puppet steht) und weil viele Maschinen noch kein erfolgreiches join hatten.
Und das hat auch einen Grund! Weil ich sie naemlich nicht im puppetmaster
signiert hatte! Weil naemlich das autosign nicht zuverlaessig funktioniert.
Auf allen cip-54-*, die pingbar waren, getestet, obs in den AD ge"join"t sind,
und ob sie vermittels des AD Benutzernamen zu UIDs aufloesen koenne. Tut!!!!
Auf nexenta alle userhomes, die einen stud/cip/sam Account haben, auf ihre uidNumber
auf dem neuen CIP Pool umgestellt. Um die zu finden, auf einer CIP Pool Kiste
alle Namen aus unseren passwds im AD mit wbinfo -i gesucht, und die uidNumber
daher neben der alten und dem usernamen gespeichert. Liegt auf nextwo unter
/root/old2newid
nebst den Skripten mit denen ich auf Korrektheit der alte uid getestet habe
/root/checkuids
und dem Skript, das die HOMEs ge-chown-t hat
/root/tranformuids
[/bauerm]
permanent link
Mehr als fuenf Stunden am RRZE damit verbracht, rauszufinden,
dass Authentisieren gegen die dortigen ActiveDirectory Server
so richtig gar nicht funktioniert. Hab mit Herrn Michel vom
Windowsteam ewig danach gesucht, warum das auf cip-54-81
funktioniert hat, und sonst nirgendwo. Die "computer" Objekte
tauchen nach "join"s im LDAP Tree unter "/Computer" auf, nicht etwa unter
"/FAU/FAK/MPMA/MPMA_Computers". Nachdem wir die geloescht, neu
angelegt etc. hatten, schien es einleuchtend, das Problem
auf der Client Seite zu suchen, und ich bin weiter zu Frau Loehlein
vom Linux-Team. Wir habe zusammen mehrere Stunden lang versucht,
rauszukriegen, warum cip-54-81 erfolgreich user authentisieren kann,
und der Rest (exemplarisch cip-54-79) nicht. Ergebnisse:
- Die Clients koennen immer die Liste aller User zugreifen.
(wbinfo -u)
- Die Clients koennen aber keine uid/gids daraus erzeugen
(wbinfo -i username schlaegt fehl). In den winbindd logs
sieht man da NT_STATUS_NONE_MAPPED
- Wenn man die Konfig von dem E-Techniker CIP Pool nimmt,
wo angeblich alles so toll geht (im wesentlichen idmap_ad statt idmap_rid),
dann funktionierts auch nicht.
- samba/winbind legen Cache-Files (*.tdb) in folgenden Verzeichnissen
an :
- /var/lib/samba
- /var/cache/samba
- /var/run/samba
Gefundene username->SID->uid mappings liegen nicht in /var/cache/samba,
sondern /var/run/samba, und das /var/run/samba wird nach reboots nicht
gesaeubert. Kwalitaet, wohin man blickt.
Paketinhalt unter ubuntu anzeigen:
dpkg-query -L $packetname
Nochn Samba Trick :
net ads search '(&(uidNumber=*)(sAMAccountName=$uid))' \
objectCategory sAMAccountName uidNumber gidNumber -P
liefert auch dann uidNumber, wenn 'wbinfo -i $uid' nicht geht.
Eine Quelle zu einem smb.conf gefunden, dass aus unerklaerlichen Gruenden
(erstmal auf cip-54-80) funktioniert:
http://us.generation-nt.com/answer/samba-samba-3-5-5-id-map-issues-active-directory-help-200502771.html
Das smb.conf liegt sicherheitshalber gespiegelt hier:
http://pestilenz.org/~bauerm/smb.conf
[/bauerm]
permanent link
Verdammter *&^*$% Das Authentisieren gegen AD funktioniert auf einer
Maschine (cip-54-81) aber nicht auf anderen (cip-54-80 und cip-54-79).
Die /etc Verzeichnisse verglichen. Sind exakt gleich (bis auf Hostkeys
und die Reihenfolge der User in passwd/shadow/group). Keine Ahnung
warum!!!
getent passwd liefert auf keinem der Systeme alle user, wbinfo -u
tuts aber. Auf cip-54-81, wo login geht, kann
wbinfo -i username
eine pseudo-passwd zeile generieren, auf cip-54-80 nicht.
Das AD kenn 162 unserer Nutzer nicht. Wenn die einen Account haben
sollen, muessen wir sie noch extern fuehren.
Damit die staff-Leute ihre HOMEs im Cippool sehen koennen, muss man
auf Nexenta Seite auch "anonymous" Leserechte auf world-readable
Dirs geben. Geht in NMC innerhalb der "share" funktion
[/bauerm]
permanent link
Der massen-install im einen CIP/Praktikums Raum hat funktioniert, die Maschinen
sind oben und im puppet. Leider funktioniert das auto-join zum AD nicht,
weil das passwd(?) irgendwie nicht tut.
Problem mit dem default winbind-setup mit idmap_tdb ist, dass jeder user, nach
jedem Reboot, auf jeder Maschine eine andere uid kriegt. Das ist fuer unser
NFS setup fatal. Wir koennten (nach ruecksprache mit dem Windowsteam) das
idmap_ad nehmen, dann werden die uidNumbers aus dem LDAP hinter dem AD
gezogen. Erstmal hab ich zum Testen idmap_rid genommen, da wird aus einer
AD globalen Nummer des Users seine uid generiert. Naechster Schritt waere jetzt
die uids aller Studenten mit mi Account auf ihre so generierten uids umzunummiereren
und dann auch ihre HOMEs passend zu chownen.
Zellners Wunsch-Laptop als Vorlage fuer eine Bestellung von vier Stueck
genommen (Dell Precision M4600 + bessere CPU + viel RAM + SSD + ext. Platte),
bleibt mit den Kosten unter unserem Antrag, sollte also OK sein.
20 S/W Drucker bestellt (Lexmax X464de), sollte fuer die erste Zeit hoffentlich
reichen.
Die Arbeitsplatz PCs werden zwischen 7. 11 und 10. 11 kommen, ich versuch noch
bei Frasch zu beschleunigen.
[/bauerm]
permanent link
Der Aufbau der 110 PCs (und Monitore) im Neubau hat extrem gut und schnell geklappt, dank
einem motivierten und faehigem Team aus extra dafuer angeworbenen Hilfskaefte und
unseren tapferen Mitarbeitern der RJE Station. Die einzigen Probleme, die aufgetaucht
sind, hatten ihre Gruende ganz woanders:
- in Raum 0.325 sind in den zwei hinteren Reihen in den Bodentanks nur einzelne
Etherdosen, d.h. wir haben fuer zehn Rechner sechs Datendosen. Muss
nachgebessert werden.
- in Raum 0.327 ist in der letzten Reihe in zwei Bodentanks nur eine einzelne
Etherdose, d.h. wir haben fuer fuenf Rechner nur vier Datendosen.
- in Raum 0.030 ist die automatische Schliessanlage eine automatische Oeffnungsanlage,
man kann mit einem Schluessel nicht schliessen, weil der Motor der Schliessanlage
den Riegel automatisch wieder aufschiebt. D.h. der Schliessdienst musste da
ausharren, bis die Haustechnik kam. Keine Ahnung, wie das geendet hat.
- In Raum 0.326 kann man die Tuer nur mit einer Kombination aus Schluessel und
Chipkarte oeffnen, was den Betrieb im Semester ueber Gebuehr erschwert.
- Die Uni-internen IP Adressen, die wir vom RRZE bekommen haben, lassen sich
zwar zum Neubau Netz routen, aber nicht aus dem Uni-Netz hinaus (kein NAT).
Das wird den Betrieb ebenfalls erschweren...
- In Raum 0.030 sind einige Bodentanks zu weit von den PCs weg, als dass man
mit den mitgelieferten Stromkabeln anschliessen koennte.
- In Raum 0.325 und 0.327 sind Dozententische vorhanden, auf dem Bemoebelungsplan
sind die mit Rechnern ausgestattet. Dann sinds aber keine 25 PC pro Raum mehr,
sondern 26, und damit haben wir 2 zu wenig angeschafft.
[/bauerm]
permanent link
Der Beamer in Hoersaal 12 will nicht mit meinem Laptop reden, musste
die Vorlesung vom Laptop eines Studenten halten.
Zuordnung Seriennummer -> Standort fuer die PCs morgen verfertigt und ausgedruckt.
Die iMacs sind angekommen, dummerweise in der Cauerstrasse. Netterweise hat
Frau Rentsch von der Informatikgeschaeftsstelle sie fuer uns entgegengenommen.
Duzaars Laptop funktioniert nicht (nichts ist anklickbar), aber wenn er hier
im Keller steht, funktioniert er. Mystisch...
iMacs mit Privatauto aus dem Sueden geholt. Setup von einer TimeMaschine von Frau
Brunings iMac ging nicht glatt..
[/bauerm]
permanent link
Laut Prechtel und Fuchs koennen wir am Freitag CIPPool und Praktikumsraeume
vollstellen.
Dienstbesprechung: wir sind einigermassen abgedeckt, aber an zwei Standorten
gleichzeitig wird nicht klappen.
Mit dem DHCP und DNS Admin die Maschinen im CIP registriert, Eintagung im
AD beantragt.
Rausgekriegt, warum die Leute sich nicht mehr auf neubau-102 einloggen konnten:
bei irgendeiner puppet Aenderung wurde das pam_unix2 durch pam_unix ersetzt,
letzters kann kein Blowfish Hashing (Shadow-Passwd mit $2a$...), die Passwoerter
waren aber zum Teil noch mit Blowfish verhasht. Latuernich gibts da keine
Logeintraege dazu **&$^*&$* Durch MD5 ersetzt, neuen Passwds gesetzt.
Rsync der HOMEs von ziusudra auf nexenta.
User nach staff/stud eingeteilt. HOMEs entsprechend umgesetzt.
Frau Oder vom RRZE brauchte zwei Adressen fuer Praesentations PCs in den
Hoersaelen, haben ihr 131.188.103.12 und 131.188.103.13 gegeben.
[/bauerm]
permanent link
Frau Forkel benutzt den PC, um ein "Visual Basic" Programm zur Diplomlerverwaltung
laufen zu lassen. D.h. der Ersatz im Neubau braucht MS Office. D.h. iMac
Ubuntu ist so eine Froide. Es gibt
libnss-ldap
libnss-ldapd
libpam-ldap
libpam-ldapd
nss-pam-ldap
was ist was? Die HOWTOs erzaehlen was von /etc/nss-ldap.conf (oder gar
/etc/nss-ldapd.conf), dazu gibts aber keine Manpage.
Wenn man im LDAP+Kerberos Setup libnss-ldapd (und das "d" am Ende ist kritisch!)
installiert und eine /etc/nslcd.conf mit
uid nslcd
gid nslcd
uri ldap://authserver.mi.uni-erlangen.de/
base ou=users,dc=mi,dc=uni-erlangen,dc=de
scope sub
hat, scheint wenigstens "getent passwd" zu gehen...
Alle (?) User im LDAP mit dem Skript authserver:/home/sam/bin/fixhomes.sh
auf ihre respektiven HOMEs in /home/{stud,staff} umgeschrieben.
Fehlende User aus YP ins LDAP gezogen. Passwoerter sind autogeneriert.
Unsere UIDs auf dem alten System sind nach keinerlei Ordnung vergeben.
Das machts schwierig, sie mit den UIDs aus dem winbind zu verheiraten.
Eventuell muessen wir die komplett umnummerieren. So ein Dreck!
Gegencheck auf neubau-103 (mailserver): User, die im ldap+kerberos sind,
koennen sich auf roundcube einloggen. Fein!
[/bauerm]
permanent link
Neubau sieht noch schlecht aus, was Netz angeht. Der Serverraum im Keller ist
wohl noch nicht fertig verkabelt.
Frasch hat die Strom- und Netzkabel fuer die CIP Raeume geliefert.
Frau Kulzer kriegt eine Windows Maschine, die ihr der Herr Rathmann konfiguriert.
Die Kiste selber bestellen wir.
Herr Kimpan vom IZI meint, dass man am Forkelschen VPN Client einfach die
IP aufs Neubaunetz aendert, dann sollte alles weitergehen. Wegen dem USB<->Drucker
Setup meint er, am einfachsten waer ein Drucker mit routebarer IP, so dass
der Terminal Server dort drucken kann (ACLs?).
Es stellt sich heraus, dass der PC unter Frau Forkels Schreibtisch wohl doch
vom Haus angeschafft wurde (InvNr 885.1). Keine Ahnung wie wir den ersetzen sollen.
[/bauerm]
permanent link
Nach sorgfaeltigem Auszaehlen und Ruecksprache mit Prechtel 60 PCs und
drei iMacs fuer den Neubau bestellt, ich hoffe das kommt alles
frueh genug an.
Nach viel verzeifeltem Rumprobieren und Fehlschlaegen mit dem pam_winbind
und net ads join mit Sebastian Schmitt vom RRZE nochmal durchgegangen.
Es entsteht der Eindruck, dass man mit ldapmodify zwar computerObjects
im AD anlegen kann, das aber nicht ausreicht, um dann die Maschinen
in den Domain zu "joinen". Nachdem dann Schmitt eine neubau-99 im
AD angelegt hat, hab ich die neubau-105 als neubau-99 neu installiert
(was nicht ganz so einfach war, weil die Umbennenung von dickerserver
in neubau-103 unser puppet setup fuer die Maschine unzutreffend gemacht hat).
Danach ging der join (nur ein DNS update fehler kam, der wurscht ist).
Ein
sudo net ads testjoin
liefert OK, aber leider ging ein "ssh -l $meintestuser localhost" nicht.
Stellt sich raus, dass ein Reboot noetig ist (son mist). Eventuell
ging das mit meinem LDAP Gefrickel auch schon, bin nur nicht draufgekommen,
dass man da rebooten muss.
Mal ueberlegen wie man das fuer die Auto-Installation hinkriegt, das
net ads join fragt nach einem Admin password. Wenn wir das ins Puppet
schreiben, hat das eine gewisse, aeh, Offenheit...
Fuchs vom RRZE kennt die Baustelle: Vor Dienstag kann man nix uebers Netz sagen.
Hab den Helfern und Hiwis deswegen eine Mail geschrieben, dass vor Mittwoch
nix mit Aufbauen wird. Laut Fuchs ist in den Serverraeumen im Keller nichts
gemacht worden.
Vor Mittwoch ist auch kein Hiwi beruflich im Neubau.
Wigand hat die meisten fehlenden Mitarbeiter mit Std-Homepages versehen. Er meint,
dass von den Stochastikern nicht viel da ist und die Studiums-Seiten abgeglichen
werden muessten.
Den sehr wichtigen Herren von der Videouebertragung geholfen, Netz im Kleinen Hoersaal
zu kriegen. Die 131.188.103.206 war leider doch belegt, wir haben dann die
.98
genommen.
Zellner wuenscht sich ein Windows Laptop auf das er selber aufpasst.
Von Meusburger und Company wird erst naechste Woche eine Bestellung zu Tablets abgeben.
[/bauerm]
permanent link
Frasch hat am Mittwoch geliefert, hab heut frueh die Kisten im Keller vom
Neubau gezaehlt, sind 110. Bei Frasch Empfang bestaetigt.
KMail "folder" lassen sich nur mit extremem Aufwand von Thunderbird lesen.
Verbindung von KMail zu IMAP server vom Kellerschen Laptop erzeugt tausende
von Fehlermeldungen, weil der KMail den Imap Server anweist, das komplette
Home zu exportieren. Weil er nach ca 1024 offenen Fehlerfensterchen keine
Filedescriptors mehr kriegt, friert er dann ein. Liegt wohl daran, dass unser
Uralter IMAP daemon ihm einfach alle files im HOME als "folder" anbietet,
und er die dann auslesen will.
Mailserverumstellung tut not!
Um Mailfolder im Maildir Format (z.b. KMail) in Mbox Format (z.B. Thunderbird) zu
wandeln, kann man folgendes Skript als Anfang nehmen:
for i in $pattternfuerallefolder; do
if [ -d $i/cur ]; then
for f in $i/new/*; do
formail -I Status: < "$f" >> /tmp/"$i"
done
fi
if [ -d $i/cur ]; then
for f in $i/cur/*; do
formail -a "Status: RO" < "$f" >> /tmp/"$i"
done
fi
done
formail ist auf Ubuntu im Package procmail
[/bauerm]
permanent link
HomePage des Instituts mit den Daten von RJJ abgeglichen, damit die Studis hinfinden.
AD join Problem persistiert:
Failed to join domain: failed to set machine spn: Constraint violation
Mit dem Vorstand Bismarckstrasse Umzug und Adminstelle besprochen.
Die Hiwis fuer den Umzug koennen naechste Woche zu verschiedenen Zeiten. Offen
bleibt die Frage, wer denen aufsperrt und nach dem Aufbauen wieder zu.
Ein Team vom RRZE uebertraegt eine Vorlesung von der Chemie in den kleinen
Hoersaal. Dazu brauchen sie IP Adressen und Netzzugang. Provisorisch
die 103.{206,127} dafuer reserviert.
Herr Stummer hat ein Problem mit dem Solaris Thunderbird, der ab 2 GB Mailboxgroesse
aussteigt und Unfug in seine .msf Files schreibt. Nach einigen Reparaturversuchen
hat die Mailbox jetzt immer noch 2.1Gb, Thunderbird zeigt aber nur ein paar Mails
an.
Raumbelegungsliste durchgegangen und geprueft, welche Arbeitsplaetze schon
Hardware haben, welche neuen brauchen, etc. Summiert sich auf ca. 25 PCs und
eine Handvoll Laptops. Morgen mal bestellen.
Herrn Kellers Laptop ist verstorben. Untersucht, Ergebnis: Platte kaputt.
Nach Tausch Ubuntu 11 installiert und versucht, die Mails/Adressen/etc
zu uebernehmen.
[/bauerm]
permanent link
Beim winbind fehlt natuerlich das "net ads join -U muos00ikys".
und das scheitert erstmal daran, dass der AD den neuen Rechner gar nicht
kennt. Dem kann man abhelfen mit einem LDIF:
dn: CN=$rechnername,OU=MPMA_COMPUTERS,OU=MPMA,OU=FAK,OU=FAU,DC=uni-erlangen,DC=de
changetype: add
cn: $rechnername
objectClass: computer
dNSHostName: $rechnername.mi.uni-erlangen.de
sAMAccountName: $rechnername
userAccountControl: 4096
Das kann man dann mit
ldapmodify -xW -D "cn=$einrootuser,ou=Admin,ou=FAU,dc=uni-erlangen,dc=de" -H ldap://faudc1.uni-erlangen.de/ -f das.ldif
per LDAP auf den AD schreiben. Dann existiert der Rechner
dort und sollte ein "net ads join" machen koennen. Letzteres
tut nicht:
Failed to join domain: failed to join domain 'UNI-ERLANGEN.DE' over rpc: NT_STATUS_QUOTA_EXCEEDED
Frau Kugler kontaktiert, sie schaut mal, was da schiefgeht.
Herr Knabner bemerkt voellig korrekt, dass die Web Startseiten nix ueber den
Umzug und die neue Adresse sagen. Rathmann, Jorres und Jahn kuemmern
sich drum.
Mit dem Schliessdienst und Frasch ausgemacht, dass Mittwoch geliefert werden kann,
und die Kisten in einem versperrten Raum landen.
[/bauerm]
permanent link
Das Bauamt hat noch keine Schliessanlage im Neubau. Das heisst, wir
koennen nichts reinstellen => Lieferung der 110 PCs muss verzoegert
werden => Praktikumsraeume werden vermutlich nicht fuer naechste
Woche fertig.
Die 10 PCs fuer die Bismarckstrasse sind da und werden jetzt an
den dringensten Stellen eingesetzt. Nochmal ein guter Test fuer
den Autoinstaller.
R-Packete fuer Ch. Richards Kurs nachinstalliert. Tut jetzt wohl.
hippolyte-Ersatz und zwei nemo Terminals durch PCs ersetzt.
Tobias hat Duzaars MacBook neu installiert und die Diffs zum
Ersatzlaptop noch mit draufgezogen.
Das /etc/network/interfaces machte etwas Probleme, wir erzeugens
jetzt aus einem Template, das die "facter" interfaces liest.
Diverse Schritte Richtung Umzug begonnen:
- Abloese der Konfigs, die /var/mail von der helena hatten
- Setup mit Studentenhomes von Nexenta (tut auf neubau-102,
aber leider nimmt er die falschen Default Homes)
- Einfuehrung MacOs X fuer Frau Humbach
- Durchzaehlen unserer Arbeitsplaetze im Neubau, um die
Anzahl neu zu beschaffender Maschinen zu schaetzen.
Nikos kann sich nicht auf roundup einloggen. Sehr strange.
Winbind setup auf neubau-102 verbessert und getestet, dazu
- mit
wbinfo -i os00ikys
erstmal getestet, was als HOME angegben wird
- smb.conf geaendert, dass /home/stud/$username benutzt wird
- winbind neu gestartet
- ssh -l os00ikys localhost auf neubau-102
=> tut, aber das home existiert nicht (stimmt ja auch)
- /etc/pam.d/common-session mit pam_mkhomedir erweitert
(nach einem Fehlversuch mit der mkhomedir option von
pam_winbind)
- Funktioniert!
- in Puppet modules/winbind konserviert
[/bauerm]
permanent link
UPDATE: das NFS von grad eben funktioniert auch nicht. So ein Dreck.
/volumes/coraid01/homes/staff wurde nicht mehr an 131.188.103.0/24 exportiert,
dadurch gabs kein ~bauerm/Mail/spam, dadurch ist unser spam-sortier
skript gestorben, deswegen wurde fuer bauerm und michelis keine Mail
mehr ausgeliefert. Diese widerlichen hardgecodeten Abhaengigkeiten
hier ueberall...
Neuer Ansatz: export nach .mi.uni-erlangen.de, mal schaun wie das tut...
In ferner Zukunft, wenn Schweine fliegen, koennen wir auch kerberos
als Authentisierungsverfahren angeben und mounts von ueberall erlauben.
Nikos und Patrick haben den imac von Frau Bruning auf Platte gezogen,
damit wir das als Installbasis fuer weitere nehmen koennen.
[/bauerm]
permanent link
NFS Freigabe ueber IP Adressen geht auf Nexenta mit "share folder $foldername" nur ueber
"Extra Options": rw=@11.22.33.0/24:@44.55.66.0/23
Der Trenner zwischen Optionen ist Komma, zwischen Netzen Doppelpunkt.
Testweise mal in yp auto.home und per puppet den Server fuer /usr/home/app
auf die nexentakiste gebogen...
[/bauerm]
permanent link
Stromabschaltung: hier im Keller fielen genau zwei Deckenlampen, eine
Steckdose und beide Klimaanlagen aus. Letzteres ist ein dummes Problem,
weil hier halt nahezu 1000 Watt heizen...
Agamemnon ist wieder haengengeblieben...
Umzug HOMEs: Hatte dummerweise vergessen, dass rsync auch alle .zfs/snapshots
_als kopie_ mit rueber zieht. Also nochmal.
Ziusudra die 131.188.54.25 im Gigabit Neubaunetz gegeben.
Im rsyncd.conf alle .zfs subdirs raus.
Sync lief auf nahezu maximalem Durchsatz eines Gigabit Kabels, aber
der Fileserver hat sich nur gelangweilt.
Erste Versuche mit dem neuen Fileserver: von Solaris aus tuts nicht,
weil der die
-o vers=3
option braucht. Das steht zwar in auto.master, wird aber scheinz ignoriert.
Auf den PCs im Neubau keine automounter maps mehr, weil da nur zwei/drei
mounts sein werden.
Problem: Wenn wir die Studenten-HOMEs nach /home/stud umziehen und Authentisierung
ueber winbind gegens RRZE machen, dann muessen wir die UIDs ans RRZE anpassen.
Das muss atomar passieren. Koennte man mit einem
ldapsearch | kleinesskript
machen, das die uid->uidnumber map erstellt, und dann als ldapmodify.ldif
ablegt (LDAP ist soooo krank). Und die Homes der User sollten auf
/home/{staff,stud}
gebracht werden..
Korollar: wir koennen den alten CIP Pool nur betreiben, wenn wir die UIDs der
Studenten auf das Umstellen, was im AD vom RRZE steht.
Alle User im LDAP (XXX da fehlen noch die Vertretungsprofs) ins Kerberos gezogen,
mit neuen Passwoertern. Liste ist in ~/ldap+kerberos/accounts.
[/bauerm]
permanent link
Herr Neher hat Probleme mit Windows, Netzwerk setup. Abgesehen davon,
dass alle Dialog an der falschen Stelle sind und vollkommen verwirrend,
kann man fuer die "TCP/IPv4" Einstellungen eine "Alternative Konfig"
eintragen, die wird aber ignoriert. D.h. er muss die Settings fuer
sein Netz daheim und das Netz hier immer per Hand eintippern. Das
kommt davon, wenn man keine Konfigfiles hat...
Umzug der Homes von ziusudra auf den neuen Fileserver begonnen. Idee
ist, Mitarbeiter und Studenten in zwei getrennten ZFSen zu halten (NexentaStore
packt nicht mehr als ein paar hundert zfs.)
rsync config fuer den transfer aller homes von ziusudra auf nexentastore
geschrieben, zusammen mit einem kleinen skript, dass rsync als daemon
startet.
rsync pull auf nexentastore gestartet, kann ein bisschen dauern..
[/bauerm]
permanent link
Auf NexentaStor den CoRAID Treiber auf neuen Stand gebracht.
Problem dabei:
# zpool export coraid01
cannot export 'coraid01': pool is busy
Auf coraid01 ist ein Dataset drauf, das als iscsi-target exportiert wird.
Das muss man wohl aus den iscsi targets entfernen. Aber wie?
# apropos iscsi
iscsi (7d) - iSCSI software initiator driver and service
iscsiadm (1m) - enable management of iSCSI initiators
iscsitadm (1m) - administer iSCSI targets
iscsitgtd (1m) - iSCSI Target daemon
iser (7d) - iSCSI Extensions for Remote DMA driver
it_config_load (3iscsit) - set and retrieve configuration data for the iSCSI Target Port Provider
it_ini_create (3iscsit) - create, modify and delete iSCSI Initiator Contexts
it_portal_create (3iscsit) - create and delete iSCSI portals
it_tgt_create (3iscsit) - create, modify and delete iSCSI Targets
it_tpg_create (3iscsit) - create and delete iSCSI target portal groups
itadm (1m) - administer iSCSI targets
libiscsit (3lib) - iSCSI Management library
stmfDevidFromIscsiName (3stmf) - convert an iSCSI name to a stmfDevid structure
Hab iscsitadm und itadm ausprobiert, mit letzterem kann man sogar targets entfernen,
das hilft aber nix, zpool export geht weiter nicht. Das Kommando, mit dem man isicsi
Targets verwaltet, heisst naemlich
stmfadm
(logisch). Und man entfernt auch noch den LUN des targets:
# stmfadm list-lu
...
# stmfadm delete-lu 600144F0B46F0A0000004E42FF2E0001
Das Coraid01 war grad an nextwo, also hab ich das ganze zuerst auf nexone
gemacht, und nach dem export auf nextwo war das ZFS auf nexone und wird
dort exportiert. Fein.
Den Lightning Kalender fuer Thunderbird installiert, momentan noch ohne
das Exchange Plugin.
CUPS Fortschritte: Der wesentliche Stolperstein fuer den Test unseres
"Drucken fuer Mitarbeiter" Setups war ein Routingproblem (eventuell ein
Bug in den Lexmarks). Das Setup scheint zu funktionieren. Hinterhaeltiges
Detail: in einem Menu gibts den Punkt "Hex Trace einschalten", es gibt
aber keinen Punkt zum Ausschalten. Langwierige Suche in der Dokumentation
enthuellt, dass man zum Ausschalten dieses Debugging-Features den Drucker
kalt-starten muss *stirnklatsch*
[/bauerm]
permanent link
CUPS fuer den Neubau scheitert an einer Permission denied
aus dem pykota. Tobias forscht.
Kassandra ist verstorben. Haben Charybdis als Ersatz hingestellt, bis
neue PCs kommen.
[/bauerm]
permanent link
Postfix kann Empfaengernamen aus dem ldap ziehen.
Andre Erhardt mit Typo3 Problemen geholfen. Es gibt nur noch englische
Real-URLs, weswegen die deutschen URLs im Univis (oder anderswo) nicht
mehr gingen, der Analysis-Subtree ist umgehaengt worden. Wieder
zurueckbewegt.
Das Versioning in Typo3 funktioniert nur ueber Konvention, nicht ueber
Technik. D.h. wir muessen den maechtigeren Webschraubern ein Ritual
entwerfen, so dass ihre Aenderungen versioniert, dokumentiert und
kommuniziert werden, sonst kriegen wir dauernd solche Probleme.
Frage: Muss man fuer jeden Host, der Kerberos Auth fuer die User machen
soll, einen keytab entry erzeugen? Falls ja, wird das mit dem
Autoinstall nicht so einfach....
Ewig mit pam_krb5 gehadert, inzwischen zigfach die keytabs ausgetauscht.
Der Error ist:
131.188.54.106: PREAUTH_FAILED: tobias@MI.UNI-ERLANGEN.DE for krbtgt/MI.UNI-ERLANGEN.DE@MI.UNI-ERLANGEN.DE, Decrypt integrity check fail
Soll angeblich auf asynchrone /etc/krb5.keytabs auf host (.106) und authserver
hinweisen. Hab deswegen den .106 komplett aus dem kerberos entfernt und
neu erzeugt:
# kadmin.local -x binddn=cn=admin,dc=mi,dc=uni-erlangen,dc=de -x host=ldapi:/// -r MI.UNI-ERLANGEN.DE
> ktrem -k /etc/krb5.keytab host/neubau-106.mi.uni-erlangen.de
> delete_principal host/neubau-106.mi.uni-erlangen.de
> add_principal -randkey host/neubau-106.mi.uni-erlangen.de
> xst -k /etc/krb5.keytab host/neubau-106.mi.uni-erlangen.de
> xst -k /tmp/krb5.keytab host/neubau-106.mi.uni-erlangen.de
# scp /tmp/krb5.keytab neubau-106:/tmp/
neubau-106 % sudo cp /tmp/krb5.keytab /etc/.
Ueberpruefen der keys auf beiden Maschinen mit
# ktutil
> rkt /etc/krb5.keytab
> l -e -k -t
und dann per auge/cmp vergleichen.
Hilft aber nix.
[/bauerm]
permanent link
Auf dickerserver
- die postfix Doku installiert
- versucht, die local_recipient_maps auf passwd, aliases, und
eine ldap-query zu setzen.
Autoinstall auf neubau-106
- vor dem re-install die platte mit dd if=/dev/urandom of=/dev/sda
uerebuegelt, um sicherzustellen, dass da kein byte von der install
vorher uebrig bleibt.
- das puppet-autosign funktioniert wohl
- das kerberos+ldap setup funktionierte nicht
Tobias hat im addsoft-Modul den guten alten
variablen-werden-in-Klassen-mit-$-angefuehrt-Fehler
gefunden und repariert.
cups-pykota wie von Ubuntu ausgeliefert ist kaputt.
postgresql wie von Ubuntu ausgeliefert ist kaputt.
Auf Nexenta ausprobiert, ob nfs shares ueber nfsv3 funktionieren.
Tut auf Solaris
[/bauerm]
permanent link
patroklos war auch tot, mittels cd-boot+patchrm wiederbelebt
Serverschraenke bestellt, damit das mal vorwaerts geht.
roundup nimmt jetzt mails entgegen und versteht die zusammenhaenge
von MessId und In-Reply-To, was alles einfacher macht.
Dovecot laesst jetzt auch User aus der LDAP/Kerberos DB Mails
lesen, das wird so langsam einsatzreif.
Alle User aus der alten NIS-passwd mit migrationtool auf
LDAP gezogen.
Kerberos Accounts fuer einige mit einem Skript autogeneriert.
Das seltsame ist, dass Kerberos LDAP als DB benutzen sollte,
ldapsearch auf dem kompletten Tree zeigt aber nur ein paar
(alte) Kerberos Principals.
[/bauerm]
permanent link
Der Tod von dido, hippolyte, ischtar und nestor wurde von Oracle
(und dem RRZE) ausgeloest, mit dem Patch
http://wesunsolve.net/readme/id/147440-02
Das loest im OpenBootProm Panik aus, waehrend der Patch laeuft,
Abhilfe danach ist ein Patch der Firmware. Firmware Patches fuer
die einzelnen Modelle finden sich auf
http://www.oracle.com/technetwork/systems/patches/firmware/index.html
Was hier auffaellt, ist
DASS DA GAR KEINE SUNBLADE 1500 GELISTET IST.
D.h. nur mit boot-cd -> shell, lokale platte mounten mit
mount /dev/dsk/c0t0d0s0 /mnt
und mit
/usr/lib/patch/patchrm -R /mnt 147440-02
den patch entfernen.
[/bauerm]
permanent link
Am 7.10 kommen neue PCs, die ich in der Bismarckstrasse aufbaun
will. ALSO sterben beginnend 24. September die SunBlades hier
im Haus ^%$&^#*!
Verstorben sind:
- dido
- hippolye
- ischtar
- nestor
Haben mit neuen und ehemaligen CIP Maschinen ersetzt, und einem
neuen Mitarbeiter eine Nemo SunRay hingestellt.
Das Winbind Setup tut jetzt, ist in einem Puppet Modul eingefroren.
Was noch fehlt, ist die moeglichkeit fuer pam_mkhomedir auf
dem Fileserver automatisch HOMEs anzulegen. Mal ueberlegen.
[/bauerm]
permanent link
Puppetca macht jetzt autosign, sollte beim Autoinstall von 110 PCs
nuetzlich sein.
Mit Frau Kugler geredet, Windowskommandozeilenperle:
runas /netonly /user:AD-DOMAIN\Administrator mmc
wobei Domain und Administrator noch ersetzt werden muessen.
Mit Fuchs vom RRZE geredet, der sagt, die Elektriker verkablen Netz nur
zu festen Panels, d.h. da muss ein Rack sein, lange bevor wir ueberhaupt
Server reinstellen koennen. Er hat einen Hersteller, der 24-Stunden
GarantieLieferungen macht, notfalls von dem die Schraenke bestellen.
Frasch sagt, Rittal Serverschraenke kommen typischerweise innerhalb von
weniger als einer Woche. Auch eine Moeglichkeit.
Gleich auf neubau-102 das mit dem AD ausprobiert. Mit
net -d 1 -U muos00ikys -S faudc1.uni-erlangen.de ads join
liefert er zwar eine Fehlermeldung von wegen constrains, das ist
aber wohl nicht ernstgemeint, ein folgendes
net -d 1 -U muos00ikys -S faudc1.uni-erlangen.de ads status
oder
net -d 1 -U muos00ikys -S faudc1.uni-erlangen.de ads testjoin
berichtet Erfolg. Jetzt muss nur noch das mit dem nss/pam winbind
klappen...
[/bauerm]
permanent link
Installserver: mit der chboot option -B rebooten die
installierten System automatisch, sehr fein.
[/bauerm]
permanent link
Nuetzlicher puppet Aufruf:
puppetd --test --verbose --noop
Zeigt an, was er tun wuerde, aber tuts nicht.
PAM ist der Wahnsinn. Man kann mit options conditional jumps zwischen den
Modulen im Stack machen. Ich glaube, die "Tuerme von Hanoi" muessten
mit Pam loesbar sein.
neubau-103 wieder zum Leben erweckt. Tests abwarten
Frau Kugler vom Windowsteam leider nicht erreicht.
Mit Prechtel und anderen am Neubau gewesen, das wird nie und nimmer
zeitgerecht fertig.
Mit dem Bauleiter Elektro geredet, der gibt uns fuer die Serverschraenke
zwei unabhaengige Stromkreise, einer davon USV. Dazu muessen die
Schraenke stehen und wir muessen anzeichnen, wo. Und ihm die Steckerleisten
in den Schraenken vorher geben, die werden direkt verdrahtet, um Sicherungen
zu sparen.
[/bauerm]
permanent link
Die Puppetifizierung von Kerberos-Client war nicht ganz so einfach.
Durch ein einfaches "include krbclient" kann sich gar niemand mehr
auf neubau-103 einloggen. Zum Glueck hats Fabian Klingbeil und sein
Team bemerkt.
Die GUI vom Nexenta benutzt komische HTTProxy-ing Features, so dass ich
die mit meinem Firefox nicht benutzten kann :/
[/bauerm]
permanent link
Das NTP Problem auf den neuen Servern scheint sich erledigt zu haben.
Nachts die Usrhomes per zfs send -R mypool/radix/homes@190911 |nc ..
und zfs recv -Fd coraid01/ziusudra auf den Fileserver gezogen.
Die 110 PCs fuer den Pool im Neubau bestellt.
Frasch hat noch einen PC auf Lager, den wir fuer das Testlab haben
koennten.
[/bauerm]
permanent link
In Schulz-Baldes .muttrc war ein
folder=imap://imap...
Das bewirkt, dass der mutt versucht, den imap-server als eine
Art Filesystem zu betrachten, was (bei uns) nicht funktioniert.
Zeile rauskommentieren hats erledigt.
Homepage anlegen:
-1. In www.$fachbereich.math.uni-erlangen.de einloggen.
0. Workspace "LIVE" waehlen
Eintrag in der Adressdatenbank anlegen
Listenansicht->Sysfolder "Dep Math", dort
im passenden Unterbereich den sysfolder waehlen,
z.b.
->AuG->AG Lie-Gruppen
da drin gibts eine Tabelle "Address", da den User eintragen
(man kann auch Bilder hochladen.
0.5. Passenden Workspace waehlen.
1. "shortcut" im entsprechenden staff/people/...-Baum
anlegen, mit dem Namen als Titel, nach der dort sortiert auftauchen soll.
1'. Hidemenu an, Hide aus, bis es fertig ist.
2. da drunter eine "normale Seite" anlegen, mit dem Titel,
den das Opfer wuenscht ("prof. dr. dr. hc. mult. Karl M. I. Schr...)
3. Auf "Page" im linken Menu wechseln, neue Seite anklicken
4. Unter 'Page Content' "Create new element" klickern.
5. Im folgenden Menu unter "Plugins" "Addresses" waehlen
6. Auf das Register "Plugin" waehlen, in "Single Address" den Ordner waehlen.
Ein eigenes Fenster wird geoeffnet, da den Folder "Dep Math" suchen,
und da drin den in Schritt 0 eingetragenen Eintrag waehlen
Ganz unten unter "Startingpoint" die Gruppe waehlen, in der in
Schritt 0 der Eintrag erfolgte.
7. Dialog schliessen und speichern.
Auf "Versioning" im linken Menue wechseln, die Seite in der Liste
waehlen und vom AutorenWorkspace in den LIVE veroeffentlichen
Damit ist der Personeneintrag fertig.
roundup funktioniert. Am Ende wars die Umstellung von
tracker::web=/cgi-bin/roundup.cgi
nach
tracker::web=/cgi-bin/roundup.cgi/problems/
[/bauerm]
permanent link
Mal getestet, ob man mit parameterized classes das kaputte "inherits"
von puppet umgehen kann, tut aber nicht. Die Hoffnung waere gewesen,
dass die Parametervariablen der parameterisierten Klassen im Kontext
des aktuellen nodes ausgewertet werden...
hiera angeschaut
http://www.devco.net/archives/2011/06/06/puppet_backend_for_hiera.php,
das ist aber zu kompliziert fuer uns (mehrere orte, wo die
Daten sein koennen, ...)
Extern Node Classifiers angeschaut,
http://docs.puppetlabs.com/guides/external_nodes.html
das ist eine weitere Kruecke, um
an dem inherits-desaster vorbeizukommen. Da wird der node Eintrag,
der sonst in site.pp waere, als YAML von einem Executable zurueckgegeben.
Fuer grosse Installationen sicher gut. Wenn nur dann gerufen werden
wuerde, wenn der hostname nicht in site.pp ist, dann waers cool fuer
die autoinstallation im Neubau
In puppet >= 2.6 kann man hashes als variablen haben und damit z.b.
in templates oder modulen werte haben, die zwar global definiert
sind, aber pro node verschieden sein koennen. Also das was man moechte.
In unserem Fall mit den $admins kommt dann sowas raus:
ADMINS=<%= adms=admins + (moreadmins[$hostname].nil?&&[])||moreadmins[$hostname] ; adms.join(",") %>
Interessante Details in Puppet:
- Manifeste (wie site.pp, oder die init.pps von Klassen) koennen in Ruby
geschrieben werden. D.h. man kann absolut alles machen
- Node definitions koennen auch Regexpen sein, z.b.
node /lin.*/ {
...
}
TicketTracker Roundup laeuft, son bisschen:
http://webserver-1.mi.uni-erlangen.de/cgi-bin/roundup.cgi
Registration geht, und danach kann man auch was damit tun, aber
was noch nicht tut:
- logins nach einmal ausloggen
- Vernuenftige URL . Apache2 ignoriert alle unsere RewriteRules
- Sprache ist Englisch
[/bauerm]
permanent link
LDAP ALARM: ldapadd will nicht in die db schreiben (vor ein paar Tagen
ging das noch), obwohl der admin user auf alles (*) schreibrechte
hat.
LDAP SOLUTION: wenn man ldapdd mit der "-Y EXTERNAL" option startet,
dann wird die "-D cn=admin,dc=mi...." option einfach ignoriert und
der slapd denkt, man waere
gidNumber=0+uidNumber=0,cn=peercred,cn=external,cn=auth
und der darf nix.
Loesung: "-x " option statt "-Y EXTERNAL".
So ein bullshit.
Kerberos Erkenntnis: Tickets, die fuer Maschinen hinter NAT ausgestellt
werden, funktionieren nicht. Loesung: "addressless tickets", kriegt
man mit "kinit -A".
A Strange and Wonderful World
OpenSSH laesst sich ohne Kerberos/GSSAPI Support kompilieren und ignoriert
dann Tickets und die "GSSAPIAuthentication yes" Option. Wenn mans
mit GSSAPI kompiliert, tuts natuerlich.
Die Nexenta/Basis Leute haben ihre letzten Tests gemacht, so richtig
mit Kabel rupfen, und es scheint alles zu gehen.
Roundup setup gefrickelt. Muss nochmal sauber gemacht werden, am
besten ohne mod_python, ich musste in der source von roundup variablen
auf nicht-defaultwerte initialisieren...
http://131.188.54.24/problems
Das MailGateway funktioniert noch nicht, die Pfade zu dem cgi werden
in meinem Setup verbuchselt
[/bauerm]
permanent link
Wigand ist wieder da. Neues: Man sollte in Typo3 das "DRAFT" Environment
nicht benutzen, da man von da keinen Zugriff auf den "media folder"
(mit bildern, pdfs, etc) hat
Marcel Ritter war da! Erkenntnisse:
- wenn man in slapd.conf die index-liste aendert, muss man
nochmal slapindex laufen lassen
- auf Ubuntu fragt nicht etwa der nscd nach den ldap-Eintraegen
_neinein_ der nslcd fragt danach, und hat ein eigenes Konfigfile
- der Kerberos schreibt bei uns krbPrincipal Objekte, keine
posixAccount Obj wie in der WiMa (fehlender Patch?), also
muss jeder User _nochmal_ in einem posixAccount angelegt werden.
- in pam-configs kann man (fuer pam_unix z.b.) ein try_first_pass
nachstellen, das dann das Passwd aus dem Modul drueber wiederbenutzt
- Auf neubau-102 hats dann mit den WiMa pam.d/common-* configs
und Aenderungen in /etc/nslcd.conf funktioniert, sogar der
Lokale Login!
- slapcat schreibt die komplette datenbank auf stdout,
slapadd liests dann wieder
[/bauerm]
permanent link
*STIRNKLATSCH* die Erlang Packete von Ubuntu sind so kaputtifiziert
dass man nur CouchDB damit kompilieren kann und sonst nicht viel,
insbesondere fehlen alle Header, die man braeuchte um fuer
yaws (webserver in Erlang) Applications zu schreiben. Wie zum
Beispiel den Bluetail Ticket Tracker
Es ist in tausende von packeten zerhackt, die man dann zusammensammeln
darf. Zum Kompilieren von Bluetail fehlt dann immer noch
mnemosyne, eine Erlang library, zu der Ubuntus erlang-mandoc Packet
zwar ein manpage hat, aber keine header...
Nikos und William haben angefangen, an unserer Webpraesenz auf
dem neuen Webserver zu basteln. Arbeitstitel
"Kompetenzcluster Druckerwartung"
Auf der helena wurde nach dem reboot der bacula-fd nicht automatisch
gestartet. Nachgeholt. Backup angestossen. Mail ist auf tape.
[/bauerm]
permanent link
Serverinstall geht jetzt relativ reibungsfrei
Nach Trouble-Ticketing Systemen gesucht die
- Einfach sind
- nicht in PHP geschrieben
- Mails einlesen koennen (unsere Reports sind ja auf
auf problems@mi...)
- mit unauthentisierten Usern umgehen koennen
Eine nette Idee in dem Zusammen hang: User berichtet Problem
und gibt dabei mailaddr an (oder schickt eine mail), als
Antwort kriegt er eine (relativ lange) Tickernummer,
danach kann er sich mit der mailaddr als login und der
Ticketnr als Passwort einloggen.
Das interessanteste solche System scheint Bluetail Ticket Tracker
zu sein, ist in Erlang geschrieben
[/bauerm]
permanent link
Agamemnon: Abhilfe wegen Taperobot: rem_drv sgen; add_drv sgen;
Dummerweise wird auch der storage daemon /sbin/bacula-sd
nicht automatisch gestartet...
Backup auf Tape laeuft wieder
Einen weiteren Server aufgesetzt, er steht im Switchschrank im
Keller, weil wir nach dem Strom-Debakel vor zwei Wochen
nicht riskieren wollen, ihn an das Server-Stromnetz anzuschliessen.
Das soll mal der Webserver werden.
[/bauerm]
permanent link
Das MSA60 Storagearray laeuft! Der Tobias hat rausgekriegt, dass
man die seltsamen Rauf/RunterPfeile auf der Rueckseite druecken
muss, bevor sich das einschalten laesst. Als RAID50 ueber alle
12 Platten konfiguriert, hat jetzt 20TB Platz und vertraegt den
Ausfall von bis zu 2 Platten.
Agamemnon war beim Booten im OpenBoot haengengeblieben. Ein
"boot" ueber die Serielle war ausreichend, ihn wieder zu starten.
Aber beim bootup gibts Gemecker ueber "eof in sgen.conf",
dadurch wird der "generic scsi" driver nicht geladen, und wir
haben keinen Taperoboter.
Der Abnahmetest von Nexenta scheint immer noch zu laufen???
[/bauerm]
permanent link
Der sldapd startet ohne Fehlermeldung, laesst aber den ldaps: port
aus. Auf ldap://.../ will er SASL Authentisierung, obwohl
in der config drinsteht, dass jeder teile des Baum lesen
darf. Deswegen tut das pam_ldap und verwandtes natuerlich
auch nicht. Unsere User liegen in der OrganizionalUnit "Users", in den
Std-Modellen unter "People", vielleicht auch ein Problem.
Gellermann und Ritter@RRZE gemailt
Zwei Stunden lang probiert, dem Typo3 beizubringen, dass unter
http://www.algeo.math.uni-erlangen.de/staff/
das gleiche liegen soll wie unter
http://www.algeo.math.uni-erlangen.de/people/
Ich kriegs nicht hin, obwohl ich lustige "shortcuts"
zu diversen Seiten unter "/Algebra und Geometrie/People/"
kreieren kann. Das haengt scheinbar an dem RealURL plugin,
das aus Pfaden IDs macht, aber an die DB Tables dazu komm
ich nicht ran.
Wenn man dem CORAID Kaefig eine neue Platte gibt, dann ist
die fuer das NexentaOS nicht automatisch sichtbar.
Man muss erst mit einem Tool "cec" dem CORAID Ding sagen, dass
die neue Platte sichtbar gemacht werden soll (man koennte
auch sagen, dass die neue Platte zusammen mit einer weitern
zu einem RAID verbunden werden soll und das ganze dann als
eine Platte sichtbar, etc...)
Das cec Tool war _nicht_ mitgeliefert und ist kein NexentaOS
Package, das man schnell installiern koennte. Ich musste
erst mit "apt-get install build-essentials libpcap-dev"
einen Kompiler und Libs herkriegen.
In der cec Console muss man die Platte x im Shelf y exportieren,
indem man
jbod y.x
tippert
[/bauerm]
permanent link
Hiera fuer puppet installiert
Der Webserver ist wieder oben, aber in einem ganz anderen
Zustand als am Donnerstag. Insbesondere ist die Seite
von Prof Meusburger nicht dort zu finden, wo die Links
hindeuten, die sie fuer ihren Workshop rausgegeben hat.
Sehr aergerlich. Mein Shell-Account auf dem Webserver
geht nicht mehr, konnte also keinen rewrite im Apache-conf
basteln
Kerberos tut nicht wie gewuenscht, wo weil die keytabs
zwischen server und unserem testclient nicht synchron sind...
[/bauerm]
permanent link
Nexenta Testest seit Stunden im Hintergrund, ich hoffe mal erfolgreich.
www.math.uni-erlangen.de ist verstorben. Und natuerlich in dem Moment
wo der einzige, der sich auskennt, im Urlaub ist...
Kerberos+LDAP jetzt
soweit dass:
- addprinc automatisch in LDAP ablegt
- man von ueberall tickets kriegen kann
- ein Skript existiert, das user anlegt (noch ohne HOMEs etc)
aber:
- das mit den keytabs hab ich noch nicht raus, es geht keine
gssapiauth, weil "No valid Key exchange context". Liegt
angeblich daran, dass die hosts nicht-synchrone /etc/krb5.tabs
haben
LDAP ist die Hoelle. Total inkonsistent und zusammengefuddelt.
Erkenntnis: /etc/ldap/ldap.conf (manchmal auch /etc/ldap.conf ???)
ist die Client-Konfig, /etc/ldap/slapd.conf ist die Server-Konfig
Puppet Experten empfehlen, statt Variablen in site.pp, die dann
in Modulen zu frue interpoliert werden, lieber den hiera()
Plugin zu nehmen, mit dem die Variablen erst im richtigen
Kontext ausgewertet werden. Mal schaun
[/bauerm]
permanent link
OpenLDAP ueberlistet, eine basis struktur aufzuschreiben:
sudo ldapadd -vvvvv -W -D "cn=admin,dc=mi,dc=uni-erlangen,dc=de" -c -H ldapi:/// -f ~/ldap+kerberos/structure.ldif.tpl
(das .tpl kommt von WiMa. LDAPDC hab ich auf dc=mi,dc=uni-erlangen,dc=de gesetzt.)
Kerberos5 ist jetzt _theoretisch_ so konfiguriert, dass er seine
Daten in LDAP ablegt, getestet ist das aber nicht.
Nexenta/Basis hat den Test auf morgen verlegt...
Die WebPraesenz hat noch zahlreiche Luecken, u.a das sog. Inhaltsverzeichnis
(sollte weg IMHO) und das "Einrichtungen" (da wollt ich grad die RJE Station
reinhacken)
[/bauerm]
permanent link
Ubuntu/NIS nach Autoinstallation: Nachdem der network-manager de-installiert
ist, scheinz jetzt zu gehen.
Der erste HP DL585 Server tut jetzt! Die Eintragung im dhcpdd conf
auf dickerserver war verloren gegangen (???). Unser puppet-Skript
hat leider den Herrn Fried nicht automatisch in die Admingruppe
geworfen...
Doku zu Kerberos+OpenLDAP
http://www.danbishop.org/2011/05/01/ubuntu-11-04-sbs-small-business-server-setup-part-3-openldap/
http://www.itp.uzh.ch/~dpotter/howto/kerberos
[/bauerm]
permanent link
Herr Gellermann vom Wima hat mir deren OpenLDPA+Kerberos Setup
geschickt. Das bau ich jetzt auf authserver nach.
MacOS X laesst sich nur mit viel Gefummel in NIS Strukturen bringen,
Stichwort "lookupd"
Das SunOS vacation ding geht nicht mehr.
1. heisst das Antworttemplate nicht $HOME/.vacation.msg (wies
in der Manpage steht), sondern $HOME/.vacation
2. wird es nicht gefunden "no such file or directory", obwohl
es existiert und die richtigen Rechte hat.
[/bauerm]
permanent link
Basis fuer Remote-Unterstuetzung gelegt, ein Skript
/usr/bin/diagnose startet einen x11vnc, der nur auf localhost
lauscht, und ein Skript
/usr/sbin/remote-diagnose, das dann mit ssh-tunnel von dort herleitet
und vncviewer startet.
Dropbox Tools auf linux eingebaut.
Wigand hat das Typo3 print-cal.css so repariert, dass die Links
gedruckt werden. Leider funktionieren dafuer jetzt HTML Tabellen in
manchen Seiten nicht mehr.
Duzaars neues Laptop statt dem alten im DHCP eingetragen, er kann
wieder drucken
Boeglein war auf dem CUPS Server unbekannt und konnte nicht drucken..
Das Autoinstallierte Linux kann keine User authentisieren, weil er
ypbind _vor_ dhclient startet *stirnklatsch*
[/bauerm]
permanent link
Rausgefunden, woran der FAIL des Tests gestern lag. Die hatten beim
zweiten Head ihre Netzwerkkonfig nicht an unser Netz angepasst, deswegen konnte
man nicht auf die Maschine und nix wurde geroutet, und er konnte
sich nicht per NTP synchronisieren. Mal schaun obs jetzt besser wird...
Die DL380 Maschinen von Bechtle haben alle nur ein Netzteil. Ich bin
mir sehr sicher, dass wir mit zweien bestellt hatten, weil das naemlich
der Hauptpunkt der RRZEler fuer diese Kisten war.
Frau Kulzer das huebsche neue Webmail Frontend gezeigt, und sie auf den
Neubau vertroestet.
[/bauerm]
permanent link
Testweise mal am Nexenta fileserver den head 1 (nexone) ausgeschaltet,
waehrend auf einem client ein "dd if=/dev/zero of=/mnt/nullen bs=1"
lief und das /mnt vom fileserver kam. Ergebnis: alles bleibt
stehen, showmount -e zeigt keine mounts von irgendeinm Teil des fileservers
mehr an. Sehr Unbefriedigend. An Basis geschrieben.
Das print.css (oder print-cal.css) auf Typo3 entfernt in der Druckversion
alle Links. Sehr unschoen. Bemerkt von Frau Meusburger
[/bauerm]
permanent link
Ueber nacht per netcat und zfs send/receive alle homes mit ihren
snapshots auf den neuen fileserver gebracht.
Riesenstapel Rechnungen zu Frau Kloss gebracht.
Report webmigration: ENZ, Analysis und "algeo" sind im wesentlichen
umgezogen. Bald mal redirects auf den neuen Server einrichten
Report fileserver: wenn man ein HOME vom neuen fileserver mountet, und
dann den server ausschaltet, gibt es ein failover auf den anderen,
aber leider kriegt der client nix davon mit. Mist!
Es gibt noch Anwender, deren Mailsetup das /var/mail von helena braucht.
Fuer die muessen wir Hilfe beim Umstellen auf IMAP anbieten, bevor
wir helena abschalten...
Tobias hat dem mutt auf Solaris IMAP beigebracht, sollte also auch fuer
Traditionalisten gut umstellbar sein.
[/bauerm]
permanent link
Auf dem DL585 eine billige Inter Etherexpress 1000 und den P411i RAID controller
eingebaut. Die Karte kann booten, wird unter linux als eth4 erkannt. Das
RAID laesst sich nicht einschalten, der knopf an der rueckseite leuchtet
orange ???
Mit Georgs Kerberos rumprobiert
sudo kadmin -l
startet die admin shell (ohne das -l wird dauernd nach dem Passwd von
ROOT@.. gefragt). Dann kann man mit "add" hprincipals" dazutun, und
mit "ank" keys fuer services z.b. rechner.
Im puppet testsupport fuer kerberos-pam eingebaut, erstmal nur fuer
neubau-102.
Auf neubau-102 kann man sich jetzt toll kerberos Tickets holen, aber
mit denen kann man nichts machen. Weder kann ein User, der im Kerberos
existiert aber nicht lokal, sich einloggen, noch kann man ein kerb-ticket
zum Einloggen per SSH benutzten.
Morsi und Gellermann wegen dem Kerberos Setup fragen.
Unser Print CCS im Typo3 ist defekt und loescht alle links aus der
Druckansicht, Report von Meusburger.
Bjoern faellt uns leider die Woche aus :(
Das NexentaStor hat eine Option, ein "Auto-sync" mit anderen Maschinen
zu machen. Das wollt ich fuer ein Backup der ziusudra nutzen, aber
die zwei Optionen ssh+zfs und netcat+zfs tun nicht weil
1. man beim ssh+zfs das rootpasswd der anderen seite ablegen muesste.
Das ist eine schlechte idee, und ssh erlaubt eh kein login als root.
Umweg waere ein pseudo-root-user, der sich dann bitte per authorized-keys
authentisiert. Das geht aber nicht out-of-the-box...
2. dem netcat+zfs kann ich keinen port uebergeben, von dem das zfs send (nehm
ich mal an) kommen soll. Und in der Doku steht nix.
[/bauerm]
permanent link
Der Agamemnon hat scheinz den Powerdown am Dienstag nicht ueberlebt,
damit sind unsere Tape-Backups unzugaenglich. Dreck
[/bauerm]
permanent link
Weiter mit der depperten HP Hardware gekaempft. Tobias hat
die Firmware auf den neusten Stand gebracht, scheint aber
nix zu helfen.
puppet module aufgeraeumt.
Authserver aufgesetzt und fuer Heimdal Kerberos entschieden
Das FAI hat nach einem Install noch Files von der vorherigen
Installation uebriggelassen, deswegen liefen auf einem Server
noch Client-setups mit Automounter...
Wenn der Automounter einen mountpoint in den maps hat, der
nicht existiert, dann kann man das entsprechende Verzeichnis
nicht mit mkdir anlegen, was recht verwirrend ist.
Wir haben jetzt einen MX auf math.fau.de
Fabian Klingbeil hat uns ein funktionierendes Mailsetup auf
dickerserver gebaut, mit postfix, dovecot und zwei Webmailern
zur Auswahl. Sehr schoen!
ILO auf dem DL585 aufgesetzt, tut (wenigstens was...)
[/bauerm]
permanent link
Neue rootpasswoerter auf allen neuen Maschinen inspiriert durch
http://imgs.xkcd.com/comics/password_strength.png
Mit IPMI rumgespielt, aber leider auf keine Maschine zugreifen
koennen. An den Support geschrieben.
Elendes Gefrickel mit dem DL585 G7. LinuxTeam RRZE angebettelt.
Es bleibt weiter unklar, welcher Treiber fuer NX3031 gebraucht
wird.
Ordnung in den Papierkram gebracht, morgen Frau Kloss die Rechnungen
vorlegen.
Konvertierer von Absoluten auf Relative Links in HTML Baeumen weiter
debuggt, um nach ca. 10 Mannstunden festzustellen, dass schon das
Original der Testseiten kaputte Links hatte *stirnklatsch*
Neue Inventarliste angefangen. Mit MAC und SSH Fingerprint.
[/bauerm]
permanent link
Eine Inventar Database waer nett.
Der Fileserver ist eingebaut. Dabei ist aufgefallen, dass
1. der Rackschrank von Sun Gewindebohrungen statt der
ueblichen rechteckigen Loecher hat, so dass
die mitgelieferten Rackschienen von Supermicro nicht verbaut
werden konnten und die Maschinen auf einem Regalboden stehen muessen
2. unsere Stromversorgung im Keller voellig unzureichend ist,
eine Sicherung ist rausgeflogen und hat ein paar Maschinen
(zum Glueck keine Server) gestoppt. Ein Teil der Fileserverinstallation
haengt jetzt am Stromkreis, der fuer Staubsauger, Kaffeemaschinen,etc
gedacht war. Bei der Gelegenheit noch wesentlich mehr
Platz geschaffen.
Frau Kugler vom ActiveDir Team am RRZE macht uns Accounts auf dem AD, damit wir
Maschinen eintragen koennen, die dann wiederum den AD zum Authentisieren
benutzen duerfen ("net join").
Der HP DL585 ist zwar fuer Ubuntu Server 11.04 zertifiziert, aber nach dem
Installieren moegen die Netzwerkkarten nicht mehr mit dem Switch reden.
(und vorher auch nicht, wenn es ein Gigabit Switch ist). Angeblich
hilft ein Firmwareupgrade der QLogic NetXen NX3031 Karte. Die Downloadseit
bei HP.com gibt mir aber ein Permission Denied...
Die DL585 haben kein CDrom, dringend ein externes kaufen.
Bonnie++ als Performance Test ueber NFS auf den Fileserver losgelassen, mit
12 Instancen. Blinkt froehlich.
Die 3com Switches versuchen IP Adressen fuer Management zu ziehen, und
haben _default_ passwoerter eingestellt. Am besten in ein eigenes,
nicht-routbares Netz stellen und passwoerter aendern (bei dem LACP switch
schon gemacht)
Die CORAID und Supermicro Server (und vermutlich auch andere) haben
IPMI Schnittstellen, das ist sowie wie eine Mischung aus SNMP und
den ILOM/ALOM/ELOM von Sun oder dem Ilo von HP. Tools dafuer:
FreeIPMI (OpenBSD)
ipmitool (OpenSolaris)
Die sollten auch in so ein Konsolen/Managment Netz
[/bauerm]
permanent link
Nach dem Ubuntu-ActiveDir-HOWTO vorgegangen und auf neubau-102 mal
samba und winbind installiert, konfigfile mit realm=uni-erlangen.de
und password server = faudc1.uni-erlangen.de .
kinit user@UNI-ERLANGEN.DE
tut.
(Der Error
kinit: KDC reply did not match expectations while getting initial credentials
soll uns sagen, dass man
_den Teil hinter dem @ nicht GROSS geschrieben hat_ *stirnklatsch* )
Ein "Domain Join" geht nicht, weil wir keien "Root account" im Identity
Management haben..
Der HP Superserver macht weiter probleme, weil die 10Gigabit Karten nicht
mit dem HP Procurve Gigabit Switch reden wollen.
[/bauerm]
permanent link
Frau Brunings iMac tut jetzt wohl.
Sigezech hat ein freies Tool gefunden, das Mac Platten uebers Netz
replizieren kann, damit koennte man den iMac fuer alle Freiwilligen
clonen...
Nach langem Hin+Her hat uns Bechtle einen SAS Controller fuer den
High-Performance Server (DL585) fuer AM3 nachgereicht.
Der Serverinstall geht jetzt auch fuer die DL585, nach langem Gefrickel.
Unter anderem muss man in /srv/fai/nfsroot/..../etc/fai/fai.conf
die nfs-url auf das .54 Netz legen.
Probleme mit HP Servern:
1. DL585: das Ubuntu ignoriert erstmal die Etherkarten, mit
modprobe netxen_nic
kriegt man den Treiber.
Bis jetzt wollen die Dinger aber kein DHCP sprechen???
2. DL585/DL385: Die SATA Platten leuchten nichtmal auf.
lspci zeigt auf DL585, dass der Controller "disabled" ist.
Auf DL385 wird er gelistet als "IDE mode", vielleicht
ist das die Ursache...
[/bauerm]
permanent link
Admintreffen:
RRZE Netzteam kann uns jedes Netz auf jede Dose legen,
gut fuer eine sanfte Umstellung der AM/WiMa Netze
Der Umzug verschiebt sich um mindestens eine Woche
Das Schliesssystem scheint ein Problem zu sein, und
ohne das installiert das RRZE nix
Wir haben 48 Ports Switch in jedem Serverraum
[/bauerm]
permanent link
Puppet: merke: Variablen im node-context werden gesetzt, nachdem
Statements aus eventuellen "inherits" abgearbeitet wurden. D.h.
man kann nicht auf node-spezifischen Variabeln in Klassen oder
virtuellen nodes pruefen, weil die da noch nicht gesetzt sind :(
[/bauerm]
permanent link
Herr Reinfelder vom RRZE hat einen Loesungsweg fuer das Office auf Mac
vorgeschlagen. Morgen verfolgen
Unser Tapedrive im Taperoboter liefert IO Errors. Keine Ahnung...
[/bauerm]
permanent link
das debian package "virtualbox" und seine Verwandten erzeugen
ein nicht lauffaehiges VBox, es fehlen Kernelmodule *stirnklatsch*
[/bauerm]
permanent link
MacOs lernt keine Drucker aus dem CUPS server von der aphrodite.
CUPS broadcastet die Drucker an der aphrodite als "bojour shared"
Es gibt puppet/facter packete fuer macos:
https://sites.google.com/a/explanatorygap.net/puppet/
installation mit
sudo installer -pkg /tmp/puppet-2.6.7.pkg/ -tgt /
Ein moegliche "Loesung" des Mac Problemfeld koennte ein
Shell Skript sein, das
- einen sam User anlegt und in admins steckt
- einen lokalen User anlegt und optional in admins steckt
- puppet installiert
- eine launchd plist fuer puppet installiert
- als admin
puppet agent --test startet
Hinterhaeltig: wenn die Uhr eines frisch installierten PCs oder
servers um einige Minuten nachgeht, dann kann er sein eigenes cert
einige Zeit nicht nicht authentisieren (signatur waere in der Zukunft).
moegliche Loesung: ntpd + ntpdate per FAI installieren und beim Boot
gegen einen ntp server syncen
[/bauerm]
permanent link
MS Office fuer Apple laesst sich installieren, aber Word laesst sich
nicht starten :( alles andere tut scheinz
Fuenf Server bestellt (DL380 mit Xeons)
Maple "Grid" Module ist sehr seltsam, man kann mit Map nur einzelne Funktionen
parallelisieren, die duerfen weder auf andere Funktionen noch auf
globale Variblen zugreifen. Schrott.
Unser ServerInstall scheint zu funktionieren: Die erste fette DL385 ist installiert!
Herr Michel vom RRZE meint, wir koennen sofort Alpha-Tester des Active Dirs
werden. Klingt (https://help.ubuntu.com/community/ActiveDirectoryWinbindHowto#Join%20AD%20domain)
einfach:
- winbind installieren
- in der Konfig von winbind als Real "uni-erlangen.de" eintragen
- Domaincontroller ist faudc1.uni-erlangen.de
[/bauerm]
permanent link
HErr im Himmel! Puppet 2.7 agents koennen nicht mit unserem
2.6 master reden. Saudummes Design. Deswegen bei Installation
von Puppet per gem die Version erzwingen:
gem install -v 2.6.0 puppet
Die zwei HP DL385 sind eingetroffen. Einen aufgebaut, dazu einen
dritten Switch im Serverraum installiert.
Nach langem Gefrickel rausgefunden, dass der HOSTNAME fuer FAI
derjenige Name ist, der vom dhcp ueber die option hostname
verteilt wird ....
Zum remote Adminstrieren von Apples nimmt man wohl die "Server Admin Tools"
http://support.apple.com/kb/DL968
[/bauerm]
permanent link
Lexmark per Parallelkabel an den uralten PrufungsamtPC angeschlossen,
Treiber installiert, Testdruck tat. Leider werden unsere Zeugnisse
aus Excel gedruckt, also der ungeschicktmoeglichsten Seitenbeschreibungssprache
der Welt.
Nach ganz viel Gefrickel scheint es als ob der Linux-Kernel NFS
Server immer nur in ein Netz exportieren kann. /etc/exports
auf faiserver so eingestellt, dass im neubaunetz installiert
werden kann und in /srv/fai/nfsroot/..../etc/fai/fai.conf
die nfs-URL des Config-Baums entsprechend geaendert.
ACHTUNG das wird beim naechsten fai-setup ueberschrieben
[/bauerm]
permanent link
Admintreffen:
- MacOs Serverversion kann eventuell installierte Software
ueber MacOs Billigversion verteilen -> nur noch eine Maschine
zum Installieren.
- Eruieren, ob uns das RRZE die alten Netze in den
Neubau legen kann, dann koennen die AMler ihre Infrastruktur
erstmal mitnehmen. Ausnahme ist DHCP, weils dann ein
Broadcast Domain ist.
- Eruieren, ob man mit pamwinbind (oder so), an den MS AD
vom RRZE kommt, um Studenten und eventuell auch Mitarbeiter
zu authentisieren
- Mail/IMAPserver ist dringende Baustelle, weil da alle Adressen
und Aliases bekannt sein muessen, bevors losgehen kann.
Sanfte Umstellung durch Aenderung des MX RRs fuer den alten Domain,
der MX vom RRZE sollte bei Pannen etwas auffangen koennen.
Nach dem Admintreffen zu Frasch rausgefahren, einen Lexmark 360dn
fuer Frau Forkel gekauft
[/bauerm]
permanent link
Der uuuuralte Brother-Drucker bei Frau Forkel ist ausgefallen,
es koennen deswegen keine Diplomzeugnisse mehr gedruckt werden.
NOTFALL
RRZE gefragt, ZUV interne Admins gefragt, Doku gesucht,...
[/bauerm]
permanent link
CORAID liefert naechste Woche, leider haben wir aber keine ausreichend
neuen Switches. RRZE angefragt, was tun.
[/bauerm]
permanent link
puppet gleichzeitig als master und agent auf der selben Maschine
zu haben, ist in unserem setup leider nicht trivial. Daher erstmal
kein agent auf ziusudra
Puppet module umgebaut, changesets 278-286.
Installserver einen zweite Etherkarte gegeben, ins Neubaunetz gehaengt
als neubau-12 (ziusudra waere 11)
[/bauerm]
permanent link
Per puppet libgmp3-dev, octave, screen, git, subversion, und mehr
installiert
[/bauerm]
permanent link
Alte gesar platten aus der helena ausgebaut und abgehaengt.
cfgadm ist ein schoenes Tool. Dadurch sind jetzt wieder
Stecker und Rackschienen frei, letztere allerdings ziemlich
fragmentiert...
[/bauerm]
permanent link
Es stellt sich raus, dass die Umstellung von Ubuntu 10.04 nach
11.04 gravierende Nebenwirkungen hat. Unter anderem ist jetzt
NFS4 die default-Version, nachdem wir aber weder Kerberos noch
idmaps haben, gehoert jedes File "nobody:nogroup". Das zerstoert
natuerlich einiges. Nach viel Gefummel haben wir jetzt in
/etc/auto.master und /etc/auto.net ein "vers=3" reingezwungen.
Diverse Korrekturen im puppet. Ziel muss sein, alle Bedingungen
explizit im puppet zu haben, damit man sich nicht auf den
Installserver allein verlassen muss.
Es sind jetzt fuenf der neuen PCs installiert und im Haus verteilt.
[/bauerm]
permanent link
Die IP-ranges 131.188.103.139-200 und 131.188.54.12-213
haben jetzt DNS namen (math-139 bis math-200 und neubau-12 bis neubau-213)
war noetig, weil adressen ohne reverse-map nicht aus dem uni-netz
geroutet werden.
Frau Boegelein hatte das Problem, dass sie ueber mailhub.rrze
keine mails mehr versenden kann. liegt wohl an einer Aenderung
im RRZE, dass mailhub nur noch fuer eingetragene Mailer zur
Verfuegung steht. Man kann stattdessen smtp.uni-erlangen.de nehmen.
Diverse Umbauten im Puppet tree.
[/bauerm]
permanent link
Ok, problem mit dem FAInstall war, dass kein /var angelegt
wurde und das Auspacken dann an die Grenzen von / gestossen
ist. Saubled.
Der Autinstaller hatte zum Plattenpartitionieren das
setup-harddisk Programm genommen, obwohl das "deprecated"
ist und die Konfigs von setup-storage nicht versteht.
Man kann den Einsatz von setup-storage erzwingen, indem
man entweder USE_SETUP_STORAGE=1 in /etc/fai/fai.conf
setzt oder in /srv/fai/nfsroot/live/filesystem.dir/usr/lib/fai/subroutines
das entsprechende if-statement umbaut.
AutoInstaller geht jetzt. Erkenntnisse:
- Vergleichsoperator in .erb files ist == nicht =
- facter-Facts brauchen kein fuehrendes $ Zeichen
- Der Logout-Knopf unter Gnome ist nicht etwa eine
panel-app, sondern ein "indicator", der in einem eigenen
.deb package ist (und das ist keine Abhaengigkeit
von gnome-panel, das indicator-app jedoch schon WAAAAAA)
Team Meusburger moechte MacBooks, verspricht eigene Verwaltung.
[/bauerm]
permanent link
Zwei alte 3com switches vom RRZE geholt fuer den Testbetrieb
Der neue Installserver hat rumgemeckert, dass
der Linux-kernel (als packet) mit diversen anderen
Packeten im Konflikt steht (WTF?). Stellt sich
raus, FAI mischt Debian und Ubuntu Packete.
Fix: in /etc/fai/make-fai-nfsroot.conf
das FAI_DEBOOTSTRAP auf
"natty http://archive.ubuntu.com/ubuntu"
aendern
Naechstes Problem: es wird kein GRUB installiert
tmp-Workaround: wir nehmen die config skripten
vom alten FAI und buendeln neues Ubuntu-tgz
dazu
Naechstes Problem: das setup-storage Skript vom FAI
vertraegt seine eigenen Demo-configs nicht -> WAAAAA
[/bauerm]
permanent link
Mit Nachbohren per Email einen Lizenzkey fuer eine NexentaStor
Enterprise Edition gekriegt, zum Ausprobieren (nexenta.com)
Die Fujitsu P700 haben eine Intel 82578DM, die in Linux
erst seit 2.6.36 unterstuetzt wird; unser Installserver
(und das "long-term-support" Ubuntu 10.04) ist 2.6.32 -> Kein Keks
-> Neuinstallation eines Installservers mit Ubuntu 11.04
Mit der Anpassung unseres puppet Setups an MacOS X begonnen.
Lessons learned:
es ist ein paketmanager installiert: pkgutil
/etc ist ein link nach /private/etc
Lessons not learned:
wie stellt man NIS (oder sonstige) auth ein?
wo konfiguriert man den automounter?
Herr Wuensch vom RRZE kann uns noch 100Mbit Switches
geben, fuer den Testaufbau
[/bauerm]
permanent link
Der iMac kann nach etwas Setup unsere HOMEs mounten
Die PCs koennen erstmal nicht automatisch installiert
werden, da angeblich die Netzkarte nicht vom Kernel
unterstuetzt wird (Intel 82578DM Gigabit, e1000e Treiber)?
Es liegt am historischen PXE.linux, den man mit viel
Muehe updaten kann (wiki.fai-project.org/wiki/Grml-Kernel)
[/bauerm]
permanent link
HSD hat zwei imacs geliefert
Frasch hat 10 PCs geliefert
Fileserver bei Basis/CORAID bestellt
[/bauerm]
permanent link
Reparatur von Drucker ex-f von der Geschaeftsstelle genehmigt
Rueckmeldung wegen Apple Hardware gekommen
Antwort von Oracle/Circular wegen Fileserver erst jetzt
-> Absage
Server bei Bechtle bestellt
Frasch liefert PCs diese Woche
[/bauerm]
permanent link
Papierfach von a geht wieder nicht, neue Drucker!
Frasch hat die 10 PCs nicht geliefert...
Keine Rueckmeldung von HDS wegen der Apple Hardware
[/bauerm]
permanent link
Frasch hat netterweise die Transportwalzen von mehreren Druckern
ausgetauscht -> Drucker a hat wieder ein Papierfach mehr
Drucker ex-f hat kaputte Fixiereinheit, Reparatur kostet 200 Euro,
wir kaufen neue Drucker!
Sieben Stueck Apple Hardware bestellt
Im RRZE mit dem OberWindowsadmin, Rathmann und Ritter diskutiert,
- Windows7 autoinstall von exemplarischen Plattenimage (gereinigt
mit SYSPREP) scheint machbar zu sein, evtl auch uebers netz
mit clonezilla.
- angeblich gibts ein Samba Linux pam-Modul, dass mit winbind gegen
einen MS ActiveDirectory Server authentisieren kann, ein
solches setup laeuft in der Etechnik am CIP pool.
- Das "IdM" des RRZE koennte _theoretisch_ genutzt werden, um
Studenten im CIPpool zu authentisieren, Frank Troeger fragen.
In einer OpenLDAP Doku gesehen, dass man in nsswitch.conf ActiveDirectory
Anfragen als eigenen (nicht LDAP) Punkt angeben kann, d.h.
wir koennten mit
user file ldap ad
ein Fallback zum RRZE AD machen, wenn die das erlauben.
NexentaStore kann NDMP Backup, was genau das ist, was das RRZE anboete
NexentaStore testinstallation braucht einen Lizenzkey und sie bringens
nicht fertig, den zuzumailen...
[/bauerm]
permanent link
Drucker a (ex-l) hat aufgegeben, Ursache unklar. Durch Drucker
l (ex-a) ohne das untere Papierfach ersetzt (das hat Transportprobleme).
[/bauerm]
permanent link
Angebot von NetApp erbeten
VirtualBox auf andromache installiert.
Sun-Package liegt auf
http://download.virtualbox.org/virtualbox/4.0.8/
Wenn man im richtigen Moment
1. alle Fenster ganz schnell wegklickert
2. auf F12 drueckt
kann man theoretisch auch vom Netz booten.
Auf aphrodite fuer die erste virtualbox instanz eine IP festgenagelt
und per next-server an siegfried verwiesen. Dort mit /usr/sbin/fai-chboot -FI $ip
das installieren per PXE angestubbst.
Das /root/backup.homes auf ziusudra fuehrt zu extremer Verlangsamung
der vermounteten Verzeichnisse.
Wenn mans unterbricht waehrend es mypool/radix/homes scannt, dann
bleibt einiges haengen.
Die Defaults, die fuer die Menues im "Java Desktop" benutzt werden,
stehen unter Solaris in /usr/share/applications/*.desktop
Auf artemis ist jetzt der firefox an unseren jeweils aktuellen
unter /usr3 gehaengt
[/bauerm]
permanent link
Es fehlt immer noch ein Angebot von Oracle, grrr.
[/bauerm]
permanent link
10 TFTs (NEC EA241WM, 24Zoll) bestellt
Um ein Angebot fuer 2 HP DL385 (AMD 8core, 16Gb, 2x2TB Platte, DVD Reader, 4 1Gbit Ether,
redundanter Strom) gebeten. Mal schaun was die schicken.
[/bauerm]
permanent link
Bei Frasch zehn FTS P700 (Core i7-2600, 12Gb RAM, 1TB Platte, Nvidia geForce 405)
ohne Windows bestellt. Spart 500 Euro.
[/bauerm]
permanent link
Drucker a hat in Fach 3 Papiertransportprobleme, keine
Garantie mehr. Durch Drucker l ersetzt.
[/bauerm]
permanent link
Weiter keine Antwort, Mail geschrieben mit Bitte um Klaerung
[/bauerm]
permanent link
Keine Antwort wegen den MS Lizenzen auf PCs
Inzwischen liegen zwei Angebote fuer den Fileserver vor,
zwischen 80000 und 130000 Euro, jeder mit NexentaStore Servern
[/bauerm]
permanent link
Herr Fischer vom RRZE hat wohl die Windowszwangsabgabe
beschlossen, Frasch wuerde sie aber auch weglassen.
Mal mit denen reden...
[/bauerm]
permanent link
Die P700 vom Frasch kommen zwangsweise mit Windows, was
fuer unsere Zwecke meist sinnlos ist. Mal rauskriegen,
ob wir da Euro 25oderso pro Maschine sparen koennen.
Angebot von CORAID (vertreten durch die Basis GmbH) ist
angekommen, noch keins von SUN/Ohrekel...
Drucker f ist wieder da und tut wohl.
[/bauerm]
permanent link
Besprechung mit dem Grossteil der anderen Admins. Konsense:
- Std-Workstation wird FTS P700 (option mit Nvidia?) mit 12Gb Ram
- Bismarckstrasse faengt an Hardware zu kaufen
und ein Setup zu basteln
- Apple Maschinen fuer Sekretariate werden in der
Bismarckstrasse stress-getestet
- Erstes Ziel sollte ein Authentication Server sein
- Wigand Rathmann hilft beim Webserversetup
- Prechtel hat jemanden, der vor kurzem einen
Mail+IMAP Server aufgesetzt hat
- CIP/Praktikumsmaschinen kommen in ein eigenes Subnetz,
mit eigener Druckmoeglichkeit
- Anbindung ans Identity Management System des RRZE
waere fuer die Studies echt praktisch
- AM1 und AM3 kaufen noch dieses Jahr je einen CPU Server
- CPU Server werden aus dem Autoinstaller installiert
[/bauerm]
permanent link
Rubygem upgrade aller gems auf Ziusudra hat das Problem behoben, uff.
Das Windows Team am RRZE hat noch keinen Koenigsweg fuer die
Installation von Windows7 auf groessere Mengen von Maschinen.
Das Enterprise Windows vom RRZE hat aber schonmal den Vorteil,
dass man identische Plattenimages installieren kann, ohne
dass was schiefgeht, weil das nur beim Lizenzmanager vom RRZE
nachfragt.
Drucker f wurde abgeholt.
[/bauerm]
permanent link
Telefonat mit CORAID (usa), sie schicken uns ein Angebot ueber
einen fetten fileserver mit ausfallsicherer Konfig. Ein
weiterer Anbieter ist wohl Zstore, mal schaun...
Drucker f ist an einem mechanischen Schaden verstorben, wir
haben aber noch Garantie drauf.
Der puppetmasterd auf ziusudra laesst sich mit einem absurden
error nicht mehr starten:
/var/ruby/1.8/gem_home/bin/puppetmasterd:19:in `load': no such file to load -- puppetmasterd (LoadError)
from /var/ruby/1.8/gem_home/bin/puppetmasterd:19
Sehr schlecht.
[/bauerm]
permanent link
Frasch hat das Mainboard auf Kulanz getauscht, siegfried
lebt wieder
[/bauerm]
permanent link
siegfried (und damit unser installserver) ist tot, wohl ein
BIOS bitflip. Frasch meint, dass die Boards oefter solche
Fehler hatten und eventuell auf Kulanz repariert wird.
Platte aus siegfried in kalypso umgebaut, neuer siegfried
ist also kalypso
[/bauerm]
permanent link
Auf aruru laeuft jetzt ein UW imapd auf imaps, ein weiterer
auf imap, der aber nur Upgrades zu TLS mit STARTTLS erlaubt.
Sollten also keine Klartext Passwoerter durchlaufen. Da
unsere historische installation kein authentifiziertes
Mail-Submit ermoeglicht, bleibt Mailsenden von ausserhalb
ein Problem.. Bloeder Workaround: imap von hier, versenden
ueber z.b. gmail mit "Reply-To: addr@hier". Geht unter evolution
gar nicht, unter thunderbird jedoch schon.
Auf helena laeuft ein imapd auf imap, der aber nur STARTTLS
erlaubt, was weder evolution noch thunderbird koennen #$*%^^
Mit exakt den gleichen Konfigs wie auf aruru laesst sich kein
inetdienst auf 993 einschalten.
[/bauerm]
permanent link
Backuptool fuer Windows Laptops: Duplicati
- kann per ssh uebertragen (passwd oder pubkey auth)
- hat vernuenftige oberflaeche
- kann inkrementell sichern
- schreibt in unserem Setup ins $HOME des Users,
und das landet dann in der Sicherung auf Band
Backuptool fuer Linux Laptops (die nicht unter Puppets Fuchtel stehen):
LuckyBackup (rsync ueber ssh)
Anfrage fuer Angebot Fileserver an CORAID in Californien geschickt,
mal schaun. Ein interessantes Produkt von denen waer z.b.
http://www.coraid.com/company/pr/coraid_introduces_etherdrive_z_series_nas_storage_appliance
Morsi wegen dem Setup WiMa gefragt, u.a. deren Kerberos und Puppet
Setups sind interessant
Wir brauchen einen IMAP Server auf der helena, um
1. die aruru beerdigen zu koennen
2. um NFS-bedingte, graviernde Fehler zu vermeiden
(/var/mail auf aruru ist NFS von helena,
pop/imap auf aruru loescht gelesene mail aus /var/mail/$username
waehrend auf helena sendmail an /var/mail/$username anfuegt...)
3. um was moderneres als POP3 zu haben
Das UW imap laesst sich nach installation von opencsw openssl
mit 'make gsc' kompilieren. Die Pfade zu e.g. Zertifikaten
sind hart reinkompiliert, das muss man wohl noch anpassen...
[/bauerm]
permanent link
Was in den letzten Wochen geschah:
- siegfried ist tot. D.h. wir haben erstmal keinen Linux Installserver
mehr. Sehr schlecht.
- Das Ministerium hat uns einen Grossteil des beantragten
Geldes bewilligt. Jetzt muss entschieden werden, wie wir
das ausgeben. Mein Plan waere, moeglichst schnell alle
SUN Workstations in der Bismarckstrasse durch neue LinuxPCs
zu ersetzen.
- Barbara und Uli haben getestet, wie man mit bacula backups
von Windows Laptops machen kann. Sie habens hingekriegt.
Leider ist das ganze Konzept hinter bacula so stark an
Server und Tapes gebunden, dass es fuer Laptop schlecht
zu gebrauchen ist:
- Tape ist sequenziell -> Jobs muessen in Queues
laufen -> "Jetzt Backup machen" funktioniert nur,
wenn grad kein anderer Backup macht.
- Wenn man das Laptop waehrend des Backups ausschaltet,
abstoepselt, schlafen legt... dann haengt der Backup Job
und blockiert alle weiteren, bis ihn ein Admin abschiesst.
Das ist nicht akzeptabel.
[/bauerm]
permanent link
ank.tcl ist beerdigt. Auf nimrod sind den notorischen Skripten
die x-Bits weggenommen und sie sollten keinen Schaden mehr
anrichten. Eine Anzahl der aktiveren Autoren hat schon ein Login.
Erklaerung, wie man weitere einrichtet, unter
http://ziusudra.mi.uni-erlangen.de:8080/Webserver#User_anlegen
Wigand Rathmann hat fuer Teil-Baeume des Webauftritts eigene
vhostnames beantragt und gekriegt. Die Lehrstuehle koennen
sich dann eigene URLs auf ihre Visitenkarten drucken :)
[/bauerm]
permanent link
Kalender fuer MiNAuG tut, am Montag schalten wir das ank.tcl ab
Alle alten Kalendereintraege in ein Archiv verschoben, damit
man da auch suchen kann (Wunsch eines Benutzers)
Bjoern hat ein Typo3 Plugin fuer Kontaktdaten gefunden, dass
sich schoen fuer unsere Mitarbeiterseite nutzen liesse.
Dummerweise repliziert es dann aber auch Daten, die
schon auf persoenlichen Seiten stehen (keine NormalForm!)
[/bauerm]
permanent link
Plan fuer Umzug erneuert, bald online
Meeting der Webmaster im RRZE. Interessante Punkte:
- Ganze Fakultaeten werden von einer einzigen Sekretaerin
ohne spezille Schulung webgemeistert.
- Ausser uns gibts noch sechs weitere Typo3 Installationen.
Eventuell mal Kontakt aufnehmen
[/bauerm]
permanent link
Rundmail an die Bismarckstrasse verschickt, um den Plan zur
WebUmstellung klarzumachen und Feedback zu bekommen
[/bauerm]
permanent link
Immer noch keine Meldung, ob und wieviel Geld wir fuer die Rechner
im Neubau bekommen. Eigentlich sollten schon laengst Server und
ein paar PCs bestellt werden, um das mal testen zu koennen.
[/bauerm]
permanent link
Mit Wigand Rathmann und Bjoern Maier in den letzten Tagen
den WWW Umzug soweit vorbereitet, dass der erste Schritt
getan werden kann, naemlich das unsaegliche ank.tcl
zu beerdigen und unsere Ankuendigungen komplett im Typo3
zu machen. Dazu muessen wir den Veranwortlichen Accounts
geben und eine kurze Einfuehrung, die Website aus www.mi
umlenken und auf dem Typo3 eine Seite ohne die Rahmenelemente
der zukuenftigen Seite gestalten, in der dann nur der
Kalender gezeigt wird.
Frau Meusburger weisst darauf hin, dass Tablets
(oder andere Touchscreens) fuer die Lehre sinnvoll
sein koennten, da man
1. sowas wie einen Tafelvortrag auch auf dem Tablet
aufzeichnen kann und dazu die Erklaerungen des
Vortragenden als Tonspur.
2. zusammen mit einem Beamer das Tablet+Stift als Tafel+Kreide-Ersatz
nehmen kann, wobei es unterbrechungsfrei moeglich
ist, Bilder, aufwendige Formeln, o.ae. einzublenden,
weil es auch einfach ein Bildschirm ist.
Fuer den Neubau anschaffen...
Frau Slezac weisst auf die ueber zwanzig geplanten Arbeitsplaetze
in der neuen Bibliothek hin. Sollen sich Studenten von
dort aus auf unseren Maschinen einloggen koennen?
[/bauerm]
permanent link
Der Bjoern hat die wesentlichen Teile der Struktur der Frontseite
des www.mi auf Typo3 nachgebaut. Inhalte fehlen zum Teil noch,
sieht aber gut aus.
Wigand hat eine Moeglichkeit gefunden, Usern "Frontend Logins"
zu geben, d.h. sie koennen z.b. im Kalender Eintraege machen,
ohne das verwirrende Typo3 Backend jemals zu sehen. Ideal
waer, wenn das auch fuers Gestalten von Homepages moeglich waere...
[/bauerm]
permanent link
Es stellt sich als unverhaeltnismaessig schwierig heraus, eine
Tastatur mit eingebautem USB Hub zu kriegen (so wie unsere
SunRay Tastaturen, oder die von den iMacs).
[/bauerm]
permanent link
www.math.uni-erlangen.de gibts jetzt, ist erstmal Baustelle,
Bjoern und bauerm haben Rechte. Wie man da weitere einbindet,
muss uns Rathmann erst noch erklaeren.
ank.tcl ist wieder mal durchgedreht. Es scheint als ob
Tcl in
while ![eof $einfile]
ein erfolgloses read nicht als eof interpretieren wuerde.
Wuergaround: /local/www/etc/daten/ank_$sem
entfernen, neu starten --- vorher sicherstellen,
dass in keiner ankuendigung Whitespaces am Zeilenende
stehen, z.b. mit
grep "[ ]" /usr/home/*/public_html/ankuendigungen
(zwischen [ und ] stehen ein Space und ein Tab).
[/bauerm]
permanent link
bacula wieder ausm repos server entfernt, weil da Passwoerter
drinstehen.
Mit Wigand Rathmann und Bjoern die Migration zu Typo3 besprochen
und die Kalenderfunktion im Speziellen.
www.math.uni-erlangen.de beantragt.
[/bauerm]
permanent link
Nimrod ist jetzt auf Tape gesichert.
Auf ziusudra laeuft jetzt unter
http://ziusudra.mi.uni-erlangen.de:8000/
ein Mercurial Repo-Server. Wenn alle Beteiligten
ihre ssh keys mailen, koennen wir da alles lagern.
Facter Plugins fuer swap und sshd checks gebaut.
Bjoern hat eine Roadmap fuer die Migration unserer
Webinhalte auf Typo3 erstellt.
Das leidige Problem angepackt, dass nur Laptops mit fester
(und routebarer) IP drucken koennen. Georg
baut ein Skript, mit dem wir den gleichen Effekt auch
mit RFC 1918 Adressen kriegen.
[/bauerm]
permanent link
Drucker f ist nachezu defekt.
Unser Bacula Backup laeuft erfreulich fehlerfrei.
netcat auf nimrod unter /bin/nc installiert. Sollte fuer
remote backups nuetzlich sein...
[/bauerm]
permanent link
Wir haben das neue 131.188.54/23 Netz! Dank an Helmut Wuensch vom RRZE.
[/bauerm]
permanent link
Endlosschleife in ank.tcl gefixt, Loesung folgt
zabbix_agentd loggt nix, wenn man ihn nicht sehr viele Kindprozesses
forken laesst
Den alten Taperoboter nochmal an einem anderen PC mit SCSI3 getestet,
das Tapedrive ist wohl kaputt und sendet voellig defekte Nachrichten
auf dem Bus. Ein Glueck, dass wir das andere haben.
Andromache wuerde als SunRay Server funktionieren, aber zumindest jetzt,
wenn der nemo noch laeuft, moegen die SunRays nicht von ihr booten.
(Kollision der IPs?)
Auf agamemnon und andromache ssh auf die Gruppe adm beschraenkt, die
hoffentlich gute Passwoerter haben.
[/bauerm]
permanent link
Diverse korrekturen an unseren puppet modulen. ein wildgewordenes ntpd
hat tausende von Prozessen gestartet.
Die Leiche von Gesar aus dem Rack entfernt. Die zwei LVD Controller rausgebaut.
Den reparierten SunStoredge L8 an einen PC mit einem der LVD Controller gehaengt ->
Error. Nikos und Georg haben das Ding nochmal aufgeschraubt und festgestellt,
dass das Tapedrive keinen Stromstecker hatte -> fixed.
An dem PC, der kein PCI-X hat, kann man den Status des Roboters abfragen und
tapes in das Drive laden/entladen, aber leider keine status vom drive fragen:
isp1: 0.5.0 had an unexpected bus free
Nochmal an eine Kiste haengen, wo scsi nachweisslich geht.
Um auf unseren Linuxboxen die password-brute-forcies auf SSH zu bremsen, per
puppet fail2ban installiert (traegt IPs mit SSH Fehlversuchen in eine Firewall
block-Regel ein, die dann 10 Minuten besteht). Tipp von A. Nerf.
Zabbix auch auf gilgamesch installiert.
Neues Problem mit ank.tcl, diesmal eine Endlosschleife :(((
[/bauerm]
permanent link
Der scrub auf dem mypool hat 23 Stunden gedauert.
Der bacula-StorageDaemon ist still verstorben. Kein Gutes Zeichen.
Ubuntu installiert zabbix-agentd mit default server _localhost_
[/bauerm]
permanent link
andromache mit teTeX ausgestattet. Sollte jetzt alles da sein,
was ein Mathematiker braucht, wenn was fehlt, isses mit OpenSolaris
etwas einfacher zu kompilieren...
[/bauerm]
permanent link
Prozessliste nach speichergroesse sortieren:
ps -eafo 'vsz,comm'
ZFS Woes: eine Datei bei Frau Forkel im public_html ist laut ls 7.5 Kb
gross, laesst sich aber weder anzeigen, noch loeschen oder
umbennenen. Erstatzweise den Redirekt aus dem httpd.conf rausgenommen
und eine Kopie aus den snapshots von gestern an den Ort,
wo es laut link sein sollte (pruefungsamt.shtml).
Ein ZFS scrub dauert auf ziusudra > 12 Stunden. Waehrenddessen
ist das System deutlich langsamer... Cronjob auf Sam/Sonntag nachts
gelegt.
Mit Knabner ausgetyftelt, dass im Neubau die Studentenarbeitsplaetze in
einem eigenen Netz liegen, mit eigenem Printserver, idealerweise
auf die Kopierer, so dass ihre Copiecards auch fuer Ausdrucke
gehen -> minimaler Aufwand allerseits
Allerdings muessen dann wegen Betriebsmittelverwaltung die Defaultdrucker
der Angestellten immer die ihres Lehrstuhls sein, das wird hart.
Wir kriegen ein /23 im Neubau, und koennen das jetzt schon ueberallhin
haben koennen.
Problem am Horizont: die WiMa muss _mit ihrer Hardware_ umziehen, weil
die ja im Antrag schon drin sind...
[/bauerm]
permanent link
Hab heute die Vermutung geprueft, dass die Clients das Problem sind.
Im Verlauf dessen einiges ueber SUN patches gelernt:
patchrm $patchnr
kann patches wieder entfernen und stellt den Zustand von vorher wieder
her.
Heut Nacht nochmal mit
snoop host ziusudra rpc nfs
auf einen Dialog geschaut (/usr/local/bin/nvi-1.79 ~/aha),
der Error kommt vom Server.
Wenn man als NFS Version 3 mountet, verschwindet das Problem.
Also in auto_master:
/usr/home auto.home -vers=3
[/bauerm]
permanent link
Hab mit immer geaergert, dass SUN keine Manpages zu ihren SMF/svc liefert.
Folgendes Kommando zeigt wenigstens etwas Doku zu den vielen services:
svcs -a -o STA,FMRI,DESC
Sinnvolle bacula Doku auf
http://www.damtp.cam.ac.uk/internal/computing/docs/public/tapechange.html
Prof Knauf hat mir das NFS Problem nochmal bildhaft gezeigt.
Das muss dringenst repariert werden..
[/bauerm]
permanent link
Tobias hat fast allen SunBoxen puppet gegeben
http://ziusudra.mi.uni-erlangen.de:8081/tktview?name=e0454a66f3
ziusudra reboot ins opensolaris-net
http://ziusudra.mi.uni-erlangen.de:8081/tktview?name=bcbfdf7ed4
(das war das einzige BootEnv, das /etc/bacula hatte, also vermutlich das
neueste)
Das Problem, dass eine bestimmte Variante
von open(filename, O_TRUNC|O_CREAT|O_WRONLY) ein
Permission denied liefert, bleibt leider bestehen.
Notloesung waere, das am meisten genutze Programm mit
diesem Problem (nvi) auf was anderes zu linken.
Auf agamemenon wurde der Catalog auf ein File in /tmp/ gesichert,
/tmp ist ein memoryfs, das im swap wohnt, also nicht so gut.
http://ziusudra.mi.uni-erlangen.de:8081/tktview?name=1416bb64b0
[/bauerm]
permanent link
Jemand hat den armen Nemo einfach ausgeschaltet...
[/bauerm]
permanent link
Noch eine Katastrophe, die ziusudra ist heut um 9:00
stehengeblieben, beim reboot wollte das neue BootEnvironment nicht
booten (????), mit einem alten gings, in dem waren dann
aber diverse Sachen in /etc noch auf uraltem Stand.
Waehrend ziusudra neu gebootet hat, in nemo zwei weitere
Prozessoren eingebaut. Nach Neustart ging das framebuffer
device nicht mehr -> naechste Katastrophe
Nach Geschraube mit Graphikkarten ging der nemo wieder.
Triumph: Nemo hat jetzt vier CPUs (a 450 Mhz)
Derweil andromache als SunRay Server getestet. Ging erstmal
nicht, weil sie noch keine Software fuer die Rays geliefert
hat. Dann hat nis gefehlt, dann der automounter, dann
hat sie ploetzlich nicht mehr mit der Ray reden wollen
und eine rote LED am Etherport zum nemonetz gezeigt.
Nach dem ziusudraausfall (und reboot in ein aelteres opensolaris),
gibt es jetzt total seltsame Probleme
[/bauerm]
permanent link
Longariva hat die SunRay installation auf andromache fertig.
nemo _und_ andromache sind jetzt dhcp server fuer sunrays,
den dhcp server auf nemo kann man ausschalten, da andromache
an ihn delegieren wuerde.
Im Falle eines Ausfalles von nemo kann man mit
/opt/SUNWut/sbin/utadm -D $netz
/opt/SUNWut/sbin/utadm -A $netz
das Netz neu konfigurieren und fuer Auth und Software
Server dann die Andromache eintragen.
Eine Alte Ray als Testmaschine hergenommen, tut leider
nicht. Test:
nemo# sh /etc/init.d/dhcp stop
SunRay mit Strom versorgen...
...mehrere Versuche des Bootens sichtbar...
...SunRay gruesst mit "nemo"
nemo# sh /etc/init.d/dhcp start
Das Ticket Tracking system umkonfiguriert und auf neueren
Stand gebracht. Das fossil ist cool, weil alles angezeigte
einfach polierte SQL reports sind, die sich schoen editieren
lassen (die reports, nicht das angezeigte).
Die rsyslog config "client.conf" in puppet in ein subdir verschoben, weil
viele files so heissen, z.b. die CUPS minimal config.
opencsw.org hat ein puppet Paket, dass auch unter Solaris 10 funktioniert.
Auf charybdis testinstalliert, redet auf jeden fall mit ziusudra.
Georg hat ein zabbix gebaut, dass auch auf Solaris 10 laeuft.
[/bauerm]
permanent link
Bjoern hat eine Moeglichkeit gefunden, mehrere virtuelle Hosts
in einer Typo3 Installation zu betreiben. Der Verschmelzung
mi + am + wima -> math steht nicht mehr viel im Wege.
Bacula client auf der Ziusudra tut jetzt. Homes sind jetzt
1. Auf ziusudra ueber fuenf Platten in ZFS mit raidz
2. Auf ziusudra auf einer USB Disk mit ZFS (snapshot gestern)
3. Auf agamemnon in ZFS ohne raid (snapshot gestern)
4. Auf tape, das am agamemnon haengt (backup gestern)
[/bauerm]
permanent link
Zabbix hat jetzt autodiscovery und eine printer klasse.
Die funktioniert so halb, es werden z.b. Toner Niedrigstaende
angezeigt, leider auch fuer Tonerkassetten, die wir gar nicht haben
Wir haben den alten Taperoboter wieder. Muss noch eingebaut und
getestet werden.
[/bauerm]
permanent link
Mit 'update slots' kann man bacula dazu bringen, alle
slots mal durchzuschaun und sich wieder zu merken,
welche tapes wo sind. Spart viel Arbeit.
Ein Barcode Leser wuerde noch viel mehr sparen...
Die CIP Admins haben auch die Maxima Pakete neu
gemacht, wodurch die LA Worksheets jetzt auch mit
dem alten wxMaxima gehen.
[/bauerm]
permanent link
Maxima 5.23.0 startet, wenn LANG=en_US.UTF-8 ist, bei
allem anderen was ich ausprobiert habe, gehts nicht.
-> ein skript gebastlelt, das fuer Studenten Environment,
Pfade, Konfigfiles zusammenbastelt, damit sie in der
Physik das neue wxMaxima/Maxima nehmen koennen
~os00ikys/bin/wxm
Bacula hat die Tape->Slot Zuordnungen vergessen :( Waaa.
Damit sind dann die Backups auf Tape abgebrochen
Georg hat Zabbix soweit am Laufen, dass Discovery und
einfache Tests funktionieren.
Zabbix als Puppet Module gebaut und auf die linuxboxen
verteilt
[/bauerm]
permanent link
Nemo wollte nicht mehr booten.
Als Notloesung erstmal die Nemo-Rays auf die
Artemis gepatcht.
Nach Einbau einer Graphikkarte aus einer
SunBlade 1000 bootet er wieder.
In nemo sind 2 von 4 CPU slots belegt ??
Geht wieder alles.
Fuer das Orientierungsseminar und Herrn Prof Neebs
Worksheets braeuchte man im Physik CIP Pool
ein neueres maxima/wxmaxima. Die Admins haben
netterweise ein neues maxima installiert,
ich hab noch ein neues wxmaxima gebaut und
dort ins $HOME gelegt.
[/bauerm]
permanent link
Drucker k laesst sich keine IP konfigurieren, faellt immer zurueck
-> ins DHCP mit rein, das geht noch
Eine weitere SunRay scheint kaputt zu sein
[/bauerm]
permanent link
psnup -2 | pstops "2:0,1U(21cm,29.7cm) klappt an der "langen Kante"
das backup.homes uebertraegt nur Inkremente, d.h. homes neuer user
werden nicht mitkopiert :/
Auf siegfried laeuft jetzt ein Zabbix Server mit default config.
georg hat einen Aufschrieb, wie man das aufsetzt.
Auf siegfried ist jetzt ein FAI install server, kalypso ist testmaschine.
Der MySQL auf siegfried hat ein neues password fuer root, weil das alte
mit dem OJS ge-share-t war.
[/bauerm]
permanent link
Auf ziusudra bacula kompiliert mit --with-client-only, und
nach
http://www.sim10tech.com/Bacula/Setup.html
die svc dinger ( /lib/svc/method/bacula-ctl-fd und
/var/svc/manifest/application/bacula.xml) gebaut
Mit svcs sieht man jetzt bacula am laufen.
[/bauerm]
permanent link
In bacula-sd.conf den Taperobot als default device eingetragen.
Man kann mit bconsole restore ... files aus den Tapes holen,
die landen dann in /tmp/bacula-restore
[/bauerm]
permanent link
Die APC Unterbrechungsfreie Stromversorgung der helena ist kaputt
(sagt ihr Selbsttest). Um wiederum unterbrechungsfrei die
helena direkt ans Stromnetz zu haengen, musste ein zweites
Netzteil besorgt werden (die helena hatte --- obwohl kritische
Infrastuktur --- nur ein Netzteil). Der baugleiche agamemnon
musste dafuer herhalten.
Login per ALOM an agamemnon
> showenvironment
eine PS[01] waehlen, so dass eine aktive verbleibt.
> removefru PS0
ein blaues laempchen leuchtet an PS0, strom ab, rausziehen
Login per ALOM an helena
> showenvironment
eine PS ist nicht praesent
PS0 aus agamemnon reinstopfen, Strom dran, ein gruenes Lichtlein
leuchtet.
Strom aus der APC ab, APC aus.
[/bauerm]
permanent link
die mod_include Umstellung vom 6.12 hat uns nochmal erwischt, weil
ein Teil unserer 'Inhalte' automatisch und ohne Leerzeichen
zwischen <!-- und # erzeugt werden. Hoffentlich jetzt repariert.
bacula ist soweit, dass Barbara und Nikos experimentell Backups
auf tapes machen koennen.
[/bauerm]
permanent link
Der SUN Storedge 8 hat keinen Barcode Reader *stirnklatsch*
Die beispielconfigs von bacula sind teilweise kaputt:
bacula-sd -c -f das_sd_config_file.conf -> error
Fuer den pseudo-user edv-it hat der symlink aus fakegroups gefehlt...
Das *^&%te autopatch hat das mod_include vom apache ausgetauscht.
Die neue Version kann SSI nur dann parsen, wenn nach
den XML Kommentarzeichen erst ein Space und dann das SSI
kommt. Tobias und ich haben stundenlang an htaccess, httpd.conf
und anderem gezweifelt...
Autopatch auf nimrod ausgeschaltet
[/bauerm]
permanent link
Die gespendete SunFire V240 auf agamemnon umbenannt
Der Upgrade auf Solaris "Express 11" hat den installserver
auf andromache zerstoert und der haengt dann beim bootup
Mit viel Trickserei die Kombination aus
/etc/hosts
/etc/nwam/*
/etc/inet/networks
/etc/hostname.igb1
svcadm enable/disable svc:/network/physical:{nwam,default}
soweit gekriegt, dass die andromache auf beiden interfaces
netz hat und auf igb1 im Nemo-sunray-netz haengt. Jetzt kann
longariva da einen zweiten Sunray server drauftun.
[/bauerm]
permanent link
Glorio! Nach folgendem /kernel/drv/sgen.conf:
device-type-config-list="changer","sequential"
name="sgen" class="scsi" target=5 lun=0;
name="sgen" class="scsi" target=6 lun=0;
und
rem_drv sgen; add_drv sgen;
haben wir jetzt wohl einen tapechanger und ein drive. Das
add_drv tut was anderes als mod_load, Achtung...
Nach
pkg install pkg:/media/mtx@1.3.11-0.151.0.1
kann man mit
mtx -f /dev/scsi/changer/* inquiry
sehen, dass Sun da einen ADIC FastStor 2 re-labelt hat...
[/bauerm]
permanent link
V240 auf agamemnon umbenannt
An der V240 haengt jetzt das Tapedrive vom RRZE, leider
erkennt das OpenSolaris es ueberhaupt nicht. Finger
blutig gegoogelt.
[/bauerm]
permanent link
Auf der V240 gibts jetzt ein activate_snapshot.sh.
Es nimmt einen snap-identifier (bei uns typischerweise
date +"%d%m%y"
) und ruft zfs clone auf die snapshots. Die clones
sind Copy-on-write von den snapshots, ist also schnell
und kost erstmal nix. Sie werden unter /mypool/radix/homes
gemountet, also wie auf der ziusudra, und exportiert per
nfs. Code:
zfs list -rH -o name -t snapshot mypool/backup/radix/homes | \ grep "homes/.*@$snap" | \
while read X; do
wo=`basename "$X" | sed 's/@.*//'`
zfs clone -p -o sharenfs="rw=@131.188.103.0/24" \
-o devices=off -o setuid=off "$X" \
mypool/radix/homes/$wo
done
[/bauerm]
permanent link
Upgrade andromache und V240 auf Solaris Express...
[/bauerm]
permanent link
Datenbackup der mysql datenbank auf nimrod repariert
Bjoern hat Typo3 installiert, jetzt muessen wir nur
noch rauskriegen, wie das auf unsere Anforderungen
abzubilden waere -> Rathmann fragen
[/bauerm]
permanent link
Die ldap zone auf ziusudra geclonet, dazu war noetig
zonecfg -z ldap export > ldap.cfg
{cp && vi} ldap.cfg postfix.cfg
zonecfg -z postfix -f postfix.zonecfg
zoneadm -z postfix clone ldap
zoneadm -z postfix ready
zoneadm -z postfix boot
waehrend dem boot war ein zlogin -C postfix noetig,
weil da noch was gefragt wird
[/bauerm]
permanent link
~root/backup.homes macht jetzt incrementelles snapshotten
per zfs send/receive auf usb-platte und auf die V240
Auf der usb platte an ziusudra sind alle snapshots seit juni,
auf der V240 erst ab 12. November.
Die V240 hat jetzt gemirrortes Root-ZFS auf zwei 73 Gb SCSI
Platten und ein gestripetes ZFS auf zwei 136 Gb SCSI Platten
In der Nacht noch den iscsi export von ZFS volumes getestet,
scheitert am alpha-grade iscsi initiator in openbsd.
[/bauerm]
permanent link
Senden von inkrementellen snapshots geht mit
zfs send -I $altesnapid $zfs@$neuesnapid
[/bauerm]
permanent link
Auf peleus den emacs wieder auf Version 22 zurueckgesetzt, wegen
Aenderungen im Latex Mode. Ging mit
alternative-update --config emacs
oder aehnlich
Der namenlosen Sunfire V240 einen root mirror gegeben. Geht so:
zpool attach rpool c7t0d0s0 c7t1d0s0
installboot -F zfs /usr/platform/`uname -i`/lib/fs/zfs/bootblk /dev/rdsk/c7t1d0s0
Endlich das zfs receive ueberlistet. Von ziusudra auf die V240 backup mit
# snapshots finden
zfs list -rH -o name -t snapshot mypool/radix | \
# den aktuellen, und nur fuer leave-zfse
grep "homes/.*@121110" | \
while read X; do
zfs send $X | \
# Spezialkey ohne passphrase, auf der anderen seite durch
# authorized_keys command="/usr/sbin/zfs receive -vFd mypool/backup"
ssh -i /root/.ssh/backup_key -l jack 131.188.103.249 foo;
done
[/bauerm]
permanent link
Netgear gigabit switch bei Frau Forkel ersetzt, alles geht wieder.
[/bauerm]
permanent link
Installation von OpenSolaris auf Sparc ueber Autoinstaller
ist vollkommener Muell:
- Platten duerfen keine ehemaligen metadb RAIDs sein
( metadb -d
metaclear -a
)
- Platten duerfen keine UFS enhalten
( zpool create -f $platte foo
zpool destroy foo
)
- Platten muessen mit SMI Labels formatiert sein
(format -e
disk $n
label
0
)
- Platten muessen so heissen, wie in dem default
AI manifest beschrieben. Das ist eine XML Datei.
(vi /pfad/zum/image
chmod u+w ai_manifest.xml
vi ai_manifest.xml
)
- Ein Installation Slice muss schon existieren,
das AI kann scheinz keine anlegen *stirnklatsch*
(format -e
disk $n
partition
)
- Wenn ein slice0 existiert, scheintz zu tun.
-> von Oracle gekauft zu werden, war noch viel
zu gut fuer die.
Die extreme Langsamkeit aller Maschinen bei Frau Forkel
koennte ein Netzproblem sein. Testweise mal ein
ls -l /usr/home/cip
gestartet. Dauert Stunden. Morgen mal einen anderen
Switch in ihr Bureaux stellen.
Das RRZE sieht auf beiden Switches im Zweiten Stock exzessiv
Kollisionen auf Port 15 (das ist nicht bei Frau Forkel).
Der Acrobat Reader 8, der mit Solaris 10 kommt, kann nur
so halb mit CUPS reden. Er findet die Drucker, bastelt
sich dann aber ein total kaputtes Print Kommando zusammen.
Mal rauskriegen, wie man den default pdf viewer auf was
gescheites umstellt.
[/bauerm]
permanent link
Der dma ist als Mailer in unserem Setup total ungeeignet, der
versucht naemlich fuer mails, deren Empfaenger lokal
sind (== sich per getpwent finden lassen), direkt in
/var/mail/$empfaenger zu schreiben. Das geht
1. nicht (permission denied)
2. schon gleich gar nicht (parallel schreiben mehrerer
daemon in dieselbe Datei ueber NFS...)
-> rollback auf sendmail
[/bauerm]
permanent link
Die vermutlich kaputte APC UPS ausgebaut. Dank doppelter
Netzteile kein Problem
Unbenutztes DAT Drive von Artemis entfernt
Eine Sunfire V240 und eine V210 im Rack installiert.
Bei Frau Forkel ist die SUN Workstation unertraeglich langsam,
Tobias hat eine andere hochgestellt.
Man kann die ALOM passwoerter von Suns umstellen, wenn man als root
/usr/platform/SUNW,Sun-Fire-V240/sbin/scadm userpassword admin
ruft (statt 'SUNW,Sun-Fire-V240' passendes einsetzen).
[/bauerm]
permanent link
Den Mailer auf peleus durch dma ersetzt. Der hat auch macken,
scheint aber erstmal zu tun. Vielleicht muss man echt nochmal
in das dicke sendmail buch schaun :(
Auf kalypso rausgekriegt, dass Ubuntu default gar keine blowfish
Passwoerter kann :( Mit dem Packet libpam-unix2 und gefummel
in /etc/pam.d/common-* gehts dann doch, man fuegt am
Anfang ein:
$typ sufficient pam_unix2.so
$typ required pam_unix.so
wobei $typ der Teil des Namens der Datei ist, der nach dem
common- steht.
Installationen von OpenSolaris auf Sparc (unsere "neuen" server)
geht nur mit AutoInstall, was ein Service auf Opensolaris x86
sein muss. Sinnvolle Doku auf
http://dlc.sun.com/osol/docs/content/2009.06/AIinstall/tasks1.html
Das packet SUNWinstalladm auf ziusudra installiert.
Das installadm _erfordert_ dass man die IP Adressen per
GNOME network management Daemon konfiguriert. Was total
hirnrissig ist, weil der nwamd nur ein Interface auf UP
erlaubt :(
Wenn man in /etc/nwam/llp
$if static $IP/$prefixlen
reinschreibt, geht das mit
svcadm enable svc:/network/physical:nwam
svcadm disable svc:/network/physical:default
[/bauerm]
permanent link
Mail auf peleus hing, nullmailer funktioniert nicht richtig.
Wenn an mehrere Empfaenger geschickt wird, und einer davon
ist _dauerhaft_ unzustellbar, verbleibt die Mail _fuer alle
Empfaenger_ in der queue und wird alle naslang neu verschickt...
[/bauerm]
permanent link
Barbara auf Bacula angesetzt
[/bauerm]
permanent link
Longariva und Turowski haben uns folgende Hardware aus einem
Bamberger Keller ueberlassen:
- SunFire V480
- SunFire V240
- Storedge L8 (baugleich zu unserem ausgefallenen)
Sun liefert keine Install CDs fuer sparc64 mehr aus. WFT?
Departmentsrat bittet um Zeit-und-Geldabschaetzung fuer Notbetrieb.
Ich hoffe, mit der Hardware aus dem RRZE das noch bis naechstes Jahr
aufrecht erhalten zu koennen. Danach muss Geld aus dem Neubautopf
schon vorher investiert werden.
[/bauerm]
permanent link
ein neues Boot-Environment auf ziusudra gebaut, namens
opensolaris-net-ohne-iscsi
das den Zustand vor der Installation der iscsi Target
software einfriert.
iscsi target software installiert (
pkg install storage-server
) Idee ist, dass ein CPU-Server mit vielen Messdaten diese
nach Verarbeitung per iScsi
1. an einen Fileserver exportieren kann (zwengs backup)
2. er selbst oder der Fileserver an Workstations exportiert,
die dann schneller als per NFS drauf zugreifen koennen.
In /etc/security/policy.conf den Default Passwd Hash auf
obsd-Blowfish umgestellt. Erfordert eine neue sudo installation,
weil die alte kein PAM benutzt hat :/
[/bauerm]
permanent link
Mail an Vorstand formuliert, der die Vorgaenge beschreibt und Loesung
vorschlaegt
[/bauerm]
permanent link
Tippfehler in auto_homes, saupeinlich.
Das wochenplan skript ruft ank.tcl, welches abbricht, wenn es ein HOME
zweimal sieht (WTF?). So geaendert, dass es nur eines sieht.
Turowski und Team besorgen uns eine V440 als Ersatz.
Die APC USV scheint das Problem zu sein.
[/bauerm]
permanent link
Die helena hatte kein /usr/local mehr, wo die spam sortier skripten
liegen, die in fast jedem .forward gerufen werden -> sendmail flippt aus.
Von ziusudra gemountet, tut wieder.
[/bauerm]
permanent link
Nachdem die user HOMEs nicht mehr erreichbar waren, gabs
insbesondere keine HOMEs der postmaster mehr -> sendmail flippt aus
Die root platte von gesar per hotplug an helena und rausgekriegt,
wie das RAID aufgebaut ist und so die Platte mit usr3 und usr/local
gefunden. In die helena gestopft, gemountet, auf ziusudra importiert,
in die /mypool/radix/gesar/ kopiert
HOMEs von gesarplatte auf ziusudra gebracht.
[/bauerm]
permanent link
Heute ist um 17:08 das letzte Netzteil vom gesar durchgebrannt -> Fileserver tot
Alle Homes auf die ziusudra umgestellt, zum Glueck war da das Backup.
Automounter maps umgestellt
Per Puppet die maps auf den Linuxkisten umgestellt, die unter puppet
verwaltet werden
Auf allen Maschinen die gesar mounts entfernt, aussrer auf enlil,
kassandra und thagbral
Der apache mag die ~username URLs jetzt zum Teil nicht mehr, sehr
seltsam
Hinsche behauptet, auf eine V440 zugreifen zu koennen, am Montag
Plattenarray mit gefaehrlichem Gefummel von gesar and helena gehaengt
_im betrieb_. Geht mit cfgadm -x insert_device $scsibus.
Damit Zugriff auf aktuelle Homes, von der helena an ziusudra
NFS vermountet.
Im Gesar gehaeuse haengen noch fuenf platten unklaren inhalts...
[/bauerm]
permanent link
In der helena sind drei SCSI Platten, zwei Seagate, eine
Hitachi. Der Cold-Spare Server vom RRZE, den ich besorgt
hab, hat aber nur zwei Einschuebe. Auf der helena sind
partitionen der platten 1 und 3 (scsi targets 0 und 2) zu
zwei RAIDs zusammengefuegt, eins (d0) fuer die / partition
und eins (d2) fuer swap. Die dritte Platte (Hitachi) wird
nicht verwendet. Im Notfall muessen wir also die Platten,
die im Gehaeuse als 1 und 3 beschriftet sind, rausnehmen
und in die schmale SUNFire stecken. Im OpenBoot muss
man
ok nvalias devalias rootmirror /pci@1c,600000/scsi@2/sd@2,0:a
ok use-nvramrc?=true
ok boot-device=disk rootmirror net
setzen (eventuell auf die SCSI ids der Slots an der Ersatzmaschine
angepasst), damit das auch booten kann.
Hoffentlich klappt das...
Das RRZE erklaert, dass sie das campus.uni-erlangen nicht selber
verbrochen haben. Taeter ist eine Firma namens HIS GmbH.
Alles, was ich von dem Zeug bisher gesehen habe, schreit
ganz laut "So nicht", von der GUI ueber die Benutzerfuehrung,
die Fehlermeldungen und die schneckenartige Geschwindigkeit.
In Evolution gibts knapp ueber dem "Close" unter "File" ein
"Offline". Nachdem der sendmail drunter eh schon mails aufbewahrt,
bis wieder Netz da ist, ist das sinnlos. Und wenn ausversehen
einer draufklickt (knapp ueber "Close"), dann ist der
"Send/Receive" Knopf ausgegraut und keiner weiss warum...
[/bauerm]
permanent link
Opteron ist waehrend eines ubuntu apt-get dist-upgrade unterbrochen
worden und wird so unbootbar :/ Tobias hat das mit einer
Ubuntu Live CD gerettet. Apropos,
route add default $ip
ist in Loonix
route add default gw $ip
(ohne sinnvolle Fehlermeldung)
Wenn Evolution auf "Local Delivery" eingestellt ist, zieht
er alle mals aus /var/mail/$user nach $HOME/evolution/Inbox/mbox
Bei Frau Forkel Druckertreiber im "Igel" auf den gleichen Stand
gebracht wie in der ZUV (seltsamerweise koennen die das nicht
auf ihren externen Maschinen). Jetzt ist er sichtbar, druckt aber
nix.
Es ist weiterhin nicht moeglich, Acroread ein anderes Print-Command
als "lpr -o fooo -o bar..." einzustellen. Alle Methoden (Xresources,
AppDefaults, etc) schlagen fehl...
[/bauerm]
permanent link
Das Netzteil am gesar ist definitiv kaputt, hinsche sucht angeblich
noch eins
Bei campus.uni-erlangen rumgemeckert wegen den Studenten, die ich
nicht eintragen kann..
Beim RRZE (Ritter-Nachfolgerin) nachgefragt, ob wir evtl einen
ausgemusterten 1HE 386 Server haben koennten, um die Funktionen
von aphrodite, siegfried, aruru zusammenziehen zu koennen.
Es stellt sich heraus, dass man von dem Software Lizenz Server
des RRZE nur runterladen darf, was man fuer den Account beantragt
hat. Dass man etwas nicht beantragt hat, wird einem durch
ein Password Prompt klar gemacht :/.
[/bauerm]
permanent link
Diverse Webmeistereien
Weiter an newuser geschraubt, jetzt sollte alles fuer einen
Test auf helena da sein.
Frau Kulzer das Open Journal System gezeigt, das Nikos auf
siegfried installiert hat. Andere deutsche Unis (meistens deren
Bibliotheken) nutzen die Softwar auch, und sie koennte evtl von
dort Support kriegen. Etwas erschreckend ist, dass das in
PHP gefrickelt ist...
[/bauerm]
permanent link
Herrn Heinlein ein Mail setup fuer SMTP versenden in muttrc gebastelt,
ungetestet.
Weiter an newuser geschraubt, es fehlt noch die Adressen Datei
fuer die Druckerabrechnung.
Der Cip Pool hat laut Frau Schuetz eine eigene Kostenstelle, nur
weiss ich nicht, wer da Zeichungsberechtigt ist.
Diverse Webmeistereien
Patrick hat unsere als "defekt" markierten und vermuteten
TFTs geprueft, vier davon funktionieren noch!
[/bauerm]
permanent link
Puenktlich zum Mittagessen faellt gesar aus, wohl
weil die _unterbrechungsfreie_ Stromversorgung
aufgegeben hat. Wohl wegen Defekt an einem
der zwei Netzteile
Nachdem Fileserver, SunRay Server und Mailserver
alle auf tatteriger Hardware laufen, waere echt
ueber eine komplette Umstellung nachzudenken.
Das unsaegliche Ankuendigungsskript hatte noch
mehr kaputte Regexpen.
Herrn Heinlein ein Mail setup fuer POP in muttrc gebastelt, tut.
[/bauerm]
permanent link
Eine der Etherdosen im 1. Stock ist unbelegt ...
Das pullbackup skript hat seit 1.Okt keine neuen
Snapshots angelegt (zumindest fuer ein HOME,
wo ich geschaut hab). Debugging eingebaut.
Das unsaegliche Ankuendigungsskript hat nicht
mehr funktioniert, aus voellig unklaren
Gruenden. Erste Vermutung war, dass es das
Wintersemester nicht erkannt hat. Das wars
nicht. Nach stundenlangem Waten durch ekliegsten
Tcl Code stellte sich der Fehler als eine
kaputte Regexp heraus. Wie konnte das
jemals funktionieren???
AM2 will den CIP Pool Mittwochs 16:00-18:00
fuer das Numerik Tutorium (Programmierhilfen),
genehmigt.
[/bauerm]
permanent link
Der mpma00pk Account geht schonmal nicht bei den Physikern...
Ok gekriegt von Kronz zwengs der Reparatur.
Authentifizierung auf fossil (wegen den Tickets) ausprobiert.
Interessanterweise muessen passwd-hashes in UPPERcase
in die DB... Wenn "database corrupted" als error kommt,
hilft
sqlite $diedb
.output $eintmpfile
.dump
.exit mv $diedb $diedb.broken
sqlite -batch $diedb < $eintmpfile
Herr Hercksen bringt das Netzteil vom Tape Robot zur
professionellen Reparatur.
[/bauerm]
permanent link
Herr Hercksen von der Werktstat empfiehlt, das Netzteil
des Taperoboters durch ein neues zu ersetzen, Kostenpunkt
~160 Euro.
[/bauerm]
permanent link
openntpd auf ubuntu lief nicht, weil nur ntpd (den wir
nicht mehr benutzen) auf die Uhr zugreifen darf (verhindert
von AppArmour). Fixed by Tobias.
Openoffice hat mir eine Stunde arbeit geloescht, indems
_beim Speichern_ abgestuerzt ist. Lieber alles als .txt
schreiben.
Herr Stummer hat ein neues Laptop und moechte diverses drauf
installiert kriegen.
Mit Nikos angefangen, fuer Frau Kulzer das Open Journal System
zu installieren
Den Taperoboter zu Herrn Hercksen in der Elektrowerkstatt
gebracht. Er sieht noch keinen Fehler...
Mit den Admins des Physik CIPPools gesprochen. Die kriegen
einen passwd-Dump vom RRZE mit den Studentendaten drin,
die aber leider nicht immer korrekt/vollstaendig sind.
Unsere mpm..Accounts sollte dort funktionieren.
[/bauerm]
permanent link
R compiliert und installiert mit viel gefummel, indem gegen
/usr3/local/math/lib/libblas gelinkt wurde, statt gegen
irgendeine lapack.
wxWidgets will libpng.12, die kommt von SUN, aber die
haben vergessen, das PNG_12 Symbol in die lib zu tun.
Deswegen mag der linker es nicht. Wir haben aber eine
eigene libpng unter /usr3/local/. Wenn man in LD_LIBRARY_PATH
/usr3/local/graphics/lib vor /usr/lib stellt, gehts...
Nikos hat Drucker n (ex-c) soweit gebracht, dass dieser
den gleichen Fehler zeigt wie bei Frau Forkel.
Herr Timpan kann diesmal leider keinen Drucker mehr
fuer Frau Forkel einrichten???
[/bauerm]
permanent link
Bei Frau Forkel muss noch im Igel der neue HP Treiber fuer
den deskjet 4500 rein -> admin login
Auf dem peleus hat nach reboot das mounten der homes nicht funktioniert,
die fehlermeldungen sind total verwirrend
-> sehr schlecht
Der cupsd ist spontan verstorben -> nix ging mehr
Drucker t bittet neuerdings um Papier aus Manueller Zufuehrung, warummmm?
Aeltere R version braucht kein libiconv mehr, scheitert dafuer
an der selbst mitgebrachten liblapack. Waaaa.
[/bauerm]
permanent link
Herr Hinsche hat das Netzteil gebracht -> gesar hat wieder zwei netzteile
[/bauerm]
permanent link
Hinsche hat immer noch kein Angebot!
newuser weitergeschrieben
Versucht, ein neues R zu kompilieren, scheitert an libiconv
Versucht, altes R zum Laufen zu bringen, stirbt mit einem
error ueber GCC_4.0.0 in der libgcc_s.so, die von der
libgfortran.so benutzt wird.
Wenn ein PDF oder PS ganz falsche Raender hat,
kann man das mit pstops nachfixen:
pdf2ps $file | pstops "1:(${lm}.cm,${tm}.cm) > /tmp/neuedatei.ps
wobei $lm und $tm der zusaetzliche offset links und oben
sind (in cm).
Drucker n und c in yp-hosts, etc-hosts und auf dem cups server getauscht.
D.h. c bei Frau Forkel hat jetzt die IP von alten n.
[/bauerm]
permanent link
sigezech hat Drucker c durch n ersetzt (eh sinnvoll, der
kann A3) und ihn in c umbenannt, aber dann geht der auch
nicht mehr :(.
[/bauerm]
permanent link
Drucker c mag nicht mehr drucken. Seit ca. 12:00. Nichts
wurde an CUPS oder dem Printer geaendert. Kabel gecheckt,
Netz geht. Seltsam..
[/bauerm]
permanent link
Netzskizze weiter
Hinsche bearbeitet, dass er das Angebot splittet auf
zwei Maschinen
Niemand hat Ersatz fuer das Ding.
[/bauerm]
permanent link
Der Tape Robot+Drive ist Tot. Die Fehlermeldung
ist nicht etwa "Tape not responding" oder "SCSI Error"
oder sowas, sondern eine Aufforderung, ein neues
Tape ins Drive zu legen...
-> Keine alten Backups
mehr lesbar. Mit Circular telefoniert wegen moeglichem
Ersatz. RRZE hat LTO2 Drives, aber keins uebrig...
Die Netzskizze braucht noch Arbeit..
Bei Hinsche ein Ersatznetzteil fuer gesar geordert.
[/bauerm]
permanent link
Netzskizze fuer den Antrag gebastelt, bin leider nicht
sehr gut mit Graphik.
[/bauerm]
permanent link
Frau Schindler forscht nach dem Geld, das bei uns
weggegangen ist und nie bei Reichelt ankam.
Weiterschraub an newuser, jetzt mit huebschem TeX Output
und einem CUPS accounting skript, das per authorized_keys
gestartet werden kann
Die Saga um Heinleins PC endet nicht, weil jetzt ploetzlich
das Ubuntu beim Booten haengenbleibt, an Frasch verwiesen.
[/bauerm]
permanent link
Das andere Netzteil am gesar ist ausgefallen :(
Unsere Reichelt Rechnung ist laut Freigabeprotokoll
bezahlt, laut Reichelt nicht :/
Frau Schuetz hilft mit der "Annahmeanordnung" fuer
unsere schon bezahlten Reparaturen/Ersatzteile
und uebernimmt die noch offenen Rechnungen.
Die Wifi Hotspots (= installationsorte der Repeater)
sind in den Fluren neben der Geschaeftsstelle und
im Keller, zweites OG hat auch noch guten Empfang.
[/bauerm]
permanent link
Weitere Odyssee mit der Heinleinschen Installation,
Frasch behauptet, die DVD waere nicht bootbar.
Da die von MS kommt, kann ich da leider auch
nix aendern. Ans RRZE verwiesen.
Die Physiker koennen wohl das LDAP vom RRZE mitnutzen,
dort sind die Uni-weiten Accounts+Passwds auch
Logins, solange sie von der NatFak kommen. Mal fragen,
wie das Setup ausschaut und wie sie lokale Accounts
mit reinmischen. Waer fuer den Neubau sinnvoll.
[/bauerm]
permanent link
Weiter mit sigezech am neuen newuser geschraubt
Ich moechte ein Ticketingsystem. Mal rumgeschaut,
das einfachste scheint mir fossil-scm.
[/bauerm]
permanent link
die alias database /local/mail/etc/helena/aliases.db
wird _nicht_ immer automatisch an die NIS map angepasst.
Ein "newaliases" tut es aber.
[/bauerm]
permanent link
Um fuer Duzaar&Co PHP "freizuschalten",
muss man auf nimrod in /etc/apache2/httpd.conf
den Klotz
[/bauerm]
permanent link
Praktisch den halben Tag damit verbracht,
nach dem Fehler zu suchen, der Evolution davon
abhaelt, Frau Kulzers voellig korrekte mailbox
zu lesen. Ohne Ergebnis.
[/bauerm]
permanent link
Herrn Heinleins Problem hat sich ueber nacht in Luft
aufgeloest, alles geht wieder :/
[/bauerm]
permanent link
Frau Kulzer kann ploetzlich keine Mails mehr empfangen,
Mailclient ist Evolution. Das .evolution/ Verzeichnis
ist ein Verhau aus XML, mboxen und index-files zu
mboxen. Keine Ahnung was da schiefgegangen ist.
Alternative zu Evolution waere Thunderbird, aber der
kann keine mailspools lesen.
Versucht rauszukriegen was die _minimale_ Konfiguration
eines CUPS clients waere.
Bei Herrn Heinlein stirbt jeder Mozilla Variante nach
ein paar Klicks und muss mit pkill -9 gestoppt werden.
Ursache unklar. Vergleich gegen den Snapshot vom
28.8 zeigt, dass irgendwann mal von firefox 1.4...
auf firefox 3 gewechselt wurde.
[/bauerm]
permanent link
Die Wima benutzt Mantis als Bugtracking/RequestTicketing system,
ein evtl gute Idee fuer den neubau
Ein puppet module fuer puppet.conf und puppet-client geschnuert
Schiermeier hat einen Ubuntu PC statt einem Laptop, evtl sollten
wir den auch administrieren
Um sich auf einem Windows Server _potenziell_ einloggen zu koennen,
muessten wir 45 cent pro Monat _und potenziellem Client_ zahlen.
Was eine Frechheit
[/bauerm]
permanent link
Dokumente wandern jetzt ins Wiki, sehr schoen
Das .zfs in den User Homes macht dann Probleme, wenn
User das mit-archivieren wollen, dann kriegen sie
naemlich $zfs_lifetime_in_days viele Verzeichniszustaende.
Deswegen snapshot=hidden fuer alle. Der
yesterday link
funktioniert trotzdem noch.
[/bauerm]
permanent link
Das Wiki so konfiguriert, dass man sich per mail benachrichtigen
lassen kann, wenn sich was aendert.
Frau Forkels Windows Terminal mit dem Drucker verbunden, Support
vom RRZE weiterhin lausig
Das createuser schmiert (als root) in seinem HOME rum, was an
sich schlechter Stil ist, und jetzt auch noch fehlschlaegt,
weil ziusudra das nicht erlaubt (root=nobody). Wuergaround indem
das createuser jetzt in /var/tmp lebt... choose hab ich durch ein
einzeiliges Shellskript ersetzt.
[/bauerm]
permanent link
Beim Fraunhofer und bei der WiMa vorbeigeschaut, wegen
deren Installationen (Linux)
Der RRZE Ableger am Hugo behauptet, dass man HP Drucker gleichzeitig
ueber USB und Ether ansprechen kann.. Mal ausprobieren
Bjoern hat Doku zum Autoinstaller ins Wiki geschrieben
http://ziusudra.mi.uni-erlangen.de:8080/Installationsserver
[/bauerm]
permanent link
Kurzeinfuehrung Puppet fuer Tobias gegeben
Design einer Automatisierten Installation mit Bjoern besprochen
FAI + Puppet auf Tobias seinem Laptop getestet, _es funktioniert_ !
(Sternstunden der Informatik!)
minimalen Setup fuer Ubuntu als module,
http://waldemar.schlackow.de/node/7
hat einen interessanten Ansatz, sehr viele Packete auf einmal zu installieren...
[/bauerm]
permanent link
Nach ueber einer Woche
1. Keine Antwort von Hinsche wegen Storage-Servern
2. Keine Antwort vom RRZE wegen Druckerh am Pruefungsamtrechner
Wir haben (mir bisher unbekannt) die Eintraege laptop$i.mi.uni-erlangen.de
fuer $i={0..59} im DNS stehen.
Man kann in dhcpd.conf ein
option hostname $host
in die config setzen. Statt
fixed-address $ipaddr
kann man auch
fixed-address $dnsname
nehmen, eine Indirektion mehr, weniger duplizierte Eintraege..
Mit Bjoern und Tobias ueberlegt,
wie der FAI Autoinstaller (und danach Puppet) die hosts
auseinanderhalten kann, ohne das an mehreren Stellen die
gleichen MAC<->IP<->Hostname<->Key Zuordnungen gepflegt
werden muessen.
Die Deppen von Oracle haben OpenSolaris von hinten erdolcht.
Das schmeisst natuerlich den Plan mit dem OpenStorage Server
ueber den Haufen. Mal mit den Linuxhackern der wima reden...
[/bauerm]
permanent link
Hinsche macht uns neue Angebote, die nicht so auffaellig teuer
sind...
Frau Schenker kann uns leider doch keine SunRays mehr geben :(
[/bauerm]
permanent link
Inventar PCs gemacht, fuer den Antrag
Update HardwareListe um Argumente
MoinMoin Wiki auf ziusudra installiert, Patrik
faengt an, Texte einzupflegen
[/bauerm]
permanent link
Update HardwareListe um Argumente
Ein MoinMoin Wiki rudi-mentaer auf der ziusudra eingerichtet.
Liegt erstmal in meinem dortigen HOME. Starten mit:
moin --config-dir=`pwd` server standalone --interface=131.188.10
3.72 --docs=/usr/share/moin/htdocs
Puppet scheint zu funktionieren, solange keine Variablen benutzt werden
Puppet konfig fuer hosts erweitert
Puppet konfig fuer autofs auf Linux
Puppet konfig fuer ntpd auf Linux
auf kalypso mag ntpd nicht starten, weil angeblich
EACCESS auf /etc/openntpd/ntpd.conf. das ist aber
world-readable und strace zeigt, dass das open
ein RDONLY ist...
Der Postfix auf siegfried versucht, die aliases aus YP
zu ziehen. Auf ldap umstellen XXX
Das SMCruby fuer solaris 10 hat kein openssl modul, deswegen
kann puppet nicht funktionieren.
Neubau von Sourcen..
[/bauerm]
permanent link
Aus der veralteten rechner.db eine Liste unsere Aktuellen Hardware
in HTML generiert und an Prechtel geschickt, fuer den Antrag.
Die Bestellformulare vom RRZE funktionieren nicht auf Solaris-OpenOffice,
wohl aber unter Linux.
Hardwareliste fuer den Neubau, CPU server sind erstaunlich teuer...
[/bauerm]
permanent link
Unsere HOME-dir Struktur stammt aus der Zeit, wo
man Studenten und Professoren auf verschiedenen
Servern hatte, und Plattenplatz immer wieder knapp
wurde. Daher hat man gruppenweise mount-points
angelegt. Mit ZFS ist das jetzt sehr obsolet.
Idealerweise wuerde man einfach alle user HOMEs nach
/usr/home/$username legen, und mit einer einzigen
auto.home map
* ziusudra:/zpool/foo/bar/&
waere dann alles erledigt. Geht leider nicht,
weil viele Programme ueberfluessigerweise den
frueheren Wert von $HOME in diverse dot-Files
geschrieben haben :/ Z.B. merkt sich Firefox,
dass Downloads in das alte /usr/home/$group/$name/Downloads
geschrieben werden, was dann entweder Fehler schmeisst,
oder eben auf den alten Server schreibt, wos
keiner mehr findet. Workaround: auf ziusudra
gibts ein /zpool/foo/bar/fakegroups, wo alle
softlinks zu allen HOMEs drin sind, so dass der
alte Pfad noch stimmt, waehrend gleichzeitig alle
HOMEs unter /usr/home gemountet sind. Nachteil:
wir kommen nicht mehr so einfach an die alten Versionen
von den HOMEs (aber wir haben zfs snaphosts davon).
Weiterer Vorteil: wir koennen problemlos Leute von
Gruppe zu Gruppe schieben
[/bauerm]
permanent link
pullbackup hatte noch bugs
- grep statt egrep -> grep -v hat die ziuuser nicht gefiltert
puppet funktioniert weiterhin nicht, im gegensatz
zur docu:
http://docs.puppetlabs.com/guides/more_language.html
der automounter auf solaris mag wildcard specs in auto.home
nicht:
sam/* ziusudra:/.../&
funktionierte nicht
reboot helena, nemo und gesar (memleaks, etc...)
Tobias hackt backups fuer ziusudra homes in das usbbackup
[/bauerm]
permanent link
Powered by Blosxom.