Interessante Kette von Effekten: vor zwei Wochen hat das RRZE zwei DNS Server abgeschaltet,
was auch ausreichend angekuendigt war. Dummerweise haben wir das ueberall, ausser auf
den Fileservern umgebogen. Dadurch gab es eines Vormittags dann auf einigen Maschinen
das Problem, dass der Fileserver ihre Namen nicht abfragen konnte, und deswegen Zugang
verweigert hat. Das wiederum hat Prozesse gestoert, die Dateien auf dem Server offen hatten.
Das Problem haben wir in wenigen Minuten behoben, aber Linux kann anscheinend im Gegensatz zu Solaris
die Verbindung mit dem NFS Server nicht wieder aufnehmen. Und was noch erstaunlicher ist,
die haengenden read/write/open/access/stat/etc syscalls erzeugen _weiter Traffic_ zum
NFS Server, aber ohne jemals wieder in sync zu kommen. Dadurch hatten wir auf dem
Fileserver Switch zeitweise _2Gb/s_ Datenlast. Dass der Server das ohne grosses Jammern
mitgemacht hat, zeigt IMHO, dass wir da eine gute Wahl getroffen haben. Wir sind
dann alle Maschinen durchgegangen und haben nach Prozessen gesucht. Weil die
im Kernel haengen mit syscalls, die nie zurueckkehren, kann man die Maschinen nicht
mit reboot neu starten, also kaltstart.
Puppet mal wieder: wenn man in einem Modul eine Klasse mit Grossbuchstaben benennt, dann wird
das von Puppet ohne Fehler akzeptiert lowercase gewandelt, aber dann nicht gefunden.
Die Fehlermeldung, die dann kommt, enthaelt den Namen ohne einen Hinweis, dass der
so nicht korrekt ist.
Nachdem kein ver&^(^%tes Tool, das von Nexenta mitgeliefert wurde, Netztraffic nach
Hosts sortiert anzeigen kann, hab ich mir mit folgendem Skript beholfen:
snoop -c 9999999 -r -I aggr1 port 2049 | perl -e \
'while(<>) {@f=split; next if $f[0] eq 131.188.54.15; $stat{$f[0]}++;} for $i (sort {$stat{$a} <=> $stat{$b}} keys %stat) { print "$i\t$stat{$i}\n" }'
Das snoop listet 10^7 - 1 Pakete zu Port 2049 (NFS), das perlskript sortiert die Absender IPs nach
Haeufigkeit. Damit hatten wir dann eine Idee, worans liegen koennte.
Ein Tool, das latuernich nicht dabei war, ist darkstat. Das stellt jetzt die Statistiken von
Datenaufkommen pro Host schoen dar. Ufff.