Aus der Tiefe
   


About
Aus der Tiefe, Meldungen des Rechenzentrums in der Cauerstrasse 11

Matthias Bauer und Martin Bayer problems@math.fau.de

Subscribe
Subscribe to a syndicated feed of my weblog, brought to you by the wonders of RSS.

Flavours
There's more than one way to view this weblog; try these flavours on for size.

  • index
  • circa 1993
  • RSS
  • Links

  • Shoestring FoundationMiscellaneous byproducts

  •        
    Tue, 11 Dec 2012

    Tuesday, December 11, 2012 15:01:24


    	Interessante Kette von Effekten: vor zwei Wochen hat das RRZE zwei DNS Server abgeschaltet,
    	  was auch ausreichend angekuendigt war. Dummerweise haben wir das ueberall, ausser auf
    	  den Fileservern umgebogen. Dadurch gab es eines Vormittags dann auf einigen Maschinen
    	  das Problem, dass der Fileserver ihre Namen nicht abfragen konnte, und deswegen Zugang
    	  verweigert hat. Das wiederum hat Prozesse gestoert, die Dateien auf dem Server offen hatten.
    	  Das Problem haben wir in wenigen Minuten behoben, aber Linux kann anscheinend im Gegensatz zu Solaris
    	  die Verbindung mit dem NFS Server nicht wieder aufnehmen. Und was noch erstaunlicher ist,
    	  die haengenden read/write/open/access/stat/etc syscalls erzeugen _weiter Traffic_ zum
    	  NFS Server, aber ohne jemals wieder in sync zu kommen. Dadurch hatten wir auf dem
    	  Fileserver Switch zeitweise _2Gb/s_ Datenlast. Dass der Server das ohne grosses Jammern
    	  mitgemacht hat, zeigt IMHO, dass wir da eine gute Wahl getroffen haben. Wir sind
    	  dann alle Maschinen durchgegangen und haben nach  Prozessen gesucht. Weil die
    	  im Kernel haengen mit syscalls, die nie zurueckkehren, kann man die Maschinen nicht
    	  mit reboot neu starten, also kaltstart.
    	Puppet mal wieder: wenn man in einem Modul eine Klasse mit Grossbuchstaben benennt, dann wird
    	  das von Puppet ohne Fehler akzeptiert lowercase gewandelt, aber dann nicht gefunden. 
    	  Die Fehlermeldung, die dann kommt, enthaelt den Namen ohne einen Hinweis, dass der
    	  so nicht korrekt ist.
    	Nachdem kein ver&^(^%tes Tool, das von Nexenta mitgeliefert wurde, Netztraffic nach
    	  Hosts sortiert anzeigen kann, hab ich mir mit folgendem Skript beholfen:
    
    	   snoop -c 9999999 -r -I aggr1 port 2049 | perl -e \
    		 'while(<>) {@f=split; next if $f[0] eq 131.188.54.15; $stat{$f[0]}++;} for $i (sort {$stat{$a} <=> $stat{$b}} keys %stat) { print "$i\t$stat{$i}\n" }'
    	  
    	  Das snoop listet 10^7 - 1 Pakete zu Port 2049 (NFS), das perlskript sortiert die Absender IPs nach
    	  Haeufigkeit. Damit hatten wir dann eine Idee, worans liegen koennte.
    	Ein Tool, das latuernich nicht dabei war, ist darkstat. Das stellt jetzt die Statistiken von
    	  Datenaufkommen pro Host schoen dar. Ufff.
    
    

    [/bauerm] permanent link