Aus der Tiefe (circa 1993)

Aus der Tiefe (circa 1993)

Mon, 10 Jul 2023

Updates, die von Attacken schwer zu unterscheiden sind, Teil II Am Donnerstag, dem 29. Juni, hat ein Microsoft-Patch für das Active-Directory vom RRZE unseren Netapp Filer für alle Windows-Userinnen unbenutzbar gemacht. Der Filer hat einige Jahre auf dem Buckel, war aber auch extrem teuer. Leider hat er kein ssh-fähiges Interface zu den Filesystemen, so dass etwas Gehacke nötig war, die Daten der Userinnen auf eine andere Maschine umzuziehen (keine Authentisierung...). Die Rechte-Struktur auf der Ersatzmaschine so nachzubaun, dass die Richtigen aufs Richtige von Windows aus zugreifen können, war nicht so einfach. Dass netapp für die älteren OnTAP Versionen keinen Patch zur Verfügung stellt, ist sehr enttäuschend. Und dass ich seit mehr als einer Woche noch drauf warte, dass mein Antrag auf Zugang zur netapp KnowledgeBase bearbeitet wird, auch...
[/bauerm] permanent link

Mon, 26 Jun 2023

advancedpersistentthreat upgrade Am 5. Mai hat ein Ubuntu Update von Ruby das Puppet zerschossen, weil die puppet:/// URLs ab da falsch geparst werden:

Wie ich das gemerkt hab, war meine erste Reaktion: "dann nageln wir die Ruby Version in /etc/apt/preferences.d fest und verhindern den Upgrade". Ja, aber wie krieg ich das auf die betroffenen Rechner, wenn Puppet nicht mehr geht? Zwei Tage später haben die Ubuntesen den Patch wieder zurückgerollert.

Gegen Angreifer gibt mir das System einige Werkzeuge, dass die da nicht root werden und Blödsinn machen. Gegen Package-Updates mit cronapt hilft nix, weil die über Nacht beliebige post-install Skripte als root ausführen. Und nicht Upgraden geht auch nicht, weil die CVEs im Stundentakt einschlagen. Und die Maintainer brauchen gar nicht bösartig oder inkompetent sein, bei 10⁶ Packages und Abhängigkeiten und schlecht zu testenden Nebeneffekten (wie den seltsamen puppet:/// URLs) haben die keine Chance, keine Fehler zu machen.

[/bauerm] permanent link

Fri, 17 Mar 2023

	Zabbix-Proxy auf Ubuntu
	   Nach dem Upgrade auf den neuen Zabbix Proxy kam 
             systemd[1]: zabbix-proxy.service: Can't open PID file /run/zabbix/zabbix_proxy.pid (yet?) after start: No such file or directory
	   Rumgesucht, den Pfad gibts, gehoert den Richtigen. Ists in unserer Config falsch???
	   In /etc/zabbix/zabbix_proxy.conf kann man ein PidFile angeben, das
	   ist der Pfad zum PID file. Kann man machen. Aber in /etc/init.d/zabbix-proxy:
                DIR=/var/run/zabbix
                PID=$DIR/$NAME.pid
           wird das hart druebercodiert. Fein, dann nehmen wir eben den Pfad.
           Hilft aber nix, weil auf PoetteringOS alles nochmal wo ganz anders stehen muss, 
           naemlich in /lib/systemd/system/zabbix-proxy.service:
                PIDFile=/run/zabbix/zabbix_proxy.pid
           Aber auch diesen Pfad gibts, gehoert den Richtigen, usw.
	   In den Logs steht dann aber statt was mit Pidfile:
		The proxy does not match Zabbix database. Current database version (mandatory/optional):
		05000000/05000004. Required mandatory version: 06000000.
	   Die Vehlermehldung selbst war also phalsch, nicht das Pidfile, sondern das
	   Datenbankschema ist das Problem. Nachdem der Proxy eh nur umschaufelt, reichte
	   es, das sqlite-file zu loeschen, damit eine neu schematisierte DB angelegt wird.

[/bauerm] permanent link

Tue, 07 Jun 2022

	Ubuntu Upgrades...
	Aus "Never change a running system!" folgt natuerlich "Never upgrade a running system!".
	Und die Kwalitätssoftware, die man in PoetteringOS so hat, macht das deutlich:
	Wenn man Ubuntu in zwei Schritten von xenial ueber bionic auf focal upgraded, dann aendert
	sich die Version von fail2ban (klar). Und verschiedene Versionen von fail2ban haben
	verschiedene Ideen was der loglevel bedeutet. In der alten Version war 
	  loglevel = 1
	ein sparsamer Logging-modus (INFO), unter der Version auf focal ist es 
	der "Erzaehl mir mehr von deiner Blinddarm-OP" Modus. Siehe:
	 https://github.com/fail2ban/fail2ban/issues/2008#issuecomment-355189381
	Dadurch ist die Platte mit /var/log vollgelaufen. 
	Und was macht fail2ban, wenns keine logs zum Regexp-Matchen mehr hat?
	Nix mehr blocken...

[/bauerm] permanent link

Thu, 12 May 2022

	
	SIGILL
	taucht wieder auf, und stoert meine Vorlesung! Die libopenblas, die
	von Sagemath 9.4 im eigenen Baum installiert wird, kompiliert mit den Defaults, d.h
	der Compiler sucht sich die exotischsten Features der CPU, auf der gebaut wird, und
	zementiert die Opcodes in die dynamische Bibliothek. Und die crasht dann auf allen
	anderen Intel CPUs, die irgendeins der Features nicht haben. Wuergaround:
	In $SAGEPATH/build/pkgs/openblas/spkg-install die Zeilen
	  
	  OPENBLAS_CONFIGURE="$OPENBLAS_CONFIGURE DYNAMIC_ARCH=1"
          OPENBLAS_CONFIGURE="$OPENBLAS_CONFIGURE TARGET=CORE2"
	  
	so einbaun, dass kein anderes TARGET definiert wird. Dann mit
        ./sage -p openblas 
	baun.  Das kompiliert die libopenblas mit den Features 
	eines Intel Core2, was effektiv ein Celeron ist (Baujahr 2007, TÜV seit 2013 abgelaufen). 
	Sollte auf allen Intelkisten hier im Gebaeude gehen, im CIP Pool getestet. Tut.

[/bauerm] permanent link

Tue, 22 Mar 2022

	To the universal deployment of IPv6
	war ein beliebter, ironischer Trinkspruch auf IETF Meetings. Wie universal
	das ist, kann man an folgendem sehen. Wenn man den sshd mit
	der Konfig X11Forwarding yes und X11UseLocalhost yes
	startet, dann geht in dem Default-Setup von Ubuntu kein X-Forwarding,
	wenn man keine IPv6-Loopback-Addr ([::1]) auf dem lo
	Interface hat.Dazu gibt es keine verdammte Fehlermeldung, ausser 
 	   "Failed to allocate internet-domain X11 display socket."
	und in der steht nicht, warum. Wenn man dann in die C-sourcen von OpenSSH schaut,
	findet man (beim aktuellen OpenSSH) in channel.c in der Zeile 4744:

	  	for (display_number = x11_display_offset;
		    display_number < MAX_DISPLAYS;
		    display_number++) { 
			    ...
			    getaddrinfo(NULL, strport,
			    &hints, &aitop))
 				...
 				sock = socket(ai->ai_family, ai->ai_socktype,
			    	ai->ai_protocol);
				...
		  		if (bind(sock, ai->ai_addr, ai->ai_addrlen) == -1) {
				debug2_f("bind port %d: %.100s", port,
				    strerror(errno));
				close(sock);
				...
		}
		if (display_number >= MAX_DISPLAYS) {
			error("Failed to allocate internet-domain X11 display socket.");
			return -1;
		}
	D.h. der socket call funktioniert auf einem PoetteringOS ohne IPv6,
	wenn die ai_family == AF_INET6 ist, aber das bind
	schlaegt fehl, und darauf gibts nur eine Debug-Nachricht auf Level DEBUG2.
	Und weil das keinen Abbruch der Schleife erzwingt, zaehlt die aeussere Schleife
	froehlich bis MAX_DISPLAYS, und stirbt dann mit einer eher obskuren Vehlermehldung.
	Wenn man die AddressFamily vom Default any auf inet
	umstellt, geht wieder alles. 
	WeheheeeeTeeheEhehhhfFFFF

[/bauerm] permanent link

Fri, 18 Mar 2022

	Linux vs. Internet
	Unser Puppet benutzt an diversen Stellen 
	   @fqdn 
	bzw
	   $facts['networking']['fqdn']
	Und das schlägt gelegentlich fehl, weil der FQDN überraschenderweise 
  	   GROSSBUCHSTABEN
	enthält. WARUM? 
	Also: Bei richtigen Betriebssystemen, für Server und so, steht die FQDN
	in einem Config-File. Bei Linux steht nur der Hostname in einem
	Config-File, das hostname Kommando kann die FQDN laut Manpage
	nicht setzen. Wenn es den FQDN sucht, nimmts jede IP auf jedem Interface und
	macht da drauf einen DNS-reverse Lookup (d.h. wenn grad kein Netz/kein DNS,
	und kein Eintrag in /etc/hosts, dann hat die Maschine gar keinen FQDN).
	OK, das erklärt aber die GROSSBUCHSTABEN nicht.
	Mit Hilfe vom DNS Admin vom RRZE folgendes erfahren: Die DNS Anfrage liefert das,
	was beim nächsten DNS Server im Cache liegt. Und der merkt sich die letzten Antworten
	auf Anfragen, zusammen mit der Anfrage. Und weil im DNS GROSSkleinschreibung egal
	ist, kann jeder nach z.B. WwW.mAtH.fAu.De fragen. Und das wird
	gespeichert. Und die nächste Antwort auf die Anfrage nach www.math.fau.de
	enthält die CaMeLcAsEd Schreibung. Und wenn die Anfrage von hostname -f
	kommt, weil der Rechern mit Hostname www seine FQDN rausfinden will,
	dann fragt der danach als WwW.mAtH.fAu.De beim Puppetserver. Und der
 	sagt: Host unbekannt.
	Also: eigenen Puppet-Fact @FqDn schreiben, der immer lowercase ist...

[/bauerm] permanent link

Thu, 14 Oct 2021

14.10.2021,

	Wenn man von einem NFS gemounteten Client, auf einen ZFS Snapshot zugreifen will, klappt das nur
	 wenn der NFS Export mit der Option "crossmnt" exportiert wurde.
	 Da die Snapshots als Readonly "Filesysteme" eingehaengt werden, kann man vom Client aus nur so auf
	 die Snapshots z.B. fuer die Wiederherstellung von Files zugreifen.
	 -> Again what learned :)

[/bayer] permanent link

Thu, 07 Oct 2021

        Nachtrag zu dem SIGILL in libopenblas
        Post: Die libopenblas ist laut
           SageMath/build/pkgs/openblas/spkg-install.in
        mit
	   DYNAMIC_ARCH=1
	gebaut. D.h. die sollte alle Architekturen koennen. Man kann der openblas mitgeben,
	welche man moechte, und zwar mit 
	   OPENBLAS_CORETYPE=$ARCH
	wobei ARCH den hippen West-coast Intel-Codenamen angibt (Sandybridge, Skylake, Nehalem, ...)
	Aber: das einzige, was sich aendert, wenn ich auf einem Sandybridge-Xeon das Sagemath
	mit 
	 env OPENBLAS_CORETYPE=Sandybridge 
	starte (und dann plot(cos(x), (x,0,10)) ausfuehrn lasse), ist,
	dass im Stacktrace nach dem SIGILL jetzt
	  /software/sagemath/.../lib/libopenblas.so.0(sdot_k_SANDYBRIDGE+0xfd)
	statt
	  /software/sagemath/.../lib/libopenblas.so.0(sdot_k_NEHALEM+0xfd)
	steht. Man fragt sich...

[/bauerm] permanent link

	Wordpress, das Blogging Framework

	Wenn man in Wordpress™ einen Blogeintrag mit post_name = Mein Sommerurlaub 2021 macht,
	und ein paar Tage später einen mit post_name = Mein Sommerurlaub 2021, dann überschreibt
	der zweite den ersten. Und das ist OK so, weil das ist ein Blog Eintrag, und wenns einen neuen
	gleichen Namens gibt, dann soll der den alten ersetzen.
	
	Wenn man ein Kalender-Plugin in Wordpress einbaut, dessen ENDPOINT
	Events heisst, sieht man unter $url/events und $url/index.php/events den aktuellen
	Kalender, genau wie erwartet.

	Wenn danach jemand ein Posting anlegt, dass Events heisst, dann ist der Kalender weg,
	und man sieht statt dessen dieses Posting. Weniger OK, das.
	
	Es nützt nichts, das Posting umzubenennen. Ich hab knietief in DB-Dumps gewühlt,
	um den Eintrag zu finden, der die rewrite-rule vom Kalender kaputtmacht, und nix gefunden.
	Wenn man das Posting, das mal Events hiess, aber kopiert und dann löscht,
	funktionierts wieder. Weissderhimmelwarum...

[/bauerm] permanent link

Wed, 15 Sep 2021

	
	
	Ein Tag, den man im Kalender anstreichen muss: 
	Eine SIGILL (Illegal Instruction) hab ich
	glaubich zum letzten mal Ende der 90er gesehen. Dieser SIGILL wird
	von der libopenblas.so geworfen, die mit Sage 9.3 ausgeliefert wird.
	Diese Lib ist scheinz mit Gentoo-artigen -O99 -malles_was_geht kompiliert
	worden. Auf dem System des Autors/der Autorin waren die entsprechenden Intel Extensions
	da, auf den meisten von unseren gibts die nicht. Ein Würgaround waers, die
	Compiler-Options von dieser Lib aus dem Build-System von Sage rauszufummeln, und die
 	Lib mit diesen Options, aber ohne das -malles_was_geht lokal zu baun,
	und das shared object file zu ersetzen...

[/bauerm] permanent link Wed, 07 Jul 2021 Ubuntu macht Upgrades einfach. Auf dem monitor liess sich das von xenial auf bionic ohne reinstall hochziehen. Also noch das /etc/apt/sources.list umgebaut und auf den bionic-teil von unserem Mirror zeigen lassen. Aber manche Packages, die alle anderen bionic-Kisten sehen, sieht der monitor nicht, weswegen puppet-runs abbrechen, undundund. Nach ganz viel Gefuddel findet man raus, dass zusaetzlich zu amd64 auch i386 Pakete gesucht — und nicht gefunden werden, und dann scheint das apt update lieber stehen zu bleiben. Ein "grep -r i386 /etc/" bringt nix zutage. Nach einigem Suchen im Internerz stellt sich raus, dass beim Upgrade die "foreign-architecture" i386 nach /var/lib/dpkg/arch geschrieben wurde, wo man als Unixler latuernich gar nicht suchen wuerde, weil Configfiles sind in /etc/. Mal den Poettering anhaun, ob er auch noch die Windows-Registry nachfrickelt... [/bauerm] permanent link Mon, 15 Feb 2021 Kwalitaetssoftware, woheen man bleeect: der smartd auf neubau-55-018 meldet am Samstag: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 193 to 181 Die Festplatte war also nicht mehr 193° heiss, sondern nur noch 181° Celsius. Wenn man mit smartctl -l devstat /dev/sda die Platte fragt, erfaehrt man: [..] 0x05 0x020 1 40 --- Highest Temperature [..] dass die Platte nie waermer als 40° war. Wehehe Teeheh Ehhefffff [/bauerm] permanent link Wed, 20 Jan 2021 python3 cryptography x509 Mein altes certrenew.sh skript vom März 2017 tut nicht mehr. Da wurde mit tempfiles, awk, sed und wildem Gescripte ein Cert per openssl s_client runtergeladen, umgebaut und mit neuem key zu einem CertificateSigningRequest zusammengebaut. Vermutlich hat sich der Output von OpenSSL leicht veraendert und tschoing, schepper nix geht mehr. Also das ganze nochmal in Python, mit dem allseits verwendeten Module cryptography. Das hat AFAICS keine Moeglichkeit, um ein Cert von einem laufenden Service runterzuladen (dazu muesste es SSL, TLS und mindestens noch STARTTLS koennen). Also mit socket + ssl (standard-libraries in Python) probiert. Das ssl hat tatsaechlich eine getpeercert() Methode, aber die liefert ein Dictionary von Strings, zu denen man dann raten kann, aus welcher abgedrehten X.503-Erweiterung sie stammen, bzw was die ObjectID von der Erweiterung ist. Also doch wieder openssl, Zert rausparsen und in cryptography.x509.load_pem_x509_certificate() stopfen. Das stirbt sofort, und liefert als fehlermeldung einen Link aufs FAQ Why can't i import my pem file. D.h. das ist eine beliebte Frage, es geht nicht, und sie fixens nicht. Ein wegdokumentierter Bug. Der besteht darin, dass man einen String uebergeben muss, der mit -----BEGIN losgeht, mit dem passenden -----END endet, und dazwischen duerfen nur Zeilen zu exakt 64 Zeichen stehen. Also wiiiieeder elendes Stringzerparsen und -umformen. Ok, fein, er frisst das Zert, und man kann alle Extensions rausholen. Aber die leben in einer eigenen Welt/Namensraum, der nicht der gleiche ist, wie die, aus denen man CertificateRequests bauen kann. Dort sinds naemlich ExtensionTypes statt Extensions. Und es gibt keine Konvertierfunktionen AFAICS. Also wiiiieeeder von hand die OIDs in absurde Aufrufe wie csr.add_extension(x509.ExtendedKeyUsage([x509.oid.ObjectIdentifier('2.5.29.37.1')]), critical=True) stopfen, und wenn das DFN-CERT mal beschliesst, andere in die Zerts zu packen, dann verwerfen Sie die Antraege aus meinem Code... Nebenbei bemerkt, dass die OIDs nicht etwa in zwei sauberen Dicts oder davon abgeleiteten Strukturen gelagert werden, in denen man schnell mal in beide Richtungen nachschaun koennte, sondern in 1. einer Methode, die einen String ala '1.2.3' kriegt (woher man den wissen sollte?) x509.oid.ObjectIdentifier() 2. Konstanten, z.b. x509.ExtensionOID.SUBJECT_ALTERNATIVE_NAME 3. implizit in Methoden x509.BasicConstraints() Die Parameter fuer KeyUsage in csr.add_extension sind etwas anders als in den Policies von OpenSSL, so dass ich jetzt raten durfte, was nonrepudiation in dieser Sprache ist. Quintessenz/Takeaway/TL;DR Alles was der Peter Gutmann vor Ewigkeiten ueber X.509 geschrieben hat stimmt immer noch. [/bauerm] permanent link Mon, 21 Sep 2020 Drecksglump, elendiges! Es reicht nicht, wie vorher behauptet, aus, auf einer Nexenta mit Coraid Shelfs die symlinks von /dev/dsk/ nach /devices/ethdrv/ zu checken. Das luegt eventuell, zum Beispiel am letzten Mittwoch, wo wir von dem einen auf den anderen Head umgeschenkt haben. Danach war dann ein ganzes Shelf weg, dh wenn jetzt noch eine (nicht-spare, nicht-cache) Platte ausfaellt, wirds katastrophal. Die Links waren da, also haben devfsadm und cfgadm ihre Arbeit getan, aber vielleicht nicht der Treiber von Coraid. Wenn man wirklich wissen will, ob die Nexenta alle Platten sieht, muss man ethdrvadm list-devices rufen und schaun, ob hinter jedem Plattennamen die Nummer des Shelfs steht, wo die drin ist. Noch bloeder: Weil der eine sichtbare Shelf eine Spare Platte hatte, hat die Nexenta angefangen, damit einen Mirror zu resilvern. Also drei Tage warten, bis ein weiterer Head-schwenk ratsam ist. Das hab ich jetzt grad angeworfen. Weil die wiederentdeckten Mirror-platten schon im Zpool bekannt waren und Metadaten drauf sind, geht das jetzt hoffentlich schneller. Ja, war schneller. Nach 4 Stunden 46 Minuten war die Ruecksilbern fertig, die eingesprungene Spare (die leer war, und wo das Ruecksilbern mehrere Tage gedauert hat) ist dank zpool detach coraid01 $plattenname wieder als Spare verfuegbar. UFFFFFFF. [/bauerm] permanent link Fri, 17 Jul 2020 systemd-networkd Heute frueh hat der networkd anscheinend spontan beschlossen, dem Ether Interface auf unserem neuen Mailserver eine IP aus einem fueheren Leben wiederzugeben — ohne die aktuelle zu loeschen. D.h ein Teil vom Traffic geht mit einer IP raus, die inzwischen noch ein zweiter Rechner im Netz hat, und alles geht schief. Rauspingen geht nicht, gepingt werden geht. Insbesondere geht kein DNS mehr -> keine MX lookups -> keine rausgehende Mail -> Veraergerte User. Ich hab als alter Stevens-"TCP/IP Illustrated"-Graubart mit ifconfig nachgeschaut. Weil die Linuxler die Interaktion Userspace/Kernelspace wohl verbockt haben (sind ja mindestens zwei unterschiedliche Teams), hat ifconfig nur die korrekte Adresse gezeigt. Ohne den Herrn Ruderich waer ich nicht (oder erst viel spaeter) draufgekommen, mit ip addr nachzuschaun. Naechstes Linuxfeature: Wenn man mit ip addr delete $dieip dev $dasinterface die Adresse wegloescht, wird die Default-Route mitgeloescht, auch wenn eine zweite Adresse auf dem Interface existiert, die im gleichen Netz liegt. Also nachgefixt. Nach systemctl disable systemd-networkd.service systemctl mask systemd-networkd.service kill -9 $(die ip von systemd-networkd) sollte der auch nicht mehr reinpfuschen. De-installieren kann man ihn nicht, weil er teil des systemd Packages ist. Mehr und mehr komm ich zur Überzeugung, dass man Server ausschliesslich mit *BSD oder Alpine Linux betreiben sollte [/bauerm] permanent link Thu, 16 Jul 2020 Den Mailserver auf neue Hardware und neues Ubuntu gebracht. 1. postfix/dovecot angehalten 2. /var/mail weggesichert 3. /var/mail auf neuer maschine ge-rsync-t 4. Zertifikate, keys, kerberos keytabs von altem auf neuen server gezogen 5. Weil apache2 -> hiawatha umstellung, keys+cert+chain entsprechend umgewandelt 6. auf beiden maschinen /etc/network/interfaces mit neuen addrs versehen 7. reboots 8. hostnames umgestellt und in diversen configfiles geaendert 9. postfix/dovecot/webmailer restart 10. Rewrite rules in hiawatha reingebaut, damit der webmailer unter allen beliebten URLs erreichbar ist 11. Firewall rules auf dem neuen Mailer angepasst 12. Zuruecklehnen und den einprasselnden SMTP/IMAP/Submission Verbindungen zuschaun. Und weil ja nie was glattgehen kann: 13. Feststellen, dass ein paar ConfigVersehen aus der Gruenderzeit dieses Deparments uns beissen koennen: Bei der LDAP+Kerberos Einfuehrung gabs Verwirrung, weil in LDAP (genauer in der posixAccount Class) die "uid" nicht die POSIX uid ist (waer ja auch zu einfach). Die "uid" ist — nicht die unique ID, weil das ist ja der Distinguished Name — der login-name, die POSIX uid heisst "uidNumber" (logisch). Und so kam es, dass wir Accounts angelegt hatten, die eine uid als uid hatten. Dass man sich dann nicht einloggen kann, weil die POSIX-uid als name im kerberos benutzt wird statt dem usernamen, fiel schnell auf. Statt die rauszuloeschen, haben wir damals einfach noch eine uid drangepappt, naemlich den username. Und das ging ganz wunderbar, weil nslcd+pam_krb5 irgendwie die nicht-numerische uid genommen haben. Das ist mit dem neuen sssd genau andersrum, der nimmt lieber Zahlen, wenn vorhanden. Und die zehnoderso User, die damals unbewusst LDOPfer des Irrtums waren, kamen nicht mehr an ihre Mails. Dreck. Mein altes fixusername Skript, das mit ldap_modify und changetype: modify replace: uid uid: $newname funktioniert hat, tut warumauchimmer nicht, wenn es zwei uids fuer den DName gibt. Loesung ist changetype: modrdn newrdn: uid=$newuid deleteoldrdn: 1 Mit for i in `seq 0 9`; do ldapsearch "(uid=$i*)"; done durchgeschaut und alle korrigiert. [/bauerm] permanent link Mon, 09 Mar 2020 Eingewachsene Fussnägel und Protokolle von Microsoft Das RRZE hat — völlig zurecht — das über 30 Jahre alte, von Anfang an total unsichere SMB1 Protokoll zentral abgeschaltet. Jede Implementation bei uns (Windows10, Samba, Netapp) kann SMB2 oder höher ⇒ sollte bei uns keine Probleme machen. Aaaaaber: GroupPolicies werden vom DomainController nicht per LDAP überreicht, sondern in einem SMB-Share. Unser NetAppserver muss SMBx mit dem DC sprechen, damit er die ziehen kann. Und wenn er sie nicht hat, funktioniert CIFS in Richtung unserer WindowsClients nicht richtig. Es gibt keine Fehlermeldung, manche Laptops/User können die Shares von der Netapp nicht sehen, manchmal kann man Lesen, manchmal Schreiben, manchmal dauerts ewig... Aber waruum kann die NetApp die shares vom DC nicht kriegen? Laut > options cifs [..] cifs.smb2.enable on [..] Warum kriegt man keinen vernünftigen Fehler auf > cifs testdc sondern CIFS: Warning for server \\FAUDC1: Connection terminated. ??? Wohl weil er versucht SMB1 mit dem DC zu sprechen. Neben "options cifs" gibts auch noch cifs control show und da sieht man smb1.enable und smb1.client.enable Wenn man die auf "off" setzt, kommt die Warnung, dass die Netapp (oder ein "client"?) jetzt gar nichts mehr machen kann (stimmt auch, wie ein "cifs testdc" zeigt). Die supergeheime Option options cifs.smb2.client.enable on wird von der Netapp CLI nicht angezeigt, wenn man mit "options" sich alle Einstellungen dumpen lässt. Sobald man das aber eingegeben hat, scheint zumindest ein Kunde wieder glücklich zu sein. Kwalitätssoftwähr wohin man blickt. [/bauerm] permanent link Tue, 17 Dec 2019 Puppetpuppetpupppet: Es gibt eine interface resource, aber die betrifft nur Ports an Cisco (und ausschliesslich Cisco) Swiches und Routern. Ich muss wohl mein eigenes puppet plugin fuer Linux Interfaces basteln. Angesichts des Minenfelds aus networkmanager, netplan, systemd-services, usw wird das wohl nicht einfach werden... Mercurial: Wenn man verzweigen will, muss man vorher wissen, dass man verzweigt. Also Workflow: % hg branch "test ob feature \$dings in puppet geht" % hg commit % hg branches # zweigt jetzt zwei, und "default" ist "inactive" % fuddl % hg commit % schraub % hg commit % bastel % hg commit # wenns geklappt hat: % hg merge default # danach gibts nur noch einen branch # wenns nicht geklappt hat: % hg commit --close-branch # der "test ob..." branch wird ab jetzt ignoriert % hg up default # danach gibts nur noch einen branch [/bauerm] permanent link Mon, 09 Dec 2019 09.12.2019, Nach dem wir immer wieder Fehler auf dem neuen Fileserver fuer die Studenten hatten, haben wir uns entschlossen von FreeBSD auf Ubuntu zu wechseln. Leider wurden die Fehler damit nicht behoben (Datenuebertragungsfehler). Wir konnten das ganze auf den Super Tollen High Speed Cache Controller von HP eingrenzen. HPE Smart Array P816i-a SR Gen10 Bios Version 1.98 Alle Versuche in der Konfiguration des Controllers dem Fehler Herr zu werden schlugen fehl. Schluss endlich brachte ein Bios-Update auf Version 1.99 Abhilfe. Bis jetzt (33 Tage Uptime) ist der Fehler nicht mehr aufgetreten. [/bayer] permanent link Fri, 13 Sep 2019 12.09.2019, Neuer Fileserver fuer den Cip-Pool ist in Betrieb. Nutzdaten im ZFS verfuegbar immo ca. 9TB. Dafuer haben wir auch die Quota auf 3GB pro User angehoben. 2 SSDs a 800GB als Cache-Device im ZFS sollen fuer die noetige Geschwindigkeit sorgen. [/bayer] permanent link Tue, 20 Aug 2019 20.08.2019, Netapp Cluster FAS2552 Shelf, Disk und Firmwareupdate durchgefuehrt. Der FAS2552 Cluster hat jetzt die Version 8.2.5P3 7-Mode. Auf die naechsten 1074 Tage UPTIME :) [/bayer] permanent link Fri, 16 Aug 2019 16.08.2019, Netapp FAS2554 Diskupdate und Firmwareupdate durchgefuehrt. Die FAS2554 hat jetzt Version 8.2.5P3 7-Mode. Auf die naechsten 1070 Tage UPTIME :) [/bayer] permanent link Wed, 24 Jul 2019 24.07.2019, Maple Bug aufgedeckt: abs(3/(4 - 4/(1 + sqrt(3))) + sqrt(3)*I/(4 - 4/(1 + sqrt(3)))); # result: (1+sqrt(3))/2 maple Maple_Error_2019 Workaround: a := (4 - 4/(1 + sqrt(3))); ea := evala(a); b := abs(3/ea+sqrt(3)*I/ea); evala(b); Fehler seit Version 2017 vorhanden. [/bayer] permanent link Fri, 19 Jul 2019 19.07.2019, Nach einem Boot von Ubuntu 18.04 wieder kein DNS. sudo apt install resolvconf Hier die DNS-Serve eintragen: /etc/resolvconf/resolv.conf.d/head nameserver 131.188.0.10 nameserver 131.188.0.11 Jetzt den Service restarten: sudo service resolvconf restart [/bayer] permanent link Fri, 21 Jun 2019 Bugs-as-a-Service-through-DBus von Ubuntu: Ubuntu Bionic kommt mit systemd (erster Fehler). Und systemd hat einen "service" systemd-resolved.service (zweiter Fehler, weil wenn der nicht laeuft, gehen keine reverse-lookups, und dann evtl auch keine filterregeln, nfs/cifs/sshfs-mounts, und dann evlt auch keine weiteren systemctl services). Und im Gegensatz zu anderen services, die man gar nicht totkriegt, startet systemctl diesen Dienst nicht neu, wenn er ausfaellt (dritter Fehler: die Funktionalitaet war mal eine Bibliotheksfunktion in libresolv bzw glibc, und hat funktioniert solang man nicht /etc/resolv.conf oder bei Linux/Solaris /etc/nsswitch.conf kaputtgemacht hat). Also faellt er aus. Und es gibt keine Fehlermeldung von `journalctl -xe` dazu (vierter Fehler). [/bauerm] permanent link Mon, 03 Jun 2019 $ find /usr/ -perm -4000 /usr/lib/dbus-1.0/dbus-daemon-launch-helper /usr/lib/openssh/ssh-keysign /usr/lib/eject/dmcrypt-get-device /usr/lib/chromium-browser/chrome-sandbox /usr/lib/xorg/Xorg.wrap /usr/lib/kde4/libexec/fileshareset /usr/lib/policykit-1/polkit-agent-helper-1 /usr/sbin/pppd Das sind Binaries, die auf unserem Ubuntu mit setuid Bits ausgeliefert werden. Und wenigstens ein paar davon haben schon ein Vorstrafenregister: dbus-daemon-launch-helper dmcrypt-get-device Xorg.wrap fileshareset pppd [/bauerm] permanent link Thu, 23 May 2019 Umgekehrtes Problem zu letzter Woche: auf einem Server versucht 'apt-get dist-upgrade' unser meta-Packet fuer Arbeitsplaetze zu installieren. Das Ding hat laut dpkg-query keine Reverse-Dependencies, d.h. es gibt kein Packet unter der Sonne, das zum Upgraden dieses Packet braeuchte. Und es gibt keine Puppet-Rule, die es installieren soll, und es gibt keinen Eintrag in den diversen apt-spezifischen Directories, dass es installiert werden sollte. Vollkommen unklar, woher der Wille zum Install kommt. Explizit verbieten kann man das durch eine Datei in /etc/apt/preferences.d/ mit dem Inhalt Package: $das_unerwuenschte_Packet_der_Wahl Pin: release n=xenial* Pin-Priority: -3 (Negative Prioritaet verhindert Installation. (Prioritaet == 0 erzeugt laut manpage undefined behaviour)) [/bauerm] permanent link Thu, 16 May 2019 Ueber Nacht hat ein Ubuntu Update unser dep-base Packge geloescht, das als Meta-pacakge alle unsere Wunschsoftware enthaelt. Saudumm. Das dep-base hat jetzt ein "Essential: Yes" im control file. [/bauerm] permanent link Thu, 09 May 2019 02.05.2019, Mit den Metapaketen von Ubuntu 16.04 linux-image-generic-hwe-16.04-edge und linux-headers-generic-hwe-16.04-edge werden die Kernel 4.15.x installiert die mit Virtualbox und NVidia problemlos zusammenarbeiten. Die Kernel-Module werden mit den 4.15er Kernel fehlerfrei gebaut. Rsync ueber SSH auf eine alte interne NAS-Box die keine Updates mehr bekommt. rsync -vah -e "ssh -oKexAlgorithms=+diffie-hellman-group1-sha1" Matlab 2018b auf einem Rechner mit Ubuntu 16.04 ohne X benoetigt das Paket libxmu6 sonst: Fatal Internal Error: Unexpected exception: 'N9MathWorks6System15SimpleExceptionE: Dynamic exception type: std::runtime_error std::exception::what: Bundle#8 start failed: libXt.so.6: cannot open shared object file: No such file or directory ' in createMVMAndCallParser phase 'Creating local MVM' [/bayer] permanent link Fri, 03 May 2019 Mindestens ein Wordpress plugin (redirection) aendert beim Upgrade mit "ALTER TABLE" (ALTER SCHWEDE) seine Lieblingstabelle. Dass sie ausserdem VIEWs auf die gleiche Tabelle mit expliziten Spaltenname gemacht hatten, vergessen sie leider. Und dann schmeißt das Plugin Errors zu nicht-existenten Feldern, und man muss den VIEW explizit nachfrickeln, nur halt mit den neuen Fehldern.... [/bauerm] permanent link Thu, 11 Apr 2019 Aus gegebenem Anlass verlinken wir hier mal einen Artikel, den die EU Internet Referral Unit für terroristische Propaganda halten. [/bauerm] permanent link Wed, 10 Apr 2019 Wies ausschaut, kann virtualbox weder in Version 5.x noch 6.x auf 4.4.0-14[3-9] Kerneln laufen. Problem ist ein — im weitestens Sinne des Wortes — Treiber, der im post-install Skript kompiliert und dann installiert wird (d.h. man kriegts normalerweise nicht mit). Der C-Code versucht die Funktion get_user_pages() zu rufen, nimmt aber eine andere Anzahl Parameter als der 4.4 Kernel ab 143 vorschreibt. https://askubuntu.com/questions/1126591/virtualbox-error-after-last-ubuntu-software-update Loesung auf einem Sekretariats PC: Per hand den 4.4-142 mit headern installiert, in grub.cfg alle neueren Kernel entfernt, reboot virtualbox-5.1 neu installiert, tut Man kann die Periode, in der FAUBox nachschaut, obs was zu synchen gibt, veraendern. Sollte das nicht ueber die GUI gehen, dann gibts noch eine Zeile in %AppData%\PowerFolder\*-Folder.config die massenweise "true" enthaelt. Die nicht-0, nicht-1 Zahl da drin ist die Anzahl, das einzelne "m" oder "h" gibt an, obs Minuten oder Stunden sind. [/bauerm] permanent link Thu, 04 Apr 2019 Egal was das Netz sagt, die Maximale Upload Groesse in unserer Wordpress Version heisst fileupload_maxk und wird in und mit wp-admin/network/settings.php gesetzt, und das zeigt unser Admin Menü nicht an. Die Eintraege in php.ini, wp-config.php uswusf. sind nur zum Spass da, und werden ignoriert. Weitere interessante Uploadlimitierende Variablen in den Wordpress Sourcen sind: memory_limit upload_max_filesize upload_size_limit WP_MEMORY_LIMIT Die hochzudrehen hat keinen Einfluss, weil irgendwo noch ein Minimum gebildet wird. Nach Pruefen und bis zum endgueltigem Ausgeben der Maximalen Upload Groesse ist der Zahlenwert so oft fehlerhaft von MB nach KB nach B und zurueck gewandelt worden, dass uns ein MegaByte fehlt. Aber was will man erwarten, ist ja PHP. Und natuerlich muss man auch die MaxRequestSize in der hiawatha.conf aufbohren. [/bauerm] permanent link Wed, 03 Apr 2019 Glorio! Wenn man weiss, dass der Hersteller Alpha in seinen Uninterruptable PowerSupplies Messgeraete von Riello verbaut (obwohl der Verkaeufer eine MIB von NetMan gemailt hat), und man sich die Finger blutig sucht, kann man mit snmpwalk -v 2c -m RIELLOUPS-MIB -M /usr/local/share/snmp/mibs:/tmp/mibs -c public $UPS_IP 1.3.6.1.4.1.5491 die Messwerte mit menschenverstaendlichen Namen auslesen. Ich hab die MIBs im Source-Tree von librenms gefunden. [/bauerm] permanent link Tue, 29 Jan 2019 Die Konfiguration von slapd liegt nur zum Teil in /etc/ldap/slapd.conf. Dort kann man einstellen, was fuer eine Datenbank als Backend genommen wird, und einige Optionen dafuer setzen, aber halt nicht alle. Insbesondere nicht, dass ein BerkeleyDB/SleepyCatDB Backend seine Transaktionslogs bitte wieder loescht, nachdem sie in die Datenbank integriert sind. Das geht mit einer Zeile in /var/lib/ldap/DB_CONFIG: set_flags DB_LOG_AUTOREMOVE Muss man erstmal draufkommen, wenn die Platte volllaeuft... [/bauerm] permanent link Tue, 15 Jan 2019 Stellt sich raus, dass die Ubuntu/Debian Welt mindestens drei Ansaetze hat, einem Interface mehrere IP Adressen zu geben https://wiki.debian.org/NetworkConfiguration#Multiple_IP_addresses_on_one_Interface Und mindestens eine davon ist "dangerous"! Spannende Zeiten.... Ausserdem stellt sich raus, dass man einem DHCP Server explizit sagen muss, dass zwei "subnet"s auf dem gleichen Interface liegen, mit "shared-networks" drumrum. Hat irgendjemand im letzten Jahr aus dhcpd.conf rausgeloescht, seit dem ging die autoconf von Laptops nicht mehr... [/bauerm] permanent link Tue, 25 Sep 2018 Seit mindestens einem Jahr liefert zabbix keine Temperaturdaten mehr. Auf Anfrage eines HPC Rechnenden neu implementiert, zieht jetzt das Maximum aller Core-Temperaturen pro Rechner. Bei der Gelegenheit --- aber wohl ohne Zusammenhang --- hat sich die Queue auf dem zabbix-proxy auf > 12000 angestaut. Nach eingehenden Logfile-Analysen hat ein Restart der zabbix-server und zabbix-proxy Prozesse das wieder behoben. [/bauerm] permanent link Wed, 12 Sep 2018 Zuviel Sicherheit macht Webseiten unsichtbar. Apple hat die maximale Groesse von RSA Keys auf 4096 festgenagelt. Hintergrund ist unklar. Evtl so ein Bill Gates "640 Kilobytes sind genug fuer jeden". Browser, die gegen die Apple-eigene Cryptolib gelinkt sind, haben deswegen unsere Webseite (4192 bit RSA) nicht angezeigt. Runtergeschraubt. [/bauerm] permanent link Mon, 13 Aug 2018 Spass mit Transzendenten Funktionen: Was ist der cosinus von 9223372035620657689 ? Fragen wir den Computer (der Computer hat immer Recht): In C, mit libm: #include <stdio.h> #include <math.h> int main(int argc, char **argv) { printf("%.33f\n", cosf(9223372035620657689)); } Antwort auf Intel i386: 0.011800076812505722045898437500000 Antwort auf AMD i386: 0.158410862088203430175781250000000 Das ganze nochmal in Sage: x = RealField(100) (9223372035620657689) print "%.80f" % x.cos() 0.00000000010178327217734091707966646264986107506267387634579790756106376647949219 Aber auch: RDF(9223372035620657689).cos() -1.4607242193325502e+25 ( das ist <<< -1.0 !) Aber auch: RealField(53)(sum((-1)^k * (x^(2*k)/factorial(2*k)), k , 0, oo).limit(x=9223372035620657689)) 0.0531136888723055 Moral: cosinus nur für Wertebereiche rufen, die in Schulbüchern vorkommen (nur wenige Vielfache von π von der Null entfernt). Für grosse Werte: hic sunt leones [/bauerm] permanent link Wed, 08 Aug 2018 Scheint noch ein bisschen früh, auf Puppet 5 zu wechseln: `puppet master compile` fails to save the catalog with arbitrary binary data in file resources (Puppet 5 kann nur UTF-8 Daten in Files. Bei uns ein Ausschlusskriterium, weil binär) Ok, das wirft wohl nur auf der Kommandozeile Errors. Teilerfolg: sowohl ein std-Client als auch ein std-Server wuerde jetzt aus dem schnell portierten puppet5 master ziehen koennen. [/bauerm] permanent link Tue, 07 Aug 2018 Puppet5 Fortschritt: alle facts zu @facts gemacht, die klasse mitarbeiterpc taet jetzt durchlaufen, WENN NICHT puppet5 alles json wandeln wuerde. Dabei gibts bei einem Binaerfile einen "defektes UTF-8" Error. Der puppet5 facter kennt keine lsbdistnames, puppet facts show zeigts aber an. [/bauerm] permanent link Mon, 06 Aug 2018 Der Default für libvirt-Netze bei Ubuntu ist NAT. Hat ein bisschen gedauert, bis mir aufgefallen ist, warum die virtuelle kiste kein DHCP kriegt... Kann man in /etc/libvirt/qemu/network/default.xml umstellen, muss dann aber auch sicherstellen, dass eine evtl benoetigte bridge dann auch da ist. Der puppet5 support fuer bionic ist schlecht. Die apt-sources von puppetlabs sind defekt (bzw. die Verzeichnisse dahinter), so dass man nix aus dem repo installieren kann. Folgendes macht die Testerei von allerneuestem puppet leichter: wenn ein host ahost schon mal per puppet agent --test --noop vorbeigeschaut hat, dann liegen seine facts in einem YAML file auf dem server/master. Und dann kann man den master fragen, was er denn schicken wuerde, wenn ahost nochmal vorbeischaut: puppet master --verbose --no-daemonize --logdest console --compile ahost --debug So hat man die Fehlermeldungen, und im Erfolgsfall das Manifest fuer ahost, auf dem Bildschirm und kann weiterfriqueln... Unsere Vorarbeiten zur Umstellung haben sich gelohnt, das geht relativ glatt voran. [/bauerm] permanent link Mon, 23 Jul 2018 Kopieren von libvirtsh "Domains"/Guests/Hosts/schlechtenamenskonvention: Es gibt ein virsh migrate aber das loescht die urspruengliche Domain. Nicht was man will. Zwischen Maschinen verlangt es auch noch root-Zugang per ssh. Es gibt ausserdem noch virt-clone (nicht etwa "virsh clone" oder virclone, wegen schlechtenamenskonvention). Das kann man folgendermassen rufen: virt-clone -n $domain-clone --original-xml /etc/libvirt/qemu/$domain.xml -f /var/lib/libvirt/images/$domain-clone.qcow2 (wir reden von qemu-images. Keine Ahnung ob man so von KVM oder virtualbox nach qemu konvertieren könnte) Das -n ist der Name der neuen Domain, nicht der Name der alten. Das -f gibt das image-file an, wohin geclont werden soll. Sollte im --original-xml mehr als ein Disk image definiert sein, kann man das -f wohl auch mehrfach angeben, aber in welchem was landet … Nach dem Clonen möchte man naiverweise vielleicht annehmen, dass der geclonte Domain in irgendeiner Liste verfuegbarer Domains auftaucht. Tut er aber nicht. Wenn man nicht -d angegeben hat (Debug), dann wird eine Datei /etc/libvirt/qemu/$domain-clone.xml heimlich angelegt, die den neuen Domain beschreibt. Erst nach virsh define /etc/libvirt/qemu/$domain-clone.xml und virsh create /etc/libvirt/qemu/$domain-clone.xml taucht der Domain im Output von virsh list auf. Und zwar als running. Eventuell tat man Gut daran, auch noch die --mac 00:11:22:33:44::55 Option mitzugeben, sonst haben jetzt beide Domains die selbe IP und schiessen sich gegenseitig die TCP Connections weg. Oder kreiert mit virsh create --paused /etc/libvirt/qemu/$domain-clone.xml Vorteil des nicht-Automatismus: man kann vor dem virsh define die XML Datei umschreiben und MAC und Pfade anpassen. [/bauerm] permanent link Tue, 17 Jul 2018 Wordpress (wie vorgeschrieben) mit den RRZE Plugins/Themes installiert. Martin hat schon ganz schoen viel Inhalt portiert. Unpraktisch ist, dass der 'sitename' zwar einstellbar und in einer Datenbank gespeichert ist, aber das Theme in seine eigene Konfig einfach absolute URLs reinschreibt. D.h. wenn man den Server umbenennt, gibts lauter kaputte images... Loesung auf die Schnelle war mysqldump | sed "s,$altername,$neuername/g" > /tmp/new mysql < /tmp/new [/bauerm] permanent link Thu, 14 Jun 2018 Auf Windows 10 ist Firefox 59.0.3 fuer manche User unbenutzbar langsam. Statt dessen Chrome installiert und Bookmarks umgezogen. Um bessere User Experience zu erzeugen (oder wozu sonst?) haben die GRUB Leute in ihrem grub.cfg die Pfade zu den vmlinuz-Files jetzt absolut zu /boot statt absolut zu /. Damit ging unser kernel_cleanup Skript nicht -> auf mindestens einer Maschine uebergelaufenes /boot. Fixed. [/bauerm] permanent link Fri, 06 Apr 2018 WAAAA. Aus unbekanntem Grunde findet der GRUB seine module nicht mehr. Die liegen seit spaetestens Februar in /usr/lib/grub/, was bei uns nicht auf der root-platte ist, aber bis heut nacht gabs das Problem nicht. Per puppet-exec kopieren. Und latuernich geht jetzt auch das rescue-linux vom PXE boot nicht mehr. UPDATE: stellt sich raus: das ging noch nie. Aber man kann im FAI unter /srv/fai/config/hooks eine Datei mit namen z.b. savegrub anlegen, und im pxelinux.cfg dann FAI_ACTION=savegrub setzen, dann wird die Datei nach dem Netz-Boot ausgefuehrt. Damit haben wir jetzt > 30 CIP Rechner wiederbelebt. [/bauerm] permanent link Wed, 04 Apr 2018 Angefangen, unser puppet-setup fuer einen Upgrade auf 5.x umzustellen. Man kann die Node-Klassifikation tatsaechlich ohne Hiera machen, was mich beruhigt (ich finde YAML als Configfile-Sprache nicht arg viel besser als XML). Und exakt ge-scope-te Variablen sind jetzt schon ein Vorteil. Und fertiggestellt: unser site.pp ist jetzt vererbungsfrei. Dabei sind wieder mal duplizierte Sachen aufgefallen, muss noch einiges geradegezogen werden. [/bauerm] permanent link Thu, 08 Mar 2018 Die nexone hat jetzt eine aktuelle openssh in /usr/local/bin. Auf der nextwo muss man seltsamerweise noch export LD_LIBRARY_PATH=/root/lib davor machen. Auf nexone geht damit auch das backup auf die QNAP wieder. [/bauerm] permanent link Tue, 06 Mar 2018 Einen historischen HP Drucker in den CIP-2 gestellt, und so nach und nach in Betrieb genommen. Henriette hat rausgekriegt, wie man die hplip PPDs umschreiben muss, damit auch doppelseitig gedruckt werden kann. Leider ist der Einzug von dem Ding arg fehleranfaellig, vielleicht finden wir noch Ersatzwalzen. In einen anderen Drucker hatten sich Steifchen von Etiketten auf die Walze geklebt, die den ueberschuessigen Toner wegtransportiert. Hat lustige Muster gemacht. Fixed. Ein Windows in einer VirtualBox hat seine virtuelle Platte bis aufs letzte Byte zugemuellt. Leider hat Windows kein Tool ala DiskUsage (du) an Bord. Mit viel Rumgeklicker rausgekriegt, dass sich irgendwo in dem WINDOWS\ subdir 16 Gigabyte verstecken. Sieht eher nach Filesystem Fehler aus. Virtuelle Platte um 20 Gb erweitert, mit Windows Bord-Tools Partition vergroessert, tut wieder. Dabei rausgefunden, dass es nicht ganz einfach ist, die Snapshots von den Virtual Disks aus dem ZFS zu benutzen. VirtualBox meckert rum, dass es eine Disk mit dieser UUID schon gibt. Ja genau, nur dass diese hier die andere von gestern ist... CIP Pool 1 auf Ubuntu 16.04 gebracht. [/bauerm] permanent link Wed, 28 Feb 2018 Das fenics Problem loest sich, indem man gar nicht erst versucht, die fuer Python2 installierten Module zu benutzen, sondern alles mit Python3 macht. Warum die defekten Python2 Dinger ueberhaupt installiert wurden, bleibt eine elementare Frage. [/bauerm] permanent link Tue, 20 Feb 2018 Ubuntu 16.04: dem LaTeX Editor kate fehlen Icons, u.a. beim Suchen/Ersetzen-Dialog. Das laesst sich leicht beheben, wenn man <trommelwirbel crescendo="on"/> das libqt5libqgtk2 Paket nachinstalliert (man kanns nur nicht aussprechen). Warm das nicht als Dependency im kate drinsteht, weiss eine hoehere Macht. Man kann zwei Monitore in einer Gnome Umgebung betreiben, und mit der Maus vom linken zum rechten wechseln, indem man an den linken Rand des rechten Monitors faehrt. Dann nervt allerdings das Overview Feature der org.gnome.shell, weil an der Oberkante des linken Rands die Maus nicht in den anderen Monitor wechselt, sondern eine Uebersicht aller Fenster, verkleinert, im linken Monitor gezeigt wird. Stellt sich raus, dass der Name dafuer hot corner ist, und in frueheren Versionen von Gnome konnte man das mit einem Tweak Tool abstellen. Inzwichen muss man ein Buendel Javascript von github runterladen und an passender Stelle auspacken, damit man das wegkriegt. Goldene Zeiten, wenn eine Desktopumgebung zusaetzlich zu einem DBus-Sniffer einen Javascript Debugger braucht. [/bauerm] permanent link Tue, 13 Feb 2018 Ein noch nicht identifiziertes Ubuntu Update hat unser NFS3 Setup kaputtgemacht. Die Fehlermeldung beim mount erzaehlt was von einem nicht laufenden rpc.statd. Der laeuft aber. Mit NFSv4 gehts, und wenn man locking explizit ausschaltet auch. Als Wuergaround reingebaut. [/bauerm] permanent link Tue, 30 Jan 2018 fenics: Wenn man es hier auf Ubuntu 14.04 aus Ubuntu-Packages installiert auf Ubuntu 16.04 aus fenicsproject-eigenen Packages installiert auf Ubuntu 16.04 nach Anleitung aus den git-repos baut und installiert kann es in keinem Fall das erste Beispiel aus dem fenics Tutorial (ft01_poisson.py) ausfuehren. Um Debugging interessanter zu machen, ist der Fehler jedesmal ein anderer. Das Design buchstabiert schon Untergang (wie der Amerikaner sagt), indem z.B. ein Python-Modul zur Laufzeit in einem Tempdir einen Dateibaum anlegt, in dem ein CMakeFile liegt, das in einem anderen Tempdir einen Dateibaum anlegt, in dem ein Makefile liegt, in dem die Pfade zu den SWIG-Includes nicht stimmen. Wie ein Meister des Verbrechens verwischt fenics seine Spuren, indem es die Tempdirs zum Teil loescht, wenn Fehler auftreten. [/bauerm] permanent link Wed, 24 Jan 2018 Wir haben jetzt ein Zabbix Skript, dass die Restlebenszeit unserer SSL Zertifikate abcheckt, auch fuer IPP und SMTP Submission. [/bauerm] permanent link Tue, 23 Jan 2018 Angefangen hat es damit, dass einem Mitarbeiter seit Montag die Maschine mehr oder minder zuverlaessig einfriert (Ubuntu 14). Woran das liegt, war vollkommen unklar, bekannt war nur, dass ein rm -rf $HOME/.kde das Problem eine Zeitlang behebt. Vermutungen waren - Defektes RAM => kann nicht sein, Problem taucht einen Rechner weiter genauso auf - Kernel Panic wegen Speicher/CPU Last => Logs und Statistiken sagen das Gegenteil - KDE Programmierfehler => Kollege mit gleicher Config hat das Problem nicht Also erstmal keine Idee. Logs durchgeschaut, was sich denn in den letzten Tagen auf der Maschine geaendert hat. ISC Tools? Wohl kaum. Der Linux Kernel? Seltsam. Wie mir der Betroffene ein Ergebnis seiner Arbeit zeigen will (in einem PDF), friert die Kiste ein. Neue Vermutung: Acroread 9 for Linux. Am naechsten Rechner ausprobiert -> friert die Maschine sofort ein. Versucht, das unter Ubuntu 16.04 nachzustellen -> friert nicht ein. Reboot der 14er Maschine, statt dem -140 Kern den -138 genommen -> friert nicht mehr ein. Was ist der Unterschied? Die Intel Firmware und die Wuergarounds fuer die Spectre/Meltdown Bugs. Welche absurden Assembler-Verenkungen der Acroread macht, dass die neue Intel Firmware zuverlaessig den Rechner vollbremst, bleibt unklar, vielleicht Anti-Debugging-Obskurantismus... Der Mitarbeiter hatte den Acroread als default-PDF View eingestellt, und deswegen wurde der auch zum Erzeugen von Thumbnails im Filebrowser benutzt; und das KDE merkt sich, welche Fenster offen sind, und deswegen... MERKE: Der Teufel steckt im Detail und in Intel Firmware Patches. https://usn.ubuntu.com/usn/usn-3531-2/ [/bauerm] permanent link Wed, 10 Jan 2018 10.01.2018, Nach der jaehrlichen Wartung, im Dezember, der USV Anlage in unserem grossen Serverraum, wurde festgestellt das ein Luefter und 6 Akkus defekt sind. Gestern war der Monteur im Haus und hat Luefter und die besagten Akkus getauscht. Nun steht einem Stromausfall nichts mehr im Weg, was wir uns natuerlich trotzdem nicht Wuenschen. Im Haus sind wir mit dem Upgrade auf Ubuntu 16.04 so gut wie fertig. Jetzt sind AM2 und AM3 dran. Den CIP-Pool werden wir in der Vorselungsfreien Zeit hochziehen wenn die Klausuren durch sind. [/bayer] permanent link Fri, 01 Dec 2017 Die rstudio.com Leute haben zwei Ubuntu Packete gebaut, eins fuer <=14.04, eins fuer >= 16.04. Die Dateien heissen verschieden, aber in den DEBIAN/control files heissen die Pakete gleich. Damit kann man die nicht gleichzeitig in einem Ubuntu-Repo haben, weil der pro Paketnamen genau eine Datei im Baum unter pool/main/ erlaubt. Die Unterscheidung nach Ubuntuversionen passiert beim Erzeugen der dists/$name/main/binary-$arch/Packages.bz2 wo dann Pfade nach pool/main/... drinstehen. D.h. wir koennen nicht auf einem Repo beide Pakete haben, weil Paketname+Version eindeutig sein muessen, es durch die Schusselei der rstudiosi aber nicht sind. Würgaround: dpkg -x rstudio_xenial...deb rstudio-xenial dpkg -e rstudio_xenial...deb rstudio-xenial/DEBIAN cd rstudio-xenial vi DEBIAN/control in der Package: Zeile den Namen von rstudio auf rstudio-xenial genaendert. cd .. dpkg -b rstudio-xenial/DEBIAN rstudio_xenial...deb Neue Variante ins Repo. Nachteil: es wird kein Update von den Rstudios geben, weil die Packetnamen dann nichts mehr miteinander zu tun haben. [/bauerm] permanent link Tue, 28 Nov 2017 Software Engineering at its finest: Maple 2017 wie von seinem Install-Skript installiert, xmaple starb bei uns mit einem Double Free in dem Java Runtime, das sie mitliefern (weil man das schon vorhandene nicht nehmen kann, weil Java ist ja so portabel! "Write once, transfer complete development environment to everywhere!") Auf Anfrage meinte Maplesoft, dass dies daher kaeme, dass unsere Software auf einem NFS-Verzeichnis liegt, und NFS wird nicht unterstuetzt. Damit hatten wir es damals bewenden lassen, ... Bei genauerem Nachschaun stellt sich raus, dass der Fehler in der libfreetype.so passiert, die von MATLAB2017a stammt. Beim Installieren hat Maple irgendwie mitgekriegt, dass im gleichen Verzeichnis auch eine Matlab Installation liegt, und hat den LD_LIBRARY_PATH um das lib/ Subdir von Matlab erweitert. Damit findet es dort eine libfreetype bevor es ueberhaupt in /usr/lib sucht. Sobald man das im maple-Startskript wegmacht, funktioniert xmaple. [/bauerm] permanent link Mon, 20 Nov 2017 Eine Maschine war im Inventar unauffindbar, wurde aber in Zabbix und Puppet-Dashboard als up-and-running gemeldet. Weder SSH- noch ping-bar. Aber wo steht die Dose? Ina ist draufgekommen, dass wir ja im Puppet Facts-File zu der Maschine auf dem Master nachschaun koennen, was die dort gemeldete MAC ist, und dann im Inventar danach suchen. Hat auch geklappt, die Maschine war als eine Zahl statt Namen eingetragen. FIXED. [/bauerm] permanent link Tue, 14 Nov 2017 Ubuntu ist benutzerfreundlich! Weiss jeder, die klassische Linux-Anfaenger-Distib. Und wenn man in Unity Dash auf die "Windows"-Taste drueckt, kann man nach Programmen suchen lassen. Aber die werden recht willkuerlich gefiltert, ausser wenn man den Namen fast ganz ausschreibt. Konkreter Fall ist rstudio, vertreten als rstudio-0.99 und rstudio-1.0. Das 0.99 wird sofort angezeigt, wenn man "rs" getippt hat, das 1.0 bei manchen Usern aber nicht, sondern erst, wenn sie "rstu" tippern. Als rationaler Betrachter wuerde man meinen, dass weitere Buchstaben das Ergebnis hoechstens noch einschraenken, und gibt deswegen bei "rs" und nur einer rstudio-variante auf. In diesem Zusammenhang interessant: Wenn man sich eine _Datei_ ".cache" ins HOME legt, und die mit chmod 0000 .cache unanfassbar macht, dann kann man sich nicht mehr in eine Ubuntu oder GNOME Session einloggen. Denn dann haengt sich das init --user auf, was bei den genannten alle weiteren Programme starten sollte. [/bauerm] permanent link Sun, 29 Oct 2017 Mysql-Error-Zombie-Apocalyptusbonbon: Der Fehler aus dem Jahre 2013, den wir im kühlen Grabe wähnten, kommt gruselig wieder (Halloween?) Inzwischen ist sogar "MEDIUMTEXT" zu klein, um die Fehlermeldungen vom puppet dashboard aufzunehmen. Also schreibt es eine Fehlermeldung. Wohin? In die Datenbank. In eine Spalte vom Typ "MEDIUMTEXT", was einen Fehler erzeugt... Die "details" in "delayed_job_failures" hab ich jetzt mal auf "LONGTEXT" gesetzt. [/bauerm] permanent link Thu, 26 Oct 2017 Endlich sichergestellt, dass die verwendete Version von printadmin dieselbe wie im Repo ist. Das SQLAlchemy als ORM ist zwar lustig, wenn man aber db.session.add/execute/whatever mit den entsprechenden Methoden in den Row-Objekten mischt, kriegt man Object '< ... >' is already attached to session '...' [/bauerm] permanent link Thu, 19 Oct 2017 Wozu hat man RAID? Wegen der Zuverlaessigkeit. Nur dass bei den HP Servern der RAID Controller manchmal vor den Platten stirbt, so auf dem memserver. Der Controller wurde auf Garantie getauscht. [/bauerm] permanent link Fri, 06 Oct 2017 memserver debugging, maple prozesse haengen nach langer laufzeit, aber nicht alle und nicht immer. Suche nach Fehlerquellen: - Speicher defekt? - Lizenzserver unerreichbar (Windows => wird mindestens einmal im Monat rebootet) - Zugriff aufs NFS HOME fehlerhaft? [/bauerm] permanent link Thu, 14 Sep 2017 Problem mit Puppet+Autoinstaller: wenn eine Maschine zum ersten Mal hochfaehrt, kennt der puppet master sie nicht; man muss manuell den Zertifikatsantrag, den der agent schickt, signieren lassen. Wenn man die autosign Option benutzt, signiert man unbesehen automatisch jedes Zert, das uebers Netz kommt, also besser nicht. Aaaaber: wir installieren uebers Netz, warum also nicht die Keys und ein signiertes Zert gleich mit installieren? Auf den ersten Blick deswegen, weil puppet keinerlei Unterstuetzung fuers signieren von Keys-in-Files anbietet. Lösung: ein Skript, das im Dateibaum des autoinstallers an passender Stelle das Keymaterial erzeugt, daraus CSRs baut und mit dem ca-Key vom puppet master unterschreibt, mit den passenden Extensions: nsComment = "Puppet Ruby/OpenSSL Internal Certificate" basicConstraints = CA:FALSE subjectKeyIdentifier = hash keyUsage = digitalSignature, keyEncipherment Die Keys+Zerts werden dann vom Installer auf die Maschinen kopiert. Bleibt noch das Problem, dass Puppet seinen eigenen Zerts nicht glaubt: Wenn schon ein Zert existiert, dann wird das neue ignoriert. Also vor der Installation auf dem master mit puppet cert clean $diemaschinedieinstalliertwerdensoll das alte Zert loeschen. [/bauerm] permanent link Wed, 13 Sep 2017 13.09.2017, Gestern war es soweit: Nach 2 Wochen und 2 Tagen kam doch schon die bestellte Platte von der Firma Bechtle Nuernberg. Bis heute hat keiner auf meine Mail reagiert. Hier wird Service direkt am Kunden praktiziert. Was doch so ein Rahmenvertrag ausmacht den man fest bis 31.12.2020 in der Tasche hat. [/bayer] permanent link Mon, 11 Sep 2017 11.09.2017, Heute war Kabelkampftag. Was das ist ? Wenn auf einmal nach einer Neuinstallation das Netzwerkkabel nicht mehr funktioniert. Wir installieren Ubuntu 16.04 auf den Rechnern. Nach der installation des 16er Ubuntus hatten verschiedene Rechner kein Netz mehr. Nach Austausch des Netzwerkkabels funktioniert wieder alles. WTF Siam (www.siam-gs17.de) ist in vollem Gange. Die am 28.8.17 bestellte Festplatte fuer den Server ist bis jetzt nicht eingetroffen. Ich habe am Donnerstag den 7.9 eine Mail an Bechtle geschrieben das 2 Wochen rum sind und ob die Platte diese Woche kommt. Diese Mail blieb bis jetzt UNBEANTWORTET !!! [/bayer] permanent link Thu, 07 Sep 2017 07.09.2017, Mehr Infos zu Siam bekommen www.siam-gs17.de : Die SIAM ist bekanntlich die groesste und wichtigste Organisation zur Foerderung der Angewandten Mathematik, ist Herausgeber von Journals und Fachliteratur, sowie Ausrichter etlicher Konferenzreihen, zumeist in den USA. Am Sonntag wird die Tagung mit einem Icebreaker in der Orangerie eroeffnet, und ab Montag morgen werden dann ca. 500 Wissenschaftlerinnen und Wissenschaftler aus aller Welt etwa 420 Vortraegen lauschen und sich an 50 Postern informieren. 80% der Teilnehmer kommen dabei aus dem Ausland, es werden gleich viele Teilnehmer aus den USA wie aus Deutschland erwartet. Die Tagung besitzt also eine hohe internationale Sichtbarkeit. Sie wird Minisymposia in sieben parallelen Schienen zu Forschungsthemen der Angewandten Mathematik aus den Bereichen der Klimaforschung, der Prozesse in poroesen Medien, und der Ozeanographie bieten. [/bayer] permanent link Mon, 04 Sep 2017 04.09.2017, Was fuer ein Morgen: Stromausfall in einigen Bueros. Es sind nur die Steckdosen ohne Strom in ca. 6 Bueros. Leitwarte verstaendigt. Sicherung wieder reingedrueckt ... mal schauen wie lange es haelt. Laut Zabbix sind die Rechner am Samstag morgen um 6 Uhr dem Strom- ausfallt zum Opfer gefallen :( Doktorand kommt zu mir ins Buero mit der Bitte um einen Rechner ... nur kennt er seine Bueronummer nicht ... also wo den Rechner hinstellen ? [/bayer] permanent link Wed, 30 Aug 2017 30.08.2017, Wir installieren munter 16.04 auf den neubau Rechnern. Erste Probleme in Form von nicht richtig funktionierenden Windowsmanagern hatten wir schon. Schnell noch 100 Gastaccounts fuer www.siam-gs17.de angelegt. [/bayer] permanent link Mon, 28 Aug 2017 28.08.2017, Und wieder dreht sich das Karussell weiter und das meistens am Wochenende. Es ist wieder eine Platte an einem Server ausgefallen. Ich habe die Platte bei der Firma Bechtle bestellt ... ich bin gespannt ob das ganze wieder 2 Wochen Plus dauert. [/bayer] permanent link Fri, 25 Aug 2017 25.08.2017, Heute erstmal ein paar ILO Interfaces upgedatet. Nach dieser Meldung: Die Management-Software Integrated Lights-out von HP-Servern enthaelt eine Sicherheitsluecke, ueber die Angreifer aus der Ferne Schadcode ausfuehren koennen, ohne sich anmelden zu muessen. 8( [/bayer] permanent link Thu, 24 Aug 2017 24.08.2017, Zabbix Client auf eine hoehere Version gezogen, dabei gleich die alten Sources Listen angepasst. Lucie hat jetzt auch die GIT-LAB Keys fuer APT in Puppet zum verteilen eingebaut. [/bayer] permanent link Wed, 23 Aug 2017 23.08.2017, Nach zwei(2) Wochen hat es die Firma Bechtle doch schon geschafft mir fuer das kaputte Raid eine 2TB SATA Platte zu schicken (WTF). Da ist ja eine Direktlieferung/import aus dem Herstellerland schneller ... Die Stromabschaltung haengt uns immer noch ein bisschen nach (Luefter machen auf ein mal Geraeusche usw.). Nebenbei das Webinterface des Backupmailers upgedatet, dabei festgestellt das manche Plugins die wir verwenden nicht mehr laufen. Lucie hat die GPG Keys fuer APT und Ubuntu 16.04 auf Stand gebracht :) so das wir sie jetzt mit Puppet verteilen koennen. [/bayer] permanent link Tue, 22 Aug 2017 22.08.2017, Leider haben die boesen Jungs den Mailaccount einer Mitarbeiterin aufgehackt. An dieser Stelle sei nochmal darauf hingewiesen wie wichtig ein gutes Passwort ist und dass man sich nicht darauf verlassen kann was ein Mitarbeiter fuer ein Passwort waehlt. Deswegen Zwangspasswort ! Das RRZE hat unseren Mailer komplett gesperrt aber leider mir nicht Bescheid gegeben. So musste ich erstmal debuggen was mit dem Mailer los ist. Das Rechnenzentrum hat dann unseren Mailer wieder aus der Haft entlassen nachdem ich den betreffenden Account disabelt und die Queue mit ueber 25000 Spammails gereinigt habe. Was fuer ein Montag nach der Stromabschaltung ... [/bayer] permanent link Mon, 21 Aug 2017 21.08.2017, Nach der, vor einer Woche angekuendigten Stromabschaltung, sind die Nachwehen leider immer noch gross. Diverse Arbeitsstationen kommen nicht mehr hoch, manche Server haben Paketverluste weil die Switche zwischendrin weg waren. [/bayer] permanent link Tue, 08 Aug 2017 08.08.2017, Wir rollen langsam Ubuntu 16.04 aus. Mal sehen wo es bei den Powerusern noch haengt. Eine Platte im AM3 Raid ist defekt. Der HP Controller hat dann natuerlich das ganze RAID mit 12 Platten deaktiviert (WTF). Nach einem Reboot des Servers konnte man im BIOS des Controllers das RAID wieder aktivieren. Neue Platte ist bestellt. [/bayer] permanent link Mon, 07 Aug 2017 07.08.2017, HP Drucker der nach einem Firmwareupdate sich selber nicht mehr kannte, spielt wieder mit :) Der HP-Support hat uns eine neue SSD zugeschickt die sich dann mit der neuen Firmware flashen lies. Fuer Ubuntu 16.04 Octave 4.2.1 gebaut und per Puppet nur auf die 16er Ubuntus verteilt. Wenn es mit GUI sein soll, sollte das Paket qttools5-dev-tools zum bauen installiert sein. [/bayer] permanent link Sat, 22 Jul 2017 Der Head-Schwenk von nextwo auf nexone ging wohl glatt. Vorher wurde mit file /dev/dsk* | grep -v broken | sort > /tmp/$(hostname).dsks auf beiden Heads und anschliessendem diff der zwei Dateien sichergestellt, dass beide Heads die Platten gleich identifizieren. Die Nexone war frisch rebootet, alle Dienste verfuegbar, und die WebGui hatte unter "Settings->HA Cluster" auf beiden die selbe Anzeige des Zustands. Uff. Mal schaun, was trotzdem alles haengengblieben ist... [/bauerm] permanent link Tue, 18 Jul 2017 Faszination Technik! Puppet Master hat ein Zertifikat (self-signed), das bald am versterben ist. Es gibt keine Technik fuer eine Key-Rollover. Also die alten openssl {x509,req,..} skillz ausgepackt und ihm mit dem gleichen Key ein neues Zert fuer die naechsten Jahre gemacht. Getestet, ob die Signaturen tatsaechlich noch stimmen, etc. Ok, wie kriegt man das neue Zert auf alle clients? Wenn man auf puppet, Version > 3.6, das Zertifikat der CA auf dem client loescht, holt sich der agent das einfach vom Server. Signature kann er nicht checken, aber das ist halt so eine Henne-Ei Problem. Wenn man das ganze auf einem puppet mit kleinerer Version macht, dann laeuft man in den Originellen Fehler, dass er das Zert holen will, den Download aber zertifiziert haben will, und deswegen das Zert holen will,... Stack overrun. [/bauerm] permanent link Fri, 14 Jul 2017 Zabbix ist immer gut fuer Ueberraschungen, wenn man 0. einen host in einer Expression referenzieren will, muss man die FQDN reinschreiben, an allen anderen Stellen der GUI reicht der name. 1. einen Trigger auf host A definiert, und da drin ein Item von host B referenziert, dann wird der Trigger an Host B angezeigt. 2. versucht Trigger in Templates zu bauen, dann kann man in die Description ein {HOSTNAME} reinschreiben, und das wird pro host durch den namen ersetzt. Wenn man das in der Trigger Expression macht, dann nicht. Auf mem ist jetzt die Maple Installation auf einer lokalen Platte repliziert und per bind-mount ueber das Original aus dem NFS gehaengt. Die Hoffnung ist, dass dann die unerklaerlichen Abstuerze nicht mehr passieren (Voodoo-Computing). [/bauerm] permanent link Fri, 07 Jul 2017 07.07.2017, Firmware update auf einem HP-Drucker ist fehlgeschlagen. Drucker kennt sich selber nicht mehr. Wir haben aber noch Garantie auf dem Drucker. Mit dem HP-Support in Verbindung gesetzt, jetzt bekommen wir erstmal ein paar Teile zugesand. Auf einem neuen Lenovo Laptop ein Dualbootsystem mit Ubuntu und Windows installiert. Beides als UEFI Umgebung. [/bayer] permanent link Fri, 30 Jun 2017 Okuson test-installiert, laeuft, hat aber organisatorische Probleme. CIP-Papierberg umgeschichtet, ein bisschen haben wir noch. [/bauerm] permanent link Wed, 28 Jun 2017 Historische Fehler in historischen TeX Dokumenten gefixt. Mal nach einem Collaborative Authoring Tool fuer Mathematiker gesucht, das faehig ist, Aenderungen diverser Autoren auch in PDFs farbig zu kennzeichnen. [/bauerm] permanent link Tue, 27 Jun 2017 Dell Laptops haben eine Garantie von einem Jahr fuer Akkus. Was machen also Dell Akkus nach spaetestens zwei Jahren? Genau. Angebot fuer Ersatz+Technikerstunden eingeholt. Frasch hat wegen einem lustigen Problem mit der Nachverfolgung eines Toners aus dem Jahre 2015 angerufen. Die Klimaanlagen im PC Pool schalten sich automatisch aus, wenn ein Fenster offen ist. Das Öffnen von Fenstern unterstützt die Kühlung also nicht! Klimaanlage in PC Pool 2 defekt, Haustechnik ist informiert. [/bauerm] permanent link Mon, 26 Jun 2017 Wenn Dropbox meldet, dass der user/die userin eine zu alte Version von Dropbox verwaende, aber die neueste Version fuer linux installiert ist (2015...), dann laesst sich das beheben, indem man den .dropbox-dist Ordner loescht, und das ganze zeugs von /usr/bin/dropbox neu installieren laesst. Danach gehts wie erwartet... MATLAB kann symbolische Algebra! Ja, weil es gegen shared libraries von Maple linkt. Und das geht unter bestimmten Umstaenden (falscher LD_LIBRARY_PATH) in Matlab 16a nicht, mit 17a gehts dann wieder. Einen SATA-nach-USB Konverter durch LÖTEN wieder betriebsbereit gemacht. Das fenics/dolphin package heisst ab jetzt fenics2017, wird aber nur fuer xenial und spaeter gebaut. Wers neuer braucht, dem wuerden wir es auch bauen. [/bauerm] permanent link Thu, 01 Jun 2017 Wiedermal was ueber Kerberos gelernt, und unser setup besser per puppet verteilbar gemacht. [/bauerm] permanent link Wed, 31 May 2017 R-Update, und alle relevanten Packages nachinstalliert. Aus Rstudio testbaR mit env RSTUDIO_WHICH_R=/software/R/R-3.4.0/bin/R rstudio [/bauerm] permanent link Fri, 12 May 2017 Was bisher geschah: * Zwei neue Hilfskraefte zur Vertragsunterschrift gebracht * Angeknabberte Netzkabel im PC Pool 1 ausgetauscht, dabei auf passende Laengen geachtet * Bureaux aufgeraeumt * Uebersicht ueber rumgammelnde HP Toner gemacht, werden tatsaechlich alle gebraucht * Versucht, den Maple-Hangs hinterherzudebuggen. GDB zeigt den Stack, und die letzten sieben Frames sind von Funktionen innerhalb von Maple, von denen weder Name noch Parameterliste bekannt sind. Dang :( [/bauerm] permanent link Mon, 24 Apr 2017 Aus gegebenenem Anlass rate ich jederperson, die mit puppet rummacht, folgendes ins relevante .hgrc oder git-Äquivalent einzutragen: [hook] pretxncommit.grammar = hg status | grep "^[AM]" | cut -d " " -f2- | \ while read X; do \ case "$X" in \ *.pp) puppet parser validate --verbose "$X" || exit 1;; \ *.erb) erb -x -T '-'"$X" | ruby -c || exit 1;; \ esac; done; Das schaut auf die veraenderten Dateien (hg status) und sucht die .pp und .erb Files, und jagt die durch die passenden Syntax Checks. Erfolg ist, wenn ein Tippfehler gar nicht erst ins Repo kommt. [/bauerm] permanent link Tue, 07 Mar 2017 Unsere SSL Zertifikate hatten das Problem, dass sie zwar nicht abgelaufen sind, dafuer aber das Hash-Verfahren, das beim Signieren verwendet wurde, als unsicher eingestuft wird. Das fuehrte dazu, dass diverse Webbrowser den Benutzern erschreckende Warnungen angezeigt haben, und genau dagegen hat man ja extra Zertifikate eingefuehrt < unicode_smiley_mit_augenzwinkern > Also schnell ein Shellskript gebastelt, dass per openssl s_client -showcerts das aktuelle Zert eines Servers ausliest und SubjectName und alle AlternativeNames rausholt. Danach baut es einen neuen Key und einen CertSigningRequest, in dem alle AltNames drinsind. Damit Antrag nach RRZEREZept erstellt und signiert gekriegt. ABER: man muss latuernich auch noch die ZertifikatsKette, die das jeweilige ServerZert mit der Root CA der TelekomTochter T-TeleTrust verbindeT, austauschen, weil in der alten Cert-Chain auch noch SHA-1-basierte Signaturen drin sind. Kaum hat man das gemacht, schon geht alles wieder warnungsfrei. Bei Zerts fuer Gitlab gibts den Fehler, dass gitlab-ctl reconfigure keineswegs die geaenderten Keys/Certs in seinen privaten nginx nachlaedt. Mit gitlab-ctl restart gehts aber. Auf unserer Homepage gabs noch Bildchen, die per http (ohne s) reingeladen wurden. Das fuehrt — voellig korrekt — zu Warnungen. Zum Glueck liegt unser Stylsheet als Text vor und wird nicht vom Typo3 autogeneriert, also per Hand die Links zu https gemacht. [/bauerm] permanent link Wed, 15 Feb 2017 Gestern war wieder so ein Tag... Nachdem wir den zabbix-server fuer eine Wartung runtergefahren haben, sind mehr als die Haelfte der studentischen Arbeitsplaetze mit absurden, und immer anderen Symptomen unbrauchbar. Aber Waruuuuuum? Recherche in /var/log/syslog der betroffenen zeigt, dass in dem Moment, wo der Server weg war, die zabbix_agents auf den Kisten sich wahnsinnig viel Speicher gegriffen haben. Was macht Linurx in solchen Momenten? Der Kernel ruft den oom-killer <fanfare dramatisch="yes"/> Der oom-killer ist kein Killer im Auftrags-Stil, sondern ein wahnsinniger Amoklaeufer im Amerikanisches-Schulsystem-Stil, der bringt zufaellige Prozesse um, in der Hoffnung, dass so Speicher frei wird. Und weil die zabbix-agents weiter Speicher reserviert haben, hat der oom-killer so lange um sich geschossen, bis er zufaellig den zabbix-agent erwischt hat. Bis dahin lagen meistens schon sshd, puppet und der login manager am Boden, daher die Probleme. Vorlaeufiger Fix: memory-overcommitment ausgeschaltet, das zabbix wird von nun an alleine sterben, der oom-killer lebt zurueckgezogen im Zeugenschutzprogramm des Linuxkernels unter einem Decknamen. Ein argentinischer Gast wunderte sich, warum es hier kein offenes WaveLAN gibt. Nachdem er ueber die rechtliche Lage in Deutschland aufgeklaert wurde (Stoererhaftung), kommentierte er voellig korrekt: "That's Stalinism." Dem Webserver ein neues Zertifikat gegeben, jetzt mit SHA256 als Hashing Verfahren. [/bauerm] permanent link Tue, 07 Feb 2017 Wir brauchen mehr Tests! Nach Upgrades von Servern sind ssh-hostkeys verbuxelt, so dass rsnapshot nicht mehr mit ihnen reden will, und die ssh-version auf dem fileserver kann nicht mehr mit den allerneuesten ssh versionen reden, weil die KexAlgorithms keine Schnittmenge mehr haben. Letzteres kann man evtl per puppet im sshd_config fixen, ersteres ist im jetztzigen Setup nur per Hand moeglich. Es gibt jetzt wieder rsnapshots allen Servern ausser repo.... [/bauerm] permanent link Mon, 16 Jan 2017 Hochleistungsrechner schreibt mit Hochleistung auf den Fileserver, ueber Hochleistungsleitung. Leider gibts die Datei nicht, in die er schreibt -> NFSv4.ERR. Er schreibt aber weiter, und das mit mehreren Mbit pro Sekunde. Der Prozess dahinter muss weiterlaufen, also Wuergaround: Traffic throttleing auf dem Hoeschstleistungsrechner: tc qdisc add dev $DEV root handle 1: cbq avpkt 1000 bandwidth 10mbit tc class add dev $DEV parent 1: classid 1:1 cbq avpkt 15000 rate 10Mbit prio 2 bounded isolated tc filter add dev $DEV parent 1: protocol ip u32 match ip dst $FILESERVERIP flowid 1:1 (Die erste Zeile legt scheinbar (und anscheinend) die Bandbreite auf 10mbit, aber das Linux ignoriert das froehlich und schreibt die tatsaechliche der Schnittstelle in die Regel) Die zweite Zeile macht eine Class-Based-Queueing Regel und laesst nur 10 Mbit durch, die dritte zwingt allen Traffic zum Fileserver durch den Strohhalm. Das Ergebnis ist weit langsamer als 10mbit, fuer unseren Fall aber wohl ok. [/bauerm] permanent link Wed, 11 Jan 2017 Python wertet default-Parameter zur Startzeit des Programms. Bespiel: from datetime import datetime from time import sleep def gebeuhrzeit(dobj = datetime.now()): return "%d:%d:%d" % (dobj.hour, dobj.minute, dobj.second) for i in range(100): print gebeuhrzeit() sleep(1) Die Zeit bleibt konstant. Als Bug gefunden in einer Webapp... [/bauerm] permanent link Tue, 10 Jan 2017 Ueber die Weihnachtsvorlesungsfreiezeit ausprobiert, wie man Maschinen automatisch runterfahren und ueber Wake-on-LAN morgens wieder aufwecken kann. Dabei ein paar Maschinen gefunden, die kein korrektes BIOS Setup dafuer hatten. Ok, wir wollen wissen, ob auf allen Maschinen die BIOS Passwoerter gesetzt sind (minimale physikalische Sicherheit und so). Ok, dmidecode -t 24 (na logisch, 24!) liefert die Daten, muss aber als root laufen. Also kann zabbix das nicht (zum Glueck). Weil puppet eh als root laeuft, ein kleines Fact-Plugin gebaut, dass jetzt auch diese Info aus dmidecode zum Fact macht. Aber zabbix kann die facts wieder nicht sehen, weil man dafuer facter -p als root laufen lassen muss. Aber puppet zieht auf dem master die client facts in YAML files. Also kann man auf dem puppetmaster die YAML factfiles durchgreppen. Aber das Directory, wo die drinliegen, gehoert puppet und zabbix kann da nicht reinschaun. Also einen cronjob gebaut, der die YAMLfiles durchgreppt und Namen von Rechnern ohne BIOS Passwd in eine Datei in /var/tmp ausgibt. Danach einen UserParameter fuer zabbix gebaut, der diese Datei liest, daraus ein Zabbix Item fuer den puppetmaster gemacht, und darauf einen Trigger mit Level "Disaster" gesetzt, wenn der String nicht leer ist. Tut. Dabei rausgefunden, dass /etc/zabbix/zabbix_agentd.d/ vollkommen ignoriert wird, und auf wie viele Arten man ein ZBX_NOTSUPPORTED erzeugen kann. [/bauerm] permanent link Tue, 20 Dec 2016 Stellt sich raus, dass postfix fuer Absenderadressen strenge Regeln hat, als fuer Empfaengeradressen. Wenn ein Absender mit einer lokalen Adresse nicht existiert, wird die Mail an einen Lokalen Empfaenger verworfen. D.h. wenn man als noreply@math.fau.de sendet, wird das nicht ankommen. Einige Log-Eintraege bestaetigen das, aber niemand hat sich gemeldet, bis gestern nachmittag. Wenn man noreply in den aliases eintraeg --- was ihn zu einem korrekten Empfaenger macht --- gehts immer noch nicht. Gefixt. Waaa. Ubuntu kann jetzt EFI Secure Boot. Das heisst, dass mindestens ein Mitarbeiterlaptop kein Netz mehr hatte, weil der e1000e Treiber nicht signiert war. Und ohne Netz kann man kein Update fahren, und selbst wenn man kann, laesst sich das KernelModule nicht laden, um wieder Netz zu haben. Mit Mokutil das secureboot ausgeschaltet -> Verhalten wie vorher == Geht wieder. [/bauerm] permanent link Wed, 14 Dec 2016 Das Default-Colorscheme fuer Sagemath im Terminal ist LightBG, also fuer hellen Hintergrund. Auf einem Weiss-auf-Schwarz Terminal kriegt man dunkelblaue Schrift, nicht so gut. Sage hat kein globales Configfile, nur $HOME/.sage/init.sage pro User. Also in den Sage sourcen /local/lib/python2.7/site-packages/sage/repl/configuration.py in Zeile 72 den Default auf 'Linux' aendern. Fuer Leute mit hellem Hintergrund: %color LightBG ins .sage/init.sage [/bauerm] permanent link Mon, 05 Dec 2016 TYPO3!!!!! Wenn man ein "Form" Formular hat, und das ver-mail-bar machen moechte, dann kann man im "List"-view unter "Page-Content" auf das kleine "+"-im-Kasten klickern, und dort einen Subheader auswaehlen, also einen Untertitel. Und wenn man in dem eine Emailaddresse eintraegt, dann wird das die Ziel-Adresse der Mails, die generiert werden, wenn jemand im Form auf "Absenden" klickt. Wenn man bei irgendwas anderem einen "Subheader" anlegt, dann wird das ein Untertitel. Zusaetzlich kann man einen "Startingpoint" definieren, dass ist die Seite, die nach dem Absenden der Mail angezeigt wird. Die Typen haben existierende Datenbankfelder missbraucht, statt fuer Mails sinnvolle anzulegen. (Danke an Lucie und Pascal fuers Rausfinden) [/bauerm] permanent link Fri, 11 Nov 2016 11.11.2016, Nachdem am Mittwoch ein User unseren Server mit 600 GB nicht Sicherungwuerdigen Daten geflutet hat, faellt die Entscheidung eine Quota fuer alle User einzurichten nicht schwer. Ab sofort haben nicht nur Studenten sonder auch Mitarbeiter ein Quota. Seit ein paar Wochen kann man aus dem Okular raus nicht mehr doppelseitig auf die Lexmarkdrucker drucken. Die Option ist zwar vorhanden, aber ausgegraut. Ein durchforsten der PPD Files brachte leider nichts. Erst nachdem ich die Connection der Drucker von ipp auf socket umgestellt habe war auch die Option fuer doppelseitigen Druck wieder anwaehlbar WTF. [/bayer] permanent link Fri, 21 Oct 2016 19.10.2016, Herr Prof. Dr. Dr. h. c. Karl Strambach ist tot. Wir moechten hiermit unser Beileid ausdruecken. [/bayer] permanent link Mon, 17 Oct 2016 Wenn man bei unserem puppet setup am Mercurial vorbei unter /etc/puppet/test/modules/einmodule/ eine Datei anlegt, dann wird mercurial das Verzeichnis nie loeschen. Und dann wird puppet denken, dass fuer Maschinen im Testnetz ein manifests/blah.pp existieren muesste, und dann gibts einen schwer erklaerbaren Error. Bitte nur durch mercurial auf /etc/puppet arbeiten! Thunderbird Fastthinathion: Accountsettings->Copies&Folder gibt die Moeglichkeit, versandte Mails unter dem Punkt "Sent" im Folder "name@server/Sent" abzulegen, oder aber unter dem Punkt "Other" im Folder "name@server/Sent" abzulegen. Bei mindestens einem Account geht ersteres nicht, zweiteres schon. What were they thinking... Dem WiMa Serverrack einen Ersatzmonitor aus alten Bestaenden gegeben. [/bauerm] permanent link Fri, 14 Oct 2016 14.10.2016, Nach dem ersten Update des neue Fileservers wissen wir auch warum man hier gerne ein bisschen mehr ausgeben darf. Das Update der Netapp verlieft ohne Probleme, der Clusterschwenk von einem Head auf den anderen lief in unter 3 Sekunden ab ... Wahnsinn, so soll es sein. Wenn ich da an Nexenta denk ... da kann das schonmal 20 Sekunden dauern. An den Clients konnt ohne Unterbrechung weitergearbeitet werden. Auf dem neuen VirtualBox Headless Server wurden jetzt die virtuellen Maschinen vom alten Virtserver umgezogen. [/bayer] permanent link Nach dem Durchtesten der "Netzersatzanlage" war im Bureaux vom Martin der Strom weg. Eher schlecht. Ebenfalls nach dem Durchtesten der "Netzersatzanlage" ist auf einer Steckerleiste im Serverraum der Strom weg gewesen. Die Leiste versorgt unter anderem den Fileserver und den Switch dorthin. Zum Glueck haben wir da nur Hardware mit zwei Netzteilen und eine USV die alle Spannungsspitzen glaettet auf der zweiten Steckerleiste. Bei der Umstellung auf Ubuntu 16.04 faellt auf, dass 1. die Filesystem-Angaben nfs4 vs nfs neuerdings ignoriert werden 2. der nfsd+mount+rpcgssd wohl einen BUG hat: _raw_spin_lock+0x21/0x30 gss_cred_init+0x22b/0x3c0 [auth_rpcgss ? wake_atomic_t_function+0x60/0x60 ? gss_destroy_nullcred+0x2c/0x70 [auth rpcauth_lookup_credcache+0x206/0x2a0 [ gss_lookup_cred+0xe/0x10 [auth_rpcgss] rpcauth_lookupcred+0x8b/0xd0 [sunrpc] ? rpc_wake_up_first+0x70/0x1b0 [sunrpc rpcauth_refreshcred+0x162/0x1b0 [sunrp ? xprt_lock_and_alloc_slot+0x6a/0x80 [ ? call_bc_transmit+0x190/0x190 [sunrpc ? call_retry_reserve+0x60/0x60 [sunrpc ? call_retry_reserve+0x60/0x60 [sunrpc call_refresh+0x3c/0x70 [sunrpc] __rpc_execute+0x91/0x470 [sunrpc] rpc_execute+0x5a/0xb0 [sunrpc] rpc_run_task+0x70/0x90 [sunrpc] nfs4_call_sync_sequence+0x63/0xa0 [nfs _nfs4_lookup_root.isra.61+0xda/0x100 [ nfs4_lookup_root+0x61/0x110 [nfsv4] nfs4_lookup_root_sec+0x69/0x90 [nfsv4] nfs4_find_root_sec+0x7c/0xc0 [nfsv4] nfs4_proc_get_rootfh+0x39/0x90 [nfsv4] nfs4_get_rootfh+0x5a/0x140 [nfsv4] ? rpc_clone_client_set_auth+0x51/0x70 ? kmem_cache_alloc_trace+0x183/0x1f0 nfs4_server_common_setup+0x9f/0x1d0 [n nfs4_create_server+0x2db/0x390 [nfsv4] ? find_next_bit+0x15/0x20 nfs4_remote_mount+0x2e/0x60 [nfsv4] mount_fs+0x38/0x160 ? __alloc_percpu+0x15/0x20 vfs_kern_mount+0x67/0x110 nfs_do_root_mount+0x84/0xc0 [nfsv4] nfs4_try_mount+0x44/0xd0 [nfsv4] ? get_nfs_version+0x27/0x90 [nfs] nfs_fs_mount+0x67b/0xd90 [nfs] ? nfs_clone_super+0x130/0x130 [nfs] ? param_set_portnr+0x70/0x70 [nfs] mount_fs+0x38/0x160 [/bauerm] permanent link Thu, 13 Oct 2016 Lexmark Printer sind sooo ein Rotz. Man stellt "default paper feed" auf "manual", was macht das Ding: weiter aus Fach 1 ziehen. Man nimmt ihm Fach eins weg, er meldet Papierprobleme, man sollte Fach 1 fuellen. D.h. man kann ueber das Menue keinen Manual Feed konfigurieren. Wenn man den Paper Type auf "Transparent" stellt, und dann eine Folie bedrucken laesst, haftet der Toner nicht -> Alles verwischt. Warum haben wir denen Geld fuer die Drucker gegeben ?!?! [/bauerm] permanent link Tue, 06 Sep 2016 06.09.2016, neubau-60 ist jetzt repo Server. Der alte repo Server wurde ausgemustert da Uralthardware. [/bayer] permanent link Fri, 02 Sep 2016 02.09.2016, Da die Rechner im Haus jetzt 5 Jahre auf dem Buckel haben, muessen wir uns um Ersatz kuemmern. Der ein oder andere ist schon ausgefallen. Da wir ja ueber den Rahmenvertrag des RRZE Rechner bestellen muessen, haben wir uns mal einen Konfig der Rechner zusammengestellt. Wenn man dann die Preise im Internet vergleicht, stellt man sich doch die Frage -> warum Rahmenvertrag wenn die Preise gleich sind. Der Hammer kommt aber erst noch -> wir haben keinen Windows Server in unserem Netz auf den wir in irgendeiner Form zugreifen. Die neuen Rechner lassen sich laut RRZE nur noch mit Windows Lizenz bestellen die ueber 70 Euro pro Rechner kostet. Wir verwenden Linux und kein Windows, warum also eine Lizenz mitkaufen ? Stichwort Steuergelder ... Haushalt ist knapp usw. Unser Inventar wurde von Daniel aufgebohrt. Sehr gute Arbeit hat er geleistet. Verschiedene Zustaende der CIP-Rechner werden jetzt in der CIP-Map verschiedenfarbig dargestellt. Ich habe auf neuer Hardware einen VirtualBox Headless Server eingerichtet. Dort laeuft jetzt ein Backup Mailserver, und der neue GITlab Server. Da der alte GITlab Server diverse Probleme gemacht hat und die Version schon uralt war, haben wir kurzerhand einen neuen aufgesetzt und die ganzen Projekte migriert. Danke an Lucie fuer die Migration der Projekte. Einen neuen Laptop fuer einen Professor bestellt der gerne ein Dualbootsystem haette. Laptop ist geliefert worden und es wurde versucht Ubuntu zu installieren. Es stellt sich heraus dass wenn im Bios, der Sata Controller auf Raid steht, Ubuntu 16.04 keine Festplatte oder SSDs erkennt, und sich nicht installieren laesst. Stellt man den Eintrag auf AHCI, so kann man Ubuntu installieren aber Windows bootet nicht mehr. Der Trick besteht darin, Windows einmal im Abgesicherten Modus hochzufahren (was irgendwelche Treiber aktiviert) im AHCI Modus, dann Bootet er auch wieder im Normalen Modus ... Wahnsinn. Neuen Rechner fuer die Geschaeftsstelle fertig gemacht. Wenn nur alles so einfach waere. Auf den Netapp's habe ich neu Treiber fuer die Platten und Shelfs installiert, in Vorbereitung auf das BS Update am naechsten Freitag. Im Pruefungsamt kann man keine Scans mehr als PDF verschicken. Drucker zu- rueckgesetzt ... jetzt spielt er wieder. 2 Rechner im CIP-Pool sind verstorben ... bei dem einen ist das Netzteil und das Mainboard getauscht worden, beim anderen nur das Mainboard. Die Passwoerter des Inventars und des Druckaccountings wurden angepasst. [/bayer] permanent link Thu, 04 Aug 2016 04.08.2016, Nach ausgiebiger Vorbereitung nun den neuen Monitor-Server in Betrieb genommen. Immer wieder Erstaunlich was trotz Vorbereitung dann noch alles zu machen ist ... Backupscripte, CronJobs, Mountpoints usw. [/bayer] permanent link Wed, 27 Jul 2016 27.07.2016, Auf neubau-37 einen VM Server gebaut. Dort die Backup-Mailserver-VM importiert (die natuerlich erst von VDI in RAW konvertiert werden muss). NFS Verzeichnisse eingebunden fuer Backups der VMs. [/bayer] permanent link Tue, 26 Jul 2016 26.07.2016, Fuer Wigand einen Rechner auf Ubuntu/Linux installiert. cip-54-55 hat ein neues Mainboard bekommen ... neu Installiert und in den CIP-Pool geschafft. Einen Backupmailserver unter Ubuntu 16.04 in einer VM installiert, inkl. Roundcube Webinterface. Testmails sind raus. Dieser Server hat aber immo keinen MX-Record. Utax-Kopierer druckt nicht mehr. Alle Abdeckungen geoeffnet und wieder geschlossen ... jetzt geht er wieder 8( ... warum das ganze ... bleibt ein Raetsel. Octave 4.0.3 mit GUI gebaut. Module fem-fenics, geometry, linear-algebra, splines und symbolic installiert und in den Autoloader eingebaut. Module die nicht auto- matisch geladen werden sind: bim, fpl, general, msh und mvn. [/bayer] permanent link Tue, 19 Jul 2016 Platte in neubau-233 gewechselt. Der lexmark X7xx im zweiten Stock hat Grauschleier im Hintergrund gedruckt, wurde von einem Frasch Mitarbeiter auf defekte Tonerkartuschen zurueckgefuehrt und prompt behoben. Man sollte beim Anlegen von Accounts auch gleich fragen, in welchem Mailverteiler die Person landen soll. Das ist jetzt mehrfach vergessen worden :/ LibreOffice/Calc druckt default auf US Letter. Lexmark Printer nehmen das froehlich entgegen, und verwerfen es ohne Fehlermeldung. Wenn man per Drucken->Options->use printer default format oderso erzwingt, dass genommen wird, was im Drucker eingestellt ist, nimmt LibreOffice faelschlicherweise wieder US Letter. Wenn jetzt noch in Drucken->derdrucker->Properties das Papirformat auf A4 setzt, druckt der Drucker. Aber Libreoffice skaliert das Druckwerk nicht auf A4, so dass nur ein Teil auf dem Blatt ist. Kwalitaetssoftwaer wohin man blickt. Heulen koennt ich! [/bauerm] permanent link Wed, 06 Jul 2016 06.07.2016, Netzwerkdose in meinem Buero geaendert. Das AM3 Netz zum testen drauf legen lassen. Neubau-218 ist verschieden. Rechner startet nicht mehr, Mainboard defekt. Zum Glueck noch bis Oktober Garantie. [/bayer] permanent link Tue, 05 Jul 2016 05.07.2016, KEK macht Probleme bei der Anmeldung. Rechner ins Zimmer geholt ... jetzt Bootet der Rechner nicht mehr. Platte wird im BIOS nicht mehr erkannt Andere Platte zum testen eingebaut -> funzt :) Neue Platte geordert. Drucker im Seki eines Lehrstuhls bricht immer mit einem Fehler ab. Ist Leider der einzige Drucker mit FAX. Da die Garantie abgelaufen ist, wird jetzt erstmal ein KV fuer die Rep. generiert. [/bayer] permanent link Mon, 27 Jun 2016 Festplatte im RAID vom memserver kurz vorm Sterben. Ersatz geordert. [/bauerm] permanent link Tue, 19 Apr 2016 19.04.2016, Wir testen an 3 Rechner ufw. Neben diversen offenen Ports zur Administration braucht es auch noch offenen Ports fuer z.B. Zabbix. Mal schauen was Puppet usw. noch brauchen ... wir Testen. [/bayer] permanent link Fri, 15 Apr 2016 15.04.2016, Gestern und heute wurden bei 17 HP-Server die ILO Schnittstellen auf die jeweils aktuelle Firmware upgedatet. Es wurde einige Fehler behoben z.B.: There is no POST error after one or more fans are removed. [/bayer] permanent link Thu, 14 Apr 2016 14.04.2016, Wir koennen keine Netzwerkhardware die ueber den Rahmenvertrag laeuft selber bestellen. Diese Bestellungen (warum auch immer) muessen ueber das RRZE laufen. Desweiteren muessen Bestellungen die 5000 Euro uebersteigen in "Schriftform" bestellt werden. Einfache telefonische (Pizza) Bestellung reicht nicht aus :) [/bayer] permanent link Wed, 13 Apr 2016 12.04.2016, Nachdem sich Nexenta bei uns gemeldet hat, und uns einen 40 Tage Trailzugang verschafft hat, haben wir Versucht den Cluster upzudaten. Leider war der Versuch nicht von Erfolg gekroent. Das NFS war brutal instabil. Nach 1,5 Stunden Fehlersuche (Clientreboots, Logfiles sichten usw.) haben wir den Versuch abgebrochen und sind wieder auf die alte Version zurueck. Einer unserer Leihlaptops macht Probleme. Windows stuerzt auf einmal mit einem Bluescreen ab. Mit Ubuntu LifeCD gebootet und mal die Smartwerte der SSD angeschaut. Die Samsung-SSD ist nach nur 134 Stunden Betrieb defekt. Heute kommt der Dell-Support und tauscht das Laufwerk. Ein anderer Laptop wurde nach Gebrauch zurueckgebracht. Aufgeklappt -> Streifen im Display. Dell Support angerufen, Monteur kommt heute und bastelt ein neues Display rein. Ein Rechner wurde letzte Woche aus dem Cip-Pool in mein Buero gestellt -> Ursache Luefter zu laut. Seitenverkleidung entfernt -> Fehlersuche -> Festplatte macht diese Grauesche. Die Firma Frasch benachrichtigt (da die Rechner ja noch Garantie haben). Neue Festplatte eingebaut und Rechner installiert. Jetzt steht er wieder im Cip-Pool. Rechner eines Professors ist ausgegangen und laesst sich nicht mehr einschalten. So wie es aus- sieht ist das Mainboard defekt. Firma Frasch hat den Rechner geholt. Ersatzrechner wurde aufgestellt. Auf avana wird kein Puppet mehr ausgefuehrt. Puppet meldet dass das Lockfile schon existiert. (/var/lib/puppet/state/agent_catalog_run.lock exists) ps zeigt aber keinen puppet-agent (/usr/bin/ruby /usr/bin/puppet agent) Lockfile geloescht und Puppet angeworfen. Jetzt laueft Puppet wieder. [/bayer] permanent link Fri, 01 Apr 2016 Damit Studenten nicht 6.18855838e-15 Euros in ihren Druck-accounts haben, wollten wir mal testen, ob man in sqlite statt FLOAT auch DECIMAL(8,2) nehmen koennte. Tut nicht, weil sqlite nur Ganzzahl vs Real kennt, und wenn man aus einem dump eine 6.18855838e-15 kommt, wird das DECIMAL zu FLOAT befoerdert, und wir haben wieder den mist... [/bauerm] permanent link Thu, 17 Mar 2016 Tippfehler in einem Backupskript gefixt... Webservergefrickl. Das Typo3, sein automatischer Update und seine Plugins vertragen sich nicht untereinander. Was fuer Pluginuser wie uns eher bloed ist.. Wieder was gelernt: Man kann mit /sbin/status den Zustand eines Dienstes abfragen, aber nicht aus einer Rootshell. Dort kriegt man den wenig sinnigen Vehler "unknown job". Wenn man strace ueber beide Aufrufe laufen laesst, finden man raus, dass die Rootshell auf einen anderen AF_LOCAL Socket verbindet als die sudo Variante, und die nach einigem Gelaber verschiedene Antworten kriegen. Also $ sudo -s # /sbin/status sshd liefert Unknown job: sshd aber $ sudo /sbin/status sshd liefert ssh start/running, process 1176 In der Manpage von status sieht man, dass DBUS involviert ist, und hoert auf, sich zu fragen... [/bauerm] permanent link Wed, 16 Mar 2016 16.03.2016, Nachdem wir eine Meldung der Netapp-Backupmaschine bekamen: Out of Data qual_devices_v3 file bin ich der Sache mal auf den Grund gegangen. Das besagte File hat dem Timecode 20141210, aktuell soll es wohl 20151005 sein. Das etc des Filers eingehaengt, von der Netapp Supportseite das aktuelle File runtergeladen, und ins etc des Filers geschoben. Der Filer meldet jetzt: Disk 0a.01.23 Shelf 1 Bay 23 [NETAPP X308_HMRKP03TSSA NA01] S/N [P9HVHNHY] has been inserted into the system ??? Was ist da passiert ? Es sieht wohl so aus als dass die besagte Platte bis dato nicht im System vorhanden war. Ein Blick in die Logfiles bringt es an den Tag: Platte die schon im System war: Power-on Hours: 6760 Blocks written: 2853915852 Die besagte alte/neue Platte: Power-on Hours: N/A Blocks written: 0 [/bayer] permanent link Tue, 15 Mar 2016 Daniel hat rausgekriegt, wie man im Zabbix Dashboard schon Abgearbeitetes als erledigt markieren kann, so dass es nicht mehr angezeigt wird. Gut so. Erste Experimente mit dem ufw Puppetmodul schaun gut aus. Rollout! [/bauerm] permanent link Thu, 10 Mar 2016 Zabbix relevations: alle Templates sind in Wirklichkeit hosts (mit status=3). Der Mechanismus, der hosts einem Template zuordnet, kopiert einfach alle einstellungen des Templates in alle betroffenen hosts (und auch templates, wenn die aufeinander angewandt werden). Das ist der Grund, warum viele Trigger extrem wiederholt in der Datenbank liegen. Ein Ansatz, das klarer zu machen, ist, keine Templates auf einander zu beziehen, sondern essentielles in wenige, nicht gegenseitig vererbte Templates zu stopfen, und dann den hosts mehrere zu geben. Das ganze scheint bei unserer Version noch im Fluss gewesen zu sein, man findet Felder, die immer leer sind, die wohl frueher one-to-many beziehungen implementiert haben, was inzwischen many-to-many ueber extra join-tables geworden sind, und eine Version spaeter gibts die stets leeren felder nicht mehr. [/bauerm] permanent link Tue, 08 Mar 2016 Zabbix relevations: Templates sind dingens oder zumsls oder entities, die man an hosts pappen kann. In der Datenbank aeussert sich das so, dass die foreign keys templateid diverser tables auf immer wieder mal was anderes deuten. In hosts deutets zum Beispiel auf hosts, in triggers auf triggers, in optemplate auf hosts, in items auf items. In unserem setup liegen alle Templates, die man in der WebGUI sehen kann, in hosts, und unterscheiden sich von echten hosts dadurch, dass ihr status 3 ist. Plan fuer morgen: Per SQL rauskriegen, wie die Trigger/Items in unseren Templates eindeutifiziert werden koennen, so dass wir weniger und nicht-ueberlappende Templates haben, siehe diesen Post [/bauerm] permanent link Wed, 02 Mar 2016 Was ein Tag! Nachdem am Montag der Strom ausgefallen war, wurde eine Sekretariatsmaschine ploetzlich unbenutzbar (schwarzer Bildschirm statt login). Der dreckige Wuergaround, der mir (mangels einer lehrstuhleigenen Ersatzmaschine) eingefallen war, konnte heute nicht mehr reproduziert werden ⇒ Maschine ersetzt, puppet Eintrag auf die neue umgebogen, geht scheinz wieder. Damits uns nicht langweilig wird, sagt die norton: IO Error: could not read block 500 on /dev/sdc1 Man kann nicht mal ein ls auf dem Mountpoint machen. Man kanns auch nicht unmounten, weil noch drei Prozesse offene Filedescriptors in dem FS haben. Häh? Das ist ein RAIDshelf von HP, genauer ein RAID 50 (mirrored stripes). Wie kann da ein Block nicht lesbar sein?? Also mit hpacucli controller all show config mal nachgeschaut, alle Platten sind OK, Controller Status: OK Cache Status: OK Battery/Capacitor Status: OK Aber: logicaldrive 1 (18.2 TB, RAID 50, Failed) Also: alle Platten sind OK, Controller, Cache und Batterie sind OK, das RAID ist aber trotzdem kaputt. Einzige Moegliche Erklaerung: Firmwarebug. Martin hatte den Mut, beim Startup die Repair-but-potentially-lose-data Option zu waehlen. Danach mit xfs_repair drueber und alle Daten sind noch da. Uff. [/bauerm] permanent link Thu, 25 Feb 2016 Die Uni hat ein Centrales System zur Verwaltung(?) von Publikationen, genannt CRIS. Und hat anscheinend Geld dafuer ausgegeben. Das Ding hat einen Export von Publikationen ueber eine RESTful API, hier dokumentiert. Ok, was soll das tun? Eine Publikationsliste zurueckgeben, zur Weiterverarbeitung durch oBdA ein Computerprogramm. Sie behaupten, XML zu nehmen. OK, kann man machen, ist seit ca. 2010 nicht mehr so das Encoding der Wahl, aber was solls, wir haben ja XSLT und sowas. Bibliographische Daten in XML haben schon mehrere Leute gemacht, schaut dann immer aus wie <bibitem> <authors> <author><firstname>Joe R.</firstname><lastname>Hacker</lastname></author> <author><firstname>Eva Lu</firstname><lastname>Ator</lastname></author> </authors> <title>First steps with XML</title> <year>1998</year> <publisher>Wiley Coyote & Sons Inc.</publisher> </bibitem> you get the drift... Die CRISler haben das mit dem XML so richtig gar nicht kapiert. Deren Format sieht so aus <infoObjects size="4"> <infoObject type="Publication"> <attribute disposition="string" language="0" name="cfTitle"> <data> Der Titel </data> </attribute> <attribute disposition="string" language="0" name="srcAuthors"> <data> Rster E., Weiter Z., Ritter D. </data> </attribute> <attribute disposition="year" language="0" name="publYear"> <data> 2012</data> </attribute> <attribute disposition="string" language="0" name="exportAuthors"> <data> Rster:Erich|Weiter:Zacharias|Ritter:Dieter</data> </attribute> <attribute disposition="choicegroup" language="0" name="Publication type"> <data> 3338</data> <additionalInfo> Article in Edited Volumes</additionalInfo> </attribute> ... Was daran falsch ist, ist so ziemlich alles. Sie haben kein Schema und kein DTD, es kann niemand wissen, was da rein darf und wie. Ihre Tags haben keine Semantik ("data", "infoObject", "attribute") Wenn <infoObjects> einen Subtree aufmacht, dann muss man XMLparsern nicht erzaehlen, wieviele Elemente da drin sind, das finden die selber raus. Statt Zusatzinfo in Attribute von Tags zu tun, und Daten in die Contents des Tags, machen sie <data> und <additionalInfo> Tags (das Stirnklatschen wird ab hier schmerzhaft). Statt einen Tag <title> zu machen, basteln sie ein <attribute>, der dann ein "name" Attribute hat (ein attribute mit attributes, WTF), dessen Wert dann "cfTitle" ist. Statt einem <author> Tag nehmen sie mehrere "attribute" Tags, die dann entweder _einen_ String mit den gekuerzten Autorennamen haben (was kaputtgeht, sobald ein "William Gates, the third" dabei ist, weil das Komma hier nicht der Trenner ist), oder die vollstaendigen Autorennamen, aber nicht als parse-bare Folge von XML Elementen, sondern in _einem_ String, mit Pipes und Doppelpunkten getrennt. D.h. wer das verarbeiten will, muss String-handling machen, und damit die Namen rausparsen. Das war echt nicht die Idee bei XML! Statt einem type-Attribute fuer eine Veroeffentlichung im umgebenden Tag machen sie einen "attribute" tag mit einem "name" Attribut, dass dann den Wert "Publication type", und dessen Subelelement "additionalInfo" dann den Wert enthaelt. Diese Sch*!%se ist mit XSLT o.ae. nur unter solchen Schmerzen verarbeitbar, dass es niemand machen wird. [/bauerm] permanent link Wed, 17 Feb 2016 Webserverlogtag Der Apache redet mit seinen Kind-Prozessen (wovon er immer viele hat) ueber "dummy-connections". Die verbinden im Klartext auf scheinz zufaellig gewaehlte ports der Kind-Prozesse. Jedesmal, wenn der Papa-Apache den Port 443 von einem Kind-Apache erwischt, stirbt der mit Signal 6 (ABORT), weil da jemand nicht-SSL auf einem SSL Port redet. Und auf dem Totenbett schreibt der Kind-Prozess noch schnell vier Zeilen Logs. Wenn der erste Kind-Prozess so ueber Orkus/Lethe/Styx ist, will apport einen Nachruf schreiben und hat dafuer einen coredump in /var/crash abgelegt. Wenn aber Sekunden spaeter der naechste stirbt, kann er nicht noch einen coredump unter dem gleichen Namen ablegen und schreibt dazu eine dreizeilige Meldung in die Logs Summa summarum erzeugen apache2 und apport so in wenigen Tagen Megabyte an nutzlosen Logs. Achja, wenn man modpython und modwsgi gleichzeitig enabled hat, kriegt man zwar keine Warnung, dass dies nicht schlau ist oderso, dafuer alle Naslang einen Fatal Python error: PyEval_AcquireThread: NULL new thread state in den Logs. [/bauerm] permanent link Wed, 10 Feb 2016 10.02.2016, SSD-Firmware bei der NetAPP auf Stand gebracht. Dazu per NFS die BS-Platte gemountet und unter /etc/disk-fw die neuen Files reingeschoben. Die Updates der SSDs macht die NetAPP dann alleine. npb:ses.inconsistent.config:CRITICAL an der Backup-NetAPP Inconsistent configuration detected for shelf connected to host adapter 0b. Merke: Das Runde muss ins Eckige. Die Kabel der Shelfs haben Kennzeichnungen (rund und viereckig). Die Kabel muessen immer von "Eckig" ins "Runde". Fuer AM3 einen Lexmark-Drucker neu eingerichtet. Der Drucker wurde vor einer Woche neu gekauft. Ein Blick auf die Firmware sagt, dass es eine neue gibt. Neue Firmware auf der Lexmark-Webseite runtergeladen. Die neue Firmware ist von 11/2014 !!! Kann mir jemand sagen, warum Lexmark nicht gleich die neueste Firmware installiert ??? Da werden neue Drucker mit alter Firmware ausgeliefert ! [/bayer] permanent link Tue, 09 Feb 2016 Ersatzplatte in der Coraid ist resilvered, die spareplatte kriegt man mit zpool add coraid01 spare $spareplattenid wieder an ihren platz [/bauerm] permanent link Wed, 03 Feb 2016 Man kann den Textblock in einem PDF oder PS nach rechts verschieben moechte, zum Beispiel, weil man das links heften moechte, dann geht das so: 1. PDF nach PS wandeln: pdf2ps datei.pdf 2.pstops 2:0$1cm,0$,1$-1cm,0$ < datei.ps > dateiverschoben.ps verschiebt jede gerade Seite um 1 cm nach rechts, jede ungerade um 1 cm nach links (damit doppelseitig immer auf der Bindungsseite zusaetzlich Platz ist) [/bauerm] permanent link Mon, 01 Feb 2016 Platte ersetzt und mit zpool detach coraid01 $plattenid zpool attach coraid01 $plattenid zpool replace coraid01 $spareplattenid $plattenid die spare platte durch die neue ersetzt. Mit etwas Gebastl+Heuristics die Kalender aus dem Typo3 user_tud_calendar (und der FrontEnd User Tabelle) 1. in eine sqlite DB gezogen (man muss die MySQLismen aus dem dump rausfiltern) 2. mit python + vobject nach vCalendar gewandelt 3. auf einen CalDAV Server (Baikal) hochgeladen 4. mit Thunderbird+Lightning getestet 5. Ergebnis von 2. als read-only file zum Download abgelegt 6. mit Thunderbird+Lightning getestet Geht scheinz alles. [/bauerm] permanent link Mon, 25 Jan 2016 Wieder ist eine Platte vom alten Fileserver ausgefallen, aber eine hotspare ist eingesprungen, und grad laeuft alles auf der mirror-platte. In den mail.logs finden sich Zeilen der Form: dovecot: imap-login: Maximum number of connections from user+IP exceeded Scheint daran zu liegen, dass z.b. thunderbird versucht, alle mail-folder gleichzeitig anzufassen, und wenn das mehr als die dovecot->protocol->imap->mail_max_userip_connections sind, dann verweigert der Server. Auf 40 hochgesetzt. [/bauerm] permanent link Wed, 13 Jan 2016 Um bei uns auf einem NFSv4 mount von Netapp ueberhaupt ein chown machen zu koennen, muss man mindestens auf der netapp nfs.v4.enable on nfs.v4.id.allow_numerics on und auf Linurx: echo "Y"| sudo dd of=/sys/module/nfs/parameters/nfs4_disable_idmapping setzen, weil die Kommunikation zwischen nfs4-im-kernel rpc_pipe idmapd nslcd openldap irgendwie nicht klappt. Wenn man zusaetzlich noch NFSv4 ACLs haben will, reicht es bei weitem nicht die Pakete nfs-common und acl installiert zu haben, es fehlt noch nfs4-acl-tools [/bauerm] permanent link Mon, 11 Jan 2016 Gelernt: man kann in der Python IDE "IDLE" das modul multiprocessing nicht benutzen. Tut man es doch, bleibt das ding haengen, nachdems ein paar dutzend kindprozesse gestartet hat, und die ueberleben den logout des Users. Der cip1-printer5 hat seinen Geist aufgegeben. Nach 11 Jahren treuen Diensten haben wir ihn jetzt fuer immer pausiert. Klassischer Ubuntu Bug: Firefox stellt den Ort um, wo Downloads erstmal landen, und testet das nur mit einem User. Kurz drauf weisst jemand drauf hin, dass alle anderen User auf der Maschine nix mehr runterladen koennen, weil das Verzeichnis dem ersten Downloader gehoert (bug 1233434). Die Ubuntuler uebernehmen den Bug, testen wieder mit genau einem User, finden den Bug nicht, und lassen das Problem zwei Wochen ungepatcht. [/bauerm] permanent link Mon, 14 Dec 2015 Interesting Times! Ein SEO (Search Engine Optimizer, nicht etwa Superior Executive Officer) hat unseren Webserver benutzt, um anderen Webseiten bei Google bessere Chancen zu geben. Betroffen war nur ein Account im Typo3. Folgen: Wir haben viel ueber das Typo3 Framework gelernt, und den Webserver so abgedichtet, dass eine Wiederholung eher schwierig wird. Eine Workstation ist wegen Plattenfehler verstorben. Fehlermode ist eine oot partition, bei der fsck nur nach Beantwortung einer ernsten Frage weitermacht, und das geht im automatischen bootup nicht. [/bauerm] permanent link Wed, 21 Oct 2015 Mehr Thunderbolt->Ether converter bestellt, weil jetzt schon einer ausgeliehen ist und dauernd Leute mit Airbooks ankommen und Matlab installiert haben wollen. Wieder was gelernt: Wenn winbindd noch keine Verbindung zum AD hat, und versucht einen User abzufragen, und eine Gibts-nicht Meldung kriegt, dann merkt er sich das **ueber den restart und reboot hinweg**, und behauptet ab jetzt, dass es den User nicht gibt (Negative caching, saudumm). Loesung: cd /var/lib/samba sudo rm winbindd* sudo service winbind restart und schon gehts (TM) [/bauerm] permanent link Mon, 19 Oct 2015 Der Jonathan hat den SingleSignOn Server benutzen koennen, um Userauth fuer einen Uebungsabgabenserver zum achen, sehr cool. Lob von einem ehemaligen Industriemitarbeiter nach Hilfleistung: "Das haette bei zwei Tage gedauert!" Zwei Cipmaschinen mussten neu installiert werden, eine davon weil der Bildschirm stockfinster eblieben ist. [/bauerm] permanent link Tue, 13 Oct 2015 Weiterem Gast mit Antraegen ans RRZE geholfen. Man kann ein iBook so kaputtkonfigurieren (lassen), dass DHCP auch dann nicht geht, wenn mans explizit einschaltet :( Zum Glueck gabs ein zweites Notebook. [/bauerm] permanent link Mon, 12 Oct 2015 Der neue Management Server ist angekommen. [/bauerm] permanent link Fri, 09 Oct 2015 Einem Gast mit einem SONY VGP-WAR100 versucht zu helfen. Sein Laptop hat keinen Etherstecker, statt dessen hat sein Netzteil ein Dongle mit einem Etherstecker und drei LEDs, auf dem eine Linux Wifi->Ether Bridge mit Web-Interface laeuft. Ergebnis: funktioniert nicht an unserem Netz. Keine Ahnung warum. Ans RRZE weitergewiesen, um dort einen FAU-Guest Account zu beantragen, ging wohl. [/bauerm] permanent link Wed, 07 Oct 2015 Das Aufraeumscript gefixt, dass auch indices und permissions repariert werden. Monitor tut wieder. Bei einer Maschine in AM2 ist die Graphikkarte abgeraucht. Ersatz kommt wohl. [/bauerm] permanent link Tue, 06 Oct 2015 Platte auf monitor mal wieder uebergelaufen, wegen Datenmasse von zabbix. In ~robauerm/bin liegt ein aufraeumscript, das mit SELECT INTO, TRUNCATE, DROP TABLE, ALTER TABLE eine verkuerze Version von history und history_uint macht und den Plattenplatz sicher freigibt. Um dem VACCUM vom Postgres eine Chance zu geben, kann man z.B. folgendes probieren: CREATE OR REPLACE FUNCTION cleanup() RETURNS trigger AS $$ BEGIN DELETE FROM history WHERE clock < ( (extract(epoch from now()))::int - 24*3600*7); RETURN NEW; END; $$ LANGUAGE 'plpgsql'; CREATE TRIGGER cleanuphistory AFTER INSERT ON history EXECUTE PROCEDURE cleanup(); In einer Demo-DB in unserem Postgres getestet, vernichtet die alten Eintraege bei jeden INSERT... [/bauerm] permanent link Tue, 29 Sep 2015 29.09.2015, Homes fuer 630 neue Studenten angelegt. Damit ein einloggen in den CIP-Pool moeglich ist. Das neue Semester kann kommen. [/bayer] permanent link Fri, 11 Sep 2015 11.09.2015, Puppetrezept gebastelt, dass einen abgebrochenen dpkg wieder in die "Gaenge" bringt. Einen MAC und 2 MAC-Nootbook`s auf "Yosemite" upgedatet. Man MERKE: wenn bei dem Updateprozess "noch 7 Minuten" steht ... dauert es noch locker 2 Stunden und mehr, bis er fertig ist ... [/bayer] permanent link Thu, 10 Sep 2015 10.09.2015, Matlab R2015b Research fuer die Nutzung im Haus installiert, Desktop-Files und Symlinks erstellt und per Puppet verteilt. Die Platte des Management-Servers ist vollgelaufen. Gewinner ist *Trommelwirbel* ... die Mysql-DB des Puppetdashboards. Erstmal Workers anhalten: service puppet-dashboard-workers stop Die Jobs clearen: rake jobs:clear RAILS_ENV=production Dann alles aelter als 2 Wochen wegwerfen: rake RAILS_ENV=production reports:prune upto=2 unit=wk Jetzt noch verwaiste Eintraege loeschen: rake RAILS_ENV=production reports:prune:orphaned Dann das ganze schrumpfen: rake RAILS_ENV=production db:raw:optimize Workers wieder starten nicht vergessen: service puppet-dashboard-workers start Jetzt haben wir wieder 150GB frei ... die Frage ist wie lang. [/bayer] permanent link Wed, 09 Sep 2015 09.09.2015, Rechner eines Profs hat Grafikfehler. Der Lehrstuhladmin ist leider nicht da. Rechner schnell ausgetauscht so dass der Prof weiterarbeiten kann. Lehrstuhladmin ist naechste Woche wieder da, so dass wir unseren Rechner dann wieder haben koennen. [/bayer] permanent link Tue, 08 Sep 2015 08.09.2015, Will man an einem MAC den Firefox updaten und es kommt zu der Meldung "Sie haben nicht ausreichende Berechtigungen" trotz Admin-Konto, dann hilft es das Icon unten aus der Schnellstartleiste zu loeschen. Danach hat sich der Firefox updaten lassen ... WTF. [/bayer] permanent link Mon, 07 Sep 2015 07.09.2015, Fehlermeldung auf virtserver: Info: Not using expired certificate for ca from cache; expired at Sun Jul 26 09:28:06 UTC 2015. ein "rm -rf /var/lib/puppet/ssl" loescht das Certificat am Client. ein "puppt cert clean virtserver" loescht das Certificat auf dem Server. Eine neue Anfrage an den Server und ein "sign" behebt das Problem. Es gibt immer wieder Probleme mit dem Uni-Wlan und MACs. Da der Verantwortliche vom RRZE im Urlaub ist, den MAC erstmal per Kabel ans LAN gebunden. Jetzt beinhaltet das Paket cups-filters das Pakte ghostscript-cups. Puppetrezept angepasst. [/bayer] permanent link 04.09.2015, 2 neue User angelegt und einen alten User reaktiviert. Puppetrezept fuer Zabbix auf FQDN in der Clientkonfig abgeaendert. In den Zabbix Triggern fuer den dpkg: dpkg -l | egrep -v '^(ii|rc)' | sed -n '5,$p' |wc -l noch den ri aufgenommen: dpkg -l | egrep -v '^(ii|rc|ri)' | sed -n '5,$p' |wc -l Userwunsch nach texstudio im Cip-Pool nachgekommen: if $hostname =~ /cip-54-/ {package { "texstudio": ensure => "latest" }} Diesmal ueber Puppet installiert, da dep-base einen ganzen Tag gedauert haette, und "nur" Cip-Pool ausreichend war. [/bayer] permanent link Tue, 01 Sep 2015 01.09.2015, Ein Hub funktioniert nicht mehr. Steckernetzteil defekt ... erneuert. Fuer AM1 ein Funktionsmailadresse angelegt inkl. Weiterleitung. Einen neuen User/Mitarbeiter in die Geheimnisse des Computers eingefuehrt. Sagemath 6.8 installiert. [/bayer] permanent link Tue, 25 Aug 2015 25.08.2015, neubau-204 ruehrt sich nicht mehr -> evtl. Netzteil oder Mainboard defekt. Rechner hat noch Garantie ... Fa.Frasch kuemmert sich. Matlabprozesse auf Sultana waren defunc. Ein Reboot auf der Kommandozeile brachte nur ein komplettes Einfrieren der Maschine. Nach einem beherzten Druck auf den Powerbutton kam die Maschine wieder hoch. [/bayer] permanent link Mon, 24 Aug 2015 24.08.2015, Webinterface "Roundcube" des Mailers auf Version 1.1.2 geupdatet. [/bayer] permanent link Fri, 14 Aug 2015 RAID Platte auf der Sultana ausgetauscht. Die ist zwar groesser als die originale, aber das hpacucli ctrl all diag file=/tmp/diag.zip cd /tmp && unzip -x diag.zip && more ADUReport.txt zeigt, dass er das Root-RAID rekonstruiert. Koennt morgen fertig sein. [/bauerm] permanent link Tue, 11 Aug 2015 Schluss mit Feature-Upgrades! Ab jetzt nur noch Sicherheits-Upgrades automatisch, die SchnickSchnack-neueChromLeiste-UpsWirHabenDenKonfigfileParserZerschossen-Upgrades machen wir nur noch an wohldefinierten Datümern. [/bauerm] permanent link Mon, 10 Aug 2015 Auf der sultana ist eine der root-Raidplatten ausgefallen. LED war rot, nach einmal rausrupfen und wiederreinstecken wars laut hpacucli am rebuilden. Ein paar Stunden spaeter gibts eine Warnung wegen Failure predicted. Ersatz ist bestellt und unterwegs. Stellt sich raus, dass wir mit Scribus ein Desktop Publishing Tool haben, das LaTeX importieren kann. Lustig. Man kann ohne rootRechte rauskriegen, welche TCP Verbindungen offen sind: netstat -tup Interessant ist dann der Output von netstat -tunp | expand -1 | grep -v "131\.188\..*:.* 131.188."| \ grep -v "131\.188\.54..*:.* 10\." | \ grep -v "131\.188\.54.*:.* 127.0" | \ awk '{print $5}' | cut -d":" -f1 | grep -v 127.0.0.1 | sort -u | while read i; do nslookup $i; done | grep "name =" Nicht verwirrent lassen, ein gewisser Prozentsatz sind die erfolglosen SSH password guessing attacks. [/bauerm] permanent link Mon, 03 Aug 2015 Friday, July 31, 2015 16:17:06 [/bauerm] permanent link Der Inventarserver geht ploetzlich nicht mehr, weil BuildError: ('computerview.edit_view', {'id': 242}, None) Wenn man mit sudo -u inventar python -c "execfile('wsgi/inventar.wsgi')" das Ding auf port 5000 laufen laesst, geht aber alles. Ein Diff gegen den Sourcetree vom Juni zeigt nur dort Aenderungen, wos keinen Einfluss haben kann (und auch keinen hat, sonst waers auf port 5000 ja auch kaputt). [/bauerm] permanent link Fri, 31 Jul 2015 Bei einem Windows in der virtbox auf Anraten des Windows-Teams den FAUSUS Update server eingestellt. Angefangen, auf allen Servern identische UID/GIDs fuer real existierende HOMEs zu machen, ekliges Gefuddl. [/bauerm] permanent link Mon, 27 Jul 2015 Es wird _dringend_ Zeit, von Nvidia wegzukommen! Der Upgrade von 331 auf 340 installiert einen kernel Treiber, der checkt, ob ihn jemand falsch ruft (alte sharedlib z.b.) und das loggt im _millisekundentakt_, dass jemand die API falsch benutzt, und zwar vier verschiedene Zeilen, so dass syslog keine Chance hat, etwas in der von 'diese Zeile kam hundert mal' zu loggen. Ergibt nach ein paar Stunden 8.2 Millionen Zeilen Bloedsinn in /var/log/kern.log _und_ /var/log/messages. Per Puppet in jedes /etc/rsyslog.d/client.conf ein :msg, contains, 'NVRM:' ~ reingebaut, das schmeisst alle Zeilen von NVIDIA weg. So ein ROTZ! Offizielle Erklaerung der Ubuntuheinzen ist, dass man natuerlich vor einem NVidia Upgrade alle nvidia-Packete de-installiert, und erst dann den neuen Treiber in-stalliert. Als Nebeneffekt haben alle Maschinen Hunderte von Gb per syslog auf den monitor geschrieben, der dann kollabiert ist (/var/log voll). [/bauerm] permanent link Fri, 24 Jul 2015 VIM vs ISO 8859-1: Wenn man in einer Datei in einer Zeile ein Ü hat, und versucht das mit vim zu editieren, dann schreit der ganz laut ueber illegal UTF-8. Und nicht nur dass, er zeigt die komplette Zeile nicht an. Wenn man die Datei versucht zu speichern, meckert er wieder rum, und wenn man mit :w! speichert, schneidet er alle Zeilen hinter der mit Ü inklusive ab. Wenig hilfreich. Entweder mit was anderem editern (z.b. emacs, der kanns) oder mit recode wandeln und dann erst editern. Son Mist. Nvidia Treiber Auto-Upgrade: Der nvidia-340 Treiber installiert sich parallel zum -331, und wenn man letzteren entfernen will, werden beide geloescht. D.h. upgrade mit apt-get funktioniert nicht. Wenn beide Treiber installiert sind, dann kann man nach dem Ausloggen eine Viertelstunde warten, bis sich der Kernel entschieden hat, welchen Treiber er nimmt (schwarzer Bildschirm). Also Puppet Rezept gebastelt, das erst -331 loescht (und damit auch -340), und dann -340 installiert. Scheint zu klappen. Und wieder fragt man sich, ob Ubuntu noch ertragbar ist.. [/bauerm] permanent link Wed, 22 Jul 2015 Was bisher geschah: - Lexmark mal wieder: Wenn man den USB Port am Drucker abschalten moechte, dann kann man auf der WebGUI das 'disable' klickern bis man blau wird, das disablet gar nix, man muss statt dessen den "USB Buffer" auf 0 Bytes setzen. Und das wird nicht in dem Konfig-File gespeichert, das man ex/importieren kann, also muss mans auf jedem Drucker einzeln machen (Danke an Andi). - Aus gegebenem Anlass ein puppet modul workshops gebaut, dass user lokal im CIP Pool anlegt, mit expire-nden Accounts. Dabei stellt sich raus, dass puppets password => sha1(klartext) keineswegs einen SHA1-gehashten /etc/shadow eintrag erzeugt, wie in der Doku steht, sondern was kaputtes. Also mit openssl password -1 -stdin und einem Shellskript aus einer Liste von Klartexten erzeugt... - In einem Sekretariat hat sich ein Lexmark selbst vom Netz genommen, und auch nach dem ueblichen Aus-Ein-Schalten gings nicht, bis Andi die "Netzwerk Config Drucken" Option am Geraet benutzt hat, dann hat der Drucker sich ploetzlich erinnert und angefangen, alles zu drucken, was in der Warteschlange war. - Wenn man eine Bibliography (mit eigenen bibitems) in Std-LaTeX mit rechtsbuendiger Nummerierung haben will, muss man dem \begin{thebibliography} noch ein {nn} anfuegen (!?) - Auf Windows 8 auf einem Tablet Software installieren ist kein Spass. Andi kriegt noch raus, wie man installiertes Zeugs fuer alle User des Geraets zugaenglich macht, wenn die 1. keinen Microsoft Appstore Account haben, und 2. das Geraet offline ist... So ein Schwachsinn! [/bauerm] permanent link Fri, 19 Jun 2015 Vor/Gestern die sterbliche Huelle des PCs im Pruefungsamts (Baujahr 199x) seziert und zwei funktioniernde IDE Platten rausgeholt. Backup von NTFS per IDE->USB Wandler auf Linux. Interessanter Effekt auf dem Mac danach: Auf Linux mit gnu-tar auf einen USB Stick (vfat) geschrieben, auf dem Mac mit deren tar im HOME ausgepackt; die GUI und die Shell sehen alle Dateien, file(1) weiss, dass bestimmte Dateien Word Dokumente sind, geschrieben von .. am .. mit Version ..., ... viele Seiten, der File-Selector in Word und OpenOffice sieht die Dateien, aber wenn man sie "oeffnen" will, kommt der Error, dass sie nicht existieren. Wenn man die tar-files mit gnu-tar im USB Stick auspackt, und das resultierende Verzeichnis per Maus-drag-and-drop aufs Desktop zieht, dann koennen Word und OpenOffice die Dateien lesen. Soooo benutzerfreundlich... Note to self: Wenn man an Mailserverconfigs was aendert, sollte man vor dem Neustart von Postfix, und auch vor newaliases(1), unbedingt mal im etckeeper nachschaun, was der diff wirklich ist, evtl hat man ja aus Versehen was geloescht.... Irgendeine Aenderung einer Packetabhaengigkeit zusammen mit cron-apt autoremove -y hat essentielle Teile des Ubuntu/Unity Desktops entfernt. Wenn man ubuntu-desktop nachinstalliert, zieht das Packete der Art libnasebohren2.1++ amazonwerbungseinblender3.0 socialmediaautobenachrichtiger0.01 libohrenputzen3bzr23415.7577 lasse_den_user_das_etherinterface_umkonfigurieren_nur_heisst_das_packet_nicht_so.0.99.857.git.10c585b06a1062db825e672931a428cf nach sich. Den Mist schaufeln wir langsam weg und fragen uns, ob Ubuntu tatsaechlich noch tragbar ist. [/bauerm] permanent link Mon, 01 Jun 2015 Der Printserver fuers Haus ist gestorben. Auf Ersatz-Server umgezogen. Dabei gleich einen Upgrade auf Ubuntu 14.04 gemacht. Das hplip Packet nachinstalliert und damit gehen jetzt die meisten Drucker wieder. Bei ein paar muss man noch der Hand Filter aus proprietaeren Packeten nachinstallieren, zum Beispiel bei den UTAXen. [/bauerm] permanent link Tue, 26 May 2015 Das NFS idmap Problem erscheint immer seltsamer. Weil es Linux ist, gibt es mehr als eine Methode, die Userid des Owners zu ermitteln: https://www.kernel.org/doc/Documentation/filesystems/nfs/idmapper.txt Entweder rpc.idmapd oder request-key. Letzteres mal schnell wie dokumentiert ausprobiert, funktioniert nicht. Also weiter rpc.nfsidmapd debuggen... Failover auf nextwo ausgefuehrt, resilvering laeuft. Man kann ein OpenSolaris/NexentaOS zum genauen Nachschaun nach Hardware beim Bootup bringen, wenn man vor dem shutdown ein File /reconfigure anlegt... [/bauerm] permanent link Wir sind Mitglied in einem grossen Club, wie sich rausstellt: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=758870 https://bugs.launchpad.net/fedora/+bug/1124250 http://article.gmane.org/gmane.linux.nfs/67156 Das mit dem nfsidmap ist ein Kernel Problem, und als solches bekannt seit 2013. Betrifft auch viel kleinere Installationen als unsere. Vollkommen krank, die haben neben den rpc.idmapd (der in services status nicht auftaucht) noch einen wirren key-request mit eigenem in-kernel Cache gebaut, und diese Caches voellig unterdimensioniert. Ausserdem scheint er ein "kenn ich nicht" ewig zu cachen, so dass ein nicht-Erkennen wegen Speichermangel zu ewigem nicht-Erkennen fuehrt (deswegen scheint das nfsidmap -c zu helfen, dass leert die Caches, und dann wird neu probiert). Einen hotfix mit heisser Nadel gestrickt, der jetzt im Betrieb die Groessen der Caches per sysctl hochsetzt. So ein Roooooooootz. [/bauerm] permanent link Fri, 22 May 2015 Nachdem es viele berechtigte Beschwerden ueber die Zaehigkeit vom NFS gab, hab ich einen Fileserverschwenk gestartet. Und hab voher nicht geprueft, ob der andere Head alle Platten sieht, und auch nicht, ob der DNS Server, der im resolv.conf steht, ueberhaupt reagiert. Beides war nicht der Fall. *selbstohrfeig*. Das System laeuft jetzt wieder, aber wieder nur auf der haelfte der Platten. Werd am Wochenende wieder auf nextwo schwenken, der sieht wieder alle, und die platten wieder ins zfs bringen... Backups laufen. neubau-223, ein P700 aus der Erstausstattung, hat nur 4Gb RAM. Lieferant sagt, es sollten 12 sein. Unabhaengig(?) davon haengt sich die "Ubuntu" Oberflaeche glorios auf, mit allen CPUs auf 100% und alles RAM belegt, ausschliesslich fuer X, ibus, compiz und solchen Unfug. NFS Probleme, Teil 3: der rpc.idmapd macht auch auf anderen Maschinen Probleme, und user sind dort nfs-nobody. Memserver installiert. Ist noch ein Gen8 HP, aber hpacucli funktioniert nicht. hpssaducli tut, meldet aber ein "Drive 1 is queued for rebuilding". Waere nett, wenn ers mal aus der Schlange liesse und den Rebuild macht, der Test mit dem Plattenrupfen ist schon Tage her... [/bauerm] permanent link Wed, 20 May 2015 Das hpssaducli kann XML Output, und in dem kann man nach Tags suchen. Wenn man welche findet, und es sind keine ChildNodes dran, dann gabs keinen Fehler, sonst steht die Fehlermeldung in den Message Attributen der ChildNodes. Mit Jonathan zusammen in python einen Checker gebastelt, der auf dem webserver scheinz funktioniert... [/bauerm] permanent link Tue, 19 May 2015 HP hatte mal ein schoenes Tool mit dem geistreichen Namen hpacucli, mit dem man einfachst den Gesundheitszustand eines Server-RAIDs abfragen konnte. Darauf aufbauend hatte ich einen Cronjob, der gelegentlich nachschaut, ob alles OK ist, falls nein, schickt er eine Mail. Latuernich kann man das als Hardwarehersteller nicht auf sich sitzen lassen. Deswegen gibts das Tool jetzt nicht mehr, statt dessen ein aehnlich benamstes: hpssaducli, welches statt einer Zeile pro Platte, mit einem "OK" an einer bestimmten Stelle, lieber 160 Kb Unfug inklusive hexdump der Firmware ausgibt. Hab bis jetzt noch nicht raus, welche der 11716 Zeilen ueberhaupt den Zustand des RAIDs beschreiben soll. [/bauerm] permanent link Mon, 18 May 2015 Sultana und Norton eine HE nach unten transportiert, weiter geht nicht, weil da die Steckerleiste ist. Nach Update von Norton stellt sich raus, dass ein NFS mount _fast_ alle Userhomes als nfs-nobody sieht. Wenn man rpc.idmapd mit debug options startet, sieht man, dass er immer wieder mal unmotiviert ein paar Anfragen per nss_getpwent macht und mit der Zeit immer mehr UIDs kennt. Fuer Leute, die sich einloggen wollen, aber ein Problem, weil z.b. sshd erstmal prueft, ob das .ssh/authorized_keys ihnen wirklich gehoert. Wenn man mit nfsidmap -c den Cache von diesem Lookupdings flush-t, und dann mit ls -l nach den IDs bittet, kennt er ploetzlich mehr. Diesen Mechanismus hab ich in eine Schleife gepackt und damit am Ende alle UserIDs korrekt ge-idmap-ped gekriegt. Auf Avana wars das gleiche Problem. Das rpc.idmapd wird nicht von irgend jemandem gestartet, passiert anscheinend so nebenher beim mounten von NFS files. [/bauerm] permanent link Wed, 13 May 2015 Die Webserver Umstellung hat begonnen. Natuerlich gings nicht sofort glatt, weil die MAC des alten Servers noch in den ARP Caches von laenger laufenden Maschinen, unter andem des Routers, waren. Gestern gabs einen Fileserverslowdown nachdem alle 48 CPUs von norton gleichzeitig ins NFS geschmiert haben. Grund war ein wildgewordenener Prozess, der ohne Pause ge-fork(2)-t hat, und seine Kindprozesse haben in Bursts geschrieben... [/bauerm] permanent link Fri, 01 May 2015 [/bauerm] permanent link Auf monitor waren die massen der zabbix daten auf 600Gb angelaufen. Man kann das per hand retten, wie vor einiger Zeit beschrieben , aber das zieht sich, und zabbix muss definitiv aus sein (und man muss die die ownership der tabellen richtig hinkriegen). Vielleicht doch mal zum SQL Guru werden und das mit partitions, table inheritance, stored procedures, triggers und rules hinfummeln. [/bauerm] permanent link Thu, 23 Apr 2015 23.04.2015, Heute Nacht um "00:31:46" hat sich der "mysql-server-core-5.5" upgedatet. Gestartet hat er sich allerdings nicht wieder. Ein "/etc/init.d/mysql start" half. [/bayer] permanent link Fri, 17 Apr 2015 Wer R-3.1.3 auf Ubuntu selbst bauen will, der muss sicherstellen, dass libcairo2-dev installiert ist, weil R sonst zwar ein library/grDevices/cairo.so baut, in dem dann aber kein Symbol ist. Kriegt man mit objdump -t library/grDevices/cairo.so raus. Wer rstudio bauen will, muss die Anleitung in INSTALL ignorieren, weil vor der ganzen CMake Magie erstmal die Skripten in dependencies/linux/ ausgefuehrt werden muessen. Die installieren benoetigte libs. Wenn man das nicht tut, schmeisst CMake autogenerierte Errors, die auf Fehler in autogenerierten Files hinweisen, was so richtig gar nix nuetzt. [/bauerm] permanent link Tue, 14 Apr 2015 14.04.2015, Puhh bis jetzt 202 Rechner upgedatet ... weitere folgen. Der Netapp Testserver wird am Montag wieder abgeholt :( [/bayer] permanent link Thu, 02 Apr 2015 02.04.2015, Wahnsinn ... ueber Nacht hat Mendeley ihren Mirror geaendert. Jetzt laeuft der apt natuerlich in einen Fehler. Nachdem wir jetzt auf 14.04 updaten, hab ich kuerzerhand den Mirror entfernt, evtl. reicht ja auch das in 14.04 mitgelieferte Mendeley. An einer Netzwerkdose im Seki der Geschaeftsstelle war urploetzlich ein falsches Netz geschaltet. Das gab auf der Windows-Kiste seltsame Probleme. Da manche Anwendungen an die IP gebunden sind, streiken diese dann. Nach einer Mail und einem Telefonat war dann wieder das richtige Netz geschaltet ... [/bayer] permanent link Tue, 31 Mar 2015 31.03.2015, Neuen Drucker Lexmark C950 printer-68 installiert. Er soll den alten printer-81 ersetzten. Der neue Drucker wurde im Raum 01.310 platziert und der alte printer-81 in den Raum 02.310 ausgelagert. Neues File fuer das Druckkontingent erstellt: wbinfo --group-info=IdM_MatheCipPool > neueDatei [/bayer] permanent link Thu, 26 Mar 2015 26.03.2015, R-3.1.3 fuer Ubuntu 14.04 unter /software gebaut und einige Pakete nachinstalliert. install.packages("Hmisc", dependencies = TRUE) install.packages("Rcmdr", dependencies = TRUE) Ergebins einsehen: packinfo <- installed.packages (fields = c ("Package", "Version")) packinfo[,c("Package", "Version")] ggf. die Pakete updaten: update.packages() [/bayer] permanent link Tue, 24 Mar 2015 24.03.2015, Die CIP-Pools und Praktikumsraeume sind auf Ubuntu 14.04 LTS upgedatet worden. Die Installation der In-Haus-Rechner laeuft auf vollen Touren. Die Puppet-Dashboard Datenbank mit einer Groesse von 20GB geloescht, und neu erstellt. [/bayer] permanent link Thu, 19 Mar 2015 Server Monitoring ein bisschen vorangebracht, nachdem das hp-health packet jetzt wohl funktioniert. [/bauerm] permanent link Wed, 18 Mar 2015 Unser Gurobi Token Server hat nach einer Re-Installtion eine neue HostID gehabt. Dank prompter Hilfe vom Hersteller gefixt und ein puppet-Modul fuer den Dienst eines Token Servers gebaut. [/bauerm] permanent link Wed, 04 Mar 2015 Wieder mal mit Kerberos+NFS4 gespielt. Kwalitaetssoftwaer, wohin man blickt. Der rpc.gssd, der immer mal wieder umbenannt wird, und in jeder Distro anders heisst, hat in der manpage die Worte stehen: -p path Tells rpc.gssd where to look for the rpc_pipefs filesystem. The default value is "/var/lib/nfs/rpc_pipefs". Weil /var/lib/nfs/rpc_pipefs auch tatsaechlich der Ort ist, wo die AF_UNIX Sockets etc bei uns rumliegen, braucht man diese Option also nicht. Mit der -v Option wird laut Manpage die verbosity hochgedreht. Wenn man den gssd mit -fvvvv startet, sollte er also sehr verbose im Vordergrund laufen, zum Debuggen. Wenn man das aber macht, kriegt man die Meldung beginning poll und dann gar nix mehr. Nach einiger Zeit schaut man dann mal, ob er ueberhaupt laeuft? Nein, tut er nicht. Warum nicht ??? Und wenn er schon maximal verbose ist, warum sagt er nicht, warum er sich ueber den Orcus macht ???!??!elf!zwoelf? Also, strace anwerfen, und was sehen wir da, kurz vor dem write(2, "beginning poll\n")? openat(AT_FDCWD, "/run/rpc_pipefs", O_RDONLY|O_NONBLOCK|O_DIRECTORY|O_CLOEXEC) = 3 Die Manpage luegt, und das -v ist pour el cul, wie der Franzose sagt. Mit der -p Option und dem richtigen Pfad funktionierts dann soweit, dass man andere Fehler sehen kann... [/bauerm] permanent link Thu, 19 Feb 2015 19.02.2015, Puppet Dashboard hat ueber 12000 Pending Tasks ! ein: sudo -u puppet-dashboard rake RAILS_ENV=production reports:prune upto=1 unit=mon loescht alle reports aelter als 1 Monat. ein: sudo -u puppet-dashboard rake RAILS_ENV=production db:raw:optimize optimiert die MySQL DB. [/bayer] permanent link Wed, 04 Feb 2015 Heut gabs einen Ausfall von Logins am CIP Pool, weil einige von den DomainControllern nicht liefen. Geht wieder. Evtl die Liste der Domaincontroller um die in Nuernberg erweitern.. [/bauerm] permanent link Fri, 09 Jan 2015 MySQL mal wieder. Wir haben eine Tabelle mit 3 Mio Zeilen, es gibt ausser der mysql CLI keine User, alle daemons, die potentiell reinschreiben, laufen nicht. Man kann aus der Tabelle mit DELETE immer nur ein paar Tausend Zeilen rausloeschen, weil Mysql sonst mit einem Lock error abbricht, entweder ein Timeout oder zu viele Locks. 3 Mio Zeilen sind wirklich nicht Big Data, das konnte DB2 auf CP/M 1980 schon. [/bauerm] permanent link Thu, 08 Jan 2015 HPC Code auf Sultana laeuft in OOM errors. Kommt vom Memory Overcommitment im Kernel, kann man abstellen mit sysctl -w vm.overcommit_memory=2 Mehr dazu auf uni twente Zitat: Linux on the other hand is seriously broken. [/bauerm] permanent link Fri, 19 Dec 2014 19.12.2014, Merry Christmas and Happy New Year !!! [/bayer] permanent link Thu, 11 Dec 2014 Die Sultana kriegt Firmware Errors von der Netxen 10Gb Karte.... [/bauerm] permanent link Thu, 04 Dec 2014 Gestern (ich hatte Urlaub) riefen um 9:00 die blauen Maenner vom technischen Dienst an, dass sie jetzt mal eben den Stom im Ersten Stock abdrehen (wo auch Infrastruktur von uns steht). Angekuendigt war diese Aktion fuer Anfang _November_. Der Jonathan hat den Systemen waehrend der schlimmen Operation die Hand gehalten, wofuer ich ihm danken moechte. Zum Glueck ist nix schlimmes passiert. Neue Apple UX Erlebnisse: Identische PDF Files, eins per thunderbird aus einem Attachment gezogen, das andere per webmailer, zeigen unterschiedliches Verhalten, wenn man sie mit Acroread anschaun will. Bei dem aus dem thunderbird kommt "unknown error" oder "Adobe Reader kann nicht geoeffnet werden", bei dem anderen gehts. Gestern zwei PCs in den Raeumen der Ex-Biomathematik aufgebaut (neubau-240 und neubau-198). Jemand hat das DEBIAN/control file von dep-base-precise auf den Stand von vor vier Jahren zurueckgesetzt. In den rsnapshots war die neueste Version schon nicht mehr, weil mehr als eine Woche her. Zum Glueck gabs auf der Nexenta noch einen Snapshot aus der FileserverKrise, der rsnapshots enthalten hat. Wiederhergestellt und auf Wunsch noch ein Packet dazu... Neue/Alte Erkenntnis: man kann auf der Graphischen Oberphlaeche von Nexenta zwar auto-snapshots anlegen, aber die snapshotten dann immer _alles_. D.h. auch so tolle sachen wie die rsnapshots, die eh schon viel duplizieren... Per Command Line Interphace korrigiert (und da kann man auch nicht aendern, welches "volume" gesnapshottet wird, man kann nur loeschen und einen neuen mit korrektem volume anlegen. *grummel*) [/bauerm] permanent link Mon, 01 Dec 2014 Niemand kann sich auf rondo einloggen. Der Grund: das Datum auf der rondo ist der 1. November 2023. Der authserver weigert sich, mit clients aus der Zukunft zu reden. Warum der openntpd die Uhrzeit nicht fixt: adjusting local clock by -281358460.263632s adjtime failed: Invalid argument D.h. wenn die Uhr mal so weit von den Timeservern weg ist, kann adjtime(3) sie auch nicht mehr korrigieren. Drexglump! Also sudo ntpdate -b ntp1.fau.de [/bauerm] permanent link Tue, 18 Nov 2014 Zu dem Ubuntu R-base Packet gibts ein r-recommended, was aber gar nicht recommended ist, sondern mandatory. D.h. man kann das gar nicht nicht installieren. Damit sind meine Plaene zunichte, alles aus selbst-kompilierten Packeten zu haben... Ohmann. Das CRAN Package RHmm kann man aus unklaren Gruenden nicht mehr per install.packages installieren, deswegen hats jetzt gefehlt. Wenn man die sourcen runterlaed, auspackt, und dann mit R CMD build RHmm ein RHmm_2.1.0.tar.gz erzeugt, dann kann man dieses mit install.packages('pfad/zum/RHmm_2.1.0.tar.gz', NULL) doch wieder bauen. Jetzt in die Rpackages Liste eingefuegt. Unsichtbar gewordene spare-platte in der Coraid wieder aktiviert: cat /dev/ethdrv/devices zeigt die platte nicht. zpool status zeigt sie als unavailable coraid console zeigt sie nicht. setslotled spare 10 (laemplein leuchtet) Platte rausrupfen, wieder reinstecken. coraid console zeigt sie als Disk, aber ohne Role (d.h. LUN-name), list -l zeigt sie nicht. jbod 2.10 list -l zeigt sie cat /dev/ethdrv/devices zeigt sie zpool status listet sie als unavailable zpool remove coraid01 c2t2d10 zpool add coraid01 spare c2t2d10 zpool status zeigt sie als avail setslotled reset 10 (laemplein leuchtet nicht mehr) [/bauerm] permanent link Sat, 15 Nov 2014 Nach der Ankuendigung, 4004 Stunden zum re-Silvern der Platten zu brauchen, ist das ZFS jetzt nach 25h32m fertig geworden. Naja, besser als andersrum... [/bauerm] permanent link Fri, 14 Nov 2014 Failover von nexone auf nextwo gemacht. Hat fast 20 Minuten gedauert, und nebenher ist die nexone gecrashed. Nach ihrem Verscheiden hat die nextwo dann uebernommen und rekonstruiert grad die anderen RAID-Platten: pool: coraid01 state: ONLINE status: One or more devices is currently being resilvered. The pool will continue to function, possibly in a degraded state. action: Wait for the resilver to complete. scan: resilver in progress since Fri Nov 14 12:20:02 2014 5.37G scanned out of 16.0T at 1.76M/s, 2650h20m to go 5.37G resilvered, 0.03% done Man beachte die voraussichtlichen 2600 Stunden Rekonstruktionszeit (110 Tage). R-Packete wieder dem Ubuntu entrissen. Ubuntu hat nur wenige CRAN Packete, und die sind wiederum Abhaengigkeiten von Packeten, die wir von Hand unter /usr/local/lib/R installieren. NAch einem apt-get upgrade passen die dann nicht mehr zusammen. Die CRAN-Sachen sind jetzt alle konsistent fuer eine R-Version kompiliert, und die ist per "verions-pinning" festgelegt ("it's not dead. It's probably pinning for the fjords"). [/bauerm] permanent link Fri, 07 Nov 2014 AAAAAAArg. Freebsds bsdtar behauptet, cpio-streams lesen zu koennen. Das ist leider nicht wahr. Nach 52 Gb ist das ding heut nacht gestorben und hat zum Abschied ein paar Files mit vergarbelten, ewig langen Namen angelegt. Das ganze nochmal mit scp -r von der QNAP. Das wird wieder Wochen dauern. Verdammt [/bauerm] permanent link Thu, 06 Nov 2014 mathe-backup (Offsite Maschine in einem Rack im RRZE) re-aktiviert, indem wir den kaputten zpool ueberbuegelt habe. Fein, dann kann man ja ein Backup auf die kiste machen! Also find homes -print0 | grep -v "\.zfs/" | cpio -o0 | gzip -1 | \ openssl enc -e -aes-256-cfb -kfile $keyfile | nc $mathebackup 1234 und nc -l 1234 | openssl enc -d -aes-256-cfb -kfile $keyfile | gzip -d | cpio -ivlm ABER: kein cpio auf mathe-backup! Rausgefunden, dass /usr/bin/bsdtar cpio vielleicht lesen kann. ABER: kein openssl auf mathe-backup. Also installieren: pkg_add -r openssl Schmeisst "Filesystem Full". Also pkg_add -p /zpool/pkgs -r openssl Tut. ABER: findet libssl.so. nicht. Also ldconfig -m /zpool/pkgs/lib. Grad laeuft ein Test-Backup, mal schaun... [/bauerm] permanent link Wed, 05 Nov 2014 Panisch Backups in alle Richtungen gemacht, Umschwenk vermutlich am Freitag.... Damit das Zabbix seine backups machen kann, braucht es eine Erlaubnis. Weil SQL doof ist, geht das so: GRANT ALL ON ALL TABLES in schema public to zabbix; Auf der QNAP kann man keine /etc/exports aus den configs erzeugen, weil die Lumpensaecke ein shared object (libuLinux_naspriv.so.2) nicht mit ausgeliefert haben. Sehr schlecht, wenn das der Fallback sein soll... Das Postgres hat auf 24 CPUs 100% Last erzeugt und war dabei, den swap aufzufuellen. Unklar warum. Auf der zabbix Datenbank im Postgress die grossen tables mit SELECT INTO ... WHERE clock > ($grad_eben - 7*24*3600); wegkopiert (nur die Daten der letzten Woche), und dann mit TRUNCATE geloescht. hat mehr als 300 Gb Plattenplatz freigemacht. Automatisiert muesste das so aussehen: # Vorher zabbix stoppen... tables="history history_uint history_str history_text history_sync history_text_sync \ history_uint_sync" # weitere? now=`date +"%s"` for t in $tables; do echo "SELECT * INTO ${t}_new FROM $t WHERE clock > $now - 7*24*3600; TRUNCATE TABLE $t; DROP TABLE $t; ALTER TABLE ${t}_new RENAME TO $t;" | psql -U zabbix $DBNAME done Evtl sollte man das in ein "BEGIN .. COMMIT" wickeln. [/bauerm] permanent link Sun, 26 Oct 2014 Die off-site Maschine stirbt weiter im zfs receive... Dreck. Das ps Kommando auf QNAP sieht zwar wie das std-Linux ps aus, ignoriert aber alle Options. [/bauerm] permanent link Unschoener Effekt: nachdem es einen gemeinsamen snapshot von Fileserver und ZFS backup auf einer off-site Maschine gab, zfs send -I @der_alte_snapshot daszfs@der_neueste_snapshot | ssh $offsite "zfs receive -vF $zfswurzeldort" probiert. Das hat die $offsite Maschine ins Coma geschickt. Nach einem reset per iLo sagte sie Solaris: WARNING: can't open objset for zpool/backup-coraid/homes/staff/%recv und reagierte nicht mehr. Nach zwei hard-resets per iLo gings dann erstmal wieder Screen auf der QNAP stirbt mit einem angeblichen termcap error. Tatsaechlich fehlt ein Hinweis auf die schon existierende /usr/share/terminfo/: export TERMINFO=/usr/share/terminfo fixt das Problem. Durch Fehlkonfig unsererseits hat die Nexenta auch snapshots von den Ubuntu Mirrorn gemacht, totale Platzverschwendung... Auf FreeNAS ist screen nicht installiert, dafuer tmux (escape Seq ist ^B) [/bauerm] permanent link Tue, 21 Oct 2014 Heut frueh wollten wir einen Fileserver-Head-Schwenk machen, weil manche CIFS Shares nicht mehr mountbar waren und wir keine andere Loesung gefunden haben. Das ging brutal schief, weil der zweite Head aus unerfindlichen Gruenden ein komplettes Plattenshelf nicht mehr kannte. Nach einem Zurueckschwenk waren dan natuerlich alle Mirror-Paare degraded, und weil die zweite Maschine die Platten nicht gesehen hat, hat sie die Namen durch UUIDs ersetzt, die nix mehr zugeordnet sind. zfs replace funktioniert mit einem i/o error nicht mehr (d.h. auch die erste Maschine sieht die Platten nicht mehr). Wir fahren jetzt also ein RAID0 aus lauter kaputten RAID1 Paaren. Herr Longariva vom RRZE konnte ein paar Tips geben, wie man mit devfsadm auf der anderen Maschine wieder auf die Platten zugreifen kann, aber das NFS/CIFS kommt jetzt von der Maschine, die nur die Haelfte sieht. Ohmann. Dass laengere Zeit die Haelfte aller Platten ausfaellt, war natuerlich nicht im Fehlerszenario vorgesehen. Alle Mitarbeiter- und Studentenhomes sind noch auf Backups, insofern keine Userdaten in Gefahr, aber trotzdem eine eklige Vorstellung, dass jetzt eine ausfallende Platte reicht, alles ins Grab zu reissen. Ein zfs send -R aller Daten laeuft auf die norton (nur dort ist genug Platz), aber das braucht 12 Tage (sind 15 Terabyte).... Danach testen wir mal, ob ein Schwenk auf die andere Maschine zu einem re-silvering der Mirrors fuehrt, oder ob dann alles stehnbleibt. [/bauerm] permanent link Mon, 13 Oct 2014 Seltsamer Effekt auf cups: die Uhrzeiten der Printjobs in der Web-Oberflaeche liegen drei Stunden zurueck, obwohl grad gedruckt wurde. Nebst diesem Problem kann sich kein Admin mehr ueber die web. GleichzeiWeb-Oberflaeche einloggen. Logs enthalten keinen erkennbaren Hinweis. Restart von cups bringt nix. Erst ein reboot rettet [/bauerm] permanent link Wed, 08 Oct 2014 Auf einer Maschine liess sich zabbix nicht mehr starten, das Startup skript meldet nix (weil die Typen den stdout, stderr nach /dev/null umleiten). Es stellt sich raus, dass die neue Version vergisst, ein /var/log/zabbix-agent/ zu erstellen, und dann stirbt der agentd beim Starten. Gefixt. [/bauerm] permanent link Mon, 22 Sep 2014 Um unser Druckeraccounting von einem Semester auf das naechste zu bringen (und dabei die Druckkontingente wieder auf 0 zu setzen), muss man wie folgt vorgehen: 1. auf neubau-33 in /home/printadmin/printadmin.cfg die Variable PRINT_RESET_WS auf einen String der Form "tag monat jahr" setzen, ab dem das neue Semester beginnen soll. 2. den cups anhalten, damit nicht in der datenbank geschmiert wird, waehrend man sie anpasst. 3. die datenbank in /etc/pykota sichern 4. mit sqlite in der Datenbank: 4.1 die Trigger entfernen 4.2 in allen eintraege in users, die negativen "stud" Wert haben, diesen negativen Wert auf "cash" addieren (soviel sind die ueber das Kontingent in ihren Bargeldbereich reingelaufen) 4.3 alle sonstigen stud-Werte auf 0 setzen 4.4 alle balance Werte auf stud+cash setzen 4.5 Trigger wieder anlegen (z.b. echo ".schema" | sqlite3 $backup.db | sed -n '/TRIGGER/,$p' | sqlite3 $db ) 4.6 nochmal mit ein paar selects nachschaun, obs so passt 5. cups wieder starten 6. mit dem web-frontend nachschaun, ob 6.1 die Semesterbezeichung stimmt 6.2 die Useraccounts tatsaechlich hoechstens die Bargeldwerte als "Balance" haben. [/bauerm] permanent link Wed, 03 Sep 2014 Interessantes Problem mit puppet-dashboard: das Passenger Module fuer Apache stirbt mit: [ pid=24133 file=ext/apache2/Hooks.cpp:727 time=2014-09-01 14:58:33.756 ]: Unexpected error in mod_passenger: An error occured while sending the request body to the request handler: Broken pipe (32) Backtrace: (empty) Man beachte die hilfreiche Unterscheidung zwischen Erwarteten und Unerwarteten Fehlern. Dies hier ist also ein Unerwarteter. Danach ist der Port 3000 auf localhost dicht, auf dem Dashboard seine Reports erwartet, und puppet master meckert: puppet-master[3726]: Report processor failed: Connection refused - connect(2) Es scheint, dass wenn man dann mit /etc/init.d/puppet-dashboard restart das dashboard wieder startet, dann nimmt der eine Webrick Instanz, also einen kleinen Webserver in Ruby und lauscht mit dem auf port 3000. Der hat keine Authentisierung. Doh, wie Dr. H. Simpson sagen wuerde. Nach einem stop von Dashboard und Restart von Apache (in der Reihenfolge) geht alles wieder. [/bauerm] permanent link Mon, 25 Aug 2014 25.08.2014, LibreOffice bringt Fehlermeldungen: The following packages have unmet dependencies: libreoffice-base : Depends: libreoffice-base-core (= 1:4.3.0-0ubuntu1~precise1) but 1:4.3.0-3ubuntu1~precise1 is installed Depends: libreoffice-base-drivers (= 1:4.3.0-0ubuntu1~precise1) but 1:4.3.0-3ubuntu1~precise1 is installed Depends: libreoffice-core (= 1:4.3.0-0ubuntu1~precise1) but 1:4.3.0-3ubuntu1~precise1 is installed libreoffice-core : Breaks: libreoffice-base (< 1:4.3.0-3ubuntu1~precise1) but 1:4.3.0-0ubuntu1~precise1 is installed Diese Eingaben beheben das Problem: mv /var/lib/dpkg/info/libreoffice-base.* /tmp/ dpkg --remove --force-remove-reinstreq libreoffice* python-uno dpkg -P --force-all libreoffice* apt-get -f install -y [/bayer] permanent link 20.08.2014, Einen neuen CIP-Pool Printserver installiert (auf HP Hardware ... der alte war ein Desktop Rechner) Der Server laeuft auf Ubuntu 14.04 LTS. Rackschienen eingebaut, Server verdrahtet inkl. ILO ... laeuft :) Jonathan hat das Puppet-Dashboard auf 1.2.23 aktualisiert. [/bayer] permanent link Fri, 15 Aug 2014 Angefangen, den Upgrade von Ubuntu 12.04 nach 14.04 vorzubereiten. Auf einem Testserver installiert und die relevanten puppet-module so umstrukturiert, dass sie jetzt mit mehreren distribs funktionieren. Dabei rausgefunden, dass die [environment] Konfig-Section im puppet.conf nicht mehr funktioniert, d.h. Maschinen die ins $testnetz sollen, muessen mit puppet agent --environment test --test konfiguriert werden, damit sie mitkriegen, dass sie im $testnetz sind. Der ersten puppet run legt das dann dauerhaft fest. [/bauerm] permanent link Wed, 30 Jul 2014 Daruuum druckt der keine Geviertstriche: Andi hat rausgekriegt, wie man die Filter-Pipeline simuliert und hat damit mal alle Zwischenschritte erzeugt. Entweder beim Wandeln von pdf nach "raster" mit gsraster oder beim Wandeln von "raster" nach "gutenprint" mit rastertogutenprint gehen die Geviertstriche hops. Beide Programme sind uralt und das Problem war bis jetzt nicht aufgetreten. Man kann wohl davon ausgehen, dass irgendein sonstiger Input dieser Programm sich geaendert hat. Kaum eines dieser Filterprogramme hat eine Dokumentation, und das "raster" format kennt niemand ausser cups (deswegen ist noch ungewiss, welcher der beiden Filter die Geviertstriche wegschmeisst). Wenn man unbedingt ein "raster" haben will: gs -sDEVICE=cups filename.{pdf,ps}.... Nachdem das entsprechende PPD, das auf Gutenprint basierte, durch ein anderes auf foomatic-Basis ersetzt wurde, gehts wieder (mit anderen Abstaenden an den Raendern, die Umwandlungen sind also nicht verlustfrei). [/bauerm] permanent link Mon, 28 Jul 2014 Den kaputten printer-80 durch einen anderen kaputten HP ersetzt, um die Probleme zu analysieren, die bei einem alten HP im Haus auftauchen. Naemlich, dass manche Zeichen in Dokumenten nicht gedruckt werden (vermindert den ROI). Bei einer kurzen Debugging Session mit cups kann man sehen, dass auf dem betroffenen Printer ein PDF durch folgende Filter-Pipeline geschickt wird (wobei fast alle Filter undokumentierte Binaries in /usr/lib/cups/filters sind): 1. pdftops 2. pstopdf 3. pdftopdf 4. pstoraster 5. rastertogutenprint 6. ??? ,,Aber waruuuum??" [/bauerm] permanent link Fri, 25 Jul 2014 Glorio! Der Jonathan hat durch Einfuehren von INDEXes zu den (itemid,clock) Paaren in den history* Tabellen der Zabbix Datenbank _alle_ Anfragen wesentlich schneller gemacht. Insbesondere zeigt das "Latest Data" jetzt die Daten eines Rechners bevor der automatische Reload der Seite zuschlaegt und das ganze zur Endlosschleife ohne Ergebnis macht. Sehr schoen. [/bauerm] permanent link Thu, 17 Jul 2014 Kwalitaetssoftware, wohin man blickt! Der Apple iCal benutzt den Apple iSchluesselring wenn man ein .ics File aus dem Netz "abonniert". Wenn da drin ein Username steht, der nicht auf das File zugreifen darf, dann fragt iCal nochmal nach Username und Passwort, __verwirft__ diese dann aber. Erst wenn man die Info mit dem falschen Usernamen aus dem iSchluesselbund entfernt, wird die eingetippte username+passwd Info benutzt, um die Datei zu holen. [/bauerm] permanent link Thu, 10 Jul 2014 Zu dem alten Post ueber nexenta SVCs: Sollte einer der "services" in Zustand "maintainance" haengenbleiben, dann muss man ihn erst mit svcadm clear $dersevicenamederwieeinerurlausschaut von seinem Makel befreien, sonst laesst er sich nicht starten.. Jonathan hat dem neuen Zabbix eine neue DB gegeben, dementsprechend musste auch cipmap leicht modifiziert werden.... [/bauerm] permanent link Thu, 03 Jul 2014 Das Zabbix hat nach dem Upgrade _alle_ Server als "unreachable" gemeldet (dabei aber gleichzeitig froehlich Daten von ihnen eingesammelt). Das lag --- wie sich rausstellte --- daran, dass es ausgeloeste Trigger in den alten Daten gab, die wir in die neue rueberkopiert hatten, und zu diesen Triggern gab es keine items mehr, die haetten melden koennen, dass die Maschinen wieder erreichbar sind. Loesung war, per SQL die Trigger zu finden und zu loeschen, "Loeschung als Loesung" wie das der Jonathan ausgedrueckt hat. (Die tolle normalform ist IIRC: host -> item -> function <- trigger, aber in trigger stehen dann die IDs der functions in einem _string_, z.b. {12345} > 1, heisst, wenn der messwert, der zu dem item gehoert, dass von der function 12345 referenziert wird, kleinergleich 1 ist, dann wird der trigger ausgeloest.) [/bauerm] permanent link Thu, 26 Jun 2014 Verdammt. Mehr als eine Stunde Downtime, weil nach einem NexentaStor Upgrade die Linux Kernels mit INFO: task $processname:$pid blocked for more than 120 seconds. rumjammert und man sich nicht einmal einloggen kann, wenn die UId nur lokales HOME hat. Aus letzterem Grund konnte ich auch keinen Downgrade auf NFSv3 per puppet durchsetzen, weil man eben gar nicht auf die Kisten kam. Nachdem beide heads wieder auf 3.1.4.2 runtergezogen sind, geht jetzt wohl alles wieder. Happrauxpault: mit der neuen puppet version gibts kein puppet kick $hostname mehr, weil aeh, man soll noch ein tolles Tool installieren (mcollect), das in Java geschrieben ist, und AMPQ benutzt. Na klar. [/bauerm] permanent link Wed, 25 Jun 2014 Inzwischen eine Menge ueber PHP Plugins innerhalb von Typo3 gelernt, und dabei das Workshop-Registration-Plugin umgebastelt. Wird von der kommenden Fall School benutzt werden. (Danke an Wigand!) Dank freundlicher Unterstuetzung des Herstellers GuRoBi (Optimierungssoftware) im PC Pool installiert. Sollte jetzt von einer Shell aus mit gurobi.sh zu rufen sein. Lizenzserver ist die neubau-33. [/bauerm] permanent link Tue, 17 Jun 2014 Aarrrgl. Typo3. Wenn man ein Plugin umschreibt, dann muss man dem Typo3 sagen, dass man was gemacht hat, weil es sonst naemlich die alte Version weiter anzeigt. Und wie sagt man das wohl????? Indem man unter "Extension Manager" den Punkt "Backup/Delete" anklickert! Na klar. [/bauerm] permanent link Wed, 11 Jun 2014 Wenn die Dienste auf der Nexenta nicht mehr moegen (deadlocks? dbus-hang-yourself-service-busd?), dann ist die Empfehlung des Herstellers: svcadm -v disable nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon [... warten ...] svcs nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon [ wiederholen, bis alles "offline" ist ] [ Sachen, die in "maintainance" steckenbleiben mit 'svcadm clear $svc' restartbar machen ] [ Die logs, die man per 'svcs -vx' angeboten kriegt, helfen gar nix, typischerweise "restarting too quickly" ] svcadm -v enable nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon svcs nm{s,v,cd} nbs nmdtrace dbus rmvolmgr rrdaemon [ wiederholen und warten, bis alles wieder "online" ist ] [ Das SUN svc-framework weiss seit 199x ueber Abhaengigkeiten Bescheid, was die Linuxler bis jetzt nicht auf die Reihe kriegen ] [/bauerm] permanent link Fri, 06 Jun 2014 Ein Dell Laptop hatte das interessante Symptom, dass es nach wenigen Minuten eingefroren ist, spaeter hat es nicht einmal mehr gebootet (nur eine der Caps/Num-Lock LEDs hat geblinkt). Stelltes sich raus, dass ein RAM-Modul nicht richtig im Sockel stak. Dies Latitude Serie ist gut konstruiert, man kommt leicht an den Speicher und die haben sogar dran gedacht, die BIOS-Batterie mit in den Schacht zu legen, so dass auch diese extrem einfach zu wechseln waere. [/bauerm] permanent link Wed, 04 Jun 2014 Folgendes Script liefert auf dem management alle MAC Adressen von cip-Pool Rechnern: #!/bin/sh echo "select computer.hostname, mac_address.mac_address from mac_address, computer where computer.hostname like 'cip-%' and mac_address.computer_id = computer.id;" | sudo -u postgres psql -U postgres inventar (Ja, man haette das auch mit einem JOIN machen koennen...) [/bauerm] permanent link Tue, 03 Jun 2014 Das NFSv4 hat ernste Probleme. Man kann auf zwei Maschinen parallel ins HOME schreiben, und wenn man dann per ls -lrt die Dateien nach dem Zeitpunkt der letzten Aenderung sortieren laesst, kriegt man auf beiden Maschinen verschiedene Outputs, d.h. die Metadaten werden nicht synchronisiert, und das fuer _Minuten_! [/bauerm] permanent link Wed, 28 May 2014 Frau Echtermeyer kann wieder streifenfrei drucken. Nach langer Fehlersuche konnten wir das PPD fuer den Drucker als Taeter identifizieren, und Nikos hat ein anderes PPD installiert, mit dem es jetzt geht! Nach nur zwei Stunden (in Minuten: 120) konnten Bjoern und ich in den Sourcen von paramiko den Bug finden, der das fabric fuer uns unbenutzbar gemacht hat. In der Routine zum Einlesen von ECDSA keys wird die KeyWord Option "validate_points" nicht explizit auf False gesetzt, was den Code in ecdsa/keys.py (anderes Python Modul) dazu bringt, die Parameter im gelesenen Key auf Korrektheit zu pruefen und das dauert bei 773 Keys im known_hosts dann 20 Sekunden pro Aufruf. Da die Keys in known_hosts sowieso schonmal im Betrieb getestet wurden (sonst waern sie nicht drin), kann man IMHO davon ausgehen, dass die zumindest wohlgeformt sind. Sobald man "validate_points=False" reinschreibt, gehts wieder blitzschnell. [/bauerm] permanent link Wed, 14 May 2014 Heut sind von 11:03 bis 11:05 auf manchen Mitarbeitermaschinen die HOMEs weggewesen. Nach einiger Recheche stellt sich raus: - NFS mounts erlauben wir nur von Maschinen mit Namen in {mi,am}.uni-erlangen.de - der Fileserver muss also reverse-lookups auf IPs machen - dazu muss er mit einem DNS server reden, wenn die IP->Name Abbildungen nicht alle in /etc/hosts stehen - der einzige(!) DNS Server in /etc/resolv.conf ist eine Windows AD Maschine vom RRZE - das ist so, weil die Microsoftler Deppen sind, und deswegen ein AD nur dann zum Authentisieren genutzt werden kann, wenn er auch gleichzeitig der einzige DNS Server ist. Den AD brauchen wir fuer unsere Studentischen Arbeitsplaetze. - und dieser eine AD/DNS Server wurde unangekuendigt rebootet - und deswegen konnten die Wissenschaftlichen Arbeitsplaetze, die gar keinen AD benutzen, auch nicht an die HOMEs Abhilfe (ungetestet): alle Maschinen ins /etc/hosts vom Fileserver. Wenn neue Namen auftauchen, muss man in dieser Datei nachziehen... [/bauerm] permanent link Tue, 13 May 2014 Viel passiert inzwischen, unter anderem - hat Jonathan den Installserver sicherer gemacht (sshfs statt nfs) - hat Bjoern den puppet master so eingerichtet, wie die Programmierer sich das gedacht haben, naemlich mit apache+rack+passenger - wurden dabei auch gleich noch ein paar sehr alte configs angepasst Dank Unterstuetzung im RRZE durften wir zwei fette HP Drucker anschaffen (laut Hersteller fuer Lasten von 30.000 Seiten pro Monat ausgelegt), die jetzt im Kopierraum 1.Stock und natuerlich im CIP Pool ihren Dienst tun. Das Adobe Reader Plugin fuer den Firefox kann PDFs so kaputtmachen, dass auch diese Drucker sie nicht mehr moegen, also Finger weg von dem Muell! [/bauerm] permanent link Tue, 29 Apr 2014 29.04.2014, Den 2ten unserer neuen Drucker heute in den PC-Pool gestellt. Angeschlossen, konfiguriert, Papier aufgefuellt und getestet -> geht :) Er ist jetzt cip1-printer4. Den alten cip1-printer4 abgebaut und im Serverraum eingemottet (ein Papierfach ist defekt und hat immer Papierstau verursacht). [/bayer] permanent link Mon, 28 Apr 2014 28.04.2014, Am Freitag wurden unsere beiden neuen Drucker geliefert. HP LaserJet M806 (A4 und A3). Einer wiegt um die 86 KG 8) Der erste der beiden ist nun im Printerraum 01.310 (printer-70) installiert und laeuft soweit. Der zweite soll in den grossen PC-Pool. [/bayer] permanent link Thu, 24 Apr 2014 24.04.2014, Maple 18 installiert, ist jetzt im Netz verfuegbar (Department und PC-Pool). Matlab 2014a Research installiert (nur Department). [/bayer] permanent link Wed, 23 Apr 2014 OK, die stuendlichen Snapshots gehen wieder (Einige Stunden spater:) Auch die taeglichen Snapshots gehen wieder Apple ist soooo benutzerfreundlich. Wenn der User mit Safari oder Firefox eine PDF Datei runterlaedt, vermutlich in der Absicht, sie zu lesen oder zu drucken, dann zeigen Preview (dt. Vorschau) und der Adobe Reader die Fehlermeldung "Die Datei ist beschaedigt" und schlagen vor, sie in den Muell zu werfen. Wenn man die Datei mit pdf2ps nach PostScript wandelt und dann mit Preview "oeffnet", dann wandelt der es wieder nach PDF und kanns anzeigen. Wenn man die Datei nach /tmp bewegt und in $HOME/Downloads einen symlink nach /tmp/$diedatei.pdf macht, kann ers auch anzeigen. Wunder der Technik (und User Experience, im Folgenden als UX abgekuerzt). Nachdem die Apple Community ja vieleviele Foren hat, schaut man da mal rum und findet Kwalitaetsvorschlaege wie z.B. den Adobe Reader Plugin zu entfernen (der hat ja funktioniert), den Adobe Reader auf eine bestimmte Version zu bringen (unsere ist neuer), die Datei nochmal runterzuladen (bringt nix), sie mit dem Disketten-Icon des Reader Plugins zu speichern (bringt nix), usf. Also in der Shell mal schaun, was an diesen Dateien anders ist: file * sagt, dass sind alles PDFs, ls -l in zeigt Zeilen der Form -rw------@ 1 user group 135245 Jan 19 2014 tr-20003.pdf Was bedeutet der Kringel am Ende der Permissions??? Also in die Manpage von ls(1) geschaut. Keine Erwaehnung des Kringels (UX++). Mit ls -lO nach moeglichen BSD flags (chflag(1)) geschaut, keine. Tante Google verweist auf eine Erklaerung, dass das "extended attributes" sind (wie das MacOS die auf NFS gespeichert kriegt waer noch spannend). Mit xattr $datei.pdf kann man sehen, dass hier com.apple.quarantine als Attribute gesetzt ist, mit xattr -d com.apple.quarantine $datei.pdf kann man das auch entfernen, und die PDF Viewer akzeptieren die Datei dann, aber beim naechsten Download hat man das Problem ja wieder (UX++). Eine Moeglichkeit, diesen Unfug zu beenden, ist angeblich defaults write com.apple.LaunchServices LSQuarantine -bool NO Das kann man als User und als Sysadmin eingeben und kriegt eventuell verschiedene Antworten auf defaults read | grep LSQ (UX++) Wenn man in der Suchzeile rechts oben "Launch" eingibt, kriegt man keinen Hinweis auf diesen Service, der fuer andere Programme Daten ablegt und diese lustigen xattr dranhaengt (UX++). Und nochwas: Wenn man in einem Terminal auf MacOS eine Pipe | tippt, muss man wegen den kranken Tastaturen auf Alt+7 druecken. Wenn man danach noch einen Space tippert, weil das einfach schoen ausschaut, und den Finger nicht von der Alt-Taste genommen hat, dann wird da ein Space auf den Bildschirm gemalt und man tippt froehlich weiter, zum Beispiel defaults read | grep LSQ Dann kriegt man den Fehler grep: command not found und tippt which grep was /usr/bin/grep liefert. Was ist die Erklaerung? In den Mac-Guru-Foren wird empfohlen: 1. das System neu zu installieren 2. die Tastatur an einen anderen USB Port zu haengen 3. eine PC Tastatur zu nehmen (eh schlauer) Was aber das tatsaechliche Problem ist: Das nach der Pipe ist kein Space (U+0020), sondern der non-breaking Space (U+00A0). Und der ist (auch bei Apple(TM)) nicht in der Liste $IFS der Field-Separators der Shell und wird deswegen als Teil des Kommandonamens genommen, und ein Kommando " grep" gibt es wirklich nicht. What were they thinking?!?? [/bauerm] permanent link Tue, 22 Apr 2014 Probleme mit Nexenta: 1. die cronjobs ("runners") die stuendlich, taeglich, woechentlich Snapshots machen, haengen wegen einem angeblich noch laufenden snapshot. 2. damits nicht so langweilig ist, hingen auch noch die WebGUI und die Kommandozeilenoberflaeche, wenn mann letztere nach dem Zustand der runners befragt. Ist gemeldet, und nach einem svcadm disable,enable,clear,restart scheint zumindest die Web GUI wieder dazusein, und die CLI meldet sich wieder. Ob snapshots gemacht werden.... [/bauerm] permanent link Thu, 17 Apr 2014 17.04.2014, Gestern war die Software Maple ohne Funktion. Programm aufgerufen -> Lizenz Error ! Mail an die Software-Leute des RRZE ergab, dass der von uns benutzte Lizenz- Server abgeschaltet wurde. Die Mail mit der Ankuendigung kam bei mir nicht an. Alle Maple Installationen auf den neuen Lizenzserver umgebogen. Mail ueber Umstellung von Matlab kam heute: Aus technischen Gruenden wurde der Lizenzmanager fuer MATLAB Research auf dem neuen Lizenzserver license1 installiert. Alle Matlab Installationen heute Morgen umgebogen. Die Teaching Version von Matlab behaellt den alten Lizenzserver nur die Research Version ist von der Umstellung betroffen. Die beiden Dozenten-Rechner in den Prakrikumsraeumen machen uns Sorgen: leider ist es nicht nur so, dass aufgrund der fehlenden Graphikkarten auf den Dozentenrechnern in den Praktikumsraeumen Paraview nicht laeuft, sondern auch Matlab abstuerzt wenn man mittelgrosse bis grosse Plots erstellt. Die Beamer haben nur einen VGA-D-SUB Anschluss. Die Nvidia-Karten wurden bei den Dozenten Rechnern entfernt um mit den Beamern arbeiten zu koennen ... wir sind auf der Suche nach einer Loesung ... die wir in Form eines Puppet-Moduls gefunden haben. Es wird per Puppet ueberprueft ob eine Nvidia-Karte vorhanden ist, wenn nicht werden alle Nvidia-Treiber deinstalliert und ein Intel-Treiber nachgeschoben. Tests mit Paraview und Matlab stehen noch aus. Bjoern macht immo einen Webserver Abzug um diesen in einer Virutellen Maschine ans laufen zu bekommen -> Typo3 Update steht an. Mit dem Tool: http://schwarzvogel.de/pkgs/lib_users-0.7.tar.gz die Server ueberpruefgt, ob noch und ggf. welche Prozesse "geloeschte Bibliotheken" verwenden (Heartbleed Bug). Neue Ueberlegung zum FAI Installer: Wir sollten Generell von PXE Booten und dann ent- scheiden ob installiert wird oder nicht (spart die Rennerei durchs ganze Haus bei einer Neuinstallation). [/bayer] permanent link Sat, 12 Apr 2014 Nach dem katastrophalen Bug in OpenSSL wird klar, dass die Grundannahme der Public Key Kryptographie einfach falsch ist, naemlich, dass der geheime Schluessel geheim bleibt. Bis wir was besseres kriegen, haben wir nach einem Update der betroffenen Libraries erstmal alle Server-Keys ersetzt, bei denen Benutzer sich per Passwort ueber TLS/SSL einloggen konnten (WWW/SMTP/IMAP). Server ohne normale Benutzer werden nachgezogen. [/bauerm] permanent link Thu, 03 Apr 2014 Heute gabs einen Nexenta-Head-Umschwenk, von der alten Version 3.1.4.2 auf nexone zur 3.1.5 auf nextwo. Leider enttaeuschend, weil die HOMEs von Linux und MacOS nicht mehr vernuenftig zugreifbar waren. Also Schwenk zurueck und Downgrade von nextwo auf 3.1.4.2. Beide Heads gehen wieder, per Failover getestet. Im CIP Pool eingefuehrt, dass User ohne HOME sich nicht einloggen koennen. Dafuer ein kleines pam Modul geschrieben, das man in common-session einbaun kann. Nach einem seltsamen Problem auf den Nexentas (kein Traffic nach aussen), hat Martin --- nach Art von Sherlock Holmes' "Wenn alles Moegliche ausgeschlossen ist..." --- eine Filterregel ausserhalb unseres Netzes als die Schuldige erkannt. [/bauerm] permanent link Wed, 02 Apr 2014 Wenn man sehen moechte, welche Hardewareprobleme ein HP Server hat, so geht das mit hplog -v zum Beispiel gestern frueh: ID Severity Initial Time Update Time Count ------------------------------------------------------------- 0018 Repaired 05:46 04/01/2014 05:46 04/01/2014 0001 LOG: System Power Supply: General Failure (Power Supply 2) 0019 Repaired 05:46 04/01/2014 05:46 04/01/2014 0001 LOG: System Power Supplies Not Redundant [/bauerm] permanent link Tue, 01 Apr 2014 Der angekuendigte Stromausfall ist ohne Probleme rumgegangen. Das einzige, was nicht funktioniert hat, waren die DECT Telefone. D.h. wenn etwas anderes nicht funktioniert haette, z.B. punktuell das Netz bei einigen Mitarbeitern, dann haetten wirs nicht gut mitgekriegt. Zusammen mit Nikos und Kathrin das Problem der hohen Last auf Monitor angegangen. Wenn man einen zabbix-proxy installiert, muss man auf den betroffenen Clients den "Server" im zabbbix_agentd.conf auf den Proxy umsetzen, was natuerlich leicht mit puppet zu machen ist. Aber das umkonfigurieren der Clients am Server, so dass der die Werte vom Proxy und nicht vom Client erwartet, ist nicht skriptbar. Webprogrammierer, der Teufel soll sie alle holen. Also entweder einen Hiwi eine Stunde klickern lassen, oder bei einmal Klickern das SQL Statement mitsniffen, das die Konfig in der Datenbank aendert und dann damit skripten... Wieder mal die Eleganz der Softwarebestellung beim RRZE bewundert. Die Preise stehen in einer Liste, die kryptischen Codenamen der Lizenzen auf einer zweiten und bestellen muss man die Lizenzen mit einem Formular, das Daten aus beiden Listen erfordert. Noch ein Spass: das LDAP, das getpwent und der Kerberos haben verschiedene Ideen von Gross- und kleinschreibung. Dem OpenLDAP gross/Klein egal, wenn man versucht, uids von Gross nach klein zu aendern. Das getpwent liefert aber die Grosse Version, und der Kerberos findet dann keinen User dazu, weil der scheinz alles kleinmacht. Also: User im LDAP loeschen, user neu anlegen, gleiche posixUid geben, dann gehts wieder. [/bauerm] permanent link Thu, 27 Mar 2014 Die Report-logs vom puppet dashboard und die MySQL Datenbank gleichen Inhalts sind wieder mal uebergelaufen. Wenn man in MySQL "OPTIMIZE TABLE tablename" startet, dann explodiert der Speicherverbrauch auf der Platte. Wenn die Platte vorher schon knapp mit freiem Speicher war, dann wird das nicht fertig... Es gibt jetzt einen Laptop fuer die CIP Aufsicht, so dass wir auch im PC Pool 1 sichtbar anwesend sein koennen. [/bauerm] permanent link Wed, 26 Mar 2014 Stichtag fuers Druckkontingent! Alle Durck-Accounts der Studenten auf 0 Euronen gesetzt, damit die Buchhaltung uns nicht Geld verweigert. Kwalitaetssoftware, wohin man blickt: gvfsd-metadata (ein daemon, dessen Zweck eher unklar ist), frisst auf zwei Maschinen 50% CPU und macht 3Mb/s kontinuierlich Schreibvorgaenge auf stale NFS files. Laesst sich toeten, ohne dass jemand was merkt.... Bjoern hat einen gitlab-Server aufgesetzt, wo wir git Repos mit Bugtack und Projektwiki anbieten koennen. Momentan sind unsere internen Projekte drin. [/bauerm] permanent link Tue, 25 Mar 2014 Zum zweiten Mal hat jemand eine Kaffeesatz-Auffangschale unwiederbringlich in den Muell geworfen. Wenn die Leute nicht mal eine Kaffeemaschine korrekt bedienen koennen, soll man ihnen einen Rechner hinstellen??? Zabbix Test fuer die Anwesenheit von Rcmdr implementiert. Momentan ueberall im CIP installiert. [/bauerm] permanent link Fri, 21 Mar 2014 Stromausfall im zweiten Stock. Die Leitwarte ist informiert [/bauerm] permanent link Tue, 18 Mar 2014 Nachdem das lshw auf HP ProLiant Servern 100% CPU frisst, ohne ein Ergebnis zu liefern, machen wir das jetzt dort nicht mehr, um die Graphic Karte zu erkunden (eh Unfug auf den Servern) [/bauerm] permanent link Mon, 17 Mar 2014 Weissburgunder ist jetzt auf precise, und haengt am management. Fehlt nur noch der virtserver. [/bauerm] permanent link Fri, 14 Mar 2014 Mit Patrick ueber die neue Version der Druckeraccountverwaltungssoftware geschaut, muss noch ein bisschen was gefixt werden, sonst schauts gut aus. Mitarbeiterseite angelegt/reaktiviert. Das Typo3 ist sehr seltsam. [/bauerm] permanent link Tue, 11 Mar 2014 Auf folgende Art kann man einen mercurial (hg) Repository Server auf Ubuntu installieren, der beim commit/push gegen libpam authentisiert. Das kann dann pro Repository noch eingeschraenkt werden: /var/hg angelegt und auf www-data chownen hgweb.wsgi aus /usr/lib/python*/site-package/mercurial/... nach /var/hg/cgi kopieren /etc/apache2/conf.d/hg; WSGIScriptAlias /hg "/var/hg/cgi/hgweb.wsgi" AllowOverride All libapache2-mod-authnz-external installieren (zieht apache und fast alles nach) libapache2-mod-wsgi installieren ssl und wsgi angeschaltet per ln -s /etc/apache2/sites-available/default-ssl /etc/apache2/sites-enabled/. ln -s /etc/apache2/mods-available/*wsgi.load /etc/apache2/mods-enabled/. ln -s /etc/apache2/mods-available/mods-available/ssl.load /etc/apache2/mods-enabled/. authnz config in /etc/apache2/conf.d/authnz: AddExternalAuth pwauth /usr/sbin/pwauth SetExternalAuthMethod pwauth pipe AddExternalGroup unixgroup /usr/sbin/unixgroup SetExternalGroupMethod unixgroup environment /var/hg/.htaccess um Auth gegen PAM zu erzwingen: AuthType Basic AuthName Mercurial AuthBasicProvider external AuthExternal pwauth Require valid-user /var/hg/hgweb.conf: [web] descend = True collapse = True baseurl = /hg [paths] /mercurial = /var/hg/repos/** Repos liegen dann unter /var/hg/repos/ Die URL ist https://$hostname/hg/mercurial/$reponame In den /var/hg/repos/$repo/.hg/hgrc: [web] name = ... description = ... allow_push = user1, user2,... Was jetzt noch fehlt ist ein kleines CGI, dass die repos mit "hg init" anlegt, die .hg/hgrc anpasst und vielleicht die SSH keys der User in ~hg/.ssh/authorized_keys mit passenden command="hg server ...." settings ein/austr"aegt. [/bauerm] permanent link Thu, 13 Feb 2014 iMac setup: Userhomes am besten ueber /etc/auto_home: dort /home $server:$exportpath $options eintragen. User anlegen, z.b. mit dem graphischen Tool. Dann die UID der User auf die im NFS umbiegen: dscl . -change /Users/$username UniqueID $old $new wobei $old im Bereich ab 501 liegt. MacTex von tug.org/mactex installieren. [/bauerm] permanent link Tue, 11 Feb 2014 11.02.2014, Bei unseren Rechnern sterben so langsam die Festplatten weg. Status Remaining LifeTime(hours) LBA_of_first_error Completed: read failure 90% 20844 87185771 Wir haben 5 Jahre Garantie ... zum Glueck. Wir haben uns leider aus einem Drucker ausgesperrt. Wenn man den Drucker jetzt ueber den Menuepunkt "auf Werkseinstellungen zuruecksetzen" zuruecksetzt, wird alles zurueckgesetzt nur nicht die Netzwerkeinstellungen ...??? Auf Nachfrage wurde uns mitgeteilt, (Danke dafuer an die Firma Frasch) dass es in einem geheimen Menue einen geheimen Punkt gibt, der die Ruecksetzung der Netzwerkeinstellungen zulaesst. [/bayer] permanent link Thu, 06 Feb 2014 06.02.2014, Wir haben nun 3 (in Worten: DREI) neue Hilfskraefte :) Sie stehen ab naechstem Semester bereit und werden hier mitwirken. [/bayer] permanent link Unsere Mailinglisten entsprachen nicht den Vorgaben, die auf der internen Infoseite dazu erklaert waren. Peinlich... Angefangen, das geradezuziehen und die Infoseite etwas eindeutiger gemacht. Stellt sich raus, dass Lexmark Drucker, wenn Sie Input bekommen, der um Letter-Format Papier bittet, diesen Input still wegschmeissen. Fuer CUPS heisst das: "Erfolgreich 0 Seiten gedruckt". Und natuerlich keine Fehlermeldung oder sonstwas. Drecksglump. [/bauerm] permanent link Fri, 31 Jan 2014 31.01.2014, Greeter Text im CIP-Pool geaendert da wir Hilfskraefte brauchen: ACHTUNG: Wir suchen Studentische Hilfskraefte in der Rechnerverwaltung !!! Bei Interesse melden Sie sich bitte hier in der Mathematik im Raum 01.330 [/bayer] permanent link Mon, 27 Jan 2014 Ubuntu installiert den gnome-keyring-daemon, und das auch fuer gpg. Das heisst, dass Enigmail (gpg-plugin fuer Thunderbird) den gpg-agent startet, ihn dann aber nicht benutzt, weil der gnome-keyring schon laeuft. Damit ignoriert er natuerlich auch alle Einstellungen, die man fuer gpg-agent angelegt hat, und gnome-keyring-daemon kann nicht so einfach konfiguriert werden, passphrases nach k Sekunden zu vergessen. Tipp aus einem Forum: "Dann loesch doch einfach /etc/xdg/autostart/gnome-keyring-daemon-gpg" Darauf im Forum: "Dann hat gar kein User mehr gnome-keyring-daemon" Antwort im Forum: "Ach so, Du hast mehrer User auf der Maschine?"... Gnome, die Single-User-Oberflaeche. [/bauerm] permanent link Mon, 20 Jan 2014 Wieder was gelernt. Wenn der Mailserver jemandem die falsche UID zuordnet, dann reicht es _nicht_ nscd und nslcd zu restarten, nein, man muss auch dovecot selbst restarten, weil das die Daten _nochmal_ cache-t. [/bauerm] permanent link Wed, 15 Jan 2014 Aaargl. Der Fileserver reagiert extrem zufaellig und extrem langsam. Eine Matlab Uebung konnte praktisch nicht gehalten werden, weil das zu zaeh war. Top sagt, dass 31% der CPU Zeit im Kernel verbracht wird. Pingstatistik: 1893 packets transmitted, 1893 packets received, 0.0% packet loss round-trip min/avg/max/std-dev = 0.142/12.511/1579.616/65.738 ms ^^^^^^^^^^^^^^^ Also 1.5 Sekunden warten auf ein Ping. Der Rest vom Netz ist schnell. Statistiken auf der Maschine (top, nfssrvtop, darkstats, snoop, arcstats, dladm show-aggr -s) sagen, dass alles im unteren gruenen Bereich ist, massen Speicher, CPU, Platte, Cache frei, Platten schnell, Netz super.... Loesung, die der Martin vorgeschlagen hat: nfsd als Service stop, starten. Und schon geht alles wieder. Wenn man im Userspace absolut nix sieht von den Performanceeinbruechen, dann sieht das nach Kernel-Problemen aus. Und dass jetzt die CPU nur noch 1.7% im Kernel verbringt klingt auch nach uneffizienten Datenstrukturen, Huehnerkaempfe um Locks und sowas. [/bauerm] permanent link Fri, 10 Jan 2014 Seit 6.1 gabs unglaublich viel Datenverkehr auf dem Storage-Switch, also am Fileserver. Weil wir dem Output von Darkstat nicht glauben wollten, hab ich folgenden Einzeiler geschrieben, der die haeufigsten Kommunikationspartner des Fileservers auf demselben raussucht: snoop -c 100000 -d aggr1 cluster | awk '{print $1; print $3;}' | sort | uniq -c | sort -n | tail Stellt sich raus, dass helios 99% Prozent des Traffics erzeugt hat. Warum, ist noch unklar (NFSv4 Bug in Linux? Klingt extrem wahrscheinlich...). Den zweiten Fileserverhead auf Nexenta 3.1.5 gebracht. Und natuerlich macht der Upgrade wieder einen Downgrade des Coraid Etherdrv, so dass wir falsche Meldungen zu angeblich nicht verfuegbaren Platten kriegen... Also auch noch re-upgrade des Treibers auf 6.0.5-R3... [/bauerm] permanent link Wed, 08 Jan 2014 Die neubau-103 war der erste Server aus dem Neubaubestand, also hatten wir da alles Moegliche, vom Installserver bis zu DHCP server mal drauf. Der Update hat das alles weggeraeumt, wodurch man schoen sehen konnte, wo in der Infrastruktur noch die neubau-103 vorkam. U.a. stand in den DHCP Options fuer den PC Pool die 103 als TFTP Server drin. Gefixt. Latuernich hab ich was uebersehen: der kerberos key fuer die neubau-103 war nicht nur auf ihr selber falsch, sondern auch im puppet. Also wurde der richtige nachts ueberbuegelt. Gefixt. Dovecot hat beim Versionsupdate sein eigenes Konfigfile nicht mehr gemocht, also Rumgewuerge mit Wiki eintraegen von dovecot.org, bis das so halbwegs ging. Ein paar globale User waren auf der neubau-103 auch lokal vorhanden, mit anderen passwoertern _und UIDs_. Dang. Gefixt. Das roundup (bugtracker) konnte keine Mails mehr verschicken, was wiederum verhindert hat, dass wir das als Bug eintragen konnten: Der unmeldbare Bug!!! Dank Nikos gibts jetzt im Zabbix einen "Screen" der die Interface Statistiken der relevanten Server im Keller graphisch darstellt. Fabian hat in den letzten zwei Tagen noch die fehlenden IMAP/Roundcube Features gefixt, Danke! [/bauerm] permanent link Tue, 07 Jan 2014 Unsere Tests am Freitag haben funktioniert, aber an der Flut von > 200 parallelen IMAP Sessions scheitert die dovecot-default-config. Der relevante Abschnitt im config file: service imap-login { service_count = 0 # Was sonst ?!? } Das startet parallele auth-daemons, wenns eng wird. Tut, mehr als 240 User Verbindungen geleichzeitig. Auf einigen Maschinen ist die Unity Leiste am linken Rand des Desktops verschwunden. Man kann restarten was man will, nur reboot hilft. Kwalitaetssoftware wohin man blickt... Auf zwei Maschinen sind Platten ausgefallen, eine mit dem huebschen Effekt, dass smartctl meldet, es haett leider gar keine Daten ueber die Platte, ausser dass sie 4.16 GB gross ist (die Platte hat 1TB). Die FSV Software wirft Fehler. Auf Nachfrage stellt sich raus, dass der Server auf neuen Stand gebracht wird, und keine Buchungen moeglich sind _bis 13ten Januar_! [/bauerm] permanent link Fri, 03 Jan 2014 Mailserver Update ist im wesentlichen durch. Was noch nicht geht, ist das managesieve... Die Maschine hat jetzt neueste Firmware, einen 3.8 Kernel, alle ubuntu updates, usw Und latuernich haben mehrere Programme inszwischen eine andere config-file Grammatik, damits nicht so einfach ist... [/bauerm] permanent link Thu, 19 Dec 2013 Ein Bot hat auf einem unserer Drucker Unfug gedruckt. Und der Drucker hat zwar eine Access Control List, ignoriert die aber nachweislich. Wuergaround: Der Netzwerk-konfig den default-router wegnehmen, dann geht schon mal kein TCP von draussen mehr, und weil der printserver im gleichen netz steht, koennen wir noch drucken. Bled das... [/bauerm] permanent link Wed, 18 Dec 2013 Gerade festgestellt, dass TeXmaker den Spellchecker myspell benutzt, und der default nur ein deutsches Woerterbuch installiert (in /usr/share/myspell). Ein US-Englisches nachinstalliert. [/bauerm] permanent link Tue, 10 Dec 2013 10.12.2013, Es ist garnicht sooo einfach unter Windows 7 SP1 Professional ein Sprachpaket zu installieren. Bei den Versionen Ultimate und Enterprise ist der Sprachwechsel vorgesehen ... nicht so unter den Versionen darunter. Sprachpaket hier herunterladen: http://www.technize.net/windows-7-sp1-language-packs-direct-download-links-kb2483139/ Dann das Programm exe2cab hier herunterladen: http://www.y-m-e.net/wp-content/uploads/2011/05/exe2cab.zip Nach der Umwandlung des Sprachpakets, dieses installieren: dism /online /add-package /packagepath:c:\das-cab-file.cab Danach mit diesem Tool das Sprackpaket auswaehlen: http://www.froggie.sk/ Und schon hat man z.B. unter einem Deutschen Windows auch Englisch zur Auswahl ;) [/bayer] permanent link Mon, 09 Dec 2013 Waaaaahnsinn. Der puppetmaster meldet seit Jahren immer wieder Could not retrieve catalog from remote server: Error 400 on SERVER: could not obtain a database connection within 5 seconds. The max pool size is currently 5; consider increasing it. Damit will er keineswegs sagen, dass die Datenbank zu wenig Verbindungen annimmt. Tatsaechlich hat das verfluchte ActiveRecord (Ruby ORM) einen Pool von Verbindungen zur Datenbank, ueber die es mit einem globalen Lock herrscht. Standardmaessig sind das fuenf Verbindungen, um die sich die Objekte dann pruegeln koennen, wenn sie in die Datenbank geschrieben werden moechten. Und wie das bei Objektorientierung so ist, hat fast jedes Objekt noch ein Schwesterchen, fuenf Kinder und vierzig Enkel, so dass es ganz schoen eng werden kann. Die Fehlermeldung kommt von der ungefangenen Exception in ActiveRecord, und das kann natuerlich nicht wisssen, dass die configoption in puppet dbconnections heisst. Wie auch sonst! [/bauerm] permanent link Fri, 06 Dec 2013 The case of the duplicated serial number is solved! Stellt sich raus, dass der Fuerstliche Hoflieferant auf einer Rechnung eine Seriennummer doppelt, eine andere dafuer nicht genannt hat. Das so im Inventar unsichtbar gemachte Geraet (Codename "Stealth Printer", deutsch: "Tarnkappendrucker") war im Keller unter einem Stapel von Druckern mit Inventarnummern. Steht jetzt als "mystery printer" im Inventar, sobald wir eine Inventarnummer vom Schloss kriegen, wird er als ehrbarer Drucker eingetragen. [/bauerm] permanent link Tue, 19 Nov 2013 Triumph der Technik! Die USV im Serverraum kann per snmpwalk abgefragt werden: snmpwalk -v 1 -m Upsmate.mib -c public $usvip 1.3.6.1.4.1 Das MIB file hab ich von http://www.megatec.com.tw/Download.htm#NetAgent.Manual Der Output laesst noch zu wuenschen uebrig. Seltsamerweise muss man die gemeldeten Sensoren naemlich am Geraet selbst einrichten, default ist da gar nix. [/bauerm] permanent link Tue, 29 Oct 2013 Maileinstellungen der nicht-Mail-Server korrigiert. Ein Techniker von AdPoS hat die USV im Serverraum durchgeprueft. Dabei ist aufgefallen, dass die Batterien keine Polkappen haben, und zu eng am Gehaeuse stehen, als dass man an jede rankaeme. Und natuerlich ist eine mittendrin defekt. In den naechsten Monaten auswechseln... [/bauerm] permanent link Fri, 25 Oct 2013 Unser Zabbix hat einen grauenvollen Verhau von Templates... Nach laengerem Einsatz von Graphviz rausgefunden, dass das ciproot template das Template unter allen PC Messungen ist (nicht nur im CIP pool). Items und Trigger also dort definieren. Aufbauend auf den configs gestern vier Items und zwei Trigger fuer SMART Warnungen gebaut. Anregung kam aus http://research.google.com/archive/disk_failures.pdf [/bauerm] permanent link Thu, 24 Oct 2013 Ein Zabbix agentd config gebastelt, das die relevanten SMART stats aus den Platten ausliest, damit wir evtl frueher mitkriegen, dass sich eine zum Sterben hinlegt. [/bauerm] permanent link Fri, 18 Oct 2013 Team Symmetriegruppen mit einem handgekrimpten 30 Meter Etherkabel fuer die Lange Nacht der Wissenschaften ausgeholfen. [/bauerm] permanent link Wed, 16 Oct 2013 Wenn Oracles Virtualbox neu installiert ist, und man ein USB Geraet einer Virtuellen Maschine zuordnen moechte, bekommt man in Version 4.2.18 den Fehler, dass nur mit dem ExtensionPack USB moeglich waere. Wenn man als root diesen ExtensionPack installiert, und dann also Normaluser versucht, die gleiche Virtuelle Maschine neu zu starten (nach einem Restart von Virtualbox), bekommt man den Fehler, dass nur mit dem ExtensionPack USB moeglich waere. Wenn man jetzt also Normaluser versucht, den ExtensionPack zu installieren (was nicht klappen kann, weil der nach /usr/lib entpackt wird), kriegt man den Fehler, dass der ExtensionPack schon installiert ist. Erst danach wird erkannt, dass er tatsaechlich installiert ist, und man kann USB Geraete benutzen. Kann man sich gar nicht ausdenken, sowas... [/bauerm] permanent link Mon, 14 Oct 2013 Grade schmerzlich rausgefunden, dass die Default-Lifetime eines Zertifikats nach openssl x509 ... einige wenige Tage ist. Also den ganzen non-std Tanz mit den genrsa/req/x509/x509 -text/... nochmal [/bauerm] permanent link Fri, 11 Oct 2013 Ubuntu Upgrade grossteils fertig, nur noch drei Maschinen sind natty! [/bauerm] permanent link Wed, 09 Oct 2013 Nach drei identischen Installationen auf drei identischen Maschinen gabs bei der vierten bei "apt-get update" den hilfreichen error: W: GPG error: http://mirror.mi.uni-erlangen.de precise Release: The following signatures were invalid: BADSIG 384B82B07979BB93 ... Das erklaert nicht, was da falsch signiert wurde, d.h. es gibt keinerlei Hinweise, wie der Fehler zu beseitigen waere. Tante Google bringt als TOP hits drei Blog/stackoverflow Eintraege, die einstimmig folgendes vorschlagen: apt-get clean cd /var/lib/apt mv lists lists.old mkdir -p lists/partial apt-get clean apt-get update Keiner der Artikel erklaert, welches Problem dabei auf welche Art behoben wird. Zeile drei koennte genausogut opfereeinenschwarzenhahnbeimitternachtundstreuediefederninallewinde heissen. Es hat was mit einem kaputten Zustand zu tun, den apt in /var/lib/apt/lists haelt (auf dem mirror mussten wir gar nix aendern). Also ist die Fehlermeldug vllokommen flasch! Nicht die Signatur ist kaputt, sondern irgendwas wurde nur teilweise runtergeladen und dann faelschlicherweise nicht nochmal gezogen. So ein Rotz! [/bauerm] permanent link Tue, 08 Oct 2013 Mysql mal wieder. Puppet-dashboard schmeisst Vehler, weils keine Fehlermeldungen in die Relationale DatenBank (ACID!) schreiben kann. Das loggt puppet-dashboard in die logs, mit einer Frequenz von ca 50 Hz, so dass die Platte volllaeuft. Hab fast alle TEXT columns auf MEDIUMTEXT geALTERt. [/bauerm] permanent link Tue, 01 Oct 2013 AAAAArgl. Also: bestimmte NVIDIA Karten vertragen das nvidia-current (oder nvidia-current-updates, die Beschreibungen sind wortgleich, warum gibts dann zwei?), andere besser das nvidia-319. Letzteres kann man nur installieren, wenn man vorher das andere entfernt hat. Im puppet gefrickelt, dass dann der 319 installiert wird, wenn eine Quadro600 vorliegt, sonst, wenn NVIDIA, dann current, sonst keine Aktion. <knock KnockDirection="on" KnockMaterial="wood" KnockRepetitions="3" WithEmphasis="yes" /> [/bauerm] permanent link Mon, 30 Sep 2013 Wenn man im laufenden Betrieb die printer.conf von einem cupsd aendert, dann schreibt der sie stillschweigend noch mal um. Und schmeisst dabei alle "Filter: " Definitionen raus; d.h. man kann nicht mehr drucken. Kwalitaetssoftware wohin man blickt. Neues facter Plugin geschrieben, dass mittels "lshw -C display" Hersteller und Modellnamen der Graphikkarte ausliest. Relevant, weil die diversen NVidia Treiber auf manchen Modellen nur in bestimmten subsubVersionen funktionieren. Der puppetmaster sammelt die facts aller kontrollierten Maschinen. Diese sind auch ueber Dashboard durchsuchbar (daher wissen wir jetzt wieder, dass zwei cip-Maschinen gar keine Nvidia Karte haben...). Die Daten liegen in /var/lib/puppet/yaml/$hostname.yaml (nicht etwa in /var/lib/puppet/client_data, oder .../client_yaml, oder .../facts). [/bauerm] permanent link Fri, 27 Sep 2013 neubau-133 in Betrieb genommen. [/bauerm] permanent link Thu, 26 Sep 2013 entdeckt, dass puppet-lint ganz nuetzlich waer, um unsere puppet-config zu testen. Riesen-Diff am Horizont. [/bauerm] permanent link Wed, 25 Sep 2013 Von Herrn Neurath am RRZE gelernt, dass folgendes Shell-Kommando ein AppleMacbook updatet: softwareupdate -a -i Scheint zu tun. (Kein Update von Adobe Produkten oder Firefox) Das Printadmin webapp ein bisschen geaendert. Bjoern schraubt an einer L"osung PXE Installationen ohne PXE-faehige Mainboards zu machen. Castor auf neues Ubuntu gebracht. Fuers PXE Booten muss man _beide_ Interfaces im BIOS einschalten. [/bauerm] permanent link Mon, 23 Sep 2013 Bjoern hat rausgefunden, wie man das CUPS web interface auf https zwingt: <Location /admin> Encryption Required ... </Location> Muss man fuer alle Location-URLs wiederholen, wies ausschaut. [/bauerm] permanent link Fri, 20 Sep 2013 Dem IBZ im H11 geholfen. Studentische Druckabrechnung vorgezogen. Probleme beim puppet-upgrade (der server hatte 3.3, weil in seinem apt-sources das repos von puppetlabs drin war, die clients hatten 2.7 mit dem ubuntu-repos). Inzwischen hoffentlich ausgebuegelt. [/bauerm] permanent link Thu, 19 Sep 2013 19.09.2013, mathe-backup nach der Stromabschaltung wieder hochgefahren. Dabei das ILO4 noch upgedatet. Verdrucktes Freikontingent fuer vergangenes Semester betraegt ca. 9100 Euro. [/bayer] permanent link Wed, 18 Sep 2013 Beide Nexenta Heads auf neuesten Stand gebracht. Mit fmdump die Vehler- und Phaultreports der letzten Monate angeschaut. Es kippen immer wieder mal Bits um, aber ZFS repariert das immer automatisch. Warum das alles so langsam geworden ist, laesst sich AFACS nicht aus den logs lesen. Beide Nexentas ins ILO Netz gehaengt. Kommt aber nix an. Die Nexentas schmeissen wieder die Heartbeat errors. Lieg an dem CoraidHBA Treiber, der durch den Upgrade einen Downgrade erfahren hat. Also nochmal haendischer update der Coraid-Driver. Dazu etherdrive-hba-solaris-6.0.5-R2.tar.gz auspacken, dann pkgadd -d . CORDethdrv [/bauerm] permanent link Tue, 17 Sep 2013 Wir gehen mit der Zeit! Wallpaperupate puppet war auf dem management auf version 3.3 und auf den clients auf 2.7. In manchen Faellen fuehrte das dazu, dass der zentrale filebucket nicht ging, was dazu fuehrte, dass gar keine Dateien mehr auf neuen stand gebracht wurden. Auch auf den Clients neue puppet version Dabei (wieder) gelernt, dass in /etc/apt/trusted.gpg.d/ keine MIME-codierten .gpg files liegen duerfen. Wenn doch, dann schlagen _alle_ Signaturchecks fehl (saudumm). Wieder ein puppet-testnetz eroeffnet, momentan nur mit einer Maschine, aber fuer kitzelige Aenderungen am Kerberos-Setup vielleicht geschickter. Apropos, der authserver prueft jetzt per cronjob alle 5 Minuten, ob sich ein Eintrag relevant geaendert hat, und synct dann die DB auf den secondary. Tagesgeschaeft: User angelegt und in die zahlreichen ACLs eingetragen. Zugangskarten fuer die PC Pools freigeschalten. [/bauerm] permanent link Mon, 16 Sep 2013 Kaum hat man das eine am Laufen, faellt das andere zamm. Der puppet "tidy" Type soll Dateibaeume aufraeumen koennen. Kann er aber nur fuer winzige Baeume mit ein paar hundert Eintraegen. Auf dem Management, wos 1.x Millionen Eintraege sind, frisst er statt dessen alles RAM und killt die Maschine. This is a known bug (http://projects.puppetlabs.com/issues/21249). Weil das der DHCP Server hier ist, bleiben dann die Arbeitsplaetze ohne Adresse, und damit kann dann keiner Arbeiten... Duplizierten DHCP Server aufsetzen als Fallback fuer den management.. [/bauerm] permanent link Fri, 13 Sep 2013 13.09.2013, Hurra ... der authserver wurde heute Morgen upgedatet auf 12.04 lts. Files wieder zurueckgespielt und alle Dienste wieder ans laufen gebracht. Das Wochenende kann kommen :) [/bayer] permanent link Authserver update erfolgreich, wies ausschaut. [/bauerm] permanent link Thu, 12 Sep 2013 Man sollte bei einem Kerberos Setup mit zwei Servern nicht vergessen, dass manche Clients sich die Adresse(n) aus dem DNS holen, aus einem _kerberos._tcp.$derdomain 10 1 88 SRV $derserver ResourceRecord. Vom DNS Team nachtragen lassen. [/bauerm] permanent link Wed, 11 Sep 2013 Aus gegebenem Anlass die Apache-Config so geaendert, dass Key-Agreement Protokolle bevorzugt werden, die Perfect Forward Secrecy ermoeglichen. Die www.ssllabs.com stufen unseren Server jetzt als A ein. In your face, Moody's! Nikos hat im kompletten Gebaeude bei den Haengetafeln in den Bueros geprueft, ob die auch fest an der Wand montiert sind (Gebot vom Sicherheitsbeauftragten). In 72 Faellen waren die Halterungen gebrochen oder locker. [/bauerm] permanent link Tue, 10 Sep 2013 10.09.2013, Firefox Cache local legen: about:config anlegen als string: browser.cache.disk.parent_directory value: /var/tmp [/bayer] permanent link Nachdem der Fileserver unertraeglich langsam geworden war, haben auf allen Ebenen Ursachen gesucht. Auffaellig ist, dass besonders die Syscalls openat und fstatat unglaublich langsam waren, was ein Netzproblem praktisch ausschliesst. Die Logs der LDAP Server zeigen keine auffaellige Aktivitaet des Fileservers, sind also wohl auch nicht die Bremse. Letztlich scheint es der NFSv4 Server selbst zu sein, der immer langsamer wurde. Heute, 10:00, haben wir per Failover den anderen Head aktiviert und seitdem ist es wieder ok. Der Webserver hat jetzt ein Zertifikat, das praktisch alle denkbaren Hostnames in https-URLS zulaesst. Hoffentlich keine Warnungen von Browsern mehr. Patrick hat den Postgresql Server ueberlistet, tatsaechlich Authentisierung per SSL-Client-Zertifikat zu akzeptieren: Auf der Serverseite in pg_hba.conf folgende Zeile rein hostssl $username $datenbankname 0.0.0.0/0 cert clientcert=1 Der Server private key und sein Cert muessen im $HOME des postgresql users liegen, unter $postgresversion/main/ mit passenden Permissions. Auf der Clientseite folgendes (offensichtliches) Kommando psql 'host=$server dbname=$datenbankname user=$username sslmode=verify-ca sslcert=client.crt sslkey=client.key sslrootcert=root.crt' Maple auf neueste Version gebracht. Weitere Tests mit dem LDAP/Kerberos Fallback Setup. [/bauerm] permanent link Fri, 06 Sep 2013 Und nun die Aufloesung zu der Frage, wie man mit einem SQL Statement den Zustand der Rechner im Zabbix abfragt: now=`date +"%s"` echo $now cat << EOF | psql -U postgres zabbix SELECT DISTINCT host, t.description, f.triggerid, t.value, i.lastvalue, t.lastchange FROM triggers t INNER JOIN functions f ON ( f.triggerid = t.triggerid ) INNER JOIN items i ON ( i.itemid = f.itemid ) INNER JOIN hosts ON ( i.hostid = hosts.hostid ) INNER JOIN events e ON ( e.objectid = t.triggerid ) WHERE (e.object-0)=0 AND (t.value=1 OR (t.value =0 AND ($now - t.lastchange <60))) AND hosts.status =0 AND i.status =0 AND t.status =0 GROUP BY f.triggerid, hosts.host, t.description, t.value, i.lastvalue, t.lastchange ORDER BY t.lastchange DESC; EOF Sehnse, war doch ganz einfach. Backupscript fuer die Auth-daten vom authserver umgebaut und getestet. Tut nach ersten Tests wohl. [/bauerm] permanent link Thu, 05 Sep 2013 05.09.2013, Alle iLO-Interface auf die Firmware 1.57 gebracht. Neuer Webserver-1 hatte noch keine iLO-Adresse ... eingerichtet. Die Login-Namen der Studenten aus dem AD geholt und mit unserem LDAP verglichen. Bereinigung steht aus ... [/bayer] permanent link Das Problem mit dem slapadd lag daran, dass slapcat (und slapd) automatisch /etc/ldap/slapd.conf lesen, slapadd aber nicht. Daher kannte er die Schemata nicht, die dort importiert werden. Man sollte auch nicht vergessen, nach einem slapadd das ganze Verzeichnis mit den OpenLDAP Datenbanken nach openldap zu chownen :/ Die Konfigs vom Kerberos kann man latuernich nicht einfach rueberkopieren, weil das als ldap://URL noch der authserver drinsteht. XXX sollte man auf beiden auf 127.0.0.1 stellen, dan hat man das Gefuddel nicht mehr. Scheint jetzt zu tun. Patrick hat rausgefunden, wie man aus der Zabbix Database per SQL rauskriegen kann, welche Trigger grad ausgeschlagen haben, auf welchen Rechnern und warum. Aufloesung folgt! Dropbox in seiner Ubuntu Inkarnation hat beim Neustarten (von Dropbox) alle "Shared Folders" verlassen. Laesst sich durch non-std Installation (von Dropbox.com) loesen. Puppet kann nicht User Gruppen hinzufuegen, ohne die in /etc/passwd anzulegen. Wenn die User schon im LDAP existieren, koennen sie sich danach nicht mehr einloggen :( Loesung: Betroffene Gruppen aus /etc/group loeschen, im LDAP anlegen und user dort hinzufuegen. Ein Skript (ldap2nis.pl) zum Wandeln von LDAP Logindaten nach good-old /etc/{passwd,group} so erweitert, dass es jetzt auch die Mitglieder einer Gruppe mit extrahiert. Somit haben wir ein Fallback, notfalls die passwd/group per Puppet zu verteilen, und den Kerberos neu aufzusetzen, wenn mit dem Authserver alles schiefgeht. <knock KnockDirection="on" KnockMaterial="wood" KnockRepetitions="3"/> [/bauerm] permanent link Wed, 04 Sep 2013 Stellt sich raus, dass Puppet Variablen aus site.pp o.ae. in EmbeddedRuby mit einem @ referenziert werden muessen(?). Also <%= variable %> tut, aber <% if defined?(variable) %><%= variable %><% end %> tut nicht, weil es natuerlich <% if defined?(@variable) %><%= variable %><% end %> heissen muss. WTF?? Patrick verheiratet unser Inventar mit dem Puppet-Dashboard und mit den Zabbix Messwerten, sehr schoen. Auf den vmhosts noch hingekriegt, dass die nach der Installation nicht dauernd apt-get updates machen, sobald mal das virtualbox repos in den apt-sources ist. Seltsamerweise kann OpenLDAP seinen eigenen Output (slapcat) nicht lesen (slapadd stirbt mit str2entry: invalid value for attributeType objectClass ...). Wuergaround fuer ein backup basteln. [/bauerm] permanent link Tue, 03 Sep 2013 Der Reboot von management hat nicht funktioniert, weil er noch offene filedeskriptoren ins NFS hatte, die Prozesse unkillbar machen (bloede Idee, das). Was durchaus gekillt wurde, ist der DHCP Server. Weil tatsaechlich zwei unserer Server ihre IP per DHCP kriegen, und Linux lieber eine IP wegschmeisst, wenn der Server nicht antwortet, sind uns die beiden weggebrochen. Alle Server auf Statische IPs festgenagelt. Neubau-31 ist jetzt offiziell zweiter Authserver. Auch dovecot ist jetzt so konfiguriert, dass es evtl. auf den anderen LDAP server zugreift. Tests mit dem "ausfallsicheren" Setup. [/bauerm] permanent link Mon, 02 Sep 2013 Nach einigen Tests haben wir jetzt ein Setup, in dem LDAP und Kerberos von zwei Servern gleichzeitig zur Verfuegung gestellt werden. Damit steht einem Server-Upgrade des Authservers nicht mehr viel im Weg. Der management haengt in einem apt-mirror, weil er nicht mehr auf das NFS Verzeichnis schreiben kann. Warum das so ist, bleibt schleierhaft. [/bauerm] permanent link Thu, 29 Aug 2013 29.08.2013, Rechner neubau-55-011 von XP auf Win7 upgedatet. Rechner wurde gleich an die fauad angeschlossen, damit ist dann auch ein Laufwerksmount zur Coraid moeglich. Dem Rechner wurden 2 GB RAM gespendet, damit hat er nun 4 GB. Rechner neubau-55-005 von 4 auf 8 GB RAM aufgestockt. Florian hat die Drucker im Zabbix ergaenzt. CIP1-Printer1 und Printer-71 haben gefehlt. Tonerbestand ueberprueft und abgeglichen. Fehlende Toner bestellt. [/bayer] permanent link Thu, 15 Aug 2013 Der Authserver ist mit dem jetztigen Zustand auf neubau-31 repliziert. Wenn was schiefgeht, im puppet in manifests/site.pp und modules/krbclient/manifests/init.pp die entsprechenden variablen verdrehen und beten, dass puppet dann noch laeuft... [/bauerm] permanent link Wed, 14 Aug 2013 Glorio! William hat das Zabbix dazu gebracht, unseren Webserver zu pruefen. Wenn naechstes Mal die MySQL wegen einem Update stehen bleibt, kriegen wirs schneller mit. [/bauerm] permanent link Mon, 12 Aug 2013 12.08.2013, CIP-54-18 macht Probleme, stuerzt immer wieder ab bzw. haengt sich auf. Festplattentest durchgefuehrt - defekte Sectoren erkannt - Platte getauscht. CIP1-Printer-1 ist defekt - druckt nur Streifen - wenn man den Toner rausnimmt kommen einem Einzelteile entgegen. Antrieb fuer die Tonertrommel hat sich in seine Bestandteile aufgeloest. Jubel Freu "Super Lexmarkdrucker" -> bei 150000 Seiten faellt das Ding auseinander -> Dreck. Techniker vom Frasch stand sofort auf der Matte und hat das Ding instandgesetzt. CIP1-Printer-3 hat einen neuen Maintenance Kit bekommen, dazu wieder den halben Drucker zerlegt. Einen Raum im Keller freigeraeumt. Dort werden Teile fuer die "Lange Nacht der Wissenschaften" gelagert. [/bayer] permanent link Fri, 09 Aug 2013 Wie passend. Ueber Nacht gabs einen mysql-server-core update von Ubuntu. Hat den Webserver und das Puppet-Dashboard zerschossen, weil das init.d/mysql danach nicht mehr tut. Fehlermeldung: ERROR: 1050 Table 'plugin' already exist NATUERLICH EXISTIERT DER SCHON, ist ja eine Datenbank und kein Datengrab, wo nach jedem Restart alle Tables weg sind. Das init.d Skript nimmt mysqld-safe zum starten, wenn man mysqld auf der Kommandozeile tippt, gehts scheintz. Noch ein klassischer Sideeffect des Upgrades war, dass die innodb_file_per_table=ON Zeile jetzt (genauer seit 04:45) illegal ist, und die Tabellen auf dem Management verloren gegangen sind. Dank folgender Zeilen haben wir die DB (leer) wieder einrichten koennen: cd /usr/share/puppet-dashboard/ export RAILS_ENV=production rake db:reset (Es zahlt sich unerwartet aus, mal Ruby-on-Rails Developer gewesen zu sein) [/bauerm] permanent link Thu, 08 Aug 2013 OK, wer nicht unendlich viel Plattenplatz hat, der setzt innodb_file_per_table=ON Nota Bene: wenn man statt "ON" "1" schreibt, gibt das _keinen_ Fehler, und die Option bleibt auf "OFF". Mit der Option auf "an" kann MySQL angeblich seine Tabellen auch wieder kleiner machen. Unbedarfte haetten vielleicht erwartet, dass dies der Default ist. [/bauerm] permanent link Wed, 07 Aug 2013 MySQL hat eine eingebaute Beschraenkung auf der Anzahl an Locks, die es halten kann. Wenn das Ding ein paar Tausend Eintraege in einer Tabelle mit Foreign-Keys loeschen soll, dann holt es sich scheinz fuer jeden Eintrag ein Lock. Und dann stirbts mit der Meldung 'The total number of locks exceeds the lock table size' Eine Fehlermeldung sollte immer einen Tip enthalten, wie man den Fehler behebt. Diese hier enthaelt sowas nur sehr vage. Es gibt eine Konfig-Variable innodb_buffer_pool_size (was nix mit lock table size zu tun haben kann, vom Namen her), die hoeher gesetzt werden koennte. Hab die jetzt mal auf 60MB gesetzt und teste... Die Std-Einstellungen sind nicht geeignet, eine Datenbank mit ein paar Millionen Eintraegen zu managen, sonDreck. Noch besser: MySQL loescht nach dem Hochsetzen der innodb_buffer_pool_size auch dann nicht, wenn man ein LIMIT 1000 dahintersetzt (also nur 1000 Eintraege loescht). Wenn man dann mit LIMIT 1 loescht gehts, und auch LIMIT 10, LIMIT 100 und LIMIT 1000 gehen dann ploetzlich. Nondeterministic Databases.... [/bauerm] permanent link Tue, 06 Aug 2013 Dank an J. Mueller fuer den Hinweis, dass unsere Zert-Chains kaputt waren. Dank der schnellen Mithilfe des CA-Teams vom RRZE haben wir jetzt korrekte Zerts fuer alle registrierten namen unseres Webservers. Folgendes Kommando baut eine Testverbindung auf und zeigt die verwendeten Zertifikate: openssl s_client -connect www.math.fau.de:443 -CAfile /etc/ssl/certs/Deutsche_Telekom_Root_CA_2.pem [/bauerm] permanent link Thu, 25 Jul 2013 Die TUM in Garching liegt noch viel mehr am Ende der Welt als unser Gelaende hier, und Infrastruktur gibts genausowenig. Eliteuniversitaet, my ass... Ein Eduroam Setup, das hier funktioniert, funktioniert nicht in Garching. Nach etwas Gefuddl an Parametern hatte ich fuer 5 minuten Netz, dann wars wieder tot. Die Leute, die VirtualBox benutzen, werden von dem entsprechenden Puppet Modul jetzt in die Gruppe vboxusers gestopft, damit die auf USB Zugriff haben. Noch mehr kritische Infrastruktur uebernommen: Reinigung der Kaffeemaschine obliegt jetzt Franzi. [/bauerm] permanent link Wed, 24 Jul 2013 Seit dem Stromausfall ist bei allen RRZE Routern hier im Haus ein Netzteil tot, wird aus dem RRZE gemeldet. Gebaeudetechnik war da, kommt aber nicht in die Schraenke.. [/bauerm] permanent link Tue, 23 Jul 2013 Klausuren angelegt. Backup als cronjobs scheint zu funktionieren <knock direction="on" material="wood"/> Stromausfall! Die Gebaeudeleittechnik hat die SV kurzgeschlossen. Stellt sich raus, dass einer unserer Switches doch nur ein Netzteil hat, und der auch noch in der SV haengt. Sollten wir bei Gelegenheit --- vielleicht zusammen mit anderen Umstellungen --- mal umstoepseln. ntp1.fau.de war tot. Hab alle ntpd.conf, startup skripten etc, so umgebastelt, dass sie --- wo moeglich --- alle drei NTP server nehmen. [/bauerm] permanent link Mon, 22 Jul 2013 Ein User kann sich von _manchen_ Maschinen nicht auf dem Webmailer einloggen. Weiter raetselhaft. [/bauerm] permanent link Thu, 18 Jul 2013 Laptops von Mitarbeitern wieder zum Laufen gebracht. cronjobs fuers backup repariert. [/bauerm] permanent link Tue, 16 Jul 2013 ethdrv auf nexone auf neuesten Stand gebracht. Insofern hatte der Absturz gestern auch Vorteile. LED an der c1t2d10 wieder auf blau gesetzt. [/bauerm] permanent link Mon, 15 Jul 2013 Um 11:11:01 auf nexone: Jul 15 11:11:01 nexone unix: [ID 836849 kern.notice] Jul 15 11:11:01 nexone ^Mpanic[cpu5]/thread=ffffff2e0bb52180: Jul 15 11:11:01 nexone genunix: [ID 783603 kern.notice] Deadlock: cycle in blocking chain Jul 15 11:11:01 nexone unix: [ID 100000 kern.notice] Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf83b0 genunix:turnstile_block+795 () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8410 unix:mutex_vector_enter+261 () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8430 nfssrv:rfs4_dbe_lock+15 () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf84c0 nfssrv:rfs4_op_release_lockowner+15f () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8650 nfssrv:rfs4_compound+19b () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf86e0 nfssrv:rfs4_dispatch+178 () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf89e0 nfssrv:common_dispatch+74c () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8a00 nfssrv:rfs_dispatch+2d () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8ae0 rpcmod:svc_getreq+19c () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8b40 rpcmod:svc_run+16e () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8b70 rpcmod:svc_do_run+81 () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8e30 nfs:nfssys+765 () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8ec0 genunix:dtrace_systrace_syscall32+11a () Jul 15 11:11:01 nexone genunix: [ID 655072 kern.notice] ffffff005ccf8f10 unix:brand_sys_sysenter+1e0 () Jul 15 11:11:01 nexone unix: [ID 100000 kern.notice] Jul 15 11:11:01 nexone genunix: [ID 672855 kern.notice] syncing file systems... Passierte waehrend eines Backups mit zfs send Wieder was neues: /var/log auf monitor war 98% voll, durch die logs von zwei cip-pool maschinen bei denen kernel-logs der Art: Jun 20 16:15:04 cip-54-68 kernel: [42939.730035] Emergency Thaw on sda2 und Meldungen ueber wildgewordenen pulseaudio Prozesse millionenfach drin waren. [/bauerm] permanent link Thu, 11 Jul 2013 Sternstunden der Informatik: Wir haben jetzt Zabbix Items und Triggers fuer die Tiefe der PrintQueues, sehen also, wenn ein Druckjob viele andere aufhaelt. Dank an Nikos. [/bauerm] permanent link Fri, 05 Jul 2013 Defekte Platte im Fileserver ausgetauscht: Dank Hotspares kam es nur sehr kurz zu einem nicht perfekt gespiegeltem Setup. zpool status zeigt, welche platte kaputt ist ls -l /dev/dsk/c2t1d10 zeigt den link nach /dev/devices/ethdrv aus dem man die Plattennummer im CoRaid schliessen kann. Mit setslotled fault 10 kann man im cec die Platte leuchten lassen. Mit eject $plattennummer in richtigen Shelf-cec ist die platte dann erstmal weg. Mit jbod $shelf.$platte taucht der Ersatz dann wieder auf. Mit zpool detach coraid01 c2t1d10 vergisst ZFS die kaputte Platte, dann kann man sie rausrupfen und ersetzen. zpool add coraid01 spare c2t1d10 wird die neue platte zum neuen spare [/bauerm] permanent link Thu, 04 Jul 2013 Hilfreich, wenn man eine Datei per puppet geloescht/veraendert hat, und wissen moechte, was da drin war (z.b. um sie zu rekontruieren): find /var/lib/puppet/bucket -name "paths" | xargs grep -l /wie/die/datei/hiess liefert den pfad innerhalb von bucket, dort findet man dann a/b/c/d/e/f/0/34786583746/contents die den damaligen inhalt der Datei enthaelt. Im Uebungsraum 5 hing der Beamer schief, weil sich Schrauben gelockert hatten. geFIXt. [/bauerm] permanent link Tue, 02 Jul 2013 Durch einen Vortrag auf der pycon draufgekommen, mal nachzuschaun, wie gut die Indizes auf unserer zabbix Datebank funktionieren. Die hit ratio kriegt man mit select 'index hit rate' as name, (sum(idx_blks_hit)) / sum(idx_blks_hit + idx_blks_read) as ratio from pg_statio_user_indexes; Leider ignoriert unser postgres die indizes komplett! SQL never fails to amaze: In /etc/postgresql/9.1/postgresql.conf eingefuegt: shared_preload_libraries = 'pg_stat_statements' Das postgresql-contrib-9.1 Packet installiert, postgresql neu gestartet, in der Datenbank als user postgres mit CREATE EXTENSION pg_stat_statements; die Extension angelegt (ansonsten gibts die Tabelle einfach nicht), und mit select (total_time / 1000 /60) as total, (total_time/calls ) as avg, query from pg_stat_statements where query ~ 'select' order by 1 desc limit 20; die zaehesten Anfragen an die DB rausgekriegt. [/bauerm] permanent link Wed, 26 Jun 2013 Im PC Pool 1 ist heute nach dem Einschalten der Klimaanlage Wasser getropft. Auf einen Tisch, von dem direkt auf einen Bodentank. Nach dem Ausschalten kam noch mehr Wasser nach. Wir haben die berieselten Rechner vom Stromnetz genommen, den Einschalter der Klimaanlage ueberklebt und die Leitwarte informiert. Mit sofortigen Aktionen ist jedoch nicht zu rechnen, wie man uns versichert, sind die Teams der Leitwarte an vielen Baustellen taetig... [/bauerm] permanent link Tue, 18 Jun 2013 Wieder mit Kerberized NFSv4 rumgespielt. Das ist zum Erb-rechen. Ich hab jetzt Linux,NexentaStor und einen Kerberos KDC so weit, dass 1. der nfsd auf nexenta _nicht_ stirbt, wenn man nfssec anschaltet 2. der rpc.gssd auf linux laeuft mounten geht aber noch nicht [/bauerm] permanent link Mon, 17 Jun 2013 Dem Pruefungsamt mit dem Ausdruck von Diplomzeugnissen nach hiesigen Vorlagen geholfen. Die dringensten zwei sind jetzt auf jeden Fall schonmal raus. Der Fileserver hat wieder alle Platten so wie sie sein sollen. *KlopfAufHolz()* [/bauerm] permanent link Thu, 13 Jun 2013 13.06.2013, Neue Episode des Fileservers hat begonnen. Nachdem der Fileserver nach dem Update auf die neue Firmwareversion wieder anfaengt HEARTBEAT Meldungen auszuspucken, ist der alte Call bei Nexenta wieder aufgemacht worden. nmc> support -s /var/tmp verbosity = 4 Nachdem einige Logs zusammengepackt wurden und per ftp zu Nexenta versand wurden harren wir mal der Dinge die da kommen. Wir sind gespannt ob nach jedem Update das Drama mit den HEARTBEAT Meldungen von vorne losgeht ... jede Stunde zwischen 60 und 120 Mails: HA Cluster event: LOG_WARN RSF_HEARTBEAT heartbeat=5 [/bayer] permanent link Wed, 12 Jun 2013 Puppet-Dashboard: MySQL erweisst sich wie immer als die falsche Wahl. Unsere Setups erzeugen so grosse Reports, dass sie nicht in eine Spalte vom Typ "TEXT" passen (64Kb Oberkante). Das erzeugt einen Fehler, der natuerlich auch in die Datenbank geschrieben werden muss, diesmal in der Tabelle "errors", wo er aus dem gleichen Grund nicht in die "TEXT" Spalte "details" passt -> Doppelfehler, Abbruch. Mit Bjoern grad die beiden Spalten per "ALTER TABLE" auf "MEDIUMTEXT" geaendert, jetzt ist das ploetzlich rasend schnell. Nochmal Reparaturen an den festgezurrten R-Packeten. Erlaeuterung: Jedesmal, wenn Ubuntu einen Update auf Teile dieses Statistik-Packets macht, zerbrechen lokal kompilierte Zusatzpackete, die fuer Veranstaltungen genutzt werden. Um das zu verhindern, haben wir dem lokalen Packetmanager untersagt, eine Reihe von Basis-Packete zu aendern. Annahme dahinter war natuerlich, dass weitere Packete dann nur in Abhaengigkeit von den Basis-Packeten installiert werden, also ebenfalls auf altem Stand bleiben. Das ist aber nur dann so, wenn die Package-Maintainer die Abhaengigkeiten richtig eintragen... Heute musste ein weiteres Packet auf eine fixe Version festgenagelt werden. [/bauerm] permanent link Tue, 11 Jun 2013 Stellt sich raus, dass die MAC Adressen eines aggregierten Interfaces nicht mit der Menge der Interfaceadressen des Buendels uebereinstimmen. Bloed wenn man daraus ACLs baut, und sich dann aussperrt. Tool zum Bearbeiten von PDFs: Xournal. Erlaubt markieren, reintexten, ausradieren, etc in PDFs. [/bauerm] permanent link Fri, 07 Jun 2013 07.06.2013, Der Scrub am Fileserver ist fertig: scan: scrub repaired 0 in 120h22m with 0 errors Nach schlappen 120 Stunden ... :( [/bayer] permanent link Thu, 06 Jun 2013 MAC Adressen eines aggregierten Interfaces unter OpenSolaris rauskriegen: dladm show-aggr -x aggr1 [/bauerm] permanent link Wed, 05 Jun 2013 05.06.2013, Der Fileserver macht immer noch Probleme. Feststellung: es laeuft seit 01.06.2013 ein Scrub auf den Datenplatten. Aussage laut Doku: Scrubbing is a resource-consuming task. It is preferable to schedule scrubbing during a maintenance window. Hmm maintenance window ... wir haben kein maintenance window. Den Auto-Scrub Task abgeaendert. Wir haben noch ein Update an einem der beiden Heads/Shelfs durchgefuehrt, auf Version 3.1.4.1. Der aktive Teil des Clusters befindet sich noch auf 3.1.3.5. Seit dem Update des inaktiven Teil des Clusters bekommen wir wieder zeitweise Heartbeat Fehlermeldungen. [/bayer] permanent link Tue, 04 Jun 2013 Das Skript, das unsere zfs snapshots auf den offsite-server pusht, so verbessert, dass es selbststaendig rauskriegt, was drueben schon ist. [/bauerm] permanent link Mon, 03 Jun 2013 03.06.2013, Boah ... an unserem Backupserver laufen Fehlermeldungen auf und das Webinterface ist nicht mehr erreichbar: kernel: pid 1898 (lighttpd), uid 0, was killed: out of swap space kernel: pid 24387 (sshd), uid 0, was killed: out of swap space OK erstmal lighttpd starten /etc/rc.d/lighttpd start. Dann swap einrichten: unter Disks -> ZFS -> Volumes neues Volumen mit Name swap einrichten. Jetzt unter System -> Advanced -> Swap das Swap-Volumen ein- binden: Type auf Device aendern, und Device auf Pfad /dev/zvol/zpool/swap ein- stellen. Jetzt haben wir 16GB RAM und 32GB Swap ... beobachten. Unser Fileserver macht mal wieder Probleme. Nachdem eine Uebung im PC-Pool ist und ca. 30 Plaetze Mathlab, Browser usw. offen haben, ist z.B. der Browser nicht mehr bedienbar (graut aus und braucht Sekunden bis er reagiert). Wir habe dann um den Fehler einzugrenzen per smb ein 2,6 GB File kopiert. Unter smb tritt der Fehler nicht auf. Die Werte: "Concurrent NFSD Servers" von 1024 auf 4096 und "Concurrent LOCKD Servers" von 1024 auf 4096 geaendert. Ausserdem noch: "NFSD queue length" von 128 auf 512 und "LOCKD queue length" von 128 auf 512 geaendert. [/bayer] permanent link Sat, 01 Jun 2013 Erster Schritt in Richtung Zabbix Ersatz: Performance Test mit Tokyocabinet Table Database ergibt, dass der in einer 570Mb Database mit > 7 Millionen kuenstlich generierten Eintraegen in vernuenftiger Zeit eine relativ komplexe Query schafft ("Finde alle Eintrage, die zwischen zwei gegebenen Timestamps angelegt wurde, Host A und B betreffen, bei denen der Messwert die Uptime ist, und nur wenn diese groesser als ein k ist" => 21 Sekunden realtime, auf einem Intel CoreDuo, 1.6 GHz, 4000 Ergebnisse). Die 7 Millionen Eintraege zu schreiben hat auf meiner alten Muehle 40 Minuten gedauert, im Schnitt etwa 3042 Eintraege pro Sekunde (Unser Zabbix ballert mit 500 Inserts/Updates auf die DB.) [/bauerm] permanent link Tue, 28 May 2013 28.05.2013, So wie es aussieht benoetigen wir fuer unseren Fileserver Coraid/Nexenta einen Schreibbeschleuniger/ZIL/SLOG. In Frage kommt wohl nur ein STEC ZeusRAM. Wir muessen wohl unsere Hotspare Platten zu Coldspare Platten machen und an deren Stelle die ZeusRAM SSDs einbauen. Unsere vorhandenen SSDs sind als Lesecache konfiguriert und koennen nicht aufgeteilt werden, da ZFS alleinigen Zugriff auf eine Disk oder SSD braucht. [/bayer] permanent link Inventarisierung mit der ZUV und der Physik zusammen abgeschlossen (erstmal). Durch fiese(!) EmbeddedRuby Fummelei die dhcpd.confs der zwei DHCP Server vereint ("Up ewig ungedeelt!"). Geht mit <% if classes.member?("daseinedhcpservermodul") -%> teil des configfiles <% end -%> classes ist die liste der grad fuer diesen node eingesammelten klassen, in unserem fall hat jeder DHCP Server genau eine Klasse. In den init.pp der _beiden_ Module steht dann als file { '/etc/dhcp/dhcpd.conf': content => template('zentralesmodul/dhcpd.conf.erb') und jedes zieht sich seinen teil raus. Nie wieder doppeltes Einpflegen von MAC Adressen! [/bauerm] permanent link Fri, 24 May 2013 24.05.2013, management-Server jammert das er keinen Platz mehr hat. unter /usr/share/puppet-dashboard/log liegt ein File delayed_job.log das 57 GB !!! hat. Geloescht. [/bayer] permanent link Thu, 23 May 2013 23.05.2013, Backup Server auf FreeBSD 9.1-RELEASE-p3 9.1.0.1 - Sandstorm (revision 724) upgedatet. [/bayer] permanent link Fri, 17 May 2013 17.05.2013, Was in den letzten Tagen sehr auffaellt, ist dass die Performance beim Lesen vom Server extrem schlecht ist. Das Problem taucht auf, wenn mehr als etwa 30 User gleichzeitig arbeiten. Die Anwendungen sind alles andere als datenintensiv, nur ein Webbrowser, eine Shell und eine mathematische Software (Matlab, R, oder Maple), die aber nie massiv Daten schreiben. Tipp von Nexenta: NFS-Share Option "atime" abschalten ... weitere Tipps sollen folgen. [/bayer] permanent link Thu, 16 May 2013 Verteilerlisten per Auge, Mitarbeiterliste, Mundpropaganda und Univis auf neuen Stand gebracht. Das Pruefungsamt im Haus wird voruebergehend vom Pruefungsamt in der Stadt uebernommen; entsprechende Mailfilter gebaut. Sagemath ist jetzt installiert. Nettes Gesamtpacket fast aller open-source Mathematikpackete, mit einer vereinenden Python-API. [/bauerm] permanent link Wed, 15 May 2013 Stellt sich raus, dass gpg-keys in /etc/apt/trusted.gpg.d/ nicht im ASCII Format abgelegt werden duerfen. Wenn ein einziger Key im ASCII Format dort liegt, werden auch alle anderen keys nicht eingelesen. It's ank.tcl all over again... Das Ubuntu Package virtual-box hat eine run-time Abhaengigkeit von linux-headers-generic, die aber nicht im Package verzeichnet ist. Wenn man virtualbox startet, stirbs. Die Fehlermeldung, was genau schiefgeht, findet man in den install-logs als warning. Noch ein Laptop entdeckt! Der Deutsche Akademische AuslandsDienst hat eine Webseite, ueber die man Antraege auf Foerdergelder hochladen koennen soll. Das wird durch vollkommen unmoegliches Webdesign verhindert, was natuerlich Geld spart. Es mag auf der Welt eine Windows-maschine (was anderes ist nicht erlaubt) geben, die die richtige Kombination von Webbrowserbugs und veralteten Plugins hat und das darstellen kann; und ich vermute, die steht beim DAAD. Ob wir uns als Steuerzahler drueber freuen oder als Akademiker drueber aergern sollen? [/bauerm] permanent link Tue, 14 May 2013 UDZ + FSV bei Frau Kulzer eingerichtet (Wenn Ihnen diese Abk. etwas sagen, bedauere ich Sie) Drei Laptops durch intensive Recherche wiedergefunden und inventarisiert, Glorio! Inventarisierung ist soweit fertig, dass wir sie der ZUV uebergeben koennen. Auf monitor eine Platte freigeschaufelt. [/bauerm] permanent link Mon, 13 May 2013 13.05.2013, Lexmark X463de : Maintenance Kit am Cip1-Printer1 getauscht. Dazu den ganzen (naja fast) Drucker zerlegt. Dann mit den Tasten 2+6 in ein spezial Menue gewechselt und den Zaehler des Maintenance Kit zurueckgesetzt. Danach noch die rote Abbrechen-Taste lange gedrueckt um den Einbau des Fotokits zu bestaetigen, und alles war wieder gut. Schauen wir mal wie lange ... [/bayer] permanent link Fri, 10 May 2013 Es gibt scheinz kein Tool, das einem die Forward-Dependencies eines Ubuntu-Packages aus dem momentanen repos-Stand ableitet. Der Tip, das aus irgendwelchen Ubuntu Webseiten rauszulesen ist Unfug, weil in unserem apt-sources auch andere Repos stehen, wo weitere Packages mit Abhaengigkeiten untereinander und/oder von den Ubuntu Packages sind. Wenn man die R-Packages (die _nicht_ von Ubuntu geliefert werden) nachbauen will, dann startet man sudo env HOME=/ R und laesst dann die Folge von Kommandos aus puppet/modules/addsoft/manifests/r.pp unten durchlaufen. Ergebnis ist, dass in /usr/local/lib/R/site-library zahlreiche Dateien in den subdirs auftauchen/ersetzt werden. Die muss man dann in ein tar.gz file packen (das ganze site-library) und auf dem management unter /var/www als Rpackages-$version.tar.gz ablegen. R updates durchgezogen. Es gibt jetzt puppet/modules/addsoft/manifests/r.pp, wo die Version von R und Rstudio festgenagelt wird, und per exec/creates die Rpackages vom management gezogen werden. Wieder was gelernt: puppet classes duerfen keine Grossbuchstaben enthalten. Genau wie nicht in Ruby, Ada, C++,... Dhcp Server von neubau-103 auf den management bewegt. Tut scheintz. Der cip1-printer1 kapiert nicht, dass er ein frisches PhotoKit hat. Auch nach mehrmaligem Aus/Einschalten glaubt er, man muesse das PC-Kit wechseln, und schlaegt vor, damit zu beginnen, wenn man "any button" drueckt. Nur kann man auf jegliche Button druecken, er tut nix. [/bauerm] permanent link Wed, 08 May 2013 neubau-126 hatte sich komplett weggehaengt, der Bildschirm hat aber noch was angezeigt... Eine duestere Woche fuer die RJE Station, zwei mitarbeiter im Ausland, einer verletzt, einer verhindert... Aaaaargl. Durch das R-update von Ubuntu sind alle installierten Packages kaputtgegangen. Man muss also im puppet die Version festnageln. So ein rotz! [/bauerm] permanent link Tue, 07 May 2013 User fuer diverse Vorlesungen erzeugt/getestet Katrin hat einen Tipp fuer verzweifelt druckenden Studenten: im Dash "Printing" suchen lassen, das empfohlene Tool starten, Drucker der Wahl anklickern und schaun, wie die Print Queue aussieht. Damit kann man auch eigene Druckjobs toeten. Weitersagen! Der printer-cip1-5 hatte die Einstellung im .PPD file, dass er den Benutzer bittet, Letter nachzulegen, wenn das Format Letter ist. Was natuerlich niemand tut. FIXED [/bauerm] permanent link Mon, 06 May 2013 Uebers Wochenende hat Ubuntu das r-base Package auf neuen Stand gebracht. Und wer haette es gedacht, die R-Entwickler haben aus ihrer libr.so eine Funktion entfernt, naemlich Rt_PrintWarnings. Und latuernich benutzt das rstudio diese Funktion. Und weil die Ubuntus es ewig nicht gepackt haben, da eine neue Version davon zu packetieren, haben wir unseren eigenen Clone in local.packages. Und der stirbt dann mit unknown symbol. Also neues rstudio.deb von rstudio.com geholt, das alte aus /var/local.packages/pool/main/r entfernt. Dann kam das Problem, dass unser mirror immer noch die alte Version in dists/precise/.../Packages hatte, und die trotz reprepro -Vb ... remove rstudio nicht weggemacht hat. Also sudo rm dists/precise/.../Packages* und mit reprepro -Vb ... includedeb ... neu bauen lassen. Tut anscheinend. Sicherheitseinweisung bekommen und gleich weiterpropagiert. [/bauerm] permanent link Fri, 03 May 2013 AM3 schaut nach, ob ihr Netz fuer diverse Softwares beim RRZE freigeschaltet ist. Keine zabbix Meldung mehr wegen "puppet not running" auf management. Die puppetclient/puppet.conf schreibt ihr PIDfile jetzt dahin, wo /etc/init.d/puppet danach sucht. Gibt keine Kollisionen, weil die anderen PIDfiles von diversen Puppetelementen anders heissen. FIXED Die Dashboard Worker haben wieder mal aufgegeben. Nach einem Schubs mit kill -9 und /etc/init.d/puppetidashboard-workers start geht jetzt wieder (3649 pending tasks....) [/bauerm] permanent link Thu, 02 May 2013 Der sshd_config update hat latuernich Seiteneffekte gehabt: auf den AM3 maschinen steht jetzt drin, dann nur Mitglieder von den Gruppen am3* sich einloggen duerfen. Damit sind 1. wir, 2. Studenten draussen. SemiGefixt, indem jetzt die Gruppe Sam (mit grossem S) auch darf. Damit koenne wir schonmal helfen... Auf nextwo laeuft wieder darkstat, um Performanceprobleme zu monitoren Das Backup des Webservers auf den Fileserver zusammen mit dem Backup auf die off-site Maschine hat arg viel Last auf den Fileserver gebracht. Besser nachts. Webmaster kaempfen weiter mit den Umlauten aus den univis-Importen Das Rechenzentrum hat doch Ausnahmen fuer die @fau.de Adressen zugelassen, statt dem Vornameausderpersonalakte.Nachnameausderpersonalakte@fau.de . Gut so! [/bauerm] permanent link Mon, 29 Apr 2013 29.04.2013, PC-Pool Drucker HP LJ 9000 cip1-printer5 Druckcounter: 562765 Seiten [/bayer] permanent link Thu, 25 Apr 2013 25.04.2013, PC-Pool Drucker Lexmark X463de cip1-printer1 Druckcounter: 107532 Seiten Lexmark X463de cip1-printer3 Druckcounter: 77378 Seiten HP LJ P3005 cip1-printer4 Druckcounter: 159748 Seiten Lexmark X463de cip2-printer1 Druckcounter: 75577 Seiten [/bayer] permanent link Wed, 24 Apr 2013 Eine globale sshd_config fuer alle per puppet durch die Gegend geschoben. hoelder sollte wieder tun. [/bauerm] permanent link Tue, 23 Apr 2013 Martin und Bjoern haben den ausgeschlachteten cip-Rechner wieder zum Leben erweckt, mit neuer CPU, Speicher, Platte und Graphikkarte. Laeuft wieder, als cip-54-125 Mit Bjoern durch die Sourcen diverser PHP libs gegangen, um rauszufinden, warum ploetzlich Lehrveranstaltungen, die wir aus univis importieren, keine Umlaute mehr haben koennen. Dabei rausgefunden, dass PHP mindestens 5 (in Worten: fuenf) globale Variablen hat, die was mit Encodings zu tun haben. Zusaetzlich hat das importierte XML ein Encoding, die vom Apache servierte Webseite eins, und jeder Table im Mysql ein eigenes. Das ist alles so unvorstellbar krank programmiert, mit duplizierten Codebloecken ueberall, und ganz wirren Vorstelllungen, wie z.b. Unicode funktioniert. [/bauerm] permanent link Mon, 22 Apr 2013 Wenn ich nochmal die Wahl haette, wuerd ich statt puppet jetzt wohl Ansible nehmen, ist besser durchdacht, wie scheint. U.a. gibts nur eine DomainSpecificLanguage statt mehrere, und sie machen alles durch ssh durch, statt ein kaputtes SSL+CA im Eigenbau. [/bauerm] permanent link Tue, 16 Apr 2013 28.03.2013, Eine neue Kaffeemaschine ist eingetroffen und in Betrieb genommen :) Wir sind wieder am Druckkontingent freischalten. Wie immer am Semester- beginn. Da wir 5 Drucker in den PC-Pools haben sollte das auftretende Druckvolumen kein Problem sein. Das Script fuer das ZFS-Send auf den Backupserver laeuft nun auch ohne Probleme. Gesichert werden staff, stud und am2home. [/bayer] permanent link Thu, 11 Apr 2013 Nach dem Auto-reboot in der Nacht funktioniert auf den cip-Maschinen einiges nicht mehr. Drecks-Unity! Beim Versuch, alle per puppet zu rebooten, konnten wir herausfinden, dass /etc/motd folgendermassen kreiiert wird: 1. init ruft /etc/init/mounted-run.conf (das ist _kein_ konfig-file) 2. /etc/init/mounted-run.conf ruft alle Skripten in /etc/update-motd.d und schreibt den Output nach /var/run/motd 3. /etc/update-motd.d/98-reboot-required ruft /usr/lib/update-notifier/update-motd-reboot-required 4. /usr/lib/update-notifier/update-motd-reboot-required schreibt den Inhalt von /var/run/reboot-required Das Designprinzip des Keep-it-Simple wurde hier durch mehrere Design-Patterns toedlich verletzt. [/bauerm] permanent link Tue, 09 Apr 2013 Inventarisieren ist wie Ostern. Was wir schon alles gefunden haben.... Halali! Zur Laptopjagd geblasen. Die ZUV will wissen, wer die Dinger hat. Ueber Nacht ist der funkelnagelneue mathe-backup abgeschmiert. Reboot ueber ILO interface, hat ueber zwei Stunden gedauert. Vielleicht ein BUG in der ZFS Umsetzung, kam naemlich nach einem gewaltsam abgebrochenen zfs receive + zfs destroy -r Laeuft wieder. [/bauerm] permanent link Mon, 08 Apr 2013 Der grub-passwd test im Zabbix lief nur auf der alten GRUB version. geFIXt Monitor laeuft nach dem upgrade sehr viel besser. Ueber die Gruende kann man nur Vermutungen anstellen. Aber: "Nihil est sine ratione, cur potius sit quam non sit." Inventarisierung wieder mal, und interessante Sachen gefunden. Falsch inventarisierte Maschinen, unbekannte Drucker, doppelt inventarisierte Drucker, nie im puppet eingetragene, aber laufende Maschinen, im Zabbix verzeichnete, aber nicht-existente Maschinen... Fuer Herrn Savchuk einen Drucker installiert. [/bauerm] permanent link Fri, 05 Apr 2013 Das kernel_cleanup skript hat nicht fuer precise funktioniert, weil die neue GRUB version natuerlich ein anderes config-file und -format hat. geFIXt [/bauerm] permanent link Thu, 04 Apr 2013 Monitor neu aufgesetzt. Dabei rausgefunden, dass: - postgresql nicht mehr auf port 5432 lauscht - das ubuntu package zabbix-server-pgsql keineswegs alle noetigen PHP Modules installiert - die minimale Oberschranke fuer PHP executions laut zabbix 5 Minuten betraegt. HighPerformance? Einen ueber 2 Meter grossen Schrank zwischen zwei Raeumen im 2 Stock bewegt. Simon hat der neubau-32 ein ILO Interface gebaut. Die Biomathematik hat einen eigenen Drucker bekommen (printer-90) Angefangen, Zabbix aufzuraeumen Das Module ubuntubugs aus der Puppet conf fuer die Server klasse entfernt (das Module hatte den bloeden Nebeneffekt, alle Packages zu installieren, von denen ein KDE Tool abhaengt) Nikos hat ein Skript gebaut, dass Usern zugang zu Windows "shares" erlauben kann, authentifiziert ueber das RRZE AD Zwei Maschinen fuer AM2 so lange installiert, bis es endlich ging. Alle Toner fuer Frau Forkels Drucker sind jetzt in einem begehbaren Wandtresor gelagert, Herr Bayer hat den Schluessel [/bauerm] permanent link Thu, 28 Mar 2013 28.03.2013, CIP-54-82 lebt wieder. Ein Frasch Mitarbeiter hat die Platte schnell und unkompliziert Ausgetauscht, schnell neu installiert, jetzt rennt er wieder. Mathematica 9.0 wird als Einzelplatzt Lizenz fuer einen MAC benoetigt. RRZE eingeschaltet ... harren wir mal der Dinge die da kommen. Nach diversen Umzuegen von Mitarbeiter im Haus stimmt unsere Inventar- liste nicht mehr. Wir sind dabei Zimmer fuer Zimmer abzuklappern. Das Gute daran: Wir haben in der Bio-Mathematik einen lange vermissten Rechner wiedergefunden -> gleich Inventarisiert. [/bayer] permanent link Wed, 27 Mar 2013 27.03.2013, LaTeX-Paket(e) nachinstallieren von www.ctan.org - cd ~ - mkdir texmf - mkdir texmf/tex - Paket herunterladen und unter ~/texmf/tex/ abspeichern - texhash ausfuehren bzw. - texhash ~/texmf/tex/ Somit ist jeder User selber in der Lage evtl. fehlende Pakete nach zu installieren. CIP-54-82 ist defekt (so wie es aussieht ist die Platte Schrott). [/bayer] permanent link Tue, 26 Mar 2013 26.03.2013, tex Packet fuer einen Professor Zentral nachinstalliert (pstoedit). Simon hat wiedermal die Tuerschildvorlage in tex gefixt. Zu beachten ist beim Ausdrucken das Page Scaling "None" ausgewaehlt wurde. Simon hat die FAQs und die Seite PC-Pools ver-schoen-huebscht. Matlab Version R2013a am Server installiert und die Links angepasst. Somit ist die Version im Haus verfuegbar. Maple 16 Einzelplatz Lizensen im RRZE verlaengert mit der Option auf Version 17. Am Server die Maple Version 17 installiert, Sie sollte jetzt auch im Haus verfuegbar sein. Trotz Semesterferien haben wir viel "Laufkundschaft", es tauchen immer wieder neue Probleme auf. So mussten wir wieder verschiedene Laptops ueberpruefen fuer das Gaestehaus. Natuerlich waren diese NICHT auf dem aktuellen Stand, und wir konnten (in Einzelfaellen) kurzfristig keine schnelle Loesung anbieten. Bjoern hilft verschiedenen Usern bei der Umgewoehnung auf das neue Typo3 und fixt noch kleinere Bugs. Am Freitag haben wir noch von der Konferenz die Tische und Schilder wieder in den Keller gewuchtet. Danach den Raum fuer die Studenten in Ordnung gebracht. Wir haben nun eine Werkzeugkoffer (Fahrbar mit 159 Teilen). Wir sind nun auch in der Lage, eine Tisch umzubauen ... was wir getan haben (Tischplatte um 180 Grad gedreht). Alle Lexmark X463de wurden auf die Abschaltung der Klingel ueberprueft. Es waren doch noch welche dabei wo die Option nicht ausgeschaltet war: X463: haekchen bei 'enable fax receive' entfernen und 'ringer volumen' auf 'off'. Witz daran ist, das diese Drucker garkein Fax haben ... und warum auch immer, fangen diese Drucker manchmal das Klingeln an und hoeren nicht mehr auf *WTF*. [/bayer] permanent link Thu, 21 Mar 2013 21.03.2013, Wigand und Bjoern haben den Webserverumzug vollendet. Nach diversen Startproblemen laeuft das System jetzt Rund. Die neue Version von Typo3 macht uns noch ein bisschen zu schaffen (alles anders und andersherum). Patrick hat sehr sinnvolle Erweiterungen in das Druckkontingent eingebaut. Es kann jetzt z.B. mit einem Knopfdruck das Semesterupdate aufgeladen werden. An den Lexmarkdruckern im CIP-Pool wurde der Arbeitsspeicher aufgeruestet. Die Drucker haben jetzt 640 MB Speicher wodurch sich die Segfaults reduzieren sollen ... schau ma mal. Der Drucker von Frau Graessel druckt nun auch aus Firefox und Thunderbird heraus. Nach langem Suchen stellte sicher heraus, dass das PPD-File kaputt war. Der Drucker druckte aus allen Programmen nur nicht aus Thunderbird und Firefox, Chrom wiederum ging auch. Nach Austausch des PPD-Files war der Spuk vorbei. Dovecot conf enthielt Fehler ... gefixt (Danke fuer den Hinweis ...). Da es vermehrt Probleme mit Libreoffice gibt, wird bei einer Sekretaerin die 4.0er Version installiert. Sie soll dann mal Testen ob diverse Problem behoben sind und es Global ausgerollt werden kann. Grosses Drama -> Die Kaffeemaschine ist kaputt <- wie soll es nur weitergehen ?? Laut Hoerensagen hat Sie noch Garantie :) Der Backup-Server wird heute ins RRZE gestellt. IP-Adressen fuers LAN und fuers ILO angepasst. Das ILO ist nur vom UNI-Internen Netz erreichbar. Heute kam auch das HP-Care-Pack Zertifikat - Wahnsinn Garantie bis 03/2018. Bei den Lexmark X463de Druckern haben wir nun endlich die Option zum abschalten der Lampe des Papierfachs gefunden. Settings - General Settings - Output Lighting - Power Saver - Off. [/bayer] permanent link Fri, 15 Mar 2013 Nach dem Eintrag von gestern hat uns einer unserer Leser darauf hingewiesen, dass es von HP durchaus eine neue Version von hpacucli gibt, nur halt nicht in den Package Repositories von Ubuntu. Vielen Dank, werden wir umsetzen! Fuer Herrn Neumann und Frau Frieser von der Biomathematik neue Maschinen hingestellt und installiert. Vielleicht mal wieder nachbestellen.. Das hpraidcheck geht nur als root, damit kann man also nicht so leicht einen zabbix-test bauen. Mittels hpraidcheck einen cronjob gebastelt, der mails verschickt, wenn was schiefgeht. Dazu braucht man natuerlich funktionierende Mailer auf den Servern. Die sind jetzt mit einem minimal konfigurierten postfix umgesetzt. Lauscht nur auf localhost, leitet an den mailserver weiter. Das ganze Getestet, indem wir eine Platte aus dem RAID von neubau-31 gerupft haben. Funktioniert. Die Datenbank fuer puppet-dashboard auf management wurde per rake RAILS_ENV=production reports:prune upto=1 unit=mon bis auf ein Monat zurueck aufgeraeumt. 80% weniger Plattenplatz, allerdings erst nach mysqldump; rm $innodb; mysqlrestore, weil MySQL bekanntermassen nichts loeschen kann: http://bugs.mysql.com/bug.php?id=1341 Nach einer Kooperationsplatform fuer Autoren geforscht, einfachster Ansatz ist etherpad.org. Kann man auf beta.etherpad.org ausprobieren. Fuer die Konferenz naechste Woche Tische aus dem Keller geschleppt. Hou-sing Vertrag beim Reichenzentrum eingereicht, wir koennen die Maschine naechste Woche reinstellen. Wir sollten aber vorher das ILO noch konfigurieren... [/bauerm] permanent link Thu, 14 Mar 2013 Frau Kulzer schwaermt von dem HP P3005, der den Lexmark ersetzt hat. Soviel zum Rahmenvertrag. Stellt sich raus, dass z.B. HP's hpacucli (zum Abfragen des RAID Controllers) nicht unter linux-3.x laeuft, wie etwa Ubuntu-precise. Stellt sich ausserdem raus, dass Linux extra Kernel-code hat, um so ein bisschen vorzuspiegeln, es waere nicht Linux-3.x sondern z.b. Solaris oder linux-2.6. Eine Utility namens uname26 tut genau das und startet dann ein uebergebenes Programm in dieser Fake-Umgebung. Testcase: % uname -a Linux management 3.2.0-39-generic #62-Ubuntu SMP [..] % uname26 uname -a Linux management 2.6.42-39-generic #62-Ubuntu SMP [..] Damit kann man dann das kaputte hpacucli wieder starten und kriegt mit, ob Platten kaputt sind: sudo uname26 hpacucli ctrl slot=0 pd all show status physicaldrive 1I:1:1 (port 1I:box 1:bay 1, 300 GB): OK physicaldrive 1I:1:2 (port 1I:box 1:bay 2, 300 GB): OK Bjoern hat den am3dhcp neu installiert. Waehrenddessen hat ein PC, der grad im Serverraum rumstand, die Arbeit von am3dhcp gemacht, war mit puppet ganz einfach. Die P700 bei AM1 machen Laerm mit den Ventilatoren. Dummerweise kann man keinen Einfluss auf die Steuerung nehmen. Auf servern, die im puppet hpserver sind, gibts jetzt ein hpraidcheck, das returnstatus 0 liefert, wenn alle Platten OK sind, und 1 wenn nicht. Noch in Zabbix einbaun... [/bauerm] permanent link Wed, 13 Mar 2013 Ein backupskript fuer die neubau-34 gebaut, das mit zfs send/receive die relevanten FSe rueberschiebt Puppet ist so kaputtttt. Die Sshkey resource hat als unique identifier nur den hostname, nicht hostname+keytype, also kanns pro host nur einen rsa key (oder einen dss key) geben. Ecdsa (Baujahr 2008oderso) kennt er nicht. Und das so generierte /etc/ssh/ssh_known_hosts hat permission 600, so dass es von ssh sowieso ignoriert werden muss. Deppen allesamt. Das Problem mit den selbst-disable-den Druckern ist geloest. Es lag daran, dass ein weiterer Host im cipdruckernetz die gleiche IP wie der Cupsserver hatte. Die Fehlermeldung "ipp returned 4" deutet da aber nicht drauf hin... Frau Kulzer ist von ihrem Lexmark so enttaeuscht (mit Windows Treibern), dass wir ihr heute einen uralten HP 3005 hingestellt haben. Tut alles gewuenschte ausser Scannen. Webserver: Im Typo3 kann man jetzt auf Kalendereintraege bis 2010 zugreifen Patrick baut am Druckeraccounting weiter. Mit SQL Trickserei (Triggers) kann man ein Pseudokonto basteln, dass aus Bareinzahlung und Studiengebuehren besteht, beim Abbuchen wird immer gleichzeitig von den Gebuehren abgebucht. Am Semesterende kann man dann erkennen, ob von den Bareinzahlungen noch was da ist und die ins naechste Semester retten. Andi hat den Bugtracker aufgeraeumt. [/bauerm] permanent link Tue, 12 Mar 2013 neubau-32 in den Serverraum umgetopft, wegen dem Laerm. [/bauerm] permanent link Fri, 08 Mar 2013 07.03.2013, Der Neu bestellte HP DL380p Gen8 CTO Server ist eingetroffen. Es wurde ein FreeBSD (auf USB-Stick) mit ZFS installiert. Von den 21.8T sind nach der Installation des RAIDZ1-Pools noch ca. 10.8T frei. Der Server soll ins RRZE als Backupserver. Das Nexenta-Heartbeat Problem scheint geloest ... endlich. [/bayer] permanent link Der math-backup, den Martin zum Laufen gebracht hat, versteht ZFS send-receive. Sehr praktisch. Momentan clont die Nexenta alle HOMEs (9 Tb) mit 500Mbps drauf. Einen Housing Vertrag haben wir vorbereitet, fehlendes Detail ist, wie wir an die Kiste kommen, wenn Platten sterben. [/bauerm] permanent link Tue, 05 Mar 2013 Puppetverbesserungen: das /etc/init.d/zabbix-agent hatte von Ubuntu einen falschen Pfad zum PID File, und hat deswegen immer geglaubt, dass der zabbix-agent tot ist. FIXED Man muss anscheinend bei manchen 'subscribe's noch eine refreshonly => true setzen, damit der entsprechende Dienst nur dann neu gestartet wird, wenn sich z.b. das Konfigfile aendert. FIXED In einem Eigenbau Exec war der Pfad zu dem File in 'creates' falsch, da wurde das latuernich jedesmal ausgefuehrt. FIXED Nach ein paar anderen Fixes haben wir jetzt erstmals eine Mehrheit von "unchanged" Maschinen, was ja grad die Idee bei Puppet ist (Deklarative Sprache, Idempotente Operationen,...) [/bauerm] permanent link Tue, 19 Feb 2013 Fileserver mit zwei Heads und zwei Shelves auf neuesten Stand gebracht, keine unsinnigen Fehlermeldungen mehr. [/bauerm] permanent link Mon, 18 Feb 2013 Erfolg! Aus den Coraid EtherDrive HBA for Solaris Release Notes v6.0.5-R2 vom 14.2.2013: Release Note Summary for v6.0.5 Resolved Issue: RSF-1 cluster heartbeat timeouts Nexenta no longer reports RSF-1 cluster heartbeat timeouts when small write/reads are issue[sic] to one or more target LUNs. [/bauerm] permanent link Fri, 15 Feb 2013 15.02.2013, Woche 3 im Heartbeat-Wahnsinn ist fast vorbei. Nach verschiedenen Versuchen soll jetzt wohl der Ethernet-Driver den wir einsetzten die Probleme verursachen (6.0.0.7) aktuell ist 6.0.5-R0. Gestern war der Techniker der USVs endlich hier, und hat an der defekten USV im Serverraum von AM1 eine der 60 Batterien ausgetauscht. Am Mittwoch sind wir auf den neuen Printserver umgezogen. Seltsam -> manche drucken trotzdem noch auf den alten Server ??? [/bayer] permanent link CoRAID upgrade auf Shelf 1 gestartet. Spannend, da kann man RAM Disks anlegen, die dann ueber den EtherDrv im Solaris auftauchen. Bringt einen auf Ideen... Tipp vom Nexenta Support, alle Fehlermeldungen auf einmal: fmdump -eV Alle Shelves sind jetzt auf der aktuelle CorOs Release. Was noch fehlt sind die Treiber-Updates auf den Nexenta-Heads [/bauerm] permanent link Thu, 14 Feb 2013 Ein Techniker von HAC (die den RSF-Monitor im Fileserver programmiert haben), war auf unserer Installation unterwegs und konnte einen (nicht alle) Fehler auf die Interaktion NexentaOS<->CoRAID zurueckfuehren. [/bauerm] permanent link Tue, 12 Feb 2013 Durch einen saudummen Vertipper wurde der Authentisierungsserver (an dem _alles_ haengt) heute aus Versehen --- aber erfolgreich --- auf die neueste Ubuntuversion gebracht. Ufffff..... Der DHCP Server fuer das AM3 Netz wurde absichtlich und erfolgreich auf den neuesten Stand gebracht. [/bauerm] permanent link Mon, 11 Feb 2013 Die Hersteller des High-Availablity Tools braucht mehr Logs, haben wir geschickt. Die "database locked" Meldungen vom puppet, die alle Updates blockiert haben, liessen sich durch Einsetzen eines "autocommit" => true und "timeout" => 10000 in den puppet sourcen in rails.rb etwas mildern. Gibt aber immer noch Fails im puppet dashboard cip-54-85 aus der Quarantaene wieder in den Praktikumsraum 2 gestellt. [/bauerm] permanent link Fri, 08 Feb 2013 Seit Tagen versuchen wir rauszukriegen, warum die Nexenta Heads alle paar Sekunden glauben, dass der jeweils andere zu zwei Dritteln tot ist. Der NexentaSupport wollte das auf die 0.03 Sekunden Schreiblatenz zurueckfuehren, was bei einer sekundengenauen Synchronisation IMHO eher unwahrscheinlich ist. Nachdem wir die Heartbeat-config so umgebaut hatten, dass jetzt die zwei Spare-Platten dafuer benutzt werden, auf denen gar nicht geschrieben wird, kommen wieder Heartbeat Errors. Nach einer Telefonkonferenz mit Vertrieb und Support wird jetzt der Hersteller des High-Availablity Tools Rede und Antwort stehen muessen. [/bauerm] permanent link Wed, 06 Feb 2013 Martin hat deutlich gemacht, dass uns die Heartbeat Flaschmeldungen nerven und dass wir als Gold-Support Kunden eine Loesung wuenschen. Schau mer mal [/bauerm] permanent link Tue, 05 Feb 2013 Nachdem die Fileserver nach dem Upgrade am Samstag sauber weiterliefen, gabs heute eine kleine Katastrophe. Wenn auf einem Fileserver der rsfmon stirbt, wird der sofort als tot erkannt; aber dass heisst nicht notwendig, dass der andere uebernimmt. Keine Ahnung wies dazu kommen konnte, dass die Einstellung auf "manual" stand, auf jeden Fall hats ein paar Minuten gedauert, bis der Export wieder da war. Dreck. Nach dem Neustart war die /etc/resolv.conf wieder ueberschrieben, muss man wohl per nmc setzen.. Arrrggglllll! Die /etc/resolv.conf wird von NMS verwaltet, und zwar unter dem punkt: setup network service cifs-server edit-settings resolv.conf Na klar! Puppet macht Probleme: "database is locked" was bei SQLite3 ein seltsames phaenomaen ist. [/bauerm] permanent link Sat, 02 Feb 2013 Strom ist um 10:10 abgeschlatet worden, Server laufen noch, Netz tut. Fileserver ist jetzt wieder nexone. Wie das mit den CIFS-mounts (am2share) ist, muss noch getestet werden. Nextwo ist jetzt auf neuestem (-stable) Stand. Der scrub (ZFS Filesystemcheck) laeuft ab jetzt monatlich statt woechentlich Der mailserver hat jetzt wesentlich mehr platz fuer neue Mails, /var/mail ist jetzt das 1TB RAID, das alte /var/mail liegt unter /var/mail.vor.dem.sdb1.mount. Wenn alles klar ist, kann man die loeschen. Mailsystem hab ich jetzt erstmal auf die triviale Art getestet, mails scheinen wie ueblich reinzukommen.. [/bauerm] permanent link Fri, 01 Feb 2013 Der Nexenta Support sagt, ich muss keine Angst haben, Heartbeats auf Platten zu konfigurieren, die Teil eines Zpools sind. Ich verlass mich jetzt mal drauf. [/bauerm] permanent link Die Lexmarker sind ja sooooo bloed: Wenn man einem Netz in der WebGUI des Druckers das Drucken verbietet, dann werden die nicht etwa mit einem ICMP Unreach oder ICMP Policy geblockt, sondern die Druckjobs werden angenommen und gespeichert, bis das Netz eventuell freigegeben wird, dann wird gedruckt. Am Samstag waehrend des Stromausfall steht an: - auf dem Mailserver das /var/mail auf die 1TB Platte bewegen, am besten direkt als /var/mail mounten - Nexone genauso auf den AD-server vom RRZE einstellen wie das Nexone schon ist Heartbeat Platten sind jetzt Nexenta-Support-konform konfiguriert. [/bauerm] permanent link Thu, 31 Jan 2013 31.01.2013, Der Drucker HP9000 druckt nicht mehr ... Meldung: Renew MAINTENANCE KIT. Nach Austausch des MAINTENANCE KITs: 1. Turn the printer off. 2. Press and hold the checkmark (Select) button. 3. Turn the printer on while still holding the checkmark (Select) button. 4. Continue to hold the checkmark button down until all three control panel lights (LEDs) illuminate, and then release it. "Select Language" will appear on the control panel. 5. Use the Up Arrow to scroll to NEW MAINTENANCE KIT. 6. Press the checkmark button. 7. Verify that the maintenance count was reset by printing a configuration page: press the checkmark, scroll to "INFORMATION" and press checkmark, scroll to "PRINT CONFIGURATION" and press checkmark. Desweiteren wurde am Drucker Lexmark X734 (Raum 02.350) die komplette Scan-Einheit auf Garantie ausgetauscht. cip-54-19 macht Probleme (grosser Datentransfer) und stuerzt ab (defunc) ... neu installiert. Da der CITRIX/UDZ Client nicht sauber unter Ubuntu-Linux laeuft, wurde ein VM mit Windows 7 installiert. Tests laufen z.Z. [/bayer] permanent link Tue, 29 Jan 2013 Die Aenderungen, die noetig waren, um NFSv4 parallel zu AD-authentisierem CIFS betreiben zu koennen, sind vom Nexentagefuddl ueberschrieben worden. Stellt sich raus, dass man Aenderungen am /etc/default/nfs im NMC mit 'setup network service nfs-server edit-settings' machen muss, sonst ueberschmiert er die wieder. Auf beiden Maschinen gesetzt. Ergebnis der Dienstbesprechung ist u.a. dass wir unsere verschiedenen internen und externen Dokumentationen zusammenfuehren sollten. Evtl koennen wir mit dem moinmoin Nachfolger ein Wiki-mit-Bugtracker ala fossil-scm.org machen. Lexmark X463 koennen zwar nur schwarz-weiss drucken, aber _doppelseitig_ farbig scannen, Lexmark X734 kann farbig drucken, aber nur _einseitig_ scannen. Auf kek.am lag kein kerberos keytab. Nachdem er eine hat, kann man sich nicht mehr einloggen. Superb! Wegen heftiger Rechnungen war kein Reboot moeglich, entfernen des Keys hat erstmal geholfen, aber einem User, der schon eingeloggt war, ist die X Session eingefroren. Alle gnome, ubuntu, etc-artigen Prozesse abgeschossen, /etc/init.d/lightdm restart und schon gings wieder. In der vorlesungsfreien Zeit stehen gewaltige Umbauten an. Unter anderem Upgrades fast aller Server. [/bauerm] permanent link Thu, 24 Jan 2013 24.01.2013, Metadaten bzw. Informationen von PDFs aendern: auslesen: pdftk h1.pdf dump_data output aendern.txt aendern.txt bearbeiten ... und wieder zurueck ins PDF: pdftk h1.pdf update_info aendern.txt output h11.pdf [/bayer] permanent link Wed, 23 Jan 2013 23.01.2013, Die Kameras fuer die Praktikumsraeume wurden heute montiert. Wenn diese dann in Betrieb genommen wurden, koennen die Studenten in diese Raeume ausweichen. Leider macht der Heartbeat der Nexenta immer noch Probleme ... Und die Lexmark X463 Drucker stuerzen weiterhin wie gewohnt ab ... Wir laufen wie immer zu den Druckern und muessen diese neu starten um sie wieder zu beleben, nicht zu vergessen den Papierstau der dabei entsteht. [/bayer] permanent link Tue, 22 Jan 2013 Am Rahmenvertrag vorbei(!) ein Problem an einem Kopierer behoben. Voruebergehend war das NexentaStor disk-heartbeat problem geloest, jetzt kommts in niedrigerer frequenz wieder hoch. Dreck. Der Support empfiehlt ausserdem, eine andere platte als eine Cache-platte fuer heartbeats zu nehmen. Spaeter mal umsetzen. [/bauerm] permanent link Mon, 21 Jan 2013 nexone (FileserverAdmiral) ist auf die neueste NexentaStor Version gebracht. Beim naechsten (hoffentlich geplanten) Stromausfall werden wir die nextwo (FileserverKonteradmiral) ausschalten, dann kriegt nexone wieder die Platten und wir koennen in Ruhe nextwo auf die neue Version bringen. Aergerlicherweise sehen die beiden Server seit dem Upgrade eine Platte nicht, ueber die sie per SCSI-Kommandos eine Art Dead-Peer-Detection machen. Der Support ist informiert... Endlich das eklige msttcorefont-installer Problem gefixt. Hierbei besonders widerlich ist, dass das Packet installiert wird, aber die Fonts dann nicht, bis der Admin (was nicht der "End User" aus dem Wort "End User's License Agreement" ist) ein Programm startet, dort "Ok" klickert ohne die Lizenz gelesen zu haben, und dann muss man das Packet mit --reinstall nochmal installieren. Das ist aus vielen Perspektiven total krank. Und das aeussert sich dann mit puppet nochmal besonders, weil puppet fuer Packete nur die Zustaende "abwesend" und "installiert" kennt. Wuergaround: exec { 'msttcorefonts-defect': onlyif => '/usr/bin/test -f /usr/share/fonts/truetype/msttcorefonts/README', path => '/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin', command => '/bin/sh -c "echo ttf-mscorefonts-installer msttcorefonts/accepted-mscorefonts-eula select true | debconf-set-selections && apt-get install --reinstall ttf-mscorefonts-installer"', } exec { 'accept-msttcorefonts-license': onlyif => 'debconf-get-selections | grep "ttf-mscorefonts-installer[ ]*msttcorefonts/accepted-mscorefonts-eula" | awk \'{print $4}\' | grep -q false', command => '/bin/sh -c "echo ttf-mscorefonts-installer msttcorefonts/accepted-mscorefonts-eula select true | debconf-set-selections', } package { 'ttf-mscorefonts-installer': require => Exec['accept-msttcorefonts-license'], ensure => installed, } Exec['msttcorefonts-defect'] pr"uft, ob das README rumliegt, das nur dann rumliegt, wenn die Installation nur zur Haelfte ausgefuehrt wurde, setzt dann die debconf variable, und installiert mit --reinstall nochmal. Exec['accept-msttcorefonts-license'] prueft, ob die debconf Variable false ist, und setzt auf true. Das Package wartet auf Exec['accept-msttcorefonts-license'] und installiert dann. So ein Rotz. [/bauerm] permanent link Wed, 16 Jan 2013 Auf magische Art hat sich das Problem mit dem ActiveDirectory geloest, die nextwo konnte sich heute frueh anmelden und seit dem funktioniert wieder alles. [/bauerm] permanent link Tue, 15 Jan 2013 WAaaaaaaa. Durch eine nicht geklaerte Folge von Vorfaellen ist heute (oder gestern frueh, nicht jedoch nachtmittags) unsere Verbindung vom Fileserver zum RRZE ActiveDirectory weggefallen. Das hatte zur Folge, dass u.a. die Mitarbeiter von AM2 nicht mehr an ihre HOMEs kamen. Unsere Reparaturversuche wiederum hatten als Nebeneffekt, dass alle NFSv4 HOMEs der restlichen Mitarbeiter in Mitleidenschaft gezogen wurden. Nach zehn Stunden Debugging, Telefonanten mit RRZE und Nexenta.com, Emails an dieselben schauts so aus: - der DNS Server, an den sich der CIFS/smb Server auf nextwo wenden wollte, war vom Stromausfall am Samstag betroffen und wurde gestern 14:00 wieder in Betrieb genommen, um dann heute frueh ganz ausgeschaltet zu werden. Das letzteres mal passieren wuerde, war klar. - nachdem wir einen anderen DNS Server eingetragen hatten, konnte die nextwo trotzdem nicht mit dem AD reden, erst die Umstellung auf den AD Server als DNS Server + die Manipulation von /etc/resolv.conf auf domainname=fauad.fau.de search=fauad.fau.de hat das behoben (warum????!??). Der Std-DNS Server (131.188.0.10) kann nicht fuer CIFS/smb genommen werden, weil er nicht "authoritative" ist. - Nach dieser Umstellung hat der NFSv4 server versucht, alle usernamen als user@fauad.fau.de aufzuloesen (NFSv4 braucht usernamen statt UIDs), und unser LDAP Server hat gemeldet, dass er den domain nicht kennt (stimmt auch). Nachdem wir in /etc/default/nfs die Zeile NFSMAPID_DOMAIN=mi.uni-erlangen.de (was sonst?) eingetragen hatten, ging das NFSv4 wieder. - Martin konnte mit seiner mu-Kennung aus dem AD auf SMB Shares zugreifen, Wigand nicht (?!#??) - Obwohl so Sachen wie _ldap._tcp.dc._msdcs.fauad.fau.de abfragbar sind, meldet der idmapd Couldn't open an LDAP connection to any global catalog server! [/bauerm] permanent link Mon, 14 Jan 2013 14.01.2013, Lexmark X463de schmiert und druckt nur mit Streifen. Es sind Pins verbogen ... [/bayer] permanent link Sat, 12 Jan 2013 17.01.2013, Nach den Problemen mit dem File-Server hatten wir am File-Server eine Overhead von ca. 700 MB. Das ist auf die Clients zurueckzufuehren, die den NFS-Share kurz verloren haben und dadurch abgestuerzt sind (defunc). Nach Neustart der CIP und Neubau Rechner sank der Overhead ... [/bayer] permanent link Fri, 11 Jan 2013 Fuer die Filesystem Freezes gibt es folgende Erklaerungsmoeglichkeiten IMHO: 1. Netzproblem (eher nicht) 2. Fileserverproblem (auch eher weniger, das Ding packt eigentlich mehr Last) 3. UID/GID Aufloesung ueber nscd+nslcd+LDAPuebersnetz+Authserver (eher wahrscheinlich, der ganze @$(*&%$&% ist viel zu komplex) 4. probleme mit dem rpc.idmapd (essenzielle Komponente von NFSv4, und unter Linux vermutlich nicht gut getestet. Von emperor haben wir logs, wo der innerhalb einer Sekunde ein paar dutzend Mal mit Status=1 stirbt (und die Manpage sagt natuerlich nicht, was dieser Status sein soll)) Diagnoseaufbauten: - Wegen 3. mal eine Maschine mit allen Usern in /etc/passwd und ohne LDAP/nslcd/nscd konfigurieren. Die Authentisierung kann trotzdem ueber Kerberos laufen. - Wegen 4. mal eine (andere) Maschine mit rpc.idmapd mit Debug-options laufen lassen und logs anschaun - Auf einer weiteren Maschine mal ein Programm laufen lassen, dass die Write/Read Performance ueber NFSv4 misst und meckert wenn das zu langsam wird. [/bauerm] permanent link Tue, 08 Jan 2013 Das mit der Bimmelabhilfe hat leider nicht funktioniert. Sideeffect der Umnummerierung der Studenten ist, dass sie nicht mehr auf die alten (vor 19.12) Snapshots ihrer HOMEs zugreifen koennen. Im Notfall koennen wir sie aus dem Fileserver ziehen. Bei AM3 verdunkeln die Monitore an den neuen Workstations und wachen nicht mehr auf. Bisher einzige Abhilfe ist reboot. Das ist unakzeptabel, weil die ja grad eben Datenvisualisierung machen sollen. Frau Baeumler hat uns ihren Rechner ausgeliehen, damit wir den mal anschaun koennen, wenn was passiert. Der HP 9000, den uns die Informatik netterweise geschenkt hat, ist jetzt fertig zum Einsatz im CIP Pool. Wir haben die Fixiereinheit ausgetauscht und ein bisschen mit den unleserlichsten Skripten getestet. Jetzt kommt die Innenarchitektonische Frage, wo man dieses 65x75x50 cm^3 Monster hinstellen kann, ohne a) die Sicht auf Vortragende zu verstellen b) Fluchtwege zu blockieren Die Backup Maschine von QNAP (einer von 4 (in Worten: vier) Backupmechanismen) laesst keinen Zugriff per NFS mehr zu (??!??). Workaround: Backup per rsync-over-ssh. [/bauerm] permanent link Thu, 27 Dec 2012 27.12.2012, Merry Christmas and Happy New Year !!! [/bayer] permanent link Wed, 19 Dec 2012 Alle PC Pool Maschinen auf den neuen AD Server umgezogen. Alle Studentenhomes dazu passend umnummeriert. Allen (hoffentlich) RJE Hiwis im LDAP die neue UID gegeben. Die Kaskade aus Caches von nslcd und nscd kann die alten UIDs verdammt lange halten. Martin hat einen HP LJ 9000 in der Uni-internen Tauschzentrale gefunden, perfekt fuer den PC Pool, 3100 Blatt Magazin, bis zu 50 Blatt/minute. Ich hoffe sehr, dass wir den kriegen. Bjoern hat eine Idee, woher das bescheuerte Bimmeln der (nicht FAX-faehigen) Lexmarks kommen koennte, und testet jetzt die Abhilfe dazu. [/bauerm] permanent link Mon, 17 Dec 2012 Aaaaaaaaargl. ldapsearch -x 'homeDirectory=/home/stud/viktor' liefert ein Ergebnis, dessen homeDirectory tatsaechlich /home/stud/viktor ist. ldapsearch -x 'uid=*stud*' liefert zwei Ergebnisse, deren Username "stud" enthaelt. ldapsearch -x 'homeDirectory=*stud*' und ldapsearch -x 'homeDirectory*=stud' liefern _kein_ Ergebnis. Das OpenLDAP kann also auf manchen Feldern subtring-Matches und auf manchen nicht. Kwalitaetzsoftware wohin man blickt. [/bauerm] permanent link Fri, 14 Dec 2012 14.12.2012, xfce ist total kaputt. Nach Benutzung von Thunderbird und/oder Firefox kann es vorkommen das die Workspaces nicht mehr benutzbar sind. Es ist nur noch der aktuelle Workspace anklickbar und das Programm welches zuletzt offen war laesst sich nicht mehr verschieben, schliessen usw. Abhilfe schafft das auslogge und das anmelden ueber die Konsole. Hier in ~.cache/sessions alle Dateien des xfce loeschen ... WTF %$@&#*. Drucker 92 druckt nicht mehr. Druckauftrag steckt fest. Ueber CUPS Webfront- end Druckauftrag geloescht ... bringt nix. Auf dem Printserver nach ipp gegrept, mit kill -9 abgeschossen ... Erfolg !!?? [/bayer] permanent link Tue, 11 Dec 2012 Interessante Kette von Effekten: vor zwei Wochen hat das RRZE zwei DNS Server abgeschaltet, was auch ausreichend angekuendigt war. Dummerweise haben wir das ueberall, ausser auf den Fileservern umgebogen. Dadurch gab es eines Vormittags dann auf einigen Maschinen das Problem, dass der Fileserver ihre Namen nicht abfragen konnte, und deswegen Zugang verweigert hat. Das wiederum hat Prozesse gestoert, die Dateien auf dem Server offen hatten. Das Problem haben wir in wenigen Minuten behoben, aber Linux kann anscheinend im Gegensatz zu Solaris die Verbindung mit dem NFS Server nicht wieder aufnehmen. Und was noch erstaunlicher ist, die haengenden read/write/open/access/stat/etc syscalls erzeugen _weiter Traffic_ zum NFS Server, aber ohne jemals wieder in sync zu kommen. Dadurch hatten wir auf dem Fileserver Switch zeitweise _2Gb/s_ Datenlast. Dass der Server das ohne grosses Jammern mitgemacht hat, zeigt IMHO, dass wir da eine gute Wahl getroffen haben. Wir sind dann alle Maschinen durchgegangen und haben nach Prozessen gesucht. Weil die im Kernel haengen mit syscalls, die nie zurueckkehren, kann man die Maschinen nicht mit reboot neu starten, also kaltstart. Puppet mal wieder: wenn man in einem Modul eine Klasse mit Grossbuchstaben benennt, dann wird das von Puppet ohne Fehler akzeptiert lowercase gewandelt, aber dann nicht gefunden. Die Fehlermeldung, die dann kommt, enthaelt den Namen ohne einen Hinweis, dass der so nicht korrekt ist. Nachdem kein ver&^(^%tes Tool, das von Nexenta mitgeliefert wurde, Netztraffic nach Hosts sortiert anzeigen kann, hab ich mir mit folgendem Skript beholfen: snoop -c 9999999 -r -I aggr1 port 2049 | perl -e \ 'while(<>) {@f=split; next if $f[0] eq 131.188.54.15; $stat{$f[0]}++;} for $i (sort {$stat{$a} <=> $stat{$b}} keys %stat) { print "$i\t$stat{$i}\n" }' Das snoop listet 10^7 - 1 Pakete zu Port 2049 (NFS), das perlskript sortiert die Absender IPs nach Haeufigkeit. Damit hatten wir dann eine Idee, worans liegen koennte. Ein Tool, das latuernich nicht dabei war, ist darkstat. Das stellt jetzt die Statistiken von Datenaufkommen pro Host schoen dar. Ufff. [/bauerm] permanent link Wed, 05 Dec 2012 05.12.2012, Bugs verstecken sich ueberall. Nach dem Update auf Ubuntu 12.04 kommen so nach und nach verschieden Bugs zum Vorschein. Einer davon betrifft Kile. Kile oeffnet Files mit mehr als 1024 Characters, nur mit Fehlermeldung und im "Readonly Modus". Abhilfe schafft unter settings > configure editor > open/save den Wert "line length limit" auf 0 zu setzten. Des weiteren merkt sich Kile die im "Readonly Modus" geoeffneten Dateien ... um Sie wieder bearbeiten zu koennen muss man Sie im Tools Menue wieder "freischalten". [/bayer] permanent link Tue, 04 Dec 2012 04.12.2012, Unser Serverraum war abgesperrt. Trotz Zutrittskontrolle und Offline- schloessern war die Tuere zum Serverraum verschlossen. Der nette Herr vom Schliessdienst wusste auch nicht wie das zu Stande kommt, da "eigentlich" nur Er einen Schluessel hat. Die Netzwerkversion von Mathematica wurde um die Version 9.0 erweitert. Maple 16 wurde auf die Version 16.02, und Maple 15 wurde auf die Version 15.01 upgedatet. [/bayer] permanent link Herr Leonhard hat rausgefunden, dass den Kopierer einen USB Anschluss hat, und man mit einem PCL6 Treiber von Windows aus da auch automatisches Klammern aktivieren kann. Nuetzlich fuer unsere Klausurmassen. Der Klausurengenerator fuer Herrn Richard erzeugt brav Debian Pakete mit Klausurusern und deren HOMEs, das Entpacken der Inhalte in die HOMEs schlaegt aber manchmal fehl. Das ist besonders dann tragisch, wenn dort schon veraltete Inhalte liegen. Per Hand nachgefrickelt um sicherzustellen, dass bei der naechsten Klausur auch alles gutgeht. [/bauerm] permanent link Mon, 03 Dec 2012 03.12.2012, So wie es aussieht hat das RRZE heute die alten DNS-Server abgeschaltet. Wir hatten per Puppet schon die neuen Server an die Clients verteilt ... allerdings mussten wir bei dem ein oder anderen Server "Hand" anlegen :) [/bayer] permanent link Zu dem "niemand hier hat jemals von JOIN gehoert" PHP Fricklern: Man kann (zumindest in sqlite3) die strings zum Vergleichen mit LIKE als nested SELECT bauen: SELECT * FROM foo WHERE bar LIKE (SELECT "%"|| bar FROM foo WHERE quux="221"); Packete fuer R nachinstalliert, die Ubuntu nicht auf dem aktuellen Stand haelt. Wenn ein Prozess offene Filedescriptors auf Dateien vom NFS Server hat, und den grad nicht erreichen kann, dann kann man den Prozess nicht kill-en, und natuerlich dann die Maschine auch nicht sauber runterfahren. Weitere lustige Sachen mit libcairo in Python gehackt. Bjoern hat das Raetsel mit der verschwundenen UserGruppe im Typo3 geloest, das war eine Gruppe, die nur unter dem Domain "studium" sichtbar war. Nachdem wir immer ueber math.fau.de drangehen, wurde die teilweise versteckt. Ist repariert. [/bauerm] permanent link Fri, 23 Nov 2012 Typo3 ist soooo kaputtt. Um rauszukriegen, wer in einer bestimmten Usergruppe ist, gibts in der tollen Webgui gar nix. Was man machen kann, ist jemanden finden, der bekanntermassen in der Gruppe ist, seine Nutzerinformation mit dem i-im-kringel anzeigen lassen, dort raten, dass z.b. 18 die Gruppennummer von StudiumWebEditor ist, und dann per hand folgende URL eingeben: https://www.algeo.math.fau.de/typo3/show_item.php?table=be_groups&uid=18 Dann kriegt man die uids --- nicht die namen --- aller Mitglieder der Gruppe 18. Mit denen kann man dann einen SQL Query an die Datenbank schicken: select username from be_users where uid in (80,40,129,144,131,93,65,176,173); Oder man daddelt per hand durch die URLs https://www.algeo.math.fau.de/typo3/show_item.php?table=be_users&uid=80 fuer alle Usernummern aus obiger Antwort. Dann schaut man natuerlich mal nach, wie das mit der Gruppen<->Nutzer Zuordnung gemacht ist. Und stellt fest, dass die Deppen nicht wissen, was ein Join-Table ist! Es gibt in be_users eine Spalte groupname, in der die IDs der Gruppen des Nutzers, _mit kommata getrennt_ drinstehen. D.h. die Datenbank wird ueberhaupt nicht benutzt, die IDs werden als String eingelesen und mit einem zweiten Query den Gruppen zugeordnet. *stirnklatsch* Wer hat die in die Naehe eines Computers gelassen??? Folgendes funktioniert fuer Gruppe 18, bis wir eine Gruppe mit nummer 118 oder 180 haben: select username from be_users where groupname LIKE "%18%"; Fuer Gruppe z.b. Nummer 1 geht LIKE "%1%" nicht, weil man nicht wissen kann, ob die 1 nicht die erste oder letzte Ziffer einer anderen Zahl ist! [/bauerm] permanent link Thu, 22 Nov 2012 22.11.2012, Norton macht Probleme. Am externes RAID des Norton ist mal wieder ein Platte defekt. Platte gegen eine Neue getauscht (alte hat noch Garantie, die es nun einzufordern gilt). Es stellt sich heraus das fuer die iLO-Schnittstellen der HP Server eine neue Firmware vorhanden ist (iLO3 v1.50) ... an allen HP Servern installiert. Die Installationen der Workstations im Haus geht voran -> 50 Maschinen sind schon installiert. Das W-LAN des RRZE macht Probleme. Es werden einfach manchmal keine IP-Adessen verteilt. Der DHCP-Server fuer das W-LAN ist defekt und der Ersatz-DHCP ist nicht eingesprungen. Staendige Verbindungsabbrueche im W-LAN des RRZE. Nach Ruecksprache mit dem RRZE wird der Fehler in den naechsten 2 Wochen gefixt. [/bayer] permanent link Mon, 19 Nov 2012 19.11.2012, Neuinstallation der Numbercruncher Norton und Sultana steht an. Sultana neu installiert auf 12.04 LTS Server. [/bayer] permanent link Tue, 13 Nov 2012 13.11.2012, USV im Serverraum AM2 piepst mit dem Fehler "Batt Error". Leitwarte verstaendigt ... sind dafuer nicht zustaendig. Bei dem Kollegen der Firma S... angerufen ... kuemmern sich. Die Matlab Lizenzen sind sehr begehrt ... hoffentlich sind Sie bald weg. Seite Rechnerverwaltung/faq abgeaendert. Roundcube Anleitung verfasst. Linkchecker ueber die math.fau.de gejagt ... Wigand hat die Fehler beseitigt. Neuen Printserver aufgesetzt (12.04) (Spende alter Hardware von AM3, mit neuen Platten versehen) ... Patrik M. hat die Drucker eingerichtet ... Test steht noch aus. Nochmal an der smb.conf gefrickelt ... laeuft etz unter FAUAD. Das Problem: die User bekommen andere ID's, was bedeutet, wenn wir den CIP-Pool umstellen muessen wir die ganzen Homes der CIP-User abaendern. 5 Rechner fuer AM3 installiert - kek, helios, emperor, bastardinha und brunello. Typ Fujitsu Celsius R920. Alle Rechner in den Cip-Pools und Praktikum Raeumen auf Ubuntu 12.04 hochgezogen. Die Rechner im Department werden nach und nach hochgezogen. Das Update der Server auf 12.04 steht noch an. Frau Graessel ist in den Raum 01.385 umgezogen ... Rechner, Drucker und FAX mit umgezogen und Webseite angepasst. Die FAU-Card schliesst jetzt alles, auch unsere Serverraeume. Um die Karte fuer die Serverraeume zu aktivieren muss man sie an der Validierungsstation freischalten. Diese Freischaltung gilt 25 Std. Achtung nicht 24 und auch nicht 26 NEIN 25 Stunden. Innerhalb dieser Zeit kann man die Server- raeume betreten, danach ist eine erneute Validierung erforderlich. [/bayer] permanent link Was geschah im letzten Monat: Neuer Printerserver wurde aufgesetzt und auf neuer Hardware installiert. Er uebernimmt die Printserverfunktion des neubau-103, um den so langsam zum reinen Mailserver zu reduzieren Nach und nach und beginnend mit den PC Pools und Praktikumsraeumen wurden und werden die Maschinen auf Ubuntu 12.04 gebracht. Das Problem mit der Namensaufloesung in NFSv4 wurde geschickt umschifft, so dass der CIP Pool wieder NFSv4 hat. Das Bauamt, das Gebaeudemanagement und diverse andere wurden von unserem Wunsch informiert, die Klimaanlagen in Serverraeumen doch bitte an der zentralen Leitwarte anzuschliessen. Wenn man in Puppet eine File Resource anlegt, und sich bei dem "ensure" Attribut vertut, indem man statt "present" "exists" angibt, ist die Fehlermeldung nicht etwa "Ihr 'ensure' hat einen Wert dens nicht gibt, nehmen sie 'present', 'absent', 'directory' oder 'link'", sondern: "You cannot specify more than one of content, source, target at /etc/puppet/modules..." Die Studierenden bitten darum, den Praktikumsraum 1 benutzen zu koennen, wenn der PC Pool 1 mit Lehrveranstaltungen belegt ist. Antrag ist wohl gestellt... Der Umzug der Maschinen von ziusudra als puppet server zur management schreitet so langsam fort. Eine ganz besondere Herausforderung ist es, management selbst als puppet-client seiner selbst zu konfigurieren. Martin hat auf der cip-54-123 ein funktionierendes Setup fuer Authentisierung gegen den _neuen_ AD Server des RRZE. Weil wir aber die posixUids der Studenten aus den SIDs im AD generieren, und diese widerum den Umzug auf den neuen Server nicht ueberlebt haben, muessen wir in einer Nacht&Nebel Aktion alle Studentischen HOMEs auf die neuen generierten posixUids umwidmen, und fuer unsere Hiwis auch die posixUids im LDAP, damit die ihr HOME weiterbenutzen koennen. Sehr flexibel, und insbesondere wacklig, das alles. Ein klassisches puppet-Problem: die hirnlosen Fehlermeldungen mal wieder. Was soll der geneigte Leser dem folgenden entnehmen: "Failed to apply catalog: Could not intern from pson: source '"# [/bauerm] permanent link Wed, 10 Oct 2012 AAaaargl. NFSv4 macht permissions nicht an numerischen IDs fest, sondern an Namen. Das impliziert, dass Client und Server Namens-lookups auf die gleiche Datenbank machen. Das ist bei unserem CIP Pool nicht der Fall, da kommen die Namen auf dem Client vom AD des RRZE und auf dem Server haben die HOMEs einfach die passenden numerischen IDs. Das klappt aber nur mit NFSv3. Nachdem die AD Integration schon auf den CIP Clients eine unglaublich eklige Friquelage war, moechten wir das nicht auf dem Server wiederholen (ausserdem muessten wir dann die UIDs aller Mitarbeiter, die noch ihre Studi-Accountnamen benutzen, auf die vom CIPpool umstellen). Also Rollback auf NFSv3. Das RRZE AD Team dreht um Weihnachten rum den AD ab, an dem unser CIP Pool haengt. Martin hatte im Juni/Juli in harten Kleinstarbeit eine funktionierende Konfig dafuer gebaut. Scheint nach der Neuinstallation aber nicht mehr zu funktionieren. [/bauerm] permanent link Thu, 04 Oct 2012 Bugsbugsbugs. Die Zabbix+Postgres Mischung auf monitor hat eine systemlast von 21 erreicht, die Messwerte der zabbix_agents kommen gar nicht mehr in der Datenbank an, sondern liegen stundenlang in Queues. Mit diversen Mitteln versucht, Performance zu verbessern, leider erfolglos. Martin macht einen Update der Packete und wir versuchen noch an der Postgres Performance zu drehen. Ein Monsterproblem ist der merge der diversen puppet-repo-Aeste... Der CIP Pool ist auf Ubuntu precise gebracht, Patrik W. hat dabei noch einen PC mit kaputtem RAM aufgespuert. Qua Garantie von Frasch repariert. Gut so. Ausserdem wurde dabei ein nicht-inventarisierter Rechner gefunden Der neue Management Server hat den Vorteil, dass man ohne viel ge-grep-pe in den Logs rauskriegen kann, wo was schiefgeht. Sehr nett. Martin hat ueber alle *.math.fau.de Domains einen Linkchecker laufen lassen, und der hat erschuetterndes zu Tage gebracht. Wir sind dabei, die Web-Verantwortlichen zu finden und auf die Probleme hinzuweisen. [/bauerm] permanent link Fri, 28 Sep 2012 RRZE Netzteam hat unserer load-balancing Cisco im Serverrack einen zweiten Glasfaser-Uplink gegeben, ab jetzt serviert also der fileserver mit _doppelter_ Lichtgeschwindigkeit. Dass unsere Klimaanlagen nicht an der Leitwarte des ATD angeschlossen sind, liegt daran, dass sie NICHT ABGENOMMEN sind (seit einem Jahr). Uns haette ja jemand andeuten koennen, dass wir da staendig selber ein Auge drauf haben muessten, weil wenn was schiefgeht, sinds unsere Server die sterben. Nette Art Puppet-Rezepte auszuprobieren: Eine Datei anlegen, in der ein default node definiert wird, der das gewuenschte als Zustand hat, und die Module/Templates dazu in /tmp/foo/ ablegen, dann auf einer Testmaschine puppet apply -v --moduledir=/tmp/foo --templatedir=/tmp/foo Das tut dann ohne Kontakt zum zentralen puppet master. [/bauerm] permanent link Tue, 25 Sep 2012 25.09.2012, Der Mailserver hat am Wochenende seinen Dienst eingestellt. Grund war dass der nslcd durch ein Security-Update kaputtgefixt wurde. Nach einem abschiessen und Neustart des Dienstes konnten sich die User wieder anmelden. Es gingen keine Mails verloren ! Eine Platte im AM3 18T-Raid MSA60 ist defekt, schnell Ersatz geordert und Platte verbaut. Mit HP Kontakt aufgenommen da die Platte erst 18 Monate alt ist. Soeben kam der Anruf von HP dass die Platte nur ein Jahr Garantie hat (da SATA) WTF !!! Es gilt nun zu klaeren ob wir ein HP CarePacket mit geordert haben ... wenn ja dann hat die Platte noch Garantie. Ein Mitarbeiter hat versehentlich Mails geloescht ... aus dem Backup wieder hergestellt. Bjoern hat eine VM mit Windows 7 und Office 2010 aufgesetzt. Bei einer Neuinstallation werden DHCP-Requests nicht innerhalb 15s beantwortet, was dazu fuehrt dass die Installation abbricht. Mit dem RRZE gesprochen ... es wurde das Spanning Tree an den RRZE-Switches fuer unsere Netze abgeschaltet. [/bayer] permanent link Fri, 21 Sep 2012 Python ist lustig, man kann wie in Haskells Lazy Evaluation z.b. die Fibonaccizahlen an ihren eigenen zwei Haaren aus dem Sumpf ziehen: def _fib_lazy(): yield 1 yield 1 a = _fib_lazy() b = _fib_lazy() b.next() while True: yield (a.next() + b.next()) # keine rekursion, a und b halten Zustand def _lazyref(f,n): c=1 o=f() while c < n: o.next() c += 1 return o.next() def fib_lazy(n): return _lazyref(_fib_lazy,n) Ruecksprache mit einem Nexenta developer gehalten, er bastelt ein beispielsetup, wir auch. Kwalitaetssoftware wohin man blickt: auf linux-2.6.38-12 verschwindet der rpc_pipefs mount ohne irgendeine Fehlermeldung, darauf versagt rpc.idmapd mit fehlermeldungen, und alle Dateien in NFS4 mounts gehoeren ploetzlich nobody:nogroup. Hat ein bisschen gedauert, bis ich das gefunden hab... [/bauerm] permanent link Wed, 19 Sep 2012 Webgefrickel fuer Herrn Lembcke. Stellt sich raus, dass man mit der "Page" Option im Typo3 keine Links auf .html Dateien im /fileadmin-Baum setzen kann, also werden das immer "externe" Links auf www.math.fau.de. Mitarbeiter schicken sich gegenseitig Word Dokumente, die eine mit Word, die andere mit Libreoffice. Effekt: Tabellenspalten verkuemmern, lichten sich, verschwinden. Anscheinend ein bekanntes Problem. Momentaner Workaround: beide schicken in .rtf Format, in der Annahme, dass bei weniger komplexen Formaten auch weniger schief gehen kann. Nexenta weiter mit Bugreports belaestigt. Angefangen, Python zu lernen [/bauerm] permanent link Tue, 18 Sep 2012 Argl. nachdem die neubau-* maschinen ja nie rebootet werden und wir die nicht neu installiert haben, laufen durch die kernel-updates die root-Partitionen voll. Und der 2.6.38-16 kernel macht irgendwas brutal falsch. Also per puppet den 16er deinstalliert und den cronjob zum kernel-aufraeumen auf allen Maschinen, nicht nur cip-Pool, installiert. mal schaun... Weiteres postgresql performace tuning: Nachdem die Last staendig ueber 5 lag, mal in der postgresql.conf rumgeschaut und den commit_delay auf 100000 gesetzt. Wenn ich das richtig verstehe, erlaubt das der DB, Schreibvorgaenge zu buendeln, was dann weniger IO macht. Scheint zu helfen, die Last ist jetzt immer kleiner als 5 und das System reagiert schneller... Florian hat ein IPMI Template im Zabbix eingerichtet, mit monitor als erste Maschine. Bis jetzt keine Messwerte... [/bauerm] permanent link Mon, 17 Sep 2012 Nach einem Reboot von nextwo haben nexone und nextwo fleissig ueber 250 Emails verschickt, mit der Meldung, dass der jeweils andere tot ist, was sie ueber die Disk-Probes rausgefunden haben. Strange. [/bauerm] permanent link Fri, 14 Sep 2012 Die letzten drei Tage standen im Schatten der Puppet-Tree Aenderungen. Wir hatten extra die ziusudra-puppet.conf und das ssl subdir auf ziusudra aus der Versionskontrolle entfernt, damit wir fuer beide puppet-server denselben Tree benutzen koennen. Die Folge war aber, dass auf der ziusudra Dateien entfernt wurden, bzw mit spaeteren Varianten vom management ueberschrieben. Nuetzliche Kommandos zum Debuggen: openssl x509 -text < fragliches.cert.pem (hier ist interessant ob 1. der hostname richtig ist 2. das Begin/End Datum passt 3. der key CA spielen darf oder nicht ) openssl verify -CAfile /pfad/zum/ca.pem fragliches.cert.pem openssl s_client -CAfile /pfad/zum/ca.pem -cert /pfad/zum/host/key \ -key /pfad/zum/key.pem -connect server:8140 [/bauerm] permanent link Wed, 12 Sep 2012 Der Merge der zwei puppet Baeume war nicht ganz folgenlos: in manifests/site.pp war noch der fileserver als management eingetragen, was fuer die Maschinen mit Certs von der ziusudra tragisch war: 1. puppet.conf von ziusudra ziehen 2. merken, dass sich was geaendert hat 3. versuchen, die alte Version auf den fileserver zu laden, 5. klappt nicht, trotzdem puppet restarten 6. Weiter bei 1 Dementsprechend hoch war der Traffic auf dem Puppet server... Heut nacht gegen drei wars dann fertig debuggt und repariert. ILO3 Schnittstellen auf den Servern konfiguriert. Da gibts aber noch mehr zu tun... Eine offene Frage ist, ob man User anlegen kann, die ausschliesslich einen read-only Zugriff ueber IPMI auf die Sensoren haben; das waere fuer automatische Abfragen zu Stromverbrauch, Netzteilzustand, Chassistemperatur etc die sinnvolle loesung. Auf vielfachen Wunsch hin haben Herr Hild und ich die automatischen Tuerschliesser von Druckerraum und Damentoilette so umgestellt, dass man nicht mehr fuerchten muss, dass einem die Hand abgehackt wird, wenn die Tuer zufaellt. [/bauerm] permanent link Tue, 11 Sep 2012 Kwalitaetssoftware: /etc/init.d/puppetmaster restart geht nicht, weil er /var/run/pupppetmaster.pid nicht schreiben kann, aber hat trotzdem exit status 0 und meldet "Done" Wenn der puppetmaster sein /etc/puppet/puppet.conf oder /etc/puppet/auth.conf nicht lesen kann, weil die z.b. nicht puppet gehoeren, dann stirbt er nicht, sondern benutzt default-Settings, was latuernich total zufaellige Ergebnisse liefern kann. Mit Bjoern die Mercurial-Aeste von ziusudra und dem neuen Management-Server zusammengefuehrt. Seiteneffekt davon ist, dass einige eher experimentelle Features auf den cip-Pool Rechnern landen... Wegen dem Gaeste-Wavelan fuer den Workshop diese Woche war noch etwas Ruecksprache mit dem RRZE noetig. Die Server ILO-Ports sind jetzt in einem eigenen Netz. [/bauerm] permanent link Mon, 10 Sep 2012 Testserver ist jetzt management-Server. Neue Puppetinkarnation mit dashboard laeuft da, spaeter soll auch der Installserver dahin wandern. Erstmal muss aber der Upgrade auf quantal oder precise funktioniert haben. Martin hat eine neue Matlab Version installiert, lief mit relativ wenigen Problemen. [/bauerm] permanent link Fri, 07 Sep 2012 Das Automatisierte Anlegen von Klausurusern mit vorgebenen HOMEs ist jetzt ueber auto-generierte Debian-Pakete implementiert, die man dann per puppet auf den PC Pools installieren kann. [/bauerm] permanent link Wed, 05 Sep 2012 Mal schnell das facter um die Faehigkeit erweitert, jede Sorte von benamster Information, die von dmidecode aus dem BIOS gelesen werden kann, auch als Fact(TM) darzustellen. Damit koennen wir u.a. die BIOS Versionen und die Seriennummern auslesen, ohne an die Hardware zu muessen. Mit Bjoern diskutiert, wie eine wahrlich zentrale Administration funktionieren koennte. Zu diesem Zweck den Testserver auf management umbenannt und begonnen, mit puppet-dashboard zu spielen. Die Testnetz-Maschinen werden jetzt von dort aus verwaltet. Interessantes Problem bleibt die Kommunikation zwischen den Komponenten Inventarsystem Puppetmaster Installserver Authserver Monitoring gemessener vs. erwareter Werte Das Anlegen von Usern fuer Onlineklausuren durch ein Shellskript weitgehend automatisiert. Was noch fehlt, ist das automatische Anlegen und Auffuellen der HOMEs. Florian hat rausgekriegt, wie man das Adobe Readerplugin automatisch entfernen kann und statt dessen z.B. ocular als default Reader definieren kann. Und hat auch gleich ein puppet Module dazu gebaut. [/bauerm] permanent link Tue, 04 Sep 2012 Puppet Erkenntnisse bei Execs: logoutput => true, macht den Output im Log sichtbar refreshonly => true fuehrt das Exec nur aus, wenn es von woanders mit notify => Exec['dernamedesExecs'] angeschubst wird. Das VACUUM FULL von PostgreSQL auf unseren zabbix Daten braucht mehr als 24 Stunden. Der Florian baut jetzt die klassische MySQL Wuergaround-Loesung, bei der mit dump/restore nur die lebendigen Daten als komprimiertes ASCII Datei weggesichert und in einem neuen DB-file restauriert werden. Das alte kommt dann auf den Muell. [/bauerm] permanent link Thu, 30 Aug 2012 30.08.2012, Simon hat das Tuerschild in tex gebaut. Ist nun im Infocenter auf der Homepage verfuegbar. Micha braucht dringend Daten von dem alten AM Server. Aus dem Keller geholt und das Raid und den Server verkabelt. Nach einigen Ver- suchen hatten wir Zugriff auf das externe Raid und haben ca. 7GB Daten geholt. Es wurden alle iLO an den Servern eingerichtet und getestet. Nicht ganz trivial weil die Schnittstellen ueber XML konfiguriert werden (es galt ein Reboot zu vermeiden). Unter Ubuntu beoetigt man diverse HP Software die das konfigurieren der iLO vom BS aus erlaubt. Simon hat eine Anleitung verfasst :) Auf dem Monitor wurde die iLO auf 1.28 geupdatet. [/bayer] permanent link Thu, 23 Aug 2012 Der Allgemeine Technische Dienst sieht unsere Klimaanlagen nicht! D.h. wenn im Serverraum im Keller Wasser austritt, dann pfeift die Klimaanlage, wir hoerens aber nicht, und wenn das Wasser die Racks erreicht, merkens alle im Haus :( Beim Bauamt gemeldet, mal schaun, wann das korrigiert wird. [/bauerm] permanent link Tue, 21 Aug 2012 21.08.2012, Das RRZE hat sich heute wegen den Zeiterfassungskonten gemeldet. Es funktioniert jetzt alles wieder und die Mitarbeiter koennen sich einloggen. Wir haben unseren Lagerraum aufgeraeumt. Es waren noch Unmengen von Umzugskisten im Lagerraum. Es wurde gleich eine "kleine" Inventarliste angefertigt. Printer-83 aus den FAQ des Webauftrittes entfernt. [/bayer] permanent link Mon, 20 Aug 2012 20.08.2012, Der Lexmark-Drucker X463 einer Sekretaerin hat keine Lust Duplex zu Drucken. Monteur von der Firma Frasch hat ihn gleich zerlegt ... jetzt geht er wieder !!?? Es wird trotzdem ein neuer Duplex-Sensor in den naechsten Tagen eingebaut. Das RRZE hat ihre Zeiterfassungssoftware upgedatet. Bei manchen ist ein Login moeglich bei manchen nicht. Mail an das RRZE geschrieben mit der Bitte die betreffenden Accounts zu ueberpruefen. Das Sonnenrollo in meinem Zimmer wird heute instandgesetzt. Dies war ohne Funktion seit dem Einzug :( [/bayer] permanent link Fri, 17 Aug 2012 17.08.2012, Wir haben heute Morgen unseren Lexmark-Drucker getestet. Leider ohne Erfolg - er nimmt sich nicht die IP-Adresse vom DHCP-Server. RRZE darueber Infomiert das die Umstellung am Switch nichts gebracht hat. Wir haben den Drucker nun wieder auf seine IP festgenagelt. [/bayer] permanent link Thu, 16 Aug 2012 16.08.2012, Ersten CIP-Rechner ins Testnetz aufgenommen und mit 12.04 installiert. Alle Programme (Matlab usw.) laufen, und die CIP-Drucker sind auch ansprechbar. Klimaanlage im Serverraum AM2 in Betrieb genommen - Der Umzug steht bevor. Heute wird die Netzanbindung im Serverraum AM2 durch das RRZE gepatcht. AM2 braucht keinen Switch, da RJ45 und LWL direkt am Panel in ausreichender Menge verfuegbar sind. Es stellte sich nach einem Gespraech mit der Netzabteilung des RRZE heraus, das in den Bueros keine Switche an den Dosen installiert werden duerfen. Die RRZE-Switche sind so konfiguriert das Dosen an denen ein Switch angeschlossen ist gedrosselt bzw. abgeschaltet werden. Desweiteren ist die Aussage, wenn wir Probleme mit der Zuteilung von DHCP-Adressen haben, an den RRZE-Switchen, das "Spanning Tree Protocol" geaendert werden muss. Es wurde zu Tests an einer Dose abgeaendert ... wir werden Testen. [/bayer] permanent link Wed, 15 Aug 2012 15.08.2012, Alle Lexmark-Drucker X463 und X464 mit neuer Firmware versorgt. X734 wurde auch mit neuer Firmware bestueckt. Wir haben bei unseren HP-Servern die iLO Schnittstellen verkabelt. Es muessen nun die iLO's noch konfiguriert werden - Vorstellung ist: Alle iLO's auf einem Switch in einem eigenen Netz. Den 3ten Rechner fuer Wigand eingerichtet. [/bayer] permanent link Tue, 14 Aug 2012 14.08.2012, Wigand hat gestern mit dem neuen Install-Script 2 Rechner installiert - funktioniert. Fuer AM2 haben wir fehlende Homes auf dem Fileserver erstellt. Die Lexmark-Drucker X463 brauchen ein Firmwareupdate auf P631. CIP-Pools sind upgedatet - Drucker im Haus -> in Arbeit. [/bayer] permanent link Fri, 10 Aug 2012 10.08.2012, Nach diversen Versuchen, wird svn ohne WebSVN installiert. WebSVN hat sich als nicht praktikabel erwiesen. Bjoern hat eine neue Installation aufgesetzt die eine vorhandene Windowsinstallation in Ruhe laesst, und dazu Ubuntu 12.04 installiert. Allerdings muss nach der Installation von Ubuntu der Windows-Bootloader gefixt werden. Nach dem Versuch unseren Lagerraum zu betreten, mussten wir feststellen das der "Schluessel" nicht mehr passt. Leitwarte eingeschaltet - unser "Schluessel" wurde neu eingelesen - Zugang wieder moeglich. [/bayer] permanent link Thu, 09 Aug 2012 09.08.2012, Roundcube wurde parallel auf 0.80 geupdatet, es muss jetzt getestet werden. Techniker von Firma Frasch war da und hat eine Lexmark-Drucker wiederbelebt. Bjoern hat jetzt einen Stand von 12.04, den wir nochmal testen muessen. [/bayer] permanent link Mon, 06 Aug 2012 06.08.2012, Auf dem Testserver ein Subversion Repositorie installiert. Wigand will seinen Repo-Server abschalten, und zu uns umziehen ... er kann jetzt mal Testen. Nvidia flickt seine Treiber: http://nvidia.custhelp.com/app/answers/detail/a_id/3140 [/bayer] permanent link Thu, 02 Aug 2012 02.08.2012, Gestern wurde uns die "High Performance Workstation Celsius R920" geliefert. Nach diversen Tests stellt sich heraus, das nur ein bestimmter Nvidia-Treiber die verbaute Quadro 2000 unterstuetzt. Auf meinem Rechner zu Testzwecken Ubuntu 12.04 installiert. Firma Frasch hat sich gemeldet: der Industry-sized "Abteilungsdrucker" schmiert genau so ab wie unser X463. Herr Frasch teilte mir mit das die Informatik einen W850dn hat. Getestet schmiert auch ab ... aliases.mi Liste angefangen auszumisten. [/bayer] permanent link Wed, 01 Aug 2012 Stellt sich raus, dass man fuer Lexmark E360 ganz anderen Toner braucht als fuer Lexmark X363. Duh. Die Lebenszeit einer Lexmark "PC unit" (Fixiereinheit) ist ein extrem kleines Vielfaches der Lebenszeit einer Tonerkassette. D.h. nicht nur der Preis des Toners pro Seite ist relevant, sondern auch der dieses Verschleissteils. Angefangen, Gruppen-IDs aus der Bismarckstrassenzeit geradezuziehen. [/bauerm] permanent link Tue, 31 Jul 2012 Ein Mitarbeiter hat sich von einer Phishing-mail verleiten lassen, Passwort und Accountname an Spammer herauszuruecken, so gegen 10:00. Kurz darauf begannen zwei IPs aus Lagos, ueber unseren Webmailer an Tausende von (alphabetisch sortierten) Adressen Muell zu mailen. An der mailqueue Laenge war das nicht zu bemerken, da die Angreifer wenige mails mit Tausenden von Adressen im To: Feld verschickt haben. Herr Marquardt vom RRZE hat uns auf die auffaellige Verbindungsmenge an verschiedenste Server auf der Welt hingewiesen und wir konnten innerhalb relativ kurzer Zeit die Flut daemmen, die Ursache finden und den Account sperren. Die Firma Frasch stellt uns einen Industry-sized "Abteilungsdrucker" von Lexmark zum Testen zur Verfuegung, weil es qua Rahmenvertrag wesentlich guenstiger waere, diesen in den CIP Pool zu stellen, als einen vergleichbaren HP (fuer den wir wohl eine Ausnahmegenehmigung bekommen wuerden). Ist natuerlich nur dann interessant, wenn der nicht auch an Adobe-Output stirbt. Das NFSv4 in Ubuntu-Linux ist so kaputt, dass wir das nicht benutzen koennen. Mal mit Nexenta reden. [/bauerm] permanent link Mon, 30 Jul 2012 Stresstest von Ubuntu precise hat begonnen, erste Bugs/Unvertraeglichkeiten tauchen auf. Das Ubuntu precise hat einen std-kernel mit einem ekligen BUG im NFSv4: NFS: nfs4_reclaim_open_state: Lock reclaim failed! Subber! Genau das, was man fuer ein Upgrade haben moechte. Scheint dieser hier zu sein: https://bugs.launchpad.net/ubuntu/+source/linux/+bug/974664 In Ubuntu quantal gibts einen Kernel, der den betroffenen Prozess dann nicht killt, sondern nur den Fehler loggt, aber der Fehler ist noch da. [/bauerm] permanent link Thu, 26 Jul 2012 Die Serverraeume von AM[123] sind wohl ausreichend direkt verkabelt (an einen switch vom RRZE in einem Raum, den die Schliesstechnik erstmal gegen das RRZE gesichert hat), so dass Maschinen nach Absprache ohne einen dazwischenstehenden Switch angeschlossen werden koennen. Mails eines Mitarbeiters aus dem Mailbackup gerettet Linux hat keine update-Option fuer mount, so dass mount options nur durch umount/mount-mit-neuen-optionen geaendert werden koennen. Das fuehrt dazu, dass man i.A. nur dann mount-options aendern kann, wenn keine User eingeloggt sind. Saubloed. Aktueller Fall ist die noacl Mount option, damit das GNU 'cp -p' funktioniert, weil sonst die Makefiles von zahlreichen Tools stehenbleiben. [/bauerm] permanent link Wed, 25 Jul 2012 Stellt sich raus, dass beide Nexenta Heads teilweise verklebte Lueftungsschlitze am Gehaeuse hatten. Gefixt. Serverraum ist inventarisiert. Mit dem Testserver koennte man mehr anstellen... CIP Pool und Grossteil der Drucker ist inventarisiert. [/bauerm] permanent link Mon, 23 Jul 2012 Mit der gesamt-Inventarisierung begonnen. Nicht ganz trivial... Mehrere SQL/awk Skripten gebastelt, die den PCs Seriennummern (von Frasch) nach MAC-adressen zuteilen, bzw diejenigen raussuchen, die keine Inventarnummer haben, obwohl sie sollten Das Inventar Python-Skript und die DB erweitert, so dass auch Seriennummern reinpassen. Stellt sich raus, dass Google Chromium keine Konfig-Files fuer die Application-Handler hat. Er ruft statt dessen xdg-open mit dem Dateiname/URL. Wie jedoch xdg-open konfiguriert wird, ist noch rauszufinden.. "Every problem in computer science can be solved by introducing indirection, except the problem of too much indirections" [/bauerm] permanent link Fri, 20 Jul 2012 Endlich, endlich, eine Liste aller "Kunst am Bau" im Suedgelaende: http://www.seniorennetz-erlangen.de/ErlangenVirtuell/hedayati/kunst/kunst03.html [/bauerm] permanent link Thu, 19 Jul 2012 Jowza! Shutdown per cronjob funktioniert, und die Linux Manpage zu shutdown ist defekt (wie haette es anders sein koennen?), da steht die shutdown-message als optional drin, ist sie aber nicht. Powersave Module vereinfacht und fuer cip-pool 2 in betrieb genommen. morgen mal nachschaun. Dem Departments-Voltmeter eine neue Batterie spendiert Die Serverraeume von AM[123] sind zwar verkabelt, aber es wurden keine Switches eingeplant. Verhandlungen ueber Recycling alter 3com Gigabit Switches laufen jetzt mit dem RRZE Netzteam Das "Photo Transfer Kit" in zwei PC Pool Drucker ist hinueber, Ersatz eingebaut und neuen bestellt. [/bauerm] permanent link Tue, 17 Jul 2012 Gelernt: in vi kann man eine Datei mit owner root, mode=644 schreiben, in dem man mit :w ! sudo tee % abspeichert. Heissa! Im Serverraum sind jetzt die AV ("AusVall") Leisten zu USV Leisten ummontiert worden. Ist jetzt zwar unsymmetrisch zwischen SV (Dieselgenerator dahinter) und USV, so dass vielleicht ein paar Maschinen nach dem Ableben der USV gar keinen Strom mehr haben, aber das koennen wir noch geschickt steckern. Puppet Dashboard koennte interessant sein. [/bauerm] permanent link Mon, 16 Jul 2012 Einen wireless Accesspoint fuer Herrn Fiebig getestet Die ersten Inventarnummern kommen rein, heute norton und sultana belabelt Herr Schmid hat ein paar Tips zu RRZE-nahen Gremien gegeben. Nochmal wegen einer Kostenstellenanordnungsverfuegungsnummer bei der ZUV nachgefragt. Im puppet rumgeraeumt. Das Ubuntu/Debian macht es zum Teil unmoeglich, rauszukriegen, ob ein service (i.e. ein init-skript) installiert ist, weil deren 'invoke-rc.d' undefinierte Werte liefert. [/bauerm] permanent link Tue, 10 Jul 2012 Im RRZE klargestellt, dass das 131.188.102.0/24 noch unter Kontrolle von Alex steht Evan Powell von Nexenta war da, um zu hoeren, was ich an NexentaStor gut oder schlecht finde. Ergebnis ist hoffentlich, dass - sich das devteam um NFSsec kuemmert - die ReDuplikation von LDAP Daten innerhalb vom HA Paar geklaert wird - die Diagnosedaten von Coraid shelves besser integriert werden - wir einen direkteren Draht zu Entwicklern kriegen Noch ein HP Printer verstorben Es gibt ein NexentaOS "plugin" fuer virtuelle iscsi-tapes: http://www.nexentastor.org/projects/vtape/repository/revisions/0/entry/nexenta-vtape/ genau sowas hab ich fuer Backups gesucht, das kann man schoen mit z.b. bacula verheiraten und dann sowohl auf tapes alsauch auf schnelle (und grosse) Platten schreiben. Wenn eine 3TB Platte 100 Euro kostet, ist das ein guter deal. Nur noch Hardware dafuer auftreiben. Weiter im Bugtracker aufgeraeumt [/bauerm] permanent link Mon, 09 Jul 2012 Die "erweiterte Unileitung" ist auf die verblueffende Idee gekommen, dass man alle Mailadressen, von Mitarbeitern und allen Studenten, welche die uni jemals haben wird, alle am RRZE unter der domain fau.de, ohne subdomains(!), halten koennte. Das ist aus so vielen Gruenden Unfug, dass ich gleich mit dem RRZE konferieren musste, und die finden das interessanterweise auch nicht toll. Ohne das permanente Allmachtstreben waere es aber auch unmoeglich gewesen, diese Forderung ueberhaupt zu stellen. Auswirkung waere, dass alle, inklusive der Profs, ihre jetztige Mailadresse nicht mehr als Absender benutzen koennen, was alle Eintraege auf Webseiten, Papers, Visitenkarten wertlos machen wuerde. Zusaetzlich waere die Mail dann ausschliesslich in den Haenden des RRZE, und was bei denen so laeuft, haben wir beim Stromausfall und bei dem DNS Server Desaster mitgekriegt. Die Unileitung sollte sich IMHO vom Gedanken verabschieden, dass das RRZE ein ISP mit 24/7 Support, redundanter Netzanbindung und ausreichendem Etat waere, ist es nicht, wird es nie werden. [/bauerm] permanent link Fri, 06 Jul 2012 Der export des RAIDs von norton zu einer virtuellen Maschine war als /volume *.ein.domain(rw) 11.22.33.44(rw) (fuer passende werte) dringestanden, nfs mag aber keine ips ohne prefixlen, und desterwegen kann das nie funktioniert haben. seltsam... [/bauerm] permanent link Thu, 05 Jul 2012 05.07.2012, Heute haben wir unseren neuen CISCO-Switch in Betrieb genommen. Das ganze war nicht ganz trivial, da die LACP config nachgebaut, und eine VLAN fuer den Heartbeat eingerichtet werden musste. Wir haben dann im laufenden Betrieb den Switch getauscht, was dank redundanter Anbindung ohne Downtime geklappt hat. Dadurch haben wir jetzt einen intenen Uplink von 20 GBit, und 2 Netzteile (USV und Diesel-Netz). Lexmark hat mal wieder ein neues Firmware-Update rausgebracht ... installiert, getestet, schmiert immer noch ab. Zugang auf unseren 3com-Switch ist wieder gegeben ... :) [/bayer] permanent link Wed, 04 Jul 2012 04.07.2012, Auf das am2home wurde heute der Snapshot aktiviert. Es werden jetzt stuendlich und taegliche Snapshots erstellt. Wenn man nun mit einem Windows-Client mit der rechten Maustaste "Eigenschaften" waehlt, dann in den Reiter "Vorgaengerversionen" wechselt, kann man die Snapshots verwenden wenn benoetigt. [/bayer] permanent link Tue, 03 Jul 2012 Die Maenner von MIK haben unsere Server fuer Klinik-Patienten freigeschaltet. Stellt sich raus, dass die sieve-Regeln fuer dovecot nicht etwa /var/mail/$user/sieve/roundup.sieve heissen, sondern /var/mail/$user/.dovecot.sieve Angefangen, ein global verteiltes sshd_config, mit dem auch Kerberos Authentication moeglich ist. neubau-195 spielt Wachauf-Maennchen fuer alle Linux-Maschinen ausser CIP Pool Martin hat hingezaubert, dass AM2 Windows Maschinen/User ihre HOMEs von der Nexenta per CIFS holen koennen, Wigand kopiert jetzt lokale HOMEs auf den Fileserver. Martin hat mit Wigand ein Skript geschrieben, das beim Login jedes Users HOME automagisch mountet (als U:). am3share und am2home sind jetzt im Backup. [/bauerm] permanent link Mon, 02 Jul 2012 02.07.2012, Es wurde heute der erste CIP-Rechner erfolgreich in die fauad gejoint. Nur das Problem dass jetzt Auftritt ist, das die User eine andere UID bekommen. Ganz schlecht weil die User/Studenten kommen so nicht mehr auf ihr Home. [/bayer] permanent link Fri, 29 Jun 2012 29.06.2012, Wir haben gruenes Licht vom RRZE. Sie haben uns in die fauad.fau.de aufgenommen. Das beudeutet dass die Rechner jetzt Alles wieder ueber einen Server bekommen (User und Rechner Account). Wir haben erfolgreich unseren File-Server an die AD-Domain fauad.fau.de gejoint. Es wurde gleich ein Share fuer die AM2 angelegt und Rechte verteilt - :) Die koennen nun auch, nach dem Umzug ihrer Rechner in die fauad, mit Ihren Windows-Rechnern unseren File-Server benutzen. Da wir jetzt die frauad nutzten koennen und der alte Server uedc1 irgendwann abgeschaltet wird, muessen wir alle CIP-Rechner in die fauad eintragen und die smb.conf anpassen, so dass ein Join in die fauad moeglich wird. [/bayer] permanent link Martin hats fertig gebracht, den Fileserver mit dem RRZE ActiveDirectory Serivce zu verbinden, so dass wir jetzt anfangen koennen, Windows-Maschinen HOMEs auf dem Fileserver zu geben. Wichtig auch fuer AM2. Stellt sich raus, dass unser Netz fuer Klinikpatienten _verboten_ ist. Versucht, darauf Einfluss zu nehmen, leider ist der Verantwortliche nicht erreichbar. Im Roundup etwas aufgeraeumt Es war latuernich Unfug, erst ein /etc/apt/trusted.gpg per puppet auszuliefern, und dann per puppet mit apt-key einen key hinzuzufuegen, weil beim naechsten Durchlauf dann das trusted.gpg eine andere Checksum hat, und vom puppet wieder ueberbuegelt wird... Es scheint als ob man aus einem cronjob auf gar keinen Fall ein Linux runterfahren kann, egal welche shutdown/halt/poweroff Kommandos man benutzt... [/bauerm] permanent link Thu, 28 Jun 2012 28.06.2012, Gestern wurden von uns 2 (high-performance) Scanner auf einem Windows-Rechner installiert. Da mit diesen Scannern Umfrage-Auswertungen gescannt werden sollen, wurde noch ein Programm namens EvaSys installiert. Funktion war soweit gegeben, bis auf das Upload auf den Server. Nach Recherchen des Users wurde dann heute Passwoerter nachgetragen - damit klappt dann auch der Upload. Nach diversen Versuchen meinerseits unseren File-Server fuer die Nutzung der Windows-Kisten von AM2 brauchbar zu machen (Samba, AD Join usw.) habe ich (nach ein paar Mails) diverse Gespraeche mit dem RRZE gefuehrt. Es stellte sich heraus, dass noch mehr Leute (nicht nur wir) Probleme haben, sich ans AD zu Joinen. Das Windows-Team vom RRZE wird den "Forest" aufloesen und wieder zu einer "normalen" Domain-Struktur zurueck switchen !!! Wenn wir gruenes Licht vom RRZE bekommen besteht auch die Moeglichkeit die CIP-Maschinen auf die fauad.fau.de umzustellen. [/bayer] permanent link Folgendes lustige SQL Statement liefert alle Rechner aus der InventarDB, bei denen die Macaddressen definitiv nicht stimmen: select rechnername from rechner, mac_adresse where length(mac_adresse) < 17 and rechner.id = rechner_id; Inventardatenbank weiter auf Konsistenz geprueft. Einer der cip Rechner arbeitet jetzt als Wach-auf-Posten fuer alle anderen und schickt wake-on-lan packete an alle MACs (die in puppet/modules/powersave/manifests/wakeywakey definiert sind). Traeume werden wahr! Bjoern und Nikos habens hingekriegt, auf Ubuntu 12.04 das Departmentslogo auf die Login-Screens zu zaubern. [/bauerm] permanent link Tue, 26 Jun 2012 Den 3com Switch zum Fileserver wollen wir austauschen, weil er nur ein Netzteil hat. Dazu haben wir einen dicken Cisco Switch besorgt und wollten jetzt die Konfig aus dem 3com auslesen. Dazu Schritt 1: Ein Passwort fuer Admin setzen und SSH einschalten, damit man von aussen draufkommt. Das haben wir per serieller Konsole, und dann WebGUI auch gemacht. Nur dass 1. Das Passwort Setzen in WebGUI und Konsole nur bewirkt, dass man nur noch auf der Konsole als admin reinkommt 2. Enable SSH nicht heisst, dass man per SSH draufkommt, weil die Trottel von 3com nicht automatisch einen SSH Hostkey erzeugen, wenn man das einstellt. D.h. man haette ueber Security->Certificates->new->RSA ein SSH Zert erstellen muessen. Mal schaun, wie wir wieder auf die Kiste kommen. BUGSBUGSBUGS Frau Hilbig hat zwei! Scanner ins Bureaux gekriegt. Es gibt die Anregung, die PC Pools morgens automatisch zu entriegeln, wie in der Informatik, so dass die Studis nicht mehr Stuehle und Muelleimer in die Tuer stellen muessen. [/bauerm] permanent link Fri, 22 Jun 2012 Nach Beratung mit dem HPC Team faellt auf, dass die NetXen Probleme seit dem Firmware Update wohl hauptsaechlich vom Userspace erzeugt wurden, netperf zeigt z.b. maximalen Durchsatz. [/bauerm] permanent link Thu, 21 Jun 2012 Nach Telefonaten mit Bechtle und HP herausgefunden, dass sich HP keineswegs fuer den nx_nic Treiber verantwortlich fuehlt, und nach eigener Aussage "keinen Finger krumm" machen wuerde, um uns da zu helfen, es sei denn, wir bezahlen einen Linux-Software-Support Vertrag. Daher Tip von Bechtle, die uns die Server verkauft haben, die QLogic/NetXen Karten stillzulegen und eine Intel Quadport reinzustopfen. Die AM3 Maschinen sind jetzt im Zabbix. Auf neubau-103 laufen zwei imap-Prozesse pro User, der/die da seine/ihre Mailbox beobachtet. Momentan mehr als 400 Prozesse, was das Zabbix durcheinanderbringt. [/bauerm] permanent link Wed, 20 Jun 2012 20.06.2012, Verschiedene Tests ergaben das Sultana und Norton (sind fast Baugleich) (HP DL585 G7) auf 53.8MB/s beim kopieren per scp kommen. Ist nicht besonders toll, aber nichts im Vergleich zu 10 min. fuer 50 MB. [/bayer] permanent link Tue, 19 Jun 2012 Fast alle Maschinen hatten die AM3 NFS Mounts eingetragen (obwohl sie die nicht benutzen konnten), wieder entfernt. Nexenta angefragt, wies ausschaut mit NFSsec. Wir signieren jetzt unsere lokalen Ubuntu Repos, damit ubuntu 12.04 von da installieren kann. testnetz um eine ubuntu 12.04 maschine erweitert Die ziusudra hing mit zwei Kabeln in einem Ausfallstromnetz, daher der reboot, die Netzteile sind ok. Das Skript zum entfernen unbenutzter, alter Linux images aus dem root-filesystem getestet. tut, und wird bald die cip maschinen freischaufeln. [/bauerm] permanent link Mon, 18 Jun 2012 18.06.2012, Stromausfall von Freitag auf Samstag ! WTF !!! 1 Server hat die Stunde !! (1 STUNDE !!!) Stromausfall nicht ueberlebt. Samstag frueh -> ziusudra durchgebootet ... ist wieder am Leben. Das Buero 330 war Leider auch komplett Stromlos am Samstag morgen -> Leitwarte angerufen evtl. Sicherung drausen ... Heute morgen noch diverse Nachwehen des Stromausfalls behoben ... Sultana und Norton wurden mit der aktuellen BIOS-DVD von HP geupdatet (HP SSP 2012.06.0). Die Netzwerkkarten-BIOS der beiden Server haben jetzt 4.0.585 statt 4.0.555 - hoffentlich hilfts. -> hat nicht geholfen ... nach ein paar Tests stellt sich heraus: Sultana humpelt immer noch ... hat Schluckauf ... und Grippe hat sie auch noch :) [/bayer] permanent link Der Stromausfall hat unsere Server nicht beeintraechtigt, bis auf die Ziusudra, die wohl ein defektes Netzteil hat. Schlecht. Weiter am Energiespar-Modul gebaut. Der FAInstaller installiert jetzt Ubuntu 12.04 und wir haben den mirror und die meisten Konfig-Files im puppet dafuer angepasst. Stellt sich raus, dass aufgrund unklarer Ursachen der cronjob mit dem apt-get dist-upgrade nie ein update-grub/grub-install ausfuehrt. Per puppet nachgeliefert. Aufbauend darauf angefangen, einen cronjob zu basteln, der immer nur die zwei aktuellsten kernels aus dem grub/menu.lst und den grade laufenden als package installiert laesst. Sollte uns aus dem "root voll" Problem helfen. Stellt sich raus, dass HP fuer ihr DL585G7 einen speziellen Netzkartentreiber empfehlen, den nx_nic (nicht zu verwechseln mit dem netxen_nic). Nachteil: 1. Das ist ein Redhat src-rpm 2. Das Kernelmodul da drin kompiliert nicht mit auch nur entfernt aktuellen Kernel Versionen Eine Stunde lang an den sourcen gefrickelt, bis das Modul kompiliert hat, in dem sind jetzt aber bestimmte Funktionen zu Multicast auskommentiert (weil grad da die Linuxler ihre kernel-internen structs umgebaut haben, und ich grad nicht sehe, welche Typen sie neuerdings verwenden...). D.h. das wird nur rudimentaer funktionieren. Mal ein ernstes Woertchen mit HP reden. [/bauerm] permanent link Fri, 15 Jun 2012 15.06.2012, Die neuen Schloesser wurden in die Serverraeume eingebaut. Extra Zugangschip bekommen - nur 2 erstmal fuers ganze Haus ??!! Bei 2 Rechner im CIP die gestern besetzt waren das BIOS geaendert. Sultana macht immer noch mukken - Laut HP: HP ProLiant and HP StorageWorks Systems: HP NC375i, NC375T, NC522SFP, NC523SFP, CN1000Q Network Adapters - FIRMWARE UPGRADE REQUIRED [/bayer] permanent link Thu, 14 Jun 2012 14.06.2012, WOL heute nochmal auf ein paar CIP-Rechnern getestet nachdem wir das BIOS umgestellt haben - funzt. Bei 99 Rechnern nun das BIOS geaendert ... bei 5 ist das Passwort falsch @#*%$# der Rest war besetzt. Muessen nun die Rechner aufschrauben und per Jumper das BIOS zuruecksetzen &*%$%@. Fail2Ban funzt net sauber - conf geaendert und per puppet ausgerollt. [/bayer] permanent link Angeregt von https://www.maths.ox.ac.uk/notices/it/green-it/technical-implementation angefangen, per puppet einen Runterfahr- und Wieder-aufwach-Maschinierie fuer CIP Pool Maschinen zu basteln. [/bauerm] permanent link Wed, 13 Jun 2012 13.06.2012, Wake on LAN getestet ... Es muss erstmal im BIOS unter "Power" alles auf ACPI (??) gestellt werden. Es wurde dann auf allen CIP-Maschinen das Paket "wakeonlan" installiert. Jetzt mit wakeonlan xx:xx:xx:xx:xx:xx von einem anderen CIP-Rechner den Rechner wieder nach einem shutdown aufwecken - funzt :) [/bayer] permanent link Tue, 12 Jun 2012 12.06.2012, bay Firefox legt den Cache in den Userhomes an ... soooo gross wie er auch immer will. Schlecht da User teilweise mehr als 2GB Cache in Ihrem User-Home haben. Folgende Eintraege in /etc/firefox/syspref.js ergaenzt: lockPref("browser.cache.disk.smart_size.enabled", false); lockPref("browser.cache.disk.capacity", 524288); Rueckmeldung von Lexmark wegen Segfault: Unter CUPS 1.6 und Acroread 10.1.3 tritt der Fehler nicht auf ... *WTF* Unter Ubuntu-Linux gibt es noch kein Paket Acroreader 10.1.3. Aktuell Version von www.acrobat ... ist 9.5.1 ???? [/bayer] permanent link Lexmark bestaetigt, dass nur ein Adobe Reader Update auf 10.xxxx was verbessert, und dass sie das nicht als ihr Problem sehen. Den 10.xxx gibts nicht fuer Linux. Daraus koennen wir nur folgern, dass wir den Adobe Reader und insbesondere das verfluchte Firefox Plugin de-installieren muessen. Wir sind drueber. Maple Lizenzen fuer Studenten sind angekommen! Das puppet kapiert nicht, dass es fuer zabbix-agent und fail2ban schon init-skripten gibt, und meldet, dass die nicht "enabled" waere. Diverse Versuche unternommen, ihm das auszutreiben. Singular (Gruppentheoriepacket) fuer Frau Schalke installiert. Das DruckerNetz der PC Pools haengt jetzt am monitor-server, so dass wir mit den schon vorhandenen SNMP checks per zabbix den tonerfuellstand sehen. [/bauerm] permanent link Mon, 11 Jun 2012 11.06.2012, bay Homes von 1 Benutzer nach Firefox/Thunderbird Crash gefixt. Raid-BIOS von HP DL380 geupdatet: ** CRITICAL ** Systems ROMPaq Firmware Upgrade for HP ProLiant DL380 G7 (P67) Servers 2011.05.05 (A) 6 Jul 2011 2 neue Mailboxen angelegt und 3-4 Aliases eingebaut. Die Serverraeume sollen wohl die lang ersehnte elektronische Schliessanlage bekommen ... "in den naechsten Tagen". Neue Version des Lexmark X463 PPD's getestet ... schmiert immer noch ab (Segfault). [/bayer] permanent link FAI hat 4 (in Worten: Vier) relevante Filesysteme (/etc/fai auf dem installserver, /srv/fai/nfsroot wird auf den Client beim Installieren vermountet, das RAMFS im Installkernel, und das Filesystem, das auf dem Client zusammengebastelt wird) Das machts schwierig, rauszukriegen, wo was fehlt oder zu alt ist. Der Bjoern hat das fuer GRUB jetzt rausgekriegt, tut jetzt! Bjoern hat weiter an dem Workshop-PHP-Dings geschraubt, so dass jetzt sogar MS Excel die CSVe schluckt, wenn mehrzeilige Eintraege drin sind. Cool. Herrn Brunners HOME aus dem uralt-Ziusudra-Backup gerettet, er wollte auf seine alte Webseite zugreifen koennen. Das Backup liegt auf der muehle unter /mnt/ und ist ein riesiges bzip2tes, cpio-formateliges Archiv. Da drin was suchen dauert Stunden, u.a. weil die muehle mit den rsnapshots permanent auf 60% CPU laeuft, wenn sonst nix ist. Auf der ziusudra mutig das puppet auf 2.7.14 gezogen (das alte gem_home liegt in meinem HOME als tgz, wenn alles schiefgeht). Tests zeigen, dass alles glattgeht, bis auf die fiesen Tricksereien, die ich fuer das klausur_user Modul verbrochen habe, und darum ists nicht schade. Point-of-Interest: puppet-2.6 Clients koennen sich ohne Zertifikat an den 2.7 Master wenden und kriegen alles, was zu ihrem namen gehoert. Regression tests???? Das neue Puppet ist massivst schneller. [/bauerm] permanent link Fri, 08 Jun 2012 Argllll. puppet --parseonly bemerkt _keinen_ Fehler wenn man sowas schreibt: require => [Package['openntpd'], d.h. mein tolles .hg/hgrc packts nicht. Dreck. Bjoern hat den FAI soweit, dass er jetzt Ubuntu 12.04 installiert, nur der GRUB zickt (natuerlich, so ein Muell). [/bauerm] permanent link Thu, 07 Jun 2012 Auf monitor per sudo -u postgres /usr/lib/postgresql/8.4/bin/postgres --single -D /etc/postgresql/8.4/main -d 5 zabbix das postgres im Single-User mode gestartet, und per VACUUM und CLUSTER die database vom zabbix geschrumpft. Festgestellt, dass es nicht reicht, das autovacuum im postgres.conf einzuschalten, man muss auch das track_count auf on setzten. :/ Die Debian/UbuntuTrottel setzen in keinem verdammten Stop-Skript ihres verfluchten SysVinitImitats die Hardware Uhr auf die Systemzeit, die wir muehevoll per NTP auf FemtoSekunden genau setzen. Das init-skript von openntpd entsprechend geaendert und im Testnetz ausprobiert. [/bauerm] permanent link Wed, 06 Jun 2012 06.06.2012, bay Homes von 5 Benutzer nach Firefox/Thunderbird Crash gefixt. Dauert ... da der Cache zum Teil mehr als 2 GB hat !!! Gast-Prof. gurkt mit einem 17" TFT rum - gegen einen 24" getauscht. [/bayer] permanent link Herr Flammer und ein Entwickler von Nexenta versuchen sich seit einigen Tagen an einem NFSv4+Kerberos Setup, und haben heute einen Testaccount auf neubau-102 gekriegt, also im Testnetz. Geschaeftsordnung fuer den Bereich Rechenanlage eingereicht. Wir brauchen weiterhin dringenst einen Drei-Wort-Titel, der sich auf RJE abkuerzt! [/bauerm] permanent link Tue, 05 Jun 2012 Grund fuer den Hang des monitors war, dass 1. die BIOS Uhr auf Februar 2011 zurueckgefallen war 2. es fuer Linux ein Error ist, wenn die "Last Mounted" Zeit eines Filesystems in der Zukunft liegt. ad 1.: Wir haben die Maschine sauber runtergefahren, eins der Shutdown Skripten sollte die Uhrzeit der RealTimeClock auf die Systemzeit setzen. Warum hat das nicht funktioniert? ad 2.: Das ist eine saudumme Idee. Wie soll der Admin auf diesen Fehler reagieren? Warten bis die aktuelle Zeit nach der "Last Mounted" Zeit ist??? Die Unerreichbarkeit des Fileservers gestern hatte fuer Firefox User katastrophale Auswirkungen, weil der Firefox seine Bookmarks wegschmeisst, sobald eine Handvoll Dateien nicht in sync sind. Wir rekonstruieren aus den snapshots von gestern. Der mirror.mi.uni-erlangen.de mirrort jetzt auch Ubuntu "precise". Einer der ersten Schritte richtung Upgrade. Bjoern hat den FAI Server soweit, dass er mit einem neuen Kernel installiert. Das FAI-Server Modul im Puppet aufgesplittet, so das dhcpd getrennt konfiguriert werden kann, obwohl der FAI die Adressen braucht und dhcpd den Clients die install-kernels und next-server mitteilen muss. [/bauerm] permanent link Mon, 04 Jun 2012 Dem Windowsteam vom RRZE ist ein Teil seiner Domaincontroller abgeschmiert, und der Effekt war, dass sich im CIP Pool niemand einloggen konnte. Nach einigen Telefoniereien haben sie das Ding wieder flott gekriegt. Stromaufall im Serverraum: der SV Stromkreis war tot, alle Server und der RRZE-switch haben zwei Netzteile in getrennten Stromkreisen, das war also kein Problem. Aber der Switch vor dem Fileserver, den wir durch eine Cisco ersetzen wollen, hat nur ein Netzteil, und das grad im SV. Dadurch war der Fileserver insgesamt weg vom Fenster, bled. Auf dem Monitor war ein BIOS Passwd gesetzt, an das sich niemand erinnern kann. Server ausgebaut, und per DIP-Switch, Einsteckern, Hochfahren das NVRAM samts Passwd geloescht. Nachdem die zwei SATA Platten als RAID1 nur fuer die Logs und die Zabbix DB benutzt werden, haben wir da den WriteCache eingeschaltet. Morgen nochmal rebooten, momentan ist das Ding nicht ansprechbar (??) Die Ziusudra kommt nach einem Stromausfall nicht von alleine wieder hoch. Im BIOS gefummelt, die Option "Trotz Fehlern hochfahren" gewaehlt, weil das die einzige war, die irgendwie auf das Problem gepasst hat. Unter Ubuntu ist /usr/include/asm (ein Linuxismus) kein Link auf /usr/include/asm-generic wie auf anderen Linuxen, und deswegen sterben Builds typischerweise. Ist jetzt per puppet so gefixt, dass auf Ubuntu 11.04 /usr/include/asm der passende Symlink ist. NFS fuer AM3: den Norton.Am dazu gebracht, das fette SAS RAID mit seinen 20TB per NFS(v3) an AM3 Maschinen als /am3raid zu exportieren. Ging mit Puppet erstaunlich leicht. [/bauerm] permanent link Fri, 01 Jun 2012 Anleitung zu hpacucli: http://www.datadisk.co.uk/html_docs/redhat/hpacucli.htm Auf dem Webserver im Betrieb 2 1TB Platten eingebaut, zu einem RAID1 verbunden, formatiert und gemountet. Der apt-mirror liegt jetzt dort In /home/stud/team/BIOS* liegt ein shellskript von HP, das die RAIDcontroller Firmeware aus Linux heraus patcht. Muesste man auf allen HP Server ausfuehren. Unsere Server haben z.T. recht alte BIOSe. Frasch kann unsere LexmarkCrashes reproduzieren und nervt den Hersteller parallel zu uns. Herr Wolf hat uns die Zuse Z23 im RRZE gezeigt. Sehr eindrucksvoll. [/bauerm] permanent link Thu, 31 May 2012 Drucker von Frau Frieser vom AM2 Netz in das unsrige bewegt. Ein Techniker von Frasch hat den Drucker von Herrn Kronz behandelt, nachdem das Problem mit dem Grauschleier wieder aufgetreten ist. Platten von HP fuer den Webserver sind angekommen. Das Tool zum Konfigurieren von RAID Controllern auf HP Proliant Servern heisst hpacucli und ist fuer Ubuntu von http://downloads.linux.hp.com/SDR/downloads/ProLiantSupportPack/Ubuntu/pool/non-free/ runterzuladen. Die HP.com Seiten sind vollkommen desorganisiert, nicht mal die Suche funktioniert. hpacucli in unseren apt-mirror gelegt, auf webserver-1 installiert. Tut. Mit ctrl all show config detail kann man sich zeigen lassen, was drin ist. Es gibt weitere proprietaere Software von HP zum Monitoring des RAIDs, was wir unbedingt ins Zabbix einbauen muessen! RAID Mirror nuetz nix, wenn man den Ausfall der ersten Platte erst bemerkt, wenn die zweite stirbt. [/bauerm] permanent link Wed, 30 May 2012 Norton (HP 585) installiert. "tcp" als mount-option fuer alle NFS verzeichnisse eingefuehrt, wird erst nach reboot aktiv (oder nach umount /homes/{staff,stud}; mount -a ), weil das *&^%$^ Linux keine update-Option fuer mount kennt. Bis Dienstag werden die AM3ler ihre Jobs auf der sultana beenden, dann machen wir einen remount aller homes dort NFSv4 laeuft im Testnetz gut, Tests mit 100GB dateien zeigen einen Perfomancegewinn. Im Testnetz alle mounts per nfsv4. [/bauerm] permanent link Tue, 29 May 2012 Der Lexmark bei Herrn Kronz hat nach kurzem Transport beim doppelseitig Drucken die Vorderseiten eingegraut. Nach ein paar Dutzend Seiten Testdrucken war der Tonerstaub dann weg. Geht wieder. Wir haben einen CIP Rechner neu aufgesetzt, und obwohl der sich definitiv nicht im AD-sinne "join"en kann, authentisiert er User. Gut so, da koennen wir leicht Maschinen ersetzen. Ob das allerdings im Sinne des Betreibers (des AD) ist, weiss ich nicht. Mit Nico Neuss angefangen, den 48-CPU Hobel (norton.am) zu installieren. PC von Frau Hild ins Netz integriert. [/bauerm] permanent link Sat, 26 May 2012 Saturday, May 26, 2012 00:38:06 Herr Galea vom RRZE hat uns Infos zu dem LDAP Setup geschickt. Mal ausprobieren. neubau-109 hatte keine Platte mehr. Ersetzt. Wo ist das Original? Datenbank-Schrumpfen ist jetzt ein Cron-Job. PDFs kann man mit pdftk 1.pdf 2.pdf 3.pdf output 123.pdf zusammenkleistern. Die DruckerTreiber (PPDs) im cups haben zum Teil immer noch "Letter" eingestellt/erlaubt. Sollten wir fixen. Die Studenten wuenschen sich Tacker und Locher an den Druckern. Wird angeschafft. Dass Unity (depperte iPhone-imitat Oberflaeche von Ubuntu) zum Stichwort "PDF" weder evince noch okular anzeigt, war ein "Well-known" Bug. Heute von Katrin und Martin repariert worden, indem zusaetzliche Dateien in /usr/share/applications angelegt wurden, die dem Unity sagen, dass evince und okular pdf-viewer sind. Die Z23, die lange Zeit im Serverraum der Bismarckstrasse stand, ist jetzt im RRZE zu besichtigen (ISER). Mit den Authoritaeten Kontakt aufgenommen, um mal einen Blick auf diese Maschine werfen zu koennen. Herrn Bocks altes public_html aus dem ziusudra Backup gerettet. Wird noch ins Typo3 eingepflogen. Die Nexenta Leute von Basis formuliern wohl grad an den Forderungen gegenueber nexenta.com bezueglich NFSv4+Kerberos Support. [/bauerm] permanent link Fri, 25 May 2012 Herr Galea vom RRZE hat uns Infos zu dem LDAP Setup geschickt. Mal ausprobieren. neubau-109 hatte keine Platte mehr. Ersetzt. Wo ist das Original? Datenbank-Schrumpfen ist jetzt ein Cron-Job. PDFs kann man mit pdftk 1.pdf 2.pdf 3.pdf output 123.pdf zusammenkleistern. Die DruckerTreiber (PPDs) im cups haben zum Teil immer noch "Letter" eingestellt/erlaubt. Sollten wir fixen. Die Studenten wuenschen sich Tacker und Locher an den Druckern. Wird angeschafft. Dass Unity (depperte iPhone-imitat Oberflaeche von Ubuntu) zum Stichwort "PDF" weder evince noch okular anzeigt, war ein "Well-known" Bug. Heute von Katrin und Martin repariert worden, indem zusaetzliche Dateien in /usr/share/applications angelegt wurden, die dem Unity sagen, dass evince und okular pdf-viewer sind. Die Z23, die lange Zeit im Serverraum der Bismarckstrasse stand, ist jetzt im RRZE zu besichtigen (ISER). Mit den Authoritaeten Kontakt aufgenommen, um mal einen Blick auf diese Maschine werfen zu koennen. Herrn Bocks altes public_html aus dem ziusudra Backup gerettet. Wird noch ins Typo3 eingepflogen. Die Nexenta Leute von Basis formuliern wohl grad an den Forderungen gegenueber nexenta.com bezueglich NFSv4+Kerberos Support. [/bauerm] permanent link Thu, 24 May 2012 Kurze Patchkabel fuer den Serverrack geordert. Lustiger Bug: man kann keine Dateien auf einen user chown-en, wenn dessen Quota voll ist, weil das chown aus Sicht von Quota das gleiche ist, wie eine Datei anlegen. Das ewig-wachsende-Datenbank Problem ist geloest. Wenn man bei PostgreSQL erst alle Tabellen Re-Indiziert, und dann erst VACUUM drueber laufen laesst, geht das einigermassen schnell und schaufelt Plattenplatz frei. Es stellt sich raus, dass man Userauthentisierung auch gegen einen zentralen _LDAP_ Server machen kann, und nach der Verwaldung des ActiveDirectories scheint das die sinnvollste Loesung fuer Studentenlogins zu sein (Winbind aus dem Samba Packet kann nicht mit mehr als einem Baum umgehen). [/bauerm] permanent link Tue, 22 May 2012 Mit Herrn Ritter vom RRZE wegen der Winbind Probleme mit dem ActiveDirectory gesprochen. Er schickt uns eine Konfig, die bei ihnen funktioniert. Zusatztip: Samba/Winbind speichern Settings in .tdb files, die nicht mit dem Konfigfiles synchronisiert werden. Herr Heinrich vom RRZE hat uns die Kameras zusammen mit Bjoern scharf gestellt. Weiterer Rahmenvertrag: Cisco Switches duerfen nur von T-Systems gekauft werden (WTF!?!), und die haben Lieferzeiten von 6 (in Worten: sechs) Wochen. [/bauerm] permanent link Fri, 18 May 2012 Firefox ist bei manchen Usern kaputt. Genauer wohl eins der places.sqlite files, weil man mit der Bookmark Backup Funktion (unter "show all bookmarks" versteckt) die JSON files aus bookmarkbackups nicht mehr restaurieren kann. Ausserdem kann man nicht mehr mit sqlite3 auf das places.sqlite zugreifen, weil das korrupt ist. Zum Glueck haben wir ja ZFS und koennen auf alte snapshots zugreifen, und ich hab ein skript gebaut (places2bookmarks), das aus einem places.sqlite ein html file macht, mit dem man die booksmarks restaurieren kann. [/bauerm] permanent link Wed, 16 May 2012 Es gibt einen git-repository Server auf webserver-1. Wird mit gitolite verwaltet. Wer ein repos drauf haben will, sollte eine mail an problems schreiben, mit dem Namen des repos und den ssh-pubkeys der Leute, die drauf zugreifen sollen. gitolite ist lustig, weil seine Configs selbst ein repository sind, 1TB Platten-Paerchen fuer den Webserver bei Bechtle bestellt. Unter anderem fuer den Ubuntu Mirror noetig. [/bauerm] permanent link Tue, 15 May 2012 Eine Platte vom Fileserver ist ausgefallen, per Postreiter aus Muenchen Ersatzplatte bekommen. Eingebaut. Mit dem coraid kann man per cec reden: cec e1000g0 1 (waehlt das erste shelf) setslotled fault 10 (laesst die _elfte_ platte blinken) ctrl-\ q ctrl-d (raus) Das roundup/inventar war mit einem .htaccess geschuetzt, das nur mit Typo3-Backend Password Zugriff erlaubt hat. Beim Versuch, das zu aendern auf: intern frei, von extern nur mit Password, hat sich herausgestellt, Erstens: dass AllowOverride AuthConfig keineswegs erlaubt, in .htaccess ein "allow from 131.188...." zu definieren. Sowas muss mit "AllowOverride AuthConfig _Limit_" erlaubt werden. WTF!!!!!! Zweitens: Dass "Satisfy any" fuer "Erlaube Zugriff, wenn irgendeins der obigen Kriterien erfuellt ist" keineswegs ein logisches "Oder" ist, sondern nur dann funktioniert, wenn die "Allow from..." Statements _vor_ den LoginPerTypo3 stehen. WTF!!!!! [/bauerm] permanent link Mon, 14 May 2012 Frau Wendler hat nach zahlreichen Jahren einen neuen Drucker bekommen, einen Lexmark. [/bauerm] permanent link Tue, 08 May 2012 Mit Maplesoft in Aachen telefoniert, wir koennen Maple als Studentenlizenz zum gleichen Preis wie frueher kriegen. Schriftliches Angebot folgt. Herrn Kronz einen Drucker installiert. Alle Server im rechten Rack so umverstromt, dass je ein Stecker in Dieselgenerator-gesichertem Stromnetz und einer im USV Netz steckt. Beruhigend. Andere Admins informiert. Das Billg-NAS (mit 8 TB RAID) ist jetzt per NFS am Nexenta und wir haben erstmal ein rsync aller HOMEs ohne jegliche Beschraenkung angeschubbst. Roedelt noch. Bjoern hat ein Univis Plugin fuer Typo3 entwickelt, das ueber die Univis-IDs der Mitarbeiter an beliebigen Stellen in unserem Orga-Baum (der im Typo3 als Verzeichnisbaum von Mitarbeitern modelliert ist) alle Vorlesungen/Seminare/etc des Organisationastes als huebsche Liste autogenerieren kann. Cool Frau Forkel kriegt einen A3 Backup-Drucker, damit sie auch weiter Zeugnisse drucken kann. Herrn Plaumanns legendaere Homepage wurde groesstenteils nach historischen Quellen wieder aufgebaut. [/bauerm] permanent link Mon, 07 May 2012 Leider koennen wir die Leute mit math.uni-erlangen.de Account nicht einfach vom RRZE wegziehen, weil die Nutzung des RRZE Kalender-Exchange-Servers diese Accounts zwangsweise erfordert, d.h. Mailaccount umziehen -> kein Kalender aufm Handy. Mal mit dem RRZE absprechen. Wir koennen gar keine Maschinen mehr ins RRZE AD joinen. Das behindert jetzt auch den Umzug der AM2 HOMEs. [/bauerm] permanent link Fri, 04 May 2012 Der Fileserver wurde heute _im Betrieb_ auf eine neue Version gebracht, wie auch die Plattenarrays. Dazu wurde erstmal auf dem fallback system die systemsoftware und die Treiber auf neuen Stand gebracht, dann per manual failover das ZFS vom anderen Server uebernommen, und dann der auf neuen Stand gebracht. Danach wurde die Firmware des ersten Shelfs a.n.S.g., dann des zweiten. Es gab keine Fileserverausfaelle ueber die ganze Zeit. Der Switch im Serverschrank wurde im Betrieb ausgetauscht gegen einen mit zwei Netzteilen, denn was nuetzt die redundante Stromversorgung der Server, wenn beim Ausfall sowieso niemand die Server erreichen kann... Endlich koennen wir reproduzierbar zeigen, wie schlecht die Lexmark Firmware ist. Wir haben einen crashmich pseudoDrucker eingerichtet und mit dem Lexmark PPD konfiguriert. Er druckt ueber tcp auf einen port auf einem Rechner, wohinter ein shellskript einfach alles in eine Datei schreibt. Nachdem Katrin erfolgreich einen Lexmark crashen konnte, wurde das PostScript so archiviert (und gegen einen anderen Lexmark getestet). An Lexmark gemailt, damit dies auch ausprobieren koennen. Wieder einmal zeigte sich, dass man fuer je zwei Laptops stets ein Ersatznetzteil kaufen muss. Wird uns zurueckerstattet. [/bauerm] permanent link Wed, 02 May 2012 Bjoern hat ein allgemein einsetzbares Workshop-Anmeldungsplugin fuer Typo3 geschrieben. Wird noch von Frau Kulzer getestet. Die NVidia Karten haben nicht etwa einen HDMI Ausgang, sondern einen DisplayPort. Und der geht nicht an die Beamer im PC Pool 1. Adapter besorgen... Beim Mailteam RRZE gefragt, wie der Umzug von math.uni-erlangen.de zu bewerkstelligen waere. Sollte kein Problem sein, sagt Petri. Stellt sich raus, dass Authentisierung per Kerberos Ticket durchaus schon funktioniert, aber nur dann, wenn man in /etc/hosts alle fqdns vor die puren hostnames stellt. Technik, die entgeistert! In sshd_config fehlten noch GSSAPIAuthentication yes GSSAPICleanupCredentials yes [/bauerm] permanent link Mon, 30 Apr 2012 Puppet repos ausgetauscht, jetzt nur noch 14.7 Mb gross! Wir koennen jetzt den Druckerabsturz reproduzieren. Ein Herr von Lexmark wuerde sich das auch anschaun. Der Nvidia Update auf 295.40 gilt als extrem buggy, aber mit anderen linux-kernels und Graphikkarten als bei uns. Tun wirs trotzdem? [/bauerm] permanent link Thu, 26 Apr 2012 Stellt sich raus, dass die Elektriker im Serverraum nicht, wie ausgemacht, einen Stromkreis mit Dieselgenerator-Backup und einen mit aktiver USB als Backup gelegt haben, sondern einen ohne Backup, einen mit Diesel Backup und einen mit USV. Die Leitung ohne Backup ist fuer uns total nutzlos, wir brauchen drei Leisten mit Diesel und drei Leisten mit mit USV. [/bauerm] permanent link Tue, 24 Apr 2012 Weiter auf neubau-195 mit NFSsec rumgespielt. Es ist grauenvoll. Dutzende von rpc Diensten, unerwartete kernel module, sinnlose Fehlermeldungen. Die meisten Beschreibungen im Netz kommen nichtmal bis zum "mount" Befehl. Frau Meusburger moechte ein AnmeldeWebFormular fuer Workshops. Absolut sinnvoll, und idealerweise recyclebar. Bjoern versucht das innerhalb von Typo3 hinzukriegen. [/bauerm] permanent link Mon, 23 Apr 2012 Wenn man einer NexentaKiste ein /etc/krb5.conf gibt, dann versucht sie, jede ssh Verbindung per GSSKeyEx zu authentisieren. Wenn das nicht klappt, faellt sie nicht etwa auf PubkeyAuthentication zurueck, sondern verweigert den Zugang. Nicht lustig. Der Nvidia Bug, der die Maschinen beim runterfahren einfriert, laesst sich mit einem Update beheben, aber weils Ubuntu ist, kommt das Package natuerlich von einer non-Std Quelle. Herr Seidel kann mit einem PDF deterministisch den foomatic pdf->postscript konverter (mit dem Lexmark-PPD) toeten. [/bauerm] permanent link Tue, 17 Apr 2012 Wenn ein Gast im Gaestehaus der Uni mit Laptop ankommt, muss er wohl manchmal ein Formular vom RRZE unterzeichnet anbringen, damit das Laptop ins Netz darf. Im Formular versichert der Admin des einladenden Instituts, dass "der Rechner des Gastes auf dem neuesten Sicherheitsstand ist". Nach laengerer Recheche stellt sich heraus, dass niemand im RRZE mehr weiss, wie genau das festzustellen ist, und welchen sinn das haben soll, wenn der Admin am 17.4 unterschreibt, dass es auf neuesten Stand ist, wenn der Laptop am 18.4 dann im Gaestehaus laeuft. In Richtung NFSv4 mit Kerberos folgende Dokus gefunden http://blather.michaelwlucas.com/archives/796 http://www-theorie.physik.unizh.ch/~dpotter/howto/kerberos Der Daemon, der auf Nexneta UIDs nach Kerberos "Principals" uebersetzt, heisst (latuernich) /usr/lib/nfs/nfsmapid und nicht idmapd (der macht das fuer Windows SIDs). Erste Tests mit NFSv4 auf Linux ohne Authentsierung zeigen, dass man den rpc.idmapd (auf linux) und svc:/network/nfs/mapid:default (nexenta) laufen haben muss. Auf der nexenta Seite muss der LDAP client kongfiguriert sein. Achtung, die Config wandert nicht auf nextwo, d.h. man muss das dort nochmal anlegen. Auf Linux kann der rpc.idmapd nur laufen, wenn er ein /var/lib/nfs/rpc_pipefs/nfs findet, das man kriegt wenn man rpc_pipefs /var/lib/nfs/rpc_pipefs rpc_pipefs defaults 0 0 (was sonst??? Na klar!) in /etc/fstab reinschmiert und mount rpc_pipefs aufruft. Danach werden die UIDs umgesetzt. Getestet mit einem eigenen ZFS auf nexenta und linuxseitig nur auf neubau-195. Was man auf Nexenta gar nicht machen darf, auch wenns in der Doku drinsteht, ist in /etc/nfssec.conf eine der krb-authentisierungs Einstellungen einschalten, das toetet den server. [/bauerm] permanent link Mon, 16 Apr 2012 Nach den seltsamen, nicht sehr aussagekraeftigen Fehlermails ueber nicht-existente snapshots am 30.3 hat das nexenta komplett aufgehoert, snapshots zu machen. Ein Glueck, dass wir auf der ziusudra noch rsyncen. Bei Nexenta ein Ticket eroeffnet, und den deutschen Nexenta Sales Engineer genervt. Per svcadm clear/restart von rmvolmgr und dbus daemon die snapshot servcices wieder zum laufen animiert. Das RRZE musste zugestehen, dass wir laut ihren eigenen Benutzerrichtlinien (von 1995) den Admins der lokalen Netze einen Monitor Port zugestehen muessen. Darum gebeten. [/bauerm] permanent link Sun, 15 Apr 2012 Das puppetrepos ist jetzt von 446MB auf 14MB geschrumpft und laesst sich von Mercurial klonen. Das autoclone hatte ein Problem mit nicht-existenten Subverzeichnissen, was ich noch per Hand reparieren musste. Bei Gelegenheit mal umstellen. [/bauerm] permanent link Tue, 10 Apr 2012 Stellt sich raus, dass alle Mitarbeiter des RRZE, die mit Lexmark Druckern auf CUPS zu tun haben, die Dinger extrem schlecht finden. Scheint kein Ausschreibungskriterium gewesen zu sein. LDAP ist noch viel bescheuerter als gedacht. Ein User kann nicht gleichzeitig eine "Person" und ein "Account" sein, d.h. wenn wir z.b. das Adressbuch im Webmailer nutzen wollten, muessten wir fast alle "posixAccount"-Nutzerdaten in einem weiteren Baum als "inetOrgPerson" duplizieren, weil nur eine "Person" Vor- und Nachnamen haben kann, als "Account" gibts nur einen CommonName, bzw ein GecosField, wo Vor- und Nach nicht getrennt werden. Das ist alles so saudumm, dass ich jetzt sehr dazu neige, LDAP zur Nutzerverwaltung komplett zu kicken und durch ein zentrales /etc/passwd zu ersetzen, das per puppet auf die Maschinen kommt. [/bauerm] permanent link Thu, 05 Apr 2012 Das Lexmark PPD fuer X46[34] Drucker setzt als default-papersize (und printarea und ein dutzend weitere Parameter) "Letter" ein. Das ist _falsch_, fast ueberall auf dem Planeten. Per Hand gefixt, man kann jetzt Artikel mit reinkodiertem Letter-Format auf Lexmark ausdrucken. Das Windows Team hat lustig weiter Server, Realms, Domains, Workgroups umbenannt, so dass wir keine CIP Rechner mehr "join"en koennen. Webserver-1 hat jetzt ein backup der typo3 installation. Per puppet ein basis-paket fuer backup von Maschinen gebastelt. Martin Bayer hat angefangen, den ganzen Papierkram zu sichten und zu ordnen. [/bauerm] permanent link Wed, 04 Apr 2012 Webserver, Imapserver und Mailserver haben jetzt total sichere vollstaendig zertifizierte Zertifikate. [/bauerm] permanent link Tue, 03 Apr 2012 Bloede Probleme mit dem rsyslogd, er mag die Configzeile $InputUDPServerBindRuleset remote nicht, dabei ist das Ruleset remote definiert und funktioniert fuer das TCP Modul, und das InputUDPServerBindRuleset steht in der Doku genau so. Dreckszeug Das AutoVacuum von postgresql tut nicht zur zufriedenheit. Alle PC Pools sind verkabelbunden und geflachsteckert Das RRZE hat --- ohne irgendwas zu sagen --- ihre ActiveDirectory Server umbenannt. Dank puppet kein grosser Act das zu fixen, aber halt schon nicht so der Service, den man erwarten wuerde. Validierbare Zertifikate fuer imap,smtp und web server von der DFN CA am RRZE gekriegt. Dabei festgestellt, dass die openssl optionen fuer "req" nicht ganz so wie in der Doku funktionieren. Mit Wigand Rathmann abgesprochen, wie das webserver backup funktionieren soll. Das Papierformat im Bezug aufs Drucken zahlreicher Programme unter Ubuntu kann abhaengen von: 1. der Einstellung in /etc/papersize 2. dem Wert von LC_PAPER (Letter fuer en_US.*, A4 fuer fast alle anderen) 3. Einstellungen im Dokument selbst (PDF, PS) 4. Einstellungen im CUPS, oder foomatic oder PPD Files 5. Einstellungen am Drucker 6. weiteren, unbekannten Faktoren Beim Login ueber gdm laeuft jetzt ein Skript, das die verfluchten .parentlock files von Thunderbird und Firefox im HOME des Users loescht. Solche Skripte liegen nicht etwa in /etc/gdm/PostLogin, sondern in /etc/xdg/autostart. Und das ist dann ein INI-formatiertes File, welches das anderer ruft... Frau Graessels Bureaux ist einsatzfaehig [/bauerm] permanent link Mon, 02 Apr 2012 Auf ziusudra den alten zpool geloescht, mit fuenf 1Tb Platten neu zusammengesetzt und begonnen neue HOMEs dorthin zu sichern Nikos und Patrick haben den PC Pool 1 neu versteckert und verkabelbunden [/bauerm] permanent link Fri, 30 Mar 2012 Es laeuft ein Backup aller Mails im Stundentakt auf einer Maschine im 2 Stock. Zu dem Zweck ein 2Tb RAID-1 aus zwei USB Platten gebastelt. Mit rsnapshot implementiert. Alle alten HOMES (Stand September 2011) von der ziusudra auf besagtes RAID gebracht. Alle alten Backups (gesar,nimrod) ebenso Franzi und Katrin haben alle PCs in den Praktikumsraeumen Versicherungskonform verkabelt und verkabelbunden Simon hat ausser Dienst ein LaTeX Template fuer die neuen Tuerschilder gemacht. Die ZUV hat in ihrem Template den Font auf Helvetica festgenagelt, den haben wir auf den Windowskisten aber nicht. In LaTeX haben wir sie mit dem helvet Package, und erste Test mit dem Schild von Frau Graessels neuem Bureaux zeigen, dass wir sehr nah am ZUV Tempate sind [/bauerm] permanent link Wed, 28 Mar 2012 Was bisher geschah: Der Techniker von Dell war da und hat die zwei defekten Laptops repariert Herr Flammer von Basis war da und hat 42 Tb Platten eingebaut, Lizenzen mussten noch eingespult werden. Die Versicherung weisst dringlich darauf hin, dass unsere Verkabelung in den PC Raeumen Stolperfallen enthaelt die Bodentanks nicht zugehen, weil die Stromstecker rausragen. um das zu beseitigen, wurden 110 Kabel mit geknicktem Stecker und 800 Meter Kabelbinder beschafft. Was heute geschah: Angefangen, die PCs korrekt zu besteckern und zu verkabelbinden Mit viel Handarbeit die Platten im CoRaid belebt und als 7 weitere mirror-Paerchen zum pool dazugefuegt. Jetzt haben wir 30 Tb Platz. [/bauerm] permanent link Fri, 23 Mar 2012 Vorschlag von den Studenten: Praktikumsraum 1 und PC Pool 1 vertauschen, dann waere mehr Platz fuer Praktika und die Pools waeren nebeneinander, wodurch Betreuung einfacher wird. Angebot von Basis erheblich runtergefeilscht. Einfuehrung SMARTboards mitgemacht. Eindrucksvoll, sogar die Schrifterkennung funktioniert. [/bauerm] permanent link Thu, 22 Mar 2012 Neues Mailing-listen Schema erarbeitet. Veroeffentlichung folgt. Stellt sich raus, puppet module muessen als erste Zeile eine "class" definition haben, sonst wirft er keinen fehler, inkludiert das Modul aber trotzdem nicht. Saudummer BUG. [/bauerm] permanent link Wed, 21 Mar 2012 Irgendwas hat ueber Nacht die Permissions auf /var/mail/bayer so verdreht, dass postfix keine mails mehr an ihn zustellen konnte. Bjoern und Martin eine Blitzeinfuehrung puppet gegeben. Wir koennten mal unseren Webserver (und mailserver) von der RRZE CA signieren lassen. Von vier gekauften Dell Precision M4600 sind jetzt schon zwei defekt, einer hatte von Anfang an Memory Fehler, der andere ist durchgeschmort. Stellt sich raus, dass puppet-modules nicht so heissen duerfen wie die nodes zu denen sie gehoeren. Saudummer BUG. [/bauerm] permanent link Tue, 20 Mar 2012 Die anderen Admins beginnen, das roundup produktiv zu nutzen, sehr schoen. [/bauerm] permanent link Mon, 19 Mar 2012 Nuetzliches kommando, um unauslieferbare Mails zu kicken: postqueue -p |sed -n ' /^[0-9A-F]/p' | awk '{print $1}' | sort -u | postsuper -d - [/bauerm] permanent link Thu, 15 Mar 2012 Die nameserver vom RRZE hatten heute ernste Probleme, alles war ruckelig und zaeh. Extensive Tests vom Martin und den Frasch Leuten deuten stark darauf hin, dass unsere Reboot Probleme vom Ubuntu Kernel in Kombination mit der Fujitsu Hardware kommen. Generische Tipps aus der ubuntu szene: - kernel mit noapic starten (da gibts natuerlich 10^3 Varianten davon) - kernel ohne acpi starten Testen wir mal. Die AM3 haetten gerne wieder dynamische DHCP Adressen fuer Laptops. Mit dem aktuellen Setup geht das nicht, weil 1. Linux nicht multihomed/triangle routing tut 2. Der ISC dhcpd zwar die zusatz-Info vom dhcp-proxy vom RRZE erkennt, aber bei unbekannten MACs dann immer die erste definierte range nimmt 3. Da drum rum zu werkeln mit einer zweiten Adresse und firewall rules, die da nur packete vom RRZE reinlassen etc, einfach zu anfaellig ist. Loesung muss wohl sein, einen weiteren DHCP Server _im_ AM3 Netz zu betreiben. Ist mit puppet kein Problem, erfordert aber echte Hardware (s.o.) Deswegen versucht, die ex-andromache wieder flott zu kriegen, bisher erfolglos, weil der Autoinstall Kernel die Platten nicht mag. Wir haben immer noch keinen zusaetzlichen Strom im Serverraum [/bauerm] permanent link Wed, 14 Mar 2012 RRZE entschuldigt sich fuer den z.T. schlechten WiFi Empfang und empfiehlt, wo moeglich, auf 5Ghz einzustellen, weil dann die Konkurrenz mit den Smartphones der Studenten kleiner ist. Zwei Platten im Coraid sind wohl schon lange ohne Volume. Bug? Versehen beim Einrichten? [/bauerm] permanent link Tue, 13 Mar 2012 Neue Erkenntnis: wenn man mit 'zfs set' oder so was am nexenta dreht, dann wird das von der WebGUI eventuell ueberschrieben, sogar dann wenn man gar nix anklickt, was man mit zfs geaendert hat. Schulung beim RRZE zu deren ActiveDirectory Modell mitgemacht. Erstaunlich, wie die MSler das LDAP noch kraenker hingekriegt haben. Es wurde auch klar, dass ein paar der duemmeren Designs in Puppet aus der Ecke kommen. Angebot fuer weitere 15Tb (nach doppel-RAID) eingeholt, leider etwas teuer. Nexenta empfahl: 1. Cacheplatte per setup volume coraid01 remove-lun aus dem volume zu entfernen 2. Ein neues volume mit nur der SSD drin zu erstellen create volume 3. Das neue volume zu zerstoeren 4. Die SSD per setup volume coraid01 grow cache c2t2d15 wieder einzugliedern Hat funktioniert. [/bauerm] permanent link Mon, 12 Mar 2012 Mit dem Nexenta Support nochmal Kontakt aufgenommen, wegen der CAcheplatte die in 'zpool status' als UNAVAILABLE gemeldet wird. [/bauerm] permanent link Tue, 06 Mar 2012 Vor lauter Orientierungsseminar zu fast nix gekommen. Uns sterben nach dem reboot im CIP Pool immer wieder Maschinen, aber immer andere. Die 118 Softwarelizenzen fuer Matlab waren leider im falschen IP Range, nachdem wir die CIP Maschinen in ein privates gezogen hatten. Martin Bayer besucht eine Einfuehrung des RRZE in deren ActiveDirectory Gefuddl. [/bauerm] permanent link Mon, 05 Mar 2012 Vor lauter Orientierungsseminar zu fast nix gekommen. Tobias hat uns ein paar PostgreSQL Tuning-Tips gegeben: 1. Das Postgres bei uns hatte die ubuntu std-settings, die fuer einen C64 mit Memory Erweiterung angemessen gewesen waeren. 2. shared_buffers kann man von einer Handvoll MBs auf 50% des Speichers setzen, in unserem Fall involviert das ein echo $sehrgrossezahl > /proc/sys/kernel/shmmax und entsprechenden Edit in /etc/sysctl.conf 3. work_mem auf das 32-fache erhoeht 4. effective_cache_size ist keine Konfig, sondern eine Hilfe fuers PostgreSQL, um abschaetzen zu koennen, wieviel Platz auf der Maschine ist. Sollte 75% vom RAM darstellen -> ver-80-zigfacht Jetzt fuehlt sich das schon deutlich schneller an. Nikos, William und Martin haben die mysterioesen Druckerpannen aufgeklaert. Das lag an den STD-Einstellungen vom Thunderbird, alles auf US-Letter ausdrucken zu wollen. Das CUPS schickt den resultierenden Mist an den Drucker, der schaut kurz nach, ob irgendwo Letter geladen ist (ist es nicht) und bricht den Druckjob ab. Abhilfe in der Thunderbird Config. Nach einer globalen Loesung suchen wir noch. [/bauerm] permanent link Sat, 03 Mar 2012 Es sieht immer mehr danach aus, als ob die geschickteste Art der Userverwaltung waere, ein /etc/passwd + /etc/group per puppet auf alle Rechner zu push-en, die Hash-felder in der passwd leer zu lassen und die Authentisierung vom Kerberos machen zu lassen. [/bauerm] permanent link Fri, 02 Mar 2012 Martin Bayer hat den ex-virtserver Server mit neuestem BIOS versehen, was auch der Vorschlag vom HP Support war. Feiner unterschied in puppet: content => puppet:///foo/bar ist was anderes als source => puppet:///foo/bar In puppet/fileserver.conf hatte ich das AM3 Netz vergessen Herrn Neebs Problem mit dem Drucken von Emails aus Thunderbird reproduziert -> geht nicht mit Lexmark, geht mit HP. PPD file mal austauschen. Zum ersten mal mit 'puppet apply' gespielt, sehr nett Die CIP Rechner rebooten nicht mehr synchron, sondern abhaengig von der IP zu verschiedenen Zeiten, schau mer mal, ob das was bringt. [/bauerm] permanent link Thu, 01 Mar 2012 Herr Bayer hat seinen Dienst angetreten, sehr gut! Herr Bayer und Herr Rathmann habens fertiggebracht, das RRZE Office-Aktivierungs-Skript so zu patchen, dass es die Software dort sucht, wo sie installiert ist. Frau Echtermeyer hat jetzt "aktiviertes" Office. Die Elektrik installiert jetzt die Kameras. Fuer die Fachschaft beim RRZE um ein /28 Netz gebettelt. Anweisungen von Nexenta Inc befolgt, nexone macht wieder snapshots, nmc laeuft wieder, war nur eine serie von svcadm commandos zum status clear und restart von daemons. Schoen. Der HP Support hat eine Mail geschickt, dass wir auf diverse Arten Daten ueber den defekten Server liefern sollen. Unter anderem sollten wir ein Skript ausfuehren cfg2html, das von einer HP.com Seite runterzuladen war. Orginellerweise hatte das statt \n als Zeilenenden \r\n und das laesst sich dann halt nicht ausfuehren ('/bin/bash^M' no such file...). Und noch viel orginellererweise zeigt der vim diese kaputten Zeilenenden nicht an, und laesst sie einen auch nicht mit :s/^V^M// oder :1,$! tr -d "\015" wegloeschen. WAAAAAA. [/bauerm] permanent link Wed, 29 Feb 2012 Ganz viel Gefrickel mit Kerberos und LDAP und GSSAPI und SASL. Es ist grauenvoll (und optional, weil in SASL immer alles Optional ist. Die brauchen eine Lookup Funktion um rauszukriegen, ueber welche Mechanismen sich vielleicht authentisieren koennte, und gewichten die dann mit Zahlen, und jeder Mechanismus hat ein anderes Naming Scheme, also hat z.b. das OpenLDAP eine konfigurierebare search-replace regexp zum Umschreiben von GSSAPP/Kerberos Namen in LDAP DNs. It makes the mind boggle). Mit solchen Qualitaetsfehlermeldungen wie: ldap_sasl_interactive_bind_s: Local error (-2) additional info: SASL(-1): generic failure: GSSAPI Error: Unspecified GSS failure. Unser Postfix war weit offen. Keine Ahnung wer da zuletzt dran geschraubt hat. Die Integration der AM3 Maschinen hat noch ein paar Stolpersteine, aber wir arbeiten dran... Erster Testlaut einer Backuploesung mittels rsync-over-ssh mit einem eingeschraenktem authorized_key fuer root. Koennte gehen, laesst sich evtl auch noch mit puppet verhuebschen (was wird von wo nach wohin gebackuppelt...) [/bauerm] permanent link Tue, 28 Feb 2012 Zimmer 331 von Altbaulasten gereinigt. Serverraum teilweise entmuellt Die Uni-eigene Entsorgung, die ueber Univis gar nicht zu finden ist, nimmt unsere Dutzende von Kilo Kupferkabel ab, wir kriegen einen Drahtgittercontainer zum Reinschmeissen. Wir habens geschafft, Frau Echtermeyers Windows-in-Virtualbox zu "aktivieren". Das ist alles andere als trivial, dazu gibts http://webserver-1.mi.uni-erlangen.de/cgi-bin/roundup.cgi/problems/issue157 Der Fileserver macht seit Ende Dezember keine Snapshots mehr, man kommt nicht an das WebGUI und das CLInterface laesst sich nicht mehr starten. Basis.biz angejammert. Von Bechtle haben wir zwar einen 24 Stunden Support, aber in den 24 Stunden schreiben die nur eine Mail, wo drinsteht, dass sie eine Seriennummer und eine Rechnung zu dem kaputten Geraet haben wollen. Hab von der Vertriebsabteilung die Rechnung mailen lassen und gleich wieder an den Support zurueckgeschickt. Fantastisch. Ala lsof -i auf OpenSolaris: pfiles `ptree | awk '{print $1}'` | egrep '^[0-9]|port:' [/bauerm] permanent link Mon, 27 Feb 2012 Was ein Tag. Das AM3 Netz war auf neubau-103 eth2 da. War am Freitag wohl noch zu frueh gewesen. Auf Nexone geht das nmc nicht mehr. Das ist _das_ configtool fuer nexenta Fileserver. svcs -xv (und dann ein bisschen logfiles kramen) zeigt einen Perl Error und wenn man in die Perlmodule schaut, die den Error erzeugen, dann sieht man grauenvolles, naemlich obfuscated Perl. Laut Support brauchts zum Reparieren einen kompletten Software Upgrade, zu dem man Downtime einplanen sollte. Waaa. Fuer AM3 NFS setup umgebaut, dabei einiges ueber die sharenfs optionen gelernt... Auf neubau-103 eth2 eine unbesetzte Adresse im AM3 Netz gegeben. Um das DHCP Serversetup vom AM3 nachzubaun/umzuziehen, den dhcpd auch auf eth2 gestartet. Ergebnis: Linux ist nicht so recht auf multihoming eingestellt. Wenn Antwortpackete nicht auf dem Interface reinkommen, auf dem die Datagramme/Request per TCP/ICMP raus sind, dann sehen die sendenden Programme das nicht, tcpdump tcpdump aber schon. Kaputte Software. Zur Kroenung ist dann die neubau-103 auch noch stehengeblieben, keine Antwort mehr auf gar nix, Tippen an der Konsole ging, Einloggen nicht. Reboot und das mit dem eth2 im AM3 Netz wieder raus. Statt dessen das RRZE gebeten, per DHCP Proxy Anfragen aus dem AM3 Netz zur neubau-103 zu lenken. Funktioniert, getestet von Weller. Das Skript zum Erzeugen von Debian Meta-Packages, die unsere Lieblingssoftware in einem Schwung installieren, hatte den interessanten Bug, dass es bei jedem Update der Liste alle frueheren Versionen dieses Meta-Packages mit eingepackt hat (weil die im gleichen Directory rumlagen wie das debian/control file). Dadurch wurden die mit jedem Update exponentiell groesser, bis das dpkg-deb sie wegen Speichermangel nicht mehr bauen konnte. Skript umgeschrieben, dass es neu gebaute Packete in einem tmpdir ablegt, von wo sie dann in den mirror-tree verschoben werden. Getestet, tut. [/bauerm] permanent link Fri, 24 Feb 2012 Thu Feb 23 16:51:44 CET 2012 Versuchsweise mal epylog angeschaut, leider verschweigt die Doku vollkommen, wie man da die Logdateien angibt, die durchsucht werden sollen. Statt dessen scheint logsurfer interessant zu sein. Dummerweise gibts kein Ubuntu Package dazu, aber inzwischen bin ich willens das selber zu bauen. Aus Daten von AM3 ein dhcpd.conf-Fragment gebaut, das man aktivieren kann, sobald das Netz in neubau-103 steckt. [/bauerm] permanent link Mittels dem magischen "office_activate.bat" vom RRZE das Office auf Frau Echtermeyers VirtualBox "aktiviert". Das "Enterprise" Windows darauf ist aber noch nicht "aktiviert", was mich stutzig macht. Aus der kaputten DL480/5 die kernel logs mit den Panic messages extrahiert und an bechtle.de geschickt AM3 auf neubau-103 getestet, ich finds nicht. Evtl mit Glaeser vom RRZE mailen... Wiki Update: Altes raus, Neues rein Mit Basis Kontakt aufgenommen wegen diverser Fileserver sachen. Mit Kerberos-Einbindung Fileserver begonnen, soll irgendwann NFSv4 erlauben LDAP Support fuer Fileserver ist soweit, dass er unsere User kennt [/bauerm] permanent link Thu, 23 Feb 2012 Versuchsweise mal epylog angeschaut, leider verschweigt die Doku vollkommen, wie man da die Logdateien angibt, die durchsucht werden sollen. Statt dessen scheint logsurfer interessant zu sein. Dummerweise gibts kein Ubuntu Package dazu, aber inzwischen bin ich willens das selber zu bauen. Aus Daten von AM3 ein dhcpd.conf-Fragment gebaut, das man aktivieren kann, sobald das Netz in neubau-103 steckt. [/bauerm] permanent link Wed, 22 Feb 2012 Puppet error: Could not retrieve catalog from remote server: hostname was not match with the server certificate Abgesehen von dem kaputten Englisch ist das nicht hilfreich, weil nicht gesagt wird, _welcher_ hostname denn nicht passt. Nach etwas rumsuchen stellt sich raus, dass es die "server" Zeile in puppet.conf war, in der eine IP statt "puppet" stand. Fuer AM3 alle User ins LDAP/Kerberos gezogen, HOMEs angelet, maildirs angelegt, etc Das RRZE erlaubt unter math.fau.de nur CNAMEs, mal ueberlegen was wir da reintun. Koennte man als massive Symbolic-Link Farm benutzten ala username.math.fau.de CNAME neubau-123... raumnummerhintenlinks.math.fau.de CNAME neubau-123... funktionsname.math.fau.de CNAME neubau-123... [/bauerm] permanent link Tue, 21 Feb 2012 Siemens montiert uns die Videokameras, Papierkram wegen Zulassung ist auf dem Weg. Shellskripten zum Hinzufuegen von Gruppen/dero Mitgliedern ins LDAP geschrieben, das ist alles soooo krank. Und die Checken nicht mal, obs die uids von den Membern ueberhaupt gibt. Null Semantik fuer unglaubliche Redundanz. [/bauerm] permanent link Mon, 20 Feb 2012 Das Bauamt/die Arbeitssicherheit sieht auch, dass die Bodentanks in den CIPs/Praktikumsraeumen zu hoch gebaut sind, und da dauernd Kabel abknicken. Wird bemaengelt. Haben zwei Schraenke fuer Toner+Papier in den CIP Pools aquiriert. Das MS Office "Professional Plus" von Frau Echtermeier jammert wegen eines Lizenzkeys rum. Sehr professionell. [/bauerm] permanent link Thu, 16 Feb 2012 Mit den AM3 Admins abgesprochen, dass 1. sie ihr Netz behalten, RRZE (Glaeser) wurde davon informiert 2. die zentralen Server das AM3 DHCP uebernehmen, inklusive eines dynamischen Bereichs innerhalb des AM3 Netzes. 3. die Drucker von AM3 im zentralen Drucksystem eingetragen werden, aber innerhalb ihres Broadcast Domains Apple-Rendezvous senden, so dass Laptops am Druckserver vorbei drucken koennen. Das Rechenzentrum bietet uns nur ungern Backuploesung, weil ihre Bandmaschinen schon ausgelastet sind, und grad was neues beantragt/angeschafft wird. Wann und was genau ist noch nicht klar, auf jeden Fall was mit nichtfreien Clients. Fuer Bacula gibts eine Anbindung. Laeuft vermutlich darauf raus, dass wir erstmal was eigenes baun. Mir schwebt da ein rsync-cronjob mit einem authorized_keys file vor, um wenigstens die Configs der Server zu sichern. Der Server, den wir fuer die virtuellen Maschinen ausgesucht hatten, eine HP DL485, hat einen Hau. Memorycheck sagt alles ok, aber alle naslang gibts Kernelpanics. Die baugleichen Maschinen im gleichen Rack laufen mit genau dem selben Linux. Deswegen einen anderen genommen. Bechtle benachrichtigen. Im puppet das installserver modul aufgeraeumt und marginal verbessert. Die AM3 Admins haben jetzt einen Testrechner (neubau-55-053) [/bauerm] permanent link Thu, 09 Feb 2012 Frau Kulzer hat interessante Fehler in den Lexmark Printern gefunden. Unter anderem wird zwischen den ersten zwei Seiten, die man manuell in das Ding fuettert, unaufgefordert eine Kopie aus der Scan-Einheit gemacht (typischerweise eines leeren Blattes) Nikos und Katrin haben rausgefunden, dass man mit den Lexmarks in CIP1 nur Dateien bis 1Mb drucken kann. Mal verfolgen... Es gibt Unterstuetzung fuer Usergruppen im RRZE AD, allerdings nicht in faudc1, den wir reinkonfiguriert haben, oder faudc2, der ein clone davon ist, sondern in fauad, der nicht mal unsere Maschinen kennt. Naechste Woche mal mit Frau Kugler reden, wie wir da rein/rankommen. Herr Neeb hatte sich beschwert, dass seine Druckjobs zu lange brauchen. Nikos hat das experimentell bestaetigen koennen und es auf die IP zurueckgefuehrt. Auch das fordert genauere Nachforschung... Nach der Umstellung von MySQL (so ein Haufen Rotz!) auf PostgreSQL waren alle konfigs und alle entdeckten clients weg, und seltsamerweise haben sich bei dem neu aufgesetzten auch noch nicht alle wieder gemeldet... Nach Durchsicht der Besoldungsverordnung stellt sich raus, dass mit der Besoldung, die wir Tobias' Nachfolger anbieten koennen, die "Verantwortung ueber alle Maschinen im Maschinensaal" einhergeht und der Job dann anspruchsvoll ist, wenn "mehr als 1.5 Stapel gleichzeitig abgearbeitet werden" (Stapel == Lochkartenstapel). Die Bezeichnung auf dem Besoldungsniveau ist dann nicht mehr Systemadminstrator sondern Maschinenbediener. Wir brauchen dringend eine besser bezahlte Adminstelle! Mit Puppet automatisch ueberall lokale User anlegen, die ein vorgefertigtes HOME haben, wie es fuer Klausuren am Rechner benoetigt wird, ist gar nicht so einfach... In den Changes 1050:81cba959e0e1 - 1077:1eef4baee6d4 scheint das jetzt implementiert zu sein. Im Raum 01.330 gibts jetzt Ersatztoner fuer HP P3005 und im Druckraum 01 fuer HP 4700. Nach drei Monaten endlich das Buero aufgeraeumt und die Buecher grob einsortiert. Der Virtualbox Server scheint down zu sein, mal mit den AM3 admins reden. Der IMAP Server hat jetzt Support fuer Filter (sieve). Dadurch laesst sich auch eine Art vacation basteln, indem man im roundcube unter Einstellungen->Filter eine Match-Regel anlegt und in einem Drop-Down weiter unten dann "Abwesenheitsnotiz" auswaehlt. Da kann man dann auch den Text eingeben. Sehr schoen, weil die Alternative, den vacation text im LDAP ablegen zu muessen, wirklich grauslig ist. Den Druckern in den CIP Pools zusatz "Tray"s mit 550 Blatt Kapazitaet gegeben. Papier fuer die CIP Pools beiseite geraeumt, erstmal 2000 Seiten, das wird aber nicht lang halten. Idealerweise sollten wir absperrbare Schraenke fuer Papier+Toner in den Pools haben. Die Lexmarks wechseln (sinnvollerweise) nur dann von einem Papierfach zum anderen, wenn dort auch das gleiche Papier hinkonfiguriert ist. Leider ist default fuer tray 1 "plain paper" und fuer tray 2 was anderers. Das muessen wir in der std-config, die wir per .ucf auf neue Drucker hochladen, noch korrigieren. [/bauerm] permanent link Stromzufuhr an einem Bodentank im CIP Pool 1 war aus, wohl weil die Kabel zu stark geknickt werden, wenn jemand auf den Deckel tritt. Haben die Stromkabel durch welch mit abgewinkelten Steckern ersetzt. Mehrere Leute beschweren sich --- wohl zu Recht --- ueber zu langsames Drucken. Erleuchtung: Mit XeLaTeX und dem fontspec Package kann man praktisch jeden OTF Font ohne Aufwand benutzen. Sehr cool. Puppet hat seit 2.6 ein "push" bzw "kick" Feature. In Gegensatz zu den Aussagen einiger HOWTOS im Netz brauchts dazu zwei (WARUM??) Configdateien, in denen redundanteweise drinsteht, dass server xyz einen puppetrun anschubsen darf. ist jetzt per zentral verteilter puppet.conf eingeschaltet, kann per puppet kick --host $hostname1 --host $hostname2 ... fuer die genannten Hosts getan werden. Leider geht das kick --all nur mit einer LDAP (WARUM??) Datenhaltung aller nodes. Ueber Nacht das klausur_user so umgebaut, dass jetzt hoffentlich relativ einfach eine masse klausuruser mit vorgegebenen passwoertern und Inhalt des HOMEs erzeugt werden koennen. [/bauerm] permanent link Fri, 03 Feb 2012 Zabbix ist neu aufgesetzt, jetzt mit postgresql als Backend. Frau Wendler ist auf das interessante Problem gestossen, dass \marginpar in LaTeX Beamer Folien zu dem unschoenen Fehler ! LaTeX Error: Float(s) lost. fuehrt. Das versteht aber niemand, wie auch in http://www.tex.ac.uk/cgi-bin/texfaq2html?label=fllost zugegeben wird. [/bauerm] permanent link Wed, 01 Feb 2012 Es gibt jetzt ein Laptop-DHCP-Netz 192.168.65/24, in dem alle unbekannten MACs landen Erste Drucker in den CIP Pools, vorlaeufig nur gegen die 600 Freiseiten Quota aus Studiengebuehren. Daten zu den Usern werden in eine sqlite DB gehalten, User hinzufuegen geht mit ~sam/pykotadduser/pykotadduser.py. Frau Echtermeyer moechte aus dem UZD (windowsterminal am RRZE) auf einem unserer Drucker drucken koennen. Das funktioniert schon fuer Frau Schinderls PC. Mit diversen Leuten am RRZE emailiert und telefoniert. Bis jetzt ohne Ergebnis. Herrn Neebs Laptop installiert und uebergeben. Lexmark printer koennen wohl kein StartTLS. Auf jeden Fall kann man keine Mailweiterleitung ueber port 587 zum laufen kriegen. Der Zabbix ist so ein (*%&^%$^(. In allen Konfig-files, im DNS und in der DB des Dingens selber steht der server jetzt als "monitor", trotzdem erzaehlt jeder Client ....failed: host [monitor] not found [/bauerm] permanent link Tue, 17 Jan 2012 Das elendige zabbix-install-ueber-puppet problem mit einem Spucke+Bindfaden Trick geloest. puppet ist manchmal seltsm Beim Kopiern der Daten von MySQL auf PostgreSQL ist die Platte uebergelaufen :( Das ganze PostgresQL ist jetzt ein Link auf /var/log/postgres, wo mehrere hundert GB frei sind... Bjoern hat fuer Frau Echtermeyer ein Windows in einer Virtualbox angelegt. Der alte pan von Herrn Knop macht Probleme im Multi-Display mode, Patrick hat da viel Arbeit reingesteckt, aber tut nicht... Serverraum hat zu wenig Stecker. Alex Prechtel meint, dass die Elektriker sowieso noch wegen den anderen Serverraeumen kommen. Evtl also nochmal 16A reinlegen lassen. Rechner fuer Herrn Greven installiert. Fuer Frau Graessel einen fuerchterlichen Workaround fuer das kaputte thunderbird gebastelt [/bauerm] permanent link Mon, 16 Jan 2012 Herr Greven moechte auch einen PC, wir sind dran Wigand hat eine Loesung fuer das Gemeinsame Nutzen von Kalendern mit Lightning, ueber ein DAV Modul im Apache. Scheint einfach. Das Druckernetz mit Dosen befuettert. Herr Glaeser traegt das ein. Unser "Kontakterpersonen" Account beim RRZE war abgelaufen. Was mit keinem Wort erwaehnt wurde. Verlaengert. Frau Echtermeyer moechte wieder ein Windows haben, wir legen das in eine VirtualBox und ziehen ihre Daten vom Backup rein. Um Zabbix von MySQL auf Postfix versucht umzustellen, das ist nicht vollkommen trivial.. [/bauerm] permanent link Fri, 13 Jan 2012 Herrn Geyer seine alte url wiedergegeben Unbeabsichtiger Test: Klimaanlage im Serverraum 16 Stunden ausgeschaltet gelassen, erzeugt nicht sehr viel Hitze (27 Grad). Ufffff Waaaa. MySQL (das wir als Backend fuer Zabbix nehmen) kann keine Daten loeschen. Nachdem wir "nur" 50 Gb Partition haben, macht das schnell Probleme. [/bauerm] permanent link Thu, 12 Jan 2012 Herr Knauf moechte seinen Kalender fuer Frau Moch einsehbar machen auch gehen, aber der default legt die Termine in einem sqlite file im Home ab, und das kann zwengs permissions keiner lesen. Loesung vermutl ein zentraler CalDAV Server, evtl beim RRZE. Mit den AM3 Admins besprochen, wie wir einen "Virtualisierungs Server", den zweiten CPU Server und eine erste Testmaschine einrichten. [/bauerm] permanent link Wed, 11 Jan 2012 Der Drucker von Frau Meusburger raucht. Das ist der ehemalige f, der sicher schon mehrere hundertausend Seiten gedruckt hat. Durch einen neuen Lexmark ersetzt. Unsere Nutzerrichtlinien sind aus dem Jahr 1995. Durch die aktuellen vom RRZE ersetzt. [/bauerm] permanent link Tue, 10 Jan 2012 Rausgefunden, dass die Lexmarkprinter ihre Konfig in einem Textformat dump-en koenen. Damit koennen wir neue Drucker schnell auf Habeamus Hiwiam! Wir haben eine neue Mitarbeiterin mit einem 7 Stunden Vertrag. [/bauerm] permanent link Mon, 09 Jan 2012 Weitere Laptops diverser Leute ins DHCP Um Freidrucke und Uebergriffe auf Server vom CIP Pool aus zu vermeiden, muessen wir die Drucker wohl in ein eigenes Netz stellen. Dazu muessen wir aber die Dosennummern wissen, die wiederum ... OK eigenes Druckernetz, 192.168.55.0/24, das absolut nicht routebar ist. Kommt im Serverraum aus Switchport 25, geht nur zu den designierten Dosen im Erdgeschoss. Drucker in Stockwerken drueber koennen wir da noch mit reinhaengen. [/bauerm] permanent link Tue, 13 Dec 2011 Thunderbird Setup fuer Herrn Berens auf seinem privatem Laptop hingefummelt. Der Laptop, den wir fuer Herrn Keller bestellt hatten, hat einen Hardware (Memory) Fehler, wird zurueckgeschickt. Zum Glueck haben wir mehrere bestellt. Herr Juergensen vom RRZE IZI versucht weiterhin, Frau Forkels A3 Drucker (der schon mal ging) in das Windows-Zentralsystem einzubinden. Vandalismus: Aus mehreren CIP Rechnern sind Festplatten und Prozessoren gestohlen worden. Prechtel wegen Kamera gefragt. Frasch wegen Kensington Locks gefragt, 10 Euro, koennten Donnerstag geliefert werden. [/bauerm] permanent link Mon, 12 Dec 2011 Tobias hat gekuendigt. Sehr schlecht. Mit der reduzierten Adminkraft koennen wir nicht mehr so schnell reagieren, wir stellen auf Betrieb wie in der freien Wirtschaft um, alles geht jetzt ueber http://www.math.uni-erlangen.de/problems Jemand hat printer-85(-ds) geschrottet, hat kein Netz mehr. keine Ahnung was tun. Drucker sind geliefert, wir versuchen einen mal Studentenfest zu machen, dann kriegen die auch Drucker. [/bauerm] permanent link Wed, 23 Nov 2011 Tobias hat bis 5:00 frueh CIP Pool re-installiert. Mal schaun, obs was hilft. Der Stromausfall hat die Server nicht erwischt, wies ausschaut. Ob die Elektriker jetzt alles angeschlossen haben, bleibt herauszufinden. Mit Johannes Mueller vom Wima Lehrstuhl dem Elektriker vorgegeben, wie er den WiMA Schrank mit Steckerleisten versorgen soll. Die sind dann an einem eigenen Draht. Weiter Einbruch hinterhergearbeitet. Scheissjob. Passwds geaendert, mount options verbessert. Auf einem CIP PC ist uns das BIOS zerschossen worden.. mal schaun Gesamt-Quota fuer den /stud Ast eingetragen, 6Tb. Nikos hat einen schoenen Start-Screen fuer Logins gemacht, auf dem schonmal die relevante Info steht... Rausgefunden, dass man den verfluchten "Sie koennten auf die naechste Ubuntu Version upgraden" update-manager ausschalten kann, mit gconftool -s --type bool /apps/update-notifier/auto_launch false Das kann man auch in XML uebersetzten und zu einer globalen Option machen. (ist im puppet, aber ungetestet). In den alten HOMEs lagen faelschlich kopierte .zfs dirs... Einen puppet-change gebaut, der auf dem CIP pool mit etwas Glueck einen Bildschirmhintergrund zeigen sollte, auf dem u.a. die Telefonnummer des HiwiTelefons steht. Das 4Tb grosse File war gar nicht so leicht zu loeschen, weils natuerlich in die snapshots wandert, sobald mans wegmacht. Also per skript: while [ $u -gt 17000000000 ] ; do x=`for i in snap-*; do zfs get -Hp used coraid01/homes/stud@$i; done | awk '{print $3 " " $1}' | sort -n | tail -1| tee /tmp/used | awk '{print $2}'`; u=`awk '{print $1}' < /tmp/used`; echo $u; echo $x; y=`echo $x| sed 's/^.*@//'`; echo $y; zfs destroy coraid01/homes/stud@$y; done alle snapshots geloescht, bis zur ctime dieses files (22.11, 23:45). Frasch hat den alten pan wiedergebracht, eine Platte war defekt. Das ist jetzt die dritte Platte in dem PC die kaputtgeht. [/bauerm] permanent link Tue, 22 Nov 2011 Frau Forkels iMac das Drucken beigebracht. Frau Graessel hat das Problem, dass MacOS nur sehr bedingt Gruppen-Schreibrechte auf Dateien kapiert. In der Shell kein Problem, aber die GUI und diverse Programme erlauben ihr nicht, auf Dateien/Verzeichnisse zuzugreifen, auf denen sie nicht Inhaberin ist, aber Gruppenschreibrechte hat. Frau Forkels uraltPC mit einigem Aufwand einen Drucker gegeben (USB funktioniert nur ein paar Seiten lang, dann haengts) Diverse Webmaster Anfragen weitergeleitet. AM2 wuenscht HOMEs per CIFS, und Authentisierung gegen das RRZE AD. Mal schaun wie wir das schaffen. Herr Graef kann unterstuetzen, der hat schon alles gemacht.. Die Elektriker haben den CIPPool 2 abgesperrt, und den einzigen Schluessel mitgenommen.. Amerik. Tastaturen sind jetzt da. Defekten Monitor von Frau Kulzer an Frasch zum Austausch weitergegeben. Defekten PC von Herrn Knop an Frasch uebergeben. Den CPU Server von AM3 reaktiviert, er war mit dem falschen Etherport angeschlossen gewesen, und hat dann einige Zeit gebraucht, bis er sich eine DHCP Addr geholt hat. Versuch, einen NAT-Gateway auf neubau-103 aufzusetzen. Durch Tippfehler (oder falsches HOWTO) kam kurze Zeit jeder ausgehende Traffic von 10.131.54.1 ... Wir wurden letzte Woche auf ein ernstes Sicherheitsproblem hingewiesen. Das Problem wurde umgehend behoben, jetzt erreicht uns aber die Information, dass zahlreiche Leute das Sicherheitsloch ausgenutzt haben, um auf den cip-pool Maschinen Unfug zu treiben. Massnahmen begonnen, das einzudaemmen. User des CIP pools sollten auf jeden Fall ihre Passwoerter aendern. Beim Durchschaun der NFS HOMEs ein .xsession-errors.old gefunden, das 4 _Terabyte_ gross war. Scheint aber tatsaechlich der Output von einem X-wasauchimmer zu sein, wo der User eine Endlosschleife programmiert hatte. Quotas einfuehren... [/bauerm] permanent link Mon, 21 Nov 2011 Das Ubuntu Package nslcd installiert kein Startup-Skript => man wuerde sich nie einloggen koennen. Bei uns ist das nicht so arg aufgefallen, weil puppet das nach ein paar Minuten startet, wenns nicht laeuft. Das Startup-Skript wird jetzt ebenfalls von puppet installiert, wos nicht existiert. Frau Forkels Igel endlich ans Netz gekriegt. Es ging nicht ueber das Windows-uebliche Systemsteuerung->Netwerke->TCP/IPv4->Gefuddel, sondern ueber einen kleinen gelben Boppel am unteren Bildschirmrand. Drucker aus der Bismarckstrasse wieder zum Leben erweckt, so dass etwas mehr Drucker da sind. [/bauerm] permanent link Fri, 18 Nov 2011 Herrn Knops (nicht sehr) alter PC Pan scheint verstorben. Frasch fragen. Frasch wegen Steckerleisten fuer Serverschraenke angefragt. Er hat voellig richtig darauf hingewiesen, dass durchs Kaskadieren von Steckerleisten die maximale Leistung der Wurzel-Steckerleiste auch nicht groesser wird. Und bei unserer Servermasse koennt das bald knapp werden. Deswegen (und wegen der immer noch nicht fertigen Bodentanks in den Praktikumsraeumen) die Elektriker angemailt. Herr Prechtel hat uns netterweise MATLAB auf den fileserver installiert. Dazu hat neubau-195 schreibrechte auf dem /volumes/coraid01/kommerz auf nexenta. [/bauerm] permanent link Wed, 16 Nov 2011 Gelernt, dass man am Igel Terminal "Shift" beim Ausloggen druecken muss, wenn man einen Login Screen haben will. Wichtig zum Umnummerieren von Forkels Maschine. Im Raum 1.346 gabs keinen Strom. Bauleitung benachrichtigt. Mukherje hatte noch keinen Rechner, sonst sind die noch nicht aufgebauten im zweiten Stock alle in Biomath Zimmern. Frau Sandersons alter PC (ex Hephaistos) hat einen seltsamen Monitorausgang, und der Adapter auf 2x DVI ist beim Umzug wohl verlegt worden. Morgen einen einkaufen, vorlaeufig einen neuen PC hingestellt. Wir haben nur noch fuenf PCs auf Reserve, und noch weniger Monitore. Nachbestellen. Im Serverraum aufgeraeumt. Es gibt immer noch keine Stromversorgung fuer einen dritten Serverschrank, und weder Strom noch Netz in den Waenden. Weiter Mailprobleme verfolgt. Der Postmaster vom RRZE sagt, bei ihnen wird nichts abgezweigt oder umgeschrieben, was fuer mi.uni-erlangen.de ist. Wenn also eine Mail nicht in unseren Logs auftaucht, dann ist sie nie bis zur Uni gekommen. Als Arbeitsgrundlage gut zu wissen. Nachdem Herr Burlacu darauf hingewiesen hat, dass es noch Studenten-HOMEs auf dem Fileserver gibt, die in der Bismarckstrasse mit den dortigen UIDs erzeugt worden waren, wurden heute die letzten davon auf die UIDs umgeeignet, die aus unserem AD/Winbind Setup vergeben werden. [/bauerm] permanent link Tue, 15 Nov 2011 Neuen Server installiert. Weil HP die MACs nicht leicht zugaenglich aufdruckt, musste ich dazu im Serverraum erstmal dhcp Server fuer das iLO der Maschine spielen, mich dort dann einloggen (da gibts eine Moeglichkeit SSH pubkeys hochzuladen, das sollten wir verfolgen...), da auf textcons zu wechseln und dann PXE boot anzustossen. Der neuen Server soll fuer Monitoring, Logs und als Fallback fuer LDAP/Kerberos dienen. Nachdem die Drucker so ewig auf sich warten lassen, haben wir jetzt alle verbleibenden in Dienst genommen. Und die sind so inhomogen wie sies eben schon waren. Ajax wieder in Betrieb genommen, jetzt als neubau-120. Erster Diebstahl: jemand hat eine Nvidia GeForce 405 aus einem PC im zweiten Stock gestohlen. Knops Mail Folder auf den IMAP Server gezogen, ging wohl gut, die Prozedur ist im wesentlichen automatisiert. Mailfolder dieser Art erkennt man an der Zeile: This text is part of the internal format of your mail folder, and is not Weitere Laptops ins Netz aufgenommen. [/bauerm] permanent link Mon, 14 Nov 2011 Frasch kann die 20 Drucker nicht vor Dezember liefern. Dreck Ein Side-effect der OpenLDAP Bugs war, dass unsere Liste erlaubter Empfaenger zu kurz war, und deswegen Mail abgelehnt wurde. Nachdem das Bauamt ab heute die Schloesser in der Bismarckstrasse austauscht, haben Tobias und ich alle Server von dort geholt. War etwas kniffelig, wegen den verschiedenen Schienensystemen, und weil wir ganz schoen zu schleppen hatten. Was wir in der Hektik vollkommen vergessen hatten, war, dass die helena noch an zahlreichen Stellen als DNS server drinsteht, oft sogar als einziger. Saubloed. Und die ziusudra stand noch nicht mit ihrer neuen Adresse im DNS und auch nicht in den /etc/hosts, die sie selber verteilt hat. Auch Saudumm. Dadurch war der Betrieb grossflaechig gestoert. Gut Ding muss Weile haben. Backup aller Mails von helena gemacht. Die zwei iMacs hier sind jetzt vollkommen kaputtkonfiguriert. Auf der ziusudra war noch YP an, dementsprechend langsam war alles, weil ja kein YP MAster mehr da war. Neuen Trick gelernt: Wenn man nicht als root auf eine Kiste kommt, und von der als Root (per sudo o.ae.) ein Backup auf eine andere ziehen will (und grad kein Netcat auf der Maschine ist), dann kann man folgendes tun: A# mkfifo /tmp/out A# tar cf - das_directory | gzip -1 > /tmp/out B% ssh -l nichtroot A 'cat /tmp/out' | ssh C 'cd /var/tmp/ && tar xfz -' Das entpackte Backup liegt dann auf C:/var/tmp Frau Humbach einen PC hingestellt, da das mit den iMacs noch warten muss Mailproblemen hinterdebuggt. Noch unklar. Frau Kulzers HOME auf eine externe Platte gezogen. Bei einem Laptop war von Urzeiten her die helena als DNS Server reinkonfiguriert, obwohl die IP per DHCP bezogen wurde. Wenn man das auf "Automatisch beziehen" umstellt, gehts. Herrn Stummers Celsius R570 installiert. Da war im BIOS von Werk ab das Booten per PXE ausgeschaltet, was man ueber einen Dialog tief unter "Advanced Peripheral Configuration" oder so wieder einschalten konnte. Es sind jetzt sechs Drucker im Netz verfuegbar. In meinem Bureaux steht noch mindestens ein weiterer. Auf neubau-103 ein Skript /home/sam/bin/mkimapfolder gebaut. Das benutzt das (etwas gepatchte) /home/sam/mb2mb.pl, um aus "folders" vom alten Thunderbird echte Folder auf dem IMAP Server zu machen. Mit den Mails von knop mit dessen Genehmigung ausprobiert. Argumente sind der Name des Folders (der in mbox Format sein muss), und der Name der Mailbox, wos hinsoll. Den alten ajax auf neubau-120 uminstalliert. Beim alten Cadmus fehlt ein Doppel-DVI auf DVI Kabel Im Praktikumsraum 1 haben die Elektriker durch hartes Ausschalten einen sehrsehr seltsamen Fehler produziert. Der Bildschirm ist auf der linken Haelft voellig ok, auf der rechten hat er eine 640x400 Aufloesung [/bauerm] permanent link Sun, 13 Nov 2011 Stellt sich raus, dass OpenLDAP als _default setting_ nur 500 Antworten liefert. Laesst sich mit "size limit unlimited" im slapd.conf abstellen. Deswegen ist unser std-test getent passwd | grep tobias immer fehlgeschlagen, obwohl die Maschinen bestens mit dem LDAP reden konnten. Wer denkt sich sowas aus??? *doppelstirnklatsch* [/bauerm] permanent link Fri, 11 Nov 2011 neubau-115 ist noch laptopk -> reinstall Mehrere Maschinen reinstalliert, ueberall mit einem account aus dem kerberos getestet, geht ueberall ausser neubau-229. Unglaublich! nslcd laesst sich mit -d starten (debug) und wenn man "getent passwd" ruft, schmeisst er "ldap_result failed: Size limit exceeded". *stirnklatsch* Testen die das mit einem einzigen User !?!?!?!? Einmal durch alle Raeume in beiden Stockwerken und alle Maschinen durchgeschaut, einige brauchen installs, Kabel, keytabs,... Eine Latte Eintraege ins roundup deswegen. Passwort von Frau Wendler ausgetauscht, das Login geht jetzt. [/bauerm] permanent link Thu, 10 Nov 2011 Thursday, November 10, 2011 00:35:57 Loglevel auf OpenLDAP wieder ganz zurueckgedreht, das scheint den meissten delay zu machen. Hoffentlich hilft das. Einige Maschinen konnten per Wake-On-Lan geweckt werden, dazu muss man im BIOS unter Security das Skip on Wake-On-Lan _enabled_ werden (sonst braucht man ein passwd) Pythonfragment, um strings nach hex zu wandeln (falls man doch mal Passwds braucht) toHex = lambda x:"".join([hex(ord(c))[2:].zfill(2) for c in x]) Auf einigen Maschinen nach dem WoL per Hand ueber ssh mit apt-get update && apt-get dist-upgrade && puppetd --test repariert, was noch ging. Maschinen, auf denen LDAP+Kerberos erfolgreich getestet wurde: neubau-195 (bauerm) neubau-215 (bauerm) neubau-222 (bauerm) neubau-235 (Schalke) Bei manchen half ein reboot vorher (???) neubau-114 glaubte "laptopd" zu sein, fixed. Beim autoinstall kann eine Maschine an mehreren Punkten haengen: Beim DHCP, wenn das Kabel defekt/nicht angeschlossen ist -> Neues Kabel anschliessen wenn die Dose an der Wand nicht geht -> Mail an Prechtel wenn die MAC Adresse nicht im puppet/FAI Server konfiguriert ist -> Mail/Zettel mit der MAC an bauerm/michelis Beim puppet run, wenn die Kiste noch nicht signiert ist -> Nachricht an bauerm/michelis wenn es keine Kerberos Keytab dafuer gibt -> Nachricht an bauerm/michelis [/bauerm] permanent link Loglevel auf OpenLDAP wieder ganz zurueckgedreht, das scheint den meissten delay zu machen. Hoffentlich hilft das. Einige Maschinen konnten per Wake-On-Lan geweckt werden, dazu muss man im BIOS unter Security das Skip on Wake-On-Lan _enabled_ werden (sonst braucht man ein passwd) Pythonfragment, um strings nach hex zu wandeln (falls man doch mal Passwds braucht) toHex = lambda x:"".join([hex(ord(c))[2:].zfill(2) for c in x]) Auf einigen Maschinen nach dem WoL per Hand ueber ssh mit apt-get update && apt-get dist-upgrade && puppetd --test repariert, was noch ging. Maschinen, auf denen LDAP+Kerberos erfolgreich getestet wurde: neubau-195 (bauerm) neubau-215 (bauerm) neubau-222 (bauerm) neubau-235 (Schalke) Bei manchen half ein reboot vorher (???) neubau-114 glaubte "laptopd" zu sein, fixed. Beim autoinstall kann eine Maschine an mehreren Punkten haengen: Beim DHCP, wenn das Kabel defekt/nicht angeschlossen ist -> Neues Kabel anschliessen wenn die Dose an der Wand nicht geht -> Mail an Prechtel wenn die MAC Adresse nicht im puppet/FAI Server konfiguriert ist -> Mail/Zettel mit der MAC an bauerm/michelis Beim puppet run, wenn die Kiste noch nicht signiert ist -> Nachricht an bauerm/michelis wenn es keine Kerberos Keytab dafuer gibt -> Nachricht an bauerm/michelis Noch 10 Gigabit-5-Port Switches bestellt, da einige Bueros zu wenige Datendosen haben. Zwei Gigabit-16-Port Switches bestellt, um ein Testnetz aufzubaun Nochmal Amerikanische Tastaturen geordert, Deutsche verwirren nur Amerikanische Tastatur an Wendlers iMac Bei Fairbairn, Merigon, Neeb Maschine so hingebogen/reinstalliert, dass Login ging. William und Andreas sind durch fast alle Bueros und haben weiter aufgebaut, BIOS Settings eingestellt, laufende Systeme auf neuen Stand gebracht, um den puppet bug auszubueglen, puppet runs angestossen, um die konfigs auf neuen Stand zu bringen, ... Grad eben laufen 45 Maschinen im Neubau Netz. Das scheint etwas wenig. [/bauerm] permanent link Wed, 09 Nov 2011 Hoelle. Der OpenLDAP Server spinnt manchmal und muss dann restartet werden, und das ist nicht leicht zu diagnostizieren. Dadurch wurden bei uns Mails verworfen, weil im postfix/main.cf eine ldap-map fuer die local-recipients steht, und das ding halt nicht geantwortet hat. Drucksystem angefangen, zwei Drucker haben wir jetzt schon. Niemand vom IZI ist erreichbar, um Frau Forkels Igel-Terminal zu rekonfiguren IMAP "Folder" die mittels thunderbird o.ae. auf dem alten System angelegt wurden, sind einfach mbox-Files im HOME der user. Wenn man die in echte IMAP Folder auf dem Server wandeln will, kann man das z.b. mit dem mb2md.pl Skript machen (http://dovecot.org/tools/mb2md.pl) Fuer $user mit $mfolder im $HOME ginge das so (auf dem mailserver, nachdem man da $HOME/$mfolder hinkopiert hat): perl /home/sam/mb2md.pl -WUL -s $HOME/$mfolder -d /var/mail/$user/.$mfolder chown -R $user /var/mail/$user/.$mfolder echo "$mfolder" >> /var/mail/$user/subscriptions Erst wenn man letzteres gemacht hat, zeigen die diversen imap reader die folder an... Probleme mit den Macs: Wenn die kein Netz beim Startup haben, haengen sie sich auf. Durch die obige Panne mit puppet auf Ubuntu waren die meisten Maschinen nicht in dem Zustand, dass sie mit dem kerberos Server haetten reden koennen. Manche user haben die Maschinen ausgeschaltet oder schlagengelegt, so dass wir da auch nix dran aendern konnten. [/bauerm] permanent link Tue, 08 Nov 2011 Aha. Ein Teil des Kerberos Setups benutzt /etc/krb5.keytab, ein anderer eine Database. Authentisierung ueber ssh/gdm/... funktioniert nur, wenn _alle_ Hostkeys aller Clients in der /etc/krb5.keytab vom Kerberos Authserver stehen. Da wir die keytabs schon erzeugt haben, bevor die Maschinen installiert waren, ging das importieren aller dann mit (for i in `echo /etc/krb5.keytab; ls *.keytab`; do echo "read_kt $i"; done; echo "write_kt /tmp/all.keytab") | ktutil mv /tmp/all.keytab /etc/krb5.keytab Na toll: https://bugs.launchpad.net/ubuntu/+source/facter/+bug/885998 Die haben puppet kaputtgemacht, vier Tage bevor wirs fuer ueber mehr als 200 Rechner laufen lassen. Mailserverumstellung dauert jetzt noch 21 Stunden, dann sind die DNS Eintraege umgebogen. Die Umzugsfirma hat keinen einzigen Drucker aus dem Keller hergebracht, macht das Einrichten eines Drucksystems schwierig. [/bauerm] permanent link Mon, 07 Nov 2011 Sat Nov 5 16:21:23 CET 2011 Auf ziusudra mein home unshared und auf helena meine addr als alias zu math.fau.de eingetragen. Geht. Alias maps fuer postfix aus textfiles: postalias hash:/etc/mi.aliases Liest das /etc/mi.aliases und schreibt ein /etc/mi.aliases.db Die mi.aliases auf dem neuen mailserver funktionieren (waren aus den .forwards des alten generiert) [/bauerm] permanent link Mon Nov 7 21:28:20 CET 2011 Was ein Tag. Die Raumnummern mancher Bueros stimmen nicht, deswegen sind die ueberzaehligen Rechner in der Geschaeftsstelle im ersten Stock gelandet. Alle neuen Server sind wohlbehalten angekommen, und wir haben jede Menge ueber Rackschienen gelernt. Fileserver vermisst ein 10GBit Netzkabel, ist davon aber nicht angefochten, und serviert weiter alle HOMEs, CIP pool scheint weiter zu laufen. Webserver wurde unsanft runtergefahren, hat aber ueberlebt. Installserver verteilt wenigstens Adressen. Im Buero von Bauer als auch Michelis gibts keinen Strom. Mailserver akzeptiert MSA (mail submission protocol, port 587), wenns ueber TLS geht. imap auf Mailserver geht. helena, ziusudra, faiserver und nimrod laufen tapfer im Altbau weiter, so dass dort Mail angenommen wird, webserver noch tut, laptops noch adressen und netz kriegen, und die helena noch auf die .forwards zugreifen kann (HOMEs werden nicht mehr exportiert, sobald ein Skript durchgelaufen ist, das jetzt schon eine Stunde laeuft.) [/bauerm] permanent link Sun Nov 6 00:49:45 CET 2011 Wenn man fuer postfix ldap maps nehmen will, muss man eine art konfig file schreiben, in dem server, und searchbase angegeben werden. Wenn der Mailserver nach der Exisitenz eines users fragt, stellt er dummerweise die Frage nach einem Attribut, das in unserem LDAP setup nicht existiert. Das kann man aendern indem man "query-filter = (uid=%u)" einbaut, dann wird der Username genommen. Waaa. Beim Mailkonvertieren gemerkt, dass eine ganze Reihe user nicht im kerberos oder LDAP sind. Viele User auf einmal anzulegen, scheint ein schwieriges Problem. [/bauerm] permanent link Was ein Tag. Die Raumnummern mancher Bueros stimmen nicht, deswegen sind die ueberzaehligen Rechner in der Geschaeftsstelle im ersten Stock gelandet. Alle neuen Server sind wohlbehalten angekommen, und wir haben jede Menge ueber Rackschienen gelernt. Fileserver vermisst ein 10GBit Netzkabel, ist davon aber nicht angefochten, und serviert weiter alle HOMEs, CIP pool scheint weiter zu laufen. Webserver wurde unsanft runtergefahren, hat aber ueberlebt. Installserver verteilt wenigstens Adressen. Im Buero von Bauer als auch Michelis gibts keinen Strom. Mailserver akzeptiert MSA (mail submission protocol, port 587), wenns ueber TLS geht. imap auf Mailserver geht. helena, ziusudra, faiserver und nimrod laufen tapfer im Altbau weiter, so dass dort Mail angenommen wird, webserver noch tut, laptops noch adressen und netz kriegen, und die helena noch auf die .forwards zugreifen kann (HOMEs werden nicht mehr exportiert, sobald ein Skript durchgelaufen ist, das jetzt schon eine Stunde laeuft.) [/bauerm] permanent link Sun, 06 Nov 2011 Wenn man fuer postfix ldap maps nehmen will, muss man eine art konfig file schreiben, in dem server, und searchbase angegeben werden. Wenn der Mailserver nach der Exisitenz eines users fragt, stellt er dummerweise die Frage nach einem Attribut, das in unserem LDAP setup nicht existiert. Das kann man aendern indem man "query-filter = (uid=%u)" einbaut, dann wird der Username genommen. Waaa. Beim Mailkonvertieren gemerkt, dass eine ganze Reihe user nicht im kerberos oder LDAP sind. Viele User auf einmal anzulegen, scheint ein schwieriges Problem. [/bauerm] permanent link Sat, 05 Nov 2011 Auf ziusudra mein home unshared und auf helena meine addr als alias zu math.fau.de eingetragen. Geht. Alias maps fuer postfix aus textfiles: postalias hash:/etc/mi.aliases Liest das /etc/mi.aliases und schreibt ein /etc/mi.aliases.db Die mi.aliases auf dem neuen mailserver funktionieren (waren aus den .forwards des alten generiert) [/bauerm] permanent link Fri, 04 Nov 2011 Thu Sep 7 15:44:11 CEST 2011 Neuen Webserver auf einer ProLiant 380 aufgesetzt. Dafuer den FAI-Server um das Modul webserver erweitert und die Konfiguration auch ins puppet reingespiegelt. Webserver musste unten in den switch-Schrank gelegt werden, da im Serverraum die Sicherungen zu schwach sind. Wed Oct 5 18:18:35 CEST 2011 Drucken klappt endlich fuer den Neubau. Unbekannte Nutzer werden automatisch angelegt, unbekannte Printer ebenso. Zur Zeit ist noch ein Accounting aktiv. Jeder User wird zur Zeit mit einem Accounting von 25.0 Credits versehen und jede Seite kostet 0.05. Vielleicht so lassen um Massendrucker zu entlarven? Man kann sie ja jederzeit hochsetzen. [/michelis] permanent link Verzweiflung! ausserhalb von Praktikumsraum II geht kein Einloggen. Schlecht. Mit Frau Loehlein nach Ursachen geforscht. Ein Restart von winbindd behebt das Problem. Einen entsprechenden Cronjob auf allen neubau cip Maschinen eingerichtet. Warum das aber so ist weiss niemand. Patrik Muehlbauer konnte sich (wie mehr als hundert andere) nicht uebers ActiveDirectory einloggen. Nachdem er in idm.uni-erlangen.de sein passwd geaendert hatte, gings. Magie! Folgende cip Maschinen tun nicht richtig: cip-54-18 cip-54-35 cip-54-50 cip-54-57 cip-54-87 Bei 87 liegts daran, dass der noch nicht mit dem puppet redet. Patrik hat die Verkabelung des Fileservers aufgezeichnet, so dass der Aufbau "einfach" sein sollte Zeug verpackt. Die werden fluchen. Das Rackschrankproblem scheint umgangen, wir haben 2 * 24 - 2 Dosen frei Hab noch eine Anleitung zum Ein/Anbau von HP Rackschienen gefunden, beruhigend Einen DNS Server fuer mi.uni-erlangen.de aufgesetzt und dort neubau-103 als MX fuer den ganzen domain rein. Funktioniert! aruru ausgemacht. Mit Simon Betz die restlichen Maschinen in CIP Pool 1 verkabelt und installiert. Tut! Begruessungszettel mit Username+Passwort und ein paar Tips fuer die Mitarbeiter ausgedruckt. Sollte die Installation klappen, koennen die damit sofort loslegen. Dieses Weblog auf den neuen Webserver bewegt! [/bauerm] permanent link Thu, 03 Nov 2011 Frasch hat die 60 weiteren PCs, Stromkabel, Netzkabel, Mehrfachstecker und den letzten Rackschrank geliefert. Die PCs+Monitoree stehen in Kisten in den Bueros. William hat mit dem Verkabeln angefangen, an mindestens einem Arbeitsplatz sind aber arg wenig Stromdosen, deswegen Anschlusskabel an das PC Netzteil fuer den Monitor geordert (und bekommen). Serverraum: die Elektriker haben nur fuer zwei Rackschraenke Strom geliefert, heut mittag stand schon der dritte (von AM2) drin, und der musste sich schon Strom aus den Dosen der zwei ziehen. Heute muesste auch noch der Schrank von WiMa kommen, und der braucht auch noch Strom. Prechtel hat das Problem an die Elektriker gemeldet, die bis morgen was machen werden (aber was?). Skript geschrieben, dass unsere dhcp konfig im Altbau auf den neubau abbildet, d.h. laptops mit bisher fixen addressen kriegen weiter fixe addr, nur andere, und maschinen, die bisher vom autoinstaller kamen, tun das weiter. Fuer neubau-110 - neubau-246 kerberos keytabs erzeugt und im puppet integriert. Sollten jetzt per puppet auf die Maschinen gebuegelt werden. Wieder ActiveDir Probleme: Login geht nur noch auf den Maschinen cip-54-x fuer x \in {59,..,95} Das deckt sich im wesentlichem mit Praktikumsraum 2. Herrn Ritter vom RRZE angemailt. Kerberos Probleme: im Testaufbau neubau-99 (der gestern noch funktioniert hat), kann man sich nicht mit einem LDAP/Kerberos account per ssh einloggen [/bauerm] permanent link Wed, 02 Nov 2011 Gepackt, Schrott weggeraeumt Testlauf: neubau-99 von winbind-client zu einem krb5-client gemacht. Tut nach einem uebertrag eines host/principals in einer keytab. Mal fuer alle neubaumaschinen vorbereiten Fuchs vom RRZE sagt, wir koennen das neubau Netz nicht gleichzeitig im Norden und im Sueden haben. Meine Annahme, dass das geht, beruht wohl auf einem Missverstaendnis, bei der AM1/2 ging das, weil die zusammen mit dem Neubau an einer Routerinfrastruktur hingen, bei uns gehts nicht :( D.h. wir muessen die Kisten alle auf einmal ruebertragen, und vorher kgeht kein Auto-install [/bauerm] permanent link Mon, 31 Oct 2011 Waaa. Ein GConf Error haelt den gdm davon ab, User rein zu lassen. Natuerlich! Wir hatten auf dem autoinstaller das /tmp vergessen, und das lag in der sehr kleinen /root. Per Puppet angelegt. Mail ans Windowsteam geschrieben, dass da ca 120 Accounts bei uns sind, die im AD nicht existieren. Um Erklaerung gebeten. Alle UIDs der Studenten, die aus dem AD authentifiziert werden koennen, im Altbau CIP Pool auf die Neubau UIDs gebracht. Mountpoints fuer Studenten umgesetzt auf server-15:/volumes/coraid01/stud, so dass ueberall der Neubau-FileServer benutzt wird. Desgleichen auf helena (da tut der automounter aus unbekannten Gruenden nicht, man muss also von hand mounten) Auf helena die mailboxen ge-chown-t Geruechteweise soll am Mittwoch eine Sprechstunde zu einer Matlab-Vorlesung in einem CIP Pool laufen. Leider keine Anfrage von den Veranstaltern, daher unklar, ob denen Octave reichen wird. Auf Verdacht mal eine Matlab Campus-Netzlizenz bestellen. Hinweis auf Umzug auf die uralt-Webseite [/bauerm] permanent link Sat, 29 Oct 2011 Test von MailSubmission auf port 587 auf neubau-103 mit dem msmtp. Konfig: StartTLS, Auth Plain, einen testuser aus dem LDAP/Kerberos genommen, Mail wird von ausserhalb der Uni akzeptiert. Klingt ja schonmal gut! [/bauerm] permanent link Fri, 28 Oct 2011 Heute erster Testlauf mit "echten" Usern in Herrn Richards R-Praktikum. + Logins gehen! R laeft! Die Leute koennen sich aufs wesentliche konzentrieren. - cip-54-87 hat einen hau. (da laeuft puppet, ist aber auf dem server nicht bekannt) - Das Ubuntu Login ist katastrophal. Keiner kapiert, dass man da durch mehr als zwanzig Accountnamen durchscrollen muss, bevor der Punkt "other" auftaucht, den man dann klickern muss. Danach kann man seinen Usernamen eingeben, und nach dem "Return" tauchen unten am Bildschirm winizig kleine Menuepunkte auf, die einem erlauben, u.a. die Tastatur auf Deutsch zu stellen. Hat vielen Probleme gemacht. - Evtl dort auf default-Deutsch stellen, wo deutsche Tastaturen dranhaengen... Erste Fixes: + Die bescheuerte Liste ehemals eingeloggter User entfernt. Es wird einfach Name+Password gefragt [/bauerm] permanent link Thu, 27 Oct 2011 Untige smb.conf genommen und ins Puppet. Scheint im wesentlichen zu tun. Andreas Demuth hat im grossen CIP Pool versucht, Maschinen zu installieren, ging nicht, weil kein Netz da war. RRZE angefragt, war nach kurzem da, Installation lief durch. Andreas Demuth hat im Praktikumsraum 1 versucht, Maschinen zu installieren, ging nur bei manchen, weil kein Strom da war. Herrn Joerres drauf hingewiesen. Spaeter kam wohl ein Elektriker vorbei, der ein paar Sicherungen wieder eingeschaltet hat. Warum die draussen waren??? Der Cip Pool laesst sich nur mit viel Geschick oeffnen; nachdem mir Herrn Joerres versichert hat, dass es geht, hab ichs zusammen mit Simon Betz probiert, und wir habens nach einigen Fehlversuchen geschafft. Auch dort Installation angeworfen. Jetzt sollten fast alle 120 Maschinen installiert sein. Einige haben kein Netz, einige keine Strom, wegen Pfusch mit den Bodentanks, aber der Rest sollte tun. Mit Herrn Ritter vom RRZE ueber die Inadaequanz von ActiveDirectory+Samba+Support gesprochen. Er haelt das weiter fuer sinnvoll und bietet jede Hilfe an. An unserem Setup bemaengelt er, dass wir nicht die vom RRZE vorgegebenen uidNumbers benutzen. Er raeumt aber auch ein, dass die nicht vernuenftig genutzt werden koennen, wenn man Kollisionen mit uids eigener Mitarbeiter verhindern will, weil das RRZE weder ein Minimum noch ein Maximum gesetzt hat, unter/ueber denen man selbst uids vergeben kann. Er verspricht uns eine LDAP/AD Group fuer Natfak Studenten. Mit Studenten aus dem Programmierkurs den CIP Pool getestet, kaum jemand konnte sich einloggen, weil auf vielen Maschinen kein winbindd lief (obwohl das als Service im Puppet steht) und weil viele Maschinen noch kein erfolgreiches join hatten. Und das hat auch einen Grund! Weil ich sie naemlich nicht im puppetmaster signiert hatte! Weil naemlich das autosign nicht zuverlaessig funktioniert. Auf allen cip-54-*, die pingbar waren, getestet, obs in den AD ge"join"t sind, und ob sie vermittels des AD Benutzernamen zu UIDs aufloesen koenne. Tut!!!! Auf nexenta alle userhomes, die einen stud/cip/sam Account haben, auf ihre uidNumber auf dem neuen CIP Pool umgestellt. Um die zu finden, auf einer CIP Pool Kiste alle Namen aus unseren passwds im AD mit wbinfo -i gesucht, und die uidNumber daher neben der alten und dem usernamen gespeichert. Liegt auf nextwo unter /root/old2newid nebst den Skripten mit denen ich auf Korrektheit der alte uid getestet habe /root/checkuids und dem Skript, das die HOMEs ge-chown-t hat /root/tranformuids [/bauerm] permanent link Wed, 26 Oct 2011 Mehr als fuenf Stunden am RRZE damit verbracht, rauszufinden, dass Authentisieren gegen die dortigen ActiveDirectory Server so richtig gar nicht funktioniert. Hab mit Herrn Michel vom Windowsteam ewig danach gesucht, warum das auf cip-54-81 funktioniert hat, und sonst nirgendwo. Die "computer" Objekte tauchen nach "join"s im LDAP Tree unter "/Computer" auf, nicht etwa unter "/FAU/FAK/MPMA/MPMA_Computers". Nachdem wir die geloescht, neu angelegt etc. hatten, schien es einleuchtend, das Problem auf der Client Seite zu suchen, und ich bin weiter zu Frau Loehlein vom Linux-Team. Wir habe zusammen mehrere Stunden lang versucht, rauszukriegen, warum cip-54-81 erfolgreich user authentisieren kann, und der Rest (exemplarisch cip-54-79) nicht. Ergebnisse: - Die Clients koennen immer die Liste aller User zugreifen. (wbinfo -u) - Die Clients koennen aber keine uid/gids daraus erzeugen (wbinfo -i username schlaegt fehl). In den winbindd logs sieht man da NT_STATUS_NONE_MAPPED - Wenn man die Konfig von dem E-Techniker CIP Pool nimmt, wo angeblich alles so toll geht (im wesentlichen idmap_ad statt idmap_rid), dann funktionierts auch nicht. - samba/winbind legen Cache-Files (*.tdb) in folgenden Verzeichnissen an : - /var/lib/samba - /var/cache/samba - /var/run/samba Gefundene username->SID->uid mappings liegen nicht in /var/cache/samba, sondern /var/run/samba, und das /var/run/samba wird nach reboots nicht gesaeubert. Kwalitaet, wohin man blickt. Paketinhalt unter ubuntu anzeigen: dpkg-query -L $packetname Nochn Samba Trick : net ads search '(&(uidNumber=*)(sAMAccountName=$uid))' \ objectCategory sAMAccountName uidNumber gidNumber -P liefert auch dann uidNumber, wenn 'wbinfo -i $uid' nicht geht. Eine Quelle zu einem smb.conf gefunden, dass aus unerklaerlichen Gruenden (erstmal auf cip-54-80) funktioniert: http://us.generation-nt.com/answer/samba-samba-3-5-5-id-map-issues-active-directory-help-200502771.html Das smb.conf liegt sicherheitshalber gespiegelt hier: http://pestilenz.org/~bauerm/smb.conf [/bauerm] permanent link Tue, 25 Oct 2011 Verdammter *&^*$% Das Authentisieren gegen AD funktioniert auf einer Maschine (cip-54-81) aber nicht auf anderen (cip-54-80 und cip-54-79). Die /etc Verzeichnisse verglichen. Sind exakt gleich (bis auf Hostkeys und die Reihenfolge der User in passwd/shadow/group). Keine Ahnung warum!!! getent passwd liefert auf keinem der Systeme alle user, wbinfo -u tuts aber. Auf cip-54-81, wo login geht, kann wbinfo -i username eine pseudo-passwd zeile generieren, auf cip-54-80 nicht. Das AD kenn 162 unserer Nutzer nicht. Wenn die einen Account haben sollen, muessen wir sie noch extern fuehren. Damit die staff-Leute ihre HOMEs im Cippool sehen koennen, muss man auf Nexenta Seite auch "anonymous" Leserechte auf world-readable Dirs geben. Geht in NMC innerhalb der "share" funktion [/bauerm] permanent link Mon, 24 Oct 2011 Der massen-install im einen CIP/Praktikums Raum hat funktioniert, die Maschinen sind oben und im puppet. Leider funktioniert das auto-join zum AD nicht, weil das passwd(?) irgendwie nicht tut. Problem mit dem default winbind-setup mit idmap_tdb ist, dass jeder user, nach jedem Reboot, auf jeder Maschine eine andere uid kriegt. Das ist fuer unser NFS setup fatal. Wir koennten (nach ruecksprache mit dem Windowsteam) das idmap_ad nehmen, dann werden die uidNumbers aus dem LDAP hinter dem AD gezogen. Erstmal hab ich zum Testen idmap_rid genommen, da wird aus einer AD globalen Nummer des Users seine uid generiert. Naechster Schritt waere jetzt die uids aller Studenten mit mi Account auf ihre so generierten uids umzunummiereren und dann auch ihre HOMEs passend zu chownen. Zellners Wunsch-Laptop als Vorlage fuer eine Bestellung von vier Stueck genommen (Dell Precision M4600 + bessere CPU + viel RAM + SSD + ext. Platte), bleibt mit den Kosten unter unserem Antrag, sollte also OK sein. 20 S/W Drucker bestellt (Lexmax X464de), sollte fuer die erste Zeit hoffentlich reichen. Die Arbeitsplatz PCs werden zwischen 7. 11 und 10. 11 kommen, ich versuch noch bei Frasch zu beschleunigen. [/bauerm] permanent link Fri, 21 Oct 2011 Der Aufbau der 110 PCs (und Monitore) im Neubau hat extrem gut und schnell geklappt, dank einem motivierten und faehigem Team aus extra dafuer angeworbenen Hilfskaefte und unseren tapferen Mitarbeitern der RJE Station. Die einzigen Probleme, die aufgetaucht sind, hatten ihre Gruende ganz woanders: - in Raum 0.325 sind in den zwei hinteren Reihen in den Bodentanks nur einzelne Etherdosen, d.h. wir haben fuer zehn Rechner sechs Datendosen. Muss nachgebessert werden. - in Raum 0.327 ist in der letzten Reihe in zwei Bodentanks nur eine einzelne Etherdose, d.h. wir haben fuer fuenf Rechner nur vier Datendosen. - in Raum 0.030 ist die automatische Schliessanlage eine automatische Oeffnungsanlage, man kann mit einem Schluessel nicht schliessen, weil der Motor der Schliessanlage den Riegel automatisch wieder aufschiebt. D.h. der Schliessdienst musste da ausharren, bis die Haustechnik kam. Keine Ahnung, wie das geendet hat. - In Raum 0.326 kann man die Tuer nur mit einer Kombination aus Schluessel und Chipkarte oeffnen, was den Betrieb im Semester ueber Gebuehr erschwert. - Die Uni-internen IP Adressen, die wir vom RRZE bekommen haben, lassen sich zwar zum Neubau Netz routen, aber nicht aus dem Uni-Netz hinaus (kein NAT). Das wird den Betrieb ebenfalls erschweren... - In Raum 0.030 sind einige Bodentanks zu weit von den PCs weg, als dass man mit den mitgelieferten Stromkabeln anschliessen koennte. - In Raum 0.325 und 0.327 sind Dozententische vorhanden, auf dem Bemoebelungsplan sind die mit Rechnern ausgestattet. Dann sinds aber keine 25 PC pro Raum mehr, sondern 26, und damit haben wir 2 zu wenig angeschafft. [/bauerm] permanent link Thu, 20 Oct 2011 Der Beamer in Hoersaal 12 will nicht mit meinem Laptop reden, musste die Vorlesung vom Laptop eines Studenten halten. Zuordnung Seriennummer -> Standort fuer die PCs morgen verfertigt und ausgedruckt. Die iMacs sind angekommen, dummerweise in der Cauerstrasse. Netterweise hat Frau Rentsch von der Informatikgeschaeftsstelle sie fuer uns entgegengenommen. Duzaars Laptop funktioniert nicht (nichts ist anklickbar), aber wenn er hier im Keller steht, funktioniert er. Mystisch... iMacs mit Privatauto aus dem Sueden geholt. Setup von einer TimeMaschine von Frau Brunings iMac ging nicht glatt.. [/bauerm] permanent link Wed, 19 Oct 2011 Laut Prechtel und Fuchs koennen wir am Freitag CIPPool und Praktikumsraeume vollstellen. Dienstbesprechung: wir sind einigermassen abgedeckt, aber an zwei Standorten gleichzeitig wird nicht klappen. Mit dem DHCP und DNS Admin die Maschinen im CIP registriert, Eintagung im AD beantragt. Rausgekriegt, warum die Leute sich nicht mehr auf neubau-102 einloggen konnten: bei irgendeiner puppet Aenderung wurde das pam_unix2 durch pam_unix ersetzt, letzters kann kein Blowfish Hashing (Shadow-Passwd mit $2a$...), die Passwoerter waren aber zum Teil noch mit Blowfish verhasht. Latuernich gibts da keine Logeintraege dazu **&$^*&$* Durch MD5 ersetzt, neuen Passwds gesetzt. Rsync der HOMEs von ziusudra auf nexenta. User nach staff/stud eingeteilt. HOMEs entsprechend umgesetzt. Frau Oder vom RRZE brauchte zwei Adressen fuer Praesentations PCs in den Hoersaelen, haben ihr 131.188.103.12 und 131.188.103.13 gegeben. [/bauerm] permanent link Tue, 18 Oct 2011 Frau Forkel benutzt den PC, um ein "Visual Basic" Programm zur Diplomlerverwaltung laufen zu lassen. D.h. der Ersatz im Neubau braucht MS Office. D.h. iMac Ubuntu ist so eine Froide. Es gibt libnss-ldap libnss-ldapd libpam-ldap libpam-ldapd nss-pam-ldap was ist was? Die HOWTOs erzaehlen was von /etc/nss-ldap.conf (oder gar /etc/nss-ldapd.conf), dazu gibts aber keine Manpage. Wenn man im LDAP+Kerberos Setup libnss-ldapd (und das "d" am Ende ist kritisch!) installiert und eine /etc/nslcd.conf mit uid nslcd gid nslcd uri ldap://authserver.mi.uni-erlangen.de/ base ou=users,dc=mi,dc=uni-erlangen,dc=de scope sub hat, scheint wenigstens "getent passwd" zu gehen... Alle (?) User im LDAP mit dem Skript authserver:/home/sam/bin/fixhomes.sh auf ihre respektiven HOMEs in /home/{stud,staff} umgeschrieben. Fehlende User aus YP ins LDAP gezogen. Passwoerter sind autogeneriert. Unsere UIDs auf dem alten System sind nach keinerlei Ordnung vergeben. Das machts schwierig, sie mit den UIDs aus dem winbind zu verheiraten. Eventuell muessen wir die komplett umnummerieren. So ein Dreck! Gegencheck auf neubau-103 (mailserver): User, die im ldap+kerberos sind, koennen sich auf roundcube einloggen. Fein! [/bauerm] permanent link Mon, 17 Oct 2011 Neubau sieht noch schlecht aus, was Netz angeht. Der Serverraum im Keller ist wohl noch nicht fertig verkabelt. Frasch hat die Strom- und Netzkabel fuer die CIP Raeume geliefert. Frau Kulzer kriegt eine Windows Maschine, die ihr der Herr Rathmann konfiguriert. Die Kiste selber bestellen wir. Herr Kimpan vom IZI meint, dass man am Forkelschen VPN Client einfach die IP aufs Neubaunetz aendert, dann sollte alles weitergehen. Wegen dem USB<->Drucker Setup meint er, am einfachsten waer ein Drucker mit routebarer IP, so dass der Terminal Server dort drucken kann (ACLs?). Es stellt sich heraus, dass der PC unter Frau Forkels Schreibtisch wohl doch vom Haus angeschafft wurde (InvNr 885.1). Keine Ahnung wie wir den ersetzen sollen. [/bauerm] permanent link Fri, 14 Oct 2011 Nach sorgfaeltigem Auszaehlen und Ruecksprache mit Prechtel 60 PCs und drei iMacs fuer den Neubau bestellt, ich hoffe das kommt alles frueh genug an. Nach viel verzeifeltem Rumprobieren und Fehlschlaegen mit dem pam_winbind und net ads join mit Sebastian Schmitt vom RRZE nochmal durchgegangen. Es entsteht der Eindruck, dass man mit ldapmodify zwar computerObjects im AD anlegen kann, das aber nicht ausreicht, um dann die Maschinen in den Domain zu "joinen". Nachdem dann Schmitt eine neubau-99 im AD angelegt hat, hab ich die neubau-105 als neubau-99 neu installiert (was nicht ganz so einfach war, weil die Umbennenung von dickerserver in neubau-103 unser puppet setup fuer die Maschine unzutreffend gemacht hat). Danach ging der join (nur ein DNS update fehler kam, der wurscht ist). Ein sudo net ads testjoin liefert OK, aber leider ging ein "ssh -l $meintestuser localhost" nicht. Stellt sich raus, dass ein Reboot noetig ist (son mist). Eventuell ging das mit meinem LDAP Gefrickel auch schon, bin nur nicht draufgekommen, dass man da rebooten muss. Mal ueberlegen wie man das fuer die Auto-Installation hinkriegt, das net ads join fragt nach einem Admin password. Wenn wir das ins Puppet schreiben, hat das eine gewisse, aeh, Offenheit... Fuchs vom RRZE kennt die Baustelle: Vor Dienstag kann man nix uebers Netz sagen. Hab den Helfern und Hiwis deswegen eine Mail geschrieben, dass vor Mittwoch nix mit Aufbauen wird. Laut Fuchs ist in den Serverraeumen im Keller nichts gemacht worden. Vor Mittwoch ist auch kein Hiwi beruflich im Neubau. Wigand hat die meisten fehlenden Mitarbeiter mit Std-Homepages versehen. Er meint, dass von den Stochastikern nicht viel da ist und die Studiums-Seiten abgeglichen werden muessten. Den sehr wichtigen Herren von der Videouebertragung geholfen, Netz im Kleinen Hoersaal zu kriegen. Die 131.188.103.206 war leider doch belegt, wir haben dann die .98 genommen. Zellner wuenscht sich ein Windows Laptop auf das er selber aufpasst. Von Meusburger und Company wird erst naechste Woche eine Bestellung zu Tablets abgeben. [/bauerm] permanent link Thu, 13 Oct 2011 Frasch hat am Mittwoch geliefert, hab heut frueh die Kisten im Keller vom Neubau gezaehlt, sind 110. Bei Frasch Empfang bestaetigt. KMail "folder" lassen sich nur mit extremem Aufwand von Thunderbird lesen. Verbindung von KMail zu IMAP server vom Kellerschen Laptop erzeugt tausende von Fehlermeldungen, weil der KMail den Imap Server anweist, das komplette Home zu exportieren. Weil er nach ca 1024 offenen Fehlerfensterchen keine Filedescriptors mehr kriegt, friert er dann ein. Liegt wohl daran, dass unser Uralter IMAP daemon ihm einfach alle files im HOME als "folder" anbietet, und er die dann auslesen will. Mailserverumstellung tut not! Um Mailfolder im Maildir Format (z.b. KMail) in Mbox Format (z.B. Thunderbird) zu wandeln, kann man folgendes Skript als Anfang nehmen: for i in $pattternfuerallefolder; do if [ -d $i/cur ]; then for f in $i/new/*; do formail -I Status: < "$f" >> /tmp/"$i" done fi if [ -d $i/cur ]; then for f in $i/cur/*; do formail -a "Status: RO" < "$f" >> /tmp/"$i" done fi done formail ist auf Ubuntu im Package procmail [/bauerm] permanent link Wed, 12 Oct 2011 HomePage des Instituts mit den Daten von RJJ abgeglichen, damit die Studis hinfinden. AD join Problem persistiert: Failed to join domain: failed to set machine spn: Constraint violation Mit dem Vorstand Bismarckstrasse Umzug und Adminstelle besprochen. Die Hiwis fuer den Umzug koennen naechste Woche zu verschiedenen Zeiten. Offen bleibt die Frage, wer denen aufsperrt und nach dem Aufbauen wieder zu. Ein Team vom RRZE uebertraegt eine Vorlesung von der Chemie in den kleinen Hoersaal. Dazu brauchen sie IP Adressen und Netzzugang. Provisorisch die 103.{206,127} dafuer reserviert. Herr Stummer hat ein Problem mit dem Solaris Thunderbird, der ab 2 GB Mailboxgroesse aussteigt und Unfug in seine .msf Files schreibt. Nach einigen Reparaturversuchen hat die Mailbox jetzt immer noch 2.1Gb, Thunderbird zeigt aber nur ein paar Mails an. Raumbelegungsliste durchgegangen und geprueft, welche Arbeitsplaetze schon Hardware haben, welche neuen brauchen, etc. Summiert sich auf ca. 25 PCs und eine Handvoll Laptops. Morgen mal bestellen. Herrn Kellers Laptop ist verstorben. Untersucht, Ergebnis: Platte kaputt. Nach Tausch Ubuntu 11 installiert und versucht, die Mails/Adressen/etc zu uebernehmen. [/bauerm] permanent link Tue, 11 Oct 2011 Beim winbind fehlt natuerlich das "net ads join -U muos00ikys". und das scheitert erstmal daran, dass der AD den neuen Rechner gar nicht kennt. Dem kann man abhelfen mit einem LDIF: dn: CN=$rechnername,OU=MPMA_COMPUTERS,OU=MPMA,OU=FAK,OU=FAU,DC=uni-erlangen,DC=de changetype: add cn: $rechnername objectClass: computer dNSHostName: $rechnername.mi.uni-erlangen.de sAMAccountName: $rechnername userAccountControl: 4096 Das kann man dann mit ldapmodify -xW -D "cn=$einrootuser,ou=Admin,ou=FAU,dc=uni-erlangen,dc=de" -H ldap://faudc1.uni-erlangen.de/ -f das.ldif per LDAP auf den AD schreiben. Dann existiert der Rechner dort und sollte ein "net ads join" machen koennen. Letzteres tut nicht: Failed to join domain: failed to join domain 'UNI-ERLANGEN.DE' over rpc: NT_STATUS_QUOTA_EXCEEDED Frau Kugler kontaktiert, sie schaut mal, was da schiefgeht. Herr Knabner bemerkt voellig korrekt, dass die Web Startseiten nix ueber den Umzug und die neue Adresse sagen. Rathmann, Jorres und Jahn kuemmern sich drum. Mit dem Schliessdienst und Frasch ausgemacht, dass Mittwoch geliefert werden kann, und die Kisten in einem versperrten Raum landen. [/bauerm] permanent link Mon, 10 Oct 2011 Das Bauamt hat noch keine Schliessanlage im Neubau. Das heisst, wir koennen nichts reinstellen => Lieferung der 110 PCs muss verzoegert werden => Praktikumsraeume werden vermutlich nicht fuer naechste Woche fertig. Die 10 PCs fuer die Bismarckstrasse sind da und werden jetzt an den dringensten Stellen eingesetzt. Nochmal ein guter Test fuer den Autoinstaller. R-Packete fuer Ch. Richards Kurs nachinstalliert. Tut jetzt wohl. hippolyte-Ersatz und zwei nemo Terminals durch PCs ersetzt. Tobias hat Duzaars MacBook neu installiert und die Diffs zum Ersatzlaptop noch mit draufgezogen. Das /etc/network/interfaces machte etwas Probleme, wir erzeugens jetzt aus einem Template, das die "facter" interfaces liest. Diverse Schritte Richtung Umzug begonnen: - Abloese der Konfigs, die /var/mail von der helena hatten - Setup mit Studentenhomes von Nexenta (tut auf neubau-102, aber leider nimmt er die falschen Default Homes) - Einfuehrung MacOs X fuer Frau Humbach - Durchzaehlen unserer Arbeitsplaetze im Neubau, um die Anzahl neu zu beschaffender Maschinen zu schaetzen. Nikos kann sich nicht auf roundup einloggen. Sehr strange. Winbind setup auf neubau-102 verbessert und getestet, dazu - mit wbinfo -i os00ikys erstmal getestet, was als HOME angegben wird - smb.conf geaendert, dass /home/stud/$username benutzt wird - winbind neu gestartet - ssh -l os00ikys localhost auf neubau-102 => tut, aber das home existiert nicht (stimmt ja auch) - /etc/pam.d/common-session mit pam_mkhomedir erweitert (nach einem Fehlversuch mit der mkhomedir option von pam_winbind) - Funktioniert! - in Puppet modules/winbind konserviert [/bauerm] permanent link Sun, 09 Oct 2011 UPDATE: das NFS von grad eben funktioniert auch nicht. So ein Dreck. /volumes/coraid01/homes/staff wurde nicht mehr an 131.188.103.0/24 exportiert, dadurch gabs kein ~bauerm/Mail/spam, dadurch ist unser spam-sortier skript gestorben, deswegen wurde fuer bauerm und michelis keine Mail mehr ausgeliefert. Diese widerlichen hardgecodeten Abhaengigkeiten hier ueberall... Neuer Ansatz: export nach .mi.uni-erlangen.de, mal schaun wie das tut... In ferner Zukunft, wenn Schweine fliegen, koennen wir auch kerberos als Authentisierungsverfahren angeben und mounts von ueberall erlauben. Nikos und Patrick haben den imac von Frau Bruning auf Platte gezogen, damit wir das als Installbasis fuer weitere nehmen koennen. [/bauerm] permanent link Sat, 08 Oct 2011 NFS Freigabe ueber IP Adressen geht auf Nexenta mit "share folder $foldername" nur ueber "Extra Options": rw=@11.22.33.0/24:@44.55.66.0/23 Der Trenner zwischen Optionen ist Komma, zwischen Netzen Doppelpunkt. Testweise mal in yp auto.home und per puppet den Server fuer /usr/home/app auf die nexentakiste gebogen... [/bauerm] permanent link Fri, 07 Oct 2011 Stromabschaltung: hier im Keller fielen genau zwei Deckenlampen, eine Steckdose und beide Klimaanlagen aus. Letzteres ist ein dummes Problem, weil hier halt nahezu 1000 Watt heizen... Agamemnon ist wieder haengengeblieben... Umzug HOMEs: Hatte dummerweise vergessen, dass rsync auch alle .zfs/snapshots _als kopie_ mit rueber zieht. Also nochmal. Ziusudra die 131.188.54.25 im Gigabit Neubaunetz gegeben. Im rsyncd.conf alle .zfs subdirs raus. Sync lief auf nahezu maximalem Durchsatz eines Gigabit Kabels, aber der Fileserver hat sich nur gelangweilt. Erste Versuche mit dem neuen Fileserver: von Solaris aus tuts nicht, weil der die -o vers=3 option braucht. Das steht zwar in auto.master, wird aber scheinz ignoriert. Auf den PCs im Neubau keine automounter maps mehr, weil da nur zwei/drei mounts sein werden. Problem: Wenn wir die Studenten-HOMEs nach /home/stud umziehen und Authentisierung ueber winbind gegens RRZE machen, dann muessen wir die UIDs ans RRZE anpassen. Das muss atomar passieren. Koennte man mit einem ldapsearch | kleinesskript machen, das die uid->uidnumber map erstellt, und dann als ldapmodify.ldif ablegt (LDAP ist soooo krank). Und die Homes der User sollten auf /home/{staff,stud} gebracht werden.. Korollar: wir koennen den alten CIP Pool nur betreiben, wenn wir die UIDs der Studenten auf das Umstellen, was im AD vom RRZE steht. Alle User im LDAP (XXX da fehlen noch die Vertretungsprofs) ins Kerberos gezogen, mit neuen Passwoertern. Liste ist in ~/ldap+kerberos/accounts. [/bauerm] permanent link Thu, 06 Oct 2011 Herr Neher hat Probleme mit Windows, Netzwerk setup. Abgesehen davon, dass alle Dialog an der falschen Stelle sind und vollkommen verwirrend, kann man fuer die "TCP/IPv4" Einstellungen eine "Alternative Konfig" eintragen, die wird aber ignoriert. D.h. er muss die Settings fuer sein Netz daheim und das Netz hier immer per Hand eintippern. Das kommt davon, wenn man keine Konfigfiles hat... Umzug der Homes von ziusudra auf den neuen Fileserver begonnen. Idee ist, Mitarbeiter und Studenten in zwei getrennten ZFSen zu halten (NexentaStore packt nicht mehr als ein paar hundert zfs.) rsync config fuer den transfer aller homes von ziusudra auf nexentastore geschrieben, zusammen mit einem kleinen skript, dass rsync als daemon startet. rsync pull auf nexentastore gestartet, kann ein bisschen dauern.. [/bauerm] permanent link Wed, 05 Oct 2011 Auf NexentaStor den CoRAID Treiber auf neuen Stand gebracht. Problem dabei: # zpool export coraid01 cannot export 'coraid01': pool is busy Auf coraid01 ist ein Dataset drauf, das als iscsi-target exportiert wird. Das muss man wohl aus den iscsi targets entfernen. Aber wie? # apropos iscsi iscsi (7d) - iSCSI software initiator driver and service iscsiadm (1m) - enable management of iSCSI initiators iscsitadm (1m) - administer iSCSI targets iscsitgtd (1m) - iSCSI Target daemon iser (7d) - iSCSI Extensions for Remote DMA driver it_config_load (3iscsit) - set and retrieve configuration data for the iSCSI Target Port Provider it_ini_create (3iscsit) - create, modify and delete iSCSI Initiator Contexts it_portal_create (3iscsit) - create and delete iSCSI portals it_tgt_create (3iscsit) - create, modify and delete iSCSI Targets it_tpg_create (3iscsit) - create and delete iSCSI target portal groups itadm (1m) - administer iSCSI targets libiscsit (3lib) - iSCSI Management library stmfDevidFromIscsiName (3stmf) - convert an iSCSI name to a stmfDevid structure Hab iscsitadm und itadm ausprobiert, mit letzterem kann man sogar targets entfernen, das hilft aber nix, zpool export geht weiter nicht. Das Kommando, mit dem man isicsi Targets verwaltet, heisst naemlich stmfadm (logisch). Und man entfernt auch noch den LUN des targets: # stmfadm list-lu ... # stmfadm delete-lu 600144F0B46F0A0000004E42FF2E0001 Das Coraid01 war grad an nextwo, also hab ich das ganze zuerst auf nexone gemacht, und nach dem export auf nextwo war das ZFS auf nexone und wird dort exportiert. Fein. Den Lightning Kalender fuer Thunderbird installiert, momentan noch ohne das Exchange Plugin. CUPS Fortschritte: Der wesentliche Stolperstein fuer den Test unseres "Drucken fuer Mitarbeiter" Setups war ein Routingproblem (eventuell ein Bug in den Lexmarks). Das Setup scheint zu funktionieren. Hinterhaeltiges Detail: in einem Menu gibts den Punkt "Hex Trace einschalten", es gibt aber keinen Punkt zum Ausschalten. Langwierige Suche in der Dokumentation enthuellt, dass man zum Ausschalten dieses Debugging-Features den Drucker kalt-starten muss *stirnklatsch* [/bauerm] permanent link Tue, 04 Oct 2011 CUPS fuer den Neubau scheitert an einer Permission denied aus dem pykota. Tobias forscht. Kassandra ist verstorben. Haben Charybdis als Ersatz hingestellt, bis neue PCs kommen. [/bauerm] permanent link Fri, 30 Sep 2011 Postfix kann Empfaengernamen aus dem ldap ziehen. Andre Erhardt mit Typo3 Problemen geholfen. Es gibt nur noch englische Real-URLs, weswegen die deutschen URLs im Univis (oder anderswo) nicht mehr gingen, der Analysis-Subtree ist umgehaengt worden. Wieder zurueckbewegt. Das Versioning in Typo3 funktioniert nur ueber Konvention, nicht ueber Technik. D.h. wir muessen den maechtigeren Webschraubern ein Ritual entwerfen, so dass ihre Aenderungen versioniert, dokumentiert und kommuniziert werden, sonst kriegen wir dauernd solche Probleme. Frage: Muss man fuer jeden Host, der Kerberos Auth fuer die User machen soll, einen keytab entry erzeugen? Falls ja, wird das mit dem Autoinstall nicht so einfach.... Ewig mit pam_krb5 gehadert, inzwischen zigfach die keytabs ausgetauscht. Der Error ist: 131.188.54.106: PREAUTH_FAILED: tobias@MI.UNI-ERLANGEN.DE for krbtgt/MI.UNI-ERLANGEN.DE@MI.UNI-ERLANGEN.DE, Decrypt integrity check fail Soll angeblich auf asynchrone /etc/krb5.keytabs auf host (.106) und authserver hinweisen. Hab deswegen den .106 komplett aus dem kerberos entfernt und neu erzeugt: # kadmin.local -x binddn=cn=admin,dc=mi,dc=uni-erlangen,dc=de -x host=ldapi:/// -r MI.UNI-ERLANGEN.DE > ktrem -k /etc/krb5.keytab host/neubau-106.mi.uni-erlangen.de > delete_principal host/neubau-106.mi.uni-erlangen.de > add_principal -randkey host/neubau-106.mi.uni-erlangen.de > xst -k /etc/krb5.keytab host/neubau-106.mi.uni-erlangen.de > xst -k /tmp/krb5.keytab host/neubau-106.mi.uni-erlangen.de # scp /tmp/krb5.keytab neubau-106:/tmp/ neubau-106 % sudo cp /tmp/krb5.keytab /etc/. Ueberpruefen der keys auf beiden Maschinen mit # ktutil > rkt /etc/krb5.keytab > l -e -k -t und dann per auge/cmp vergleichen. Hilft aber nix. [/bauerm] permanent link Thu, 29 Sep 2011 Auf dickerserver - die postfix Doku installiert - versucht, die local_recipient_maps auf passwd, aliases, und eine ldap-query zu setzen. Autoinstall auf neubau-106 - vor dem re-install die platte mit dd if=/dev/urandom of=/dev/sda uerebuegelt, um sicherzustellen, dass da kein byte von der install vorher uebrig bleibt. - das puppet-autosign funktioniert wohl - das kerberos+ldap setup funktionierte nicht Tobias hat im addsoft-Modul den guten alten variablen-werden-in-Klassen-mit-$-angefuehrt-Fehler gefunden und repariert. cups-pykota wie von Ubuntu ausgeliefert ist kaputt. postgresql wie von Ubuntu ausgeliefert ist kaputt. Auf Nexenta ausprobiert, ob nfs shares ueber nfsv3 funktionieren. Tut auf Solaris [/bauerm] permanent link Wed, 28 Sep 2011 patroklos war auch tot, mittels cd-boot+patchrm wiederbelebt Serverschraenke bestellt, damit das mal vorwaerts geht. roundup nimmt jetzt mails entgegen und versteht die zusammenhaenge von MessId und In-Reply-To, was alles einfacher macht. Dovecot laesst jetzt auch User aus der LDAP/Kerberos DB Mails lesen, das wird so langsam einsatzreif. Alle User aus der alten NIS-passwd mit migrationtool auf LDAP gezogen. Kerberos Accounts fuer einige mit einem Skript autogeneriert. Das seltsame ist, dass Kerberos LDAP als DB benutzen sollte, ldapsearch auf dem kompletten Tree zeigt aber nur ein paar (alte) Kerberos Principals. [/bauerm] permanent link Tue, 27 Sep 2011 Der Tod von dido, hippolyte, ischtar und nestor wurde von Oracle (und dem RRZE) ausgeloest, mit dem Patch http://wesunsolve.net/readme/id/147440-02 Das loest im OpenBootProm Panik aus, waehrend der Patch laeuft, Abhilfe danach ist ein Patch der Firmware. Firmware Patches fuer die einzelnen Modelle finden sich auf http://www.oracle.com/technetwork/systems/patches/firmware/index.html Was hier auffaellt, ist DASS DA GAR KEINE SUNBLADE 1500 GELISTET IST. D.h. nur mit boot-cd -> shell, lokale platte mounten mit mount /dev/dsk/c0t0d0s0 /mnt und mit /usr/lib/patch/patchrm -R /mnt 147440-02 den patch entfernen. [/bauerm] permanent link Mon, 26 Sep 2011 Am 7.10 kommen neue PCs, die ich in der Bismarckstrasse aufbaun will. ALSO sterben beginnend 24. September die SunBlades hier im Haus ^%$&^#*! Verstorben sind: - dido - hippolye - ischtar - nestor Haben mit neuen und ehemaligen CIP Maschinen ersetzt, und einem neuen Mitarbeiter eine Nemo SunRay hingestellt. Das Winbind Setup tut jetzt, ist in einem Puppet Modul eingefroren. Was noch fehlt, ist die moeglichkeit fuer pam_mkhomedir auf dem Fileserver automatisch HOMEs anzulegen. Mal ueberlegen. [/bauerm] permanent link Fri, 23 Sep 2011 Puppetca macht jetzt autosign, sollte beim Autoinstall von 110 PCs nuetzlich sein. Mit Frau Kugler geredet, Windowskommandozeilenperle: runas /netonly /user:AD-DOMAIN\Administrator mmc wobei Domain und Administrator noch ersetzt werden muessen. Mit Fuchs vom RRZE geredet, der sagt, die Elektriker verkablen Netz nur zu festen Panels, d.h. da muss ein Rack sein, lange bevor wir ueberhaupt Server reinstellen koennen. Er hat einen Hersteller, der 24-Stunden GarantieLieferungen macht, notfalls von dem die Schraenke bestellen. Frasch sagt, Rittal Serverschraenke kommen typischerweise innerhalb von weniger als einer Woche. Auch eine Moeglichkeit. Gleich auf neubau-102 das mit dem AD ausprobiert. Mit net -d 1 -U muos00ikys -S faudc1.uni-erlangen.de ads join liefert er zwar eine Fehlermeldung von wegen constrains, das ist aber wohl nicht ernstgemeint, ein folgendes net -d 1 -U muos00ikys -S faudc1.uni-erlangen.de ads status oder net -d 1 -U muos00ikys -S faudc1.uni-erlangen.de ads testjoin berichtet Erfolg. Jetzt muss nur noch das mit dem nss/pam winbind klappen... [/bauerm] permanent link Thu, 22 Sep 2011 Installserver: mit der chboot option -B rebooten die installierten System automatisch, sehr fein. [/bauerm] permanent link Wed, 21 Sep 2011 Nuetzlicher puppet Aufruf: puppetd --test --verbose --noop Zeigt an, was er tun wuerde, aber tuts nicht. PAM ist der Wahnsinn. Man kann mit options conditional jumps zwischen den Modulen im Stack machen. Ich glaube, die "Tuerme von Hanoi" muessten mit Pam loesbar sein. neubau-103 wieder zum Leben erweckt. Tests abwarten Frau Kugler vom Windowsteam leider nicht erreicht. Mit Prechtel und anderen am Neubau gewesen, das wird nie und nimmer zeitgerecht fertig. Mit dem Bauleiter Elektro geredet, der gibt uns fuer die Serverschraenke zwei unabhaengige Stromkreise, einer davon USV. Dazu muessen die Schraenke stehen und wir muessen anzeichnen, wo. Und ihm die Steckerleisten in den Schraenken vorher geben, die werden direkt verdrahtet, um Sicherungen zu sparen. [/bauerm] permanent link Tue, 20 Sep 2011 Die Puppetifizierung von Kerberos-Client war nicht ganz so einfach. Durch ein einfaches "include krbclient" kann sich gar niemand mehr auf neubau-103 einloggen. Zum Glueck hats Fabian Klingbeil und sein Team bemerkt. Die GUI vom Nexenta benutzt komische HTTProxy-ing Features, so dass ich die mit meinem Firefox nicht benutzten kann :/ [/bauerm] permanent link Mon, 19 Sep 2011 Das NTP Problem auf den neuen Servern scheint sich erledigt zu haben. Nachts die Usrhomes per zfs send -R mypool/radix/homes@190911 |nc .. und zfs recv -Fd coraid01/ziusudra auf den Fileserver gezogen. Die 110 PCs fuer den Pool im Neubau bestellt. Frasch hat noch einen PC auf Lager, den wir fuer das Testlab haben koennten. [/bauerm] permanent link Thu, 15 Sep 2011 In Schulz-Baldes .muttrc war ein folder=imap://imap... Das bewirkt, dass der mutt versucht, den imap-server als eine Art Filesystem zu betrachten, was (bei uns) nicht funktioniert. Zeile rauskommentieren hats erledigt. Homepage anlegen: -1. In www.$fachbereich.math.uni-erlangen.de einloggen. 0. Workspace "LIVE" waehlen Eintrag in der Adressdatenbank anlegen Listenansicht->Sysfolder "Dep Math", dort im passenden Unterbereich den sysfolder waehlen, z.b. ->AuG->AG Lie-Gruppen da drin gibts eine Tabelle "Address", da den User eintragen (man kann auch Bilder hochladen. 0.5. Passenden Workspace waehlen. 1. "shortcut" im entsprechenden staff/people/...-Baum anlegen, mit dem Namen als Titel, nach der dort sortiert auftauchen soll. 1'. Hidemenu an, Hide aus, bis es fertig ist. 2. da drunter eine "normale Seite" anlegen, mit dem Titel, den das Opfer wuenscht ("prof. dr. dr. hc. mult. Karl M. I. Schr...) 3. Auf "Page" im linken Menu wechseln, neue Seite anklicken 4. Unter 'Page Content' "Create new element" klickern. 5. Im folgenden Menu unter "Plugins" "Addresses" waehlen 6. Auf das Register "Plugin" waehlen, in "Single Address" den Ordner waehlen. Ein eigenes Fenster wird geoeffnet, da den Folder "Dep Math" suchen, und da drin den in Schritt 0 eingetragenen Eintrag waehlen Ganz unten unter "Startingpoint" die Gruppe waehlen, in der in Schritt 0 der Eintrag erfolgte. 7. Dialog schliessen und speichern. Auf "Versioning" im linken Menue wechseln, die Seite in der Liste waehlen und vom AutorenWorkspace in den LIVE veroeffentlichen Damit ist der Personeneintrag fertig. roundup funktioniert. Am Ende wars die Umstellung von tracker::web=/cgi-bin/roundup.cgi nach tracker::web=/cgi-bin/roundup.cgi/problems/ [/bauerm] permanent link Wed, 14 Sep 2011 Mal getestet, ob man mit parameterized classes das kaputte "inherits" von puppet umgehen kann, tut aber nicht. Die Hoffnung waere gewesen, dass die Parametervariablen der parameterisierten Klassen im Kontext des aktuellen nodes ausgewertet werden... hiera angeschaut http://www.devco.net/archives/2011/06/06/puppet_backend_for_hiera.php, das ist aber zu kompliziert fuer uns (mehrere orte, wo die Daten sein koennen, ...) Extern Node Classifiers angeschaut, http://docs.puppetlabs.com/guides/external_nodes.html das ist eine weitere Kruecke, um an dem inherits-desaster vorbeizukommen. Da wird der node Eintrag, der sonst in site.pp waere, als YAML von einem Executable zurueckgegeben. Fuer grosse Installationen sicher gut. Wenn nur dann gerufen werden wuerde, wenn der hostname nicht in site.pp ist, dann waers cool fuer die autoinstallation im Neubau In puppet >= 2.6 kann man hashes als variablen haben und damit z.b. in templates oder modulen werte haben, die zwar global definiert sind, aber pro node verschieden sein koennen. Also das was man moechte. In unserem Fall mit den $admins kommt dann sowas raus: ADMINS=<%= adms=admins + (moreadmins[$hostname].nil?&&[])||moreadmins[$hostname] ; adms.join(",") %> Interessante Details in Puppet: - Manifeste (wie site.pp, oder die init.pps von Klassen) koennen in Ruby geschrieben werden. D.h. man kann absolut alles machen - Node definitions koennen auch Regexpen sein, z.b. node /lin.*/ { ... } TicketTracker Roundup laeuft, son bisschen: http://webserver-1.mi.uni-erlangen.de/cgi-bin/roundup.cgi Registration geht, und danach kann man auch was damit tun, aber was noch nicht tut: - logins nach einmal ausloggen - Vernuenftige URL . Apache2 ignoriert alle unsere RewriteRules - Sprache ist Englisch [/bauerm] permanent link Tue, 13 Sep 2011 LDAP ALARM: ldapadd will nicht in die db schreiben (vor ein paar Tagen ging das noch), obwohl der admin user auf alles (*) schreibrechte hat. LDAP SOLUTION: wenn man ldapdd mit der "-Y EXTERNAL" option startet, dann wird die "-D cn=admin,dc=mi...." option einfach ignoriert und der slapd denkt, man waere gidNumber=0+uidNumber=0,cn=peercred,cn=external,cn=auth und der darf nix. Loesung: "-x " option statt "-Y EXTERNAL". So ein bullshit. Kerberos Erkenntnis: Tickets, die fuer Maschinen hinter NAT ausgestellt werden, funktionieren nicht. Loesung: "addressless tickets", kriegt man mit "kinit -A". A Strange and Wonderful World OpenSSH laesst sich ohne Kerberos/GSSAPI Support kompilieren und ignoriert dann Tickets und die "GSSAPIAuthentication yes" Option. Wenn mans mit GSSAPI kompiliert, tuts natuerlich. Die Nexenta/Basis Leute haben ihre letzten Tests gemacht, so richtig mit Kabel rupfen, und es scheint alles zu gehen. Roundup setup gefrickelt. Muss nochmal sauber gemacht werden, am besten ohne mod_python, ich musste in der source von roundup variablen auf nicht-defaultwerte initialisieren... http://131.188.54.24/problems Das MailGateway funktioniert noch nicht, die Pfade zu dem cgi werden in meinem Setup verbuchselt [/bauerm] permanent link Mon, 12 Sep 2011 Wigand ist wieder da. Neues: Man sollte in Typo3 das "DRAFT" Environment nicht benutzen, da man von da keinen Zugriff auf den "media folder" (mit bildern, pdfs, etc) hat Marcel Ritter war da! Erkenntnisse: - wenn man in slapd.conf die index-liste aendert, muss man nochmal slapindex laufen lassen - auf Ubuntu fragt nicht etwa der nscd nach den ldap-Eintraegen _neinein_ der nslcd fragt danach, und hat ein eigenes Konfigfile - der Kerberos schreibt bei uns krbPrincipal Objekte, keine posixAccount Obj wie in der WiMa (fehlender Patch?), also muss jeder User _nochmal_ in einem posixAccount angelegt werden. - in pam-configs kann man (fuer pam_unix z.b.) ein try_first_pass nachstellen, das dann das Passwd aus dem Modul drueber wiederbenutzt - Auf neubau-102 hats dann mit den WiMa pam.d/common-* configs und Aenderungen in /etc/nslcd.conf funktioniert, sogar der Lokale Login! - slapcat schreibt die komplette datenbank auf stdout, slapadd liests dann wieder [/bauerm] permanent link Fri, 09 Sep 2011 *STIRNKLATSCH* die Erlang Packete von Ubuntu sind so kaputtifiziert dass man nur CouchDB damit kompilieren kann und sonst nicht viel, insbesondere fehlen alle Header, die man braeuchte um fuer yaws (webserver in Erlang) Applications zu schreiben. Wie zum Beispiel den Bluetail Ticket Tracker Es ist in tausende von packeten zerhackt, die man dann zusammensammeln darf. Zum Kompilieren von Bluetail fehlt dann immer noch mnemosyne, eine Erlang library, zu der Ubuntus erlang-mandoc Packet zwar ein manpage hat, aber keine header... Nikos und William haben angefangen, an unserer Webpraesenz auf dem neuen Webserver zu basteln. Arbeitstitel "Kompetenzcluster Druckerwartung" Auf der helena wurde nach dem reboot der bacula-fd nicht automatisch gestartet. Nachgeholt. Backup angestossen. Mail ist auf tape. [/bauerm] permanent link Thu, 08 Sep 2011 Serverinstall geht jetzt relativ reibungsfrei Nach Trouble-Ticketing Systemen gesucht die - Einfach sind - nicht in PHP geschrieben - Mails einlesen koennen (unsere Reports sind ja auf auf problems@mi...) - mit unauthentisierten Usern umgehen koennen Eine nette Idee in dem Zusammen hang: User berichtet Problem und gibt dabei mailaddr an (oder schickt eine mail), als Antwort kriegt er eine (relativ lange) Tickernummer, danach kann er sich mit der mailaddr als login und der Ticketnr als Passwort einloggen. Das interessanteste solche System scheint Bluetail Ticket Tracker zu sein, ist in Erlang geschrieben [/bauerm] permanent link Wed, 07 Sep 2011 Agamemnon: Abhilfe wegen Taperobot: rem_drv sgen; add_drv sgen; Dummerweise wird auch der storage daemon /sbin/bacula-sd nicht automatisch gestartet... Backup auf Tape laeuft wieder Einen weiteren Server aufgesetzt, er steht im Switchschrank im Keller, weil wir nach dem Strom-Debakel vor zwei Wochen nicht riskieren wollen, ihn an das Server-Stromnetz anzuschliessen. Das soll mal der Webserver werden. [/bauerm] permanent link Tue, 06 Sep 2011 Das MSA60 Storagearray laeuft! Der Tobias hat rausgekriegt, dass man die seltsamen Rauf/RunterPfeile auf der Rueckseite druecken muss, bevor sich das einschalten laesst. Als RAID50 ueber alle 12 Platten konfiguriert, hat jetzt 20TB Platz und vertraegt den Ausfall von bis zu 2 Platten. Agamemnon war beim Booten im OpenBoot haengengeblieben. Ein "boot" ueber die Serielle war ausreichend, ihn wieder zu starten. Aber beim bootup gibts Gemecker ueber "eof in sgen.conf", dadurch wird der "generic scsi" driver nicht geladen, und wir haben keinen Taperoboter. Der Abnahmetest von Nexenta scheint immer noch zu laufen??? [/bauerm] permanent link Mon, 05 Sep 2011 Der sldapd startet ohne Fehlermeldung, laesst aber den ldaps: port aus. Auf ldap://.../ will er SASL Authentisierung, obwohl in der config drinsteht, dass jeder teile des Baum lesen darf. Deswegen tut das pam_ldap und verwandtes natuerlich auch nicht. Unsere User liegen in der OrganizionalUnit "Users", in den Std-Modellen unter "People", vielleicht auch ein Problem. Gellermann und Ritter@RRZE gemailt Zwei Stunden lang probiert, dem Typo3 beizubringen, dass unter http://www.algeo.math.uni-erlangen.de/staff/ das gleiche liegen soll wie unter http://www.algeo.math.uni-erlangen.de/people/ Ich kriegs nicht hin, obwohl ich lustige "shortcuts" zu diversen Seiten unter "/Algebra und Geometrie/People/" kreieren kann. Das haengt scheinbar an dem RealURL plugin, das aus Pfaden IDs macht, aber an die DB Tables dazu komm ich nicht ran. Wenn man dem CORAID Kaefig eine neue Platte gibt, dann ist die fuer das NexentaOS nicht automatisch sichtbar. Man muss erst mit einem Tool "cec" dem CORAID Ding sagen, dass die neue Platte sichtbar gemacht werden soll (man koennte auch sagen, dass die neue Platte zusammen mit einer weitern zu einem RAID verbunden werden soll und das ganze dann als eine Platte sichtbar, etc...) Das cec Tool war _nicht_ mitgeliefert und ist kein NexentaOS Package, das man schnell installiern koennte. Ich musste erst mit "apt-get install build-essentials libpcap-dev" einen Kompiler und Libs herkriegen. In der cec Console muss man die Platte x im Shelf y exportieren, indem man jbod y.x tippert [/bauerm] permanent link Sat, 03 Sep 2011 Hiera fuer puppet installiert Der Webserver ist wieder oben, aber in einem ganz anderen Zustand als am Donnerstag. Insbesondere ist die Seite von Prof Meusburger nicht dort zu finden, wo die Links hindeuten, die sie fuer ihren Workshop rausgegeben hat. Sehr aergerlich. Mein Shell-Account auf dem Webserver geht nicht mehr, konnte also keinen rewrite im Apache-conf basteln Kerberos tut nicht wie gewuenscht, wo weil die keytabs zwischen server und unserem testclient nicht synchron sind... [/bauerm] permanent link Fri, 02 Sep 2011 Nexenta Testest seit Stunden im Hintergrund, ich hoffe mal erfolgreich. www.math.uni-erlangen.de ist verstorben. Und natuerlich in dem Moment wo der einzige, der sich auskennt, im Urlaub ist... Kerberos+LDAP jetzt soweit dass: - addprinc automatisch in LDAP ablegt - man von ueberall tickets kriegen kann - ein Skript existiert, das user anlegt (noch ohne HOMEs etc) aber: - das mit den keytabs hab ich noch nicht raus, es geht keine gssapiauth, weil "No valid Key exchange context". Liegt angeblich daran, dass die hosts nicht-synchrone /etc/krb5.tabs haben LDAP ist die Hoelle. Total inkonsistent und zusammengefuddelt. Erkenntnis: /etc/ldap/ldap.conf (manchmal auch /etc/ldap.conf ???) ist die Client-Konfig, /etc/ldap/slapd.conf ist die Server-Konfig Puppet Experten empfehlen, statt Variablen in site.pp, die dann in Modulen zu frue interpoliert werden, lieber den hiera() Plugin zu nehmen, mit dem die Variablen erst im richtigen Kontext ausgewertet werden. Mal schaun [/bauerm] permanent link Thu, 01 Sep 2011 OpenLDAP ueberlistet, eine basis struktur aufzuschreiben: sudo ldapadd -vvvvv -W -D "cn=admin,dc=mi,dc=uni-erlangen,dc=de" -c -H ldapi:/// -f ~/ldap+kerberos/structure.ldif.tpl (das .tpl kommt von WiMa. LDAPDC hab ich auf dc=mi,dc=uni-erlangen,dc=de gesetzt.) Kerberos5 ist jetzt _theoretisch_ so konfiguriert, dass er seine Daten in LDAP ablegt, getestet ist das aber nicht. Nexenta/Basis hat den Test auf morgen verlegt... Die WebPraesenz hat noch zahlreiche Luecken, u.a das sog. Inhaltsverzeichnis (sollte weg IMHO) und das "Einrichtungen" (da wollt ich grad die RJE Station reinhacken) [/bauerm] permanent link Wed, 31 Aug 2011 Ubuntu/NIS nach Autoinstallation: Nachdem der network-manager de-installiert ist, scheinz jetzt zu gehen. Der erste HP DL585 Server tut jetzt! Die Eintragung im dhcpdd conf auf dickerserver war verloren gegangen (???). Unser puppet-Skript hat leider den Herrn Fried nicht automatisch in die Admingruppe geworfen... Doku zu Kerberos+OpenLDAP http://www.danbishop.org/2011/05/01/ubuntu-11-04-sbs-small-business-server-setup-part-3-openldap/ http://www.itp.uzh.ch/~dpotter/howto/kerberos [/bauerm] permanent link Tue, 30 Aug 2011 Herr Gellermann vom Wima hat mir deren OpenLDPA+Kerberos Setup geschickt. Das bau ich jetzt auf authserver nach. MacOS X laesst sich nur mit viel Gefummel in NIS Strukturen bringen, Stichwort "lookupd" Das SunOS vacation ding geht nicht mehr. 1. heisst das Antworttemplate nicht $HOME/.vacation.msg (wies in der Manpage steht), sondern $HOME/.vacation 2. wird es nicht gefunden "no such file or directory", obwohl es existiert und die richtigen Rechte hat. [/bauerm] permanent link Mon, 29 Aug 2011 Basis fuer Remote-Unterstuetzung gelegt, ein Skript /usr/bin/diagnose startet einen x11vnc, der nur auf localhost lauscht, und ein Skript /usr/sbin/remote-diagnose, das dann mit ssh-tunnel von dort herleitet und vncviewer startet. Dropbox Tools auf linux eingebaut. Wigand hat das Typo3 print-cal.css so repariert, dass die Links gedruckt werden. Leider funktionieren dafuer jetzt HTML Tabellen in manchen Seiten nicht mehr. Duzaars neues Laptop statt dem alten im DHCP eingetragen, er kann wieder drucken Boeglein war auf dem CUPS Server unbekannt und konnte nicht drucken.. Das Autoinstallierte Linux kann keine User authentisieren, weil er ypbind _vor_ dhclient startet *stirnklatsch* [/bauerm] permanent link Fri, 26 Aug 2011 Rausgefunden, woran der FAIL des Tests gestern lag. Die hatten beim zweiten Head ihre Netzwerkkonfig nicht an unser Netz angepasst, deswegen konnte man nicht auf die Maschine und nix wurde geroutet, und er konnte sich nicht per NTP synchronisieren. Mal schaun obs jetzt besser wird... Die DL380 Maschinen von Bechtle haben alle nur ein Netzteil. Ich bin mir sehr sicher, dass wir mit zweien bestellt hatten, weil das naemlich der Hauptpunkt der RRZEler fuer diese Kisten war. Frau Kulzer das huebsche neue Webmail Frontend gezeigt, und sie auf den Neubau vertroestet. [/bauerm] permanent link Thu, 25 Aug 2011 Testweise mal am Nexenta fileserver den head 1 (nexone) ausgeschaltet, waehrend auf einem client ein "dd if=/dev/zero of=/mnt/nullen bs=1" lief und das /mnt vom fileserver kam. Ergebnis: alles bleibt stehen, showmount -e zeigt keine mounts von irgendeinm Teil des fileservers mehr an. Sehr Unbefriedigend. An Basis geschrieben. Das print.css (oder print-cal.css) auf Typo3 entfernt in der Druckversion alle Links. Sehr unschoen. Bemerkt von Frau Meusburger [/bauerm] permanent link Wed, 24 Aug 2011 Ueber nacht per netcat und zfs send/receive alle homes mit ihren snapshots auf den neuen fileserver gebracht. Riesenstapel Rechnungen zu Frau Kloss gebracht. Report webmigration: ENZ, Analysis und "algeo" sind im wesentlichen umgezogen. Bald mal redirects auf den neuen Server einrichten Report fileserver: wenn man ein HOME vom neuen fileserver mountet, und dann den server ausschaltet, gibt es ein failover auf den anderen, aber leider kriegt der client nix davon mit. Mist! Es gibt noch Anwender, deren Mailsetup das /var/mail von helena braucht. Fuer die muessen wir Hilfe beim Umstellen auf IMAP anbieten, bevor wir helena abschalten... Tobias hat dem mutt auf Solaris IMAP beigebracht, sollte also auch fuer Traditionalisten gut umstellbar sein. [/bauerm] permanent link Tue, 23 Aug 2011 Auf dem DL585 eine billige Inter Etherexpress 1000 und den P411i RAID controller eingebaut. Die Karte kann booten, wird unter linux als eth4 erkannt. Das RAID laesst sich nicht einschalten, der knopf an der rueckseite leuchtet orange ??? Mit Georgs Kerberos rumprobiert sudo kadmin -l startet die admin shell (ohne das -l wird dauernd nach dem Passwd von ROOT@.. gefragt). Dann kann man mit "add" hprincipals" dazutun, und mit "ank" keys fuer services z.b. rechner. Im puppet testsupport fuer kerberos-pam eingebaut, erstmal nur fuer neubau-102. Auf neubau-102 kann man sich jetzt toll kerberos Tickets holen, aber mit denen kann man nichts machen. Weder kann ein User, der im Kerberos existiert aber nicht lokal, sich einloggen, noch kann man ein kerb-ticket zum Einloggen per SSH benutzten. Morsi und Gellermann wegen dem Kerberos Setup fragen. Unser Print CCS im Typo3 ist defekt und loescht alle links aus der Druckansicht, Report von Meusburger. Bjoern faellt uns leider die Woche aus :( Das NexentaStor hat eine Option, ein "Auto-sync" mit anderen Maschinen zu machen. Das wollt ich fuer ein Backup der ziusudra nutzen, aber die zwei Optionen ssh+zfs und netcat+zfs tun nicht weil 1. man beim ssh+zfs das rootpasswd der anderen seite ablegen muesste. Das ist eine schlechte idee, und ssh erlaubt eh kein login als root. Umweg waere ein pseudo-root-user, der sich dann bitte per authorized-keys authentisiert. Das geht aber nicht out-of-the-box... 2. dem netcat+zfs kann ich keinen port uebergeben, von dem das zfs send (nehm ich mal an) kommen soll. Und in der Doku steht nix. [/bauerm] permanent link Mon, 22 Aug 2011 Der Agamemnon hat scheinz den Powerdown am Dienstag nicht ueberlebt, damit sind unsere Tape-Backups unzugaenglich. Dreck [/bauerm] permanent link Thu, 11 Aug 2011 Weiter mit der depperten HP Hardware gekaempft. Tobias hat die Firmware auf den neusten Stand gebracht, scheint aber nix zu helfen. puppet module aufgeraeumt. Authserver aufgesetzt und fuer Heimdal Kerberos entschieden Das FAI hat nach einem Install noch Files von der vorherigen Installation uebriggelassen, deswegen liefen auf einem Server noch Client-setups mit Automounter... Wenn der Automounter einen mountpoint in den maps hat, der nicht existiert, dann kann man das entsprechende Verzeichnis nicht mit mkdir anlegen, was recht verwirrend ist. Wir haben jetzt einen MX auf math.fau.de Fabian Klingbeil hat uns ein funktionierendes Mailsetup auf dickerserver gebaut, mit postfix, dovecot und zwei Webmailern zur Auswahl. Sehr schoen! ILO auf dem DL585 aufgesetzt, tut (wenigstens was...) [/bauerm] permanent link Wed, 10 Aug 2011 Neue rootpasswoerter auf allen neuen Maschinen inspiriert durch http://imgs.xkcd.com/comics/password_strength.png Mit IPMI rumgespielt, aber leider auf keine Maschine zugreifen koennen. An den Support geschrieben. Elendes Gefrickel mit dem DL585 G7. LinuxTeam RRZE angebettelt. Es bleibt weiter unklar, welcher Treiber fuer NX3031 gebraucht wird. Ordnung in den Papierkram gebracht, morgen Frau Kloss die Rechnungen vorlegen. Konvertierer von Absoluten auf Relative Links in HTML Baeumen weiter debuggt, um nach ca. 10 Mannstunden festzustellen, dass schon das Original der Testseiten kaputte Links hatte *stirnklatsch* Neue Inventarliste angefangen. Mit MAC und SSH Fingerprint. [/bauerm] permanent link Tue, 09 Aug 2011 Eine Inventar Database waer nett. Der Fileserver ist eingebaut. Dabei ist aufgefallen, dass 1. der Rackschrank von Sun Gewindebohrungen statt der ueblichen rechteckigen Loecher hat, so dass die mitgelieferten Rackschienen von Supermicro nicht verbaut werden konnten und die Maschinen auf einem Regalboden stehen muessen 2. unsere Stromversorgung im Keller voellig unzureichend ist, eine Sicherung ist rausgeflogen und hat ein paar Maschinen (zum Glueck keine Server) gestoppt. Ein Teil der Fileserverinstallation haengt jetzt am Stromkreis, der fuer Staubsauger, Kaffeemaschinen,etc gedacht war. Bei der Gelegenheit noch wesentlich mehr Platz geschaffen. Frau Kugler vom ActiveDir Team am RRZE macht uns Accounts auf dem AD, damit wir Maschinen eintragen koennen, die dann wiederum den AD zum Authentisieren benutzen duerfen ("net join"). Der HP DL585 ist zwar fuer Ubuntu Server 11.04 zertifiziert, aber nach dem Installieren moegen die Netzwerkkarten nicht mehr mit dem Switch reden. (und vorher auch nicht, wenn es ein Gigabit Switch ist). Angeblich hilft ein Firmwareupgrade der QLogic NetXen NX3031 Karte. Die Downloadseit bei HP.com gibt mir aber ein Permission Denied... Die DL585 haben kein CDrom, dringend ein externes kaufen. Bonnie++ als Performance Test ueber NFS auf den Fileserver losgelassen, mit 12 Instancen. Blinkt froehlich. Die 3com Switches versuchen IP Adressen fuer Management zu ziehen, und haben _default_ passwoerter eingestellt. Am besten in ein eigenes, nicht-routbares Netz stellen und passwoerter aendern (bei dem LACP switch schon gemacht) Die CORAID und Supermicro Server (und vermutlich auch andere) haben IPMI Schnittstellen, das ist sowie wie eine Mischung aus SNMP und den ILOM/ALOM/ELOM von Sun oder dem Ilo von HP. Tools dafuer: FreeIPMI (OpenBSD) ipmitool (OpenSolaris) Die sollten auch in so ein Konsolen/Managment Netz [/bauerm] permanent link Mon, 08 Aug 2011 Nach dem Ubuntu-ActiveDir-HOWTO vorgegangen und auf neubau-102 mal samba und winbind installiert, konfigfile mit realm=uni-erlangen.de und password server = faudc1.uni-erlangen.de . kinit user@UNI-ERLANGEN.DE tut. (Der Error kinit: KDC reply did not match expectations while getting initial credentials soll uns sagen, dass man _den Teil hinter dem @ nicht GROSS geschrieben hat_ *stirnklatsch* ) Ein "Domain Join" geht nicht, weil wir keien "Root account" im Identity Management haben.. Der HP Superserver macht weiter probleme, weil die 10Gigabit Karten nicht mit dem HP Procurve Gigabit Switch reden wollen. [/bauerm] permanent link Thu, 04 Aug 2011 Frau Brunings iMac tut jetzt wohl. Sigezech hat ein freies Tool gefunden, das Mac Platten uebers Netz replizieren kann, damit koennte man den iMac fuer alle Freiwilligen clonen... Nach langem Hin+Her hat uns Bechtle einen SAS Controller fuer den High-Performance Server (DL585) fuer AM3 nachgereicht. Der Serverinstall geht jetzt auch fuer die DL585, nach langem Gefrickel. Unter anderem muss man in /srv/fai/nfsroot/..../etc/fai/fai.conf die nfs-url auf das .54 Netz legen. Probleme mit HP Servern: 1. DL585: das Ubuntu ignoriert erstmal die Etherkarten, mit modprobe netxen_nic kriegt man den Treiber. Bis jetzt wollen die Dinger aber kein DHCP sprechen??? 2. DL585/DL385: Die SATA Platten leuchten nichtmal auf. lspci zeigt auf DL585, dass der Controller "disabled" ist. Auf DL385 wird er gelistet als "IDE mode", vielleicht ist das die Ursache... [/bauerm] permanent link Wed, 27 Jul 2011 Admintreffen: RRZE Netzteam kann uns jedes Netz auf jede Dose legen, gut fuer eine sanfte Umstellung der AM/WiMa Netze Der Umzug verschiebt sich um mindestens eine Woche Das Schliesssystem scheint ein Problem zu sein, und ohne das installiert das RRZE nix Wir haben 48 Ports Switch in jedem Serverraum [/bauerm] permanent link Tue, 26 Jul 2011 Puppet: merke: Variablen im node-context werden gesetzt, nachdem Statements aus eventuellen "inherits" abgearbeitet wurden. D.h. man kann nicht auf node-spezifischen Variabeln in Klassen oder virtuellen nodes pruefen, weil die da noch nicht gesetzt sind :( [/bauerm] permanent link Thu, 21 Jul 2011 Herr Reinfelder vom RRZE hat einen Loesungsweg fuer das Office auf Mac vorgeschlagen. Morgen verfolgen Unser Tapedrive im Taperoboter liefert IO Errors. Keine Ahnung... [/bauerm] permanent link Wed, 20 Jul 2011 das debian package "virtualbox" und seine Verwandten erzeugen ein nicht lauffaehiges VBox, es fehlen Kernelmodule *stirnklatsch* [/bauerm] permanent link Tue, 19 Jul 2011 MacOs lernt keine Drucker aus dem CUPS server von der aphrodite. CUPS broadcastet die Drucker an der aphrodite als "bojour shared" Es gibt puppet/facter packete fuer macos: https://sites.google.com/a/explanatorygap.net/puppet/ installation mit sudo installer -pkg /tmp/puppet-2.6.7.pkg/ -tgt / Ein moegliche "Loesung" des Mac Problemfeld koennte ein Shell Skript sein, das - einen sam User anlegt und in admins steckt - einen lokalen User anlegt und optional in admins steckt - puppet installiert - eine launchd plist fuer puppet installiert - als admin puppet agent --test startet Hinterhaeltig: wenn die Uhr eines frisch installierten PCs oder servers um einige Minuten nachgeht, dann kann er sein eigenes cert einige Zeit nicht nicht authentisieren (signatur waere in der Zukunft). moegliche Loesung: ntpd + ntpdate per FAI installieren und beim Boot gegen einen ntp server syncen [/bauerm] permanent link Mon, 18 Jul 2011 MS Office fuer Apple laesst sich installieren, aber Word laesst sich nicht starten :( alles andere tut scheinz Fuenf Server bestellt (DL380 mit Xeons) Maple "Grid" Module ist sehr seltsam, man kann mit Map nur einzelne Funktionen parallelisieren, die duerfen weder auf andere Funktionen noch auf globale Variblen zugreifen. Schrott. Unser ServerInstall scheint zu funktionieren: Die erste fette DL385 ist installiert! Herr Michel vom RRZE meint, wir koennen sofort Alpha-Tester des Active Dirs werden. Klingt (https://help.ubuntu.com/community/ActiveDirectoryWinbindHowto#Join%20AD%20domain) einfach: - winbind installieren - in der Konfig von winbind als Real "uni-erlangen.de" eintragen - Domaincontroller ist faudc1.uni-erlangen.de [/bauerm] permanent link Fri, 15 Jul 2011 HErr im Himmel! Puppet 2.7 agents koennen nicht mit unserem 2.6 master reden. Saudummes Design. Deswegen bei Installation von Puppet per gem die Version erzwingen: gem install -v 2.6.0 puppet Die zwei HP DL385 sind eingetroffen. Einen aufgebaut, dazu einen dritten Switch im Serverraum installiert. Nach langem Gefrickel rausgefunden, dass der HOSTNAME fuer FAI derjenige Name ist, der vom dhcp ueber die option hostname verteilt wird .... Zum remote Adminstrieren von Apples nimmt man wohl die "Server Admin Tools" http://support.apple.com/kb/DL968 [/bauerm] permanent link Thu, 14 Jul 2011 Lexmark per Parallelkabel an den uralten PrufungsamtPC angeschlossen, Treiber installiert, Testdruck tat. Leider werden unsere Zeugnisse aus Excel gedruckt, also der ungeschicktmoeglichsten Seitenbeschreibungssprache der Welt. Nach ganz viel Gefrickel scheint es als ob der Linux-Kernel NFS Server immer nur in ein Netz exportieren kann. /etc/exports auf faiserver so eingestellt, dass im neubaunetz installiert werden kann und in /srv/fai/nfsroot/..../etc/fai/fai.conf die nfs-URL des Config-Baums entsprechend geaendert. ACHTUNG das wird beim naechsten fai-setup ueberschrieben [/bauerm] permanent link Tue, 12 Jul 2011 Admintreffen: - MacOs Serverversion kann eventuell installierte Software ueber MacOs Billigversion verteilen -> nur noch eine Maschine zum Installieren. - Eruieren, ob uns das RRZE die alten Netze in den Neubau legen kann, dann koennen die AMler ihre Infrastruktur erstmal mitnehmen. Ausnahme ist DHCP, weils dann ein Broadcast Domain ist. - Eruieren, ob man mit pamwinbind (oder so), an den MS AD vom RRZE kommt, um Studenten und eventuell auch Mitarbeiter zu authentisieren - Mail/IMAPserver ist dringende Baustelle, weil da alle Adressen und Aliases bekannt sein muessen, bevors losgehen kann. Sanfte Umstellung durch Aenderung des MX RRs fuer den alten Domain, der MX vom RRZE sollte bei Pannen etwas auffangen koennen. Nach dem Admintreffen zu Frasch rausgefahren, einen Lexmark 360dn fuer Frau Forkel gekauft [/bauerm] permanent link Mon, 11 Jul 2011 Der uuuuralte Brother-Drucker bei Frau Forkel ist ausgefallen, es koennen deswegen keine Diplomzeugnisse mehr gedruckt werden. NOTFALL RRZE gefragt, ZUV interne Admins gefragt, Doku gesucht,... [/bauerm] permanent link Tue, 05 Jul 2011 CORAID liefert naechste Woche, leider haben wir aber keine ausreichend neuen Switches. RRZE angefragt, was tun. [/bauerm] permanent link Mon, 04 Jul 2011 puppet gleichzeitig als master und agent auf der selben Maschine zu haben, ist in unserem setup leider nicht trivial. Daher erstmal kein agent auf ziusudra Puppet module umgebaut, changesets 278-286. Installserver einen zweite Etherkarte gegeben, ins Neubaunetz gehaengt als neubau-12 (ziusudra waere 11) [/bauerm] permanent link Sat, 02 Jul 2011 Per puppet libgmp3-dev, octave, screen, git, subversion, und mehr installiert [/bauerm] permanent link Fri, 01 Jul 2011 Alte gesar platten aus der helena ausgebaut und abgehaengt. cfgadm ist ein schoenes Tool. Dadurch sind jetzt wieder Stecker und Rackschienen frei, letztere allerdings ziemlich fragmentiert... [/bauerm] permanent link Thu, 30 Jun 2011 Es stellt sich raus, dass die Umstellung von Ubuntu 10.04 nach 11.04 gravierende Nebenwirkungen hat. Unter anderem ist jetzt NFS4 die default-Version, nachdem wir aber weder Kerberos noch idmaps haben, gehoert jedes File "nobody:nogroup". Das zerstoert natuerlich einiges. Nach viel Gefummel haben wir jetzt in /etc/auto.master und /etc/auto.net ein "vers=3" reingezwungen. Diverse Korrekturen im puppet. Ziel muss sein, alle Bedingungen explizit im puppet zu haben, damit man sich nicht auf den Installserver allein verlassen muss. Es sind jetzt fuenf der neuen PCs installiert und im Haus verteilt. [/bauerm] permanent link Wed, 29 Jun 2011 Die IP-ranges 131.188.103.139-200 und 131.188.54.12-213 haben jetzt DNS namen (math-139 bis math-200 und neubau-12 bis neubau-213) war noetig, weil adressen ohne reverse-map nicht aus dem uni-netz geroutet werden. Frau Boegelein hatte das Problem, dass sie ueber mailhub.rrze keine mails mehr versenden kann. liegt wohl an einer Aenderung im RRZE, dass mailhub nur noch fuer eingetragene Mailer zur Verfuegung steht. Man kann stattdessen smtp.uni-erlangen.de nehmen. Diverse Umbauten im Puppet tree. [/bauerm] permanent link Tue, 28 Jun 2011 Ok, problem mit dem FAInstall war, dass kein /var angelegt wurde und das Auspacken dann an die Grenzen von / gestossen ist. Saubled. Der Autinstaller hatte zum Plattenpartitionieren das setup-harddisk Programm genommen, obwohl das "deprecated" ist und die Konfigs von setup-storage nicht versteht. Man kann den Einsatz von setup-storage erzwingen, indem man entweder USE_SETUP_STORAGE=1 in /etc/fai/fai.conf setzt oder in /srv/fai/nfsroot/live/filesystem.dir/usr/lib/fai/subroutines das entsprechende if-statement umbaut. AutoInstaller geht jetzt. Erkenntnisse: - Vergleichsoperator in .erb files ist == nicht = - facter-Facts brauchen kein fuehrendes $ Zeichen - Der Logout-Knopf unter Gnome ist nicht etwa eine panel-app, sondern ein "indicator", der in einem eigenen .deb package ist (und das ist keine Abhaengigkeit von gnome-panel, das indicator-app jedoch schon WAAAAAA) Team Meusburger moechte MacBooks, verspricht eigene Verwaltung. [/bauerm] permanent link Wed, 22 Jun 2011 Zwei alte 3com switches vom RRZE geholt fuer den Testbetrieb Der neue Installserver hat rumgemeckert, dass der Linux-kernel (als packet) mit diversen anderen Packeten im Konflikt steht (WTF?). Stellt sich raus, FAI mischt Debian und Ubuntu Packete. Fix: in /etc/fai/make-fai-nfsroot.conf das FAI_DEBOOTSTRAP auf "natty http://archive.ubuntu.com/ubuntu" aendern Naechstes Problem: es wird kein GRUB installiert tmp-Workaround: wir nehmen die config skripten vom alten FAI und buendeln neues Ubuntu-tgz dazu Naechstes Problem: das setup-storage Skript vom FAI vertraegt seine eigenen Demo-configs nicht -> WAAAAA [/bauerm] permanent link Tue, 21 Jun 2011 Mit Nachbohren per Email einen Lizenzkey fuer eine NexentaStor Enterprise Edition gekriegt, zum Ausprobieren (nexenta.com) Die Fujitsu P700 haben eine Intel 82578DM, die in Linux erst seit 2.6.36 unterstuetzt wird; unser Installserver (und das "long-term-support" Ubuntu 10.04) ist 2.6.32 -> Kein Keks -> Neuinstallation eines Installservers mit Ubuntu 11.04 Mit der Anpassung unseres puppet Setups an MacOS X begonnen. Lessons learned: es ist ein paketmanager installiert: pkgutil /etc ist ein link nach /private/etc Lessons not learned: wie stellt man NIS (oder sonstige) auth ein? wo konfiguriert man den automounter? Herr Wuensch vom RRZE kann uns noch 100Mbit Switches geben, fuer den Testaufbau [/bauerm] permanent link Mon, 20 Jun 2011 Der iMac kann nach etwas Setup unsere HOMEs mounten Die PCs koennen erstmal nicht automatisch installiert werden, da angeblich die Netzkarte nicht vom Kernel unterstuetzt wird (Intel 82578DM Gigabit, e1000e Treiber)? Es liegt am historischen PXE.linux, den man mit viel Muehe updaten kann (wiki.fai-project.org/wiki/Grml-Kernel) [/bauerm] permanent link Fri, 17 Jun 2011 HSD hat zwei imacs geliefert Frasch hat 10 PCs geliefert Fileserver bei Basis/CORAID bestellt [/bauerm] permanent link Tue, 14 Jun 2011 Reparatur von Drucker ex-f von der Geschaeftsstelle genehmigt Rueckmeldung wegen Apple Hardware gekommen Antwort von Oracle/Circular wegen Fileserver erst jetzt -> Absage Server bei Bechtle bestellt Frasch liefert PCs diese Woche [/bauerm] permanent link Fri, 10 Jun 2011 Papierfach von a geht wieder nicht, neue Drucker! Frasch hat die 10 PCs nicht geliefert... Keine Rueckmeldung von HDS wegen der Apple Hardware [/bauerm] permanent link Wed, 08 Jun 2011 Frasch hat netterweise die Transportwalzen von mehreren Druckern ausgetauscht -> Drucker a hat wieder ein Papierfach mehr Drucker ex-f hat kaputte Fixiereinheit, Reparatur kostet 200 Euro, wir kaufen neue Drucker! Sieben Stueck Apple Hardware bestellt Im RRZE mit dem OberWindowsadmin, Rathmann und Ritter diskutiert, - Windows7 autoinstall von exemplarischen Plattenimage (gereinigt mit SYSPREP) scheint machbar zu sein, evtl auch uebers netz mit clonezilla. - angeblich gibts ein Samba Linux pam-Modul, dass mit winbind gegen einen MS ActiveDirectory Server authentisieren kann, ein solches setup laeuft in der Etechnik am CIP pool. - Das "IdM" des RRZE koennte _theoretisch_ genutzt werden, um Studenten im CIPpool zu authentisieren, Frank Troeger fragen. In einer OpenLDAP Doku gesehen, dass man in nsswitch.conf ActiveDirectory Anfragen als eigenen (nicht LDAP) Punkt angeben kann, d.h. wir koennten mit user file ldap ad ein Fallback zum RRZE AD machen, wenn die das erlauben. NexentaStore kann NDMP Backup, was genau das ist, was das RRZE anboete NexentaStore testinstallation braucht einen Lizenzkey und sie bringens nicht fertig, den zuzumailen... [/bauerm] permanent link Tue, 07 Jun 2011 Drucker a (ex-l) hat aufgegeben, Ursache unklar. Durch Drucker l (ex-a) ohne das untere Papierfach ersetzt (das hat Transportprobleme). [/bauerm] permanent link Mon, 06 Jun 2011 Angebot von NetApp erbeten VirtualBox auf andromache installiert. Sun-Package liegt auf http://download.virtualbox.org/virtualbox/4.0.8/ Wenn man im richtigen Moment 1. alle Fenster ganz schnell wegklickert 2. auf F12 drueckt kann man theoretisch auch vom Netz booten. Auf aphrodite fuer die erste virtualbox instanz eine IP festgenagelt und per next-server an siegfried verwiesen. Dort mit /usr/sbin/fai-chboot -FI $ip das installieren per PXE angestubbst. Das /root/backup.homes auf ziusudra fuehrt zu extremer Verlangsamung der vermounteten Verzeichnisse. Wenn mans unterbricht waehrend es mypool/radix/homes scannt, dann bleibt einiges haengen. Die Defaults, die fuer die Menues im "Java Desktop" benutzt werden, stehen unter Solaris in /usr/share/applications/*.desktop Auf artemis ist jetzt der firefox an unseren jeweils aktuellen unter /usr3 gehaengt [/bauerm] permanent link Fri, 27 May 2011 Es fehlt immer noch ein Angebot von Oracle, grrr. [/bauerm] permanent link Wed, 25 May 2011 10 TFTs (NEC EA241WM, 24Zoll) bestellt Um ein Angebot fuer 2 HP DL385 (AMD 8core, 16Gb, 2x2TB Platte, DVD Reader, 4 1Gbit Ether, redundanter Strom) gebeten. Mal schaun was die schicken. [/bauerm] permanent link Tue, 24 May 2011 Bei Frasch zehn FTS P700 (Core i7-2600, 12Gb RAM, 1TB Platte, Nvidia geForce 405) ohne Windows bestellt. Spart 500 Euro. [/bauerm] permanent link Fri, 20 May 2011 Drucker a hat in Fach 3 Papiertransportprobleme, keine Garantie mehr. Durch Drucker l ersetzt. [/bauerm] permanent link Weiter keine Antwort, Mail geschrieben mit Bitte um Klaerung [/bauerm] permanent link Tue, 17 May 2011 Keine Antwort wegen den MS Lizenzen auf PCs Inzwischen liegen zwei Angebote fuer den Fileserver vor, zwischen 80000 und 130000 Euro, jeder mit NexentaStore Servern [/bauerm] permanent link Mon, 16 May 2011 Herr Fischer vom RRZE hat wohl die Windowszwangsabgabe beschlossen, Frasch wuerde sie aber auch weglassen. Mal mit denen reden... [/bauerm] permanent link Fri, 13 May 2011 Die P700 vom Frasch kommen zwangsweise mit Windows, was fuer unsere Zwecke meist sinnlos ist. Mal rauskriegen, ob wir da Euro 25oderso pro Maschine sparen koennen. Angebot von CORAID (vertreten durch die Basis GmbH) ist angekommen, noch keins von SUN/Ohrekel... Drucker f ist wieder da und tut wohl. [/bauerm] permanent link Wed, 11 May 2011 Besprechung mit dem Grossteil der anderen Admins. Konsense: - Std-Workstation wird FTS P700 (option mit Nvidia?) mit 12Gb Ram - Bismarckstrasse faengt an Hardware zu kaufen und ein Setup zu basteln - Apple Maschinen fuer Sekretariate werden in der Bismarckstrasse stress-getestet - Erstes Ziel sollte ein Authentication Server sein - Wigand Rathmann hilft beim Webserversetup - Prechtel hat jemanden, der vor kurzem einen Mail+IMAP Server aufgesetzt hat - CIP/Praktikumsmaschinen kommen in ein eigenes Subnetz, mit eigener Druckmoeglichkeit - Anbindung ans Identity Management System des RRZE waere fuer die Studies echt praktisch - AM1 und AM3 kaufen noch dieses Jahr je einen CPU Server - CPU Server werden aus dem Autoinstaller installiert [/bauerm] permanent link Tue, 10 May 2011 Rubygem upgrade aller gems auf Ziusudra hat das Problem behoben, uff. Das Windows Team am RRZE hat noch keinen Koenigsweg fuer die Installation von Windows7 auf groessere Mengen von Maschinen. Das Enterprise Windows vom RRZE hat aber schonmal den Vorteil, dass man identische Plattenimages installieren kann, ohne dass was schiefgeht, weil das nur beim Lizenzmanager vom RRZE nachfragt. Drucker f wurde abgeholt. [/bauerm] permanent link Mon, 09 May 2011 Telefonat mit CORAID (usa), sie schicken uns ein Angebot ueber einen fetten fileserver mit ausfallsicherer Konfig. Ein weiterer Anbieter ist wohl Zstore, mal schaun... Drucker f ist an einem mechanischen Schaden verstorben, wir haben aber noch Garantie drauf. Der puppetmasterd auf ziusudra laesst sich mit einem absurden error nicht mehr starten: /var/ruby/1.8/gem_home/bin/puppetmasterd:19:in `load': no such file to load -- puppetmasterd (LoadError) from /var/ruby/1.8/gem_home/bin/puppetmasterd:19 Sehr schlecht. [/bauerm] permanent link Wed, 04 May 2011 Frasch hat das Mainboard auf Kulanz getauscht, siegfried lebt wieder [/bauerm] permanent link Tue, 03 May 2011 siegfried (und damit unser installserver) ist tot, wohl ein BIOS bitflip. Frasch meint, dass die Boards oefter solche Fehler hatten und eventuell auf Kulanz repariert wird. Platte aus siegfried in kalypso umgebaut, neuer siegfried ist also kalypso [/bauerm] permanent link Mon, 02 May 2011 Auf aruru laeuft jetzt ein UW imapd auf imaps, ein weiterer auf imap, der aber nur Upgrades zu TLS mit STARTTLS erlaubt. Sollten also keine Klartext Passwoerter durchlaufen. Da unsere historische installation kein authentifiziertes Mail-Submit ermoeglicht, bleibt Mailsenden von ausserhalb ein Problem.. Bloeder Workaround: imap von hier, versenden ueber z.b. gmail mit "Reply-To: addr@hier". Geht unter evolution gar nicht, unter thunderbird jedoch schon. Auf helena laeuft ein imapd auf imap, der aber nur STARTTLS erlaubt, was weder evolution noch thunderbird koennen #$*%^^ Mit exakt den gleichen Konfigs wie auf aruru laesst sich kein inetdienst auf 993 einschalten. [/bauerm] permanent link Wed, 20 Apr 2011 Backuptool fuer Windows Laptops: Duplicati - kann per ssh uebertragen (passwd oder pubkey auth) - hat vernuenftige oberflaeche - kann inkrementell sichern - schreibt in unserem Setup ins $HOME des Users, und das landet dann in der Sicherung auf Band Backuptool fuer Linux Laptops (die nicht unter Puppets Fuchtel stehen): LuckyBackup (rsync ueber ssh) Anfrage fuer Angebot Fileserver an CORAID in Californien geschickt, mal schaun. Ein interessantes Produkt von denen waer z.b. http://www.coraid.com/company/pr/coraid_introduces_etherdrive_z_series_nas_storage_appliance Morsi wegen dem Setup WiMa gefragt, u.a. deren Kerberos und Puppet Setups sind interessant Wir brauchen einen IMAP Server auf der helena, um 1. die aruru beerdigen zu koennen 2. um NFS-bedingte, graviernde Fehler zu vermeiden (/var/mail auf aruru ist NFS von helena, pop/imap auf aruru loescht gelesene mail aus /var/mail/$username waehrend auf helena sendmail an /var/mail/$username anfuegt...) 3. um was moderneres als POP3 zu haben Das UW imap laesst sich nach installation von opencsw openssl mit 'make gsc' kompilieren. Die Pfade zu e.g. Zertifikaten sind hart reinkompiliert, das muss man wohl noch anpassen... [/bauerm] permanent link Mon, 18 Apr 2011 Was in den letzten Wochen geschah: - siegfried ist tot. D.h. wir haben erstmal keinen Linux Installserver mehr. Sehr schlecht. - Das Ministerium hat uns einen Grossteil des beantragten Geldes bewilligt. Jetzt muss entschieden werden, wie wir das ausgeben. Mein Plan waere, moeglichst schnell alle SUN Workstations in der Bismarckstrasse durch neue LinuxPCs zu ersetzen. - Barbara und Uli haben getestet, wie man mit bacula backups von Windows Laptops machen kann. Sie habens hingekriegt. Leider ist das ganze Konzept hinter bacula so stark an Server und Tapes gebunden, dass es fuer Laptop schlecht zu gebrauchen ist: - Tape ist sequenziell -> Jobs muessen in Queues laufen -> "Jetzt Backup machen" funktioniert nur, wenn grad kein anderer Backup macht. - Wenn man das Laptop waehrend des Backups ausschaltet, abstoepselt, schlafen legt... dann haengt der Backup Job und blockiert alle weiteren, bis ihn ein Admin abschiesst. Das ist nicht akzeptabel. [/bauerm] permanent link Wed, 23 Mar 2011 ank.tcl ist beerdigt. Auf nimrod sind den notorischen Skripten die x-Bits weggenommen und sie sollten keinen Schaden mehr anrichten. Eine Anzahl der aktiveren Autoren hat schon ein Login. Erklaerung, wie man weitere einrichtet, unter http://ziusudra.mi.uni-erlangen.de:8080/Webserver#User_anlegen Wigand Rathmann hat fuer Teil-Baeume des Webauftritts eigene vhostnames beantragt und gekriegt. Die Lehrstuehle koennen sich dann eigene URLs auf ihre Visitenkarten drucken :) [/bauerm] permanent link Fri, 18 Mar 2011 Kalender fuer MiNAuG tut, am Montag schalten wir das ank.tcl ab Alle alten Kalendereintraege in ein Archiv verschoben, damit man da auch suchen kann (Wunsch eines Benutzers) Bjoern hat ein Typo3 Plugin fuer Kontaktdaten gefunden, dass sich schoen fuer unsere Mitarbeiterseite nutzen liesse. Dummerweise repliziert es dann aber auch Daten, die schon auf persoenlichen Seiten stehen (keine NormalForm!) [/bauerm] permanent link Thu, 17 Mar 2011 Plan fuer Umzug erneuert, bald online Meeting der Webmaster im RRZE. Interessante Punkte: - Ganze Fakultaeten werden von einer einzigen Sekretaerin ohne spezille Schulung webgemeistert. - Ausser uns gibts noch sechs weitere Typo3 Installationen. Eventuell mal Kontakt aufnehmen [/bauerm] permanent link Wed, 16 Mar 2011 Rundmail an die Bismarckstrasse verschickt, um den Plan zur WebUmstellung klarzumachen und Feedback zu bekommen [/bauerm] permanent link Mon, 14 Mar 2011 Immer noch keine Meldung, ob und wieviel Geld wir fuer die Rechner im Neubau bekommen. Eigentlich sollten schon laengst Server und ein paar PCs bestellt werden, um das mal testen zu koennen. [/bauerm] permanent link Fri, 11 Mar 2011 Mit Wigand Rathmann und Bjoern Maier in den letzten Tagen den WWW Umzug soweit vorbereitet, dass der erste Schritt getan werden kann, naemlich das unsaegliche ank.tcl zu beerdigen und unsere Ankuendigungen komplett im Typo3 zu machen. Dazu muessen wir den Veranwortlichen Accounts geben und eine kurze Einfuehrung, die Website aus www.mi umlenken und auf dem Typo3 eine Seite ohne die Rahmenelemente der zukuenftigen Seite gestalten, in der dann nur der Kalender gezeigt wird. Frau Meusburger weisst darauf hin, dass Tablets (oder andere Touchscreens) fuer die Lehre sinnvoll sein koennten, da man 1. sowas wie einen Tafelvortrag auch auf dem Tablet aufzeichnen kann und dazu die Erklaerungen des Vortragenden als Tonspur. 2. zusammen mit einem Beamer das Tablet+Stift als Tafel+Kreide-Ersatz nehmen kann, wobei es unterbrechungsfrei moeglich ist, Bilder, aufwendige Formeln, o.ae. einzublenden, weil es auch einfach ein Bildschirm ist. Fuer den Neubau anschaffen... Frau Slezac weisst auf die ueber zwanzig geplanten Arbeitsplaetze in der neuen Bibliothek hin. Sollen sich Studenten von dort aus auf unseren Maschinen einloggen koennen? [/bauerm] permanent link Wed, 09 Mar 2011 Der Bjoern hat die wesentlichen Teile der Struktur der Frontseite des www.mi auf Typo3 nachgebaut. Inhalte fehlen zum Teil noch, sieht aber gut aus. Wigand hat eine Moeglichkeit gefunden, Usern "Frontend Logins" zu geben, d.h. sie koennen z.b. im Kalender Eintraege machen, ohne das verwirrende Typo3 Backend jemals zu sehen. Ideal waer, wenn das auch fuers Gestalten von Homepages moeglich waere... [/bauerm] permanent link Tue, 08 Mar 2011 Es stellt sich als unverhaeltnismaessig schwierig heraus, eine Tastatur mit eingebautem USB Hub zu kriegen (so wie unsere SunRay Tastaturen, oder die von den iMacs). [/bauerm] permanent link Mon, 07 Mar 2011 www.math.uni-erlangen.de gibts jetzt, ist erstmal Baustelle, Bjoern und bauerm haben Rechte. Wie man da weitere einbindet, muss uns Rathmann erst noch erklaeren. ank.tcl ist wieder mal durchgedreht. Es scheint als ob Tcl in while ![eof $einfile] ein erfolgloses read nicht als eof interpretieren wuerde. Wuergaround: /local/www/etc/daten/ank_$sem entfernen, neu starten --- vorher sicherstellen, dass in keiner ankuendigung Whitespaces am Zeilenende stehen, z.b. mit grep "[ ]" /usr/home/*/public_html/ankuendigungen (zwischen [ und ] stehen ein Space und ein Tab). [/bauerm] permanent link Fri, 04 Mar 2011 bacula wieder ausm repos server entfernt, weil da Passwoerter drinstehen. Mit Wigand Rathmann und Bjoern die Migration zu Typo3 besprochen und die Kalenderfunktion im Speziellen. www.math.uni-erlangen.de beantragt. [/bauerm] permanent link Thu, 03 Mar 2011 Nimrod ist jetzt auf Tape gesichert. Auf ziusudra laeuft jetzt unter http://ziusudra.mi.uni-erlangen.de:8000/ ein Mercurial Repo-Server. Wenn alle Beteiligten ihre ssh keys mailen, koennen wir da alles lagern. Facter Plugins fuer swap und sshd checks gebaut. Bjoern hat eine Roadmap fuer die Migration unserer Webinhalte auf Typo3 erstellt. Das leidige Problem angepackt, dass nur Laptops mit fester (und routebarer) IP drucken koennen. Georg baut ein Skript, mit dem wir den gleichen Effekt auch mit RFC 1918 Adressen kriegen. [/bauerm] permanent link Wed, 02 Mar 2011 Drucker f ist nachezu defekt. Unser Bacula Backup laeuft erfreulich fehlerfrei. netcat auf nimrod unter /bin/nc installiert. Sollte fuer remote backups nuetzlich sein... [/bauerm] permanent link Fri, 18 Feb 2011 Wir haben das neue 131.188.54/23 Netz! Dank an Helmut Wuensch vom RRZE. [/bauerm] permanent link Thu, 17 Feb 2011 Endlosschleife in ank.tcl gefixt, Loesung folgt zabbix_agentd loggt nix, wenn man ihn nicht sehr viele Kindprozesses forken laesst Den alten Taperoboter nochmal an einem anderen PC mit SCSI3 getestet, das Tapedrive ist wohl kaputt und sendet voellig defekte Nachrichten auf dem Bus. Ein Glueck, dass wir das andere haben. Andromache wuerde als SunRay Server funktionieren, aber zumindest jetzt, wenn der nemo noch laeuft, moegen die SunRays nicht von ihr booten. (Kollision der IPs?) Auf agamemnon und andromache ssh auf die Gruppe adm beschraenkt, die hoffentlich gute Passwoerter haben. [/bauerm] permanent link Wed, 16 Feb 2011 Diverse korrekturen an unseren puppet modulen. ein wildgewordenes ntpd hat tausende von Prozessen gestartet. Die Leiche von Gesar aus dem Rack entfernt. Die zwei LVD Controller rausgebaut. Den reparierten SunStoredge L8 an einen PC mit einem der LVD Controller gehaengt -> Error. Nikos und Georg haben das Ding nochmal aufgeschraubt und festgestellt, dass das Tapedrive keinen Stromstecker hatte -> fixed. An dem PC, der kein PCI-X hat, kann man den Status des Roboters abfragen und tapes in das Drive laden/entladen, aber leider keine status vom drive fragen: isp1: 0.5.0 had an unexpected bus free Nochmal an eine Kiste haengen, wo scsi nachweisslich geht. Um auf unseren Linuxboxen die password-brute-forcies auf SSH zu bremsen, per puppet fail2ban installiert (traegt IPs mit SSH Fehlversuchen in eine Firewall block-Regel ein, die dann 10 Minuten besteht). Tipp von A. Nerf. Zabbix auch auf gilgamesch installiert. Neues Problem mit ank.tcl, diesmal eine Endlosschleife :((( [/bauerm] permanent link Tue, 15 Feb 2011 Der scrub auf dem mypool hat 23 Stunden gedauert. Der bacula-StorageDaemon ist still verstorben. Kein Gutes Zeichen. Ubuntu installiert zabbix-agentd mit default server _localhost_ [/bauerm] permanent link Mon, 14 Feb 2011 andromache mit teTeX ausgestattet. Sollte jetzt alles da sein, was ein Mathematiker braucht, wenn was fehlt, isses mit OpenSolaris etwas einfacher zu kompilieren... [/bauerm] permanent link Fri, 11 Feb 2011 Prozessliste nach speichergroesse sortieren: ps -eafo 'vsz,comm' ZFS Woes: eine Datei bei Frau Forkel im public_html ist laut ls 7.5 Kb gross, laesst sich aber weder anzeigen, noch loeschen oder umbennenen. Erstatzweise den Redirekt aus dem httpd.conf rausgenommen und eine Kopie aus den snapshots von gestern an den Ort, wo es laut link sein sollte (pruefungsamt.shtml). Ein ZFS scrub dauert auf ziusudra > 12 Stunden. Waehrenddessen ist das System deutlich langsamer... Cronjob auf Sam/Sonntag nachts gelegt. Mit Knabner ausgetyftelt, dass im Neubau die Studentenarbeitsplaetze in einem eigenen Netz liegen, mit eigenem Printserver, idealerweise auf die Kopierer, so dass ihre Copiecards auch fuer Ausdrucke gehen -> minimaler Aufwand allerseits Allerdings muessen dann wegen Betriebsmittelverwaltung die Defaultdrucker der Angestellten immer die ihres Lehrstuhls sein, das wird hart. Wir kriegen ein /23 im Neubau, und koennen das jetzt schon ueberallhin haben koennen. Problem am Horizont: die WiMa muss _mit ihrer Hardware_ umziehen, weil die ja im Antrag schon drin sind... [/bauerm] permanent link Tue, 01 Feb 2011 Hab heute die Vermutung geprueft, dass die Clients das Problem sind. Im Verlauf dessen einiges ueber SUN patches gelernt: patchrm $patchnr kann patches wieder entfernen und stellt den Zustand von vorher wieder her. Heut Nacht nochmal mit snoop host ziusudra rpc nfs auf einen Dialog geschaut (/usr/local/bin/nvi-1.79 ~/aha), der Error kommt vom Server. Wenn man als NFS Version 3 mountet, verschwindet das Problem. Also in auto_master: /usr/home auto.home -vers=3 [/bauerm] permanent link Mon, 31 Jan 2011 Hab mit immer geaergert, dass SUN keine Manpages zu ihren SMF/svc liefert. Folgendes Kommando zeigt wenigstens etwas Doku zu den vielen services: svcs -a -o STA,FMRI,DESC Sinnvolle bacula Doku auf http://www.damtp.cam.ac.uk/internal/computing/docs/public/tapechange.html Prof Knauf hat mir das NFS Problem nochmal bildhaft gezeigt. Das muss dringenst repariert werden.. [/bauerm] permanent link Fri, 28 Jan 2011 Tobias hat fast allen SunBoxen puppet gegeben http://ziusudra.mi.uni-erlangen.de:8081/tktview?name=e0454a66f3 ziusudra reboot ins opensolaris-net http://ziusudra.mi.uni-erlangen.de:8081/tktview?name=bcbfdf7ed4 (das war das einzige BootEnv, das /etc/bacula hatte, also vermutlich das neueste) Das Problem, dass eine bestimmte Variante von open(filename, O_TRUNC|O_CREAT|O_WRONLY) ein Permission denied liefert, bleibt leider bestehen. Notloesung waere, das am meisten genutze Programm mit diesem Problem (nvi) auf was anderes zu linken. Auf agamemenon wurde der Catalog auf ein File in /tmp/ gesichert, /tmp ist ein memoryfs, das im swap wohnt, also nicht so gut. http://ziusudra.mi.uni-erlangen.de:8081/tktview?name=1416bb64b0 [/bauerm] permanent link Thu, 27 Jan 2011 Jemand hat den armen Nemo einfach ausgeschaltet... [/bauerm] permanent link Wed, 26 Jan 2011 Noch eine Katastrophe, die ziusudra ist heut um 9:00 stehengeblieben, beim reboot wollte das neue BootEnvironment nicht booten (????), mit einem alten gings, in dem waren dann aber diverse Sachen in /etc noch auf uraltem Stand. Waehrend ziusudra neu gebootet hat, in nemo zwei weitere Prozessoren eingebaut. Nach Neustart ging das framebuffer device nicht mehr -> naechste Katastrophe Nach Geschraube mit Graphikkarten ging der nemo wieder. Triumph: Nemo hat jetzt vier CPUs (a 450 Mhz) Derweil andromache als SunRay Server getestet. Ging erstmal nicht, weil sie noch keine Software fuer die Rays geliefert hat. Dann hat nis gefehlt, dann der automounter, dann hat sie ploetzlich nicht mehr mit der Ray reden wollen und eine rote LED am Etherport zum nemonetz gezeigt. Nach dem ziusudraausfall (und reboot in ein aelteres opensolaris), gibt es jetzt total seltsame Probleme [/bauerm] permanent link Tue, 25 Jan 2011 Longariva hat die SunRay installation auf andromache fertig. nemo _und_ andromache sind jetzt dhcp server fuer sunrays, den dhcp server auf nemo kann man ausschalten, da andromache an ihn delegieren wuerde. Im Falle eines Ausfalles von nemo kann man mit /opt/SUNWut/sbin/utadm -D $netz /opt/SUNWut/sbin/utadm -A $netz das Netz neu konfigurieren und fuer Auth und Software Server dann die Andromache eintragen. Eine Alte Ray als Testmaschine hergenommen, tut leider nicht. Test: nemo# sh /etc/init.d/dhcp stop SunRay mit Strom versorgen... ...mehrere Versuche des Bootens sichtbar... ...SunRay gruesst mit "nemo" nemo# sh /etc/init.d/dhcp start Das Ticket Tracking system umkonfiguriert und auf neueren Stand gebracht. Das fossil ist cool, weil alles angezeigte einfach polierte SQL reports sind, die sich schoen editieren lassen (die reports, nicht das angezeigte). Die rsyslog config "client.conf" in puppet in ein subdir verschoben, weil viele files so heissen, z.b. die CUPS minimal config. opencsw.org hat ein puppet Paket, dass auch unter Solaris 10 funktioniert. Auf charybdis testinstalliert, redet auf jeden fall mit ziusudra. Georg hat ein zabbix gebaut, dass auch auf Solaris 10 laeuft. [/bauerm] permanent link Mon, 24 Jan 2011 Bjoern hat eine Moeglichkeit gefunden, mehrere virtuelle Hosts in einer Typo3 Installation zu betreiben. Der Verschmelzung mi + am + wima -> math steht nicht mehr viel im Wege. Bacula client auf der Ziusudra tut jetzt. Homes sind jetzt 1. Auf ziusudra ueber fuenf Platten in ZFS mit raidz 2. Auf ziusudra auf einer USB Disk mit ZFS (snapshot gestern) 3. Auf agamemnon in ZFS ohne raid (snapshot gestern) 4. Auf tape, das am agamemnon haengt (backup gestern) [/bauerm] permanent link Fri, 21 Jan 2011 Zabbix hat jetzt autodiscovery und eine printer klasse. Die funktioniert so halb, es werden z.b. Toner Niedrigstaende angezeigt, leider auch fuer Tonerkassetten, die wir gar nicht haben Wir haben den alten Taperoboter wieder. Muss noch eingebaut und getestet werden. [/bauerm] permanent link Thu, 13 Jan 2011 Mit 'update slots' kann man bacula dazu bringen, alle slots mal durchzuschaun und sich wieder zu merken, welche tapes wo sind. Spart viel Arbeit. Ein Barcode Leser wuerde noch viel mehr sparen... Die CIP Admins haben auch die Maxima Pakete neu gemacht, wodurch die LA Worksheets jetzt auch mit dem alten wxMaxima gehen. [/bauerm] permanent link Wed, 12 Jan 2011 Maxima 5.23.0 startet, wenn LANG=en_US.UTF-8 ist, bei allem anderen was ich ausprobiert habe, gehts nicht. -> ein skript gebastlelt, das fuer Studenten Environment, Pfade, Konfigfiles zusammenbastelt, damit sie in der Physik das neue wxMaxima/Maxima nehmen koennen ~os00ikys/bin/wxm Bacula hat die Tape->Slot Zuordnungen vergessen :( Waaa. Damit sind dann die Backups auf Tape abgebrochen Georg hat Zabbix soweit am Laufen, dass Discovery und einfache Tests funktionieren. Zabbix als Puppet Module gebaut und auf die linuxboxen verteilt [/bauerm] permanent link Tue, 11 Jan 2011 Nemo wollte nicht mehr booten. Als Notloesung erstmal die Nemo-Rays auf die Artemis gepatcht. Nach Einbau einer Graphikkarte aus einer SunBlade 1000 bootet er wieder. In nemo sind 2 von 4 CPU slots belegt ?? Geht wieder alles. Fuer das Orientierungsseminar und Herrn Prof Neebs Worksheets braeuchte man im Physik CIP Pool ein neueres maxima/wxmaxima. Die Admins haben netterweise ein neues maxima installiert, ich hab noch ein neues wxmaxima gebaut und dort ins $HOME gelegt. [/bauerm] permanent link Mon, 10 Jan 2011 Drucker k laesst sich keine IP konfigurieren, faellt immer zurueck -> ins DHCP mit rein, das geht noch Eine weitere SunRay scheint kaputt zu sein [/bauerm] permanent link Mon, 20 Dec 2010 psnup -2 | pstops "2:0,1U(21cm,29.7cm) klappt an der "langen Kante" das backup.homes uebertraegt nur Inkremente, d.h. homes neuer user werden nicht mitkopiert :/ Auf siegfried laeuft jetzt ein Zabbix Server mit default config. georg hat einen Aufschrieb, wie man das aufsetzt. Auf siegfried ist jetzt ein FAI install server, kalypso ist testmaschine. Der MySQL auf siegfried hat ein neues password fuer root, weil das alte mit dem OJS ge-share-t war. [/bauerm] permanent link Fri, 17 Dec 2010 Auf ziusudra bacula kompiliert mit --with-client-only, und nach http://www.sim10tech.com/Bacula/Setup.html die svc dinger ( /lib/svc/method/bacula-ctl-fd und /var/svc/manifest/application/bacula.xml) gebaut Mit svcs sieht man jetzt bacula am laufen. [/bauerm] permanent link Thu, 16 Dec 2010 In bacula-sd.conf den Taperobot als default device eingetragen. Man kann mit bconsole restore ... files aus den Tapes holen, die landen dann in /tmp/bacula-restore [/bauerm] permanent link Wed, 15 Dec 2010 Die APC Unterbrechungsfreie Stromversorgung der helena ist kaputt (sagt ihr Selbsttest). Um wiederum unterbrechungsfrei die helena direkt ans Stromnetz zu haengen, musste ein zweites Netzteil besorgt werden (die helena hatte --- obwohl kritische Infrastuktur --- nur ein Netzteil). Der baugleiche agamemnon musste dafuer herhalten. Login per ALOM an agamemnon > showenvironment eine PS[01] waehlen, so dass eine aktive verbleibt. > removefru PS0 ein blaues laempchen leuchtet an PS0, strom ab, rausziehen Login per ALOM an helena > showenvironment eine PS ist nicht praesent PS0 aus agamemnon reinstopfen, Strom dran, ein gruenes Lichtlein leuchtet. Strom aus der APC ab, APC aus. [/bauerm] permanent link Mon, 13 Dec 2010 die mod_include Umstellung vom 6.12 hat uns nochmal erwischt, weil ein Teil unserer 'Inhalte' automatisch und ohne Leerzeichen zwischen <!-- und # erzeugt werden. Hoffentlich jetzt repariert. bacula ist soweit, dass Barbara und Nikos experimentell Backups auf tapes machen koennen. [/bauerm] permanent link Mon, 06 Dec 2010 Der SUN Storedge 8 hat keinen Barcode Reader *stirnklatsch* Die beispielconfigs von bacula sind teilweise kaputt: bacula-sd -c -f das_sd_config_file.conf -> error Fuer den pseudo-user edv-it hat der symlink aus fakegroups gefehlt... Das *^&%te autopatch hat das mod_include vom apache ausgetauscht. Die neue Version kann SSI nur dann parsen, wenn nach den XML Kommentarzeichen erst ein Space und dann das SSI kommt. Tobias und ich haben stundenlang an htaccess, httpd.conf und anderem gezweifelt... Autopatch auf nimrod ausgeschaltet [/bauerm] permanent link Fri, 03 Dec 2010 Die gespendete SunFire V240 auf agamemnon umbenannt Der Upgrade auf Solaris "Express 11" hat den installserver auf andromache zerstoert und der haengt dann beim bootup Mit viel Trickserei die Kombination aus /etc/hosts /etc/nwam/* /etc/inet/networks /etc/hostname.igb1 svcadm enable/disable svc:/network/physical:{nwam,default} soweit gekriegt, dass die andromache auf beiden interfaces netz hat und auf igb1 im Nemo-sunray-netz haengt. Jetzt kann longariva da einen zweiten Sunray server drauftun. [/bauerm] permanent link Mon, 29 Nov 2010 Glorio! Nach folgendem /kernel/drv/sgen.conf: device-type-config-list="changer","sequential" name="sgen" class="scsi" target=5 lun=0; name="sgen" class="scsi" target=6 lun=0; und rem_drv sgen; add_drv sgen; haben wir jetzt wohl einen tapechanger und ein drive. Das add_drv tut was anderes als mod_load, Achtung... Nach pkg install pkg:/media/mtx@1.3.11-0.151.0.1 kann man mit mtx -f /dev/scsi/changer/* inquiry sehen, dass Sun da einen ADIC FastStor 2 re-labelt hat... [/bauerm] permanent link Fri, 26 Nov 2010 V240 auf agamemnon umbenannt An der V240 haengt jetzt das Tapedrive vom RRZE, leider erkennt das OpenSolaris es ueberhaupt nicht. Finger blutig gegoogelt. [/bauerm] permanent link Thu, 25 Nov 2010 Auf der V240 gibts jetzt ein activate_snapshot.sh. Es nimmt einen snap-identifier (bei uns typischerweise date +"%d%m%y" ) und ruft zfs clone auf die snapshots. Die clones sind Copy-on-write von den snapshots, ist also schnell und kost erstmal nix. Sie werden unter /mypool/radix/homes gemountet, also wie auf der ziusudra, und exportiert per nfs. Code: zfs list -rH -o name -t snapshot mypool/backup/radix/homes | \ grep "homes/.*@$snap" | \ while read X; do wo=`basename "$X" | sed 's/@.*//'` zfs clone -p -o sharenfs="rw=@131.188.103.0/24" \ -o devices=off -o setuid=off "$X" \ mypool/radix/homes/$wo done [/bauerm] permanent link Wed, 24 Nov 2010 Upgrade andromache und V240 auf Solaris Express... [/bauerm] permanent link Mon, 22 Nov 2010 Datenbackup der mysql datenbank auf nimrod repariert Bjoern hat Typo3 installiert, jetzt muessen wir nur noch rauskriegen, wie das auf unsere Anforderungen abzubilden waere -> Rathmann fragen [/bauerm] permanent link Thu, 18 Nov 2010 Die ldap zone auf ziusudra geclonet, dazu war noetig zonecfg -z ldap export > ldap.cfg {cp && vi} ldap.cfg postfix.cfg zonecfg -z postfix -f postfix.zonecfg zoneadm -z postfix clone ldap zoneadm -z postfix ready zoneadm -z postfix boot waehrend dem boot war ein zlogin -C postfix noetig, weil da noch was gefragt wird [/bauerm] permanent link Wed, 17 Nov 2010 ~root/backup.homes macht jetzt incrementelles snapshotten per zfs send/receive auf usb-platte und auf die V240 Auf der usb platte an ziusudra sind alle snapshots seit juni, auf der V240 erst ab 12. November. Die V240 hat jetzt gemirrortes Root-ZFS auf zwei 73 Gb SCSI Platten und ein gestripetes ZFS auf zwei 136 Gb SCSI Platten In der Nacht noch den iscsi export von ZFS volumes getestet, scheitert am alpha-grade iscsi initiator in openbsd. [/bauerm] permanent link Mon, 15 Nov 2010 Senden von inkrementellen snapshots geht mit zfs send -I $altesnapid $zfs@$neuesnapid [/bauerm] permanent link Fri, 12 Nov 2010 Auf peleus den emacs wieder auf Version 22 zurueckgesetzt, wegen Aenderungen im Latex Mode. Ging mit alternative-update --config emacs oder aehnlich Der namenlosen Sunfire V240 einen root mirror gegeben. Geht so: zpool attach rpool c7t0d0s0 c7t1d0s0 installboot -F zfs /usr/platform/`uname -i`/lib/fs/zfs/bootblk /dev/rdsk/c7t1d0s0 Endlich das zfs receive ueberlistet. Von ziusudra auf die V240 backup mit # snapshots finden zfs list -rH -o name -t snapshot mypool/radix | \ # den aktuellen, und nur fuer leave-zfse grep "homes/.*@121110" | \ while read X; do zfs send $X | \ # Spezialkey ohne passphrase, auf der anderen seite durch # authorized_keys command="/usr/sbin/zfs receive -vFd mypool/backup" ssh -i /root/.ssh/backup_key -l jack 131.188.103.249 foo; done [/bauerm] permanent link Thu, 11 Nov 2010 Netgear gigabit switch bei Frau Forkel ersetzt, alles geht wieder. [/bauerm] permanent link Wed, 10 Nov 2010 Installation von OpenSolaris auf Sparc ueber Autoinstaller ist vollkommener Muell: - Platten duerfen keine ehemaligen metadb RAIDs sein ( metadb -d metaclear -a ) - Platten duerfen keine UFS enhalten ( zpool create -f $platte foo zpool destroy foo ) - Platten muessen mit SMI Labels formatiert sein (format -e disk $n label 0 ) - Platten muessen so heissen, wie in dem default AI manifest beschrieben. Das ist eine XML Datei. (vi /pfad/zum/image chmod u+w ai_manifest.xml vi ai_manifest.xml ) - Ein Installation Slice muss schon existieren, das AI kann scheinz keine anlegen *stirnklatsch* (format -e disk $n partition ) - Wenn ein slice0 existiert, scheintz zu tun. -> von Oracle gekauft zu werden, war noch viel zu gut fuer die. Die extreme Langsamkeit aller Maschinen bei Frau Forkel koennte ein Netzproblem sein. Testweise mal ein ls -l /usr/home/cip gestartet. Dauert Stunden. Morgen mal einen anderen Switch in ihr Bureaux stellen. Das RRZE sieht auf beiden Switches im Zweiten Stock exzessiv Kollisionen auf Port 15 (das ist nicht bei Frau Forkel). Der Acrobat Reader 8, der mit Solaris 10 kommt, kann nur so halb mit CUPS reden. Er findet die Drucker, bastelt sich dann aber ein total kaputtes Print Kommando zusammen. Mal rauskriegen, wie man den default pdf viewer auf was gescheites umstellt. [/bauerm] permanent link Tue, 09 Nov 2010 Der dma ist als Mailer in unserem Setup total ungeeignet, der versucht naemlich fuer mails, deren Empfaenger lokal sind (== sich per getpwent finden lassen), direkt in /var/mail/$empfaenger zu schreiben. Das geht 1. nicht (permission denied) 2. schon gleich gar nicht (parallel schreiben mehrerer daemon in dieselbe Datei ueber NFS...) -> rollback auf sendmail [/bauerm] permanent link Mon, 08 Nov 2010 Die vermutlich kaputte APC UPS ausgebaut. Dank doppelter Netzteile kein Problem Unbenutztes DAT Drive von Artemis entfernt Eine Sunfire V240 und eine V210 im Rack installiert. Bei Frau Forkel ist die SUN Workstation unertraeglich langsam, Tobias hat eine andere hochgestellt. Man kann die ALOM passwoerter von Suns umstellen, wenn man als root /usr/platform/SUNW,Sun-Fire-V240/sbin/scadm userpassword admin ruft (statt 'SUNW,Sun-Fire-V240' passendes einsetzen). [/bauerm] permanent link Fri, 05 Nov 2010 Den Mailer auf peleus durch dma ersetzt. Der hat auch macken, scheint aber erstmal zu tun. Vielleicht muss man echt nochmal in das dicke sendmail buch schaun :( Auf kalypso rausgekriegt, dass Ubuntu default gar keine blowfish Passwoerter kann :( Mit dem Packet libpam-unix2 und gefummel in /etc/pam.d/common-* gehts dann doch, man fuegt am Anfang ein: $typ sufficient pam_unix2.so $typ required pam_unix.so wobei $typ der Teil des Namens der Datei ist, der nach dem common- steht. Installationen von OpenSolaris auf Sparc (unsere "neuen" server) geht nur mit AutoInstall, was ein Service auf Opensolaris x86 sein muss. Sinnvolle Doku auf http://dlc.sun.com/osol/docs/content/2009.06/AIinstall/tasks1.html Das packet SUNWinstalladm auf ziusudra installiert. Das installadm _erfordert_ dass man die IP Adressen per GNOME network management Daemon konfiguriert. Was total hirnrissig ist, weil der nwamd nur ein Interface auf UP erlaubt :( Wenn man in /etc/nwam/llp $if static $IP/$prefixlen reinschreibt, geht das mit svcadm enable svc:/network/physical:nwam svcadm disable svc:/network/physical:default [/bauerm] permanent link Thu, 04 Nov 2010 Mail auf peleus hing, nullmailer funktioniert nicht richtig. Wenn an mehrere Empfaenger geschickt wird, und einer davon ist _dauerhaft_ unzustellbar, verbleibt die Mail _fuer alle Empfaenger_ in der queue und wird alle naslang neu verschickt... [/bauerm] permanent link Wed, 03 Nov 2010 Barbara auf Bacula angesetzt [/bauerm] permanent link Tue, 02 Nov 2010 Longariva und Turowski haben uns folgende Hardware aus einem Bamberger Keller ueberlassen: - SunFire V480 - SunFire V240 - Storedge L8 (baugleich zu unserem ausgefallenen) Sun liefert keine Install CDs fuer sparc64 mehr aus. WFT? Departmentsrat bittet um Zeit-und-Geldabschaetzung fuer Notbetrieb. Ich hoffe, mit der Hardware aus dem RRZE das noch bis naechstes Jahr aufrecht erhalten zu koennen. Danach muss Geld aus dem Neubautopf schon vorher investiert werden. [/bauerm] permanent link Fri, 29 Oct 2010 ein neues Boot-Environment auf ziusudra gebaut, namens opensolaris-net-ohne-iscsi das den Zustand vor der Installation der iscsi Target software einfriert. iscsi target software installiert ( pkg install storage-server ) Idee ist, dass ein CPU-Server mit vielen Messdaten diese nach Verarbeitung per iScsi 1. an einen Fileserver exportieren kann (zwengs backup) 2. er selbst oder der Fileserver an Workstations exportiert, die dann schneller als per NFS drauf zugreifen koennen. In /etc/security/policy.conf den Default Passwd Hash auf obsd-Blowfish umgestellt. Erfordert eine neue sudo installation, weil die alte kein PAM benutzt hat :/ [/bauerm] permanent link Tue, 26 Oct 2010 Mail an Vorstand formuliert, der die Vorgaenge beschreibt und Loesung vorschlaegt [/bauerm] permanent link Mon, 25 Oct 2010 Tippfehler in auto_homes, saupeinlich. Das wochenplan skript ruft ank.tcl, welches abbricht, wenn es ein HOME zweimal sieht (WTF?). So geaendert, dass es nur eines sieht. Turowski und Team besorgen uns eine V440 als Ersatz. Die APC USV scheint das Problem zu sein. [/bauerm] permanent link Sun, 24 Oct 2010 Die helena hatte kein /usr/local mehr, wo die spam sortier skripten liegen, die in fast jedem .forward gerufen werden -> sendmail flippt aus. Von ziusudra gemountet, tut wieder. [/bauerm] permanent link Sat, 23 Oct 2010 Nachdem die user HOMEs nicht mehr erreichbar waren, gabs insbesondere keine HOMEs der postmaster mehr -> sendmail flippt aus Die root platte von gesar per hotplug an helena und rausgekriegt, wie das RAID aufgebaut ist und so die Platte mit usr3 und usr/local gefunden. In die helena gestopft, gemountet, auf ziusudra importiert, in die /mypool/radix/gesar/ kopiert HOMEs von gesarplatte auf ziusudra gebracht. [/bauerm] permanent link Fri, 22 Oct 2010 Heute ist um 17:08 das letzte Netzteil vom gesar durchgebrannt -> Fileserver tot Alle Homes auf die ziusudra umgestellt, zum Glueck war da das Backup. Automounter maps umgestellt Per Puppet die maps auf den Linuxkisten umgestellt, die unter puppet verwaltet werden Auf allen Maschinen die gesar mounts entfernt, aussrer auf enlil, kassandra und thagbral Der apache mag die ~username URLs jetzt zum Teil nicht mehr, sehr seltsam Hinsche behauptet, auf eine V440 zugreifen zu koennen, am Montag Plattenarray mit gefaehrlichem Gefummel von gesar and helena gehaengt _im betrieb_. Geht mit cfgadm -x insert_device $scsibus. Damit Zugriff auf aktuelle Homes, von der helena an ziusudra NFS vermountet. Im Gesar gehaeuse haengen noch fuenf platten unklaren inhalts... [/bauerm] permanent link Wed, 20 Oct 2010 In der helena sind drei SCSI Platten, zwei Seagate, eine Hitachi. Der Cold-Spare Server vom RRZE, den ich besorgt hab, hat aber nur zwei Einschuebe. Auf der helena sind partitionen der platten 1 und 3 (scsi targets 0 und 2) zu zwei RAIDs zusammengefuegt, eins (d0) fuer die / partition und eins (d2) fuer swap. Die dritte Platte (Hitachi) wird nicht verwendet. Im Notfall muessen wir also die Platten, die im Gehaeuse als 1 und 3 beschriftet sind, rausnehmen und in die schmale SUNFire stecken. Im OpenBoot muss man ok nvalias devalias rootmirror /pci@1c,600000/scsi@2/sd@2,0:a ok use-nvramrc?=true ok boot-device=disk rootmirror net setzen (eventuell auf die SCSI ids der Slots an der Ersatzmaschine angepasst), damit das auch booten kann. Hoffentlich klappt das... Das RRZE erklaert, dass sie das campus.uni-erlangen nicht selber verbrochen haben. Taeter ist eine Firma namens HIS GmbH. Alles, was ich von dem Zeug bisher gesehen habe, schreit ganz laut "So nicht", von der GUI ueber die Benutzerfuehrung, die Fehlermeldungen und die schneckenartige Geschwindigkeit. In Evolution gibts knapp ueber dem "Close" unter "File" ein "Offline". Nachdem der sendmail drunter eh schon mails aufbewahrt, bis wieder Netz da ist, ist das sinnlos. Und wenn ausversehen einer draufklickt (knapp ueber "Close"), dann ist der "Send/Receive" Knopf ausgegraut und keiner weiss warum... [/bauerm] permanent link Tue, 19 Oct 2010 Opteron ist waehrend eines ubuntu apt-get dist-upgrade unterbrochen worden und wird so unbootbar :/ Tobias hat das mit einer Ubuntu Live CD gerettet. Apropos, route add default $ip ist in Loonix route add default gw $ip (ohne sinnvolle Fehlermeldung) Wenn Evolution auf "Local Delivery" eingestellt ist, zieht er alle mals aus /var/mail/$user nach $HOME/evolution/Inbox/mbox Bei Frau Forkel Druckertreiber im "Igel" auf den gleichen Stand gebracht wie in der ZUV (seltsamerweise koennen die das nicht auf ihren externen Maschinen). Jetzt ist er sichtbar, druckt aber nix. Es ist weiterhin nicht moeglich, Acroread ein anderes Print-Command als "lpr -o fooo -o bar..." einzustellen. Alle Methoden (Xresources, AppDefaults, etc) schlagen fehl... [/bauerm] permanent link Mon, 18 Oct 2010 Das Netzteil am gesar ist definitiv kaputt, hinsche sucht angeblich noch eins Bei campus.uni-erlangen rumgemeckert wegen den Studenten, die ich nicht eintragen kann.. Beim RRZE (Ritter-Nachfolgerin) nachgefragt, ob wir evtl einen ausgemusterten 1HE 386 Server haben koennten, um die Funktionen von aphrodite, siegfried, aruru zusammenziehen zu koennen. Es stellt sich heraus, dass man von dem Software Lizenz Server des RRZE nur runterladen darf, was man fuer den Account beantragt hat. Dass man etwas nicht beantragt hat, wird einem durch ein Password Prompt klar gemacht :/. [/bauerm] permanent link Fri, 15 Oct 2010 Diverse Webmeistereien Weiter an newuser geschraubt, jetzt sollte alles fuer einen Test auf helena da sein. Frau Kulzer das Open Journal System gezeigt, das Nikos auf siegfried installiert hat. Andere deutsche Unis (meistens deren Bibliotheken) nutzen die Softwar auch, und sie koennte evtl von dort Support kriegen. Etwas erschreckend ist, dass das in PHP gefrickelt ist... [/bauerm] permanent link Thu, 14 Oct 2010 Herrn Heinlein ein Mail setup fuer SMTP versenden in muttrc gebastelt, ungetestet. Weiter an newuser geschraubt, es fehlt noch die Adressen Datei fuer die Druckerabrechnung. Der Cip Pool hat laut Frau Schuetz eine eigene Kostenstelle, nur weiss ich nicht, wer da Zeichungsberechtigt ist. Diverse Webmeistereien Patrick hat unsere als "defekt" markierten und vermuteten TFTs geprueft, vier davon funktionieren noch! [/bauerm] permanent link Wed, 13 Oct 2010 Puenktlich zum Mittagessen faellt gesar aus, wohl weil die _unterbrechungsfreie_ Stromversorgung aufgegeben hat. Wohl wegen Defekt an einem der zwei Netzteile Nachdem Fileserver, SunRay Server und Mailserver alle auf tatteriger Hardware laufen, waere echt ueber eine komplette Umstellung nachzudenken. Das unsaegliche Ankuendigungsskript hatte noch mehr kaputte Regexpen. Herrn Heinlein ein Mail setup fuer POP in muttrc gebastelt, tut. [/bauerm] permanent link Tue, 12 Oct 2010 Eine der Etherdosen im 1. Stock ist unbelegt ... Das pullbackup skript hat seit 1.Okt keine neuen Snapshots angelegt (zumindest fuer ein HOME, wo ich geschaut hab). Debugging eingebaut. Das unsaegliche Ankuendigungsskript hat nicht mehr funktioniert, aus voellig unklaren Gruenden. Erste Vermutung war, dass es das Wintersemester nicht erkannt hat. Das wars nicht. Nach stundenlangem Waten durch ekliegsten Tcl Code stellte sich der Fehler als eine kaputte Regexp heraus. Wie konnte das jemals funktionieren??? AM2 will den CIP Pool Mittwochs 16:00-18:00 fuer das Numerik Tutorium (Programmierhilfen), genehmigt. [/bauerm] permanent link Mon, 11 Oct 2010 Der mpma00pk Account geht schonmal nicht bei den Physikern... Ok gekriegt von Kronz zwengs der Reparatur. Authentifizierung auf fossil (wegen den Tickets) ausprobiert. Interessanterweise muessen passwd-hashes in UPPERcase in die DB... Wenn "database corrupted" als error kommt, hilft sqlite $diedb .output $eintmpfile .dump .exit mv $diedb $diedb.broken sqlite -batch $diedb < $eintmpfile Herr Hercksen bringt das Netzteil vom Tape Robot zur professionellen Reparatur. [/bauerm] permanent link Fri, 08 Oct 2010 Herr Hercksen von der Werktstat empfiehlt, das Netzteil des Taperoboters durch ein neues zu ersetzen, Kostenpunkt ~160 Euro. [/bauerm] permanent link Thu, 07 Oct 2010 openntpd auf ubuntu lief nicht, weil nur ntpd (den wir nicht mehr benutzen) auf die Uhr zugreifen darf (verhindert von AppArmour). Fixed by Tobias. Openoffice hat mir eine Stunde arbeit geloescht, indems _beim Speichern_ abgestuerzt ist. Lieber alles als .txt schreiben. Herr Stummer hat ein neues Laptop und moechte diverses drauf installiert kriegen. Mit Nikos angefangen, fuer Frau Kulzer das Open Journal System zu installieren Den Taperoboter zu Herrn Hercksen in der Elektrowerkstatt gebracht. Er sieht noch keinen Fehler... Mit den Admins des Physik CIPPools gesprochen. Die kriegen einen passwd-Dump vom RRZE mit den Studentendaten drin, die aber leider nicht immer korrekt/vollstaendig sind. Unsere mpm..Accounts sollte dort funktionieren. [/bauerm] permanent link Wed, 06 Oct 2010 R compiliert und installiert mit viel gefummel, indem gegen /usr3/local/math/lib/libblas gelinkt wurde, statt gegen irgendeine lapack. wxWidgets will libpng.12, die kommt von SUN, aber die haben vergessen, das PNG_12 Symbol in die lib zu tun. Deswegen mag der linker es nicht. Wir haben aber eine eigene libpng unter /usr3/local/. Wenn man in LD_LIBRARY_PATH /usr3/local/graphics/lib vor /usr/lib stellt, gehts... Nikos hat Drucker n (ex-c) soweit gebracht, dass dieser den gleichen Fehler zeigt wie bei Frau Forkel. Herr Timpan kann diesmal leider keinen Drucker mehr fuer Frau Forkel einrichten??? [/bauerm] permanent link Tue, 05 Oct 2010 Bei Frau Forkel muss noch im Igel der neue HP Treiber fuer den deskjet 4500 rein -> admin login Auf dem peleus hat nach reboot das mounten der homes nicht funktioniert, die fehlermeldungen sind total verwirrend -> sehr schlecht Der cupsd ist spontan verstorben -> nix ging mehr Drucker t bittet neuerdings um Papier aus Manueller Zufuehrung, warummmm? Aeltere R version braucht kein libiconv mehr, scheitert dafuer an der selbst mitgebrachten liblapack. Waaaa. [/bauerm] permanent link Mon, 04 Oct 2010 Herr Hinsche hat das Netzteil gebracht -> gesar hat wieder zwei netzteile [/bauerm] permanent link Fri, 01 Oct 2010 Hinsche hat immer noch kein Angebot! newuser weitergeschrieben Versucht, ein neues R zu kompilieren, scheitert an libiconv Versucht, altes R zum Laufen zu bringen, stirbt mit einem error ueber GCC_4.0.0 in der libgcc_s.so, die von der libgfortran.so benutzt wird. Wenn ein PDF oder PS ganz falsche Raender hat, kann man das mit pstops nachfixen: pdf2ps $file | pstops "1:(${lm}.cm,${tm}.cm) > /tmp/neuedatei.ps wobei $lm und $tm der zusaetzliche offset links und oben sind (in cm). Drucker n und c in yp-hosts, etc-hosts und auf dem cups server getauscht. D.h. c bei Frau Forkel hat jetzt die IP von alten n. [/bauerm] permanent link Thu, 30 Sep 2010 sigezech hat Drucker c durch n ersetzt (eh sinnvoll, der kann A3) und ihn in c umbenannt, aber dann geht der auch nicht mehr :(. [/bauerm] permanent link Wed, 29 Sep 2010 Drucker c mag nicht mehr drucken. Seit ca. 12:00. Nichts wurde an CUPS oder dem Printer geaendert. Kabel gecheckt, Netz geht. Seltsam.. [/bauerm] permanent link Tue, 28 Sep 2010 Netzskizze weiter Hinsche bearbeitet, dass er das Angebot splittet auf zwei Maschinen Niemand hat Ersatz fuer das Ding. [/bauerm] permanent link Mon, 27 Sep 2010 Der Tape Robot+Drive ist Tot. Die Fehlermeldung ist nicht etwa "Tape not responding" oder "SCSI Error" oder sowas, sondern eine Aufforderung, ein neues Tape ins Drive zu legen... -> Keine alten Backups mehr lesbar. Mit Circular telefoniert wegen moeglichem Ersatz. RRZE hat LTO2 Drives, aber keins uebrig... Die Netzskizze braucht noch Arbeit.. Bei Hinsche ein Ersatznetzteil fuer gesar geordert. [/bauerm] permanent link Fri, 17 Sep 2010 Netzskizze fuer den Antrag gebastelt, bin leider nicht sehr gut mit Graphik. [/bauerm] permanent link Thu, 16 Sep 2010 Frau Schindler forscht nach dem Geld, das bei uns weggegangen ist und nie bei Reichelt ankam. Weiterschraub an newuser, jetzt mit huebschem TeX Output und einem CUPS accounting skript, das per authorized_keys gestartet werden kann Die Saga um Heinleins PC endet nicht, weil jetzt ploetzlich das Ubuntu beim Booten haengenbleibt, an Frasch verwiesen. [/bauerm] permanent link Tue, 14 Sep 2010 Das andere Netzteil am gesar ist ausgefallen :( Unsere Reichelt Rechnung ist laut Freigabeprotokoll bezahlt, laut Reichelt nicht :/ Frau Schuetz hilft mit der "Annahmeanordnung" fuer unsere schon bezahlten Reparaturen/Ersatzteile und uebernimmt die noch offenen Rechnungen. Die Wifi Hotspots (= installationsorte der Repeater) sind in den Fluren neben der Geschaeftsstelle und im Keller, zweites OG hat auch noch guten Empfang. [/bauerm] permanent link Mon, 13 Sep 2010 Weitere Odyssee mit der Heinleinschen Installation, Frasch behauptet, die DVD waere nicht bootbar. Da die von MS kommt, kann ich da leider auch nix aendern. Ans RRZE verwiesen. Die Physiker koennen wohl das LDAP vom RRZE mitnutzen, dort sind die Uni-weiten Accounts+Passwds auch Logins, solange sie von der NatFak kommen. Mal fragen, wie das Setup ausschaut und wie sie lokale Accounts mit reinmischen. Waer fuer den Neubau sinnvoll. [/bauerm] permanent link Thu, 09 Sep 2010 Weiter mit sigezech am neuen newuser geschraubt Ich moechte ein Ticketingsystem. Mal rumgeschaut, das einfachste scheint mir fossil-scm. [/bauerm] permanent link Wed, 08 Sep 2010 die alias database /local/mail/etc/helena/aliases.db wird _nicht_ immer automatisch an die NIS map angepasst. Ein "newaliases" tut es aber. [/bauerm] permanent link Tue, 07 Sep 2010 Um fuer Duzaar&Co PHP "freizuschalten", muss man auf nimrod in /etc/apache2/httpd.conf den Klotz AllowOverride FileInfo php_admin_flag engine on einsetzen und apache restarten Solaris Bug: Wenn man mit NIS einem User einen anderen Namen, bei gleicher UID, gibt, wirft das login dieses Users mit neuem Namen in den ersten Minuten nach dem NIS push den Fehler "invalid user shell" und "sudo su - $username" stirbt mit "no shell". Gleichzeitig zeigt "ypcat passwd | grep $username" eine voellig korrekte passwd Zeile. Nach ein paar Minuten gehts dann. Herrn Heinlein bei der Erstinstallation seiner Maschine geholfen. Windows ist sooo ein sch*?&$. Wenn man eine Windows DVD vom Microsoft Academic Blahblah runterladen will, kriegt man statt einem ISO image ... ein .exe File. d.h. man braucht Windows um Windows runterzuladen *stirnklatsch* [/bauerm] permanent link Mon, 06 Sep 2010 Praktisch den halben Tag damit verbracht, nach dem Fehler zu suchen, der Evolution davon abhaelt, Frau Kulzers voellig korrekte mailbox zu lesen. Ohne Ergebnis. [/bauerm] permanent link Fri, 03 Sep 2010 Herrn Heinleins Problem hat sich ueber nacht in Luft aufgeloest, alles geht wieder :/ [/bauerm] permanent link Thu, 02 Sep 2010 Frau Kulzer kann ploetzlich keine Mails mehr empfangen, Mailclient ist Evolution. Das .evolution/ Verzeichnis ist ein Verhau aus XML, mboxen und index-files zu mboxen. Keine Ahnung was da schiefgegangen ist. Alternative zu Evolution waere Thunderbird, aber der kann keine mailspools lesen. Versucht rauszukriegen was die _minimale_ Konfiguration eines CUPS clients waere. Bei Herrn Heinlein stirbt jeder Mozilla Variante nach ein paar Klicks und muss mit pkill -9 gestoppt werden. Ursache unklar. Vergleich gegen den Snapshot vom 28.8 zeigt, dass irgendwann mal von firefox 1.4... auf firefox 3 gewechselt wurde. [/bauerm] permanent link Tue, 31 Aug 2010 Die Wima benutzt Mantis als Bugtracking/RequestTicketing system, ein evtl gute Idee fuer den neubau Ein puppet module fuer puppet.conf und puppet-client geschnuert Schiermeier hat einen Ubuntu PC statt einem Laptop, evtl sollten wir den auch administrieren Um sich auf einem Windows Server _potenziell_ einloggen zu koennen, muessten wir 45 cent pro Monat _und potenziellem Client_ zahlen. Was eine Frechheit [/bauerm] permanent link Mon, 30 Aug 2010 Dokumente wandern jetzt ins Wiki, sehr schoen Das .zfs in den User Homes macht dann Probleme, wenn User das mit-archivieren wollen, dann kriegen sie naemlich $zfs_lifetime_in_days viele Verzeichniszustaende. Deswegen snapshot=hidden fuer alle. Der yesterday link funktioniert trotzdem noch. [/bauerm] permanent link Fri, 27 Aug 2010 Das Wiki so konfiguriert, dass man sich per mail benachrichtigen lassen kann, wenn sich was aendert. Frau Forkels Windows Terminal mit dem Drucker verbunden, Support vom RRZE weiterhin lausig Das createuser schmiert (als root) in seinem HOME rum, was an sich schlechter Stil ist, und jetzt auch noch fehlschlaegt, weil ziusudra das nicht erlaubt (root=nobody). Wuergaround indem das createuser jetzt in /var/tmp lebt... choose hab ich durch ein einzeiliges Shellskript ersetzt. [/bauerm] permanent link Thu, 26 Aug 2010 Beim Fraunhofer und bei der WiMa vorbeigeschaut, wegen deren Installationen (Linux) Der RRZE Ableger am Hugo behauptet, dass man HP Drucker gleichzeitig ueber USB und Ether ansprechen kann.. Mal ausprobieren Bjoern hat Doku zum Autoinstaller ins Wiki geschrieben http://ziusudra.mi.uni-erlangen.de:8080/Installationsserver [/bauerm] permanent link Wed, 25 Aug 2010 Kurzeinfuehrung Puppet fuer Tobias gegeben Design einer Automatisierten Installation mit Bjoern besprochen FAI + Puppet auf Tobias seinem Laptop getestet, _es funktioniert_ ! (Sternstunden der Informatik!) minimalen Setup fuer Ubuntu als module, http://waldemar.schlackow.de/node/7 hat einen interessanten Ansatz, sehr viele Packete auf einmal zu installieren... [/bauerm] permanent link Tue, 24 Aug 2010 Nach ueber einer Woche 1. Keine Antwort von Hinsche wegen Storage-Servern 2. Keine Antwort vom RRZE wegen Druckerh am Pruefungsamtrechner Wir haben (mir bisher unbekannt) die Eintraege laptop$i.mi.uni-erlangen.de fuer $i={0..59} im DNS stehen. Man kann in dhcpd.conf ein option hostname $host in die config setzen. Statt fixed-address $ipaddr kann man auch fixed-address $dnsname nehmen, eine Indirektion mehr, weniger duplizierte Eintraege.. Mit Bjoern und Tobias ueberlegt, wie der FAI Autoinstaller (und danach Puppet) die hosts auseinanderhalten kann, ohne das an mehreren Stellen die gleichen MAC<->IP<->Hostname<->Key Zuordnungen gepflegt werden muessen. Die Deppen von Oracle haben OpenSolaris von hinten erdolcht. Das schmeisst natuerlich den Plan mit dem OpenStorage Server ueber den Haufen. Mal mit den Linuxhackern der wima reden... [/bauerm] permanent link Fri, 13 Aug 2010 Hinsche macht uns neue Angebote, die nicht so auffaellig teuer sind... Frau Schenker kann uns leider doch keine SunRays mehr geben :( [/bauerm] permanent link Thu, 12 Aug 2010 Inventar PCs gemacht, fuer den Antrag Update HardwareListe um Argumente MoinMoin Wiki auf ziusudra installiert, Patrik faengt an, Texte einzupflegen [/bauerm] permanent link Wed, 11 Aug 2010 Update HardwareListe um Argumente Ein MoinMoin Wiki rudi-mentaer auf der ziusudra eingerichtet. Liegt erstmal in meinem dortigen HOME. Starten mit: moin --config-dir=`pwd` server standalone --interface=131.188.10 3.72 --docs=/usr/share/moin/htdocs Puppet scheint zu funktionieren, solange keine Variablen benutzt werden Puppet konfig fuer hosts erweitert Puppet konfig fuer autofs auf Linux Puppet konfig fuer ntpd auf Linux auf kalypso mag ntpd nicht starten, weil angeblich EACCESS auf /etc/openntpd/ntpd.conf. das ist aber world-readable und strace zeigt, dass das open ein RDONLY ist... Der Postfix auf siegfried versucht, die aliases aus YP zu ziehen. Auf ldap umstellen XXX Das SMCruby fuer solaris 10 hat kein openssl modul, deswegen kann puppet nicht funktionieren. Neubau von Sourcen.. [/bauerm] permanent link Tue, 10 Aug 2010 Aus der veralteten rechner.db eine Liste unsere Aktuellen Hardware in HTML generiert und an Prechtel geschickt, fuer den Antrag. Die Bestellformulare vom RRZE funktionieren nicht auf Solaris-OpenOffice, wohl aber unter Linux. Hardwareliste fuer den Neubau, CPU server sind erstaunlich teuer... [/bauerm] permanent link Mon, 09 Aug 2010 Unsere HOME-dir Struktur stammt aus der Zeit, wo man Studenten und Professoren auf verschiedenen Servern hatte, und Plattenplatz immer wieder knapp wurde. Daher hat man gruppenweise mount-points angelegt. Mit ZFS ist das jetzt sehr obsolet. Idealerweise wuerde man einfach alle user HOMEs nach /usr/home/$username legen, und mit einer einzigen auto.home map * ziusudra:/zpool/foo/bar/& waere dann alles erledigt. Geht leider nicht, weil viele Programme ueberfluessigerweise den frueheren Wert von $HOME in diverse dot-Files geschrieben haben :/ Z.B. merkt sich Firefox, dass Downloads in das alte /usr/home/$group/$name/Downloads geschrieben werden, was dann entweder Fehler schmeisst, oder eben auf den alten Server schreibt, wos keiner mehr findet. Workaround: auf ziusudra gibts ein /zpool/foo/bar/fakegroups, wo alle softlinks zu allen HOMEs drin sind, so dass der alte Pfad noch stimmt, waehrend gleichzeitig alle HOMEs unter /usr/home gemountet sind. Nachteil: wir kommen nicht mehr so einfach an die alten Versionen von den HOMEs (aber wir haben zfs snaphosts davon). Weiterer Vorteil: wir koennen problemlos Leute von Gruppe zu Gruppe schieben [/bauerm] permanent link Fri, 06 Aug 2010 pullbackup hatte noch bugs - grep statt egrep -> grep -v hat die ziuuser nicht gefiltert puppet funktioniert weiterhin nicht, im gegensatz zur docu: http://docs.puppetlabs.com/guides/more_language.html der automounter auf solaris mag wildcard specs in auto.home nicht: sam/* ziusudra:/.../& funktionierte nicht reboot helena, nemo und gesar (memleaks, etc...) Tobias hackt backups fuer ziusudra homes in das usbbackup [/bauerm] permanent link Powered by Blosxom.