Webcluster-Ausfall – Murphys Law schlug dreifach zu

Webcluster-Ausfall – Murphys Law schlug dreifach zu.

Gestern abend gegen 20:20 Uhr gab es einen Ausfall unseres Webclusters. Damit waren auf einem Schlag etwa 600 Webauftritte der Uni Erlangen offline. Und überdies hielt dieser Zustand bis heute früh um 8:22 Uhr an.
Ganz kurz und knapp kann man dies auch hier nachlesen:
http://blogs.fau.de/rrze/2011/09/27/ausfall-zentraler-webcluster/

Doch hinter dieser knappen Meldung steckt ein bischen mehr…

Eigentlich sollte so ein Ausfall garnicht möglich sein. Schliesslich ist der Webcluster mehrfach redundant ausgelegt.
Und wenn ein Ausfall statt findet, dann sollte es auch nicht so lange dauern, bis sowas behoben ist. Aber hier schlug Murphys Law gleich vielfach zu.

Unser Webcluster besteht aus einem Loadbalancer, der alle Anfragen an derzeit 6 Webserver weiterverteilt. Diese Webserver wiederum greifen auf ein gemeinsames Filesystem zu. Das Filesystem wird ausgeliefert von einem redundant gehalteten NFS-Server, der dann wiederum an einer NetApp hängt.
Dies ist alles recht sicher:
Wenn ein Webserver ausfällt nimmt der Loadbalancer ihn aus seiner Liste und verteilt die Anfragen eben weiter auf die anderen Webserver.
Wenn der Loadbalancer ausfallen würde, würde dessen redundante Komponente einspringen.
Wenn einer der Fileserver ausfallen würde, würde dessen Pendant einspringen.
Und zuletzt die NetApp ist selbst in sich wie der ACE-Loadbalancer auch redundant.

Also eigentlich eine durchaus sichere Architektur.

Was passierte nun? Gestern abend gab es aus noch unbekannten Gründen ein Ausfall des Server-Netzwerkes. Dieser dauerte offenbar mehrere Minuten.
Das wäre eigentlich nicht sonderlich tragisch gewesen, da Caches auf den Servern aktiv sind, die den Filezugriff auch solange überbrücken könnten.

Die Fileserver hingegen kümmern sich auch um die Zugriffsberechtigungen, die sie von einem LDAP-Server abfragen. Aufgrund des Netzausfalls konnte der aktive Fileserver jedoch nicht mehr aufs LDAP gehen; Nachdem er diesVerzeichnete, wendete sich der Fileserver an seinen redundanten Part, a la „Ich hab ein Problem, übernehm doch du“. Der zweite Fileserver hatte aber dasselbe Problem und antworte sinngemäß, „Sorry, hab auch kein Netz, kann nicht übernehmen“.
In Folge dessen blieb dem Fileserver nichts anders als in dem Zustand zu verbleiben in der er war und auf manuelles Eingreifen zu warten.

Womit man beim nächsten Schritt von Murphys Law wäre: Das Webteam besteht derzeit aus 3 Leuten. Einer davon ist derzeit in Urlaub. Der andere ist auch mit Antragsbearbeitung zu CIP und WAP zuständig. Und da heute eine Sitzung ist, ist er da momentan zu 100% Prozent seiner Arbeitszeit beschäftigt und nicht für Web.
Bleibt nur meiner einer.
Und bei mir kam was anders zu tragen: Wir sind derzeit in der Umstellungsphase für das Mailsystem. Letzten Freitag stellte ich um auf das andere Mailsystem. Nur dummerweise hatte ich mein Mailclient zu Hause noch nicht umgestellt. Dieses ruft zwar brav noch den alten Mailserver ab, aber erhält keine neuen Nachrichten. Ergo: Unser Nagios, der alles mitbekam, sendete zwar gestern heftige Warnmeldungen, nur die bekam ich zu Hause nicht mit…

Erst heute früh bekamen es die Kollegen von der Systemgruppe mit, ich wurde über Handy informiert und wir konnten recht schnell alles wieder hochfahren.

Doch Murphy schlug gestern während des Ausfalls noch einmal zu:
Der botanische Garten ist derzeit in medialer Aufmerksamkeit durch das Projekt Talking Tree (http://talking-tree.de/). So berichtete ausgerechnet gestern Abend auch die Tagesschau darüber ( vgl. http://twitter.com/#!/erlangen_de/status/118566572259426304 ) .
Die Website zum Tree war zum Glück ja nicht betroffen… Aber dafür die Website des Botanischen Gartens selbst, die ebenfalls vom Cluster ausgeliefert wird (http://botanischer-garten.fau.de/).