Manche Mailalerts möchte man nicht haben…

Gestern kam es zu schwerwiegenden Schäden im Serverraum des RRZE:
Durch einen Ausfall beider Klimaanlagen (ausgelöst durch die Absenkung der Temperatur der Zentralheizung) in zentralen Serverraum, kam es zu einer Überhitzung und Notabschaltung wichtiger Server.
In meiner Mailbox sah das dann so aus:

Screenshot der Mailbox zum Serverausfall am 27.12.2006

Der Screenshot zeigt dabei nur die Mails für meine Infoserver (Webdienste). Nicht enthalten sind die Alerts für weitere zentrale Fileserver, Cluster und Verwaltungsserver.

Der ganze Spaß sorgte schon dafür, daß jetzt schon mindestens 10 Kollegen aus dem Weihnachtsurlaub heimkehren mussten. Ich selbst werde morgen auch rein müssen, da ich einige DInge nicht remote machen kann und diese auch mit anderen koordinieren muss.
Zusammen mit den Folgeschäden (Akute Hardwareschäden und indirekte Schäden, die sich auf die Lebenszeit der Geräte auswirken), wird das ganze jedenfall nicht billig… :(

5 Kommentare zu “Manche Mailalerts möchte man nicht haben…

Kommentarfunktion ist geschlossen.

  1. Das Problem war NICHT der Ausfall der Klimaanlage, sondern die absolut unakzeptable Art der Benachrichtigung seitens der Verantwortlichen: Keine.

    Ein Kollege musste erst Feststellen, dass es im Serverraum wohl etwas warm war, so ca. 60 Grad (auch wenn die Temperatur sehr subjektiv gemessen wurde und es wohl kühler als 60 Grad war, aber viel wärmer als die gewollten 20 Grad!)

    Erst dadurch sind die Schäden aufgetreten!

    Besonders peinlich: Die Ausleihe in den extra von der Schließung der Universität über Weihnachten ausgenommenen Bibliotheken funktioniert nicht mehr. Ein erheblicher Defekt in der Bibliotheks-Datenbank ist der Grund.

    Ich möchte die Konsequenzen nicht ausbaden müssen….

  2. Das der Ausfall an sich nicht das Problem ist, ist mir klar aber warum konnte diese Ereignisse aufeinander treffen:
    1) Die Klimaanlage fällt wiederholt (!) aus.
    2) Es wurde wiederholt(?) niemand oder die falschen informiert.
    3) Die meisten besseren Serverboard haben eine Notabschaltung. Bei erreichen von X grad wird gnadenlos abgeschaltet. Dies sollte eine sauber konfigurierte Datenbank im Normalfall überleben. Desweiteren gibt es ausreichend Daemonen, die dies kontrolliert machen. Sowas war wohl auch nicht vorhanden.

  3. 1-2 möchte ich hier ungern diskutieren – ich möchte nicht das dieses Blog interessant für andere Leute wird. Bitte diese Punkte via Mail, ok?

    Zu Punkt 3. Du hast recht, das ist ja auch passiert, wie obiges Screenshot zeigt. ALLERDINGS ist das ganze nur die halbe Miete.
    Theoretisch hast du recht mit dem was zu schreibst.
    In der Pracis, ist es aber etwas komplexer: DIe meisten Server sind dauerhaft in Betrieb. Und mit dauerhaft ist gemeint: Durchgehend ohne Reboot und ohne längeren Auszeiten für mehrere Monate.
    Dies hat physikalische Folgen für die Festplatten (und auf andere Teile die anfällig für Wärme sind) Durch den Dauerbetrieb erhalten diese eine gewisse Durchschnittstemperatur.
    Solange die Temperatur konstant ist, ist alles ok. Die kann dann auch etwas höher sein.

    Das Problem tritt dann auf, wenn diese Teile abkühlen.
    Und dann wieder hochgefahren werden.
    Jeder kennt das knackende Geräusch, welches auftritt wenn ein Heizkörper abkühlt oder warm wird (zusammenziehen und ausdehnen).
    Genau das tritt hier auch auf. Natürlich im kleineren Rahmen. Aber bei den empfindlicheren Teilen machen auch kleinere Effekte eine Wirkung.

    Lange Rede, kurzer Sinn: Das Abschalter vieler Server ist kein Problem.
    Das Hochfahren macht die Probleme.

    Und dies besonderes natürlich bei älteren Servern, die sowieso schon am Rande ihrer Lebenszeit sind (und bei denen der Supportvertrag durch die Hardwarelieferanten bereits abgelaufen ist.)

    Dementsprechend sind alle Problemserver momentan auch meines Wissens die, welche schon ein paar Jährchen auf den Buckel haben. (Oder solche, die Architekturbedingt empfindlicher sind)

    Die info2, mit der ich gerade kämpfe, gehört streng genommen auch schon lange in den Serveraltersheim.

  4. > xwolf (Dezember 29th, 2006 um 22:57 Uhr):
    > Die info2, mit der ich gerade kämpfe,

    Nerd! ;-) Würd’s aber wohl genauso machen…. :-) Es schläft sich sonst so schlecht!