Super GAU im Enterprise Lab

Was bisher geschah….

  1. Samstag, 20.02.2016, 08:00: Die Mainframe meldet sich bei IBM und meldet dass die Umgebungstemperarur verändert hat.
  2. Samstag, 20.02.2016, 14:00: Unser Hauswart Franz Zimmermann bekommt einen Anruf von IBM bezüglich Gebertemperatur beim Mainframe (dieser hat begonnen graduell den Prozessortakt runter zu fahren).
  3. Samstag, 20.02.2016, 14:30: Bruno trifft im Lab ein nachdem er von Hansjörg einen Anruf bekommen hat (Hansjörg wurde von Franz Zimmermann avisiert). Bruno stellt fest, dass im Lab kritische Temperaturen herrschen und sich einige Devices selber abgestellt haben. Um die Situation zu entschärfen werden Dachluke und Lab Eingang geöffnet.
  4. Samstag, 20.02.2016, 15:00: Bruno telefoniert mit Lukas Gasser vom CC Thermische Systeme und wird von diesem angewiesen den Ventilator vom Hybridkühler im Handbetrieb laufen zu lassen. Die Temperatur im Lab fällt daraufhin sofort auf die gewünschte Temperatur ab. Eine erste Vermutung zeigt auf einen defekten Zufluss Thermostat der den Ventilator vom Kühler zum Stillstand brachte. Anmerkung: Jäggi beweist uns später dass diese Annahme falsch war.
  5. Samstag, 20.02.2016, 17:00: Ein Großteil der Geräte hat sich selber abgestellt. den Rest hat Bruno mit Power-Off abgestellt. Die Temperatur ist nun auf 18/25 Grad abgesunken. Man beschliesst morgen Sonntag eine Bestandsaufnahme zu machen und die Geräte wieder online zu schalten.
  6. Sonntag, 21.02.2016, 13:30: Bruno, Sandro und Dario machen einen ersten Versuch die Maschinen geordnet hochzufahren.
  7. Sonntag, 21.02.2016, 17:00: Die wichtigsten Services sind wieder online, aber es machen sich unerklärliche Glitches bemerkbar. Ebenso sind nur 5 FC Links up. Wie es sich später herausstellt waren das die FCoE Links. Das heisst die nativ FC Ports waren zu diesem Zeitpunkt down. Ebenso waren ein paar IP Links down wie zB jener vom NAS01.
  8. Sonntag, 21.02.2016, 17:30: Das Team beschliesst am Montagmorgen die restlichen Services hochzufahren.
  9. Montag, 22.02.2016, 09:00: Als wir am Montagmorgen die Services überprüfen stellen wir kleine Ungereimtheiten fest. Um sicher zu gehen beschliessen wir über die Mittagszeit einen Reboot vom Netzwerk vorzunehmen.
  10. Montag, 22.02.2016, 11:40: Bruno verschickt ein email an alle Dozenten, dass über die Mittagszeit das Netz kurz runtergefahren wird und es zu einem kleinen Unterbruch kommen werde.
  11. Montag, 22.02.2016, 13:00: Das Netzwerk kommt nicht mehr hoch. Die als “singe chassis” Cluster konfigurierten Switches kommen in einen “split brain” Zustand und formieren sich nicht.
  12. Montag, 22.02.2016, 14:00: Erster Telefon Support von Brocade wird initiiert. Ohne Resultate. Die Gespräche mit Philipp Gasser und Alex Suhl bringen auch keinen Erfolg.
  13. Montag, 22.02.2016, 17:00: Zweiter (offizieller) Telefonsupport von BNC wird initiiert. Ohne Resultate.
  14. Montag, 22.02.2016, 21:00: Bruno beschliesst den Abbruch vom Telefonsupport und verlangt einen Experten vor Ort am nächsten Morgen.
  15. Montag, 22.02.2016, 21:55: Bruno informiert alle Informatik Dozenten. dass die Experten das Netzwerk nicht zum laufen bringen konnten. Auf den Dienstag Morgen ist ein Netzguru von BNC angeboten worden um das Problem zu lösen.
  16. Dienstag, 23.02.2016, 09:00: Der verlangte Experte reist von Lausanne an. Er findet die Netzwerkprobleme und schickt die “dumps” an das Headquarter von Brocade USA zur Analyse.
  17. Dienstag, 23.02.2016, 17:00: als endlich das Netz wieder hochfährt bemerkten wir, dass die Firewall HW Schaden genommen hat. Wir versuchen sofort auf die zweite, redundante Firewall umzuschalten. Auch diese ist beschädigt. Die HW muss ausgetauscht und neu aufgesetzt werden.
  18. Mittwoch, 24.02.2016, 13:30: Am Standup Meeting wird von Jörg Hofstetter vorgeschlagen dass das elcore Team bis Montag morgen Zeit bekommt um alle Services wieder herzustellen. Das Team hat nun einwenig Luft zum atmen. Bis auf einen Dozenten haben alle sehr viel Verständnis gezeigt und auch Hilfe angeboten.
  19. Sonntag, 29.02.2016 21:55: Der Leiter vom Enterprise Lab Bruno Joho informiert alle Informatikdozierenden sowie Mittelbau, das die meisten Dienste wieder laufen und bittet um Feedback bei Problemen.
  20. Rene Hülsler informiert sich bei Bruno Joho über die Auswirkungen und Folgen des Ausfalles. Er verlangt, dass die Erkenntnisse daraus in das Betriebskonzept einfliessen.
  21. Dienstag, 01.03.2016, 10:00: FITI läuft wieder. Später im Unterricht stellt sich heraus, dass ein paar wenige Clientmaschinen (Windows) nicht erreichbar waren was jedoch unerheblich für den Unterricht war.
  22. Dienstag, 01.03.2016, 13:00: alle Services auf dem Research Cluster laufen wieder (inkl. d3s.chd3s.ch, Redmine Service und der AD Trust) ausser der interne Update-Server der für alle unsere Windows-Machinen zuständig ist.
  23. Montag, 07.03.2016, 10:58: Bruno Joho schreibt folgendes email:

Verteiler: Dozierende hauptamtlich/nebenamtlich und Mittelbau

Liebe Kollegen, liebe Kolleginnen

Ich melde mich, hoffentlich zum letzten mal, bezüglich der Enterprise Lab Störung vom 20. Februar.

  • Nachdem wir einige Rückmeldungen bezüglich nicht verfügbaren Services bekommen haben sind nun bis auf die folgenden 3 alle online:
    Lab interne Testumgebung “elshadow” (wird nur für das interne Entwickeln und Testen verwendet)
  • “VMware vRealize Automation Center” SaaS Cloud Platform (wird im Modul SSM erst in 2 Wochen verwendet und wird momentan hochgefahren)
  • Übungsinterne Konfigurationen und Services vom Modul INFSEC (diese Übung findet erst Mitte April statt. Wir arbeiten mit dem Übungsbetreuer zusammen und helfen die Probleme zu beheben bevor der Dozent mit dem Testen beginnt)

Bald beginnen wir die Erkenntnisse aus dem GAU zu verarbeiten. Etwas das ich aber schon mit Sicherheit sagen kann ist die ungenügende Zusammenarbeit und Dokumentation der Leute die eine Unterrichtsübung im Lab entwickeln und dem Lab Team das die Ressourcen dazu bereitstellt. Das wird ein Thema der nächsten ELMi Sitzung sein.
Ich möchte nochmals allen Danken die ihre Hilfe angeboten haben und Verständnis gezeigt haben in dieser schwierigen Situation.

Enterprise Lab Team
Bruno Joho