Category Archives: Enterprise Lab

Super GAU im Enterprise Lab

Was bisher geschah….

  1. Samstag, 20.02.2016, 08:00: Die Mainframe meldet sich bei IBM und meldet dass die Umgebungstemperarur verändert hat.
  2. Samstag, 20.02.2016, 14:00: Unser Hauswart Franz Zimmermann bekommt einen Anruf von IBM bezüglich Gebertemperatur beim Mainframe (dieser hat begonnen graduell den Prozessortakt runter zu fahren).
  3. Samstag, 20.02.2016, 14:30: Bruno trifft im Lab ein nachdem er von Hansjörg einen Anruf bekommen hat (Hansjörg wurde von Franz Zimmermann avisiert). Bruno stellt fest, dass im Lab kritische Temperaturen herrschen und sich einige Devices selber abgestellt haben. Um die Situation zu entschärfen werden Dachluke und Lab Eingang geöffnet.
  4. Samstag, 20.02.2016, 15:00: Bruno telefoniert mit Lukas Gasser vom CC Thermische Systeme und wird von diesem angewiesen den Ventilator vom Hybridkühler im Handbetrieb laufen zu lassen. Die Temperatur im Lab fällt daraufhin sofort auf die gewünschte Temperatur ab. Eine erste Vermutung zeigt auf einen defekten Zufluss Thermostat der den Ventilator vom Kühler zum Stillstand brachte. Anmerkung: Jäggi beweist uns später dass diese Annahme falsch war.
  5. Samstag, 20.02.2016, 17:00: Ein Großteil der Geräte hat sich selber abgestellt. den Rest hat Bruno mit Power-Off abgestellt. Die Temperatur ist nun auf 18/25 Grad abgesunken. Man beschliesst morgen Sonntag eine Bestandsaufnahme zu machen und die Geräte wieder online zu schalten.
  6. Sonntag, 21.02.2016, 13:30: Bruno, Sandro und Dario machen einen ersten Versuch die Maschinen geordnet hochzufahren.
  7. Sonntag, 21.02.2016, 17:00: Die wichtigsten Services sind wieder online, aber es machen sich unerklärliche Glitches bemerkbar. Ebenso sind nur 5 FC Links up. Wie es sich später herausstellt waren das die FCoE Links. Das heisst die nativ FC Ports waren zu diesem Zeitpunkt down. Ebenso waren ein paar IP Links down wie zB jener vom NAS01.
  8. Sonntag, 21.02.2016, 17:30: Das Team beschliesst am Montagmorgen die restlichen Services hochzufahren.
  9. Montag, 22.02.2016, 09:00: Als wir am Montagmorgen die Services überprüfen stellen wir kleine Ungereimtheiten fest. Um sicher zu gehen beschliessen wir über die Mittagszeit einen Reboot vom Netzwerk vorzunehmen.
  10. Montag, 22.02.2016, 11:40: Bruno verschickt ein email an alle Dozenten, dass über die Mittagszeit das Netz kurz runtergefahren wird und es zu einem kleinen Unterbruch kommen werde.
  11. Montag, 22.02.2016, 13:00: Das Netzwerk kommt nicht mehr hoch. Die als “singe chassis” Cluster konfigurierten Switches kommen in einen “split brain” Zustand und formieren sich nicht.
  12. Montag, 22.02.2016, 14:00: Erster Telefon Support von Brocade wird initiiert. Ohne Resultate. Die Gespräche mit Philipp Gasser und Alex Suhl bringen auch keinen Erfolg.
  13. Montag, 22.02.2016, 17:00: Zweiter (offizieller) Telefonsupport von BNC wird initiiert. Ohne Resultate.
  14. Montag, 22.02.2016, 21:00: Bruno beschliesst den Abbruch vom Telefonsupport und verlangt einen Experten vor Ort am nächsten Morgen.
  15. Montag, 22.02.2016, 21:55: Bruno informiert alle Informatik Dozenten. dass die Experten das Netzwerk nicht zum laufen bringen konnten. Auf den Dienstag Morgen ist ein Netzguru von BNC angeboten worden um das Problem zu lösen.
  16. Dienstag, 23.02.2016, 09:00: Der verlangte Experte reist von Lausanne an. Er findet die Netzwerkprobleme und schickt die “dumps” an das Headquarter von Brocade USA zur Analyse.
  17. Dienstag, 23.02.2016, 17:00: als endlich das Netz wieder hochfährt bemerkten wir, dass die Firewall HW Schaden genommen hat. Wir versuchen sofort auf die zweite, redundante Firewall umzuschalten. Auch diese ist beschädigt. Die HW muss ausgetauscht und neu aufgesetzt werden.
  18. Mittwoch, 24.02.2016, 13:30: Am Standup Meeting wird von Jörg Hofstetter vorgeschlagen dass das elcore Team bis Montag morgen Zeit bekommt um alle Services wieder herzustellen. Das Team hat nun einwenig Luft zum atmen. Bis auf einen Dozenten haben alle sehr viel Verständnis gezeigt und auch Hilfe angeboten.
  19. Sonntag, 29.02.2016 21:55: Der Leiter vom Enterprise Lab Bruno Joho informiert alle Informatikdozierenden sowie Mittelbau, das die meisten Dienste wieder laufen und bittet um Feedback bei Problemen.
  20. Rene Hülsler informiert sich bei Bruno Joho über die Auswirkungen und Folgen des Ausfalles. Er verlangt, dass die Erkenntnisse daraus in das Betriebskonzept einfliessen.
  21. Dienstag, 01.03.2016, 10:00: FITI läuft wieder. Später im Unterricht stellt sich heraus, dass ein paar wenige Clientmaschinen (Windows) nicht erreichbar waren was jedoch unerheblich für den Unterricht war.
  22. Dienstag, 01.03.2016, 13:00: alle Services auf dem Research Cluster laufen wieder (inkl. d3s.chd3s.ch, Redmine Service und der AD Trust) ausser der interne Update-Server der für alle unsere Windows-Machinen zuständig ist.
  23. Montag, 07.03.2016, 10:58: Bruno Joho schreibt folgendes email:

Verteiler: Dozierende hauptamtlich/nebenamtlich und Mittelbau

Liebe Kollegen, liebe Kolleginnen

Ich melde mich, hoffentlich zum letzten mal, bezüglich der Enterprise Lab Störung vom 20. Februar.

  • Nachdem wir einige Rückmeldungen bezüglich nicht verfügbaren Services bekommen haben sind nun bis auf die folgenden 3 alle online:
    Lab interne Testumgebung “elshadow” (wird nur für das interne Entwickeln und Testen verwendet)
  • “VMware vRealize Automation Center” SaaS Cloud Platform (wird im Modul SSM erst in 2 Wochen verwendet und wird momentan hochgefahren)
  • Übungsinterne Konfigurationen und Services vom Modul INFSEC (diese Übung findet erst Mitte April statt. Wir arbeiten mit dem Übungsbetreuer zusammen und helfen die Probleme zu beheben bevor der Dozent mit dem Testen beginnt)

Bald beginnen wir die Erkenntnisse aus dem GAU zu verarbeiten. Etwas das ich aber schon mit Sicherheit sagen kann ist die ungenügende Zusammenarbeit und Dokumentation der Leute die eine Unterrichtsübung im Lab entwickeln und dem Lab Team das die Ressourcen dazu bereitstellt. Das wird ein Thema der nächsten ELMi Sitzung sein.
Ich möchte nochmals allen Danken die ihre Hilfe angeboten haben und Verständnis gezeigt haben in dieser schwierigen Situation.

Enterprise Lab Team
Bruno Joho

 

$HOME move to ZFS

Since we had some file system problems we decided better take the opportunity to move all our $HOME to the rising star of the file systems ZFS. This was achieved very easily:

  • make sure you have a valid backup of the current home directories
  • unmount all
  • create a zfs pool
    # zpool create -f userhome <device number, …>
  • we hide the default mount point “userhome” and create a new one by mapping userhome/home to /export/home
    # zfs userhome/home
    # zfs set mountpoint=/export/home userhome/home
    # zfs set mountpoint=none userhome
    # zfs set
  • after restoring the $HOME backup, we need to make an entry in /etc/dfs/dfstab and share all (zfs would not need a dfstab entry if we didn’t hide the userhome mount point).

To clarify: If you “pwd” in your $HOME you see /export/home/<username>. If we would not hide the default mountpoint (userhome) we would see an additional empty mountpoint: /userhome .

The Power of Community

Wir, (die Kunden, die Clientel, die User, die Benutzer oder wie wir alle genannt werden) sind die Macht. Ich sage bewusst “wir”, denn auch ich partizipiere in für mich interessanten Communities. Dies geschieht ohne Zwang, ohne eine Verpflichtung. Wenn die Community sogar einen Wechsel der Rollen (Participation) zulässt, desto eher will dieser Benutzer ein aktives Mitglied der Community bleiben, vielleicht sogar über eine lange Zeit. Die Community gibt dem einzelnen Studenten oder Researcher eine Stimme, egal ob diese(r) in einem 9-5 oder 5-9 Job engagiert ist. Ich habe manchmal das Gefühl die einzigen die nicht Teil der grossen “We” Bewegung sind befinden sich in meiner unmittelbaren Nähe (nein ich nenne keinen Namen).

Nun, immerhin schon im Jahr 2008 AC (after Christ), befinden wir uns auch im Zeitabschnitt 10 AG (After Google). Nun frage ich weiter: Implementiert Google das Business Modell der AG Zeit? Vielleicht…. Mit Sicherheit hat Google die Arbeitsweise der neuen Generation Entwickler als erste erkannt und gefördert. Ebenso hat Google als erste Internet Firma das Verhalten der Benutzer im Bezug auf Werbung am geschicktesten ausgenützt. Hier gebührt meine Anerkennung. Trotzdem ist Google keine “We” Community. “We” Communities wie z.B. “My Facebook” publiziert was “We” wollen und was wir sind. Google hingegen sammelt unser Verhalten (“was bist Du?”) in unseren Aktionen und verwendet diese.

Sinnieren wir einmal über eine Idee der “We” Community. Im Unterricht schreiben die Studenten (wenigstens die Fleissigen) ihre Notizen auf Papier oder in einen Notebook. Wieso editieren wir nicht alle während dem Unterricht an einen virtuellen Notebook? Dazu müssten wir nur noch die Domäne notebook.com reservieren und schon schreiben alle gemeinsam an den Notizen zum Unterricht. Dieses gemeinsame Schreiben ergibt ein “We”, das alles bisherige übertrifft. Zu unserem Modell gehören 5 Regeln:

  • Finde einen “we” Prozess
  • Finde eine “we” Gesellschaft
  • Stelle “we” Tools und Support (Web 2.0, Support, etc.)
  • Akzeptiere die Wünsche der “we” Gesellschaft.
  • Überprüfe die “we” Resultate (aktive User, neue Vorlesungen, etc.)

Alle partizipieren am Unterricht, die Notizen geben Auskunft über den Gehalt des Unterrichts. Schon arbeiten alle am Unterricht mit. So einfach geht das im Zeitalter der Communities.

Als Randerscheinung könnten bisher nicht gehörte Stimmen lauter werden. In dieser Männergesellschaft sind die der Frauen noch nicht richtig erhört worden, wahrscheinlich haben sie gar keine Stimme. Im Zeitalter AG wird auch unserem schönen Geschlecht die Stimme geben, die Ihnen zusteht, Web 3.0 sei Dank.

Learning Java Enterprise @HSLU

The Lab Exercise of the Bachelor module Enterprise Application reached the  second Milestone. It’s a JEE5 application with typical web shop requirements. The shop sales mp3 song files payable by credit card. Milestone 2 includes JAX-WS, JMS, stateful and staeless Beans, Message Driven Beans, and of course the EJB3 persistent Framework which uses 1 (read only) DB hosting the songs and song metadata, and another DB hosting the client and sales data. The credit card check is implemented as a web service running on a dedicated server in the Enterprise Lab. The application does not yet include any sophisticated security. This topic will be addressed in milestone 3. Container based (declarative) Security and other security tools such as access manager will be included in the application.

I’m very pleased by the progress an the interest produced by the students and pretty sure the the way we follow by teaching Enterprise Application Technologies has a bright future. First time the Industry can count on the Education Institutes (I mean we) to get graduates with in depth knowledge about Enterprise Architectures (Thanks to Prof. Joerg Hofstetter) and Enterprise Application Technologies. Stay tuned and read more about final Bachelor works. We got some very interesting JEE5 and some nice Unix applications.  Same station, same time….

Frauen Mobbing, nicht blogging.

einwenig traurig bin ich schon, hab ich doch heute erfahren, dass wir gleich alle Frauen verlieren im Institut fuer sichere Software (ISIS). Jetzt wo ich endlich Ruth’s unkomplizierte Sichtweise und ihre Informatikkenntnisse zu schaetzen gelernt habe, wo Agi’s Organisationstalent und immerwaehrende Freundlichkeit zur Selbstverstaendlichkeit geworden ist, gerade jetzt beginne ich die bestimmte und emazipierte Art von Christina zu vermissen. Nun verlassen uns alle drei. Ist das Mobbing gegen die Maennerwelt? Haben wir etwas falsch gemacht? Maenner machen ja bekanntlich immer etwas falsch.Ruth ist fluegge geworden und bereichert die Wirtschaft, Christina kann endlich einen aktiven Beitrag  zu ihrem Weltbild leisten und Agi kann ihre Interessen und Faehigkeiten noch besser einbringen. So gesehen sind wir unschuldig. Nun wuensche ich allen drei Angels einen guten Start mit ihren neuen Charlie’s. Uns wuensche ich einen Frauenanteil, nicht einen groesseren sondern ueberhaupt einen.  

Ein Maerchen

Michi denkt ich schreibe Maerchen, ok here’s another one. Dieses Wochenende haben wir fuer eine FH Diplomarbeit 20 physikalische Server (physikalisch nennen wir sie, weil ein OS Image 1:1 direkt auf die Hardware geladen wird ohne Virtualisierung, die Ressourcen stehen 100% zur Verfuegung der Applikation die im OS laeuft. Nun, wie ist das moeglich, wenn man doch weiss, dass unsere 76 (physikalischen) Server bis auf einen, ausgelastet sind? Diese gute Auslastung zeigt mir, dass 1 Jahr nach der Eroeffnung des Enterprise Labs die Idee voll greift. Anfragen wie: “Kann ich einen PC haben fuer meine Diplomarbeit?, bleiben aus. Die angehenden Bachelor Absolventen wollen Serverseitig arbeiten. Sie nutzen die Sun Server (Sparc und bald auch Intel oder AMD). Oh Mann, endlich haben sie’s geschnallt!

Zurueck zu meinem urspruenglichen Thema der 20 neu geladenen Server. (Am Montagmorgen schaltet Michi die 20 Server wieder um auf ihre urspruenglichen Images). Wer macht uns das nach? Sind wir der Zeit voraus an der HSLU? Ja, ganz bestimmt! Nun haben das auch andere gemerkt und wollen auch etwas vom Kuchen. So wird mit viel Geld versucht zu erforschen was wir schon lange haben. Man nennt es Enterprise Lab oder auch “Flexible Ressourcen Nutzung”. Sorry guys you’re too late… Die Hochschule Rapperswil hat sich genauso wie die ETHZ angemeldet fuer einen Besuch im Enterprise Lab. Ich hoffe sehr, dass eine Zusammenarbeit mit diesen renomierten Bildungsinstitutionen zustandekommt. Die Ressourcen sind da zur Benutzung, AAI ist unterwegs und X86 mit Xen Hypevisor steht vor der Tuere. Xen ziehe ich dem ueberteuerten VMware vor, wir sind schliesslich eine Hochschule! Stellt euch vor, ein Befehl auf der Kommandozeile erzeugt ein (oder mehrere) Volume im SAN Storage (auf unserer Hitachi 9985 heissen die Ldev), gleichzeitig wird das OS vorbereitet mit all seinen Quirks und Spezialkonfigurationen. Ebenso werden die VLANs erzeugt und simultan auf den Netzwernodes konfiguriert. Die DNS Eintraege, die Firewall Eintraege einfach alles wird dynamisch erstellt und vom VSPS Framework verwaltet. Noch Fragen? Gieng das zu schnell, erzahle ich vielleicht Maerchen? Dieses Wochenende rechnen also 20 Nodes (wir nennen sie Ressource Set) fuer eine Diplomarbeit die 2 unserer Studenten zusammen mit der Grid Gruppe der Hochschule fuer Technik und Architektur in Freiburg bearbbeiten (Haute Ecole Spécialisée de Suisse Occidentale, Fribourg).

Am Montagmorgen geht der Unterricht weiter wie nichts geschehen waere. Ich bin sicher Michi kommt um 8:30 mit verschlafenen Blick und wenn ich frage ob die 20 Server umgeschaltet seien wird er sich kurz hinsetzen, auf das VSPS Framework einloggen und dann mir dann verschmitzt laechelnd entgegnen: “aber klar, ein Cron Job hat das heute morgen frueh, waehrend ich schlief, gestartet!” Maerchen gehen immer gut aus oder? PS: Nebenbei virtualisieren was das Zeug haelt. – Peanuts – Solaris Zonen administration lernen bei uns schon die Studenten im 3. Semester im Modul ICT Konzipierung und Beschaffung. Heinz Koller von Sun Microsystems sei gedankt, denn das VSPS Framework verwaltet nicht nur Ressource Sets, sondern seit neustem auch Solaris Zonen und LDev’s fuer x86 Intel und AMD (willkommen Bill).