BRANCHENINFO
Totale Verfügbarkeit – eine Illusion?
Ein wichtiges Thema für jedes Unternehmen, aber meist verdrängt: die Verfügbarkeit von Anwendungen. Der „worst case“ wird besonders dann problematisch, wenn die Verfügbarkeit als „Mission Critical“ für ein Unternehmen eingestuft werden muss. Die Möglichkeiten, Problemfälle und Lösungsansätze diskutieren wir im Schwerpunktthema dieses datacForums.
Die Verfügbarkeit einer Anwendung beinhaltet viele Komponenten und kann so durch unterschiedliche “Stellschrauben“ optimiert werden. Allerdings ist eine Verfügbarkeitsrate von 99,5 Prozent – wie häufig von “Nicht-EDVlern” gefordert – illusorisch. Stichworte für zentral hochverfügbare Datenhaltungssysteme sind NAS (Network Attached Storage) und SAN (Storage Area Network). Für hochverfügbare Applikationsserver kommen Cluster Lösungen wie Microsoft-Cluster oder Legato-Cluster zum Einsatz. Um zerstörte Daten schneller als mit einem Standard Backup / Recovery Konzept wiederherstellen zu können, werden mit einem AFR (Application Focused Recovery) sogenannte Snapshot Lösungen eingesetzt. Wer heute die Verfügbarkeit seiner Lösung analysiert, betrachtet an erster Stelle meist die der eingesetzten Hardware. Eine oft viel entscheidendere Komponente ist jedoch die Software selbst bzw. deren Wiederherstellung. Hier tauchen in der Regel weitaus öfter Probleme auf.
Das heißt, vor 53 Prozent der Ausfallursachen bieten Hochverfügbarkeitslösungen keinen Schutz! Hinzu kommen die notwendigen Wartungsintervalle und die Update-Zyklen. Um die Verfügbarkeit einer Lösung zu optimieren und an die jeweiligen Bedürfnisse anzupassen, empfiehlt es sich, eine Matrix zu erstellen, in der die Fehlerwahrscheinlichkeit aller Komponenten eingetragen und bewertet wird. Berücksichtigt werden müssen dabei die Wartungsverträge und deren Reaktions- bzw. Wiederherstellzeiten. Weiterhin muss mit den Fachabteilungen die maximal tolerierbare Ausfallszeit eines Systems und die dann möglichen Notfallszenarien festgelegt werden. Hier muss mit einfließen, ob durch temporäre Ausweichlösungen technischer oder organisatorischer Art die Anforderungen an die Wiederherstellzeiten reduziert werden können. Meist ist bei einem Ausfall auch mit einem gewissen Datenverlust zu rechnen. Auch dieses Zeitfenster ist wichtig: Möglicherweise kann hier durch redundante Datenhaltung oder Clustering Abhilfe geschaffen werden.
Hardware Ausfälle haben je nach Wartungsvereinbarung meist einen Ausfall von mindestens vier Stunden bis zu zwei Tagen zur Folge. Hinzu kommen die Wiederherstellzeiten für das Betriebssystem und die Applikationen / Grunddaten sowie die Rücksicherung der Bewegungsdaten / Datenbanken. Folglich ist mit einer Ausfallzeit von mindestens acht Stunden zu rechnen.
Je zuverlässiger oder schneller austauschbar die eingesetzte Hardware ist, desto verfügbarer wird sie. Deshalb ist die Doppelung der am häufigsten ausfallenden Komponenten wie Netzteile oder Festplatten oder aber auch die Duplizierung der Anschaltorgane ans LAN in unterschiedliche Netzsegmente von großer Bedeutung. Um die Verfügbarkeit einzelner Komponenten zu erhöhen, muss bei den Modulen mit der höchsten Ausfallwahrscheinlichkeit angesetzt werden:
Festplatten: Hier empfiehlt sich der Einsatz einer RAID 1- oder RAID 5-Lösung zur Spiegelung der Daten. Cold- oder Hot-Standby-Platten sind unbedingt zu empfehlen. Vorteil: Intakte Plattensysteme können in neue Hardware umgesteckt werden, bei Ausfall einer Platte bleibt das System verfügbar. D.h.: Einfach und preiswert zu realisieren, einfach zu administrieren.
Cluster-Lösungen: Ist eine sofortige Verfügbarkeit nach einem Hardware-Ausfall oder eine automatische Umschaltung auf eine Backup-Lösung wegen Produktionsbeeinträchtigungen notwendig, so empfiehlt sich der Einsatz einer Cluster-Lösung. Es gibt hier active-active Lösungen (beide Cluster-Paare sind produktiv) oder active-passive Lösungen (ein System ist „hot-standby“). Vorteil ist, dass auch in Wartungsintervallen die Anwendung betriebsbereit gehalten werden kann und ein gewisses Load Balancing bei einigen Applikationen innerhalb eines Cluster-Systems möglich ist. Hinzu kommt eine Dienst-Überwachung und der Neustart eines fehlerhaften Dienstes innerhalb des Clusters. Die bekanntesten Cluster-Lösungen sind MS-Cluster und Legato (Vinca) Cluster. D.h.: Kurze Ausfallzeiten, insbesondere kaum Datenverlust, aber kostenintensiv. Die meisten Fehler werden in der Administration verursacht.
SAN und redundante Hardware: Ist eine automatische Umschaltung nicht notwendig oder aufgrund des Applikationsdesigns nicht möglich, so ermöglichen zentrale (fehlertolerante) Plattensubsysteme mit einer SAN-Anbindung an die einzelnen Rechner den schnellen Austausch einer kompletten Hardware. Das Betriebssystem sollte dann auch über das SAN geladen werden. Nach Austausch des Rechners steht die Applikation wieder zur Verfügung. Sonderkarten, z.B. So / S2 Karten, sollten redundant lokal vorgehalten werden. D.h.: Sehr kostenintensiv, komplex in der Administration, Datenverlust höher als im Cluster, aber in der Regel noch tolerierbar. Manuelles Eingreifen erforderlich, kein 24h Automatikbetrieb.
Software Recovery: Software-Fehler, Viren-Probleme oder Anwenderfehler - die häufigsten Ausfallzeiten - lassen sich durch all diese Lösungen NICHT umgehen! Für jedes System sollte daher, um kurze Wiederherstellzeiten zu garantieren, ein Desaster Recovery-Konzept schriftlich festgelegt werden. Das Erstellen von Software-Images kann genutzt werden, um die Grundkonfiguration eines Systems wiederherzustellen und um dann über die Datensicherung die letzten Änderungen zurückzuspielen.
Wartung und Change Management: Software-Fehler lassen sich auch vermeiden, wenn identische Testumgebungen vorgehalten werden, in denen neue Software Versionen (Change Management) vor der Produktivschaltung qualitätsgesichert werden können. Wenn Wartungsintervalle gut geplant und auf Zeiten außerhalb der Produktion gelegt werden können, lassen sich hier ebenfalls gute Verbesserungen in der Verfügbarkeit erreichen. Um eine qualifizierte Herstellung bzw. Fehlerbeseitigung in den Applikationen zu garantieren, sollten unbedingt Wartungsvereinbarungen mit garantierten Reaktionszeiten vorliegen. Alle Datensicherungskonzepte zur Wiederherstellung einer Maschine müssen regelmäßig überprüft und verifiziert bzw. getestet werden. Denn nichts ist schlimmer als eine Datensicherung, die im Bedarfsfall unbrauchbar ist! Daher sollten unbedingt Software-Generationen gesichert werden, um bei einem Virenbefall, der eventuell schon länger zurückliegt, auch auf ältere Sicherungen zurückgreifen zu können. Ansonsten droht der Totalverlust der Daten.
Desaster Recovery Konzept: Die Erstellung eines Desaster Recovery Konzeptes ist unbedingt zu empfehlen. Alle Schritte zur Wiederherstellung einer Maschine müssen schriftlich niedergelegt werden. Stress und Druck auf die Administratoren im DesasterFall sind äußerst hoch und ein gesicherter und getesteter „Fahrplan“ inklusive Workarounds und organisatorischer Maßnahmen ist außerordentlich wichtig, um Fehler zu vermeiden. Denn häufig ist in Desaster-Situationen der kompetenteste Ansprechpartner nicht verfügbar und die zeitgerechte Wiederherstellung somit nicht gewährleistet.
Zurück