Editorial: Wenn die Wolke sich in Rauch auflöst
Das Gebäude eines Cloud-Rechenzentrums des französischen Internet Service Providers OVH ist durch ein Feuer stark beschädigt. Verletzt wurde zum Glück niemand.
picture alliance/dpa/AFP | Patrick Hertzog
Daten in der Cloud, also alles sicher? Nun, so denken viele Menschen,
egal, ob es um die privaten Hochzeitsfotos oder um die Geschäftsdaten
der Firma geht. Dass das nicht immer stimmt, zeigte jüngst der Brand
beim französischen Hosting-Spezialisten OVH in Straßburg: Von vier
Rechenzentren, die der Anbieter in Straßburg unterhält, brannte eines
vollständig ab und eines teilweise. Aber auch die anderen beiden
Rechenzentren sind vorläufig offline, weil deren Stromversorgung und
Internet-Anbindung wohl über das vom Brand zerstörte Rechenzentrum
erfolgten.
Verteidigungslinie 1: RAID
Das Gebäude eines Cloud-Rechenzentrums des französischen Internet Service Providers OVH ist durch ein Feuer stark beschädigt. Verletzt wurde zum Glück niemand.
picture alliance/dpa/AFP | Patrick Hertzog
Nun ist jedem Systemverwalter bekannt, dass Speichergeräte ausfallen
können, und die einfachste und billigste Gegenmaßnahme dagegen heißt
RAID. Besonders
effizient ist RAID-6: Werden zum Beispiel acht Festplatten oder SSDs zu
einem RAID-6-Verbund zusammengeschlossen, können zwei beliebige davon
ausfallen, ohne, dass es dadurch zu Datenverlust kommt. Insbesondere
kann man also nach dem Ausfall einer einzelnen Platte oder SSD das RAID
weiter betreiben und das kaputtgegangene Gerät in Ruhe ersetzen und das
RAID wieder synchronisieren. Dazu muss man oftmals nicht einmal die
Server herunterfahren, bei geeigneten Geräten kann man die Festplatten
oder SSDs direkt im Betrieb tauschen. Auf jeden Fall hat man bei RAID-6
auch nach dem Ausfall eines Datenspeichergeräts
weiterhin ein Redundanz-Niveau, das einen weiteren Ausfall
ohne Datenverlust zulässt. Erst, wenn drei Festplatten oder SSDs
nacheinander (oder gar gleichzeitig) ausfallen, bevor die erste ersetzt
worden ist, kommt es zum Datenverlust.
Verteidigungslinie 2: Server-Redundanz
Alternativ oder zusätzlich zum RAID wird meist auch Server-Redundanz eingesetzt: Die Daten werden auf zwei oder mehr Server verteilt. Fällt einer aus, sind sie noch vom anderen abrufbar. Sind für eine Web-Adresse zudem mehrere IP-Adressen registriert, probieren die Browser diese der Reihe nach alle durch, wenn eine oder mehrere nicht funktionieren. Der Dienst bleibt damit auch dann erreichbar, wenn ein Server ausfällt, aber für einen Teil der Nutzer langsamer als gewohnt, weil sich deren Browser zunächst mit der IP des defekten Servers verbinden will.
Verteidigungslinie 3: Backup
Auf Systemverwalter-Foren liest man immer wieder den Satz: RAID is not Backup. Ein RAID-Level hilft nicht gegen Datenverlust, schon deswegen, weil der häufigste Grund für Datenverlust nicht der Ausfall von Datenträgern, sondern die versehentliche Löschung oder das unbeabsichtigte Überschreiben durch fehlerhafte Software ist. Aber genau dagegen hilft ein RAID nicht. Im Gegenteil, je besser die RAID-Hardware ist, desto zuverlässiger und schneller wird sie einen solchen Fehler auf alle beteiligten Speichermedien verteilen. Hinzu kommt der Fall - wie in Straßburg geschehen - dass aufgrund eines externen Ereignisses alle Platten auf einmal ausfallen. Neben Feuer sind da auch Wasserschäden, Überspannung, Diebstahl oder gar Einsturz als mögliche Schadensereignisse zu nennen. Versicherungen wissen ein Lied davon zu singen, was alles passieren kann.
Aber nicht nur RAID, auch Server-Redundanz hilft zumeist nicht gegen Administratorfehler: Wenn beispielsweise die bei Datenbanken beliebte Master-Slave-Replikation aktiv ist, reicht die falsche Eingabe "drop table user;" auf dem Master dazu aus, die Nutzerdatenbank auch auf allen verbundenen Slaves über den Jordan zu jagen.
Ein gutes Datensicherheitskonzept endet also nicht mit RAID und Redundanz, sondern umfasst auch ein regelmäßiges Backup aller Daten. Dabei wird möglichst ein sogenanntes logisches Backup verwendet, bei dem alle Daten ausgelesen, auf Konsistenz und Vollständigkeit geprüft und dann in einem alternativen Format außerhalb der live-Datenbanken und -Dateisysteme abgelegt werden. Zugleich achtet ein gutes Datensicherheitskonzept auch auf ausreichende Distanz zwischen den Servern und insbesondere auch zum Backup. Wenn schon ein Standort "abraucht", dann sollte man zumindest in der Lage sein, das Backup auf frisch gemieteten Servern woanders wieder einzuspielen.
Verantwortung der Provider
Eigentlich ist alles vorab geschriebene hinlänglich bekannt. Beachtet wird es von Systemadministratoren und Firmenchefs dennoch nicht immer. Manchmal sind aber auch falsche Versprechungen und vor allem die Produktpolitik der Server- und Cloud-Anbieter mitschuld an fehlender Redundanz. Was nutzt es, wenn "Daten-Backup auf physikalisch separierten Servern" als kostenpflichtiger Zusatzdienst angeboten wird, der Backup-Server dann aber lediglich ein Stockwerk höher oder tiefer steht? Brandschutztüren sehen zwar sicher aus, aber sie können einem Vollbrand dennoch nur wenige Minuten widerstehen. Zudem können sie nicht verhindern, dass sich ein Feuer durch die in Serverfarmen meist reichlich vorhandenen und großzügig bemessenen Kabelkanäle frisst. Die Ummantelung von Netzwerkkabeln besteht beispielsweise oft aus PE (Polyethylen), das bei gut 100 °C schmilzt. Während sich Feuer mit den heißen Rauchgasen zumeist nach oben ausbreitet, können brennende flüssige Kunststoffe in einer Serverfarm auch zu einer Ausbreitung nach unten führen. Zwar verhindern Flammschutzmittel in Kabeln normalerweise, dass ein einzelnes Kabel die Flamme weiterträgt. Aber wenn der ganze Raum brennt, aus dem die Kabel kommen, dann wird die Löschkapazität dieser Beimengungen bei weitem überschritten.
Der Backupraum und der Netzwerkraum im Keller geraten also genauso mit in Brand, wenn die Serverhallen darüber brennen und die Kabelkanäle zu diesen Räumen nicht ausreichend gesichert sind. Spätestens hier hat OVH ganz offensichtlich übermäßig gespart: Dass das Feuer vom vollständig abgebrannten Rechenzentrum SBG-2 auf SBG-1 übergriff (laut OVH sind vier von zwölf "Hallen" beschädigt, wobei es sich bei SBG-1 wohl eher um Container als um Hallen handelt), zeigt, dass die beiden Bereiche nicht ausreichend getrennt waren. Und dass das vom Brand nicht betroffene SBG-3 erst in ca. einer Woche wieder ans Netz gehen soll, weil bis dahin Stromversorgung und Internetzugang neu installiert werden müssen, zeigt, dass es sich mitnichten um getrennte Rechenzentren handelt, wie man aufgrund der Nummerierung eigentlich erwarten würde. Einen guten Überblick über die Anlage samt elektrischer Anschlusswerte liefert übrigens Baxtel.
Ein weiteres Problem ist das Marketing der Cloud- und Server-Anbieter: Kunden sollen möglichst ihren kompletten Storage- und Computing-Bedarf von einem Anbieter kaufen. In der Folge wird Datentransfer innerhalb einer Cloudfarm subventioniert (meist ist er sogar kostenlos), was sich dann in umso höheren Preisen für externen Datentransfer widerspiegelt. Oft genug gibt es nicht einmal die Möglichkeit, garantierte Bandbreiten für die Verbindung von Rechenzentrum X bei Provider A in der Stadt M zu Rechenzentrum Y bei Provider B in der Stadt N zu verhandeln. Eine besonders sichere Redundanz-Lösung, die Server in unterschiedlichen Städten bei unterschiedlichen Providern vorsieht, ist daher auch besonders teuer - und besonders anfällig für Ausfälle der Verbindungen zwischen den beiden Standorten. Am Ende schwenken die Kunden dann doch auf die lokale Lösung um. Wer aber beispielsweise Server und Spiegelserver in SBG-2 und das Backup "physikalisch getrennt" in SBG-1 positioniert hat, dem ist dennoch möglicherweise alles abgebrannt, obwohl er eigentlich bereits ein recht hohes Sicherheitsniveau geplant hatte. Und selbst, wenn er das Glück hatte, dass seine Daten auf den zwei Dritteln der unbeschädigten Server in SBG-1 lagern: Bis er wieder an seine Daten rankommt, vergeht voraussichtlich noch eine Woche.
Strom macht Feuer
Die genaue Brandursache ist noch nicht offiziell ermittelt und bekannt gegeben worden, aber es dürfte einigermaßen wahrscheinlich sein, dass sie mit der Stromversorgung im Zusammenhang steht: Rechenzentren verbrauchen viel Strom, und so wird meist Mittelspannung (in Europa typischerweise 10 000 V) angeliefert und durch große Transformatoren vor Ort auf die übliche Stromspannung von 230 V reduziert. Hier ist schon das erste Brandrisiko - nach einem internen Kurzschluss, wie er bei Transformatoren leider immer wieder mal auftritt, sind Überhitzung, Ölaustritt und Feuer eher die Regel als die Ausnahme.
Der wohl bekannteste Transformatorenbrand der letzten Jahre war ein brennender ICE3 auf der Schnellstrecke zwischen Köln und Frankfurt. Zwar sind schon vor hundert Jahren Sicherheitsschalter ("Buchholz-Relais") entwickelt worden, die gefährliche Veränderungen am Transformatorenöl (Ausgasen, Ölverlust etc.) erkennen können und rechtzeitig den Transformator abschalten. Zumindest beim ICE-Brand entwickelte sich der Schaden aber laut Untersuchungsbericht so plötzlich, dass das Buchholz-Relais erst ansprach und einen Alarm meldete, als es vom Brand selber zerstört wurde. Allerdings gibt es auch anonyme Hinweise darauf, dass die Buchholz-Relais (wohl wegen häufiger Fehlalarme, die dann natürlich jeweils zum Stehenbleiben des Zuges führen) bei den ICE der Serien 1 bis 3 auch gerne mal überbrückt werden. Ein auf diese Weise außer Kraft gesetzter Sicherheitsschalter ist natürlich nutzlos, aber hoffentlich nicht der Auslöser des Feuers bei OVH.
Fällt die öffentliche Stromversorgung aus, haben so gut wie alle Rechenzentren den Anspruch, dennoch ihre Server weiterzubetreiben. Dafür gibt es Notstromgeneratoren, die meist mit Diesel betrieben werden. Um sicherzustellen, dass die Dieselmotoren nicht im wahrsten Sinne des Wortes einrosten, müssen sie alle paar Wochen oder Monate testweise gestartet werden. Auslaufende Treib- oder Schmierstoffe, sowie heiße Stellen an den Motoren oder der Abgasanlage sind das Brandrisiko Nummer 2.
Notstromgeneratoren brauchen allerdings etliche Sekunden, um anzuspringen und auf Nenndrehzahl hochzulaufen. Bis dahin übernehmen nach einem Netzausfall leistungsstarke Pufferbatterien die Stromversorgung. Die sind das Brandrisiko Nummer 3 - und zwar egal, ob es noch die alten Bleibatterien oder die modernen Lithium-Batterien sind. Zwar brennen Bleibatterien selber nicht, aber beim Aufladen entsteht unter Umständen explosiver Wasserstoff. Lithium-Akkus können hingegen Feuer fangen, wenn es aufgrund von Herstellungsfehlern zu internen Kurzschlüssen kommt, oder schadhafte Ladegeräte die Zellen überladen.
Zum Ausgleich für die vielen Brandrisiken gehören Brandmelde- und Feuerlöscheinrichtungen in Rechenzentren zum Standard. Nur: Wenn ein Transformator überhitzt, aber von den Sicherungen nicht vom Netz getrennt wird, dann hilft auch eine Löschgasanlage nicht weiter, denn nach dem Versprühen des Gases kommt ja mit der Zeit wieder normale Luft in den Raum - und dann flammt das Feuer am überhitzten Transformator erneut auf. Dasselbe gilt für den Brand bzw. den Thermal Runaway eines großen Lithium-Akkus: Hier reagiert die sauerstoffreiche Kathode eines geladenen Akkus direkt mit der lithium- und kohlenstoffreichen Anode, dem Elektrolyten und/oder dem Metallgehäuse. Da dabei laufend Gase entstehen - allen voran brennbarer Wasserstoff - kommt ein Löschgas gar nicht erst an die Zellen ran. Ohne eine saubere Evaluierung aller Brandrisiken und einer darauf abgestimmten Installation von Brandschutz- bzw. Brandlöscheinrichtungen wird es also nichts.
Opfer
Bekanntestes Opfer des Feuers ist wohl das Computerspiel Rust, bei dem man in einer feindlich gesonnenen Spielewelt möglichst lange überleben muss. Die Spielstände der europäischen Rust-Nutzer überlebten jedenfalls das Feuer in Straßburg nicht - diese User dürfen also wieder von vorne anfangen. Dass die Gerichtsvollzieher-Kanzlei Leroi Associés ihre E-Mails verloren hat, dürfte zwar zu einiger Schadenfreude Anlass geben. Dennoch nicht optimal, wenn auf diesem Weg zum Beispiel auch Zahlungsnachweise verloren gegangen sind.
Blick nach vorn
Wie nach jedem Großschaden geht auch nach dem Großbrand bei OVH das Leben weiter. Wer noch selber Server mietet, wird sich künftig aber wahrscheinlich stärker diversifizieren und nicht alles bei einem Anbieter mieten, zumindest nicht alles in einem Rechenzentrum in einer Stadt. Wer die IT outgesourct hat, wird seine Partner fragen, wie ihr Konzept gegen Großschadensereignisse wie bei OVH ist. Und hoffentlich denkt auch der eine oder andere Cloud-Anbieter im Sinne seiner Kunden um und bietet beispielsweise künftig hohe Rabatte für off-peak-Backup-Datentransfers zur Konkurrenz.