400 000?

Editorial: Die Störung und die Informations­politik

Einer von 75 Usern oder doch viel mehr: Wie groß war Vodafones Netzausfall wirklich? Und was könnte man bei Ausfällen besser kommunizieren?
AAA
Teilen

Vodafones doch nicht so kleiner AusfallVodafones doch nicht so kleiner Ausfall Zunächst einmal: Störungen und Ausfälle passieren. Selbstverständlich baut man deswegen wichtige IT-Systeme (mindestens) redundant auf. Doch Redundanz ist kein Allheilmittel. So hilft sie nicht gegen den berüchtigten Admin-Fehler: Wird für ein Datenbank-System eine neue, falsche Konfiguration verteilt, dann fällt unweigerlich nicht nur das Livesystem aus, sondern auch das Backupsystem. Zwar gibt es auch Schutzmaßnahmen gegen Admin-Fehler, etwa zusätzliche Testsysteme, auf denen die Auswirkung der geplanten Änderungen vorab untersucht werden. Doch meist verbleiben zwangsläufig kleine, aber feine Unterschiede zwischen Testsystem und Livesystem, aufgrund derer nicht alle Konfigurationsfehler vorab erkannt werden. Wurde dann erstmal ein falsches Update verteilt, ist der Weg zurück oft schwierig, beispielsweise, wenn die Daten in einer Datenbank bereits korrumpiert worden sind.

Ebenso gibt es für Server quasi unendlich viele mögliche Ausfallmöglichkeiten, von denen nur ein kleiner Teil automatisch erkannt und durch den Wechsel auf Ausweichsysteme behoben werden kann. Der einfachste Fall ist immer so etwas wie "im Netzteil brennt der zentrale Schalttransistor durch". Dadurch bleibt allen Komponenten wie Board, CPU, Speicher und Kommunikationsschnittstellen gleichzeitig der Strom weg. Der Server gibt keinen Mucks mehr von sich und er schreibt auch keine Daten mehr in die Datenbank. Das System zur Fehlererkennung kann dann binnen Sekunden auf einen der Standby-Server umschalten und alles läuft wieder weiter. So ein Ausfall wird kaum bemerkt.

Doch was, wenn der Server aufgrund eines Fehlers in der CPU oder in den RAM-Bausteinen oder in der Software nur ab und zu, z.B. bei ungefähr jeder tausendsten Anfrage, ein falsches Ergebnis liefert? Wird das dann auch erkannt? Wahrscheinlich nein - in 99,9 Prozent der Fälle ist das Ergebnis ja richtig! Dabei schaukeln sich solche gelegentlichen falschen Antworten in vielen Fällen mit der Zeit zu einem schweren Fehlerzustand hoch. Was zum Beispiel, wenn in (alten) GSM-Basisstationen beim Gesprächsabbruch durch Netzverlust jede tausendste Verbindung nicht korrekt beendet wird und dann dauerhaft den zugehörigen Timeslot blockiert? Anfangs wird die durch die hängengebliebenen Gespräche reduzierte Netzkapazität kaum auffallen. Sobald aber in einem Gebiet erstmalig die verbleibende Netzkapazität merklich unter die eigentlich benötigte Kapazität fällt, wird dort die Gesprächs­abbruchsrate beim Zellwechsel stark zunehmen. In der Folge sinkt die verbleibende Netzkapazität immer schneller. Ein Fehler, der schon seit Wochen im Netz ist, führt dann möglicherweise binnen Stunden zum Ausfall großer Regionen. Dann das Update der Software von vor einem Monat als Fehlerursache zu erkennen, fällt echt schwer!

Schließlich kann es auch den Effekt geben, dass die Systeme zur Fehlererkennung selber einen Fehler haben und dort Fehler erkennen, wo gar keine sind. Die eigentlichen Server laufen also alle tadellos, doch wegen des erkannten Fehlers werden sie regelmäßig neu gestartet oder gar komplett abgeschaltet. Die Admins haben dann kaum eine Chance, vernünftig zu arbeiten, um den Fehler zu analysieren. Jedes System, das sie hochholen, wird binnen Minuten ja wieder gestoppt.

Bitte Klartext!

Es ist also normal, dass es in IT-Systemen zu gravierenden Fehlern kommt, und dass diese nicht automatisch durch die Umschaltung auf ein Ersatzsystem behoben werden. Irgendwann schrillen bei den Admins dann die Alarmglocken, dass es schwere Ausfälle gibt, und die hektische Phase der Fehleranalyse und -behebung beginnt. Je nachdem, wie viel kaputt ist, und wie schnell man den Fehler findet, kann das Minuten, Stunden oder gar Tage dauern. Letzteres kommt zumindest bei einem gut eingespielten Admin-Team und ausreichend vorgehaltener Reserve-Hardware nur bei Großereignissen (Brand, Überflutung, Überspannung etc.) vor.

Fehler passieren und die Fehlerbehebung dauert mal länger, mal kürzer. Genau deswegen haben die Nutzer ein Recht darauf, zu erfahren, was los ist. Beim Netzausfall von Vodafone letzten Mittwoch war jedoch die Kommunikation des Anbieters, nun ja, freundlich gesagt, stark verbesserungsfähig. So war die Rede davon, dass "eine Datenbank" ausgefallen sei und das Netz mit "95 Prozent Kapazität" liefe. 400 000 Kunden seien betroffen.

Nun habe ich so meine Probleme, die Zahl von 400 000 betroffenen Kunden zu glauben, wenn allein die Meldung zu dem Vodafone-Ausfall auf teltarif.de über 100 000 mal angeklickt wurde - überwiegend übrigens von Usern, die auf Google gezielt nach einschlägigen Begriffen wie "Vodafone Störung" suchten. Zum einen merkt nicht mal jeder, dessen Handy für ein paar Stunden streikt, überhaupt davon, geschweige denn sucht dann jeder gezielt im Internet nach dem Grund. Zum anderen war teltarif.de ja definitiv nicht das einzige Medium, das über die Störung berichtete. Und schließlich war auch die Ausfallrate der Vodafone-SIM-Karten in der Redaktion vielfach höher, als nach der von Vodafone anfangs gemeldeten und am nächsten Tag noch einmal bestätigten Ausfallrate zu erwarten gewesen wäre. 400 000 von 30 Millionen Kunden entspricht einer Rate von 1 : 75. Nach letzterer hätten wir Glück (bzw. Pech) haben müssen, überhaupt einen Ausfall in der Redaktion zu haben. Es waren aber gleich mehrere.

Auch bei der Prognose der voraussichtlichen Ausfallzeit stapelte Vodafone tief: Anfangs war von "etwa zwei bis vier Stunden" die Rede. Am nächsten Tag musste Vodafone dann zugeben, dass sie in dieser Zeit nur einen Teil des Schadens beheben konnten. Bis alles wieder richtig lief, dauerte es über zehn Stunden. Immerhin hat Vodafone die längere Ausfalldauer bestätigt, bleibt aber bei der - m. E. unrealistisch niedrigen - Zahl von 400 000 betroffenen Kunden.

Hier sollten die Netzbetreiber dazu lernen. Statt in der Störungsmeldung über Zahlen zu spekulieren, die man noch gar nicht kennt, wie die Dauer bis zur Wiederherstellung des Dienstes oder die Zahl der betroffenen Kunden, ist es m. E. besser, genauere Auskunft über den Prozess der Fehlerbehebung zu geben: Wann wurde der Fehler erkannt? Wie viele Techniker arbeiten an der Behebung? Was haben die Techniker schon über die Ursachen des Problems herausfinden können? Dann kommt man nicht in die Bredouille, falsche Informationen verteilen zu müssen.

Warum es zum Ausfall bei Vodafone kam, lesen Sie in einem separaten Artikel. In einer weiteren Meldung haben wir mit einem Rechtsanwalt darüber gesprochen, ob der Kunde nach der Mobilfunk-Störung ein Recht auf Schadenersatz hat.

Teilen

Weitere Editorials