Atlassian-Cloud-Störung vom April 2022 – die Reaktionen, die Learnings und die künftigen Maßnahmen

Sie kennen bestimmt Murphys Gesetz. Es besagt, dass die Dinge, die schiefgehen können, auch schiefgehen werden. Und davor sind selbst erfahrene Größen der IT-Branche nicht gefeit, denn keine Software und keine IT-Infrastruktur ist fehlerfrei und auch menschliches Versagen ist natürlich nie auszuschließen. Im vergangenen April haben Atlassian und einige Kunden leidvoll erfahren, wie es ist, wenn Murphys Gesetz in der Realität ohne Gnade wirkt.

Ein Ausfall von 883 Cloud-Instanzen

Am 5. April 2022 ist es zu einem Ausfall von Atlassian-Cloud-Produkten gekommen, von dem insgesamt 775 Kunden betroffen waren. Diese hatten unvermittelt keinen Zugriff mehr auf ihre Systeme und Daten. Die Ursache für diese Störung war die Ausführung eines fehlerhaften Skripts im Rahmen einer Wartungsmaßnahme durch Atlassian mit der Folge, dass 883 Instanzen gelöscht wurden.

In der Folge formierte Atlassian innerhalb kürzester Zeit ein globales Incident-Team, das rund um die Uhr an der Wiederherstellung der Systeme und der individuellen Kommunikation mit den betroffenen Kunden arbeitete. Bis zum 17. April konnten die letzten Instanzen wiederhergestellt und validiert werden.

Atlassian betont, dass im Zusammenhang mit dem Vorfall zu keinem Zeitpunkt Daten nach außen gelangt sind und unautorisierten Zugriffen ausgesetzt waren.

Wenn Sie sich für die prozessualen und technischen Details des Incident-Management- und Recovery-Prozesses interessieren, lohnt sich ein Blick in das umfangreiche Post-Incident Review von Atlassian. Dort finden Sie sehr ausführliche Informationen zur Ursache der Störung und zu den getroffenen Maßnahmen.

Atlassian Status Page

Die Statusseite der Atlassian-Cloud-Produkte: Hier ist längst wieder alles im grünen Bereich, doch im April wurden Störungen indiziert.

Der Umgang mit den Kunden

Sicherlich war dieser Vorfall für die betroffenen Kunden eine ärgerliche und schwerwiegende Episode. Die Atlassian-Tools mit ihren Daten sind für viele Unternehmen wichtige, geschäftskritische Systeme. Dementsprechend ist eine vorübergehende Nichtverfügbarkeit eine schwere Beeinträchtigung der Zusammenarbeit ihrer Teams.

Doch wie erwähnt: Keine Infrastruktur ist vor Problemen jedweder Art gefeit und im komplexen Umfeld der IT-Dienstleistungen lässt sich nicht jede Herausforderung und jeder Fehler vorhersehen.

Entscheidend ist, wie ein Anbieter im Fall der Fälle damit umgeht. Die von uns betreuten Kunden berichten, dass Atlassian sehr individuell, schnell, offen und gut kommuniziert hat. Auch das Entgegenkommen seitens des Herstellers als Kompensation für die vom Vorfall beeinträchtigten Kunden wird als angemessen  empfunden.

Konsequenzen aus den Erfahrungen

Atlassian hat aus dem April-Outage viel gelernt und angekündigt, diese Learnings und Erfahrungen schnell in konkrete Maßnahmen zu übersetzen:

  • Implementierung sogenannter Soft Deletes. Auf diese Weise will Atlassian mehrere zusätzliche Schutzebenen einziehen, die Fehler verhindern. Dadurch wird eine Löschung von Daten und Instanzen wie im April nicht mehr möglich sein.
  • Beschleunigung des Disaster-Recovery-Programms. Vorgesehen ist eine Automatisierung für die Wiederherstellung von Instanzen und Produkten bei Vorfällen ähnlicher Art.
  • Revision des Incident-Management-Prozesses für großskalige Vorfälle. Hierzu gehören die Optimierung des Standardvorgehens, die Etablierung von Simulationen und die Überarbeitung der Mitarbeitertrainings, um eine große Anzahl parallel arbeitender Teams in Zukunft noch besser koordinieren zu können.
  • Erstellung eines Playbooks für die Kommunikation in Störungsfällen. Atlassian will bei künftigen Ereignissen auf großer Skala schneller öffentlich Transparenz schaffen, bessere, valide Kontaktdaten von Ansprechpartnern auf Kundenseite pflegen und die Einstiegshürden für die Kontaktaufnahme mit dem technischen Support senken.

Diese Schritte sollen einen Beitrag dazu leisten, die Lösungen von Atlassian Cloud noch sicherer und zuverlässiger zu machen und in Zukunft ähnlich gelagerte Ausfälle zu vermeiden beziehungsweise im Fall einer tatsächlichen Störung noch effizienter zu reagieren.

Ihr Partner für Atlassian-Software

Haben Sie Fragen zu Atlassian Cloud und zur Migration von Confluence, Jira und Jira Service Management? Als Atlassian Platinum Solution Partner mit Erfahrungen aus tausenden Atlassian-Projekten helfen wir Ihnen gerne bei der Evaluation Ihres Projekts und beim Umzug Ihrer Bestandssysteme. Melden Sie sich bei uns!

Weiterführende Infos

Die Zukunft der Arbeit: verteilte Teams, unternehmensweite Kollaboration, IT-Skalierung trotz knapper Ressourcen
Fragen zur Cloud-Sicherheit, die Unternehmen stellen sollten
Wie Atlassian Cloud Premium Admin- und IT-Teams bei der Skalierung unterstützt
Wie Atlassian Data Center bei der Vermeidung von Downtimes hilft

Schreibe einen Kommentar