Incident-Management: Postmortem-Prozesse mit Jira Ops

Keine Software und keine Infrastruktur ist perfekt. Irgendwann ereilt ein größerer Vorfall jede Web-Anwendung, und die Problembehebung hat für die entsprechenden IT- oder DevOps-Teams natürlich höchste Priorität. Aber was ist, wenn der Vorfall gelöst ist und der Dienst wieder einwandfrei läuft? Nehmen die Teams sich die Zeit zu verstehen, was schiefgegangen ist und wie sich ein Wiederholungsfall vermeiden lässt?

Tatsächlich tun viele Teams es nicht. Die Gründe dafür sind vielfältig; oft spielen Zeit- und Ressourcenknappheit eine Rolle. Sogenannte Incident Postmortems werden nicht zu Ende gebracht oder bieten nur flüchtige Analysen der zugrundeliegenden Ursachen.

Der Verzicht auf angemessene Problemuntersuchungen und Tiefenreparaturen führt dazu, dass wiederholte Vorfälle in der Tech-Industrie ein gängiges Phänomen sind. Dabei haben viele Teams ja den ausdrücklichen Wunsch, ihr Incident-Management und ihre Postmortem-Prozesse zu verbessern und systematisch aus Vorfällen zu lernen. Hier unterstützt sie Jira Ops, das Funktionen für eine strukturierte Nachbereitung von Störfällen bietet.

Alle Postmortems an einer Stelle abbilden

Viele Teams bereiten ein Postmortem-Dokument vor, um die Einflussfaktoren hinter der Störung zu erfassen und zu diskutieren. Doch bekanntlich ist das Aufsetzen einer akkuraten Postmortem-Dokumentation eine recht aufwendige Sache, die, nachdem das Problem gelöst ist, leicht in den Hintergrund und dann in Vergessenheit geraten kann.

In Jira Ops wird das Team, nachdem es einen Vorfall behoben hat, direkt darauf hingewiesen, ein Postmortem-Dokument in Confluence zu erstellen. Dabei legt Jira Ops per Voreinstellung automatisch einen Bereich für Vorfälle sowie eine Elternseite an, um alle Postmortems an einem zentralen Ort zu sammeln.

Jira Ops

Die Postmortem-Vorlage deckt die Schlüsselbereiche ab, die sicherstellen, dass alle Aspekte einer Störung analysiert und verstanden werden:

  • Zusammenfassung: ein Überblick über den Vorfall inklusive der wichtigsten Details aus dem Jira-Ticket
  • Timeline: Schlüsselereignisse während des Vorfalls in der Jira-Ops-Timeline (siehe unten)
  • Analyse: deckte alle Stadien des Vorfalls ab – Vorfeld, Fehler, Kundenauswirkungen, Detektion, Reaktion, Wiederherstellung und Rekursion
  • Tiefenursachen: die zugrundeliegenden Ursachen des Vorfalls, die häufig mithilfe der Five Whys determiniert werden können
  • Lessons learned: identifizierte Dinge, die das Team beim nächsten Mal anders machen muss
  • Aktionen: Links zu abhelfenden Aufgaben in Jira, um die Tiefenursachen und Lessons learned aus dem Vorfall zu behandeln

Diese Sektionen können vom Team modifiziert und nach eigenen Anforderungen angepasst werden. Im Standard erfordert jeder Vorfall in Jira Ops ein Postmortem, um zu gewährleisten, dass die Teams nie einen „verpassen“ oder vergessen. Dabei ist es jedoch auf der Incident-Liste oder im Vorfall selbst möglich, das Postmortem zu überspringen – beispielsweise bei minderschweren Fällen.

Das Gesamtbild in der Incident-Timeline

Eine signifikante Zeitersparnis geht mit der Incident-Timeline einher, in der alle Schlüsselereignisse des Vorfalls in einer einzelnen chronologischen Liste gesammelt sind. Ohne eine solche Möglichkeit, während eines Vorfalls die richtigen Informationen aus den verschiedenen Tools einzusammeln, würden Teams Stunden brauchen, um so eine umfassende Zeitlinie Stück für Stück zusammenzupuzzeln.

Bei der Erstellung eines Postmortems mit Jira Ops wird die Incident-Timeline automatisch als Makro in die entsprechende Confluence-Seite eingefügt. Sie bietet exakte Zeitstempel für alle wichtigen Ereignisse im Verlauf des Vorfalls – beispielsweise Statusänderungen, wichtige Chat-Nachrichten, Opsgenie-Alarme, Kundenkommentare via Statuspage und manuelle Updates durch das Team.

Aktiv werden und aus jedem Vorfall lernen

Wenn das Team analysiert hat, was passiert ist, und ein klares Bild der Grundursachen besteht, ist es wichtig, dass die daraus folgenden Aufgaben zeitnah und systematisch erfasst und bearbeitet werden.

Auch hier nehmen die Atlassian-Tools dem Team viele Handgriffe ab. Nachdem das Postmortem in Confluence publiziert ist, lassen sich direkt von dieser Seite aus entsprechende Jira-Vorgänge erstellen. Diese Tickets sollte das Team anschließend im Backlog akkurat priorisieren und möglichst bald in den Abarbeitungsprozess mit einphasen.

Postmortems in Jira Ops im Überblick

Mit Postmortems in Jira Ops lassen sich manuelle, häufig vernachlässigte Aufgaben in einen klaren Prozess transferieren, der dabei hilft, aus jedem Vorfall zu lernen. Das folgende kurze Demovideo von Atlassian zeigt die Möglichkeiten und Vorteile noch einmal audiovisuell auf:

Weiterführende Infos

Aktuell befindet sich das neue Atlassian-Produkt Jira Ops in der Early-Access-Phase und ist bis zur Auslieferung der Version 1.0 kostenfrei. Für Anfang 2019 ist das Release einer Produktivversion angekündigt. Haben Sie Fragen zu Jira Ops? Dann melden Sie sich bei uns, wir beraten Sie gerne!

Atlassian Summit 2018: Jira Ops und weitere News aus der Produkt-Keynote
Produktinformationen bei Atlassian
Atlassian-Lizenzen bei //SEIBERT/MEDIA kaufen – alle Vorteile