Betriebspakete werden zur Pflicht für unsere Notfall-Dienstleistungen

Unsere Leistungen rund um den Betrieb von Atlassian-Software wie Jira, Confluence, Bitbucket und Co. sind so beliebt und nachgefragt, dass wir uns dazu entschieden haben, unsere Notfall-Arbeiten nur noch Kunden anzubieten, die ein Betriebspaket bei uns abgeschlossen haben.

Dazu geführt hat eine Kombination aus sehr guten Erfahrungen mit einem standardisierten Betriebskonzept und routinierten Abläufen für unsere Systemadministratoren sowie einigen ziemlich ungünstigen Erfahrungen in Fällen, in denen der Betrieb vermeintlich von der IT des Kunden selbst oder von Externen übernommen wurde.

Aus den Geschichten vom Scheitern lernt man am meisten

Am schönsten (weil am lehrreichsten) sind Geschichten ja, wenn die Dinge richtig schiefgehen und alles in die Luft fliegt. Wir wollen also nicht damit prahlen, wie wir hunderte von Systemen  mit Sicherheits-Patches ausstatten und die Automatisierung Fehler schon erkennt, während der Kunde vom eigentlichen Problem noch gar nichts bemerkt hat. Angeber würden berichten, dass die Ansprechpartner voll des Lobes sind und immer mehr Kunden ihre Systeme einem solchen Hosting-Management unterstellen.

Nein, krachen und knirschen muss es! Eskalationen! Schimpfende Admins, rauchende Köpfe und frustrierte Kunden! Können wir alles bieten. Hier sind ein paar Beispiele:

Bei einem unserer Kunden gab es zwei Mitarbeiter, die den Atlassian-Serverbetrieb von Linchpin für über 10.000 Anwender übernommen hatten. Solche Systemkönner sind ja ziemlich gefragt am Markt. Und ehe der Kunde genauer darüber nachgedacht hatte, war keiner mehr da, der die Server kannte, geschweige denn irgendwelche Wartungen vornehmen konnte. Da reicht dann schon eine Festplatte, die voll läuft, und der Geschäftsführer sieht sich tausenden aufgebrachten Nutzern gegenüber. "In solchen Momenten versteht man, warum manche die Cloud so lieben", habe ich dann gehört. "Da kümmern sich einfach andere um solche Details."

Man möchte ja eigentlich meinen, dass mit dem Ausfall eines Systems der GAU schon eingetreten sei. Immerhin können die Anwender das System nicht mehr nutzen. Aber natürlich haben wir auch schon mit Kunden versucht, Daten zu rekonstruieren und sozusagen mit der Pinzette die einzelnen Confluence-Seiten samt Anhängen in die aktuelle Version zu zupfen.

Besonders unangenehm fand ich einen Fall, in dem das System down war und wir trotzdem nicht helfen konnten, weil der RSA-Token des Unternehmens bewusst abgelaufen war. Die externalisierte IT sah sich aber nicht in der Lage, sich früher als in acht Tagen um den Token zu kümmern, sodass dieses System so lange down bleiben musste!

Da versucht man jahrelang wie eine Gebetsmühle, die Zusammenarbeits-Software anzupreisen, einzureiben, vorzuleben und mit PR-Stunts Aufmerksamkeit zu bekommen. So eine Downtime von einer Woche wirkt viel schneller und nachhaltiger - allerdings in die entgegengesetzte Richtung. In diesem Fall hat sich niemand darüber gefreut.

Notfall-Support nur noch mit Betriebspaket

Ich habe ja jetzt schon Einiges über Storytelling gelesen. Aber wir wollen solche Stories nicht mehr begleiten. Wenn so etwas passiert, stirbt nicht nur ein Seemann, sondern es leben auf einmal wieder Word, PowerPoint, Excel, Meetings wieder auf - und ja, auch die verhasste E-Mail kehrt zurück. Kann das irgend jemand gebrauchen?! Keiner!

Deshalb muss jetzt Zwang her. Diese Formulierung ist natürlich salopp, aber sie steht für eine ernste Sache: Wir helfen in Notfällen nur noch, wenn wir einen Betriebsvertrag haben oder bekommen.

Einer unserer Unternehmenswerte lautet: "Wir setzen uns gerne den Hut auf!" (Oder in der englischen Version: "We love to be in charge!") Das geht aber nur, wenn wir grundlegende Dinge gewährleisten können.

In der Vergangenheit haben wir immer wieder hier und da Ausnahmen gemacht. "Ja, klar, WebEx geht auch", dachten wir. Aber dann war beim Kunden halt abends um 18 Uhr Schicht im Schacht und wir mussten bis morgens um 8 Uhr warten, um weiter zu arbeiten zu können. "Echt jetzt? Ihr geht nach Hause?" - “Klar. Feierabend. So wichtig ist das auch nicht. Das kann warten." - "Äh, aber wir müssen doch das System wieder zum Laufen kriegen. Morgen brauchen das doch wieder hunderte von Teams bei euch. Das wird euch tausende von Euro kosten. Oder noch mehr!" - "Jaja, bis morgen."

Es geht mir nicht darum, Kunden in die Pfanne zu hauen. Ich verstehe die Mitarbeiter auch. Und ich weiß auch, dass es in großen Unternehmen manchmal frustrierend ist. Aber da machen wir jetzt nicht mehr mit. Der beste Weg besteht darin, direkt eine professionelle Grundlage zu schaffen, auf deren Basis wir sinnvoll arbeiten können. Nein, das ist noch nicht klar genug: Wir machen nur noch dann mit, wenn die grundlegenden Anforderungen für einen professionellen Betrieb gegeben sind.

Zwei wichtige Voraussetzungen für wirksame Unterstützung

Da will ich auch nicht um den heißen Brei herum reden. Das ist die Essenz:

  • Unsere Experten kommen sicher, zuverlässig und uneingeschränkt auf Ihre Systeme. Oder es wird direkt von uns gehostet. Das ermöglicht uns auch ein professionelles Monitoring. Denn nur damit greifen unsere Automationen, unsere Frühwarnfunktionen und die anderen Dinge, die wir brauchen, damit unser Arbeitstag geregelt abläuft und nicht ständig Notfälle entstehen.
  • Und das hier: "Der Auftraggeber erhält keinen Root-Zugang zum System, sondern einen Linux-Benutzer mit eingeschränkten Administrationsrechten. Für Notfälle steht ein dokumentierter Weg zum Erhalt vollumfänglicher Root-Rechte für den Auftraggeber zur Verfügung."

Es gibt natürlich noch mehr und wer möchte, kann Details auf der Infoseite zu unseren Betriebspaketen für Atlassian-Produkte nachlesen. Aber das sind vermutlich die zwei wichtigsten Dinge.

Systematisches Monitoring als Teil unserer Atlassian-Betriebssysteme: Systemmetriken werden teils alle zehn Sekunden abgefragt, damit der zeitlichen Verlauf und die Entwicklung der entsprechenden Werte bei der Problemlösung verfügbar sind. So sieht eine exemplarische Ansicht der zusammenlaufenden Daten aus.

Und ja, wir meinen das bierernst. Keine Ausnahmen mehr. Bei Härtefällen orientieren wir uns am Vorgehen des ADAC. Wer keinen Betriebsvertrag hat, kann spontan einen abschließen. Voraussetzung ist allerdings, dass wir Kapazitäten frei haben, um das abzuwickeln. Und in vielen Unternehmen ist so ein Notfallauftrag spontan auch nicht leicht und schmerzfrei umsetzbar. Aufträge dauern manchmal halt länger, als kaputte Systeme warten sollten. Deshalb bauen Sie bitte gemeinsam mit uns vor.

Wir wollen wirklich Verantwortung übernehmen können und wirksam helfen. Dazu gehören heute Automatisierung, schnelle Problemlösungen und routinierte Abläufe. Diese gewährleisten wir künftig für alle Kunden auf einem einheitlich hohen Niveau. Experimente und Stories über abrauchende oder gar lichterloh brennende Serversystem-Landschaften dürfen gern andere schreiben.

Dieser Blog-Artikel ist der Start einer umfassenderen Info-Kampagne für unsere Kunden. Ich bin ziemlich sicher und erlebe auch schon, dass es richtig ist, es auf diese Weise zu machen. Aber wir lernen täglich dazu. Wenn Sie Fragen oder Bedenken haben, können Sie sich jederzeit bei mir melden. Darauf freue ich mich!

Weitere Infos

Details zu unseren Betriebspaketen für Atlassian-Produkte
Transparenz und Vorbeugung vor bösen Überraschungen: Betriebspakete für Atlassian-Anwendungen mit Monitoring
Der frustrierte Sohn – eine Geschichte von Datenverlust und Backup-Konzepten für Atlassian-Produkte
Linchpin-Betriebspaket: Vollumfängliche technische Betreuung Ihrer Linchpin-Instanz