Bildquelle: Pexels / Tima Miroshnichenko / https://www.pexels.com/photo/call-center-employees-talking-to-each-other-5455007/
Major-Incident-Kommunikation im IT Service Management: Fünf Regeln, damit Service Desk, Statuspage und Fachbereiche nicht gegeneinander arbeiten
Viele Major Incidents scheitern kommunikativ früher als technisch. Das Infrastrukturteam untersucht bereits Logs, ein Applikationsteam arbeitet am Rollback, der Service Desk bekommt parallel immer neue Rückfragen und auf der Statuspage steht noch nichts. Für Anwender wirkt das nicht wie kontrollierte Störungsbearbeitung, sondern wie Orientierungslosigkeit. Genau das untergräbt Vertrauen, verlängert Eskalationen und treibt das Ticketaufkommen hoch.
Im IT Service Management ist Incident-Kommunikation deshalb kein Begleitthema, sondern Teil der Servicewiederherstellung. Google beschreibt gute Incident Response ausdrücklich als Zusammenspiel aus Koordination, Kommunikation und Kontrolle. PagerDuty formuliert ähnlich klar, dass ein Major Incident mit definierten Rollen, festen Kommunikationswegen und verlässlichen Updates geführt werden muss. Übersetzt in den ITSM-Alltag heißt das: Wer den Betrieb stabilisieren will, muss nicht nur das technische Problem lösen, sondern gleichzeitig die Informationslage für Nutzer, Fachbereiche, Management und Service Desk führen.
Was dafür in der Praxis sitzen muss, zeigen fünf Regeln.
1. Major Incidents früh erklären und über klare Severity-Kriterien auslösen
Der erste Kommunikationsfehler entsteht oft ganz am Anfang. Teams diskutieren zu lange, ob ein Vorfall wirklich schon ein Major Incident ist. In dieser Zeit fehlen Incident-Bridge, Statuskanal, Rollen und abgestimmte Meldungen. Das Resultat ist bekannt: einzelne Teams arbeiten, aber niemand steuert die Gesamtlage.
Google empfiehlt deshalb, Incidents früh und strukturiert zu deklarieren. PagerDuty geht noch einen Schritt weiter und rät bei Unsicherheit ausdrücklich dazu, zunächst vom höheren Schweregrad auszugehen. Für ITSM-Organisationen ist das ein wichtiger Punkt. Ein Major Incident sollte nicht erst dann beginnen, wenn die Ursache bekannt ist. Er beginnt dann, wenn Auswirkung, Eskalationsbedarf oder Koordinationsaufwand ein geordnetes Incident-Regime verlangen.
Praktisch bedeutet das: Severity-Stufen müssen vorab an messbaren Kriterien hängen. Dazu gehören betroffene Services, Nutzeranteil, Geschäftsprozessbezug, Dauer, Regionen, regulatorische Relevanz und die Frage, ob mehrere Teams oder Provider koordiniert werden müssen. Zusätzlich sollte definiert sein, wann auch ein formal niedrigerer Schweregrad in den Major-Incident-Modus wechselt, etwa wenn viele Stakeholder betroffen sind oder die Lage öffentlich sichtbar wird. Wer diese Schwellen nicht sauber klärt, verliert die ersten 20 Minuten fast immer in Diskussionen statt in Führung.
2. Technische Analyse und Kommunikation organisatorisch trennen
Ein zweiter Klassiker ist die Überladung der technisch stärksten Person. Sie soll gleichzeitig Fehler eingrenzen, Entscheidungen moderieren, Stakeholder beruhigen und Statusmeldungen freigeben. Das funktioniert in komplexen Störungen selten gut. Google arbeitet deshalb mit klaren Rollen wie Incident Commander, Communications Lead und Operations Lead. Auch PagerDuty beschreibt den Incident Commander als zentrale Steuerungsrolle und nicht als primären Resolver.
Für klassisches ITSM heißt das: Eine Person führt die Lage, eine oder mehrere Personen lösen das technische Problem, und eine Kommunikationsrolle synchronisiert Statuspage, interne Stakeholder und Service Desk. Gerade der Service Desk darf dabei nicht nur Verteiler sein. Er braucht früh eine explizite Anbindung an die Incident-Führung, weil dort der Nutzerdruck, das reale Störungsbild und die Rückfragen aus den Fachbereichen zuerst sichtbar werden.
Bewährt hat sich eine einfache Struktur: Incident Lead für Entscheidungen und Priorisierung, Technical Lead für Analyse und Maßnahmen, Communications Lead für Statusmeldungen und Stakeholder-Taktung, dazu eine dokumentierende Rolle für Timeline und offene Punkte. Diese Trennung reduziert Chaos spürbar. Vor allem verhindert sie, dass technische Experten aus ihrem Arbeitsmodus gerissen werden, sobald das Management ein Update oder der Service Desk eine Sprachregelung braucht.
3. Die erste Nutzermeldung muss schnell raus, auch wenn die Ursache noch unklar ist
Viele Organisationen veröffentlichen zu spät, weil sie zunächst „etwas Belastbares“ sagen wollen. Genau das ist riskant. Nutzer merken Ausfälle oft vor der offiziellen Kommunikation. Wenn dann Statuspage, Hotline und Fachbereichsverteiler schweigen, entsteht der Eindruck, der Anbieter habe die Lage noch nicht einmal erkannt.
PagerDuty empfiehlt für öffentliche Kommunikation eine erste Meldung innerhalb von fünf Minuten nach Start des Incident Calls. Diese erste Meldung muss nicht alle Details kennen. Ihr Zweck ist ein anderer: sichtbar machen, dass der Vorfall erkannt ist und untersucht wird. Kurz darauf sollte eine zweite Meldung den bekannten Scope ergänzen, also betroffene Funktionen, Regionen oder Kundengruppen.
Für ITSM-Teams ist das operativ sehr gut umsetzbar. Es braucht vorformulierte Textbausteine für „Untersuchung läuft“, „Beeinträchtigung eingegrenzt“, „Workaround verfügbar“, „Recovery läuft“ und „vollständig behoben“. Wichtig ist, dass diese Meldungen nicht nur extern gedacht sind. Dieselbe Sprachregelung muss auch in Service-Desk-Skripten, Major-Incident-Channels und Management-Updates ankommen. Sonst liest der Kunde auf der Statuspage etwas anderes als er am Telefon hört.
4. Updates brauchen einen festen Takt und einen gemeinsamen Inhalt
Nach der Erstmeldung kippen viele Vorfälle in das nächste Muster: hektische Einzelupdates ohne Rhythmus. Ein Team postet etwas in Chat, der Service Desk verschickt ein Ad-hoc-Statement, das Management fragt nach zehn Minuten erneut und auf der Statuspage bleibt der Stand veraltet. Technisch mag Fortschritt da sein, kommunikativ entsteht trotzdem Unsicherheit.
Google betont, dass gute Incident Response nutzerzentriert ist. Nutzer wollen nicht jede interne Hypothese kennen, aber sie brauchen verlässliche Orientierung. PagerDuty empfiehlt in den ersten zwei Stunden mindestens alle 20 Minuten ein Update und fordert, dass jede Meldung den aktuellen Impact, Änderungen im Scope, Hinweise auf Recovery und den Zeitpunkt des nächsten Updates enthält.
Genau daraus sollte im ITSM ein verbindlicher Kommunikations-Takt entstehen. Jeder Major Incident braucht einen Update-Rhythmus, der sofort am Anfang festgelegt wird. Zu jedem Takt gehören vier Pflichtfelder: Was ist betroffen? Wie stark ist die Auswirkung? Was wird gerade getan? Wann kommt das nächste Update? Wenn noch kein neuer Sachstand vorliegt, ist auch das eine legitime Information, solange der nächste Zeitpunkt klar genannt wird. Diese Disziplin entlastet den Service Desk erheblich, weil aus vielen Einzelrückfragen ein erwartbarer Kommunikationsprozess wird.
Wichtig ist außerdem die Kanalharmonisierung. Statuspage, interner Incident-Channel, Service-Desk-Briefing und Management-Zusammenfassung dürfen sich nicht widersprechen. Nicht jeder Kanal braucht dieselbe Detailtiefe, aber alle müssen denselben Lagekern transportieren. Sonst produziert die Organisation ihre Eskalation selbst.
5. Kommunikation endet erst nach bestätigter Vollerholung und dokumentiertem Nachlauf
Der letzte Fehler passiert am Ende. Ein technischer Fix ist eingespielt, Monitoring wird grün und irgendwo fällt das Wort „resolved“. Für Nutzer oder Fachbereiche ist die Störung damit aber nicht automatisch vorbei. Es können noch Rückstände, manuelle Nacharbeiten, Datenkorrekturen oder Anmeldeprobleme bestehen. Wenn die Kommunikation zu früh endet, beginnen unnötige Zweit-Eskalationen.
PagerDuty empfiehlt, die Abschlussmeldung erst dann zu veröffentlichen, wenn die vollständige Recovery bestätigt ist. Dazu gehören auch Hinweise auf mögliche Restfolgen. Google wiederum macht deutlich, dass Incident Management nur dann wirksam ist, wenn aus dem Vorfall gelernt und die Dokumentation sauber weitergeführt wird.
Im ITSM heißt das konkret: Vor der Abschlussmeldung müssen Incident Lead und Service Owner gemeinsam bestätigen, dass der Service aus Nutzersicht wieder stabil ist. Falls Nacharbeiten laufen, gehören sie sichtbar benannt. Danach endet die Kommunikationsarbeit nicht im Nichts. Die finalen Meldungen, die Timeline, die FAQ für den Service Desk und offene Kundenfragen müssen in Post-Incident-Review, Problem Management und Wissensdatenbank zurückfließen. Erst dann sinkt die Wahrscheinlichkeit, dass dieselben Rückfragen und Missverständnisse beim nächsten Vorfall wieder auftreten.
Fazit
Major-Incident-Kommunikation ist kein PR-Anhang des Betriebs, sondern eine Führungsdisziplin im IT Service Management. Wer früh auslöst, klare Rollen setzt, die erste Meldung nicht auf perfekte Ursachenanalyse verschiebt, verlässlich taktet und die Kommunikation sauber bis zur bestätigten Recovery durchzieht, reduziert nicht nur Frust. Er verkürzt Eskalationsschleifen, entlastet den Service Desk und macht den Betrieb aus Nutzersicht kontrollierbar.
Technische Exzellenz allein reicht in Major Incidents nicht. Entscheidend ist, ob die Organisation unter Druck ein gemeinsames Bild der Lage hält. Genau daran erkennt man reifes Service Management.
Quellen
- Google SRE: Incident Management Guide
- Google SRE Workbook: Incident Response
- Google SRE Book: Emergency Response
- PagerDuty Incident Response Documentation: About
- PagerDuty Incident Response Documentation: Severity Levels
- PagerDuty Incident Response Documentation: Different Roles
- PagerDuty Incident Response Documentation: Call Etiquette
- PagerDuty Incident Response Documentation: During an Incident
- PagerDuty Incident Response Documentation: External Communication Guidelines
