Notfallübungen machen IT-Ausfälle vor dem Ernstfall sichtbar

Ein IT-Notfallplan sieht auf Papier oft vollständig aus. Rollen sind benannt, Kontaktwege stehen in Tabellen, Wiederanlaufzeiten sind definiert und für kritische Services gibt es Abläufe. Der echte Wert zeigt sich aber erst, wenn Menschen unter Zeitdruck damit arbeiten müssen. Eine Notfallübung macht sichtbar, ob der Betrieb wirklich handeln kann oder ob der Plan nur als Dokument existiert.

Kurz gesagt Eine IT-Notfallübung ist ein geplanter Test für Ausfälle, Sicherheitsvorfälle oder andere Betriebsstörungen. Dabei wird nicht nur Technik geprüft, sondern auch Kommunikation, Zuständigkeit, Entscheidungsgeschwindigkeit und Übergabe zwischen Teams. Für ITSM-Generalisten ist das wichtig, weil Services im Ernstfall nicht durch gute Absichten stabil bleiben. Sie brauchen geübte Wege, klare Rollen und überprüfte Alternativen.

Der Unterschied klingt klein, ist aber im Betrieb entscheidend. Ein Backup kann vorhanden sein und trotzdem nicht rechtzeitig wiederhergestellt werden. Ein Krisenchat kann eingerichtet sein und trotzdem ohne Einsatzleitung laufen. Ein Lieferantenkontakt kann dokumentiert sein und trotzdem außerhalb der Arbeitszeit ins Leere führen. Übungen holen solche Lücken aus der Theorie in eine überprüfbare Situation.

Der erste Nutzen liegt nicht im Bestehen

Eine gute Übung ist kein Theaterstück mit garantiertem Erfolg. Sie soll zeigen, wo der Plan bricht, bevor der echte Ausfall teuer wird. Deshalb ist es kein schlechtes Ergebnis, wenn Teilnehmende Rückfragen haben, Telefonnummern fehlen, Freigaben unklar sind oder niemand weiß, wer die nächste Entscheidung trifft. Genau diese Punkte wären im Ernstfall sichtbar geworden, nur unter höherem Druck.

IT-Management und Serviceverantwortliche sollten Übungen daher nicht als Audit-Show behandeln. Hilfreicher ist ein Arbeitsmodus: Was passiert in Minute 5, 15, 30 und 60? Wer erkennt, dass aus einer technischen Störung ein Serviceausfall wird? Wer informiert den Service Desk? Wer entscheidet über eine Umleitung, einen Rollback oder eine öffentliche Statusmeldung? Solche Fragen verbinden Technik, Prozess und Verantwortung.

Ein Szenario muss den Service treffen

Zu abstrakte Übungen liefern wenig Erkenntnis. Ein Satz wie „Rechenzentrum nicht verfügbar“ klingt dramatisch, sagt aber noch nicht, welche Nutzer, Fachbereiche und Services betroffen sind. Besser ist ein konkretes Szenario. Zum Beispiel: Der Identitätsdienst ist instabil, Nutzer können sich nur teilweise anmelden, der Service Desk bekommt widersprüchliche Meldungen, der externe Anbieter reagiert verzögert und ein Fachbereich muss entscheiden, ob ein manueller Ausweichprozess startet.

Damit wird die Übung greifbar. Der Service Desk muss Meldungen einordnen. Das technische Team muss Diagnose und Rückfalloptionen erklären. Der Service Owner muss Auswirkungen bewerten. Kommunikation muss sagen, was Nutzer wissen müssen. Management muss entscheiden, ob Risiken akzeptiert oder Eingriffe gestoppt werden. So entsteht ein Bild davon, ob der Betrieb als System funktioniert.

Dokumente brauchen einen Praxistest

NIST beschreibt Notfallplanung für Informationssysteme als Verbindung aus Vorbereitung, Reaktion, Wiederherstellung und regelmäßiger Prüfung. CISA stellt Tabletop-Übungen bereit, damit Organisationen Vorfälle in einer kontrollierten Umgebung durchspielen können. Für ITSM heißt das praktisch: Pläne werden erst belastbar, wenn sie wiederholt gegen reale Abläufe geprüft werden.

Ein guter Prüfpunkt ist die Übergabe zwischen Rollen. Kommt der Service Desk schnell genug an verständliche Lageinformationen? Weiß das Infrastrukturteam, welche Business-Folgen gerade zählen? Hat der Service Owner die Befugnis, Prioritäten zu setzen? Darf Kommunikation bereits informieren oder braucht sie erst eine Freigabe? Solche Übergaben entscheiden oft stärker über die Ausfalldauer als die technische Diagnose allein.

Messbar wird, was im Alltag oft unscharf bleibt

Nach einer Übung sollten nicht nur Eindrücke gesammelt werden. Sinnvoll sind klare Beobachtungen. Wann wurde der Vorfall erkannt? Wann war der richtige Kreis informiert? Welche Information fehlte zuerst? Welche Entscheidung dauerte länger als erwartet? Welche Kontaktwege funktionierten nicht? Welche Rückfalloption war bekannt, aber nicht ausführbar? Dadurch entsteht ein Verbesserungsplan, der mehr ist als ein allgemeines „wir müssen besser kommunizieren“.

Auch Kennzahlen brauchen Kontext. Eine schnelle Erstmeldung hilft wenig, wenn sie die falschen Empfänger erreicht. Ein vorhandener Wiederanlaufplan hilft wenig, wenn niemand ihn auslösen darf. Eine Statusseite hilft wenig, wenn der Text erst nach 45 Minuten freigegeben wird. Übungen zeigen deshalb nicht nur Geschwindigkeit, sondern Reife der Zusammenarbeit.

Der Servicekatalog wird zur Landkarte

Für ITSM ist der Servicekatalog ein besonders nützlicher Anker. Er zeigt, welche Services für Nutzer sichtbar sind, welche technischen Komponenten darunter liegen und wer verantwortlich ist. In einer Notfallübung sollte daher nicht nur ein Systemname auftauchen. Das Szenario muss den betroffenen Service, die Nutzergruppe, Abhängigkeiten, Kommunikationswege und mögliche Ausweichwege benennen.

So wird aus einem technischen Test eine Betriebsprobe. Der Betrieb erkennt, welche Services keine klare Vertretung haben, welche Abhängigkeiten zu grob dokumentiert sind und welche Wiederanlaufziele nicht zu den echten Arbeitsfolgen passen. Gerade in verteilten IT-Landschaften mit Cloud-Diensten, SaaS-Anwendungen und externen Partnern ist diese Sicht wichtiger als eine reine Komponentenliste.

Was nach der Übung passieren muss

Der wichtigste Teil beginnt nach dem Szenario. Jede Beobachtung braucht eine verantwortliche Person, eine konkrete Änderung und einen Nachtest. Sonst bleibt die Übung ein Ereignis ohne Wirkung. Kontaktlisten müssen aktualisiert, Vorlagen angepasst, Eskalationspunkte geschärft und Entscheidungsrechte geklärt werden. Kleine Korrekturen sind dabei oft wertvoller als große Programme, wenn sie wirklich umgesetzt werden.

Wichtig ist auch die Wiederholung. Einmalige Übungen altern schnell. Teams wechseln, Anbieter ändern Portale, Anwendungen bekommen neue Abhängigkeiten und Kommunikationskanäle verändern sich. Wer nur jährlich ein großes Szenario spielt, übersieht laufende Drift. Besser sind kleinere, regelmäßige Übungen für kritische Services, ergänzt durch größere bereichsübergreifende Tests.

Fazit

Notfallübungen sind kein Zusatz für besonders vorsichtige Organisationen. Sie sind ein Realitätscheck für Serviceverantwortung. Der Betrieb sieht vor dem Ernstfall, ob Rollen, Kontaktwege, Wiederanlaufpläne und Kommunikationswege wirklich greifen. Der Nutzen liegt nicht darin, Fehler zu verstecken, sondern sie früh genug sichtbar zu machen. Wer Übungen ernst nimmt, macht IT-Ausfälle nicht unmöglich. Aber er verkürzt die Zeit, in der Unsicherheit den Betrieb führt.

Quellen und Einordnung Geprüft wurden NIST SP 800-34 Revision 1 zur Notfallplanung für Informationssysteme, CISA-Material zu Tabletop-Übungen, CISA-Grundlagen zu Cybersecurity Incident Response und Atlassian zur Incident-Response-Praxis. Stand der Quellenprüfung: 20.06.2026.

ITSM.NEWS - Redaktion

Administrator

Alle Beiträge anzeigen

Verwandte Geschichten

KI-Werkzeuge dürfen nicht überall selbst zugreifen

Der Service-Desk-Chatbot darf den Menschen nicht zu spät rufen

Wie sicher bleibt der Login ohne Passwort bei verlorenen Geräten?