Zum Inhalt springen

Services, Wiki-Artikel und Blog-Beiträge durchsuchen

↑↓NavigierenEnterÖffnenESCSchließen
Disaster Recovery Plan erstellen: Von Backups zur vollständigen - Datensicherung und Backup-Strategien
Incident Response

Disaster Recovery Plan: Von Backups zur Business Continuity

Disaster Recovery Plan: Business Impact Analysis, RTO/RPO, Backup-Strategien, DR-Tests und Failover-Architekturen für On-Premises und Cloud.

Oskar Braun Oskar Braun Abteilungsleiter Information Security Consulting
10 Min. Lesezeit
ISO 27001 Lead Auditor (IRCA) ISB (TÜV)

TL;DR

Ein Disaster Recovery Plan (DRP) definiert, wie IT-Systeme nach einem Ausfall wiederhergestellt werden. Er ergänzt den Business Continuity Plan (BCP), der den Geschäftsbetrieb im Allgemeinen sichert. Kern jedes DRP sind eine Business Impact Analysis mit RTO- und RPO-Definitionen pro System sowie eine Backup-Strategie nach der 3-2-1-1-0-Regel. Failover-Architekturen für On-Premises und Cloud, regelmäßige DR-Tests und klare Recovery-Schritte sind Pflicht. Relevante Normen sind BSI Standard 200-4 und ISO 22301.

Diese Zusammenfassung wurde KI-gestützt erstellt (EU AI Act Art. 50).

Inhaltsverzeichnis (6 Abschnitte)

65% aller kleinen Unternehmen die einen schwerwiegenden Datenverlust erleiden, schließen innerhalb von 2 Jahren. Die Ursache ist selten der Angriff selbst - es ist die fehlende Vorbereitung auf die Wiederherstellung. Ein Disaster Recovery Plan ist die Versicherung die greift wenn alles andere versagt.

Grundlagen: Was ist ein DR-Plan?

Begriffsabgrenzung

Business Continuity Plan (BCP): Der übergeordnete Plan der beschreibt wie das Geschäft weiterlaufen kann. Er umfasst Personal, Prozesse, Kommunikation und Ausweichstandorte. Die zentrale Frage: "Wie bleiben wir geschäftsfähig?"

Disaster Recovery Plan (DRP): IT-fokussiert: wie werden IT-Systeme wiederhergestellt? Er umfasst Backup-Verfahren, Recovery-Schritte und Systemprioritäten. Die zentrale Frage: "Wie bekommen wir die IT wieder zum Laufen?"

IT-Notfallmanagement verbindet BCP und DRP. Relevante Standards: BSI Standard 200-4 (Business Continuity Management) und ISO 22301 (BCM-Zertifizierung).

Typische Auslöser für DR

  • Ransomware-Angriff (häufigster Auslöser)
  • Hardware-Ausfall (Server, Storage, SAN)
  • Naturkatastrophen (Brand, Überschwemmung, Sturm)
  • Menschliches Versagen (versehentliches Löschen, Fehlkonfiguration)
  • Stromausfall über längeren Zeitraum
  • Lieferantenausfall (Cloud-Provider-Outage)

Business Impact Analysis (BIA)

Schritt 1: Kritische Systeme identifizieren

Für jedes System wird der Ausfall-Impact bewertet und RTO/RPO definiert:

SystemNutzerFinanzieller ImpactRTORPOPriorität
ERP-System (SAP)150 (alle Ops)50.000 EUR/Tag4 Stunden1 StundeKRITISCH
CRM (Salesforce)Vertrieb-24 Stunden4 StundenHOCH
Interne Wiki (Confluence)alle-72 Stunden24 StundenMITTEL
Archiv-Dokumentewenige-7 Tage24 StundenNIEDRIG

RPO und RTO verstehen

RPO = Recovery Point Objective - beantwortet die Frage: "Wie viel Datenverlust ist akzeptabel?"

RPOBedeutungTechnische AnforderungKosten
0Kein Datenverlust!Synchrone Replikationsehr hoch
1 StundeMax. 1h Daten verlierenStündliche Backupshoch
24 StundenMax. 1 Tag Daten verlierenTägliche Backupsmittel

RTO = Recovery Time Objective - beantwortet die Frage: "Wie lange darf das System ausfallen?"

RTOBedeutungTechnische AnforderungKosten
0Keine Ausfallzeit!Hot-Standby Redundanzsehr hoch
4 StundenInnerhalb 4h wiederhergestelltWarm Standbyhoch
24 StundenBis zu einem Tag AusfallBackup & Restoremittel

Goldene Regel: RPO und RTO von den Fachbereichen definieren lassen. IT entscheidet nicht was kritisch ist - das Geschäft entscheidet. IT kalkuliert die Kosten und das Business entscheidet die Prioritäten.

Backup-Strategie: Die 3-2-1-Regel und mehr

3-2-1-Regel (Mindeststandard)

  • 3 Kopien der Daten (Original + 2 Backups)
  • 2 verschiedene Medien (z.B. NAS + externe HDD oder Cloud)
  • 1 Kopie offsite (anderer Gebäudetrakt oder Cloud)

Erweiterung für die Ransomware-Ära - 3-2-1-1-0-Regel:

  • Plus 1 immutables/unveränderliches Backup (Ransomware kann es nicht löschen)
  • Plus 0 Fehler bei Wiederherstellungstests (regelmäßig testen)

Backup-Typen

TypBeschreibungGeschwindigkeitSpeicherbedarf
Full BackupAlles, jedes Mallangsamhoch
Incremental BackupNur Änderungen seit letztem Backupschnellniedrig
Differential BackupÄnderungen seit letztem Full-Backupmittelmittel

Empfohlenes Schema (GFS: Grandfather-Father-Son)

  • Täglich (Son): Incrementals Montag bis Samstag
  • Wöchentlich (Father): Full-Backup Sonntag
  • Monatlich (Grandfather): Full-Backup, 12 Monate aufbewahren
  • Jährlich: Jahres-Backup (gesetzlich: 10 Jahre für Finanzdaten)

Backup-Lösungen

Veeam Backup & Replication (Enterprise-Standard):

  • Unterstützt VMware, Hyper-V, physisch, Cloud-VM
  • Hardened Repository: Linux mit immutable Backups (Ransomware-Schutz)
  • Instant Recovery: VM aus Backup in Minuten starten
  • Replication: Sync zu Disaster-Recovery-Site
  • Preis: ab 500 EUR/Sockel

Windows Server Backup (kostenlos, für kleinere Umgebungen):

  • In Windows Server integriert, Bare-Metal-Recovery möglich, begrenzter Funktionsumfang

Spezifische Systeme:

  • Datenbanken: SQL Server Agent, mysqldump, pg_dump (wichtig: datenbank-konsistente Backups)
  • Microsoft 365: Drittanbieter nötig - Microsoft sichert keine E-Mails (Veeam for M365, Acronis, Avepoint)
  • Cloud-VMs: AWS Backup, Azure Backup (native Services)

Immutable Backups (Ransomware-Schutz)

AWS S3 Object Lock:

Bucket mit Object Lock aktivieren:
- Compliance Mode: NIEMAND kann löschen (auch Root nicht!)
- Governance Mode: nur mit speziellem Permission löschbar
- Retention Period: z.B. 30 Tage (Ransomware kann nicht löschen)

Veeam Hardened Repository:

  • Linux-Server mit immutable Backups
  • Nur Backup-Schreibzugriff, kein Löschen
  • Separates OS ohne AD-Mitgliedschaft
  • SSH-Key statt Passwort

Azure Immutable Blob Storage: WORM Policy auf Storage Account, Compliance-Modus für regulierte Branchen (FINMA, SEC).

Failover-Architekturen

Wiederherstellungs-Szenarien nach Kosten und RTO

Szenario 1 - Backup & Restore (niedrigste Kosten, längste RTO)

  • Bei Ausfall auf neuer Hardware wiederherstellen
  • RTO: Stunden bis Tage (je nach Systemgröße)
  • Kosten: niedrig (nur Backup-Speicher)
  • Geeignet: nicht-kritische Systeme mit RTO > 24h

Szenario 2 - Warm Standby

  • Standby-Systeme vorhanden, nicht vollständig synchronisiert
  • Bei Ausfall: Standby hochfahren + letzte Backups einspielen
  • RTO: 1-4 Stunden
  • Kosten: mittel (Standby-Hardware/VMs + Replikation)

Szenario 3 - Pilot Light (Cloud)

  • Minimale Core-Infrastruktur immer aktiv in der Cloud
  • Bei Ausfall: Rest der Infrastruktur in Minuten skalieren
  • RTO: 30-60 Minuten
  • AWS/Azure: Minimale EC2/VM-Instanzen + Datenbank-Replikation

Szenario 4 - Hot Standby / Active-Passive

  • Vollständige Kopie aktiv bereit in anderer Region/RZ
  • Daten synchron repliziert (RPO ≈ 0)
  • Failover: DNS-Umschaltung, Sekunden bis Minuten
  • RTO: < 30 Minuten
  • Kosten: hoch (doppelte Infrastruktur)

Szenario 5 - Active-Active (Multi-Region)

  • Alle Instanzen aktiv, Load Balancer verteilt
  • Keine "Umschaltung" nötig, automatischer Failover
  • RTO: ca. 0 (Sekunden für DNS-Propagation)
  • Kosten: sehr hoch, empfohlen nur für kritischste Systeme

Cloud DR (AWS Disaster Recovery Beispiel)

Route53 Health Checks + Failover:
- Primary: on-premises Rechenzentrum
- Secondary: AWS Region eu-central-1 (Frankfurt)
- Automatischer Failover wenn Primary nicht erreichbar
- RTO: 5-10 Minuten (DNS-TTL + Health Check Interval)

AWS Elastic Disaster Recovery (DRS): Kontinuierliche Replikation on-premises Server nach AWS, Failover mit Start der Instanzen in AWS in 30-60 Minuten, Failback nach Behebung zurück zu on-premises. Preis: 0,028 USD/Stunde/Server (ca. 20 EUR/Server/Monat).

DR-Tests - der wichtigste (und meist vergessene) Teil

DR-Test-Typen (Eskalation)

1. Table-Top Exercise (Papier-Test)

  • Team bespricht ein Szenario: "Ransomware verschlüsselt alle Server"
  • Fragen: Was tun wir? Wer ruft wen an? Wo sind die Backup-Keys?
  • Kein technischer Test, zeigt aber Prozess-Lücken
  • Dauer: 2-4 Stunden
  • Häufigkeit: jährlich (mindestens)

2. Component Test

  • Einzelne System-Recovery testen ("Stellt den Datenbankserver aus dem Backup wieder her")
  • Misst RTO für dieses System
  • Dauer: 1-2 Stunden
  • Häufigkeit: vierteljährlich für kritische Systeme

3. Full DR Test

  • Vollständiger Failover auf DR-Site/Cloud
  • Produktionsdatenverkehr auf DR-Umgebung umschalten
  • Misst Gesamt-RTO und RPO
  • Dauer: halber bis ganzer Tag
  • Häufigkeit: mindestens jährlich
  • Produktions-Impact vorher abschätzen

4. Unangekündigter Test

  • Team weiß vorher nicht dass heute getestet wird
  • Testet ob alle Personen verfügbar und Prozesse bekannt sind
  • Nur für reife Organisationen geeignet

Beispiel DR-Test-Protokoll

Datum:       2026-03-15
Test-Typ:    Component Test - ERP-Server Recovery
Ziel-RTO:   4 Stunden
Ziel-RPO:   1 Stunde

Ablauf:
10:00  Test-Start: Simulation "ERP-Server ausgefallen"
10:05  Backup identifiziert: letztes Backup 09:00 Uhr (RPO = 1h ✓)
10:15  Wiederherstellung auf Test-Server gestartet
11:45  System verfügbar (RTO = 1h45min ✓ Ziel: 4h)
11:50  Funktionstest: alle kritischen Prozesse funktionieren
12:00  Test abgeschlossen

Ergebnis:
  RTO erreicht: JA (1h45min < 4h Ziel)
  RPO erreicht: JA (1h Datenverlust)

Gefundene Lücken:
  - Backup-Key lag nur bei IT-Leiter (single point of failure)
  - Dokumentation für Schritt 3 veraltet

Aktionen:
  - Backup-Keys in Passwort-Manager für Team hinterlegen
  - DR-Dokumentation bis 2026-04-01 aktualisieren

Nächster Test: 2026-06-15

DR-Plan-Dokument Struktur

Ein vollständiges DR-Dokument enthält folgende Abschnitte:

1. Zweck und Geltungsbereich

Welche Systeme und Prozesse sind abgedeckt? Wer trägt welche Verantwortung (Rollen)?

2. Kontaktliste (immer druckbar halten!)

Wenn E-Mail und digitale Systeme ausfallen, muss die Kontaktliste analog verfügbar sein:

  • IT-Leiter: Name, Handy, Privatnummer
  • CISO: Kontaktdaten
  • Geschäftsführer: Kontaktdaten
  • Wichtige Dienstleister: Cloud-Provider, ISP, Hardware-Lieferant
  • Cyber-Versicherung: Hotline und Policennummer

3. System-Inventar mit Prioritäten

Alle kritischen Systeme mit RTO/RPO. Abhängigkeiten dokumentieren: "System A benötigt System B um zu funktionieren".

4. Recovery-Prozeduren (je System)

Schritt-für-Schritt-Anleitung die jeder Admin nachvollziehen kann. Keine Annahmen - "Das weiß jeder" gibt es in einem Ernstfall nicht. Backup-Speicherorte, Zugang und Passwörter (im Passwort-Manager) dokumentieren.

5. Kommunikationsplan

  • Intern: wer wird wann informiert?
  • Extern: Kunden, Partner, Behörden (NIS2-Meldepflicht beachten)
  • Vorbereitete Templates für häufige Szenarien

6. Test-Protokolle

Dokumentation vergangener Tests und offene Findings aus dem letzten Test.

7. Plan-Review-Historie

Wann zuletzt aktualisiert? Wer hat überprüft? Gültigkeitsdatum (maximal 1 Jahr).


Kein DR-Plan zu haben bedeutet Improv-Theater wenn der Ernstfall eintritt - aber mit Millionen-Einsatz. AWARE7 unterstützt beim Aufbau vollständiger DR-Pläne, der Auswahl der richtigen Backup-Strategie und der Durchführung von DR-Übungen.

DR-Planung anfragen | Incident Response Planung

Nächster Schritt

Unsere zertifizierten Sicherheitsexperten beraten Sie zu den Themen aus diesem Artikel — unverbindlich und kostenlos.

Kostenlos · 30 Minuten · Unverbindlich

Artikel teilen

Zertifiziert ISO 27001ISO 9001AZAV