Phish Scale: NIST-Methodik zur Bewertung von Phishing-Simulationen
Der NIST Phish Scale ist eine wissenschaftlich fundierte Methodik zur Bewertung der Schwierigkeit von Phishing-E-Mails in Simulationen. Er erklärt, warum Click-Raten allein kein aussagekräftiger Maßstab für Security-Awareness-Programme sind.
Inhaltsverzeichnis (6 Abschnitte)
Der NIST Phish Scale ist eine vom National Institute of Standards and Technology (NIST) entwickelte Bewertungsmethodik für Phishing-E-Mails in Awareness-Trainings. Er ermöglicht es, die Schwierigkeit einer Phishing-Simulation objektiv einzustufen - und damit Click-Raten aus verschiedenen Kampagnen vergleichbar und interpretierbar zu machen. Der Phish Scale wurde 2020 von Steves et al. im NIST Internal Report 8360 veröffentlicht.
Das Problem mit reinen Click-Raten
Phishing-Simulationen messen typischerweise, wie viele Mitarbeiter auf einen simulierten Phishing-Link geklickt haben. Diese Click-Rate wird dann als Kennzahl für den Reifegrad des Security-Awareness-Programms herangezogen.
Dieses Vorgehen hat einen fundamentalen Fehler: Eine 5-Prozent-Click-Rate auf eine hochrealistische Spear-Phishing-E-Mail, die explizit auf aktuelle interne Projekte des Unternehmens eingeht, ist etwas völlig anderes als eine 30-Prozent-Click-Rate auf eine offensichtliche generische Phishing-E-Mail im schlechten Deutsch.
Ohne Berücksichtigung der Schwierigkeit der Phishing-E-Mail sind Click-Raten nicht interpretierbar. Noch kritischer: Wenn eine Organisation immer nur leicht erkennbare Phishing-Mails testet, trainiert sie ihre Mitarbeiter nur auf leichte Fälle - und gibt der Unternehmensleitung ein falsches Bild der tatsächlichen Anfälligkeit.
Der Phish Scale löst dieses Problem durch eine strukturierte Schwierigkeitsbewertung der Phishing-Nachricht selbst.
Die zwei Dimensionen des Phish Scale
Der Phish Scale bewertet Phishing-E-Mails nach zwei unabhängigen Dimensionen:
Dimension 1: Recognised Contextual Cues (Erkennbare Kontexthinweise)
Diese Dimension erfasst, wie viele und wie deutliche Warnsignale eine Phishing-E-Mail enthält. NIST hat 13 Kategorien von Kontexthinweisen identifiziert, die Empfänger bei der Erkennung von Phishing unterstützen:
Nachrichteninhalt-Hinweise:
- Fehlerhafte Rechtschreibung, Grammatik oder Zeichensetzung
- Unpersönliche Anrede (generisch statt namentlich)
- Fehlende oder unpassende Signatur
- E-Mail-Inhalt passt nicht zum vorgegebenen Absender
- Dringlichkeitsbotschaften oder Drohungen
- Anfragen nach ungewöhnlichen Informationen oder Aktionen
Technische Hinweise:
- E-Mail-Adresse des Absenders stimmt nicht mit angezeigtem Namen überein
- Fehlerhafte oder verdächtige Links (URL entspricht nicht dem angezeigten Text)
- Verdächtige Anhänge
Visuelle Hinweise:
- Schlechte Qualität von Logos oder grafischen Elementen
- Stilistische Abweichungen vom echten Erscheinungsbild des vorgegebenen Absenders
Je mehr dieser Hinweise vorhanden und je deutlicher sie erkennbar sind, desto niedriger ist die Schwierigkeit der Phishing-E-Mail - und desto höher sollte die Erkennungsrate sein.
Dimension 2: Alignment (Relevanzgrad der E-Mail für den Empfänger)
Diese Dimension bewertet, wie gut der Kontext der Phishing-E-Mail zur aktuellen Arbeitssituation des Empfängers passt. Fünf Alignment-Kategorien werden unterschieden:
1. Workplace relevance (Arbeitsplatzrelevanz): Bezieht sich die E-Mail auf alltägliche Arbeitsaufgaben (z.B. eine vorgebliche IT-Service-Mitteilung, eine HR-Nachricht)?
2. Recent events (Aktuelle Ereignisse): Nutzt die E-Mail aktuelle, allgemein bekannte Ereignisse oder Nachrichten als Aufhänger?
3. Temporal alignment (Zeitliche Ausrichtung): Kommt die E-Mail zu einem Zeitpunkt, an dem der Empfänger genau diese Art von Nachricht erwartet (z.B. Steuererstattungs-E-Mail kurz nach der Steuerperiode)?
4. Specificity (Spezifität): Enthält die E-Mail spezifische, auf den Empfänger zugeschnittene Informationen (Name, Abteilung, Projekte, Kollegen)?
5. Position (Organisatorische Position): Wird die hierarchische Position des Empfängers ausgenutzt (z.B. eine Geschäftsführer-Anfrage an einen Buchhalter)?
Je höher das Alignment - je besser die E-Mail zur Situation des Empfängers passt - desto schwieriger ist die Phishing-E-Mail zu erkennen.
Berechnung des Schwierigkeitsgrades
Der Schwierigkeitsgrad einer Phishing-E-Mail nach Phish Scale ergibt sich aus der Kombination beider Dimensionen:
- Niedrige Schwierigkeit: Viele erkennbare Hinweise, niedriges Alignment - leicht erkennbare generische Phishing-Mails
- Mittlere Schwierigkeit: Einige Hinweise mit mittlerem Alignment oder wenige Hinweise mit niedrigem Alignment
- Hohe Schwierigkeit: Wenige oder keine erkennbaren Hinweise, hohes Alignment - realistisches Spear-Phishing
Dieser Schwierigkeitsgrad erlaubt dann die kontextbezogene Interpretation der Click-Rate: Eine 15-Prozent-Click-Rate bei einer schweren Phishing-E-Mail ist ein deutlich positiveres Ergebnis als eine 15-Prozent-Click-Rate bei einer einfachen Phishing-E-Mail.
Anwendung in der Praxis
Kalibrierung des Trainings-Schwierigkeitsgrades
Ein effektives Security-Awareness-Programm sollte Phishing-Simulationen unterschiedlicher Schwierigkeitsgrade einsetzen:
- Anfänger: Beginnen mit gut erkennbaren Phishing-E-Mails, um die Grundprinzipien zu vermitteln
- Aufbautraining: Schrittweise Steigerung der Schwierigkeit, um realistische Bedrohungsszenarien abzubilden
- Fortgeschrittene: Hochrealistisches Spear-Phishing, das dem Niveau tatsächlicher Angreifer entspricht
Nur wenn alle Schwierigkeitsstufen regelmäßig trainiert werden, ist eine Organisation auf das tatsächliche Bedrohungsspektrum vorbereitet.
Auswertung von Trainingsmaßnahmen
Mit dem Phish Scale kann der Erfolg von Trainingsmaßnahmen differenziert bewertet werden:
- Sinken die Click-Raten nur bei leichten E-Mails, verbessern sich Mitarbeiter möglicherweise nur in der Erkennung oberflächlicher Merkmale
- Sinken die Click-Raten auch bei mittlerer und hoher Schwierigkeit, hat das Training tiefergehende Erkennungsfähigkeiten entwickelt
Diese differenzierte Auswertung erlaubt gezieltere Nachschulungen für spezifische Schwachstellen.
Benchmarking zwischen Organisationen
Phish-Scale-Scores ermöglichen erstmals einen aussagekräftigen Vergleich zwischen verschiedenen Organisationen oder zwischen verschiedenen Zeitpunkten innerhalb derselben Organisation - weil die Schwierigkeit der Tests berücksichtigt wird.
Ohne Schwierigkeitskorrektur sind direkte Vergleiche von Click-Raten irreführend. Eine Organisation, die ausschließlich schwere Phishing-Simulationen einsetzt, wird immer schlechter aussehen als eine Organisation, die nur einfache Tests durchführt.
Kritik und Grenzen des Phish Scale
Der Phish Scale ist ein wissenschaftlich fundierter Fortschritt, hat aber auch Einschränkungen:
Bewertungsaufwand: Die Einstufung jeder Phishing-E-Mail nach dem Phish Scale erfordert Zeit und Expertise. Für große Simulationskampagnen kann das eine Hürde sein.
Kontextabhängigkeit: Das Alignment einer E-Mail hängt stark vom spezifischen Empfänger ab. Eine E-Mail, die für einen Buchhalter hochrelevant ist, kann für einen Ingenieur kaum relevant sein. Der Phish Scale wurde auf organisationsweiten Durchschnittswerten entwickelt.
Kein Verhalten-Maßstab: Der Phish Scale bewertet ausschließlich die E-Mail - nicht das gesamte Angriffsszenario, also z.B. wie überzeugend eine verlinkte Phishing-Website gestaltet ist.
Keine Berücksichtigung von Verhaltensfaktoren: Individuelle Faktoren wie Stress, Zeitdruck oder Erfahrung der Mitarbeiter werden nicht abgebildet - obwohl sie erheblichen Einfluss auf die Klickwahrscheinlichkeit haben.
Bedeutung für Security-Awareness-Programme
Der NIST Phish Scale verändert, wie Phishing-Simulationen konzipiert und ausgewertet werden sollten. Die wichtigsten Konsequenzen für die Praxis:
Click-Raten allein sind keine aussagekräftige KPI - sie müssen immer im Kontext des Schwierigkeitsgrades betrachtet werden.
Programmverantwortliche sollten dokumentieren, welchen Schwierigkeitsgrad die eingesetzten Phishing-Simulationen haben, um Fortschritte über die Zeit verfolgen zu können.
Realismus über Einfachheit: Programme, die ausschließlich auf niedrige Click-Raten optimieren (indem sie nur leichte Simulationen einsetzen), vermitteln ein falsches Sicherheitsgefühl.
NIST-Konformität: Organisationen, die sich an NIST-Frameworks orientieren (z.B. im Rahmen von NIST CSF-Compliance), können den Phish Scale direkt in ihr Phishing-Awareness-Programm integrieren.
Der Phish Scale ist kein fertiges Trainingsprogramm, sondern ein Bewertungswerkzeug. Er muss in Kombination mit einem strukturierten Awareness-Trainingskonzept eingesetzt werden, das regelmäßige Simulationen, zeitnahes Feedback für Klicker, didaktisch aufbereitete Schulungsinhalte und Messungen über die Zeit umfasst.
Quellen & Referenzen
- [1] Categorizing Human Phishing Difficulty: A Phish Scale - NIST
- [2] Anti-Phishing Working Group (APWG) - APWG
Fragen zu diesem Thema?
Unsere Experten beraten Sie kostenlos und unverbindlich.
Über den Autor
Geschäftsführender Gesellschafter der AWARE7 GmbH mit langjähriger Expertise in Informationssicherheit, Penetrationstesting und IT-Risikomanagement. Absolvent des Masterstudiengangs Internet-Sicherheit an der Westfälischen Hochschule (if(is), Prof. Norbert Pohlmann). Bestseller-Autor im Wiley-VCH Verlag und Lehrbeauftragter der ASW-Akademie. Einschätzungen zu Cybersecurity und digitaler Souveränität erschienen u.a. in Welt am Sonntag, WDR, Deutschlandfunk und Handelsblatt.
10 Publikationen
- Einsatz von elektronischer Verschlüsselung - Hemmnisse für die Wirtschaft (2018)
- Kompass IT-Verschlüsselung - Orientierungshilfen für KMU (2018)
- IT Security Day 2025 - Live Hacking: KI in der Cybersicherheit (2025)
- Live Hacking - Credential Stuffing: Finanzrisiken jenseits Ransomware (2025)
- Keynote: Live Hacking Show - Ein Blick in die Welt der Cyberkriminalität (2025)
- Analyse von Angriffsflächen bei Shared-Hosting-Anbietern (2024)
- Gänsehaut garantiert: Die schaurigsten Funde aus dem Leben eines Pentesters (2022)
- IT Security Zertifizierungen - CISSP, T.I.S.P. & Co (Live-Webinar) (2023)
- Sicherheitsforum Online-Banking - Live Hacking (2021)
- Nipster im Netz und das Ende der Kreidezeit (2017)