Phish Scale: NIST-Methodik zur Bewertung von Phishing-Simulationen

Der NIST Phish Scale ist eine vom National Institute of Standards and Technology (NIST) entwickelte Bewertungsmethodik für Phishing-E-Mails in Awareness-Trainings. Er ermöglicht es, die Schwierigkeit einer Phishing-Simulation objektiv einzustufen - und damit Click-Raten aus verschiedenen Kampagnen vergleichbar und interpretierbar zu machen. Der Phish Scale wurde 2020 von Steves et al. im NIST Internal Report 8360 veröffentlicht.

Das Problem mit reinen Click-Raten

Phishing-Simulationen messen typischerweise, wie viele Mitarbeiter auf einen simulierten Phishing-Link geklickt haben. Diese Click-Rate wird dann als Kennzahl für den Reifegrad des Security-Awareness-Programms herangezogen.

Dieses Vorgehen hat einen fundamentalen Fehler: Eine 5-Prozent-Click-Rate auf eine hochrealistische Spear-Phishing-E-Mail, die explizit auf aktuelle interne Projekte des Unternehmens eingeht, ist etwas völlig anderes als eine 30-Prozent-Click-Rate auf eine offensichtliche generische Phishing-E-Mail im schlechten Deutsch.

Ohne Berücksichtigung der Schwierigkeit der Phishing-E-Mail sind Click-Raten nicht interpretierbar. Noch kritischer: Wenn eine Organisation immer nur leicht erkennbare Phishing-Mails testet, trainiert sie ihre Mitarbeiter nur auf leichte Fälle - und gibt der Unternehmensleitung ein falsches Bild der tatsächlichen Anfälligkeit.

Der Phish Scale löst dieses Problem durch eine strukturierte Schwierigkeitsbewertung der Phishing-Nachricht selbst.

Die zwei Dimensionen des Phish Scale

Der Phish Scale bewertet Phishing-E-Mails nach zwei unabhängigen Dimensionen:

Dimension 1: Recognised Contextual Cues (Erkennbare Kontexthinweise)

Diese Dimension erfasst, wie viele und wie deutliche Warnsignale eine Phishing-E-Mail enthält. NIST hat 13 Kategorien von Kontexthinweisen identifiziert, die Empfänger bei der Erkennung von Phishing unterstützen:

Nachrichteninhalt-Hinweise:

Fehlerhafte Rechtschreibung, Grammatik oder Zeichensetzung
Unpersönliche Anrede (generisch statt namentlich)
Fehlende oder unpassende Signatur
E-Mail-Inhalt passt nicht zum vorgegebenen Absender
Dringlichkeitsbotschaften oder Drohungen
Anfragen nach ungewöhnlichen Informationen oder Aktionen

Technische Hinweise:

E-Mail-Adresse des Absenders stimmt nicht mit angezeigtem Namen überein
Fehlerhafte oder verdächtige Links (URL entspricht nicht dem angezeigten Text)
Verdächtige Anhänge

Visuelle Hinweise:

Schlechte Qualität von Logos oder grafischen Elementen
Stilistische Abweichungen vom echten Erscheinungsbild des vorgegebenen Absenders

Je mehr dieser Hinweise vorhanden und je deutlicher sie erkennbar sind, desto niedriger ist die Schwierigkeit der Phishing-E-Mail - und desto höher sollte die Erkennungsrate sein.

Dimension 2: Alignment (Relevanzgrad der E-Mail für den Empfänger)

Diese Dimension bewertet, wie gut der Kontext der Phishing-E-Mail zur aktuellen Arbeitssituation des Empfängers passt. Fünf Alignment-Kategorien werden unterschieden:

1. Workplace relevance (Arbeitsplatzrelevanz): Bezieht sich die E-Mail auf alltägliche Arbeitsaufgaben (z.B. eine vorgebliche IT-Service-Mitteilung, eine HR-Nachricht)?

2. Recent events (Aktuelle Ereignisse): Nutzt die E-Mail aktuelle, allgemein bekannte Ereignisse oder Nachrichten als Aufhänger?

3. Temporal alignment (Zeitliche Ausrichtung): Kommt die E-Mail zu einem Zeitpunkt, an dem der Empfänger genau diese Art von Nachricht erwartet (z.B. Steuererstattungs-E-Mail kurz nach der Steuerperiode)?

4. Specificity (Spezifität): Enthält die E-Mail spezifische, auf den Empfänger zugeschnittene Informationen (Name, Abteilung, Projekte, Kollegen)?

5. Position (Organisatorische Position): Wird die hierarchische Position des Empfängers ausgenutzt (z.B. eine Geschäftsführer-Anfrage an einen Buchhalter)?

Je höher das Alignment - je besser die E-Mail zur Situation des Empfängers passt - desto schwieriger ist die Phishing-E-Mail zu erkennen.

Berechnung des Schwierigkeitsgrades

Der Schwierigkeitsgrad einer Phishing-E-Mail nach Phish Scale ergibt sich aus der Kombination beider Dimensionen:

Niedrige Schwierigkeit: Viele erkennbare Hinweise, niedriges Alignment - leicht erkennbare generische Phishing-Mails
Mittlere Schwierigkeit: Einige Hinweise mit mittlerem Alignment oder wenige Hinweise mit niedrigem Alignment
Hohe Schwierigkeit: Wenige oder keine erkennbaren Hinweise, hohes Alignment - realistisches Spear-Phishing

Dieser Schwierigkeitsgrad erlaubt dann die kontextbezogene Interpretation der Click-Rate: Eine 15-Prozent-Click-Rate bei einer schweren Phishing-E-Mail ist ein deutlich positiveres Ergebnis als eine 15-Prozent-Click-Rate bei einer einfachen Phishing-E-Mail.

Anwendung in der Praxis

Kalibrierung des Trainings-Schwierigkeitsgrades

Ein effektives Security-Awareness-Programm sollte Phishing-Simulationen unterschiedlicher Schwierigkeitsgrade einsetzen:

Anfänger: Beginnen mit gut erkennbaren Phishing-E-Mails, um die Grundprinzipien zu vermitteln
Aufbautraining: Schrittweise Steigerung der Schwierigkeit, um realistische Bedrohungsszenarien abzubilden
Fortgeschrittene: Hochrealistisches Spear-Phishing, das dem Niveau tatsächlicher Angreifer entspricht

Nur wenn alle Schwierigkeitsstufen regelmäßig trainiert werden, ist eine Organisation auf das tatsächliche Bedrohungsspektrum vorbereitet.

Auswertung von Trainingsmaßnahmen

Mit dem Phish Scale kann der Erfolg von Trainingsmaßnahmen differenziert bewertet werden:

Sinken die Click-Raten nur bei leichten E-Mails, verbessern sich Mitarbeiter möglicherweise nur in der Erkennung oberflächlicher Merkmale
Sinken die Click-Raten auch bei mittlerer und hoher Schwierigkeit, hat das Training tiefergehende Erkennungsfähigkeiten entwickelt

Diese differenzierte Auswertung erlaubt gezieltere Nachschulungen für spezifische Schwachstellen.

Benchmarking zwischen Organisationen

Phish-Scale-Scores ermöglichen erstmals einen aussagekräftigen Vergleich zwischen verschiedenen Organisationen oder zwischen verschiedenen Zeitpunkten innerhalb derselben Organisation - weil die Schwierigkeit der Tests berücksichtigt wird.

Ohne Schwierigkeitskorrektur sind direkte Vergleiche von Click-Raten irreführend. Eine Organisation, die ausschließlich schwere Phishing-Simulationen einsetzt, wird immer schlechter aussehen als eine Organisation, die nur einfache Tests durchführt.

Kritik und Grenzen des Phish Scale

Der Phish Scale ist ein wissenschaftlich fundierter Fortschritt, hat aber auch Einschränkungen:

Bewertungsaufwand: Die Einstufung jeder Phishing-E-Mail nach dem Phish Scale erfordert Zeit und Expertise. Für große Simulationskampagnen kann das eine Hürde sein.

Kontextabhängigkeit: Das Alignment einer E-Mail hängt stark vom spezifischen Empfänger ab. Eine E-Mail, die für einen Buchhalter hochrelevant ist, kann für einen Ingenieur kaum relevant sein. Der Phish Scale wurde auf organisationsweiten Durchschnittswerten entwickelt.

Kein Verhalten-Maßstab: Der Phish Scale bewertet ausschließlich die E-Mail - nicht das gesamte Angriffsszenario, also z.B. wie überzeugend eine verlinkte Phishing-Website gestaltet ist.

Keine Berücksichtigung von Verhaltensfaktoren: Individuelle Faktoren wie Stress, Zeitdruck oder Erfahrung der Mitarbeiter werden nicht abgebildet - obwohl sie erheblichen Einfluss auf die Klickwahrscheinlichkeit haben.

Bedeutung für Security-Awareness-Programme

Der NIST Phish Scale verändert, wie Phishing-Simulationen konzipiert und ausgewertet werden sollten. Die wichtigsten Konsequenzen für die Praxis:

Click-Raten allein sind keine aussagekräftige KPI - sie müssen immer im Kontext des Schwierigkeitsgrades betrachtet werden.

Programmverantwortliche sollten dokumentieren, welchen Schwierigkeitsgrad die eingesetzten Phishing-Simulationen haben, um Fortschritte über die Zeit verfolgen zu können.

Realismus über Einfachheit: Programme, die ausschließlich auf niedrige Click-Raten optimieren (indem sie nur leichte Simulationen einsetzen), vermitteln ein falsches Sicherheitsgefühl.

NIST-Konformität: Organisationen, die sich an NIST-Frameworks orientieren (z.B. im Rahmen von NIST CSF-Compliance), können den Phish Scale direkt in ihr Phishing-Awareness-Programm integrieren.

Der Phish Scale ist kein fertiges Trainingsprogramm, sondern ein Bewertungswerkzeug. Er muss in Kombination mit einem strukturierten Awareness-Trainingskonzept eingesetzt werden, das regelmäßige Simulationen, zeitnahes Feedback für Klicker, didaktisch aufbereitete Schulungsinhalte und Messungen über die Zeit umfasst.