Adversarial Machine Learning - KI-Angriffe und Gegenmaßnahmen - Definition & Erklärung

Adversarial Machine Learning (AML) ist das Forschungs- und Angreiferfeld rund um die Sicherheit von KI/ML-Systemen. Mit dem Einsatz von ML in sicherheitskritischen Anwendungen (Malware-Erkennung, Gesichtserkennung, autonome Systeme, LLM-Agenten) wird AML zu einem zentralen Sicherheitsthema.

Angriffskategorien

MITRE ATLAS - Adversarial Threat Landscape for AI Systems

Attack Phase 1: Reconnaissance (Informationssammlung)

Discover ML Models: Erkennung ob Zielsystem ML nutzt
API Probing: Black-Box-Abfragen um Modellverhalten zu verstehen
Training Data Collection: Was wurde mit was trainiert?

Attack Phase 2: Model Attacks

A) Evasion Attacks (Inference-Phase)

Adversarial Examples: minimale Input-Änderungen
Beispiel: STOP-Schild mit aufgeklebten Patches → Erkennung als “Speed Limit”
Beispiel: Spam-E-Mail mit unsichtbaren Zeichen → KI-Filter umgehen
Beispiel: Malware mit adversarialer Feature-Manipulation → EDR-Bypass

B) Data Poisoning (Training-Phase)

Trojan/Backdoor Attack: vergiftete Trainingsdaten mit Trigger - “Wenn Bild enthält 3x3 Pixel-Pattern an Position X → immer als gutartig klassifizieren”
Surreptitious Training: Supply-Chain-Angriff auf ML-Training-Pipeline
Label Flipping: Korrekte Labels gezielt korrumpieren

C) Model Inversion / Extraction

Membership Inference: “War dieser Datensatz im Training?”
Model Stealing: API-Queries → eigenes Modell mit gleichem Verhalten
Training Data Extraction: Sprachmodell gibt Trainingsdaten wieder aus
GPT-2: 67 Millionen PII-Datensätze aus Trainingsdaten extrahierbar

D) LLM-spezifisch - Prompt Injection

Direct: Benutzer gibt böswilligen Prompt ein
Indirect: Malicious content in abgerufenem Dokument
Jailbreaking: Systemanweisungen umgehen
Prompt Leaking: Systemprompt extrahieren
Tool Misuse: LLM-Agent führt unerwünschte Aktionen aus

Bekannte Beispiele aus der Praxis

Jahr	Vorfall
2019	Microsoft Azure Face API - Adversarial Patches täuschten Gesichtserkennung
2020	Skylight (Anti-Malware) - ML-Bypass via Feature-Manipulation demonstriert
2022	GPT-2/GPT-3 - Membership-Inference bestätigt auf Trainingsdaten
2023	ChatGPT - DAN-Jailbreak, Indirect Prompt Injection in Web-Browse-Mode
2024	Autonomous AI Agents - Tool-Misuse durch vergiftete Dokumente

OWASP LLM Top 10 (2025) - AML-relevante Kategorien

LLM01: Prompt Injection

Direkt: “Ignore previous instructions and…”
Indirekt: Malicious content in Retrieved Context (RAG)

Schutz:

Input Sanitization (aber kein vollständiger Schutz!)
Privilege Separation: LLM darf nicht direkt auf Datenbank zugreifen
Output Validation: Ergebnisse vor Ausführung prüfen
Principle of Least Privilege für Tool-Calls

LLM02: Insecure Output Handling

LLM-Output wird unvalidiert als HTML/SQL/Shell-Command genutzt
Cross-Prompt-Injection → XSS
SQL via LLM → SQL Injection

Schutz:

Treat LLM-Output as Untrusted Input
Sanitize before HTML render, parameterize before SQL

LLM06: Sensitive Information Disclosure

System Prompt leakbar
PII in Antworten (Memorized Training Data)

Schutz: Differential Privacy im Training, Output-Filtering

LLM08: Excessive Agency

LLM-Agent hat zu viele Berechtigungen
Tool-Call ohne Rückfrage: “Delete all files in /tmp”

Schutz:

Minimale Berechtigungen für Tools
Human-in-the-Loop für destruktive Aktionen
Confirmation vor irreversiblen Operationen

Praktische Gegenmaßnahmen

1. Adversarial Training

Trainingsset mit Adversarial Examples erweitern
Verbessert Robustheit, erhöht aber Trainingsaufwand
Certified Robustness: mathematischer Beweis für Robustheit

2. Input Preprocessing

Feature Squeezing: Bit-Tiefe reduzieren, Rauschen entfernen
Randomized Smoothing: zufälliges Rauschen vor Klassifikation
Detectron: Adversarial Example Detection Pipeline

3. Ensemble und Uncertainty

Mehrere Modelle → Mehrheitsentscheid
Uncertainty Quantification: Modell “weiß wann es nicht weiß”
Monte Carlo Dropout: Confidence-Schätzung

4. ML Supply Chain Sicherheit

Provenance: woher kommt das Modell? (MLflow, DVC)
Model Cards: transparente Dokumentation
Trusted Model Repositories (Hugging Face + Signing)
Dependency Scan für ML-Bibliotheken (PyTorch, TensorFlow)

5. LLM-spezifisch

Guardrails: NVIDIA NeMo Guardrails, LlamaGuard
Prompt Templates statt freier Input
RAG-Isolation: Retrieved Context getrennt von System Prompt
Output-Monitor: LLM prüft eigenen Output (Meta-LLM)

6. Monitoring und Detection

Anomaly Detection auf ML-Inputs
Distribution Shift: Verändert sich Input-Verteilung?
Shadow Model: zweites Modell validiert Hauptmodell
Logging aller Adversarial Queries

Regulatorisches und Frameworks

Standard	Beschreibung
MITRE ATLAS	mitre-atlas.mitre.org - 100+ AML-Techniken, TTP-Matrix ähnlich ATT&CK
NIST AI RMF	AI Risk Management Framework (2023) - Govern, Map, Measure, Manage
EU AI Act (2024)	Risikobasierter Ansatz; Hochrisiko-KI (Biometrie, KRITIS, Strafverfolgung) → verpflichtende Security-Tests
ISO/IEC 42001	AI Management System Standard (2023) - erste Zertifizierungsnorm für KI-Governance
ENISA	”Securing Machine Learning Algorithms” (2021) - Good Practices für sichere ML-Entwicklung

Angriffskategorien

MITRE ATLAS - Adversarial Threat Landscape for AI Systems

A) Evasion Attacks (Inference-Phase)

B) Data Poisoning (Training-Phase)

C) Model Inversion / Extraction

D) LLM-spezifisch - Prompt Injection

Bekannte Beispiele aus der Praxis

OWASP LLM Top 10 (2025) - AML-relevante Kategorien

LLM01: Prompt Injection

LLM02: Insecure Output Handling

LLM06: Sensitive Information Disclosure

LLM08: Excessive Agency

Praktische Gegenmaßnahmen

1. Adversarial Training

2. Input Preprocessing

3. Ensemble und Uncertainty

4. ML Supply Chain Sicherheit

5. LLM-spezifisch

6. Monitoring und Detection

Regulatorisches und Frameworks

AWARE7 Leistungen zum Thema

Ausführlicher Wiki-Artikel

Verwandte Begriffe