Adversarial Machine Learning - KI-Angriffe und Gegenmaßnahmen
Adversarial Machine Learning bezeichnet Angriffstechniken, die Machine-Learning-Modelle gezielt manipulieren oder täuschen. Dazu zählen Adversarial Examples (minimale Input-Änderungen die Modelle falsch klassifizieren), Data Poisoning (vergiftete Trainingsdaten), Model Inversion (Extraktion von Trainingsdaten), Prompt Injection (bei LLMs) und Model Stealing. MITRE ATLAS dokumentiert die Angriffstechniken.
Adversarial Machine Learning (AML) ist das Forschungs- und Angreiferfeld rund um die Sicherheit von KI/ML-Systemen. Mit dem Einsatz von ML in sicherheitskritischen Anwendungen (Malware-Erkennung, Gesichtserkennung, autonome Systeme, LLM-Agenten) wird AML zu einem zentralen Sicherheitsthema.
Angriffskategorien
MITRE ATLAS - Adversarial Threat Landscape for AI Systems
Attack Phase 1: Reconnaissance (Informationssammlung)
- Discover ML Models: Erkennung ob Zielsystem ML nutzt
- API Probing: Black-Box-Abfragen um Modellverhalten zu verstehen
- Training Data Collection: Was wurde mit was trainiert?
Attack Phase 2: Model Attacks
A) Evasion Attacks (Inference-Phase)
- Adversarial Examples: minimale Input-Änderungen
- Beispiel: STOP-Schild mit aufgeklebten Patches → Erkennung als “Speed Limit”
- Beispiel: Spam-E-Mail mit unsichtbaren Zeichen → KI-Filter umgehen
- Beispiel: Malware mit adversarialer Feature-Manipulation → EDR-Bypass
B) Data Poisoning (Training-Phase)
- Trojan/Backdoor Attack: vergiftete Trainingsdaten mit Trigger - “Wenn Bild enthält 3x3 Pixel-Pattern an Position X → immer als gutartig klassifizieren”
- Surreptitious Training: Supply-Chain-Angriff auf ML-Training-Pipeline
- Label Flipping: Korrekte Labels gezielt korrumpieren
C) Model Inversion / Extraction
- Membership Inference: “War dieser Datensatz im Training?”
- Model Stealing: API-Queries → eigenes Modell mit gleichem Verhalten
- Training Data Extraction: Sprachmodell gibt Trainingsdaten wieder aus
- GPT-2: 67 Millionen PII-Datensätze aus Trainingsdaten extrahierbar
D) LLM-spezifisch - Prompt Injection
- Direct: Benutzer gibt böswilligen Prompt ein
- Indirect: Malicious content in abgerufenem Dokument
- Jailbreaking: Systemanweisungen umgehen
- Prompt Leaking: Systemprompt extrahieren
- Tool Misuse: LLM-Agent führt unerwünschte Aktionen aus
Bekannte Beispiele aus der Praxis
| Jahr | Vorfall |
|---|---|
| 2019 | Microsoft Azure Face API - Adversarial Patches täuschten Gesichtserkennung |
| 2020 | Skylight (Anti-Malware) - ML-Bypass via Feature-Manipulation demonstriert |
| 2022 | GPT-2/GPT-3 - Membership-Inference bestätigt auf Trainingsdaten |
| 2023 | ChatGPT - DAN-Jailbreak, Indirect Prompt Injection in Web-Browse-Mode |
| 2024 | Autonomous AI Agents - Tool-Misuse durch vergiftete Dokumente |
OWASP LLM Top 10 (2025) - AML-relevante Kategorien
LLM01: Prompt Injection
- Direkt: “Ignore previous instructions and…”
- Indirekt: Malicious content in Retrieved Context (RAG)
Schutz:
- Input Sanitization (aber kein vollständiger Schutz!)
- Privilege Separation: LLM darf nicht direkt auf Datenbank zugreifen
- Output Validation: Ergebnisse vor Ausführung prüfen
- Principle of Least Privilege für Tool-Calls
LLM02: Insecure Output Handling
- LLM-Output wird unvalidiert als HTML/SQL/Shell-Command genutzt
- Cross-Prompt-Injection → XSS
- SQL via LLM → SQL Injection
Schutz:
- Treat LLM-Output as Untrusted Input
- Sanitize before HTML render, parameterize before SQL
LLM06: Sensitive Information Disclosure
- System Prompt leakbar
- PII in Antworten (Memorized Training Data)
Schutz: Differential Privacy im Training, Output-Filtering
LLM08: Excessive Agency
- LLM-Agent hat zu viele Berechtigungen
- Tool-Call ohne Rückfrage: “Delete all files in /tmp”
Schutz:
- Minimale Berechtigungen für Tools
- Human-in-the-Loop für destruktive Aktionen
- Confirmation vor irreversiblen Operationen
Praktische Gegenmaßnahmen
1. Adversarial Training
- Trainingsset mit Adversarial Examples erweitern
- Verbessert Robustheit, erhöht aber Trainingsaufwand
- Certified Robustness: mathematischer Beweis für Robustheit
2. Input Preprocessing
- Feature Squeezing: Bit-Tiefe reduzieren, Rauschen entfernen
- Randomized Smoothing: zufälliges Rauschen vor Klassifikation
- Detectron: Adversarial Example Detection Pipeline
3. Ensemble und Uncertainty
- Mehrere Modelle → Mehrheitsentscheid
- Uncertainty Quantification: Modell “weiß wann es nicht weiß”
- Monte Carlo Dropout: Confidence-Schätzung
4. ML Supply Chain Sicherheit
- Provenance: woher kommt das Modell? (MLflow, DVC)
- Model Cards: transparente Dokumentation
- Trusted Model Repositories (Hugging Face + Signing)
- Dependency Scan für ML-Bibliotheken (PyTorch, TensorFlow)
5. LLM-spezifisch
- Guardrails: NVIDIA NeMo Guardrails, LlamaGuard
- Prompt Templates statt freier Input
- RAG-Isolation: Retrieved Context getrennt von System Prompt
- Output-Monitor: LLM prüft eigenen Output (Meta-LLM)
6. Monitoring und Detection
- Anomaly Detection auf ML-Inputs
- Distribution Shift: Verändert sich Input-Verteilung?
- Shadow Model: zweites Modell validiert Hauptmodell
- Logging aller Adversarial Queries
Regulatorisches und Frameworks
| Standard | Beschreibung |
|---|---|
| MITRE ATLAS | mitre-atlas.mitre.org - 100+ AML-Techniken, TTP-Matrix ähnlich ATT&CK |
| NIST AI RMF | AI Risk Management Framework (2023) - Govern, Map, Measure, Manage |
| EU AI Act (2024) | Risikobasierter Ansatz; Hochrisiko-KI (Biometrie, KRITIS, Strafverfolgung) → verpflichtende Security-Tests |
| ISO/IEC 42001 | AI Management System Standard (2023) - erste Zertifizierungsnorm für KI-Governance |
| ENISA | ”Securing Machine Learning Algorithms” (2021) - Good Practices für sichere ML-Entwicklung |