Zum Inhalt springen

Services, Wiki-Artikel, Blog-Beiträge und Glossar-Einträge durchsuchen

↑↓NavigierenEnterÖffnenESCSchließen
Neue Bedrohungen Glossar

Adversarial Machine Learning - KI-Angriffe und Gegenmaßnahmen

Adversarial Machine Learning bezeichnet Angriffstechniken, die Machine-Learning-Modelle gezielt manipulieren oder täuschen. Dazu zählen Adversarial Examples (minimale Input-Änderungen die Modelle falsch klassifizieren), Data Poisoning (vergiftete Trainingsdaten), Model Inversion (Extraktion von Trainingsdaten), Prompt Injection (bei LLMs) und Model Stealing. MITRE ATLAS dokumentiert die Angriffstechniken.

Adversarial Machine Learning (AML) ist das Forschungs- und Angreiferfeld rund um die Sicherheit von KI/ML-Systemen. Mit dem Einsatz von ML in sicherheitskritischen Anwendungen (Malware-Erkennung, Gesichtserkennung, autonome Systeme, LLM-Agenten) wird AML zu einem zentralen Sicherheitsthema.

Angriffskategorien

MITRE ATLAS - Adversarial Threat Landscape for AI Systems

Attack Phase 1: Reconnaissance (Informationssammlung)

  • Discover ML Models: Erkennung ob Zielsystem ML nutzt
  • API Probing: Black-Box-Abfragen um Modellverhalten zu verstehen
  • Training Data Collection: Was wurde mit was trainiert?

Attack Phase 2: Model Attacks

A) Evasion Attacks (Inference-Phase)

  • Adversarial Examples: minimale Input-Änderungen
  • Beispiel: STOP-Schild mit aufgeklebten Patches → Erkennung als “Speed Limit”
  • Beispiel: Spam-E-Mail mit unsichtbaren Zeichen → KI-Filter umgehen
  • Beispiel: Malware mit adversarialer Feature-Manipulation → EDR-Bypass

B) Data Poisoning (Training-Phase)

  • Trojan/Backdoor Attack: vergiftete Trainingsdaten mit Trigger - “Wenn Bild enthält 3x3 Pixel-Pattern an Position X → immer als gutartig klassifizieren”
  • Surreptitious Training: Supply-Chain-Angriff auf ML-Training-Pipeline
  • Label Flipping: Korrekte Labels gezielt korrumpieren

C) Model Inversion / Extraction

  • Membership Inference: “War dieser Datensatz im Training?”
  • Model Stealing: API-Queries → eigenes Modell mit gleichem Verhalten
  • Training Data Extraction: Sprachmodell gibt Trainingsdaten wieder aus
  • GPT-2: 67 Millionen PII-Datensätze aus Trainingsdaten extrahierbar

D) LLM-spezifisch - Prompt Injection

  • Direct: Benutzer gibt böswilligen Prompt ein
  • Indirect: Malicious content in abgerufenem Dokument
  • Jailbreaking: Systemanweisungen umgehen
  • Prompt Leaking: Systemprompt extrahieren
  • Tool Misuse: LLM-Agent führt unerwünschte Aktionen aus

Bekannte Beispiele aus der Praxis

JahrVorfall
2019Microsoft Azure Face API - Adversarial Patches täuschten Gesichtserkennung
2020Skylight (Anti-Malware) - ML-Bypass via Feature-Manipulation demonstriert
2022GPT-2/GPT-3 - Membership-Inference bestätigt auf Trainingsdaten
2023ChatGPT - DAN-Jailbreak, Indirect Prompt Injection in Web-Browse-Mode
2024Autonomous AI Agents - Tool-Misuse durch vergiftete Dokumente

OWASP LLM Top 10 (2025) - AML-relevante Kategorien

LLM01: Prompt Injection

  • Direkt: “Ignore previous instructions and…”
  • Indirekt: Malicious content in Retrieved Context (RAG)

Schutz:

  • Input Sanitization (aber kein vollständiger Schutz!)
  • Privilege Separation: LLM darf nicht direkt auf Datenbank zugreifen
  • Output Validation: Ergebnisse vor Ausführung prüfen
  • Principle of Least Privilege für Tool-Calls

LLM02: Insecure Output Handling

  • LLM-Output wird unvalidiert als HTML/SQL/Shell-Command genutzt
  • Cross-Prompt-Injection → XSS
  • SQL via LLM → SQL Injection

Schutz:

  • Treat LLM-Output as Untrusted Input
  • Sanitize before HTML render, parameterize before SQL

LLM06: Sensitive Information Disclosure

  • System Prompt leakbar
  • PII in Antworten (Memorized Training Data)

Schutz: Differential Privacy im Training, Output-Filtering

LLM08: Excessive Agency

  • LLM-Agent hat zu viele Berechtigungen
  • Tool-Call ohne Rückfrage: “Delete all files in /tmp”

Schutz:

  • Minimale Berechtigungen für Tools
  • Human-in-the-Loop für destruktive Aktionen
  • Confirmation vor irreversiblen Operationen

Praktische Gegenmaßnahmen

1. Adversarial Training

  • Trainingsset mit Adversarial Examples erweitern
  • Verbessert Robustheit, erhöht aber Trainingsaufwand
  • Certified Robustness: mathematischer Beweis für Robustheit

2. Input Preprocessing

  • Feature Squeezing: Bit-Tiefe reduzieren, Rauschen entfernen
  • Randomized Smoothing: zufälliges Rauschen vor Klassifikation
  • Detectron: Adversarial Example Detection Pipeline

3. Ensemble und Uncertainty

  • Mehrere Modelle → Mehrheitsentscheid
  • Uncertainty Quantification: Modell “weiß wann es nicht weiß”
  • Monte Carlo Dropout: Confidence-Schätzung

4. ML Supply Chain Sicherheit

  • Provenance: woher kommt das Modell? (MLflow, DVC)
  • Model Cards: transparente Dokumentation
  • Trusted Model Repositories (Hugging Face + Signing)
  • Dependency Scan für ML-Bibliotheken (PyTorch, TensorFlow)

5. LLM-spezifisch

  • Guardrails: NVIDIA NeMo Guardrails, LlamaGuard
  • Prompt Templates statt freier Input
  • RAG-Isolation: Retrieved Context getrennt von System Prompt
  • Output-Monitor: LLM prüft eigenen Output (Meta-LLM)

6. Monitoring und Detection

  • Anomaly Detection auf ML-Inputs
  • Distribution Shift: Verändert sich Input-Verteilung?
  • Shadow Model: zweites Modell validiert Hauptmodell
  • Logging aller Adversarial Queries

Regulatorisches und Frameworks

StandardBeschreibung
MITRE ATLASmitre-atlas.mitre.org - 100+ AML-Techniken, TTP-Matrix ähnlich ATT&CK
NIST AI RMFAI Risk Management Framework (2023) - Govern, Map, Measure, Manage
EU AI Act (2024)Risikobasierter Ansatz; Hochrisiko-KI (Biometrie, KRITIS, Strafverfolgung) → verpflichtende Security-Tests
ISO/IEC 42001AI Management System Standard (2023) - erste Zertifizierungsnorm für KI-Governance
ENISA”Securing Machine Learning Algorithms” (2021) - Good Practices für sichere ML-Entwicklung

Cookielose Analyse via Matomo (selbst gehostet, kein Tracking-Cookie). Datenschutzerklärung