Anonymisierung und Pseudonymisierung - Definition & Erklärung

Anonymisierung und Pseudonymisierung sind zwei verschiedene Verfahren um den Personenbezug von Daten zu reduzieren - mit grundlegend unterschiedlichen rechtlichen Konsequenzen nach DSGVO.

Anonymisierung: Kein Personenbezug mehr

Anonymisierte Daten unterliegen nicht mehr der DSGVO - sie sind keine personenbezogenen Daten mehr.

Echter Anonymisierungsansatz:

Original: Name=Hans Müller, Alter=42, Krankheit=Diabetes
Anonymisiert: Alter=42, Krankheit=Diabetes (wenn Alter allein keine Rückführung erlaubt)
Aber: Wenn Alter+PLZ+Krankheit zusammen eindeutig identifizieren → KEIN anonymisiert!

Das Problem: Re-Identifizierung

Echte Anonymisierung ist extrem schwierig. Netflix veröffentlichte “anonymisierte” Filmbewertungen → Forscher konnten 84% der Nutzer re-identifizieren durch Abgleich mit IMDb.

Techniken zur echten Anonymisierung:

k-Anonymität: Jedes Datum ist mindestens k-mal in der Datenmenge vorhanden
Differential Privacy: Statistisches Rauschen das individuelle Daten verbirgt (Apple, Google nutzen das)
Aggregation: Nur Summen/Durchschnitte, keine Einzelwerte

Pseudonymisierung: DSGVO-Technik

Pseudonymisierung ersetzt Identifikatoren durch Pseudonyme - die Zuordnung ist möglich wenn der “Schlüssel” bekannt ist.

Beispiel Datenbank:

-- Original
SELECT * FROM patients WHERE id = 12345;
-- id=12345, name="Hans Müller", address="Hauptstr. 1", diagnosis="Diabetes"

Pseudonym-Tabelle (getrennt, zugriffskontrolliert): pseudonym_id=ABC123 ↔ patient_id=12345

Analyse-Tabelle (für Forscher): pseudonym_id=ABC123, age_group=40-45, region="NRW", diagnosis="Diabetes"

Rechtliche Wirkung (DSGVO Erwägungsgrund 26):

Pseudonymisierte Daten SIND noch personenbezogene Daten (wenn Schlüssel existiert)
Aber: Art. 32 DSGVO nennt Pseudonymisierung als Schutzmaßnahme (reduziert Risiko)
Art. 89 DSGVO: Erleichterungen für Forschung/Statistik mit pseudonymisierten Daten

Praktische Anwendung

Datenbanklogging:

# Statt Klartext zu loggen
logger.info(f"Login: user=hans.müller@company.de, ip=185.1.2.3")

# Pseudonymisiert loggen
import hashlib
user_hash = hashlib.sha256(f"hans.müller@company.de{SECRET_SALT}".encode()).hexdigest()[:12]
ip_hash = hashlib.sha256(f"185.1.2.3{SECRET_SALT}".encode()).hexdigest()[:8]
logger.info(f"Login: user={user_hash}, ip={ip_hash}")
# Log-Analyse möglich (gleiche Person = gleicher Hash), aber kein Klarnamen sichtbar

Analytics:

// Plausible Analytics (datenschutzfreundlich):
// Kein Tracking über Sessions, kein Personenbezug
// IP wird nicht gespeichert, kein Fingerprinting

// Google Analytics (ohne Einwilligung problematisch):
// User-ID, Cross-Session-Tracking → Personenbezug

DSGVO Data Minimization vs. Anonymisierung

Art. 5 (1) c DSGVO: Datensparsamkeit - nur das Notwendigste erheben.

Vorzugsstrategie:

Erst überlegen: Brauchen wir diese Daten wirklich?
Wenn ja: Nur notwendige Felder erheben
Wenn erhobene Daten für spätere Zwecke: Anonymisierung oder Pseudonymisierung
Aufbewahrungsfristen definieren und automatisch löschen

Pseudonymisierung ist eine DSGVO-konforme Methode um Daten länger zu analysieren als ohne Schutztechnik zulässig.

Anonymisierung: Kein Personenbezug mehr

Pseudonymisierung: DSGVO-Technik

Praktische Anwendung

DSGVO Data Minimization vs. Anonymisierung

AWARE7 Leistungen zum Thema

Ausführlicher Wiki-Artikel

Verwandte Begriffe