Text de-identification techniques are often used to mask personally identifiable information (PII) from documents. Their ability to conceal the identity of the individuals mentioned in a text is, however, hard to measure. Recent work has shown how the robustness of de-identification methods could be assessed by attempting the reverse process of _re-identification_, based on an automated adversary using its background knowledge to uncover the PIIs that have been masked. This paper presents two complementary strategies to build stronger re-identification attacks. We first show that (1) the _order_ in which the PII spans are re-identified matters, and that aggregating predictions across multiple orderings leads to improved results. We also find that (2) reasoning models can boost the re-identification performance, especially when the adversary is assumed to have access to extensive background knowledge.
- Paper-ID: 2510.09184
- Titel: Stronger Re-identification Attacks through Reasoning and Aggregation
- Autoren: Lucas Georges Gabriel Charpentier (Universität Oslo), Pierre Lison (Norwegisches Computerzentrum)
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.09184
Techniken zur Textentidentifizierung werden typischerweise verwendet, um persönlich identifizierbare Informationen (PII) in Dokumenten zu maskieren. Die Fähigkeit dieser Techniken, die Erwähnung von Personenidentitäten im Text zu verbergen, ist jedoch schwer zu messen. Aktuelle Forschungen zeigen, dass die Robustheit von Entidentifizierungsmethoden durch den Versuch eines umgekehrten Re-Identifizierungsprozesses bewertet werden kann, bei dem ein automatisierter Gegner sein Hintergrundwissen nutzt, um maskierte PII offenzulegen. Dieses Paper schlägt zwei komplementäre Strategien vor, um stärkere Re-Identifizierungsangriffe zu konstruieren: (1) Die Reihenfolge der PII-Span-Re-Identifizierung ist wichtig; die Aggregation von Vorhersagen über mehrere Ordnungen verbessert die Ergebnisse; (2) Reasoning-Modelle können die Re-Identifizierungsleistung verbessern, besonders wenn angenommen wird, dass der Gegner über umfassendes Hintergrundwissen verfügt.
Textentidentifizierung ist eine wichtige Datenschutztechnik, die darauf abzielt, persönlich identifizierbare Informationen (PII) aus Dokumenten zu entfernen oder zu maskieren, einschließlich direkter Identifikatoren (wie Namen, Telefonnummern) und indirekter Identifikatoren (wie Alter, Geschlecht, Ort usw.). Diese Technik hat wichtige Anwendungen bei der Verarbeitung sensibler Dokumente wie Gerichtsurteile und medizinische Unterlagen.
Die Bewertung der Wirksamkeit von Entidentifizierungsmethoden ist eine kritische Herausforderung. Traditionelle Bewertungsmethoden können den Datenschutzgrad von entidentifizierten Dokumenten nicht genau messen. Durch die Konstruktion von Re-Identifizierungsangriffen zur Prüfung der Robustheit von Entidentifizierungsmethoden, ähnlich wie Red-Team-Tests in der Cybersicherheit, können Datenschutztechniken besser bewertet und verbessert werden.
Bestehende Re-Identifizierungsangriffsmethoden weisen folgende Mängel auf:
- Mangel an systematischer Untersuchung der Bedeutung der PII-Re-Identifizierungsreihenfolge
- Unzureichende Nutzung der Fähigkeiten moderner Reasoning-Modelle
- Mangel an effektiven Vorhersage-Aggregationsstrategien
Dieses Paper zielt darauf ab, die Stärke von Re-Identifizierungsangriffen in zwei Dimensionen zu verbessern: Erforschung verschiedener Re-Identifizierungsreihenfolgestrategien und Aggregation mehrerer Vorhersageergebnisse; Nutzung großer Sprachmodelle mit Reasoning-Fähigkeiten zur Verbesserung der Angriffseffektivität.
- Vier PII-Re-Identifizierungsreihenfolgestrategien vorgeschlagen: Top-down, Bottom-up, zufällige Reihenfolge und entropiebasierte Reihenfolge, mit systematischer Bewertung ihrer Wirksamkeit
- Gewichteter Abstimmungs-Aggregationsmechanismus entwickelt: Durch Aggregation mehrerer Vorhersagen mit unterschiedlichen Reihenfolgen wird die Re-Identifizierungsgenauigkeit erheblich verbessert
- Vorteile von Reasoning-Modellen validiert: Nachweis, dass mit Reasoning optimierte LLMs im Vergleich zu Instruction-Tuned-Modellen die Re-Identifizierungsleistung erheblich verbessern
- Umfassende experimentelle Bewertung bereitgestellt: Systematische Experimente auf dem TAB-Datensatz unter Berücksichtigung verschiedener Hintergrundwissensstufen des Gegners
Gegeben ein entidentifiziertes Dokument (bei dem PII maskiert ist), zielt die Re-Identifizierungsaufgabe darauf ab, das maskierte PII-Inhalte unter Verwendung von Hintergrundwissen abzuleiten. Die Eingabe ist ein entidentifiziertes Dokument mit mehreren MASK-Markierungen, die Ausgabe ist der spezifische PII-Wert für jede maskierte Position.
- Abrufphase:
- Spärlicher Abruf: Verwendung des BMx-Modells zur Auswahl der Top-100 relevantesten Dokumente aus der Wissensdatenbank
- Dichter Abruf: Verwendung eines trainierten ColBERT-ähnlichen Abrufers zur Suche nach dem relevantesten Textblock für jeden PII-Span
- Füllphase:
- Eingabe relevanter Textblöcke und lokaler Kontexte in das LLM
- Verwendung von zwei Versionen des Qwen3-4B-Modells: Instruction-Tuned-Version und Reasoning-optimierte Version
- Initialisierung von Dokument- und Abfrage-Encodern basierend auf ModernBERT-base
- Training mit Wikipedia-Biografiedaten, positive Samples enthalten die Zielentität, negative Samples nicht
- Trainingsdaten umfassen etwa 160.000 lokale Texte mit entsprechenden positiven und negativen Sample-Paaren
- Top-down: Re-Identifizierung von PII in der Reihenfolge ihres Auftretens im Dokument
- Bottom-up: Beginn mit dem letzten PII und Rückwärtsarbeit
- Zufällige Reihenfolge (Random): Zufällige Auswahl nicht identifizierter PII zur Verarbeitung
- Entropiebasierte Reihenfolge (Entropy-based): Berechnung des Entropiewerts für jeden PII-Span, Identifizierung in aufsteigender Reihenfolge
Entropiewertberechnungsformel:
H(s)=−∑i=1kpilogpi
wobei pi die Wahrscheinlichkeit ist, die das LLM dem i-ten Token des Spans s zuweist.
Verwendung eines gewichteten Abstimmungsmechanismus zur Aggregation von Vorhersagen aus mehreren Reihenfolgen:
As(c)=∑i=1m1(ci=c)pi
wobei As(c) der Aggregationsscore des Kandidatenwerts c für Span s ist, 1 die Indikatorfunktion ist und pi die Wahrscheinlichkeit des Kandidatenwerts in der i-ten Ausführung ist.
- Hauptdatensatz: TAB (Text Anonymization Benchmark) Testset mit 127 Fällen des Europäischen Gerichtshofs für Menschenrechte (EGMR)
- Hintergrundwissen: Zwei Stufen
- Allgemeines Wissen: Gerichtszusammenfassungen, Rechtsberichte und öffentliche Fälle, ergänzt durch synthetische Artikel, die von Mistral-12B generiert wurden
- Worst-Case-Szenario: Umfassendes Hintergrundwissen, das alle ursprünglichen Gerichtsurteile enthält
- Exakte Übereinstimmungsgenauigkeit: Anteil der Vorhersagen, die genau mit den ursprünglichen Werten übereinstimmen
- Wort-Level-Recall: Anteil der Wörter in der Vorhersage, die in der ursprünglichen Spanne vorkommen, unter Berücksichtigung von Teilübereinstimmungen
- Spärlicher Abruf: BMx-Modell
- Dichter Abruf: ColBERT-Architektur basierend auf ModernBERT-base
- Füllmodell: Instruction-Tuned-Version und Reasoning-optimierte Version von Qwen3-4B
- Kontextfenster: Lokaler Kontext 1000 Zeichen, Abrufblöcke 1200 Zeichen
- Abrufmenge: Top-10 relevante Textblöcke für jeden PII-Span
Unter Bedingungen allgemeinen Hintergrundwissens:
- Unter einzelnen Reihenfolgestrategien zeigt die entropiebasierte Sortierung die beste Leistung (12,1% exakte Übereinstimmung)
- Gewichtete Abstimmung verbessert die Leistung erheblich, die ALL-Strategie erreicht 14,5%
- Die Erkennungseffektivität von Quasi-Identifikatoren ist besser als die von direkten Identifikatoren
Unter Worst-Case-Hintergrundwissensbedingungen:
- Leistung verbessert sich erheblich, die ALL-Aggregationsstrategie erreicht 48,7% exakte Übereinstimmung
- Erkennungsrate direkter Identifikatoren über 77%+
- Erhebliche Verbesserung im Vergleich zum Instruction-Tuned-Modell
- Im Worst-Case-Szenario erreicht die ALL-Aggregationsstrategie 57,2% exakte Übereinstimmung
- Die entropiebasierte einzelne Reihenfolgestrategie zeigt hervorragende Leistung (55,0%)
- Begrenzte Bedeutung der Reihenfolge: Leistungsunterschiede zwischen verschiedenen einzelnen Reihenfolgestrategien sind relativ gering
- Signifikante Effekte der Aggregation: Multi-Reihenfolge-Aggregation übertrifft durchweg einzelne Reihenfolgestrategien
- Vorteile von Reasoning-Modellen: Reasoning-optimierte Modelle zeigen erhebliche Verbesserungen gegenüber Instruction-Tuned-Modellen
- Kritische Rolle des Hintergrundwissens: Reichhaltiges Hintergrundwissen verbessert die Re-Identifizierungseffektivität erheblich
- Quasi-Identifikatoren sind leichter zu identifizieren: Die Re-Identifizierungseffektivität von Quasi-Identifikatoren ist typischerweise besser als die von direkten Identifikatoren
Wort-Level-Recall-Ergebnisse folgen dem gleichen Trend wie exakte Übereinstimmungen, aber mit höheren Werten, was darauf hindeutet, dass das Modell PII-Inhalte teilweise korrekt identifizieren kann.
- Regelbasierte Methoden
- Statistische Techniken
- Sequenzmarkierungs-Neuronale Modelle
- Große Sprachmodell-Methoden
- Morris et al. verwenden Wikipedia-Infoboxen als Hintergrundwissen
- Charpentier und Lison schlagen abrufverstärkte Re-Identifizierungsmethoden vor
- Dieses Paper erkundet die Rolle von Reihenfolge und Reasoning auf dieser Grundlage
- Aggregationsstrategien sind effektiv: Die Aggregation von Vorhersagen über mehrere Reihenfolgen hinweg verbessert die Re-Identifizierungsleistung erheblich
- Vorteile von Reasoning-Modellen sind deutlich: Mit Reasoning optimierte LLMs zeigen bessere Leistung bei Re-Identifizierungsaufgaben
- Hintergrundwissen ist entscheidend: Reichhaltiges Hintergrundwissen ist ein Schlüsselfaktor für erfolgreiche Re-Identifizierung
- Entropiebasierte Sortierung hat Potenzial: Obwohl die Verbesserung begrenzt ist, zeigt die entropiebasierte Sortierstrategie relativ stabile Leistung
- Modellgrößenbeschränkung: Nur eine einzelne Modellarchitektur und -größe getestet
- Sprachbeschränkung: Nur englischsprachiges Hintergrundwissen berücksichtigt
- Zero-Shot-Einstellung: Potenzial des Few-Shot-Lernens nicht erforscht
- Datentypbeschränkung: Andere Datentypen wie Tabellen oder Wissensgraphen nicht berücksichtigt
- Erforschung der Auswirkungen verschiedener Modellarchitekturen und -größen
- Integration mehrsprachigen Hintergrundwissens
- Untersuchung dynamischer Entropieberechnungsstrategien
- Integration strukturierter Datenquellen
- Problemrelevanz: Datenschutzbewertung ist eine wichtige aktuelle Forschungsrichtung
- Methodische Innovation: Systematische Erforschung der Rolle von Reihenfolge und Aggregationsstrategien
- Ausreichende Experimente: Umfassende Ablationsstudien auf echten Datensätzen
- Praktischer Wert: Bietet wertvolle adversarische Bewertungswerkzeuge zur Verbesserung von Entidentifizierungsmethoden
- Klare Darstellung: Klare Papierstruktur und genaue Beschreibung technischer Details
- Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum bestimmte Reihenfolge- oder Aggregationsstrategien effektiver sind
- Hohe Rechenkosten: Die Inferenzzeit von Reasoning-Modellen ist 25-mal länger als bei Instruction-Modellen, was die Praktikabilität einschränkt
- Einzelner Datensatz: Validierung nur auf Rechtsdatensätzen, Generalisierbarkeit fraglich
- Unzureichende adversarische Überlegungen: Mögliche Gegenmaßnahmen der Verteidigungsseite nicht berücksichtigt
- Akademischer Beitrag: Bietet neue Methoden und Erkenntnisse für die Datenschutzbewertung
- Praktischer Wert: Trägt zur Entwicklung robusterer Entidentifizierungssysteme bei
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Modellinformationen
- Inspirationswert: Bietet mehrere wertvolle Richtungen für zukünftige Forschung
- Datenschutzbewertung: Bewertung der Robustheit von Textentidentifizierungsmethoden
- Red-Team-Tests: Sicherheitstests vor der Bereitstellung von Entidentifizierungssystemen
- Methodenverbesserung: Anleitung zur Entwicklung stärkerer Entidentifizierungstechniken
- Compliance-Überprüfung: Unterstützung von Organisationen bei der Bewertung der Wirksamkeit ihrer Datenschutzmaßnahmen
Das Paper zitiert wichtige Arbeiten in den Bereichen Datenschutz, Textentidentifizierung und abrufverstärkte Generierung und bietet damit eine solide theoretische Grundlage für die Forschung. Besonders hervorzuheben ist die Vorarbeit von Charpentier und Lison (2025), auf der dieses Paper wichtige Erweiterungen vornimmt.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das wichtige Beiträge im kritischen Bereich der Datenschutzbewertung leistet. Obwohl es einige Einschränkungen gibt, haben die vorgeschlagenen Methoden wichtigen praktischen Wert und akademische Bedeutung und legen damit den Grundstein für weitere Entwicklungen in diesem Bereich.