2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic

Thunder-DeID: Präzises und effizientes De-Identifizierungsframework für koreanische Gerichtsurteile

Grundinformationen

  • Paper-ID: 2506.15266
  • Titel: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
  • Autoren: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Seoul National University)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2506.15266v3

Zusammenfassung

Um das Gleichgewicht zwischen Justiztransparenz und Datenschutz zu gewährleisten, verlangt die koreanische Justiz eine De-Identifizierung von Gerichtsurteilen vor ihrer öffentlichen Veröffentlichung. Die derzeitigen De-Identifizierungsprozesse sind jedoch bei der Verarbeitung großer Mengen von Gerichtsurteilen unter strikter Einhaltung rechtlicher Anforderungen unzureichend. Darüber hinaus sind die rechtlichen Definitionen und Klassifizierungen persönlicher Identifikatoren vage und nicht für technische Lösungen geeignet. Um diese Herausforderungen zu bewältigen, wird das Thunder-DeID-De-Identifizierungsframework vorgestellt, das mit einschlägigen Gesetzen und Praktiken konform ist. Konkret wird (i) der erste koreanische Rechtsdatensatz mit annotierten Urteilen und entsprechenden Entitätslisten erstellt und veröffentlicht, (ii) ein systematisches Klassifizierungsschema für persönlich identifizierbare Informationen (PII) eingeführt, (iii) eine End-to-End-Pipeline für tiefe neuronale Netze (DNN) zur De-Identifizierung entwickelt. Die experimentellen Ergebnisse zeigen, dass das Modell bei der De-Identifizierung von Gerichtsurteilen modernste Leistungen erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, drei Kernprobleme der De-Identifizierung koreanischer Gerichtsurteile zu lösen:

  1. Effizienzengpässe: Übermäßige Abhängigkeit von manuellen Methoden führt zu administrativer Belastung und Verzögerungen bei der Urteilsveröffentlichung; die Zugänglichkeit von Urteilen für die koreanische Öffentlichkeit ist erheblich gering
  2. Schwache technische Leistung: Zwischen 2019 und 2025 betrug die Gesamtgenauigkeit bestehender automatisierter De-Identifizierungswerkzeuge nur 8-15%
  3. Vage rechtliche Definitionen: Die geltenden Gesetze zur Klassifizierung und Definition persönlicher Identifikatoren sind vage und besonders ungeeignet für automatisierte technische Lösungen

Forschungsbedeutung

Die Öffentlichkeit von Gerichtsverfahren ist ein wichtiges demokratisches Prinzip, das in vielen Ländern, einschließlich Südkorea, in der Verfassung verankert ist. Südkorea hat einen breiteren Umfang und strengere Bedingungen für persönliche Identifikatoren, die im Gerichtsumfeld anonymisiert werden müssen. Wirksame De-Identifizierungstechnologien sind entscheidend für das Gleichgewicht zwischen Justiztransparenz und Datenschutz.

Einschränkungen bestehender Methoden

  • Prompt-basierte LLM-Methoden: Verändern die ursprüngliche Satzstruktur und bergen Risiken von Satz- und Kontextverfälschung
  • API-Einschränkungen: Aus Datenschutz- und Informationssicherheitsgründen beschränken koreanische Regierungsbehörden die Nutzung von ChatGPT und ähnlichen API-Diensten
  • Unzureichende Skalierungsfähigkeit: Bestehende Methoden können große Mengen von Gerichtsurteilen nicht wirksam verarbeiten

Kernbeiträge

  1. Erster koreanischer Rechtsdatensatz: Erstellung eines zweiteiligen Datensatzes mit 6.700 annotierten Urteilen (umfassend Zivil-, Straf- und Verwaltungsfälle) und 48.306 benannten Entitäten
  2. Dreischichtiges PII-Klassifizierungsframework: Basierend auf induktiver Analyse von 48.306 benannten Entitäten wird ein systematisches Klassifizierungsschema für persönlich identifizierbare Informationen vorgeschlagen
  3. Spezialisierter Tokenizer: Integration des Morphologie-Analysators Mecab-ko mit Byte Pair Encoding (BPE), das die einzigartigen Merkmale der koreanischen Sprache nutzt
  4. End-to-End-DNN-Pipeline: Entwicklung eines vollständigen De-Identifizierungsframeworks, das bei der De-Identifizierung von Gerichtsurteilen optimale Leistungen erreicht

Methodische Details

Aufgabendefinition

Eingabe: Originaler koreanischer Gerichtsurteilstext mit persönlich identifizierbaren Informationen Ausgabe: De-identifizierter Urteilstext, bei dem sensible Informationen angemessen ersetzt oder entfernt werden Einschränkungen: Muss den koreanischen Gesetzen und Vorschriften entsprechen (z.B. Koreanisches Strafprozessgesetz Artikel 59-3, Zivilprozessgesetz Artikel 163-2 usw.)

Modellarchitektur

1. Datenkonstruktionsprozess

Anonymisierte Urteile → Platzhalter-Erkennung und Annotation → PII-Klassifizierungsschema → Ersetzungslisten-Generierung → Trainingsdaten-Generierung

2. Thunder-DeID-Modellfamilie

Basierend auf der DeBERTa-v3-Architektur mit drei Modellgrößen:

  • Thunder-DeID-370M: 370 Millionen Parameter, verborgene Dimension 1024, 24 Transformer-Schichten
  • Thunder-DeID-800M: 800 Millionen Parameter, verborgene Dimension 1280, 36 Transformer-Schichten
  • Thunder-DeID-1.5B: 1,5 Milliarden Parameter, verborgene Dimension 2048, 24 Transformer-Schichten

3. Tokenisierungsstrategie

Integration des Mecab-ko-Morphologie-Analysators mit BPE:

  • Mecab-ko: Verarbeitet koreanische agglutinative Morphologie, trennt präzise Wortbasen und Partikeln
  • BPE: Löst das Out-of-Vocabulary (OOV)-Problem, indem unbekannte Wörter als Subwort-Einheiten dargestellt werden

4. Trainingsdaten-Generierungsalgorithmus

# Pseudocode-Beispiel
def generate_training_data(annotated_text, replacement_lists):
    # 1. Spezielle Marker-Paare identifizieren
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. Platzhalter scannen und ersetzen
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. Label-Sequenz generieren
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

Technische Innovationen

  1. Dreischichtiges PII-Klassifizierungssystem:
    • Erste Schicht: Direkte Identifikatoren vs. Quasi-Identifikatoren
    • Zweite Schicht: 16 Unterkategorien (z.B. Personennamen, geografische Informationen, Organisationen usw.)
    • Dritte Schicht: 80 feinkörnige Kategorien, entsprechend 729 Labels
  2. Koreanisch-spezialisierte Tokenisierung:
    • Nutzt Mecab-ko zur präzisen Trennung von "홍길동이" in "홍길동" + "이"
    • Gewährleistet, dass nur Zielentitäten de-identifiziert werden, während Partikeln erhalten bleiben
  3. Datenaugmentierungsstrategien:
    • Per-Epoch-Ersetzung: Ersetzt verschiedene Entitätserwähnungen in jedem Epoch, erhöht Datendiversität
    • Single-Ersetzung: Feste Ersetzung als Vergleichsbaseline

Experimentelle Einrichtung

Datensatz

  • Umfang: 6.700 Urteile (Zivilrecht 3.000, Strafrecht 3.000, Verwaltungsrecht 700)
  • Entitätsmenge: 48.306 annotierte Entitäten
  • Datenquellen: Koreanisches Legislativbüro der Regierung, AI-hub, öffentliche Datensätze
  • Aufteilungsverhältnis: Training 80%, Validierung 10%, Test 10%

Bewertungsmetriken

  1. Binäre Token-Ebene: Misst die Fähigkeit des Modells, Token zu identifizieren, die de-identifiziert werden müssen
  2. Token-Ebene: Misst die Genauigkeit des Modells bei der Klassifizierung spezifischer Entitätstypen
  3. Metriken: Precision, Recall, F1-Score

Vergleichsmethoden

  • Polyglot-Ko (1,3B Parameter): Koreanisch-spezialisiertes Sprachmodell
  • EXAONE-3.5 (2,4B Parameter): Koreanisch-spezialisiertes Decoder-Modell

Implementierungsdetails

  • Vortrainings-Korpus: 76,7 GB zweisprachiges Korpus (Koreanisch + Englisch)
  • Sequenzlänge: 512→2048 Tokens
  • Optimierer: AdamW, β=(0,9, 0,999)
  • Lernraten-Planung: 10% Schritte Aufwärmphase + Kosinus-Abfall
  • Hardware: 32×NVIDIA H100 80GB GPUs

Experimentelle Ergebnisse

Hauptergebnisse

ModellParameterBinäre Token-Ebene F1Token-Ebene Micro F1
Polyglot-ko1,3B0,97010,8765
EXAONE2,4B0,96770,8752
Thunder-DeID-370M370M0,96540,8871
Thunder-DeID-800M800M0,97910,9105
Thunder-DeID-1.5B1,5B0,98080,9071

Wichtigste Erkenntnisse

  1. Signifikante Leistungsverbesserung: Thunder-DeID übertrifft die Baseline-Modelle in allen Größen
  2. Per-Epoch-Vorteil: Die Per-Epoch-Ersetzungsstrategie ist bei allen Modellen der Single-Ersetzung deutlich überlegen
  3. Skalierungseffekt: Selbst das kleinste Thunder-DeID-370M übertrifft größere Baseline-Modelle bei Token-Ebene-Metriken
  4. Praktischer Durchbruch: Im Vergleich zur bestehenden Genauigkeit von 8-15% des koreanischen Obersten Gerichtshofs wird ein enormer Fortschritt erreicht

Fehleranalyse

Das Modell zeigt Schwächen bei der Erkennung seltener Labels:

  • Verwechselt häufig "뷔페(Selbstbedienungsrestaurant)" mit "기계설비회사(Maschinenbauunternehmen)"
  • Verwechselt "불특정제품명(unspezifischer Produktname)" und "불특정회사명(unspezifischer Unternehmensname)"

Verwandte Arbeiten

Medizinische De-Identifizierung

  • HIPAA-Richtlinien: Safe Harbor-Methode und Expertenurteil
  • Technische Entwicklung: Regelsysteme→BiLSTM-CRF→BERT→LLM
  • Einschränkungen: HIPAA-Vorschriften begrenzen die praktische Bereitstellung von LLMs

De-Identifizierung von Gerichtsurteilen

Leistungsvergleich nach Ländern:

  • Arabisch: F1=96,14%
  • Deutsch/Französisch/Italienisch: F1=92,40%
  • Spanisch: F1=91,90%
  • Indisch: F1=91,10%
  • Italienisch: F1=88,60%

Diese Arbeit füllt die Lücke in der De-Identifizierung koreanischer Rechtstexte.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Thunder-DeID löst erfolgreich die technischen Herausforderungen der De-Identifizierung koreanischer Gerichtsurteile
  2. Das dreischichtige PII-Klassifizierungsschema bietet einen systematischen Rahmen für die De-Identifizierung von Rechtstexten
  3. Koreanisch-spezialisierte Tokenisierung und Datenaugmentierungsstrategien verbessern die Modellleistung erheblich
  4. Erreicht modernste Leistungen bei dieser Aufgabe mit Potenzial für praktische Bereitstellung

Einschränkungen

  1. Datenbeschränkungen: Aufgrund rechtlicher Einschränkungen können keine ursprünglichen nicht-anonymisierten Urteile für echte Bewertungen erhalten werden
  2. Domänenbeschränkungen: Das Modell ist speziell für Zivil-, Straf- und Verwaltungsrecht trainiert; die Generalisierungsfähigkeit auf andere Rechtsbereiche ist unbekannt
  3. Kontextsensitivität: Die rechtliche De-Identifizierung hängt stark vom Kontext ab; die Modellleistung kann bei verschiedenen Arten von Rechtsstreitigkeiten variieren

Zukünftige Richtungen

  1. Synthetische Datengenerierung: Entwicklung von Methoden zur Datenerweiterung, die echten Gerichtsurteilen näher kommen
  2. Domänenübergreifende Anpassung: Bewertung und Verbesserung der Modellleistung in verschiedenen Rechtsbereichen
  3. Praktische Bereitstellung: Zusammenarbeit mit koreanischen Justizbehörden für praktische Bereitstellungstests

Tiefgreifende Bewertung

Stärken

  1. Große praktische Bedeutung: Löst echte Probleme des koreanischen Justizsystems mit direktem gesellschaftlichem Wert
  2. Technische Innovation: Koreanisch-spezialisierte Tokenisierung, dreischichtiges PII-Klassifizierungsschema und Datenaugmentierungsstrategien sind alle innovativ
  3. Umfassende Experimente: Vollständige Ablationsstudien, mehrere Baseline-Vergleiche, detaillierte Fehleranalyse
  4. Datensatz-Beitrag: Erster koreanischer Rechtsdatensatz zur De-Identifizierung, fördert die Entwicklung des Feldes
  5. Rechtliche Konformität: Strenge Einhaltung koreanischer Gesetze und Vorschriften, gewährleistet praktische Anwendbarkeit

Schwächen

  1. Bewertungsbeschränkungen: Keine Validierung auf echten Daten, Risiko von Domain-Gap
  2. Reproduzierbarkeit: Einige Implementierungsdetails (z.B. spezifische Ersetzungslisten-Konstruktion) sind nicht ausreichend beschrieben
  3. Rechenkosten: Erfordert umfangreiche GPU-Ressourcen, kann praktische Anwendungen einschränken
  4. Generalisierungsfähigkeit: Anwendbarkeit auf Sprachen außer Koreanisch ist unbekannt

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Benchmarks und Methoden für Rechtswissenschaft-NLP und De-Identifizierungsforschung
  2. Praktischer Wert: Verspricht erhebliche Verbesserung der Effizienz und Transparenz des koreanischen Justizsystems
  3. Internationale Referenz: Bietet Referenzrahmen für De-Identifizierung von Rechtstexten in anderen Ländern
  4. Technologische Förderung: Wichtiger Fortschritt in der koreanischen NLP-Technologie

Anwendungsszenarien

  1. Justizbehörden: Automatisierte De-Identifizierung von Gerichtsurteilen
  2. Rechtsforschung: Großflächige Analyse und Forschung von Rechtstexten
  3. Regierungsbehörden: Andere öffentliche Dienste, die Textde-Identifizierung benötigen
  4. Akademische Forschung: Verwandte Forschung in Rechtswissenschaft-NLP und Datenschutz

Literaturverzeichnis

Diese Arbeit zitiert mehrere wichtige verwandte Arbeiten, darunter:

  • Klassische Arbeiten zur medizinischen De-Identifizierung (Uzuner et al., 2007; Liu et al., 2017)
  • Forschung zur De-Identifizierung von Rechtstexten in verschiedenen Ländern (Niklaus et al., 2023; Salierno et al., 2024)
  • Grundlegende Arbeiten zur koreanischen NLP (Park et al., 2020; Ko et al., 2023)
  • Relevante Gesetze, Vorschriften und Richtliniendokumente

Gesamtbewertung: Dies ist ein hochqualitatives, anwendungsorientiertes Forschungspapier, das nicht nur technische Innovationen bietet, sondern vor allem echte gesellschaftliche Probleme löst. Der Ingenieurwert und der akademische Wert der Arbeit sind gleichermaßen wichtig und leisten einen bedeutenden Beitrag zum Bereich der Rechtswissenschaft-NLP. Trotz einiger Einschränkungen ist dies eine ausgezeichnete Arbeit, die Aufmerksamkeit verdient.