Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID: Präzises und effizientes De-Identifizierungsframework für koreanische Gerichtsurteile
Um das Gleichgewicht zwischen Justiztransparenz und Datenschutz zu gewährleisten, verlangt die koreanische Justiz eine De-Identifizierung von Gerichtsurteilen vor ihrer öffentlichen Veröffentlichung. Die derzeitigen De-Identifizierungsprozesse sind jedoch bei der Verarbeitung großer Mengen von Gerichtsurteilen unter strikter Einhaltung rechtlicher Anforderungen unzureichend. Darüber hinaus sind die rechtlichen Definitionen und Klassifizierungen persönlicher Identifikatoren vage und nicht für technische Lösungen geeignet. Um diese Herausforderungen zu bewältigen, wird das Thunder-DeID-De-Identifizierungsframework vorgestellt, das mit einschlägigen Gesetzen und Praktiken konform ist. Konkret wird (i) der erste koreanische Rechtsdatensatz mit annotierten Urteilen und entsprechenden Entitätslisten erstellt und veröffentlicht, (ii) ein systematisches Klassifizierungsschema für persönlich identifizierbare Informationen (PII) eingeführt, (iii) eine End-to-End-Pipeline für tiefe neuronale Netze (DNN) zur De-Identifizierung entwickelt. Die experimentellen Ergebnisse zeigen, dass das Modell bei der De-Identifizierung von Gerichtsurteilen modernste Leistungen erreicht.
Diese Forschung zielt darauf ab, drei Kernprobleme der De-Identifizierung koreanischer Gerichtsurteile zu lösen:
Effizienzengpässe: Übermäßige Abhängigkeit von manuellen Methoden führt zu administrativer Belastung und Verzögerungen bei der Urteilsveröffentlichung; die Zugänglichkeit von Urteilen für die koreanische Öffentlichkeit ist erheblich gering
Schwache technische Leistung: Zwischen 2019 und 2025 betrug die Gesamtgenauigkeit bestehender automatisierter De-Identifizierungswerkzeuge nur 8-15%
Vage rechtliche Definitionen: Die geltenden Gesetze zur Klassifizierung und Definition persönlicher Identifikatoren sind vage und besonders ungeeignet für automatisierte technische Lösungen
Die Öffentlichkeit von Gerichtsverfahren ist ein wichtiges demokratisches Prinzip, das in vielen Ländern, einschließlich Südkorea, in der Verfassung verankert ist. Südkorea hat einen breiteren Umfang und strengere Bedingungen für persönliche Identifikatoren, die im Gerichtsumfeld anonymisiert werden müssen. Wirksame De-Identifizierungstechnologien sind entscheidend für das Gleichgewicht zwischen Justiztransparenz und Datenschutz.
Prompt-basierte LLM-Methoden: Verändern die ursprüngliche Satzstruktur und bergen Risiken von Satz- und Kontextverfälschung
API-Einschränkungen: Aus Datenschutz- und Informationssicherheitsgründen beschränken koreanische Regierungsbehörden die Nutzung von ChatGPT und ähnlichen API-Diensten
Unzureichende Skalierungsfähigkeit: Bestehende Methoden können große Mengen von Gerichtsurteilen nicht wirksam verarbeiten
Erster koreanischer Rechtsdatensatz: Erstellung eines zweiteiligen Datensatzes mit 6.700 annotierten Urteilen (umfassend Zivil-, Straf- und Verwaltungsfälle) und 48.306 benannten Entitäten
Dreischichtiges PII-Klassifizierungsframework: Basierend auf induktiver Analyse von 48.306 benannten Entitäten wird ein systematisches Klassifizierungsschema für persönlich identifizierbare Informationen vorgeschlagen
Spezialisierter Tokenizer: Integration des Morphologie-Analysators Mecab-ko mit Byte Pair Encoding (BPE), das die einzigartigen Merkmale der koreanischen Sprache nutzt
End-to-End-DNN-Pipeline: Entwicklung eines vollständigen De-Identifizierungsframeworks, das bei der De-Identifizierung von Gerichtsurteilen optimale Leistungen erreicht
Eingabe: Originaler koreanischer Gerichtsurteilstext mit persönlich identifizierbaren Informationen
Ausgabe: De-identifizierter Urteilstext, bei dem sensible Informationen angemessen ersetzt oder entfernt werden
Einschränkungen: Muss den koreanischen Gesetzen und Vorschriften entsprechen (z.B. Koreanisches Strafprozessgesetz Artikel 59-3, Zivilprozessgesetz Artikel 163-2 usw.)
Signifikante Leistungsverbesserung: Thunder-DeID übertrifft die Baseline-Modelle in allen Größen
Per-Epoch-Vorteil: Die Per-Epoch-Ersetzungsstrategie ist bei allen Modellen der Single-Ersetzung deutlich überlegen
Skalierungseffekt: Selbst das kleinste Thunder-DeID-370M übertrifft größere Baseline-Modelle bei Token-Ebene-Metriken
Praktischer Durchbruch: Im Vergleich zur bestehenden Genauigkeit von 8-15% des koreanischen Obersten Gerichtshofs wird ein enormer Fortschritt erreicht
Datenbeschränkungen: Aufgrund rechtlicher Einschränkungen können keine ursprünglichen nicht-anonymisierten Urteile für echte Bewertungen erhalten werden
Domänenbeschränkungen: Das Modell ist speziell für Zivil-, Straf- und Verwaltungsrecht trainiert; die Generalisierungsfähigkeit auf andere Rechtsbereiche ist unbekannt
Kontextsensitivität: Die rechtliche De-Identifizierung hängt stark vom Kontext ab; die Modellleistung kann bei verschiedenen Arten von Rechtsstreitigkeiten variieren
Große praktische Bedeutung: Löst echte Probleme des koreanischen Justizsystems mit direktem gesellschaftlichem Wert
Technische Innovation: Koreanisch-spezialisierte Tokenisierung, dreischichtiges PII-Klassifizierungsschema und Datenaugmentierungsstrategien sind alle innovativ
Umfassende Experimente: Vollständige Ablationsstudien, mehrere Baseline-Vergleiche, detaillierte Fehleranalyse
Datensatz-Beitrag: Erster koreanischer Rechtsdatensatz zur De-Identifizierung, fördert die Entwicklung des Feldes
Diese Arbeit zitiert mehrere wichtige verwandte Arbeiten, darunter:
Klassische Arbeiten zur medizinischen De-Identifizierung (Uzuner et al., 2007; Liu et al., 2017)
Forschung zur De-Identifizierung von Rechtstexten in verschiedenen Ländern (Niklaus et al., 2023; Salierno et al., 2024)
Grundlegende Arbeiten zur koreanischen NLP (Park et al., 2020; Ko et al., 2023)
Relevante Gesetze, Vorschriften und Richtliniendokumente
Gesamtbewertung: Dies ist ein hochqualitatives, anwendungsorientiertes Forschungspapier, das nicht nur technische Innovationen bietet, sondern vor allem echte gesellschaftliche Probleme löst. Der Ingenieurwert und der akademische Wert der Arbeit sind gleichermaßen wichtig und leisten einen bedeutenden Beitrag zum Bereich der Rechtswissenschaft-NLP. Trotz einiger Einschränkungen ist dies eine ausgezeichnete Arbeit, die Aufmerksamkeit verdient.