2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID : Cadre de Dé-identification Précis et Efficace pour les Jugements Judiciaires Coréens

Informations Fondamentales

ID de l'article : 2506.15266
Titre : Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Auteurs : Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Université Nationale de Séoul)
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : 16 octobre 2025 (pré-impression arXiv)
Lien de l'article : https://arxiv.org/abs/2506.15266v3

Résumé

Afin d'assurer l'équilibre entre la transparence judiciaire et la protection des données personnelles, le système judiciaire coréen exige une dé-identification avant la divulgation publique des jugements. Cependant, les processus actuels de dé-identification présentent des insuffisances dans le traitement à grande échelle des jugements tout en respectant strictement les exigences légales. De plus, les définitions légales et la classification des identifiants personnels sont floues et inadaptées aux solutions techniques. Pour résoudre ces défis, cet article propose le cadre de dé-identification Thunder-DeID, aligné avec la législation et les pratiques pertinentes. Spécifiquement, l'article (i) construit et publie le premier ensemble de données juridiques coréennes contenant des jugements annotés et des listes d'entités correspondantes, (ii) introduit un schéma de classification systématique des informations personnelles identifiables (PII), (iii) développe un pipeline de dé-identification utilisant des réseaux de neurones profonds (DNN) de bout en bout. Les résultats expérimentaux démontrent que le modèle atteint les performances de pointe sur la tâche de dé-identification des jugements judiciaires.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche vise à résoudre trois problèmes fondamentaux de la dé-identification des jugements coréens :

Goulot d'étranglement d'efficacité : La dépendance excessive aux méthodes manuelles entraîne une charge administrative et des retards de publication, l'accessibilité des jugements pour le public coréen étant significativement faible
Faible performance technique : Entre 2019 et 2025, la précision globale des outils de dé-identification automatique existants n'était que de 8-15%
Définitions légales floues : La législation actuelle concernant la classification et la définition des identifiants personnels est vague, particulièrement inadaptée aux solutions technologiques automatisées

Importance de la Recherche

La publicité des procédures judiciaires est un principe démocratique important stipulé dans les constitutions de nombreux pays, y compris la Corée. La Corée nécessite une gamme plus large et des conditions plus strictes pour les identifiants personnels nécessitant l'anonymisation dans le contexte judiciaire. Une technologie de dé-identification efficace est cruciale pour équilibrer la transparence judiciaire et la protection de la vie privée.

Limitations des Approches Existantes

Méthodes LLM basées sur des invites : Modifient la structure des phrases originales, risquant une distorsion des phrases et du contexte
Limitations d'API : Pour des raisons de confidentialité et de sécurité informatique, les institutions gouvernementales coréennes limitent l'utilisation de services API tels que ChatGPT
Capacité insuffisante de traitement à grande échelle : Les méthodes existantes ne peuvent pas traiter efficacement les jugements à grande échelle

Contributions Principales

Premier ensemble de données juridiques coréen : Création d'un ensemble de données bipartite contenant 6 700 jugements annotés (couvrant les cas civils, pénaux et administratifs) et 48 306 entités nommées
Cadre de classification PII à trois niveaux : Proposition d'un schéma de classification systématique des informations personnelles identifiables basé sur l'analyse inductive de 48 306 entités nommées
Tokeniseur spécialisé : Intégration du morpho-analyseur Mecab-ko avec l'encodage par paires d'octets (BPE), exploitant les caractéristiques uniques du coréen
Pipeline DNN de bout en bout : Développement d'un cadre complet de dé-identification atteignant les meilleures performances sur la tâche de dé-identification des jugements judiciaires

Détails de la Méthodologie

Définition de la Tâche

Entrée : Texte original des jugements judiciaires coréens contenant des informations personnelles identifiables Sortie : Texte du jugement dé-identifié, où les informations sensibles sont appropriément remplacées ou supprimées Contraintes : Doit se conformer à la législation coréenne pertinente (par exemple, article 59-3 du Code de procédure pénale coréen, article 163-2 du Code de procédure civile, etc.)

Architecture du Modèle

1. Processus de Construction des Données

Jugements anonymisés → Détection et annotation des espaces réservés → Schéma de classification PII → Génération de listes de remplacement → Génération de données d'entraînement

2. Famille de Modèles Thunder-DeID

Basée sur l'architecture DeBERTa-v3, contenant trois modèles de tailles différentes :

Thunder-DeID-370M : 370 millions de paramètres, dimension cachée 1024, 24 couches Transformer
Thunder-DeID-800M : 800 millions de paramètres, dimension cachée 1280, 36 couches Transformer
Thunder-DeID-1.5B : 1,5 milliard de paramètres, dimension cachée 2048, 24 couches Transformer

3. Stratégie de Tokenisation

Intégration du morpho-analyseur Mecab-ko avec BPE :

Mecab-ko : Traite la morphologie agglutinative du coréen, séparant précisément les racines et les particules
BPE : Résout le problème du vocabulaire hors-domaine (OOV), représentant les mots non vus comme des unités de sous-mots

4. Algorithme de Génération de Données d'Entraînement

# Exemple de pseudo-code
def generate_training_data(annotated_text, replacement_lists):
    # 1. Identifier les paires de marqueurs spéciaux
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. Parcourir et remplacer les espaces réservés
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. Générer la séquence d'étiquettes
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

Points d'Innovation Technique

Système de classification PII à trois niveaux :
- Premier niveau : Identifiants directs vs quasi-identifiants
- Deuxième niveau : 16 sous-catégories (telles que noms de personnes, informations géographiques, organisations, etc.)
- Troisième niveau : 80 catégories granulaires, correspondant à 729 étiquettes
Tokenisation spécialisée pour le coréen :
- Utilise Mecab-ko pour séparer précisément "홍길동이" en "홍길동" + "이"
- Assure que seules les entités cibles sont dé-identifiées, préservant l'intégrité des particules
Stratégies d'augmentation de données :
- Remplacement par époque : Remplace différentes mentions d'entités à chaque époque, augmentant la diversité des données
- Remplacement unique : Remplacement fixe, servant de base de comparaison

Configuration Expérimentale

Ensemble de Données

Taille : 6 700 jugements (3 000 civils, 3 000 pénaux, 700 administratifs)
Nombre d'entités : 48 306 entités annotées
Sources de données : Département législatif du gouvernement coréen, AI-hub, ensembles de données publics
Ratio de division : 80% entraînement, 10% validation, 10% test

Métriques d'Évaluation

Niveau de jeton binaire : Mesure la capacité du modèle à identifier les jetons nécessitant une dé-identification
Niveau de jeton : Mesure la précision de la classification du modèle pour les types d'entités spécifiques
Indicateurs : Précision, Rappel, Score F1

Méthodes de Comparaison

Polyglot-Ko (1,3 milliard de paramètres) : Modèle de langage spécialisé en coréen
EXAONE-3.5 (2,4 milliards de paramètres) : Modèle décodeur spécialisé en coréen

Détails d'Implémentation

Corpus de pré-entraînement : 76,7 Go de corpus bilingues (coréen + anglais)
Longueur de séquence : 512 → 2048 jetons
Optimiseur : AdamW, β=(0,9, 0,999)
Planification du taux d'apprentissage : Préchauffage sur les 10% premiers pas + décroissance cosinusoïdale
Matériel : 32 × GPU NVIDIA H100 80 Go

Résultats Expérimentaux

Résultats Principaux

Modèle	Paramètres	Score F1 Jeton Binaire	Score F1 Micro Jeton
Polyglot-ko	1,3 B	0,9701	0,8765
EXAONE	2,4 B	0,9677	0,8752
Thunder-DeID-370M	370 M	0,9654	0,8871
Thunder-DeID-800M	800 M	0,9791	0,9105
Thunder-DeID-1.5B	1,5 B	0,9808	0,9071

Résultats Clés

Amélioration significative des performances : Thunder-DeID surpasse tous les modèles de base à toutes les tailles
Avantage du remplacement par époque : La stratégie de remplacement par époque surpasse significativement le remplacement unique sur tous les modèles
Effet d'échelle : Même le plus petit Thunder-DeID-370M surpasse les modèles de base plus grands au niveau des métriques de jeton
Percée pratique : Réalise une amélioration massive par rapport à la précision de 8-15% du système actuel de l'Administration des Tribunaux Nationaux de Corée

Analyse des Erreurs

Le modèle présente des faiblesses dans la reconnaissance des étiquettes peu fréquentes :

Classe souvent incorrectement "뷔페(restaurant buffet)" comme "기계설비회사(entreprise d'équipements mécaniques)"
Confond "불특정제품명(nom de produit non spécifié)" et "불특정회사명(nom d'entreprise non spécifié)"

Travaux Connexes

Dé-identification Médicale

Directives HIPAA : Méthode Safe Harbor et jugement d'expert
Évolution technique : Systèmes basés sur des règles → BiLSTM-CRF → BERT → LLM
Limitations : La réglementation HIPAA limite le déploiement pratique des LLM

Dé-identification des Jugements Judiciaires

Comparaison des performances entre pays :

Arabe : F1=96,14%
Allemand/Français/Italien : F1=92,40%
Espagnol : F1=91,90%
Hindi : F1=91,10%
Italien : F1=88,60%

Cet article comble le vide dans la dé-identification des textes juridiques coréens.

Conclusion et Discussion

Conclusions Principales

Thunder-DeID résout avec succès les défis techniques de la dé-identification des jugements coréens
Le schéma de classification PII à trois niveaux fournit un cadre systématique pour la dé-identification des textes juridiques
La tokenisation spécialisée pour le coréen et les stratégies d'augmentation de données améliorent significativement les performances du modèle
Atteint les performances de pointe sur cette tâche, avec un potentiel de déploiement pratique

Limitations

Limitations des données : En raison des restrictions légales, impossible d'obtenir des jugements originaux non anonymisés pour une évaluation en conditions réelles
Limitations du domaine : Le modèle est entraîné spécifiquement sur le droit civil, pénal et administratif, la capacité de généralisation à d'autres domaines juridiques est inconnue
Sensibilité au contexte : La dé-identification juridique dépend fortement du contexte, les performances du modèle peuvent diminuer sur différents types de litiges

Directions Futures

Génération de données synthétiques : Développer des méthodes d'augmentation de données synthétiques plus proches des jugements réels
Adaptation inter-domaines : Évaluer et améliorer les performances du modèle dans différents domaines juridiques
Déploiement pratique : Collaborer avec les institutions judiciaires coréennes pour les tests de déploiement réel

Évaluation Approfondie

Points Forts

Importance pratique significative : Résout les problèmes réels du système judiciaire coréen, possédant une valeur sociale directe
Innovation technique : La tokenisation spécialisée pour le coréen, la classification PII à trois niveaux, les stratégies d'augmentation de données présentent tous une innovation
Expériences complètes : Études d'ablation complètes, comparaisons avec plusieurs bases de référence, analyses d'erreurs détaillées
Contribution d'ensemble de données : Premier ensemble de données de dé-identification juridique coréen, promouvant le développement du domaine
Conformité légale : Respecte strictement la législation coréenne pertinente, assurant l'applicabilité pratique

Insuffisances

Limitations d'évaluation : Impossible de valider sur des données réelles, risque de décalage inter-domaines
Reproductibilité : Certains détails d'implémentation (comme la construction spécifique des listes de remplacement) manquent de description détaillée
Coût computationnel : Nécessite des ressources GPU à grande échelle, pouvant limiter l'application pratique
Capacité de généralisation : L'applicabilité à des langues autres que le coréen est inconnue

Impact

Contribution académique : Fournit une nouvelle référence et des méthodes pour la recherche en NLP juridique et dé-identification
Valeur pratique : Devrait améliorer significativement l'efficacité et la transparence du système judiciaire coréen
Référence internationale : Fournit un cadre de référence pour la dé-identification de textes juridiques dans d'autres pays
Promotion technologique : Progrès important de la technologie NLP coréenne

Scénarios d'Application

Institutions judiciaires : Traitement automatisé de la dé-identification des jugements judiciaires
Recherche juridique : Analyse et recherche de textes juridiques à grande échelle
Départements gouvernementaux : Autres services publics nécessitant une dé-identification de textes
Recherche académique : Recherche connexe en NLP juridique, protection de la vie privée, etc.

Références

Cet article cite plusieurs travaux connexes importants, notamment :

Travaux classiques en dé-identification médicale (Uzuner et al., 2007; Liu et al., 2017)
Recherches sur la dé-identification de textes juridiques dans divers pays (Niklaus et al., 2023; Salierno et al., 2024)
Travaux fondamentaux en NLP coréen (Park et al., 2020; Ko et al., 2023)
Documents législatifs et politiques pertinents

Évaluation Globale : Ceci est un article de recherche de haute qualité orienté vers l'application, qui non seulement innove sur le plan technique, mais résout surtout un problème social réel. La valeur d'ingénierie et la valeur académique de l'article sont équilibrées, apportant une contribution importante au domaine du NLP juridique. Malgré certaines limitations, les qualités surpassent les défauts, c'est un travail excellent qui mérite l'attention.