Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID : Cadre de Dé-identification Précis et Efficace pour les Jugements Judiciaires Coréens
Afin d'assurer l'équilibre entre la transparence judiciaire et la protection des données personnelles, le système judiciaire coréen exige une dé-identification avant la divulgation publique des jugements. Cependant, les processus actuels de dé-identification présentent des insuffisances dans le traitement à grande échelle des jugements tout en respectant strictement les exigences légales. De plus, les définitions légales et la classification des identifiants personnels sont floues et inadaptées aux solutions techniques. Pour résoudre ces défis, cet article propose le cadre de dé-identification Thunder-DeID, aligné avec la législation et les pratiques pertinentes. Spécifiquement, l'article (i) construit et publie le premier ensemble de données juridiques coréennes contenant des jugements annotés et des listes d'entités correspondantes, (ii) introduit un schéma de classification systématique des informations personnelles identifiables (PII), (iii) développe un pipeline de dé-identification utilisant des réseaux de neurones profonds (DNN) de bout en bout. Les résultats expérimentaux démontrent que le modèle atteint les performances de pointe sur la tâche de dé-identification des jugements judiciaires.
Cette recherche vise à résoudre trois problèmes fondamentaux de la dé-identification des jugements coréens :
Goulot d'étranglement d'efficacité : La dépendance excessive aux méthodes manuelles entraîne une charge administrative et des retards de publication, l'accessibilité des jugements pour le public coréen étant significativement faible
Faible performance technique : Entre 2019 et 2025, la précision globale des outils de dé-identification automatique existants n'était que de 8-15%
Définitions légales floues : La législation actuelle concernant la classification et la définition des identifiants personnels est vague, particulièrement inadaptée aux solutions technologiques automatisées
La publicité des procédures judiciaires est un principe démocratique important stipulé dans les constitutions de nombreux pays, y compris la Corée. La Corée nécessite une gamme plus large et des conditions plus strictes pour les identifiants personnels nécessitant l'anonymisation dans le contexte judiciaire. Une technologie de dé-identification efficace est cruciale pour équilibrer la transparence judiciaire et la protection de la vie privée.
Méthodes LLM basées sur des invites : Modifient la structure des phrases originales, risquant une distorsion des phrases et du contexte
Limitations d'API : Pour des raisons de confidentialité et de sécurité informatique, les institutions gouvernementales coréennes limitent l'utilisation de services API tels que ChatGPT
Capacité insuffisante de traitement à grande échelle : Les méthodes existantes ne peuvent pas traiter efficacement les jugements à grande échelle
Premier ensemble de données juridiques coréen : Création d'un ensemble de données bipartite contenant 6 700 jugements annotés (couvrant les cas civils, pénaux et administratifs) et 48 306 entités nommées
Cadre de classification PII à trois niveaux : Proposition d'un schéma de classification systématique des informations personnelles identifiables basé sur l'analyse inductive de 48 306 entités nommées
Tokeniseur spécialisé : Intégration du morpho-analyseur Mecab-ko avec l'encodage par paires d'octets (BPE), exploitant les caractéristiques uniques du coréen
Pipeline DNN de bout en bout : Développement d'un cadre complet de dé-identification atteignant les meilleures performances sur la tâche de dé-identification des jugements judiciaires
Entrée : Texte original des jugements judiciaires coréens contenant des informations personnelles identifiables
Sortie : Texte du jugement dé-identifié, où les informations sensibles sont appropriément remplacées ou supprimées
Contraintes : Doit se conformer à la législation coréenne pertinente (par exemple, article 59-3 du Code de procédure pénale coréen, article 163-2 du Code de procédure civile, etc.)
Jugements anonymisés → Détection et annotation des espaces réservés → Schéma de classification PII → Génération de listes de remplacement → Génération de données d'entraînement
Amélioration significative des performances : Thunder-DeID surpasse tous les modèles de base à toutes les tailles
Avantage du remplacement par époque : La stratégie de remplacement par époque surpasse significativement le remplacement unique sur tous les modèles
Effet d'échelle : Même le plus petit Thunder-DeID-370M surpasse les modèles de base plus grands au niveau des métriques de jeton
Percée pratique : Réalise une amélioration massive par rapport à la précision de 8-15% du système actuel de l'Administration des Tribunaux Nationaux de Corée
Limitations des données : En raison des restrictions légales, impossible d'obtenir des jugements originaux non anonymisés pour une évaluation en conditions réelles
Limitations du domaine : Le modèle est entraîné spécifiquement sur le droit civil, pénal et administratif, la capacité de généralisation à d'autres domaines juridiques est inconnue
Sensibilité au contexte : La dé-identification juridique dépend fortement du contexte, les performances du modèle peuvent diminuer sur différents types de litiges
Importance pratique significative : Résout les problèmes réels du système judiciaire coréen, possédant une valeur sociale directe
Innovation technique : La tokenisation spécialisée pour le coréen, la classification PII à trois niveaux, les stratégies d'augmentation de données présentent tous une innovation
Expériences complètes : Études d'ablation complètes, comparaisons avec plusieurs bases de référence, analyses d'erreurs détaillées
Contribution d'ensemble de données : Premier ensemble de données de dé-identification juridique coréen, promouvant le développement du domaine
Cet article cite plusieurs travaux connexes importants, notamment :
Travaux classiques en dé-identification médicale (Uzuner et al., 2007; Liu et al., 2017)
Recherches sur la dé-identification de textes juridiques dans divers pays (Niklaus et al., 2023; Salierno et al., 2024)
Travaux fondamentaux en NLP coréen (Park et al., 2020; Ko et al., 2023)
Documents législatifs et politiques pertinents
Évaluation Globale : Ceci est un article de recherche de haute qualité orienté vers l'application, qui non seulement innove sur le plan technique, mais résout surtout un problème social réel. La valeur d'ingénierie et la valeur académique de l'article sont équilibrées, apportant une contribution importante au domaine du NLP juridique. Malgré certaines limitations, les qualités surpassent les défauts, c'est un travail excellent qui mérite l'attention.