To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
論文ID : 2506.15266タイトル : Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments著者 : Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee(ソウル国立大学)分類 : cs.CL(計算言語学)発表日時 : 2025年10月16日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2506.15266v3 司法公開と個人データ保護のバランスを確保するため、韓国司法部門は裁判所判決文の公開開示前に個人識別情報の除去処理を要求しています。しかし、現在の除去処理は法的要件の厳格な遵守と大規模な裁判所判決文の処理の両立に課題があります。さらに、個人識別子の法的定義と分類が曖昧であり、技術的解決策に適していません。これらの課題に対処するため、本論文はThunder-DeIDという個人識別情報除去フレームワークを提案し、関連する法律規制と実務慣行との一貫性を保ちます。具体的には、本論文は(i)注釈付き判決文と対応する実体提及リストを含む初の韓国語法律データセットを構築・公開し、(ii)個人識別情報(PII)の体系的な分類方案を導入し、(iii)エンドツーエンドの深層ニューラルネットワーク(DNN)個人識別情報除去パイプラインを開発しました。実験結果は、本モデルが裁判所判決文の個人識別情報除去タスクにおいて最先端の性能を達成したことを示しています。
本研究は韓国裁判所判決文の個人識別情報除去における3つの核心的問題に対処することを目指しています:
効率のボトルネック :人的方法への過度な依存により行政負担と判決文公開の遅延が生じ、韓国国民の判決文へのアクセス可能性が著しく低下しています技術性能の低さ :2019年~2025年間、既存の自動個人識別情報除去ツールの全体的精度は8~15%に過ぎません法的定義の曖昧性 :現行法は個人識別子の分類と定義が曖昧であり、特に自動化技術的解決策には適用困難です裁判手続の公開性は、韓国を含む多くの国の憲法で規定された重要な民主主義原則です。韓国は裁判所環境において匿名化が必要な個人識別子の範囲がより広く、条件がより厳格です。効果的な個人識別情報除去技術は、司法透明性とプライバシー保護のバランスを取るために不可欠です。
プロンプトベースのLLM方法 :元の文構造を変更し、文とコンテキストの歪みのリスクがありますAPI制限 :プライバシーと情報セキュリティの観点から、韓国政府機関はChatGPTなどのAPIサービスの使用を制限しています大規模処理能力の不足 :既存方法は大規模な裁判所判決文の効果的な処理ができません初の韓国語法律データセット :6,700個の注釈付き判決文(民事、刑事、行政事件を含む)と48,306個の固有表現を含む二部構成データセットを作成3層PII分類フレームワーク :48,306個の固有表現の帰納的分析に基づき、体系的な個人識別情報分類方案を提案専用トークナイザー :形態素解析器Mecab-koとバイト対符号化(BPE)を統合し、韓国語の独特な特性を活用エンドツーエンドDNNパイプライン :完全な個人識別情報除去フレームワークを開発し、裁判所判決文の個人識別情報除去タスクで最高性能を達成入力 :個人識別情報を含む原始韓国語裁判所判決文テキスト
出力 :個人識別情報除去判決文テキスト。機密情報が適切に置換または削除されています
制約 :韓国関連法規(韓国刑事訴訟法第59-3条、民事訴訟法第163-2条など)に準拠する必要があります
匿名化判決文 → プレースホルダ検出と注釈付け → PII分類方案 → 置換リスト生成 → 訓練データ生成
DeBERTa-v3アーキテクチャに基づき、3つのスケールのモデルを含みます:
Thunder-DeID-370M :3.7億パラメータ、隠れ層次元1024、24層TransformerThunder-DeID-800M :8億パラメータ、隠れ層次元1280、36層TransformerThunder-DeID-1.5B :15億パラメータ、隠れ層次元2048、24層TransformerMecab-ko形態素解析器とBPEを統合:
Mecab-ko :韓国語膠着語の形態を処理し、語根と助詞を正確に分離BPE :語彙外(OOV)問題を解決し、未知語を部分語単位として表現# 疑似コード例
def generate_training_data(annotated_text, replacement_lists):
# 1. 特殊マーカーペアを識別
start_tokens, end_tokens = detect_markers(annotated_text)
# 2. プレースホルダをスキャンして置換
for start_token, end_token in zip(start_tokens, end_tokens):
placeholder_range = extract_range(start_token, end_token)
entity_type = get_entity_type(start_token)
replacement = sample_from_list(replacement_lists[entity_type])
replace_placeholder(placeholder_range, replacement)
# 3. ラベルシーケンスを生成
label_sequence = generate_labels(replaced_text)
return tokenized_sequence, label_sequence
3層PII分類体系 :第1層 :直接識別子 vs 準識別子第2層 :16の下位カテゴリ(人名、地理情報、組織など)第3層 :80の細粒度カテゴリ、729個のラベルに対応韓国語特化トークン化 :Mecab-koを利用して「홍길동이」を「홍길동」+「이」に正確に分離 目標実体のみを個人識別情報除去し、助詞の完全性を保持 データ拡張戦略 :Per-Epoch置換 :各エポックで異なる実体提及を置換し、データ多様性を増加Single置換 :固定置換、対比ベースラインとして機能規模 :6,700個の判決文(民事3,000、刑事3,000、行政700)実体数 :48,306個の注釈付き実体データソース :韓国政府立法部、AI-hub、公開データセット分割比率 :訓練80%、検証10%、テスト10%二値トークンレベル :モデルが個人識別情報除去が必要なトークンを識別する能力を測定トークンレベル :モデルが特定の実体タイプを分類する精度を測定指標 :適合率、再現率、F1スコアPolyglot-Ko (13億パラメータ):韓国語専用言語モデルEXAONE-3.5 (24億パラメータ):韓国語専用デコーダモデル事前学習コーパス :76.7GB二言語コーパス(韓国語+英語)シーケンス長 :512→2048トークン最適化器 :AdamW、β=(0.9, 0.999)学習率スケジュール :最初の10%ステップのウォームアップ+余弦減衰ハードウェア :32×NVIDIA H100 80GB GPUモデル パラメータ数 二値トークンレベルF1 トークンレベルMicro F1 Polyglot-ko 13億 0.9701 0.8765 EXAONE 24億 0.9677 0.8752 Thunder-DeID-370M 3.7億 0.9654 0.8871 Thunder-DeID-800M 8億 0.9791 0.9105 Thunder-DeID-1.5B 15億 0.9808 0.9071
著しい性能向上 :Thunder-DeIDはすべてのスケールでベースラインモデルを上回りましたPer-Epoch優位性 :Per-Epoch置換戦略はすべてのモデルでSingle置換を大幅に上回りましたスケール効果 :最小のThunder-DeID-370Mでさえ、トークンレベル指標でより大きなベースラインモデルを上回りました実用性の突破 :韓国国家裁判所行政処の既存システムの8~15%精度と比較して、大幅な改善を実現しましたモデルは低頻度ラベルの認識に弱点があります:
「뷔페(ビュッフェ)」を「기계설비회사(機械設備会社)」に誤分類することが多い 「불특정제품명(未指定製品名)」と「불특정회사명(未指定会社名)」の混同がある HIPAA指針 :Safe Harbor方法と専門家判定技術進化 :規則ベースシステム→BiLSTM-CRF→BERT→LLM限界 :HIPAA規制がLLMの実際の展開を制限しています各言語の性能比較:
アラビア語 :F1=96.14%ドイツ語/フランス語/イタリア語 :F1=92.40%スペイン語 :F1=91.90%インド語 :F1=91.10%イタリア語 :F1=88.60%本論文は韓国語法律テキストの個人識別情報除去の空白を埋めています。
Thunder-DeIDは韓国裁判所判決文の個人識別情報除去の技術的課題を成功裏に解決しました 3層PII分類方案は法律テキストの個人識別情報除去に体系的なフレームワークを提供します 韓国語特化のトークン化とデータ拡張戦略は、モデル性能を大幅に向上させました 本タスクで最先端の性能を達成し、実際の展開の可能性を備えています データ制限 :法的制限により、真実の世界評価のための原始的な未匿名化判決文を取得できません領域限定 :モデルは民事、刑事、行政法に特化して訓練されており、他の法律領域への汎化能力は不明ですコンテキスト感度 :法律の個人識別情報除去は高度にコンテキストに依存し、異なる法的紛争タイプでのモデル性能は低下する可能性があります合成データ生成 :実際の裁判所判決文に近い合成データ拡張方法の開発クロスドメイン適応 :異なる法律領域でのモデル性能の評価と改善実際の展開 :韓国司法機関との協力による実際の展開テスト実用的意義が大きい :韓国司法制度の実際の課題を解決し、直接的な社会的価値を持ちます技術的革新性 :韓国語特化トークン化、3層PII分類、データ拡張戦略などはすべて革新的です実験の充実性 :包括的なアブレーション実験、複数のベースライン比較、詳細なエラー分析データセット貢献 :初の韓国語法律個人識別情報除去データセット、領域発展を推進法的コンプライアンス :韓国関連法規を厳格に遵守し、実用性を確保評価の限界 :実データでの検証ができず、ドメイン間ギャップのリスクがあります再現性 :一部の実装詳細(具体的な置換リスト構築など)の説明が不十分です計算コスト :大規模GPUリソースが必要で、実際の応用を制限する可能性があります汎化能力 :韓国語以外の言語への適用可能性は不明です学術的貢献 :法律NLPと個人識別情報除去研究に新しいベンチマークと方法を提供実用的価値 :韓国司法制度の効率性と透明性を大幅に改善する可能性があります国際的参考 :他国の法律テキスト個人識別情報除去の参考フレームワークを提供技術推進 :韓国語NLP技術の重要な進展司法機関 :裁判所判決文の自動化個人識別情報除去処理法律研究 :大規模法律テキスト分析と研究政府部門 :テキスト個人識別情報除去が必要な他の公共サービス学術研究 :法律NLP、プライバシー保護などの関連研究本論文は複数の重要な関連研究を引用しており、以下を含みます:
医療分野の個人識別情報除去の古典的研究(Uzuner et al., 2007; Liu et al., 2017) 各国法律テキスト個人識別情報除去研究(Niklaus et al., 2023; Salierno et al., 2024) 韓国語NLP基礎研究(Park et al., 2020; Ko et al., 2023) 関連法規と政策文書 総合評価 :これは高品質の応用指向研究論文であり、技術的革新性があるだけでなく、実際の社会的問題を解決しています。論文の工学的価値と学術的価値は同等であり、法律NLP領域に重要な貢献をしています。いくつかの限界がありますが、瑕疵は全体を損なわず、注目する価値のある優秀な研究です。