2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID: 韓国裁判所判決文に対する正確かつ効率的な個人識別情報除去フレームワーク

基本情報

論文ID: 2506.15266
タイトル: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
著者: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee（ソウル国立大学）
分類: cs.CL（計算言語学）
発表日時: 2025年10月16日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2506.15266v3

要旨

司法公開と個人データ保護のバランスを確保するため、韓国司法部門は裁判所判決文の公開開示前に個人識別情報の除去処理を要求しています。しかし、現在の除去処理は法的要件の厳格な遵守と大規模な裁判所判決文の処理の両立に課題があります。さらに、個人識別子の法的定義と分類が曖昧であり、技術的解決策に適していません。これらの課題に対処するため、本論文はThunder-DeIDという個人識別情報除去フレームワークを提案し、関連する法律規制と実務慣行との一貫性を保ちます。具体的には、本論文は(i)注釈付き判決文と対応する実体提及リストを含む初の韓国語法律データセットを構築・公開し、(ii)個人識別情報(PII)の体系的な分類方案を導入し、(iii)エンドツーエンドの深層ニューラルネットワーク(DNN)個人識別情報除去パイプラインを開発しました。実験結果は、本モデルが裁判所判決文の個人識別情報除去タスクにおいて最先端の性能を達成したことを示しています。

研究背景と動機

問題定義

本研究は韓国裁判所判決文の個人識別情報除去における3つの核心的問題に対処することを目指しています：

効率のボトルネック：人的方法への過度な依存により行政負担と判決文公開の遅延が生じ、韓国国民の判決文へのアクセス可能性が著しく低下しています
技術性能の低さ：2019年～2025年間、既存の自動個人識別情報除去ツールの全体的精度は8～15%に過ぎません
法的定義の曖昧性：現行法は個人識別子の分類と定義が曖昧であり、特に自動化技術的解決策には適用困難です

研究の重要性

裁判手続の公開性は、韓国を含む多くの国の憲法で規定された重要な民主主義原則です。韓国は裁判所環境において匿名化が必要な個人識別子の範囲がより広く、条件がより厳格です。効果的な個人識別情報除去技術は、司法透明性とプライバシー保護のバランスを取るために不可欠です。

既存方法の限界

プロンプトベースのLLM方法：元の文構造を変更し、文とコンテキストの歪みのリスクがあります
API制限：プライバシーと情報セキュリティの観点から、韓国政府機関はChatGPTなどのAPIサービスの使用を制限しています
大規模処理能力の不足：既存方法は大規模な裁判所判決文の効果的な処理ができません

核心的貢献

初の韓国語法律データセット：6,700個の注釈付き判決文（民事、刑事、行政事件を含む）と48,306個の固有表現を含む二部構成データセットを作成
3層PII分類フレームワーク：48,306個の固有表現の帰納的分析に基づき、体系的な個人識別情報分類方案を提案
専用トークナイザー：形態素解析器Mecab-koとバイト対符号化(BPE)を統合し、韓国語の独特な特性を活用
エンドツーエンドDNNパイプライン：完全な個人識別情報除去フレームワークを開発し、裁判所判決文の個人識別情報除去タスクで最高性能を達成

方法の詳細

タスク定義

入力：個人識別情報を含む原始韓国語裁判所判決文テキスト出力：個人識別情報除去判決文テキスト。機密情報が適切に置換または削除されています制約：韓国関連法規（韓国刑事訴訟法第59-3条、民事訴訟法第163-2条など）に準拠する必要があります

モデルアーキテクチャ

1. データ構築プロセス

匿名化判決文 → プレースホルダ検出と注釈付け → PII分類方案 → 置換リスト生成 → 訓練データ生成

2. Thunder-DeIDモデルファミリー

DeBERTa-v3アーキテクチャに基づき、3つのスケールのモデルを含みます：

Thunder-DeID-370M：3.7億パラメータ、隠れ層次元1024、24層Transformer
Thunder-DeID-800M：8億パラメータ、隠れ層次元1280、36層Transformer
Thunder-DeID-1.5B：15億パラメータ、隠れ層次元2048、24層Transformer

3. トークン化戦略

Mecab-ko形態素解析器とBPEを統合：

Mecab-ko：韓国語膠着語の形態を処理し、語根と助詞を正確に分離
BPE：語彙外(OOV)問題を解決し、未知語を部分語単位として表現

4. 訓練データ生成アルゴリズム

# 疑似コード例
def generate_training_data(annotated_text, replacement_lists):
    # 1. 特殊マーカーペアを識別
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. プレースホルダをスキャンして置換
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. ラベルシーケンスを生成
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

技術的革新点

3層PII分類体系：
- 第1層：直接識別子 vs 準識別子
- 第2層：16の下位カテゴリ（人名、地理情報、組織など）
- 第3層：80の細粒度カテゴリ、729個のラベルに対応
韓国語特化トークン化：
- Mecab-koを利用して「홍길동이」を「홍길동」+「이」に正確に分離
- 目標実体のみを個人識別情報除去し、助詞の完全性を保持
データ拡張戦略：
- Per-Epoch置換：各エポックで異なる実体提及を置換し、データ多様性を増加
- Single置換：固定置換、対比ベースラインとして機能

実験設定

データセット

規模：6,700個の判決文（民事3,000、刑事3,000、行政700）
実体数：48,306個の注釈付き実体
データソース：韓国政府立法部、AI-hub、公開データセット
分割比率：訓練80%、検証10%、テスト10%

評価指標

二値トークンレベル：モデルが個人識別情報除去が必要なトークンを識別する能力を測定
トークンレベル：モデルが特定の実体タイプを分類する精度を測定
指標：適合率、再現率、F1スコア

比較方法

Polyglot-Ko（13億パラメータ）：韓国語専用言語モデル
EXAONE-3.5（24億パラメータ）：韓国語専用デコーダモデル

実装詳細

事前学習コーパス：76.7GB二言語コーパス（韓国語+英語）
シーケンス長：512→2048トークン
最適化器：AdamW、β=(0.9, 0.999)
学習率スケジュール：最初の10%ステップのウォームアップ+余弦減衰
ハードウェア：32×NVIDIA H100 80GB GPU

実験結果

主要結果

モデル	パラメータ数	二値トークンレベルF1	トークンレベルMicro F1
Polyglot-ko	13億	0.9701	0.8765
EXAONE	24億	0.9677	0.8752
Thunder-DeID-370M	3.7億	0.9654	0.8871
Thunder-DeID-800M	8億	0.9791	0.9105
Thunder-DeID-1.5B	15億	0.9808	0.9071