2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

基本信息

论文ID: 2506.15266
标题: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
作者: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Seoul National University)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2506.15266v3

摘要

为了确保司法公开与个人数据保护之间的平衡，韩国司法部门要求在公开披露法院判决书前必须进行去标识化处理。然而，当前的去标识化流程在严格遵守法律要求的同时处理大规模法院判决书方面存在不足。此外，个人标识符的法律定义和分类模糊，不适合技术解决方案。为解决这些挑战，本文提出了Thunder-DeID去标识化框架，该框架与相关法律法规和实践保持一致。具体来说，本文(i)构建并发布了首个包含标注判决书及相应实体提及列表的韩语法律数据集，(ii)引入了个人可识别信息(PII)的系统分类方案，(iii)开发了端到端的深度神经网络(DNN)去标识化流水线。实验结果表明，该模型在法院判决书去标识化任务上达到了最先进的性能。

研究背景与动机

问题定义

本研究旨在解决韩国法院判决书去标识化的三个核心问题：

效率瓶颈：过度依赖人工方法导致行政负担和判决书发布延迟，韩国公众对判决书的可访问性显著偏低
技术性能低下：2019-2025年间，现有自动去标识化工具的整体准确率仅为8-15%
法律定义模糊：现行法律对个人标识符的分类和定义模糊，特别不适用于自动化技术解决方案

研究重要性

法院程序的公开性是包括韩国在内的许多国家宪法规定的重要民主原则。韩国在法院环境中需要匿名化的个人标识符范围更广，条件更严格。有效的去标识化技术对于平衡司法透明度和隐私保护至关重要。

现有方法局限性

基于提示的LLM方法：会改变原始句子结构，存在句子和上下文失真风险
API限制：出于隐私和信息安全考虑，韩国政府机构限制使用ChatGPT等API服务
规模化处理能力不足：现有方法无法有效处理大规模法院判决书

核心贡献

首个韩语法律数据集：创建包含6,700个标注判决书（涵盖民事、刑事、行政案例）和48,306个命名实体的双部分数据集
三层PII分类框架：基于对48,306个命名实体的归纳分析，提出系统性的个人可识别信息分类方案
专用分词器：将形态分析器Mecab-ko与字节对编码(BPE)集成，利用韩语独特特征
端到端DNN流水线：开发完整的去标识化框架，在法院判决书去标识化任务上达到最佳性能

方法详解

任务定义

输入：包含个人可识别信息的原始韩语法院判决书文本输出：去标识化的判决书文本，其中敏感信息被适当替换或移除约束：必须符合韩国相关法律法规（如韩国刑事诉讼法第59-3条、民事诉讼法第163-2条等）

模型架构

1. 数据构建流程

匿名化判决书 → 占位符检测与标注 → PII分类方案 → 替换列表生成 → 训练数据生成

2. Thunder-DeID模型家族

基于DeBERTa-v3架构，包含三个规模的模型：

Thunder-DeID-370M：3.7亿参数，隐藏维度1024，24层Transformer
Thunder-DeID-800M：8亿参数，隐藏维度1280，36层Transformer
Thunder-DeID-1.5B：15亿参数，隐藏维度2048，24层Transformer

3. 分词策略

集成Mecab-ko形态分析器与BPE：

Mecab-ko：处理韩语粘着语形态，准确分离词根和助词
BPE：解决词汇表外(OOV)问题，将未见词表示为子词单元

4. 训练数据生成算法

# 伪代码示例
def generate_training_data(annotated_text, replacement_lists):
    # 1. 识别特殊标记对
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. 扫描并替换占位符
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. 生成标签序列
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

技术创新点

三层PII分类体系：
- 第一层：直接标识符 vs 准标识符
- 第二层：16个子类别（如人名、地理信息、组织等）
- 第三层：80个细粒度类别，对应729个标签
韩语特化分词：
- 利用Mecab-ko精确分离"홍길동이"为"홍길동"+"이"
- 确保只对目标实体去标识化，保持助词完整性
数据增强策略：
- Per-Epoch替换：每个epoch替换不同的实体提及，增加数据多样性
- Single替换：固定替换，作为对比基线

实验设置

数据集

规模：6,700个判决书（民事3,000，刑事3,000，行政700）
实体数量：48,306个标注实体
数据来源：韩国政府立法部、AI-hub、公开数据集
划分比例：训练80%，验证10%，测试10%

评价指标

二元Token级别：衡量模型识别需要去标识化token的能力
Token级别：衡量模型对特定实体类型分类的准确性
指标：Precision、Recall、F1-score

对比方法

Polyglot-Ko (1.3B参数)：韩语专用语言模型
EXAONE-3.5 (2.4B参数)：韩语专用解码器模型

实现细节

预训练语料：76.7GB双语语料（韩语+英语）
序列长度：512→2048 tokens
优化器：AdamW，β=(0.9, 0.999)
学习率调度：前10%步骤预热+余弦衰减
硬件：32×NVIDIA H100 80GB GPUs

实验结果

主要结果

模型	参数量	二元Token级F1	Token级Micro F1
Polyglot-ko	1.3B	0.9701	0.8765
EXAONE	2.4B	0.9677	0.8752
Thunder-DeID-370M	370M	0.9654	0.8871
Thunder-DeID-800M	800M	0.9791	0.9105
Thunder-DeID-1.5B	1.5B	0.9808	0.9071