2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

基本信息

  • 论文ID: 2506.15266
  • 标题: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
  • 作者: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Seoul National University)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年10月16日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2506.15266v3

摘要

为了确保司法公开与个人数据保护之间的平衡,韩国司法部门要求在公开披露法院判决书前必须进行去标识化处理。然而,当前的去标识化流程在严格遵守法律要求的同时处理大规模法院判决书方面存在不足。此外,个人标识符的法律定义和分类模糊,不适合技术解决方案。为解决这些挑战,本文提出了Thunder-DeID去标识化框架,该框架与相关法律法规和实践保持一致。具体来说,本文(i)构建并发布了首个包含标注判决书及相应实体提及列表的韩语法律数据集,(ii)引入了个人可识别信息(PII)的系统分类方案,(iii)开发了端到端的深度神经网络(DNN)去标识化流水线。实验结果表明,该模型在法院判决书去标识化任务上达到了最先进的性能。

研究背景与动机

问题定义

本研究旨在解决韩国法院判决书去标识化的三个核心问题:

  1. 效率瓶颈:过度依赖人工方法导致行政负担和判决书发布延迟,韩国公众对判决书的可访问性显著偏低
  2. 技术性能低下:2019-2025年间,现有自动去标识化工具的整体准确率仅为8-15%
  3. 法律定义模糊:现行法律对个人标识符的分类和定义模糊,特别不适用于自动化技术解决方案

研究重要性

法院程序的公开性是包括韩国在内的许多国家宪法规定的重要民主原则。韩国在法院环境中需要匿名化的个人标识符范围更广,条件更严格。有效的去标识化技术对于平衡司法透明度和隐私保护至关重要。

现有方法局限性

  • 基于提示的LLM方法:会改变原始句子结构,存在句子和上下文失真风险
  • API限制:出于隐私和信息安全考虑,韩国政府机构限制使用ChatGPT等API服务
  • 规模化处理能力不足:现有方法无法有效处理大规模法院判决书

核心贡献

  1. 首个韩语法律数据集:创建包含6,700个标注判决书(涵盖民事、刑事、行政案例)和48,306个命名实体的双部分数据集
  2. 三层PII分类框架:基于对48,306个命名实体的归纳分析,提出系统性的个人可识别信息分类方案
  3. 专用分词器:将形态分析器Mecab-ko与字节对编码(BPE)集成,利用韩语独特特征
  4. 端到端DNN流水线:开发完整的去标识化框架,在法院判决书去标识化任务上达到最佳性能

方法详解

任务定义

输入:包含个人可识别信息的原始韩语法院判决书文本 输出:去标识化的判决书文本,其中敏感信息被适当替换或移除 约束:必须符合韩国相关法律法规(如韩国刑事诉讼法第59-3条、民事诉讼法第163-2条等)

模型架构

1. 数据构建流程

匿名化判决书 → 占位符检测与标注 → PII分类方案 → 替换列表生成 → 训练数据生成

2. Thunder-DeID模型家族

基于DeBERTa-v3架构,包含三个规模的模型:

  • Thunder-DeID-370M:3.7亿参数,隐藏维度1024,24层Transformer
  • Thunder-DeID-800M:8亿参数,隐藏维度1280,36层Transformer
  • Thunder-DeID-1.5B:15亿参数,隐藏维度2048,24层Transformer

3. 分词策略

集成Mecab-ko形态分析器与BPE:

  • Mecab-ko:处理韩语粘着语形态,准确分离词根和助词
  • BPE:解决词汇表外(OOV)问题,将未见词表示为子词单元

4. 训练数据生成算法

# 伪代码示例
def generate_training_data(annotated_text, replacement_lists):
    # 1. 识别特殊标记对
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. 扫描并替换占位符
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. 生成标签序列
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

技术创新点

  1. 三层PII分类体系
    • 第一层:直接标识符 vs 准标识符
    • 第二层:16个子类别(如人名、地理信息、组织等)
    • 第三层:80个细粒度类别,对应729个标签
  2. 韩语特化分词
    • 利用Mecab-ko精确分离"홍길동이"为"홍길동"+"이"
    • 确保只对目标实体去标识化,保持助词完整性
  3. 数据增强策略
    • Per-Epoch替换:每个epoch替换不同的实体提及,增加数据多样性
    • Single替换:固定替换,作为对比基线

实验设置

数据集

  • 规模:6,700个判决书(民事3,000,刑事3,000,行政700)
  • 实体数量:48,306个标注实体
  • 数据来源:韩国政府立法部、AI-hub、公开数据集
  • 划分比例:训练80%,验证10%,测试10%

评价指标

  1. 二元Token级别:衡量模型识别需要去标识化token的能力
  2. Token级别:衡量模型对特定实体类型分类的准确性
  3. 指标:Precision、Recall、F1-score

对比方法

  • Polyglot-Ko (1.3B参数):韩语专用语言模型
  • EXAONE-3.5 (2.4B参数):韩语专用解码器模型

实现细节

  • 预训练语料:76.7GB双语语料(韩语+英语)
  • 序列长度:512→2048 tokens
  • 优化器:AdamW,β=(0.9, 0.999)
  • 学习率调度:前10%步骤预热+余弦衰减
  • 硬件:32×NVIDIA H100 80GB GPUs

实验结果

主要结果

模型参数量二元Token级F1Token级Micro F1
Polyglot-ko1.3B0.97010.8765
EXAONE2.4B0.96770.8752
Thunder-DeID-370M370M0.96540.8871
Thunder-DeID-800M800M0.97910.9105
Thunder-DeID-1.5B1.5B0.98080.9071

关键发现

  1. 显著性能提升:Thunder-DeID在所有规模上都超越了基线模型
  2. Per-Epoch优势:Per-Epoch替换策略在所有模型上都显著优于Single替换
  3. 规模效应:即使最小的Thunder-DeID-370M也在token级别指标上超越了更大的基线模型
  4. 实用性突破:相比韩国国家法院行政处现有系统的8-15%准确率,实现了巨大提升

错误分析

模型在低频标签识别上存在弱点:

  • 经常将"뷔페(自助餐厅)"误分类为"기계설비회사(机械设备公司)"
  • 对"불특정제품명(未指定产品名称)"和"불특정회사명(未指定公司名称)"存在混淆

相关工作

医疗去标识化

  • HIPAA指导:Safe Harbor方法和专家判定
  • 技术演进:规则系统→BiLSTM-CRF→BERT→LLM
  • 局限性:HIPAA法规限制了LLM的实际部署

法院判决去标识化

各国性能对比:

  • 阿拉伯语:F1=96.14%
  • 德语/法语/意大利语:F1=92.40%
  • 西班牙语:F1=91.90%
  • 印度语:F1=91.10%
  • 意大利语:F1=88.60%

本文工作填补了韩语法律文本去标识化的空白。

结论与讨论

主要结论

  1. Thunder-DeID成功解决了韩国法院判决书去标识化的技术挑战
  2. 三层PII分类方案为法律文本去标识化提供了系统性框架
  3. 韩语特化的分词和数据增强策略显著提升了模型性能
  4. 达到了在该任务上的最先进性能,具备实际部署潜力

局限性

  1. 数据限制:由于法律限制,无法获取原始未匿名化判决书进行真实世界评估
  2. 领域局限:模型专门针对民事、刑事、行政法训练,对其他法律领域的泛化能力未知
  3. 上下文敏感性:法律去标识化高度依赖上下文,模型在不同法律争议类型上的性能可能下降

未来方向

  1. 合成数据生成:开发更接近真实法院判决书的合成数据增强方法
  2. 跨领域适应:评估和改进模型在不同法律领域的性能
  3. 实际部署:与韩国司法机构合作进行实际部署测试

深度评价

优点

  1. 实际意义重大:解决了韩国司法系统的实际痛点,具有直接的社会价值
  2. 技术创新性:韩语特化分词、三层PII分类、数据增强策略等都具有创新性
  3. 实验充分性:全面的消融实验、多个基线对比、详细的错误分析
  4. 数据集贡献:首个韩语法律去标识化数据集,推动领域发展
  5. 法律合规性:严格遵循韩国相关法律法规,确保实用性

不足

  1. 评估局限:无法在真实数据上验证,存在域间差距风险
  2. 可复现性:部分实现细节(如具体的替换列表构建)描述不够详细
  3. 计算成本:需要大规模GPU资源,可能限制实际应用
  4. 泛化能力:对韩语以外语言的适用性未知

影响力

  1. 学术贡献:为法律NLP和去标识化研究提供了新的基准和方法
  2. 实用价值:有望显著改善韩国司法系统的效率和透明度
  3. 国际借鉴:为其他国家的法律文本去标识化提供参考框架
  4. 技术推广:韩语NLP技术的重要进展

适用场景

  1. 司法机构:法院判决书的自动化去标识化处理
  2. 法律研究:大规模法律文本分析和研究
  3. 政府部门:其他需要文本去标识化的公共服务
  4. 学术研究:法律NLP、隐私保护等相关研究

参考文献

本文引用了多个重要的相关工作,包括:

  • 医疗去标识化的经典工作(Uzuner et al., 2007; Liu et al., 2017)
  • 各国法律文本去标识化研究(Niklaus et al., 2023; Salierno et al., 2024)
  • 韩语NLP基础工作(Park et al., 2020; Ko et al., 2023)
  • 相关法律法规和政策文件

总体评价:这是一篇高质量的应用导向研究论文,不仅在技术上有所创新,更重要的是解决了实际的社会问题。论文的工程价值和学术价值并重,为法律NLP领域做出了重要贡献。尽管存在一些局限性,但瑕不掩瑜,是一篇值得关注的优秀工作。