2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic

Thunder-DeID: Точная и эффективная система де-идентификации для корейских судебных решений

Основная информация

  • ID статьи: 2506.15266
  • Название: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
  • Авторы: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Сеульский национальный университет)
  • Категория: cs.CL (Компьютерная лингвистика)
  • Дата публикации: 16 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2506.15266v3

Аннотация

Для обеспечения баланса между открытостью судебной системы и защитой персональных данных корейское судебное ведомство требует де-идентификации судебных решений перед их публичным раскрытием. Однако текущие процессы де-идентификации недостаточны для обработки крупномасштабных судебных решений при одновременном соблюдении строгих юридических требований. Кроме того, юридические определения и классификация персональных идентификаторов нечеткие и непригодные для технических решений. Для решения этих проблем в статье предлагается система де-идентификации Thunder-DeID, согласованная с соответствующим законодательством и практикой. В частности, авторы: (i) создали и опубликовали первый корейский юридический набор данных с аннотированными решениями и соответствующими списками упоминаний сущностей, (ii) представили систематическую схему классификации персональной идентифицирующей информации (PII), (iii) разработали сквозной конвейер глубокой нейронной сети (DNN) для де-идентификации. Экспериментальные результаты демонстрируют передовую производительность модели на задаче де-идентификации судебных решений.

Исследовательский контекст и мотивация

Определение проблемы

Исследование направлено на решение трех ключевых проблем де-идентификации корейских судебных решений:

  1. Узкие места в эффективности: чрезмерная зависимость от ручных методов приводит к административной нагрузке и задержкам в опубликовании решений; доступность решений для корейской общественности значительно ниже
  2. Низкая техническая производительность: в период 2019-2025 гг. общая точность существующих инструментов автоматической де-идентификации составляет всего 8-15%
  3. Нечеткие юридические определения: действующее законодательство содержит нечеткие классификации и определения персональных идентификаторов, особенно непригодные для автоматизированных технических решений

Значимость исследования

Открытость судебного разбирательства является важным демократическим принципом, закрепленным в конституциях многих стран, включая Корею. Корея требует более широкого диапазона и более строгих условий для анонимизации персональных идентификаторов в судебной среде. Эффективная технология де-идентификации критически важна для балансирования судебной прозрачности и защиты конфиденциальности.

Ограничения существующих подходов

  • Методы на основе подсказок LLM: изменяют структуру исходных предложений, создают риск искажения предложений и контекста
  • Ограничения API: корейские государственные учреждения ограничивают использование сервисов API, таких как ChatGPT, по соображениям конфиденциальности и информационной безопасности
  • Недостаточная масштабируемость: существующие методы не могут эффективно обрабатывать крупномасштабные судебные решения

Основные вклады

  1. Первый корейский юридический набор данных: создан двухчастный набор данных, содержащий 6700 аннотированных решений (охватывающих гражданские, уголовные и административные дела) и 48306 именованных сущностей
  2. Трехуровневая система классификации PII: на основе индуктивного анализа 48306 именованных сущностей предложена систематическая схема классификации персональной идентифицирующей информации
  3. Специализированный токенизатор: интегрирует морфологический анализатор Mecab-ko с кодированием пар байтов (BPE), используя уникальные особенности корейского языка
  4. Сквозной конвейер DNN: разработана полная система де-идентификации, достигающая лучшей производительности на задаче де-идентификации судебных решений

Подробное описание методологии

Определение задачи

Входные данные: исходный текст корейского судебного решения, содержащий персональную идентифицирующую информацию Выходные данные: де-идентифицированный текст решения, в котором чувствительная информация надлежащим образом заменена или удалена Ограничения: должны соответствовать соответствующему корейскому законодательству (например, Уголовно-процессуальный кодекс Кореи, статья 59-3; Гражданский процессуальный кодекс, статья 163-2 и т.д.)

Архитектура модели

1. Процесс построения данных

Анонимизированное решение → Обнаружение и аннотирование заполнителей → 
Схема классификации PII → Генерация списков замен → Генерация обучающих данных

2. Семейство моделей Thunder-DeID

На основе архитектуры DeBERTa-v3, включает три размера моделей:

  • Thunder-DeID-370M: 370 млн параметров, скрытое измерение 1024, 24 слоя Transformer
  • Thunder-DeID-800M: 800 млн параметров, скрытое измерение 1280, 36 слоев Transformer
  • Thunder-DeID-1.5B: 1.5 млрд параметров, скрытое измерение 2048, 24 слоя Transformer

3. Стратегия токенизации

Интегрирует морфологический анализатор Mecab-ko с BPE:

  • Mecab-ko: обрабатывает агглютинативную морфологию корейского языка, точно разделяет корни слов и служебные слова
  • BPE: решает проблему слов вне словаря (OOV), представляя неизвестные слова как подсловные единицы

4. Алгоритм генерации обучающих данных

# Пример псевдокода
def generate_training_data(annotated_text, replacement_lists):
    # 1. Определение пар специальных маркеров
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. Сканирование и замена заполнителей
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. Генерация последовательности меток
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

Технические инновации

  1. Трехуровневая система классификации PII:
    • Первый уровень: прямые идентификаторы vs. квази-идентификаторы
    • Второй уровень: 16 подкатегорий (например, имена людей, географическая информация, организации и т.д.)
    • Третий уровень: 80 детальных категорий, соответствующих 729 меткам
  2. Токенизация, специализированная для корейского языка:
    • Использует Mecab-ko для точного разделения "홍길동이" на "홍길동" + "이"
    • Гарантирует де-идентификацию только целевых сущностей, сохраняя целостность служебных слов
  3. Стратегии увеличения данных:
    • Per-Epoch замена: замена различных упоминаний сущностей на каждой эпохе, увеличение разнообразия данных
    • Single замена: фиксированная замена, используется как базовый вариант для сравнения

Экспериментальная установка

Набор данных

  • Масштаб: 6700 решений (гражданские 3000, уголовные 3000, административные 700)
  • Количество сущностей: 48306 аннотированных сущностей
  • Источники данных: Законодательный отдел корейского правительства, AI-hub, открытые наборы данных
  • Разделение: обучение 80%, валидация 10%, тестирование 10%

Метрики оценки

  1. Бинарный уровень токенов: измеряет способность модели определять токены, требующие де-идентификации
  2. Уровень токенов: измеряет точность классификации модели для конкретных типов сущностей
  3. Показатели: Precision, Recall, F1-score

Методы сравнения

  • Polyglot-Ko (1.3B параметров): специализированная языковая модель для корейского языка
  • EXAONE-3.5 (2.4B параметров): специализированная декодерная модель для корейского языка

Детали реализации

  • Корпус предварительного обучения: 76.7 ГБ двуязычного корпуса (корейский + английский)
  • Длина последовательности: 512→2048 токенов
  • Оптимизатор: AdamW, β=(0.9, 0.999)
  • График скорости обучения: прогрев на первых 10% шагов + косинусное затухание
  • Оборудование: 32×NVIDIA H100 80GB GPUs

Экспериментальные результаты

Основные результаты

МодельПараметрыF1 бинарного уровня токеновMicro F1 уровня токенов
Polyglot-ko1.3B0.97010.8765
EXAONE2.4B0.96770.8752
Thunder-DeID-370M370M0.96540.8871
Thunder-DeID-800M800M0.97910.9105
Thunder-DeID-1.5B1.5B0.98080.9071

Ключевые находки

  1. Значительное улучшение производительности: Thunder-DeID превосходит базовые модели на всех масштабах
  2. Преимущество Per-Epoch: стратегия Per-Epoch замены значительно превосходит Single замену на всех моделях
  3. Эффект масштаба: даже самая маленькая модель Thunder-DeID-370M превосходит более крупные базовые модели по метрикам уровня токенов
  4. Практический прорыв: по сравнению с текущей системой Административного отдела Верховного суда Кореи (8-15% точность), достигнут огромный прогресс

Анализ ошибок

Модель показывает слабость при распознавании редких меток:

  • Часто неправильно классифицирует "뷔페(самообслуживающийся ресторан)" как "기계설비회사(компания механического оборудования)"
  • Путает "불특정제품명(неуказанное название продукта)" и "불특정회사명(неуказанное название компании)"

Связанные работы

Де-идентификация в медицине

  • Руководство HIPAA: методы Safe Harbor и экспертное суждение
  • Эволюция технологий: системы на основе правил → BiLSTM-CRF → BERT → LLM
  • Ограничения: нормативные требования HIPAA ограничивают практическое развертывание LLM

Де-идентификация судебных решений

Сравнение производительности по странам:

  • Арабский язык: F1=96.14%
  • Немецкий/Французский/Итальянский: F1=92.40%
  • Испанский: F1=91.90%
  • Индийский: F1=91.10%
  • Итальянский: F1=88.60%

Данная работа заполняет пробел в де-идентификации корейских юридических текстов.

Заключение и обсуждение

Основные выводы

  1. Thunder-DeID успешно решает технические проблемы де-идентификации корейских судебных решений
  2. Трехуровневая система классификации PII обеспечивает систематическую основу для де-идентификации юридических текстов
  3. Специализированная для корейского языка токенизация и стратегии увеличения данных значительно повышают производительность модели
  4. Достигнута передовая производительность на данной задаче с потенциалом практического развертывания

Ограничения

  1. Ограничения данных: из-за юридических ограничений невозможно получить исходные неанонимизированные решения для оценки в реальных условиях
  2. Ограничения области применения: модель специально обучена на гражданском, уголовном и административном праве; способность к обобщению на другие юридические области неизвестна
  3. Чувствительность к контексту: де-идентификация в юридической сфере в высокой степени зависит от контекста; производительность модели может снизиться на различных типах юридических споров

Направления будущих исследований

  1. Генерация синтетических данных: разработка методов увеличения данных, более приближенных к реальным судебным решениям
  2. Адаптация к различным областям: оценка и улучшение производительности модели в различных юридических областях
  3. Практическое развертывание: сотрудничество с корейскими судебными учреждениями для проведения тестов практического развертывания

Глубокая оценка

Преимущества

  1. Значительная практическая ценность: решает реальные проблемы корейской судебной системы, имеет прямую социальную ценность
  2. Технологические инновации: специализированная для корейского языка токенизация, трехуровневая классификация PII, стратегии увеличения данных — все содержат элементы инноваций
  3. Полнота экспериментов: комплексные абляционные исследования, множественные базовые сравнения, детальный анализ ошибок
  4. Вклад набора данных: первый корейский набор данных для де-идентификации юридических текстов, способствует развитию области
  5. Соответствие законодательству: строгое соответствие соответствующему корейскому законодательству, обеспечивает практическую применимость

Недостатки

  1. Ограничения оценки: невозможность проверки на реальных данных, риск междоменного разрыва
  2. Воспроизводимость: некоторые детали реализации (например, конкретное построение списков замен) описаны недостаточно подробно
  3. Вычислительные затраты: требует крупномасштабных ресурсов GPU, может ограничить практическое применение
  4. Способность к обобщению: применимость к языкам, отличным от корейского, неизвестна

Влияние

  1. Научный вклад: предоставляет новый эталон и методы для исследований в области юридического NLP и де-идентификации
  2. Практическая ценность: может значительно улучшить эффективность и прозрачность корейской судебной системы
  3. Международное заимствование: предоставляет справочную основу для де-идентификации юридических текстов в других странах
  4. Продвижение технологий: важный прогресс в технологиях NLP для корейского языка

Сценарии применения

  1. Судебные учреждения: автоматизированная де-идентификация судебных решений
  2. Юридические исследования: анализ и исследование крупномасштабных юридических текстов
  3. Государственные учреждения: другие государственные услуги, требующие де-идентификации текстов
  4. Научные исследования: исследования в области юридического NLP, защиты конфиденциальности и т.д.

Библиография

Статья цитирует множество важных связанных работ, включая:

  • Классические работы по де-идентификации в медицине (Uzuner et al., 2007; Liu et al., 2017)
  • Исследования де-идентификации юридических текстов в различных странах (Niklaus et al., 2023; Salierno et al., 2024)
  • Фундаментальные работы по NLP для корейского языка (Park et al., 2020; Ko et al., 2023)
  • Соответствующие законодательные акты и политические документы

Общая оценка: Это высококачественная прикладная исследовательская работа, которая не только содержит технологические инновации, но, что более важно, решает реальные социальные проблемы. Работа имеет одинаковую инженерную и научную ценность, внося значительный вклад в область юридического NLP. Несмотря на некоторые ограничения, это превосходная работа, достойная внимания.