2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID: Точная и эффективная система де-идентификации для корейских судебных решений

Основная информация

ID статьи: 2506.15266
Название: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Авторы: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Сеульский национальный университет)
Категория: cs.CL (Компьютерная лингвистика)
Дата публикации: 16 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2506.15266v3

Аннотация

Для обеспечения баланса между открытостью судебной системы и защитой персональных данных корейское судебное ведомство требует де-идентификации судебных решений перед их публичным раскрытием. Однако текущие процессы де-идентификации недостаточны для обработки крупномасштабных судебных решений при одновременном соблюдении строгих юридических требований. Кроме того, юридические определения и классификация персональных идентификаторов нечеткие и непригодные для технических решений. Для решения этих проблем в статье предлагается система де-идентификации Thunder-DeID, согласованная с соответствующим законодательством и практикой. В частности, авторы: (i) создали и опубликовали первый корейский юридический набор данных с аннотированными решениями и соответствующими списками упоминаний сущностей, (ii) представили систематическую схему классификации персональной идентифицирующей информации (PII), (iii) разработали сквозной конвейер глубокой нейронной сети (DNN) для де-идентификации. Экспериментальные результаты демонстрируют передовую производительность модели на задаче де-идентификации судебных решений.

Исследовательский контекст и мотивация

Определение проблемы

Исследование направлено на решение трех ключевых проблем де-идентификации корейских судебных решений:

Узкие места в эффективности: чрезмерная зависимость от ручных методов приводит к административной нагрузке и задержкам в опубликовании решений; доступность решений для корейской общественности значительно ниже
Низкая техническая производительность: в период 2019-2025 гг. общая точность существующих инструментов автоматической де-идентификации составляет всего 8-15%
Нечеткие юридические определения: действующее законодательство содержит нечеткие классификации и определения персональных идентификаторов, особенно непригодные для автоматизированных технических решений

Значимость исследования

Открытость судебного разбирательства является важным демократическим принципом, закрепленным в конституциях многих стран, включая Корею. Корея требует более широкого диапазона и более строгих условий для анонимизации персональных идентификаторов в судебной среде. Эффективная технология де-идентификации критически важна для балансирования судебной прозрачности и защиты конфиденциальности.

Ограничения существующих подходов

Методы на основе подсказок LLM: изменяют структуру исходных предложений, создают риск искажения предложений и контекста
Ограничения API: корейские государственные учреждения ограничивают использование сервисов API, таких как ChatGPT, по соображениям конфиденциальности и информационной безопасности
Недостаточная масштабируемость: существующие методы не могут эффективно обрабатывать крупномасштабные судебные решения

Основные вклады

Первый корейский юридический набор данных: создан двухчастный набор данных, содержащий 6700 аннотированных решений (охватывающих гражданские, уголовные и административные дела) и 48306 именованных сущностей
Трехуровневая система классификации PII: на основе индуктивного анализа 48306 именованных сущностей предложена систематическая схема классификации персональной идентифицирующей информации
Специализированный токенизатор: интегрирует морфологический анализатор Mecab-ko с кодированием пар байтов (BPE), используя уникальные особенности корейского языка
Сквозной конвейер DNN: разработана полная система де-идентификации, достигающая лучшей производительности на задаче де-идентификации судебных решений

Подробное описание методологии

Определение задачи

Входные данные: исходный текст корейского судебного решения, содержащий персональную идентифицирующую информацию Выходные данные: де-идентифицированный текст решения, в котором чувствительная информация надлежащим образом заменена или удалена Ограничения: должны соответствовать соответствующему корейскому законодательству (например, Уголовно-процессуальный кодекс Кореи, статья 59-3; Гражданский процессуальный кодекс, статья 163-2 и т.д.)

Архитектура модели

1. Процесс построения данных

Анонимизированное решение → Обнаружение и аннотирование заполнителей → 
Схема классификации PII → Генерация списков замен → Генерация обучающих данных

2. Семейство моделей Thunder-DeID

На основе архитектуры DeBERTa-v3, включает три размера моделей:

Thunder-DeID-370M: 370 млн параметров, скрытое измерение 1024, 24 слоя Transformer
Thunder-DeID-800M: 800 млн параметров, скрытое измерение 1280, 36 слоев Transformer
Thunder-DeID-1.5B: 1.5 млрд параметров, скрытое измерение 2048, 24 слоя Transformer

3. Стратегия токенизации

Интегрирует морфологический анализатор Mecab-ko с BPE:

Mecab-ko: обрабатывает агглютинативную морфологию корейского языка, точно разделяет корни слов и служебные слова
BPE: решает проблему слов вне словаря (OOV), представляя неизвестные слова как подсловные единицы

4. Алгоритм генерации обучающих данных

# Пример псевдокода
def generate_training_data(annotated_text, replacement_lists):
    # 1. Определение пар специальных маркеров
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. Сканирование и замена заполнителей
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. Генерация последовательности меток
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

Технические инновации

Трехуровневая система классификации PII:
- Первый уровень: прямые идентификаторы vs. квази-идентификаторы
- Второй уровень: 16 подкатегорий (например, имена людей, географическая информация, организации и т.д.)
- Третий уровень: 80 детальных категорий, соответствующих 729 меткам
Токенизация, специализированная для корейского языка:
- Использует Mecab-ko для точного разделения "홍길동이" на "홍길동" + "이"
- Гарантирует де-идентификацию только целевых сущностей, сохраняя целостность служебных слов
Стратегии увеличения данных:
- Per-Epoch замена: замена различных упоминаний сущностей на каждой эпохе, увеличение разнообразия данных
- Single замена: фиксированная замена, используется как базовый вариант для сравнения

Экспериментальная установка

Набор данных

Масштаб: 6700 решений (гражданские 3000, уголовные 3000, административные 700)
Количество сущностей: 48306 аннотированных сущностей
Источники данных: Законодательный отдел корейского правительства, AI-hub, открытые наборы данных
Разделение: обучение 80%, валидация 10%, тестирование 10%

Метрики оценки

Бинарный уровень токенов: измеряет способность модели определять токены, требующие де-идентификации
Уровень токенов: измеряет точность классификации модели для конкретных типов сущностей
Показатели: Precision, Recall, F1-score

Методы сравнения

Polyglot-Ko (1.3B параметров): специализированная языковая модель для корейского языка
EXAONE-3.5 (2.4B параметров): специализированная декодерная модель для корейского языка

Детали реализации

Корпус предварительного обучения: 76.7 ГБ двуязычного корпуса (корейский + английский)
Длина последовательности: 512→2048 токенов
Оптимизатор: AdamW, β=(0.9, 0.999)
График скорости обучения: прогрев на первых 10% шагов + косинусное затухание
Оборудование: 32×NVIDIA H100 80GB GPUs

Экспериментальные результаты

Основные результаты

Модель	Параметры	F1 бинарного уровня токенов	Micro F1 уровня токенов
Polyglot-ko	1.3B	0.9701	0.8765
EXAONE	2.4B	0.9677	0.8752
Thunder-DeID-370M	370M	0.9654	0.8871
Thunder-DeID-800M	800M	0.9791	0.9105
Thunder-DeID-1.5B	1.5B	0.9808	0.9071

Ключевые находки

Значительное улучшение производительности: Thunder-DeID превосходит базовые модели на всех масштабах
Преимущество Per-Epoch: стратегия Per-Epoch замены значительно превосходит Single замену на всех моделях
Эффект масштаба: даже самая маленькая модель Thunder-DeID-370M превосходит более крупные базовые модели по метрикам уровня токенов
Практический прорыв: по сравнению с текущей системой Административного отдела Верховного суда Кореи (8-15% точность), достигнут огромный прогресс

Анализ ошибок

Модель показывает слабость при распознавании редких меток:

Часто неправильно классифицирует "뷔페(самообслуживающийся ресторан)" как "기계설비회사(компания механического оборудования)"
Путает "불특정제품명(неуказанное название продукта)" и "불특정회사명(неуказанное название компании)"

Связанные работы

Де-идентификация в медицине

Руководство HIPAA: методы Safe Harbor и экспертное суждение
Эволюция технологий: системы на основе правил → BiLSTM-CRF → BERT → LLM
Ограничения: нормативные требования HIPAA ограничивают практическое развертывание LLM

Де-идентификация судебных решений

Сравнение производительности по странам:

Арабский язык: F1=96.14%
Немецкий/Французский/Итальянский: F1=92.40%
Испанский: F1=91.90%
Индийский: F1=91.10%
Итальянский: F1=88.60%

Данная работа заполняет пробел в де-идентификации корейских юридических текстов.

Заключение и обсуждение

Основные выводы

Thunder-DeID успешно решает технические проблемы де-идентификации корейских судебных решений
Трехуровневая система классификации PII обеспечивает систематическую основу для де-идентификации юридических текстов
Специализированная для корейского языка токенизация и стратегии увеличения данных значительно повышают производительность модели
Достигнута передовая производительность на данной задаче с потенциалом практического развертывания

Ограничения

Ограничения данных: из-за юридических ограничений невозможно получить исходные неанонимизированные решения для оценки в реальных условиях
Ограничения области применения: модель специально обучена на гражданском, уголовном и административном праве; способность к обобщению на другие юридические области неизвестна
Чувствительность к контексту: де-идентификация в юридической сфере в высокой степени зависит от контекста; производительность модели может снизиться на различных типах юридических споров

Направления будущих исследований

Генерация синтетических данных: разработка методов увеличения данных, более приближенных к реальным судебным решениям
Адаптация к различным областям: оценка и улучшение производительности модели в различных юридических областях
Практическое развертывание: сотрудничество с корейскими судебными учреждениями для проведения тестов практического развертывания

Глубокая оценка

Преимущества

Значительная практическая ценность: решает реальные проблемы корейской судебной системы, имеет прямую социальную ценность
Технологические инновации: специализированная для корейского языка токенизация, трехуровневая классификация PII, стратегии увеличения данных — все содержат элементы инноваций
Полнота экспериментов: комплексные абляционные исследования, множественные базовые сравнения, детальный анализ ошибок
Вклад набора данных: первый корейский набор данных для де-идентификации юридических текстов, способствует развитию области
Соответствие законодательству: строгое соответствие соответствующему корейскому законодательству, обеспечивает практическую применимость

Недостатки

Ограничения оценки: невозможность проверки на реальных данных, риск междоменного разрыва
Воспроизводимость: некоторые детали реализации (например, конкретное построение списков замен) описаны недостаточно подробно
Вычислительные затраты: требует крупномасштабных ресурсов GPU, может ограничить практическое применение
Способность к обобщению: применимость к языкам, отличным от корейского, неизвестна

Влияние

Научный вклад: предоставляет новый эталон и методы для исследований в области юридического NLP и де-идентификации
Практическая ценность: может значительно улучшить эффективность и прозрачность корейской судебной системы
Международное заимствование: предоставляет справочную основу для де-идентификации юридических текстов в других странах
Продвижение технологий: важный прогресс в технологиях NLP для корейского языка

Сценарии применения

Судебные учреждения: автоматизированная де-идентификация судебных решений
Юридические исследования: анализ и исследование крупномасштабных юридических текстов
Государственные учреждения: другие государственные услуги, требующие де-идентификации текстов
Научные исследования: исследования в области юридического NLP, защиты конфиденциальности и т.д.

Библиография

Статья цитирует множество важных связанных работ, включая:

Классические работы по де-идентификации в медицине (Uzuner et al., 2007; Liu et al., 2017)
Исследования де-идентификации юридических текстов в различных странах (Niklaus et al., 2023; Salierno et al., 2024)
Фундаментальные работы по NLP для корейского языка (Park et al., 2020; Ko et al., 2023)
Соответствующие законодательные акты и политические документы

Общая оценка: Это высококачественная прикладная исследовательская работа, которая не только содержит технологические инновации, но, что более важно, решает реальные социальные проблемы. Работа имеет одинаковую инженерную и научную ценность, внося значительный вклад в область юридического NLP. Несмотря на некоторые ограничения, это превосходная работа, достойная внимания.