Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID: Точная и эффективная система де-идентификации для корейских судебных решений
Для обеспечения баланса между открытостью судебной системы и защитой персональных данных корейское судебное ведомство требует де-идентификации судебных решений перед их публичным раскрытием. Однако текущие процессы де-идентификации недостаточны для обработки крупномасштабных судебных решений при одновременном соблюдении строгих юридических требований. Кроме того, юридические определения и классификация персональных идентификаторов нечеткие и непригодные для технических решений. Для решения этих проблем в статье предлагается система де-идентификации Thunder-DeID, согласованная с соответствующим законодательством и практикой. В частности, авторы: (i) создали и опубликовали первый корейский юридический набор данных с аннотированными решениями и соответствующими списками упоминаний сущностей, (ii) представили систематическую схему классификации персональной идентифицирующей информации (PII), (iii) разработали сквозной конвейер глубокой нейронной сети (DNN) для де-идентификации. Экспериментальные результаты демонстрируют передовую производительность модели на задаче де-идентификации судебных решений.
Исследование направлено на решение трех ключевых проблем де-идентификации корейских судебных решений:
Узкие места в эффективности: чрезмерная зависимость от ручных методов приводит к административной нагрузке и задержкам в опубликовании решений; доступность решений для корейской общественности значительно ниже
Низкая техническая производительность: в период 2019-2025 гг. общая точность существующих инструментов автоматической де-идентификации составляет всего 8-15%
Нечеткие юридические определения: действующее законодательство содержит нечеткие классификации и определения персональных идентификаторов, особенно непригодные для автоматизированных технических решений
Открытость судебного разбирательства является важным демократическим принципом, закрепленным в конституциях многих стран, включая Корею. Корея требует более широкого диапазона и более строгих условий для анонимизации персональных идентификаторов в судебной среде. Эффективная технология де-идентификации критически важна для балансирования судебной прозрачности и защиты конфиденциальности.
Методы на основе подсказок LLM: изменяют структуру исходных предложений, создают риск искажения предложений и контекста
Ограничения API: корейские государственные учреждения ограничивают использование сервисов API, таких как ChatGPT, по соображениям конфиденциальности и информационной безопасности
Недостаточная масштабируемость: существующие методы не могут эффективно обрабатывать крупномасштабные судебные решения
Первый корейский юридический набор данных: создан двухчастный набор данных, содержащий 6700 аннотированных решений (охватывающих гражданские, уголовные и административные дела) и 48306 именованных сущностей
Трехуровневая система классификации PII: на основе индуктивного анализа 48306 именованных сущностей предложена систематическая схема классификации персональной идентифицирующей информации
Специализированный токенизатор: интегрирует морфологический анализатор Mecab-ko с кодированием пар байтов (BPE), используя уникальные особенности корейского языка
Сквозной конвейер DNN: разработана полная система де-идентификации, достигающая лучшей производительности на задаче де-идентификации судебных решений
Входные данные: исходный текст корейского судебного решения, содержащий персональную идентифицирующую информацию
Выходные данные: де-идентифицированный текст решения, в котором чувствительная информация надлежащим образом заменена или удалена
Ограничения: должны соответствовать соответствующему корейскому законодательству (например, Уголовно-процессуальный кодекс Кореи, статья 59-3; Гражданский процессуальный кодекс, статья 163-2 и т.д.)
Ограничения данных: из-за юридических ограничений невозможно получить исходные неанонимизированные решения для оценки в реальных условиях
Ограничения области применения: модель специально обучена на гражданском, уголовном и административном праве; способность к обобщению на другие юридические области неизвестна
Чувствительность к контексту: де-идентификация в юридической сфере в высокой степени зависит от контекста; производительность модели может снизиться на различных типах юридических споров
Значительная практическая ценность: решает реальные проблемы корейской судебной системы, имеет прямую социальную ценность
Технологические инновации: специализированная для корейского языка токенизация, трехуровневая классификация PII, стратегии увеличения данных — все содержат элементы инноваций
Статья цитирует множество важных связанных работ, включая:
Классические работы по де-идентификации в медицине (Uzuner et al., 2007; Liu et al., 2017)
Исследования де-идентификации юридических текстов в различных странах (Niklaus et al., 2023; Salierno et al., 2024)
Фундаментальные работы по NLP для корейского языка (Park et al., 2020; Ko et al., 2023)
Соответствующие законодательные акты и политические документы
Общая оценка: Это высококачественная прикладная исследовательская работа, которая не только содержит технологические инновации, но, что более важно, решает реальные социальные проблемы. Работа имеет одинаковую инженерную и научную ценность, внося значительный вклад в область юридического NLP. Несмотря на некоторые ограничения, это превосходная работа, достойная внимания.