Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic
Thunder-DeID: Marco de Desidentificación Preciso y Eficiente para Sentencias Judiciales Coreanas
Para garantizar el equilibrio entre la transparencia judicial y la protección de datos personales, el sistema judicial coreano requiere la desidentificación de las sentencias judiciales antes de su divulgación pública. Sin embargo, los procesos de desidentificación actuales presentan deficiencias al procesar sentencias judiciales a gran escala mientras se cumplen estrictamente los requisitos legales. Además, la definición legal y clasificación de identificadores personales es ambigua e inadecuada para soluciones técnicas. Para abordar estos desafíos, este artículo propone el marco de desidentificación Thunder-DeID, que se alinea con la legislación y práctica pertinentes. Específicamente, el trabajo (i) construye y publica el primer conjunto de datos legal en coreano que contiene sentencias anotadas y listas de menciones de entidades correspondientes, (ii) introduce un esquema de clasificación sistemática de información de identificación personal (PII), (iii) desarrolla una tubería de red neuronal profunda (DNN) de desidentificación de extremo a extremo. Los resultados experimentales demuestran que el modelo logra un rendimiento de última generación en la tarea de desidentificación de sentencias judiciales.
Esta investigación aborda tres problemas centrales en la desidentificación de sentencias judiciales coreanas:
Cuello de botella de eficiencia: La dependencia excesiva de métodos manuales genera carga administrativa y retrasos en la publicación de sentencias, lo que resulta en una accesibilidad significativamente baja de sentencias para el público coreano
Bajo rendimiento técnico: Entre 2019 y 2025, la precisión general de las herramientas de desidentificación automática existentes fue solo del 8-15%
Definición legal ambigua: La legislación actual sobre clasificación y definición de identificadores personales es ambigua, particularmente inadecuada para soluciones tecnológicas automatizadas
La publicidad de los procedimientos judicales es un principio democrático importante establecido en las constituciones de muchos países, incluida Corea. Corea requiere un rango más amplio y condiciones más estrictas para los identificadores personales que necesitan anonimización en contextos judiciales. La tecnología de desidentificación efectiva es crucial para equilibrar la transparencia judicial y la protección de la privacidad.
Métodos LLM basados en indicaciones: Alteran la estructura de las oraciones originales, con riesgo de distorsión de oraciones y contexto
Limitaciones de API: Por razones de privacidad y seguridad de la información, las instituciones gubernamentales coreanas restringen el uso de servicios de API como ChatGPT
Capacidad insuficiente de procesamiento a escala: Los métodos existentes no pueden procesar eficazmente sentencias judiciales a gran escala
Primer conjunto de datos legal en coreano: Creación de un conjunto de datos bipartito que contiene 6,700 sentencias anotadas (que abarcan casos civiles, penales y administrativos) y 48,306 entidades nombradas
Marco de clasificación PII de tres capas: Basado en análisis inductivo de 48,306 entidades nombradas, propone un esquema de clasificación sistemática de información de identificación personal
Tokenizador especializado: Integra el analizador morfológico Mecab-ko con codificación de pares de bytes (BPE), aprovechando características únicas del coreano
Tubería DNN de extremo a extremo: Desarrolla un marco de desidentificación completo que logra el mejor rendimiento en la tarea de desidentificación de sentencias judicales
Entrada: Texto original de sentencias judiciales coreanas que contienen información de identificación personal
Salida: Texto de sentencia desidentificado donde la información sensible se reemplaza o se elimina apropiadamente
Restricciones: Debe cumplir con la legislación coreana relevante (como el Artículo 59-3 de la Ley de Procedimiento Penal Coreana, Artículo 163-2 de la Ley de Procedimiento Civil, etc.)
Sentencia anonimizada → Detección y anotación de marcadores de posición →
Esquema de clasificación PII → Generación de lista de reemplazo →
Generación de datos de entrenamiento
Mejora de rendimiento significativa: Thunder-DeID supera los modelos de referencia en todos los tamaños
Ventaja de reemplazo por época: La estrategia de reemplazo por época supera significativamente al reemplazo único en todos los modelos
Efecto de escala: Incluso el Thunder-DeID-370M más pequeño supera a los modelos de referencia más grandes en métricas de nivel de token
Avance práctico: En comparación con la precisión del 8-15% del sistema actual de la Administración de la Corte Nacional de Corea, logra una mejora colosal
Limitaciones de datos: Debido a restricciones legales, no se pueden obtener sentencias originales sin anonimizar para evaluación en el mundo real
Limitación de dominio: El modelo se entrena específicamente en derecho civil, penal y administrativo; la capacidad de generalización a otros campos legales es desconocida
Sensibilidad contextual: La desidentificación legal depende altamente del contexto; el rendimiento del modelo puede disminuir en diferentes tipos de disputas legales
Significado práctico importante: Resuelve puntos débiles reales del sistema judicial coreano, con valor social directo
Innovación técnica: La tokenización especializada en coreano, clasificación PII de tres capas, estrategias de aumento de datos, etc., son todas innovadoras
Suficiencia experimental: Experimentos de ablación exhaustivos, múltiples comparaciones de referencia, análisis de errores detallado
Contribución de conjunto de datos: Primer conjunto de datos de desidentificación legal en coreano, impulsando el desarrollo del campo
Cumplimiento legal: Cumple estrictamente con la legislación coreana relevante, garantizando practicidad
Este artículo cita múltiples trabajos relacionados importantes, incluyendo:
Trabajos clásicos en desidentificación médica (Uzuner et al., 2007; Liu et al., 2017)
Investigación de desidentificación de textos legales en varios países (Niklaus et al., 2023; Salierno et al., 2024)
Trabajos fundamentales en NLP coreano (Park et al., 2020; Ko et al., 2023)
Documentos legislativos y políticos relevantes
Evaluación General: Este es un artículo de investigación de alta calidad orientado a aplicaciones, que no solo innova técnicamente, sino que lo más importante es que resuelve problemas sociales reales. El valor de ingeniería y el valor académico del artículo son igualmente importantes, haciendo una contribución significativa al campo del NLP legal. A pesar de algunas limitaciones, los méritos superan los defectos, siendo un trabajo excelente que merece atención.