2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID: Marco de Desidentificación Preciso y Eficiente para Sentencias Judiciales Coreanas

Información Básica

ID del Artículo: 2506.15266
Título: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
Autores: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Universidad Nacional de Seúl)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2506.15266v3

Resumen

Para garantizar el equilibrio entre la transparencia judicial y la protección de datos personales, el sistema judicial coreano requiere la desidentificación de las sentencias judiciales antes de su divulgación pública. Sin embargo, los procesos de desidentificación actuales presentan deficiencias al procesar sentencias judiciales a gran escala mientras se cumplen estrictamente los requisitos legales. Además, la definición legal y clasificación de identificadores personales es ambigua e inadecuada para soluciones técnicas. Para abordar estos desafíos, este artículo propone el marco de desidentificación Thunder-DeID, que se alinea con la legislación y práctica pertinentes. Específicamente, el trabajo (i) construye y publica el primer conjunto de datos legal en coreano que contiene sentencias anotadas y listas de menciones de entidades correspondientes, (ii) introduce un esquema de clasificación sistemática de información de identificación personal (PII), (iii) desarrolla una tubería de red neuronal profunda (DNN) de desidentificación de extremo a extremo. Los resultados experimentales demuestran que el modelo logra un rendimiento de última generación en la tarea de desidentificación de sentencias judiciales.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda tres problemas centrales en la desidentificación de sentencias judiciales coreanas:

Cuello de botella de eficiencia: La dependencia excesiva de métodos manuales genera carga administrativa y retrasos en la publicación de sentencias, lo que resulta en una accesibilidad significativamente baja de sentencias para el público coreano
Bajo rendimiento técnico: Entre 2019 y 2025, la precisión general de las herramientas de desidentificación automática existentes fue solo del 8-15%
Definición legal ambigua: La legislación actual sobre clasificación y definición de identificadores personales es ambigua, particularmente inadecuada para soluciones tecnológicas automatizadas

Importancia de la Investigación

La publicidad de los procedimientos judicales es un principio democrático importante establecido en las constituciones de muchos países, incluida Corea. Corea requiere un rango más amplio y condiciones más estrictas para los identificadores personales que necesitan anonimización en contextos judiciales. La tecnología de desidentificación efectiva es crucial para equilibrar la transparencia judicial y la protección de la privacidad.

Limitaciones de Métodos Existentes

Métodos LLM basados en indicaciones: Alteran la estructura de las oraciones originales, con riesgo de distorsión de oraciones y contexto
Limitaciones de API: Por razones de privacidad y seguridad de la información, las instituciones gubernamentales coreanas restringen el uso de servicios de API como ChatGPT
Capacidad insuficiente de procesamiento a escala: Los métodos existentes no pueden procesar eficazmente sentencias judiciales a gran escala

Contribuciones Principales

Primer conjunto de datos legal en coreano: Creación de un conjunto de datos bipartito que contiene 6,700 sentencias anotadas (que abarcan casos civiles, penales y administrativos) y 48,306 entidades nombradas
Marco de clasificación PII de tres capas: Basado en análisis inductivo de 48,306 entidades nombradas, propone un esquema de clasificación sistemática de información de identificación personal
Tokenizador especializado: Integra el analizador morfológico Mecab-ko con codificación de pares de bytes (BPE), aprovechando características únicas del coreano
Tubería DNN de extremo a extremo: Desarrolla un marco de desidentificación completo que logra el mejor rendimiento en la tarea de desidentificación de sentencias judicales

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Texto original de sentencias judiciales coreanas que contienen información de identificación personal Salida: Texto de sentencia desidentificado donde la información sensible se reemplaza o se elimina apropiadamente Restricciones: Debe cumplir con la legislación coreana relevante (como el Artículo 59-3 de la Ley de Procedimiento Penal Coreana, Artículo 163-2 de la Ley de Procedimiento Civil, etc.)

Arquitectura del Modelo

1. Proceso de Construcción de Datos

Sentencia anonimizada → Detección y anotación de marcadores de posición → 
Esquema de clasificación PII → Generación de lista de reemplazo → 
Generación de datos de entrenamiento

2. Familia de Modelos Thunder-DeID

Basada en la arquitectura DeBERTa-v3, contiene tres modelos de diferentes tamaños:

Thunder-DeID-370M: 370 millones de parámetros, dimensión oculta 1024, 24 capas Transformer
Thunder-DeID-800M: 800 millones de parámetros, dimensión oculta 1280, 36 capas Transformer
Thunder-DeID-1.5B: 1,500 millones de parámetros, dimensión oculta 2048, 24 capas Transformer

3. Estrategia de Tokenización

Integra analizador morfológico Mecab-ko con BPE:

Mecab-ko: Procesa la morfología aglutinante del coreano, separando con precisión raíces y partículas
BPE: Resuelve el problema de vocabulario fuera de vocabulario (OOV), representando palabras no vistas como unidades de subpalabras

4. Algoritmo de Generación de Datos de Entrenamiento

# Ejemplo de pseudocódigo
def generate_training_data(annotated_text, replacement_lists):
    # 1. Identificar pares de marcadores especiales
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. Escanear y reemplazar marcadores de posición
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. Generar secuencia de etiquetas
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

Puntos de Innovación Técnica

Sistema de clasificación PII de tres capas:
- Primera capa: Identificadores directos vs. cuasi-identificadores
- Segunda capa: 16 subcategorías (como nombres de personas, información geográfica, organizaciones, etc.)
- Tercera capa: 80 categorías de grano fino, correspondientes a 729 etiquetas
Tokenización especializada para coreano:
- Utiliza Mecab-ko para separar con precisión "홍길동이" en "홍길동" + "이"
- Garantiza que solo se desidentifiquen entidades objetivo, manteniendo intactas las partículas
Estrategia de aumento de datos:
- Reemplazo por época: Reemplaza diferentes menciones de entidades en cada época, aumentando la diversidad de datos
- Reemplazo único: Reemplazo fijo, como línea base de comparación

Configuración Experimental

Conjunto de Datos

Escala: 6,700 sentencias (3,000 civiles, 3,000 penales, 700 administrativas)
Cantidad de entidades: 48,306 entidades anotadas
Fuentes de datos: Departamento Legislativo del Gobierno Coreano, AI-hub, conjuntos de datos públicos
Proporción de división: Entrenamiento 80%, validación 10%, prueba 10%

Métricas de Evaluación

Nivel de token binario: Mide la capacidad del modelo para identificar tokens que necesitan desidentificación
Nivel de token: Mide la precisión de clasificación del modelo para tipos de entidades específicas
Indicadores: Precisión, Recuperación, Puntuación F1

Métodos de Comparación

Polyglot-Ko (1.3B parámetros): Modelo de lenguaje especializado en coreano
EXAONE-3.5 (2.4B parámetros): Modelo decodificador especializado en coreano

Detalles de Implementación

Corpus preentrenado: 76.7GB de corpus bilingüe (coreano + inglés)
Longitud de secuencia: 512→2048 tokens
Optimizador: AdamW, β=(0.9, 0.999)
Programación de tasa de aprendizaje: Precalentamiento en primeros 10% de pasos + decaimiento coseno
Hardware: 32×NVIDIA H100 80GB GPUs

Resultados Experimentales

Resultados Principales

Modelo	Parámetros	F1 Token Binario	F1 Micro Nivel Token
Polyglot-ko	1.3B	0.9701	0.8765
EXAONE	2.4B	0.9677	0.8752
Thunder-DeID-370M	370M	0.9654	0.8871
Thunder-DeID-800M	800M	0.9791	0.9105
Thunder-DeID-1.5B	1.5B	0.9808	0.9071

Hallazgos Clave

Mejora de rendimiento significativa: Thunder-DeID supera los modelos de referencia en todos los tamaños
Ventaja de reemplazo por época: La estrategia de reemplazo por época supera significativamente al reemplazo único en todos los modelos
Efecto de escala: Incluso el Thunder-DeID-370M más pequeño supera a los modelos de referencia más grandes en métricas de nivel de token
Avance práctico: En comparación con la precisión del 8-15% del sistema actual de la Administración de la Corte Nacional de Corea, logra una mejora colosal

Análisis de Errores

El modelo presenta debilidades en el reconocimiento de etiquetas de baja frecuencia:

Frecuentemente clasifica erróneamente "뷔페(restaurante de autoservicio)" como "기계설비회사(empresa de equipos mecánicos)"
Existe confusión entre "불특정제품명(nombre de producto no especificado)" y "불특정회사명(nombre de empresa no especificado)"

Trabajo Relacionado

Desidentificación Médica

Guía HIPAA: Métodos Safe Harbor y determinación de expertos
Evolución técnica: Sistemas basados en reglas→BiLSTM-CRF→BERT→LLM
Limitaciones: La regulación HIPAA limita el despliegue práctico de LLM

Desidentificación de Sentencias Judiciales

Comparación de rendimiento entre países:

Árabe: F1=96.14%
Alemán/Francés/Italiano: F1=92.40%
Español: F1=91.90%
Hindi: F1=91.10%
Italiano: F1=88.60%

Este trabajo llena el vacío en la desidentificación de textos legales coreanos.

Conclusiones y Discusión

Conclusiones Principales

Thunder-DeID resuelve exitosamente los desafíos técnicos de la desidentificación de sentencias judiciales coreanas
El esquema de clasificación PII de tres capas proporciona un marco sistemático para la desidentificación de textos legales
La tokenización especializada en coreano y las estrategias de aumento de datos mejoran significativamente el rendimiento del modelo
Logra un rendimiento de última generación en esta tarea, con potencial para despliegue práctico

Limitaciones

Limitaciones de datos: Debido a restricciones legales, no se pueden obtener sentencias originales sin anonimizar para evaluación en el mundo real
Limitación de dominio: El modelo se entrena específicamente en derecho civil, penal y administrativo; la capacidad de generalización a otros campos legales es desconocida
Sensibilidad contextual: La desidentificación legal depende altamente del contexto; el rendimiento del modelo puede disminuir en diferentes tipos de disputas legales

Direcciones Futuras

Generación de datos sintéticos: Desarrollar métodos de aumento de datos sintéticos más cercanos a sentencias judiciales reales
Adaptación entre dominios: Evaluar y mejorar el rendimiento del modelo en diferentes campos legales
Despliegue práctico: Colaborar con instituciones judiciales coreanas para pruebas de despliegue real

Evaluación Profunda

Fortalezas

Significado práctico importante: Resuelve puntos débiles reales del sistema judicial coreano, con valor social directo
Innovación técnica: La tokenización especializada en coreano, clasificación PII de tres capas, estrategias de aumento de datos, etc., son todas innovadoras
Suficiencia experimental: Experimentos de ablación exhaustivos, múltiples comparaciones de referencia, análisis de errores detallado
Contribución de conjunto de datos: Primer conjunto de datos de desidentificación legal en coreano, impulsando el desarrollo del campo
Cumplimiento legal: Cumple estrictamente con la legislación coreana relevante, garantizando practicidad

Insuficiencias

Limitaciones de evaluación: No se puede validar en datos reales, existe riesgo de brecha entre dominios
Reproducibilidad: Algunos detalles de implementación (como construcción específica de listas de reemplazo) carecen de descripción suficiente
Costo computacional: Requiere recursos GPU a gran escala, lo que puede limitar la aplicación práctica
Capacidad de generalización: La aplicabilidad a idiomas distintos del coreano es desconocida

Impacto

Contribución académica: Proporciona nuevos puntos de referencia y métodos para investigación en NLP legal y desidentificación
Valor práctico: Promete mejorar significativamente la eficiencia y transparencia del sistema judicial coreano
Referencia internacional: Proporciona marco de referencia para desidentificación de textos legales en otros países
Avance tecnológico: Progreso importante en tecnología NLP coreana

Escenarios Aplicables

Instituciones judiciales: Procesamiento automatizado de desidentificación de sentencias judiciales
Investigación legal: Análisis e investigación de textos legales a gran escala
Departamentos gubernamentales: Otros servicios públicos que requieren desidentificación de textos
Investigación académica: Investigación relacionada con NLP legal, protección de privacidad, etc.

Referencias

Este artículo cita múltiples trabajos relacionados importantes, incluyendo:

Trabajos clásicos en desidentificación médica (Uzuner et al., 2007; Liu et al., 2017)
Investigación de desidentificación de textos legales en varios países (Niklaus et al., 2023; Salierno et al., 2024)
Trabajos fundamentales en NLP coreano (Park et al., 2020; Ko et al., 2023)
Documentos legislativos y políticos relevantes

Evaluación General: Este es un artículo de investigación de alta calidad orientado a aplicaciones, que no solo innova técnicamente, sino que lo más importante es que resuelve problemas sociales reales. El valor de ingeniería y el valor académico del artículo son igualmente importantes, haciendo una contribución significativa al campo del NLP legal. A pesar de algunas limitaciones, los méritos superan los defectos, siendo un trabajo excelente que merece atención.