2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic

Thunder-DeID: Marco de Desidentificación Preciso y Eficiente para Sentencias Judiciales Coreanas

Información Básica

  • ID del Artículo: 2506.15266
  • Título: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
  • Autores: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (Universidad Nacional de Seúl)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2506.15266v3

Resumen

Para garantizar el equilibrio entre la transparencia judicial y la protección de datos personales, el sistema judicial coreano requiere la desidentificación de las sentencias judiciales antes de su divulgación pública. Sin embargo, los procesos de desidentificación actuales presentan deficiencias al procesar sentencias judiciales a gran escala mientras se cumplen estrictamente los requisitos legales. Además, la definición legal y clasificación de identificadores personales es ambigua e inadecuada para soluciones técnicas. Para abordar estos desafíos, este artículo propone el marco de desidentificación Thunder-DeID, que se alinea con la legislación y práctica pertinentes. Específicamente, el trabajo (i) construye y publica el primer conjunto de datos legal en coreano que contiene sentencias anotadas y listas de menciones de entidades correspondientes, (ii) introduce un esquema de clasificación sistemática de información de identificación personal (PII), (iii) desarrolla una tubería de red neuronal profunda (DNN) de desidentificación de extremo a extremo. Los resultados experimentales demuestran que el modelo logra un rendimiento de última generación en la tarea de desidentificación de sentencias judiciales.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda tres problemas centrales en la desidentificación de sentencias judiciales coreanas:

  1. Cuello de botella de eficiencia: La dependencia excesiva de métodos manuales genera carga administrativa y retrasos en la publicación de sentencias, lo que resulta en una accesibilidad significativamente baja de sentencias para el público coreano
  2. Bajo rendimiento técnico: Entre 2019 y 2025, la precisión general de las herramientas de desidentificación automática existentes fue solo del 8-15%
  3. Definición legal ambigua: La legislación actual sobre clasificación y definición de identificadores personales es ambigua, particularmente inadecuada para soluciones tecnológicas automatizadas

Importancia de la Investigación

La publicidad de los procedimientos judicales es un principio democrático importante establecido en las constituciones de muchos países, incluida Corea. Corea requiere un rango más amplio y condiciones más estrictas para los identificadores personales que necesitan anonimización en contextos judiciales. La tecnología de desidentificación efectiva es crucial para equilibrar la transparencia judicial y la protección de la privacidad.

Limitaciones de Métodos Existentes

  • Métodos LLM basados en indicaciones: Alteran la estructura de las oraciones originales, con riesgo de distorsión de oraciones y contexto
  • Limitaciones de API: Por razones de privacidad y seguridad de la información, las instituciones gubernamentales coreanas restringen el uso de servicios de API como ChatGPT
  • Capacidad insuficiente de procesamiento a escala: Los métodos existentes no pueden procesar eficazmente sentencias judiciales a gran escala

Contribuciones Principales

  1. Primer conjunto de datos legal en coreano: Creación de un conjunto de datos bipartito que contiene 6,700 sentencias anotadas (que abarcan casos civiles, penales y administrativos) y 48,306 entidades nombradas
  2. Marco de clasificación PII de tres capas: Basado en análisis inductivo de 48,306 entidades nombradas, propone un esquema de clasificación sistemática de información de identificación personal
  3. Tokenizador especializado: Integra el analizador morfológico Mecab-ko con codificación de pares de bytes (BPE), aprovechando características únicas del coreano
  4. Tubería DNN de extremo a extremo: Desarrolla un marco de desidentificación completo que logra el mejor rendimiento en la tarea de desidentificación de sentencias judicales

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Texto original de sentencias judiciales coreanas que contienen información de identificación personal Salida: Texto de sentencia desidentificado donde la información sensible se reemplaza o se elimina apropiadamente Restricciones: Debe cumplir con la legislación coreana relevante (como el Artículo 59-3 de la Ley de Procedimiento Penal Coreana, Artículo 163-2 de la Ley de Procedimiento Civil, etc.)

Arquitectura del Modelo

1. Proceso de Construcción de Datos

Sentencia anonimizada → Detección y anotación de marcadores de posición → 
Esquema de clasificación PII → Generación de lista de reemplazo → 
Generación de datos de entrenamiento

2. Familia de Modelos Thunder-DeID

Basada en la arquitectura DeBERTa-v3, contiene tres modelos de diferentes tamaños:

  • Thunder-DeID-370M: 370 millones de parámetros, dimensión oculta 1024, 24 capas Transformer
  • Thunder-DeID-800M: 800 millones de parámetros, dimensión oculta 1280, 36 capas Transformer
  • Thunder-DeID-1.5B: 1,500 millones de parámetros, dimensión oculta 2048, 24 capas Transformer

3. Estrategia de Tokenización

Integra analizador morfológico Mecab-ko con BPE:

  • Mecab-ko: Procesa la morfología aglutinante del coreano, separando con precisión raíces y partículas
  • BPE: Resuelve el problema de vocabulario fuera de vocabulario (OOV), representando palabras no vistas como unidades de subpalabras

4. Algoritmo de Generación de Datos de Entrenamiento

# Ejemplo de pseudocódigo
def generate_training_data(annotated_text, replacement_lists):
    # 1. Identificar pares de marcadores especiales
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. Escanear y reemplazar marcadores de posición
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. Generar secuencia de etiquetas
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

Puntos de Innovación Técnica

  1. Sistema de clasificación PII de tres capas:
    • Primera capa: Identificadores directos vs. cuasi-identificadores
    • Segunda capa: 16 subcategorías (como nombres de personas, información geográfica, organizaciones, etc.)
    • Tercera capa: 80 categorías de grano fino, correspondientes a 729 etiquetas
  2. Tokenización especializada para coreano:
    • Utiliza Mecab-ko para separar con precisión "홍길동이" en "홍길동" + "이"
    • Garantiza que solo se desidentifiquen entidades objetivo, manteniendo intactas las partículas
  3. Estrategia de aumento de datos:
    • Reemplazo por época: Reemplaza diferentes menciones de entidades en cada época, aumentando la diversidad de datos
    • Reemplazo único: Reemplazo fijo, como línea base de comparación

Configuración Experimental

Conjunto de Datos

  • Escala: 6,700 sentencias (3,000 civiles, 3,000 penales, 700 administrativas)
  • Cantidad de entidades: 48,306 entidades anotadas
  • Fuentes de datos: Departamento Legislativo del Gobierno Coreano, AI-hub, conjuntos de datos públicos
  • Proporción de división: Entrenamiento 80%, validación 10%, prueba 10%

Métricas de Evaluación

  1. Nivel de token binario: Mide la capacidad del modelo para identificar tokens que necesitan desidentificación
  2. Nivel de token: Mide la precisión de clasificación del modelo para tipos de entidades específicas
  3. Indicadores: Precisión, Recuperación, Puntuación F1

Métodos de Comparación

  • Polyglot-Ko (1.3B parámetros): Modelo de lenguaje especializado en coreano
  • EXAONE-3.5 (2.4B parámetros): Modelo decodificador especializado en coreano

Detalles de Implementación

  • Corpus preentrenado: 76.7GB de corpus bilingüe (coreano + inglés)
  • Longitud de secuencia: 512→2048 tokens
  • Optimizador: AdamW, β=(0.9, 0.999)
  • Programación de tasa de aprendizaje: Precalentamiento en primeros 10% de pasos + decaimiento coseno
  • Hardware: 32×NVIDIA H100 80GB GPUs

Resultados Experimentales

Resultados Principales

ModeloParámetrosF1 Token BinarioF1 Micro Nivel Token
Polyglot-ko1.3B0.97010.8765
EXAONE2.4B0.96770.8752
Thunder-DeID-370M370M0.96540.8871
Thunder-DeID-800M800M0.97910.9105
Thunder-DeID-1.5B1.5B0.98080.9071

Hallazgos Clave

  1. Mejora de rendimiento significativa: Thunder-DeID supera los modelos de referencia en todos los tamaños
  2. Ventaja de reemplazo por época: La estrategia de reemplazo por época supera significativamente al reemplazo único en todos los modelos
  3. Efecto de escala: Incluso el Thunder-DeID-370M más pequeño supera a los modelos de referencia más grandes en métricas de nivel de token
  4. Avance práctico: En comparación con la precisión del 8-15% del sistema actual de la Administración de la Corte Nacional de Corea, logra una mejora colosal

Análisis de Errores

El modelo presenta debilidades en el reconocimiento de etiquetas de baja frecuencia:

  • Frecuentemente clasifica erróneamente "뷔페(restaurante de autoservicio)" como "기계설비회사(empresa de equipos mecánicos)"
  • Existe confusión entre "불특정제품명(nombre de producto no especificado)" y "불특정회사명(nombre de empresa no especificado)"

Trabajo Relacionado

Desidentificación Médica

  • Guía HIPAA: Métodos Safe Harbor y determinación de expertos
  • Evolución técnica: Sistemas basados en reglas→BiLSTM-CRF→BERT→LLM
  • Limitaciones: La regulación HIPAA limita el despliegue práctico de LLM

Desidentificación de Sentencias Judiciales

Comparación de rendimiento entre países:

  • Árabe: F1=96.14%
  • Alemán/Francés/Italiano: F1=92.40%
  • Español: F1=91.90%
  • Hindi: F1=91.10%
  • Italiano: F1=88.60%

Este trabajo llena el vacío en la desidentificación de textos legales coreanos.

Conclusiones y Discusión

Conclusiones Principales

  1. Thunder-DeID resuelve exitosamente los desafíos técnicos de la desidentificación de sentencias judiciales coreanas
  2. El esquema de clasificación PII de tres capas proporciona un marco sistemático para la desidentificación de textos legales
  3. La tokenización especializada en coreano y las estrategias de aumento de datos mejoran significativamente el rendimiento del modelo
  4. Logra un rendimiento de última generación en esta tarea, con potencial para despliegue práctico

Limitaciones

  1. Limitaciones de datos: Debido a restricciones legales, no se pueden obtener sentencias originales sin anonimizar para evaluación en el mundo real
  2. Limitación de dominio: El modelo se entrena específicamente en derecho civil, penal y administrativo; la capacidad de generalización a otros campos legales es desconocida
  3. Sensibilidad contextual: La desidentificación legal depende altamente del contexto; el rendimiento del modelo puede disminuir en diferentes tipos de disputas legales

Direcciones Futuras

  1. Generación de datos sintéticos: Desarrollar métodos de aumento de datos sintéticos más cercanos a sentencias judiciales reales
  2. Adaptación entre dominios: Evaluar y mejorar el rendimiento del modelo en diferentes campos legales
  3. Despliegue práctico: Colaborar con instituciones judiciales coreanas para pruebas de despliegue real

Evaluación Profunda

Fortalezas

  1. Significado práctico importante: Resuelve puntos débiles reales del sistema judicial coreano, con valor social directo
  2. Innovación técnica: La tokenización especializada en coreano, clasificación PII de tres capas, estrategias de aumento de datos, etc., son todas innovadoras
  3. Suficiencia experimental: Experimentos de ablación exhaustivos, múltiples comparaciones de referencia, análisis de errores detallado
  4. Contribución de conjunto de datos: Primer conjunto de datos de desidentificación legal en coreano, impulsando el desarrollo del campo
  5. Cumplimiento legal: Cumple estrictamente con la legislación coreana relevante, garantizando practicidad

Insuficiencias

  1. Limitaciones de evaluación: No se puede validar en datos reales, existe riesgo de brecha entre dominios
  2. Reproducibilidad: Algunos detalles de implementación (como construcción específica de listas de reemplazo) carecen de descripción suficiente
  3. Costo computacional: Requiere recursos GPU a gran escala, lo que puede limitar la aplicación práctica
  4. Capacidad de generalización: La aplicabilidad a idiomas distintos del coreano es desconocida

Impacto

  1. Contribución académica: Proporciona nuevos puntos de referencia y métodos para investigación en NLP legal y desidentificación
  2. Valor práctico: Promete mejorar significativamente la eficiencia y transparencia del sistema judicial coreano
  3. Referencia internacional: Proporciona marco de referencia para desidentificación de textos legales en otros países
  4. Avance tecnológico: Progreso importante en tecnología NLP coreana

Escenarios Aplicables

  1. Instituciones judiciales: Procesamiento automatizado de desidentificación de sentencias judiciales
  2. Investigación legal: Análisis e investigación de textos legales a gran escala
  3. Departamentos gubernamentales: Otros servicios públicos que requieren desidentificación de textos
  4. Investigación académica: Investigación relacionada con NLP legal, protección de privacidad, etc.

Referencias

Este artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Trabajos clásicos en desidentificación médica (Uzuner et al., 2007; Liu et al., 2017)
  • Investigación de desidentificación de textos legales en varios países (Niklaus et al., 2023; Salierno et al., 2024)
  • Trabajos fundamentales en NLP coreano (Park et al., 2020; Ko et al., 2023)
  • Documentos legislativos y políticos relevantes

Evaluación General: Este es un artículo de investigación de alta calidad orientado a aplicaciones, que no solo innova técnicamente, sino que lo más importante es que resuelve problemas sociales reales. El valor de ingeniería y el valor académico del artículo son igualmente importantes, haciendo una contribución significativa al campo del NLP legal. A pesar de algunas limitaciones, los méritos superan los defectos, siendo un trabajo excelente que merece atención.