2025-11-30T09:01:18.756600

It Takes Two: A Dual Stage Approach for Terminology-Aware Translation

Jaswal
This paper introduces DuTerm, a novel two-stage architecture for terminology-constrained machine translation. Our system combines a terminology-aware NMT model, adapted via fine-tuning on large-scale synthetic data, with a prompt-based LLM for post-editing. The LLM stage refines NMT output and enforces terminology adherence. We evaluate DuTerm on English-to German, English-to-Spanish, and English-to-Russian with the WMT 2025 Terminology Shared Task corpus. We demonstrate that flexible, context-driven terminology handling by the LLM consistently yields higher quality translations than strict constraint enforcement. Our results highlight a critical trade-off, revealing that an LLM's work best for high-quality translation as context-driven mutators rather than generators.
academic

Se Necesitan Dos: Un Enfoque de Dos Etapas para la Traducción Consciente de Terminología

Información Básica

  • ID del Artículo: 2511.07461
  • Título: It Takes Two: A Dual Stage Approach for Terminology-Aware Translation
  • Autor: Akshat Singh Jaswal (PES University)
  • Clasificación: cs.CL, cs.AI
  • Fecha de Publicación/Conferencia: Enviado a arXiv en noviembre de 2025, participación en WMT 2025 Terminology Shared Task
  • Enlace del Artículo: https://arxiv.org/abs/2511.07461

Resumen

Este artículo propone DuTerm, una arquitectura de dos etapas para la traducción automática restringida por terminología. El sistema combina un modelo de traducción automática neuronal (NMT) consciente de terminología y la posedición basada en indicaciones de grandes modelos de lenguaje (LLM). El modelo NMT se ajusta finamente con datos sintéticos a gran escala, mientras que la etapa LLM refina la salida de NMT e impone conformidad terminológica. Los autores evalúan el sistema en la tarea compartida de terminología WMT 2025 para traducción del inglés al alemán, español y ruso. Los experimentos demuestran que el manejo flexible y contextual de terminología del LLM produce consistentemente traducciones de mayor calidad que la imposición de restricciones estrictas, revelando las ventajas del LLM como un "modificador" contextual en lugar de un "generador" para traducciones de alta calidad.

Antecedentes de Investigación y Motivación

1. Problema Central a Resolver

En campos especializados como derecho, medicina e ingeniería, la traducción precisa y consistente de terminología específica del dominio es un desafío clave para la traducción automática. Aunque los sistemas modernos de traducción automática neuronal han logrado fluidez significativa en textos generales, su desempeño en textos con restricciones terminológicas aún requiere mejora.

2. Importancia del Problema

  • Requisitos de Precisión: La traducción en campos profesionales exige una precisión terminológica extrema, donde los errores pueden tener consecuencias graves
  • Necesidad de Consistencia: El mismo término debe mantener una traducción consistente en todo el documento
  • Desafíos Morfológicos: En idiomas morfológicamente ricos como el alemán y el ruso, los términos requieren variaciones de palabras correctas

3. Limitaciones de Métodos Existentes

Los métodos existentes de traducción con restricciones terminológicas se dividen principalmente en dos categorías:

Métodos en Tiempo de Inferencia:

  • Aplican restricciones directamente durante el proceso de decodificación (como búsqueda de haz restringida)
  • Ventajas: Pueden imponer restricciones de manera efectiva
  • Desventajas: Alto costo computacional, puede dañar la fluidez y corrección gramatical

Métodos en Tiempo de Entrenamiento:

  • Integran información terminológica en datos de entrenamiento mediante etiquetas especiales
  • Ventajas: Generan salidas más naturales
  • Desventajas: No garantizan que todas las restricciones se cumplan en tiempo de inferencia

4. Motivación de la Investigación

Este artículo sostiene que la traducción con restricciones terminológicas no es solo un problema de sustitución léxica, sino que requiere una comprensión profunda del contexto lingüístico, especialmente al tratar con morfología compleja. DuTerm tiene como objetivo combinar las ventajas de ambos enfoques, asegurando precisión terminológica mientras se mantiene la calidad de la traducción.

Contribuciones Principales

  1. Propone la Arquitectura de Dos Etapas DuTerm: Combina innovadoramente métodos de tiempo de entrenamiento e inferencia, logrando traducción consciente de terminología mediante la colaboración de NMT+LLM
  2. Tubería de Generación de Datos Sintéticos a Gran Escala: Desarrolla un método sistemático de generación de datos sintéticos anotados con terminología, incluyendo patrones de un término y múltiples términos, generando 10k-15k pares de oraciones paralelas de alta calidad por dirección de idioma
  3. Estrategia Flexible de Manejo de Terminología: Propone tres modos de manejo de terminología (noterm, proper, random), permitiendo seleccionar dinámicamente la intensidad de restricción según el contexto
  4. Evaluación Multilingüe: Realiza evaluación integral en tres pares de idiomas (inglés→alemán, español, ruso), validando la efectividad del método entre idiomas
  5. Perspectiva Clave: Los experimentos demuestran que el LLM como "modificador contextual" es más efectivo que como "generador desde cero", revelando el equilibrio entre restricciones estrictas y calidad de traducción

Explicación Detallada del Método

Definición de la Tarea

Entrada: Oración en idioma fuente (inglés) + diccionario de terminología (pares de términos fuente-destino) Salida: Traducción en idioma destino, donde los términos especificados se traducen correctamente y se etiquetan Restricciones: Debe usarse la terminología destino proporcionada en el diccionario, manteniendo simultáneamente la fluidez y corrección gramatical de la traducción

Arquitectura del Modelo

DuTerm adopta una arquitectura de tubería de dos etapas:

Etapa 1: Traducción Automática Neuronal Consciente de Terminología

1. Extracción y Análisis de Terminología

  • Analiza el conjunto de desarrollo WMT 2025 para construir un diccionario de terminología bilingüe
  • Extrae más de 1,000 pares de términos únicos por dirección de traducción
  • Utiliza repetition_ids para rastrear términos y sus frecuencias de aparición
  • Aprovecha LLM para generar términos adicionales similares a los del diccionario

2. Generación de Datos Sintéticos Utiliza GPT-4o para generar pares de oraciones paralelas con etiquetas de terminología, empleando dos modos:

  • Modo de Un Término: Cada par de oraciones contiene solo una instancia de término
  • Modo de Múltiples Términos: Selecciona aleatoriamente 2-3 pares de términos para co-ocurrencia, entrenando capacidades de manejo de co-ocurrencia y desambiguación

Detalles Técnicos:

  • Muestreo de temperatura: 0.3-0.7
  • Generación concurrente
  • Análisis estricto para garantizar corrección de formato
  • Inserta explícitamente etiquetas de límite [TERM]...[/TERM] en idioma fuente e idioma destino

3. Normalización de Etiquetas y Filtrado de Calidad

  • Re-etiquetado: Impone normas de anotación consistentes
  • Coincidencia de Máxima Longitud: Previene enmascaramiento parcial
  • Manejo de Mayúsculas: Detección insensible a mayúsculas, preserva mayúsculas originales
  • Mapeo Inverso: Asegura anotación simétrica en lado destino
  • Puntuación de Calidad: Utiliza COMETQE para puntuar cada par de oraciones
  • Deduplicación: Deduplicación en lado fuente
  • Filtrado de Umbral: Umbral conservador (0.85-0.9), típicamente retiene 60-70% de salida
  • Resultado final: Aproximadamente 10k-15k pares de alta calidad por dirección de idioma

4. Adaptación de Modelos Multilingües

  • Modelo Base: NLLB-200 3.3B (modelo de traducción automática neuronal multilingüe)
  • Expansión de Vocabulario: Añade tokens de marca de término ([TERM], [/TERM]), asegurando procesamiento atómico, previniendo que la tokenización de subpalabras rompa marcas
  • Estrategia de Entrenamiento:
    • Ajuste fino eficiente en parámetros (Parameter-Efficient Fine-Tuning)
    • Entrenamiento conjunto multilingüe: Combina conjuntos de datos filtrados de tres idiomas destino
    • Aprendizaje por transferencia entre idiomas

Etapa 2: Posedición Basada en LLM

1. Proceso de Posedición

  • Entrada: Oración fuente + traducción NMT + mapeo de terminología fuente-destino
  • Selección de LLM: GPT-4o (alta calidad + costo relativamente bajo)
  • Instrucciones: Mantener semántica, aplicar terminología destino precisa, mantener etiquetas, mejorar legibilidad sin reescribir restricciones

2. Procesamiento Consciente de Terminología

  • Análisis Dinámico: Selecciona restricciones proper/random/noterm de la base de datos de terminología de referencia según entrada
  • Adaptación de Modo:
    • Cuando existen restricciones: Imposición forzada
    • Sin restricciones: Solo edición de calidad, pero mantiene sensibilidad a términos técnicos
  • Satisfacción de Restricciones: Las indicaciones incluyen mapeos explícitos y reglas de formato

3. Garantía de Calidad y Robustez

  • Muestreo de Baja Temperatura: Temperatura 0.3, asegura edición determinista
  • Mecanismo de Verificación: Utiliza analizador predefinido para verificar formato, integridad de etiquetas, satisfacción de restricciones
  • Verificación Estructural: Verifica patrones de nombre de archivo, existencia de todos los patrones de término, estructura JSONL
  • Evaluación de Calidad:
    • Utiliza puntuación COMETQE después de eliminar etiquetas
    • Verifica tasa de retención de terminología mediante coincidencia exacta

Puntos de Innovación Técnica

  1. Diseño de Arquitectura Colaborativa: NMT proporciona traducción preliminar estructurada, LLM se enfoca en mejoras de alto nivel (desambiguación, ajuste de orden de palabras, refinamiento contextual), evitando la complejidad de generación desde cero
  2. Control de Calidad de Datos Sintéticos: Filtrado multietapa (puntuación COMETQE + deduplicación + umbral alto) asegura calidad de datos de entrenamiento
  3. Estrategia de Restricción Flexible: Tres modos (noterm/proper/random) permiten equilibrio entre precisión terminológica y naturalidad de traducción
  4. Verificación de Extremo a Extremo: Mecanismo de garantía de calidad en todo el proceso desde generación de datos hasta salida final

Configuración Experimental

Conjunto de Datos

  • Fuente: WMT 2025 Terminology Shared Task
  • Pares de Idiomas: Inglés→Alemán (DE), Inglés→Español (ES), Inglés→Ruso (RU)
  • Diccionario de Terminología: >1,000 pares de términos por dirección
  • Datos de Entrenamiento Sintéticos: 10k-15k pares de oraciones por dirección
  • Datos de Entrenamiento del Modelo Base: Datos multilingües preentrenados de NLLB-200

Métricas de Evaluación

  1. BLEU: Suficiencia general de traducción, mide precisión de n-gramas
  2. chrF2++: Fluidez a nivel de caracteres y robustez, más sensible a cambios morfológicos
  3. Tasa de Éxito de Terminología (Terminology Success Rate):
    • Proper SR: Tasa de uso de terminología correcta
    • Random SR: Tasa de uso de terminología aleatoria

Métodos de Comparación

Autocomparación de tres estrategias de manejo de terminología:

  • noterm: Traducción sin restricciones (línea base)
  • proper: Imposición estricta de terminología
  • random: Imposición de terminología aleatoria (prueba si el modelo puede forzar terminología inapropiada)

Detalles de Implementación

  • Ajuste Fino de NMT:
    • Modelo base: NLLB-200 3.3B
    • Estrategia de optimización: Ajuste fino eficiente en parámetros
    • Datos de entrenamiento: Mezcla multilingüe (10k-15k/idioma)
  • Posedición con LLM:
    • Modelo: GPT-4o
    • Temperatura: 0.3
    • Ingeniería de indicaciones: Ver plantillas de indicaciones detalladas en apéndices A.1-A.4
  • Control de Calidad:
    • Umbral COMETQE: 0.85-0.9
    • Tasa de retención: 60-70%

Resultados Experimentales

Resultados Principales

Tabla 1: Resultados de Evaluación de Tres Estrategias en Tres Pares de Idiomas

IdiomaTipoBLEUchrF2++Proper SRRandom SR
DEnoterm38.2462.610.430.69
proper48.0670.740.980.73
random43.7767.220.480.99
ESnoterm45.9867.050.470.73
proper58.5176.080.990.78
random53.2872.050.490.98
RUnoterm27.8855.290.390.69
proper35.8063.570.980.72
random32.2559.850.420.99

Hallazgos Clave

  1. Imposición Estricta de Terminología Altamente Efectiva:
    • El modo proper logra BLEU y chrF2++ más altos en todos los idiomas
    • Alemán: 48.06 BLEU (vs 38.24 noterm, +25.7%)
    • Español: 58.51 BLEU (vs 45.98 noterm, +27.2%)
    • Ruso: 35.80 BLEU (vs 27.88 noterm, +28.4%)
    • Tasa de éxito de terminología proper ≥0.97, casi perfecta
  2. Traducción sin Restricciones Desempeño Más Pobre:
    • noterm logra BLEU y chrF2++ más bajos en todos los idiomas
    • Fluidez razonable, pero precisión terminológica deficiente (proper SR: 0.39-0.47)
  3. Equilibrio de Imposición de Terminología Aleatoria:
    • El modo random produce BLEU/chrF2++ moderado
    • Tasa de éxito de terminología aleatoria ≈0.98, prueba que el modelo puede forzar terminología arbitraria
    • Pero esto daña la idoneidad contextual
  4. Tendencias Específicas del Idioma:
    • Español: Puntuaciones generales más altas (estructura similar al inglés)
    • Ruso: Mayor brecha entre proper y noterm (dificultad de control de terminología en idiomas morfológicamente ricos)
    • Alemán: Desempeño moderado, pero mejora significativa en modo proper

Hallazgos Experimentales

  1. Equilibrio entre Calidad y Restricción: La imposición estricta maximiza precisión terminológica e incrementa métricas de calidad superficial, pero puede ocasionalmente reducir flexibilidad
  2. Ventajas del LLM como Modificador: Comenzando desde la traducción preliminar estructurada de NMT, el LLM puede enfocarse en mejoras de alto nivel, más efectivo que generación desde cero
  3. Consistencia Entre Idiomas: Las tendencias en tres idiomas son consistentes, validando la universalidad del método
  4. Desafío Morfológico: La puntuación base baja del ruso y el amplio espacio de mejora subrayan la dificultad del manejo de terminología en idiomas morfológicamente ricos

Trabajo Relacionado

1. Traducción Automática con Restricciones Terminológicas

  • Métodos en Tiempo de Inferencia:
    • Búsqueda de Haz Restringida (Constrained Beam Search)
    • Reordenamiento de lista N-best
    • Trabajo reciente (Zhang et al., 2023) explora mejoras de eficiencia
  • Métodos en Tiempo de Entrenamiento:
    • Anotación con etiquetas especiales (Dinu et al., 2019)
    • Transformer de Levenshtein con restricción léxica (Susanto et al., 2020)

2. LLM para Traducción Automática

  • Integración de terminología de dominio (Moslem et al., 2023)
  • Posedición automática con GPT-4 (Raunak et al., 2023)

3. NMT Multilingüe

  • Arquitectura Transformer (Vaswani et al., 2023)
  • NLLB-200 (Team et al., 2022): Traducción centrada en humanos sin idiomas olvidados
  • NMT Multilingüe de Google (Johnson et al., 2017): Traducción de cero disparos

4. Ventajas de Este Artículo

  • Fusión de Métodos: Primera combinación sistemática de etiquetas en tiempo de entrenamiento y posedición LLM en tiempo de inferencia
  • Datos Sintéticos a Gran Escala: Tubería de generación automática con control de calidad
  • Estrategia Flexible: Manejo dinámico de terminología en lugar de elección binaria

Conclusiones y Discusión

Conclusiones Principales

  1. Arquitectura de Dos Etapas Efectiva: DuTerm combina exitosamente las ventajas de NMT y LLM, logrando equilibrio entre precisión terminológica y calidad de traducción
  2. Procesamiento Flexible Superior a Restricción Estricta: Aunque el modo proper muestra mejor desempeño en métricas automáticas, la capacidad de procesamiento contextual del LLM es el factor clave de éxito
  3. Posicionamiento de LLM: El LLM como "modificador" (mejora basada en salida NMT) es más efectivo que como "generador" (traducción desde cero)
  4. Validación Entre Idiomas: El método es efectivo en tres idiomas con diferencias tipológicas significativas (alemán, español, ruso)

Limitaciones

Los autores explícitamente señalan las siguientes restricciones en el artículo:

  1. Dependencia de Indicaciones:
    • Altamente dependiente de indicaciones cuidadosamente diseñadas
    • Puede no generalizar bien entre dominios, idiomas o arquitecturas de modelos
  2. Limitación de Procesamiento Secuencial:
    • El procesamiento secuencial de coincidencia de terminología y refinamiento de traducción limita la capacidad de imposición de restricciones adaptativas
  3. Procesamiento a Nivel de Oración:
    • Ignora consistencia a nivel de documento y oportunidades de uso de terminología consciente del contexto
    • Estos son críticos en tareas de traducción reales
  4. Singularidad del Modelo:
    • Solo evaluado en GPT-4o, limitando la generalización de hallazgos
  5. Limitación de Dominio:
    • Enfocado en dominios técnico y comercial
    • Puede no capturar desafíos de dominios especializados como medicina o derecho
  6. Limitaciones de Métricas de Evaluación:
    • COMETQE, BLEU, chrF++ proporcionan escalabilidad automática
    • Pero pueden no reflejar completamente precisión terminológica e idoneidad contextual
    • Requiere evaluación humana como complemento

Direcciones Futuras

  1. Mecanismos de Aprendizaje Adaptativo:
    • Integración dinámica de terminología en lugar de dependencia de indicaciones estáticas
    • Robustez mejorada entre dominios e idiomas
  2. Arquitectura de Extremo a Extremo:
    • Arquitectura aumentada con memoria manteniendo consistencia entre oraciones y documentos
    • Salida más coherente
  3. Evaluación Extendida:
    • Otros modelos de lenguaje
    • Corpus especializados por dominio diversificados
    • Validar generalización y revelar desafíos dependientes de dominio
  4. Estrategias Híbridas:
    • Combinar indicaciones con ajuste fino o aprendizaje por refuerzo
    • Control de terminología interactivo impulsado por usuario
    • Mejorar usabilidad y precisión
  5. Procesamiento a Nivel de Documento:
    • Ir más allá del nivel de oración para lograr consistencia a nivel de documento

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica:
    • La arquitectura de dos etapas combina ingeniosamente ventajas de NMT y LLM
    • No es simple apilamiento, sino división clara de responsabilidades: NMT proporciona estructura, LLM refina contexto
    • La estrategia flexible de tres modos (noterm/proper/random) permite control de grano fino
  2. Completitud de Ingeniería:
    • Tubería detallada de generación de datos sintéticos con múltiples controles de calidad
    • Proceso sistemático de normalización de etiquetas
    • Mecanismo de verificación de extremo a extremo
    • Proporciona plantillas de indicaciones completas (apéndice), fuerte reproducibilidad
  3. Suficiencia Experimental:
    • Tres pares de idiomas con diferencias tipológicas significativas
    • Comparación sistemática de tres estrategias de manejo de terminología
    • Evaluación multidimensional (BLEU, chrF2++, tasa de éxito terminológica)
    • Resultados consistentes con tendencias claras
  4. Valor de Perspectiva:
    • El hallazgo "LLM como modificador vs generador" tiene valor universal
    • Revela equilibrio entre restricción terminológica y calidad de traducción
    • Proporciona dirección clara para investigación futura
  5. Claridad de Escritura:
    • Estructura clara, lógica coherente
    • Detalles técnicos suficientes
    • Discusión candorosa de limitaciones

Insuficiencias

  1. Comparación de Líneas Base Insuficiente:
    • Principalmente autocomparación (tres modos)
    • Falta comparación directa con otros métodos SOTA de traducción con restricciones terminológicas
    • No compara con métodos puros NMT o LLM
  2. Falta de Evaluación Humana:
    • Completamente dependiente de métricas automáticas
    • La idoneidad contextual de terminología, naturalidad de traducción, etc. requieren evaluación humana
    • ¿Las puntuaciones altas del modo proper realmente significan traducción mejor?
  3. Experimentos de Ablación Insuficientes:
    • No evalúa contribución de etapa NMT por separado
    • No analiza tipos específicos de mejora de posedición LLM
    • No explora impacto de cantidad de datos sintéticos en desempeño
  4. Análisis de Costo Faltante:
    • Costo de usar GPT-4o no discutido
    • Tiempo de inferencia no reportado
    • Viabilidad de despliegue real no clara
  5. Análisis de Casos Insuficiente:
    • Sin ejemplos específicos de traducción
    • Difícil entender intuitivamente comportamiento del modelo
    • Análisis de tipos de error faltante
  6. Verificación de Generalización Insuficiente:
    • Solo un LLM (GPT-4o)
    • Solo dominios técnico y comercial
    • No prueba otros LLM de código abierto (como Llama, Mistral)

Impacto

  1. Contribución al Campo:
    • Proporciona nuevo paradigma para traducción con restricciones terminológicas
    • La arquitectura de dos etapas puede inspirar investigación posterior
    • La perspectiva "modificador vs generador" tiene valor teórico
  2. Valor Práctico:
    • Moderado: El método depende de GPT-4o, el costo puede limitar aplicación a gran escala
    • Pero el pensamiento es transferible a modelos de código abierto
    • La tubería de generación de datos sintéticos tiene valor práctico
  3. Reproducibilidad:
    • Buena: Proporciona plantillas de indicaciones detalladas
    • Descripción clara del método
    • Pero la dependencia de GPT-4o puede afectar reproducción completa
  4. Valor de Investigación Posterior:
    • Proporciona línea base para tarea WMT 2025
    • La estrategia de restricción flexible merece exploración profunda
    • La extensión a nivel de documento es siguiente paso natural

Escenarios Aplicables

  1. Más Apropiado:
    • Traducción de documentos técnicos (IT, finanzas)
    • Escenarios con diccionario de terminología claro
    • Aplicaciones con altos requisitos de consistencia terminológica pero tolerancia a cierto costo
  2. Posiblemente Apropiado:
    • Traducción de contratos comerciales
    • Localización de manuales de producto
    • Traducción de documentos internos empresariales
  3. Menos Apropiado:
    • Traducción en tiempo real (costo y latencia)
    • Entornos con recursos limitados (dependencia de LLM grande)
    • Traducción literaria (restricción excesiva puede dañar creatividad)
    • Dominios altamente especializados (medicina, derecho, requieren más validación de dominio)
  4. Posiblemente Apropiado Después de Mejora:
    • Después de reemplazar GPT-4o con LLM de código abierto: Escenarios de bajo costo
    • Después de extensión a nivel de documento: Traducción de documentos largos
    • Después de agregar interacción humana: Integración de herramienta CAT

Referencias

Referencias Clave

  1. Dinu et al., 2019: Training neural machine translation to apply terminology constraints - Trabajo representativo de método de etiqueta en tiempo de entrenamiento
  2. Raunak et al., 2023: Leveraging GPT-4 for automatic translation post-editing - Fuente de inspiración directa para posedición basada en LLM
  3. Team et al., 2022: NLLB-200 - Modelo NMT multilingüe base utilizado en este artículo
  4. Moslem et al., 2023: Domain terminology integration into machine translation - Trabajo relacionado en integración de terminología de dominio
  5. Zhang et al., 2023: Understanding and improving the robustness of terminology constraints - Progreso reciente en métodos de restricción en tiempo de inferencia
  6. Rei et al., 2022: CometKiwi/COMETQE - Métrica de evaluación de calidad utilizada en este artículo
  7. Vaswani et al., 2023: Attention is all you need - Fundamento de arquitectura Transformer

Evaluación General

DuTerm es un artículo de investigación aplicada con fuerte ingeniería y pensamiento claro. Su contribución central radica en proponer una arquitectura práctica de dos etapas que combina ingeniosamente las ventajas de NMT y LLM para manejar traducción con restricciones terminológicas. La perspectiva "LLM como modificador en lugar de generador" tiene valor universal y puede impactar el diseño futuro de sistemas de traducción híbridos.

Sin embargo, el artículo tiene insuficiencias en profundidad experimental (falta comparación con otros métodos, evaluación humana) y verificación de generalización (LLM único, dominio limitado). Además, la dependencia de GPT-4o puede limitar su aplicación en escenarios con recursos limitados.

En general, este es un artículo sólido de participación en tarea compartida que proporciona método y perspectivas valiosas, pero requiere más trabajo posterior para validar efectividad en escenarios más amplios y practicidad. Para investigadores trabajando en traducción automática, particularmente traducción con restricciones terminológicas, el pensamiento de dos etapas y la tubería de generación de datos sintéticos proporcionados por este artículo tienen valor de referencia.