2025-11-30T09:01:18.756600

It Takes Two: A Dual Stage Approach for Terminology-Aware Translation

Jaswal

This paper introduces DuTerm, a novel two-stage architecture for terminology-constrained machine translation. Our system combines a terminology-aware NMT model, adapted via fine-tuning on large-scale synthetic data, with a prompt-based LLM for post-editing. The LLM stage refines NMT output and enforces terminology adherence. We evaluate DuTerm on English-to German, English-to-Spanish, and English-to-Russian with the WMT 2025 Terminology Shared Task corpus. We demonstrate that flexible, context-driven terminology handling by the LLM consistently yields higher quality translations than strict constraint enforcement. Our results highlight a critical trade-off, revealing that an LLM's work best for high-quality translation as context-driven mutators rather than generators.

academic

Se Necesitan Dos: Un Enfoque de Dos Etapas para la Traducción Consciente de Terminología

Información Básica

ID del Artículo: 2511.07461
Título: It Takes Two: A Dual Stage Approach for Terminology-Aware Translation
Autor: Akshat Singh Jaswal (PES University)
Clasificación: cs.CL, cs.AI
Fecha de Publicación/Conferencia: Enviado a arXiv en noviembre de 2025, participación en WMT 2025 Terminology Shared Task
Enlace del Artículo: https://arxiv.org/abs/2511.07461

Resumen

Este artículo propone DuTerm, una arquitectura de dos etapas para la traducción automática restringida por terminología. El sistema combina un modelo de traducción automática neuronal (NMT) consciente de terminología y la posedición basada en indicaciones de grandes modelos de lenguaje (LLM). El modelo NMT se ajusta finamente con datos sintéticos a gran escala, mientras que la etapa LLM refina la salida de NMT e impone conformidad terminológica. Los autores evalúan el sistema en la tarea compartida de terminología WMT 2025 para traducción del inglés al alemán, español y ruso. Los experimentos demuestran que el manejo flexible y contextual de terminología del LLM produce consistentemente traducciones de mayor calidad que la imposición de restricciones estrictas, revelando las ventajas del LLM como un "modificador" contextual en lugar de un "generador" para traducciones de alta calidad.

Antecedentes de Investigación y Motivación

1. Problema Central a Resolver

En campos especializados como derecho, medicina e ingeniería, la traducción precisa y consistente de terminología específica del dominio es un desafío clave para la traducción automática. Aunque los sistemas modernos de traducción automática neuronal han logrado fluidez significativa en textos generales, su desempeño en textos con restricciones terminológicas aún requiere mejora.

2. Importancia del Problema

Requisitos de Precisión: La traducción en campos profesionales exige una precisión terminológica extrema, donde los errores pueden tener consecuencias graves
Necesidad de Consistencia: El mismo término debe mantener una traducción consistente en todo el documento
Desafíos Morfológicos: En idiomas morfológicamente ricos como el alemán y el ruso, los términos requieren variaciones de palabras correctas

3. Limitaciones de Métodos Existentes

Los métodos existentes de traducción con restricciones terminológicas se dividen principalmente en dos categorías:

Métodos en Tiempo de Inferencia:

Aplican restricciones directamente durante el proceso de decodificación (como búsqueda de haz restringida)
Ventajas: Pueden imponer restricciones de manera efectiva
Desventajas: Alto costo computacional, puede dañar la fluidez y corrección gramatical

Métodos en Tiempo de Entrenamiento:

Integran información terminológica en datos de entrenamiento mediante etiquetas especiales
Ventajas: Generan salidas más naturales
Desventajas: No garantizan que todas las restricciones se cumplan en tiempo de inferencia

4. Motivación de la Investigación

Este artículo sostiene que la traducción con restricciones terminológicas no es solo un problema de sustitución léxica, sino que requiere una comprensión profunda del contexto lingüístico, especialmente al tratar con morfología compleja. DuTerm tiene como objetivo combinar las ventajas de ambos enfoques, asegurando precisión terminológica mientras se mantiene la calidad de la traducción.

Contribuciones Principales

Propone la Arquitectura de Dos Etapas DuTerm: Combina innovadoramente métodos de tiempo de entrenamiento e inferencia, logrando traducción consciente de terminología mediante la colaboración de NMT+LLM
Tubería de Generación de Datos Sintéticos a Gran Escala: Desarrolla un método sistemático de generación de datos sintéticos anotados con terminología, incluyendo patrones de un término y múltiples términos, generando 10k-15k pares de oraciones paralelas de alta calidad por dirección de idioma
Estrategia Flexible de Manejo de Terminología: Propone tres modos de manejo de terminología (noterm, proper, random), permitiendo seleccionar dinámicamente la intensidad de restricción según el contexto
Evaluación Multilingüe: Realiza evaluación integral en tres pares de idiomas (inglés→alemán, español, ruso), validando la efectividad del método entre idiomas
Perspectiva Clave: Los experimentos demuestran que el LLM como "modificador contextual" es más efectivo que como "generador desde cero", revelando el equilibrio entre restricciones estrictas y calidad de traducción

Explicación Detallada del Método

Definición de la Tarea

Entrada: Oración en idioma fuente (inglés) + diccionario de terminología (pares de términos fuente-destino) Salida: Traducción en idioma destino, donde los términos especificados se traducen correctamente y se etiquetan Restricciones: Debe usarse la terminología destino proporcionada en el diccionario, manteniendo simultáneamente la fluidez y corrección gramatical de la traducción

Arquitectura del Modelo

DuTerm adopta una arquitectura de tubería de dos etapas:

Etapa 1: Traducción Automática Neuronal Consciente de Terminología

1. Extracción y Análisis de Terminología

Analiza el conjunto de desarrollo WMT 2025 para construir un diccionario de terminología bilingüe
Extrae más de 1,000 pares de términos únicos por dirección de traducción
Utiliza repetition_ids para rastrear términos y sus frecuencias de aparición
Aprovecha LLM para generar términos adicionales similares a los del diccionario

2. Generación de Datos Sintéticos Utiliza GPT-4o para generar pares de oraciones paralelas con etiquetas de terminología, empleando dos modos:

Modo de Un Término: Cada par de oraciones contiene solo una instancia de término
Modo de Múltiples Términos: Selecciona aleatoriamente 2-3 pares de términos para co-ocurrencia, entrenando capacidades de manejo de co-ocurrencia y desambiguación

Detalles Técnicos:

Muestreo de temperatura: 0.3-0.7
Generación concurrente
Análisis estricto para garantizar corrección de formato
Inserta explícitamente etiquetas de límite [TERM]...[/TERM] en idioma fuente e idioma destino

3. Normalización de Etiquetas y Filtrado de Calidad

Re-etiquetado: Impone normas de anotación consistentes
Coincidencia de Máxima Longitud: Previene enmascaramiento parcial
Manejo de Mayúsculas: Detección insensible a mayúsculas, preserva mayúsculas originales
Mapeo Inverso: Asegura anotación simétrica en lado destino
Puntuación de Calidad: Utiliza COMETQE para puntuar cada par de oraciones
Deduplicación: Deduplicación en lado fuente
Filtrado de Umbral: Umbral conservador (0.85-0.9), típicamente retiene 60-70% de salida
Resultado final: Aproximadamente 10k-15k pares de alta calidad por dirección de idioma

4. Adaptación de Modelos Multilingües

Modelo Base: NLLB-200 3.3B (modelo de traducción automática neuronal multilingüe)
Expansión de Vocabulario: Añade tokens de marca de término ([TERM], [/TERM]), asegurando procesamiento atómico, previniendo que la tokenización de subpalabras rompa marcas
Estrategia de Entrenamiento:
- Ajuste fino eficiente en parámetros (Parameter-Efficient Fine-Tuning)
- Entrenamiento conjunto multilingüe: Combina conjuntos de datos filtrados de tres idiomas destino
- Aprendizaje por transferencia entre idiomas

Etapa 2: Posedición Basada en LLM

1. Proceso de Posedición

Entrada: Oración fuente + traducción NMT + mapeo de terminología fuente-destino
Selección de LLM: GPT-4o (alta calidad + costo relativamente bajo)
Instrucciones: Mantener semántica, aplicar terminología destino precisa, mantener etiquetas, mejorar legibilidad sin reescribir restricciones

2. Procesamiento Consciente de Terminología

Análisis Dinámico: Selecciona restricciones proper/random/noterm de la base de datos de terminología de referencia según entrada
Adaptación de Modo:
- Cuando existen restricciones: Imposición forzada
- Sin restricciones: Solo edición de calidad, pero mantiene sensibilidad a términos técnicos
Satisfacción de Restricciones: Las indicaciones incluyen mapeos explícitos y reglas de formato

3. Garantía de Calidad y Robustez

Muestreo de Baja Temperatura: Temperatura 0.3, asegura edición determinista
Mecanismo de Verificación: Utiliza analizador predefinido para verificar formato, integridad de etiquetas, satisfacción de restricciones
Verificación Estructural: Verifica patrones de nombre de archivo, existencia de todos los patrones de término, estructura JSONL
Evaluación de Calidad:
- Utiliza puntuación COMETQE después de eliminar etiquetas
- Verifica tasa de retención de terminología mediante coincidencia exacta

Puntos de Innovación Técnica

Diseño de Arquitectura Colaborativa: NMT proporciona traducción preliminar estructurada, LLM se enfoca en mejoras de alto nivel (desambiguación, ajuste de orden de palabras, refinamiento contextual), evitando la complejidad de generación desde cero
Control de Calidad de Datos Sintéticos: Filtrado multietapa (puntuación COMETQE + deduplicación + umbral alto) asegura calidad de datos de entrenamiento
Estrategia de Restricción Flexible: Tres modos (noterm/proper/random) permiten equilibrio entre precisión terminológica y naturalidad de traducción
Verificación de Extremo a Extremo: Mecanismo de garantía de calidad en todo el proceso desde generación de datos hasta salida final

Configuración Experimental

Conjunto de Datos

Fuente: WMT 2025 Terminology Shared Task
Pares de Idiomas: Inglés→Alemán (DE), Inglés→Español (ES), Inglés→Ruso (RU)
Diccionario de Terminología: >1,000 pares de términos por dirección
Datos de Entrenamiento Sintéticos: 10k-15k pares de oraciones por dirección
Datos de Entrenamiento del Modelo Base: Datos multilingües preentrenados de NLLB-200

Métricas de Evaluación

BLEU: Suficiencia general de traducción, mide precisión de n-gramas
chrF2++: Fluidez a nivel de caracteres y robustez, más sensible a cambios morfológicos
Tasa de Éxito de Terminología (Terminology Success Rate):
- Proper SR: Tasa de uso de terminología correcta
- Random SR: Tasa de uso de terminología aleatoria

Métodos de Comparación

Autocomparación de tres estrategias de manejo de terminología:

noterm: Traducción sin restricciones (línea base)
proper: Imposición estricta de terminología
random: Imposición de terminología aleatoria (prueba si el modelo puede forzar terminología inapropiada)

Detalles de Implementación

Ajuste Fino de NMT:
- Modelo base: NLLB-200 3.3B
- Estrategia de optimización: Ajuste fino eficiente en parámetros
- Datos de entrenamiento: Mezcla multilingüe (10k-15k/idioma)
Posedición con LLM:
- Modelo: GPT-4o
- Temperatura: 0.3
- Ingeniería de indicaciones: Ver plantillas de indicaciones detalladas en apéndices A.1-A.4
Control de Calidad:
- Umbral COMETQE: 0.85-0.9
- Tasa de retención: 60-70%

Resultados Experimentales

Resultados Principales

Tabla 1: Resultados de Evaluación de Tres Estrategias en Tres Pares de Idiomas

Idioma	Tipo	BLEU	chrF2++	Proper SR	Random SR
DE	noterm	38.24	62.61	0.43	0.69
	proper	48.06	70.74	0.98	0.73
	random	43.77	67.22	0.48	0.99
ES	noterm	45.98	67.05	0.47	0.73
	proper	58.51	76.08	0.99	0.78
	random	53.28	72.05	0.49	0.98
RU	noterm	27.88	55.29	0.39	0.69
	proper	35.80	63.57	0.98	0.72
	random	32.25	59.85	0.42	0.99

Hallazgos Clave

Imposición Estricta de Terminología Altamente Efectiva:
- El modo proper logra BLEU y chrF2++ más altos en todos los idiomas
- Alemán: 48.06 BLEU (vs 38.24 noterm, +25.7%)
- Español: 58.51 BLEU (vs 45.98 noterm, +27.2%)
- Ruso: 35.80 BLEU (vs 27.88 noterm, +28.4%)
- Tasa de éxito de terminología proper ≥0.97, casi perfecta
Traducción sin Restricciones Desempeño Más Pobre:
- noterm logra BLEU y chrF2++ más bajos en todos los idiomas
- Fluidez razonable, pero precisión terminológica deficiente (proper SR: 0.39-0.47)
Equilibrio de Imposición de Terminología Aleatoria:
- El modo random produce BLEU/chrF2++ moderado
- Tasa de éxito de terminología aleatoria ≈0.98, prueba que el modelo puede forzar terminología arbitraria
- Pero esto daña la idoneidad contextual
Tendencias Específicas del Idioma:
- Español: Puntuaciones generales más altas (estructura similar al inglés)
- Ruso: Mayor brecha entre proper y noterm (dificultad de control de terminología en idiomas morfológicamente ricos)
- Alemán: Desempeño moderado, pero mejora significativa en modo proper

Hallazgos Experimentales

Equilibrio entre Calidad y Restricción: La imposición estricta maximiza precisión terminológica e incrementa métricas de calidad superficial, pero puede ocasionalmente reducir flexibilidad
Ventajas del LLM como Modificador: Comenzando desde la traducción preliminar estructurada de NMT, el LLM puede enfocarse en mejoras de alto nivel, más efectivo que generación desde cero
Consistencia Entre Idiomas: Las tendencias en tres idiomas son consistentes, validando la universalidad del método
Desafío Morfológico: La puntuación base baja del ruso y el amplio espacio de mejora subrayan la dificultad del manejo de terminología en idiomas morfológicamente ricos

Trabajo Relacionado

1. Traducción Automática con Restricciones Terminológicas

Métodos en Tiempo de Inferencia:
- Búsqueda de Haz Restringida (Constrained Beam Search)
- Reordenamiento de lista N-best
- Trabajo reciente (Zhang et al., 2023) explora mejoras de eficiencia
Métodos en Tiempo de Entrenamiento:
- Anotación con etiquetas especiales (Dinu et al., 2019)
- Transformer de Levenshtein con restricción léxica (Susanto et al., 2020)

2. LLM para Traducción Automática

Integración de terminología de dominio (Moslem et al., 2023)
Posedición automática con GPT-4 (Raunak et al., 2023)

3. NMT Multilingüe

Arquitectura Transformer (Vaswani et al., 2023)
NLLB-200 (Team et al., 2022): Traducción centrada en humanos sin idiomas olvidados
NMT Multilingüe de Google (Johnson et al., 2017): Traducción de cero disparos

4. Ventajas de Este Artículo

Fusión de Métodos: Primera combinación sistemática de etiquetas en tiempo de entrenamiento y posedición LLM en tiempo de inferencia
Datos Sintéticos a Gran Escala: Tubería de generación automática con control de calidad
Estrategia Flexible: Manejo dinámico de terminología en lugar de elección binaria

Conclusiones y Discusión

Conclusiones Principales

Arquitectura de Dos Etapas Efectiva: DuTerm combina exitosamente las ventajas de NMT y LLM, logrando equilibrio entre precisión terminológica y calidad de traducción
Procesamiento Flexible Superior a Restricción Estricta: Aunque el modo proper muestra mejor desempeño en métricas automáticas, la capacidad de procesamiento contextual del LLM es el factor clave de éxito
Posicionamiento de LLM: El LLM como "modificador" (mejora basada en salida NMT) es más efectivo que como "generador" (traducción desde cero)
Validación Entre Idiomas: El método es efectivo en tres idiomas con diferencias tipológicas significativas (alemán, español, ruso)

Limitaciones

Los autores explícitamente señalan las siguientes restricciones en el artículo:

Dependencia de Indicaciones:
- Altamente dependiente de indicaciones cuidadosamente diseñadas
- Puede no generalizar bien entre dominios, idiomas o arquitecturas de modelos
Limitación de Procesamiento Secuencial:
- El procesamiento secuencial de coincidencia de terminología y refinamiento de traducción limita la capacidad de imposición de restricciones adaptativas
Procesamiento a Nivel de Oración:
- Ignora consistencia a nivel de documento y oportunidades de uso de terminología consciente del contexto
- Estos son críticos en tareas de traducción reales
Singularidad del Modelo:
- Solo evaluado en GPT-4o, limitando la generalización de hallazgos
Limitación de Dominio:
- Enfocado en dominios técnico y comercial
- Puede no capturar desafíos de dominios especializados como medicina o derecho
Limitaciones de Métricas de Evaluación:
- COMETQE, BLEU, chrF++ proporcionan escalabilidad automática
- Pero pueden no reflejar completamente precisión terminológica e idoneidad contextual
- Requiere evaluación humana como complemento

Direcciones Futuras

Mecanismos de Aprendizaje Adaptativo:
- Integración dinámica de terminología en lugar de dependencia de indicaciones estáticas
- Robustez mejorada entre dominios e idiomas
Arquitectura de Extremo a Extremo:
- Arquitectura aumentada con memoria manteniendo consistencia entre oraciones y documentos
- Salida más coherente
Evaluación Extendida:
- Otros modelos de lenguaje
- Corpus especializados por dominio diversificados
- Validar generalización y revelar desafíos dependientes de dominio
Estrategias Híbridas:
- Combinar indicaciones con ajuste fino o aprendizaje por refuerzo
- Control de terminología interactivo impulsado por usuario
- Mejorar usabilidad y precisión
Procesamiento a Nivel de Documento:
- Ir más allá del nivel de oración para lograr consistencia a nivel de documento

Evaluación Profunda

Fortalezas

Innovación Metodológica:
- La arquitectura de dos etapas combina ingeniosamente ventajas de NMT y LLM
- No es simple apilamiento, sino división clara de responsabilidades: NMT proporciona estructura, LLM refina contexto
- La estrategia flexible de tres modos (noterm/proper/random) permite control de grano fino
Completitud de Ingeniería:
- Tubería detallada de generación de datos sintéticos con múltiples controles de calidad
- Proceso sistemático de normalización de etiquetas
- Mecanismo de verificación de extremo a extremo
- Proporciona plantillas de indicaciones completas (apéndice), fuerte reproducibilidad
Suficiencia Experimental:
- Tres pares de idiomas con diferencias tipológicas significativas
- Comparación sistemática de tres estrategias de manejo de terminología
- Evaluación multidimensional (BLEU, chrF2++, tasa de éxito terminológica)
- Resultados consistentes con tendencias claras
Valor de Perspectiva:
- El hallazgo "LLM como modificador vs generador" tiene valor universal
- Revela equilibrio entre restricción terminológica y calidad de traducción
- Proporciona dirección clara para investigación futura
Claridad de Escritura:
- Estructura clara, lógica coherente
- Detalles técnicos suficientes
- Discusión candorosa de limitaciones

Insuficiencias

Comparación de Líneas Base Insuficiente:
- Principalmente autocomparación (tres modos)
- Falta comparación directa con otros métodos SOTA de traducción con restricciones terminológicas
- No compara con métodos puros NMT o LLM
Falta de Evaluación Humana:
- Completamente dependiente de métricas automáticas
- La idoneidad contextual de terminología, naturalidad de traducción, etc. requieren evaluación humana
- ¿Las puntuaciones altas del modo proper realmente significan traducción mejor?
Experimentos de Ablación Insuficientes:
- No evalúa contribución de etapa NMT por separado
- No analiza tipos específicos de mejora de posedición LLM
- No explora impacto de cantidad de datos sintéticos en desempeño
Análisis de Costo Faltante:
- Costo de usar GPT-4o no discutido
- Tiempo de inferencia no reportado
- Viabilidad de despliegue real no clara
Análisis de Casos Insuficiente:
- Sin ejemplos específicos de traducción
- Difícil entender intuitivamente comportamiento del modelo
- Análisis de tipos de error faltante
Verificación de Generalización Insuficiente:
- Solo un LLM (GPT-4o)
- Solo dominios técnico y comercial
- No prueba otros LLM de código abierto (como Llama, Mistral)

Impacto

Contribución al Campo:
- Proporciona nuevo paradigma para traducción con restricciones terminológicas
- La arquitectura de dos etapas puede inspirar investigación posterior
- La perspectiva "modificador vs generador" tiene valor teórico
Valor Práctico:
- Moderado: El método depende de GPT-4o, el costo puede limitar aplicación a gran escala
- Pero el pensamiento es transferible a modelos de código abierto
- La tubería de generación de datos sintéticos tiene valor práctico
Reproducibilidad:
- Buena: Proporciona plantillas de indicaciones detalladas
- Descripción clara del método
- Pero la dependencia de GPT-4o puede afectar reproducción completa
Valor de Investigación Posterior:
- Proporciona línea base para tarea WMT 2025
- La estrategia de restricción flexible merece exploración profunda
- La extensión a nivel de documento es siguiente paso natural

Escenarios Aplicables

Más Apropiado:
- Traducción de documentos técnicos (IT, finanzas)
- Escenarios con diccionario de terminología claro
- Aplicaciones con altos requisitos de consistencia terminológica pero tolerancia a cierto costo
Posiblemente Apropiado:
- Traducción de contratos comerciales
- Localización de manuales de producto
- Traducción de documentos internos empresariales
Menos Apropiado:
- Traducción en tiempo real (costo y latencia)
- Entornos con recursos limitados (dependencia de LLM grande)
- Traducción literaria (restricción excesiva puede dañar creatividad)
- Dominios altamente especializados (medicina, derecho, requieren más validación de dominio)
Posiblemente Apropiado Después de Mejora:
- Después de reemplazar GPT-4o con LLM de código abierto: Escenarios de bajo costo
- Después de extensión a nivel de documento: Traducción de documentos largos
- Después de agregar interacción humana: Integración de herramienta CAT

Referencias

Referencias Clave

Dinu et al., 2019: Training neural machine translation to apply terminology constraints - Trabajo representativo de método de etiqueta en tiempo de entrenamiento
Raunak et al., 2023: Leveraging GPT-4 for automatic translation post-editing - Fuente de inspiración directa para posedición basada en LLM
Team et al., 2022: NLLB-200 - Modelo NMT multilingüe base utilizado en este artículo
Moslem et al., 2023: Domain terminology integration into machine translation - Trabajo relacionado en integración de terminología de dominio
Zhang et al., 2023: Understanding and improving the robustness of terminology constraints - Progreso reciente en métodos de restricción en tiempo de inferencia
Rei et al., 2022: CometKiwi/COMETQE - Métrica de evaluación de calidad utilizada en este artículo
Vaswani et al., 2023: Attention is all you need - Fundamento de arquitectura Transformer

Evaluación General

DuTerm es un artículo de investigación aplicada con fuerte ingeniería y pensamiento claro. Su contribución central radica en proponer una arquitectura práctica de dos etapas que combina ingeniosamente las ventajas de NMT y LLM para manejar traducción con restricciones terminológicas. La perspectiva "LLM como modificador en lugar de generador" tiene valor universal y puede impactar el diseño futuro de sistemas de traducción híbridos.

Sin embargo, el artículo tiene insuficiencias en profundidad experimental (falta comparación con otros métodos, evaluación humana) y verificación de generalización (LLM único, dominio limitado). Además, la dependencia de GPT-4o puede limitar su aplicación en escenarios con recursos limitados.

En general, este es un artículo sólido de participación en tarea compartida que proporciona método y perspectivas valiosas, pero requiere más trabajo posterior para validar efectividad en escenarios más amplios y practicidad. Para investigadores trabajando en traducción automática, particularmente traducción con restricciones terminológicas, el pensamiento de dos etapas y la tubería de generación de datos sintéticos proporcionados por este artículo tienen valor de referencia.