This paper introduces DuTerm, a novel two-stage architecture for terminology-constrained machine translation. Our system combines a terminology-aware NMT model, adapted via fine-tuning on large-scale synthetic data, with a prompt-based LLM for post-editing. The LLM stage refines NMT output and enforces terminology adherence. We evaluate DuTerm on English-to German, English-to-Spanish, and English-to-Russian with the WMT 2025 Terminology Shared Task corpus. We demonstrate that flexible, context-driven terminology handling by the LLM consistently yields higher quality translations than strict constraint enforcement. Our results highlight a critical trade-off, revealing that an LLM's work best for high-quality translation as context-driven mutators rather than generators.
- ID Articolo: 2511.07461
- Titolo: It Takes Two: A Dual Stage Approach for Terminology-Aware Translation
- Autore: Akshat Singh Jaswal (PES University)
- Classificazione: cs.CL, cs.AI
- Data di Pubblicazione/Conferenza: Sottomesso ad arXiv a novembre 2025, partecipazione al WMT 2025 Terminology Shared Task
- Link Articolo: https://arxiv.org/abs/2511.07461
Questo articolo propone DuTerm, un'architettura a due fasi per la traduzione automatica vincolata dalla terminologia. Il sistema combina un modello di traduzione automatica neurale (NMT) consapevole della terminologia e la post-editing basata su prompt di modelli linguistici di grandi dimensioni (LLM). Il modello NMT viene messo a punto su dati sintetici su larga scala, mentre la fase LLM raffina l'output NMT e applica il rispetto della terminologia. Gli autori valutano l'effetto della traduzione dall'inglese al tedesco, spagnolo e russo sul compito condiviso di traduzione della terminologia WMT 2025. Gli esperimenti dimostrano che l'approccio flessibile e guidato dal contesto della terminologia dell'LLM produce costantemente traduzioni di qualità superiore rispetto all'applicazione rigorosa di vincoli, rivelando i vantaggi dell'LLM come "modificatore" contestuale piuttosto che "generatore" nella traduzione di alta qualità.
Nei settori specializzati come il diritto, la medicina e l'ingegneria, la traduzione accurata e coerente della terminologia specifica del dominio rappresenta una sfida critica per la traduzione automatica. Sebbene i moderni sistemi di traduzione automatica neurale abbiano raggiunto una fluidità significativa nei testi generici, le loro prestazioni su testi con vincoli terminologici rimangono ancora da migliorare.
- Requisiti di Precisione: La traduzione nei settori professionali richiede un'accuratezza terminologica estrema, poiché gli errori possono avere conseguenze gravi
- Esigenza di Coerenza: Lo stesso termine deve mantenere una traduzione coerente all'interno di un documento
- Sfide Morfologiche: In lingue morfologicamente ricche come il tedesco e il russo, i termini richiedono corrette variazioni morfologiche
I metodi esistenti di traduzione con vincoli terminologici si dividono principalmente in due categorie:
Metodi al Momento dell'Inferenza:
- Applicano vincoli direttamente durante il processo di decodifica (ad esempio, ricerca con fascio vincolato)
- Vantaggi: applicano efficacemente i vincoli
- Svantaggi: elevato costo computazionale, potenziale danno alla fluidità e correttezza grammaticale
Metodi al Momento dell'Addestramento:
- Integrano informazioni terminologiche nei dati di addestramento tramite etichette speciali
- Vantaggi: generano output più naturali
- Svantaggi: non garantiscono il rispetto di tutti i vincoli durante l'inferenza
Questo articolo sostiene che la traduzione con vincoli terminologici non è solo un problema di sostituzione lessicale, ma richiede una profonda comprensione del contesto linguistico, in particolare quando si affrontano morfologie complesse. DuTerm mira a combinare i vantaggi di entrambi gli approcci, garantendo l'accuratezza terminologica mantenendo la qualità della traduzione.
- Propone l'Architettura Duale DuTerm: Combina innovativamente i metodi di addestramento e inferenza, realizzando la traduzione consapevole della terminologia attraverso il lavoro sinergico di NMT+LLM
- Pipeline di Generazione di Dati Sintetici su Larga Scala: Sviluppa un metodo sistematico di generazione di dati sintetici con annotazione terminologica, includendo modelli a singolo termine e multi-termine, generando 10k-15k coppie di frasi parallele di alta qualità per ogni direzione linguistica
- Strategia Flessibile di Gestione della Terminologia: Propone tre modalità di gestione della terminologia (noterm, proper, random), consentendo la selezione dinamica dell'intensità dei vincoli in base al contesto
- Valutazione Multilingue: Conduce una valutazione completa su tre coppie linguistiche (inglese→tedesco, spagnolo, russo), verificando l'efficacia trasversale del metodo
- Intuizioni Chiave: Gli esperimenti dimostrano che l'LLM come "modificatore guidato dal contesto" è più efficace che come "generatore da zero", rivelando il compromesso tra vincoli rigorosi e qualità della traduzione
Input: Frase nella lingua di origine (inglese) + Dizionario terminologico (coppie di termini origine-destinazione)
Output: Traduzione nella lingua di destinazione, in cui i termini specificati sono tradotti correttamente ed etichettati
Vincoli: Deve utilizzare i termini di destinazione forniti nel dizionario, mantenendo al contempo la fluidità e la correttezza grammaticale della traduzione
DuTerm adotta un'architettura pipeline a due fasi:
1. Estrazione e Analisi della Terminologia
- Analizza il set di sviluppo WMT 2025 per costruire un dizionario terminologico bilingue
- Estrae oltre 1.000 coppie di termini univoci per ogni direzione di traduzione
- Utilizza repetition_ids per tracciare i termini e il numero di occorrenze
- Sfrutta l'LLM per generare termini aggiuntivi simili ai termini del dizionario
2. Generazione di Dati Sintetici
Utilizza GPT-4o per generare coppie di frasi parallele con etichette terminologiche, adottando due modalità:
- Modalità Singolo Termine: Ogni coppia di frasi contiene solo un'istanza di termine
- Modalità Multi-Termine: Seleziona casualmente 2-3 coppie di termini per co-occorrenza, addestrando la capacità di gestire co-occorrenze e disambiguazione
Dettagli Tecnici:
- Campionamento della temperatura: 0,3-0,7
- Generazione concorrente
- Parsing rigoroso per garantire la correttezza del formato
- Inserisce esplicitamente tag di confine
[TERM]...[/TERM] sia nella lingua di origine che in quella di destinazione
3. Normalizzazione delle Etichette e Filtraggio della Qualità
- Rietichettatura: Applica norme di annotazione coerenti
- Corrispondenza Più Lunga Prioritaria: Previene l'oscuramento parziale
- Gestione della Maiuscola: Rilevamento insensibile alla maiuscola, preserva la maiuscola originale
- Mappatura Inversa: Garantisce annotazione simmetrica sul lato di destinazione
- Punteggio di Qualità: Utilizza COMETQE per valutare ogni coppia di frasi
- Deduplicazione: Deduplicazione sul lato di origine
- Filtraggio per Soglia: Soglia conservativa (0,85-0,9), mantiene tipicamente il 60-70% dell'output
- Output finale: circa 10k-15k coppie di alta qualità per ogni direzione linguistica
4. Adattamento di Modelli Multilingui
- Modello Base: NLLB-200 3.3B (modello di traduzione automatica neurale multilingue)
- Espansione del Vocabolario: Aggiunge token di marcatori terminologici (
[TERM], [/TERM]), garantendo l'elaborazione atomica, prevenendo la tokenizzazione in sottoparole che rompe i marcatori - Strategia di Addestramento:
- Messa a punto efficiente dei parametri (Parameter-Efficient Fine-Tuning)
- Addestramento congiunto multilingue: unisce i dataset filtrati di tre lingue di destinazione
- Apprendimento per trasferimento trasversale
1. Processo di Post-Editing
- Input: Frase di origine + Traduzione NMT + Mappatura termine origine-destinazione
- Selezione LLM: GPT-4o (alta qualità + costo relativamente basso)
- Istruzioni: Mantieni la semantica, applica termini di destinazione precisi, conserva le etichette, migliora la leggibilità senza riscrivere i vincoli
2. Gestione Consapevole della Terminologia
- Parsing Dinamico: Seleziona i vincoli proper/random/noterm dal database di riferimento terminologica in base all'input
- Adattamento Modale:
- Con vincoli presenti: applicazione forzata
- Senza vincoli: solo editing di qualità, ma mantenendo sensibilità ai termini tecnici
- Soddisfacimento dei Vincoli: Le istruzioni includono mappature esplicite e regole di formato
3. Garanzia di Qualità e Robustezza
- Campionamento a Bassa Temperatura: Temperatura 0,3, garantisce editing deterministico
- Meccanismo di Verifica: Utilizza un parser predefinito per verificare il formato, l'integrità delle etichette, il soddisfacimento dei vincoli
- Controllo della Struttura: Verifica il modello del nome file, l'esistenza di tutti i modelli terminologici, la struttura JSONL
- Valutazione della Qualità:
- Utilizza il punteggio COMETQE dopo la rimozione delle etichette
- Verifica il tasso di conservazione della terminologia tramite corrispondenza esatta
- Progettazione dell'Architettura Sinergica: NMT fornisce una traduzione iniziale strutturata, l'LLM si concentra su miglioramenti di alto livello (disambiguazione, regolazione dell'ordine delle parole, raffinamento contestuale), evitando la complessità della generazione da zero
- Controllo della Qualità dei Dati Sintetici: Filtraggio multi-fase (punteggio COMETQE + deduplicazione + soglia elevata) garantisce la qualità dei dati di addestramento
- Strategia di Vincoli Flessibili: Tre modalità (noterm/proper/random) consentono il compromesso tra accuratezza terminologica e naturalezza della traduzione
- Verifica End-to-End: Meccanismo di garanzia della qualità dell'intero processo dalla generazione dei dati all'output finale
- Fonte: WMT 2025 Terminology Shared Task
- Coppie Linguistiche: Inglese→Tedesco (DE), Inglese→Spagnolo (ES), Inglese→Russo (RU)
- Dizionario Terminologico: >1.000 coppie di termini per ogni direzione
- Dati di Addestramento Sintetici: 10k-15k coppie di frasi per ogni direzione
- Dati di Addestramento del Modello Base: Dati multilingui pre-addestrati di NLLB-200
- BLEU: Adeguatezza complessiva della traduzione, misura la precisione degli n-gram
- chrF2++: Fluidità a livello di carattere e robustezza, più sensibile alle variazioni morfologiche
- Tasso di Successo della Terminologia (Terminology Success Rate):
- Proper SR: Tasso di utilizzo della terminologia corretta
- Random SR: Tasso di utilizzo della terminologia casuale
Confronto interno di tre strategie di gestione della terminologia:
- noterm: Traduzione senza vincoli (baseline)
- proper: Applicazione rigorosa della terminologia
- random: Applicazione casuale della terminologia (test se il modello può forzare termini inappropriati)
- Messa a Punto NMT:
- Modello base: NLLB-200 3.3B
- Strategia di ottimizzazione: Messa a punto efficiente dei parametri
- Dati di addestramento: Miscela multilingue (10k-15k/lingua)
- Post-Editing LLM:
- Modello: GPT-4o
- Temperatura: 0,3
- Ingegneria dei Prompt: Vedere i modelli di prompt dettagliati negli Appendici A.1-A.4
- Controllo di Qualità:
- Soglia COMETQE: 0,85-0,9
- Tasso di conservazione: 60-70%
Tabella 1: Risultati di Valutazione per Tre Coppie Linguistiche e Tre Strategie
| Lingua | Tipo | BLEU | chrF2++ | Proper SR | Random SR |
|---|
| DE | noterm | 38.24 | 62.61 | 0.43 | 0.69 |
| proper | 48.06 | 70.74 | 0.98 | 0.73 |
| random | 43.77 | 67.22 | 0.48 | 0.99 |
| ES | noterm | 45.98 | 67.05 | 0.47 | 0.73 |
| proper | 58.51 | 76.08 | 0.99 | 0.78 |
| random | 53.28 | 72.05 | 0.49 | 0.98 |
| RU | noterm | 27.88 | 55.29 | 0.39 | 0.69 |
| proper | 35.80 | 63.57 | 0.98 | 0.72 |
| random | 32.25 | 59.85 | 0.42 | 0.99 |
- Effetto Significativo dell'Applicazione Rigorosa della Terminologia:
- La modalità proper raggiunge il BLEU e chrF2++ più elevati su tutte le lingue
- Tedesco: 48.06 BLEU (vs 38.24 noterm, +25.7%)
- Spagnolo: 58.51 BLEU (vs 45.98 noterm, +27.2%)
- Russo: 35.80 BLEU (vs 27.88 noterm, +28.4%)
- Tasso di successo della terminologia proper ≥0.97, quasi perfetto
- Traduzione Senza Vincoli Mostra le Prestazioni Peggiori:
- noterm ha il BLEU e chrF2++ più bassi su tutte le lingue
- La fluidità è accettabile, ma l'accuratezza terminologica è scarsa (proper SR: 0.39-0.47)
- Compromesso dell'Applicazione Casuale della Terminologia:
- La modalità random produce BLEU/chrF2++ medio
- Tasso di successo della terminologia casuale ≈0.98, dimostra che il modello può forzare termini arbitrari
- Ma questo danneggia l'appropriatezza contestuale
- Tendenze Specifiche della Lingua:
- Spagnolo: Punteggi complessivi più elevati (struttura simile all'inglese)
- Russo: Differenza più grande tra proper e noterm (difficoltà del controllo terminologico in lingue morfologicamente ricche)
- Tedesco: Prestazioni medie, ma miglioramento significativo in modalità proper
- Compromesso tra Qualità e Vincoli: L'applicazione rigorosa massimizza l'accuratezza terminologica e migliora le metriche di qualità superficiale, ma può occasionalmente ridurre la flessibilità
- Vantaggi dell'LLM come Modificatore: Iniziando dalla traduzione iniziale strutturata dell'NMT, l'LLM può concentrarsi su miglioramenti di alto livello, risultando più efficace della generazione da zero
- Coerenza Trasversale: Le tendenze sono coerenti su tre lingue, verificando l'universalità del metodo
- Sfida Morfologica: Il basso punteggio di base del russo e il grande spazio di miglioramento evidenziano la difficoltà della gestione terminologica in lingue morfologicamente ricche
- Metodi al Momento dell'Inferenza:
- Ricerca con Fascio Vincolato (Constrained Beam Search)
- Rirrangiamento di liste N-best
- Lavori recenti (Zhang et al., 2023) esplorano miglioramenti di efficienza
- Metodi al Momento dell'Addestramento:
- Annotazione con etichette speciali (Dinu et al., 2019)
- Levenshtein Transformer con vincoli lessicali (Susanto et al., 2020)
- Integrazione di terminologia di dominio (Moslem et al., 2023)
- Post-editing automatico con GPT-4 (Raunak et al., 2023)
- Architettura Transformer (Vaswani et al., 2023)
- NLLB-200 (Team et al., 2022): Traduzione incentrata sull'uomo senza lingue lasciate indietro
- NMT Multilingue Google (Johnson et al., 2017): Traduzione zero-shot
- Fusione di Metodi: Prima combinazione sistematica di etichette al momento dell'addestramento e post-editing LLM al momento dell'inferenza
- Dati Sintetici su Larga Scala: Pipeline di generazione automatica con controllo di qualità
- Strategia Flessibile: Gestione dinamica della terminologia piuttosto che scelta binaria
- Architettura Duale Efficace: DuTerm combina con successo i vantaggi di NMT e LLM, raggiungendo un equilibrio tra accuratezza terminologica e qualità della traduzione
- Gestione Flessibile Superiore ai Vincoli Rigorosi: Sebbene la modalità proper mostri le migliori prestazioni nelle metriche automatiche, la capacità di gestione contestuale dell'LLM è il fattore critico di successo
- Posizionamento dell'LLM: L'LLM come "modificatore" (miglioramento basato sull'output NMT) è più efficace che come "generatore" (traduzione da zero)
- Verifica Trasversale: Il metodo è efficace su tre lingue con differenze tipologiche significative (tedesco, spagnolo, russo)
Gli autori identificano chiaramente le seguenti limitazioni nell'articolo:
- Dipendenza dai Prompt:
- Altamente dipendente da prompt attentamente progettati
- Potrebbe non generalizzare bene tra domini, lingue o architetture di modelli
- Limitazione dell'Elaborazione Sequenziale:
- L'elaborazione sequenziale della corrispondenza terminologica e del raffinamento della traduzione limita la capacità di applicazione adattiva dei vincoli
- Elaborazione a Livello di Frase:
- Ignora la coerenza a livello di documento e le opportunità di utilizzo della terminologia consapevole del contesto
- Questi sono critici nei compiti di traduzione reali
- Singolarità del Modello:
- Valutato solo su GPT-4o, limitando la generalizzabilità delle scoperte
- Limitazione del Dominio:
- Focalizzato su domini tecnici e commerciali
- Potrebbe non catturare le sfide di domini specializzati come medicina o diritto
- Limitazioni delle Metriche di Valutazione:
- COMETQE, BLEU, chrF++ forniscono scalabilità automatica
- Ma potrebbero non riflettere completamente l'accuratezza terminologica e l'appropriatezza contestuale
- Richiede valutazione umana come supplemento
- Meccanismi di Apprendimento Adattivo:
- Integrazione dinamica della terminologia piuttosto che dipendenza da prompt statici
- Robustezza trasversale ai domini e alle lingue
- Architettura End-to-End:
- Architetture aumentate da memoria per mantenere coerenza tra frasi e documenti
- Output più coerente
- Valutazione Estesa:
- Altri modelli linguistici
- Corpora specifici di dominio diversificati
- Verifica della generalizzabilità e rivelazione di sfide dipendenti dal dominio
- Strategie Ibride:
- Combinazione di guida da prompt con messa a punto o apprendimento per rinforzo
- Controllo terminologico interattivo guidato dall'utente
- Miglioramento dell'usabilità e dell'accuratezza
- Elaborazione a Livello di Documento:
- Oltre il livello di frase, realizzazione della coerenza a livello di documento
- Innovazione del Metodo:
- L'architettura duale combina abilmente i vantaggi di NMT e LLM
- Non è semplice impilamento, ma divisione del lavoro: NMT fornisce struttura, LLM raffina il contesto
- La strategia flessibile a tre modalità (noterm/proper/random) consente controllo a grana fine
- Completezza Ingegneristica:
- Pipeline dettagliata di generazione di dati sintetici con controlli di qualità multipli
- Processo sistematico di normalizzazione delle etichette
- Meccanismo di verifica end-to-end
- Fornisce modelli di prompt completi (appendice), forte riproducibilità
- Sufficienza Sperimentale:
- Tre coppie linguistiche con differenze tipologiche significative
- Confronto sistematico di tre strategie di gestione della terminologia
- Valutazione multidimensionale (BLEU, chrF2++, tasso di successo terminologico)
- Risultati coerenti e tendenze chiare
- Valore delle Intuizioni:
- La scoperta "LLM come modificatore vs generatore" ha valore universale
- Rivela il compromesso tra vincoli terminologici e qualità della traduzione
- Fornisce direzioni chiare per la ricerca futura
- Chiarezza della Scrittura:
- Struttura chiara, logica coerente
- Dettagli tecnici sufficienti
- Discussione onesta delle limitazioni
- Confronto di Base Insufficiente:
- Principalmente confronto interno (tre modalità)
- Manca confronto diretto con altri metodi SOTA di traduzione con vincoli terminologici
- Non confrontato con metodi NMT puri o LLM puri
- Assenza di Valutazione Umana:
- Completamente dipendente da metriche automatiche
- L'appropriatezza contestuale della terminologia, la naturalezza della traduzione richiedono giudizio umano
- I punteggi elevati della modalità proper significano davvero traduzioni migliori?
- Esperimenti di Ablazione Insufficienti:
- Non valuta separatamente il contributo della fase NMT
- Manca analisi dei tipi specifici di miglioramento del post-editing LLM
- Non esplora l'impatto della quantità di dati sintetici sulle prestazioni
- Analisi dei Costi Mancante:
- Costo dell'utilizzo di GPT-4o non discusso
- Tempo di inferenza non riportato
- Fattibilità della distribuzione reale non chiara
- Analisi dei Casi Insufficiente:
- Nessun esempio di traduzione concreto
- Difficile comprendere intuitivamente il comportamento del modello
- Manca analisi dei tipi di errore
- Verifica della Generalizzabilità Insufficiente:
- Solo un LLM (GPT-4o)
- Solo domini tecnici e commerciali
- Non testato su altri LLM open-source (come Llama, Mistral)
- Contributo al Settore:
- Fornisce un nuovo paradigma per la traduzione con vincoli terminologici
- L'architettura duale potrebbe ispirare ricerche successive
- L'intuizione "modificatore vs generatore" ha valore teorico
- Valore Pratico:
- Medio: Il metodo dipende da GPT-4o, il costo potrebbe limitare l'applicazione su larga scala
- Ma il pensiero è trasferibile a modelli open-source
- La pipeline di generazione di dati sintetici ha valore pratico
- Riproducibilità:
- Buona: Fornisce modelli di prompt dettagliati
- Descrizione del metodo chiara
- Ma la dipendenza da GPT-4o potrebbe influire sulla completa riproducibilità
- Valore per la Ricerca Successiva:
- Fornisce baseline per il compito WMT 2025
- La strategia di vincoli flessibili merita approfondimento
- L'estensione a livello di documento è il passo naturale successivo
- Più Adatto:
- Traduzione di documentazione tecnica (IT, finanza)
- Scenari con dizionario terminologico esplicito
- Applicazioni che richiedono alta coerenza terminologica ma tollerano un certo costo
- Potenzialmente Adatto:
- Traduzione di contratti commerciali
- Localizzazione di manuali di prodotto
- Traduzione di documenti aziendali interni
- Non Molto Adatto:
- Traduzione in tempo reale (costo e latenza)
- Ambienti con risorse limitate (dipendenza da LLM di grandi dimensioni)
- Traduzione letteraria (vincoli eccessivi potrebbero danneggiare la creatività)
- Domini estremamente specializzati (medicina, diritto, richiedono più validazione di dominio)
- Potenzialmente Adatto Dopo Miglioramenti:
- Dopo la sostituzione di GPT-4o con LLM open-source: scenari a basso costo
- Dopo l'estensione a livello di documento: traduzione di documenti lunghi
- Dopo l'aggiunta di interazione umana: integrazione in strumenti CAT
- Dinu et al., 2019: Training neural machine translation to apply terminology constraints - Lavoro rappresentativo del metodo di etichettatura al momento dell'addestramento
- Raunak et al., 2023: Leveraging GPT-4 for automatic translation post-editing - Fonte di ispirazione diretta per il post-editing LLM
- Team et al., 2022: NLLB-200 - Modello NMT multilingue base utilizzato in questo articolo
- Moslem et al., 2023: Domain terminology integration into machine translation - Lavoro correlato sull'integrazione della terminologia di dominio
- Zhang et al., 2023: Understanding and improving the robustness of terminology constraints - Progressi recenti nei metodi di vincoli al momento dell'inferenza
- Rei et al., 2022: CometKiwi/COMETQE - Metrica di valutazione della qualità utilizzata in questo articolo
- Vaswani et al., 2023: Attention is all you need - Fondamento dell'architettura Transformer
DuTerm è un articolo di ricerca applicata forte in ingegneria e chiaro nel pensiero. Il suo contributo fondamentale risiede nella proposta di un'architettura pratica a due fasi che combina abilmente i vantaggi di NMT e LLM per affrontare la traduzione con vincoli terminologici. L'intuizione "LLM come modificatore piuttosto che generatore" ha valore universale e potrebbe influenzare il design futuro dei sistemi di traduzione ibridi.
Tuttavia, l'articolo presenta insufficienze nella profondità sperimentale (mancanza di confronto con altri metodi, assenza di valutazione umana) e nella verifica della generalizzabilità (singolo LLM, dominio limitato). Inoltre, la dipendenza da GPT-4o potrebbe limitare l'applicazione in scenari con risorse limitate.
Nel complesso, questo è un articolo solido di partecipazione a un compito condiviso che fornisce metodi e intuizioni preziosi, ma richiede ulteriore lavoro per verificare l'efficacia in scenari più ampi e la praticità. Per i ricercatori che lavorano sulla traduzione automatica, in particolare sulla traduzione con vincoli terminologici, il pensiero a due fasi e la pipeline di generazione di dati sintetici forniti in questo articolo hanno valore di riferimento.