2025-11-30T09:01:18.756600

It Takes Two: A Dual Stage Approach for Terminology-Aware Translation

Jaswal

This paper introduces DuTerm, a novel two-stage architecture for terminology-constrained machine translation. Our system combines a terminology-aware NMT model, adapted via fine-tuning on large-scale synthetic data, with a prompt-based LLM for post-editing. The LLM stage refines NMT output and enforces terminology adherence. We evaluate DuTerm on English-to German, English-to-Spanish, and English-to-Russian with the WMT 2025 Terminology Shared Task corpus. We demonstrate that flexible, context-driven terminology handling by the LLM consistently yields higher quality translations than strict constraint enforcement. Our results highlight a critical trade-off, revealing that an LLM's work best for high-quality translation as context-driven mutators rather than generators.

academic

Es braucht zwei: Ein dualistischer Ansatz für terminologiebewusste Übersetzung

Grundinformationen

Paper-ID: 2511.07461
Titel: It Takes Two: A Dual Stage Approach for Terminology-Aware Translation
Autor: Akshat Singh Jaswal (PES University)
Klassifizierung: cs.CL, cs.AI
Veröffentlichungszeitpunkt/Konferenz: November 2025 bei arXiv eingereicht, Teilnahme an WMT 2025 Terminology Shared Task
Paper-Link: https://arxiv.org/abs/2511.07461

Zusammenfassung

In diesem Papier wird DuTerm vorgestellt, eine dualistische Architektur für terminologiebeschränkte maschinelle Übersetzung. Das System kombiniert ein terminologiebewusstes neuronales Maschinenübersetzungsmodell (NMT) mit einer großen Sprachmodell-basierten (LLM) Nachbearbeitung durch Prompting. Das NMT-Modell wird durch umfangreiche synthetische Daten feinabgestimmt, während die LLM-Phase die NMT-Ausgabe verfeinert und die Terminologieeinhaltung erzwingt. Die Autoren bewerten die Übersetzungseffektivität für Englisch zu Deutsch, Spanisch und Russisch in der WMT 2025 Terminology Translation Shared Task. Experimente zeigen, dass die flexible, kontextgesteuerte Terminologieverarbeitung des LLM konsistent höherwertige Übersetzungen erzeugt als strikte Zwangseinschränkungen, was die Vorteile des LLM als kontextgesteuerter "Modifizierer" statt "Generator" für hochwertige Übersetzungen offenbart.

Forschungshintergrund und Motivation

1. Kernproblem

In Fachbereichen wie Recht, Medizin und Ingenieurwesen ist die genaue und konsistente Übersetzung domänenspezifischer Terminologie eine Schlüsselherausforderung für die maschinelle Übersetzung. Obwohl moderne neuronale Maschinenübersetzungssysteme bei allgemeinen Texten bemerkenswerte Flüssigkeit erreicht haben, bleibt die Leistung bei terminologiebeschränkten Texten verbesserungsbedürftig.

2. Bedeutung des Problems

Präzisionsanforderungen: Fachübersetzungen erfordern höchste Terminologiegenauigkeit; Fehler können schwerwiegende Folgen haben
Konsistenzanforderungen: Derselbe Begriff muss im gesamten Dokument konsistent übersetzt werden
Morphologische Herausforderungen: In morphologisch reichen Sprachen wie Deutsch und Russisch müssen Begriffe korrekte Wortformvariationen aufweisen

3. Einschränkungen bestehender Methoden

Bestehende Methoden zur terminologiebeschränkten Übersetzung fallen hauptsächlich in zwei Kategorien:

Inferenzzeitliche Methoden:

Direkte Anwendung von Einschränkungen während des Dekodierungsprozesses (z.B. constrained beam search)
Vorteile: Effektive Erzwingung von Einschränkungen
Nachteile: Hoher Rechenaufwand, mögliche Beeinträchtigung der Flüssigkeit und grammatikalischen Korrektheit

Trainingszeitliche Methoden:

Integration von Terminologieinformationen in Trainingsdaten durch spezielle Markierungen
Vorteile: Natürlichere Ausgaben
Nachteile: Keine Garantie, dass alle Einschränkungen zur Inferenzzeit eingehalten werden

4. Forschungsmotivation

Das Papier argumentiert, dass terminologiebeschränkte Übersetzung nicht nur ein Vokabelersetzungsproblem ist, sondern ein tiefes Verständnis des sprachlichen Kontexts erfordert, besonders bei komplexer Morphologie. DuTerm zielt darauf ab, die Vorteile beider Ansätze zu kombinieren und dabei Terminologiegenauigkeit zu gewährleisten und Übersetzungsqualität zu bewahren.

Kernbeiträge

Vorschlag der DuTerm-Dualarchitektur: Innovative Kombination von Trainings- und Inferenzzeitlichen Methoden durch synergistische Zusammenarbeit von NMT und LLM zur Realisierung terminologiebewusster Übersetzung
Großflächige synthetische Datengenerierungspipeline: Entwicklung einer systematisierten Methode zur Generierung terminologisch annotierter synthetischer Daten, einschließlich Ein- und Mehrterm-Muster, mit 10k-15k hochwertige parallele Satzpaare pro Sprachrichtung
Flexible Terminologieverarbeitungsstrategie: Vorschlag von drei Terminologieverarbeitungsmodi (noterm, proper, random), die eine dynamische Auswahl der Einschränkungsintensität basierend auf Kontext ermöglichen
Mehrsprachige Evaluierung: Umfassende Bewertung über Englisch→Deutsch, Spanisch und Russisch, um die sprachübergreifende Effektivität der Methode zu validieren
Wichtige Erkenntnisse: Experimente zeigen, dass LLM als "kontextgesteuerter Modifizierer" effektiver ist als als "Generator von Grund auf", was den Kompromiss zwischen strikten Einschränkungen und Übersetzungsqualität offenbart

Methodendetails

Aufgabendefinition

Eingabe: Quellsprachensatz (Englisch) + Terminologiewörterbuch (Quell-Ziel-Terminologiepaare) Ausgabe: Zielsprachenübersetzung, in der angegebene Begriffe korrekt übersetzt und mit Markierungen gekennzeichnet sind Einschränkungen: Müssen die im Wörterbuch bereitgestellten Zielterminologien verwenden, während Flüssigkeit und grammatikalische Korrektheit der Übersetzung gewahrt bleiben

Modellarchitektur

DuTerm verwendet eine zweistufige Pipeline-Architektur:

Stufe 1: Terminologiebewusstes neuronales Maschinenübersetzungsmodell

1. Terminologieextraktion und -analyse

Analyse des WMT 2025 Entwicklungssatzes zur Konstruktion eines zweisprachigen Terminologiewörterbuchs
Extraktion von über 1.000 eindeutigen Terminologiepaaren pro Übersetzungsrichtung
Verwendung von repetition_ids zur Verfolgung von Begriffen und deren Häufigkeit
Nutzung von LLM zur Generierung zusätzlicher Begriffe, die dem Wörterbuch ähnlich sind

2. Synthetische Datengenerierung Verwendung von GPT-4o zur Generierung paralleler Satzpaare mit Terminologiemarkierungen in zwei Modi:

Einterm-Modus: Jedes Satzpaar enthält nur eine Terminologieinstanz
Mehrterm-Modus: Zufällige Auswahl von 2-3 Begriffen zum gemeinsamen Auftreten, Training für Co-Occurrence-Verarbeitung und Disambiguierung

Technische Details:

Temperatursampling: 0,3-0,7
Parallele Generierung
Strikte Analyse zur Formatgarantie
Explizites Einfügen von Grenzmarkierungen [TERM]...[/TERM] in Quell- und Zielsprache

3. Markierungsnormalisierung und Qualitätsfilterung

Neuannotation: Erzwingung konsistenter Annotationsnormen
Längste-zuerst-Matching: Verhinderung von Teilverdeckung
Großschreibungsbehandlung: Großschreibungsunabhängige Erkennung, Beibehaltung der ursprünglichen Großschreibung
Umgekehrte Zuordnung: Sicherstellung symmetrischer Annotation auf der Zielseite
Qualitätsbewertung: Bewertung jedes Satzpaares mit COMETQE
Deduplizierung: Deduplizierung auf der Quellseite
Schwellenwertfilterung: Konservative Schwellenwerte (0,85-0,9), typischerweise 60-70% der Ausgabe beibehalten
Endprodukt: Etwa 10k-15k hochwertige Satzpaare pro Sprachrichtung

4. Mehrsprachige Modellanpassung

Basismodell: NLLB-200 3.3B (mehrsprachiges neuronales Maschinenübersetzungsmodell)
Vokabularerweiterung: Hinzufügen von Terminologiemarkierungstoken ([TERM], [/TERM]), Sicherstellung atomarer Verarbeitung, Verhinderung von Subwort-Tokenisierung, die Markierungen zerstört
Trainingsstrategie:
- Parametereffiziente Feinabstimmung
- Mehrsprachiges gemeinsames Training: Zusammenführung gefilterte Datensätze aller drei Zielsprachen
- Sprachübergreifendes Transferlernen

Stufe 2: LLM-basierte Nachbearbeitung

1. Nachbearbeitungsprozess

Eingabe: Quellsatz + NMT-Übersetzung + Quell-Ziel-Terminologiemapping
LLM-Auswahl: GPT-4o (hohe Qualität + relativ niedrige Kosten)
Anweisung: Semantik bewahren, präzise Zielterminologie anwenden, Markierungen beibehalten, Lesbarkeit verbessern ohne Einschränkungen umzuschreiben

2. Terminologiebewusste Verarbeitung

Dynamisches Parsing: Auswahl proper/random/noterm-Einschränkungen aus Referenzterminologiedatenbank basierend auf Eingabe
Modusadaptivität:
- Bei Einschränkungen vorhanden: Erzwingung
- Ohne Einschränkungen: Nur Qualitätsbearbeitung, aber Sensibilität für technische Terminologie bewahren
Einschränkungseinhaltung: Prompts enthalten explizite Zuordnungen und Formatierungsregeln

3. Qualitätssicherung und Robustheit

Niedriges Temperatursampling: Temperatur 0,3 für deterministische Bearbeitung
Verifizierungsmechanismus: Verwendung vordefinierter Parser zur Verifizierung von Format, Markierungsvollständigkeit, Einschränkungseinhaltung
Strukturprüfung: Verifizierung von Dateinamenmustern, Existenz aller Terminologiemuster, JSONL-Struktur
Qualitätsbewertung:
- COMETQE-Bewertung nach Markierungsentfernung
- Überprüfung der Terminologiebeibehaltungsrate durch exaktes Matching

Technische Innovationen

Synergistische Architekturgestaltung: NMT bietet strukturierte vorläufige Übersetzung, LLM konzentriert sich auf hochrangige Verbesserungen (Disambiguierung, Wortordnungsanpassung, Kontextrefinement), vermeidung der Komplexität der Generierung von Grund auf
Synthetische Datenkontrolle: Mehrstufige Filterung (COMETQE-Bewertung + Deduplizierung + hohe Schwellenwerte) sichert Trainingsdatenqualität
Flexible Einschränkungsstrategie: Drei Modi (noterm/proper/random) ermöglichen Abwägung zwischen Terminologiegenauigkeit und Übersetzungsnaturalität
End-to-End-Verifizierung: Umfassender Qualitätssicherungsmechanismus vom Datengenerierung bis zur endgültigen Ausgabe

Experimentelle Einrichtung

Datensätze

Quelle: WMT 2025 Terminology Shared Task
Sprachpaare: Englisch→Deutsch (DE), Englisch→Spanisch (ES), Englisch→Russisch (RU)
Terminologiewörterbuch: >1.000 Terminologiepaare pro Richtung
Synthetische Trainingsdaten: 10k-15k Satzpaare pro Richtung
Basismodell-Trainingsdaten: NLLB-200 vortrainierte mehrsprachige Daten

Bewertungsmetriken

BLEU: Gesamtübersetzungsadäquatheit, Messung von n-gram-Präzision
chrF2++: Zeichenebenen-Flüssigkeit und Robustheit, empfindlicher gegenüber morphologischen Variationen
Terminologieerfolgsrate (Terminology Success Rate):
- Proper SR: Verwendungsrate korrekter Terminologie
- Random SR: Verwendungsrate zufälliger Terminologie

Vergleichsmethoden

Selbstvergleich von drei Terminologieverarbeitungsstrategien:

noterm: Unbeschränkte Übersetzung (Baseline)
proper: Strikte Terminologieerzwingung
random: Zufällige Terminologieerzwingung (Test, ob Modell unangemessene Terminologie erzwingen kann)

Implementierungsdetails

NMT-Feinabstimmung:
- Basismodell: NLLB-200 3.3B
- Optimierungsstrategie: Parametereffiziente Feinabstimmung
- Trainingsdaten: Mehrsprachige Mischung (10k-15k/Sprache)
LLM-Nachbearbeitung:
- Modell: GPT-4o
- Temperatur: 0,3
- Prompt-Engineering: Siehe Anhang A.1-A.4 für detaillierte Prompt-Vorlagen
Qualitätskontrolle:
- COMETQE-Schwellenwert: 0,85-0,9
- Beibehaltungsrate: 60-70%

Experimentelle Ergebnisse

Hauptergebnisse

Tabelle 1: Bewertungsergebnisse für drei Sprachpaare und drei Strategien

Sprache	Typ	BLEU	chrF2++	Proper SR	Random SR
DE	noterm	38,24	62,61	0,43	0,69
	proper	48,06	70,74	0,98	0,73
	random	43,77	67,22	0,48	0,99
ES	noterm	45,98	67,05	0,47	0,73
	proper	58,51	76,08	0,99	0,78
	random	53,28	72,05	0,49	0,98
RU	noterm	27,88	55,29	0,39	0,69
	proper	35,80	63,57	0,98	0,72
	random	32,25	59,85	0,42	0,99

Wichtigste Erkenntnisse

Signifikante Effekte strikter Terminologieerzwingung:
- proper-Modus zeigt höchste BLEU- und chrF2++-Werte in allen Sprachen
- Deutsch: 48,06 BLEU (vs. 38,24 noterm, +25,7%)
- Spanisch: 58,51 BLEU (vs. 45,98 noterm, +27,2%)
- Russisch: 35,80 BLEU (vs. 27,88 noterm, +28,4%)
- proper-Terminologieerfolgsrate ≥0,97, nahezu perfekt
Schlechteste Leistung unbeschränkter Übersetzung:
- noterm zeigt niedrigste BLEU- und chrF2++-Werte in allen Sprachen
- Flüssigkeit annehmbar, aber Terminologiegenauigkeit schwach (proper SR: 0,39-0,47)
Kompromisse bei zufälliger Terminologieerzwingung:
- random-Modus erzeugt mittlere BLEU/chrF2++-Werte
- Zufällige Terminologieerfolgsrate ≈0,98, beweist Modellsfähigkeit zur Erzwingung beliebiger Terminologie
- Aber dies beeinträchtigt kontextuelle Angemessenheit
Sprachspezifische Trends:
- Spanisch: Höchste Gesamtwerte (strukturelle Ähnlichkeit mit Englisch)
- Russisch: Größter Unterschied zwischen proper und noterm (Schwierigkeit der Terminologiekontrolle in morphologisch reichen Sprachen)
- Deutsch: Mittlere Leistung, aber signifikante Verbesserung im proper-Modus

Experimentelle Erkenntnisse

Abwägung zwischen Qualität und Einschränkung: Strikte Erzwingung maximiert Terminologiegenauigkeit und verbessert oberflächliche Qualitätsmetriken, kann aber gelegentlich Flexibilität beeinträchtigen
Vorteile des LLM als Modifizierer: Ausgehend von strukturierter vorläufiger NMT-Übersetzung kann sich LLM auf hochrangige Verbesserungen konzentrieren, effektiver als Generierung von Grund auf
Sprachübergreifende Konsistenz: Konsistente Trends über alle drei Sprachen, validiert Universalität der Methode
Morphologische Herausforderungen: Niedrige Baseline-Werte für Russisch und großes Verbesserungspotenzial unterstreichen Schwierigkeit der Terminologieverarbeitung in morphologisch reichen Sprachen

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Effektivität der Dualarchitektur: DuTerm kombiniert erfolgreich NMT- und LLM-Vorteile und erreicht Gleichgewicht zwischen Terminologiegenauigkeit und Übersetzungsqualität
Flexible Verarbeitung übertrifft strikte Einschränkung: Obwohl proper-Modus bei automatischen Metriken am besten abschneidet, ist die kontextgesteuerte Verarbeitungsfähigkeit des LLM der Schlüssel zum Erfolg
LLM-Positionierung: LLM als "Modifizierer" (Verbesserung basierend auf NMT-Ausgabe) effektiver als als "Generator" (Übersetzung von Grund auf)
Sprachübergreifende Validierung: Methode wirksam über drei Sprachen mit signifikanten typologischen Unterschieden (Deutsch, Spanisch, Russisch)

Einschränkungen

Die Autoren geben folgende Limitierungen explizit an:

Prompt-Abhängigkeit:
- Hohe Abhängigkeit von sorgfältig gestalteten Prompts
- Möglicherweise schlechte Verallgemeinerung über Domänen, Sprachen oder LLM-Architekturen
Sequenzielle Verarbeitungslimitierungen:
- Sequenzielle Verarbeitung von Terminologiematching und Übersetzungsrefinement begrenzt adaptive Einschränkungserzwingung
Satzebenen-Verarbeitung:
- Ignoriert dokumentebene Konsistenz und Möglichkeiten für kontextbewusste Terminologieverwendung
- Diese sind in echten Übersetzungsaufgaben kritisch
Modell-Singularität:
- Nur auf GPT-4o evaluiert, begrenzt Verallgemeinerbarkeit der Erkenntnisse
Domänenlimitierungen:
- Fokus auf technische und geschäftliche Domänen
- Möglicherweise keine Erfassung von Herausforderungen in Spezialdomänen wie Medizin oder Recht
Bewertungsmetrik-Limitierungen:
- COMETQE, BLEU, chrF++ bieten automatisierte Skalierbarkeit
- Können aber Terminologiegenauigkeit und kontextuelle Angemessenheit möglicherweise nicht vollständig widerspiegeln
- Menschliche Bewertung als Ergänzung erforderlich

Zukünftige Richtungen

Adaptive Lernmechanismen:
- Dynamische Terminologieintegration statt statischer Prompt-Abhängigkeit
- Verbesserte Robustheit über Domänen und Sprachen
End-to-End-Architektur:
- Speichererweiterte Architektur zur Aufrechterhaltung satzübergreifender und dokumentübergreifender Konsistenz
- Kohärentere Ausgaben
Erweiterte Evaluierung:
- Andere Sprachmodelle
- Vielfältige domänenspezifische Korpora
- Validierung von Verallgemeinerbarkeit und Offenlegung domänenabhängiger Herausforderungen
Hybridstrategien:
- Kombination von Prompt-Anleitung mit Feinabstimmung oder Reinforcement Learning
- Benutzergesteuerte Terminologiekontroll-Interaktion
- Verbesserte Benutzerfreundlichkeit und Genauigkeit
Dokumentebenen-Verarbeitung:
- Über Satzebene hinaus zur Realisierung dokumentebener Konsistenz

Tiefenanalyse

Stärken

Methodische Innovativität:
- Dualarchitektur kombiniert NMT- und LLM-Vorteile geschickt
- Nicht einfaches Stacking, sondern klare Aufgabenteilung: NMT bietet Struktur, LLM verfeinert Kontext
- Flexible Drei-Modus-Strategie (noterm/proper/random) ermöglicht Feinkontrolle
Ingenieurische Vollständigkeit:
- Detaillierte synthetische Datengenerierungspipeline mit mehrfacher Qualitätskontrolle
- Systematisierter Markierungsnormalisierungsprozess
- End-to-End-Verifizierungsmechanismus
- Vollständige Prompt-Vorlagen (Anhang) für starke Reproduzierbarkeit
Experimentelle Gründlichkeit:
- Drei Sprachpaare mit signifikanten typologischen Unterschieden
- Systematischer Vergleich von drei Terminologieverarbeitungsstrategien
- Multidimensionale Bewertung (BLEU, chrF2++, Terminologieerfolgsrate)
- Konsistente und klare Ergebnistendenz
Erkenntnisse mit Wert:
- "LLM als Modifizierer vs. Generator"-Erkenntnis hat universelle Bedeutung
- Offenlegung des Kompromisses zwischen Terminologieeinschränkung und Übersetzungsqualität
- Klare Richtung für zukünftige Forschung
Klare Darstellung:
- Klare Struktur, logischer Aufbau
- Ausreichende technische Details
- Ehrliche Diskussion von Limitierungen

Schwächen

Unzureichende Baseline-Vergleiche:
- Hauptsächlich Selbstvergleiche (drei Modi)
- Fehlende direkte Vergleiche mit anderen SOTA-Methoden zur Terminologiebeschränkung
- Keine Vergleiche mit reinem NMT oder reinem LLM
Fehlende menschliche Bewertung:
- Vollständige Abhängigkeit von automatischen Metriken
- Kontextuelle Angemessenheit von Terminologie, Übersetzungsnaturalität erfordern menschliches Urteil
- Bedeuten hohe proper-Modus-Werte wirklich bessere Übersetzungen?
Unzureichende Ablationsstudien:
- Keine separate Bewertung des NMT-Phasenbeitrags
- Keine Analyse spezifischer LLM-Nachbearbeitungsverbesserungen
- Auswirkung der Menge synthetischer Daten auf Leistung nicht untersucht
Fehlende Kostenanalyse:
- Kosten der GPT-4o-Nutzung nicht diskutiert
- Inferenzzeit nicht berichtet
- Praktische Machbarkeit der Bereitstellung unklar
Unzureichende Fallstudienanalyse:
- Keine konkreten Übersetzungsbeispiele
- Schwierig, Modellverhalten intuitiv zu verstehen
- Fehlertyp-Analyse fehlend
Unzureichende Verallgemeinerungsvalidierung:
- Nur ein LLM (GPT-4o)
- Nur technische und geschäftliche Domänen
- Andere Open-Source-LLMs (wie Llama, Mistral) nicht getestet

Auswirkungen

Beitrag zur Disziplin:
- Bietet neues Paradigma für Terminologiebeschränkte Übersetzung
- Dualarchitektur könnte nachfolgende Forschung inspirieren
- "Modifizierer vs. Generator"-Erkenntnis hat theoretischen Wert
Praktischer Wert:
- Mittel: Methode abhängig von GPT-4o, Kosten könnten großflächige Anwendung begrenzen
- Aber Ansatz übertragbar auf Open-Source-Modelle
- Synthetische Datengenerierungspipeline hat praktischen Wert
Reproduzierbarkeit:
- Gut: Detaillierte Prompt-Vorlagen bereitgestellt
- Klare Methodenbeschreibung
- Aber GPT-4o-Abhängigkeit könnte vollständige Reproduzierbarkeit beeinträchtigen
Wert für Folgeforschung:
- Bietet Baseline für WMT 2025 Task
- Flexible Einschränkungsstrategie verdient tiefere Erforschung
- Dokumentebenen-Erweiterung ist natürlicher nächster Schritt

Anwendungsszenarien

Am besten geeignet:
- Technische Dokumentenübersetzung (IT, Finanzen)
- Szenarien mit klarem Terminologiewörterbuch
- Anwendungen mit hohen Terminologiekonsistenzanforderungen, die gewisse Kosten tolerieren
Möglicherweise geeignet:
- Geschäftsvertragsübersetzung
- Produkthandbuch-Lokalisierung
- Unternehmensinterner Dokumentenübersetzung
Weniger geeignet:
- Echtzeit-Übersetzung (Kosten und Latenz)
- Ressourcenbeschränkte Umgebungen (abhängig von großen LLMs)
- Literarische Übersetzung (übermäßige Einschränkung könnte Kreativität beeinträchtigen)
- Hochspezialisierte Domänen (wie Medizin, Recht, erfordern mehr Domänenvalidierung)
Nach Verbesserungen möglicherweise geeignet:
- Nach Ersatz von GPT-4o durch Open-Source-LLM: Kostengünstige Szenarien
- Nach Erweiterung auf Dokumentebene: Längere Dokumentenübersetzung
- Nach Hinzufügung menschlicher Interaktion: CAT-Tool-Integration

Literaturverzeichnis

Wichtige Zitationen

Dinu et al., 2019: Training neural machine translation to apply terminology constraints - Repräsentative Arbeit zu Trainingszeit-Markierungsmethoden
Raunak et al., 2023: Leveraging GPT-4 for automatic translation post-editing - Direkte Inspirationsquelle für LLM-Nachbearbeitung
Team et al., 2022: NLLB-200 - In diesem Papier verwendetes Basis-Mehrsprachiges-NMT-Modell
Moslem et al., 2023: Domain terminology integration into machine translation - Verwandte Arbeiten zur Domänenterminologie-Integration
Zhang et al., 2023: Understanding and improving the robustness of terminology constraints - Neueste Fortschritte in Inferenzzeitlichen Einschränkungsmethoden
Rei et al., 2022: CometKiwi/COMETQE - In diesem Papier verwendete Qualitätsbewertungsmetrik
Vaswani et al., 2023: Attention is all you need - Transformer-Architektur-Grundlagen

Gesamtbewertung

DuTerm ist ein ingenieurorientiertes, konzeptionell klares Anwendungsforschungspapier. Sein Kernbeitrag liegt in der Vorstellung einer praktischen Dualarchitektur, die die Vorteile von NMT und LLM zur Behandlung von Terminologiebeschränkter Übersetzung geschickt kombiniert. Die Erkenntnis "LLM als Modifizierer statt Generator" hat universelle Bedeutung und könnte zukünftige Designs hybrider Übersetzungssysteme beeinflussen.

Das Papier weist jedoch Mängel in experimenteller Tiefe (fehlende Vergleiche mit anderen Methoden, menschliche Bewertung) und Verallgemeinerungsvalidierung (einzelnes LLM, begrenzte Domänen) auf. Darüber hinaus könnte die GPT-4o-Abhängigkeit die Anwendung in ressourcenbeschränkten Szenarien begrenzen.

Insgesamt ist dies ein solides Shared-Task-Teilnahmepapier, das wertvolle Methoden und Erkenntnisse bietet, aber weitere Arbeiten zur Validierung der Effektivität und Praktikabilität in breiteren Szenarien erfordert. Für Forscher, die sich mit maschineller Übersetzung befassen, besonders mit Terminologiebeschränkter Übersetzung, bietet dieses Papier einen wertvollen Referenzpunkt für Dualarchitektur-Ansätze und Synthetische-Datengenerierungs-Pipelines.