2025-11-30T09:01:18.756600

It Takes Two: A Dual Stage Approach for Terminology-Aware Translation

Jaswal
This paper introduces DuTerm, a novel two-stage architecture for terminology-constrained machine translation. Our system combines a terminology-aware NMT model, adapted via fine-tuning on large-scale synthetic data, with a prompt-based LLM for post-editing. The LLM stage refines NMT output and enforces terminology adherence. We evaluate DuTerm on English-to German, English-to-Spanish, and English-to-Russian with the WMT 2025 Terminology Shared Task corpus. We demonstrate that flexible, context-driven terminology handling by the LLM consistently yields higher quality translations than strict constraint enforcement. Our results highlight a critical trade-off, revealing that an LLM's work best for high-quality translation as context-driven mutators rather than generators.
academic

Нужны двое: двухэтапный подход к переводу с учётом терминологии

Основная информация

  • ID статьи: 2511.07461
  • Название: It Takes Two: A Dual Stage Approach for Terminology-Aware Translation
  • Автор: Akshat Singh Jaswal (PES University)
  • Классификация: cs.CL, cs.AI
  • Дата публикации/конференция: Отправлено на arXiv в ноябре 2025 года, участие в WMT 2025 Terminology Shared Task
  • Ссылка на статью: https://arxiv.org/abs/2511.07461

Аннотация

В статье предлагается DuTerm — двухэтапная архитектура для машинного перевода с ограничениями по терминологии. Система объединяет модель нейронного машинного перевода (NMT) с учётом терминологии и постредактирование на основе подсказок для больших языковых моделей (LLM). Модель NMT тонко настраивается на крупномасштабных синтетических данных, а этап LLM уточняет выходные данные NMT и обеспечивает соответствие терминологии. Авторы оценили эффективность перевода с английского на немецкий, испанский и русский языки в рамках общей задачи WMT 2025 по терминологии. Эксперименты показывают, что гибкий, контекстно-ориентированный подход LLM к обработке терминологии постоянно дает более высокое качество перевода, чем строгое принудительное ограничение, раскрывая преимущества LLM как контекстно-ориентированного «редактора», а не «генератора» при высококачественном переводе.

Исследовательский контекст и мотивация

1. Основная проблема, которую необходимо решить

В специализированных областях, таких как право, медицина и инженерия, точный и последовательный перевод специфической терминологии является ключевой проблемой машинного перевода. Хотя современные системы нейронного машинного перевода достигли значительной беглости на общих текстах, их производительность на текстах с ограничениями по терминологии остаётся неудовлетворительной.

2. Важность проблемы

  • Требования к точности: Перевод в специализированных областях предъявляет чрезвычайно высокие требования к точности терминологии; ошибки могут привести к серьёзным последствиям
  • Потребность в согласованности: Один и тот же термин должен переводиться последовательно во всём документе
  • Морфологические вызовы: В языках с богатой морфологией, таких как немецкий и русский, термины требуют правильного словоизменения

3. Ограничения существующих методов

Существующие методы перевода с ограничениями по терминологии делятся на две основные категории:

Методы времени вывода:

  • Прямое применение ограничений во время процесса декодирования (например, ограниченный поиск лучей)
  • Преимущества: эффективное применение ограничений
  • Недостатки: высокие вычислительные затраты, возможное ухудшение беглости и грамматической корректности

Методы времени обучения:

  • Интеграция информации о терминологии в обучающие данные с помощью специальных меток
  • Преимущества: более естественные выходные данные
  • Недостатки: невозможно гарантировать соблюдение всех ограничений во время вывода

4. Исследовательская мотивация

Авторы считают, что перевод с ограничениями по терминологии — это не просто проблема лексической замены, но требует глубокого понимания языкового контекста, особенно при работе со сложной морфологией. DuTerm направлена на объединение преимуществ обоих подходов, обеспечивая точность терминологии при сохранении качества перевода.

Основные вклады

  1. Предложена двухэтапная архитектура DuTerm: Инновационное объединение методов времени обучения и времени вывода, достигающее перевода с учётом терминологии посредством синергетической работы NMT+LLM
  2. Конвейер генерации крупномасштабных синтетических данных: Разработан систематизированный метод генерации синтетических данных с аннотацией терминологии, включая однотерминные и многотерминные шаблоны, с генерацией 10k-15k высококачественных параллельных пар предложений для каждого языкового направления
  3. Гибкая стратегия обработки терминологии: Предложены три режима обработки терминологии (noterm, proper, random), позволяющие динамически выбирать интенсивность ограничений в зависимости от контекста
  4. Многоязычная оценка: Комплексная оценка на трёх языковых парах английский→немецкий, испанский, русский, подтверждающая кроссязыковую эффективность метода
  5. Ключевые выводы: Эксперименты доказывают, что LLM как «контекстно-ориентированный редактор» более эффективна, чем как «генератор с нуля», раскрывая компромисс между строгими ограничениями и качеством перевода

Подробное описание метода

Определение задачи

Входные данные: Предложение на исходном языке (английский) + словарь терминологии (пары исходный-целевой термин) Выходные данные: Перевод на целевой язык, где указанные термины переведены корректно и помечены метками Ограничения: Необходимо использовать целевые термины, предоставленные в словаре, при сохранении беглости и грамматической корректности перевода

Архитектура модели

DuTerm использует двухэтапную архитектуру конвейера:

Этап 1: Нейронный машинный перевод с учётом терминологии

1. Извлечение и анализ терминологии

  • Анализ набора разработки WMT 2025, построение двуязычного словаря терминологии
  • Извлечение более 1000 уникальных пар терминов для каждого направления перевода
  • Использование repetition_ids для отслеживания терминов и количества их появлений
  • Использование LLM для генерации дополнительных терминов, похожих на термины словаря

2. Генерация синтетических данных Использование GPT-4o для генерации параллельных пар предложений с метками терминологии, применяя два режима:

  • Однотерминный режим: Каждая пара предложений содержит только один экземпляр термина
  • Многотерминный режим: Случайный выбор 2-3 пар терминов для совместного появления, обучение обработке совместного появления и разрешению неоднозначности

Технические детали:

  • Выборка с температурой: 0,3-0,7
  • Параллельная генерация
  • Строгий парсинг для обеспечения корректности формата
  • Явная вставка граничных меток [TERM]...[/TERM] на исходном и целевом языках

3. Нормализация меток и фильтрация качества

  • Переаннотирование: Принудительное применение единообразных стандартов аннотирования
  • Сопоставление по наибольшей длине: Предотвращение частичного перекрытия
  • Обработка регистра: Обнаружение без учёта регистра, сохранение исходного регистра
  • Обратное сопоставление: Обеспечение симметричного аннотирования на целевой стороне
  • Оценка качества: Оценка каждой пары предложений с использованием COMETQE
  • Дедупликация: Дедупликация на исходной стороне
  • Фильтрация по пороговому значению: Консервативный порог (0,85-0,9), обычно сохраняется 60-70% выходных данных
  • Итоговый результат: примерно 10k-15k высококачественных пар для каждого языкового направления

4. Адаптация многоязычной модели

  • Базовая модель: NLLB-200 3.3B (многоязычная модель нейронного машинного перевода)
  • Расширение словаря: Добавление токенов меток терминологии ([TERM], [/TERM]), обеспечение атомарной обработки, предотвращение разбиения меток на подслова
  • Стратегия обучения:
    • Параметрически эффективная тонкая настройка
    • Совместное многоязычное обучение: объединение отфильтрованных наборов данных трёх целевых языков
    • Трансфер-обучение между языками

Этап 2: Постредактирование на основе LLM

1. Процесс постредактирования

  • Входные данные: Исходное предложение + перевод NMT + сопоставление исходный-целевой термин
  • Выбор LLM: GPT-4o (высокое качество + относительно низкая стоимость)
  • Инструкции: Сохранение семантики, применение точных целевых терминов, сохранение меток, улучшение читаемости без переписывания ограничений

2. Обработка терминологии с учётом контекста

  • Динамический парсинг: Выбор ограничений proper/random/noterm из базы данных эталонной терминологии на основе входных данных
  • Адаптация режима:
    • При наличии ограничений: принудительное применение
    • При отсутствии ограничений: только редактирование качества, но с сохранением чувствительности к техническим терминам
  • Удовлетворение ограничений: Включение явного сопоставления и правил формата в подсказку

3. Обеспечение качества и надёжность

  • Выборка с низкой температурой: Температура 0,3, обеспечение детерминированного редактирования
  • Механизм проверки: Использование предопределённого парсера для проверки формата, целостности меток, удовлетворения ограничений
  • Проверка структуры: Проверка шаблонов имён файлов, наличия всех режимов терминов, структуры JSONL
  • Оценка качества:
    • Оценка COMETQE после удаления меток
    • Проверка сохранения терминов посредством точного сопоставления

Технические инновации

  1. Проектирование синергетической архитектуры: NMT обеспечивает структурированный предварительный перевод, LLM сосредоточивается на высокоуровневых улучшениях (разрешение неоднозначности, корректировка порядка слов, уточнение контекста), избегая сложности генерации с нуля
  2. Контроль качества синтетических данных: Многоэтапная фильтрация (оценка COMETQE + дедупликация + высокий порог) обеспечивает качество обучающих данных
  3. Гибкая стратегия ограничений: Три режима (noterm/proper/random) позволяют балансировать между точностью терминологии и естественностью перевода
  4. Сквозная проверка: Механизм обеспечения качества на всех этапах от генерации данных до окончательного выходного сигнала

Экспериментальная установка

Наборы данных

  • Источник: WMT 2025 Terminology Shared Task
  • Языковые пары: Английский→немецкий (DE), английский→испанский (ES), английский→русский (RU)
  • Словарь терминологии: >1000 пар терминов для каждого направления
  • Синтетические обучающие данные: 10k-15k пар предложений для каждого направления
  • Обучающие данные базовой модели: Многоязычные данные предварительного обучения NLLB-200

Метрики оценки

  1. BLEU: Общая адекватность перевода, измерение точности n-грамм
  2. chrF2++: Беглость на уровне символов и надёжность, более чувствительна к морфологическим изменениям
  3. Коэффициент успеха терминологии (Terminology Success Rate):
    • Proper SR: Коэффициент использования правильных терминов
    • Random SR: Коэффициент использования случайных терминов

Методы сравнения

Самосравнение трёх стратегий обработки терминологии:

  • noterm: Перевод без ограничений (базовый уровень)
  • proper: Строгое принудительное применение терминологии
  • random: Принудительное применение случайной терминологии (тест способности модели применять неправильные термины)

Детали реализации

  • Тонкая настройка NMT:
    • Базовая модель: NLLB-200 3.3B
    • Стратегия оптимизации: параметрически эффективная тонкая настройка
    • Обучающие данные: многоязычное смешивание (10k-15k/язык)
  • Постредактирование LLM:
    • Модель: GPT-4o
    • Температура: 0,3
    • Инженерия подсказок: см. подробные шаблоны подсказок в приложениях A.1-A.4
  • Контроль качества:
    • Порог COMETQE: 0,85-0,9
    • Коэффициент сохранения: 60-70%

Результаты экспериментов

Основные результаты

Таблица 1: Результаты оценки трёх стратегий на трёх языковых парах

ЯзыкТипBLEUchrF2++Proper SRRandom SR
DEnoterm38.2462.610.430.69
proper48.0670.740.980.73
random43.7767.220.480.99
ESnoterm45.9867.050.470.73
proper58.5176.080.990.78
random53.2872.050.490.98
RUnoterm27.8855.290.390.69
proper35.8063.570.980.72
random32.2559.850.420.99

Ключевые выводы

  1. Значительный эффект строгого принудительного применения терминологии:
    • Режим proper показывает наивысшие значения BLEU и chrF2++ на всех языках
    • Немецкий: 48.06 BLEU (против 38.24 noterm, +25,7%)
    • Испанский: 58.51 BLEU (против 45.98 noterm, +27,2%)
    • Русский: 35.80 BLEU (против 27.88 noterm, +28,4%)
    • Коэффициент успеха proper терминологии ≥0,97, близко к совершенству
  2. Наихудшая производительность перевода без ограничений:
    • noterm показывает наименьшие значения BLEU и chrF2++ на всех языках
    • Беглость приемлема, но точность терминологии низка (proper SR: 0,39-0,47)
  3. Компромисс при принудительном применении случайной терминологии:
    • Режим random даёт среднее значение BLEU/chrF2++
    • Коэффициент успеха случайной терминологии ≈0,98, доказывая способность модели применять произвольную терминологию
    • Но это может ущербить контекстную уместность
  4. Языкоспецифичные тенденции:
    • Испанский: Наивысшие общие оценки (структура, похожая на английский)
    • Русский: Наибольший разрыв между proper и noterm (сложность контроля терминологии в языках с богатой морфологией)
    • Немецкий: Средняя производительность, но значительное улучшение в режиме proper

Экспериментальные выводы

  1. Компромисс между качеством и ограничениями: Строгое принудительное применение максимизирует точность терминологии и повышает метрики поверхностного качества, но может иногда снизить гибкость
  2. Преимущества LLM как редактора: Начиная со структурированного предварительного перевода NMT, LLM может сосредоточиться на высокоуровневых улучшениях, что более эффективно, чем генерация с нуля
  3. Кроссязыковая согласованность: Согласованные тенденции на трёх языках подтверждают универсальность метода
  4. Морфологические вызовы: Низкие базовые оценки русского языка и большое пространство для улучшения подчёркивают сложность обработки терминологии в языках с богатой морфологией

Связанные работы

1. Машинный перевод с ограничениями по терминологии

  • Методы времени вывода:
    • Ограниченный поиск лучей (Constrained Beam Search)
    • Переранжирование списков N-best
    • Недавние работы (Zhang et al., 2023) исследуют улучшения эффективности
  • Методы времени обучения:
    • Аннотирование специальными метками (Dinu et al., 2019)
    • Трансформер Левенштейна с ограничениями словаря (Susanto et al., 2020)

2. LLM для машинного перевода

  • Интеграция доменной терминологии (Moslem et al., 2023)
  • Автоматическое постредактирование GPT-4 (Raunak et al., 2023)

3. Многоязычный NMT

  • Архитектура Transformer (Vaswani et al., 2023)
  • NLLB-200 (Team et al., 2022): Перевод, ориентированный на человека, без языкового исключения
  • Многоязычный NMT Google (Johnson et al., 2017): Нулевой перевод между языками

4. Преимущества данной работы

  • Слияние методов: Первое систематическое объединение меток времени обучения и постредактирования LLM времени вывода
  • Крупномасштабные синтетические данные: Конвейер автоматической генерации с контролем качества
  • Гибкая стратегия: Динамическая обработка терминологии вместо бинарного выбора

Заключение и обсуждение

Основные выводы

  1. Эффективность двухэтапной архитектуры: DuTerm успешно объединяет преимущества NMT и LLM, достигая баланса между точностью терминологии и качеством перевода
  2. Гибкая обработка превосходит строгие ограничения: Хотя режим proper показывает лучшие результаты по автоматическим метрикам, контекстно-ориентированная способность обработки LLM является ключевым фактором успеха
  3. Позиционирование LLM: LLM как «редактор» (улучшение на основе выходных данных NMT) более эффективна, чем как «генератор» (перевод с нуля)
  4. Кроссязыковая проверка: Метод эффективен на трёх языках с существенно различающейся типологией (немецкий, испанский, русский)

Ограничения

Авторы явно указывают на следующие ограничения в статье:

  1. Зависимость от подсказок:
    • Высокая зависимость от тщательно разработанных подсказок
    • Может плохо обобщаться между доменами, языками или архитектурами моделей
  2. Ограничения последовательной обработки:
    • Последовательная обработка сопоставления терминов и уточнения перевода ограничивает способность адаптивного применения ограничений
  3. Обработка на уровне предложения:
    • Игнорирование согласованности на уровне документа и возможностей использования терминологии с учётом контекста
    • Эти факторы критичны в реальных задачах перевода
  4. Единственность модели:
    • Оценка только на GPT-4o ограничивает обобщаемость выводов
  5. Ограничения по доменам:
    • Сосредоточение на технических и коммерческих доменах
    • Может не охватывать вызовы специализированных доменов, таких как медицина или право
  6. Ограничения метрик оценки:
    • COMETQE, BLEU, chrF++ обеспечивают масштабируемость автоматизации
    • Но могут не полностью отражать точность терминологии и контекстную уместность
    • Требуется дополнительная оценка человеком

Будущие направления

  1. Механизмы адаптивного обучения:
    • Динамическая интеграция терминологии вместо зависимости от статических подсказок
    • Повышение надёжности между доменами и языками
  2. Сквозная архитектура:
    • Архитектуры с дополнительной памятью для сохранения согласованности между предложениями и документами
    • Более связный выходной сигнал
  3. Расширенная оценка:
    • Другие языковые модели
    • Разнообразные корпусы, специфичные для доменов
    • Проверка обобщаемости и выявление проблем, зависящих от доменов
  4. Гибридные стратегии:
    • Объединение направления подсказок с тонкой настройкой или обучением с подкреплением
    • Управляемое пользователем управление терминологией с интерактивностью
    • Улучшение удобства использования и точности
  5. Обработка на уровне документа:
    • Выход за пределы уровня предложения для достижения согласованности на уровне документа

Глубокая оценка

Преимущества

  1. Инновационность метода:
    • Двухэтапная архитектура умно объединяет преимущества NMT и LLM
    • Не простое объединение, а разделение ответственности: NMT обеспечивает структуру, LLM уточняет контекст
    • Гибкая трёхрежимная стратегия (noterm/proper/random) позволяет тонкий контроль
  2. Полнота инженерной реализации:
    • Подробный конвейер генерации синтетических данных с множественным контролем качества
    • Систематизированный процесс нормализации меток
    • Механизм сквозной проверки
    • Предоставление полных шаблонов подсказок (приложение), сильная воспроизводимость
  3. Достаточность экспериментов:
    • Три языковые пары с существенно различающейся типологией
    • Систематическое сравнение трёх стратегий обработки терминологии
    • Многомерная оценка (BLEU, chrF2++, коэффициент успеха терминологии)
    • Согласованные результаты и чёткие тенденции
  4. Ценность выводов:
    • Открытие «LLM как редактор vs генератор» имеет универсальное значение
    • Раскрывает компромисс между ограничениями терминологии и качеством перевода
    • Обеспечивает чёткое направление для будущих исследований
  5. Ясность изложения:
    • Чёткая структура, логичное построение
    • Достаточные технические детали
    • Честное обсуждение ограничений

Недостатки

  1. Недостаточность базовых линий сравнения:
    • Главным образом самосравнение (три режима)
    • Отсутствие прямого сравнения с другими методами SOTA перевода с ограничениями по терминологии
    • Отсутствие сравнения с чистыми методами NMT или LLM
  2. Отсутствие оценки человеком:
    • Полная зависимость от автоматических метрик
    • Контекстная уместность терминов, естественность перевода требуют человеческого суждения
    • Означает ли высокий балл режима proper действительно лучший перевод?
  3. Недостаточность абляционных экспериментов:
    • Отсутствие отдельной оценки вклада этапа NMT
    • Отсутствие анализа конкретных типов улучшений постредактирования LLM
    • Влияние объёма синтетических данных на производительность не исследовано
  4. Отсутствие анализа стоимости:
    • Стоимость использования GPT-4o не обсуждается
    • Время вывода не указано
    • Осуществимость развёртывания в реальных условиях неясна
  5. Недостаточность анализа примеров:
    • Отсутствие конкретных примеров переводов
    • Сложно интуитивно понять поведение модели
    • Отсутствует анализ типов ошибок
  6. Недостаточная проверка обобщаемости:
    • Только одна LLM (GPT-4o)
    • Только технические и коммерческие домены
    • Отсутствие тестирования на других открытых LLM (таких как Llama, Mistral)

Влияние

  1. Вклад в область:
    • Предоставляет новую парадигму для перевода с ограничениями по терминологии
    • Двухэтапная архитектура может вдохновить последующие исследования
    • Выводы «редактор vs генератор» имеют теоретическую ценность
  2. Практическая ценность:
    • Средняя: Метод зависит от GPT-4o, стоимость может ограничить крупномасштабное применение
    • Но идея может быть перенесена на открытые модели
    • Конвейер генерации синтетических данных имеет практическую ценность
  3. Воспроизводимость:
    • Хорошая: Предоставляются подробные шаблоны подсказок
    • Описание метода ясно
    • Но зависимость от GPT-4o может влиять на полную воспроизводимость
  4. Ценность для последующих исследований:
    • Предоставляет базовый уровень для задачи WMT 2025
    • Гибкая стратегия ограничений заслуживает углубленного исследования
    • Расширение на уровень документа — естественный следующий шаг

Применимые сценарии

  1. Наиболее подходящие:
    • Перевод технической документации (IT, финансы)
    • Сценарии с явным словарём терминологии
    • Приложения, требующие высокой согласованности терминологии, но допускающие определённые затраты
  2. Возможно подходящие:
    • Перевод коммерческих контрактов
    • Локализация описаний продуктов
    • Перевод внутренней документации предприятия
  3. Менее подходящие:
    • Перевод в реальном времени (стоимость и задержка)
    • Среды с ограниченными ресурсами (зависимость от крупных LLM)
    • Художественный перевод (чрезмерные ограничения могут ущербить творчество)
    • Крайне специализированные домены (медицина, право, требуют большей проверки доменов)
  4. Возможно подходящие после улучшения:
    • После замены GPT-4o открытыми LLM: сценарии с низкой стоимостью
    • После расширения на уровень документа: перевод длинных документов
    • После добавления взаимодействия человека: интеграция в инструменты CAT

Список литературы

Ключевые цитируемые работы

  1. Dinu et al., 2019: Training neural machine translation to apply terminology constraints — представительная работа методов меток времени обучения
  2. Raunak et al., 2023: Leveraging GPT-4 for automatic translation post-editing — прямой источник вдохновения для постредактирования LLM
  3. Team et al., 2022: NLLB-200 — базовая многоязычная модель NMT, используемая в данной работе
  4. Moslem et al., 2023: Domain terminology integration into machine translation — связанная работа по интеграции доменной терминологии
  5. Zhang et al., 2023: Understanding and improving the robustness of terminology constraints — последние достижения в методах ограничений времени вывода
  6. Rei et al., 2022: CometKiwi/COMETQE — метрика оценки качества, используемая в данной работе
  7. Vaswani et al., 2023: Attention is all you need — основа архитектуры Transformer

Общая оценка

DuTerm — это инженерно сильная, методологически ясная статья прикладных исследований. Её основной вклад заключается в предложении практической двухэтапной архитектуры, умно объединяющей преимущества NMT и LLM для обработки перевода с ограничениями по терминологии. Вывод «LLM как редактор, а не генератор» имеет универсальную ценность и может повлиять на проектирование будущих гибридных систем перевода.

Однако статья имеет недостатки в глубине экспериментов (отсутствие сравнения с другими методами, отсутствие оценки человеком) и проверке обобщаемости (единственная LLM, ограниченные домены). Кроме того, зависимость от GPT-4o может ограничить применение в сценариях с ограниченными ресурсами.

В целом, это солидная статья участия в общей задаче, предоставляющая ценный метод и выводы, но требующая дополнительных работ для проверки эффективности в более широких сценариях и практической применимости. Для исследователей, работающих в области машинного перевода, особенно перевода с ограничениями по терминологии, двухэтапная идея и конвейер генерации синтетических данных, предоставленные в данной работе, имеют справочную ценность.