Translation Entropy: A Statistical Framework for Evaluating Translation Systems
Gross, Harel, Kanter
The translation of written language has been known since the 3rd century BC; however, its necessity has become increasingly common in the information age. Today, many translators exist, based on encoder-decoder deep architectures, nevertheless, no quantitative objective methods are available to assess their performance, likely because the entropy of even a single language remains unknown. This study presents a quantitative method for estimating translation entropy, with the following key finding. Given a translator, several sentences that differ by only one selected token of a given pivot sentence yield identical translations. Analyzing the statistics of this phenomenon across an ensemble of such sentences, consisting each of a pivot selected token, yields the probabilities of replacing this specific token with others while preserving the translation. These probabilities constitute the entropy of the selected token, and the average across all selected pivot tokens provides an estimate of the translator's overall translation entropy, which is enhanced along the decoder blocks. This entropic measure allows for the quantitative ranking of several publicly available translators and reveals whether mutual translation entropy is symmetric. Extending the proposed method to include the replacement of two tokens in a given pivot sentence demonstrates a multiplicative effect, where translation degeneracy is proportional to the product of the degeneracies of the two tokens. These findings establish translation entropy as a measurable property and objective benchmarking of artificial translators. Results are based on MarianMT, T5-Base and NLLB-200 translators.
academic
Энтропия перевода: статистическая база для оценки систем машинного перевода
Данное исследование решает проблему отсутствия объективных методов количественной оценки систем машинного перевода, предлагая статистическую базу для оценки энтропии перевода (TE). Основное открытие заключается в том, что для данного переводчика несколько исходных предложений, различающихся только одним выбранным токеном, могут производить идентичный перевод. Путём анализа статистических свойств этого явления можно вычислить распределение вероятностей замены конкретного токена при сохранении неизменности перевода, получив таким образом значение энтропии для этого токена. Усреднение значений энтропии по всем выбранным токенам позволяет оценить общую энтропию перевода переводчика. Метод позволяет ранжировать несколько открытых переводчиков, выявляет симметрию взаимной энтропии перевода и обнаруживает мультипликативный эффект при замене двух токенов. Исследование проверено на трёх моделях перевода: MarianMT, T5-Base и NLLB-200.
Системы машинного перевода (особенно основанные на архитектуре кодировщик-декодировщик глубокого обучения) не имеют объективных методов количественной оценки. Несмотря на существование метрик оценки BLEU и COMET, они в основном полагаются на лексическое и семантическое сходство с эталонными переводами, что затрудняет измерение внутренних свойств переводчика с точки зрения теории информации.
Теоретический уровень: Значение энтропии отдельного языка до сих пор не может быть точно вычислено. Шеннон в 1951 году оценил энтропию английского языка примерно в 1 бит на букву, но расширение на более длинные последовательности текста вычислительно невозможно
Практический уровень: В информационную эпоху спрос на переводы резко возрос, требуется объективный метод оценки и сравнения производительности различных систем перевода
Научное значение: Понимание явления информационной деградации в процессе перевода, выявление внутренних отношений между языками
BLEU: Основан на совпадении n-грамм, не может распознать переводы с различными формулировками, но одинаковым смыслом
COMET: Хотя использует нейронные модели для понимания семантики, всё ещё зависит от эталонных переводов и показывает небольшие различия в оценках (см. таблицу 8)
Теоретический тупик: Теоретическая оценка энтропии языка остаётся нерешённой, энтропия перевода ещё более сложна
Предложить метод оценки энтропии перевода без необходимости знания энтропии отдельных языков, количественно оценивая "деградацию перевода" (translation degeneracy) с точки зрения теории информации.
Предложение вычислимого определения энтропии перевода (TE): Количественная оценка энтропии перевода через распределение вероятностей замены токенов при сохранении неизменности перевода
Разработка систематического метода оценки TE: Полный процесс, включающий выбор опорных предложений, замену токенов, статистику подгрупп и вычисление энтропии
Обнаружение мультипликативного эффекта деградации перевода: Деградация при замене двух токенов составляет примерно 0,5-0,9 произведения деградаций при замене одного токена
Выявление асимметрии взаимной энтропии перевода: Перевод английского на французский показывает значительную асимметрию (энтропия французского→английского примерно в 2,5 раза больше, чем английского→французского), тогда как перевод английского на иврит близок к симметричному
Количественное ранжирование трёх основных переводчиков: MarianMT, T5-Base и NLLB-200, обнаружено немонотонное отношение между размером модели и производительностью
Проверка закона снижения энтропии блоков декодировщика: Качество перевода постепенно улучшается по слоям декодировщика (энтропия снижается с 10 712 до 116)
Входные данные: Модель перевода кодировщик-декодировщик, набор данных исходного языка Выходные данные: Значение энтропии перевода S (или S₉₅) для количественной оценки степени деградации перевода Ограничения: Требуется достаточное количество исходных предложений, содержащих выбранный токен (в данном исследовании используется 30 опорных предложений)
Оценка энтропии перевода состоит из следующих этапов:
Этап 1: Анализ одного токена
Выбрать опорный токен T₁
Выбрать из набора обучающих данных 30 исходных предложений, содержащих T₁ (в позиции j)
Для каждого предложения заменить T₁ в позиции j всеми возможными токенами (~30 000 токенов)
Определить, какие замены производят перевод, идентичный переводу исходного опорного предложения
Этап 2: Построение подгрупп
Для каждого опорного предложения m построить подгруппу SG_m(T₁), содержащую все токены замены, сохраняющие неизменность перевода
Чтобы избежать аномально больших подгрупп (например, когда модель игнорирует токен и почти все токены могут быть заменены), сохранить только 24 наименьшие подгруппы, обозначаемые как SG₂₄(T₁)
Этап 3: Вычисление вероятностей
Подсчитать количество появлений каждого токена i в SG₂₄(T₁) (1-24 раза), разделить на 24 для получения вероятности P_i:
P_i = (количество появлений токена i в 24 подгруппах) / 24
Этап 4: Вычисление энтропии
Для энтропии одного токена:
S(T1)=−∑iPilog2Pi(Eq. 2)
Среднее количество замен:
NAv(T1)=24∑iPi(Eq. 1)
Этап 5: Фильтрация по порогу
Исключить бессмысленные замены с низкой вероятностью (gibberish tokens), применив порог:
Pi>Порог=24βc(Eq. 4)
В исследовании использовано β_c = 5 (т.е. P_i > 0,208)
Этап 6: Оценка общей энтропии
Повторить вышеуказанный процесс для 100 случайно выбранных опорных токенов, вычислить среднюю энтропию:
S=⟨S(Tα)⟩α(Eq. 5)
Для снижения влияния выбросов использовать S₉₅ (среднее значение только 95 наименьших значений энтропии)
В отличие от традиционного "замещения токена в конкретном предложении", данный метод измеряет "какие токены могут последовательно сохранять неизменность перевода при замене в нескольких предложениях, содержащих данный токен", что является более строгим условием.
Открытие: T5-Base показывает лучший результат по S₉₅, MarianMT занимает второе место, NLLB-200 с наибольшим количеством параметров показывает худший результат
Исходное предложение: "You seemed very much in love, your arms full of wine and food"
SG(wine) = 86
SG(food) = 26
SG(wine, food) = 1 132
Отношение: 1 132 / (86 × 26) = 0,51
Объяснение: Замены двух токенов имеют корреляцию (например, "wine and beer" более естественно, чем "wine and bread"), что приводит к тому, что фактическая деградация немного меньше теоретического произведения
Распределение энтропии с длинным хвостом: Большинство токенов имеют S(T_α) в диапазоне 1-13, но небольшое количество выбросов может достигать сотен (Fig. 4)
Внутренние различия языковых пар: Асимметрия английского-французского может быть обусловлена различиями в структуре языка (например, более строгие требования согласования по роду и числу во французском), а не недостатками модели
Немонотонность размера модели: MarianMT (~75M параметров) в некоторых задачах превосходит NLLB-200 (~615M параметров), что указывает на то, что дизайн архитектуры и качество обучающих данных важнее количества параметров
Универсальность деградации перевода: Все переводчики демонстрируют значительную деградацию перевода (S₉₅ > 2,8), отражая внутреннюю синонимичность естественного языка
Проблема разрешающей способности COMET: Оценки COMET находятся в узком диапазоне 0,72-0,82, тогда как S₉₅ TE охватывает 2,8-295,9, обеспечивая гораздо большую разрешающую способность
BLEU (Papineni et al., 2002): Основана на точном совпадении n-грамм, игнорирует семантическую эквивалентность
COMET (Rei et al., 2020): Использует нейронную сеть для оценки семантического сходства, но всё ещё зависит от эталонного перевода
Преимущество данной работы: Не требует эталонного перевода, непосредственно количественно оценивает характеристики переводчика с точки зрения теории информации
Энтропия перевода измеряема: Путём статистического анализа замены токенов, сохраняющих неизменность перевода, можно количественно оценить энтропию переводчика
Взаимная энтропия перевода может быть асимметричной: Перевод английского на французский показывает 2,6-кратную асимметрию, тогда как перевод английского на иврит близок к симметричному, что указывает на различия во внутренней структуре языковых пар
Мультипликативный закон двух токенов: SG(T_α, T_β) ≈ 0,5-0,9 × SG(T_α) × SG(T_β), выявляя семантическую корреляцию между токенами
Нелинейное отношение между размером модели и производительностью: MarianMT (~75M параметров) в некоторых задачах превосходит NLLB-200 (~615M параметров)
Постепенная оптимизация декодировщика: Энтропия перевода снижается в геометрической прогрессии по слоям декодировщика (с 10 712 до 116)
Зависимость от набора данных: Результаты основаны на Opus100, другие наборы данных могут дать различные результаты
Ограниченное количество языковых пар: Тестирование только английского-французского и английского-ивритского, требуется более широкое охватывание языков
Выбор порога: Хотя результаты устойчивы в диапазоне β_c = 5-10, оптимальное значение требует теоретического обоснования
Парадигматический сдвиг: Впервые определена вычислимая энтропия перевода с точки зрения теории информации, обходя трудности оценки энтропии одного языка
Теоретическая глубина: Объединение теории энтропии Шеннона с современным глубоким обучением, построение моста между статистической физикой и NLP
Универсальность: Метод применим к любой архитектуре кодировщик-декодировщик, не ограничен конкретной моделью
Теоретический вклад: Установление операционального определения энтропии перевода, предоставление нового измерения для оценки систем перевода
Методологический вклад: Парадигма замены токенов + статистический анализ может быть расширена на другие задачи NLP (например, генерация текста, аннотирование)
Эмпирический вклад: Выявление асимметрии взаимного перевода и механизма оптимизации декодировщика
Разработка модели: Сравнение различных архитектур (количество слоёв кодировщика/декодировщика, механизмы внимания) по характеристикам деградации перевода
Лингвистические исследования: Исследование симметрии языковых пар, построение кластеризации языков на основе TE
Оптимизация обучения: Определение токенов с высокой энтропией, разработка специализированных стратегий обучения
Предложенная в данной работе база энтропии перевода представляет собой важную инновацию в области оценки машинного перевода, предоставляя совершенно новую перспективу с точки зрения теории информации. Её основные преимущества заключаются в отсутствии необходимости в эталонных переводах и большей разрешающей способности, основные открытия (асимметрия взаимного перевода, мультипликативный эффект двух токенов, закон снижения энтропии декодировщика) имеют важное теоретическое и практическое значение. Однако высокие вычислительные затраты, недостаточное теоретическое объяснение и недостаточный анализ противоречий с традиционными метриками являются основными ограничениями. Если в будущем удастся снизить вычислительную сложность, расширить охватывание языковых пар и глубже проанализировать источники асимметрии, этот метод может стать стандартным инструментом оценки систем перевода.
Рекомендуемый рейтинг: ★★★★☆ (4/5) Рекомендуемая аудитория: Исследователи машинного перевода, учёные на пересечении теории информации и NLP, разработчики систем перевода