Translation Entropy: A Statistical Framework for Evaluating Translation Systems
Gross, Harel, Kanter
The translation of written language has been known since the 3rd century BC; however, its necessity has become increasingly common in the information age. Today, many translators exist, based on encoder-decoder deep architectures, nevertheless, no quantitative objective methods are available to assess their performance, likely because the entropy of even a single language remains unknown. This study presents a quantitative method for estimating translation entropy, with the following key finding. Given a translator, several sentences that differ by only one selected token of a given pivot sentence yield identical translations. Analyzing the statistics of this phenomenon across an ensemble of such sentences, consisting each of a pivot selected token, yields the probabilities of replacing this specific token with others while preserving the translation. These probabilities constitute the entropy of the selected token, and the average across all selected pivot tokens provides an estimate of the translator's overall translation entropy, which is enhanced along the decoder blocks. This entropic measure allows for the quantitative ranking of several publicly available translators and reveals whether mutual translation entropy is symmetric. Extending the proposed method to include the replacement of two tokens in a given pivot sentence demonstrates a multiplicative effect, where translation degeneracy is proportional to the product of the degeneracies of the two tokens. These findings establish translation entropy as a measurable property and objective benchmarking of artificial translators. Results are based on MarianMT, T5-Base and NLLB-200 translators.
academic
إنتروبيا الترجمة: إطار إحصائي لتقييم أنظمة الترجمة
تتناول هذه الدراسة مشكلة افتقار أنظمة الترجمة الآلية إلى طرق تقييم كمية موضوعية، وتقترح إطار عمل قائم على الإحصاء لتقدير إنتروبيا الترجمة (Translation Entropy, TE). الاكتشاف الأساسي هو أنه بالنظر إلى مترجم معين، قد تنتج جمل مصدر متعددة تختلف فقط في رمز واحد محدد نفس الترجمة. من خلال تحليل الخصائص الإحصائية لهذه الظاهرة، يمكن حساب توزيع الاحتمالية لاستبدال رمز معين مع الحفاظ على الترجمة دون تغيير، وبالتالي الحصول على قيمة الإنتروبيا لذلك الرمز. بأخذ متوسط قيم الإنتروبيا لجميع الرموز المختارة، يمكن تقدير إنتروبيا الترجمة الإجمالية للمترجم. تم التحقق من الطريقة باستخدام ثلاثة نماذج ترجمة: MarianMT و T5-Base و NLLB-200.
تفتقر أنظمة الترجمة الآلية (خاصة تلك القائمة على معمارية المشفر-فاك الحديثة) إلى طرق تقييم كمية موضوعية. على الرغم من وجود مقاييس تقييم مثل BLEU و COMET، إلا أنها تعتمد بشكل أساسي على التشابه المعجمي والدلالي مع الترجمات المرجعية، مما يصعب قياس الخصائص الجوهرية للمترجم من منظور نظرية المعلومات.
على المستوى النظري: لا يمكن حساب قيمة الإنتروبيا لأي لغة واحدة بدقة حتى الآن. قدّر Shannon في عام 1951 إنتروبيا اللغة الإنجليزية بحوالي 1 بت لكل حرف، لكن التوسع إلى تسلسلات نصية أطول غير قابل للحساب
على المستوى العملي: مع زيادة الطلب على الترجمة في العصر الرقمي، هناك حاجة إلى طرق موضوعية لتقييم ومقارنة أداء أنظمة الترجمة المختلفة
الأهمية العلمية: فهم ظاهرة تدهور المعلومات في عملية الترجمة، والكشف عن العلاقات الجوهرية بين اللغات
اقتراح طريقة لتقدير إنتروبيا الترجمة دون الحاجة إلى معرفة إنتروبيا اللغات الفردية، وتحديد ظاهرة "تدهور الترجمة" (translation degeneracy) من منظور نظرية المعلومات.
اقتراح تعريف قابل للحساب لإنتروبيا الترجمة (TE): من خلال توزيع احتمالية استبدال الرموز مع الحفاظ على الترجمة دون تغيير
تطوير طريقة منهجية لتقدير TE: تشمل اختيار الجمل المحورية، استبدال الرموز، إحصائيات المجموعات الفرعية، وحساب الإنتروبيا
اكتشاف التأثير الضربي لتدهور الترجمة: تدهور استبدال رمزين يساوي تقريباً 0.5-0.9 مرة من حاصل ضرب تدهور الرموز الفردية
الكشف عن عدم التماثل في إنتروبيا الترجمة المتبادلة: تظهر الترجمة من الفرنسية إلى الإنجليزية عدم تماثل ملحوظ (قيمة الإنتروبيا حوالي 2.5 مرة من الإنجليزية إلى الفرنسية)، بينما تظهر الترجمة من الإنجليزية إلى العبرية تقريباً تماثلاً
تصنيف كمي لثلاثة مترجمات رئيسية: MarianMT و T5-Base و NLLB-200، مع اكتشاف علاقة غير أحادية بين حجم النموذج والأداء
التحقق من قانون تناقص الإنتروبيا عبر كتل فاك: تتحسن جودة الترجمة تدريجياً عبر الطبقات (الإنتروبيا تنخفض من 10,712 إلى 116)
الإدخال: نموذج ترجمة من نوع المشفر-فاك، مجموعة بيانات اللغة المصدر الإخراج: قيمة إنتروبيا الترجمة S (أو S₉₅)، لتحديد درجة تدهور الترجمة للمترجم القيود: الحاجة إلى عدد كافٍ من الجمل المصدر التي تحتوي على الرمز المحدد (تستخدم هذه الدراسة 30 جملة محورية)
اختيار 30 جملة مصدر تحتوي على T₁ من مجموعة البيانات (في الموضع j)
لكل جملة، استبدال T₁ في الموضع j برموز أخرى ممكنة (~30,000 رمز)
تحديد أي من الجمل المستبدلة تنتج نفس ترجمة الجملة المحورية الأصلية
الخطوة 2: بناء المجموعات الفرعية
لكل جملة محورية m، بناء مجموعة فرعية SG_m(T₁) تحتوي على جميع الرموز البديلة التي تحافظ على الترجمة دون تغيير
لتجنب المجموعات الفرعية الكبيرة بشكل غير طبيعي (كما عندما يتجاهل النموذج رمزاً معيناً، يمكن استبدال جميع الرموز تقريباً)، يتم الاحتفاظ فقط بـ 24 مجموعة فرعية أصغر، يُرمز لها بـ SG₂₄(T₁)
الخطوة 3: حساب الاحتمالية
إحصاء عدد مرات ظهور كل رمز i في SG₂₄(T₁) (1-24 مرة)، مقسوماً على 24 للحصول على الاحتمالية P_i:
P_i = (عدد مرات ظهور الرمز i في 24 مجموعة فرعية) / 24
الخطوة 4: حساب الإنتروبيا
بالنسبة لإنتروبيا الرمز الواحد:
S(T1)=−∑iPilog2Pi(المعادلة 2)
متوسط عدد الاستبدالات:
NAv(T1)=24∑iPi(المعادلة 1)
الخطوة 5: تصفية العتبة
لاستبعاد الاستبدالات غير المعنية ذات الاحتمالية المنخفضة (الرموز العشوائية)، يتم تطبيق عتبة:
Pi>العتبة=24βc(المعادلة 4)
تستخدم الدراسة β_c = 5 (أي P_i > 0.208)
الخطوة 6: تقدير الإنتروبيا الإجمالية
تكرار العملية السابقة لـ 100 رمز محوري مختار عشوائياً، وحساب متوسط الإنتروبيا:
S=⟨S(Tα)⟩α(المعادلة 5)
لتقليل تأثير القيم الشاذة، يتم استخدام S₉₅ (متوسط أقل 95 قيمة إنتروبيا فقط)
بخلاف "استبدال الرمز في جملة معينة" التقليدي، تقيس هذه الطريقة "عبر جمل متعددة تحتوي على الرمز، أي الرموز يمكنها بشكل متسق الحفاظ على الترجمة دون تغيير"، وهو قيد شرطي أقوى.
الخصائص ذات الذيل الطويل لتوزيع الإنتروبيا: معظم الرموز لها S(T_α) في النطاق 1-13، لكن قيماً شاذة قليلة قد تصل إلى مئات (الشكل 4)
الاختلافات الجوهرية بين أزواج اللغات: قد ينشأ عدم التماثل الإنجليزي-الفرنسي من اختلافات البنية اللغوية (مثل متطلبات الاتفاق في الجنس والعدد الأكثر صرامة في الفرنسية)، وليس من عيب في النموذج
عدم الخطية بين حجم النموذج والأداء: يتفوق MarianMT (75 مليون) على NLLB-200 (615 مليون) في بعض المهام، مما يشير إلى أن تصميم المعمارية وجودة بيانات التدريب أهم من عدد المعاملات
عمومية تدهور الترجمة: جميع المترجمات تظهر تدهوراً ملحوظاً في الترجمة (S₉₅ > 2.8)، مما يعكس الطبيعة الجوهرية للغة الطبيعية
مشكلة القدرة التمييزية لـ COMET: نقاط COMET في نطاق ضيق 0.72-0.82، بينما S₉₅ لـ TE يتراوح من 2.8 إلى 295.9، مما يوفر قدرة تمييز أكبر
إنتروبيا الترجمة قابلة للقياس: من خلال التحليل الإحصائي لاستبدال الرموز مع الحفاظ على الترجمة، يمكن تحديد قيمة إنتروبيا المترجم
قد تكون إنتروبيا الترجمة المتبادلة غير متماثلة: تظهر الترجمة الإنجليزية-الفرنسية عدم تماثل بمعامل 2.6، بينما تظهر الترجمة الإنجليزية-العبرية تقريباً تماثلاً، مما يعكس الاختلافات البنيوية الجوهرية بين أزواج اللغات
القانون الضربي لرمزين: SG(T_α, T_β) ≈ 0.5-0.9 × SG(T_α) × SG(T_β)، يكشف عن الارتباط الدلالي بين الرموز
العلاقة غير الخطية بين حجم النموذج والأداء: يتفوق MarianMT (75 مليون معامل) على NLLB-200 (615 مليون معامل) في بعض المهام
التحسين التدريجي للفاك: تنخفض إنتروبيا الترجمة بشكل أسي عبر طبقات فاك (من 10,712 إلى 116)
يمثل إطار إنتروبيا الترجمة المقترح في هذا البحث ابتكاراً مهماً في مجال تقييم الترجمة الآلية، حيث يوفر منظوراً جديداً من منظور نظرية المعلومات. تكمن المزايا الأساسية في عدم الحاجة إلى ترجمات مرجعية وقدرة تمييز أكبر، والاكتشافات الأساسية (عدم التماثل في الترجمة المتبادلة، التأثير الضربي لرمزين، قانون تناقص الإنتروبيا عبر فاك) لها أهمية نظرية وعملية كبيرة. ومع ذلك، فإن التكلفة الحسابية العالية، التفسير النظري غير الكافي، وعدم الاستكشاف الكافي للتناقضات مع المقاييس التقليدية تمثل القيود الرئيسية. إذا تمكن البحث المستقبلي من تقليل التعقيد الحسابي والتوسع إلى أزواج لغات أكثر وتحليل أعمق لمصادر عدم التماثل، فقد تصبح هذه الطريقة أداة معيارية واحدة من أدوات تقييم أنظمة الترجمة.
مؤشر التوصية: ★★★★☆ (4/5) القراء المناسبون: باحثو الترجمة الآلية، الباحثون في التقاطع بين نظرية المعلومات واللسانيات الحاسوبية، مطورو أنظمة الترجمة