Translation Entropy: A Statistical Framework for Evaluating Translation Systems
Gross, Harel, Kanter
The translation of written language has been known since the 3rd century BC; however, its necessity has become increasingly common in the information age. Today, many translators exist, based on encoder-decoder deep architectures, nevertheless, no quantitative objective methods are available to assess their performance, likely because the entropy of even a single language remains unknown. This study presents a quantitative method for estimating translation entropy, with the following key finding. Given a translator, several sentences that differ by only one selected token of a given pivot sentence yield identical translations. Analyzing the statistics of this phenomenon across an ensemble of such sentences, consisting each of a pivot selected token, yields the probabilities of replacing this specific token with others while preserving the translation. These probabilities constitute the entropy of the selected token, and the average across all selected pivot tokens provides an estimate of the translator's overall translation entropy, which is enhanced along the decoder blocks. This entropic measure allows for the quantitative ranking of several publicly available translators and reveals whether mutual translation entropy is symmetric. Extending the proposed method to include the replacement of two tokens in a given pivot sentence demonstrates a multiplicative effect, where translation degeneracy is proportional to the product of the degeneracies of the two tokens. These findings establish translation entropy as a measurable property and objective benchmarking of artificial translators. Results are based on MarianMT, T5-Base and NLLB-200 translators.
academic
अनुवाद एंट्रॉपी: अनुवाद प्रणालियों का मूल्यांकन करने के लिए एक सांख्यिकीय ढांचा
यह अनुसंधान मशीन अनुवाद प्रणालियों में वस्तुनिष्ठ मात्रात्मक मूल्यांकन विधियों की कमी को संबोधित करते हुए, सांख्यिकीय आधार पर अनुवाद एंट्रॉपी (Translation Entropy, TE) अनुमान का एक ढांचा प्रस्तावित करता है। मुख्य खोज यह है कि एक अनुवादक को देखते हुए, केवल एक चयनित टोकन में भिन्न कई स्रोत वाक्य समान अनुवाद उत्पन्न कर सकते हैं। इस घटना की सांख्यिकीय विशेषताओं का विश्लेषण करके, हम विशिष्ट टोकन को प्रतिस्थापित करते समय अनुवाद को अपरिवर्तित रखने की संभावना वितरण की गणना कर सकते हैं, जिससे उस टोकन की एंट्रॉपी मान प्राप्त होती है। सभी चयनित टोकन की एंट्रॉपी मानों का औसत लेने से अनुवादक की समग्र अनुवाद एंट्रॉपी का अनुमान लगाया जा सकता है। यह विधि MarianMT, T5-Base और NLLB-200 तीन अनुवाद मॉडलों पर सत्यापित की गई है।
मशीन अनुवाद प्रणालियां (विशेष रूप से गहन शिक्षण आधारित एनकोडर-डिकोडर आर्किटेक्चर) वस्तुनिष्ठ मात्रात्मक मूल्यांकन विधियों की कमी से ग्रस्त हैं। हालांकि BLEU और COMET जैसे मूल्यांकन मेट्रिक्स मौजूद हैं, लेकिन ये मुख्य रूप से संदर्भ अनुवाद की शब्दावली और शब्दार्थ समानता पर निर्भर करते हैं, और सूचना सिद्धांत के दृष्टिकोण से अनुवादक की आंतरिक विशेषताओं को मापना कठिन है।
सैद्धांतिक स्तर: एकल भाषा की एंट्रॉपी मान को अब तक सटीक रूप से गणना नहीं की जा सकी है। Shannon ने 1951 में अनुमान लगाया कि अंग्रेजी एंट्रॉपी लगभग प्रति अक्षर 1 बिट है, लेकिन लंबे पाठ अनुक्रमों तक विस्तार कम्प्यूटेशनल रूप से अव्यावहारिक है
व्यावहारिक स्तर: सूचना युग में अनुवाद की मांग में वृद्धि हुई है, विभिन्न अनुवाद प्रणालियों के प्रदर्शन का मूल्यांकन और तुलना करने के लिए वस्तुनिष्ठ विधियों की आवश्यकता है
वैज्ञानिक महत्व: अनुवाद प्रक्रिया में सूचना क्षरण (degeneracy) घटना को समझना, भाषाओं के बीच आंतरिक संबंधों को उजागर करना
BLEU: n-gram मिलान पर आधारित, विभिन्न शब्दों लेकिन समान अर्थ वाले अनुवादों को पहचान नहीं सकता
COMET: हालांकि शब्दार्थ को समझने के लिए तंत्रिका मॉडल का उपयोग करता है, फिर भी संदर्भ अनुवाद पर निर्भर है, और मूल्यांकन स्कोर में अंतर कम है (तालिका 8 देखें)
सैद्धांतिक दुविधा: भाषा एंट्रॉपी का सैद्धांतिक अनुमान आज तक अनसुलझा है, अनुवाद एंट्रॉपी और भी जटिल है
एक ऐसी विधि प्रस्तावित करना जो एकल भाषा की एंट्रॉपी जाने बिना अनुवाद एंट्रॉपी का अनुमान लगा सके, सूचना सिद्धांत के दृष्टिकोण से अनुवाद प्रणाली की "अनुवाद क्षरण" (translation degeneracy) घटना को मात्रात्मक रूप से प्रदर्शित करना।
अनुवाद एंट्रॉपी (TE) की गणनीय परिभाषा प्रस्तावित करना: टोकन प्रतिस्थापन के माध्यम से अनुवाद को अपरिवर्तित रखने की संभावना वितरण के आधार पर अनुवाद एंट्रॉपी को मात्रात्मक रूप से प्रदर्शित करना
TE अनुमान की व्यवस्थित विधि विकसित करना: pivot वाक्य चयन, टोकन प्रतिस्थापन, उप-समूह सांख्यिकी और एंट्रॉपी मान गणना की संपूर्ण प्रक्रिया
अनुवाद क्षरण का गुणक प्रभाव खोजना: दोहरे टोकन प्रतिस्थापन का क्षरण एकल टोकन क्षरण के गुणनफल का 0.5-0.9 गुना है
पारस्परिक अनुवाद एंट्रॉपी की असमरूपता उजागर करना: अंग्रेजी-फ्रेंच अनुवाद में महत्वपूर्ण असमरूपता दिखाई देती है (फ्रेंच→अंग्रेजी एंट्रॉपी अंग्रेजी→फ्रेंच का लगभग 2.5 गुना है), जबकि अंग्रेजी-हिब्रू अनुवाद लगभग सममित है
तीन प्रमुख अनुवादकों को मात्रात्मक रूप से रैंक करना: MarianMT, T5-Base और NLLB-200, मॉडल आकार और प्रदर्शन के बीच गैर-एकरस संबंध खोजना
डिकोडर ब्लॉक की एंट्रॉपी ह्रास नियम को सत्यापित करना: अनुवाद गुणवत्ता डिकोडर परत के साथ क्रमिक रूप से सुधरती है (एंट्रॉपी 10,712 से 116 तक घटती है)
इनपुट: एनकोडर-डिकोडर अनुवाद मॉडल, स्रोत भाषा डेटासेट आउटपुट: अनुवाद एंट्रॉपी मान S (या S₉₅), अनुवादक की अनुवाद क्षरण डिग्री को मात्रात्मक रूप से प्रदर्शित करने के लिए बाधा: चयनित टोकन युक्त पर्याप्त संख्या में स्रोत वाक्यों की आवश्यकता है (यह अनुसंधान 30 pivot वाक्यों का उपयोग करता है)
अनुवाद एंट्रॉपी अनुमान निम्नलिखित चरणों में विभाजित है:
चरण 1: एकल टोकन विश्लेषण
एक pivot टोकन T₁ चुनें
प्रशिक्षण डेटासेट से 30 वाक्य चुनें जिनमें T₁ हो (स्थिति j पर)
प्रत्येक वाक्य के लिए, स्थिति j पर T₁ को सभी संभावित टोकन (~30,000) से प्रतिस्थापित करें
पहचानें कि कौन से प्रतिस्थापित वाक्य मूल pivot वाक्य के समान अनुवाद उत्पन्न करते हैं
चरण 2: उप-समूह निर्माण
प्रत्येक pivot वाक्य m के लिए, उप-समूह SG_m(T₁) बनाएं, जिसमें सभी टोकन शामिल हों जो अनुवाद को अपरिवर्तित रखते हैं
असामान्य रूप से बड़े उप-समूहों से बचने के लिए (जैसे जब मॉडल किसी टोकन को अनदेखा करता है, तो लगभग सभी टोकन प्रतिस्थापित हो सकते हैं), केवल 24 सबसे छोटे उप-समूहों को रखें, जिन्हें SG₂₄(T₁) कहा जाता है
चरण 3: संभावना गणना
SG₂₄(T₁) में प्रत्येक टोकन i की उपस्थिति की संख्या (1-24 बार) की गणना करें, 24 से विभाजित करके संभावना P_i प्राप्त करें:
P_i = (टोकन i 24 उप-समूहों में प्रकट होने की संख्या) / 24
चरण 4: एंट्रॉपी मान गणना
एकल टोकन की एंट्रॉपी:
S(T1)=−∑iPilog2Pi(समीकरण 2)
औसत प्रतिस्थापन संख्या:
NAv(T1)=24∑iPi(समीकरण 1)
चरण 5: थ्रेशोल्ड फ़िल्टरिंग
अर्थहीन कम संभावना प्रतिस्थापनों (gibberish tokens) को बाहर करने के लिए, थ्रेशोल्ड लागू करें:
Pi>थ्रेशोल्ड=24βc(समीकरण 4)
अनुसंधान में β_c = 5 का उपयोग किया गया है (अर्थात P_i > 0.208)
चरण 6: समग्र एंट्रॉपी अनुमान
100 यादृच्छिक रूप से चयनित pivot टोकन के लिए उपरोक्त प्रक्रिया को दोहराएं, औसत एंट्रॉपी की गणना करें:
S=⟨S(Tα)⟩α(समीकरण 5)
विषम मानों के प्रभाव को कम करने के लिए, S₉₅ का उपयोग करें (केवल 95 सबसे कम एंट्रॉपी मानों का औसत)
पारंपरिक "विशिष्ट वाक्य में टोकन प्रतिस्थापन" के विपरीत, यह विधि "उस टोकन युक्त कई वाक्यों में, कौन से टोकन सुसंगत रूप से अनुवाद को अपरिवर्तित रख सकते हैं" को मापती है, यह एक मजबूत सशर्त बाधा है।
स्रोत वाक्य: "You seemed very much in love, your arms full of wine and food"
SG(wine) = 86
SG(food) = 26
SG(wine, food) = 1,132
अनुपात: 1,132 / (86 × 26) = 0.51
व्याख्या: दोनों टोकन के प्रतिस्थापन में सहसंबंध है (जैसे "wine and beer" "wine and bread" से अधिक सामान्य है), जिससे वास्तविक क्षरण डिग्री सैद्धांतिक गुणनफल से थोड़ी कम है
एंट्रॉपी मान वितरण की लंबी पूंछ विशेषता: अधिकांश टोकन की S(T_α) 1-13 श्रेणी में है, लेकिन कुछ विषम मान सैकड़ों तक पहुंच सकते हैं (चित्र 4)
भाषा जोड़ी के आंतरिक अंतर: अंग्रेजी-फ्रेंच असमरूपता संभवतः भाषा संरचना अंतर से उत्पन्न होती है (जैसे फ्रेंच की लिंग-संख्या सहमति अधिक कठोर है), मॉडल की कमी नहीं
मॉडल आकार की गैर-एकरसता: MarianMT (75M) कुछ कार्यों पर NLLB-200 (615M) से बेहतर है, जो दर्शाता है कि आर्किटेक्चर डिजाइन और प्रशिक्षण डेटा गुणवत्ता पैरामीटर संख्या से अधिक महत्वपूर्ण है
अनुवाद क्षरण की सार्वभौमिकता: सभी अनुवादक महत्वपूर्ण अनुवाद क्षरण दिखाते हैं (S₉₅ > 2.8), जो प्राकृतिक भाषा की अंतर्निहित समानार्थी विशेषता को दर्शाता है
COMET की भेदभाव क्षमता समस्या: COMET स्कोर 0.72-0.82 की संकीर्ण श्रेणी में है, जबकि TE का S₉₅ 2.8-295.9 तक विस्तृत है, बेहतर भेदभाव प्रदान करता है
अनुवाद एंट्रॉपी मापने योग्य है: टोकन प्रतिस्थापन के माध्यम से अनुवाद को अपरिवर्तित रखने की सांख्यिकीय विश्लेषण से, अनुवादक की एंट्रॉपी मान को मात्रात्मक रूप से प्रदर्शित किया जा सकता है
पारस्परिक अनुवाद एंट्रॉपी संभवतः असमरूप है: अंग्रेजी-फ्रेंच अनुवाद 2.6 गुना असमरूपता दिखाता है, जबकि अंग्रेजी-हिब्रू अनुवाद लगभग सममित है, जो भाषा जोड़ी की आंतरिक संरचना अंतर को दर्शाता है
दोहरे टोकन गुणक नियम: SG(T_α, T_β) ≈ 0.5-0.9 × SG(T_α) × SG(T_β), टोकन के बीच शब्दार्थ सहसंबंध को उजागर करता है
मॉडल आकार और प्रदर्शन गैर-रैखिक हैं: MarianMT (75M पैरामीटर) कुछ कार्यों पर NLLB-200 (615M पैरामीटर) से बेहतर है
डिकोडर की क्रमिक अनुकूलन: अनुवाद एंट्रॉपी डिकोडर परत के साथ घातीय स्तर पर घटती है (10,712 से 116 तक)
प्रतिमान परिवर्तन: सूचना सिद्धांत के दृष्टिकोण से पहली बार गणनीय अनुवाद एंट्रॉपी को परिभाषित करता है, एकल भाषा एंट्रॉपी अनुमान की कठिनाई को दरकिनार करता है
सैद्धांतिक गहराई: Shannon एंट्रॉपी सिद्धांत को आधुनिक गहन शिक्षा के साथ जोड़ता है, सांख्यिकीय भौतिकी और NLP के बीच पुल बनाता है
सार्वभौमिकता: विधि किसी भी एनकोडर-डिकोडर आर्किटेक्चर पर लागू होती है, विशिष्ट मॉडल तक सीमित नहीं है
इस पेपर द्वारा प्रस्तावित अनुवाद एंट्रॉपी ढांचा मशीन अनुवाद मूल्यांकन क्षेत्र में एक महत्वपूर्ण नवाचार है, सूचना सिद्धांत के दृष्टिकोण से पूरी तरह से नई दृष्टि प्रदान करता है। इसकी मुख्य शक्तियां संदर्भ अनुवाद की आवश्यकता नहीं और बेहतर भेदभाव क्षमता हैं, मुख्य खोजें (पारस्परिक अनुवाद असमरूपता, दोहरे टोकन गुणक प्रभाव, डिकोडर एंट्रॉपी ह्रास) महत्वपूर्ण सैद्धांतिक और व्यावहारिक महत्व रखती हैं। हालांकि, उच्च कम्प्यूटेशनल लागत, सैद्धांतिक व्याख्या अपर्याप्त और पारंपरिक मेट्रिक्स के साथ विरोधाभास पूरी तरह से अन्वेषित नहीं मुख्य सीमाएं हैं। यदि भविष्य में कम्प्यूटेशनल जटिलता को कम किया जा सके, अधिक भाषा जोड़ियों तक विस्तार किया जा सके और असमरूपता के स्रोत का गहन विश्लेषण किया जा सके, तो यह विधि अनुवाद प्रणाली मूल्यांकन के मानक उपकरणों में से एक बन सकती है।
अनुशंसा सूचकांक: ★★★★☆ (4/5) अनुशंसित पाठक: मशीन अनुवाद शोधकर्ता, सूचना सिद्धांत और NLP अंतर-अनुशासनात्मक क्षेत्र के विद्वान, अनुवाद प्रणाली विकासकर्ता