MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic
MTP-S2UT: बहु-टोकन पूर्वानुमान के साथ भाषण-से-भाषण अनुवाद गुणवत्ता में वृद्धि
वर्तमान प्रत्यक्ष भाषण-से-भाषण अनुवाद विधियाँ मुख्य रूप से भाषण टोकन को मध्यवर्ती प्रतिनिधित्व के रूप में उपयोग करती हैं। हालांकि, एकल भाषण टोकन का शब्दार्थ घनत्व कम है, और आमतौर पर पूर्ण शब्दार्थ इकाई को व्यक्त करने के लिए कई टोकन की आवश्यकता होती है। इस सीमा को संबोधित करने के लिए, यह पेपर बहु-टोकन पूर्वानुमान (MTP) हानि को भाषण-से-इकाई अनुवाद (S2UT) मॉडल में प्रस्तुत करता है, जो मॉडल को प्रत्येक स्थान पर कई बाद के टोकन की भविष्यवाणी करने में सक्षम बनाता है, जिससे अधिक पूर्ण शब्दार्थ को कैप्चर किया जा सके और प्रत्येक स्थान पर सूचना घनत्व में वृद्धि हो सके। प्रारंभिक MTP कार्यान्वयन हानि को अंतिम परत पर लागू करता है, जो आउटपुट प्रतिनिधित्व में सुधार करता है लेकिन सूचना समृद्धि बहुत देर से शुरू होती है। यह पेपर मानता है कि सूचना समृद्धि प्रक्रिया को मध्यवर्ती परतों तक आगे बढ़ाने से अधिक प्रारंभिक और प्रभावी छिपी प्रतिनिधित्व वृद्धि प्राप्त हो सकती है। इसलिए, MTP-S2UT हानि का प्रस्ताव दिया गया है, जो CTC हानि की गणना करने वाली छिपी प्रतिनिधित्व परत पर MTP हानि को लागू करता है। प्रयोग दर्शाते हैं कि सभी MTP हानि वेरिएंट S2UT अनुवाद गुणवत्ता में निरंतर सुधार करते हैं, जिसमें MTP-S2UT सर्वोत्तम प्रदर्शन प्राप्त करता है।
प्रत्यक्ष भाषण-से-भाषण अनुवाद का सामना करने वाली मुख्य चुनौती भाषण टोकन की शब्दार्थ विरलता है। पाठ टोकन की तुलना में, भाषण टोकन का शब्दार्थ प्रतिनिधित्व अधिक विरल है, और आमतौर पर एकल शब्दार्थ अवधारणा को व्यक्त करने के लिए कई भाषण टोकन की आवश्यकता होती है, जिससे उच्च पूर्वानुमान एन्ट्रॉपी और मॉडलिंग जटिलता होती है।
व्यावहारिक अनुप्रयोग की आवश्यकता: भाषण-से-भाषण अनुवाद अंतर्राष्ट्रीय सम्मेलन, अंतर्राष्ट्रीय संचार, पर्यटन आदि परिदृश्यों में व्यापक अनुप्रयोग संभावना है
तकनीकी बाधा: मौजूदा विधियों में शब्दार्थ प्रतिनिधित्व घनत्व और पूर्वानुमान सटीकता में कमी है
मॉडल दक्षता: भाषण टोकन की विरलता मॉडल की पूर्वानुमान अनिश्चितता को बढ़ाती है
भाषण टोकन को पूर्ण शब्दार्थ को व्यक्त करने के लिए कई टोकन की आवश्यकता होती है, इस अवलोकन के आधार पर, यह पेपर शब्दार्थ घनत्व को बढ़ाने के लिए बहु-टोकन पूर्वानुमान के माध्यम से प्रस्ताव देता है, और इस वृद्धि को मध्यवर्ती परत तक आगे बढ़ाता है ताकि अधिक प्रभावी प्रतिनिधित्व सीखना प्राप्त हो सके।
यह पेपर भाषण-से-भाषण अनुवाद, बहु-टोकन पूर्वानुमान, भाषण प्रतिनिधित्व सीखने आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ कार्यों में S2UT मूल पेपर, MTP संबंधित कार्य (DeepSeek-V3, VocalNet) और भाषण प्रसंस्करण मौलिक तकनीकें (HuBERT, CTC आदि) शामिल हैं।
समग्र मूल्यांकन: यह भाषण-से-भाषण अनुवाद क्षेत्र में एक उच्च-गुणवत्ता वाला तकनीकी पेपर है, जो एक नवीन और प्रभावी सुधार विधि प्रस्तुत करता है। बहु-टोकन पूर्वानुमान तकनीक को S2UT ढांचे की मध्यवर्ती परत पर कुशलतापूर्वक लागू करके, महत्वपूर्ण प्रदर्शन सुधार प्राप्त किए गए हैं। पेपर का प्रायोगिक डिज़ाइन कठोर है, विश्लेषण गहन है, और इस क्षेत्र के विकास में मूल्यवान योगदान दिया गया है।