2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.

Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.

academic

MTP-S2UT: बहु-टोकन पूर्वानुमान के साथ भाषण-से-भाषण अनुवाद गुणवत्ता में वृद्धि

बुनियादी जानकारी

पेपर ID: 2510.10003
शीर्षक: MTP-S2UT: बहु-टोकन पूर्वानुमान के साथ भाषण-से-भाषण अनुवाद गुणवत्ता में वृद्धि
लेखक: जियांजिन वांग, रुनसॉन्ग झाओ, जिओक्सियान लियू, युआन गे, जिकियांग जू, टोंग जिओ, शेंगक्सियांग गाओ, झेंगताओ यू, जिंगबो झू
वर्गीकरण: cs.CL, cs.SD, eess.AS
प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10003

सारांश

वर्तमान प्रत्यक्ष भाषण-से-भाषण अनुवाद विधियाँ मुख्य रूप से भाषण टोकन को मध्यवर्ती प्रतिनिधित्व के रूप में उपयोग करती हैं। हालांकि, एकल भाषण टोकन का शब्दार्थ घनत्व कम है, और आमतौर पर पूर्ण शब्दार्थ इकाई को व्यक्त करने के लिए कई टोकन की आवश्यकता होती है। इस सीमा को संबोधित करने के लिए, यह पेपर बहु-टोकन पूर्वानुमान (MTP) हानि को भाषण-से-इकाई अनुवाद (S2UT) मॉडल में प्रस्तुत करता है, जो मॉडल को प्रत्येक स्थान पर कई बाद के टोकन की भविष्यवाणी करने में सक्षम बनाता है, जिससे अधिक पूर्ण शब्दार्थ को कैप्चर किया जा सके और प्रत्येक स्थान पर सूचना घनत्व में वृद्धि हो सके। प्रारंभिक MTP कार्यान्वयन हानि को अंतिम परत पर लागू करता है, जो आउटपुट प्रतिनिधित्व में सुधार करता है लेकिन सूचना समृद्धि बहुत देर से शुरू होती है। यह पेपर मानता है कि सूचना समृद्धि प्रक्रिया को मध्यवर्ती परतों तक आगे बढ़ाने से अधिक प्रारंभिक और प्रभावी छिपी प्रतिनिधित्व वृद्धि प्राप्त हो सकती है। इसलिए, MTP-S2UT हानि का प्रस्ताव दिया गया है, जो CTC हानि की गणना करने वाली छिपी प्रतिनिधित्व परत पर MTP हानि को लागू करता है। प्रयोग दर्शाते हैं कि सभी MTP हानि वेरिएंट S2UT अनुवाद गुणवत्ता में निरंतर सुधार करते हैं, जिसमें MTP-S2UT सर्वोत्तम प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

प्रत्यक्ष भाषण-से-भाषण अनुवाद का सामना करने वाली मुख्य चुनौती भाषण टोकन की शब्दार्थ विरलता है। पाठ टोकन की तुलना में, भाषण टोकन का शब्दार्थ प्रतिनिधित्व अधिक विरल है, और आमतौर पर एकल शब्दार्थ अवधारणा को व्यक्त करने के लिए कई भाषण टोकन की आवश्यकता होती है, जिससे उच्च पूर्वानुमान एन्ट्रॉपी और मॉडलिंग जटिलता होती है।

समस्या की महत्ता

व्यावहारिक अनुप्रयोग की आवश्यकता: भाषण-से-भाषण अनुवाद अंतर्राष्ट्रीय सम्मेलन, अंतर्राष्ट्रीय संचार, पर्यटन आदि परिदृश्यों में व्यापक अनुप्रयोग संभावना है
तकनीकी बाधा: मौजूदा विधियों में शब्दार्थ प्रतिनिधित्व घनत्व और पूर्वानुमान सटीकता में कमी है
मॉडल दक्षता: भाषण टोकन की विरलता मॉडल की पूर्वानुमान अनिश्चितता को बढ़ाती है

मौजूदा विधियों की सीमाएं

कम शब्दार्थ घनत्व: एकल भाषण टोकन पूर्ण शब्दार्थ जानकारी नहीं दे सकता
उच्च पूर्वानुमान एन्ट्रॉपी: एकल अवधारणा को व्यक्त करने के लिए बहु-टोकन पूर्वानुमान जटिलता बढ़ाता है
विलंबित सूचना संलयन: मौजूदा MTP विधियाँ केवल अंतिम परत पर लागू होती हैं, प्रारंभिक सूचना संलयन के अवसर को खो देती हैं

अनुसंधान प्रेरणा

भाषण टोकन को पूर्ण शब्दार्थ को व्यक्त करने के लिए कई टोकन की आवश्यकता होती है, इस अवलोकन के आधार पर, यह पेपर शब्दार्थ घनत्व को बढ़ाने के लिए बहु-टोकन पूर्वानुमान के माध्यम से प्रस्ताव देता है, और इस वृद्धि को मध्यवर्ती परत तक आगे बढ़ाता है ताकि अधिक प्रभावी प्रतिनिधित्व सीखना प्राप्त हो सके।

मूल योगदान

पहली बार MTP हानि को S2UT ढांचे में प्रस्तुत करना: भाषण-से-भाषण अनुवाद कार्य के लिए बहु-टोकन पूर्वानुमान तकनीक को व्यवस्थित रूप से लागू करना
MTP-S2UT हानि का प्रस्ताव: CTC छिपी परत पर MTP हानि को लागू करने का नवीन तरीका, अधिक प्रारंभिक सूचना संलयन को प्राप्त करना
व्यापक प्रायोगिक सत्यापन: कई भाषण टोकनाइज़र और भाषा जोड़ी पर विधि की प्रभावशीलता को सत्यापित करना
गहन तंत्र विश्लेषण: CTC डिकोडिंग विश्लेषण और एन्ट्रॉपी विश्लेषण के माध्यम से MTP हानि के कार्य तंत्र को प्रकट करना

विधि विवरण

कार्य परिभाषा

भाषण-से-भाषण अनुवाद कार्य को चतुर्भुज डेटासेट $D = \{(S,X,Y,T)\}$ के रूप में परिभाषित किया गया है, जहाँ:

$S = (s_1, \cdots, s_{|S|})$ : स्रोत भाषा भाषण
$X = (x_1, \cdots, x_{|X|})$ : स्रोत भाषा पाठ
$Y = (y_1, \cdots, y_{|Y|})$ : लक्ष्य भाषा पाठ
$T = (t_1, \cdots, t_{|T|})$ : लक्ष्य भाषा भाषण

मॉडल आर्किटेक्चर

S2UT आधार आर्किटेक्चर

S2UT मॉडल में तीन मुख्य घटक होते हैं:

भाषण टोकनाइज़र: निरंतर लक्ष्य भाषण को असतत भाषण टोकन अनुक्रम $U = (u_1, \cdots, u_{|U|}, e)$ में परिमाणित करता है
अनुक्रम-से-अनुक्रम मॉडल: स्रोत भाषण को लक्ष्य भाषण टोकन में परिवर्तित करता है
Detokenizer: भाषण टोकन से लक्ष्य भाषण को संश्लेषित करता है

मॉडल की मूल गणना प्रक्रिया:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

MTP हानि वेरिएंट

यह पेपर चार MTP हानि वेरिएंट को लागू करता है:

1. MTP-Parallel-Linear N स्वतंत्र रैखिक शीर्ष का उपयोग:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 शिक्षक-बलपूर्वक और Transformer ब्लॉक को अपनाता है:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet शिक्षक-बलपूर्वक इनपुट को हटाता है:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

तकनीकी नवाचार

MTP-S2UT मूल नवाचार

मुख्य अंतर्दृष्टि: CTC छिपी परत $H^m_{dec}$ एक साथ पाठ और भाषण मोडल जानकारी रखती है, जो MTP हानि को लागू करने के लिए आदर्श स्थान है।

कार्यान्वयन विधि:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

डिज़ाइन लाभ:

अधिक प्रारंभिक सूचना संलयन: अंतिम परत के बजाय मध्यवर्ती परत पर MTP हानि को लागू करना
क्रॉस-मोडल सूचना उपयोग: CTC परत के पाठ-भाषण संलयन प्रतिनिधित्व का पूर्ण उपयोग करना
शब्दार्थ आगे की ओर स्थानांतरण: अनुक्रम में शब्दार्थ जानकारी के आगे की ओर आंदोलन को बढ़ावा देना

प्रायोगिक सेटअप

डेटासेट

CVSS-C बेंचमार्क डेटासेट का उपयोग किया गया है, जो एक बड़े पैमाने पर भाषण-से-भाषण अनुवाद डेटासेट है:

भाषा जोड़ी: फ्रेंच→अंग्रेजी (Fr→En) और स्पेनिश→अंग्रेजी (Es→En)
पूर्व-प्रसंस्करण: 80-आयामी mel-filterbank विशेषताएं, वैश्विक सेप्स्ट्रल माध्य और विचरण सामान्यीकरण

भाषण टोकनाइज़र

तीन टोकनाइज़र का मूल्यांकन किया गया:

अनुपर्यवेक्षित टोकनाइज़र: k-means क्लस्टरिंग (k=1000) पर आधारित mHuBERT विशेषताएं
S3 टोकनाइज़र: पर्यवेक्षित टोकनाइज़र, कोडबुक आकार 6561
GLM-4-Voice-Tokenizer: पर्यवेक्षित टोकनाइज़र, कोडबुक आकार 16384

मॉडल कॉन्फ़िगरेशन

एन्कोडर: 12-परत Conformer, छिपी आयाम 256
डिकोडर: 6-परत Transformer, छिपी आयाम 512
CTC डिकोडर: तीसरी परत डिकोडर के बाद जुड़ा हुआ, वजन 1.6
MTP कॉन्फ़िगरेशन: प्रत्येक भाषण टोकन के लिए अगले N=7 टोकन की भविष्यवाणी, MTP हानि वजन 1.0

मूल्यांकन मेट्रिक्स

ASR-BLEU का उपयोग अनुवाद गुणवत्ता का मूल्यांकन करने के लिए किया गया है:

ASR मॉडल का उपयोग करके संश्लेषित भाषण को पाठ में प्रतिलेखित करना
प्रतिलेखित पाठ और संदर्भ पाठ के बीच BLEU स्कोर की गणना करना

प्रायोगिक परिणाम

मुख्य परिणाम

Fr→En कार्य परिणाम

टोकनाइज़र	मॉडल	लालची	Beam5	Beam10
S3	S2UT	17.79	18.98	19.15
S3	+ MTP-S2UT	24.36	25.14	25.16
HuBERT	S2UT	22.02	23.11	23.33
HuBERT	+ MTP-S2UT	23.59	24.50	24.53
GLM-4	S2UT	21.62	23.08	23.26
GLM-4	+ MTP-S2UT	23.97	25.22	25.26

Es→En कार्य परिणाम

मॉडल	लालची	Beam5	Beam10
S2UT	16.67	17.99	18.18
+ MTP-S2UT	21.87	22.59	22.83

मुख्य निष्कर्ष

सुसंगत सुधार: सभी MTP वेरिएंट अनुवाद गुणवत्ता में सुधार कर सकते हैं
सर्वोत्तम प्रदर्शन: MTP-S2UT सभी सेटिंग्स में सर्वोत्तम परिणाम प्राप्त करता है
महत्वपूर्ण सुधार: S3 टोकनाइज़र पर लालची खोज ASR-BLEU 17.79 से 24.36 (+37%) तक बढ़ता है

विलोपन प्रयोग

CTC डिकोडिंग आगे की ओर ऑफसेट विश्लेषण

CTC छिपी स्थिति के डिकोडिंग परिणामों का विश्लेषण करके पाया गया:

MTP प्रशिक्षण वाले मॉडल NTP की तुलना में पाठ टोकन के आगे की ओर ऑफसेट दिखाते हैं
पाठ टोकन के पहली बार दिखाई देने की औसत सापेक्ष स्थिति में उल्लेखनीय सुधार

मॉडल	S3	HuBERT	GLM-4
S2UT	51.011%	49.628%	50.363%
MTP-S2UT	47.382%	44.561%	43.889%

भाषण टोकन अनिश्चितता विश्लेषण

एन्ट्रॉपी विश्लेषण के माध्यम से पाया गया:

सभी MTP वेरिएंट भाषण टोकन पूर्वानुमान की अनिश्चितता को कम करते हैं
MTP-S2UT सबसे महत्वपूर्ण अनिश्चितता में कमी दिखाता है
कम एन्ट्रॉपी क्षेत्र आवृत्ति में वृद्धि, उच्च एन्ट्रॉपी क्षेत्र में कमी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

MTP हानि प्रभावशीलता: S2UT ढांचे में MTP हानि को प्रस्तुत करना अनुवाद गुणवत्ता में उल्लेखनीय सुधार कर सकता है
प्रारंभिक संलयन लाभ: MTP हानि को अंतिम परत के बजाय मध्यवर्ती CTC परत पर लागू करना अधिक प्रभावी है
तंत्र अंतर्दृष्टि: MTP शब्दार्थ जानकारी को आगे की ओर स्थानांतरित करता है और पूर्वानुमान अनिश्चितता को कम करता है

सीमाएं

कम्प्यूटेशनल ओवरहेड: MTP प्रशिक्षण अतिरिक्त पैरामीटर और कम्प्यूटेशनल जटिलता का परिचय देता है
भाषा कवरेज: प्रयोग केवल यूरोपीय भाषा जोड़ी पर सत्यापित हैं, व्यापक भाषा सत्यापन की कमी है
सैद्धांतिक विश्लेषण: MTP कार्य तंत्र की सैद्धांतिक समझ को और गहरा करने की आवश्यकता है

भविष्य की दिशाएं

अधिक भाषा जोड़ी तक विस्तार: विभिन्न भाषा परिवारों के बीच विधि की प्रभावशीलता को सत्यापित करना
कम्प्यूटेशनल दक्षता को अनुकूलित करना: MTP प्रशिक्षण के कम्प्यूटेशनल ओवरहेड को कम करना
सैद्धांतिक मॉडलिंग: भाषण अनुवाद में MTP की भूमिका तंत्र को गहराई से समझना

गहन मूल्यांकन

शक्तियाँ

मजबूत नवाचार: भाषण-से-भाषण अनुवाद में MTP को पहली बार व्यवस्थित रूप से प्रस्तुत करना
तर्कसंगत विधि: MTP-S2UT का डिज़ाइन CTC परत की विशेषताओं की गहन समझ पर आधारित है
व्यापक प्रयोग: कई टोकनाइज़र, कई भाषा जोड़ी, कई डिकोडिंग रणनीतियों का व्यापक सत्यापन
गहन विश्लेषण: CTC डिकोडिंग और एन्ट्रॉपी विश्लेषण के माध्यम से विधि के कार्य तंत्र को प्रकट करना
महत्वपूर्ण परिणाम: सभी सेटिंग्स में सुसंगत और महत्वपूर्ण सुधार प्राप्त करना

कमजोरियाँ

भाषा सीमा: केवल यूरोपीय भाषा जोड़ी पर सत्यापित, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
कम्प्यूटेशनल विश्लेषण की कमी: MTP प्रशिक्षण के कम्प्यूटेशनल ओवरहेड का विस्तृत विश्लेषण नहीं किया गया है
अपर्याप्त तुलना: अन्य भाषण अनुवाद सुधार विधियों के साथ तुलना की कमी है
सैद्धांतिक गहराई: MTP कार्य तंत्र का सैद्धांतिक विश्लेषण अभी भी पर्याप्त नहीं है

प्रभाव

शैक्षणिक मूल्य: भाषण अनुवाद क्षेत्र के लिए सुधार के नए विचार प्रदान करना
व्यावहारिक मूल्य: महत्वपूर्ण प्रदर्शन सुधार इसे व्यावहारिक अनुप्रयोग क्षमता देता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, प्रायोगिक सेटअप विस्तृत है
प्रेरणा: बहु-मोडल अनुक्रम मॉडलिंग के लिए मूल्यवान अंतर्दृष्टि प्रदान करना

लागू परिदृश्य

उच्च-गुणवत्ता भाषण अनुवाद: अनुवाद गुणवत्ता की उच्च आवश्यकता वाले परिदृश्यों के लिए उपयुक्त
बहु-भाषा सम्मेलन प्रणाली: वास्तविक समय बहु-भाषा संचार प्रणाली में लागू किया जा सकता है
भाषण सहायक: क्रॉस-भाषा भाषण सहायक की अनुवाद क्षमता को बढ़ाना
शिक्षा और प्रशिक्षण: भाषा सीखने और क्रॉस-सांस्कृतिक संचार अनुप्रयोग

संदर्भ

यह पेपर भाषण-से-भाषण अनुवाद, बहु-टोकन पूर्वानुमान, भाषण प्रतिनिधित्व सीखने आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ कार्यों में S2UT मूल पेपर, MTP संबंधित कार्य (DeepSeek-V3, VocalNet) और भाषण प्रसंस्करण मौलिक तकनीकें (HuBERT, CTC आदि) शामिल हैं।

समग्र मूल्यांकन: यह भाषण-से-भाषण अनुवाद क्षेत्र में एक उच्च-गुणवत्ता वाला तकनीकी पेपर है, जो एक नवीन और प्रभावी सुधार विधि प्रस्तुत करता है। बहु-टोकन पूर्वानुमान तकनीक को S2UT ढांचे की मध्यवर्ती परत पर कुशलतापूर्वक लागू करके, महत्वपूर्ण प्रदर्शन सुधार प्राप्त किए गए हैं। पेपर का प्रायोगिक डिज़ाइन कठोर है, विश्लेषण गहन है, और इस क्षेत्र के विकास में मूल्यवान योगदान दिया गया है।