2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic

समवर्ती भाषण अनुवाद में विभाजन के लिए DPO-ट्यून्ड बड़े भाषा मॉडल

मूल जानकारी

  • पेपर ID: 2510.12195
  • शीर्षक: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
  • लेखक: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12195

सारांश

समवर्ती भाषण अनुवाद को अनुवाद गुणवत्ता और विलंबता के बीच संतुलन बनाने के लिए सटीक विभाजन की आवश्यकता होती है। यद्यपि SHAS जैसे पूर्व-प्रशिक्षित विभाजन मॉडल अनुमानी नियमों से बेहतर प्रदर्शन करते हैं, फिर भी वे पर्यवेक्षित शिक्षण उद्देश्यों तक सीमित हैं और मानव वरीयता संरेखण की कमी है। यह पेपर प्रत्यक्ष वरीयता अनुकूलन (DPO) प्रशिक्षण पर आधारित बड़े भाषा मॉडल विभाजन ढांचे का प्रस्ताव करता है, जो वरीयता संरेखण के माध्यम से LLM को अधिक प्राकृतिक विभाजन बिंदुओं की भविष्यवाणी करने में सक्षम बनाता है। ACL 60/60 कॉर्पस पर तीन भाषा जोड़ियों पर मूल्यांकन किया गया है, SeamlessM4T v2 को अनुवाद बैकबोन के रूप में उपयोग करते हुए। प्रायोगिक परिणाम दर्शाते हैं कि DPO-ट्यून्ड LLM विभाजन सटीकता में SHAS से आगे निकलता है, अनुवाद गुणवत्ता (BLEU, COMET) और विलंबता (औसत पिछड़ापन) दोनों में निरंतर सुधार के साथ।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

समवर्ती भाषण अनुवाद (SimulST) का मुख्य चुनौती अनुवाद गुणवत्ता सुनिश्चित करते हुए विलंबता को कम करना है, जिसके लिए सिस्टम को सटीकता से निर्णय लेने की आवश्यकता है कि इनपुट स्ट्रीम को कब विभाजित करें और अनुवाद आउटपुट करें। अनुचित विभाजन अधूरे या अनावश्यक अनुवाद इकाइयों का कारण बनता है, जो सटीकता और उपयोगकर्ता अनुभव को गंभीरता से प्रभावित करता है।

समस्या की महत्ता

विभाजन को व्यावहारिक SimulST प्रणालियों के मूल घटक के रूप में माना जाता है, विशेष रूप से स्ट्रीमिंग SimulST में, जहां अनुचित सीमाएं अनुवाद गुणवत्ता और विलंबता को महत्वपूर्ण रूप से नुकसान पहुंचाती हैं। पारंपरिक अनुमानी नियम (जैसे विराम चिह्न भविष्यवाणी, निश्चित लंबाई चंकिंग) सरल और कुशल हैं, लेकिन विविध भाषा संरचनाओं और बोलने की शैलियों के अनुकूल होने में असमर्थ हैं।

मौजूदा विधियों की सीमाएं

  1. अनुमानी विधियां: निश्चित wait-k रणनीति जैसी विधियां भाषा परिवर्तनों के अनुकूल होने में सीमित हैं
  2. पूर्व-प्रशिक्षित मॉडल: SHAS जैसे मॉडल अनुमानी विधियों से अधिक मजबूत हैं, लेकिन फिर भी पर्यवेक्षित शिक्षण उद्देश्यों तक सीमित हैं और केवल ध्वनिक विशेषताओं पर निर्भर हैं
  3. मानव वरीयता संरेखण की कमी: मौजूदा विधियां मशीन अनुवाद प्रदर्शन संरेखण को शामिल नहीं करती हैं, जो प्राकृतिक और समय पर अनुवाद के लिए महत्वपूर्ण है

अनुसंधान प्रेरणा

बड़े भाषा मॉडल भाषण और अनुवाद कार्यों में उत्कृष्ट सामान्यीकरण क्षमता प्रदर्शित करते हैं, लेकिन SimulST विभाजन में उनकी क्षमता अभी तक पूरी तरह से अन्वेषित नहीं की गई है। प्रत्यक्ष वरीयता अनुकूलन (DPO) मानव प्रतिक्रिया के साथ मॉडल को संरेखित करने के लिए एक आशाजनक दिशा प्रदान करता है, जो पर्यवेक्षित प्रशिक्षण से परे वरीयता-निर्देशित निर्णय लेने को सक्षम बनाता है।

मुख्य योगदान

  1. DPO अनुकूलन पर आधारित LLM विभाजन ढांचे का प्रस्ताव: पहली बार वरीयता अनुकूलन को SimulST विभाजन कार्य में लागू किया गया है
  2. व्यापक प्रायोगिक मूल्यांकन का निर्माण: ACL 60/60 डेटासेट पर तीन भाषा जोड़ियों पर मूल्यांकन, SeamlessM4T v2 को अनुवाद बैकबोन के रूप में उपयोग करते हुए
  3. वरीयता-ट्यून्ड LLM की श्रेष्ठता का प्रमाण: पूर्व-प्रशिक्षित विभाजन मॉडल SHAS की तुलना में अनुवाद गुणवत्ता और विलंबता दोनों में सुधार
  4. पूर्ण अंत-से-अंत प्रणाली प्रदान करना: विभाजन मॉड्यूल को अनुवाद प्रणाली के साथ एकीकृत करना, वास्तविक समय समवर्ती भाषण अनुवाद को लागू करना

विधि विवरण

कार्य परिभाषा

SimulST में विभाजन कार्य को आने वाली भाषण स्ट्रीम में वाक्य विराम बिंदुओं की भविष्यवाणी करने के कार्य के रूप में परिभाषित किया गया है, जिसका लक्ष्य अनुवाद गुणवत्ता और विलंबता के बीच संतुलन बनाना है। स्ट्रीमिंग इनपुट भाषण अनुक्रम x दिया गया है, मॉडल विभाजन निर्णय अनुक्रम {s₁, s₂, ..., sₜ} उत्पन्न करता है, जहां प्रत्येक sₜ भविष्यवाणी की गई सीमा स्थिति को दर्शाता है। बाइनरी वर्गीकरण विधि के विपरीत, यह पेपर विभाजन को अगले विराम बिंदु भविष्यवाणी समस्या के रूप में परिभाषित करता है।

मॉडल आर्किटेक्चर

आधार LLM

विभाजन बैकबोन के रूप में Qwen2.5-Omni-3B को अपनाया गया है, जो स्ट्रीमिंग तरीके से चलता है, भाषण इनपुट पर स्लाइडिंग विंडो तंत्र का उपयोग करते हुए। मॉडल सीधे ऑडियो की खंड-स्तरीय ध्वनिक विशेषताओं को संसाधित करता है, टोकन-स्तरीय ASR प्रतिलेखन के आधार पर नहीं, वर्तमान भाषण संदर्भ दिए गए अगले विभाजन बिंदु को वृद्धिशील रूप से भविष्यवाणी करता है।

वरीयता जोड़ी निर्माण

मानव संरेखण संकेत को शामिल करने के लिए, उम्मीदवार विभाजन की वरीयता जोड़ी का निर्माण किया गया है:

  1. कई अनुमानी और पूर्व-प्रशिक्षित रणनीतियों (VAD, निश्चित लंबाई विभाजन, SHAS आउटपुट) को संयोजित करके उम्मीदवार सीमाएं उत्पन्न करना
  2. अनुवाद गुणवत्ता (BLEU) और विलंबता (औसत पिछड़ापन) का उपयोग करके प्रत्येक उम्मीदवार विभाजन का मूल्यांकन करना
  3. इन मेट्रिक्स से रैंकिंग संकेत प्राप्त करना, बेहतर प्रदर्शन वाले विभाजन को पसंदीदा उम्मीदवार के रूप में कार्य करते हैं
  4. कुल मिलाकर प्रशिक्षण के लिए लगभग 8,000 वरीयता जोड़ियां प्राप्त करना

DPO प्रशिक्षण

प्रत्यक्ष वरीयता अनुकूलन का उपयोग करके LLM को सूक्ष्म-ट्यून किया गया है:

इनपुट उच्चारण x दिया गया है, कई उम्मीदवार विभाजन उत्पन्न करें, प्रत्येक विभाजन y को इनपुट स्ट्रीम पर सीमा सूचकांकों के अनुक्रम के रूप में व्यक्त किया गया है। वरीयता जोड़ी (y_pref, y_dispref) का निर्माण करें, जहां y_pref बेहतर अनुवाद गुणवत्ता और कम विलंबता उत्पन्न करने वाले पसंदीदा विभाजन को दर्शाता है।

DPO उद्देश्य फ़ंक्शन है:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

जहां π_θ LLM द्वारा प्रेरित नीति को दर्शाता है, β एक स्केलिंग हाइपरपैरामीटर है। 5 एपोक्स के लिए प्रशिक्षण, मानक शिक्षण दर अनुसूची का उपयोग करते हुए।

तकनीकी नवाचार बिंदु

  1. वरीयता संरेखण तंत्र: पहली बार DPO को विभाजन कार्य में लागू किया गया है, मानव वरीयता संकेतों के माध्यम से मॉडल शिक्षण को निर्देशित करना
  2. अंत-से-अंत अनुकूलन: अनुवाद गुणवत्ता और विलंबता के संयुक्त उद्देश्य को सीधे अनुकूलित करना, केवल ध्वनिक विशेषताओं पर निर्भर नहीं
  3. स्ट्रीमिंग प्रोसेसिंग आर्किटेक्चर: वास्तविक समय प्रोसेसिंग के लिए उपयुक्त स्लाइडिंग विंडो तंत्र का डिजाइन
  4. बहु-मोडल संलयन: विभाजन निर्णय के लिए ध्वनिक विशेषताओं और भाषा मॉडल क्षमता को संयोजित करना

प्रायोगिक सेटअप

डेटासेट

  • प्रशिक्षण डेटा: CoVoST2 कॉर्पस, DPO प्रशिक्षण के लिए वरीयता जोड़ी बनाने के लिए उपयोग किया गया
  • मूल्यांकन डेटा: ACL 60/60 परीक्षण सेट, ACL 2022 की तकनीकी प्रस्तुतियों को शामिल करता है
  • भाषा जोड़ी: अंग्रेजी→जापानी, अंग्रेजी→चीनी, अंग्रेजी→जर्मन

मूल्यांकन मेट्रिक्स

  • अनुवाद गुणवत्ता: BLEU स्कोर
  • विलंबता: स्ट्रीमिंग LAAL (Streaming Long Average Lagging), वास्तविक स्ट्रीमिंग स्थितियों में प्रणाली विलंबता को दर्शाता है

तुलनात्मक विधियां

  • IWSLT आधारभूत: निश्चित लंबाई चंकिंग और VAD-आधारित विभाजन
  • SHAS: पुनः कार्यान्वित पूर्व-प्रशिक्षित विभाजन मॉडल

कार्यान्वयन विवरण

  • मॉडल: विभाजन बैकबोन के रूप में Qwen2.5-Omni-3B
  • प्रशिक्षण सेटिंग: 5 एपोक्स, बैच आकार 1, AdamW ऑप्टिमाइज़र, शिक्षण दर 5×10⁻⁵
  • हार्डवेयर: 4 NVIDIA A100 GPU
  • अनुमान सेटिंग: स्लाइडिंग विंडो आकार 4 सेकंड, जंप आकार 2 सेकंड

प्रायोगिक परिणाम

मुख्य परिणाम

विधिEn→DeEn→JaEn→Zh
Fixed18.2/~3000-/-17.0/3000
VAD21.8/303016.0/301020.5/3020
SHAS23.6/310017.2/305022.0/3090
हमारा (LLM+DPO)25.5/307818.6/312023.4/3160

नोट: प्रारूप BLEU(↑)/विलंबता(ms, ↓) है

मुख्य निष्कर्ष

  1. सुसंगत सुधार: सभी तीन अनुवाद दिशाओं में अनुमानी आधारभूत और SHAS मॉडल से आगे निकलता है
  2. गुणवत्ता में उल्लेखनीय वृद्धि: SHAS की तुलना में औसतन लगभग 1.5 BLEU में सुधार, विलंबता में केवल लगभग 100ms की वृद्धि
  3. भाषा जोड़ी अंतर: En→De सर्वोच्च BLEU प्राप्त करता है, En→Zh मध्यम वृद्धि दिखाता है, En→Ja अभी भी सबसे चुनौतीपूर्ण है

विलंबता-गुणवत्ता ट्रेड-ऑफ विश्लेषण

विलंबता-गुणवत्ता ट्रेड-ऑफ वक्र विश्लेषण से पता चलता है कि DPO-प्रशिक्षित LLM पूरे ऑपरेटिंग रेंज में अन्य विभाजन रणनीतियों से लगातार बेहतर है, समान या कम विलंबता पर उच्च BLEU स्कोर प्राप्त करता है।

संबंधित कार्य

विभाजन विधि विकास

  • अनुमानी विधियां: निश्चित wait-k रणनीति आदि, लेकिन भाषा परिवर्तनों के अनुकूल होने में सीमित
  • प्रशिक्षणीय विधियां: DiSeg सूक्ष्म-अंतर विभाजन मॉड्यूल पेश करता है, अनुवाद मॉडल के साथ संयुक्त प्रशिक्षण के माध्यम से
  • पूर्व-प्रशिक्षित मॉडल: SHAS जैसे मॉडल बड़े पैमाने पर प्रशिक्षण के माध्यम से मजबूती में सुधार करते हैं

बहु-भाषा अनुवाद प्रणाली

SeamlessM4T जैसी बड़ी बहु-भाषा बहु-मोडल अनुवाद प्रणाली भाषण अनुवाद कार्यों के लिए मजबूत बैकबोन प्रदान करती है, कई भाषाओं पर अत्याधुनिक प्रदर्शन प्रदर्शित करती है।

अनुसंधान अंतराल

लेखकों के ज्ञान के अनुसार, पहले कोई कार्य SimulST में विभाजन कार्य पर वरीयता-आधारित अनुकूलन लागू नहीं करता है, यह कार्य इस अंतराल को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. DPO प्रभावशीलता: वरीयता अनुकूलन मॉडल को मानव वरीयता के साथ संरेखित विभाजन सीखने में सक्षम बनाता है, अधिक प्राकृतिक सीमाएं और बेहतर गुणवत्ता-विलंबता ट्रेड-ऑफ उत्पन्न करता है
  2. प्रदर्शन सुधार: लगभग 3 सेकंड विलंबता पर, तीनों भाषा दिशाओं में SHAS की तुलना में सुसंगत सुधार
  3. व्यावहारिक मूल्य: वास्तविक समय समवर्ती व्याख्या में वरीयता-ट्यून्ड LLM की क्षमता को प्रमाणित करता है

सीमाएं

  1. सीमित मूल्यांकन रेंज: केवल तीन भाषा जोड़ियों तक सीमित, सामान्यीकरण को सत्यापित करने के लिए अधिक विविध दिशाओं की आवश्यकता है
  2. कम्प्यूटेशनल ओवरहेड: 3B पैरामीटर LLM अतिरिक्त कम्प्यूटेशनल ओवरहेड पेश करता है, संसाधन-सीमित डिवाइस पर तैनाती को सीमित कर सकता है
  3. स्थिरता समस्याएं: विशिष्ट विलंबता थ्रेसहोल्ड पर BLEU में उतार-चढ़ाव देखा गया, यह दर्शाता है कि विभाजन स्थिरता में अभी भी सुधार की गुंजाइश है
  4. मूल्यांकन मेट्रिक्स की सीमाएं: BLEU और विलंबता को स्वचालित मेट्रिक्स के रूप में उपयोग करना, मानव मूल्यांकन की कमी

भविष्य की दिशाएं

  1. अधिक भाषा जोड़ियों और डोमेन तक विस्तार करना
  2. वास्तविक समय तैनाती के लिए मॉडल दक्षता को अनुकूलित करना
  3. स्वचालित मेट्रिक्स को सत्यापित करने के लिए मानव मूल्यांकन पेश करना
  4. अधिक जटिल वरीयता मॉडलिंग विधियों की खोज करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार DPO को SimulST विभाजन में लागू किया गया है, अनुसंधान की नई दिशा खोली है
  2. तर्कसंगत विधि: वरीयता संरेखण का विचार वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप है, मौजूदा विधियों की मूल समस्या को हल करता है
  3. पर्याप्त प्रयोग: कई भाषा जोड़ियों पर व्यापक मूल्यांकन, परिणाम सुसंगत और प्रेरक हैं
  4. उच्च व्यावहारिक मूल्य: पूर्ण अंत-से-अंत प्रणाली प्रदान करता है, वास्तविक तैनाती की क्षमता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने के लिए गहन सैद्धांतिक विश्लेषण की कमी है कि DPO विभाजन कार्य पर प्रभावी क्यों है
  2. सरल वरीयता जोड़ी निर्माण: केवल BLEU और विलंबता के आधार पर वरीयता जोड़ी बनाना, पूर्ण नहीं हो सकता है
  3. कम्प्यूटेशनल दक्षता समस्या: 3B पैरामीटर मॉडल की वास्तविक समय प्रदर्शन वास्तविक अनुप्रयोग की बाधा बन सकती है
  4. एकल मूल्यांकन मेट्रिक्स: मुख्य रूप से स्वचालित मेट्रिक्स पर निर्भर, व्यक्तिपरक गुणवत्ता मूल्यांकन की कमी

प्रभाव

  1. शैक्षणिक योगदान: SimulST विभाजन क्षेत्र में अनुकूलन का नया प्रतिमान पेश करता है
  2. व्यावहारिक मूल्य: वास्तविक समय भाषण अनुवाद प्रणाली के लिए बेहतर विभाजन समाधान प्रदान करता है
  3. प्रेरणा महत्व: अनुक्रम निर्णय कार्यों में वरीयता शिक्षा की आवेदन क्षमता को प्रदर्शित करता है

लागू परिदृश्य

  1. वास्तविक समय सम्मेलन अनुवाद: कम विलंबता उच्च गुणवत्ता समवर्ती अनुवाद की आवश्यकता वाले परिदृश्य
  2. लाइव सबटाइटल जनरेशन: विभाजन गुणवत्ता के लिए उच्च आवश्यकताओं वाले अनुप्रयोग
  3. बहु-भाषा ग्राहक सेवा प्रणाली: प्राकृतिक और सुचारु वास्तविक समय अनुवाद इंटरैक्शन की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • SHAS विभाजन मॉडल Tsiamas et al., 2022
  • SeamlessM4T अनुवाद प्रणाली Meta AI, 2023-2024
  • DPO अनुकूलन विधि Rafailov et al., 2023
  • ACL 60/60 मूल्यांकन बेंचमार्क Salesky et al., 2023

समग्र मूल्यांकन: यह तकनीकी नवाचार के साथ एक मजबूत पेपर है, जो पहली बार वरीयता अनुकूलन को SimulST विभाजन कार्य में पेश करता है, विधि तर्कसंगत है, प्रायोगिक परिणाम प्रेरक हैं। यद्यपि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल दक्षता के पहलुओं में सुधार की गुंजाइश है, यह क्षेत्र के विकास के लिए मूल्यवान योगदान और नई अनुसंधान दिशा प्रदान करता है।