2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

समवर्ती भाषण अनुवाद में विभाजन के लिए DPO-ट्यून्ड बड़े भाषा मॉडल

मूल जानकारी

पेपर ID: 2510.12195
शीर्षक: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
लेखक: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.12195

सारांश

समवर्ती भाषण अनुवाद को अनुवाद गुणवत्ता और विलंबता के बीच संतुलन बनाने के लिए सटीक विभाजन की आवश्यकता होती है। यद्यपि SHAS जैसे पूर्व-प्रशिक्षित विभाजन मॉडल अनुमानी नियमों से बेहतर प्रदर्शन करते हैं, फिर भी वे पर्यवेक्षित शिक्षण उद्देश्यों तक सीमित हैं और मानव वरीयता संरेखण की कमी है। यह पेपर प्रत्यक्ष वरीयता अनुकूलन (DPO) प्रशिक्षण पर आधारित बड़े भाषा मॉडल विभाजन ढांचे का प्रस्ताव करता है, जो वरीयता संरेखण के माध्यम से LLM को अधिक प्राकृतिक विभाजन बिंदुओं की भविष्यवाणी करने में सक्षम बनाता है। ACL 60/60 कॉर्पस पर तीन भाषा जोड़ियों पर मूल्यांकन किया गया है, SeamlessM4T v2 को अनुवाद बैकबोन के रूप में उपयोग करते हुए। प्रायोगिक परिणाम दर्शाते हैं कि DPO-ट्यून्ड LLM विभाजन सटीकता में SHAS से आगे निकलता है, अनुवाद गुणवत्ता (BLEU, COMET) और विलंबता (औसत पिछड़ापन) दोनों में निरंतर सुधार के साथ।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

समवर्ती भाषण अनुवाद (SimulST) का मुख्य चुनौती अनुवाद गुणवत्ता सुनिश्चित करते हुए विलंबता को कम करना है, जिसके लिए सिस्टम को सटीकता से निर्णय लेने की आवश्यकता है कि इनपुट स्ट्रीम को कब विभाजित करें और अनुवाद आउटपुट करें। अनुचित विभाजन अधूरे या अनावश्यक अनुवाद इकाइयों का कारण बनता है, जो सटीकता और उपयोगकर्ता अनुभव को गंभीरता से प्रभावित करता है।

समस्या की महत्ता

विभाजन को व्यावहारिक SimulST प्रणालियों के मूल घटक के रूप में माना जाता है, विशेष रूप से स्ट्रीमिंग SimulST में, जहां अनुचित सीमाएं अनुवाद गुणवत्ता और विलंबता को महत्वपूर्ण रूप से नुकसान पहुंचाती हैं। पारंपरिक अनुमानी नियम (जैसे विराम चिह्न भविष्यवाणी, निश्चित लंबाई चंकिंग) सरल और कुशल हैं, लेकिन विविध भाषा संरचनाओं और बोलने की शैलियों के अनुकूल होने में असमर्थ हैं।

मौजूदा विधियों की सीमाएं

अनुमानी विधियां: निश्चित wait-k रणनीति जैसी विधियां भाषा परिवर्तनों के अनुकूल होने में सीमित हैं
पूर्व-प्रशिक्षित मॉडल: SHAS जैसे मॉडल अनुमानी विधियों से अधिक मजबूत हैं, लेकिन फिर भी पर्यवेक्षित शिक्षण उद्देश्यों तक सीमित हैं और केवल ध्वनिक विशेषताओं पर निर्भर हैं
मानव वरीयता संरेखण की कमी: मौजूदा विधियां मशीन अनुवाद प्रदर्शन संरेखण को शामिल नहीं करती हैं, जो प्राकृतिक और समय पर अनुवाद के लिए महत्वपूर्ण है

अनुसंधान प्रेरणा

बड़े भाषा मॉडल भाषण और अनुवाद कार्यों में उत्कृष्ट सामान्यीकरण क्षमता प्रदर्शित करते हैं, लेकिन SimulST विभाजन में उनकी क्षमता अभी तक पूरी तरह से अन्वेषित नहीं की गई है। प्रत्यक्ष वरीयता अनुकूलन (DPO) मानव प्रतिक्रिया के साथ मॉडल को संरेखित करने के लिए एक आशाजनक दिशा प्रदान करता है, जो पर्यवेक्षित प्रशिक्षण से परे वरीयता-निर्देशित निर्णय लेने को सक्षम बनाता है।

मुख्य योगदान

DPO अनुकूलन पर आधारित LLM विभाजन ढांचे का प्रस्ताव: पहली बार वरीयता अनुकूलन को SimulST विभाजन कार्य में लागू किया गया है
व्यापक प्रायोगिक मूल्यांकन का निर्माण: ACL 60/60 डेटासेट पर तीन भाषा जोड़ियों पर मूल्यांकन, SeamlessM4T v2 को अनुवाद बैकबोन के रूप में उपयोग करते हुए
वरीयता-ट्यून्ड LLM की श्रेष्ठता का प्रमाण: पूर्व-प्रशिक्षित विभाजन मॉडल SHAS की तुलना में अनुवाद गुणवत्ता और विलंबता दोनों में सुधार
पूर्ण अंत-से-अंत प्रणाली प्रदान करना: विभाजन मॉड्यूल को अनुवाद प्रणाली के साथ एकीकृत करना, वास्तविक समय समवर्ती भाषण अनुवाद को लागू करना

विधि विवरण

कार्य परिभाषा

SimulST में विभाजन कार्य को आने वाली भाषण स्ट्रीम में वाक्य विराम बिंदुओं की भविष्यवाणी करने के कार्य के रूप में परिभाषित किया गया है, जिसका लक्ष्य अनुवाद गुणवत्ता और विलंबता के बीच संतुलन बनाना है। स्ट्रीमिंग इनपुट भाषण अनुक्रम x दिया गया है, मॉडल विभाजन निर्णय अनुक्रम {s₁, s₂, ..., sₜ} उत्पन्न करता है, जहां प्रत्येक sₜ भविष्यवाणी की गई सीमा स्थिति को दर्शाता है। बाइनरी वर्गीकरण विधि के विपरीत, यह पेपर विभाजन को अगले विराम बिंदु भविष्यवाणी समस्या के रूप में परिभाषित करता है।

मॉडल आर्किटेक्चर

आधार LLM

विभाजन बैकबोन के रूप में Qwen2.5-Omni-3B को अपनाया गया है, जो स्ट्रीमिंग तरीके से चलता है, भाषण इनपुट पर स्लाइडिंग विंडो तंत्र का उपयोग करते हुए। मॉडल सीधे ऑडियो की खंड-स्तरीय ध्वनिक विशेषताओं को संसाधित करता है, टोकन-स्तरीय ASR प्रतिलेखन के आधार पर नहीं, वर्तमान भाषण संदर्भ दिए गए अगले विभाजन बिंदु को वृद्धिशील रूप से भविष्यवाणी करता है।

वरीयता जोड़ी निर्माण

मानव संरेखण संकेत को शामिल करने के लिए, उम्मीदवार विभाजन की वरीयता जोड़ी का निर्माण किया गया है:

कई अनुमानी और पूर्व-प्रशिक्षित रणनीतियों (VAD, निश्चित लंबाई विभाजन, SHAS आउटपुट) को संयोजित करके उम्मीदवार सीमाएं उत्पन्न करना
अनुवाद गुणवत्ता (BLEU) और विलंबता (औसत पिछड़ापन) का उपयोग करके प्रत्येक उम्मीदवार विभाजन का मूल्यांकन करना
इन मेट्रिक्स से रैंकिंग संकेत प्राप्त करना, बेहतर प्रदर्शन वाले विभाजन को पसंदीदा उम्मीदवार के रूप में कार्य करते हैं
कुल मिलाकर प्रशिक्षण के लिए लगभग 8,000 वरीयता जोड़ियां प्राप्त करना

DPO प्रशिक्षण

प्रत्यक्ष वरीयता अनुकूलन का उपयोग करके LLM को सूक्ष्म-ट्यून किया गया है:

इनपुट उच्चारण x दिया गया है, कई उम्मीदवार विभाजन उत्पन्न करें, प्रत्येक विभाजन y को इनपुट स्ट्रीम पर सीमा सूचकांकों के अनुक्रम के रूप में व्यक्त किया गया है। वरीयता जोड़ी (y_pref, y_dispref) का निर्माण करें, जहां y_pref बेहतर अनुवाद गुणवत्ता और कम विलंबता उत्पन्न करने वाले पसंदीदा विभाजन को दर्शाता है।

DPO उद्देश्य फ़ंक्शन है:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

जहां π_θ LLM द्वारा प्रेरित नीति को दर्शाता है, β एक स्केलिंग हाइपरपैरामीटर है। 5 एपोक्स के लिए प्रशिक्षण, मानक शिक्षण दर अनुसूची का उपयोग करते हुए।

तकनीकी नवाचार बिंदु

वरीयता संरेखण तंत्र: पहली बार DPO को विभाजन कार्य में लागू किया गया है, मानव वरीयता संकेतों के माध्यम से मॉडल शिक्षण को निर्देशित करना
अंत-से-अंत अनुकूलन: अनुवाद गुणवत्ता और विलंबता के संयुक्त उद्देश्य को सीधे अनुकूलित करना, केवल ध्वनिक विशेषताओं पर निर्भर नहीं
स्ट्रीमिंग प्रोसेसिंग आर्किटेक्चर: वास्तविक समय प्रोसेसिंग के लिए उपयुक्त स्लाइडिंग विंडो तंत्र का डिजाइन
बहु-मोडल संलयन: विभाजन निर्णय के लिए ध्वनिक विशेषताओं और भाषा मॉडल क्षमता को संयोजित करना

प्रायोगिक सेटअप

डेटासेट

प्रशिक्षण डेटा: CoVoST2 कॉर्पस, DPO प्रशिक्षण के लिए वरीयता जोड़ी बनाने के लिए उपयोग किया गया
मूल्यांकन डेटा: ACL 60/60 परीक्षण सेट, ACL 2022 की तकनीकी प्रस्तुतियों को शामिल करता है
भाषा जोड़ी: अंग्रेजी→जापानी, अंग्रेजी→चीनी, अंग्रेजी→जर्मन

मूल्यांकन मेट्रिक्स

अनुवाद गुणवत्ता: BLEU स्कोर
विलंबता: स्ट्रीमिंग LAAL (Streaming Long Average Lagging), वास्तविक स्ट्रीमिंग स्थितियों में प्रणाली विलंबता को दर्शाता है

तुलनात्मक विधियां

IWSLT आधारभूत: निश्चित लंबाई चंकिंग और VAD-आधारित विभाजन
SHAS: पुनः कार्यान्वित पूर्व-प्रशिक्षित विभाजन मॉडल

कार्यान्वयन विवरण

मॉडल: विभाजन बैकबोन के रूप में Qwen2.5-Omni-3B
प्रशिक्षण सेटिंग: 5 एपोक्स, बैच आकार 1, AdamW ऑप्टिमाइज़र, शिक्षण दर 5×10⁻⁵
हार्डवेयर: 4 NVIDIA A100 GPU
अनुमान सेटिंग: स्लाइडिंग विंडो आकार 4 सेकंड, जंप आकार 2 सेकंड

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
हमारा (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

नोट: प्रारूप BLEU(↑)/विलंबता(ms, ↓) है

मुख्य निष्कर्ष

सुसंगत सुधार: सभी तीन अनुवाद दिशाओं में अनुमानी आधारभूत और SHAS मॉडल से आगे निकलता है
गुणवत्ता में उल्लेखनीय वृद्धि: SHAS की तुलना में औसतन लगभग 1.5 BLEU में सुधार, विलंबता में केवल लगभग 100ms की वृद्धि
भाषा जोड़ी अंतर: En→De सर्वोच्च BLEU प्राप्त करता है, En→Zh मध्यम वृद्धि दिखाता है, En→Ja अभी भी सबसे चुनौतीपूर्ण है

विलंबता-गुणवत्ता ट्रेड-ऑफ विश्लेषण

विलंबता-गुणवत्ता ट्रेड-ऑफ वक्र विश्लेषण से पता चलता है कि DPO-प्रशिक्षित LLM पूरे ऑपरेटिंग रेंज में अन्य विभाजन रणनीतियों से लगातार बेहतर है, समान या कम विलंबता पर उच्च BLEU स्कोर प्राप्त करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DPO प्रभावशीलता: वरीयता अनुकूलन मॉडल को मानव वरीयता के साथ संरेखित विभाजन सीखने में सक्षम बनाता है, अधिक प्राकृतिक सीमाएं और बेहतर गुणवत्ता-विलंबता ट्रेड-ऑफ उत्पन्न करता है
प्रदर्शन सुधार: लगभग 3 सेकंड विलंबता पर, तीनों भाषा दिशाओं में SHAS की तुलना में सुसंगत सुधार
व्यावहारिक मूल्य: वास्तविक समय समवर्ती व्याख्या में वरीयता-ट्यून्ड LLM की क्षमता को प्रमाणित करता है

सीमाएं

सीमित मूल्यांकन रेंज: केवल तीन भाषा जोड़ियों तक सीमित, सामान्यीकरण को सत्यापित करने के लिए अधिक विविध दिशाओं की आवश्यकता है
कम्प्यूटेशनल ओवरहेड: 3B पैरामीटर LLM अतिरिक्त कम्प्यूटेशनल ओवरहेड पेश करता है, संसाधन-सीमित डिवाइस पर तैनाती को सीमित कर सकता है
स्थिरता समस्याएं: विशिष्ट विलंबता थ्रेसहोल्ड पर BLEU में उतार-चढ़ाव देखा गया, यह दर्शाता है कि विभाजन स्थिरता में अभी भी सुधार की गुंजाइश है
मूल्यांकन मेट्रिक्स की सीमाएं: BLEU और विलंबता को स्वचालित मेट्रिक्स के रूप में उपयोग करना, मानव मूल्यांकन की कमी

भविष्य की दिशाएं

अधिक भाषा जोड़ियों और डोमेन तक विस्तार करना
वास्तविक समय तैनाती के लिए मॉडल दक्षता को अनुकूलित करना
स्वचालित मेट्रिक्स को सत्यापित करने के लिए मानव मूल्यांकन पेश करना
अधिक जटिल वरीयता मॉडलिंग विधियों की खोज करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार DPO को SimulST विभाजन में लागू किया गया है, अनुसंधान की नई दिशा खोली है
तर्कसंगत विधि: वरीयता संरेखण का विचार वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप है, मौजूदा विधियों की मूल समस्या को हल करता है
पर्याप्त प्रयोग: कई भाषा जोड़ियों पर व्यापक मूल्यांकन, परिणाम सुसंगत और प्रेरक हैं
उच्च व्यावहारिक मूल्य: पूर्ण अंत-से-अंत प्रणाली प्रदान करता है, वास्तविक तैनाती की क्षमता है

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने के लिए गहन सैद्धांतिक विश्लेषण की कमी है कि DPO विभाजन कार्य पर प्रभावी क्यों है
सरल वरीयता जोड़ी निर्माण: केवल BLEU और विलंबता के आधार पर वरीयता जोड़ी बनाना, पूर्ण नहीं हो सकता है
कम्प्यूटेशनल दक्षता समस्या: 3B पैरामीटर मॉडल की वास्तविक समय प्रदर्शन वास्तविक अनुप्रयोग की बाधा बन सकती है
एकल मूल्यांकन मेट्रिक्स: मुख्य रूप से स्वचालित मेट्रिक्स पर निर्भर, व्यक्तिपरक गुणवत्ता मूल्यांकन की कमी

प्रभाव

शैक्षणिक योगदान: SimulST विभाजन क्षेत्र में अनुकूलन का नया प्रतिमान पेश करता है
व्यावहारिक मूल्य: वास्तविक समय भाषण अनुवाद प्रणाली के लिए बेहतर विभाजन समाधान प्रदान करता है
प्रेरणा महत्व: अनुक्रम निर्णय कार्यों में वरीयता शिक्षा की आवेदन क्षमता को प्रदर्शित करता है

लागू परिदृश्य

वास्तविक समय सम्मेलन अनुवाद: कम विलंबता उच्च गुणवत्ता समवर्ती अनुवाद की आवश्यकता वाले परिदृश्य
लाइव सबटाइटल जनरेशन: विभाजन गुणवत्ता के लिए उच्च आवश्यकताओं वाले अनुप्रयोग
बहु-भाषा ग्राहक सेवा प्रणाली: प्राकृतिक और सुचारु वास्तविक समय अनुवाद इंटरैक्शन की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

SHAS विभाजन मॉडल Tsiamas et al., 2022
SeamlessM4T अनुवाद प्रणाली Meta AI, 2023-2024
DPO अनुकूलन विधि Rafailov et al., 2023
ACL 60/60 मूल्यांकन बेंचमार्क Salesky et al., 2023

समग्र मूल्यांकन: यह तकनीकी नवाचार के साथ एक मजबूत पेपर है, जो पहली बार वरीयता अनुकूलन को SimulST विभाजन कार्य में पेश करता है, विधि तर्कसंगत है, प्रायोगिक परिणाम प्रेरक हैं। यद्यपि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल दक्षता के पहलुओं में सुधार की गुंजाइश है, यह क्षेत्र के विकास के लिए मूल्यवान योगदान और नई अनुसंधान दिशा प्रदान करता है।

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

समवर्ती भाषण अनुवाद में विभाजन के लिए DPO-ट्यून्ड बड़े भाषा मॉडल

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

समस्या की महत्ता

मौजूदा विधियों की सीमाएं

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

आधार LLM

वरीयता जोड़ी निर्माण

DPO प्रशिक्षण

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

विलंबता-गुणवत्ता ट्रेड-ऑफ विश्लेषण

संबंधित कार्य

विभाजन विधि विकास

बहु-भाषा अनुवाद प्रणाली

अनुसंधान अंतराल

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ