DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic
समवर्ती भाषण अनुवाद में विभाजन के लिए DPO-ट्यून्ड बड़े भाषा मॉडल
समवर्ती भाषण अनुवाद को अनुवाद गुणवत्ता और विलंबता के बीच संतुलन बनाने के लिए सटीक विभाजन की आवश्यकता होती है। यद्यपि SHAS जैसे पूर्व-प्रशिक्षित विभाजन मॉडल अनुमानी नियमों से बेहतर प्रदर्शन करते हैं, फिर भी वे पर्यवेक्षित शिक्षण उद्देश्यों तक सीमित हैं और मानव वरीयता संरेखण की कमी है। यह पेपर प्रत्यक्ष वरीयता अनुकूलन (DPO) प्रशिक्षण पर आधारित बड़े भाषा मॉडल विभाजन ढांचे का प्रस्ताव करता है, जो वरीयता संरेखण के माध्यम से LLM को अधिक प्राकृतिक विभाजन बिंदुओं की भविष्यवाणी करने में सक्षम बनाता है। ACL 60/60 कॉर्पस पर तीन भाषा जोड़ियों पर मूल्यांकन किया गया है, SeamlessM4T v2 को अनुवाद बैकबोन के रूप में उपयोग करते हुए। प्रायोगिक परिणाम दर्शाते हैं कि DPO-ट्यून्ड LLM विभाजन सटीकता में SHAS से आगे निकलता है, अनुवाद गुणवत्ता (BLEU, COMET) और विलंबता (औसत पिछड़ापन) दोनों में निरंतर सुधार के साथ।
समवर्ती भाषण अनुवाद (SimulST) का मुख्य चुनौती अनुवाद गुणवत्ता सुनिश्चित करते हुए विलंबता को कम करना है, जिसके लिए सिस्टम को सटीकता से निर्णय लेने की आवश्यकता है कि इनपुट स्ट्रीम को कब विभाजित करें और अनुवाद आउटपुट करें। अनुचित विभाजन अधूरे या अनावश्यक अनुवाद इकाइयों का कारण बनता है, जो सटीकता और उपयोगकर्ता अनुभव को गंभीरता से प्रभावित करता है।
विभाजन को व्यावहारिक SimulST प्रणालियों के मूल घटक के रूप में माना जाता है, विशेष रूप से स्ट्रीमिंग SimulST में, जहां अनुचित सीमाएं अनुवाद गुणवत्ता और विलंबता को महत्वपूर्ण रूप से नुकसान पहुंचाती हैं। पारंपरिक अनुमानी नियम (जैसे विराम चिह्न भविष्यवाणी, निश्चित लंबाई चंकिंग) सरल और कुशल हैं, लेकिन विविध भाषा संरचनाओं और बोलने की शैलियों के अनुकूल होने में असमर्थ हैं।
अनुमानी विधियां: निश्चित wait-k रणनीति जैसी विधियां भाषा परिवर्तनों के अनुकूल होने में सीमित हैं
पूर्व-प्रशिक्षित मॉडल: SHAS जैसे मॉडल अनुमानी विधियों से अधिक मजबूत हैं, लेकिन फिर भी पर्यवेक्षित शिक्षण उद्देश्यों तक सीमित हैं और केवल ध्वनिक विशेषताओं पर निर्भर हैं
मानव वरीयता संरेखण की कमी: मौजूदा विधियां मशीन अनुवाद प्रदर्शन संरेखण को शामिल नहीं करती हैं, जो प्राकृतिक और समय पर अनुवाद के लिए महत्वपूर्ण है
बड़े भाषा मॉडल भाषण और अनुवाद कार्यों में उत्कृष्ट सामान्यीकरण क्षमता प्रदर्शित करते हैं, लेकिन SimulST विभाजन में उनकी क्षमता अभी तक पूरी तरह से अन्वेषित नहीं की गई है। प्रत्यक्ष वरीयता अनुकूलन (DPO) मानव प्रतिक्रिया के साथ मॉडल को संरेखित करने के लिए एक आशाजनक दिशा प्रदान करता है, जो पर्यवेक्षित प्रशिक्षण से परे वरीयता-निर्देशित निर्णय लेने को सक्षम बनाता है।
SimulST में विभाजन कार्य को आने वाली भाषण स्ट्रीम में वाक्य विराम बिंदुओं की भविष्यवाणी करने के कार्य के रूप में परिभाषित किया गया है, जिसका लक्ष्य अनुवाद गुणवत्ता और विलंबता के बीच संतुलन बनाना है। स्ट्रीमिंग इनपुट भाषण अनुक्रम x दिया गया है, मॉडल विभाजन निर्णय अनुक्रम {s₁, s₂, ..., sₜ} उत्पन्न करता है, जहां प्रत्येक sₜ भविष्यवाणी की गई सीमा स्थिति को दर्शाता है। बाइनरी वर्गीकरण विधि के विपरीत, यह पेपर विभाजन को अगले विराम बिंदु भविष्यवाणी समस्या के रूप में परिभाषित करता है।
विभाजन बैकबोन के रूप में Qwen2.5-Omni-3B को अपनाया गया है, जो स्ट्रीमिंग तरीके से चलता है, भाषण इनपुट पर स्लाइडिंग विंडो तंत्र का उपयोग करते हुए। मॉडल सीधे ऑडियो की खंड-स्तरीय ध्वनिक विशेषताओं को संसाधित करता है, टोकन-स्तरीय ASR प्रतिलेखन के आधार पर नहीं, वर्तमान भाषण संदर्भ दिए गए अगले विभाजन बिंदु को वृद्धिशील रूप से भविष्यवाणी करता है।
प्रत्यक्ष वरीयता अनुकूलन का उपयोग करके LLM को सूक्ष्म-ट्यून किया गया है:
इनपुट उच्चारण x दिया गया है, कई उम्मीदवार विभाजन उत्पन्न करें, प्रत्येक विभाजन y को इनपुट स्ट्रीम पर सीमा सूचकांकों के अनुक्रम के रूप में व्यक्त किया गया है। वरीयता जोड़ी (y_pref, y_dispref) का निर्माण करें, जहां y_pref बेहतर अनुवाद गुणवत्ता और कम विलंबता उत्पन्न करने वाले पसंदीदा विभाजन को दर्शाता है।
विलंबता-गुणवत्ता ट्रेड-ऑफ वक्र विश्लेषण से पता चलता है कि DPO-प्रशिक्षित LLM पूरे ऑपरेटिंग रेंज में अन्य विभाजन रणनीतियों से लगातार बेहतर है, समान या कम विलंबता पर उच्च BLEU स्कोर प्राप्त करता है।
SeamlessM4T जैसी बड़ी बहु-भाषा बहु-मोडल अनुवाद प्रणाली भाषण अनुवाद कार्यों के लिए मजबूत बैकबोन प्रदान करती है, कई भाषाओं पर अत्याधुनिक प्रदर्शन प्रदर्शित करती है।
DPO प्रभावशीलता: वरीयता अनुकूलन मॉडल को मानव वरीयता के साथ संरेखित विभाजन सीखने में सक्षम बनाता है, अधिक प्राकृतिक सीमाएं और बेहतर गुणवत्ता-विलंबता ट्रेड-ऑफ उत्पन्न करता है
प्रदर्शन सुधार: लगभग 3 सेकंड विलंबता पर, तीनों भाषा दिशाओं में SHAS की तुलना में सुसंगत सुधार
व्यावहारिक मूल्य: वास्तविक समय समवर्ती व्याख्या में वरीयता-ट्यून्ड LLM की क्षमता को प्रमाणित करता है
पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
SHAS विभाजन मॉडल Tsiamas et al., 2022
SeamlessM4T अनुवाद प्रणाली Meta AI, 2023-2024
DPO अनुकूलन विधि Rafailov et al., 2023
ACL 60/60 मूल्यांकन बेंचमार्क Salesky et al., 2023
समग्र मूल्यांकन: यह तकनीकी नवाचार के साथ एक मजबूत पेपर है, जो पहली बार वरीयता अनुकूलन को SimulST विभाजन कार्य में पेश करता है, विधि तर्कसंगत है, प्रायोगिक परिणाम प्रेरक हैं। यद्यपि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल दक्षता के पहलुओं में सुधार की गुंजाइश है, यह क्षेत्र के विकास के लिए मूल्यवान योगदान और नई अनुसंधान दिशा प्रदान करता है।