DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic
نماذج اللغة الكبيرة المضبوطة بـ DPO للتقسيم في الترجمة الكلامية المتزامنة
تتطلب الترجمة الكلامية المتزامنة تقسيماً دقيقاً لتحقيق التوازن بين جودة الترجمة والتأخير الزمني. على الرغم من أن نماذج التقسيم المدربة مسبقاً مثل SHAS تتفوق على القواعد الاستكشافية، إلا أنها لا تزال مقيدة بأهداف التعلم الموجه وتفتقر إلى محاذاة التفضيلات البشرية. تقترح هذه الورقة إطار عمل لتقسيم نماذج اللغة الكبيرة المدربة باستخدام التحسين المباشر للتفضيلات (DPO)، مما يمكّن نماذج اللغة الكبيرة من التنبؤ بنقاط تقسيم أكثر طبيعية من خلال محاذاة التفضيلات. تم إجراء التقييم على ثلاثة أزواج لغوية باستخدام مجموعة بيانات ACL 60/60، مع استخدام SeamlessM4T v2 كعمود فقري للترجمة. تُظهر النتائج التجريبية أن نماذج اللغة الكبيرة المضبوطة بـ DPO تتفوق على SHAS في دقة التقسيم، مع تحسن مستمر في جودة الترجمة (BLEU و COMET) والتأخير الزمني (متوسط التأخر).
يتمثل التحدي الأساسي للترجمة الكلامية المتزامنة (SimulST) في تقليل التأخير الزمني مع الحفاظ على جودة الترجمة، مما يتطلب من النظام أن يقرر بدقة متى يتم تقسيم تدفق الإدخال وإخراج الترجمة. يؤدي التقسيم غير الملائم إلى وحدات ترجمة غير مكتملة أو زائدة، مما يؤثر بشكل كبير على الدقة وتجربة المستخدم.
يُعتبر التقسيم مكوناً أساسياً في أنظمة SimulST العملية، خاصة في SimulST المتدفقة، حيث تؤدي الحدود غير الملائمة إلى إلحاق ضرر كبير بجودة الترجمة والتأخير الزمني. على الرغم من أن القواعس الاستكشافية التقليدية (مثل التنبؤ بعلامات الترقيم والتقسيم بطول ثابت) بسيطة وفعالة، إلا أنها غالباً ما تفشل في التكيف مع تنوع البنى اللغوية وأنماط الكلام.
الطرق الاستكشافية: استراتيجيات مثل wait-k الثابتة محدودة في التكيف مع التغييرات اللغوية
النماذج المدربة مسبقاً: على الرغم من أن نماذج مثل SHAS أكثر قوة من الطرق الاستكشافية، إلا أنها لا تزال مقيدة بأهداف التعلم الموجه وتعتمد فقط على الميزات الصوتية
غياب محاذاة التفضيلات البشرية: لا تتضمن الطرق الموجودة محاذاة مع أداء ترجمة الآلة المتزامنة، وهو أمر حاسم للترجمة الطبيعية والفورية
أظهرت نماذج اللغة الكبيرة قدرات تعميم استثنائية في مهام الكلام والترجمة، لكن إمكاناتها في تقسيم SimulST لم تُستكشف بالكامل بعد. يوفر التحسين المباشر للتفضيلات (DPO) اتجاهاً واعداً لمحاذاة النموذج مع التعليقات البشرية، مما يتيح اتخاذ قرارات موجهة بالتفضيلات تتجاوز التدريب الموجه.
يتم تعريف مهمة التقسيم في SimulST على أنها التنبؤ بنقاط فواصل الجمل في تدفق الكلام الوارد، بهدف تحقيق التوازن بين جودة الترجمة والتأخير الزمني. بالنظر إلى تسلسل الكلام المتدفق x، ينتج النموذج تسلسل قرارات التقسيم {s₁, s₂, ..., sₜ}، حيث يمثل كل sₜ موضع الحد المتنبأ به. بخلاف طرق التصنيف الثنائي، تُعرّف هذه الورقة التقسيم على أنه مشكلة التنبؤ بالفاصل التالي.
يستخدم Qwen2.5-Omni-3B كنموذج عمود فقري للتقسيم، يعمل بطريقة متدفقة، مع استخدام آلية نافذة منزلقة على مدخلات الكلام. يعالج النموذج مباشرة ميزات صوتية على مستوى الكتل بدلاً من نصوص ASR على مستوى الرموز، مما يتنبأ بشكل متزايد بالفاصل التالي في السياق الكلامي الحالي.
استخدام التحسين المباشر للتفضيلات لضبط نموذج اللغة الكبيرة:
بالنظر إلى الملفوظ x، يتم توليد عدة تقسيمات مرشحة، حيث يمثل كل تقسيم y تسلسل فهارس الحدود على تدفق الإدخال. يتم بناء أزواج تفضيلات (y_pref, y_dispref)، حيث يمثل y_pref التقسيم المفضل الذي ينتج جودة ترجمة أفضل وتأخيراً زمنياً أقل.
يُظهر تحليل منحنيات المقايضة بين التأخير والجودة أن نماذج اللغة الكبيرة المدربة بـ DPO تتفوق باستمرار على استراتيجيات التقسيم الأخرى عبر نطاق التشغيل بالكامل، محققة درجات BLEU أعلى بتأخير مماثل أو أقل.
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:
نموذج تقسيم SHAS Tsiamas et al., 2022
نظام ترجمة SeamlessM4T Meta AI، 2023-2024
طريقة تحسين DPO Rafailov et al., 2023
معيار التقييم ACL 60/60 Salesky et al., 2023
التقييم الشامل: هذه ورقة بابتكار تقني قوي، تطبق لأول مرة تحسين التفضيلات على مهمة تقسيم SimulST، مع طريقة معقولة ونتائج تجريبية مقنعة. على الرغم من وجود مجال للتحسين في التحليل النظري وكفاءة الحوسبة، إلا أنها توفر مساهمة قيمة واتجاهات بحثية جديدة لتطور المجال.