2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

نماذج اللغة الكبيرة المضبوطة بـ DPO للتقسيم في الترجمة الكلامية المتزامنة

المعلومات الأساسية

معرّف الورقة: 2510.12195
العنوان: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
المؤلفون: Zeyu Yang (جامعة الصين الهونغ كونغية، شنتشن)، Satoshi Nakamura (جامعة الصين الهونغ كونغية، شنتشن وجامعة NAIST، اليابان)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.12195

الملخص

تتطلب الترجمة الكلامية المتزامنة تقسيماً دقيقاً لتحقيق التوازن بين جودة الترجمة والتأخير الزمني. على الرغم من أن نماذج التقسيم المدربة مسبقاً مثل SHAS تتفوق على القواعد الاستكشافية، إلا أنها لا تزال مقيدة بأهداف التعلم الموجه وتفتقر إلى محاذاة التفضيلات البشرية. تقترح هذه الورقة إطار عمل لتقسيم نماذج اللغة الكبيرة المدربة باستخدام التحسين المباشر للتفضيلات (DPO)، مما يمكّن نماذج اللغة الكبيرة من التنبؤ بنقاط تقسيم أكثر طبيعية من خلال محاذاة التفضيلات. تم إجراء التقييم على ثلاثة أزواج لغوية باستخدام مجموعة بيانات ACL 60/60، مع استخدام SeamlessM4T v2 كعمود فقري للترجمة. تُظهر النتائج التجريبية أن نماذج اللغة الكبيرة المضبوطة بـ DPO تتفوق على SHAS في دقة التقسيم، مع تحسن مستمر في جودة الترجمة (BLEU و COMET) والتأخير الزمني (متوسط التأخر).

الخلفية البحثية والدافع

المشكلة الأساسية

يتمثل التحدي الأساسي للترجمة الكلامية المتزامنة (SimulST) في تقليل التأخير الزمني مع الحفاظ على جودة الترجمة، مما يتطلب من النظام أن يقرر بدقة متى يتم تقسيم تدفق الإدخال وإخراج الترجمة. يؤدي التقسيم غير الملائم إلى وحدات ترجمة غير مكتملة أو زائدة، مما يؤثر بشكل كبير على الدقة وتجربة المستخدم.

أهمية المشكلة

يُعتبر التقسيم مكوناً أساسياً في أنظمة SimulST العملية، خاصة في SimulST المتدفقة، حيث تؤدي الحدود غير الملائمة إلى إلحاق ضرر كبير بجودة الترجمة والتأخير الزمني. على الرغم من أن القواعس الاستكشافية التقليدية (مثل التنبؤ بعلامات الترقيم والتقسيم بطول ثابت) بسيطة وفعالة، إلا أنها غالباً ما تفشل في التكيف مع تنوع البنى اللغوية وأنماط الكلام.

قيود الطرق الموجودة

الطرق الاستكشافية: استراتيجيات مثل wait-k الثابتة محدودة في التكيف مع التغييرات اللغوية
النماذج المدربة مسبقاً: على الرغم من أن نماذج مثل SHAS أكثر قوة من الطرق الاستكشافية، إلا أنها لا تزال مقيدة بأهداف التعلم الموجه وتعتمد فقط على الميزات الصوتية
غياب محاذاة التفضيلات البشرية: لا تتضمن الطرق الموجودة محاذاة مع أداء ترجمة الآلة المتزامنة، وهو أمر حاسم للترجمة الطبيعية والفورية

الدافع البحثي

أظهرت نماذج اللغة الكبيرة قدرات تعميم استثنائية في مهام الكلام والترجمة، لكن إمكاناتها في تقسيم SimulST لم تُستكشف بالكامل بعد. يوفر التحسين المباشر للتفضيلات (DPO) اتجاهاً واعداً لمحاذاة النموذج مع التعليقات البشرية، مما يتيح اتخاذ قرارات موجهة بالتفضيلات تتجاوز التدريب الموجه.

المساهمات الأساسية

اقتراح إطار عمل تقسيم قائم على تحسين DPO لنماذج اللغة الكبيرة: تطبيق أول لتحسين التفضيلات على مهمة تقسيم SimulST
بناء تقييم تجريبي شامل: تقييم على ثلاثة أزواج لغوية في مجموعة بيانات ACL 60/60، مع استخدام SeamlessM4T v2 كعمود فقري للترجمة
إثبات تفوق نماذج اللغة الكبيرة المضبوطة بالتفضيلات: تحسن في جودة الترجمة والتأخير الزمني مقارنة بنموذج التقسيم المدرب مسبقاً SHAS
توفير نظام متكامل من النهاية إلى النهاية: دمج وحدة التقسيم مع نظام الترجمة لتحقيق ترجمة كلامية متزامنة فورية

شرح الطريقة

تعريف المهمة

يتم تعريف مهمة التقسيم في SimulST على أنها التنبؤ بنقاط فواصل الجمل في تدفق الكلام الوارد، بهدف تحقيق التوازن بين جودة الترجمة والتأخير الزمني. بالنظر إلى تسلسل الكلام المتدفق x، ينتج النموذج تسلسل قرارات التقسيم {s₁, s₂, ..., sₜ}، حيث يمثل كل sₜ موضع الحد المتنبأ به. بخلاف طرق التصنيف الثنائي، تُعرّف هذه الورقة التقسيم على أنه مشكلة التنبؤ بالفاصل التالي.

معمارية النموذج

نموذج اللغة الأساسي

يستخدم Qwen2.5-Omni-3B كنموذج عمود فقري للتقسيم، يعمل بطريقة متدفقة، مع استخدام آلية نافذة منزلقة على مدخلات الكلام. يعالج النموذج مباشرة ميزات صوتية على مستوى الكتل بدلاً من نصوص ASR على مستوى الرموز، مما يتنبأ بشكل متزايد بالفاصل التالي في السياق الكلامي الحالي.

بناء أزواج التفضيلات

لدمج إشارات محاذاة بشرية، يتم بناء أزواج تفضيلات من تقسيمات مرشحة:

توليد حدود مرشحة من خلال الجمع بين استراتيجيات استكشافية ونماذج مدربة مسبقاً متعددة (VAD وتقسيم بطول ثابت وإخراج SHAS)
تقييم كل تقسيم مرشح باستخدام جودة الترجمة (BLEU) والتأخير الزمني (متوسط التأخر)
استخلاص إشارات الترتيب من هذه المقاييس، مع اعتبار التقسيمات ذات الأداء الأفضل كمرشحات مفضلة
الحصول على حوالي 8000 زوج تفضيل للتدريب

تدريب DPO

استخدام التحسين المباشر للتفضيلات لضبط نموذج اللغة الكبيرة:

بالنظر إلى الملفوظ x، يتم توليد عدة تقسيمات مرشحة، حيث يمثل كل تقسيم y تسلسل فهارس الحدود على تدفق الإدخال. يتم بناء أزواج تفضيلات (y_pref, y_dispref)، حيث يمثل y_pref التقسيم المفضل الذي ينتج جودة ترجمة أفضل وتأخيراً زمنياً أقل.

دالة هدف DPO هي:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

حيث تمثل π_θ السياسة المستحثة من نموذج اللغة الكبيرة، و β هي معامل التحجيم. يتم التدريب لمدة 5 حقب باستخدام جدول معدل التعلم القياسي.

نقاط الابتكار التقني

آلية محاذاة التفضيلات: تطبيق أول لـ DPO على مهمة التقسيم، مع توجيه النموذج من خلال إشارات التفضيلات البشرية
التحسين من النهاية إلى النهاية: تحسين مباشر للهدف المركب لجودة الترجمة والتأخير الزمني، بدلاً من الاعتماد فقط على الميزات الصوتية
معمارية المعالجة المتدفقة: تصميم آلية نافذة منزلقة مناسبة للمعالجة الفورية
دمج متعدد الأنماط: الجمع بين الميزات الصوتية وقدرات نموذج اللغة لاتخاذ قرارات التقسيم

إعداد التجارب

مجموعات البيانات

بيانات التدريب: مجموعة بيانات CoVoST2، المستخدمة لبناء أزواج التفضيلات لتدريب DPO
بيانات التقييم: مجموعة اختبار ACL 60/60، تحتوي على محاضرات تقنية من ACL 2022
أزواج اللغات: الإنجليزية→اليابانية، الإنجليزية→الصينية، الإنجليزية→الألمانية

مؤشرات التقييم

جودة الترجمة: درجة BLEU
التأخير الزمني: LAAL المتدفقة (Streaming Long Average Lagging)، تعكس التأخير الفعلي للنظام في ظروف متدفقة

طرق المقارنة

خط أساس IWSLT: تقسيم بطول ثابت وتقسيم قائم على VAD
SHAS: إعادة تنفيذ نموذج التقسيم المدرب مسبقاً

تفاصيل التنفيذ

النموذج: Qwen2.5-Omni-3B كنموذج عمود فقري للتقسيم
إعدادات التدريب: 5 حقب، حجم دفعة 1، محسّن AdamW، معدل تعلم 5×10⁻⁵
الأجهزة: 4 وحدات معالجة رسومات NVIDIA A100
إعدادات الاستدلال: حجم النافذة المنزلقة 4 ثوان، حجم القفزة ثانيتان

نتائج التجارب

النتائج الرئيسية

الطريقة	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
Ours (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

ملاحظة: الصيغة هي BLEU(↑)/التأخير الزمني(ms, ↓)

النتائج الرئيسية

تحسن متسق: تفوق على خطوط الأساس الاستكشافية ونموذج SHAS في جميع الاتجاهات الثلاثة للترجمة
تحسن جودة ملحوظ: متوسط تحسن حوالي 1.5 BLEU مقارنة بـ SHAS، مع زيادة التأخير الزمني بحوالي 100 ميلي ثانية فقط
اختلافات أزواج اللغات: تحقق En→De أعلى BLEU، وتُظهر En→Zh مكاسب متوسطة، بينما En→Ja لا تزال الأكثر تحدياً

تحليل المقايضة بين التأخير والجودة

يُظهر تحليل منحنيات المقايضة بين التأخير والجودة أن نماذج اللغة الكبيرة المدربة بـ DPO تتفوق باستمرار على استراتيجيات التقسيم الأخرى عبر نطاق التشغيل بالكامل، محققة درجات BLEU أعلى بتأخير مماثل أو أقل.

الأعمال ذات الصلة

تطور طرق التقسيم

الطرق الاستكشافية: استراتيجيات wait-k الثابتة وغيرها، لكنها محدودة في التكيف مع التغييرات اللغوية
الطرق القابلة للتدريب: يقدم DiSeg وحدة تقسيم قابلة للتفاضل، مدربة بشكل مشترك مع نموذج الترجمة من خلال التدريب المتوقع
النماذج المدربة مسبقاً: نماذج مثل SHAS تحسن المتانة من خلال التدريب على نطاق واسع

أنظمة الترجمة متعددة اللغات

توفر أنظمة مثل SeamlessM4T الكبيرة متعددة اللغات ومتعددة الأنماط أعمدة فقرية قوية لمهام الترجمة الكلامية، مما يُظهر أداء متقدمة على عدة لغات.

الفجوات البحثية

وفقاً لمعرفة المؤلفين، لم تطبق أي أعمال سابقة تحسين التفضيلات على مهمة التقسيم في SimulST، وتملأ هذه الورقة هذه الفجوة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية DPO: يمكّن تحسين التفضيلات النموذج من تعلم التقسيم المحاذي مع التفضيلات البشرية، مما ينتج حدوداً أكثر طبيعية ومقايضة أفضل بين الجودة والتأخير
تحسن الأداء: بتأخير زمني حوالي 3 ثوان، تحسن متسق على SHAS في ثلاثة اتجاهات لغوية
القيمة العملية: إثبات إمكانات نماذج اللغة الكبيرة المضبوطة بالتفضيلات في الترجمة المتزامنة الفورية

القيود

نطاق التقييم محدود: مقتصر على ثلاثة أزواج لغوية، يتطلب التحقق من التعميم على اتجاهات أكثر تنوعاً
التكلفة الحسابية: يقدم نموذج 3B معاملات حسابية إضافية قد تحد من النشر على الأجهزة محدودة الموارد
مشاكل الاستقرار: ملاحظة تذبذب BLEU عند عتبات تأخير محددة، مما يشير إلى إمكانية تحسين استقرار التقسيم
قيود مؤشرات التقييم: الاعتماد على BLEU والتأخير الزمني كمؤشرات تلقائية، مع غياب التقييم البشري

الاتجاهات المستقبلية

التوسع إلى أزواج لغوية وأنطقة أكثر تنوعاً
تحسين كفاءة النموذج للتكيف مع النشر الفوري
إدراج التقييم البشري للتحقق من المؤشرات التلقائية
استكشاف طرق نمذجة تفضيلات أكثر تعقيداً

التقييم المتعمق

المميزات

ابتكار قوي: تطبيق أول لـ DPO على تقسيم SimulST، يفتح اتجاهات بحثية جديدة
منطقية الطريقة: فكرة محاذاة التفضيلات تتوافق مع احتياجات التطبيق العملي، وتحل المشكلة الأساسية للطرق الموجودة
تجارب شاملة: تقييم شامل على أزواج لغوية متعددة، مع نتائج متسقة ومقنعة
قيمة عملية عالية: توفير نظام متكامل من النهاية إلى النهاية مع إمكانية نشر فعلي

أوجه القصور

تحليل نظري غير كافٍ: غياب التحليل النظري العميق لسبب فعالية DPO في مهام التقسيم
بناء أزواج التفضيلات بسيط: الاعتماد فقط على BLEU والتأخير الزمني قد لا يكون شاملاً بما يكفي
مشاكل كفاءة الحوسبة: قد تصبح الأداء الفوري لنموذج 3B معاملة حاسمة في التطبيقات العملية
مؤشرات تقييم موحدة: الاعتماد الأساسي على المؤشرات التلقائية مع غياب تقييم الجودة الذاتية

التأثير

المساهمة الأكاديمية: إدخال نموذج تحسين جديد لمجال تقسيم SimulST
القيمة العملية: توفير حل تقسيم أفضل لأنظمة الترجمة الكلامية الفورية
الدلالة الإرشادية: إظهار إمكانات التعلم بالتفضيلات في مهام اتخاذ القرارات التسلسلية

السيناريوهات المناسبة

ترجمة المؤتمرات الفورية: سيناريوهات الترجمة المتزامنة التي تتطلب تأخيراً منخفضاً وجودة عالية
توليد الترجمات للبث المباشر: تطبيقات بمتطلبات عالية لجودة التقسيم
أنظمة خدمة العملاء متعددة اللغات: تفاعلات ترجمة فورية سلسة وطبيعية

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

نموذج تقسيم SHAS Tsiamas et al., 2022
نظام ترجمة SeamlessM4T Meta AI، 2023-2024
طريقة تحسين DPO Rafailov et al., 2023
معيار التقييم ACL 60/60 Salesky et al., 2023

التقييم الشامل: هذه ورقة بابتكار تقني قوي، تطبق لأول مرة تحسين التفضيلات على مهمة تقسيم SimulST، مع طريقة معقولة ونتائج تجريبية مقنعة. على الرغم من وجود مجال للتحسين في التحليل النظري وكفاءة الحوسبة، إلا أنها توفر مساهمة قيمة واتجاهات بحثية جديدة لتطور المجال.