2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

একযোগে বক্তৃতা অনুবাদে বিভাজনের জন্য DPO-সুরক্ষিত বৃহৎ ভাষা মডেল

মৌলিক তথ্য

পেপার আইডি: 2510.12195
শিরোনাম: একযোগে বক্তৃতা অনুবাদে বিভাজনের জন্য DPO-সুরক্ষিত বৃহৎ ভাষা মডেল
লেখক: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.12195

সারসংক্ষেপ

একযোগে বক্তৃতা অনুবাদ (SimulST) অনুবাদের গুণমান এবং বিলম্বের মধ্যে ভারসাম্য রক্ষার জন্য নির্ভুল বিভাজন প্রয়োজন। যদিও SHAS-এর মতো পূর্ব-প্রশিক্ষিত বিভাজন মডেলগুলি অনুমানমূলক নিয়মের চেয়ে ভাল পারফর্ম করে, তবুও সেগুলি তত্ত্বাবধানকৃত শিক্ষার উদ্দেশ্যের দ্বারা সীমাবদ্ধ এবং মানব পছন্দের সাথে সারিবদ্ধতার অভাব রয়েছে। এই পেপারটি সরাসরি পছন্দ অপ্টিমাইজেশন (DPO) প্রশিক্ষণের মাধ্যমে বৃহৎ ভাষা মডেল বিভাজন কাঠামো প্রস্তাব করে, যা পছন্দ সারিবদ্ধতার মাধ্যমে LLM-কে আরও প্রাকৃতিক বিভাজন পয়েন্ট পূর্বাভাস দিতে সক্ষম করে। ACL 60/60 কর্পাসে তিনটি ভাষা জোড়ার উপর মূল্যায়ন করা হয়েছে, SeamlessM4T v2 কে অনুবাদ মেরুদণ্ড হিসাবে ব্যবহার করে। পরীক্ষামূলক ফলাফলগুলি দেখায় যে DPO-সুরক্ষিত LLM বিভাজন নির্ভুলতায় SHAS অতিক্রম করে এবং অনুবাদের গুণমান (BLEU, COMET) এবং বিলম্ব (গড় পিছিয়ে থাকা) উভয় ক্ষেত্রেই ধারাবাহিক উন্নতি প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

একযোগে বক্তৃতা অনুবাদ (SimulST) এর মূল চ্যালেঞ্জ হল অনুবাদের গুণমান নিশ্চিত করার সাথে সাথে বিলম্ব কমানো, যার জন্য সিস্টেমটি সঠিকভাবে সিদ্ধান্ত নিতে হবে যে কখন ইনপুট স্ট্রিম বিভক্ত করতে হবে এবং অনুবাদ আউটপুট করতে হবে। অনুপযুক্ত বিভাজন অসম্পূর্ণ বা অপ্রয়োজনীয় অনুবাদ ইউনিটের দিকে পরিচালিত করে, যা নির্ভুলতা এবং ব্যবহারকারীর অভিজ্ঞতাকে গুরুতরভাবে প্রভাবিত করে।

সমস্যার গুরুত্ব

বিভাজন ব্যবহারিক SimulST সিস্টেমের একটি মূল উপাদান হিসাবে বিবেচিত হয়, বিশেষত স্ট্রিমিং SimulST-তে, যেখানে অনুপযুক্ত সীমানা অনুবাদের গুণমান এবং বিলম্বকে উল্লেখযোগ্যভাবে ক্ষতিগ্রস্ত করে। ঐতিহ্যবাহী অনুমানমূলক নিয়মগুলি (যেমন বিরাম চিহ্ন পূর্বাভাস, নির্দিষ্ট দৈর্ঘ্যের খণ্ড) সহজ এবং দক্ষ হলেও, প্রায়শই বৈচিত্র্যময় ভাষাগত কাঠামো এবং কথার শৈলীর সাথে খাপ খাইয়ে নিতে পারে না।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

অনুমানমূলক পদ্ধতি: নির্দিষ্ট wait-k কৌশলের মতো পদ্ধতিগুলি ভাষাগত পরিবর্তনের সাথে খাপ খাইয়ে নেওয়ার ক্ষেত্রে সীমাবদ্ধ
পূর্ব-প্রশিক্ষিত মডেল: SHAS-এর মতো মডেলগুলি অনুমানমূলক পদ্ধতির চেয়ে আরও শক্তিশালী হলেও, তবুও তত্ত্বাবধানকৃত শিক্ষার উদ্দেশ্যের দ্বারা সীমাবদ্ধ এবং শুধুমাত্র শব্দ বৈশিষ্ট্যের উপর নির্ভর করে
মানব পছন্দ সারিবদ্ধতার অভাব: বিদ্যমান পদ্ধতিগুলি একযোগে মেশিন অনুবাদ কর্মক্ষমতা সারিবদ্ধতা অন্তর্ভুক্ত করে না, যা প্রাকৃতিক এবং সময়োপযোগী অনুবাদের জন্য গুরুত্বপূর্ণ

গবেষণা প্রেরণা

বৃহৎ ভাষা মডেলগুলি বক্তৃতা এবং অনুবাদ কাজে উচ্চতর সাধারণীকরণ ক্ষমতা প্রদর্শন করে, কিন্তু SimulST বিভাজনে তাদের সম্ভাবনা এখনও সম্পূর্ণভাবে অন্বেষণ করা হয়নি। সরাসরি পছন্দ অপ্টিমাইজেশন (DPO) মানব প্রতিক্রিয়ার সাথে মডেলকে সারিবদ্ধ করার একটি প্রতিশ্রুতিশীল দিক প্রদান করে, যা তত্ত্বাবধানকৃত প্রশিক্ষণের বাইরে পছন্দ-নির্দেশিত সিদ্ধান্ত সক্ষম করে।

মূল অবদান

DPO অপ্টিমাইজেশনের উপর ভিত্তি করে LLM বিভাজন কাঠামো প্রস্তাব করা: প্রথমবারের মতো পছন্দ অপ্টিমাইজেশন SimulST বিভাজন কাজে প্রয়োগ করা হয়েছে
ব্যাপক পরীক্ষামূলক মূল্যায়ন তৈরি করা: ACL 60/60 ডেটাসেটে তিনটি ভাষা জোড়ার উপর মূল্যায়ন, SeamlessM4T v2 কে অনুবাদ মেরুদণ্ড হিসাবে ব্যবহার করে
পছন্দ-সুরক্ষিত LLM-এর উচ্চতর কর্মক্ষমতা প্রমাণ করা: পূর্ব-প্রশিক্ষিত বিভাজন মডেল SHAS-এর তুলনায়, অনুবাদের গুণমান এবং বিলম্ব উভয় ক্ষেত্রেই উন্নতি
সম্পূর্ণ এন্ড-টু-এন্ড সিস্টেম প্রদান করা: বিভাজন মডিউলকে অনুবাদ সিস্টেমের সাথে একীভূত করে, রিয়েল-টাইম একযোগে বক্তৃতা অনুবাদ বাস্তবায়ন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

SimulST-তে বিভাজন কাজকে আগত বক্তৃতা স্ট্রিমে বাক্যের বিরতি পূর্বাভাস দেওয়ার কাজ হিসাবে সংজ্ঞায়িত করা হয়, যার লক্ষ্য অনুবাদের গুণমান এবং বিলম্যের মধ্যে ভারসাম্য রক্ষা করা। স্ট্রিমিং ইনপুট বক্তৃতা ক্রম x দেওয়া হলে, মডেল বিভাজন সিদ্ধান্ত ক্রম {s₁, s₂, ..., sₜ} উৎপাদন করে, যেখানে প্রতিটি sₜ পূর্বাভাসিত সীমানা অবস্থান প্রতিনিধিত্ব করে। দ্বিমুখী শ্রেণীবিভাগ পদ্ধতির বিপরীতে, এই পেপারটি বিভাজনকে পরবর্তী বিরতি পূর্বাভাস সমস্যা হিসাবে সংজ্ঞায়িত করে।

মডেল স্থাপত্য

মৌলিক LLM

Qwen2.5-Omni-3B কে বিভাজন মেরুদণ্ড হিসাবে গ্রহণ করা হয়েছে, যা স্ট্রিমিং পদ্ধতিতে চলে এবং বক্তৃতা ইনপুটে স্লাইডিং উইন্ডো প্রক্রিয়া ব্যবহার করে। মডেল সরাসরি অডিওর খণ্ড-স্তরের শব্দ বৈশিষ্ট্য প্রক্রিয়া করে, টোকেন-স্তরের ASR প্রতিলিপির উপর ভিত্তি করে নয়, বর্তমান বক্তৃতা প্রসঙ্গ দেওয়া হলে ক্রমবর্ধমানভাবে পরবর্তী বিভাজন পয়েন্ট পূর্বাভাস দেয়।

পছন্দ জোড়া নির্মাণ

মানব সারিবদ্ধতা সংকেত একীভূত করার জন্য, বিভাজন প্রার্থীদের পছন্দ জোড়া তৈরি করা হয়:

একাধিক অনুমানমূলক এবং পূর্ব-প্রশিক্ষিত কৌশল (VAD, নির্দিষ্ট দৈর্ঘ্যের বিভাজন, SHAS আউটপুট) একত্রিত করে প্রার্থী সীমানা তৈরি করা হয়
প্রতিটি প্রার্থী বিভাজন মূল্যায়ন করতে অনুবাদ গুণমান (BLEU) এবং বিলম্ব (গড় পিছিয়ে থাকা) ব্যবহার করা হয়
এই মেট্রিক্স থেকে র‍্যাঙ্কিং সংকেত প্রাপ্ত করা হয়, ভাল পারফরম্যান্সের বিভাজন পছন্দের প্রার্থী হিসাবে কাজ করে
মোট প্রায় ৮,০০০ পছন্দ জোড়া প্রশিক্ষণের জন্য প্রাপ্ত হয়

DPO প্রশিক্ষণ

সরাসরি পছন্দ অপ্টিমাইজেশন LLM সূক্ষ্ম-সুর করতে ব্যবহৃত হয়:

ইনপুট উচ্চারণ x দেওয়া হলে, একাধিক প্রার্থী বিভাজন উৎপাদন করা হয়, প্রতিটি বিভাজন y ইনপুট স্ট্রিমে সীমানা সূচকের ক্রম হিসাবে প্রতিনিধিত্ব করা হয়। পছন্দ জোড়া (y_pref, y_dispref) তৈরি করা হয়, যেখানে y_pref উন্নত অনুবাদ গুণমান এবং কম বিলম্য উৎপাদন করে এমন পছন্দের বিভাজন প্রতিনিধিত্ব করে।

DPO উদ্দেশ্য ফাংশন হল:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

যেখানে π_θ LLM-দ্বারা প্ররোচিত নীতি প্রতিনিধিত্ব করে, β স্কেলিং হাইপারপ্যারামিটার। প্রশিক্ষণ ৫টি যুগের জন্য পরিচালিত হয়, মান শিক্ষার হার সময়সূচী ব্যবহার করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

পছন্দ সারিবদ্ধতা প্রক্রিয়া: প্রথমবারের মতো DPO বিভাজন কাজে প্রয়োগ করা হয়েছে, মানব পছন্দ সংকেতের মাধ্যমে মডেল শিক্ষা নির্দেশনা দেওয়া হয়
এন্ড-টু-এন্ড অপ্টিমাইজেশন: অনুবাদ গুণমান এবং বিলম্যের সমন্বিত উদ্দেশ্য সরাসরি অপ্টিমাইজ করা হয়, শুধুমাত্র শব্দ বৈশিষ্ট্যের উপর নির্ভর করে নয়
স্ট্রিমিং প্রক্রিয়াকরণ স্থাপত্য: রিয়েল-টাইম প্রক্রিয়াকরণের জন্য উপযুক্ত স্লাইডিং উইন্ডো প্রক্রিয়া ডিজাইন করা হয়েছে
বহু-মোডাল সংমিশ্রণ: শব্দ বৈশিষ্ট্য এবং ভাষা মডেল ক্ষমতা বিভাজন সিদ্ধান্তের জন্য একত্রিত করা হয়

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটা: CoVoST2 কর্পাস, DPO প্রশিক্ষণের জন্য পছন্দ জোড়া তৈরি করতে ব্যবহৃত
মূল্যায়ন ডেটা: ACL 60/60 পরীক্ষা সেট, ACL 2022 এর প্রযুক্তিগত বক্তৃতা অন্তর্ভুক্ত
ভাষা জোড়া: ইংরেজি→জাপানি, ইংরেজি→চীনা, ইংরেজি→জার্মান

মূল্যায়ন মেট্রিক্স

অনুবাদ গুণমান: BLEU স্কোর
বিলম্ব: স্ট্রিমিং LAAL (স্ট্রিমিং লং এভারেজ ল্যাগিং), প্রকৃত স্ট্রিমিং অবস্থার অধীনে সিস্টেম বিলম্ব প্রতিফলিত করে

তুলনামূলক পদ্ধতি

IWSLT বেসলাইন: নির্দিষ্ট দৈর্ঘ্যের খণ্ড এবং VAD-ভিত্তিক বিভাজন
SHAS: পুনরায় বাস্তবায়িত পূর্ব-প্রশিক্ষিত বিভাজন মডেল

বাস্তবায়ন বিবরণ

মডেল: Qwen2.5-Omni-3B বিভাজন মেরুদণ্ড হিসাবে
প্রশিক্ষণ সেটিংস: ৫টি যুগ, ব্যাচ আকার ১, AdamW অপ্টিমাইজার, শিক্ষার হার ৫×১০⁻⁵
হার্ডওয়্যার: ৪টি NVIDIA A100 GPU
অনুমান সেটিংস: স্লাইডিং উইন্ডো আকার ৪ সেকেন্ড, লাফ আকার ২ সেকেন্ড

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পদ্ধতি	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
আমাদের (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

নোট: বিন্যাস হল BLEU(↑)/বিলম্ব(ms, ↓)

মূল আবিষ্কার

সামঞ্জস্যপূর্ণ উন্নতি: তিনটি অনুবাদ দিকেই অনুমানমূলক বেসলাইন এবং SHAS মডেল অতিক্রম করে
গুণমান বৃদ্ধি উল্লেখযোগ্য: SHAS-এর তুলনায় গড়ে প্রায় ১.৫ BLEU বৃদ্ধি, বিলম্ব মাত্র প্রায় ১০০ মিলিসেকেন্ড বৃদ্ধি
ভাষা জোড়ার পার্থক্য: En→De সর্বোচ্চ BLEU অর্জন করে, En→Zh মধ্যম বৃদ্ধি প্রদর্শন করে, En→Ja এখনও সবচেয়ে চ্যালেঞ্জিং

বিলম্ব-গুণমান ট্রেড-অফ বিশ্লেষণ

বিলম্ব-গুণমান ট্রেড-অফ বক্ররেখা বিশ্লেষণ দেখায় যে DPO-প্রশিক্ষিত LLM সম্পূর্ণ অপারেশনাল পরিসরে অন্যান্য বিভাজন কৌশলের চেয়ে ধারাবাহিকভাবে উন্নত, অনুরূপ বা কম বিলম্যে উচ্চতর BLEU স্কোর অর্জন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

DPO কার্যকারিতা: পছন্দ অপ্টিমাইজেশন মডেলকে মানব পছন্দের সাথে সারিবদ্ধ বিভাজন শিখতে সক্ষম করে, আরও প্রাকৃতিক সীমানা এবং উন্নত গুণমান-বিলম্ব ট্রেড-অফ উৎপাদন করে
কর্মক্ষমতা বৃদ্ধি: প্রায় ৩ সেকেন্ড বিলম্যে, তিনটি ভাষা দিকেই SHAS-এর তুলনায় ধারাবাহিক উন্নতি
ব্যবহারিক মূল্য: রিয়েল-টাইম একযোগে ব্যাখ্যায় পছন্দ-সুরক্ষিত LLM-এর সম্ভাবনা প্রমাণ করে

সীমাবদ্ধতা

মূল্যায়ন পরিসীমা সীমিত: শুধুমাত্র তিনটি ভাষা জোড়ায় সীমাবদ্ধ, সাধারণীকরণ যাচাই করতে আরও বৈচিত্র্যময় দিক প্রয়োজন
গণনামূলক ওভারহেড: ৩B প্যারামিটার LLM অতিরিক্ত গণনামূলক ওভারহেড প্রবর্তন করে, যা সম্পদ-সীমিত ডিভাইসে স্থাপনা সীমাবদ্ধ করতে পারে
স্থিতিশীলতা সমস্যা: নির্দিষ্ট বিলম্ব থ্রেশহোল্ডে BLEU ওঠানামা পর্যবেক্ষণ করা হয়েছে, যা বিভাজন স্থিতিশীলতা এখনও উন্নত করা যায় তা নির্দেশ করে
মূল্যায়ন মেট্রিক্সের সীমাবদ্ধতা: BLEU এবং বিলম্যের উপর স্বয়ংক্রিয় মেট্রিক্স নির্ভর করে, মানব মূল্যায়নের অভাব

ভবিষ্যত দিকনির্দেশনা

আরও ভাষা জোড়া এবং ডোমেইনে সম্প্রসারণ
রিয়েল-টাইম স্থাপনার জন্য মডেল দক্ষতা অপ্টিমাইজ করা
স্বয়ংক্রিয় মেট্রিক্স যাচাই করতে মানব মূল্যায়ন প্রবর্তন করা
আরও জটিল পছন্দ মডেলিং পদ্ধতি অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো DPO SimulST বিভাজনে প্রয়োগ করা হয়েছে, নতুন গবেষণা দিক খুলে দেয়
যুক্তিসঙ্গত পদ্ধতি: পছন্দ সারিবদ্ধতার ধারণা প্রকৃত প্রয়োগের প্রয়োজনের সাথে সামঞ্জস্যপূর্ণ, বিদ্যমান পদ্ধতির মূল সমস্যা সমাধান করে
পর্যাপ্ত পরীক্ষা: একাধিক ভাষা জোড়ায় ব্যাপক মূল্যায়ন, সামঞ্জস্যপূর্ণ এবং প্রভাবশালী ফলাফল
উচ্চ ব্যবহারিক মূল্য: সম্পূর্ণ এন্ড-টু-এন্ড সিস্টেম প্রদান করে, প্রকৃত স্থাপনার সম্ভাবনা রয়েছে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কেন DPO বিভাজন কাজে কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব
সহজ পছন্দ জোড়া নির্মাণ: শুধুমাত্র BLEU এবং বিলম্যের উপর ভিত্তি করে পছন্দ জোড়া তৈরি করা হয়, যা সম্পূর্ণ নাও হতে পারে
গণনামূলক দক্ষতা সমস্যা: ৩B প্যারামিটার মডেলের রিয়েল-টাইম কর্মক্ষমতা প্রকৃত প্রয়োগের বোতলজনক হতে পারে
একক মূল্যায়ন মেট্রিক্স: প্রধানত স্বয়ংক্রিয় মেট্রিক্সের উপর নির্ভর করে, বিষয়গত গুণমান মূল্যায়নের অভাব

প্রভাব

একাডেমিক অবদান: SimulST বিভাজন ক্ষেত্রে নতুন অপ্টিমাইজেশন প্যারাডাইম প্রবর্তন করে
ব্যবহারিক মূল্য: রিয়েল-টাইম বক্তৃতা অনুবাদ সিস্টেমের জন্য উন্নত বিভাজন সমাধান প্রদান করে
অনুপ্রেরণামূলক অর্থ: ক্রম সিদ্ধান্ত কাজে পছন্দ শিক্ষার প্রয়োগ সম্ভাবনা প্রদর্শন করে

প্রযোজ্য দৃশ্যকল্প

রিয়েল-টাইম সম্মেলন অনুবাদ: কম বিলম্য উচ্চ গুণমানের একযোগে অনুবাদ প্রয়োজন এমন দৃশ্যকল্প
লাইভ সাবটাইটেল প্রজন্ম: বিভাজন গুণমানের প্রতি উচ্চ প্রয়োজনীয়তা সহ প্রয়োগ
বহুভাষিক গ্রাহক সেবা সিস্টেম: প্রাকৃতিক প্রবাহিত রিয়েল-টাইম অনুবাদ মিথস্ক্রিয়া প্রয়োজন

সংদর্ভ

পেপারটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

SHAS বিভাজন মডেল Tsiamas et al., 2022
SeamlessM4T অনুবাদ সিস্টেম Meta AI, 2023-2024
DPO অপ্টিমাইজেশন পদ্ধতি Rafailov et al., 2023
ACL 60/60 মূল্যায়ন বেঞ্চমার্ক Salesky et al., 2023

সামগ্রিক মূল্যায়ন: এটি একটি প্রযুক্তিগত উদ্ভাবনে সমৃদ্ধ পেপার, যা প্রথমবারের মতো পছন্দ অপ্টিমাইজেশন SimulST বিভাজন কাজে প্রবর্তন করে, যুক্তিসঙ্গত পদ্ধতি এবং প্রভাবশালী পরীক্ষামূলক ফলাফল সহ। যদিও তাত্ত্বিক বিশ্লেষণ এবং গণনামূলক দক্ষতার ক্ষেত্রে উন্নতির অবকাশ রয়েছে, তবুও এটি ক্ষেত্রের উন্নয়নে মূল্যবান অবদান এবং নতুন গবেষণা দিকনির্দেশনা প্রদান করে।