2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic

MTP-S2UT: মাল্টি-টোকেন প্রেডিকশনের মাধ্যমে স্পীচ-টু-স্পীচ ট্রান্সলেশন গুণমান উন্নয়ন

মৌলিক তথ্য

  • পেপার আইডি: 2510.10003
  • শিরোনাম: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
  • লেখক: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
  • শ্রেণীবিভাগ: cs.CL, cs.SD, eess.AS
  • প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2510.10003

সারসংক্ষেপ

বর্তমান সরাসরি স্পীচ-টু-স্পীচ ট্রান্সলেশন পদ্ধতিগুলি প্রধানত স্পীচ টোকেনকে মধ্যবর্তী প্রতিনিধিত্ব হিসাবে ব্যবহার করে। তবে, একক স্পীচ টোকেনের শব্দার্থিক ঘনত্ব কম, এবং সাধারণত সম্পূর্ণ শব্দার্থিক একক প্রকাশ করার জন্য একাধিক টোকেন প্রয়োজন। এই সীমাবদ্ধতা সমাধানের জন্য, এই পেপারটি মাল্টি-টোকেন প্রেডিকশন (MTP) ক্ষতি স্পীচ-টু-ইউনিট ট্রান্সলেশন (S2UT) মডেলে প্রবর্তন করে, যা মডেলকে প্রতিটি অবস্থানে একাধিক পরবর্তী টোকেন পূর্বাভাস দিতে সক্ষম করে, যার ফলে আরও সম্পূর্ণ শব্দার্থিক ক্যাপচার এবং প্রতিটি অবস্থানের তথ্য ঘনত্ব বৃদ্ধি পায়। প্রাথমিক MTP বাস্তবায়ন চূড়ান্ত স্তরে ক্ষতি প্রয়োগ করে, যা আউটপুট প্রতিনিধিত্ব উন্নত করে কিন্তু তথ্য সমৃদ্ধকরণ খুব দেরিতে শুরু হয়। এই পেপারটি অনুমান করে যে তথ্য সমৃদ্ধকরণ প্রক্রিয়াটি মধ্যবর্তী স্তরে এগিয়ে নিয়ে যাওয়া আরও প্রাথমিক এবং আরও কার্যকর লুকানো প্রতিনিধিত্ব বৃদ্ধি অর্জন করতে পারে। অতএব, MTP-S2UT ক্ষতি প্রস্তাব করা হয়েছে, যা CTC ক্ষতি গণনা করার লুকানো প্রতিনিধিত্ব স্তরে MTP ক্ষতি প্রয়োগ করে। পরীক্ষা দেখায় যে সমস্ত MTP ক্ষতি বৈকল্পিক S2UT ট্রান্সলেশন গুণমান ক্রমাগত উন্নত করে, যেখানে MTP-S2UT সর্বোত্তম কর্মক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

সরাসরি স্পীচ-টু-স্পীচ ট্রান্সলেশন যে প্রধান চ্যালেঞ্জের সম্মুখীন হয় তা হল স্পীচ টোকেনের শব্দার্থিক বিরলতা। পাঠ্য টোকেনের তুলনায়, স্পীচ টোকেনের শব্দার্থিক প্রতিনিধিত্ব আরও বিরল, সাধারণত একক শব্দার্থিক ধারণা প্রকাশ করার জন্য একাধিক স্পীচ টোকেন প্রয়োজন, যা উচ্চতর পূর্বাভাস এন্ট্রপি এবং মডেলিং জটিলতার দিকে পরিচালিত করে।

সমস্যার গুরুত্ব

১. ব্যবহারিক প্রয়োগের চাহিদা: স্পীচ-টু-স্পীচ ট্রান্সলেশন আন্তর্জাতিক সম্মেলন, আন্তঃজাতীয় যোগাযোগ, পর্যটন এবং অন্যান্য পরিস্থিতিতে ব্যাপক প্রয়োগের সম্ভাবনা রয়েছে ২. প্রযুক্তিগত বাধা: বর্তমান পদ্ধতিগুলি শব্দার্থিক প্রতিনিধিত্ব ঘনত্ব এবং পূর্বাভাস নির্ভুলতার ক্ষেত্রে অপর্যাপ্ত ३. মডেল দক্ষতা: স্পীচ টোকেনের বিরলতা মডেলের পূর্বাভাস অনিশ্চয়তা বৃদ্ধি করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. কম শব্দার্থিক ঘনত্ব: একক স্পীচ টোকেন সম্পূর্ণ শব্দার্থিক তথ্য বহন করতে পারে না २. উচ্চ পূর্বাভাস এন্ট্রপি: একক ধারণা প্রকাশ করার জন্য একাধিক টোকেন পূর্বাভাস জটিলতা বৃদ্ধি করে ३. বিলম্বিত তথ্য সংমিশ্রণ: বিদ্যমান MTP পদ্ধতিগুলি শুধুমাত্র চূড়ান্ত স্তরে প্রয়োগ করা হয়, প্রাথমিক তথ্য সংমিশ্রণের সুযোগ হারায়

গবেষণা প্রেরণা

স্পীচ টোকেনের সম্পূর্ণ শব্দার্থিক প্রকাশের জন্য একাধিক টোকেনের সহযোগিতা প্রয়োজন এই পর্যবেক্ষণের উপর ভিত্তি করে, এই পেপারটি মাল্টি-টোকেন পূর্বাভাসের মাধ্যমে শব্দার্থিক ঘনত্ব বৃদ্ধি এবং এই বৃদ্ধিকে মধ্যবর্তী স্তরে এগিয়ে নিয়ে যাওয়ার প্রস্তাব করে যাতে আরও কার্যকর প্রতিনিধিত্ব শিক্ষা অর্জন করা যায়।

মূল অবদান

१. প্রথমবারের মতো S2UT ফ্রেমওয়ার্কে MTP ক্ষতি প্রবর্তন: স্পীচ-টু-স্পীচ ট্রান্সলেশন কাজে মাল্টি-টোকেন পূর্বাভাস প্রযুক্তি পদ্ধতিগতভাবে প্রয়োগ করা २. MTP-S2UT ক্ষতি প্রস্তাব: উদ্ভাবনীভাবে CTC লুকানো স্তরে MTP ক্ষতি প্রয়োগ করে আরও প্রাথমিক তথ্য সংমিশ্রণ অর্জন করা ३. ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক স্পীচ টোকেনাইজার এবং ভাষা জোড়ায় পদ্ধতির কার্যকারিতা যাচাই করা ४. গভীর প্রক্রিয়া বিশ্লেষণ: CTC ডিকোডিং বিশ্লেষণ এবং এন্ট্রপি বিশ্লেষণের মাধ্যমে MTP ক্ষতির কাজের প্রক্রিয়া প্রকাশ করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

স্পীচ-টু-স্পীচ ট্রান্সলেশন কাজ চতুর্মুখী ডেটাসেট D={(S,X,Y,T)}D = \{(S,X,Y,T)\} হিসাবে সংজ্ঞায়িত করা হয়েছে, যেখানে:

  • S=(s1,,sS)S = (s_1, \cdots, s_{|S|}): উৎস ভাষার স্পীচ
  • X=(x1,,xX)X = (x_1, \cdots, x_{|X|}): উৎস ভাষার পাঠ্য
  • Y=(y1,,yY)Y = (y_1, \cdots, y_{|Y|}): লক্ষ্য ভাষার পাঠ্য
  • T=(t1,,tT)T = (t_1, \cdots, t_{|T|}): লক্ষ্য ভাষার স্পীচ

মডেল আর্কিটেকচার

S2UT মৌলিক আর্কিটেকচার

S2UT মডেল তিনটি প্রধান উপাদান নিয়ে গঠিত: १. স্পীচ টোকেনাইজার: ক্রমাগত লক্ষ্য স্পীচকে পৃথক স্পীচ টোকেন ক্রম U=(u1,,uU,e)U = (u_1, \cdots, u_{|U|}, e) এ পরিমাণ করে २. সিকোয়েন্স-টু-সিকোয়েন্স মডেল: উৎস স্পীচকে লক্ষ্য স্পীচ টোকেনে রূপান্তরিত করে ३. ডিটোকেনাইজার: স্পীচ টোকেন থেকে লক্ষ্য স্পীচ সংশ্লেষণ করে

মডেলের মূল গণনা প্রক্রিয়া:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

MTP ক্ষতি বৈকল্পিক

এই পেপারটি চারটি MTP ক্ষতি বৈকল্পিক বাস্তবায়ন করেছে:

१. MTP-Parallel-Linear N টি স্বাধীন রৈখিক মাথা ব্যবহার করে:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

२. MTP-DeepSeek-V3 শিক্ষক-বাধ্যতা এবং ট্রান্সফর্মার ব্লক গ্রহণ করে:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

३. MTP-VocalNet শিক্ষক-বাধ্যতা ইনপুট অপসারণ করে:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

MTP-S2UT মূল উদ্ভাবন

মূল অন্তর্দৃষ্টি: CTC লুকানো স্তর HdecmH^m_{dec} একই সাথে পাঠ্য এবং স্পীচ মোডালিটি তথ্য ধারণ করে, এটি MTP ক্ষতি প্রয়োগের আদর্শ স্থান।

বাস্তবায়ন পদ্ধতি:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

ডিজাইন সুবিধা: १. আরও প্রাথমিক তথ্য সংমিশ্রণ: চূড়ান্ত স্তরের পরিবর্তে মধ্যবর্তী স্তরে MTP ক্ষতি প্রয়োগ করা २. ক্রস-মোডালিটি তথ্য ব্যবহার: CTC স্তরের পাঠ্য-স্পীচ সংমিশ্রণ প্রতিনিধিত্ব সম্পূর্ণভাবে ব্যবহার করা ३. শব্দার্থিক এগিয়ে নিয়ে যাওয়া: ক্রমে শব্দার্থিক তথ্যের এগিয়ে গতিবিধি প্রচার করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

CVSS-C বেঞ্চমার্ক ডেটাসেট ব্যবহার করা হয়েছে, যা একটি বড় আকারের স্পীচ-টু-স্পীচ ট্রান্সলেশন ডেটাসেট:

  • ভাষা জোড়া: ফ্রেঞ্চ→ইংরেজি (Fr→En) এবং স্প্যানিশ→ইংরেজি (Es→En)
  • পূর্ব-প্রক্রিয়াকরণ: ৮০-মাত্রার মেল-ফিল্টারব্যাংক বৈশিষ্ট্য, বৈশ্বিক সেপস্ট্রাল গড় এবং বৈচিত্র্য স্বাভাবিকীকরণ

স্পীচ টোকেনাইজার

তিনটি টোকেনাইজার মূল্যায়ন করা হয়েছে: १. অপর্যবেক্ষিত টোকেনাইজার: k-মানে ক্লাস্টারিং (k=1000) ভিত্তিক mHuBERT বৈশিষ্ট্য २. S3 টোকেনাইজার: পর্যবেক্ষিত টোকেনাইজার, কোডবুক আকার ৬৫৬१ ३. GLM-4-Voice-Tokenizer: পর্যবেক্ষিত টোকেনাইজার, কোডবুক আকার १६३८४

মডেল কনফিগারেশন

  • এনকোডার: १२-স্তর Conformer, লুকানো মাত্রা २५६
  • ডিকোডার: ६-স্তর Transformer, লুকানো মাত্রা ५१२
  • CTC ডিকোডার: তৃতীয় স্তর ডিকোডারের সাথে সংযুক্ত, ওজন १.६
  • MTP কনফিগারেশন: প্রতিটি স্পীচ টোকেনের পরবর্তী N=७ টোকেন পূর্বাভাস, MTP ক্ষতি ওজন १.०

মূল্যায়ন সূচক

ASR-BLEU ব্যবহার করে ট্রান্সলেশন গুণমান মূল্যায়ন করা হয়েছে: १. সংশ্লেষিত স্পীচকে পাঠ্যে রূপান্তরিত করতে ASR মডেল ব্যবহার করা २. রূপান্তরিত পাঠ্য এবং রেফারেন্স পাঠ্যের BLEU স্কোর গণনা করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

Fr→En কাজের ফলাফল

টোকেনাইজারমডেললোভীBeam5Beam10
S3S2UT17.7918.9819.15
S3+ MTP-S2UT24.3625.1425.16
HuBERTS2UT22.0223.1123.33
HuBERT+ MTP-S2UT23.5924.5024.53
GLM-4S2UT21.6223.0823.26
GLM-4+ MTP-S2UT23.9725.2225.26

Es→En কাজের ফলাফল

মডেললোভীBeam5Beam10
S2UT16.6717.9918.18
+ MTP-S2UT21.8722.5922.83

মূল আবিষ্কার

१. সামঞ্জস্যপূর্ণ উন্নতি: সমস্ত MTP বৈকল্পিক ট্রান্সলেশন গুণমান উন্নত করতে পারে २. সর্বোত্তম কর্মক্ষমতা: MTP-S2UT সমস্ত সেটিংসে সর্বোত্তম ফলাফল অর্জন করে ३. উল্লেখযোগ্য উন্নতি: S3 টোকেনাইজারে লোভী অনুসন্ধান ASR-BLEU १७.७९ থেকে २४.३६ এ উন্নীত হয়েছে (+३७%)

অপসারণ পরীক্ষা

CTC ডিকোডিং এগিয়ে অফসেট বিশ্লেষণ

CTC লুকানো অবস্থার ডিকোডিং ফলাফল বিশ্লেষণের মাধ্যমে আবিষ্কৃত:

  • MTP প্রশিক্ষিত মডেল NTP এর তুলনায় পাঠ্য টোকেনের এগিয়ে অফসেট প্রদর্শন করে
  • পাঠ্য টোকেনের প্রথম উপস্থিতির গড় আপেক্ষিক অবস্থান উল্লেখযোগ্যভাবে এগিয়ে যায়
মডেলS3HuBERTGLM-4
S2UT51.011%49.628%50.363%
MTP-S2UT47.382%44.561%43.889%

স্পীচ টোকেন অনিশ্চয়তা বিশ্লেষণ

এন্ট্রপি বিশ্লেষণের মাধ্যমে আবিষ্কৃত:

  • সমস্ত MTP বৈকল্পিক স্পীচ টোকেন পূর্বাভাসের অনিশ্চয়তা হ্রাস করে
  • MTP-S2UT সবচেয়ে উল্লেখযোগ্য অনিশ্চয়তা হ্রাস প্রদর্শন করে
  • কম এন্ট্রপি অঞ্চল ফ্রিকোয়েন্সি বৃদ্ধি পায়, উচ্চ এন্ট্রপি অঞ্চল ফ্রিকোয়েন্সি হ্রাস পায়

সম্পর্কিত কাজ

স্পীচ-টু-স্পীচ ট্রান্সলেশন

  • সরাসরি পদ্ধতি: মধ্যবর্তী প্রতিনিধিত্ব হিসাবে পৃথক স্পীচ ইউনিট ব্যবহার করা
  • প্রতিনিধিত্বমূলক আর্কিটেকচার: S2UT মডেল এবং এর বৈকল্পিক (UnitY, SeamlessM4T ইত্যাদি)
  • প্রযুক্তিগত চ্যালেঞ্জ: স্পীচ টোকেনের শব্দার্থিক বিরলতা এবং পূর্বাভাস জটিলতা

মাল্টি-টোকেন পূর্বাভাস

  • উৎপত্তি: প্রাথমিকভাবে বড় ভাষা মডেলের সহায়ক কাজে ব্যবহৃত
  • উন্নয়ন: DeepSeek-V3 এর উন্নতি এবং স্পীচ কথোপকথনে VocalNet এর প্রয়োগ
  • সুবিধা: প্রতিনিধিত্ব ক্ষমতা বৃদ্ধি, অনুমান ত্বরণ, স্থানীয় প্যাটার্ন ক্যাপচার

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. MTP ক্ষতির কার্যকারিতা: S2UT ফ্রেমওয়ার্কে MTP ক্ষতি প্রবর্তন ট্রান্সলেশন গুণমান উল্লেখযোগ্যভাবে উন্নত করতে পারে २. প্রাথমিক সংমিশ্রণের সুবিধা: MTP ক্ষতিকে চূড়ান্ত স্তরের পরিবর্তে মধ্যবর্তী CTC স্তরে প্রয়োগ করা আরও কার্যকর ३. প্রক্রিয়া অন্তর্দৃষ্টি: MTP শব্দার্থিক তথ্য এগিয়ে নিয়ে যায় এবং পূর্বাভাস অনিশ্চয়তা হ্রাস করে

সীমাবদ্ধতা

१. গণনা ওভারহেড: MTP প্রশিক্ষণ অতিরিক্ত প্যারামিটার এবং গণনা জটিলতা প্রবর্তন করে २. ভাষা কভারেজ: পরীক্ষা শুধুমাত্র ইউরোপীয় ভাষা জোড়ায় যাচাই করা হয়েছে, আরও ব্যাপক ভাষা যাচাইকরণের অভাব ३. তাত্ত্বিক বিশ্লেষণ: MTP কাজের প্রক্রিয়ার তাত্ত্বিক বোঝাপড়া এখনও গভীর করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. আরও বেশি ভাষা জোড়ায় সম্প্রসারণ: বিভিন্ন ভাষা পরিবারে পদ্ধতির কার্যকারিতা যাচাই করা २. গণনা দক্ষতা অপ্টিমাইজ করা: MTP প্রশিক্ষণের গণনা ওভারহেড হ্রাস করা ३. তাত্ত্বিক মডেলিং: স্পীচ ট্রান্সলেশনে MTP এর কাজের প্রক্রিয়া গভীরভাবে বোঝা

গভীর মূল্যায়ন

শক্তি

१. শক্তিশালী উদ্ভাবনী: স্পীচ-টু-স্পীচ ট্রান্সলেশনে প্রথমবারের মতো MTP পদ্ধতিগতভাবে প্রবর্তন করা २. যুক্তিসঙ্গত পদ্ধতি: MTP-S2UT ডিজাইন CTC স্তরের বৈশিষ্ট্যের গভীর বোঝাপড়ার উপর ভিত্তি করে ३. ব্যাপক পরীক্ষা: একাধিক টোকেনাইজার, একাধিক ভাষা জোড়া, একাধিক ডিকোডিং কৌশলের সম্পূর্ণ যাচাইকরণ ४. গভীর বিশ্লেষণ: CTC ডিকোডিং এবং এন্ট্রপি বিশ্লেষণের মাধ্যমে পদ্ধতির কাজের প্রক্রিয়া প্রকাশ করা ५. উল্লেখযোগ্য ফলাফল: সমস্ত সেটিংসে সামঞ্জস্যপূর্ণ এবং উল্লেখযোগ্য উন্নতি অর্জন করা

অপূর্ণতা

१. ভাষা সীমাবদ্ধতা: শুধুমাত্র ইউরোপীয় ভাষা জোড়ায় যাচাই করা হয়েছে, সাধারণীকরণ ক্ষমতা যাচাই করা প্রয়োজন २. গণনা বিশ্লেষণ অনুপস্থিত: MTP প্রশিক্ষণের গণনা ওভারহেড বিস্তারিত বিশ্লেষণ করা হয়নি ३. অপর্যাপ্ত তুলনা: অন্যান্য স্পীচ ট্রান্সলেশন উন্নতি পদ্ধতির সাথে তুলনার অভাব ४. তাত্ত্বিক গভীরতা: MTP কাজের প্রক্রিয়ার তাত্ত্বিক বিশ্লেষণ এখনও যথেষ্ট গভীর নয়

প্রভাব

१. একাডেমিক মূল্য: স্পীচ ট্রান্সলেশন ক্ষেত্রে নতুন উন্নতির চিন্তাভাবনা প্রদান করা २. ব্যবহারিক মূল্য: উল্লেখযোগ্য কর্মক্ষমতা উন্নতি এটিকে ব্যবহারিক প্রয়োগের সম্ভাবনা দেয় ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতির বর্ণনা স্পষ্ট, পরীক্ষামূলক সেটআপ বিস্তারিত ४. অনুপ্রেরণামূলক: মাল্টি-মোডালিটি ক্রম মডেলিংয়ের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করা

প্রযোজ্য পরিস্থিতি

१. উচ্চ-গুণমানের স্পীচ ট্রান্সলেশন: ট্রান্সলেশন গুণমানের উচ্চ প্রয়োজনীয়তা সহ পরিস্থিতিতে প্রযোজ্য २. মাল্টি-ভাষা সম্মেলন সিস্টেম: বাস্তব সময়ের মাল্টি-ভাষা যোগাযোগ সিস্টেমে প্রয়োগ করা যায় ३. স্পীচ সহায়ক: ক্রস-ভাষা স্পীচ সহায়কের ট্রান্সলেশন ক্ষমতা উন্নত করা ४. শিক্ষা এবং প্রশিক্ষণ: ভাষা শিক্ষা এবং ক্রস-সাংস্কৃতিক যোগাযোগ প্রয়োগ

সংদর্ভ

এই পেপারটি স্পীচ-টু-স্পীচ ট্রান্সলেশন, মাল্টি-টোকেন পূর্বাভাস, স্পীচ প্রতিনিধিত্ব শিক্ষা এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করেছে। মূল সংদর্ভগুলির মধ্যে রয়েছে S2UT মূল পেপার, MTP সম্পর্কিত কাজ (DeepSeek-V3, VocalNet) এবং স্পীচ প্রক্রিয়াকরণ মৌলিক প্রযুক্তি (HuBERT, CTC ইত্যাদি)।


সামগ্রিক মূল্যায়ন: এটি স্পীচ-টু-স্পীচ ট্রান্সলেশন ক্ষেত্রে একটি উদ্ভাবনী এবং কার্যকর উন্নতি পদ্ধতি প্রস্তাব করে একটি উচ্চ-মানের প্রযুক্তিগত পেপার। মাল্টি-টোকেন পূর্বাভাস প্রযুক্তিকে S2UT ফ্রেমওয়ার্কের মধ্যবর্তী স্তরে চতুরতার সাথে প্রয়োগ করে, উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করেছে। পেপারের পরীক্ষামূলক ডিজাইন কঠোর, বিশ্লেষণ গভীর, এবং এই ক্ষেত্রের উন্নয়নে মূল্যবান অবদান রেখেছে।