Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
- পেপার আইডি: 2501.00805
- শিরোনাম: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
- লেখক: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
- শ্রেণীবিভাগ: eess.AS cs.CL cs.SD
- প্রকাশনার সময়: ২০২৫ সালের ১ জানুয়ারি (arXiv প্রি-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2501.00805
সম্প্রতি, বাক-ইউনিট ভিত্তিক "পাঠ্য-মুক্ত" কথ্য ভাষা মডেল (SLM) প্রাকৃতিক কথ্য উৎপাদনে (অ-মৌখিক উচ্চারণ সহ) বিশাল অগ্রগতি অর্জন করেছে। তবে, উৎপাদিত কথ্য নমুনাগুলি প্রায়শই শব্দার্থগত সংযোগের অভাব দেখায়। এই পেপারটি SLIDE (স্বতঃস্ফূর্ত কথ্য সংলাপ উৎপাদনের জন্য SLM এবং LLM একীকরণ) পদ্ধতি প্রস্তাব করে। নির্দিষ্টভাবে, প্রথমে LLM ব্যবহার করে কথ্য সংলাপের পাঠ্য বিষয়বস্তু উৎপাদন করা হয়, তারপর পাঠ্য সংলাপকে ফোনিম ক্রমে রূপান্তরিত করা হয়, দ্বি-টাওয়ার ট্রান্সফর্মার-ভিত্তিক স্থায়িত্ব পূর্বাভাসক ব্যবহার করে প্রতিটি ফোনিমের স্থায়িত্ব পূর্বাভাস দেওয়া হয়, এবং অবশেষে কথ্য ফোনিম ক্রম দ্বারা শর্তাধীন SLM ব্যবহার করে পাঠ্য সংলাপ উচ্চারণ করা হয়। Fisher ডেটাসেটে পরীক্ষার ফলাফল দেখায় যে সিস্টেমটি প্রাকৃতিক কথ্য সংলাপ উৎপাদন করতে পারে যখন উচ্চ শব্দার্থগত সংযোগ বজায় রাখে।
এই গবেষণা স্বতঃস্ফূর্ত কথ্য সংলাপ উৎপাদনে মূল বৈপরীত্য সমাধানের লক্ষ্য রাখে: কথ্য প্রাকৃতিকতা বজায় রেখে শব্দার্থগত সংযোগ কীভাবে নিশ্চিত করা যায়। কথ্য সংলাপে দুটি মূল দিক রয়েছে:
- শব্দার্থগত দিক: সংলাপ বিষয়বস্তুর অর্থপূর্ণতা, যা সঠিক এবং প্রাসঙ্গিক তথ্য প্রদানের জন্য গুরুত্বপূর্ণ
- প্রাকৃতিকতার দিক: পালা পরিবর্তনের প্রবাহিততা, যার মধ্যে রয়েছে উচ্চারণ-মধ্যবর্তী ইউনিট (IPU), ওভারল্যাপ, ফাঁক, নীরবতা এবং হাসি ও প্রতিক্রিয়ার মতো প্রাকৃতিক সংলাপ ঘটনা
- ঐতিহ্যবাহী ক্যাসকেড সিস্টেম: যদিও শব্দার্থগত সংযোগ শক্তিশালী (শত শত বিলিয়ন শব্দে প্রশিক্ষিত LLM এর কারণে), প্রাকৃতিক সংলাপ উৎপাদনের ক্ষমতা সীমিত, কারণ:
- যেকোনো উপাদানের মধ্যে পালা পরিবর্তন ঘটনা বিবেচনা করে না
- হাসি এবং প্রতিক্রিয়া সহ প্রাকৃতিক সংলাপ উৎপাদন করা কঠিন
- মধ্যবর্তী পর্যায়ে কথ্যকে পাঠ্যে এনকোড করা পার্যালাঙ্গুইস্টিক তথ্য হারায়
- SLM-ভিত্তিক পদ্ধতি (যেমন dGSLM): সংলাপ উপাদান এবং পালা পরিবর্তন প্যাটার্ন কার্যকরভাবে ক্যাপচার করতে পারে, কিন্তু শব্দার্থগত সংযোগ চ্যালেঞ্জের সম্মুখীন:
- বাক-ইউনিট দানাদারিতা খুবই সূক্ষ্ম (সাধারণত মাত্র ২০ms), প্রসারিত প্রসঙ্গের শব্দার্থগত বিষয়বস্তু মডেল করার জন্য অনুপযুক্ত
- সূক্ষ্ম-দানাদার বৈশিষ্ট্য বৃহৎ প্রশিক্ষণ ডেটাসেটের প্রয়োজন উল্লেখযোগ্যভাবে বৃদ্ধি করে
এই পেপারটি একটি হাইব্রিড পদ্ধতি প্রস্তাব করে যা শব্দার্থগত প্রসঙ্গ ক্যাপচার করতে পাঠ্য ব্যবহার করে, একই সাথে পার্যালাঙ্গুইস্টিক তথ্য (যেমন অ-মৌখিক উচ্চারণ এবং পালা পরিবর্তন প্যাটার্ন) সংরক্ষণ করতে বাক-ইউনিট ব্যবহার করে, যার লক্ষ্য ঐতিহ্যবাহী ক্যাসকেড সিস্টেম এবং SLM-ভিত্তিক সিস্টেমের সুবিধা একত্রিত করা।
- কথ্য সংলাপ উৎপাদন কাঠামোতে LLM অন্তর্ভুক্ত করা: LLM ব্যবহার করে পাঠ্য সংলাপ উৎপাদন করা, LLM এর উন্নত পাঠ্য উৎপাদন ক্ষমতা সম্পূর্ণভাবে কাজে লাগানো
- দ্বি-টাওয়ার ট্রান্সফর্মার-ভিত্তিক ফোনিম স্থায়িত্ব পূর্বাভাস প্রস্তাব করা: লিখিত ফোনিম ক্রমে প্রতিটি ফোনিমের স্থায়িত্ব পূর্বাভাস দিতে দ্বি-টাওয়ার ট্রান্সফর্মার মডেল ব্যবহার করা, পালা পরিবর্তনের প্রবাহিততা বজায় রাখা নিশ্চিত করা
- কথ্য ফোনিম ক্রম-শর্তাধীন dGSLM: পাঠ্য সংলাপ থেকে প্রাপ্ত কথ্য ফোনিম ক্রমকে শর্তাধীন ইনপুট হিসাবে dGSLM এ ব্যবহার করা, কার্যকরভাবে প্রাকৃতিক সংলাপ ঘটনা উৎপাদিত কথ্যে একীভূত করা, একই সাথে শব্দার্থগত সংযোগ বজায় রাখা
ইনপুট: প্রম্পট সংলাপ অডিও
আউটপুট: শব্দার্থগতভাবে সংযুক্ত এবং প্রাকৃতিক কথ্য সংলাপ ধারাবাহিকতা
সীমাবদ্ধতা: উৎপাদিত সংলাপ শব্দার্থগত সংযোগ এবং প্রাকৃতিকতা (পালা পরিবর্তন, অ-মৌখিক উচ্চারণ ইত্যাদি সহ) উভয়ই পূরণ করতে হবে
SLIDE মডেলে তিনটি প্রধান উপাদান রয়েছে:
- প্রম্পট সংলাপ অডিওকে পাঠ্যে প্রতিলিপি করতে বাক স্বীকৃতি মডেল (Whisper-v3) ব্যবহার করা
- সংলাপ ধারাবাহিকতা উৎপাদন করতে LLM (GPT-4o) ব্যবহার করা, এটিকে কথ্য শৈলীর সংলাপ উৎপাদনের জন্য নির্দেশনা দেওয়া
- সংলাপ ঘটনা ট্যাগ (যেমন laughter, sigh) বাদ দেওয়া, "yeah", "right", "okay" এর মতো মৌখিক প্রতিক্রিয়ার উপর ফোকাস করা
- প্রশিক্ষণ ডেটাসেটে প্রকৃত প্রতিলিপির ফোনিম-স্তরের পাঠ্য-কথ্য সংযোগ পেতে বাধ্যতামূলক সংযোগ মডেল ব্যবহার করা
- বাধ্যতামূলক সংযোগ দ্বারা নির্ধারিত স্থায়িত্ব অনুযায়ী প্রতিটি ফোনিম পুনরাবৃত্তি করতে অতিরিক্ত নীরবতা ফোনিম প্রবর্তন করা
- প্রশিক্ষণ পর্যায়: শিক্ষক বাধ্যতা পদ্ধতি ব্যবহার করা, ক্ষতি ফাংশন সীমান্ত ইউনিট ক্ষতি এবং সীমান্ত স্থায়িত্ব ক্ষতি একত্রিত করা
- অনুমান পর্যায়: শর্তহীন উৎপাদন সম্পাদন করা, প্রতিস্থাপন প্রক্রিয়ার মাধ্যমে লিখিত ফোনিম ক্রমের সাথে সংযোগ নিশ্চিত করা
- প্রশিক্ষণ পর্যায়: কথ্য সংলাপকে অডিও টোকেনে এনকোড করতে HuBERT এনকোডার ব্যবহার করা, সংযুক্ত কথ্য ফোনিম ক্রম এবং অডিও টোকেন ইনপুট এবং প্রশিক্ষণ লক্ষ্য হিসাবে ব্যবহার করা
- প্রতিটি সংলাপ নমুনা ৮০ সেকেন্ড ব্যবধানে বিভক্ত করা, ৮০০০ বিচ্ছিন্ন টোকেন ধারণ করা (প্রথম ৪০০০ কথ্য ফোনিম ক্রম, পরবর্তী ৪০০০ অডিও টোকেন)
- অনুমান পর্যায়: কথ্য ফোনিম ক্রম ৪০০০ টোকেনের নির্দিষ্ট দৈর্ঘ্যে সামঞ্জস্য করা, স্বয়ংক্রিয়ভাবে অডিও টোকেন উৎপাদন করা
- হাইব্রিড প্রতিনিধিত্ব কৌশল: সৃজনশীলভাবে পাঠ্যের শব্দার্থগত মডেলিং ক্ষমতা এবং বাক-ইউনিটের সুর/পার্যালাঙ্গুইস্টিক মডেলিং ক্ষমতা একত্রিত করা
- শর্তাধীন উৎপাদন প্রক্রিয়া: কথ্য ফোনিম ক্রম শর্তাধীনতার মাধ্যমে dGSLM আউটপুট সীমাবদ্ধ করা, উৎপাদিত সংলাপের শব্দার্থগত সংযোগ নিশ্চিত করা
- সময় সংযোগ প্রক্রিয়াকরণ: স্থায়িত্ব পূর্বাভাস এবং পুনরাবৃত্তি প্রক্রিয়ার মাধ্যমে, ফোনিম ক্রম এবং অডিওর সময় সংযোগ বজায় রাখা
- Fisher ডেটাসেট: ২০০০ ঘন্টা স্টেরিও টেলিফোন সংলাপ অডিও, ৮kHz নমুনা হার, ১৬kHz এ পুনঃনমুনা করা
- প্রতিটি সংলাপ নমুনা প্রশিক্ষণের জন্য ৮০ সেকেন্ড ব্যবধানে বিভক্ত করা
- প্রাকৃতিকতা মূল্যায়ন:
- পালা পরিবর্তন ঘটনার সময় বিতরণ পরিসংখ্যান (IPU, ওভারল্যাপ, ফাঁক, নীরবতা)
- সম্পর্কিত পরিসংখ্যান গণনা করতে pyannote.audio ব্যবহার করা
- শব্দার্থগত সংযোগ মূল্যায়ন:
- উৎপাদিত কথ্য সংলাপ প্রতিলিপি করতে Whisper-v3 ব্যবহার করা
- পাঠ্য প্রতিলিপির বিভ্রান্তি গণনা করতে DialoGPT ব্যবহার করা
- N-MOS (প্রাকৃতিকতা স্কোর): প্রাকৃতিক সংলাপ ঘটনা এবং পালা পরিবর্তন প্রবাহিততা মূল্যায়ন করা
- M-MOS (অর্থপূর্ণতা স্কোর): সংলাপের যুক্তিগত সামঞ্জস্য এবং অর্থপূর্ণতা মূল্যায়ন করা
- স্কোর পরিসীমা: ১-৫ পয়েন্ট, প্রতিটি নমুনা কমপক্ষে ৫ জন মূল্যায়নকারী দ্বারা মূল্যায়ন করা
- ক্যাসকেড সিস্টেম: ঐতিহ্যবাহী ক্যাসকেড পদ্ধতি (ASR+LLM+TTS)
- dGSLM: মূল উৎপাদনশীল কথ্য সংলাপ ভাষা মডেল
- SLIDE-1: পরীক্ষা ডেটাসেটের লিখিত সংলাপ সরাসরি ব্যবহার করা
- SLIDE-2: LLM দ্বারা উৎপাদিত পাঠ্য সংলাপ ব্যবহার করা
- ৬টি A100 40GB GPU ব্যবহার করে প্রশিক্ষণ করা
- স্থায়িত্ব পূর্বাভাসক: ব্যাচ আকার ৪৮, ৫০০০০ ধাপ প্রশিক্ষণ
- শর্তাধীন dGSLM: ব্যাচ আকার ৯৬, ২৫০০০০ ধাপ প্রশিক্ষণ
- উৎপাদন তাপমাত্রা ১ এ সেট করা
| মডেল | IPU/মিনিট | নীরবতা/মিনিট | ফাঁক/মিনিট | ওভারল্যাপ/মিনিট |
|---|
| ক্যাসকেড | ১৭.৫ | ০.০ | ১৪.৯ | ০.০ |
| dGSLM | ৩০.৬ | ১২.০ | ৯.০ | ৮.৭ |
| SLIDE-1 | ২৫.৬ | ৯.৪ | ৫.৬ | ৯.৫ |
| SLIDE-2 | ৩১.৩ | ৬.৩ | ৭.৬ | ১৫.৮ |
| প্রকৃত ডেটা | ২৭.৩ | ৯.৯ | ৮.৯ | ৮.২ |
| মডেল | বিভ্রান্তি ↓ | N-MOS ↑ | M-MOS ↑ |
|---|
| ক্যাসকেড | - | ২.৩৮±০.৬৩ | ২.৭০±০.৩৮ |
| dGSLM | ১২২৮.৮২ | ৪.১৪±০.৭৮ | ১.৫२±०.४० |
| SLIDE-1 | ৫३२.८१ | ४.३७±०.४६ | ३.९४±०.८१ |
| SLIDE-2 | ४२१.२९ | ४.०६±०.४१ | ४.०८±०.४९ |
| প্রকৃত ডেটা | ३७१.१६ | ४.७२±०.४० | ४.६३±०.४४ |
- শব্দার্থগত সংযোগ উল্লেখযোগ্য উন্নতি: SLIDE-2 dGSLM এর তুলনায় বিভ্রান্তি ৬৫.৮% হ্রাস (১२२८.८२ থেকে ४२१.२९ এ), প্রকৃত সংলাপ স্তরের কাছাকাছি (३७१.१६)
- প্রাকৃতিকতা সংরক্ষণ: SLIDE পালা পরিবর্তন ঘটনা পরিসংখ্যানে dGSLM এর সাথে তুলনীয় কর্মক্ষমতা প্রদর্শন করে, ক্যাসকেড সিস্টেমের চেয়ে উল্লেখযোগ্যভাবে উন্নত
- অর্থপূর্ণতা ব্যাপক উন্নতি: SLIDE-2 এর M-MOS dGSLM এর তুলনায় ২৭০.০% বৃদ্ধি, প্রকৃত সংলাপের সাথে মাত্র ১১.९% এর আপেক্ষিক পার্থক্য
SLIDE-1 এবং SLIDE-2 এর তুলনার মাধ্যমে, LLM-উৎপাদিত পাঠ্য সংলাপের কার্যকারিতা যাচাই করা হয়েছে, এমনকি LLM-উৎপাদিত পাঠ্য (প্রকৃত প্রতিলিপির পরিবর্তে) ব্যবহার করেও, ভাল শব্দার্থগত সংযোগ বজায় রাখা যায়।
- ঐতিহ্যবাহী ক্যাসকেড পদ্ধতি: ASR→LLM→TTS পাইপলাইন, শব্দার্থগত শক্তিশালী কিন্তু প্রাকৃতিকতা দুর্বল
- SLM-ভিত্তিক পদ্ধতি: যেমন dGSLM, প্রাকৃতিকতা শক্তিশালী কিন্তু শব্দার্থগত সংযোগ দুর্বল
- হাইব্রিড পদ্ধতি: এই পেপারে প্রস্তাবিত SLIDE এই উদীয়মান দিকনির্দেশনার অন্তর্গত
বিদ্যমান কাজের তুলনায়, SLIDE প্রথমবারের মতো শব্দার্থগত সংযোগ এবং প্রাকৃতিকতার কার্যকর ভারসাম্য অর্জন করে, চতুর শর্তাধীন প্রক্রিয়ার মাধ্যমে দুটির মধ্যে ট্রেড-অফ সমস্যা সমাধান করে।
SLIDE সফলভাবে LLM এর শব্দার্থগত মডেলিং ক্ষমতা এবং SLM এর সুর মডেলিং ক্ষমতা একত্রিত করে, কথ্য সংলাপের প্রাকৃতিকতা বজায় রেখে শব্দার্থগত সংযোগ উল্লেখযোগ্যভাবে উন্নত করে, স্বতঃস্ফূর্ত কথ্য সংলাপ উৎপাদনের জন্য একটি নতুন সমাধান প্রদান করে।
- গণনামূলক জটিলতা: একাধিক মডেল উপাদান প্রশিক্ষণের প্রয়োজন, গণনামূলক খরচ বেশি
- ডেটা নির্ভরতা: এখনও বড় আকারের কথ্য সংলাপ ডেটা প্রশিক্ষণের প্রয়োজন
- ডোমেইন অভিযোজনযোগ্যতা: Fisher ডেটাসেটে প্রশিক্ষিত, অন্যান্য ডোমেইনে সাধারণীকরণ ক্ষমতা যাচাই করা বাকি
- রিয়েল-টাইম: বহু-পর্যায়ের প্রক্রিয়াকরণ রিয়েল-টাইম সংলাপ উৎপাদনের প্রতিক্রিয়া গতি প্রভাবিত করতে পারে
- এন্ড-টু-এন্ড যৌথ প্রশিক্ষণ কৌশল অন্বেষণ করা
- আরও হালকা মডেল আর্কিটেকচার গবেষণা করা
- বহুভাষিক এবং ক্রস-ডোমেইন পরিস্থিতিতে সম্প্রসারণ করা
- রিয়েল-টাইম সংলাপ উৎপাদনের দক্ষতা উন্নত করা
- শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো LLM এবং SLM এর সমন্বয় আর্কিটেকচার প্রস্তাব করে, দীর্ঘস্থায়ী শব্দার্থগত সংযোগ এবং প্রাকৃতিকতা ট্রেড-অফ সমস্যা সমাধান করে
- যুক্তিসঙ্গত পদ্ধতি ডিজাইন: তিন-পর্যায়ের পাইপলাইন ডিজাইন স্পষ্ট, প্রতিটি উপাদানের কার্যকারিতা স্পষ্ট, প্রযুক্তিগত পথ সম্ভাব্য
- পর্যাপ্ত পরীক্ষা: উদ্দেশ্যমূলক এবং বিষয়গত মূল্যায়ন অন্তর্ভুক্ত, তুলনামূলক পদ্ধতি ব্যাপক, বিলোপ পরীক্ষা ডিজাইনের কার্যকারিতা যাচাই করে
- উল্লেখযোগ্য ফলাফল: শব্দার্থগত সংযোগে উল্লেখযোগ্য উন্নতি অর্জন (বিভ্রান্তি ৬৫.८% হ্রাস), একই সাথে প্রাকৃতিকতা বজায় রাখে
- সিস্টেম জটিলতা: বহু-পর্যায়ের পাইপলাইন সিস্টেম জটিলতা বৃদ্ধি করে, ব্যবহারিকতা এবং শক্তিশালীতা প্রভাবিত করতে পারে
- গণনামূলক দক্ষতা: একাধিক বড় মডেল চালানোর প্রয়োজন, গণনামূলক খরচ বেশি, রিয়েল-টাইম প্রয়োগে চ্যালেঞ্জ
- ত্রুটি প্রচার: পাইপলাইন আর্কিটেকচার ত্রুটি সংগ্রহ সমস্যা থাকতে পারে, পূর্ববর্তী পর্যায়ের ত্রুটি পরবর্তী প্রক্রিয়াকরণ প্রভাবিত করবে
- সাধারণীকরণ ক্ষমতা: শুধুমাত্র Fisher ডেটাসেটে যাচাই করা, ক্রস-ডোমেইন এবং বহুভাষিক সাধারণীকরণ ক্ষমতা অজানা
- একাডেমিক মূল্য: কথ্য সংলাপ উৎপাদন ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে, শব্দার্থগত এবং সুর মডেলিং ভারসাম্য রাখে
- ব্যবহারিক সম্ভাবনা: ভার্চুয়াল সহায়ক, সংলাপ সিস্টেম ইত্যাদি প্রয়োগে ব্যবহারিক মূল্য রয়েছে
- পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন সোর্স কোড প্রদান করে, পুনরুৎপাদন এবং উন্নতি সহজতর করে
- সংলাপ সিস্টেম: প্রাকৃতিক এবং অর্থপূর্ণ কথ্য প্রতিক্রিয়া উৎপাদন প্রয়োজন এমন স্মার্ট সহায়ক
- বাক সংশ্লেষণ: উচ্চ প্রাকৃতিকতা প্রয়োজন এমন সংলাপ-ভিত্তিক TTS সিস্টেম
- শিক্ষা প্রশিক্ষণ: কথ্য সংলাপ প্রশিক্ষণ এবং ভাষা শেখার প্রয়োগ
- বিনোদন মিডিয়া: গেম, ভার্চুয়াল চরিত্র ইত্যাদি প্রাকৃতিক সংলাপ প্রয়োজন এমন পরিস্থিতি
এই পেপারটি ৩৪টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা বাক ভাষা মডেল, বড় ভাষা মডেল, সংলাপ উৎপাদন, বাক সংশ্লেষণ ইত্যাদি একাধিক সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার যা সৃজনশীলভাবে কথ্য সংলাপ উৎপাদনে মূল সমস্যা সমাধান করে। যদিও সিস্টেম জটিলতা এবং গণনামূলক দক্ষতা দিক থেকে চ্যালেঞ্জ রয়েছে, তবে এর প্রযুক্তিগত অবদান এবং পরীক্ষার ফলাফল অত্যন্ত প্রভাবশালী, ক্ষেত্রের উন্নয়নের জন্য মূল্যবান নতুন চিন্তাভাবনা প্রদান করে।