2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery
Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
academic

ParsVoice: টেক্সট-টু-স্পীচ সিন্থেসিসের জন্য একটি বড় আকারের মাল্টি-স্পিকার পার্সিয়ান স্পীচ কর্পাস

মৌলিক তথ্য

  • পেপার আইডি: 2510.10774
  • শিরোনাম: ParsVoice: টেক্সট-টু-স্পীচ সিন্থেসিসের জন্য একটি বড় আকারের মাল্টি-স্পিকার পার্সিয়ান স্পীচ কর্পাস
  • লেখক: মোহাম্মদ জাভাদ রানজবার কালাহরুদি, হেশাম ফায়লি, আজাদেহ শাকেরি (তেহরান বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.SD (সাউন্ড), cs.AI (কৃত্রিম বুদ্ধিমত্তা), cs.HC (মানব-কম্পিউটার ইন্টারঅ্যাকশন), cs.LG (মেশিন লার্নিং)
  • প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv v2)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10774

সারসংক্ষেপ

বর্তমান পার্সিয়ান ভাষার স্পীচ ডেটাসেটগুলি সাধারণত ইংরেজি সংস্করণের তুলনায় অনেক ছোট, যা পার্সিয়ান ভাষার স্পীচ প্রযুক্তি উন্নয়নে গুরুত্বপূর্ণ সীমাবদ্ধতা তৈরি করে। এই পেপারটি ParsVoice প্রবর্তনের মাধ্যমে এই ব্যবধান সমাধান করে, যা টেক্সট-টু-স্পীচ (TTS) অ্যাপ্লিকেশনের জন্য বিশেষভাবে ডিজাইন করা সবচেয়ে বড় আকারের পার্সিয়ান স্পীচ কর্পাস। গবেষণা দল একটি স্বয়ংক্রিয় পাইপলাইন তৈরি করেছে যা কাঁচা অডিওবুক সামগ্রীকে TTS-প্রস্তুত ডেটায় রূপান্তরিত করে, যার মধ্যে রয়েছে BERT-ভিত্তিক বাক্য সম্পূর্ণতা সনাক্তকারী, নির্ভুল অডিও-টেক্সট সারিবদ্ধতার জন্য বাইনারি সার্চ সীমানা অপ্টিমাইজেশন পদ্ধতি এবং পার্সিয়ান ভাষার জন্য কাস্টমাইজড অডিও-টেক্সট গুণমান মূল্যায়ন কাঠামো। পাইপলাইনটি ২,০০০টি অডিওবুক প্রক্রিয়া করেছে, ৩,৫২৬ ঘন্টার পরিষ্কার স্পীচ তৈরি করেছে, যা আরও ফিল্টার করে ১,৮০৪ ঘন্টার উচ্চ-মানের সাবসেটে পরিণত হয়েছে, যাতে ৪৭০+ স্পিকার রয়েছে। ডেটাসেট যাচাই করার জন্য, গবেষণা দল XTTS-কে পার্সিয়ান ভাষায় সূক্ষ্ম-সুর করেছে, ৩.৬/৫ এর প্রাকৃতিকতা গড় মতামত স্কোর (MOS) এবং ৪.০/৫ এর স্পিকার সাদৃশ্য গড় মতামত স্কোর (SMOS) অর্জন করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. ডেটা স্বল্পতার সমস্যা: পার্সিয়ান ভাষা বিশ্বব্যাপী ১০ কোটিরও বেশি মানুষ দ্বারা ব্যবহৃত হয়, তবে স্পীচ কর্পাসের ক্ষেত্রে গুরুতরভাবে প্রতিনিধিত্বহীন, ইংরেজির মতো উচ্চ-সম্পদ ভাষার তুলনায় বিশাল ব্যবধান রয়েছে।

২. TTS বিশেষ চাহিদা: টেক্সট-টু-স্পীচ সিস্টেম স্বয়ংক্রিয় স্পীচ স্বীকৃতি (ASR) সিস্টেমের চেয়ে ডেটা গুণমানের জন্য ভিন্ন প্রয়োজনীয়তা রয়েছে। ASR শব্দযুক্ত বাস্তব-বিশ্বের ডেটা থেকে উপকৃত হতে পারে, যখন TTS প্রাকৃতিক স্পীচ তৈরি করার জন্য পরিষ্কার এবং নির্ভুলভাবে সারিবদ্ধ অডিও-টেক্সট জোড়া প্রয়োজন।

३. বিদ্যমান ডেটাসেটের সীমাবদ্ধতা:

  • DeepMine+: ৪৮০+ ঘন্টা, ১৮৫০+ স্পিকার, কিন্তু বাণিজ্যিক সীমাবদ্ধতা
  • DeepMine-Multi-TTS: ১২০ ঘন্টা, ৬৭ স্পিকার
  • ArmanTTS: ৯ ঘন্টা, একক স্পিকার
  • ManaTTS: ৮৬ ঘন্টা, একক স্পিকার

গবেষণার গুরুত্ব

পার্সিয়ান ভাষার ডেটা স্বল্পতা শুধুমাত্র স্পীচে সীমাবদ্ধ নয়, বরং পাঠ্য প্রক্রিয়াকরণে বিস্তৃত, যা স্পীচ-টু-টেক্সট সারিবদ্ধতা সিস্টেম, অপটিক্যাল ক্যারেক্টার স্বীকৃতি (OCR) মডেল সহ একাধিক পার্সিয়ান ভাষা প্রক্রিয়াকরণ ক্ষেত্রে শৃঙ্খল প্রতিক্রিয়া সৃষ্টি করে, পার্সিয়ান প্রযুক্তির উন্নয়নকে গুরুতরভাবে বাধা দেয়।

মূল অবদান

১. এখন পর্যন্ত সবচেয়ে বড় জনসাধারণের জন্য উন্মুক্ত পার্সিয়ান TTS কর্পাস নির্মাণ: ১,৮০৪ ঘন্টার উচ্চ-মানের স্পীচ ডেটা, ৪৭০+ বিভিন্ন স্পিকার, বিদ্যমান পার্সিয়ান সম্পদের তুলনায় ১০ গুণ বৃদ্ধি

२. স্কেলেবল স্বয়ংক্রিয় ডেটা নির্মাণ পাইপলাইন উন্নয়ন:

  • BERT-ভিত্তিক বাক্য সম্পূর্ণতা সনাক্তকরণ
  • বাইনারি সার্চ সীমানা অপ্টিমাইজেশন অ্যালগরিদম
  • পার্সিয়ান-নির্দিষ্ট গুণমান মূল্যায়ন কাঠামো

३. ফোনিম-মুক্ত পার্সিয়ান TTS বাস্তবায়ন: XTTS মডেল সূক্ষ্ম-সুর করার মাধ্যমে, স্পষ্ট ফোনিম ট্রান্সক্রিপশন ছাড়াই উচ্চ-মানের স্পীচ সিন্থেসিস অর্জন

४. ওপেন-সোর্স ডেটাসেট প্রদান: সম্পূর্ণ ডেটাসেট জনসাধারণের জন্য প্রকাশিত, পার্সিয়ান স্পীচ প্রযুক্তি উন্নয়ন প্রচার

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

কাঁচা অডিওবুক অডিওকে উচ্চ-মানের TTS প্রশিক্ষণ ডেটায় রূপান্তরিত করা, যার মধ্যে রয়েছে:

  • ইনপুট: কাঁচা অডিওবুক অডিও ফাইল এবং সংশ্লিষ্ট পাঠ্য
  • আউটপুট: বিভাজিত অডিও-টেক্সট জোড়া, নির্ভুল সময় সারিবদ্ধতা এবং উচ্চ গুণমান স্কোর সহ
  • সীমাবদ্ধতা: বাক্য সম্পূর্ণতা বজায় রাখা, অডিও গুণমান নিশ্চিত করা, স্পিকার সনাক্তকরণ বাস্তবায়ন

স্বয়ংক্রিয় কর্পাস নির্মাণ পাইপলাইন

१. ডেটা সংগ্রহ এবং উৎস নির্বাচন

  • ডেটা উৎস: IranSeda প্ল্যাটফর্ম (book.iranseda.ir)
  • স্কেল: ৩,৮০০+ অডিওবুক, বহু-বিভাগ কভারেজ
  • গুণমান: পেশাদার বর্ণনাকার, নিয়ন্ত্রিত রেকর্ডিং পরিবেশ, ৪৪.১ kHz স্যাম্পলিং রেট
  • কপিরাইট: জনসাধারণের অ্যাক্সেস, কোন কপিরাইট সীমাবদ্ধতা নেই

२. বুদ্ধিমান অডিও বিভাজন

বাক্য সম্পূর্ণতা সনাক্তকরণ মডেল:

  • ParsBERT সূক্ষ্ম-সুর করা বাইনারি শ্রেণীবিভাজক
  • প্রশিক্ষণ ডেটা: সম্পূর্ণ পার্সিয়ান বাক্য এবং সংশ্লেষিত অসম্পূর্ণ বাক্য
  • কর্মক্ষমতা: F1 স্কোর ৯৭.৪%

তিন-পর্যায়ের বিভাজন প্রবাহ: १. শব্দ সীমানা সনাক্তকরণ: WebRTC স্পীচ কার্যকলাপ সনাক্তকরণ (VAD) ব্যবহার २. ট্রান্সক্রিপশন এবং সারিবদ্ধতা: Google Speech-to-Text API ট্রান্সক্রিপশন ३. ভাষাগত যাচাইকরণ: BERT শ্রেণীবিভাজক বাক্য সম্পূর্ণতা সনাক্ত করে, প্রয়োজনে ০.१ সেকেন্ড বৃদ্ধি সীমানা সম্প্রসারণ

३. সীমানা অপ্টিমাইজেশন অ্যালগরিদম

দ্বি-পর্যায়ের অনুসন্ধান কৌশল: १. প্রাথমিক সমন্বয়: শুরু এবং শেষ থেকে প্রতিটি ३ সেকেন্ড সরান २. স্থিতিশীলতা যাচাইকরণ: ট্রান্সক্রিপশন পার্থক্য পরীক্ষা করুন ३. বাইনারি সার্চ অপ্টিমাইজেশন: পুনরাবৃত্তিমূলকভাবে ছাঁটাই ব্যবধান অর্ধেক করুন ४. সূক্ষ্ম-দানাদার রৈখিক অনুসন্ধান: ०.१ সেকেন্ড বৃদ্ধি নির্ভুল সারিবদ্ধতা

४. পাঠ্য-অডিও গুণমান মূল্যায়ন

পার্সিয়ান পাঠ্য গুণমান কাঠামো:

  • অক্ষর গুণমান: বৈধ পার্সিয়ান অক্ষর এবং সংখ্যার অনুপাত
  • দৈর্ঘ্য গুণমান: বাক্য দৈর্ঘ্য উপযুক্ততা মূল্যায়ন
  • পুনরাবৃত্তি স্কোর: শব্দভাণ্ডার বৈচিত্র্য পুরস্কার
  • ফোনিম কভারেজ: পার্সিয়ান অক্ষর এবং ফোনিম পরিসীমা

অডিও গুণমান কাঠামো:

  • সিগন্যাল-টু-নয়েজ অনুপাত অনুমান
  • গতিশীল পরিসীমা বিশ্লেষণ
  • স্পেকট্রাল বৈশিষ্ট্য এবং MFCC বৈচিত্র্য
  • ক্লিপিং, নীরবতা, পটভূমি সঙ্গীত সনাক্তকরণ

५. স্পিকার সনাক্তকরণ

দ্বি-পর্যায়ের সনাক্তকরণ প্রবাহ: १. স্থানীয় স্পিকার বিচ্ছিন্নতা: ECAPA-TDNN এম্বেডিং-ভিত্তিক ক্লাস্টারিং २. বৈশ্বিক স্পিকার সনাক্তকরণ: বই জুড়ে স্পিকার একীকরণ লেবেলিং

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. বাক্য-সচেতন বিভাজন: শব্দ সীমানা সনাক্তকরণ এবং ভাষাগত সম্পূর্ণতা যাচাইকরণ সমন্বয় २. স্ব-অভিযোজিত সীমানা অপ্টিমাইজেশন: বাইনারি সার্চ এবং রৈখিক সূক্ষ্ম-সুর সমন্বয়ের দক্ষ অ্যালগরিদম ३. পার্সিয়ান-নির্দিষ্ট গুণমান মূল্যায়ন: পার্সিয়ান ভাষার বৈশিষ্ট্যের জন্য ডিজাইন করা বহু-মাত্রিক গুণমান মূল্যায়ন কাঠামো ४. স্কেলেবল প্রক্রিয়াকরণ প্রবাহ: হাজার ঘন্টা অডিও সামগ্রী প্রক্রিয়া করতে সক্ষম স্বয়ংক্রিয় পাইপলাইন

পরীক্ষামূলক সেটআপ

ডেটাসেট পরিসংখ্যান

  • কাঁচা ডেটা: ३,८०७ বই (९,५३८ ঘন্টা), প্রকৃত প্রক্রিয়াকরণ २,०००
  • প্রাথমিক বিভাজন: ५,१५८,३४४ অডিও খণ্ড
  • ফিল্টার করার পরে: ३,३२१,२१२ বৈধ খণ্ড
  • চূড়ান্ত ডেটাসেট:
    • মোট: ३,५२६ ঘন্টা, ४७०+ স্পিকার
    • TTS সাবসেট: १,८०४ ঘন্টা উচ্চ-মানের ডেটা

মূল্যায়ন মেট্রিক্স

  • বিষয়গত মূল্যায়ন:
    • প্রাকৃতিকতা MOS (१-५ পয়েন্ট)
    • স্পিকার সাদৃশ্য SMOS (१-५ পয়েন্ট)
    • পাঠ্য নির্ভুলতা স্কোর
  • উদ্দেশ্যমূলক মূল্যায়ন:
    • শব্দ ত্রুটি হার (WER) এবং অক্ষর ত্রুটি হার (CER)
    • ECAPA-TDNN এম্বেডিং কোসাইন সাদৃশ্য

তুলনামূলক পদ্ধতি

  • FastSpeech2 End-to-End
  • FastSpeech2 Cascaded
  • অন্যান্য পার্সিয়ান TTS সিস্টেম (ManaTTS, DeepMine-Multi-TTS ইত্যাদি)

বাস্তবায়ন বিবরণ

  • মডেল: XTTS বহুভাষিক TTS মডেল
  • প্রশিক্ষণ: BPE মডেল প্রশিক্ষণ, २,५०० নতুন পার্সিয়ান টোকেন
  • সূক্ষ্ম-সুর: ব্যাচ আকার १६, १७०,००० ধাপ
  • মূল্যায়ন: ९० সংশ্লেষিত নমুনা, ४० মূল্যায়নকারী

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সিস্টেমMOSSMOS
XTTS + ParsVoice (এই পেপার)३.६०४.००
FastSpeech2 End-to-End३.७२४.०२
FastSpeech2 Cascaded३.३४३.८१

উদ্দেশ্যমূলক মূল্যায়ন ফলাফল

  • WER: २२.५७%
  • CER: १२.७८%
  • স্পিকার সাদৃশ্য: ८०% (ECAPA-TDNN এম্বেডিং-ভিত্তিক)
  • পাঠ্য নির্ভুলতা: ४.०/५ (মানব মূল্যায়ন)

ডেটাসেট গুণমান বিশ্লেষণ

  • সীমানা অপ্টিমাইজেশন প্রভাব: ४४२.७३ ঘন্টা অপ্রয়োজনীয় নীরবতা এবং শব্দ অপসারণ (११.२%)
  • বিভাজন পরিসংখ্যান: ८१.०% খণ্ডের শুরু ছাঁটাই প্রয়োজন, ५०.४% শেষ ছাঁটাই প্রয়োজন
  • গড় খণ্ড সময়কাল: ५.४९ সেকেন্ড (TTS প্রশিক্ষণের জন্য সর্বোত্তম)
  • ভাষাগত বৈচিত্র্য: २६७,९६५ অনন্য শব্দ, २५,४९९,४७४ টোকেন

স্পিকার সনাক্তকরণ নির্ভুলতা

  • সনাক্ত করা স্পিকার: १,८१५ অনন্য স্পিকার উদাহরণ
  • লিঙ্গ বিতরণ: প্রায় ३३% মহিলা, ६७% পুরুষ
  • সামঞ্জস্য: পরিচিত বর্ণনাকার লেবেলের সাথে ९७.०% সামঞ্জস্য

সম্পর্কিত কাজ

ইংরেজি স্পীচ ডেটাসেট

  • LibriSpeech: বড় আকারের ASR কর্পাস
  • LJSpeech: একক স্পিকার TTS ডেটাসেট
  • VCTK: বহু-স্পিকার ইংরেজি কর্পাস

বহুভাষিক প্রচেষ্টা

  • Common Voice: २०+ ভাষা, কিন্তু পার্সিয়ান অংশ অপর্যাপ্ত গুণমান
  • Multilingual LibriSpeech: ইউরোপীয় ভাষার দিকে পক্ষপাত
  • VoxPopuli: ভাষা সম্প্রদায়ের গুণমান পার্থক্য বড়

পার্সিয়ান TTS গবেষণা

  • ঐতিহ্যবাহী পদ্ধতির জন্য স্পষ্ট ফোনিম প্রতিনিধিত্ব প্রয়োজন
  • বিদ্যমান ডেটাসেট ছোট আকার এবং বেশিরভাগ একক স্পিকার
  • বাণিজ্যিক সীমাবদ্ধতা গবেষণা উন্নয়ন বাধা দেয়

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. সফলভাবে সবচেয়ে বড় আকারের জনসাধারণের জন্য উন্মুক্ত পার্সিয়ান TTS কর্পাস নির্মাণ, १,८०४ ঘন্টা উচ্চ-মানের স্পীচ ডেটা সহ २. সম্পূর্ণ স্বয়ংক্রিয় এবং স্কেলেবল ডেটাসেট নির্মাণ পাইপলাইন উন্নয়ন, অন্যান্য কম-সম্পদ ভাষায় প্রয়োগযোগ্য ३. ডেটাসেটের কার্যকারিতা যাচাই, পার্সিয়ান TTS কাজে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন

সীমাবদ্ধতা

१. স্বয়ংক্রিয় মূল্যায়ন মেট্রিক্স গুণমান কম মূল্যায়ন করতে পারে: বাণিজ্যিক STT সিস্টেমের পার্সিয়ান সংশ্লেষিত স্পীচ ডেটায় সীমিত সমর্থনের কারণে २. স্পিকার বিতরণ ভারসাম্যহীন: পুরুষ স্পিকার অনুপাত বেশি (६७% বনাম ३३%) ३. অডিও গুণমান উৎস উপাদানের উপর নির্ভরশীল: মূল অডিওবুক রেকর্ডিং গুণমান দ্বারা সীমাবদ্ধ

ভবিষ্যত দিকনির্দেশনা

१. অন্যান্য কম-সম্পদ ভাষায় সম্প্রসারণ: পাইপলাইন আরও ভাষায় প্রয়োগ করুন २. গুণমান মূল্যায়ন কাঠামো উন্নতি: আরও নির্ভুল স্বয়ংক্রিয় মূল্যায়ন মেট্রিক্স উন্নয়ন ३. স্পিকার বৈচিত্র্য বৃদ্ধি: লিঙ্গ এবং বয়স বিতরণ ভারসাম্য ४. বহু-মোডাল সম্প্রসারণ: ভিজ্যুয়াল তথ্য সমন্বিত স্পীচ সিন্থেসিস

গভীর মূল্যায়ন

শক্তি

१. উল্লেখযোগ্য স্কেল বৃদ্ধি: বিদ্যমান পার্সিয়ান সম্পদের তুলনায় १० গুণ বৃদ্ধি, গুরুত্বপূর্ণ ফাঁক পূরণ २. প্রযুক্তিগত উদ্ভাবনী:

  • BERT-ভিত্তিক বাক্য সম্পূর্ণতা সনাক্তকরণ উপন্যাস এবং কার্যকর
  • বাইনারি সার্চ সীমানা অপ্টিমাইজেশন অ্যালগরিদম দক্ষ এবং ব্যবহারিক
  • পার্সিয়ান-নির্দিষ্ট গুণমান মূল্যায়ন কাঠামো লক্ষ্যবস্তু শক্তিশালী ३. পরীক্ষামূলক পরিপূর্ণতা:
  • বিষয়গত এবং উদ্দেশ্যমূলক মূল্যায়ন সমন্বয়
  • একাধিক ভিত্তিরেখা পদ্ধতির সাথে তুলনা
  • বিস্তারিত ডেটাসেট বিশ্লেষণ এবং পরিসংখ্যান ४. ওপেন-সোর্স অবদান: সম্পূর্ণ ডেটাসেট জনসাধারণের জন্য প্রকাশিত, সম্প্রদায় উন্নয়ন প্রচার ५. পদ্ধতি পুনরুৎপাদনযোগ্যতা: পাইপলাইনের প্রতিটি ধাপের বিস্তারিত বর্ণনা

অপূর্ণতা

१. মূল্যায়ন পরিসীমা সীমিত:

  • শুধুমাত্র একটি TTS মডেল (XTTS) এ যাচাই
  • অন্যান্য বড় আকারের বহুভাষিক ডেটাসেটের সাথে সরাসরি তুলনার অভাব २. গুণমান মূল্যায়ন বিষয়গততা:
  • গুণমান মূল্যায়ন কাঠামোর ওজন সেটিং অভিজ্ঞতা-ভিত্তিক
  • মানব-মন্তব্যকৃত গুণমানের সাথে তুলনা যাচাইকরণের অভাব ३. প্রযুক্তিগত বিবরণ অপর্যাপ্ত:
  • স্পিকার সনাক্তকরণের থ্রেশহোল্ড নির্বাচন বিস্তারিত ব্যাখ্যার অভাব
  • গুণমান মূল্যায়ন কাঠামোর নির্দিষ্ট বাস্তবায়ন বিবরণ সীমিত

প্রভাব

१. একাডেমিক প্রভাব:

  • কম-সম্পদ ভাষা TTS গবেষণার জন্য গুরুত্বপূর্ণ সম্পদ প্রদান
  • পার্সিয়ান ভাষার স্পীচ প্রযুক্তি উন্নয়ন প্রচার
  • পুনরব্যবহারযোগ্য ডেটাসেট নির্মাণ পদ্ধতিবিদ্যা প্রদান २. ব্যবহারিক মূল্য:
  • পার্সিয়ান TTS অ্যাপ্লিকেশন উন্নয়ন সরাসরি সমর্থন
  • পার্সিয়ান এবং উচ্চ-সম্পদ ভাষার মধ্যে ডিজিটাল বিভাজন হ্রাস
  • বাণিজ্যিক স্পীচ অ্যাপ্লিকেশনের জন্য ভিত্তি ডেটা প্রদান ३. পুনরুৎপাদনযোগ্যতা: ওপেন-সোর্স প্রকাশনা এবং বিস্তারিত পদ্ধতি বর্ণনা গবেষণা পুনরুৎপাদনযোগ্যতা নিশ্চিত করে

প্রযোজ্য দৃশ্যকল্প

१. সরাসরি প্রয়োগ:

  • পার্সিয়ান TTS সিস্টেম প্রশিক্ষণ
  • বহুভাষিক TTS মডেলের পার্সিয়ান অভিযোজন
  • স্পীচ সিন্থেসিস গুণমান মূল্যায়ন গবেষণা २. সম্প্রসারিত প্রয়োগ:
  • অন্যান্য কম-সম্পদ ভাষা ডেটাসেট নির্মাণ
  • স্পীচ প্রক্রিয়াকরণ পাইপলাইন উন্নয়ন
  • ক্রস-ভাষা স্পীচ প্রযুক্তি গবেষণা

সংদর্ভ

এই পেপারটি १८টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Transformer স্থাপত্য ভিত্তি (Vaswani et al., २०१७)
  • ইংরেজি স্পীচ ডেটাসেট (LibriSpeech, LJSpeech, VCTK)
  • বহুভাষিক স্পীচ সম্পদ (Common Voice, VoxPopuli)
  • পার্সিয়ান NLP সরঞ্জাম (ParsBERT)
  • আধুনিক TTS প্রযুক্তি (XTTS)
  • স্পিকার সনাক্তকরণ প্রযুক্তি (ECAPA-TDNN)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের সম্পদ-ধরনের পেপার, যা বড় আকারের পার্সিয়ান TTS কর্পাস নির্মাণের মাধ্যমে গুরুত্বপূর্ণ সম্পদ স্বল্পতার সমস্যা সমাধান করে। পদ্ধতি উদ্ভাবনী মধ্যম কিন্তু ব্যবহারিক শক্তি, পরীক্ষামূলক যাচাইকরণ পরিপূর্ণ, পার্সিয়ান স্পীচ প্রযুক্তি উন্নয়নে গুরুত্বপূর্ণ প্রচারমূলক ভূমিকা রয়েছে। ওপেন-সোর্স প্রকাশনা এর একাডেমিক এবং ব্যবহারিক মূল্য আরও বৃদ্ধি করে।