Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
- पेपर ID: 2510.10774
- शीर्षक: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- लेखक: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (तेहरान विश्वविद्यालय)
- वर्गीकरण: cs.SD (ध्वनि), cs.AI (कृत्रिम बुद्धिमत्ता), cs.HC (मानव-कंप्यूटर इंटरैक्शन), cs.LG (मशीन लर्निंग)
- प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv v2)
- पेपर लिंक: https://arxiv.org/abs/2510.10774
मौजूदा फारसी भाषण डेटासेट आमतौर पर अंग्रेजी के समकक्ष डेटासेट की तुलना में बहुत छोटे होते हैं, जो फारसी भाषण प्रौद्योगिकी विकास के लिए महत्वपूर्ण सीमाएं बनाते हैं। यह पेपर ParsVoice के माध्यम से इस अंतर को संबोधित करता है, जो पाठ-से-भाषण (TTS) अनुप्रयोगों के लिए विशेष रूप से डिज़ाइन किया गया सबसे बड़े पैमाने का फारसी भाषण कोष है। अनुसंधान दल ने एक स्वचालित पाइपलाइन बनाई है जो कच्चे ऑडियोबुक सामग्री को TTS-तैयार डेटा में परिवर्तित करती है, जिसमें BERT-आधारित वाक्य पूर्णता डिटेक्टर, सटीक ऑडियो-पाठ संरेखण के लिए द्विआधारी खोज सीमा अनुकूलन विधि, और फारसी भाषा के लिए अनुकूलित ऑडियो-पाठ गुणवत्ता मूल्यांकन ढांचा शामिल है। पाइपलाइन ने 2,000 ऑडियोबुक को संसाधित किया, जिससे 3,526 घंटे की स्वच्छ भाषण उत्पन्न हुई, जिसे आगे 1,804 घंटे के उच्च-गुणवत्ता वाले सबसेट में फ़िल्टर किया गया, जिसमें 470 से अधिक वक्ता शामिल हैं। डेटासेट को सत्यापित करने के लिए, अनुसंधान दल ने XTTS को फारसी के लिए सूक्ष्म-ट्यून किया, जिससे 3.6/5 की प्राकृतिकता औसत राय स्कोर (MOS) और 4.0/5 की वक्ता समानता औसत राय स्कोर (SMOS) प्राप्त हुई।
- डेटा दुर्लभता समस्या: फारसी भाषा, जिसे विश्व भर में 100 मिलियन से अधिक लोग बोलते हैं, भाषण कोष के संदर्भ में गंभीर रूप से अल्प-प्रतिनिधित्व किया जाता है, अंग्रेजी जैसी उच्च-संसाधन भाषाओं की तुलना में विशाल अंतर है।
- TTS विशेष आवश्यकताएं: पाठ-से-भाषण प्रणालियों को डेटा गुणवत्ता के संदर्भ में स्वचालित भाषण पहचान (ASR) प्रणालियों से अलग आवश्यकताएं होती हैं। ASR शोरपूर्ण वास्तविक-विश्व डेटा से लाभान्वित हो सकता है, जबकि TTS को प्राकृतिक भाषण उत्पन्न करने के लिए स्वच्छ और सटीक रूप से संरेखित ऑडियो-पाठ जोड़ी की आवश्यकता होती है।
- मौजूदा डेटासेट की सीमाएं:
- DeepMine+: 480+ घंटे, 1850+ वक्ता, लेकिन वाणिज्यिक प्रतिबंध
- DeepMine-Multi-TTS: 120 घंटे, 67 वक्ता
- ArmanTTS: 9 घंटे, एकल वक्ता
- ManaTTS: 86 घंटे, एकल वक्ता
फारसी भाषा डेटा की कमी केवल भाषण तक सीमित नहीं है, बल्कि पाठ प्रसंस्करण तक भी विस्तृत है, जो भाषण-से-पाठ संरेखण प्रणाली, ऑप्टिकल वर्ण पहचान (OCR) मॉडल आदि सहित कई फारसी भाषा प्रसंस्करण क्षेत्रों में श्रृंखला प्रभाव डालता है, जो फारसी प्रौद्योगिकी विकास में गंभीर बाधा डालता है।
- अब तक का सबसे बड़ा सार्वजनिक फारसी TTS कोष बनाया: 1,804 घंटे उच्च-गुणवत्ता भाषण डेटा, 470+ विभिन्न वक्ता, मौजूदा फारसी संसाधनों की तुलना में 10 गुना वृद्धि
- स्केलेबल स्वचालित डेटा निर्माण पाइपलाइन विकसित की:
- BERT-आधारित वाक्य पूर्णता डिटेक्शन
- द्विआधारी खोज सीमा अनुकूलन एल्गोरिदम
- फारसी-विशिष्ट गुणवत्ता मूल्यांकन ढांचा
- फारसी के लिए फोनीम-मुक्त TTS लागू किया: XTTS मॉडल को सूक्ष्म-ट्यून करके, स्पष्ट फोनीम ट्रांसक्रिप्शन के बिना उच्च-गुणवत्ता भाषण संश्लेषण प्राप्त किया
- ओपन-सोर्स डेटासेट प्रदान किया: संपूर्ण डेटासेट सार्वजनिक रूप से जारी किया गया है, फारसी भाषण प्रौद्योगिकी विकास को बढ़ावा देता है
कच्चे ऑडियोबुक ऑडियो को उच्च-गुणवत्ता TTS प्रशिक्षण डेटा में परिवर्तित करना, जिसमें शामिल है:
- इनपुट: कच्चे ऑडियोबुक ऑडियो फ़ाइलें और संबंधित पाठ
- आउटपुट: विभाजित ऑडियो-पाठ जोड़ी, सटीक समय संरेखण और उच्च-गुणवत्ता स्कोर के साथ
- बाधाएं: वाक्य पूर्णता बनाए रखना, ऑडियो गुणवत्ता सुनिश्चित करना, वक्ता पहचान प्राप्त करना
- डेटा स्रोत: IranSeda प्लेटफॉर्म (book.iranseda.ir)
- स्केल: 3,800+ ऑडियोबुक, बहु-श्रेणी कवरेज
- गुणवत्ता: पेशेवर वर्णनकार, नियंत्रित रिकॉर्डिंग वातावरण, 44.1kHz नमूना दर
- कॉपीराइट: सार्वजनिक पहुंच, कोई कॉपीराइट प्रतिबंध नहीं
वाक्य पूर्णता डिटेक्शन मॉडल:
- ParsBERT सूक्ष्म-ट्यून आधारित द्विआधारी वर्गीकरण
- प्रशिक्षण डेटा: पूर्ण फारसी वाक्य और संश्लेषित अधूरे वाक्य
- प्रदर्शन: F1 स्कोर 97.4%
तीन-चरणीय विभाजन प्रवाह:
- ध्वनिक सीमा डिटेक्शन: WebRTC भाषण गतिविधि डिटेक्शन (VAD) का उपयोग
- ट्रांसक्रिप्शन और संरेखण: Google Speech-to-Text API ट्रांसक्रिप्शन
- भाषाई सत्यापन: BERT वर्गीकरण वाक्य पूर्णता का पता लगाता है, आवश्यकतानुसार 0.1 सेकंड वृद्धि सीमा विस्तार
द्विआधारी-चरणीय खोज रणनीति:
- प्रारंभिक समायोजन: शुरुआत और अंत से प्रत्येक 3 सेकंड हटाएं
- स्थिरता सत्यापन: ट्रांसक्रिप्शन अंतर की जांच करें
- द्विआधारी खोज अनुकूलन: पुनरावृत्ति रूप से आधा ट्रिमिंग अंतराल
- सूक्ष्म-दानेदार रैखिक खोज: 0.1 सेकंड वृद्धि सटीक संरेखण
फारसी पाठ गुणवत्ता ढांचा:
- वर्ण गुणवत्ता: वैध फारसी वर्ण और संख्या अनुपात
- लंबाई गुणवत्ता: वाक्य लंबाई उपयुक्तता मूल्यांकन
- पुनरावृत्ति स्कोर: शब्दावली विविधता पुरस्कार
- फोनीम कवरेज: फारसी वर्ण और फोनीम सीमा
ऑडियो गुणवत्ता ढांचा:
- संकेत-से-शोर अनुपात अनुमान
- गतिशील सीमा विश्लेषण
- वर्णक्रमीय विशेषताएं और MFCC विचरण
- क्लिपिंग, मौन, पृष्ठभूमि संगीत डिटेक्शन
दो-चरणीय पहचान प्रवाह:
- स्थानीय वक्ता अलगाव: ECAPA-TDNN एम्बेडिंग आधारित क्लस्टरिंग
- वैश्विक वक्ता पहचान: पुस्तकों में वक्ता एकीकृत पहचान
- वाक्य-जागरूक विभाजन: ध्वनिक सीमा डिटेक्शन और भाषाई पूर्णता सत्यापन का संयोजन
- अनुकूली सीमा अनुकूलन: द्विआधारी खोज के साथ रैखिक सूक्ष्म-ट्यूनिंग का कुशल एल्गोरिदम
- फारसी-विशिष्ट गुणवत्ता मूल्यांकन: फारसी विशेषताओं के लिए डिज़ाइन किया गया बहु-आयामी गुणवत्ता मूल्यांकन ढांचा
- स्केलेबल प्रसंस्करण प्रवाह: हजारों घंटे ऑडियो सामग्री को संसाधित करने में सक्षम स्वचालित पाइपलाइन
- कच्चा डेटा: 3,807 पुस्तकें (9,538 घंटे), वास्तविक प्रसंस्करण 2,000 पुस्तकें
- प्रारंभिक विभाजन: 5,158,344 ऑडियो खंड
- फ़िल्टर के बाद: 3,321,212 वैध खंड
- अंतिम डेटासेट:
- कुल: 3,526 घंटे, 470+ वक्ता
- TTS सबसेट: 1,804 घंटे उच्च-गुणवत्ता डेटा
- व्यक्तिपरक मूल्यांकन:
- प्राकृतिकता MOS (1-5 स्केल)
- वक्ता समानता SMOS (1-5 स्केल)
- पाठ सटीकता स्कोर
- उद्देश्यपूर्ण मूल्यांकन:
- शब्द त्रुटि दर (WER) और वर्ण त्रुटि दर (CER)
- ECAPA-TDNN एम्बेडिंग कोसाइन समानता
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- अन्य फारसी TTS प्रणालियां (ManaTTS, DeepMine-Multi-TTS आदि)
- मॉडल: XTTS बहु-भाषा TTS मॉडल
- प्रशिक्षण: BPE मॉडल प्रशिक्षण, 2,500 नए फारसी टोकन
- सूक्ष्म-ट्यूनिंग: बैच आकार 16, 170,000 चरण
- मूल्यांकन: 90 संश्लेषित नमूने, 40 मूल्यांकनकर्ता
| प्रणाली | MOS | SMOS |
|---|
| XTTS + ParsVoice (यह पेपर) | 3.60 | 4.00 |
| FastSpeech2 End-to-End | 3.72 | 4.02 |
| FastSpeech2 Cascaded | 3.34 | 3.81 |
- WER: 22.57%
- CER: 12.78%
- वक्ता समानता: 80% (ECAPA-TDNN एम्बेडिंग आधारित)
- पाठ सटीकता: 4.0/5 (मानव मूल्यांकन)
- सीमा अनुकूलन प्रभाव: 442.73 घंटे (11.2%) अनावश्यक मौन और शोर हटाया गया
- विभाजन सांख्यिकी: 81.0% खंड को शुरुआत ट्रिमिंग की आवश्यकता, 50.4% को अंत ट्रिमिंग की आवश्यकता
- औसत खंड अवधि: 5.49 सेकंड (TTS प्रशिक्षण के लिए इष्टतम)
- भाषाई विविधता: 267,965 अद्वितीय शब्द, 25,499,474 टोकन
- पहचाने गए वक्ता: 1,815 अद्वितीय वक्ता उदाहरण
- लिंग वितरण: लगभग 33% महिला, 67% पुरुष
- सामंजस्य: ज्ञात वर्णनकार लेबल के साथ 97.0% सामंजस्य
- LibriSpeech: बड़े पैमाने पर ASR कोष
- LJSpeech: एकल-वक्ता TTS डेटासेट
- VCTK: बहु-वक्ता अंग्रेजी कोष
- Common Voice: 20+ भाषाएं, लेकिन फारसी भाग गुणवत्ता में कमी
- Multilingual LibriSpeech: यूरोपीय भाषाओं की ओर पूर्वाग्रह
- VoxPopuli: भाषा समुदाय गुणवत्ता में अंतर
- पारंपरिक विधियों को स्पष्ट फोनीम प्रतिनिधित्व की आवश्यकता
- मौजूदा डेटासेट छोटे पैमाने और अधिकांशतः एकल-वक्ता
- वाणिज्यिक प्रतिबंध अनुसंधान विकास में बाधा डालते हैं
- सफलतापूर्वक सार्वजनिक फारसी TTS कोष का सबसे बड़ा संस्करण बनाया, जिसमें 1,804 घंटे उच्च-गुणवत्ता भाषण डेटा है
- पूरी तरह से स्वचालित और स्केलेबल डेटासेट निर्माण पाइपलाइन विकसित की, जिसे अन्य कम-संसाधन भाषाओं पर लागू किया जा सकता है
- डेटासेट की प्रभावशीलता सत्यापित की, फारसी TTS कार्य पर प्रतिस्पर्धी प्रदर्शन प्राप्त किया
- स्वचालित मूल्यांकन मेट्रिक्स गुणवत्ता को कम आंक सकते हैं: वाणिज्यिक STT प्रणाली के फारसी संश्लेषित भाषण डेटा के लिए सीमित समर्थन के कारण
- वक्ता वितरण असंतुलित: पुरुष वक्ता अनुपात अधिक (67% बनाम 33%)
- ऑडियो गुणवत्ता स्रोत सामग्री पर निर्भर: मूल ऑडियोबुक रिकॉर्डिंग गुणवत्ता द्वारा सीमित
- अन्य कम-संसाधन भाषाओं तक विस्तार: पाइपलाइन को अधिक भाषाओं पर लागू करना
- गुणवत्ता मूल्यांकन ढांचा में सुधार: अधिक सटीक स्वचालित मूल्यांकन मेट्रिक्स विकसित करना
- वक्ता विविधता बढ़ाना: लिंग और आयु वितरण को संतुलित करना
- बहु-मोडल विस्तार: दृश्य जानकारी के साथ भाषण संश्लेषण को संयोजित करना
- महत्वपूर्ण स्केल वृद्धि: मौजूदा फारसी संसाधनों की तुलना में 10 गुना वृद्धि, महत्वपूर्ण अंतर को भरता है
- तकनीकी नवाचार:
- BERT-आधारित वाक्य पूर्णता डिटेक्शन नवीन और प्रभावी
- द्विआधारी खोज सीमा अनुकूलन एल्गोरिदम कुशल और व्यावहारिक
- फारसी-विशिष्ट गुणवत्ता मूल्यांकन ढांचा लक्षित और प्रभावी
- प्रयोग पूर्णता:
- व्यक्तिपरक और उद्देश्यपूर्ण मूल्यांकन का संयोजन
- कई आधारभूत विधियों के साथ तुलना
- विस्तृत डेटासेट विश्लेषण और सांख्यिकी
- ओपन-सोर्स योगदान: संपूर्ण डेटासेट सार्वजनिक रूप से जारी, समुदाय विकास को बढ़ावा देता है
- विधि पुनरुत्पादनीयता: पाइपलाइन के प्रत्येक चरण का विस्तृत विवरण
- सीमित मूल्यांकन सीमा:
- केवल एक TTS मॉडल (XTTS) पर सत्यापित
- अन्य बड़े पैमाने पर बहु-भाषा डेटासेट के साथ प्रत्यक्ष तुलना की कमी
- गुणवत्ता मूल्यांकन व्यक्तिपरकता:
- गुणवत्ता मूल्यांकन ढांचा वजन सेटिंग अनुभव आधारित
- मानव-टिप्पणीकृत गुणवत्ता के साथ तुलना सत्यापन की कमी
- अपर्याप्त तकनीकी विवरण:
- वक्ता पहचान थ्रेशोल्ड चयन विस्तृत व्याख्या की कमी
- गुणवत्ता मूल्यांकन ढांचा विशिष्ट कार्यान्वयन विवरण सीमित
- शैक्षणिक प्रभाव:
- कम-संसाधन भाषा TTS अनुसंधान के लिए महत्वपूर्ण संसाधन प्रदान करता है
- फारसी भाषण प्रौद्योगिकी विकास को बढ़ावा देता है
- पुनः उपयोग योग्य डेटासेट निर्माण पद्धति प्रदान करता है
- व्यावहारिक मूल्य:
- फारसी TTS अनुप्रयोग विकास को सीधे समर्थन करता है
- फारसी और उच्च-संसाधन भाषाओं के बीच डिजिटल विभाजन को कम करता है
- वाणिज्यिक भाषण अनुप्रयोगों के लिए आधार डेटा प्रदान करता है
- पुनरुत्पादनीयता: ओपन-सोर्स रिलीज और विस्तृत विधि विवरण अनुसंधान पुनरुत्पादनीयता सुनिश्चित करता है
- प्रत्यक्ष अनुप्रयोग:
- फारसी TTS प्रणाली प्रशिक्षण
- बहु-भाषा TTS मॉडल के फारसी अनुकूलन
- भाषण संश्लेषण गुणवत्ता मूल्यांकन अनुसंधान
- विस्तारित अनुप्रयोग:
- अन्य कम-संसाधन भाषा डेटासेट निर्माण
- भाषण प्रसंस्करण पाइपलाइन विकास
- क्रॉस-भाषा भाषण प्रौद्योगिकी अनुसंधान
यह पेपर 18 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें शामिल हैं:
- Transformer आर्किटेक्चर आधार (Vaswani et al., 2017)
- अंग्रेजी भाषण डेटासेट (LibriSpeech, LJSpeech, VCTK)
- बहु-भाषा भाषण संसाधन (Common Voice, VoxPopuli)
- फारसी NLP उपकरण (ParsBERT)
- आधुनिक TTS प्रौद्योगिकी (XTTS)
- वक्ता पहचान प्रौद्योगिकी (ECAPA-TDNN)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला संसाधन-प्रकार का पेपर है, जो बड़े पैमाने पर फारसी TTS कोष बनाकर महत्वपूर्ण संसाधन दुर्लभता समस्या को हल करता है। विधि नवाचार मध्यम लेकिन व्यावहारिकता मजबूत है, प्रयोग सत्यापन पूर्ण है, और फारसी भाषण प्रौद्योगिकी विकास के लिए महत्वपूर्ण प्रेरक भूमिका है। ओपन-सोर्स रिलीज इसके शैक्षणिक और व्यावहारिक मूल्य को और बढ़ाता है।