2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice: पाठ-से-भाषण संश्लेषण के लिए बड़े पैमाने पर बहु-वक्ता फारसी भाषण कोष

मूल जानकारी

पेपर ID: 2510.10774
शीर्षक: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
लेखक: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (तेहरान विश्वविद्यालय)
वर्गीकरण: cs.SD (ध्वनि), cs.AI (कृत्रिम बुद्धिमत्ता), cs.HC (मानव-कंप्यूटर इंटरैक्शन), cs.LG (मशीन लर्निंग)
प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2510.10774

सारांश

मौजूदा फारसी भाषण डेटासेट आमतौर पर अंग्रेजी के समकक्ष डेटासेट की तुलना में बहुत छोटे होते हैं, जो फारसी भाषण प्रौद्योगिकी विकास के लिए महत्वपूर्ण सीमाएं बनाते हैं। यह पेपर ParsVoice के माध्यम से इस अंतर को संबोधित करता है, जो पाठ-से-भाषण (TTS) अनुप्रयोगों के लिए विशेष रूप से डिज़ाइन किया गया सबसे बड़े पैमाने का फारसी भाषण कोष है। अनुसंधान दल ने एक स्वचालित पाइपलाइन बनाई है जो कच्चे ऑडियोबुक सामग्री को TTS-तैयार डेटा में परिवर्तित करती है, जिसमें BERT-आधारित वाक्य पूर्णता डिटेक्टर, सटीक ऑडियो-पाठ संरेखण के लिए द्विआधारी खोज सीमा अनुकूलन विधि, और फारसी भाषा के लिए अनुकूलित ऑडियो-पाठ गुणवत्ता मूल्यांकन ढांचा शामिल है। पाइपलाइन ने 2,000 ऑडियोबुक को संसाधित किया, जिससे 3,526 घंटे की स्वच्छ भाषण उत्पन्न हुई, जिसे आगे 1,804 घंटे के उच्च-गुणवत्ता वाले सबसेट में फ़िल्टर किया गया, जिसमें 470 से अधिक वक्ता शामिल हैं। डेटासेट को सत्यापित करने के लिए, अनुसंधान दल ने XTTS को फारसी के लिए सूक्ष्म-ट्यून किया, जिससे 3.6/5 की प्राकृतिकता औसत राय स्कोर (MOS) और 4.0/5 की वक्ता समानता औसत राय स्कोर (SMOS) प्राप्त हुई।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

डेटा दुर्लभता समस्या: फारसी भाषा, जिसे विश्व भर में 100 मिलियन से अधिक लोग बोलते हैं, भाषण कोष के संदर्भ में गंभीर रूप से अल्प-प्रतिनिधित्व किया जाता है, अंग्रेजी जैसी उच्च-संसाधन भाषाओं की तुलना में विशाल अंतर है।
TTS विशेष आवश्यकताएं: पाठ-से-भाषण प्रणालियों को डेटा गुणवत्ता के संदर्भ में स्वचालित भाषण पहचान (ASR) प्रणालियों से अलग आवश्यकताएं होती हैं। ASR शोरपूर्ण वास्तविक-विश्व डेटा से लाभान्वित हो सकता है, जबकि TTS को प्राकृतिक भाषण उत्पन्न करने के लिए स्वच्छ और सटीक रूप से संरेखित ऑडियो-पाठ जोड़ी की आवश्यकता होती है।
मौजूदा डेटासेट की सीमाएं:
- DeepMine+: 480+ घंटे, 1850+ वक्ता, लेकिन वाणिज्यिक प्रतिबंध
- DeepMine-Multi-TTS: 120 घंटे, 67 वक्ता
- ArmanTTS: 9 घंटे, एकल वक्ता
- ManaTTS: 86 घंटे, एकल वक्ता

अनुसंधान का महत्व

फारसी भाषा डेटा की कमी केवल भाषण तक सीमित नहीं है, बल्कि पाठ प्रसंस्करण तक भी विस्तृत है, जो भाषण-से-पाठ संरेखण प्रणाली, ऑप्टिकल वर्ण पहचान (OCR) मॉडल आदि सहित कई फारसी भाषा प्रसंस्करण क्षेत्रों में श्रृंखला प्रभाव डालता है, जो फारसी प्रौद्योगिकी विकास में गंभीर बाधा डालता है।

मुख्य योगदान

अब तक का सबसे बड़ा सार्वजनिक फारसी TTS कोष बनाया: 1,804 घंटे उच्च-गुणवत्ता भाषण डेटा, 470+ विभिन्न वक्ता, मौजूदा फारसी संसाधनों की तुलना में 10 गुना वृद्धि
स्केलेबल स्वचालित डेटा निर्माण पाइपलाइन विकसित की:
- BERT-आधारित वाक्य पूर्णता डिटेक्शन
- द्विआधारी खोज सीमा अनुकूलन एल्गोरिदम
- फारसी-विशिष्ट गुणवत्ता मूल्यांकन ढांचा
फारसी के लिए फोनीम-मुक्त TTS लागू किया: XTTS मॉडल को सूक्ष्म-ट्यून करके, स्पष्ट फोनीम ट्रांसक्रिप्शन के बिना उच्च-गुणवत्ता भाषण संश्लेषण प्राप्त किया
ओपन-सोर्स डेटासेट प्रदान किया: संपूर्ण डेटासेट सार्वजनिक रूप से जारी किया गया है, फारसी भाषण प्रौद्योगिकी विकास को बढ़ावा देता है

विधि विवरण

कार्य परिभाषा

कच्चे ऑडियोबुक ऑडियो को उच्च-गुणवत्ता TTS प्रशिक्षण डेटा में परिवर्तित करना, जिसमें शामिल है:

इनपुट: कच्चे ऑडियोबुक ऑडियो फ़ाइलें और संबंधित पाठ
आउटपुट: विभाजित ऑडियो-पाठ जोड़ी, सटीक समय संरेखण और उच्च-गुणवत्ता स्कोर के साथ
बाधाएं: वाक्य पूर्णता बनाए रखना, ऑडियो गुणवत्ता सुनिश्चित करना, वक्ता पहचान प्राप्त करना

स्वचालित कोष निर्माण पाइपलाइन

1. डेटा संग्रह और स्रोत चयन

डेटा स्रोत: IranSeda प्लेटफॉर्म (book.iranseda.ir)
स्केल: 3,800+ ऑडियोबुक, बहु-श्रेणी कवरेज
गुणवत्ता: पेशेवर वर्णनकार, नियंत्रित रिकॉर्डिंग वातावरण, 44.1kHz नमूना दर
कॉपीराइट: सार्वजनिक पहुंच, कोई कॉपीराइट प्रतिबंध नहीं

2. बुद्धिमान ऑडियो विभाजन

वाक्य पूर्णता डिटेक्शन मॉडल:

ParsBERT सूक्ष्म-ट्यून आधारित द्विआधारी वर्गीकरण
प्रशिक्षण डेटा: पूर्ण फारसी वाक्य और संश्लेषित अधूरे वाक्य
प्रदर्शन: F1 स्कोर 97.4%

तीन-चरणीय विभाजन प्रवाह:

ध्वनिक सीमा डिटेक्शन: WebRTC भाषण गतिविधि डिटेक्शन (VAD) का उपयोग
ट्रांसक्रिप्शन और संरेखण: Google Speech-to-Text API ट्रांसक्रिप्शन
भाषाई सत्यापन: BERT वर्गीकरण वाक्य पूर्णता का पता लगाता है, आवश्यकतानुसार 0.1 सेकंड वृद्धि सीमा विस्तार

3. सीमा अनुकूलन एल्गोरिदम

द्विआधारी-चरणीय खोज रणनीति:

प्रारंभिक समायोजन: शुरुआत और अंत से प्रत्येक 3 सेकंड हटाएं
स्थिरता सत्यापन: ट्रांसक्रिप्शन अंतर की जांच करें
द्विआधारी खोज अनुकूलन: पुनरावृत्ति रूप से आधा ट्रिमिंग अंतराल
सूक्ष्म-दानेदार रैखिक खोज: 0.1 सेकंड वृद्धि सटीक संरेखण

4. पाठ-ऑडियो गुणवत्ता मूल्यांकन

फारसी पाठ गुणवत्ता ढांचा:

वर्ण गुणवत्ता: वैध फारसी वर्ण और संख्या अनुपात
लंबाई गुणवत्ता: वाक्य लंबाई उपयुक्तता मूल्यांकन
पुनरावृत्ति स्कोर: शब्दावली विविधता पुरस्कार
फोनीम कवरेज: फारसी वर्ण और फोनीम सीमा

ऑडियो गुणवत्ता ढांचा:

संकेत-से-शोर अनुपात अनुमान
गतिशील सीमा विश्लेषण
वर्णक्रमीय विशेषताएं और MFCC विचरण
क्लिपिंग, मौन, पृष्ठभूमि संगीत डिटेक्शन

5. वक्ता पहचान

दो-चरणीय पहचान प्रवाह:

स्थानीय वक्ता अलगाव: ECAPA-TDNN एम्बेडिंग आधारित क्लस्टरिंग
वैश्विक वक्ता पहचान: पुस्तकों में वक्ता एकीकृत पहचान

तकनीकी नवाचार बिंदु

वाक्य-जागरूक विभाजन: ध्वनिक सीमा डिटेक्शन और भाषाई पूर्णता सत्यापन का संयोजन
अनुकूली सीमा अनुकूलन: द्विआधारी खोज के साथ रैखिक सूक्ष्म-ट्यूनिंग का कुशल एल्गोरिदम
फारसी-विशिष्ट गुणवत्ता मूल्यांकन: फारसी विशेषताओं के लिए डिज़ाइन किया गया बहु-आयामी गुणवत्ता मूल्यांकन ढांचा
स्केलेबल प्रसंस्करण प्रवाह: हजारों घंटे ऑडियो सामग्री को संसाधित करने में सक्षम स्वचालित पाइपलाइन

प्रायोगिक सेटअप

डेटासेट सांख्यिकी

कच्चा डेटा: 3,807 पुस्तकें (9,538 घंटे), वास्तविक प्रसंस्करण 2,000 पुस्तकें
प्रारंभिक विभाजन: 5,158,344 ऑडियो खंड
फ़िल्टर के बाद: 3,321,212 वैध खंड
अंतिम डेटासेट:
- कुल: 3,526 घंटे, 470+ वक्ता
- TTS सबसेट: 1,804 घंटे उच्च-गुणवत्ता डेटा

मूल्यांकन मेट्रिक्स

व्यक्तिपरक मूल्यांकन:
- प्राकृतिकता MOS (1-5 स्केल)
- वक्ता समानता SMOS (1-5 स्केल)
- पाठ सटीकता स्कोर
उद्देश्यपूर्ण मूल्यांकन:
- शब्द त्रुटि दर (WER) और वर्ण त्रुटि दर (CER)
- ECAPA-TDNN एम्बेडिंग कोसाइन समानता

तुलना विधियां

FastSpeech2 End-to-End
FastSpeech2 Cascaded
अन्य फारसी TTS प्रणालियां (ManaTTS, DeepMine-Multi-TTS आदि)

कार्यान्वयन विवरण

मॉडल: XTTS बहु-भाषा TTS मॉडल
प्रशिक्षण: BPE मॉडल प्रशिक्षण, 2,500 नए फारसी टोकन
सूक्ष्म-ट्यूनिंग: बैच आकार 16, 170,000 चरण
मूल्यांकन: 90 संश्लेषित नमूने, 40 मूल्यांकनकर्ता

प्रायोगिक परिणाम

मुख्य परिणाम

प्रणाली	MOS	SMOS
XTTS + ParsVoice (यह पेपर)	3.60	4.00
FastSpeech2 End-to-End	3.72	4.02
FastSpeech2 Cascaded	3.34	3.81

उद्देश्यपूर्ण मूल्यांकन परिणाम

WER: 22.57%
CER: 12.78%
वक्ता समानता: 80% (ECAPA-TDNN एम्बेडिंग आधारित)
पाठ सटीकता: 4.0/5 (मानव मूल्यांकन)

डेटासेट गुणवत्ता विश्लेषण

सीमा अनुकूलन प्रभाव: 442.73 घंटे (11.2%) अनावश्यक मौन और शोर हटाया गया
विभाजन सांख्यिकी: 81.0% खंड को शुरुआत ट्रिमिंग की आवश्यकता, 50.4% को अंत ट्रिमिंग की आवश्यकता
औसत खंड अवधि: 5.49 सेकंड (TTS प्रशिक्षण के लिए इष्टतम)
भाषाई विविधता: 267,965 अद्वितीय शब्द, 25,499,474 टोकन

वक्ता पहचान सटीकता

पहचाने गए वक्ता: 1,815 अद्वितीय वक्ता उदाहरण
लिंग वितरण: लगभग 33% महिला, 67% पुरुष
सामंजस्य: ज्ञात वर्णनकार लेबल के साथ 97.0% सामंजस्य

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सफलतापूर्वक सार्वजनिक फारसी TTS कोष का सबसे बड़ा संस्करण बनाया, जिसमें 1,804 घंटे उच्च-गुणवत्ता भाषण डेटा है
पूरी तरह से स्वचालित और स्केलेबल डेटासेट निर्माण पाइपलाइन विकसित की, जिसे अन्य कम-संसाधन भाषाओं पर लागू किया जा सकता है
डेटासेट की प्रभावशीलता सत्यापित की, फारसी TTS कार्य पर प्रतिस्पर्धी प्रदर्शन प्राप्त किया

सीमाएं

स्वचालित मूल्यांकन मेट्रिक्स गुणवत्ता को कम आंक सकते हैं: वाणिज्यिक STT प्रणाली के फारसी संश्लेषित भाषण डेटा के लिए सीमित समर्थन के कारण
वक्ता वितरण असंतुलित: पुरुष वक्ता अनुपात अधिक (67% बनाम 33%)
ऑडियो गुणवत्ता स्रोत सामग्री पर निर्भर: मूल ऑडियोबुक रिकॉर्डिंग गुणवत्ता द्वारा सीमित

भविष्य की दिशाएं

अन्य कम-संसाधन भाषाओं तक विस्तार: पाइपलाइन को अधिक भाषाओं पर लागू करना
गुणवत्ता मूल्यांकन ढांचा में सुधार: अधिक सटीक स्वचालित मूल्यांकन मेट्रिक्स विकसित करना
वक्ता विविधता बढ़ाना: लिंग और आयु वितरण को संतुलित करना
बहु-मोडल विस्तार: दृश्य जानकारी के साथ भाषण संश्लेषण को संयोजित करना

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण स्केल वृद्धि: मौजूदा फारसी संसाधनों की तुलना में 10 गुना वृद्धि, महत्वपूर्ण अंतर को भरता है
तकनीकी नवाचार:
- BERT-आधारित वाक्य पूर्णता डिटेक्शन नवीन और प्रभावी
- द्विआधारी खोज सीमा अनुकूलन एल्गोरिदम कुशल और व्यावहारिक
- फारसी-विशिष्ट गुणवत्ता मूल्यांकन ढांचा लक्षित और प्रभावी
प्रयोग पूर्णता:
- व्यक्तिपरक और उद्देश्यपूर्ण मूल्यांकन का संयोजन
- कई आधारभूत विधियों के साथ तुलना
- विस्तृत डेटासेट विश्लेषण और सांख्यिकी
ओपन-सोर्स योगदान: संपूर्ण डेटासेट सार्वजनिक रूप से जारी, समुदाय विकास को बढ़ावा देता है
विधि पुनरुत्पादनीयता: पाइपलाइन के प्रत्येक चरण का विस्तृत विवरण

कमियां

सीमित मूल्यांकन सीमा:
- केवल एक TTS मॉडल (XTTS) पर सत्यापित
- अन्य बड़े पैमाने पर बहु-भाषा डेटासेट के साथ प्रत्यक्ष तुलना की कमी
गुणवत्ता मूल्यांकन व्यक्तिपरकता:
- गुणवत्ता मूल्यांकन ढांचा वजन सेटिंग अनुभव आधारित
- मानव-टिप्पणीकृत गुणवत्ता के साथ तुलना सत्यापन की कमी
अपर्याप्त तकनीकी विवरण:
- वक्ता पहचान थ्रेशोल्ड चयन विस्तृत व्याख्या की कमी
- गुणवत्ता मूल्यांकन ढांचा विशिष्ट कार्यान्वयन विवरण सीमित

प्रभाव

शैक्षणिक प्रभाव:
- कम-संसाधन भाषा TTS अनुसंधान के लिए महत्वपूर्ण संसाधन प्रदान करता है
- फारसी भाषण प्रौद्योगिकी विकास को बढ़ावा देता है
- पुनः उपयोग योग्य डेटासेट निर्माण पद्धति प्रदान करता है
व्यावहारिक मूल्य:
- फारसी TTS अनुप्रयोग विकास को सीधे समर्थन करता है
- फारसी और उच्च-संसाधन भाषाओं के बीच डिजिटल विभाजन को कम करता है
- वाणिज्यिक भाषण अनुप्रयोगों के लिए आधार डेटा प्रदान करता है
पुनरुत्पादनीयता: ओपन-सोर्स रिलीज और विस्तृत विधि विवरण अनुसंधान पुनरुत्पादनीयता सुनिश्चित करता है

लागू परिदृश्य

प्रत्यक्ष अनुप्रयोग:
- फारसी TTS प्रणाली प्रशिक्षण
- बहु-भाषा TTS मॉडल के फारसी अनुकूलन
- भाषण संश्लेषण गुणवत्ता मूल्यांकन अनुसंधान
विस्तारित अनुप्रयोग:
- अन्य कम-संसाधन भाषा डेटासेट निर्माण
- भाषण प्रसंस्करण पाइपलाइन विकास
- क्रॉस-भाषा भाषण प्रौद्योगिकी अनुसंधान

संदर्भ

यह पेपर 18 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें शामिल हैं:

Transformer आर्किटेक्चर आधार (Vaswani et al., 2017)
अंग्रेजी भाषण डेटासेट (LibriSpeech, LJSpeech, VCTK)
बहु-भाषा भाषण संसाधन (Common Voice, VoxPopuli)
फारसी NLP उपकरण (ParsBERT)
आधुनिक TTS प्रौद्योगिकी (XTTS)
वक्ता पहचान प्रौद्योगिकी (ECAPA-TDNN)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला संसाधन-प्रकार का पेपर है, जो बड़े पैमाने पर फारसी TTS कोष बनाकर महत्वपूर्ण संसाधन दुर्लभता समस्या को हल करता है। विधि नवाचार मध्यम लेकिन व्यावहारिकता मजबूत है, प्रयोग सत्यापन पूर्ण है, और फारसी भाषण प्रौद्योगिकी विकास के लिए महत्वपूर्ण प्रेरक भूमिका है। ओपन-सोर्स रिलीज इसके शैक्षणिक और व्यावहारिक मूल्य को और बढ़ाता है।