Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
academic- معرّف الورقة: 2510.10774
- العنوان: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- المؤلفون: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (جامعة طهران)
- التصنيف: cs.SD (الصوت)، cs.AI (الذكاء الاصطناعي)، cs.HC (التفاعل بين الإنسان والحاسوب)، cs.LG (التعلم الآلي)
- تاريخ النشر: 14 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2510.10774
مجموعات بيانات الكلام الفارسية الموجودة أصغر بكثير من نظيراتها باللغة الإنجليزية، مما يخلق قيودًا حرجة لتطوير تقنيات الكلام الفارسية. تعالج هذه الورقة هذه الفجوة من خلال تقديم ParsVoice، وهي أكبر مجموعة بيانات كلام فارسية على نطاق واسع مصممة خصيصًا لتطبيقات تحويل النص إلى كلام (TTS). طور فريق البحث خط أنابيب آلي يحول محتوى الكتب الصوتية الخام إلى بيانات جاهزة للتدريب على TTS، يتضمن كاشف اكتمال الجملة المستند إلى BERT، وطريقة تحسين الحدود بالبحث الثنائي للمحاذاة الدقيقة بين الصوت والنص، وإطار عمل تقييم جودة الصوت والنص المخصص للغة الفارسية. عالج خط الأنابيب 2,000 كتاب صوتي، مما أسفر عن 3,526 ساعة من الكلام النظيف، تم تصفيتها بشكل إضافي إلى 1,804 ساعة من مجموعة فرعية عالية الجودة تضم أكثر من 470 متحدثًا. للتحقق من صحة مجموعة البيانات، قام فريق البحث بضبط دقيق لـ XTTS للغة الفارسية، محققًا متوسط رأي 3.6/5 للطبيعية (MOS) ومتوسط رأي 4.0/5 لتشابه المتحدث (SMOS).
- مشكلة ندرة البيانات: اللغة الفارسية، التي يتحدثها أكثر من 100 مليون شخص عالميًا، تفتقر بشدة إلى التمثيل في مجموعات بيانات الكلام، مع وجود فجوة ضخمة مقارنة باللغات عالية الموارد مثل الإنجليزية.
- متطلبات TTS الخاصة: أنظمة تحويل النص إلى كلام لها متطلبات مختلفة عن أنظمة التعرف على الكلام الآلي (ASR). يمكن لـ ASR الاستفادة من بيانات العالم الحقيقي الضوضائية، بينما يتطلب TTS أزواجًا صوت-نص نظيفة ومحاذاة دقيقة لتوليد كلام طبيعي.
- قيود مجموعات البيانات الموجودة:
- DeepMine+: 480+ ساعة، 1850+ متحدث، لكن مع قيود تجارية
- DeepMine-Multi-TTS: 120 ساعة، 67 متحدث
- ArmanTTS: 9 ساعات، متحدث واحد
- ManaTTS: 86 ساعة، متحدث واحد
ندرة البيانات الفارسية لا تقتصر على الكلام فقط، بل تمتد إلى معالجة النصوص، مما يخلق تأثيرات متسلسلة على عدة مجالات معالجة اللغة الفارسية، بما في ذلك أنظمة محاذاة الكلام والنص والنماذج البصرية للتعرف على الأحرف (OCR)، مما يعيق بشكل كبير تطوير تقنيات اللغة الفارسية.
- بناء أكبر مجموعة بيانات عامة للغة الفارسية TTS: تحتوي على 1,804 ساعة من بيانات الكلام عالية الجودة، 470+ متحدث مختلف، بنمو 10 أضعاف مقارنة بالموارد الفارسية الموجودة
- تطوير خط أنابيب آلي قابل للتوسع لبناء البيانات:
- كشف اكتمال الجملة المستند إلى BERT
- خوارزمية تحسين الحدود بالبحث الثنائي
- إطار عمل تقييم الجودة المخصص للغة الفارسية
- تحقيق TTS فارسي خالٍ من الفونيمات: من خلال ضبط دقيق لنموذج XTTS، يمكن تحقيق توليف كلام عالي الجودة دون الحاجة إلى نسخ فونيمات صريحة
- توفير مجموعة بيانات مفتوحة المصدر: تم نشر مجموعة البيانات الكاملة علنًا، مما يعزز تطوير تقنيات الكلام الفارسية
تحويل صوت الكتب الصوتية الخام إلى بيانات تدريب TTS عالية الجودة، بما في ذلك:
- المدخلات: ملفات صوت الكتب الصوتية الخام والنصوص المقابلة
- المخرجات: أزواج صوت-نص مقسمة بمحاذاة زمنية دقيقة وتقييمات جودة عالية
- القيود: الحفاظ على اكتمال الجملة، ضمان جودة الصوت، تحقيق تحديد المتحدث
- مصدر البيانات: منصة IranSeda (book.iranseda.ir)
- الحجم: 3,800+ كتاب صوتي، تغطية متعددة الفئات
- الجودة: رواة محترفون، بيئة تسجيل محكومة، معدل عينة 44.1 كيلوهرتز
- حقوق الطبع: وصول عام، بدون قيود حقوق الطبع
نموذج كشف اكتمال الجملة:
- مصنف ثنائي تم ضبطه بدقة على أساس ParsBERT
- بيانات التدريب: جمل فارسية كاملة وجمل غير مكتملة اصطناعية
- الأداء: درجة F1 بنسبة 97.4%
عملية التقسيم على ثلاث مراحل:
- كشف الحدود الصوتية: استخدام كشف نشاط الكلام (VAD) من WebRTC
- النسخ والمحاذاة: نسخ Google Speech-to-Text API
- التحقق اللغوي: مصنف BERT للكشف عن اكتمال الجملة، مع توسيع الحدود بزيادات 0.1 ثانية عند الحاجة
استراتيجية البحث على مرحلتين:
- التعديل الأولي: إزالة أول وآخر 3 ثوان
- التحقق من الاستقرار: فحص الاختلافات في النسخ
- تحسين البحث الثنائي: تقليل فترات القص بشكل متكرر
- البحث الخطي الدقيق: محاذاة دقيقة بزيادات 0.1 ثانية
إطار عمل جودة النص الفارسي:
- جودة الأحرف: نسبة أحرف وأرقام فارسية صحيحة
- جودة الطول: تقييم مناسبة طول الجملة
- درجة التكرار: مكافأة تنوع المفردات
- تغطية الفونيمات: نطاق الأحرف والفونيمات الفارسية
إطار عمل جودة الصوت:
- تقدير نسبة الإشارة إلى الضوضاء
- تحليل النطاق الديناميكي
- الميزات الطيفية وتباين MFCC
- كشف القطع والصمت والموسيقى الخلفية
عملية التحديد على مرحلتين:
- فصل المتحدث المحلي: تجميع بناءً على تضمينات ECAPA-TDNN
- تحديد المتحدث العام: توحيد معرف المتحدث عبر الكتب
- التقسيم الحساس للجملة: دمج كشف الحدود الصوتية والتحقق من اكتمال اللغة
- تحسين الحدود التكيفي: خوارزمية فعالة تجمع البحث الثنائي مع الضبط الخطي الدقيق
- تقييم الجودة المخصص للغة الفارسية: إطار عمل متعدد الأبعاد مصمم خصيصًا لخصائص اللغة الفارسية
- عملية معالجة قابلة للتوسع: خط أنابيب آلي قادر على معالجة آلاف الساعات من محتوى الصوت
- البيانات الخام: 3,807 كتب (9,538 ساعة)، تمت معالجة 2,000 كتاب فعليًا
- التقسيم الأولي: 5,158,344 مقطع صوتي
- بعد التصفية: 3,321,212 مقطع صحيح
- مجموعة البيانات النهائية:
- الإجمالي: 3,526 ساعة، 470+ متحدث
- مجموعة فرعية TTS: 1,804 ساعة من البيانات عالية الجودة
- التقييم الذاتي:
- متوسط رأي الطبيعية (MOS) (1-5 نقاط)
- متوسط رأي تشابه المتحدث (SMOS) (1-5 نقاط)
- درجة دقة النص
- التقييم الموضوعي:
- معدل خطأ الكلمات (WER) ومعدل خطأ الأحرف (TER)
- تشابه جيب التمام لتضمينات ECAPA-TDNN
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- أنظمة TTS فارسية أخرى (ManaTTS, DeepMine-Multi-TTS، إلخ)
- النموذج: نموذج XTTS متعدد اللغات TTS
- التدريب: تدريب نموذج BPE، 2,500 رمز فارسي جديد
- الضبط الدقيق: حجم الدفعة 16، 170,000 خطوة
- التقييم: 90 عينة مركبة، 40 مقيّم
| النظام | MOS | SMOS |
|---|
| XTTS + ParsVoice (هذه الورقة) | 3.60 | 4.00 |
| FastSpeech2 End-to-End | 3.72 | 4.02 |
| FastSpeech2 Cascaded | 3.34 | 3.81 |
- WER: 22.57%
- CER: 12.78%
- تشابه المتحدث: 80% (بناءً على تضمينات ECAPA-TDNN)
- دقة النص: 4.0/5 (التقييم اليدوي)
- تأثير تحسين الحدود: إزالة 442.73 ساعة (11.2%) من الصمت والضوضاء غير الضرورية
- إحصائيات التقسيم: 81.0% من المقاطع تتطلب قص البداية، 50.4% تتطلب قص النهاية
- متوسط مدة المقطع: 5.49 ثانية (الأمثل لتدريب TTS)
- التنوع اللغوي: 267,965 كلمة فريدة، 25,499,474 رمز
- المتحدثون المكتشفون: 1,815 حالة متحدث فريدة
- توزيع الجنس: حوالي 33% إناث، 67% ذكور
- الاتساق: 97.0% اتساق مع تسميات الرواة المعروفة
- LibriSpeech: مجموعة بيانات ASR واسعة النطاق
- LJSpeech: مجموعة بيانات TTS لمتحدث واحد
- VCTK: مجموعة بيانات إنجليزية متعددة المتحدثين
- Common Voice: 20+ لغة، لكن جودة الجزء الفارسي غير كافية
- Multilingual LibriSpeech: منحازة نحو اللغات الأوروبية
- VoxPopuli: اختلاف جودة كبير بين المجتمعات اللغوية
- الطرق التقليدية تتطلب تمثيل فونيمات صريح
- مجموعات البيانات الموجودة صغيرة الحجم وغالبًا ما تكون لمتحدث واحد
- القيود التجارية تعيق تطوير البحث
- بناء أكبر مجموعة بيانات عامة للغة الفارسية TTS بنجاح، تحتوي على 1,804 ساعة من بيانات الكلام عالية الجودة
- تطوير خط أنابيب بناء مجموعة بيانات آلي وقابل للتوسع بالكامل، يمكن تطبيقه على لغات منخفضة الموارد أخرى
- التحقق من فعالية مجموعة البيانات، مع تحقيق أداء تنافسية في مهام TTS الفارسية
- قد تقلل مؤشرات التقييم الآلي من تقدير الجودة: بسبب قيود نظام STT التجاري على بيانات الكلام الفارسي المركبة
- عدم توازن توزيع المتحدثين: نسبة أعلى من المتحدثين الذكور (67% مقابل 33%)
- جودة الصوت تعتمد على المواد المصدرية: محدودة بجودة التسجيل الأصلية للكتب الصوتية
- التوسع إلى لغات منخفضة الموارد أخرى: تطبيق خط الأنابيب على لغات أكثر
- تحسين إطار عمل تقييم الجودة: تطوير مؤشرات تقييم آلية أكثر دقة
- تعزيز تنوع المتحدثين: موازنة توزيع الجنس والعمر
- التوسع متعدد الوسائط: دمج المعلومات البصرية في توليف الكلام
- زيادة حجم كبيرة: تحقيق نمو 10 أضعاف مقارنة بموارد اللغة الفارسية الموجودة، ملء فجوة مهمة
- الابتكار التقني:
- كشف اكتمال الجملة المستند إلى BERT جديد وفعال
- خوارزمية تحسين الحدود بالبحث الثنائي فعالة وعملية
- إطار عمل تقييم الجودة المخصص للغة الفارسية قوي التخصص
- كفاية التجارب:
- دمج التقييم الذاتي والموضوعي
- مقارنة مع عدة طرق أساسية
- تحليل وإحصائيات مفصلة لمجموعة البيانات
- المساهمة مفتوحة المصدر: نشر مجموعة البيانات الكاملة علنًا، تعزيز تطوير المجتمع
- قابلية إعادة الإنتاج: وصف مفصل لكل خطوة من خطوات خط الأنابيب
- نطاق التقييم محدود:
- التحقق على نموذج TTS واحد فقط (XTTS)
- نقص المقارنة المباشرة مع مجموعات بيانات متعددة اللغات أخرى على نطاق واسع
- الذاتية في تقييم الجودة:
- تعيين أوزان إطار عمل تقييم الجودة بناءً على التجربة
- نقص التحقق من المقارنة مع جودة التصنيف اليدوي
- نقص التفاصيل التقنية:
- اختيار عتبة تحديد المتحدث يفتقر إلى شرح مفصل
- تفاصيل التنفيذ المحددة لإطار عمل تقييم الجودة محدودة
- التأثير الأكاديمي:
- توفير مورد مهم لأبحاث TTS للغات منخفضة الموارد
- دفع تطوير تقنيات الكلام الفارسية
- توفير منهجية بناء مجموعة بيانات قابلة لإعادة الاستخدام
- القيمة العملية:
- دعم مباشر لتطوير تطبيقات TTS الفارسية
- تقليل الفجوة الرقمية بين اللغة الفارسية واللغات عالية الموارد
- توفير بيانات أساسية لتطبيقات الكلام التجارية
- قابلية الإعادة: النشر مفتوح المصدر والوصف المفصل للطريقة يضمان إعادة إنتاج البحث
- التطبيق المباشر:
- تدريب أنظمة TTS الفارسية
- تكييف نماذج TTS متعددة اللغات للغة الفارسية
- أبحاث تقييم جودة توليف الكلام
- التطبيق الموسع:
- بناء مجموعات بيانات للغات منخفضة الموارد الأخرى
- تطوير خطوط أنابيب معالجة الكلام
- أبحاث تقنيات الكلام عبر اللغات
تستشهد هذه الورقة بـ 18 مرجعًا مهمًا، تغطي:
- أساسيات معمارية Transformer (Vaswani et al., 2017)
- مجموعات بيانات الكلام الإنجليزية (LibriSpeech, LJSpeech, VCTK)
- موارد الكلام متعددة اللغات (Common Voice, VoxPopuli)
- أدوات معالجة اللغة الطبيعية الفارسية (ParsBERT)
- تقنيات TTS الحديثة (XTTS)
- تقنيات تحديد المتحدث (ECAPA-TDNN)
التقييم الشامل: هذه ورقة عالية الجودة من نوع الموارد، تحل مشكلة مهمة تتعلق بندرة الموارد من خلال بناء مجموعة بيانات كلام فارسية واسعة النطاق لـ TTS. الابتكار المنهجي متوسط لكن الجدوى العملية قوية، والتحقق التجريبي كافٍ، وله تأثير مهم على دفع تطوير تقنيات الكلام الفارسية. يعزز النشر مفتوح المصدر قيمته الأكاديمية والعملية بشكل إضافي.