2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice: مجموعة بيانات كلام فارسية متعددة المتحدثين على نطاق واسع لتوليف النص إلى الكلام

المعلومات الأساسية

معرّف الورقة: 2510.10774
العنوان: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
المؤلفون: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (جامعة طهران)
التصنيف: cs.SD (الصوت)، cs.AI (الذكاء الاصطناعي)، cs.HC (التفاعل بين الإنسان والحاسوب)، cs.LG (التعلم الآلي)
تاريخ النشر: 14 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2510.10774

الملخص

مجموعات بيانات الكلام الفارسية الموجودة أصغر بكثير من نظيراتها باللغة الإنجليزية، مما يخلق قيودًا حرجة لتطوير تقنيات الكلام الفارسية. تعالج هذه الورقة هذه الفجوة من خلال تقديم ParsVoice، وهي أكبر مجموعة بيانات كلام فارسية على نطاق واسع مصممة خصيصًا لتطبيقات تحويل النص إلى كلام (TTS). طور فريق البحث خط أنابيب آلي يحول محتوى الكتب الصوتية الخام إلى بيانات جاهزة للتدريب على TTS، يتضمن كاشف اكتمال الجملة المستند إلى BERT، وطريقة تحسين الحدود بالبحث الثنائي للمحاذاة الدقيقة بين الصوت والنص، وإطار عمل تقييم جودة الصوت والنص المخصص للغة الفارسية. عالج خط الأنابيب 2,000 كتاب صوتي، مما أسفر عن 3,526 ساعة من الكلام النظيف، تم تصفيتها بشكل إضافي إلى 1,804 ساعة من مجموعة فرعية عالية الجودة تضم أكثر من 470 متحدثًا. للتحقق من صحة مجموعة البيانات، قام فريق البحث بضبط دقيق لـ XTTS للغة الفارسية، محققًا متوسط رأي 3.6/5 للطبيعية (MOS) ومتوسط رأي 4.0/5 لتشابه المتحدث (SMOS).

خلفية البحث والدافع

تعريف المشكلة

مشكلة ندرة البيانات: اللغة الفارسية، التي يتحدثها أكثر من 100 مليون شخص عالميًا، تفتقر بشدة إلى التمثيل في مجموعات بيانات الكلام، مع وجود فجوة ضخمة مقارنة باللغات عالية الموارد مثل الإنجليزية.
متطلبات TTS الخاصة: أنظمة تحويل النص إلى كلام لها متطلبات مختلفة عن أنظمة التعرف على الكلام الآلي (ASR). يمكن لـ ASR الاستفادة من بيانات العالم الحقيقي الضوضائية، بينما يتطلب TTS أزواجًا صوت-نص نظيفة ومحاذاة دقيقة لتوليد كلام طبيعي.
قيود مجموعات البيانات الموجودة:
- DeepMine+: 480+ ساعة، 1850+ متحدث، لكن مع قيود تجارية
- DeepMine-Multi-TTS: 120 ساعة، 67 متحدث
- ArmanTTS: 9 ساعات، متحدث واحد
- ManaTTS: 86 ساعة، متحدث واحد

أهمية البحث

ندرة البيانات الفارسية لا تقتصر على الكلام فقط، بل تمتد إلى معالجة النصوص، مما يخلق تأثيرات متسلسلة على عدة مجالات معالجة اللغة الفارسية، بما في ذلك أنظمة محاذاة الكلام والنص والنماذج البصرية للتعرف على الأحرف (OCR)، مما يعيق بشكل كبير تطوير تقنيات اللغة الفارسية.

المساهمات الأساسية

بناء أكبر مجموعة بيانات عامة للغة الفارسية TTS: تحتوي على 1,804 ساعة من بيانات الكلام عالية الجودة، 470+ متحدث مختلف، بنمو 10 أضعاف مقارنة بالموارد الفارسية الموجودة
تطوير خط أنابيب آلي قابل للتوسع لبناء البيانات:
- كشف اكتمال الجملة المستند إلى BERT
- خوارزمية تحسين الحدود بالبحث الثنائي
- إطار عمل تقييم الجودة المخصص للغة الفارسية
تحقيق TTS فارسي خالٍ من الفونيمات: من خلال ضبط دقيق لنموذج XTTS، يمكن تحقيق توليف كلام عالي الجودة دون الحاجة إلى نسخ فونيمات صريحة
توفير مجموعة بيانات مفتوحة المصدر: تم نشر مجموعة البيانات الكاملة علنًا، مما يعزز تطوير تقنيات الكلام الفارسية

شرح الطريقة

تعريف المهمة

تحويل صوت الكتب الصوتية الخام إلى بيانات تدريب TTS عالية الجودة، بما في ذلك:

المدخلات: ملفات صوت الكتب الصوتية الخام والنصوص المقابلة
المخرجات: أزواج صوت-نص مقسمة بمحاذاة زمنية دقيقة وتقييمات جودة عالية
القيود: الحفاظ على اكتمال الجملة، ضمان جودة الصوت، تحقيق تحديد المتحدث

خط الأنابيب الآلي لبناء المجموعة

1. جمع البيانات واختيار المصدر

مصدر البيانات: منصة IranSeda (book.iranseda.ir)
الحجم: 3,800+ كتاب صوتي، تغطية متعددة الفئات
الجودة: رواة محترفون، بيئة تسجيل محكومة، معدل عينة 44.1 كيلوهرتز
حقوق الطبع: وصول عام، بدون قيود حقوق الطبع

2. تقسيم الصوت الذكي

نموذج كشف اكتمال الجملة:

مصنف ثنائي تم ضبطه بدقة على أساس ParsBERT
بيانات التدريب: جمل فارسية كاملة وجمل غير مكتملة اصطناعية
الأداء: درجة F1 بنسبة 97.4%

عملية التقسيم على ثلاث مراحل:

كشف الحدود الصوتية: استخدام كشف نشاط الكلام (VAD) من WebRTC
النسخ والمحاذاة: نسخ Google Speech-to-Text API
التحقق اللغوي: مصنف BERT للكشف عن اكتمال الجملة، مع توسيع الحدود بزيادات 0.1 ثانية عند الحاجة

3. خوارزمية تحسين الحدود

استراتيجية البحث على مرحلتين:

التعديل الأولي: إزالة أول وآخر 3 ثوان
التحقق من الاستقرار: فحص الاختلافات في النسخ
تحسين البحث الثنائي: تقليل فترات القص بشكل متكرر
البحث الخطي الدقيق: محاذاة دقيقة بزيادات 0.1 ثانية

4. تقييم جودة النص والصوت

إطار عمل جودة النص الفارسي:

جودة الأحرف: نسبة أحرف وأرقام فارسية صحيحة
جودة الطول: تقييم مناسبة طول الجملة
درجة التكرار: مكافأة تنوع المفردات
تغطية الفونيمات: نطاق الأحرف والفونيمات الفارسية

إطار عمل جودة الصوت:

تقدير نسبة الإشارة إلى الضوضاء
تحليل النطاق الديناميكي
الميزات الطيفية وتباين MFCC
كشف القطع والصمت والموسيقى الخلفية

5. تحديد المتحدث

عملية التحديد على مرحلتين:

فصل المتحدث المحلي: تجميع بناءً على تضمينات ECAPA-TDNN
تحديد المتحدث العام: توحيد معرف المتحدث عبر الكتب

نقاط الابتكار التقني

التقسيم الحساس للجملة: دمج كشف الحدود الصوتية والتحقق من اكتمال اللغة
تحسين الحدود التكيفي: خوارزمية فعالة تجمع البحث الثنائي مع الضبط الخطي الدقيق
تقييم الجودة المخصص للغة الفارسية: إطار عمل متعدد الأبعاد مصمم خصيصًا لخصائص اللغة الفارسية
عملية معالجة قابلة للتوسع: خط أنابيب آلي قادر على معالجة آلاف الساعات من محتوى الصوت

إعداد التجارب

إحصائيات مجموعة البيانات

البيانات الخام: 3,807 كتب (9,538 ساعة)، تمت معالجة 2,000 كتاب فعليًا
التقسيم الأولي: 5,158,344 مقطع صوتي
بعد التصفية: 3,321,212 مقطع صحيح
مجموعة البيانات النهائية:
- الإجمالي: 3,526 ساعة، 470+ متحدث
- مجموعة فرعية TTS: 1,804 ساعة من البيانات عالية الجودة

مؤشرات التقييم

التقييم الذاتي:
- متوسط رأي الطبيعية (MOS) (1-5 نقاط)
- متوسط رأي تشابه المتحدث (SMOS) (1-5 نقاط)
- درجة دقة النص
التقييم الموضوعي:
- معدل خطأ الكلمات (WER) ومعدل خطأ الأحرف (TER)
- تشابه جيب التمام لتضمينات ECAPA-TDNN

الطرق المقارنة

FastSpeech2 End-to-End
FastSpeech2 Cascaded
أنظمة TTS فارسية أخرى (ManaTTS, DeepMine-Multi-TTS، إلخ)

تفاصيل التنفيذ

النموذج: نموذج XTTS متعدد اللغات TTS
التدريب: تدريب نموذج BPE، 2,500 رمز فارسي جديد
الضبط الدقيق: حجم الدفعة 16، 170,000 خطوة
التقييم: 90 عينة مركبة، 40 مقيّم

نتائج التجارب

النتائج الرئيسية

النظام	MOS	SMOS
XTTS + ParsVoice (هذه الورقة)	3.60	4.00
FastSpeech2 End-to-End	3.72	4.02
FastSpeech2 Cascaded	3.34	3.81

نتائج التقييم الموضوعي

WER: 22.57%
CER: 12.78%
تشابه المتحدث: 80% (بناءً على تضمينات ECAPA-TDNN)
دقة النص: 4.0/5 (التقييم اليدوي)

تحليل جودة مجموعة البيانات

تأثير تحسين الحدود: إزالة 442.73 ساعة (11.2%) من الصمت والضوضاء غير الضرورية
إحصائيات التقسيم: 81.0% من المقاطع تتطلب قص البداية، 50.4% تتطلب قص النهاية
متوسط مدة المقطع: 5.49 ثانية (الأمثل لتدريب TTS)
التنوع اللغوي: 267,965 كلمة فريدة، 25,499,474 رمز

دقة تحديد المتحدث

المتحدثون المكتشفون: 1,815 حالة متحدث فريدة
توزيع الجنس: حوالي 33% إناث، 67% ذكور
الاتساق: 97.0% اتساق مع تسميات الرواة المعروفة

الأعمال ذات الصلة

مجموعات بيانات الكلام الإنجليزية

LibriSpeech: مجموعة بيانات ASR واسعة النطاق
LJSpeech: مجموعة بيانات TTS لمتحدث واحد
VCTK: مجموعة بيانات إنجليزية متعددة المتحدثين

الجهود متعددة اللغات

Common Voice: 20+ لغة، لكن جودة الجزء الفارسي غير كافية
Multilingual LibriSpeech: منحازة نحو اللغات الأوروبية
VoxPopuli: اختلاف جودة كبير بين المجتمعات اللغوية

أبحاث TTS الفارسية

الطرق التقليدية تتطلب تمثيل فونيمات صريح
مجموعات البيانات الموجودة صغيرة الحجم وغالبًا ما تكون لمتحدث واحد
القيود التجارية تعيق تطوير البحث

الخلاصة والمناقشة

الاستنتاجات الرئيسية

بناء أكبر مجموعة بيانات عامة للغة الفارسية TTS بنجاح، تحتوي على 1,804 ساعة من بيانات الكلام عالية الجودة
تطوير خط أنابيب بناء مجموعة بيانات آلي وقابل للتوسع بالكامل، يمكن تطبيقه على لغات منخفضة الموارد أخرى
التحقق من فعالية مجموعة البيانات، مع تحقيق أداء تنافسية في مهام TTS الفارسية

القيود

قد تقلل مؤشرات التقييم الآلي من تقدير الجودة: بسبب قيود نظام STT التجاري على بيانات الكلام الفارسي المركبة
عدم توازن توزيع المتحدثين: نسبة أعلى من المتحدثين الذكور (67% مقابل 33%)
جودة الصوت تعتمد على المواد المصدرية: محدودة بجودة التسجيل الأصلية للكتب الصوتية

الاتجاهات المستقبلية

التوسع إلى لغات منخفضة الموارد أخرى: تطبيق خط الأنابيب على لغات أكثر
تحسين إطار عمل تقييم الجودة: تطوير مؤشرات تقييم آلية أكثر دقة
تعزيز تنوع المتحدثين: موازنة توزيع الجنس والعمر
التوسع متعدد الوسائط: دمج المعلومات البصرية في توليف الكلام

التقييم المتعمق

المزايا

زيادة حجم كبيرة: تحقيق نمو 10 أضعاف مقارنة بموارد اللغة الفارسية الموجودة، ملء فجوة مهمة
الابتكار التقني:
- كشف اكتمال الجملة المستند إلى BERT جديد وفعال
- خوارزمية تحسين الحدود بالبحث الثنائي فعالة وعملية
- إطار عمل تقييم الجودة المخصص للغة الفارسية قوي التخصص
كفاية التجارب:
- دمج التقييم الذاتي والموضوعي
- مقارنة مع عدة طرق أساسية
- تحليل وإحصائيات مفصلة لمجموعة البيانات
المساهمة مفتوحة المصدر: نشر مجموعة البيانات الكاملة علنًا، تعزيز تطوير المجتمع
قابلية إعادة الإنتاج: وصف مفصل لكل خطوة من خطوات خط الأنابيب

أوجه القصور

نطاق التقييم محدود:
- التحقق على نموذج TTS واحد فقط (XTTS)
- نقص المقارنة المباشرة مع مجموعات بيانات متعددة اللغات أخرى على نطاق واسع
الذاتية في تقييم الجودة:
- تعيين أوزان إطار عمل تقييم الجودة بناءً على التجربة
- نقص التحقق من المقارنة مع جودة التصنيف اليدوي
نقص التفاصيل التقنية:
- اختيار عتبة تحديد المتحدث يفتقر إلى شرح مفصل
- تفاصيل التنفيذ المحددة لإطار عمل تقييم الجودة محدودة

التأثير

التأثير الأكاديمي:
- توفير مورد مهم لأبحاث TTS للغات منخفضة الموارد
- دفع تطوير تقنيات الكلام الفارسية
- توفير منهجية بناء مجموعة بيانات قابلة لإعادة الاستخدام
القيمة العملية:
- دعم مباشر لتطوير تطبيقات TTS الفارسية
- تقليل الفجوة الرقمية بين اللغة الفارسية واللغات عالية الموارد
- توفير بيانات أساسية لتطبيقات الكلام التجارية
قابلية الإعادة: النشر مفتوح المصدر والوصف المفصل للطريقة يضمان إعادة إنتاج البحث

السيناريوهات المعمول بها

التطبيق المباشر:
- تدريب أنظمة TTS الفارسية
- تكييف نماذج TTS متعددة اللغات للغة الفارسية
- أبحاث تقييم جودة توليف الكلام
التطبيق الموسع:
- بناء مجموعات بيانات للغات منخفضة الموارد الأخرى
- تطوير خطوط أنابيب معالجة الكلام
- أبحاث تقنيات الكلام عبر اللغات

المراجع

تستشهد هذه الورقة بـ 18 مرجعًا مهمًا، تغطي:

أساسيات معمارية Transformer (Vaswani et al., 2017)
مجموعات بيانات الكلام الإنجليزية (LibriSpeech, LJSpeech, VCTK)
موارد الكلام متعددة اللغات (Common Voice, VoxPopuli)
أدوات معالجة اللغة الطبيعية الفارسية (ParsBERT)
تقنيات TTS الحديثة (XTTS)
تقنيات تحديد المتحدث (ECAPA-TDNN)

التقييم الشامل: هذه ورقة عالية الجودة من نوع الموارد، تحل مشكلة مهمة تتعلق بندرة الموارد من خلال بناء مجموعة بيانات كلام فارسية واسعة النطاق لـ TTS. الابتكار المنهجي متوسط لكن الجدوى العملية قوية، والتحقق التجريبي كافٍ، وله تأثير مهم على دفع تطوير تقنيات الكلام الفارسية. يعزز النشر مفتوح المصدر قيمته الأكاديمية والعملية بشكل إضافي.