Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
- Papier-ID: 2510.10774
- Titel: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- Autoren: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Universität Teheran)
- Klassifizierung: cs.SD (Sound), cs.AI (Künstliche Intelligenz), cs.HC (Mensch-Computer-Interaktion), cs.LG (Maschinelles Lernen)
- Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v2)
- Papierlink: https://arxiv.org/abs/2510.10774
Bestehende persische Sprachdatensätze sind typischerweise erheblich kleiner als ihre englischen Entsprechungen, was kritische Einschränkungen für die Entwicklung persischer Sprachtechnologien darstellt. Dieses Papier adressiert diese Lücke durch die Einführung von ParsVoice, dem größten Sprachkorpus in persischer Sprache, das speziell für Text-to-Speech(TTS)-Anwendungen konzipiert ist. Das Forschungsteam entwickelte eine automatisierte Pipeline, die Rohhörbuchinhalte in TTS-bereite Daten umwandelt. Diese umfasst einen BERT-basierten Satzvollständigkeitsdetektor, eine Binärsuche-Grenzoptimierungsmethode für präzise Audio-Text-Ausrichtung sowie ein für Persisch angepasstes Audio-Text-Qualitätsbewertungsframework. Die Pipeline verarbeitete 2.000 Hörbücher und produzierte 3.526 Stunden sauberer Sprache, die weiter auf 1.804 Stunden hochwertiger Teilmenge gefiltert wurden, die über 470 Sprecher umfasst. Zur Validierung des Datensatzes führte das Forschungsteam eine Feinabstimmung von XTTS für Persisch durch und erzielte eine Durchschnittsmeinung zur Natürlichkeit (MOS) von 3,6/5 und eine Sprecherähnlichkeit-MOS (SMOS) von 4,0/5.
- Datenmangelproblem: Persisch wird von über 100 Millionen Menschen weltweit gesprochen, ist aber in Sprachkorpora stark unterrepräsentiert, mit enormen Lücken im Vergleich zu hochressourcigen Sprachen wie Englisch.
- Spezifische TTS-Anforderungen: Text-to-Speech-Systeme haben andere Datenanforderungen als automatische Spracherkennung(ASR)-Systeme. ASR kann von verrauschten Echtdaten profitieren, während TTS saubere und präzise ausgerichtete Audio-Text-Paare benötigt, um natürliche Sprache zu generieren.
- Einschränkungen bestehender Datensätze:
- DeepMine+: 480+ Stunden, 1850+ Sprecher, aber kommerzielle Einschränkungen
- DeepMine-Multi-TTS: 120 Stunden, 67 Sprecher
- ArmanTTS: 9 Stunden, einzelner Sprecher
- ManaTTS: 86 Stunden, einzelner Sprecher
Der Datenmangel in Persisch beschränkt sich nicht nur auf Sprache, sondern erstreckt sich auch auf Textverarbeitung und hat Kaskadeneffekte auf mehrere persische Sprachverarbeitungsfelder, einschließlich Sprach-zu-Text-Ausrichtungssysteme, optische Zeichenerkennung(OCR)-Modelle und mehr, was die Entwicklung persischer Technologie erheblich behindert.
- Konstruktion des größten öffentlich verfügbaren persischen TTS-Korpus: Enthält 1.804 Stunden hochwertiger Sprachdaten mit 470+ verschiedenen Sprechern, eine 10-fache Steigerung gegenüber bestehenden persischen Ressourcen
- Entwicklung einer skalierbaren automatisierten Datenkonstruktions-Pipeline:
- BERT-basierte Satzvollständigkeitserkennung
- Binärsuche-Grenzoptimierungsalgorithmus
- Persisch-spezifisches Qualitätsbewertungsframework
- Implementierung von phonemfreier persischer TTS: Durch Feinabstimmung des XTTS-Modells hochwertige Sprachsynthese ohne explizite Phonemtranskription erreicht
- Bereitstellung eines Open-Source-Datensatzes: Vollständiger Datensatz öffentlich veröffentlicht, um die Entwicklung persischer Sprachtechnologie zu fördern
Umwandlung von Rohhörbuchaudio in hochwertige TTS-Trainingsdaten, einschließlich:
- Eingabe: Rohe Hörbuchaudiodateien und entsprechender Text
- Ausgabe: Segmentierte Audio-Text-Paare mit präziser zeitlicher Ausrichtung und hochwertigen Bewertungen
- Einschränkungen: Beibehaltung der Satzvollständigkeit, Sicherung der Audioqualität, Sprechererkennung
- Datenquelle: IranSeda-Plattform (book.iranseda.ir)
- Umfang: 3.800+ Hörbücher, mehrere Kategorien
- Qualität: Professionelle Erzähler, kontrollierte Aufnahmeumgebung, 44,1 kHz Abtastrate
- Urheberrecht: Öffentlich zugänglich, keine Urheberrechtsbeschränkungen
Satzvollständigkeitserkennung-Modell:
- Binärklassifizierer, feinabgestimmt auf ParsBERT
- Trainingsdaten: Vollständige persische Sätze und synthetisch unvollständige Sätze
- Leistung: F1-Score 97,4%
Dreistufiger Segmentierungsprozess:
- Akustische Grenzerkennung: Verwendung von WebRTC-Sprachaktivitätserkennung (VAD)
- Transkription und Ausrichtung: Google Speech-to-Text API-Transkription
- Linguistische Validierung: BERT-Klassifizierer erkennt Satzvollständigkeit, bei Bedarf Grenzenerweiterung in 0,1-Sekunden-Schritten
Zweistufige Suchstrategie:
- Anfängliche Anpassung: Entfernung von 3 Sekunden am Anfang und Ende
- Stabilitätsverifizierung: Überprüfung auf Transkriptionsabweichungen
- Binärsuche-Optimierung: Iteratives Halbieren des Trimmintervalls
- Feingranulare lineare Suche: Präzise Ausrichtung in 0,1-Sekunden-Schritten
Persisches Text-Qualitäts-Framework:
- Zeichenqualität: Anteil gültiger persischer Zeichen und Ziffern
- Längenqualität: Bewertung der Satzvollständigkeit
- Wiederholungsbewertung: Belohnung für lexikalische Vielfalt
- Phonemabdeckung: Bereich persischer Zeichen und Phoneme
Audio-Qualitäts-Framework:
- Rausch-Signal-Verhältnis-Schätzung
- Dynamikbereichsanalyse
- Spektrale Merkmale und MFCC-Varianz
- Clipping-, Stille- und Hintergrundmusik-Erkennung
Zweistufiger Erkennungsprozess:
- Lokale Sprechertrennung: Clustering basierend auf ECAPA-TDNN-Einbettungen
- Globale Sprechererkennung: Einheitliche Sprecheridentifikation über Bücher hinweg
- Satzgesteuerte Segmentierung: Kombination von akustischer Grenzerkennung und linguistischer Vollständigkeitsverifizierung
- Adaptive Grenzoptimierung: Effizienter Algorithmus mit Binärsuche kombiniert mit linearer Feinabstimmung
- Persisch-spezifische Qualitätsbewertung: Mehrdimensionales Qualitätsbewertungs-Framework für persische Besonderheiten
- Skalierbare Verarbeitungs-Pipeline: Automatisierte Pipeline zur Verarbeitung tausender Stunden Audioinhalte
- Rohdaten: 3.807 Bücher (9.538 Stunden), tatsächlich 2.000 verarbeitet
- Initiale Segmentierung: 5.158.344 Audiosegmente
- Nach Filterung: 3.321.212 gültige Segmente
- Finaler Datensatz:
- Gesamt: 3.526 Stunden, 470+ Sprecher
- TTS-Teilmenge: 1.804 Stunden hochwertige Daten
- Subjektive Bewertung:
- Natürlichkeits-MOS (1-5 Punkte)
- Sprecherähnlichkeits-SMOS (1-5 Punkte)
- Textgenauigkeitsbewertung
- Objektive Bewertung:
- Wortfehlerrate (WER) und Zeichenfehlerrate (TER)
- ECAPA-TDNN-Einbettungs-Kosinusähnlichkeit
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- Andere persische TTS-Systeme (ManaTTS, DeepMine-Multi-TTS usw.)
- Modell: XTTS mehrsprachiges TTS-Modell
- Training: BPE-Modelltraining, 2.500 neue persische Token
- Feinabstimmung: Batch-Größe 16, 170.000 Schritte
- Bewertung: 90 synthetische Proben, 40 Bewerter
| System | MOS | SMOS |
|---|
| XTTS + ParsVoice (dieses Papier) | 3,60 | 4,00 |
| FastSpeech2 End-to-End | 3,72 | 4,02 |
| FastSpeech2 Cascaded | 3,34 | 3,81 |
- WER: 22,57%
- CER: 12,78%
- Sprecherähnlichkeit: 80% (basierend auf ECAPA-TDNN-Einbettungen)
- Textgenauigkeit: 4,0/5 (menschliche Bewertung)
- Grenzoptimierungseffekt: Entfernung von 442,73 Stunden (11,2%) unnötiger Stille und Rauschen
- Segmentierungsstatistiken: 81,0% der Segmente benötigen Anfangstrimmung, 50,4% benötigen Endtrimmung
- Durchschnittliche Segmentlänge: 5,49 Sekunden (optimal für TTS-Training)
- Linguistische Vielfalt: 267.965 eindeutige Wörter, 25.499.474 Token
- Erkannte Sprecher: 1.815 eindeutige Sprecherinstanzen
- Geschlechterverteilung: Etwa 33% weiblich, 67% männlich
- Konsistenz: 97,0% Konsistenz mit bekannten Erzähler-Labels
- LibriSpeech: Großflächiges ASR-Korpus
- LJSpeech: Einzelsprachler-TTS-Datensatz
- VCTK: Mehrsprachler-Englisch-Korpus
- Common Voice: 20+ Sprachen, aber persische Qualität unzureichend
- Multilingual LibriSpeech: Ausrichtung auf europäische Sprachen
- VoxPopuli: Qualitätsunterschiede zwischen Sprachgemeinschaften
- Traditionelle Methoden erfordern explizite Phonemdarstellung
- Bestehende Datensätze sind klein und meist einzelsprachig
- Kommerzielle Einschränkungen behindern Forschungsentwicklung
- Erfolgreiche Konstruktion des größten öffentlich verfügbaren persischen TTS-Korpus mit 1.804 Stunden hochwertiger Sprachdaten
- Entwicklung einer vollständig automatisierten und skalierbaren Datensatz-Konstruktions-Pipeline, anwendbar auf andere ressourcenarme Sprachen
- Validierung der Datensatz-Effektivität mit wettbewerbsfähiger Leistung bei persischen TTS-Aufgaben
- Automatische Bewertungsmetriken können Qualität unterschätzen: Aufgrund begrenzter kommerzieller STT-Systemunterstützung für persische synthetische Sprachdaten
- Unausgewogene Sprecherverteilung: Höherer Anteil männlicher Sprecher (67% vs. 33%)
- Audioqualität abhängig von Quellmaterial: Begrenzt durch Aufnahmequalität der ursprünglichen Hörbücher
- Erweiterung auf andere ressourcenarme Sprachen: Pipeline-Anwendung auf mehr Sprachen
- Verbesserung des Qualitätsbewertungs-Frameworks: Entwicklung präziserer automatischer Bewertungsmetriken
- Erhöhung der Sprechervielfalt: Ausgewogenheit von Geschlechts- und Altersverteilung
- Multimodale Erweiterung: Sprachsynthese mit visuellen Informationen
- Signifikante Skalierungssteigerung: 10-fache Steigerung gegenüber bestehenden persischen Ressourcen, füllt wichtige Lücke
- Technische Innovativität:
- Neuartige und effektive BERT-basierte Satzvollständigkeitserkennung
- Effizienter und praktischer Binärsuche-Grenzoptimierungsalgorithmus
- Stark zielgerichtetes persisch-spezifisches Qualitätsbewertungs-Framework
- Ausreichende Experimente:
- Kombination subjektiver und objektiver Bewertung
- Vergleich mit mehreren Baseline-Methoden
- Detaillierte Datensatz-Analyse und Statistiken
- Open-Source-Beitrag: Vollständiger Datensatz öffentlich veröffentlicht, fördert Gemeinschaftsentwicklung
- Methodische Reproduzierbarkeit: Detaillierte Beschreibung jedes Pipeline-Schritts
- Begrenzte Bewertungsreichweite:
- Validierung nur auf einem TTS-Modell (XTTS)
- Fehlender direkter Vergleich mit anderen großflächigen mehrsprachigen Datensätzen
- Subjektivität der Qualitätsbewertung:
- Gewichtungseinstellung des Qualitätsbewertungs-Frameworks basiert auf Erfahrung
- Fehlender Vergleich mit manuell annotierter Qualität
- Unzureichende technische Details:
- Schwellenwertauswahl bei Sprechererkennung mangelhaft dokumentiert
- Begrenzte Implementierungsdetails des Qualitätsbewertungs-Frameworks
- Akademische Auswirkungen:
- Wichtige Ressource für TTS-Forschung in ressourcenarmen Sprachen
- Förderung der Entwicklung persischer Sprachtechnologie
- Bereitstellung wiederverwendbarer Datensatz-Konstruktionsmethodologie
- Praktischer Wert:
- Direkte Unterstützung der Entwicklung persischer TTS-Anwendungen
- Verringerung der digitalen Kluft zwischen Persisch und hochressourcigen Sprachen
- Grundlagendaten für kommerzielle Sprachanwendungen
- Reproduzierbarkeit: Open-Source-Veröffentlichung und detaillierte Methodenbeschreibung gewährleisten Forschungsreproduzierbarkeit
- Direkte Anwendung:
- Training persischer TTS-Systeme
- Persische Anpassung mehrsprachiger TTS-Modelle
- Forschung zur Sprachsynthese-Qualitätsbewertung
- Erweiterte Anwendung:
- Datensatz-Konstruktion für andere ressourcenarme Sprachen
- Sprachverarbeitungs-Pipeline-Entwicklung
- Sprachübergreifende Sprachtechnologie-Forschung
Dieses Papier zitiert 18 wichtige Literaturquellen, umfassend:
- Transformer-Architektur-Grundlagen (Vaswani et al., 2017)
- Englische Sprachdatensätze (LibriSpeech, LJSpeech, VCTK)
- Mehrsprachige Sprachressourcen (Common Voice, VoxPopuli)
- Persische NLP-Werkzeuge (ParsBERT)
- Moderne TTS-Technologie (XTTS)
- Sprechererkennung-Technologie (ECAPA-TDNN)
Gesamtbewertung: Dies ist ein hochqualitatives Ressourcen-Papier, das ein wichtiges Ressourcenmangel-Problem durch die Konstruktion eines großflächigen persischen TTS-Korpus adressiert. Die methodische Innovativität ist moderat, aber die praktische Anwendbarkeit ist stark, die experimentelle Validierung ist ausreichend, und es hat wichtige Auswirkungen auf die Entwicklung persischer Sprachtechnologie. Die Open-Source-Veröffentlichung erhöht seinen akademischen und praktischen Wert weiter.