2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice: Ein großflächiges mehrsprachiges persisches Sprachkorpus für Text-to-Speech-Synthese

Grundinformationen

Papier-ID: 2510.10774
Titel: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
Autoren: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Universität Teheran)
Klassifizierung: cs.SD (Sound), cs.AI (Künstliche Intelligenz), cs.HC (Mensch-Computer-Interaktion), cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v2)
Papierlink: https://arxiv.org/abs/2510.10774

Zusammenfassung

Bestehende persische Sprachdatensätze sind typischerweise erheblich kleiner als ihre englischen Entsprechungen, was kritische Einschränkungen für die Entwicklung persischer Sprachtechnologien darstellt. Dieses Papier adressiert diese Lücke durch die Einführung von ParsVoice, dem größten Sprachkorpus in persischer Sprache, das speziell für Text-to-Speech(TTS)-Anwendungen konzipiert ist. Das Forschungsteam entwickelte eine automatisierte Pipeline, die Rohhörbuchinhalte in TTS-bereite Daten umwandelt. Diese umfasst einen BERT-basierten Satzvollständigkeitsdetektor, eine Binärsuche-Grenzoptimierungsmethode für präzise Audio-Text-Ausrichtung sowie ein für Persisch angepasstes Audio-Text-Qualitätsbewertungsframework. Die Pipeline verarbeitete 2.000 Hörbücher und produzierte 3.526 Stunden sauberer Sprache, die weiter auf 1.804 Stunden hochwertiger Teilmenge gefiltert wurden, die über 470 Sprecher umfasst. Zur Validierung des Datensatzes führte das Forschungsteam eine Feinabstimmung von XTTS für Persisch durch und erzielte eine Durchschnittsmeinung zur Natürlichkeit (MOS) von 3,6/5 und eine Sprecherähnlichkeit-MOS (SMOS) von 4,0/5.

Forschungshintergrund und Motivation

Problemdefinition

Datenmangelproblem: Persisch wird von über 100 Millionen Menschen weltweit gesprochen, ist aber in Sprachkorpora stark unterrepräsentiert, mit enormen Lücken im Vergleich zu hochressourcigen Sprachen wie Englisch.
Spezifische TTS-Anforderungen: Text-to-Speech-Systeme haben andere Datenanforderungen als automatische Spracherkennung(ASR)-Systeme. ASR kann von verrauschten Echtdaten profitieren, während TTS saubere und präzise ausgerichtete Audio-Text-Paare benötigt, um natürliche Sprache zu generieren.
Einschränkungen bestehender Datensätze:
- DeepMine+: 480+ Stunden, 1850+ Sprecher, aber kommerzielle Einschränkungen
- DeepMine-Multi-TTS: 120 Stunden, 67 Sprecher
- ArmanTTS: 9 Stunden, einzelner Sprecher
- ManaTTS: 86 Stunden, einzelner Sprecher

Forschungsbedeutung

Der Datenmangel in Persisch beschränkt sich nicht nur auf Sprache, sondern erstreckt sich auch auf Textverarbeitung und hat Kaskadeneffekte auf mehrere persische Sprachverarbeitungsfelder, einschließlich Sprach-zu-Text-Ausrichtungssysteme, optische Zeichenerkennung(OCR)-Modelle und mehr, was die Entwicklung persischer Technologie erheblich behindert.

Kernbeiträge

Konstruktion des größten öffentlich verfügbaren persischen TTS-Korpus: Enthält 1.804 Stunden hochwertiger Sprachdaten mit 470+ verschiedenen Sprechern, eine 10-fache Steigerung gegenüber bestehenden persischen Ressourcen
Entwicklung einer skalierbaren automatisierten Datenkonstruktions-Pipeline:
- BERT-basierte Satzvollständigkeitserkennung
- Binärsuche-Grenzoptimierungsalgorithmus
- Persisch-spezifisches Qualitätsbewertungsframework
Implementierung von phonemfreier persischer TTS: Durch Feinabstimmung des XTTS-Modells hochwertige Sprachsynthese ohne explizite Phonemtranskription erreicht
Bereitstellung eines Open-Source-Datensatzes: Vollständiger Datensatz öffentlich veröffentlicht, um die Entwicklung persischer Sprachtechnologie zu fördern

Methodische Details

Aufgabendefinition

Umwandlung von Rohhörbuchaudio in hochwertige TTS-Trainingsdaten, einschließlich:

Eingabe: Rohe Hörbuchaudiodateien und entsprechender Text
Ausgabe: Segmentierte Audio-Text-Paare mit präziser zeitlicher Ausrichtung und hochwertigen Bewertungen
Einschränkungen: Beibehaltung der Satzvollständigkeit, Sicherung der Audioqualität, Sprechererkennung

Automatisierte Korpuskonstruktions-Pipeline

1. Datenerfassung und Quellenauswahl

Datenquelle: IranSeda-Plattform (book.iranseda.ir)
Umfang: 3.800+ Hörbücher, mehrere Kategorien
Qualität: Professionelle Erzähler, kontrollierte Aufnahmeumgebung, 44,1 kHz Abtastrate
Urheberrecht: Öffentlich zugänglich, keine Urheberrechtsbeschränkungen

2. Intelligente Audiosegmentierung

Satzvollständigkeitserkennung-Modell:

Binärklassifizierer, feinabgestimmt auf ParsBERT
Trainingsdaten: Vollständige persische Sätze und synthetisch unvollständige Sätze
Leistung: F1-Score 97,4%

Dreistufiger Segmentierungsprozess:

Akustische Grenzerkennung: Verwendung von WebRTC-Sprachaktivitätserkennung (VAD)
Transkription und Ausrichtung: Google Speech-to-Text API-Transkription
Linguistische Validierung: BERT-Klassifizierer erkennt Satzvollständigkeit, bei Bedarf Grenzenerweiterung in 0,1-Sekunden-Schritten

3. Grenzoptimierungsalgorithmus

Zweistufige Suchstrategie:

Anfängliche Anpassung: Entfernung von 3 Sekunden am Anfang und Ende
Stabilitätsverifizierung: Überprüfung auf Transkriptionsabweichungen
Binärsuche-Optimierung: Iteratives Halbieren des Trimmintervalls
Feingranulare lineare Suche: Präzise Ausrichtung in 0,1-Sekunden-Schritten

4. Text-Audio-Qualitätsbewertung

Persisches Text-Qualitäts-Framework:

Zeichenqualität: Anteil gültiger persischer Zeichen und Ziffern
Längenqualität: Bewertung der Satzvollständigkeit
Wiederholungsbewertung: Belohnung für lexikalische Vielfalt
Phonemabdeckung: Bereich persischer Zeichen und Phoneme

Audio-Qualitäts-Framework:

Rausch-Signal-Verhältnis-Schätzung
Dynamikbereichsanalyse
Spektrale Merkmale und MFCC-Varianz
Clipping-, Stille- und Hintergrundmusik-Erkennung

5. Sprechererkennung

Zweistufiger Erkennungsprozess:

Lokale Sprechertrennung: Clustering basierend auf ECAPA-TDNN-Einbettungen
Globale Sprechererkennung: Einheitliche Sprecheridentifikation über Bücher hinweg

Technische Innovationen

Satzgesteuerte Segmentierung: Kombination von akustischer Grenzerkennung und linguistischer Vollständigkeitsverifizierung
Adaptive Grenzoptimierung: Effizienter Algorithmus mit Binärsuche kombiniert mit linearer Feinabstimmung
Persisch-spezifische Qualitätsbewertung: Mehrdimensionales Qualitätsbewertungs-Framework für persische Besonderheiten
Skalierbare Verarbeitungs-Pipeline: Automatisierte Pipeline zur Verarbeitung tausender Stunden Audioinhalte

Experimentelle Einrichtung

Datensatz-Statistiken

Rohdaten: 3.807 Bücher (9.538 Stunden), tatsächlich 2.000 verarbeitet
Initiale Segmentierung: 5.158.344 Audiosegmente
Nach Filterung: 3.321.212 gültige Segmente
Finaler Datensatz:
- Gesamt: 3.526 Stunden, 470+ Sprecher
- TTS-Teilmenge: 1.804 Stunden hochwertige Daten

Bewertungsmetriken

Subjektive Bewertung:
- Natürlichkeits-MOS (1-5 Punkte)
- Sprecherähnlichkeits-SMOS (1-5 Punkte)
- Textgenauigkeitsbewertung
Objektive Bewertung:
- Wortfehlerrate (WER) und Zeichenfehlerrate (TER)
- ECAPA-TDNN-Einbettungs-Kosinusähnlichkeit

Vergleichsmethoden

FastSpeech2 End-to-End
FastSpeech2 Cascaded
Andere persische TTS-Systeme (ManaTTS, DeepMine-Multi-TTS usw.)

Implementierungsdetails

Modell: XTTS mehrsprachiges TTS-Modell
Training: BPE-Modelltraining, 2.500 neue persische Token
Feinabstimmung: Batch-Größe 16, 170.000 Schritte
Bewertung: 90 synthetische Proben, 40 Bewerter

Experimentelle Ergebnisse

Hauptergebnisse

System	MOS	SMOS
XTTS + ParsVoice (dieses Papier)	3,60	4,00
FastSpeech2 End-to-End	3,72	4,02
FastSpeech2 Cascaded	3,34	3,81

Objektive Bewertungsergebnisse

WER: 22,57%
CER: 12,78%
Sprecherähnlichkeit: 80% (basierend auf ECAPA-TDNN-Einbettungen)
Textgenauigkeit: 4,0/5 (menschliche Bewertung)

Datensatz-Qualitätsanalyse

Grenzoptimierungseffekt: Entfernung von 442,73 Stunden (11,2%) unnötiger Stille und Rauschen
Segmentierungsstatistiken: 81,0% der Segmente benötigen Anfangstrimmung, 50,4% benötigen Endtrimmung
Durchschnittliche Segmentlänge: 5,49 Sekunden (optimal für TTS-Training)
Linguistische Vielfalt: 267.965 eindeutige Wörter, 25.499.474 Token

Sprechererkennung-Genauigkeit

Erkannte Sprecher: 1.815 eindeutige Sprecherinstanzen
Geschlechterverteilung: Etwa 33% weiblich, 67% männlich
Konsistenz: 97,0% Konsistenz mit bekannten Erzähler-Labels

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Konstruktion des größten öffentlich verfügbaren persischen TTS-Korpus mit 1.804 Stunden hochwertiger Sprachdaten
Entwicklung einer vollständig automatisierten und skalierbaren Datensatz-Konstruktions-Pipeline, anwendbar auf andere ressourcenarme Sprachen
Validierung der Datensatz-Effektivität mit wettbewerbsfähiger Leistung bei persischen TTS-Aufgaben

Einschränkungen

Automatische Bewertungsmetriken können Qualität unterschätzen: Aufgrund begrenzter kommerzieller STT-Systemunterstützung für persische synthetische Sprachdaten
Unausgewogene Sprecherverteilung: Höherer Anteil männlicher Sprecher (67% vs. 33%)
Audioqualität abhängig von Quellmaterial: Begrenzt durch Aufnahmequalität der ursprünglichen Hörbücher

Zukünftige Richtungen

Erweiterung auf andere ressourcenarme Sprachen: Pipeline-Anwendung auf mehr Sprachen
Verbesserung des Qualitätsbewertungs-Frameworks: Entwicklung präziserer automatischer Bewertungsmetriken
Erhöhung der Sprechervielfalt: Ausgewogenheit von Geschlechts- und Altersverteilung
Multimodale Erweiterung: Sprachsynthese mit visuellen Informationen

Tiefgreifende Bewertung

Stärken

Signifikante Skalierungssteigerung: 10-fache Steigerung gegenüber bestehenden persischen Ressourcen, füllt wichtige Lücke
Technische Innovativität:
- Neuartige und effektive BERT-basierte Satzvollständigkeitserkennung
- Effizienter und praktischer Binärsuche-Grenzoptimierungsalgorithmus
- Stark zielgerichtetes persisch-spezifisches Qualitätsbewertungs-Framework
Ausreichende Experimente:
- Kombination subjektiver und objektiver Bewertung
- Vergleich mit mehreren Baseline-Methoden
- Detaillierte Datensatz-Analyse und Statistiken
Open-Source-Beitrag: Vollständiger Datensatz öffentlich veröffentlicht, fördert Gemeinschaftsentwicklung
Methodische Reproduzierbarkeit: Detaillierte Beschreibung jedes Pipeline-Schritts

Mängel

Begrenzte Bewertungsreichweite:
- Validierung nur auf einem TTS-Modell (XTTS)
- Fehlender direkter Vergleich mit anderen großflächigen mehrsprachigen Datensätzen
Subjektivität der Qualitätsbewertung:
- Gewichtungseinstellung des Qualitätsbewertungs-Frameworks basiert auf Erfahrung
- Fehlender Vergleich mit manuell annotierter Qualität
Unzureichende technische Details:
- Schwellenwertauswahl bei Sprechererkennung mangelhaft dokumentiert
- Begrenzte Implementierungsdetails des Qualitätsbewertungs-Frameworks

Auswirkungen

Akademische Auswirkungen:
- Wichtige Ressource für TTS-Forschung in ressourcenarmen Sprachen
- Förderung der Entwicklung persischer Sprachtechnologie
- Bereitstellung wiederverwendbarer Datensatz-Konstruktionsmethodologie
Praktischer Wert:
- Direkte Unterstützung der Entwicklung persischer TTS-Anwendungen
- Verringerung der digitalen Kluft zwischen Persisch und hochressourcigen Sprachen
- Grundlagendaten für kommerzielle Sprachanwendungen
Reproduzierbarkeit: Open-Source-Veröffentlichung und detaillierte Methodenbeschreibung gewährleisten Forschungsreproduzierbarkeit

Anwendungsszenarien

Direkte Anwendung:
- Training persischer TTS-Systeme
- Persische Anpassung mehrsprachiger TTS-Modelle
- Forschung zur Sprachsynthese-Qualitätsbewertung
Erweiterte Anwendung:
- Datensatz-Konstruktion für andere ressourcenarme Sprachen
- Sprachverarbeitungs-Pipeline-Entwicklung
- Sprachübergreifende Sprachtechnologie-Forschung

Literaturverzeichnis

Dieses Papier zitiert 18 wichtige Literaturquellen, umfassend:

Transformer-Architektur-Grundlagen (Vaswani et al., 2017)
Englische Sprachdatensätze (LibriSpeech, LJSpeech, VCTK)
Mehrsprachige Sprachressourcen (Common Voice, VoxPopuli)
Persische NLP-Werkzeuge (ParsBERT)
Moderne TTS-Technologie (XTTS)
Sprechererkennung-Technologie (ECAPA-TDNN)

Gesamtbewertung: Dies ist ein hochqualitatives Ressourcen-Papier, das ein wichtiges Ressourcenmangel-Problem durch die Konstruktion eines großflächigen persischen TTS-Korpus adressiert. Die methodische Innovativität ist moderat, aber die praktische Anwendbarkeit ist stark, die experimentelle Validierung ist ausreichend, und es hat wichtige Auswirkungen auf die Entwicklung persischer Sprachtechnologie. Die Open-Source-Veröffentlichung erhöht seinen akademischen und praktischen Wert weiter.