2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery
Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
academic

ParsVoice: Ein großflächiges mehrsprachiges persisches Sprachkorpus für Text-to-Speech-Synthese

Grundinformationen

  • Papier-ID: 2510.10774
  • Titel: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
  • Autoren: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Universität Teheran)
  • Klassifizierung: cs.SD (Sound), cs.AI (Künstliche Intelligenz), cs.HC (Mensch-Computer-Interaktion), cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v2)
  • Papierlink: https://arxiv.org/abs/2510.10774

Zusammenfassung

Bestehende persische Sprachdatensätze sind typischerweise erheblich kleiner als ihre englischen Entsprechungen, was kritische Einschränkungen für die Entwicklung persischer Sprachtechnologien darstellt. Dieses Papier adressiert diese Lücke durch die Einführung von ParsVoice, dem größten Sprachkorpus in persischer Sprache, das speziell für Text-to-Speech(TTS)-Anwendungen konzipiert ist. Das Forschungsteam entwickelte eine automatisierte Pipeline, die Rohhörbuchinhalte in TTS-bereite Daten umwandelt. Diese umfasst einen BERT-basierten Satzvollständigkeitsdetektor, eine Binärsuche-Grenzoptimierungsmethode für präzise Audio-Text-Ausrichtung sowie ein für Persisch angepasstes Audio-Text-Qualitätsbewertungsframework. Die Pipeline verarbeitete 2.000 Hörbücher und produzierte 3.526 Stunden sauberer Sprache, die weiter auf 1.804 Stunden hochwertiger Teilmenge gefiltert wurden, die über 470 Sprecher umfasst. Zur Validierung des Datensatzes führte das Forschungsteam eine Feinabstimmung von XTTS für Persisch durch und erzielte eine Durchschnittsmeinung zur Natürlichkeit (MOS) von 3,6/5 und eine Sprecherähnlichkeit-MOS (SMOS) von 4,0/5.

Forschungshintergrund und Motivation

Problemdefinition

  1. Datenmangelproblem: Persisch wird von über 100 Millionen Menschen weltweit gesprochen, ist aber in Sprachkorpora stark unterrepräsentiert, mit enormen Lücken im Vergleich zu hochressourcigen Sprachen wie Englisch.
  2. Spezifische TTS-Anforderungen: Text-to-Speech-Systeme haben andere Datenanforderungen als automatische Spracherkennung(ASR)-Systeme. ASR kann von verrauschten Echtdaten profitieren, während TTS saubere und präzise ausgerichtete Audio-Text-Paare benötigt, um natürliche Sprache zu generieren.
  3. Einschränkungen bestehender Datensätze:
    • DeepMine+: 480+ Stunden, 1850+ Sprecher, aber kommerzielle Einschränkungen
    • DeepMine-Multi-TTS: 120 Stunden, 67 Sprecher
    • ArmanTTS: 9 Stunden, einzelner Sprecher
    • ManaTTS: 86 Stunden, einzelner Sprecher

Forschungsbedeutung

Der Datenmangel in Persisch beschränkt sich nicht nur auf Sprache, sondern erstreckt sich auch auf Textverarbeitung und hat Kaskadeneffekte auf mehrere persische Sprachverarbeitungsfelder, einschließlich Sprach-zu-Text-Ausrichtungssysteme, optische Zeichenerkennung(OCR)-Modelle und mehr, was die Entwicklung persischer Technologie erheblich behindert.

Kernbeiträge

  1. Konstruktion des größten öffentlich verfügbaren persischen TTS-Korpus: Enthält 1.804 Stunden hochwertiger Sprachdaten mit 470+ verschiedenen Sprechern, eine 10-fache Steigerung gegenüber bestehenden persischen Ressourcen
  2. Entwicklung einer skalierbaren automatisierten Datenkonstruktions-Pipeline:
    • BERT-basierte Satzvollständigkeitserkennung
    • Binärsuche-Grenzoptimierungsalgorithmus
    • Persisch-spezifisches Qualitätsbewertungsframework
  3. Implementierung von phonemfreier persischer TTS: Durch Feinabstimmung des XTTS-Modells hochwertige Sprachsynthese ohne explizite Phonemtranskription erreicht
  4. Bereitstellung eines Open-Source-Datensatzes: Vollständiger Datensatz öffentlich veröffentlicht, um die Entwicklung persischer Sprachtechnologie zu fördern

Methodische Details

Aufgabendefinition

Umwandlung von Rohhörbuchaudio in hochwertige TTS-Trainingsdaten, einschließlich:

  • Eingabe: Rohe Hörbuchaudiodateien und entsprechender Text
  • Ausgabe: Segmentierte Audio-Text-Paare mit präziser zeitlicher Ausrichtung und hochwertigen Bewertungen
  • Einschränkungen: Beibehaltung der Satzvollständigkeit, Sicherung der Audioqualität, Sprechererkennung

Automatisierte Korpuskonstruktions-Pipeline

1. Datenerfassung und Quellenauswahl

  • Datenquelle: IranSeda-Plattform (book.iranseda.ir)
  • Umfang: 3.800+ Hörbücher, mehrere Kategorien
  • Qualität: Professionelle Erzähler, kontrollierte Aufnahmeumgebung, 44,1 kHz Abtastrate
  • Urheberrecht: Öffentlich zugänglich, keine Urheberrechtsbeschränkungen

2. Intelligente Audiosegmentierung

Satzvollständigkeitserkennung-Modell:

  • Binärklassifizierer, feinabgestimmt auf ParsBERT
  • Trainingsdaten: Vollständige persische Sätze und synthetisch unvollständige Sätze
  • Leistung: F1-Score 97,4%

Dreistufiger Segmentierungsprozess:

  1. Akustische Grenzerkennung: Verwendung von WebRTC-Sprachaktivitätserkennung (VAD)
  2. Transkription und Ausrichtung: Google Speech-to-Text API-Transkription
  3. Linguistische Validierung: BERT-Klassifizierer erkennt Satzvollständigkeit, bei Bedarf Grenzenerweiterung in 0,1-Sekunden-Schritten

3. Grenzoptimierungsalgorithmus

Zweistufige Suchstrategie:

  1. Anfängliche Anpassung: Entfernung von 3 Sekunden am Anfang und Ende
  2. Stabilitätsverifizierung: Überprüfung auf Transkriptionsabweichungen
  3. Binärsuche-Optimierung: Iteratives Halbieren des Trimmintervalls
  4. Feingranulare lineare Suche: Präzise Ausrichtung in 0,1-Sekunden-Schritten

4. Text-Audio-Qualitätsbewertung

Persisches Text-Qualitäts-Framework:

  • Zeichenqualität: Anteil gültiger persischer Zeichen und Ziffern
  • Längenqualität: Bewertung der Satzvollständigkeit
  • Wiederholungsbewertung: Belohnung für lexikalische Vielfalt
  • Phonemabdeckung: Bereich persischer Zeichen und Phoneme

Audio-Qualitäts-Framework:

  • Rausch-Signal-Verhältnis-Schätzung
  • Dynamikbereichsanalyse
  • Spektrale Merkmale und MFCC-Varianz
  • Clipping-, Stille- und Hintergrundmusik-Erkennung

5. Sprechererkennung

Zweistufiger Erkennungsprozess:

  1. Lokale Sprechertrennung: Clustering basierend auf ECAPA-TDNN-Einbettungen
  2. Globale Sprechererkennung: Einheitliche Sprecheridentifikation über Bücher hinweg

Technische Innovationen

  1. Satzgesteuerte Segmentierung: Kombination von akustischer Grenzerkennung und linguistischer Vollständigkeitsverifizierung
  2. Adaptive Grenzoptimierung: Effizienter Algorithmus mit Binärsuche kombiniert mit linearer Feinabstimmung
  3. Persisch-spezifische Qualitätsbewertung: Mehrdimensionales Qualitätsbewertungs-Framework für persische Besonderheiten
  4. Skalierbare Verarbeitungs-Pipeline: Automatisierte Pipeline zur Verarbeitung tausender Stunden Audioinhalte

Experimentelle Einrichtung

Datensatz-Statistiken

  • Rohdaten: 3.807 Bücher (9.538 Stunden), tatsächlich 2.000 verarbeitet
  • Initiale Segmentierung: 5.158.344 Audiosegmente
  • Nach Filterung: 3.321.212 gültige Segmente
  • Finaler Datensatz:
    • Gesamt: 3.526 Stunden, 470+ Sprecher
    • TTS-Teilmenge: 1.804 Stunden hochwertige Daten

Bewertungsmetriken

  • Subjektive Bewertung:
    • Natürlichkeits-MOS (1-5 Punkte)
    • Sprecherähnlichkeits-SMOS (1-5 Punkte)
    • Textgenauigkeitsbewertung
  • Objektive Bewertung:
    • Wortfehlerrate (WER) und Zeichenfehlerrate (TER)
    • ECAPA-TDNN-Einbettungs-Kosinusähnlichkeit

Vergleichsmethoden

  • FastSpeech2 End-to-End
  • FastSpeech2 Cascaded
  • Andere persische TTS-Systeme (ManaTTS, DeepMine-Multi-TTS usw.)

Implementierungsdetails

  • Modell: XTTS mehrsprachiges TTS-Modell
  • Training: BPE-Modelltraining, 2.500 neue persische Token
  • Feinabstimmung: Batch-Größe 16, 170.000 Schritte
  • Bewertung: 90 synthetische Proben, 40 Bewerter

Experimentelle Ergebnisse

Hauptergebnisse

SystemMOSSMOS
XTTS + ParsVoice (dieses Papier)3,604,00
FastSpeech2 End-to-End3,724,02
FastSpeech2 Cascaded3,343,81

Objektive Bewertungsergebnisse

  • WER: 22,57%
  • CER: 12,78%
  • Sprecherähnlichkeit: 80% (basierend auf ECAPA-TDNN-Einbettungen)
  • Textgenauigkeit: 4,0/5 (menschliche Bewertung)

Datensatz-Qualitätsanalyse

  • Grenzoptimierungseffekt: Entfernung von 442,73 Stunden (11,2%) unnötiger Stille und Rauschen
  • Segmentierungsstatistiken: 81,0% der Segmente benötigen Anfangstrimmung, 50,4% benötigen Endtrimmung
  • Durchschnittliche Segmentlänge: 5,49 Sekunden (optimal für TTS-Training)
  • Linguistische Vielfalt: 267.965 eindeutige Wörter, 25.499.474 Token

Sprechererkennung-Genauigkeit

  • Erkannte Sprecher: 1.815 eindeutige Sprecherinstanzen
  • Geschlechterverteilung: Etwa 33% weiblich, 67% männlich
  • Konsistenz: 97,0% Konsistenz mit bekannten Erzähler-Labels

Verwandte Arbeiten

Englische Sprachdatensätze

  • LibriSpeech: Großflächiges ASR-Korpus
  • LJSpeech: Einzelsprachler-TTS-Datensatz
  • VCTK: Mehrsprachler-Englisch-Korpus

Mehrsprachige Bemühungen

  • Common Voice: 20+ Sprachen, aber persische Qualität unzureichend
  • Multilingual LibriSpeech: Ausrichtung auf europäische Sprachen
  • VoxPopuli: Qualitätsunterschiede zwischen Sprachgemeinschaften

Persische TTS-Forschung

  • Traditionelle Methoden erfordern explizite Phonemdarstellung
  • Bestehende Datensätze sind klein und meist einzelsprachig
  • Kommerzielle Einschränkungen behindern Forschungsentwicklung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Konstruktion des größten öffentlich verfügbaren persischen TTS-Korpus mit 1.804 Stunden hochwertiger Sprachdaten
  2. Entwicklung einer vollständig automatisierten und skalierbaren Datensatz-Konstruktions-Pipeline, anwendbar auf andere ressourcenarme Sprachen
  3. Validierung der Datensatz-Effektivität mit wettbewerbsfähiger Leistung bei persischen TTS-Aufgaben

Einschränkungen

  1. Automatische Bewertungsmetriken können Qualität unterschätzen: Aufgrund begrenzter kommerzieller STT-Systemunterstützung für persische synthetische Sprachdaten
  2. Unausgewogene Sprecherverteilung: Höherer Anteil männlicher Sprecher (67% vs. 33%)
  3. Audioqualität abhängig von Quellmaterial: Begrenzt durch Aufnahmequalität der ursprünglichen Hörbücher

Zukünftige Richtungen

  1. Erweiterung auf andere ressourcenarme Sprachen: Pipeline-Anwendung auf mehr Sprachen
  2. Verbesserung des Qualitätsbewertungs-Frameworks: Entwicklung präziserer automatischer Bewertungsmetriken
  3. Erhöhung der Sprechervielfalt: Ausgewogenheit von Geschlechts- und Altersverteilung
  4. Multimodale Erweiterung: Sprachsynthese mit visuellen Informationen

Tiefgreifende Bewertung

Stärken

  1. Signifikante Skalierungssteigerung: 10-fache Steigerung gegenüber bestehenden persischen Ressourcen, füllt wichtige Lücke
  2. Technische Innovativität:
    • Neuartige und effektive BERT-basierte Satzvollständigkeitserkennung
    • Effizienter und praktischer Binärsuche-Grenzoptimierungsalgorithmus
    • Stark zielgerichtetes persisch-spezifisches Qualitätsbewertungs-Framework
  3. Ausreichende Experimente:
    • Kombination subjektiver und objektiver Bewertung
    • Vergleich mit mehreren Baseline-Methoden
    • Detaillierte Datensatz-Analyse und Statistiken
  4. Open-Source-Beitrag: Vollständiger Datensatz öffentlich veröffentlicht, fördert Gemeinschaftsentwicklung
  5. Methodische Reproduzierbarkeit: Detaillierte Beschreibung jedes Pipeline-Schritts

Mängel

  1. Begrenzte Bewertungsreichweite:
    • Validierung nur auf einem TTS-Modell (XTTS)
    • Fehlender direkter Vergleich mit anderen großflächigen mehrsprachigen Datensätzen
  2. Subjektivität der Qualitätsbewertung:
    • Gewichtungseinstellung des Qualitätsbewertungs-Frameworks basiert auf Erfahrung
    • Fehlender Vergleich mit manuell annotierter Qualität
  3. Unzureichende technische Details:
    • Schwellenwertauswahl bei Sprechererkennung mangelhaft dokumentiert
    • Begrenzte Implementierungsdetails des Qualitätsbewertungs-Frameworks

Auswirkungen

  1. Akademische Auswirkungen:
    • Wichtige Ressource für TTS-Forschung in ressourcenarmen Sprachen
    • Förderung der Entwicklung persischer Sprachtechnologie
    • Bereitstellung wiederverwendbarer Datensatz-Konstruktionsmethodologie
  2. Praktischer Wert:
    • Direkte Unterstützung der Entwicklung persischer TTS-Anwendungen
    • Verringerung der digitalen Kluft zwischen Persisch und hochressourcigen Sprachen
    • Grundlagendaten für kommerzielle Sprachanwendungen
  3. Reproduzierbarkeit: Open-Source-Veröffentlichung und detaillierte Methodenbeschreibung gewährleisten Forschungsreproduzierbarkeit

Anwendungsszenarien

  1. Direkte Anwendung:
    • Training persischer TTS-Systeme
    • Persische Anpassung mehrsprachiger TTS-Modelle
    • Forschung zur Sprachsynthese-Qualitätsbewertung
  2. Erweiterte Anwendung:
    • Datensatz-Konstruktion für andere ressourcenarme Sprachen
    • Sprachverarbeitungs-Pipeline-Entwicklung
    • Sprachübergreifende Sprachtechnologie-Forschung

Literaturverzeichnis

Dieses Papier zitiert 18 wichtige Literaturquellen, umfassend:

  • Transformer-Architektur-Grundlagen (Vaswani et al., 2017)
  • Englische Sprachdatensätze (LibriSpeech, LJSpeech, VCTK)
  • Mehrsprachige Sprachressourcen (Common Voice, VoxPopuli)
  • Persische NLP-Werkzeuge (ParsBERT)
  • Moderne TTS-Technologie (XTTS)
  • Sprechererkennung-Technologie (ECAPA-TDNN)

Gesamtbewertung: Dies ist ein hochqualitatives Ressourcen-Papier, das ein wichtiges Ressourcenmangel-Problem durch die Konstruktion eines großflächigen persischen TTS-Korpus adressiert. Die methodische Innovativität ist moderat, aber die praktische Anwendbarkeit ist stark, die experimentelle Validierung ist ausreichend, und es hat wichtige Auswirkungen auf die Entwicklung persischer Sprachtechnologie. Die Open-Source-Veröffentlichung erhöht seinen akademischen und praktischen Wert weiter.