2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice : Un Large Corpus de Parole Persan Multi-Locuteur pour la Synthèse Vocale

Informations Fondamentales

ID de l'article : 2510.10774
Titre : ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
Auteurs : Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Université de Téhéran)
Classification : cs.SD (Son), cs.AI (Intelligence Artificielle), cs.HC (Interaction Homme-Machine), cs.LG (Apprentissage Automatique)
Date de publication : 14 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2510.10774

Résumé

Les ensembles de données de parole en persan existants sont généralement beaucoup plus petits que leurs homologues en anglais, créant des limitations critiques pour le développement de technologies vocales persanes. Cet article comble cette lacune en introduisant ParsVoice, le plus grand corpus de parole persan spécialement conçu pour les applications de synthèse vocale (TTS). L'équipe de recherche a créé un pipeline automatisé qui convertit le contenu de livres audio bruts en données prêtes pour TTS, comprenant un détecteur d'intégrité de phrases basé sur BERT, une méthode d'optimisation des limites par recherche binaire pour l'alignement audio-texte précis, et un cadre d'évaluation de la qualité audio-texte personnalisé pour le persan. Le pipeline a traité 2 000 livres audio, produisant 3 526 heures de parole nettoyée, filtrées ultérieurement en un sous-ensemble de haute qualité de 1 804 heures contenant plus de 470 locuteurs. Pour valider l'ensemble de données, l'équipe de recherche a affiné XTTS pour le persan, réalisant un score d'opinion moyen (MOS) de naturalité de 3,6/5 et un score d'opinion moyen (SMOS) de similarité de locuteur de 4,0/5.

Contexte et Motivation de la Recherche

Définition du Problème

Problème de rareté des données : Le persan, parlé par plus de 100 millions de personnes dans le monde, est gravement sous-représenté en matière de corpus de parole, avec un écart énorme par rapport aux langues hautement dotées en ressources comme l'anglais.
Besoins spécifiques de TTS : Les systèmes de synthèse vocale ont des exigences différentes en matière de qualité des données par rapport aux systèmes de reconnaissance vocale automatique (ASR). L'ASR peut bénéficier de données bruyantes du monde réel, tandis que TTS nécessite des paires audio-texte nettoyées et précisément alignées pour générer une parole naturelle.
Limitations des ensembles de données existants :
- DeepMine+ : 480+ heures, 1850+ locuteurs, mais avec restrictions commerciales
- DeepMine-Multi-TTS : 120 heures, 67 locuteurs
- ArmanTTS : 9 heures, locuteur unique
- ManaTTS : 86 heures, locuteur unique

Importance de la Recherche

La rareté des données persanes ne se limite pas à la parole, mais s'étend au traitement du texte, créant des effets en cascade sur plusieurs domaines du traitement des langues persanes, y compris les systèmes d'alignement parole-texte, les modèles de reconnaissance optique de caractères (OCR), etc., entravant gravement le développement de la technologie persane.

Contributions Principales

Construction du plus grand corpus TTS persan accessible au public : Contenant 1 804 heures de données vocales de haute qualité, 470+ locuteurs distincts, représentant une croissance de 10 fois par rapport aux ressources persanes existantes
Développement d'un pipeline automatisé et évolutif de construction de données :
- Détection d'intégrité de phrases basée sur BERT
- Algorithme d'optimisation des limites par recherche binaire
- Cadre d'évaluation de la qualité spécifique au persan
Réalisation d'une TTS persane sans phonèmes : Par l'affinement du modèle XTTS, permettant une synthèse vocale de haute qualité sans transcription phonémique explicite
Fourniture d'un ensemble de données open-source : L'ensemble de données complet a été publié publiquement, promouvant le développement de la technologie vocale persane

Détails de la Méthode

Définition de la Tâche

Convertir l'audio de livre audio brut en données d'entraînement TTS de haute qualité, incluant :

Entrée : Fichiers audio de livre audio bruts et texte correspondant
Sortie : Paires audio-texte segmentées avec alignement temporel précis et scores de qualité élevés
Contraintes : Maintenir l'intégrité des phrases, assurer la qualité audio, réaliser l'identification du locuteur

Pipeline Automatisé de Construction de Corpus

1. Collecte de Données et Sélection de Sources

Source de données : Plateforme IranSeda (book.iranseda.ir)
Échelle : 3 800+ livres audio, couverture multi-catégories
Qualité : Narrateurs professionnels, environnement d'enregistrement contrôlé, taux d'échantillonnage 44,1 kHz
Droits d'auteur : Accès public, sans restrictions de droits d'auteur

2. Segmentation Audio Intelligente

Modèle de Détection d'Intégrité de Phrases :

Classificateur binaire affiné sur ParsBERT
Données d'entraînement : Phrases persanes complètes et phrases incomplètes synthétiques
Performance : Score F1 de 97,4%

Processus de Segmentation en Trois Étapes :

Détection des Limites Acoustiques : Utilisation de la détection d'activité vocale (VAD) WebRTC
Transcription et Alignement : Transcription par l'API Google Speech-to-Text
Validation Linguistique : Classificateur BERT détectant l'intégrité des phrases, extension des limites par incréments de 0,1 seconde si nécessaire

3. Algorithme d'Optimisation des Limites

Stratégie de Recherche en Deux Étapes :

Ajustement Initial : Suppression de 3 secondes au début et à la fin
Vérification de Stabilité : Vérification des divergences de transcription
Optimisation par Recherche Binaire : Réduction itérative par moitié de l'intervalle d'élagage
Recherche Linéaire Fine : Alignement précis par incréments de 0,1 seconde

4. Évaluation de la Qualité Texte-Audio

Cadre de Qualité du Texte Persan :

Qualité des Caractères : Proportion de caractères et chiffres persans valides
Qualité de Longueur : Évaluation de l'adéquation de la longueur des phrases
Score de Répétition : Récompense de la diversité lexicale
Couverture Phonémique : Plage de caractères et phonèmes persans

Cadre de Qualité Audio :

Estimation du rapport signal-bruit
Analyse de la plage dynamique
Caractéristiques spectrales et variance MFCC
Détection d'écrêtage, silence et musique de fond

5. Identification du Locuteur

Processus d'Identification en Deux Étapes :

Séparation Locale du Locuteur : Clustering basé sur les embeddings ECAPA-TDNN
Identification Globale du Locuteur : Unification de l'identité du locuteur entre les livres

Points d'Innovation Technique

Segmentation Consciente des Phrases : Combinaison de détection des limites acoustiques et vérification linguistique d'intégrité
Optimisation Adaptative des Limites : Algorithme efficace combinant recherche binaire et ajustement linéaire fin
Évaluation de Qualité Spécifique au Persan : Cadre d'évaluation multidimensionnelle conçu pour les caractéristiques persanes
Processus de Traitement Évolutif : Pipeline automatisé capable de traiter des milliers d'heures de contenu audio

Configuration Expérimentale

Statistiques de l'Ensemble de Données

Données Brutes : 3 807 livres (9 538 heures), 2 000 livres réellement traités
Segmentation Initiale : 5 158 344 segments audio
Après Filtrage : 3 321 212 segments valides
Ensemble de Données Final :
- Total : 3 526 heures, 470+ locuteurs
- Sous-ensemble TTS : 1 804 heures de données de haute qualité

Métriques d'Évaluation

Évaluation Subjective :
- MOS de naturalité (1-5 points)
- SMOS de similarité de locuteur (1-5 points)
- Score de précision du texte
Évaluation Objective :
- Taux d'erreur de mots (WER) et taux d'erreur de caractères (TER)
- Similarité cosinus des embeddings ECAPA-TDNN

Méthodes de Comparaison

FastSpeech2 End-to-End
FastSpeech2 Cascaded
Autres systèmes TTS persans (ManaTTS, DeepMine-Multi-TTS, etc.)

Détails d'Implémentation

Modèle : Modèle TTS multilingue XTTS
Entraînement : Entraînement du modèle BPE, 2 500 tokens persans nouveaux
Affinement : Taille de lot 16, 170 000 étapes
Évaluation : 90 échantillons synthétisés, 40 évaluateurs

Résultats Expérimentaux

Résultats Principaux

Système	MOS	SMOS
XTTS + ParsVoice (cet article)	3,60	4,00
FastSpeech2 End-to-End	3,72	4,02
FastSpeech2 Cascaded	3,34	3,81

Résultats d'Évaluation Objective

WER : 22,57%
CER : 12,78%
Similarité de Locuteur : 80% (basée sur les embeddings ECAPA-TDNN)
Précision du Texte : 4,0/5 (évaluation humaine)

Analyse de la Qualité de l'Ensemble de Données

Effet de l'Optimisation des Limites : Suppression de 442,73 heures (11,2%) de silence et bruit inutiles
Statistiques de Segmentation : 81,0% des segments nécessitent un élagage au début, 50,4% nécessitent un élagage à la fin
Durée Moyenne des Segments : 5,49 secondes (optimal pour l'entraînement TTS)
Diversité Linguistique : 267 965 mots uniques, 25 499 474 tokens

Précision de l'Identification du Locuteur

Locuteurs Détectés : 1 815 instances de locuteurs uniques
Distribution des Genres : Environ 33% femmes, 67% hommes
Cohérence : Cohérence de 97,0% avec les étiquettes de narrateurs connus

Travaux Connexes

Ensembles de Données de Parole en Anglais

LibriSpeech : Corpus ASR à grande échelle
LJSpeech : Ensemble de données TTS à locuteur unique
VCTK : Corpus anglais multi-locuteurs

Efforts Multilingues

Common Voice : 20+ langues, mais qualité insuffisante pour la partie persane
Multilingual LibriSpeech : Orienté vers les langues européennes
VoxPopuli : Qualité variable selon les communautés linguistiques

Recherche TTS Persane

Les méthodes traditionnelles nécessitent une représentation phonémique explicite
Les ensembles de données existants sont de petite taille et souvent à locuteur unique
Les restrictions commerciales entravent le développement de la recherche

Conclusion et Discussion

Conclusions Principales

Construction réussie du plus grand corpus TTS persan accessible au public, contenant 1 804 heures de données vocales de haute qualité
Développement d'un pipeline de construction d'ensemble de données entièrement automatisé et évolutif, applicable à d'autres langues peu dotées en ressources
Validation de l'efficacité de l'ensemble de données, atteignant des performances compétitives sur les tâches TTS persanes

Limitations

Les métriques d'évaluation automatique peuvent sous-estimer la qualité : En raison de la disponibilité limitée des systèmes STT commerciaux pour les données vocales synthétiques persanes
Distribution des locuteurs déséquilibrée : Proportion plus élevée de locuteurs masculins (67% vs 33%)
Qualité audio dépendante du matériel source : Limitée par la qualité d'enregistrement des livres audio originaux

Directions Futures

Extension à d'autres langues peu dotées en ressources : Application du pipeline à davantage de langues
Amélioration du cadre d'évaluation de la qualité : Développement de métriques d'évaluation automatique plus précises
Amélioration de la diversité des locuteurs : Équilibre de la distribution des genres et des âges
Extension Multimodale : Synthèse vocale combinant des informations visuelles

Évaluation Approfondie

Points Forts

Augmentation Significative d'Échelle : Réalisation d'une croissance de 10 fois par rapport aux ressources persanes existantes, comblant une lacune importante
Innovativité Technique :
- Détection d'intégrité de phrases basée sur BERT novatrice et efficace
- Algorithme d'optimisation des limites par recherche binaire efficace et pratique
- Cadre d'évaluation de qualité spécifique au persan fortement ciblé
Suffisance Expérimentale :
- Combinaison d'évaluations subjectives et objectives
- Comparaison avec plusieurs méthodes de base
- Analyse et statistiques détaillées de l'ensemble de données
Contribution Open-Source : Publication publique de l'ensemble de données complet, promouvant le développement communautaire
Reproductibilité de la Méthode : Description détaillée de chaque étape du pipeline

Insuffisances

Portée d'Évaluation Limitée :
- Validation sur un seul modèle TTS (XTTS)
- Manque de comparaison directe avec d'autres ensembles de données multilingues à grande échelle
Subjectivité de l'Évaluation de Qualité :
- Les paramètres du cadre d'évaluation de qualité sont basés sur l'expérience
- Manque de vérification comparative avec la qualité annotée manuellement
Détails Techniques Insuffisants :
- Manque de détails sur la sélection des seuils d'identification du locuteur
- Détails d'implémentation limités du cadre d'évaluation de qualité

Impact

Impact Académique :
- Fourniture de ressources importantes pour la recherche TTS en langues peu dotées en ressources
- Promotion du développement de la technologie vocale persane
- Fourniture d'une méthodologie réutilisable de construction d'ensemble de données
Valeur Pratique :
- Support direct du développement d'applications TTS persanes
- Réduction de la fracture numérique entre le persan et les langues hautement dotées en ressources
- Fourniture de données de base pour les applications vocales commerciales
Reproductibilité : Publication open-source et description détaillée de la méthode assurant la reproductibilité de la recherche

Scénarios d'Application

Applications Directes :
- Entraînement de systèmes TTS persans
- Adaptation persane de modèles TTS multilingues
- Recherche sur l'évaluation de la qualité de la synthèse vocale
Applications Étendues :
- Construction d'ensembles de données pour d'autres langues peu dotées en ressources
- Développement de pipelines de traitement de la parole
- Recherche en technologie vocale cross-lingue

Références

Cet article cite 18 références importantes, couvrant :

Fondamentaux de l'architecture Transformer (Vaswani et al., 2017)
Ensembles de données de parole en anglais (LibriSpeech, LJSpeech, VCTK)
Ressources vocales multilingues (Common Voice, VoxPopuli)
Outils PNL persans (ParsBERT)
Technologie TTS moderne (XTTS)
Technologie d'identification du locuteur (ECAPA-TDNN)

Évaluation Globale : Ceci est un article de ressources de haute qualité qui résout un problème important de rareté des ressources en construisant un grand corpus TTS persan. L'innovativité de la méthode est modérée mais forte en praticité, la vérification expérimentale est suffisante, et elle a un impact important sur la promotion du développement de la technologie vocale persane. La publication open-source améliore davantage sa valeur académique et pratique.