Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
- ID de l'article : 2510.10774
- Titre : ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- Auteurs : Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Université de Téhéran)
- Classification : cs.SD (Son), cs.AI (Intelligence Artificielle), cs.HC (Interaction Homme-Machine), cs.LG (Apprentissage Automatique)
- Date de publication : 14 octobre 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2510.10774
Les ensembles de données de parole en persan existants sont généralement beaucoup plus petits que leurs homologues en anglais, créant des limitations critiques pour le développement de technologies vocales persanes. Cet article comble cette lacune en introduisant ParsVoice, le plus grand corpus de parole persan spécialement conçu pour les applications de synthèse vocale (TTS). L'équipe de recherche a créé un pipeline automatisé qui convertit le contenu de livres audio bruts en données prêtes pour TTS, comprenant un détecteur d'intégrité de phrases basé sur BERT, une méthode d'optimisation des limites par recherche binaire pour l'alignement audio-texte précis, et un cadre d'évaluation de la qualité audio-texte personnalisé pour le persan. Le pipeline a traité 2 000 livres audio, produisant 3 526 heures de parole nettoyée, filtrées ultérieurement en un sous-ensemble de haute qualité de 1 804 heures contenant plus de 470 locuteurs. Pour valider l'ensemble de données, l'équipe de recherche a affiné XTTS pour le persan, réalisant un score d'opinion moyen (MOS) de naturalité de 3,6/5 et un score d'opinion moyen (SMOS) de similarité de locuteur de 4,0/5.
- Problème de rareté des données : Le persan, parlé par plus de 100 millions de personnes dans le monde, est gravement sous-représenté en matière de corpus de parole, avec un écart énorme par rapport aux langues hautement dotées en ressources comme l'anglais.
- Besoins spécifiques de TTS : Les systèmes de synthèse vocale ont des exigences différentes en matière de qualité des données par rapport aux systèmes de reconnaissance vocale automatique (ASR). L'ASR peut bénéficier de données bruyantes du monde réel, tandis que TTS nécessite des paires audio-texte nettoyées et précisément alignées pour générer une parole naturelle.
- Limitations des ensembles de données existants :
- DeepMine+ : 480+ heures, 1850+ locuteurs, mais avec restrictions commerciales
- DeepMine-Multi-TTS : 120 heures, 67 locuteurs
- ArmanTTS : 9 heures, locuteur unique
- ManaTTS : 86 heures, locuteur unique
La rareté des données persanes ne se limite pas à la parole, mais s'étend au traitement du texte, créant des effets en cascade sur plusieurs domaines du traitement des langues persanes, y compris les systèmes d'alignement parole-texte, les modèles de reconnaissance optique de caractères (OCR), etc., entravant gravement le développement de la technologie persane.
- Construction du plus grand corpus TTS persan accessible au public : Contenant 1 804 heures de données vocales de haute qualité, 470+ locuteurs distincts, représentant une croissance de 10 fois par rapport aux ressources persanes existantes
- Développement d'un pipeline automatisé et évolutif de construction de données :
- Détection d'intégrité de phrases basée sur BERT
- Algorithme d'optimisation des limites par recherche binaire
- Cadre d'évaluation de la qualité spécifique au persan
- Réalisation d'une TTS persane sans phonèmes : Par l'affinement du modèle XTTS, permettant une synthèse vocale de haute qualité sans transcription phonémique explicite
- Fourniture d'un ensemble de données open-source : L'ensemble de données complet a été publié publiquement, promouvant le développement de la technologie vocale persane
Convertir l'audio de livre audio brut en données d'entraînement TTS de haute qualité, incluant :
- Entrée : Fichiers audio de livre audio bruts et texte correspondant
- Sortie : Paires audio-texte segmentées avec alignement temporel précis et scores de qualité élevés
- Contraintes : Maintenir l'intégrité des phrases, assurer la qualité audio, réaliser l'identification du locuteur
- Source de données : Plateforme IranSeda (book.iranseda.ir)
- Échelle : 3 800+ livres audio, couverture multi-catégories
- Qualité : Narrateurs professionnels, environnement d'enregistrement contrôlé, taux d'échantillonnage 44,1 kHz
- Droits d'auteur : Accès public, sans restrictions de droits d'auteur
Modèle de Détection d'Intégrité de Phrases :
- Classificateur binaire affiné sur ParsBERT
- Données d'entraînement : Phrases persanes complètes et phrases incomplètes synthétiques
- Performance : Score F1 de 97,4%
Processus de Segmentation en Trois Étapes :
- Détection des Limites Acoustiques : Utilisation de la détection d'activité vocale (VAD) WebRTC
- Transcription et Alignement : Transcription par l'API Google Speech-to-Text
- Validation Linguistique : Classificateur BERT détectant l'intégrité des phrases, extension des limites par incréments de 0,1 seconde si nécessaire
Stratégie de Recherche en Deux Étapes :
- Ajustement Initial : Suppression de 3 secondes au début et à la fin
- Vérification de Stabilité : Vérification des divergences de transcription
- Optimisation par Recherche Binaire : Réduction itérative par moitié de l'intervalle d'élagage
- Recherche Linéaire Fine : Alignement précis par incréments de 0,1 seconde
Cadre de Qualité du Texte Persan :
- Qualité des Caractères : Proportion de caractères et chiffres persans valides
- Qualité de Longueur : Évaluation de l'adéquation de la longueur des phrases
- Score de Répétition : Récompense de la diversité lexicale
- Couverture Phonémique : Plage de caractères et phonèmes persans
Cadre de Qualité Audio :
- Estimation du rapport signal-bruit
- Analyse de la plage dynamique
- Caractéristiques spectrales et variance MFCC
- Détection d'écrêtage, silence et musique de fond
Processus d'Identification en Deux Étapes :
- Séparation Locale du Locuteur : Clustering basé sur les embeddings ECAPA-TDNN
- Identification Globale du Locuteur : Unification de l'identité du locuteur entre les livres
- Segmentation Consciente des Phrases : Combinaison de détection des limites acoustiques et vérification linguistique d'intégrité
- Optimisation Adaptative des Limites : Algorithme efficace combinant recherche binaire et ajustement linéaire fin
- Évaluation de Qualité Spécifique au Persan : Cadre d'évaluation multidimensionnelle conçu pour les caractéristiques persanes
- Processus de Traitement Évolutif : Pipeline automatisé capable de traiter des milliers d'heures de contenu audio
- Données Brutes : 3 807 livres (9 538 heures), 2 000 livres réellement traités
- Segmentation Initiale : 5 158 344 segments audio
- Après Filtrage : 3 321 212 segments valides
- Ensemble de Données Final :
- Total : 3 526 heures, 470+ locuteurs
- Sous-ensemble TTS : 1 804 heures de données de haute qualité
- Évaluation Subjective :
- MOS de naturalité (1-5 points)
- SMOS de similarité de locuteur (1-5 points)
- Score de précision du texte
- Évaluation Objective :
- Taux d'erreur de mots (WER) et taux d'erreur de caractères (TER)
- Similarité cosinus des embeddings ECAPA-TDNN
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- Autres systèmes TTS persans (ManaTTS, DeepMine-Multi-TTS, etc.)
- Modèle : Modèle TTS multilingue XTTS
- Entraînement : Entraînement du modèle BPE, 2 500 tokens persans nouveaux
- Affinement : Taille de lot 16, 170 000 étapes
- Évaluation : 90 échantillons synthétisés, 40 évaluateurs
| Système | MOS | SMOS |
|---|
| XTTS + ParsVoice (cet article) | 3,60 | 4,00 |
| FastSpeech2 End-to-End | 3,72 | 4,02 |
| FastSpeech2 Cascaded | 3,34 | 3,81 |
- WER : 22,57%
- CER : 12,78%
- Similarité de Locuteur : 80% (basée sur les embeddings ECAPA-TDNN)
- Précision du Texte : 4,0/5 (évaluation humaine)
- Effet de l'Optimisation des Limites : Suppression de 442,73 heures (11,2%) de silence et bruit inutiles
- Statistiques de Segmentation : 81,0% des segments nécessitent un élagage au début, 50,4% nécessitent un élagage à la fin
- Durée Moyenne des Segments : 5,49 secondes (optimal pour l'entraînement TTS)
- Diversité Linguistique : 267 965 mots uniques, 25 499 474 tokens
- Locuteurs Détectés : 1 815 instances de locuteurs uniques
- Distribution des Genres : Environ 33% femmes, 67% hommes
- Cohérence : Cohérence de 97,0% avec les étiquettes de narrateurs connus
- LibriSpeech : Corpus ASR à grande échelle
- LJSpeech : Ensemble de données TTS à locuteur unique
- VCTK : Corpus anglais multi-locuteurs
- Common Voice : 20+ langues, mais qualité insuffisante pour la partie persane
- Multilingual LibriSpeech : Orienté vers les langues européennes
- VoxPopuli : Qualité variable selon les communautés linguistiques
- Les méthodes traditionnelles nécessitent une représentation phonémique explicite
- Les ensembles de données existants sont de petite taille et souvent à locuteur unique
- Les restrictions commerciales entravent le développement de la recherche
- Construction réussie du plus grand corpus TTS persan accessible au public, contenant 1 804 heures de données vocales de haute qualité
- Développement d'un pipeline de construction d'ensemble de données entièrement automatisé et évolutif, applicable à d'autres langues peu dotées en ressources
- Validation de l'efficacité de l'ensemble de données, atteignant des performances compétitives sur les tâches TTS persanes
- Les métriques d'évaluation automatique peuvent sous-estimer la qualité : En raison de la disponibilité limitée des systèmes STT commerciaux pour les données vocales synthétiques persanes
- Distribution des locuteurs déséquilibrée : Proportion plus élevée de locuteurs masculins (67% vs 33%)
- Qualité audio dépendante du matériel source : Limitée par la qualité d'enregistrement des livres audio originaux
- Extension à d'autres langues peu dotées en ressources : Application du pipeline à davantage de langues
- Amélioration du cadre d'évaluation de la qualité : Développement de métriques d'évaluation automatique plus précises
- Amélioration de la diversité des locuteurs : Équilibre de la distribution des genres et des âges
- Extension Multimodale : Synthèse vocale combinant des informations visuelles
- Augmentation Significative d'Échelle : Réalisation d'une croissance de 10 fois par rapport aux ressources persanes existantes, comblant une lacune importante
- Innovativité Technique :
- Détection d'intégrité de phrases basée sur BERT novatrice et efficace
- Algorithme d'optimisation des limites par recherche binaire efficace et pratique
- Cadre d'évaluation de qualité spécifique au persan fortement ciblé
- Suffisance Expérimentale :
- Combinaison d'évaluations subjectives et objectives
- Comparaison avec plusieurs méthodes de base
- Analyse et statistiques détaillées de l'ensemble de données
- Contribution Open-Source : Publication publique de l'ensemble de données complet, promouvant le développement communautaire
- Reproductibilité de la Méthode : Description détaillée de chaque étape du pipeline
- Portée d'Évaluation Limitée :
- Validation sur un seul modèle TTS (XTTS)
- Manque de comparaison directe avec d'autres ensembles de données multilingues à grande échelle
- Subjectivité de l'Évaluation de Qualité :
- Les paramètres du cadre d'évaluation de qualité sont basés sur l'expérience
- Manque de vérification comparative avec la qualité annotée manuellement
- Détails Techniques Insuffisants :
- Manque de détails sur la sélection des seuils d'identification du locuteur
- Détails d'implémentation limités du cadre d'évaluation de qualité
- Impact Académique :
- Fourniture de ressources importantes pour la recherche TTS en langues peu dotées en ressources
- Promotion du développement de la technologie vocale persane
- Fourniture d'une méthodologie réutilisable de construction d'ensemble de données
- Valeur Pratique :
- Support direct du développement d'applications TTS persanes
- Réduction de la fracture numérique entre le persan et les langues hautement dotées en ressources
- Fourniture de données de base pour les applications vocales commerciales
- Reproductibilité : Publication open-source et description détaillée de la méthode assurant la reproductibilité de la recherche
- Applications Directes :
- Entraînement de systèmes TTS persans
- Adaptation persane de modèles TTS multilingues
- Recherche sur l'évaluation de la qualité de la synthèse vocale
- Applications Étendues :
- Construction d'ensembles de données pour d'autres langues peu dotées en ressources
- Développement de pipelines de traitement de la parole
- Recherche en technologie vocale cross-lingue
Cet article cite 18 références importantes, couvrant :
- Fondamentaux de l'architecture Transformer (Vaswani et al., 2017)
- Ensembles de données de parole en anglais (LibriSpeech, LJSpeech, VCTK)
- Ressources vocales multilingues (Common Voice, VoxPopuli)
- Outils PNL persans (ParsBERT)
- Technologie TTS moderne (XTTS)
- Technologie d'identification du locuteur (ECAPA-TDNN)
Évaluation Globale : Ceci est un article de ressources de haute qualité qui résout un problème important de rareté des ressources en construisant un grand corpus TTS persan. L'innovativité de la méthode est modérée mais forte en praticité, la vérification expérimentale est suffisante, et elle a un impact important sur la promotion du développement de la technologie vocale persane. La publication open-source améliore davantage sa valeur académique et pratique.