Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
- ID Articolo: 2510.10774
- Titolo: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- Autori: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Università di Teheran)
- Classificazione: cs.SD (Audio), cs.AI (Intelligenza Artificiale), cs.HC (Interazione Uomo-Computer), cs.LG (Apprendimento Automatico)
- Data di Pubblicazione: 14 ottobre 2025 (arXiv v2)
- Link Articolo: https://arxiv.org/abs/2510.10774
I dataset di linguaggio vocale persiano esistenti sono tipicamente molto più piccoli dei loro equivalenti in inglese, creando limitazioni critiche per lo sviluppo della tecnologia vocale persiana. Questo articolo affronta questo divario introducendo ParsVoice, il più grande corpus vocale persiano su larga scala specificamente progettato per applicazioni di sintesi vocale da testo (TTS). Il team di ricerca ha creato una pipeline automatizzata che converte il contenuto di audiolibri grezzi in dati pronti per TTS, includendo un rilevatore di completezza delle frasi basato su BERT, un metodo di ottimizzazione dei confini mediante ricerca binaria per l'allineamento audio-testo preciso, e un framework di valutazione della qualità audio-testo personalizzato per la lingua persiana. La pipeline ha elaborato 2.000 audiolibri, producendo 3.526 ore di linguaggio pulito, ulteriormente filtrato in un sottoinsieme di alta qualità di 1.804 ore contenente più di 470 parlanti. Per convalidare il dataset, il team di ricerca ha eseguito il fine-tuning di XTTS per il persiano, ottenendo un punteggio medio di opinione (MOS) di naturalezza di 3,6/5 e un punteggio medio di opinione di somiglianza del parlante (SMOS) di 4,0/5.
- Problema di Scarsità di Dati: Il persiano, parlato da oltre 100 milioni di persone nel mondo, è gravemente sottorappresentato in termini di corpus vocali, con un divario enorme rispetto alle lingue ad alta risorsa come l'inglese.
- Esigenze Specifiche di TTS: I sistemi di sintesi vocale da testo hanno requisiti di qualità dei dati diversi dai sistemi di riconoscimento vocale automatico (ASR). L'ASR può beneficiare da dati rumorosi del mondo reale, mentre TTS richiede coppie audio-testo pulite e precisamente allineate per generare linguaggio naturale.
- Limitazioni dei Dataset Esistenti:
- DeepMine+: 480+ ore, 1850+ parlanti, ma con restrizioni commerciali
- DeepMine-Multi-TTS: 120 ore, 67 parlanti
- ArmanTTS: 9 ore, parlante singolo
- ManaTTS: 86 ore, parlante singolo
La scarsità di dati persiani non si limita al linguaggio vocale, ma si estende all'elaborazione del testo, creando effetti a cascata su più campi dell'elaborazione del linguaggio persiano, inclusi sistemi di allineamento vocale-testo, modelli di riconoscimento ottico dei caratteri (OCR) e altri, ostacolando gravemente lo sviluppo della tecnologia persiana.
- Costruzione del più grande corpus TTS persiano pubblicamente disponibile: Contiene 1.804 ore di dati vocali di alta qualità, 470+ parlanti diversi, con una crescita di 10 volte rispetto alle risorse persiane esistenti
- Sviluppo di una pipeline di costruzione dati automatizzata e scalabile:
- Rilevamento di completezza delle frasi basato su BERT
- Algoritmo di ottimizzazione dei confini mediante ricerca binaria
- Framework di valutazione della qualità specifico per il persiano
- Implementazione di TTS persiano senza fonemi: Attraverso il fine-tuning del modello XTTS, realizzando sintesi vocale di alta qualità senza trascrizione esplicita di fonemi
- Fornitura di un dataset open-source: Il dataset completo è stato reso pubblicamente disponibile, promuovendo lo sviluppo della tecnologia vocale persiana
Conversione di audio di audiolibri grezzi in dati di addestramento TTS di alta qualità, includendo:
- Input: File audio di audiolibri grezzi e testo corrispondente
- Output: Coppie audio-testo segmentate, con allineamento temporale accurato e punteggi di qualità elevati
- Vincoli: Mantenimento dell'integrità delle frasi, garanzia della qualità audio, realizzazione dell'identificazione del parlante
- Fonte Dati: Piattaforma IranSeda (book.iranseda.ir)
- Scala: 3.800+ audiolibri, copertura multi-categoria
- Qualità: Narratori professionisti, ambiente di registrazione controllato, frequenza di campionamento 44,1 kHz
- Copyright: Accesso pubblico, senza restrizioni di copyright
Modello di Rilevamento della Completezza delle Frasi:
- Classificatore binario basato su ParsBERT fine-tuned
- Dati di addestramento: Frasi persiane complete e frasi incomplete sintetiche
- Prestazioni: Punteggio F1 del 97,4%
Flusso di Segmentazione in Tre Fasi:
- Rilevamento dei Confini Acustici: Utilizzo del rilevamento dell'attività vocale (VAD) WebRTC
- Trascrizione e Allineamento: Trascrizione tramite Google Speech-to-Text API
- Convalida Linguistica: Classificatore BERT per rilevare la completezza delle frasi, con espansione dei confini in incrementi di 0,1 secondi se necessario
Strategia di Ricerca in Due Fasi:
- Regolazione Iniziale: Rimozione di 3 secondi all'inizio e alla fine
- Convalida della Stabilità: Controllo delle discrepanze di trascrizione
- Ottimizzazione mediante Ricerca Binaria: Riduzione iterativa dell'intervallo di taglio
- Ricerca Lineare a Grana Fine: Allineamento preciso con incrementi di 0,1 secondi
Framework di Qualità del Testo Persiano:
- Qualità dei Caratteri: Proporzione di caratteri e numeri persiani validi
- Qualità della Lunghezza: Valutazione dell'appropriatezza della lunghezza della frase
- Punteggio di Ripetizione: Ricompensa per la diversità lessicale
- Copertura Fonemica: Intervallo di caratteri e fonemi persiani
Framework di Qualità Audio:
- Stima del rapporto segnale-rumore
- Analisi della gamma dinamica
- Caratteristiche spettrali e varianza MFCC
- Rilevamento di ritagli, silenzi, musica di sottofondo
Processo di Identificazione in Due Fasi:
- Separazione del Parlante Locale: Clustering basato su embedding ECAPA-TDNN
- Identificazione Globale del Parlante: Unificazione dell'identità del parlante tra libri
- Segmentazione Consapevole delle Frasi: Combinazione di rilevamento dei confini acustici e convalida della completezza linguistica
- Ottimizzazione Adattiva dei Confini: Algoritmo efficiente che combina ricerca binaria con fine-tuning lineare
- Valutazione della Qualità Specifica per il Persiano: Framework di valutazione della qualità multidimensionale progettato per le caratteristiche persiane
- Processo di Elaborazione Scalabile: Pipeline automatizzata in grado di elaborare migliaia di ore di contenuto audio
- Dati Grezzi: 3.807 libri (9.538 ore), 2.000 effettivamente elaborati
- Segmentazione Iniziale: 5.158.344 frammenti audio
- Dopo Filtraggio: 3.321.212 frammenti validi
- Dataset Finale:
- Totale: 3.526 ore, 470+ parlanti
- Sottoinsieme TTS: 1.804 ore di dati di alta qualità
- Valutazione Soggettiva:
- MOS di naturalezza (scala 1-5)
- SMOS di somiglianza del parlante (scala 1-5)
- Punteggio di accuratezza del testo
- Valutazione Oggettiva:
- Tasso di errore di parola (WER) e tasso di errore di carattere (CER)
- Somiglianza del coseno dell'embedding ECAPA-TDNN
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- Altri sistemi TTS persiani (ManaTTS, DeepMine-Multi-TTS, ecc.)
- Modello: Modello XTTS multilingue TTS
- Addestramento: Addestramento del modello BPE, 2.500 token persiani nuovi
- Fine-tuning: Dimensione batch 16, 170.000 step
- Valutazione: 90 campioni sintetici, 40 valutatori
| Sistema | MOS | SMOS |
|---|
| XTTS + ParsVoice (questo articolo) | 3,60 | 4,00 |
| FastSpeech2 End-to-End | 3,72 | 4,02 |
| FastSpeech2 Cascaded | 3,34 | 3,81 |
- WER: 22,57%
- CER: 12,78%
- Somiglianza del Parlante: 80% (basato su embedding ECAPA-TDNN)
- Accuratezza del Testo: 4,0/5 (valutazione umana)
- Effetto dell'Ottimizzazione dei Confini: Rimozione di 442,73 ore (11,2%) di silenzi e rumori non necessari
- Statistiche di Segmentazione: 81,0% dei frammenti richiede taglio all'inizio, 50,4% richiede taglio alla fine
- Durata Media dei Frammenti: 5,49 secondi (ottimale per l'addestramento TTS)
- Diversità Linguistica: 267.965 parole uniche, 25.499.474 token
- Parlanti Unici Rilevati: 1.815 istanze di parlanti unici
- Distribuzione di Genere: Circa 33% donne, 67% uomini
- Coerenza: Coerenza del 97,0% con etichette di narratori noti
- LibriSpeech: Corpus ASR su larga scala
- LJSpeech: Dataset TTS a parlante singolo
- VCTK: Corpus multilingue inglese
- Common Voice: 20+ lingue, ma qualità insufficiente per il persiano
- Multilingual LibriSpeech: Orientato verso lingue europee
- VoxPopuli: Qualità variabile tra comunità linguistiche
- I metodi tradizionali richiedono rappresentazione esplicita di fonemi
- I dataset esistenti hanno scala ridotta e sono principalmente a parlante singolo
- Le restrizioni commerciali ostacolano lo sviluppo della ricerca
- Costruzione riuscita del più grande corpus TTS persiano pubblicamente disponibile, contenente 1.804 ore di dati vocali di alta qualità
- Sviluppo di una pipeline di costruzione del dataset completamente automatizzata e scalabile, applicabile ad altre lingue a bassa risorsa
- Convalida dell'efficacia del dataset, raggiungendo prestazioni competitive su compiti TTS persiani
- Le metriche di valutazione automatica potrebbero sottovalutare la qualità: A causa della disponibilità limitata di sistemi STT commerciali per dati vocali sintetici persiani
- Distribuzione squilibrata dei parlanti: Proporzione più alta di parlanti maschi (67% vs 33%)
- Qualità audio dipendente dal materiale di origine: Limitata dalla qualità di registrazione degli audiolibri originali
- Estensione ad altre lingue a bassa risorsa: Applicazione della pipeline a più lingue
- Miglioramento del framework di valutazione della qualità: Sviluppo di metriche di valutazione automatica più accurate
- Aumento della diversità dei parlanti: Bilanciamento della distribuzione di genere ed età
- Estensione multimodale: Integrazione di informazioni visive nella sintesi vocale
- Aumento Significativo di Scala: Realizzazione di una crescita di 10 volte rispetto alle risorse persiane esistenti, colmando un divario importante
- Innovazione Tecnica:
- Rilevamento della completezza delle frasi basato su BERT, nuovo ed efficace
- Algoritmo di ottimizzazione dei confini mediante ricerca binaria, efficiente e pratico
- Framework di valutazione della qualità specifico per il persiano, altamente mirato
- Completezza Sperimentale:
- Combinazione di valutazione soggettiva e oggettiva
- Confronto con molteplici metodi di base
- Analisi e statistiche dettagliate del dataset
- Contributo Open-Source: Dataset completo reso pubblicamente disponibile, promuovendo lo sviluppo della comunità
- Riproducibilità del Metodo: Descrizione dettagliata di ogni fase della pipeline
- Ambito di Valutazione Limitato:
- Convalida su un solo modello TTS (XTTS)
- Mancanza di confronto diretto con altri dataset multilingui su larga scala
- Soggettività della Valutazione della Qualità:
- La ponderazione del framework di valutazione della qualità si basa su esperienza
- Mancanza di convalida comparativa con qualità annotata manualmente
- Dettagli Tecnici Insufficienti:
- Scelta della soglia di identificazione del parlante non sufficientemente spiegata
- Dettagli di implementazione limitati del framework di valutazione della qualità
- Impatto Accademico:
- Fornitura di risorsa importante per la ricerca TTS in lingue a bassa risorsa
- Promozione dello sviluppo della tecnologia vocale persiana
- Fornitura di metodologia di costruzione del dataset riutilizzabile
- Valore Pratico:
- Supporto diretto allo sviluppo di applicazioni TTS persiane
- Riduzione del divario digitale tra il persiano e le lingue ad alta risorsa
- Fornitura di dati di base per applicazioni vocali commerciali
- Riproducibilità: Rilascio open-source e descrizione dettagliata del metodo garantiscono la riproducibilità della ricerca
- Applicazioni Dirette:
- Addestramento di sistemi TTS persiani
- Adattamento di modelli TTS multilingui per il persiano
- Ricerca sulla valutazione della qualità della sintesi vocale
- Applicazioni Estese:
- Costruzione di dataset per altre lingue a bassa risorsa
- Sviluppo di pipeline di elaborazione vocale
- Ricerca sulla tecnologia vocale cross-lingue
Questo articolo cita 18 riferimenti importanti, coprendo:
- Fondamenti dell'architettura Transformer (Vaswani et al., 2017)
- Dataset vocali in inglese (LibriSpeech, LJSpeech, VCTK)
- Risorse vocali multilingui (Common Voice, VoxPopuli)
- Strumenti NLP persiani (ParsBERT)
- Tecnologia TTS moderna (XTTS)
- Tecnologia di identificazione del parlante (ECAPA-TDNN)
Valutazione Complessiva: Questo è un articolo di alta qualità di tipo risorsa che affronta un importante problema di scarsità di risorse costruendo un corpus TTS persiano su larga scala. L'innovazione metodologica è moderata ma altamente pratica, la verifica sperimentale è completa, e ha un impatto importante sulla promozione dello sviluppo della tecnologia vocale persiana. Il rilascio open-source migliora ulteriormente il suo valore accademico e pratico.