2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice: Un Corpus Vocale Persiano Multi-Speaker su Larga Scala per la Sintesi Vocale da Testo

Informazioni Fondamentali

ID Articolo: 2510.10774
Titolo: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
Autori: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Università di Teheran)
Classificazione: cs.SD (Audio), cs.AI (Intelligenza Artificiale), cs.HC (Interazione Uomo-Computer), cs.LG (Apprendimento Automatico)
Data di Pubblicazione: 14 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2510.10774

Riassunto

I dataset di linguaggio vocale persiano esistenti sono tipicamente molto più piccoli dei loro equivalenti in inglese, creando limitazioni critiche per lo sviluppo della tecnologia vocale persiana. Questo articolo affronta questo divario introducendo ParsVoice, il più grande corpus vocale persiano su larga scala specificamente progettato per applicazioni di sintesi vocale da testo (TTS). Il team di ricerca ha creato una pipeline automatizzata che converte il contenuto di audiolibri grezzi in dati pronti per TTS, includendo un rilevatore di completezza delle frasi basato su BERT, un metodo di ottimizzazione dei confini mediante ricerca binaria per l'allineamento audio-testo preciso, e un framework di valutazione della qualità audio-testo personalizzato per la lingua persiana. La pipeline ha elaborato 2.000 audiolibri, producendo 3.526 ore di linguaggio pulito, ulteriormente filtrato in un sottoinsieme di alta qualità di 1.804 ore contenente più di 470 parlanti. Per convalidare il dataset, il team di ricerca ha eseguito il fine-tuning di XTTS per il persiano, ottenendo un punteggio medio di opinione (MOS) di naturalezza di 3,6/5 e un punteggio medio di opinione di somiglianza del parlante (SMOS) di 4,0/5.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema di Scarsità di Dati: Il persiano, parlato da oltre 100 milioni di persone nel mondo, è gravemente sottorappresentato in termini di corpus vocali, con un divario enorme rispetto alle lingue ad alta risorsa come l'inglese.
Esigenze Specifiche di TTS: I sistemi di sintesi vocale da testo hanno requisiti di qualità dei dati diversi dai sistemi di riconoscimento vocale automatico (ASR). L'ASR può beneficiare da dati rumorosi del mondo reale, mentre TTS richiede coppie audio-testo pulite e precisamente allineate per generare linguaggio naturale.
Limitazioni dei Dataset Esistenti:
- DeepMine+: 480+ ore, 1850+ parlanti, ma con restrizioni commerciali
- DeepMine-Multi-TTS: 120 ore, 67 parlanti
- ArmanTTS: 9 ore, parlante singolo
- ManaTTS: 86 ore, parlante singolo

Importanza della Ricerca

La scarsità di dati persiani non si limita al linguaggio vocale, ma si estende all'elaborazione del testo, creando effetti a cascata su più campi dell'elaborazione del linguaggio persiano, inclusi sistemi di allineamento vocale-testo, modelli di riconoscimento ottico dei caratteri (OCR) e altri, ostacolando gravemente lo sviluppo della tecnologia persiana.

Contributi Principali

Costruzione del più grande corpus TTS persiano pubblicamente disponibile: Contiene 1.804 ore di dati vocali di alta qualità, 470+ parlanti diversi, con una crescita di 10 volte rispetto alle risorse persiane esistenti
Sviluppo di una pipeline di costruzione dati automatizzata e scalabile:
- Rilevamento di completezza delle frasi basato su BERT
- Algoritmo di ottimizzazione dei confini mediante ricerca binaria
- Framework di valutazione della qualità specifico per il persiano
Implementazione di TTS persiano senza fonemi: Attraverso il fine-tuning del modello XTTS, realizzando sintesi vocale di alta qualità senza trascrizione esplicita di fonemi
Fornitura di un dataset open-source: Il dataset completo è stato reso pubblicamente disponibile, promuovendo lo sviluppo della tecnologia vocale persiana

Spiegazione Dettagliata del Metodo

Definizione del Compito

Conversione di audio di audiolibri grezzi in dati di addestramento TTS di alta qualità, includendo:

Input: File audio di audiolibri grezzi e testo corrispondente
Output: Coppie audio-testo segmentate, con allineamento temporale accurato e punteggi di qualità elevati
Vincoli: Mantenimento dell'integrità delle frasi, garanzia della qualità audio, realizzazione dell'identificazione del parlante

Pipeline Automatizzata di Costruzione del Corpus

1. Raccolta Dati e Selezione della Fonte

Fonte Dati: Piattaforma IranSeda (book.iranseda.ir)
Scala: 3.800+ audiolibri, copertura multi-categoria
Qualità: Narratori professionisti, ambiente di registrazione controllato, frequenza di campionamento 44,1 kHz
Copyright: Accesso pubblico, senza restrizioni di copyright

2. Segmentazione Audio Intelligente

Modello di Rilevamento della Completezza delle Frasi:

Classificatore binario basato su ParsBERT fine-tuned
Dati di addestramento: Frasi persiane complete e frasi incomplete sintetiche
Prestazioni: Punteggio F1 del 97,4%

Flusso di Segmentazione in Tre Fasi:

Rilevamento dei Confini Acustici: Utilizzo del rilevamento dell'attività vocale (VAD) WebRTC
Trascrizione e Allineamento: Trascrizione tramite Google Speech-to-Text API
Convalida Linguistica: Classificatore BERT per rilevare la completezza delle frasi, con espansione dei confini in incrementi di 0,1 secondi se necessario

3. Algoritmo di Ottimizzazione dei Confini

Strategia di Ricerca in Due Fasi:

Regolazione Iniziale: Rimozione di 3 secondi all'inizio e alla fine
Convalida della Stabilità: Controllo delle discrepanze di trascrizione
Ottimizzazione mediante Ricerca Binaria: Riduzione iterativa dell'intervallo di taglio
Ricerca Lineare a Grana Fine: Allineamento preciso con incrementi di 0,1 secondi

4. Valutazione della Qualità Testo-Audio

Framework di Qualità del Testo Persiano:

Qualità dei Caratteri: Proporzione di caratteri e numeri persiani validi
Qualità della Lunghezza: Valutazione dell'appropriatezza della lunghezza della frase
Punteggio di Ripetizione: Ricompensa per la diversità lessicale
Copertura Fonemica: Intervallo di caratteri e fonemi persiani

Framework di Qualità Audio:

Stima del rapporto segnale-rumore
Analisi della gamma dinamica
Caratteristiche spettrali e varianza MFCC
Rilevamento di ritagli, silenzi, musica di sottofondo

5. Identificazione del Parlante

Processo di Identificazione in Due Fasi:

Separazione del Parlante Locale: Clustering basato su embedding ECAPA-TDNN
Identificazione Globale del Parlante: Unificazione dell'identità del parlante tra libri

Punti di Innovazione Tecnica

Segmentazione Consapevole delle Frasi: Combinazione di rilevamento dei confini acustici e convalida della completezza linguistica
Ottimizzazione Adattiva dei Confini: Algoritmo efficiente che combina ricerca binaria con fine-tuning lineare
Valutazione della Qualità Specifica per il Persiano: Framework di valutazione della qualità multidimensionale progettato per le caratteristiche persiane
Processo di Elaborazione Scalabile: Pipeline automatizzata in grado di elaborare migliaia di ore di contenuto audio

Configurazione Sperimentale

Statistiche del Dataset

Dati Grezzi: 3.807 libri (9.538 ore), 2.000 effettivamente elaborati
Segmentazione Iniziale: 5.158.344 frammenti audio
Dopo Filtraggio: 3.321.212 frammenti validi
Dataset Finale:
- Totale: 3.526 ore, 470+ parlanti
- Sottoinsieme TTS: 1.804 ore di dati di alta qualità

Metriche di Valutazione

Valutazione Soggettiva:
- MOS di naturalezza (scala 1-5)
- SMOS di somiglianza del parlante (scala 1-5)
- Punteggio di accuratezza del testo
Valutazione Oggettiva:
- Tasso di errore di parola (WER) e tasso di errore di carattere (CER)
- Somiglianza del coseno dell'embedding ECAPA-TDNN

Metodi di Confronto

FastSpeech2 End-to-End
FastSpeech2 Cascaded
Altri sistemi TTS persiani (ManaTTS, DeepMine-Multi-TTS, ecc.)

Dettagli di Implementazione

Modello: Modello XTTS multilingue TTS
Addestramento: Addestramento del modello BPE, 2.500 token persiani nuovi
Fine-tuning: Dimensione batch 16, 170.000 step
Valutazione: 90 campioni sintetici, 40 valutatori

Risultati Sperimentali

Risultati Principali

Sistema	MOS	SMOS
XTTS + ParsVoice (questo articolo)	3,60	4,00
FastSpeech2 End-to-End	3,72	4,02
FastSpeech2 Cascaded	3,34	3,81

Risultati di Valutazione Oggettiva

WER: 22,57%
CER: 12,78%
Somiglianza del Parlante: 80% (basato su embedding ECAPA-TDNN)
Accuratezza del Testo: 4,0/5 (valutazione umana)

Analisi della Qualità del Dataset

Effetto dell'Ottimizzazione dei Confini: Rimozione di 442,73 ore (11,2%) di silenzi e rumori non necessari
Statistiche di Segmentazione: 81,0% dei frammenti richiede taglio all'inizio, 50,4% richiede taglio alla fine
Durata Media dei Frammenti: 5,49 secondi (ottimale per l'addestramento TTS)
Diversità Linguistica: 267.965 parole uniche, 25.499.474 token

Accuratezza dell'Identificazione del Parlante

Parlanti Unici Rilevati: 1.815 istanze di parlanti unici
Distribuzione di Genere: Circa 33% donne, 67% uomini
Coerenza: Coerenza del 97,0% con etichette di narratori noti

Lavori Correlati

Dataset Vocali in Inglese

LibriSpeech: Corpus ASR su larga scala
LJSpeech: Dataset TTS a parlante singolo
VCTK: Corpus multilingue inglese

Sforzi Multilingui

Common Voice: 20+ lingue, ma qualità insufficiente per il persiano
Multilingual LibriSpeech: Orientato verso lingue europee
VoxPopuli: Qualità variabile tra comunità linguistiche

Ricerca TTS Persiana

I metodi tradizionali richiedono rappresentazione esplicita di fonemi
I dataset esistenti hanno scala ridotta e sono principalmente a parlante singolo
Le restrizioni commerciali ostacolano lo sviluppo della ricerca

Conclusioni e Discussione

Conclusioni Principali

Costruzione riuscita del più grande corpus TTS persiano pubblicamente disponibile, contenente 1.804 ore di dati vocali di alta qualità
Sviluppo di una pipeline di costruzione del dataset completamente automatizzata e scalabile, applicabile ad altre lingue a bassa risorsa
Convalida dell'efficacia del dataset, raggiungendo prestazioni competitive su compiti TTS persiani

Limitazioni

Le metriche di valutazione automatica potrebbero sottovalutare la qualità: A causa della disponibilità limitata di sistemi STT commerciali per dati vocali sintetici persiani
Distribuzione squilibrata dei parlanti: Proporzione più alta di parlanti maschi (67% vs 33%)
Qualità audio dipendente dal materiale di origine: Limitata dalla qualità di registrazione degli audiolibri originali

Direzioni Future

Estensione ad altre lingue a bassa risorsa: Applicazione della pipeline a più lingue
Miglioramento del framework di valutazione della qualità: Sviluppo di metriche di valutazione automatica più accurate
Aumento della diversità dei parlanti: Bilanciamento della distribuzione di genere ed età
Estensione multimodale: Integrazione di informazioni visive nella sintesi vocale

Valutazione Approfondita

Punti di Forza

Aumento Significativo di Scala: Realizzazione di una crescita di 10 volte rispetto alle risorse persiane esistenti, colmando un divario importante
Innovazione Tecnica:
- Rilevamento della completezza delle frasi basato su BERT, nuovo ed efficace
- Algoritmo di ottimizzazione dei confini mediante ricerca binaria, efficiente e pratico
- Framework di valutazione della qualità specifico per il persiano, altamente mirato
Completezza Sperimentale:
- Combinazione di valutazione soggettiva e oggettiva
- Confronto con molteplici metodi di base
- Analisi e statistiche dettagliate del dataset
Contributo Open-Source: Dataset completo reso pubblicamente disponibile, promuovendo lo sviluppo della comunità
Riproducibilità del Metodo: Descrizione dettagliata di ogni fase della pipeline

Carenze

Ambito di Valutazione Limitato:
- Convalida su un solo modello TTS (XTTS)
- Mancanza di confronto diretto con altri dataset multilingui su larga scala
Soggettività della Valutazione della Qualità:
- La ponderazione del framework di valutazione della qualità si basa su esperienza
- Mancanza di convalida comparativa con qualità annotata manualmente
Dettagli Tecnici Insufficienti:
- Scelta della soglia di identificazione del parlante non sufficientemente spiegata
- Dettagli di implementazione limitati del framework di valutazione della qualità

Impatto

Impatto Accademico:
- Fornitura di risorsa importante per la ricerca TTS in lingue a bassa risorsa
- Promozione dello sviluppo della tecnologia vocale persiana
- Fornitura di metodologia di costruzione del dataset riutilizzabile
Valore Pratico:
- Supporto diretto allo sviluppo di applicazioni TTS persiane
- Riduzione del divario digitale tra il persiano e le lingue ad alta risorsa
- Fornitura di dati di base per applicazioni vocali commerciali
Riproducibilità: Rilascio open-source e descrizione dettagliata del metodo garantiscono la riproducibilità della ricerca

Scenari di Applicazione

Applicazioni Dirette:
- Addestramento di sistemi TTS persiani
- Adattamento di modelli TTS multilingui per il persiano
- Ricerca sulla valutazione della qualità della sintesi vocale
Applicazioni Estese:
- Costruzione di dataset per altre lingue a bassa risorsa
- Sviluppo di pipeline di elaborazione vocale
- Ricerca sulla tecnologia vocale cross-lingue

Riferimenti Bibliografici

Questo articolo cita 18 riferimenti importanti, coprendo:

Fondamenti dell'architettura Transformer (Vaswani et al., 2017)
Dataset vocali in inglese (LibriSpeech, LJSpeech, VCTK)
Risorse vocali multilingui (Common Voice, VoxPopuli)
Strumenti NLP persiani (ParsBERT)
Tecnologia TTS moderna (XTTS)
Tecnologia di identificazione del parlante (ECAPA-TDNN)

Valutazione Complessiva: Questo è un articolo di alta qualità di tipo risorsa che affronta un importante problema di scarsità di risorse costruendo un corpus TTS persiano su larga scala. L'innovazione metodologica è moderata ma altamente pratica, la verifica sperimentale è completa, e ha un impatto importante sulla promozione dello sviluppo della tecnologia vocale persiana. Il rilascio open-source migliora ulteriormente il suo valore accademico e pratico.