Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
academic- 論文ID: 2510.10774
- タイトル: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- 著者: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (テヘラン大学)
- 分類: cs.SD (音声)、cs.AI (人工知能)、cs.HC (人間とコンピュータの相互作用)、cs.LG (機械学習)
- 発表日: 2025年10月14日 (arXiv v2)
- 論文リンク: https://arxiv.org/abs/2510.10774
既存のペルシア語音声データセットは、一般的に英語の対応するデータセットよりもはるかに小規模であり、ペルシア語音声技術の開発に重大な制限をもたらしている。本論文は、テキスト音声合成(TTS)アプリケーション向けに特別に設計された最大規模のペルシア語音声コーパスであるParsVoiceを導入することで、このギャップに対処している。研究チームは、生のオーディオブック内容をTTS対応データに変換する自動化パイプラインを構築した。これには、BERT基盤の文完全性検出器、正確な音声テキスト対齢のための二分探索境界最適化手法、およびペルシア語に特化した音声テキスト品質評価フレームワークが含まれている。このパイプラインは2,000冊のオーディオブックを処理し、3,526時間のクリーンな音声を生成し、さらに470人以上の話者を含む1,804時間の高品質サブセットにフィルタリングされた。データセットを検証するため、研究チームはXTTSをペルシア語で微調整し、3.6/5の自然性平均意見スコア(MOS)と4.0/5の話者類似度平均意見スコア(SMOS)を達成した。
- データ稀少性の問題: ペルシア語は世界中で1億人以上が使用する言語であるにもかかわらず、音声コーパスの面で深刻に過小代表であり、英語などの高リソース言語と比較して大きなギャップが存在する。
- TTS特有の要件: テキスト音声合成システムのデータ品質要件は、自動音声認識(ASR)システムとは異なる。ASRはノイズの多い実世界データから利益を得ることができるが、TTSは自然な音声を生成するために、クリーンで正確に対齢された音声テキストペアを必要とする。
- 既存データセットの制限:
- DeepMine+: 480時間以上、1,850人以上の話者、ただし商業的制限あり
- DeepMine-Multi-TTS: 120時間、67人の話者
- ArmanTTS: 9時間、単一話者
- ManaTTS: 86時間、単一話者
ペルシア語のデータ稀少性は音声に限定されず、テキスト処理にも拡張され、音声テキスト対齢システム、光学文字認識(OCR)モデルなど、複数のペルシア語言語処理分野に連鎖効果をもたらし、ペルシア語技術の発展を深刻に阻害している。
- これまでで最大の公開ペルシア語TTSコーパスの構築: 1,804時間の高品質音声データ、470人以上の異なる話者を含み、既存のペルシア語リソースと比較して10倍の成長を実現
- スケーラブルな自動化データ構築パイプラインの開発:
- BERT基盤の文完全性検出
- 二分探索境界最適化アルゴリズム
- ペルシア語特有の品質評価フレームワーク
- 音素不要なペルシア語TTSの実装: XTTSモデルの微調整を通じて、明示的な音素転写なしで高品質な音声合成を実現
- オープンソースデータセットの提供: 完全なデータセットが公開され、ペルシア語音声技術の発展を促進
生のオーディオブック音声を高品質のTTS訓練データに変換することで、以下を含む:
- 入力: 生のオーディオブック音声ファイルと対応するテキスト
- 出力: セグメント化された音声テキストペア、正確な時間対齢と高品質スコア付き
- 制約: 文の完全性を維持、音声品質を確保、話者識別を実現
- データソース: IranSedaプラットフォーム(book.iranseda.ir)
- 規模: 3,800冊以上のオーディオブック、複数カテゴリーをカバー
- 品質: 専門的なナレーター、制御された録音環境、44.1kHzサンプリングレート
- 著作権: 公開アクセス、著作権制限なし
文完全性検出モデル:
- ParsBERTで微調整された二値分類器
- 訓練データ: 完全なペルシア語文と合成された不完全な文
- 性能: F1スコア97.4%
3段階セグメンテーションフロー:
- 音響境界検出: WebRTC音声活動検出(VAD)を使用
- 転写と対齢: Google Speech-to-Text APIで転写
- 言語学的検証: BERT分類器が文完全性を検出、必要に応じて0.1秒増分で境界を拡張
2段階探索戦略:
- 初期調整: 開始と終了から各3秒を削除
- 安定性検証: 転写差異をチェック
- 二分探索最適化: 修剪間隔を反復的に半減
- 細粒度線形探索: 0.1秒増分で正確な対齢を実現
ペルシア語テキスト品質フレームワーク:
- 文字品質: 有効なペルシア語文字と数字の比率
- 長さ品質: 文長の適切性評価
- 繰り返しスコア: 語彙多様性への報酬
- 音素カバレッジ: ペルシア語文字と音素の範囲
音声品質フレームワーク:
- 信号雑音比推定
- ダイナミックレンジ分析
- スペクトル特性とMFCC分散
- クリッピング、無音、背景音楽検出
2段階識別フロー:
- 局所話者分離: ECAPA-TDNNエンベッディングに基づくクラスタリング
- グローバル話者識別: 書籍全体にわたる話者の統一識別
- 文認識セグメンテーション: 音響境界検出と言語学的完全性検証の組み合わせ
- 適応的境界最適化: 二分探索と線形微調整を組み合わせた効率的なアルゴリズム
- ペルシア語特有の品質評価: ペルシア語の特性に対応した多次元品質評価フレームワーク
- スケーラブル処理フロー: 数千時間の音声コンテンツを処理できる自動化パイプライン
- 生データ: 3,807冊(9,538時間)、実際に処理した2,000冊
- 初期セグメンテーション: 5,158,344個の音声セグメント
- フィルタリング後: 3,321,212個の有効セグメント
- 最終データセット:
- 合計: 3,526時間、470人以上の話者
- TTSサブセット: 1,804時間の高品質データ
- 主観的評価:
- 自然性MOS (1-5点)
- 話者類似度SMOS (1-5点)
- テキスト正確度スコア
- 客観的評価:
- 単語誤り率(WER)と文字誤り率(CER)
- ECAPA-TDNNエンベッディングコサイン類似度
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- その他のペルシア語TTSシステム(ManaTTS、DeepMine-Multi-TTSなど)
- モデル: XTTS多言語TTSモデル
- 訓練: BPEモデル訓練、2,500個の新しいペルシア語トークン
- 微調整: バッチサイズ16、170,000ステップ
- 評価: 90個の合成サンプル、40名の評価者
| システム | MOS | SMOS |
|---|
| XTTS + ParsVoice (本論文) | 3.60 | 4.00 |
| FastSpeech2 End-to-End | 3.72 | 4.02 |
| FastSpeech2 Cascaded | 3.34 | 3.81 |
- WER: 22.57%
- CER: 12.78%
- 話者類似度: 80% (ECAPA-TDNNエンベッディングに基づく)
- テキスト正確度: 4.0/5 (人工評価)
- 境界最適化効果: 442.73時間(11.2%)の不要な無音とノイズを削除
- セグメンテーション統計: 81.0%のセグメントが開始修剪を必要、50.4%が終了修剪を必要
- 平均セグメント長: 5.49秒(TTS訓練に最適)
- 言語学的多様性: 267,965個の独自単語、25,499,474個のトークン
- 検出された話者: 1,815個の独自話者インスタンス
- 性別分布: 約33%女性、67%男性
- 一貫性: 既知のナレーター標識との97.0%一貫性
- LibriSpeech: 大規模ASRコーパス
- LJSpeech: 単一話者TTSデータセット
- VCTK: 多話者英語コーパス
- Common Voice: 20以上の言語、ただしペルシア語部分の品質不足
- Multilingual LibriSpeech: ヨーロッパ言語に偏向
- VoxPopuli: 言語コミュニティ間の品質差異が大きい
- 従来の手法は明示的な音素表現を必要とする
- 既存のデータセットは規模が小さく、多くが単一話者
- 商業的制限が研究発展を阻害
- 最大規模の公開ペルシア語TTSコーパスの構築に成功: 1,804時間の高品質音声データを含む
- 完全に自動化されスケーラブルなデータセット構築パイプラインの開発: 他の低リソース言語に適用可能
- データセットの有効性を検証: ペルシア語TTS タスクで競争力のある性能を達成
- 自動評価指標が品質を過小評価する可能性: 商用STTシステムのペルシア語合成音声データへの対応が限定的
- 話者分布の不均衡: 男性話者の比率が高い(67% vs 33%)
- 音声品質は源材料に依存: 元のオーディオブックの録音品質に制限される
- 他の低リソース言語への拡張: パイプラインをより多くの言語に適用
- 品質評価フレームワークの改善: より正確な自動評価指標の開発
- 話者多様性の強化: 性別と年齢分布のバランス
- マルチモーダル拡張: 視覚情報を組み込んだ音声合成
- 著しいスケール向上: 既存のペルシア語リソースと比較して10倍の成長を実現し、重要なギャップを埋める
- 技術的革新性:
- BERT基盤の文完全性検出は新規かつ有効
- 二分探索境界最適化アルゴリズムは効率的で実用的
- ペルシア語特有の品質評価フレームワークは対象性が高い
- 実験の充実性:
- 主観的および客観的評価の組み合わせ
- 複数のベースライン手法との比較
- 詳細なデータセット分析と統計
- オープンソース貢献: 完全なデータセットの公開発表がコミュニティ発展を促進
- 方法の再現性: パイプラインの各ステップの詳細な説明
- 評価範囲の限定:
- 単一のTTSモデル(XTTS)でのみ検証
- 他の大規模多言語データセットとの直接比較の欠如
- 品質評価の主観性:
- 品質評価フレームワークの重み付けは経験的
- 人工注釈品質との比較検証の欠如
- 技術詳細の不足:
- 話者識別のしきい値選択の詳細説明の欠如
- 品質評価フレームワークの具体的な実装詳細の限定
- 学術的影響:
- 低リソース言語TTS研究に重要なリソースを提供
- ペルシア語音声技術の発展を推進
- 再利用可能なデータセット構築方法論を提供
- 実用的価値:
- ペルシア語TTS アプリケーション開発を直接支援
- ペルシア語と高リソース言語のデジタルデバイドを縮小
- 商用音声アプリケーションに基礎データを提供
- 再現性: オープンソース発表と詳細な方法説明により研究の再現性を確保
- 直接応用:
- ペルシア語TTSシステムの訓練
- 多言語TTSモデルのペルシア語適応
- 音声合成品質評価研究
- 拡張応用:
- 他の低リソース言語のデータセット構築
- 音声処理パイプラインの開発
- 言語間音声技術研究
本論文は18篇の重要な文献を引用し、以下を含む:
- Transformer アーキテクチャの基礎 (Vaswani et al., 2017)
- 英語音声データセット (LibriSpeech、LJSpeech、VCTK)
- 多言語音声リソース (Common Voice、VoxPopuli)
- ペルシア語NLPツール (ParsBERT)
- 最新のTTS技術 (XTTS)
- 話者識別技術 (ECAPA-TDNN)
総合評価: これは高品質なリソース型論文であり、大規模なペルシア語TTSコーパスの構築を通じて重要なリソース稀少性の問題に対処している。方法の革新性は中程度だが実用性が高く、実験検証が充分であり、ペルシア語音声技術の発展に重要な推進力をもたらしている。オープンソース発表はその学術的および実用的価値をさらに高めている。