Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
academic- 论文ID: 2510.10774
- 标题: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- 作者: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (University of Tehran)
- 分类: cs.SD (Sound), cs.AI (Artificial Intelligence), cs.HC (Human-Computer Interaction), cs.LG (Machine Learning)
- 发表时间: 2025年10月14日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2510.10774
现有的波斯语语音数据集通常比英语对应数据集小得多,这为开发波斯语语音技术创造了关键限制。本文通过引入ParsVoice来解决这一差距,这是专门为文本到语音(TTS)应用设计的最大规模波斯语语音语料库。研究团队创建了一个自动化管道,将原始有声读物内容转换为TTS就绪数据,包含基于BERT的句子完整性检测器、用于精确音频-文本对齐的二分搜索边界优化方法,以及针对波斯语定制的音频-文本质量评估框架。该管道处理了2,000本有声读物,产生了3,526小时的清洁语音,进一步过滤为1,804小时的高质量子集,包含470多名说话者。为验证数据集,研究团队对XTTS进行了波斯语微调,实现了3.6/5的自然度平均意见分数(MOS)和4.0/5的说话者相似度平均意见分数(SMOS)。
- 数据稀缺性问题:波斯语作为全球超过1亿人使用的语言,在语音语料库方面严重缺乏代表性,与英语等高资源语言相比存在巨大差距。
- TTS特殊需求:文本到语音系统对数据质量的要求与自动语音识别(ASR)系统不同。ASR可以从嘈杂的真实世界数据中受益,而TTS需要清洁且精确对齐的音频-文本对来生成自然的语音。
- 现有数据集局限性:
- DeepMine+:480+小时,1850+说话者,但商业限制
- DeepMine-Multi-TTS:120小时,67说话者
- ArmanTTS:9小时,单一说话者
- ManaTTS:86小时,单一说话者
波斯语数据稀缺不仅限于语音,还扩展到文本处理,对多个波斯语言处理领域产生连锁效应,包括语音到文本对齐系统、光学字符识别(OCR)模型等,严重阻碍了波斯语技术的发展。
- 构建了迄今最大的公开波斯语TTS语料库:包含1,804小时高质量语音数据,470+不同说话者,相比现有波斯语资源增长10倍
- 开发了可扩展的自动化数据构建管道:
- 基于BERT的句子完整性检测
- 二分搜索边界优化算法
- 波斯语特定的质量评估框架
- 实现了无音素的波斯语TTS:通过微调XTTS模型,无需显式音素转录即可实现高质量语音合成
- 提供了开源数据集:完整数据集已公开发布,促进波斯语语音技术发展
将原始有声读物音频转换为高质量的TTS训练数据,包括:
- 输入:原始有声读物音频文件和对应文本
- 输出:分段的音频-文本对,具有准确的时间对齐和高质量评分
- 约束:保持句子完整性,确保音频质量,实现说话者识别
- 数据源:IranSeda平台(book.iranseda.ir)
- 规模:3,800+有声读物,多类别覆盖
- 质量:专业叙述者,受控录音环境,44.1kHz采样率
- 版权:公开访问,无版权限制
句子完整性检测模型:
- 基于ParsBERT微调的二分类器
- 训练数据:完整波斯语句子及合成的不完整句子
- 性能:F1分数97.4%
三阶段分割流程:
- 声学边界检测:使用WebRTC语音活动检测(VAD)
- 转录与对齐:Google Speech-to-Text API转录
- 语言学验证:BERT分类器检测句子完整性,必要时进行0.1秒增量边界扩展
二阶段搜索策略:
- 初始调整:移除开头和结尾各3秒
- 稳定性验证:检查转录差异
- 二分搜索优化:迭代减半修剪间隔
- 细粒度线性搜索:0.1秒增量精确对齐
波斯语文本质量框架:
- 字符质量:有效波斯语字符和数字比例
- 长度质量:句子长度适宜性评估
- 重复评分:词汇多样性奖励
- 音素覆盖:波斯语字符和音素范围
音频质量框架:
- 信噪比估计
- 动态范围分析
- 频谱特征和MFCC方差
- 裁剪、静音、背景音乐检测
两阶段识别流程:
- 局部说话者分离:基于ECAPA-TDNN嵌入的聚类
- 全局说话者识别:跨书籍的说话者统一标识
- 句子感知分割:结合声学边界检测和语言学完整性验证
- 自适应边界优化:二分搜索结合线性细调的高效算法
- 波斯语特定质量评估:针对波斯语特点设计的多维质量评估框架
- 可扩展处理流程:能够处理数千小时音频内容的自动化管道
- 原始数据:3,807本书(9,538小时),实际处理2,000本
- 初始分段:5,158,344个音频片段
- 过滤后:3,321,212个有效片段
- 最终数据集:
- 总计:3,526小时,470+说话者
- TTS子集:1,804小时高质量数据
- 主观评估:
- 自然度MOS (1-5分)
- 说话者相似度SMOS (1-5分)
- 文本准确度评分
- 客观评估:
- 词错误率(WER)和字符错误率(TER)
- ECAPA-TDNN嵌入余弦相似度
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- 其他波斯语TTS系统(ManaTTS, DeepMine-Multi-TTS等)
- 模型:XTTS多语言TTS模型
- 训练:BPE模型训练,2,500个新波斯语标记
- 微调:批大小16,170,000步
- 评估:90个合成样本,40名评估者
| 系统 | MOS | SMOS |
|---|
| XTTS + ParsVoice (本文) | 3.60 | 4.00 |
| FastSpeech2 End-to-End | 3.72 | 4.02 |
| FastSpeech2 Cascaded | 3.34 | 3.81 |
- WER: 22.57%
- CER: 12.78%
- 说话者相似度: 80% (基于ECAPA-TDNN嵌入)
- 文本准确度: 4.0/5 (人工评估)
- 边界优化效果:移除442.73小时(11.2%)不需要的静音和噪声
- 分割统计:81.0%片段需要开头修剪,50.4%需要结尾修剪
- 平均片段时长:5.49秒(TTS训练最优)
- 语言学多样性:267,965个独特单词,25,499,474个标记
- 检测到的说话者:1,815个独特说话者实例
- 性别分布:约33%女性,67%男性
- 一致性:与已知叙述者标签97.0%一致性
- LibriSpeech:大规模ASR语料库
- LJSpeech:单说话者TTS数据集
- VCTK:多说话者英语语料库
- Common Voice:20+语言,但波斯语部分质量不足
- Multilingual LibriSpeech:偏向欧洲语言
- VoxPopuli:语言社区质量差异大
- 传统方法需要显式音素表示
- 现有数据集规模小且多为单说话者
- 商业限制阻碍研究发展
- 成功构建了最大规模的公开波斯语TTS语料库,包含1,804小时高质量语音数据
- 开发了完全自动化和可扩展的数据集构建管道,可应用于其他低资源语言
- 验证了数据集的有效性,在波斯语TTS任务上达到竞争性性能
- 自动评估指标可能低估质量:由于商业STT系统对波斯语合成语音数据有限
- 说话者分布不平衡:男性说话者比例较高(67% vs 33%)
- 音频质量依赖源材料:受限于原始有声读物的录音质量
- 扩展到其他低资源语言:将管道应用于更多语言
- 改进质量评估框架:开发更准确的自动评估指标
- 增强说话者多样性:平衡性别和年龄分布
- 多模态扩展:结合视觉信息的语音合成
- 显著的规模提升:相比现有波斯语资源实现10倍增长,填补了重要空白
- 技术创新性:
- BERT-based句子完整性检测新颖且有效
- 二分搜索边界优化算法高效实用
- 波斯语特定质量评估框架针对性强
- 实验充分性:
- 主观和客观评估相结合
- 与多个基线方法对比
- 详细的数据集分析和统计
- 开源贡献:完整数据集公开发布,促进社区发展
- 方法可复现性:详细描述了管道的每个步骤
- 评估范围有限:
- 仅在一个TTS模型(XTTS)上验证
- 缺乏与其他大规模多语言数据集的直接对比
- 质量评估主观性:
- 质量评估框架的权重设置基于经验
- 缺乏与人工标注质量的对比验证
- 技术细节不足:
- 说话者识别的阈值选择缺乏详细说明
- 质量评估框架的具体实现细节有限
- 学术影响:
- 为低资源语言TTS研究提供重要资源
- 推动波斯语语音技术发展
- 提供可复用的数据集构建方法论
- 实用价值:
- 直接支持波斯语TTS应用开发
- 减少波斯语与高资源语言的数字鸿沟
- 为商业语音应用提供基础数据
- 可复现性:开源发布和详细方法描述确保研究可复现
- 直接应用:
- 波斯语TTS系统训练
- 多语言TTS模型的波斯语适配
- 语音合成质量评估研究
- 扩展应用:
- 其他低资源语言数据集构建
- 语音处理管道开发
- 跨语言语音技术研究
本文引用了18篇重要文献,涵盖:
- Transformer架构基础 (Vaswani et al., 2017)
- 英语语音数据集 (LibriSpeech, LJSpeech, VCTK)
- 多语言语音资源 (Common Voice, VoxPopuli)
- 波斯语NLP工具 (ParsBERT)
- 现代TTS技术 (XTTS)
- 说话者识别技术 (ECAPA-TDNN)
总体评价:这是一篇高质量的资源型论文,通过构建大规模波斯语TTS语料库解决了重要的资源稀缺问题。方法创新性适中但实用性强,实验验证充分,对波斯语语音技术发展具有重要推动作用。开源发布进一步增强了其学术和实用价值。