Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.
- ID статьи: 2510.10774
- Название: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
- Авторы: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Тегеранский университет)
- Категории: cs.SD (Звук), cs.AI (Искусственный интеллект), cs.HC (Взаимодействие человека и компьютера), cs.LG (Машинное обучение)
- Дата публикации: 14 октября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2510.10774
Существующие наборы данных персидской речи обычно значительно меньше своих английских аналогов, что создает критические ограничения для разработки технологий персидской речи. В данной работе решается этот пробел путем введения ParsVoice — крупнейшего корпуса персидской речи, специально разработанного для приложений синтеза речи по тексту (TTS). Исследовательская группа создала автоматизированный конвейер, преобразующий исходное содержимое аудиокниг в данные, готовые к TTS, включающий детектор полноты предложений на основе BERT, метод оптимизации границ с двоичным поиском для точного выравнивания аудио-текста и специально разработанную для персидского языка структуру оценки качества аудио-текста. Конвейер обработал 2000 аудиокниг, создав 3526 часов чистой речи, которая была дополнительно отфильтрована до подмножества высокого качества объемом 1804 часа, содержащего более 470 дикторов. Для проверки набора данных исследовательская группа провела тонкую настройку XTTS для персидского языка, достигнув среднего балла мнения (MOS) естественности 3,6/5 и среднего балла сходства дикторов (SMOS) 4,0/5.
- Проблема дефицита данных: Персидский язык, используемый более чем 100 миллионами человек во всем мире, серьезно недопредставлен в корпусах речи, с огромным разрывом по сравнению с высокоресурсными языками, такими как английский.
- Специальные требования TTS: Системы синтеза речи по тексту предъявляют иные требования к качеству данных, чем системы автоматического распознавания речи (ASR). ASR может извлекать выгоду из шумных данных реального мира, тогда как TTS требует чистых и точно выровненных пар аудио-текста для создания естественной речи.
- Ограничения существующих наборов данных:
- DeepMine+: 480+ часов, 1850+ дикторов, но с коммерческими ограничениями
- DeepMine-Multi-TTS: 120 часов, 67 дикторов
- ArmanTTS: 9 часов, один диктор
- ManaTTS: 86 часов, один диктор
Дефицит персидских данных не ограничивается речью, а распространяется на обработку текста, создавая каскадный эффект на несколько областей обработки персидского языка, включая системы выравнивания речи-текста, модели оптического распознавания символов (OCR) и другие, серьезно препятствуя развитию персидских технологий.
- Создан крупнейший открытый корпус персидского языка для TTS: Содержит 1804 часа высококачественных речевых данных, 470+ различных дикторов, что представляет 10-кратный рост по сравнению с существующими персидскими ресурсами
- Разработан масштабируемый автоматизированный конвейер построения данных:
- Детектор полноты предложений на основе BERT
- Алгоритм оптимизации границ с двоичным поиском
- Специфичная для персидского языка структура оценки качества
- Реализован синтез речи персидского языка без фонем: Путем тонкой настройки модели XTTS достигнут высококачественный синтез речи без необходимости явной фонемной транскрипции
- Предоставлен открытый исходный код набора данных: Полный набор данных опубликован в открытом доступе, способствуя развитию технологий персидской речи
Преобразование исходного аудио аудиокниг в высококачественные данные для обучения TTS, включая:
- Входные данные: Исходные файлы аудио аудиокниг и соответствующий текст
- Выходные данные: Сегментированные пары аудио-текста с точным временным выравниванием и оценками качества
- Ограничения: Сохранение полноты предложений, обеспечение качества аудио, идентификация дикторов
- Источник данных: Платформа IranSeda (book.iranseda.ir)
- Масштаб: 3800+ аудиокниг, многокатегорийное покрытие
- Качество: Профессиональные рассказчики, контролируемая среда записи, частота дискретизации 44,1 кГц
- Авторские права: Открытый доступ, без ограничений авторских прав
Модель детектора полноты предложений:
- Двоичный классификатор на основе тонкой настройки ParsBERT
- Данные обучения: Полные персидские предложения и синтетически созданные неполные предложения
- Производительность: F1-оценка 97,4%
Трехэтапный процесс сегментации:
- Обнаружение акустических границ: Использование обнаружения речевой активности (VAD) WebRTC
- Транскрипция и выравнивание: Транскрипция с помощью Google Speech-to-Text API
- Лингвистическая проверка: Классификатор BERT для обнаружения полноты предложений, при необходимости расширение границ с шагом 0,1 секунды
Двухэтапная стратегия поиска:
- Начальная регулировка: Удаление 3 секунд с начала и конца
- Проверка стабильности: Проверка различий в транскрипции
- Оптимизация двоичного поиска: Итеративное уменьшение вдвое интервала обрезки
- Точный линейный поиск: Выравнивание с шагом 0,1 секунды
Структура оценки качества персидского текста:
- Качество символов: Доля действительных персидских символов и цифр
- Качество длины: Оценка пригодности длины предложения
- Оценка повторяемости: Вознаграждение за лексическое разнообразие
- Покрытие фонем: Диапазон персидских символов и фонем
Структура оценки качества аудио:
- Оценка отношения сигнал-шум
- Анализ динамического диапазона
- Спектральные характеристики и дисперсия MFCC
- Обнаружение обрезки, тишины, фоновой музыки
Двухэтапный процесс идентификации:
- Локальное разделение дикторов: Кластеризация на основе вложений ECAPA-TDNN
- Глобальная идентификация дикторов: Унификация идентификации дикторов между книгами
- Сегментация с учетом предложений: Сочетание обнаружения акустических границ и проверки лингвистической полноты
- Адаптивная оптимизация границ: Эффективный алгоритм, сочетающий двоичный поиск с линейной тонкой настройкой
- Оценка качества, специфичная для персидского языка: Многомерная структура оценки качества, разработанная с учетом особенностей персидского языка
- Масштабируемый процесс обработки: Автоматизированный конвейер, способный обрабатывать тысячи часов аудиоконтента
- Исходные данные: 3807 книг (9538 часов), фактически обработано 2000 книг
- Начальная сегментация: 5 158 344 аудиофрагмента
- После фильтрации: 3 321 212 действительных фрагментов
- Финальный набор данных:
- Всего: 3526 часов, 470+ дикторов
- Подмножество TTS: 1804 часа высококачественных данных
- Субъективная оценка:
- MOS естественности (1-5 баллов)
- SMOS сходства дикторов (1-5 баллов)
- Оценка точности текста
- Объективная оценка:
- Коэффициент ошибок слов (WER) и коэффициент ошибок символов (CER)
- Косинусное сходство вложений ECAPA-TDNN
- FastSpeech2 End-to-End
- FastSpeech2 Cascaded
- Другие системы персидского TTS (ManaTTS, DeepMine-Multi-TTS и др.)
- Модель: Многоязычная модель TTS XTTS
- Обучение: Обучение модели BPE, 2500 новых персидских токенов
- Тонкая настройка: Размер пакета 16, 170 000 шагов
- Оценка: 90 синтезированных образцов, 40 оценивающих
| Система | MOS | SMOS |
|---|
| XTTS + ParsVoice (данная работа) | 3,60 | 4,00 |
| FastSpeech2 End-to-End | 3,72 | 4,02 |
| FastSpeech2 Cascaded | 3,34 | 3,81 |
- WER: 22,57%
- CER: 12,78%
- Сходство дикторов: 80% (на основе вложений ECAPA-TDNN)
- Точность текста: 4,0/5 (оценка человеком)
- Эффект оптимизации границ: Удаление 442,73 часов (11,2%) ненужной тишины и шума
- Статистика сегментации: 81,0% фрагментов требуют обрезки в начале, 50,4% требуют обрезки в конце
- Средняя длительность фрагмента: 5,49 секунды (оптимально для обучения TTS)
- Лингвистическое разнообразие: 267 965 уникальных слов, 25 499 474 токена
- Обнаруженные дикторы: 1815 уникальных экземпляров дикторов
- Распределение по полу: Примерно 33% женщин, 67% мужчин
- Согласованность: 97,0% согласованность с известными метками рассказчиков
- LibriSpeech: Крупномасштабный корпус ASR
- LJSpeech: Набор данных TTS одного дикторя
- VCTK: Многодикторский английский корпус
- Common Voice: 20+ языков, но недостаточное качество персидского раздела
- Multilingual LibriSpeech: Ориентирован на европейские языки
- VoxPopuli: Большое различие в качестве между языковыми сообществами
- Традиционные методы требуют явного представления фонем
- Существующие наборы данных небольшого размера и часто с одним диктором
- Коммерческие ограничения препятствуют развитию исследований
- Успешно создан крупнейший открытый корпус персидского языка для TTS, содержащий 1804 часа высококачественных речевых данных
- Разработан полностью автоматизированный и масштабируемый конвейер построения набора данных, применимый к другим низкоресурсным языкам
- Подтверждена эффективность набора данных, достигнуты конкурентоспособные показатели в задачах персидского TTS
- Автоматические метрики оценки могут недооценивать качество: Из-за ограниченной поддержки коммерческими системами STT синтезированной персидской речи
- Дисбаланс распределения дикторов: Более высокая доля мужских дикторов (67% против 33%)
- Качество аудио зависит от исходного материала: Ограничено качеством записи исходных аудиокниг
- Расширение на другие низкоресурсные языки: Применение конвейера к большему количеству языков
- Улучшение структуры оценки качества: Разработка более точных автоматических метрик оценки
- Повышение разнообразия дикторов: Балансировка распределения по полу и возрасту
- Мультимодальное расширение: Синтез речи с объединением визуальной информации
- Значительный прирост масштаба: 10-кратный рост по сравнению с существующими персидскими ресурсами, заполнение важного пробела
- Технологические инновации:
- Новый и эффективный детектор полноты предложений на основе BERT
- Эффективный и практичный алгоритм оптимизации границ с двоичным поиском
- Специфичная для персидского языка структура оценки качества с высокой целевой ориентацией
- Достаточность экспериментов:
- Сочетание субъективной и объективной оценки
- Сравнение с несколькими базовыми методами
- Подробный анализ и статистика набора данных
- Открытый исходный код: Полный набор данных опубликован в открытом доступе, способствуя развитию сообщества
- Воспроизводимость методологии: Подробное описание каждого этапа конвейера
- Ограниченный объем оценки:
- Проверка только на одной модели TTS (XTTS)
- Отсутствие прямого сравнения с другими крупномасштабными многоязычными наборами данных
- Субъективность оценки качества:
- Выбор весов в структуре оценки качества основан на опыте
- Отсутствие сравнительной проверки с качеством ручной аннотации
- Недостаточность технических деталей:
- Отсутствие подробного объяснения выбора порогов идентификации дикторов
- Ограниченные детали конкретной реализации структуры оценки качества
- Академическое влияние:
- Предоставление важного ресурса для исследований TTS низкоресурсных языков
- Содействие развитию технологий персидской речи
- Предоставление переиспользуемой методологии построения наборов данных
- Практическая ценность:
- Прямая поддержка разработки приложений персидского TTS
- Сокращение цифрового разрыва между персидским и высокоресурсными языками
- Предоставление базовых данных для коммерческих речевых приложений
- Воспроизводимость: Открытая публикация и подробное описание методологии обеспечивают воспроизводимость исследований
- Прямое применение:
- Обучение систем персидского TTS
- Адаптация многоязычных моделей TTS для персидского языка
- Исследование оценки качества синтеза речи
- Расширенное применение:
- Построение наборов данных для других низкоресурсных языков
- Разработка конвейеров обработки речи
- Исследование кросс-языковых технологий речи
В статье цитируется 18 важных работ, охватывающих:
- Основы архитектуры Transformer (Vaswani et al., 2017)
- Наборы данных английской речи (LibriSpeech, LJSpeech, VCTK)
- Многоязычные речевые ресурсы (Common Voice, VoxPopuli)
- Инструменты обработки персидского языка (ParsBERT)
- Современные технологии TTS (XTTS)
- Технологии идентификации дикторов (ECAPA-TDNN)
Общая оценка: Это высококачественная статья о ресурсах, которая решает важную проблему дефицита ресурсов путем создания крупномасштабного корпуса персидского языка для TTS. Методология имеет среднюю степень инноваций, но высокую практическую ценность, эксперименты проведены достаточно полно, и работа оказывает значительное влияние на развитие технологий персидской речи. Открытая публикация дополнительно повышает её академическую и практическую ценность.