2025-11-15T13:07:11.069047

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Kalahroodi, Faili, Shakery

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary optimization method for precise audio-text alignment, and audio-text quality assessment frameworks tailored to Persian. The pipeline processes 2,000 audiobooks, yielding 3,526 hours of clean speech, which was further filtered into a 1,804-hour high-quality subset suitable for TTS, featuring more than 470 speakers. To validate the dataset, we fine-tuned XTTS for Persian, achieving a naturalness Mean Opinion Score (MOS) of 3.6/5 and a Speaker Similarity Mean Opinion Score (SMOS) of 4.0/5 demonstrating ParsVoice's effectiveness for training multi-speaker TTS systems. ParsVoice is the largest high-quality Persian speech dataset, offering speaker diversity and audio quality comparable to major English corpora. The complete dataset has been made publicly available to accelerate the development of Persian speech technologies. The ParsVoice dataset is publicly available at: https://huggingface.co/datasets/MohammadJRanjbar/ParsVoice.

academic

ParsVoice: Большой многодикторский корпус персидской речи для синтеза речи по тексту

Основная информация

ID статьи: 2510.10774
Название: ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
Авторы: Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery (Тегеранский университет)
Категории: cs.SD (Звук), cs.AI (Искусственный интеллект), cs.HC (Взаимодействие человека и компьютера), cs.LG (Машинное обучение)
Дата публикации: 14 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.10774

Аннотация

Существующие наборы данных персидской речи обычно значительно меньше своих английских аналогов, что создает критические ограничения для разработки технологий персидской речи. В данной работе решается этот пробел путем введения ParsVoice — крупнейшего корпуса персидской речи, специально разработанного для приложений синтеза речи по тексту (TTS). Исследовательская группа создала автоматизированный конвейер, преобразующий исходное содержимое аудиокниг в данные, готовые к TTS, включающий детектор полноты предложений на основе BERT, метод оптимизации границ с двоичным поиском для точного выравнивания аудио-текста и специально разработанную для персидского языка структуру оценки качества аудио-текста. Конвейер обработал 2000 аудиокниг, создав 3526 часов чистой речи, которая была дополнительно отфильтрована до подмножества высокого качества объемом 1804 часа, содержащего более 470 дикторов. Для проверки набора данных исследовательская группа провела тонкую настройку XTTS для персидского языка, достигнув среднего балла мнения (MOS) естественности 3,6/5 и среднего балла сходства дикторов (SMOS) 4,0/5.

Предпосылки и мотивация исследования

Определение проблемы

Проблема дефицита данных: Персидский язык, используемый более чем 100 миллионами человек во всем мире, серьезно недопредставлен в корпусах речи, с огромным разрывом по сравнению с высокоресурсными языками, такими как английский.
Специальные требования TTS: Системы синтеза речи по тексту предъявляют иные требования к качеству данных, чем системы автоматического распознавания речи (ASR). ASR может извлекать выгоду из шумных данных реального мира, тогда как TTS требует чистых и точно выровненных пар аудио-текста для создания естественной речи.
Ограничения существующих наборов данных:
- DeepMine+: 480+ часов, 1850+ дикторов, но с коммерческими ограничениями
- DeepMine-Multi-TTS: 120 часов, 67 дикторов
- ArmanTTS: 9 часов, один диктор
- ManaTTS: 86 часов, один диктор

Значимость исследования

Дефицит персидских данных не ограничивается речью, а распространяется на обработку текста, создавая каскадный эффект на несколько областей обработки персидского языка, включая системы выравнивания речи-текста, модели оптического распознавания символов (OCR) и другие, серьезно препятствуя развитию персидских технологий.

Основные вклады

Создан крупнейший открытый корпус персидского языка для TTS: Содержит 1804 часа высококачественных речевых данных, 470+ различных дикторов, что представляет 10-кратный рост по сравнению с существующими персидскими ресурсами
Разработан масштабируемый автоматизированный конвейер построения данных:
- Детектор полноты предложений на основе BERT
- Алгоритм оптимизации границ с двоичным поиском
- Специфичная для персидского языка структура оценки качества
Реализован синтез речи персидского языка без фонем: Путем тонкой настройки модели XTTS достигнут высококачественный синтез речи без необходимости явной фонемной транскрипции
Предоставлен открытый исходный код набора данных: Полный набор данных опубликован в открытом доступе, способствуя развитию технологий персидской речи

Подробное описание методологии

Определение задачи

Преобразование исходного аудио аудиокниг в высококачественные данные для обучения TTS, включая:

Входные данные: Исходные файлы аудио аудиокниг и соответствующий текст
Выходные данные: Сегментированные пары аудио-текста с точным временным выравниванием и оценками качества
Ограничения: Сохранение полноты предложений, обеспечение качества аудио, идентификация дикторов

Автоматизированный конвейер построения корпуса

1. Сбор данных и выбор источников

Источник данных: Платформа IranSeda (book.iranseda.ir)
Масштаб: 3800+ аудиокниг, многокатегорийное покрытие
Качество: Профессиональные рассказчики, контролируемая среда записи, частота дискретизации 44,1 кГц
Авторские права: Открытый доступ, без ограничений авторских прав

2. Интеллектуальная сегментация аудио

Модель детектора полноты предложений:

Двоичный классификатор на основе тонкой настройки ParsBERT
Данные обучения: Полные персидские предложения и синтетически созданные неполные предложения
Производительность: F1-оценка 97,4%

Трехэтапный процесс сегментации:

Обнаружение акустических границ: Использование обнаружения речевой активности (VAD) WebRTC
Транскрипция и выравнивание: Транскрипция с помощью Google Speech-to-Text API
Лингвистическая проверка: Классификатор BERT для обнаружения полноты предложений, при необходимости расширение границ с шагом 0,1 секунды

3. Алгоритм оптимизации границ

Двухэтапная стратегия поиска:

Начальная регулировка: Удаление 3 секунд с начала и конца
Проверка стабильности: Проверка различий в транскрипции
Оптимизация двоичного поиска: Итеративное уменьшение вдвое интервала обрезки
Точный линейный поиск: Выравнивание с шагом 0,1 секунды

4. Оценка качества текста и аудио

Структура оценки качества персидского текста:

Качество символов: Доля действительных персидских символов и цифр
Качество длины: Оценка пригодности длины предложения
Оценка повторяемости: Вознаграждение за лексическое разнообразие
Покрытие фонем: Диапазон персидских символов и фонем

Структура оценки качества аудио:

Оценка отношения сигнал-шум
Анализ динамического диапазона
Спектральные характеристики и дисперсия MFCC
Обнаружение обрезки, тишины, фоновой музыки

5. Идентификация дикторов

Двухэтапный процесс идентификации:

Локальное разделение дикторов: Кластеризация на основе вложений ECAPA-TDNN
Глобальная идентификация дикторов: Унификация идентификации дикторов между книгами

Технические инновации

Сегментация с учетом предложений: Сочетание обнаружения акустических границ и проверки лингвистической полноты
Адаптивная оптимизация границ: Эффективный алгоритм, сочетающий двоичный поиск с линейной тонкой настройкой
Оценка качества, специфичная для персидского языка: Многомерная структура оценки качества, разработанная с учетом особенностей персидского языка
Масштабируемый процесс обработки: Автоматизированный конвейер, способный обрабатывать тысячи часов аудиоконтента

Экспериментальная установка

Статистика набора данных

Исходные данные: 3807 книг (9538 часов), фактически обработано 2000 книг
Начальная сегментация: 5 158 344 аудиофрагмента
После фильтрации: 3 321 212 действительных фрагментов
Финальный набор данных:
- Всего: 3526 часов, 470+ дикторов
- Подмножество TTS: 1804 часа высококачественных данных

Метрики оценки

Субъективная оценка:
- MOS естественности (1-5 баллов)
- SMOS сходства дикторов (1-5 баллов)
- Оценка точности текста
Объективная оценка:
- Коэффициент ошибок слов (WER) и коэффициент ошибок символов (CER)
- Косинусное сходство вложений ECAPA-TDNN

Методы сравнения

FastSpeech2 End-to-End
FastSpeech2 Cascaded
Другие системы персидского TTS (ManaTTS, DeepMine-Multi-TTS и др.)

Детали реализации

Модель: Многоязычная модель TTS XTTS
Обучение: Обучение модели BPE, 2500 новых персидских токенов
Тонкая настройка: Размер пакета 16, 170 000 шагов
Оценка: 90 синтезированных образцов, 40 оценивающих

Результаты экспериментов

Основные результаты

Система	MOS	SMOS
XTTS + ParsVoice (данная работа)	3,60	4,00
FastSpeech2 End-to-End	3,72	4,02
FastSpeech2 Cascaded	3,34	3,81

Результаты объективной оценки

WER: 22,57%
CER: 12,78%
Сходство дикторов: 80% (на основе вложений ECAPA-TDNN)
Точность текста: 4,0/5 (оценка человеком)

Анализ качества набора данных

Эффект оптимизации границ: Удаление 442,73 часов (11,2%) ненужной тишины и шума
Статистика сегментации: 81,0% фрагментов требуют обрезки в начале, 50,4% требуют обрезки в конце
Средняя длительность фрагмента: 5,49 секунды (оптимально для обучения TTS)
Лингвистическое разнообразие: 267 965 уникальных слов, 25 499 474 токена

Точность идентификации дикторов

Обнаруженные дикторы: 1815 уникальных экземпляров дикторов
Распределение по полу: Примерно 33% женщин, 67% мужчин
Согласованность: 97,0% согласованность с известными метками рассказчиков

Связанные работы

Наборы данных английской речи

LibriSpeech: Крупномасштабный корпус ASR
LJSpeech: Набор данных TTS одного дикторя
VCTK: Многодикторский английский корпус

Многоязычные усилия

Common Voice: 20+ языков, но недостаточное качество персидского раздела
Multilingual LibriSpeech: Ориентирован на европейские языки
VoxPopuli: Большое различие в качестве между языковыми сообществами

Исследования персидского TTS

Традиционные методы требуют явного представления фонем
Существующие наборы данных небольшого размера и часто с одним диктором
Коммерческие ограничения препятствуют развитию исследований

Выводы и обсуждение

Основные выводы

Успешно создан крупнейший открытый корпус персидского языка для TTS, содержащий 1804 часа высококачественных речевых данных
Разработан полностью автоматизированный и масштабируемый конвейер построения набора данных, применимый к другим низкоресурсным языкам
Подтверждена эффективность набора данных, достигнуты конкурентоспособные показатели в задачах персидского TTS

Ограничения

Автоматические метрики оценки могут недооценивать качество: Из-за ограниченной поддержки коммерческими системами STT синтезированной персидской речи
Дисбаланс распределения дикторов: Более высокая доля мужских дикторов (67% против 33%)
Качество аудио зависит от исходного материала: Ограничено качеством записи исходных аудиокниг

Направления будущих исследований

Расширение на другие низкоресурсные языки: Применение конвейера к большему количеству языков
Улучшение структуры оценки качества: Разработка более точных автоматических метрик оценки
Повышение разнообразия дикторов: Балансировка распределения по полу и возрасту
Мультимодальное расширение: Синтез речи с объединением визуальной информации

Глубокая оценка

Преимущества

Значительный прирост масштаба: 10-кратный рост по сравнению с существующими персидскими ресурсами, заполнение важного пробела
Технологические инновации:
- Новый и эффективный детектор полноты предложений на основе BERT
- Эффективный и практичный алгоритм оптимизации границ с двоичным поиском
- Специфичная для персидского языка структура оценки качества с высокой целевой ориентацией
Достаточность экспериментов:
- Сочетание субъективной и объективной оценки
- Сравнение с несколькими базовыми методами
- Подробный анализ и статистика набора данных
Открытый исходный код: Полный набор данных опубликован в открытом доступе, способствуя развитию сообщества
Воспроизводимость методологии: Подробное описание каждого этапа конвейера

Недостатки

Ограниченный объем оценки:
- Проверка только на одной модели TTS (XTTS)
- Отсутствие прямого сравнения с другими крупномасштабными многоязычными наборами данных
Субъективность оценки качества:
- Выбор весов в структуре оценки качества основан на опыте
- Отсутствие сравнительной проверки с качеством ручной аннотации
Недостаточность технических деталей:
- Отсутствие подробного объяснения выбора порогов идентификации дикторов
- Ограниченные детали конкретной реализации структуры оценки качества

Влияние

Академическое влияние:
- Предоставление важного ресурса для исследований TTS низкоресурсных языков
- Содействие развитию технологий персидской речи
- Предоставление переиспользуемой методологии построения наборов данных
Практическая ценность:
- Прямая поддержка разработки приложений персидского TTS
- Сокращение цифрового разрыва между персидским и высокоресурсными языками
- Предоставление базовых данных для коммерческих речевых приложений
Воспроизводимость: Открытая публикация и подробное описание методологии обеспечивают воспроизводимость исследований

Сценарии применения

Прямое применение:
- Обучение систем персидского TTS
- Адаптация многоязычных моделей TTS для персидского языка
- Исследование оценки качества синтеза речи
Расширенное применение:
- Построение наборов данных для других низкоресурсных языков
- Разработка конвейеров обработки речи
- Исследование кросс-языковых технологий речи

Библиография

В статье цитируется 18 важных работ, охватывающих:

Основы архитектуры Transformer (Vaswani et al., 2017)
Наборы данных английской речи (LibriSpeech, LJSpeech, VCTK)
Многоязычные речевые ресурсы (Common Voice, VoxPopuli)
Инструменты обработки персидского языка (ParsBERT)
Современные технологии TTS (XTTS)
Технологии идентификации дикторов (ECAPA-TDNN)

Общая оценка: Это высококачественная статья о ресурсах, которая решает важную проблему дефицита ресурсов путем создания крупномасштабного корпуса персидского языка для TTS. Методология имеет среднюю степень инноваций, но высокую практическую ценность, эксперименты проведены достаточно полно, и работа оказывает значительное влияние на развитие технологий персидской речи. Открытая публикация дополнительно повышает её академическую и практическую ценность.