Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
Gelina: Унифицированный синтез речи и жестов посредством чередующегося предсказания токенов
Человеческое общение по своей природе является мультимодальным, речь и жесты тесно связаны, однако большинство вычислительных методов синтеза речи и жестов используют последовательный синтез, что ослабляет синхронизацию и выравнивание просодии. В данной работе представлена Gelina — унифицированная система, которая совместно синтезирует речь и сопровождающие жесты из текста путём использования чередующихся последовательностей токенов в дискретной авторегрессивной архитектуре с модально-специфичными декодерами. Gelina поддерживает клонирование нескольких дикторов и стилей, а также способна выполнять синтез только жестов на основе входной речи. Субъективная и объективная оценка показывают, что Gelina обеспечивает конкурентоспособное качество речи и улучшенные возможности генерации жестов по сравнению с однопотоковыми базовыми моделями.
Существующие мультимодальные системы в основном используют каскадную архитектуру, сначала генерируя речь, а затем добавляя жесты. Этот подход имеет следующие недостатки:
Ослабленная синхронизация: процесс генерации речи не учитывает тип и время жестов
Ограниченное выравнивание просодии: отсутствует координация между речью и жестами
Снижение выразительности: противоречит психолингвистическим данным о совместном планировании речи и жестов
Теоретическое значение: соответствие психолингвистическим теориям, таким как гипотеза точки роста
Практическая ценность: обеспечение более естественной интеграции мультимодального поведения для виртуальных агентов диалога и социальных роботов
Технологический прорыв: повышение эффективности через унифицированную архитектуру, позволяющую модели жестов прямой доступ к языково-просодическим признакам
Первая чередующаяся авторегрессивная архитектура токенов: предложена первая чередующаяся авторегрессивная архитектура токенов для синтеза речи-жестов, обеспечивающая выравнивание модальностей в едином основном сетевом ядре
Инновационная стратегия обучения: предложена стратегия обучения, использующая крупномасштабные однопотоковые датасеты текст-речь для улучшения обобщаемости при дефиците парных данных
Гибкие режимы входа: поддержка генерации речи+жестов только из текста или синтеза только жестов из текста+речи
Двумодальное клонирование стиля: реализация совместного клонирования речи и жестов посредством продолжения последовательности без явных встраиваний дикторов
Вход: последовательность текста (опционально: образец речи)
Выход: синхронизированная речевая форма волны и последовательность 3D жестов человека (формат SMPL-X)
Ограничения: поддержка нескольких дикторов и стилей, сохранение временной синхронизации речи-жестов
Дизайн чередующихся токенов: инновационное чередование токенов речи и жестов во временном измерении, обеспечивающее временное выравнивание между модальностями
Двухэтапная стратегия обучения: предварительное обучение на крупномасштабных однопотоковых данных для установления выравнивания текст-речь, затем обучение мультимодальной синхронизации на парных данных
Декодирование потокового соответствия: использование семантически богатого пространства встраиваний авторегрессивного ядра для повышения качества жестов посредством условного потокового соответствия
Качество жестов: Gelina Cloning показывает лучшие результаты по FGD-B (0.0839), значительно превосходя другие базовые модели генерации жестов
Качество речи: по сравнению с Lina-Speech WER снизился с 10.9% до 9.2%, NMOS повысился с 2.98 до 3.21
Эффективность выполнения: коэффициент реального времени (RTF) на GPU A5000 составляет 1.47, близко к реальному времени при одновременном синтезе двух модальностей
Эффективность унифицированной архитектуры: Gelina доказывает, что совместная генерация речи-жестов может поддерживать конкурентоспособность и даже превосходить однопотоковые базовые модели
Преимущества чередующихся токенов: совместная генерация токенов речи и жестов в едином авторегрессивном потоке обеспечивает синхронизированный мультимодальный выход
Успех стратегии обучения: двухэтапное обучение эффективно использует существующие однопотоковые и двумодальные ресурсы данных
Статья цитирует 67 связанных источников, охватывающих синтез жестов, синтез речи, мультимодальное обучение и другие важные работы в этих областях, обеспечивая прочную теоретическую базу для исследования.
Общая оценка: Это статья с важным инновационным значением в области мультимодального синтеза. Gelina реализует истинно унифицированный синтез речи-жестов посредством чередующегося предсказания токенов, с новым техническим подходом, полной экспериментальной оценкой и значительной академической ценностью и перспективами применения. Несмотря на некоторые ограничения, работа предоставляет ценные новые идеи для развития этой области.