2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.

Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.

academic

Gelina: Унифицированный синтез речи и жестов посредством чередующегося предсказания токенов

Основная информация

ID статьи: 2510.12834
Название: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Авторы: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
Классификация: cs.SD cs.AI eess.AS
Дата публикации: Подано на arXiv 13 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12834v1

Аннотация

Человеческое общение по своей природе является мультимодальным, речь и жесты тесно связаны, однако большинство вычислительных методов синтеза речи и жестов используют последовательный синтез, что ослабляет синхронизацию и выравнивание просодии. В данной работе представлена Gelina — унифицированная система, которая совместно синтезирует речь и сопровождающие жесты из текста путём использования чередующихся последовательностей токенов в дискретной авторегрессивной архитектуре с модально-специфичными декодерами. Gelina поддерживает клонирование нескольких дикторов и стилей, а также способна выполнять синтез только жестов на основе входной речи. Субъективная и объективная оценка показывают, что Gelina обеспечивает конкурентоспособное качество речи и улучшенные возможности генерации жестов по сравнению с однопотоковыми базовыми моделями.

Исследовательский контекст и мотивация

Основная проблема

Существующие мультимодальные системы в основном используют каскадную архитектуру, сначала генерируя речь, а затем добавляя жесты. Этот подход имеет следующие недостатки:

Ослабленная синхронизация: процесс генерации речи не учитывает тип и время жестов
Ограниченное выравнивание просодии: отсутствует координация между речью и жестами
Снижение выразительности: противоречит психолингвистическим данным о совместном планировании речи и жестов

Научная значимость

Теоретическое значение: соответствие психолингвистическим теориям, таким как гипотеза точки роста
Практическая ценность: обеспечение более естественной интеграции мультимодального поведения для виртуальных агентов диалога и социальных роботов
Технологический прорыв: повышение эффективности через унифицированную архитектуру, позволяющую модели жестов прямой доступ к языково-просодическим признакам

Ограничения существующих методов

Дефицит данных: недостаток крупномасштабных парных корпусов
Ограничения однопотоковых датасетов: построение только на однопотоковых датасетах речи или жестов
Недостатки каскадной архитектуры: процесс генерации речи нечувствителен к информации о жестах

Основные вклады

Первая чередующаяся авторегрессивная архитектура токенов: предложена первая чередующаяся авторегрессивная архитектура токенов для синтеза речи-жестов, обеспечивающая выравнивание модальностей в едином основном сетевом ядре
Инновационная стратегия обучения: предложена стратегия обучения, использующая крупномасштабные однопотоковые датасеты текст-речь для улучшения обобщаемости при дефиците парных данных
Гибкие режимы входа: поддержка генерации речи+жестов только из текста или синтеза только жестов из текста+речи
Двумодальное клонирование стиля: реализация совместного клонирования речи и жестов посредством продолжения последовательности без явных встраиваний дикторов

Подробное описание метода

Определение задачи

Вход: последовательность текста (опционально: образец речи) Выход: синхронизированная речевая форма волны и последовательность 3D жестов человека (формат SMPL-X) Ограничения: поддержка нескольких дикторов и стилей, сохранение временной синхронизации речи-жестов

Архитектура модели

Gelina состоит из трёх основных компонентов:

1. Модуль токенизации

Токенизация речи: использование WavTokenizer для преобразования речи 24 кГц в дискретные токены с частотой 75 Гц
Токенизация жестов: применение остаточной векторной квантизации вариационного автокодировщика (RVQ-VAE) для преобразования непрерывных последовательностей движений в иерархические дискретные токены с частотой 5 Гц
Токенизация текста: стандартный алгоритм кодирования пар байтов (BPE)

2. Авторегрессивное основное сетевое ядро

Расширение архитектуры Lina-Speech:

Схема чередования модальностей: вставка одного токена жеста на каждые 15 токенов речи (отражает соотношение частот кодирования 75 Гц и 5 Гц)
Независимые встраивания: поддержание независимых входных встраиваний и выходных проекций для каждой модальности
Двухэтапное обучение:
- Предварительное обучение: обучение на крупномасштабном датасете текст-речь с заменой токенов жестов случайными токенами
- Тонкая настройка: тонкая настройка на парных данных текст-речь-жесты

3. Условный декодер потокового соответствия

Оптимизирован для качества жестов:

Мотивация: прямое декодирование RVQ-VAE чувствительно к шумным последовательностям токенов жестов
Архитектура: 1D свёрточно-трансформаторная U-сеть на основе Matcha-TTS
Целевая функция обучения:
```
L = LFM + λvel*Lvel + λgeo*Lgeo
```
где включены потеря потокового соответствия, член согласованности скорости и геодезическая потеря для вращения суставов

Технические инновации

Дизайн чередующихся токенов: инновационное чередование токенов речи и жестов во временном измерении, обеспечивающее временное выравнивание между модальностями
Двухэтапная стратегия обучения: предварительное обучение на крупномасштабных однопотоковых данных для установления выравнивания текст-речь, затем обучение мультимодальной синхронизации на парных данных
Декодирование потокового соответствия: использование семантически богатого пространства встраиваний авторегрессивного ядра для повышения качества жестов посредством условного потокового соответствия

Экспериментальная установка

Датасеты

Предварительное обучение: GigaSpeech, LibriTTS, MLS-10k, всего 18 190 часов
Тонкая настройка: датасет BEAT2 (крупнейший многодикторный датасет речь-жесты)
Обработка данных:
- Переписывание аудио с использованием Whisper-large-v3
- Представление жестов как последовательности движений SMPL-X (25 суставов, исключены суставы пальцев)
- Преобразование в представление Rot6D с информацией о трансляции и контакте стоп

Метрики оценки

Качество жестов:
- FGD-B (Fréchet Gesture Distance-Body): расстояние между распределением генерируемых и человеческих жестов
- BC (Beat Consistency): временное выравнивание жестов с ударениями в аудио
- L1-Diversity: вариативность генерируемых последовательностей жестов
Качество речи:
- WER (Word Error Rate): разборчивость
- NMOS (Natural MOS): предсказание естественности
- SS (Speaker Similarity): сходство дикторов

Методы сравнения

Базовые модели жестов: CAMN, EMAGE, RAG-Gesture
Базовые модели речи: Lina-Speech, CosyVoice-2
Исследование влияния компонентов: Gelina - Flow (без декодирования потокового соответствия), Tokenizers (прямая реконструкция кодировщика-декодировщика)

Детали реализации

RVQ-VAE: 6 остаточных слоёв, кодовая книга из 512 записей, скрытое пространство размерностью 512
Авторегрессивное ядро: 168M параметров, 6-слойный кодировщик текста, 12-слойный причинный декодировщик
Декодер жестов: 11.5M параметров U-сеть, λvel=0.05, λgeo=0.8
Обучение: 100k шагов предварительного обучения, 5k шагов тонкой настройки, 300k шагов обучения потоковому соответствию

Результаты экспериментов

Основные результаты

Модель	FGD-B↓	BC∼	Div.∼	WER↓	NMOS↑	SS
Human	0.0	0.684	4.14	6.5±0.54	3.72±0.04	69.1
Gelina Clon.	0.0839	0.738	3.15	9.2±0.84	3.21±0.04	61.3
RAG	0.1781	0.700	5.13	-	-	-
EMAGE	0.1679	0.766	3.92	-	-	-
Lina-Speech	-	-	-	10.9±0.9	2.98±0.05	60.1
CosyVoice-2	-	-	-	3.5±0.5	3.70±0.04	63.9

Ключевые находки

Качество жестов: Gelina Cloning показывает лучшие результаты по FGD-B (0.0839), значительно превосходя другие базовые модели генерации жестов
Качество речи: по сравнению с Lina-Speech WER снизился с 10.9% до 9.2%, NMOS повысился с 2.98 до 3.21
Эффективность выполнения: коэффициент реального времени (RTF) на GPU A5000 составляет 1.47, близко к реальному времени при одновременном синтезе двух модальностей

Пользовательское исследование

Результаты крупномасштабного пользовательского исследования с участием 96 человек:

Сходство речи с человеческой: Gelina значительно превосходит Lina-Speech
Сходство жестов с человеческими: Gelina показывает сравнимые результаты с RAG, значительно превосходит EMAGE и CAMN
Синхронизация: Gelina и RAG не имеют значительных различий, обе значительно превосходят другие базовые модели

Исследование влияния компонентов

Важность декодирования потокового соответствия: удаление потокового соответствия приводит к ухудшению FGD-B с 0.0839 до 0.6107
Качество токенизаторов: прямая реконструкция токенизатора демонстрирует верхний предел производительности кодировщика-декодировщика

Связанные работы

Синтез сопровождающих жестов

Ранние методы: авторегрессивное последовательное моделирование (CAMN и др.)
Современный основной подход: генераторы на основе диффузии (EMAGE и др.)
Дискретные представления: более управляемый синтез (BEAT2 и др.)

Преобразование текста в речь

Тенденция развития: переход к методам, управляемым данными
Моделирование дискретного кодирования: использование крупномасштабных предварительно обученных кодировщиков-декодировщиков
Синтез нескольких дикторов: клонирование дикторов посредством коротких образцов речи

Унифицированный синтез речи и жестов

Ранние попытки: нейросетевые методы, такие как Tacotron-ISG
Недавние работы: фреймворки на основе диффузии, такие как Diff-TTSG, Match-TTSG
Ограничения: большинство ограничены однодикторным синтезом или синтетическими данными

Заключение и обсуждение

Основные выводы

Эффективность унифицированной архитектуры: Gelina доказывает, что совместная генерация речи-жестов может поддерживать конкурентоспособность и даже превосходить однопотоковые базовые модели
Преимущества чередующихся токенов: совместная генерация токенов речи и жестов в едином авторегрессивном потоке обеспечивает синхронизированный мультимодальный выход
Успех стратегии обучения: двухэтапное обучение эффективно использует существующие однопотоковые и двумодальные ресурсы данных

Ограничения

Охват жестов: в настоящее время моделируются только жесты тела, не включены пальцы и мимика лица
Ограничения качества речи: ограничены качеством токенизатора
Длина последовательности: текущая версия имеет ограниченную поддержку генерации длинных последовательностей

Направления будущих исследований

Улучшение токенизаторов: повышение качества кодирования-декодирования речи
Расширение охвата жестов: включение пальцев и мимики лица
Поддержка длинных последовательностей: обеспечение генерации более длинных последовательностей
Многоязычное расширение: расширение на многоязычные сценарии

Глубокая оценка

Преимущества

Высокая инновационность: впервые предложена чередующаяся авторегрессивная архитектура токенов с новым техническим подходом
Полные эксперименты: включают объективные метрики и крупномасштабное пользовательское исследование, всесторонняя оценка
Высокая практическая ценность: поддержка нескольких дикторов и стилей с хорошими перспективами применения
Прочная теоретическая база: соответствие психолингвистическим теориям

Недостатки

Ограничения базовых моделей сравнения: невозможность прямого сравнения со всеми связанными работами из-за различий в датасетах
Вычислительная эффективность: большие вычислительные затраты по сравнению со специализированными моделями синтеза речи
Упрощение представления жестов: исключение суставов пальцев может повлиять на полноту выражения

Влияние

Академический вклад: предоставляет новую техническую парадигму для мультимодального синтеза
Практическая ценность: имеет важное применение в виртуальных агентах, социальных роботах и других областях
Воспроизводимость: предоставлены подробные детали реализации и демонстрационный веб-сайт

Применимые сценарии

Виртуальные агенты диалога: приложения, требующие естественного взаимодействия речи и жестов
Создание цифровых персонажей: анимация персонажей в кино, играх и других областях
Вспомогательные технологии: поддержка генерации жестового языка для людей с нарушениями слуха
Образование и обучение: мультимодальная обратная связь при изучении языков

Библиография

Статья цитирует 67 связанных источников, охватывающих синтез жестов, синтез речи, мультимодальное обучение и другие важные работы в этих областях, обеспечивая прочную теоретическую базу для исследования.

Общая оценка: Это статья с важным инновационным значением в области мультимодального синтеза. Gelina реализует истинно унифицированный синтез речи-жестов посредством чередующегося предсказания токенов, с новым техническим подходом, полной экспериментальной оценкой и значительной академической ценностью и перспективами применения. Несмотря на некоторые ограничения, работа предоставляет ценные новые идеи для развития этой области.