2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.

Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.

academic

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

基本信息

论文ID: 2510.12834
标题: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
作者: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
分类: cs.SD cs.AI eess.AS
发表时间: 2025年10月13日提交至arXiv
论文链接: https://arxiv.org/abs/2510.12834v1

摘要

人类交流本质上是多模态的，语音和手势紧密耦合，但大多数生成语音和手势的计算方法都是顺序合成的，这削弱了同步性和韵律对齐。本文介绍Gelina，这是一个统一的框架，通过在离散自回归骨干网络中使用交错标记序列，结合特定模态的解码器，从文本联合合成语音和共语手势。Gelina支持多说话人和多风格克隆，并能够从语音输入进行仅手势合成。主观和客观评估表明，相比单模态基线，Gelina具有竞争性的语音质量和改进的手势生成能力。

研究背景与动机

核心问题

现有的多模态系统大多采用级联设计，先生成语音，然后添加手势，这种方法存在以下问题：

同步性减弱：语音生成过程不了解手势类型和时机
韵律对齐有限：缺乏语音和手势之间的协调
表现力降低：违背了心理语言学证据显示的语音和手势联合规划原理

研究意义

理论意义：与人类交流的生长点假设等心理语言学理论保持一致
实用价值：为虚拟会话代理和社交机器人提供更自然的多模态行为集成
技术突破：通过统一框架提高效率，让手势模型直接访问语言-韵律特征

现有方法局限性

数据稀缺性：大规模配对语料库的缺乏
单模态数据集约束：仅在语音或手势单一模态数据集上构建
级联设计缺陷：语音生成过程对手势信息不敏感

核心贡献

首创交错标记自回归架构：提出第一个用于语音-手势合成的交错标记自回归架构，在统一骨干网络内对齐模态
创新训练策略：提出利用大型单模态文本-语音数据集改善稀缺配对数据下泛化能力的训练策略
灵活输入模式：支持仅文本的语音+手势生成，或文本+语音的仅手势合成
双模态风格克隆：通过序列延续实现语音和手势的联合克隆，无需显式说话人嵌入

方法详解

任务定义

输入：文本序列（可选：语音参考）输出：同步的语音波形和3D人体手势序列（SMPL-X格式）约束：支持多说话人、多风格，保持语音-手势时间同步

模型架构

Gelina由三个核心组件构成：

1. 标记化模块

语音标记化：使用WavTokenizer将24kHz语音转换为75Hz的离散标记
手势标记化：采用残差向量量化变分自编码器(RVQ-VAE)，将连续动作序列转换为5Hz的分层离散标记
文本标记化：标准字节对编码(BPE)算法

2. 自回归骨干网络

基于Lina-Speech架构扩展：

模态交错方案：每15个语音标记插入1个手势标记（反映75Hz和5Hz的编码率比）
独立嵌入：为每个模态维护独立的输入嵌入和输出投影
两阶段训练：
- 预训练：在大规模文本-语音数据集上训练，手势标记用随机标记替换
- 微调：在配对的文本-语音-手势数据上微调

3. 条件流匹配解码器

针对手势质量优化：

动机：直接RVQ-VAE解码对噪声手势标记序列敏感
架构：基于Matcha-TTS的1D卷积-Transformer UNet
训练目标：
```
L = LFM + λvel*Lvel + λgeo*Lgeo
```
其中包含流匹配损失、速度一致性项和关节旋转的测地线损失

技术创新点

交错标记设计：创新性地将语音和手势标记在时间维度上交错排列，确保模态间的时间对齐
两阶段训练策略：先在大规模单模态数据上建立文本-语音对齐，再在配对数据上学习多模态同步
流匹配解码：利用自回归骨干的语义丰富嵌入空间，通过条件流匹配提升手势质量

实验设置

数据集

预训练：GigaSpeech、LibriTTS、MLS-10k，总计18,190小时
微调：BEAT2数据集（最大的多说话人语音-手势数据集）
数据处理：
- 使用Whisper-large-v3重新转录音频
- 手势表示为SMPL-X运动序列（25个关节，移除手指关节）
- 转换为Rot6D表示，包含平移和足部接触信息

评价指标

手势质量：
- FGD-B (Fréchet Gesture Distance-Body)：生成手势与人类手势分布距离
- BC (Beat Consistency)：手势节拍与音频节拍的时间对齐
- L1-Diversity：生成手势序列的变异性
语音质量：
- WER (Word Error Rate)：可懂度
- NMOS (Natural MOS)：自然度预测
- SS (Speaker Similarity)：说话人相似度

对比方法

手势基线：CAMN、EMAGE、RAG-Gesture
语音基线：Lina-Speech、CosyVoice-2
消融研究：Gelina - Flow（无流匹配解码）、Tokenizers（直接编解码器重建）

实现细节

RVQ-VAE：6个残差层，512条目码本，512维潜在空间
AR骨干：168M参数，6层文本编码器，12层因果解码器
手势解码器：11.5M参数U-Net，λvel=0.05，λgeo=0.8
训练：预训练100k步，微调5k步，流匹配训练300k步

实验结果

主要结果

模型	FGD-B↓	BC∼	Div.∼	WER↓	NMOS↑	SS
Human	0.0	0.684	4.14	6.5±0.54	3.72±0.04	69.1
Gelina Clon.	0.0839	0.738	3.15	9.2±0.84	3.21±0.04	61.3
RAG	0.1781	0.700	5.13	-	-	-
EMAGE	0.1679	0.766	3.92	-	-	-
Lina-Speech	-	-	-	10.9±0.9	2.98±0.05	60.1
CosyVoice-2	-	-	-	3.5±0.5	3.70±0.04	63.9