2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

基本信息

  • 论文ID: 2510.12834
  • 标题: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
  • 作者: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
  • 分类: cs.SD cs.AI eess.AS
  • 发表时间: 2025年10月13日提交至arXiv
  • 论文链接: https://arxiv.org/abs/2510.12834v1

摘要

人类交流本质上是多模态的,语音和手势紧密耦合,但大多数生成语音和手势的计算方法都是顺序合成的,这削弱了同步性和韵律对齐。本文介绍Gelina,这是一个统一的框架,通过在离散自回归骨干网络中使用交错标记序列,结合特定模态的解码器,从文本联合合成语音和共语手势。Gelina支持多说话人和多风格克隆,并能够从语音输入进行仅手势合成。主观和客观评估表明,相比单模态基线,Gelina具有竞争性的语音质量和改进的手势生成能力。

研究背景与动机

核心问题

现有的多模态系统大多采用级联设计,先生成语音,然后添加手势,这种方法存在以下问题:

  1. 同步性减弱:语音生成过程不了解手势类型和时机
  2. 韵律对齐有限:缺乏语音和手势之间的协调
  3. 表现力降低:违背了心理语言学证据显示的语音和手势联合规划原理

研究意义

  1. 理论意义:与人类交流的生长点假设等心理语言学理论保持一致
  2. 实用价值:为虚拟会话代理和社交机器人提供更自然的多模态行为集成
  3. 技术突破:通过统一框架提高效率,让手势模型直接访问语言-韵律特征

现有方法局限性

  1. 数据稀缺性:大规模配对语料库的缺乏
  2. 单模态数据集约束:仅在语音或手势单一模态数据集上构建
  3. 级联设计缺陷:语音生成过程对手势信息不敏感

核心贡献

  1. 首创交错标记自回归架构:提出第一个用于语音-手势合成的交错标记自回归架构,在统一骨干网络内对齐模态
  2. 创新训练策略:提出利用大型单模态文本-语音数据集改善稀缺配对数据下泛化能力的训练策略
  3. 灵活输入模式:支持仅文本的语音+手势生成,或文本+语音的仅手势合成
  4. 双模态风格克隆:通过序列延续实现语音和手势的联合克隆,无需显式说话人嵌入

方法详解

任务定义

输入:文本序列(可选:语音参考) 输出:同步的语音波形和3D人体手势序列(SMPL-X格式) 约束:支持多说话人、多风格,保持语音-手势时间同步

模型架构

Gelina由三个核心组件构成:

1. 标记化模块

  • 语音标记化:使用WavTokenizer将24kHz语音转换为75Hz的离散标记
  • 手势标记化:采用残差向量量化变分自编码器(RVQ-VAE),将连续动作序列转换为5Hz的分层离散标记
  • 文本标记化:标准字节对编码(BPE)算法

2. 自回归骨干网络

基于Lina-Speech架构扩展:

  • 模态交错方案:每15个语音标记插入1个手势标记(反映75Hz和5Hz的编码率比)
  • 独立嵌入:为每个模态维护独立的输入嵌入和输出投影
  • 两阶段训练
    • 预训练:在大规模文本-语音数据集上训练,手势标记用随机标记替换
    • 微调:在配对的文本-语音-手势数据上微调

3. 条件流匹配解码器

针对手势质量优化:

  • 动机:直接RVQ-VAE解码对噪声手势标记序列敏感
  • 架构:基于Matcha-TTS的1D卷积-Transformer UNet
  • 训练目标
    L = LFM + λvel*Lvel + λgeo*Lgeo
    
    其中包含流匹配损失、速度一致性项和关节旋转的测地线损失

技术创新点

  1. 交错标记设计:创新性地将语音和手势标记在时间维度上交错排列,确保模态间的时间对齐
  2. 两阶段训练策略:先在大规模单模态数据上建立文本-语音对齐,再在配对数据上学习多模态同步
  3. 流匹配解码:利用自回归骨干的语义丰富嵌入空间,通过条件流匹配提升手势质量

实验设置

数据集

  • 预训练:GigaSpeech、LibriTTS、MLS-10k,总计18,190小时
  • 微调:BEAT2数据集(最大的多说话人语音-手势数据集)
  • 数据处理
    • 使用Whisper-large-v3重新转录音频
    • 手势表示为SMPL-X运动序列(25个关节,移除手指关节)
    • 转换为Rot6D表示,包含平移和足部接触信息

评价指标

  • 手势质量
    • FGD-B (Fréchet Gesture Distance-Body):生成手势与人类手势分布距离
    • BC (Beat Consistency):手势节拍与音频节拍的时间对齐
    • L1-Diversity:生成手势序列的变异性
  • 语音质量
    • WER (Word Error Rate):可懂度
    • NMOS (Natural MOS):自然度预测
    • SS (Speaker Similarity):说话人相似度

对比方法

  • 手势基线:CAMN、EMAGE、RAG-Gesture
  • 语音基线:Lina-Speech、CosyVoice-2
  • 消融研究:Gelina - Flow(无流匹配解码)、Tokenizers(直接编解码器重建)

实现细节

  • RVQ-VAE:6个残差层,512条目码本,512维潜在空间
  • AR骨干:168M参数,6层文本编码器,12层因果解码器
  • 手势解码器:11.5M参数U-Net,λvel=0.05,λgeo=0.8
  • 训练:预训练100k步,微调5k步,流匹配训练300k步

实验结果

主要结果

模型FGD-B↓BC∼Div.∼WER↓NMOS↑SS
Human0.00.6844.146.5±0.543.72±0.0469.1
Gelina Clon.0.08390.7383.159.2±0.843.21±0.0461.3
RAG0.17810.7005.13---
EMAGE0.16790.7663.92---
Lina-Speech---10.9±0.92.98±0.0560.1
CosyVoice-2---3.5±0.53.70±0.0463.9

关键发现

  1. 手势质量:Gelina Cloning在FGD-B上表现最佳(0.0839),显著优于其他手势生成基线
  2. 语音质量:相比Lina-Speech,WER从10.9%降至9.2%,NMOS从2.98提升至3.21
  3. 运行效率:A5000 GPU上RTF为1.47,接近实时,同时合成两种模态

用户研究

96名参与者的大规模用户研究结果:

  • 语音人类相似度:Gelina显著优于Lina-Speech
  • 手势人类相似度:Gelina与RAG性能相当,显著优于EMAGE和CAMN
  • 同步性:Gelina与RAG无显著差异,均显著优于其他基线

消融实验

  • 流匹配解码的重要性:移除流匹配后FGD-B从0.0839恶化至0.6107
  • 标记器质量:直接标记器重建展示了编解码器的性能上限

相关工作

共语手势合成

  • 早期方法:自回归序列建模(CAMN等)
  • 当前主流:基于扩散的生成器(EMAGE等)
  • 离散表示:更可控的合成(BEAT2等)

文本转语音

  • 发展趋势:向数据驱动方法转变
  • 离散编码建模:使用大型预训练编解码器
  • 多说话人合成:通过短参考话语进行说话人克隆

统一语音手势合成

  • 早期尝试:Tacotron-ISG等神经方法
  • 近期工作:Diff-TTSG、Match-TTSG等扩散框架
  • 局限性:大多限于单说话人或合成数据

结论与讨论

主要结论

  1. 统一框架的有效性:Gelina证明了联合语音-手势生成可以保持竞争力,甚至超越单模态基线
  2. 交错标记的优势:通过在单一自回归流中联合生成语音和手势标记,确保了同步的多模态输出
  3. 训练策略的成功:两阶段训练有效利用了现有的单模态和双模态数据资源

局限性

  1. 手势覆盖范围:目前仅建模身体手势,不包括手指和面部表情
  2. 语音质量约束:受限于标记器的质量
  3. 序列长度:当前版本对长序列生成的支持有限

未来方向

  1. 改进标记器:提升语音编解码质量
  2. 扩展手势覆盖:包括手指和面部表情
  3. 长序列支持:支持更长的序列生成
  4. 多语言扩展:扩展到多语言场景

深度评价

优点

  1. 创新性强:首次提出交错标记自回归架构,技术路线新颖
  2. 实验充分:包含客观指标和大规模用户研究,评估全面
  3. 实用价值高:支持多说话人、多风格,具有良好的应用前景
  4. 理论基础扎实:与心理语言学理论保持一致

不足

  1. 对比基线限制:由于数据集差异,无法与所有相关工作直接比较
  2. 计算效率:相比专门的语音合成模型,计算开销较大
  3. 手势表示简化:移除手指关节可能影响表达的完整性

影响力

  1. 学术贡献:为多模态合成提供了新的技术范式
  2. 实用价值:在虚拟人、社交机器人等领域具有重要应用价值
  3. 可复现性:提供了详细的实现细节和演示网站

适用场景

  1. 虚拟会话代理:需要自然语音和手势交互的应用
  2. 数字人制作:影视、游戏等领域的角色动画
  3. 辅助技术:为听障人士提供手语生成支持
  4. 教育培训:语言学习中的多模态反馈

参考文献

论文引用了67篇相关文献,涵盖了手势合成、语音合成、多模态学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇在多模态合成领域具有重要创新意义的论文。Gelina通过交错标记预测实现了真正意义上的统一语音-手势合成,技术路线新颖,实验评估充分,具有重要的学术价值和应用前景。尽管存在一些局限性,但为该领域的发展提供了有价值的新思路。