Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction 论文ID : 2510.12834标题 : Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction作者 : Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin分类 : cs.SD cs.AI eess.AS发表时间 : 2025年10月13日提交至arXiv论文链接 : https://arxiv.org/abs/2510.12834v1 人类交流本质上是多模态的,语音和手势紧密耦合,但大多数生成语音和手势的计算方法都是顺序合成的,这削弱了同步性和韵律对齐。本文介绍Gelina,这是一个统一的框架,通过在离散自回归骨干网络中使用交错标记序列,结合特定模态的解码器,从文本联合合成语音和共语手势。Gelina支持多说话人和多风格克隆,并能够从语音输入进行仅手势合成。主观和客观评估表明,相比单模态基线,Gelina具有竞争性的语音质量和改进的手势生成能力。
现有的多模态系统大多采用级联设计,先生成语音,然后添加手势,这种方法存在以下问题:
同步性减弱 :语音生成过程不了解手势类型和时机韵律对齐有限 :缺乏语音和手势之间的协调表现力降低 :违背了心理语言学证据显示的语音和手势联合规划原理理论意义 :与人类交流的生长点假设等心理语言学理论保持一致实用价值 :为虚拟会话代理和社交机器人提供更自然的多模态行为集成技术突破 :通过统一框架提高效率,让手势模型直接访问语言-韵律特征数据稀缺性 :大规模配对语料库的缺乏单模态数据集约束 :仅在语音或手势单一模态数据集上构建级联设计缺陷 :语音生成过程对手势信息不敏感首创交错标记自回归架构 :提出第一个用于语音-手势合成的交错标记自回归架构,在统一骨干网络内对齐模态创新训练策略 :提出利用大型单模态文本-语音数据集改善稀缺配对数据下泛化能力的训练策略灵活输入模式 :支持仅文本的语音+手势生成,或文本+语音的仅手势合成双模态风格克隆 :通过序列延续实现语音和手势的联合克隆,无需显式说话人嵌入输入 :文本序列(可选:语音参考)
输出 :同步的语音波形和3D人体手势序列(SMPL-X格式)
约束 :支持多说话人、多风格,保持语音-手势时间同步
Gelina由三个核心组件构成:
语音标记化 :使用WavTokenizer将24kHz语音转换为75Hz的离散标记手势标记化 :采用残差向量量化变分自编码器(RVQ-VAE),将连续动作序列转换为5Hz的分层离散标记文本标记化 :标准字节对编码(BPE)算法基于Lina-Speech架构扩展:
模态交错方案 :每15个语音标记插入1个手势标记(反映75Hz和5Hz的编码率比)独立嵌入 :为每个模态维护独立的输入嵌入和输出投影两阶段训练 :
预训练:在大规模文本-语音数据集上训练,手势标记用随机标记替换 微调:在配对的文本-语音-手势数据上微调 针对手势质量优化:
动机 :直接RVQ-VAE解码对噪声手势标记序列敏感架构 :基于Matcha-TTS的1D卷积-Transformer UNet训练目标 :
L = LFM + λvel*Lvel + λgeo*Lgeo
其中包含流匹配损失、速度一致性项和关节旋转的测地线损失交错标记设计 :创新性地将语音和手势标记在时间维度上交错排列,确保模态间的时间对齐两阶段训练策略 :先在大规模单模态数据上建立文本-语音对齐,再在配对数据上学习多模态同步流匹配解码 :利用自回归骨干的语义丰富嵌入空间,通过条件流匹配提升手势质量预训练 :GigaSpeech、LibriTTS、MLS-10k,总计18,190小时微调 :BEAT2数据集(最大的多说话人语音-手势数据集)数据处理 :
使用Whisper-large-v3重新转录音频 手势表示为SMPL-X运动序列(25个关节,移除手指关节) 转换为Rot6D表示,包含平移和足部接触信息 手势质量 :
FGD-B (Fréchet Gesture Distance-Body):生成手势与人类手势分布距离 BC (Beat Consistency):手势节拍与音频节拍的时间对齐 L1-Diversity:生成手势序列的变异性 语音质量 :
WER (Word Error Rate):可懂度 NMOS (Natural MOS):自然度预测 SS (Speaker Similarity):说话人相似度 手势基线 :CAMN、EMAGE、RAG-Gesture语音基线 :Lina-Speech、CosyVoice-2消融研究 :Gelina - Flow(无流匹配解码)、Tokenizers(直接编解码器重建)RVQ-VAE :6个残差层,512条目码本,512维潜在空间AR骨干 :168M参数,6层文本编码器,12层因果解码器手势解码器 :11.5M参数U-Net,λvel=0.05,λgeo=0.8训练 :预训练100k步,微调5k步,流匹配训练300k步模型 FGD-B↓ BC∼ Div.∼ WER↓ NMOS↑ SS Human 0.0 0.684 4.14 6.5±0.54 3.72±0.04 69.1 Gelina Clon. 0.0839 0.738 3.15 9.2±0.84 3.21±0.04 61.3 RAG 0.1781 0.700 5.13 - - - EMAGE 0.1679 0.766 3.92 - - - Lina-Speech - - - 10.9±0.9 2.98±0.05 60.1 CosyVoice-2 - - - 3.5±0.5 3.70±0.04 63.9
手势质量 :Gelina Cloning在FGD-B上表现最佳(0.0839),显著优于其他手势生成基线语音质量 :相比Lina-Speech,WER从10.9%降至9.2%,NMOS从2.98提升至3.21运行效率 :A5000 GPU上RTF为1.47,接近实时,同时合成两种模态96名参与者的大规模用户研究结果:
语音人类相似度 :Gelina显著优于Lina-Speech手势人类相似度 :Gelina与RAG性能相当,显著优于EMAGE和CAMN同步性 :Gelina与RAG无显著差异,均显著优于其他基线流匹配解码的重要性 :移除流匹配后FGD-B从0.0839恶化至0.6107标记器质量 :直接标记器重建展示了编解码器的性能上限早期方法 :自回归序列建模(CAMN等)当前主流 :基于扩散的生成器(EMAGE等)离散表示 :更可控的合成(BEAT2等)发展趋势 :向数据驱动方法转变离散编码建模 :使用大型预训练编解码器多说话人合成 :通过短参考话语进行说话人克隆早期尝试 :Tacotron-ISG等神经方法近期工作 :Diff-TTSG、Match-TTSG等扩散框架局限性 :大多限于单说话人或合成数据统一框架的有效性 :Gelina证明了联合语音-手势生成可以保持竞争力,甚至超越单模态基线交错标记的优势 :通过在单一自回归流中联合生成语音和手势标记,确保了同步的多模态输出训练策略的成功 :两阶段训练有效利用了现有的单模态和双模态数据资源手势覆盖范围 :目前仅建模身体手势,不包括手指和面部表情语音质量约束 :受限于标记器的质量序列长度 :当前版本对长序列生成的支持有限改进标记器 :提升语音编解码质量扩展手势覆盖 :包括手指和面部表情长序列支持 :支持更长的序列生成多语言扩展 :扩展到多语言场景创新性强 :首次提出交错标记自回归架构,技术路线新颖实验充分 :包含客观指标和大规模用户研究,评估全面实用价值高 :支持多说话人、多风格,具有良好的应用前景理论基础扎实 :与心理语言学理论保持一致对比基线限制 :由于数据集差异,无法与所有相关工作直接比较计算效率 :相比专门的语音合成模型,计算开销较大手势表示简化 :移除手指关节可能影响表达的完整性学术贡献 :为多模态合成提供了新的技术范式实用价值 :在虚拟人、社交机器人等领域具有重要应用价值可复现性 :提供了详细的实现细节和演示网站虚拟会话代理 :需要自然语音和手势交互的应用数字人制作 :影视、游戏等领域的角色动画辅助技术 :为听障人士提供手语生成支持教育培训 :语言学习中的多模态反馈论文引用了67篇相关文献,涵盖了手势合成、语音合成、多模态学习等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价 :这是一篇在多模态合成领域具有重要创新意义的论文。Gelina通过交错标记预测实现了真正意义上的统一语音-手势合成,技术路线新颖,实验评估充分,具有重要的学术价值和应用前景。尽管存在一些局限性,但为该领域的发展提供了有价值的新思路。