2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.

Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.

academic

Gelina: インターリーブトークン予測による統一音声およびジェスチャー合成

基本情報

論文ID: 2510.12834
タイトル: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
著者: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
分類: cs.SD cs.AI eess.AS
投稿日: 2025年10月13日（arXiv）
論文リンク: https://arxiv.org/abs/2510.12834v1

要約

人間のコミュニケーションは本質的にマルチモーダルであり、音声とジェスチャーは密接に結合していますが、音声とジェスチャーを生成するほとんどの計算手法は逐次合成であり、同期性と韻律アライメントを弱めています。本論文では、離散自回帰バックボーンネットワーク内でインターリーブトークン列を使用し、モダリティ固有のデコーダと組み合わせることで、テキストから音声と共語ジェスチャーを共同合成する統一フレームワークであるGelinaを紹介します。Gelinaは複数話者および複数スタイルのクローニングをサポートし、音声入力からのジェスチャーのみの合成が可能です。主観的および客観的評価により、単一モダリティベースラインと比較して、Gelinaは競争力のある音声品質と改善されたジェスチャー生成能力を示しています。

研究背景と動機

中心的な問題

既存のマルチモーダルシステムの大多数はカスケード設計を採用しており、まず音声を生成してからジェスチャーを追加します。この手法には以下の問題があります：

同期性の低下：音声生成プロセスはジェスチャーのタイプとタイミングを認識していない
韻律アライメントの制限：音声とジェスチャー間の調整が不足している
表現力の低下：心理言語学的証拠が示す音声とジェスチャーの共同計画原理に反している

研究の意義

理論的意義：成長点仮説などの心理言語学理論と一致している
実用的価値：仮想会話エージェントおよびソーシャルロボットに、より自然なマルチモーダル行動統合を提供する
技術的革新：統一フレームワークを通じて効率を向上させ、ジェスチャーモデルが言語韻律特徴に直接アクセスできるようにする

既存手法の限界

データの希少性：大規模なペアコーパスの不足
単一モダリティデータセットの制約：音声またはジェスチャーの単一モダリティデータセットのみで構築
カスケード設計の欠陥：音声生成プロセスがジェスチャー情報に対して鈍感である

中心的な貢献

インターリーブトークン自回帰アーキテクチャの初提案：音声-ジェスチャー合成のための最初のインターリーブトークン自回帰アーキテクチャを提案し、統一バックボーン内でモダリティを整列させる
革新的な訓練戦略：大規模な単一モダリティテキスト-音声データセットを活用して、希少なペアデータ下での汎化能力を改善する訓練戦略を提案
柔軟な入力モード：テキストのみの音声+ジェスチャー生成、またはテキスト+音声のジェスチャーのみの合成をサポート
双モーダルスタイルクローニング：明示的な話者埋め込みなしで、シーケンス継続を通じて音声とジェスチャーの共同クローニングを実現

方法の詳細

タスク定義

入力：テキスト列（オプション：音声参照）出力：同期された音声波形および3D人体ジェスチャー列（SMPL-X形式）制約：複数話者、複数スタイルをサポートし、音声-ジェスチャー時間同期を維持

モデルアーキテクチャ

Gelinaは3つの中心的なコンポーネントで構成されています：

1. トークン化モジュール

音声トークン化：WavTokenizerを使用して24kHz音声を75Hzの離散トークンに変換
ジェスチャートークン化：残差ベクトル量子化変分自己符号化器（RVQ-VAE）を採用し、連続動作列を5Hzの階層的離散トークンに変換
テキストトークン化：標準バイトペア符号化（BPE）アルゴリズム

2. 自回帰バックボーンネットワーク

Lina-Speechアーキテクチャの拡張に基づく：

モダリティインターリーブスキーム：15個の音声トークンごとに1個のジェスチャートークンを挿入（75Hzと5Hzの符号化率比を反映）
独立埋め込み：各モダリティに対して独立した入力埋め込みと出力投影を維持
2段階訓練：
- 事前訓練：大規模テキスト-音声データセット上で訓練し、ジェスチャートークンをランダムトークンで置換
- 微調整：ペアテキスト-音声-ジェスチャーデータ上で微調整

3. 条件付きフロー整合デコーダ

ジェスチャー品質最適化用：

動機：直接RVQ-VAEデコーディングはノイズの多いジェスチャートークン列に対して敏感である
アーキテクチャ：Matcha-TTSに基づく1D畳み込み-Transformer UNet
訓練目標：
```
L = LFM + λvel*Lvel + λgeo*Lgeo
```
フロー整合損失、速度一貫性項、および関節回転の測地線損失を含む

技術的革新点

インターリーブトークン設計：音声とジェスチャートークンを時間次元で革新的にインターリーブし、モダリティ間の時間整列を確保
2段階訓練戦略：まず大規模単一モダリティデータ上でテキスト-音声整列を確立し、次にペアデータ上でマルチモーダル同期を学習
フロー整合デコーディング：自回帰バックボーンの意味的に豊富な埋め込み空間を活用し、条件付きフロー整合を通じてジェスチャー品質を向上

実験設定

データセット

事前訓練：GigaSpeech、LibriTTS、MLS-10k、合計18,190時間
微調整：BEAT2データセット（最大の複数話者音声-ジェスチャーデータセット）
データ処理：
- Whisper-large-v3を使用して音声を再転写
- ジェスチャーをSMPL-X動作列として表現（25個の関節、手指関節を除外）
- Rot6D表現に変換、平行移動および足部接触情報を含む

評価指標

ジェスチャー品質：
- FGD-B（Fréchet Gesture Distance-Body）：生成ジェスチャーと人間ジェスチャー分布間の距離
- BC（Beat Consistency）：ジェスチャービートとオーディオビートの時間整列
- L1-Diversity：生成ジェスチャー列の変異性
音声品質：
- WER（Word Error Rate）：理解度
- NMOS（Natural MOS）：自然度予測
- SS（Speaker Similarity）：話者相似度

比較手法

ジェスチャーベースライン：CAMN、EMAGE、RAG-Gesture
音声ベースライン：Lina-Speech、CosyVoice-2
アブレーション研究：Gelina - Flow（フロー整合デコーディングなし）、Tokenizers（直接エンコーダ-デコーダ再構成）

実装詳細

RVQ-VAE：6個の残差層、512エントリコードブック、512次元潜在空間
ARバックボーン：168Mパラメータ、6層テキストエンコーダ、12層因果デコーダ
ジェスチャーデコーダ：11.5M パラメータU-Net、λvel=0.05、λgeo=0.8
訓練：事前訓練100kステップ、微調整5kステップ、フロー整合訓練300kステップ

実験結果

主要結果

モデル	FGD-B↓	BC∼	Div.∼	WER↓	NMOS↑	SS
Human	0.0	0.684	4.14	6.5±0.54	3.72±0.04	69.1
Gelina Clon.	0.0839	0.738	3.15	9.2±0.84	3.21±0.04	61.3
RAG	0.1781	0.700	5.13	-	-	-
EMAGE	0.1679	0.766	3.92	-	-	-
Lina-Speech	-	-	-	10.9±0.9	2.98±0.05	60.1
CosyVoice-2	-	-	-	3.5±0.5	3.70±0.04	63.9

主要な知見

ジェスチャー品質：Gelina Cloningは FGD-B で最高のパフォーマンスを示し（0.0839）、他のジェスチャー生成ベースラインを大幅に上回る
音声品質：Lina-Speechと比較して、WERは10.9%から9.2%に低下し、NMOSは2.98から3.21に向上
実行効率：A5000 GPU上でRTFは1.47であり、ほぼリアルタイムで両モダリティを同時合成

ユーザー研究

96名の参加者による大規模ユーザー研究の結果：

音声人間相似度：Gelinaはlina-Speechを大幅に上回る
ジェスチャー人間相似度：GelinaはRAGと同等のパフォーマンスを示し、EMageおよびCAMNを大幅に上回る
同期性：GelinaとRAGに有意差なし、両者とも他のベースラインを大幅に上回る

アブレーション実験

フロー整合デコーディングの重要性：フロー整合を除去するとFGD-Bは0.0839から0.6107に悪化
トークナイザー品質：直接トークナイザー再構成はエンコーダ-デコーダのパフォーマンス上限を示す

結論と考察

主要な結論

統一フレームワークの有効性：Gelinaは共同音声-ジェスチャー生成が競争力を保つことができ、単一モダリティベースラインを上回ることさえできることを証明している
インターリーブトークンの利点：単一の自回帰ストリーム内で音声とジェスチャートークンを共同生成することで、同期されたマルチモーダル出力を確保
訓練戦略の成功：2段階訓練は既存の単一モダリティおよび双モーダルデータリソースを効果的に活用

限界

ジェスチャーカバレッジ：現在は身体ジェスチャーのみをモデル化し、手指および顔表情を含まない
音声品質の制約：トークナイザーの品質に制限される
シーケンス長：現在のバージョンは長いシーケンス生成のサポートが限定的

今後の方向性

トークナイザーの改善：音声符号化品質の向上
ジェスチャーカバレッジの拡張：手指および顔表情を含める
長シーケンスサポート：より長いシーケンス生成をサポート
多言語拡張：多言語シナリオへの拡張

深い評価

利点

革新性が高い：インターリーブトークン自回帰アーキテクチャを初めて提案し、技術的アプローチが新規
実験が充分：客観的指標と大規模ユーザー研究を含み、評価が包括的
実用的価値が高い：複数話者、複数スタイルをサポートし、良好なアプリケーション見通しを持つ
理論的基礎が堅実：心理言語学理論と一致している

不足点

比較ベースラインの制限：データセットの相違により、すべての関連研究との直接比較ができない
計算効率：専門の音声合成モデルと比較して計算オーバーヘッドが大きい
ジェスチャー表現の簡略化：手指関節の除外は表現の完全性に影響する可能性がある

影響力

学術的貢献：マルチモーダル合成に新しい技術パラダイムを提供
実用的価値：仮想人物、ソーシャルロボットなどの分野で重要な応用価値を持つ
再現性：詳細な実装詳細とデモウェブサイトを提供

適用シーン

仮想会話エージェント：自然な音声とジェスチャー相互作用が必要なアプリケーション
デジタル人物制作：映画、ゲームなどの分野でのキャラクターアニメーション
支援技術：聴覚障害者向けの手話生成サポート
教育訓練：言語学習における多モーダルフィードバック

参考文献

論文は67篇の関連文献を引用しており、ジェスチャー合成、音声合成、マルチモーダル学習など複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供しています。

総合評価：これはマルチモーダル合成分野における重要な革新的意義を持つ論文です。Gelinaはインターリーブトークン予測を通じて、真の意味での統一音声-ジェスチャー合成を実現し、技術的アプローチが新規で、実験評価が充分であり、重要な学術的価値と応用見通しを持っています。いくつかの限界がありますが、この分野の発展に価値のある新しい視点を提供しています。