Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
論文ID : 2510.12834タイトル : Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction著者 : Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin分類 : cs.SD cs.AI eess.AS投稿日 : 2025年10月13日(arXiv)論文リンク : https://arxiv.org/abs/2510.12834v1 人間のコミュニケーションは本質的にマルチモーダルであり、音声とジェスチャーは密接に結合していますが、音声とジェスチャーを生成するほとんどの計算手法は逐次合成であり、同期性と韻律アライメントを弱めています。本論文では、離散自回帰バックボーンネットワーク内でインターリーブトークン列を使用し、モダリティ固有のデコーダと組み合わせることで、テキストから音声と共語ジェスチャーを共同合成する統一フレームワークであるGelinaを紹介します。Gelinaは複数話者および複数スタイルのクローニングをサポートし、音声入力からのジェスチャーのみの合成が可能です。主観的および客観的評価により、単一モダリティベースラインと比較して、Gelinaは競争力のある音声品質と改善されたジェスチャー生成能力を示しています。
既存のマルチモーダルシステムの大多数はカスケード設計を採用しており、まず音声を生成してからジェスチャーを追加します。この手法には以下の問題があります:
同期性の低下 :音声生成プロセスはジェスチャーのタイプとタイミングを認識していない韻律アライメントの制限 :音声とジェスチャー間の調整が不足している表現力の低下 :心理言語学的証拠が示す音声とジェスチャーの共同計画原理に反している理論的意義 :成長点仮説などの心理言語学理論と一致している実用的価値 :仮想会話エージェントおよびソーシャルロボットに、より自然なマルチモーダル行動統合を提供する技術的革新 :統一フレームワークを通じて効率を向上させ、ジェスチャーモデルが言語韻律特徴に直接アクセスできるようにするデータの希少性 :大規模なペアコーパスの不足単一モダリティデータセットの制約 :音声またはジェスチャーの単一モダリティデータセットのみで構築カスケード設計の欠陥 :音声生成プロセスがジェスチャー情報に対して鈍感であるインターリーブトークン自回帰アーキテクチャの初提案 :音声-ジェスチャー合成のための最初のインターリーブトークン自回帰アーキテクチャを提案し、統一バックボーン内でモダリティを整列させる革新的な訓練戦略 :大規模な単一モダリティテキスト-音声データセットを活用して、希少なペアデータ下での汎化能力を改善する訓練戦略を提案柔軟な入力モード :テキストのみの音声+ジェスチャー生成、またはテキスト+音声のジェスチャーのみの合成をサポート双モーダルスタイルクローニング :明示的な話者埋め込みなしで、シーケンス継続を通じて音声とジェスチャーの共同クローニングを実現入力 :テキスト列(オプション:音声参照)
出力 :同期された音声波形および3D人体ジェスチャー列(SMPL-X形式)
制約 :複数話者、複数スタイルをサポートし、音声-ジェスチャー時間同期を維持
Gelinaは3つの中心的なコンポーネントで構成されています:
音声トークン化 :WavTokenizerを使用して24kHz音声を75Hzの離散トークンに変換ジェスチャートークン化 :残差ベクトル量子化変分自己符号化器(RVQ-VAE)を採用し、連続動作列を5Hzの階層的離散トークンに変換テキストトークン化 :標準バイトペア符号化(BPE)アルゴリズムLina-Speechアーキテクチャの拡張に基づく:
モダリティインターリーブスキーム :15個の音声トークンごとに1個のジェスチャートークンを挿入(75Hzと5Hzの符号化率比を反映)独立埋め込み :各モダリティに対して独立した入力埋め込みと出力投影を維持2段階訓練 :
事前訓練:大規模テキスト-音声データセット上で訓練し、ジェスチャートークンをランダムトークンで置換 微調整:ペアテキスト-音声-ジェスチャーデータ上で微調整 ジェスチャー品質最適化用:
動機 :直接RVQ-VAEデコーディングはノイズの多いジェスチャートークン列に対して敏感であるアーキテクチャ :Matcha-TTSに基づく1D畳み込み-Transformer UNet訓練目標 :
L = LFM + λvel*Lvel + λgeo*Lgeo
フロー整合損失、速度一貫性項、および関節回転の測地線損失を含むインターリーブトークン設計 :音声とジェスチャートークンを時間次元で革新的にインターリーブし、モダリティ間の時間整列を確保2段階訓練戦略 :まず大規模単一モダリティデータ上でテキスト-音声整列を確立し、次にペアデータ上でマルチモーダル同期を学習フロー整合デコーディング :自回帰バックボーンの意味的に豊富な埋め込み空間を活用し、条件付きフロー整合を通じてジェスチャー品質を向上事前訓練 :GigaSpeech、LibriTTS、MLS-10k、合計18,190時間微調整 :BEAT2データセット(最大の複数話者音声-ジェスチャーデータセット)データ処理 :
Whisper-large-v3を使用して音声を再転写 ジェスチャーをSMPL-X動作列として表現(25個の関節、手指関節を除外) Rot6D表現に変換、平行移動および足部接触情報を含む ジェスチャー品質 :
FGD-B(Fréchet Gesture Distance-Body):生成ジェスチャーと人間ジェスチャー分布間の距離 BC(Beat Consistency):ジェスチャービートとオーディオビートの時間整列 L1-Diversity:生成ジェスチャー列の変異性 音声品質 :
WER(Word Error Rate):理解度 NMOS(Natural MOS):自然度予測 SS(Speaker Similarity):話者相似度 ジェスチャーベースライン :CAMN、EMAGE、RAG-Gesture音声ベースライン :Lina-Speech、CosyVoice-2アブレーション研究 :Gelina - Flow(フロー整合デコーディングなし)、Tokenizers(直接エンコーダ-デコーダ再構成)RVQ-VAE :6個の残差層、512エントリコードブック、512次元潜在空間ARバックボーン :168Mパラメータ、6層テキストエンコーダ、12層因果デコーダジェスチャーデコーダ :11.5M パラメータU-Net、λvel=0.05、λgeo=0.8訓練 :事前訓練100kステップ、微調整5kステップ、フロー整合訓練300kステップモデル FGD-B↓ BC∼ Div.∼ WER↓ NMOS↑ SS Human 0.0 0.684 4.14 6.5±0.54 3.72±0.04 69.1 Gelina Clon. 0.0839 0.738 3.15 9.2±0.84 3.21±0.04 61.3 RAG 0.1781 0.700 5.13 - - - EMAGE 0.1679 0.766 3.92 - - - Lina-Speech - - - 10.9±0.9 2.98±0.05 60.1 CosyVoice-2 - - - 3.5±0.5 3.70±0.04 63.9
ジェスチャー品質 :Gelina Cloningは FGD-B で最高のパフォーマンスを示し(0.0839)、他のジェスチャー生成ベースラインを大幅に上回る音声品質 :Lina-Speechと比較して、WERは10.9%から9.2%に低下し、NMOSは2.98から3.21に向上実行効率 :A5000 GPU上でRTFは1.47であり、ほぼリアルタイムで両モダリティを同時合成96名の参加者による大規模ユーザー研究の結果:
音声人間相似度 :Gelinaはlina-Speechを大幅に上回るジェスチャー人間相似度 :GelinaはRAGと同等のパフォーマンスを示し、EMageおよびCAMNを大幅に上回る同期性 :GelinaとRAGに有意差なし、両者とも他のベースラインを大幅に上回るフロー整合デコーディングの重要性 :フロー整合を除去するとFGD-Bは0.0839から0.6107に悪化トークナイザー品質 :直接トークナイザー再構成はエンコーダ-デコーダのパフォーマンス上限を示す初期手法 :自回帰シーケンスモデリング(CAMNなど)現在の主流 :拡散ベースの生成器(EMageなど)離散表現 :より制御可能な合成(BEAT2など)発展傾向 :データ駆動手法への転換離散符号化モデリング :大規模事前訓練エンコーダ-デコーダの使用複数話者合成 :短い参照発話を通じた話者クローニング初期の試み :Tacotron-ISGなどのニューラル手法最近の研究 :Diff-TTSG、Match-TTSGなどの拡散フレームワーク限界 :ほとんどが単一話者または合成データに限定統一フレームワークの有効性 :Gelinaは共同音声-ジェスチャー生成が競争力を保つことができ、単一モダリティベースラインを上回ることさえできることを証明しているインターリーブトークンの利点 :単一の自回帰ストリーム内で音声とジェスチャートークンを共同生成することで、同期されたマルチモーダル出力を確保訓練戦略の成功 :2段階訓練は既存の単一モダリティおよび双モーダルデータリソースを効果的に活用ジェスチャーカバレッジ :現在は身体ジェスチャーのみをモデル化し、手指および顔表情を含まない音声品質の制約 :トークナイザーの品質に制限されるシーケンス長 :現在のバージョンは長いシーケンス生成のサポートが限定的トークナイザーの改善 :音声符号化品質の向上ジェスチャーカバレッジの拡張 :手指および顔表情を含める長シーケンスサポート :より長いシーケンス生成をサポート多言語拡張 :多言語シナリオへの拡張革新性が高い :インターリーブトークン自回帰アーキテクチャを初めて提案し、技術的アプローチが新規実験が充分 :客観的指標と大規模ユーザー研究を含み、評価が包括的実用的価値が高い :複数話者、複数スタイルをサポートし、良好なアプリケーション見通しを持つ理論的基礎が堅実 :心理言語学理論と一致している比較ベースラインの制限 :データセットの相違により、すべての関連研究との直接比較ができない計算効率 :専門の音声合成モデルと比較して計算オーバーヘッドが大きいジェスチャー表現の簡略化 :手指関節の除外は表現の完全性に影響する可能性がある学術的貢献 :マルチモーダル合成に新しい技術パラダイムを提供実用的価値 :仮想人物、ソーシャルロボットなどの分野で重要な応用価値を持つ再現性 :詳細な実装詳細とデモウェブサイトを提供仮想会話エージェント :自然な音声とジェスチャー相互作用が必要なアプリケーションデジタル人物制作 :映画、ゲームなどの分野でのキャラクターアニメーション支援技術 :聴覚障害者向けの手話生成サポート教育訓練 :言語学習における多モーダルフィードバック論文は67篇の関連文献を引用しており、ジェスチャー合成、音声合成、マルチモーダル学習など複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供しています。
総合評価 :これはマルチモーダル合成分野における重要な革新的意義を持つ論文です。Gelinaはインターリーブトークン予測を通じて、真の意味での統一音声-ジェスチャー合成を実現し、技術的アプローチが新規で、実験評価が充分であり、重要な学術的価値と応用見通しを持っています。いくつかの限界がありますが、この分野の発展に価値のある新しい視点を提供しています。