2025-11-12T15:34:10.495668

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic

Gelina: 인터리브된 토큰 예측을 통한 통합 음성 및 제스처 합성

기본 정보

  • 논문 ID: 2510.12834
  • 제목: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
  • 저자: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
  • 분류: cs.SD cs.AI eess.AS
  • 제출 일시: 2025년 10월 13일 arXiv 제출
  • 논문 링크: https://arxiv.org/abs/2510.12834v1

초록

인간 의사소통은 본질적으로 다중양식이며, 음성과 제스처는 긴밀하게 결합되어 있습니다. 그러나 음성과 제스처를 생성하는 대부분의 계산 방법은 순차적 합성을 사용하여 동기성과 운율 정렬을 약화시킵니다. 본 논문은 Gelina를 소개합니다. 이는 이산 자회귀 백본 네트워크에서 인터리브된 토큰 시퀀스를 사용하고 양식별 디코더를 결합하여 텍스트로부터 음성과 공언어 제스처를 공동으로 합성하는 통합 프레임워크입니다. Gelina는 다중 화자 및 다중 스타일 클로닝을 지원하며, 음성 입력으로부터 제스처 전용 합성을 수행할 수 있습니다. 주관적 및 객관적 평가는 단일 양식 기준선과 비교하여 Gelina가 경쟁력 있는 음성 품질과 개선된 제스처 생성 능력을 가지고 있음을 보여줍니다.

연구 배경 및 동기

핵심 문제

기존의 다중양식 시스템은 대부분 캐스케이드 설계를 채택하여 먼저 음성을 생성한 후 제스처를 추가합니다. 이러한 방법은 다음과 같은 문제가 있습니다:

  1. 동기성 약화: 음성 생성 과정이 제스처 유형과 타이밍을 인식하지 못함
  2. 운율 정렬 제한: 음성과 제스처 간 조정 부족
  3. 표현력 감소: 심리언어학 증거가 보여주는 음성과 제스처의 공동 계획 원리에 위배됨

연구의 의의

  1. 이론적 의의: 인간 의사소통의 성장점 가설 등 심리언어학 이론과 일치
  2. 실용적 가치: 가상 대화 에이전트 및 사회 로봇에 더 자연스러운 다중양식 행동 통합 제공
  3. 기술적 돌파: 통합 프레임워크를 통한 효율성 향상, 제스처 모델이 언어-운율 특징에 직접 접근 가능

기존 방법의 한계

  1. 데이터 부족: 대규모 쌍을 이룬 코퍼스의 부족
  2. 단일 양식 데이터셋 제약: 음성 또는 제스처 단일 양식 데이터셋에서만 구축
  3. 캐스케이드 설계 결함: 음성 생성 과정이 제스처 정보에 둔감함

핵심 기여

  1. 인터리브된 토큰 자회귀 아키텍처 최초 제안: 음성-제스처 합성을 위한 첫 번째 인터리브된 토큰 자회귀 아키텍처를 제안하여 통합 백본 네트워크 내에서 양식을 정렬
  2. 혁신적 훈련 전략: 대규모 단일 양식 텍스트-음성 데이터셋을 활용하여 희소 쌍 데이터에서 일반화 능력을 개선하는 훈련 전략 제안
  3. 유연한 입력 모드: 텍스트 전용 음성+제스처 생성 또는 텍스트+음성 제스처 전용 합성 지원
  4. 이중 양식 스타일 클로닝: 명시적 화자 임베딩 없이 시퀀스 연속을 통한 음성과 제스처의 공동 클로닝 구현

방법 상세 설명

작업 정의

입력: 텍스트 시퀀스 (선택사항: 음성 참조) 출력: 동기화된 음성 파형 및 3D 인체 제스처 시퀀스 (SMPL-X 형식) 제약: 다중 화자, 다중 스타일 지원, 음성-제스처 시간 동기화 유지

모델 아키텍처

Gelina는 세 가지 핵심 구성 요소로 이루어져 있습니다:

1. 토큰화 모듈

  • 음성 토큰화: WavTokenizer를 사용하여 24kHz 음성을 75Hz의 이산 토큰으로 변환
  • 제스처 토큰화: 잔차 벡터 양자화 변분 자동인코더(RVQ-VAE)를 채택하여 연속 동작 시퀀스를 5Hz의 계층적 이산 토큰으로 변환
  • 텍스트 토큰화: 표준 바이트 쌍 인코딩(BPE) 알고리즘

2. 자회귀 백본 네트워크

Lina-Speech 아키텍처 확장 기반:

  • 양식 인터리빙 방식: 15개의 음성 토큰마다 1개의 제스처 토큰 삽입 (75Hz와 5Hz의 인코딩 속도 비율 반영)
  • 독립적 임베딩: 각 양식에 대해 독립적인 입력 임베딩 및 출력 투영 유지
  • 2단계 훈련:
    • 사전훈련: 대규모 텍스트-음성 데이터셋에서 훈련, 제스처 토큰은 무작위 토큰으로 대체
    • 미세조정: 쌍을 이룬 텍스트-음성-제스처 데이터에서 미세조정

3. 조건부 흐름 매칭 디코더

제스처 품질 최적화를 위해 설계:

  • 동기: 직접 RVQ-VAE 디코딩은 노이즈가 있는 제스처 토큰 시퀀스에 민감함
  • 아키텍처: Matcha-TTS 기반 1D 컨볼루션-Transformer UNet
  • 훈련 목표:
    L = LFM + λvel*Lvel + λgeo*Lgeo
    
    여기서 흐름 매칭 손실, 속도 일관성 항 및 관절 회전의 측지선 손실 포함

기술적 혁신점

  1. 인터리브된 토큰 설계: 음성과 제스처 토큰을 시간 차원에서 혁신적으로 인터리빙하여 양식 간 시간 정렬 보장
  2. 2단계 훈련 전략: 먼저 대규모 단일 양식 데이터에서 텍스트-음성 정렬을 구축한 후 쌍 데이터에서 다중양식 동기화 학습
  3. 흐름 매칭 디코딩: 자회귀 백본의 의미론적으로 풍부한 임베딩 공간을 활용하여 조건부 흐름 매칭을 통한 제스처 품질 향상

실험 설정

데이터셋

  • 사전훈련: GigaSpeech, LibriTTS, MLS-10k, 총 18,190시간
  • 미세조정: BEAT2 데이터셋 (최대 규모의 다중 화자 음성-제스처 데이터셋)
  • 데이터 처리:
    • Whisper-large-v3를 사용하여 오디오 재전사
    • 제스처는 SMPL-X 동작 시퀀스로 표현 (25개 관절, 손가락 관절 제거)
    • Rot6D 표현으로 변환, 평행이동 및 발 접촉 정보 포함

평가 지표

  • 제스처 품질:
    • FGD-B (Fréchet Gesture Distance-Body): 생성된 제스처와 인간 제스처 분포 간 거리
    • BC (Beat Consistency): 제스처 비트와 오디오 비트의 시간 정렬
    • L1-Diversity: 생성된 제스처 시퀀스의 변이성
  • 음성 품질:
    • WER (Word Error Rate): 이해도
    • NMOS (Natural MOS): 자연스러움 예측
    • SS (Speaker Similarity): 화자 유사도

비교 방법

  • 제스처 기준선: CAMN, EMAGE, RAG-Gesture
  • 음성 기준선: Lina-Speech, CosyVoice-2
  • 소거 연구: Gelina - Flow (흐름 매칭 디코딩 없음), Tokenizers (직접 인코더-디코더 재구성)

구현 세부사항

  • RVQ-VAE: 6개 잔차 층, 512개 항목 코드북, 512차원 잠재 공간
  • AR 백본: 168M 매개변수, 6층 텍스트 인코더, 12층 인과 디코더
  • 제스처 디코더: 11.5M 매개변수 U-Net, λvel=0.05, λgeo=0.8
  • 훈련: 사전훈련 100k 스텝, 미세조정 5k 스텝, 흐름 매칭 훈련 300k 스텝

실험 결과

주요 결과

모델FGD-B↓BC∼Div.∼WER↓NMOS↑SS
Human0.00.6844.146.5±0.543.72±0.0469.1
Gelina Clon.0.08390.7383.159.2±0.843.21±0.0461.3
RAG0.17810.7005.13---
EMAGE0.16790.7663.92---
Lina-Speech---10.9±0.92.98±0.0560.1
CosyVoice-2---3.5±0.53.70±0.0463.9

주요 발견

  1. 제스처 품질: Gelina Cloning은 FGD-B에서 최고 성능 (0.0839)을 보여 다른 제스처 생성 기준선을 크게 능가
  2. 음성 품질: Lina-Speech와 비교하여 WER이 10.9%에서 9.2%로 감소, NMOS가 2.98에서 3.21로 향상
  3. 운영 효율성: A5000 GPU에서 RTF는 1.47로 거의 실시간에 가까우며 두 양식을 동시에 합성

사용자 연구

96명 참여자의 대규모 사용자 연구 결과:

  • 음성 인간 유사도: Gelina가 Lina-Speech를 크게 능가
  • 제스처 인간 유사도: Gelina가 RAG와 비슷한 성능을 보이며 EMAGE 및 CAMN을 크게 능가
  • 동기화: Gelina와 RAG 간 유의미한 차이 없음, 둘 다 다른 기준선을 크게 능가

소거 실험

  • 흐름 매칭 디코딩의 중요성: 흐름 매칭 제거 시 FGD-B가 0.0839에서 0.6107로 악화
  • 토큰화기 품질: 직접 토큰화기 재구성은 인코더-디코더의 성능 상한을 보여줌

관련 연구

공언어 제스처 합성

  • 초기 방법: 자회귀 시퀀스 모델링 (CAMN 등)
  • 현재 주류: 확산 기반 생성기 (EMAGE 등)
  • 이산 표현: 더 제어 가능한 합성 (BEAT2 등)

텍스트 음성 변환

  • 발전 추세: 데이터 기반 방법으로의 전환
  • 이산 코딩 모델링: 대규모 사전훈련 인코더-디코더 사용
  • 다중 화자 합성: 짧은 참조 발화를 통한 화자 클로닝

통합 음성 제스처 합성

  • 초기 시도: Tacotron-ISG 등 신경 방법
  • 최근 연구: Diff-TTSG, Match-TTSG 등 확산 프레임워크
  • 한계: 대부분 단일 화자 또는 합성 데이터로 제한

결론 및 논의

주요 결론

  1. 통합 프레임워크의 유효성: Gelina는 공동 음성-제스처 생성이 경쟁력 있으며 심지어 단일 양식 기준선을 능가할 수 있음을 증명
  2. 인터리브된 토큰의 장점: 단일 자회귀 스트림에서 음성과 제스처 토큰을 공동으로 생성함으로써 동기화된 다중양식 출력 보장
  3. 훈련 전략의 성공: 2단계 훈련이 기존의 단일 양식 및 이중 양식 데이터 자원을 효과적으로 활용

한계

  1. 제스처 범위: 현재 신체 제스처만 모델링하며 손가락 및 얼굴 표정 미포함
  2. 음성 품질 제약: 토큰화기 품질에 의해 제한됨
  3. 시퀀스 길이: 현재 버전은 긴 시퀀스 생성 지원 제한

향후 방향

  1. 토큰화기 개선: 음성 인코더-디코더 품질 향상
  2. 제스처 범위 확장: 손가락 및 얼굴 표정 포함
  3. 긴 시퀀스 지원: 더 긴 시퀀스 생성 지원
  4. 다국어 확장: 다국어 시나리오로 확장

심층 평가

장점

  1. 혁신성 강함: 인터리브된 토큰 자회귀 아키텍처를 최초로 제안하여 기술 경로 참신
  2. 실험 충분: 객관적 지표 및 대규모 사용자 연구 포함으로 평가 포괄적
  3. 실용적 가치 높음: 다중 화자, 다중 스타일 지원으로 우수한 응용 전망
  4. 이론적 기초 견고: 심리언어학 이론과 일치

부족한 점

  1. 비교 기준선 제한: 데이터셋 차이로 인해 모든 관련 연구와 직접 비교 불가
  2. 계산 효율성: 전문 음성 합성 모델 대비 계산 오버헤드 큼
  3. 제스처 표현 단순화: 손가락 관절 제거로 표현의 완전성 영향 가능

영향력

  1. 학술적 기여: 다중양식 합성에 새로운 기술 패러다임 제공
  2. 실용적 가치: 가상 인물, 사회 로봇 등 분야에서 중요한 응용 가치
  3. 재현성: 상세한 구현 세부사항 및 데모 웹사이트 제공

적용 시나리오

  1. 가상 대화 에이전트: 자연스러운 음성 및 제스처 상호작용이 필요한 응용
  2. 디지털 인물 제작: 영화, 게임 등 분야의 캐릭터 애니메이션
  3. 보조 기술: 청각 장애인을 위한 수어 생성 지원
  4. 교육 훈련: 언어 학습에서의 다중양식 피드백

참고문헌

논문은 67개의 관련 문헌을 인용하며, 제스처 합성, 음성 합성, 다중양식 학습 등 여러 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 다중양식 합성 분야에서 중요한 혁신적 의의를 가진 논문입니다. Gelina는 인터리브된 토큰 예측을 통해 진정한 의미의 통합 음성-제스처 합성을 구현하며, 기술 경로가 참신하고 실험 평가가 충분하며 중요한 학술적 가치와 응용 전망을 가지고 있습니다. 일부 한계가 있지만 해당 분야의 발전에 가치 있는 새로운 사고를 제공합니다.