Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
논문 ID : 2510.12834제목 : Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction저자 : Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin분류 : cs.SD cs.AI eess.AS제출 일시 : 2025년 10월 13일 arXiv 제출논문 링크 : https://arxiv.org/abs/2510.12834v1 인간 의사소통은 본질적으로 다중양식이며, 음성과 제스처는 긴밀하게 결합되어 있습니다. 그러나 음성과 제스처를 생성하는 대부분의 계산 방법은 순차적 합성을 사용하여 동기성과 운율 정렬을 약화시킵니다. 본 논문은 Gelina를 소개합니다. 이는 이산 자회귀 백본 네트워크에서 인터리브된 토큰 시퀀스를 사용하고 양식별 디코더를 결합하여 텍스트로부터 음성과 공언어 제스처를 공동으로 합성하는 통합 프레임워크입니다. Gelina는 다중 화자 및 다중 스타일 클로닝을 지원하며, 음성 입력으로부터 제스처 전용 합성을 수행할 수 있습니다. 주관적 및 객관적 평가는 단일 양식 기준선과 비교하여 Gelina가 경쟁력 있는 음성 품질과 개선된 제스처 생성 능력을 가지고 있음을 보여줍니다.
기존의 다중양식 시스템은 대부분 캐스케이드 설계를 채택하여 먼저 음성을 생성한 후 제스처를 추가합니다. 이러한 방법은 다음과 같은 문제가 있습니다:
동기성 약화 : 음성 생성 과정이 제스처 유형과 타이밍을 인식하지 못함운율 정렬 제한 : 음성과 제스처 간 조정 부족표현력 감소 : 심리언어학 증거가 보여주는 음성과 제스처의 공동 계획 원리에 위배됨이론적 의의 : 인간 의사소통의 성장점 가설 등 심리언어학 이론과 일치실용적 가치 : 가상 대화 에이전트 및 사회 로봇에 더 자연스러운 다중양식 행동 통합 제공기술적 돌파 : 통합 프레임워크를 통한 효율성 향상, 제스처 모델이 언어-운율 특징에 직접 접근 가능데이터 부족 : 대규모 쌍을 이룬 코퍼스의 부족단일 양식 데이터셋 제약 : 음성 또는 제스처 단일 양식 데이터셋에서만 구축캐스케이드 설계 결함 : 음성 생성 과정이 제스처 정보에 둔감함인터리브된 토큰 자회귀 아키텍처 최초 제안 : 음성-제스처 합성을 위한 첫 번째 인터리브된 토큰 자회귀 아키텍처를 제안하여 통합 백본 네트워크 내에서 양식을 정렬혁신적 훈련 전략 : 대규모 단일 양식 텍스트-음성 데이터셋을 활용하여 희소 쌍 데이터에서 일반화 능력을 개선하는 훈련 전략 제안유연한 입력 모드 : 텍스트 전용 음성+제스처 생성 또는 텍스트+음성 제스처 전용 합성 지원이중 양식 스타일 클로닝 : 명시적 화자 임베딩 없이 시퀀스 연속을 통한 음성과 제스처의 공동 클로닝 구현입력 : 텍스트 시퀀스 (선택사항: 음성 참조)
출력 : 동기화된 음성 파형 및 3D 인체 제스처 시퀀스 (SMPL-X 형식)
제약 : 다중 화자, 다중 스타일 지원, 음성-제스처 시간 동기화 유지
Gelina는 세 가지 핵심 구성 요소로 이루어져 있습니다:
음성 토큰화 : WavTokenizer를 사용하여 24kHz 음성을 75Hz의 이산 토큰으로 변환제스처 토큰화 : 잔차 벡터 양자화 변분 자동인코더(RVQ-VAE)를 채택하여 연속 동작 시퀀스를 5Hz의 계층적 이산 토큰으로 변환텍스트 토큰화 : 표준 바이트 쌍 인코딩(BPE) 알고리즘Lina-Speech 아키텍처 확장 기반:
양식 인터리빙 방식 : 15개의 음성 토큰마다 1개의 제스처 토큰 삽입 (75Hz와 5Hz의 인코딩 속도 비율 반영)독립적 임베딩 : 각 양식에 대해 독립적인 입력 임베딩 및 출력 투영 유지2단계 훈련 :
사전훈련: 대규모 텍스트-음성 데이터셋에서 훈련, 제스처 토큰은 무작위 토큰으로 대체 미세조정: 쌍을 이룬 텍스트-음성-제스처 데이터에서 미세조정 제스처 품질 최적화를 위해 설계:
동기 : 직접 RVQ-VAE 디코딩은 노이즈가 있는 제스처 토큰 시퀀스에 민감함아키텍처 : Matcha-TTS 기반 1D 컨볼루션-Transformer UNet훈련 목표 :
L = LFM + λvel*Lvel + λgeo*Lgeo
여기서 흐름 매칭 손실, 속도 일관성 항 및 관절 회전의 측지선 손실 포함인터리브된 토큰 설계 : 음성과 제스처 토큰을 시간 차원에서 혁신적으로 인터리빙하여 양식 간 시간 정렬 보장2단계 훈련 전략 : 먼저 대규모 단일 양식 데이터에서 텍스트-음성 정렬을 구축한 후 쌍 데이터에서 다중양식 동기화 학습흐름 매칭 디코딩 : 자회귀 백본의 의미론적으로 풍부한 임베딩 공간을 활용하여 조건부 흐름 매칭을 통한 제스처 품질 향상사전훈련 : GigaSpeech, LibriTTS, MLS-10k, 총 18,190시간미세조정 : BEAT2 데이터셋 (최대 규모의 다중 화자 음성-제스처 데이터셋)데이터 처리 :
Whisper-large-v3를 사용하여 오디오 재전사 제스처는 SMPL-X 동작 시퀀스로 표현 (25개 관절, 손가락 관절 제거) Rot6D 표현으로 변환, 평행이동 및 발 접촉 정보 포함 제스처 품질 :
FGD-B (Fréchet Gesture Distance-Body): 생성된 제스처와 인간 제스처 분포 간 거리 BC (Beat Consistency): 제스처 비트와 오디오 비트의 시간 정렬 L1-Diversity: 생성된 제스처 시퀀스의 변이성 음성 품질 :
WER (Word Error Rate): 이해도 NMOS (Natural MOS): 자연스러움 예측 SS (Speaker Similarity): 화자 유사도 제스처 기준선 : CAMN, EMAGE, RAG-Gesture음성 기준선 : Lina-Speech, CosyVoice-2소거 연구 : Gelina - Flow (흐름 매칭 디코딩 없음), Tokenizers (직접 인코더-디코더 재구성)RVQ-VAE : 6개 잔차 층, 512개 항목 코드북, 512차원 잠재 공간AR 백본 : 168M 매개변수, 6층 텍스트 인코더, 12층 인과 디코더제스처 디코더 : 11.5M 매개변수 U-Net, λvel=0.05, λgeo=0.8훈련 : 사전훈련 100k 스텝, 미세조정 5k 스텝, 흐름 매칭 훈련 300k 스텝모델 FGD-B↓ BC∼ Div.∼ WER↓ NMOS↑ SS Human 0.0 0.684 4.14 6.5±0.54 3.72±0.04 69.1 Gelina Clon. 0.0839 0.738 3.15 9.2±0.84 3.21±0.04 61.3 RAG 0.1781 0.700 5.13 - - - EMAGE 0.1679 0.766 3.92 - - - Lina-Speech - - - 10.9±0.9 2.98±0.05 60.1 CosyVoice-2 - - - 3.5±0.5 3.70±0.04 63.9
제스처 품질 : Gelina Cloning은 FGD-B에서 최고 성능 (0.0839)을 보여 다른 제스처 생성 기준선을 크게 능가음성 품질 : Lina-Speech와 비교하여 WER이 10.9%에서 9.2%로 감소, NMOS가 2.98에서 3.21로 향상운영 효율성 : A5000 GPU에서 RTF는 1.47로 거의 실시간에 가까우며 두 양식을 동시에 합성96명 참여자의 대규모 사용자 연구 결과:
음성 인간 유사도 : Gelina가 Lina-Speech를 크게 능가제스처 인간 유사도 : Gelina가 RAG와 비슷한 성능을 보이며 EMAGE 및 CAMN을 크게 능가동기화 : Gelina와 RAG 간 유의미한 차이 없음, 둘 다 다른 기준선을 크게 능가흐름 매칭 디코딩의 중요성 : 흐름 매칭 제거 시 FGD-B가 0.0839에서 0.6107로 악화토큰화기 품질 : 직접 토큰화기 재구성은 인코더-디코더의 성능 상한을 보여줌초기 방법 : 자회귀 시퀀스 모델링 (CAMN 등)현재 주류 : 확산 기반 생성기 (EMAGE 등)이산 표현 : 더 제어 가능한 합성 (BEAT2 등)발전 추세 : 데이터 기반 방법으로의 전환이산 코딩 모델링 : 대규모 사전훈련 인코더-디코더 사용다중 화자 합성 : 짧은 참조 발화를 통한 화자 클로닝초기 시도 : Tacotron-ISG 등 신경 방법최근 연구 : Diff-TTSG, Match-TTSG 등 확산 프레임워크한계 : 대부분 단일 화자 또는 합성 데이터로 제한통합 프레임워크의 유효성 : Gelina는 공동 음성-제스처 생성이 경쟁력 있으며 심지어 단일 양식 기준선을 능가할 수 있음을 증명인터리브된 토큰의 장점 : 단일 자회귀 스트림에서 음성과 제스처 토큰을 공동으로 생성함으로써 동기화된 다중양식 출력 보장훈련 전략의 성공 : 2단계 훈련이 기존의 단일 양식 및 이중 양식 데이터 자원을 효과적으로 활용제스처 범위 : 현재 신체 제스처만 모델링하며 손가락 및 얼굴 표정 미포함음성 품질 제약 : 토큰화기 품질에 의해 제한됨시퀀스 길이 : 현재 버전은 긴 시퀀스 생성 지원 제한토큰화기 개선 : 음성 인코더-디코더 품질 향상제스처 범위 확장 : 손가락 및 얼굴 표정 포함긴 시퀀스 지원 : 더 긴 시퀀스 생성 지원다국어 확장 : 다국어 시나리오로 확장혁신성 강함 : 인터리브된 토큰 자회귀 아키텍처를 최초로 제안하여 기술 경로 참신실험 충분 : 객관적 지표 및 대규모 사용자 연구 포함으로 평가 포괄적실용적 가치 높음 : 다중 화자, 다중 스타일 지원으로 우수한 응용 전망이론적 기초 견고 : 심리언어학 이론과 일치비교 기준선 제한 : 데이터셋 차이로 인해 모든 관련 연구와 직접 비교 불가계산 효율성 : 전문 음성 합성 모델 대비 계산 오버헤드 큼제스처 표현 단순화 : 손가락 관절 제거로 표현의 완전성 영향 가능학술적 기여 : 다중양식 합성에 새로운 기술 패러다임 제공실용적 가치 : 가상 인물, 사회 로봇 등 분야에서 중요한 응용 가치재현성 : 상세한 구현 세부사항 및 데모 웹사이트 제공가상 대화 에이전트 : 자연스러운 음성 및 제스처 상호작용이 필요한 응용디지털 인물 제작 : 영화, 게임 등 분야의 캐릭터 애니메이션보조 기술 : 청각 장애인을 위한 수어 생성 지원교육 훈련 : 언어 학습에서의 다중양식 피드백논문은 67개의 관련 문헌을 인용하며, 제스처 합성, 음성 합성, 다중양식 학습 등 여러 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가 : 이는 다중양식 합성 분야에서 중요한 혁신적 의의를 가진 논문입니다. Gelina는 인터리브된 토큰 예측을 통해 진정한 의미의 통합 음성-제스처 합성을 구현하며, 기술 경로가 참신하고 실험 평가가 충분하며 중요한 학술적 가치와 응용 전망을 가지고 있습니다. 일부 한계가 있지만 해당 분야의 발전에 가치 있는 새로운 사고를 제공합니다.