2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic

MTP-S2UT: 다중토큰 예측을 통한 음성-음성 번역 품질 향상

기본 정보

  • 논문 ID: 2510.10003
  • 제목: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
  • 저자: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
  • 분류: cs.CL, cs.SD, eess.AS
  • 발표일: 2025년 10월 11일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10003

초록

현재의 직접 음성-음성 번역 방법은 주로 음성 토큰을 중간 표현으로 사용합니다. 그러나 개별 음성 토큰의 의미 밀도가 낮아서 완전한 의미 단위를 표현하기 위해 일반적으로 여러 토큰이 필요합니다. 이러한 제한을 해결하기 위해 본 논문은 다중토큰 예측(MTP) 손실을 음성-단위 번역(S2UT) 모델에 도입하여 모델이 각 위치에서 여러 후속 토큰을 예측할 수 있도록 하고, 더 완전한 의미를 포착하며 각 위치의 정보 밀도를 향상시킵니다. 초기의 MTP 구현은 손실을 최종 계층에 적용했는데, 출력 표현을 개선했지만 정보 강화가 너무 늦게 시작되었습니다. 본 논문은 정보 강화 과정을 중간 계층으로 앞당기면 더 빠르고 효과적인 은닉 표현 향상을 달성할 수 있다고 가정합니다. 따라서 MTP-S2UT 손실을 제안하며, 이는 CTC 손실을 계산하는 은닉 표현 계층에 MTP 손실을 적용합니다. 실험 결과 모든 MTP 손실 변형이 S2UT 번역 품질을 지속적으로 개선했으며, 그 중 MTP-S2UT가 최고의 성능을 달성했습니다.

연구 배경 및 동기

핵심 문제

직접 음성-음성 번역이 직면한 주요 과제는 음성 토큰의 의미 희소성입니다. 텍스트 토큰과 비교하여 음성 토큰의 의미 표현이 더욱 희소하여 일반적으로 단일 의미 개념을 표현하기 위해 여러 음성 토큰이 필요하며, 이는 더 높은 예측 엔트로피와 모델링 복잡도를 초래합니다.

문제의 중요성

  1. 실제 응용 수요: 음성-음성 번역은 국제 회의, 국제 교류, 관광 등의 장면에서 광범위한 응용 전망을 가지고 있습니다
  2. 기술적 병목: 기존 방법은 의미 표현 밀도와 예측 정확도 측면에서 부족합니다
  3. 모델 효율성: 음성 토큰의 희소성은 모델의 예측 불확실성을 증가시킵니다

기존 방법의 한계

  1. 의미 밀도 낮음: 개별 음성 토큰은 완전한 의미 정보를 담을 수 없습니다
  2. 예측 엔트로피 높음: 단일 개념을 표현하기 위한 다중 토큰이 예측 복잡도를 증가시킵니다
  3. 정보 융합 지연: 기존 MTP 방법은 최종 계층에만 적용되어 초기 정보 융합의 기회를 놓칩니다

연구 동기

음성 토큰이 완전한 의미를 표현하기 위해 여러 토큰의 협력이 필요하다는 관찰을 바탕으로, 본 논문은 다중토큰 예측을 통해 의미 밀도를 향상시키고 이러한 향상을 중간 계층으로 앞당겨 더 효과적인 표현 학습을 실현하는 것을 제안합니다.

핵심 기여

  1. MTP 손실을 S2UT 프레임워크에 처음 도입: 다중토큰 예측 기술을 음성-음성 번역 작업에 체계적으로 적용
  2. MTP-S2UT 손실 제안: MTP 손실을 CTC 은닉 계층에 적용하여 더 빠른 정보 융합을 실현하는 혁신적 방법
  3. 포괄적인 실험 검증: 다양한 음성 토크나이저와 언어 쌍에서 방법의 효과성을 검증
  4. 심층적 메커니즘 분석: CTC 디코딩 분석과 엔트로피 분석을 통해 MTP 손실의 작동 메커니즘 규명

방법론 상세 설명

작업 정의

음성-음성 번역 작업은 4-튜플 데이터셋 D={(S,X,Y,T)}D = \{(S,X,Y,T)\}로 정의되며, 여기서:

  • S=(s1,,sS)S = (s_1, \cdots, s_{|S|}): 원본 언어 음성
  • X=(x1,,xX)X = (x_1, \cdots, x_{|X|}): 원본 언어 텍스트
  • Y=(y1,,yY)Y = (y_1, \cdots, y_{|Y|}): 목표 언어 텍스트
  • T=(t1,,tT)T = (t_1, \cdots, t_{|T|}): 목표 언어 음성

모델 아키텍처

S2UT 기본 아키텍처

S2UT 모델은 세 가지 주요 구성 요소로 이루어집니다:

  1. 음성 토크나이저: 연속 목표 음성을 이산 음성 토큰 시퀀스 U=(u1,,uU,e)U = (u_1, \cdots, u_{|U|}, e)로 양자화
  2. 시퀀스-투-시퀀스 모델: 원본 음성을 목표 음성 토큰으로 변환
  3. 디토크나이저: 음성 토큰에서 목표 음성을 합성

모델의 핵심 계산 과정:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

MTP 손실 변형

본 논문은 네 가지 MTP 손실 변형을 구현했습니다:

1. MTP-Parallel-Linear N개의 독립적인 선형 헤드 사용:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 교사 강제(teacher-forcing)와 Transformer 블록 채택:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet 교사 강제 입력 제거:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

기술 혁신 포인트

MTP-S2UT 핵심 혁신

핵심 통찰: CTC 은닉 계층 HdecmH^m_{dec}는 텍스트와 음성 모달리티 정보를 동시에 포함하며, MTP 손실을 적용하기 위한 이상적인 위치입니다.

구현 방법:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

설계 장점:

  1. 더 빠른 정보 융합: 최종 계층이 아닌 중간 계층에 MTP 손실 적용
  2. 교차 모달리티 정보 활용: CTC 계층의 텍스트-음성 융합 표현을 충분히 활용
  3. 의미 전진: 시퀀스 내 의미 정보의 전방 이동 촉진

실험 설정

데이터셋

CVSS-C 벤치마크 데이터셋 사용, 이는 대규모 음성-음성 번역 데이터셋입니다:

  • 언어 쌍: 프랑스어→영어(Fr→En) 및 스페인어→영어(Es→En)
  • 전처리: 80차원 멜-필터뱅크 특성, 전역 켑스트럼 평균 및 분산 정규화

음성 토크나이저

세 가지 토크나이저 평가:

  1. 비감독 토크나이저: k-평균 클러스터링(k=1000) 기반 mHuBERT 특성
  2. S3 토크나이저: 감독식 토크나이저, 코드북 크기 6561
  3. GLM-4-Voice-Tokenizer: 감독식 토크나이저, 코드북 크기 16384

모델 구성

  • 인코더: 12층 Conformer, 은닉 차원 256
  • 디코더: 6층 Transformer, 은닉 차원 512
  • CTC 디코더: 제3층 디코더에 연결, 가중치 1.6
  • MTP 구성: 각 음성 토큰에 대해 후속 N=7개 토큰 예측, MTP 손실 가중치 1.0

평가 지표

ASR-BLEU를 사용하여 번역 품질 평가:

  1. ASR 모델을 사용하여 합성 음성을 텍스트로 전사
  2. 전사 텍스트와 참조 텍스트의 BLEU 점수 계산

실험 결과

주요 결과

Fr→En 작업 결과

토크나이저모델GreedyBeam5Beam10
S3S2UT17.7918.9819.15
S3+ MTP-S2UT24.3625.1425.16
HuBERTS2UT22.0223.1123.33
HuBERT+ MTP-S2UT23.5924.5024.53
GLM-4S2UT21.6223.0823.26
GLM-4+ MTP-S2UT23.9725.2225.26

Es→En 작업 결과

모델GreedyBeam5Beam10
S2UT16.6717.9918.18
+ MTP-S2UT21.8722.5922.83

주요 발견

  1. 일관된 개선: 모든 MTP 변형이 번역 품질을 개선
  2. 최고 성능: MTP-S2UT이 모든 설정에서 최고의 결과 달성
  3. 현저한 개선: S3 토크나이저에서 탐욕 검색 ASR-BLEU가 17.79에서 24.36으로 상승(+37%)

제거 실험

CTC 디코딩 전방 편향 분석

CTC 은닉 상태의 디코딩 결과 분석을 통해 발견:

  • MTP 훈련 모델은 NTP와 비교하여 텍스트 토큰의 전방 편향 표시
  • 텍스트 토큰 첫 등장의 평균 상대 위치 현저히 단축
모델S3HuBERTGLM-4
S2UT51.011%49.628%50.363%
MTP-S2UT47.382%44.561%43.889%

음성 토큰 불확실성 분석

엔트로피 분석을 통해 발견:

  • 모든 MTP 변형이 음성 토큰 예측의 불확실성 감소
  • MTP-S2UT이 가장 현저한 불확실성 감소 표시
  • 저엔트로피 영역 빈도 증가, 고엔트로피 영역 빈도 감소

관련 연구

음성-음성 번역

  • 직접 방법: 이산 음성 단위를 중간 표현으로 사용
  • 대표적 아키텍처: S2UT 모델 및 그 변형(UnitY, SeamlessM4T 등)
  • 기술적 과제: 음성 토큰의 의미 희소성과 예측 복잡도

다중토큰 예측

  • 기원: 초기에 대규모 언어 모델의 보조 작업으로 사용
  • 발전: DeepSeek-V3의 개선 및 VocalNet의 음성 대화 응용
  • 장점: 표현 능력 향상, 추론 가속화, 국소 패턴 포착

결론 및 논의

주요 결론

  1. MTP 손실 효과성: S2UT 프레임워크에 MTP 손실을 도입하면 번역 품질을 현저히 향상시킬 수 있습니다
  2. 초기 융합의 장점: MTP 손실을 최종 계층이 아닌 중간 CTC 계층에 적용하는 것이 더 효과적입니다
  3. 메커니즘 통찰: MTP는 의미 정보 전진을 촉진하고 예측 불확실성을 감소시킵니다

한계

  1. 계산 오버헤드: MTP 훈련은 추가 매개변수와 계산 복잡도를 도입합니다
  2. 언어 범위: 실험은 유럽 언어 쌍에서만 검증되어 더 광범위한 언어 검증이 부족합니다
  3. 이론적 분석: MTP 작동 메커니즘에 대한 이론적 이해가 여전히 심화되어야 합니다

향후 방향

  1. 더 많은 언어 쌍으로 확장: 다양한 언어 계열 간 방법의 효과성 검증
  2. 계산 효율성 최적화: MTP 훈련의 계산 오버헤드 감소
  3. 이론적 모델링: 음성 번역에서 MTP의 작용 메커니즘에 대한 심층적 이해

심층 평가

장점

  1. 높은 혁신성: 음성-음성 번역에 MTP를 처음으로 체계적으로 도입
  2. 합리적 방법: MTP-S2UT의 설계는 CTC 계층 특성에 대한 심층적 이해에 기반
  3. 충분한 실험: 다중 토크나이저, 다중 언어 쌍, 다중 디코딩 전략의 포괄적 검증
  4. 심층적 분석: CTC 디코딩 및 엔트로피 분석을 통해 방법의 작동 메커니즘 규명
  5. 현저한 결과: 모든 설정에서 일관되고 현저한 개선 달성

부족한 점

  1. 언어 제한: 유럽 언어 쌍에서만 검증되어 일반화 가능성 미지수
  2. 계산 분석 부재: MTP 훈련의 계산 오버헤드에 대한 상세 분석 부재
  3. 불충분한 비교: 다른 음성 번역 개선 방법과의 비교 부족
  4. 이론적 깊이 부족: MTP 작동 메커니즘에 대한 이론적 분석이 충분하지 않음

영향력

  1. 학술적 가치: 음성 번역 분야에 새로운 개선 사상 제공
  2. 실용적 가치: 현저한 성능 향상으로 실제 응용 가능성 보유
  3. 재현성: 방법 설명이 명확하고 실험 설정이 상세함
  4. 영감 제공: 다중 모달리티 시퀀스 모델링에 가치 있는 통찰 제공

적용 시나리오

  1. 고품질 음성 번역: 번역 품질 요구가 높은 시나리오에 적용
  2. 다중언어 회의 시스템: 실시간 다중언어 교류 시스템에 응용
  3. 음성 어시스턴트: 교차 언어 음성 어시스턴트의 번역 능력 향상
  4. 교육 및 훈련: 언어 학습 및 교차 문화 교류 응용

참고 문헌

본 논문은 음성-음성 번역, 다중토큰 예측, 음성 표현 학습 등 관련 분야의 중요한 연구를 인용하여 연구에 견고한 이론적 기초를 제공합니다. 주요 참고 문헌에는 S2UT 원본 논문, MTP 관련 연구(DeepSeek-V3, VocalNet) 및 음성 처리 기초 기술(HuBERT, CTC 등)이 포함됩니다.


종합 평가: 이는 음성-음성 번역 분야에서 혁신적이고 효과적인 개선 방법을 제안한 고품질의 기술 논문입니다. 다중토큰 예측 기술을 S2UT 프레임워크의 중간 계층에 교묘하게 적용하여 현저한 성능 향상을 달성했습니다. 논문의 실험 설계는 엄밀하고 분석은 심층적이며, 해당 분야의 발전에 가치 있는 기여를 했습니다.