Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
논문 ID : 2510.10329제목 : End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs저자 : Nam Luu, Ondřej Bojar (Charles University)분류 : cs.CL발표 시간 : 2025년 10월 11일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2510.10329v1 음성 번역(Speech Translation, ST)은 한 언어의 음성 신호를 다른 언어의 해당 텍스트로 변환하는 기계 번역 작업입니다. 이 작업은 전통적인 캐스케이드 방식과 최근의 엔드-투-엔드 방식이라는 두 가지 접근 방식이 있습니다. 본 논문은 자동 음성 인식(ASR)과 음성 번역을 동시에 수행하기 위해 사전 훈련된 음성 인코더와 대규모 언어 모델(LLM)의 결합된 엔드-투-엔드 아키텍처를 탐색합니다. 영어-독일어 언어 쌍에 대한 실험 결과, 우리의 최고 성능 모델은 대규모 기초 엔드-투-엔드 다중 모달 번역 모델인 SeamlessM4T보다 우수한 번역 결과를 달성할 수 있을 뿐만 아니라, Whisper와 NLLB를 사용한 캐스케이드 시스템의 성능과 일치하며, COMET 22 DA \text{COMET}^{\text{DA}}_{22} COMET 22 DA 지표에서 최대 8%의 점수 향상을 보입니다.
본 연구는 음성 번역(Speech Translation, ST) 작업에서의 효율성과 성능 문제를 해결하는 것을 목표로 합니다. 음성 번역은 한 언어의 음성 신호를 다른 언어의 텍스트로 직접 변환해야 하며, 전통적으로 캐스케이드 방식(ASR→MT) 또는 엔드-투-엔드 방식을 채택합니다.
아키텍처 단순화 : 엔드-투-엔드 방식은 중간 ASR 단계를 피하여 전체 시스템 아키텍처를 단순화할 수 있습니다오류 전파 : 캐스케이드 시스템은 오류 전파 문제가 존재하며, ASR 단계의 오류가 후속 번역 품질에 영향을 미칩니다LLM의 잠재력 : 대규모 언어 모델은 자연어 작업에서 강력한 능력을 보여주지만, 다중 모달 작업에서의 응용은 여전히 탐색이 필요합니다데이터 부족 : 음성 번역의 병렬 훈련 데이터는 상대적으로 부족하며, 특히 저자원 언어의 경우 더욱 그렇습니다모델 효율성 : 기존 엔드-투-엔드 모델은 추론 속도와 모델 크기 측면에서 도전 과제가 있습니다성능 격차 : 엔드-투-엔드 모델은 일부 경우에 캐스케이드 시스템의 성능을 따라가기 어렵습니다사전 훈련된 음성 인코더의 고품질 오디오 표현 능력과 LLM의 강력한 언어 처리 능력을 결합하여 ASR과 음성 번역 작업을 동시에 수행할 수 있는 엔드-투-엔드 아키텍처를 구축합니다.
음성 기초 모델과 LLM을 통합하는 엔드-투-엔드 아키텍처 제안 , 자동 음성 인식과 음성 번역 작업을 동시에 수행할 수 있습니다효과적인 모달리티 적응 메커니즘 설계 , CTC 폴딩과 컨볼루션 다운샘플링이라는 두 가지 길이 적응기를 포함합니다영어-독일어 언어 쌍에서 SeamlessM4T를 능가하는 번역 성능 달성 , Whisper+NLLB 캐스케이드 시스템의 성능에 근접합니다상세한 실험 분석 제공 , 다양한 LLM과 음성 인코더 조합의 효과를 비교합니다입력 : 소스 언어의 음성 신호출력 : 소스 언어 전사 텍스트와 목표 언어 번역 텍스트를 동시에 생성제약 : 엔드-투-엔드 훈련, 중간 감독 신호 불필요전체 아키텍처는 세 가지 주요 구성 요소를 포함합니다:
HuBERT : hubert-large-ls960-ft 변형 사용, LibriLight 60,000시간 데이터에서 훈련, LibriSpeech 960시간 데이터에서 미세 조정Whisper 인코더 : whisper-large-v3-turbo의 인코더 부분을 사용하여 오디오 숨겨진 특징 추출음성 특징 시퀀스가 LLM이 지원하는 최대 길이를 초과할 수 있으므로 압축이 필요합니다:
CTC 폴딩 (HuBERT용):CTC 계층이 예측한 레이블 활용 반복 레이블에 해당하는 벡터의 평균 병합 시맨틱 정보를 유지하면서 시퀀스 길이를 효과적으로 압축 컨볼루션 다운샘플링 (Whisper용):kernel size=5, stride=5인 컨볼루션 계층 사용 특징 시퀀스를 5배로 직접 다운샘플링 단일 계층 피드포워드 네트워크 음성 인코더의 숨겨진 차원을 LLM의 임베딩 차원으로 매핑 음성 표현이 LLM의 임베딩 공간에 효과적으로 통합되도록 보장 네 가지 다양한 사전 훈련된 LLM을 실험했습니다:
Gemma 7B (gemma-7b) Gemma 2 9B (gemma-2-9b) Llama 2 7B (Llama-2-7b-hf) Mistral 7B v0.1 (Mistral-7B-v0.1) 통합 다중 작업 학습 프레임워크 : 특수 구분자 토큰을 통해 ASR과 음성 번역의 동시 훈련 및 추론 구현모달리티 적응 전략 : 다양한 음성 인코더에 대해 전문화된 길이 압축 방법 설계효율적인 미세 조정 : QLoRA (양자화 저순위 적응) 기술을 사용한 매개변수 효율적 미세 조정<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>
<>transcript<> 이후의 토큰에 대해서만 교차 엔트로피 손실 계산다음 토큰 예측 방식으로 훈련 <bos> <>audio<> {audio features} <>transcript<>
모델이 자동 회귀적으로 전사 및 번역 텍스트를 생성합니다.
훈련 데이터 : MuST-C v1.0 영어-독일어 부분집합, 약 400시간의 오디오 데이터테스트 데이터 :
MuST-C tst-COMMON v2.0 및 v3.0 IWSLT'21 및 '22 오프라인 트랙 테스트 세트 LibriSpeech test-clean 및 test-other (ASR 평가용) 음성 번역 : BLEU, COMET22 D A ^{DA}_{22} 22 D A , COMET22 K I W I − D A ^{KIWI-DA}_{22} 22 K I W I − D A 음성 인식 : WER (단어 오류율)캐스케이드 시스템 : Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)엔드-투-엔드 기준 : SeamlessM4T (seamless-m4t-v2-large)미세 조정 방법 : 4비트 QLoRA, bfloat16 정밀도LoRA 매개변수 : rank=8, alpha=8배치 크기 : HuBERT 모델 1, Whisper 모델 2최적화기 : AdamW, 학습률 1e-4, 코사인 스케줄러훈련 단계 : HuBERT 모델 500,000단계, Whisper 모델 100,000단계모델 MuST-C v2 MuST-C v3 IWSLT'22 LibriSpeech clean LibriSpeech other Whisper 6.7 7.7 11.8 4.1 7.2 Whisper enc. + Gemma 2 9B 8.2 8.1 22.6 8.0 13.7 HuBERT + Gemma 2 9B 11.1 12.5 21.9 8.4 13.1
모델 MuST-C v2 MuST-C v3 IWSLT'21 IWSLT'22 Whisper + NLLB 39.84/31.06 40.30/31.60 43.84/- 41.86/30.48 SeamlessM4T 32.62/22.98 33.36/23.59 35.97/- 34.08/22.68 Whisper enc. + Gemma 2 9B 41.33/31.98 41.16/31.72 40.76/- 39.64/29.18
최고 성능 모델(Whisper enc. + Gemma 2 9B)의 COMET22 D A ^{DA}_{22} 22 D A 지표:
MuST-C v2: 84.22 (캐스케이드 시스템 83.00 대비) MuST-C v3: 83.65 (캐스케이드 시스템 82.49 대비) SeamlessM4T 대비 약 8% 향상 LLM 선택 : Gemma 2 9B가 모든 테스트에서 최고 성능 달성인코더 비교 : Whisper 인코더가 일반적으로 HuBERT보다 우수적응기 효과 : CTC 폴딩과 컨볼루션 다운샘플링 모두 시퀀스 길이를 효과적으로 압축엔드-투-엔드 vs 캐스케이드 : 최고 성능 엔드-투-엔드 모델이 캐스케이드 시스템 성능에 근접하거나 초과모델 규모 : 더 큰 LLM (Gemma 2 9B)이 더 나은 성능 제공음성 표현 : 사전 훈련된 음성 인코더의 품질이 최종 성능에 직접 영향캐스케이드 방식 : 전통적인 ASR+MT 파이프라인, 여전히 현재 주류 방안엔드-투-엔드 방식 : 음성에서 목표 언어 텍스트로 직접 변환, 중간 표현 회피다중 모달 LLM : LLM을 음성 등 다른 모달리티로 확장하는 최신 연구통합 프레임워크 : ASR과 음성 번역 작업을 동시에 처리, 단일 작업 최적화 아님모듈식 설계 : 다양한 음성 인코더와 LLM 구성 요소를 유연하게 교체 가능실용성 : 경쟁력 있는 성능을 유지하면서 엔드-투-엔드 솔루션 제공사전 훈련된 음성 인코더와 LLM을 통합하는 엔드-투-엔드 아키텍처가 영어-독일어 음성 번역 작업에서 경쟁력 있는 성능 달성 최고 성능 모델이 SeamlessM4T를 능가할 뿐만 아니라 Whisper+NLLB 캐스케이드 시스템의 성능에 근접 모델이 ASR과 음성 번역 작업을 동시에 수행할 수 있어 통합 솔루션 제공 데이터 제한 : 영어-독일어 고자원 언어 쌍에서만 검증, 저자원 언어 효과 미지수계산 효율성 : 기준 모델 대비 추론 속도가 느리고 모델 규모가 큼ASR 성능 : 음성 인식 작업에서 여전히 전문 Whisper 모델에 뒤짐훈련 데이터 : MuST-C 데이터셋이 상대적으로 작음(400시간), 모델 잠재력 제한 가능언어 확장 : 더 많은 언어 방향에서 효과 검증모델 압축 : 지식 증류 등 기술을 통한 모델 규모 감소적응기 개선 : Q-Former 등 더 고급 모달리티 적응 방법 시도강화 학습 : RL 기술 통합으로 성능 추가 최적화혁신적 아키텍처 : 음성 기초 모델과 LLM의 장점을 효과적으로 결합충분한 실험 : 다양한 인코더와 LLM 조합의 체계적 비교실용적 가치 : 엔드-투-엔드 통합 솔루션 제공기술 세부사항 : 모달리티 적응 및 훈련 전략 상세 설명개방성 : 오픈소스 모델 사용으로 재현 용이언어 범위 : 영어-독일어 단일 언어 쌍만 검증, 일반화 제한적계산 비용 : 훈련 및 추론의 계산 오버헤드 상세 분석 부재오류 분석 : 모델 실패 사례에 대한 심층 분석 부족이론적 분석 : 이 아키텍처가 효과적인 이유에 대한 이론적 설명 부족데이터 의존성 : 훈련 데이터 규모에 대한 민감도 분석 불충분학술 기여 : 음성 번역 분야에 새로운 엔드-투-엔드 솔루션 제공실용적 가치 : 실제 다중언어 음성 처리 시스템에 적용 가능재현성 : 오픈소스 구성 요소 사용으로 후속 연구 용이영감 : 다중 모달 LLM 응용에 대한 가치 있는 탐색 제공다중언어 회의 : 실시간 음성 번역 및 전사교육 플랫폼 : 다중언어 온라인 강좌의 자동 자막 및 번역고객 서비스 : 교차 언어 음성 상호작용 시스템미디어 처리 : 오디오 콘텐츠의 자동 전사 및 번역논문은 음성 번역, 대규모 언어 모델, 다중 모달 학습 등 분야의 중요한 연구를 인용하고 있습니다:
Whisper (Radford et al., 2022): 강력한 음성 인식 기초 모델 SeamlessM4T (Communication et al., 2023): 다중 모달 번역 모델 기준 MuST-C (Cattoni et al., 2021): 표준 음성 번역 데이터셋 QLoRA (Dettmers et al., 2023): 매개변수 효율적 미세 조정 기술 본 논문은 음성 번역 분야에서 유망한 엔드-투-엔드 솔루션을 제시하며, 일부 측면에서 개선 여지가 있지만 다중 모달 LLM의 응용에 대한 가치 있는 탐색과 실증적 결과를 제공합니다.