2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

음성 인식 및 음성 번역의 엔드-투-엔드 자동화: 음성 기초 모델과 LLM의 통합

기본 정보

논문 ID: 2510.10329
제목: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
저자: Nam Luu, Ondřej Bojar (Charles University)
분류: cs.CL
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.10329v1

초록

음성 번역(Speech Translation, ST)은 한 언어의 음성 신호를 다른 언어의 해당 텍스트로 변환하는 기계 번역 작업입니다. 이 작업은 전통적인 캐스케이드 방식과 최근의 엔드-투-엔드 방식이라는 두 가지 접근 방식이 있습니다. 본 논문은 자동 음성 인식(ASR)과 음성 번역을 동시에 수행하기 위해 사전 훈련된 음성 인코더와 대규모 언어 모델(LLM)의 결합된 엔드-투-엔드 아키텍처를 탐색합니다. 영어-독일어 언어 쌍에 대한 실험 결과, 우리의 최고 성능 모델은 대규모 기초 엔드-투-엔드 다중 모달 번역 모델인 SeamlessM4T보다 우수한 번역 결과를 달성할 수 있을 뿐만 아니라, Whisper와 NLLB를 사용한 캐스케이드 시스템의 성능과 일치하며, $\text{COMET}^{\text{DA}}_{22}$ 지표에서 최대 8%의 점수 향상을 보입니다.

연구 배경 및 동기

문제 정의

본 연구는 음성 번역(Speech Translation, ST) 작업에서의 효율성과 성능 문제를 해결하는 것을 목표로 합니다. 음성 번역은 한 언어의 음성 신호를 다른 언어의 텍스트로 직접 변환해야 하며, 전통적으로 캐스케이드 방식(ASR→MT) 또는 엔드-투-엔드 방식을 채택합니다.

연구의 중요성

아키텍처 단순화: 엔드-투-엔드 방식은 중간 ASR 단계를 피하여 전체 시스템 아키텍처를 단순화할 수 있습니다
오류 전파: 캐스케이드 시스템은 오류 전파 문제가 존재하며, ASR 단계의 오류가 후속 번역 품질에 영향을 미칩니다
LLM의 잠재력: 대규모 언어 모델은 자연어 작업에서 강력한 능력을 보여주지만, 다중 모달 작업에서의 응용은 여전히 탐색이 필요합니다

기존 방법의 한계

데이터 부족: 음성 번역의 병렬 훈련 데이터는 상대적으로 부족하며, 특히 저자원 언어의 경우 더욱 그렇습니다
모델 효율성: 기존 엔드-투-엔드 모델은 추론 속도와 모델 크기 측면에서 도전 과제가 있습니다
성능 격차: 엔드-투-엔드 모델은 일부 경우에 캐스케이드 시스템의 성능을 따라가기 어렵습니다

연구 동기

사전 훈련된 음성 인코더의 고품질 오디오 표현 능력과 LLM의 강력한 언어 처리 능력을 결합하여 ASR과 음성 번역 작업을 동시에 수행할 수 있는 엔드-투-엔드 아키텍처를 구축합니다.

핵심 기여

음성 기초 모델과 LLM을 통합하는 엔드-투-엔드 아키텍처 제안, 자동 음성 인식과 음성 번역 작업을 동시에 수행할 수 있습니다
효과적인 모달리티 적응 메커니즘 설계, CTC 폴딩과 컨볼루션 다운샘플링이라는 두 가지 길이 적응기를 포함합니다
영어-독일어 언어 쌍에서 SeamlessM4T를 능가하는 번역 성능 달성, Whisper+NLLB 캐스케이드 시스템의 성능에 근접합니다
상세한 실험 분석 제공, 다양한 LLM과 음성 인코더 조합의 효과를 비교합니다

방법 상세 설명

작업 정의

입력: 소스 언어의 음성 신호
출력: 소스 언어 전사 텍스트와 목표 언어 번역 텍스트를 동시에 생성
제약: 엔드-투-엔드 훈련, 중간 감독 신호 불필요

모델 아키텍처

전체 아키텍처는 세 가지 주요 구성 요소를 포함합니다:

1. 음성 인코더 (Speech Encoder)

HuBERT: hubert-large-ls960-ft 변형 사용, LibriLight 60,000시간 데이터에서 훈련, LibriSpeech 960시간 데이터에서 미세 조정
Whisper 인코더: whisper-large-v3-turbo의 인코더 부분을 사용하여 오디오 숨겨진 특징 추출

2. 길이 적응기 (Length Adapter)

음성 특징 시퀀스가 LLM이 지원하는 최대 길이를 초과할 수 있으므로 압축이 필요합니다:

CTC 폴딩 (HuBERT용):
- CTC 계층이 예측한 레이블 활용
- 반복 레이블에 해당하는 벡터의 평균 병합
- 시맨틱 정보를 유지하면서 시퀀스 길이를 효과적으로 압축
컨볼루션 다운샘플링 (Whisper용):
- kernel size=5, stride=5인 컨볼루션 계층 사용
- 특징 시퀀스를 5배로 직접 다운샘플링

3. 프로젝션 계층 (Projection Layer)

단일 계층 피드포워드 네트워크
음성 인코더의 숨겨진 차원을 LLM의 임베딩 차원으로 매핑
음성 표현이 LLM의 임베딩 공간에 효과적으로 통합되도록 보장

4. 대규모 언어 모델 (LLMs)

네 가지 다양한 사전 훈련된 LLM을 실험했습니다:

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

기술 혁신 포인트

통합 다중 작업 학습 프레임워크: 특수 구분자 토큰을 통해 ASR과 음성 번역의 동시 훈련 및 추론 구현
모달리티 적응 전략: 다양한 음성 인코더에 대해 전문화된 길이 압축 방법 설계
효율적인 미세 조정: QLoRA (양자화 저순위 적응) 기술을 사용한 매개변수 효율적 미세 조정

훈련 전략

데이터 형식

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

손실 계산

<>transcript<> 이후의 토큰에 대해서만 교차 엔트로피 손실 계산
다음 토큰 예측 방식으로 훈련

추론 형식

<bos> <>audio<> {audio features} <>transcript<>

모델이 자동 회귀적으로 전사 및 번역 텍스트를 생성합니다.

실험 설정

데이터셋

훈련 데이터: MuST-C v1.0 영어-독일어 부분집합, 약 400시간의 오디오 데이터
테스트 데이터:
- MuST-C tst-COMMON v2.0 및 v3.0
- IWSLT'21 및 '22 오프라인 트랙 테스트 세트
- LibriSpeech test-clean 및 test-other (ASR 평가용)

평가 지표

음성 번역: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
음성 인식: WER (단어 오류율)

비교 방법

캐스케이드 시스템: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
엔드-투-엔드 기준: SeamlessM4T (seamless-m4t-v2-large)

구현 세부사항

미세 조정 방법: 4비트 QLoRA, bfloat16 정밀도
LoRA 매개변수: rank=8, alpha=8
배치 크기: HuBERT 모델 1, Whisper 모델 2
최적화기: AdamW, 학습률 1e-4, 코사인 스케줄러
훈련 단계: HuBERT 모델 500,000단계, Whisper 모델 100,000단계

실험 결과

주요 결과

ASR 성능 (WER %)

모델	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Whisper enc. + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

음성 번역 성능 (BLEU 점수)

모델	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Whisper enc. + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18