2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

음성 인식 및 음성 번역의 엔드-투-엔드 자동화: 음성 기초 모델과 LLM의 통합

기본 정보

  • 논문 ID: 2510.10329
  • 제목: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
  • 저자: Nam Luu, Ondřej Bojar (Charles University)
  • 분류: cs.CL
  • 발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10329v1

초록

음성 번역(Speech Translation, ST)은 한 언어의 음성 신호를 다른 언어의 해당 텍스트로 변환하는 기계 번역 작업입니다. 이 작업은 전통적인 캐스케이드 방식과 최근의 엔드-투-엔드 방식이라는 두 가지 접근 방식이 있습니다. 본 논문은 자동 음성 인식(ASR)과 음성 번역을 동시에 수행하기 위해 사전 훈련된 음성 인코더와 대규모 언어 모델(LLM)의 결합된 엔드-투-엔드 아키텍처를 탐색합니다. 영어-독일어 언어 쌍에 대한 실험 결과, 우리의 최고 성능 모델은 대규모 기초 엔드-투-엔드 다중 모달 번역 모델인 SeamlessM4T보다 우수한 번역 결과를 달성할 수 있을 뿐만 아니라, Whisper와 NLLB를 사용한 캐스케이드 시스템의 성능과 일치하며, COMET22DA\text{COMET}^{\text{DA}}_{22} 지표에서 최대 8%의 점수 향상을 보입니다.

연구 배경 및 동기

문제 정의

본 연구는 음성 번역(Speech Translation, ST) 작업에서의 효율성과 성능 문제를 해결하는 것을 목표로 합니다. 음성 번역은 한 언어의 음성 신호를 다른 언어의 텍스트로 직접 변환해야 하며, 전통적으로 캐스케이드 방식(ASR→MT) 또는 엔드-투-엔드 방식을 채택합니다.

연구의 중요성

  1. 아키텍처 단순화: 엔드-투-엔드 방식은 중간 ASR 단계를 피하여 전체 시스템 아키텍처를 단순화할 수 있습니다
  2. 오류 전파: 캐스케이드 시스템은 오류 전파 문제가 존재하며, ASR 단계의 오류가 후속 번역 품질에 영향을 미칩니다
  3. LLM의 잠재력: 대규모 언어 모델은 자연어 작업에서 강력한 능력을 보여주지만, 다중 모달 작업에서의 응용은 여전히 탐색이 필요합니다

기존 방법의 한계

  1. 데이터 부족: 음성 번역의 병렬 훈련 데이터는 상대적으로 부족하며, 특히 저자원 언어의 경우 더욱 그렇습니다
  2. 모델 효율성: 기존 엔드-투-엔드 모델은 추론 속도와 모델 크기 측면에서 도전 과제가 있습니다
  3. 성능 격차: 엔드-투-엔드 모델은 일부 경우에 캐스케이드 시스템의 성능을 따라가기 어렵습니다

연구 동기

사전 훈련된 음성 인코더의 고품질 오디오 표현 능력과 LLM의 강력한 언어 처리 능력을 결합하여 ASR과 음성 번역 작업을 동시에 수행할 수 있는 엔드-투-엔드 아키텍처를 구축합니다.

핵심 기여

  1. 음성 기초 모델과 LLM을 통합하는 엔드-투-엔드 아키텍처 제안, 자동 음성 인식과 음성 번역 작업을 동시에 수행할 수 있습니다
  2. 효과적인 모달리티 적응 메커니즘 설계, CTC 폴딩과 컨볼루션 다운샘플링이라는 두 가지 길이 적응기를 포함합니다
  3. 영어-독일어 언어 쌍에서 SeamlessM4T를 능가하는 번역 성능 달성, Whisper+NLLB 캐스케이드 시스템의 성능에 근접합니다
  4. 상세한 실험 분석 제공, 다양한 LLM과 음성 인코더 조합의 효과를 비교합니다

방법 상세 설명

작업 정의

  • 입력: 소스 언어의 음성 신호
  • 출력: 소스 언어 전사 텍스트와 목표 언어 번역 텍스트를 동시에 생성
  • 제약: 엔드-투-엔드 훈련, 중간 감독 신호 불필요

모델 아키텍처

전체 아키텍처는 세 가지 주요 구성 요소를 포함합니다:

1. 음성 인코더 (Speech Encoder)

  • HuBERT: hubert-large-ls960-ft 변형 사용, LibriLight 60,000시간 데이터에서 훈련, LibriSpeech 960시간 데이터에서 미세 조정
  • Whisper 인코더: whisper-large-v3-turbo의 인코더 부분을 사용하여 오디오 숨겨진 특징 추출

2. 길이 적응기 (Length Adapter)

음성 특징 시퀀스가 LLM이 지원하는 최대 길이를 초과할 수 있으므로 압축이 필요합니다:

  • CTC 폴딩 (HuBERT용):
    • CTC 계층이 예측한 레이블 활용
    • 반복 레이블에 해당하는 벡터의 평균 병합
    • 시맨틱 정보를 유지하면서 시퀀스 길이를 효과적으로 압축
  • 컨볼루션 다운샘플링 (Whisper용):
    • kernel size=5, stride=5인 컨볼루션 계층 사용
    • 특징 시퀀스를 5배로 직접 다운샘플링

3. 프로젝션 계층 (Projection Layer)

  • 단일 계층 피드포워드 네트워크
  • 음성 인코더의 숨겨진 차원을 LLM의 임베딩 차원으로 매핑
  • 음성 표현이 LLM의 임베딩 공간에 효과적으로 통합되도록 보장

4. 대규모 언어 모델 (LLMs)

네 가지 다양한 사전 훈련된 LLM을 실험했습니다:

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

기술 혁신 포인트

  1. 통합 다중 작업 학습 프레임워크: 특수 구분자 토큰을 통해 ASR과 음성 번역의 동시 훈련 및 추론 구현
  2. 모달리티 적응 전략: 다양한 음성 인코더에 대해 전문화된 길이 압축 방법 설계
  3. 효율적인 미세 조정: QLoRA (양자화 저순위 적응) 기술을 사용한 매개변수 효율적 미세 조정

훈련 전략

데이터 형식

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

손실 계산

  • <>transcript<> 이후의 토큰에 대해서만 교차 엔트로피 손실 계산
  • 다음 토큰 예측 방식으로 훈련

추론 형식

<bos> <>audio<> {audio features} <>transcript<>

모델이 자동 회귀적으로 전사 및 번역 텍스트를 생성합니다.

실험 설정

데이터셋

  • 훈련 데이터: MuST-C v1.0 영어-독일어 부분집합, 약 400시간의 오디오 데이터
  • 테스트 데이터:
    • MuST-C tst-COMMON v2.0 및 v3.0
    • IWSLT'21 및 '22 오프라인 트랙 테스트 세트
    • LibriSpeech test-clean 및 test-other (ASR 평가용)

평가 지표

  • 음성 번역: BLEU, COMET22DA^{DA}_{22}, COMET22KIWIDA^{KIWI-DA}_{22}
  • 음성 인식: WER (단어 오류율)

비교 방법

  • 캐스케이드 시스템: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • 엔드-투-엔드 기준: SeamlessM4T (seamless-m4t-v2-large)

구현 세부사항

  • 미세 조정 방법: 4비트 QLoRA, bfloat16 정밀도
  • LoRA 매개변수: rank=8, alpha=8
  • 배치 크기: HuBERT 모델 1, Whisper 모델 2
  • 최적화기: AdamW, 학습률 1e-4, 코사인 스케줄러
  • 훈련 단계: HuBERT 모델 500,000단계, Whisper 모델 100,000단계

실험 결과

주요 결과

ASR 성능 (WER %)

모델MuST-C v2MuST-C v3IWSLT'22LibriSpeech cleanLibriSpeech other
Whisper6.77.711.84.17.2
Whisper enc. + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

음성 번역 성능 (BLEU 점수)

모델MuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
Whisper enc. + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

COMET 성능

최고 성능 모델(Whisper enc. + Gemma 2 9B)의 COMET22DA^{DA}_{22} 지표:

  • MuST-C v2: 84.22 (캐스케이드 시스템 83.00 대비)
  • MuST-C v3: 83.65 (캐스케이드 시스템 82.49 대비)
  • SeamlessM4T 대비 약 8% 향상

제거 실험 발견

  1. LLM 선택: Gemma 2 9B가 모든 테스트에서 최고 성능 달성
  2. 인코더 비교: Whisper 인코더가 일반적으로 HuBERT보다 우수
  3. 적응기 효과: CTC 폴딩과 컨볼루션 다운샘플링 모두 시퀀스 길이를 효과적으로 압축

실험 발견

  1. 엔드-투-엔드 vs 캐스케이드: 최고 성능 엔드-투-엔드 모델이 캐스케이드 시스템 성능에 근접하거나 초과
  2. 모델 규모: 더 큰 LLM (Gemma 2 9B)이 더 나은 성능 제공
  3. 음성 표현: 사전 훈련된 음성 인코더의 품질이 최종 성능에 직접 영향

관련 연구

음성 번역 연구 방향

  1. 캐스케이드 방식: 전통적인 ASR+MT 파이프라인, 여전히 현재 주류 방안
  2. 엔드-투-엔드 방식: 음성에서 목표 언어 텍스트로 직접 변환, 중간 표현 회피
  3. 다중 모달 LLM: LLM을 음성 등 다른 모달리티로 확장하는 최신 연구

본 논문의 관련 연구 대비 장점

  1. 통합 프레임워크: ASR과 음성 번역 작업을 동시에 처리, 단일 작업 최적화 아님
  2. 모듈식 설계: 다양한 음성 인코더와 LLM 구성 요소를 유연하게 교체 가능
  3. 실용성: 경쟁력 있는 성능을 유지하면서 엔드-투-엔드 솔루션 제공

결론 및 논의

주요 결론

  1. 사전 훈련된 음성 인코더와 LLM을 통합하는 엔드-투-엔드 아키텍처가 영어-독일어 음성 번역 작업에서 경쟁력 있는 성능 달성
  2. 최고 성능 모델이 SeamlessM4T를 능가할 뿐만 아니라 Whisper+NLLB 캐스케이드 시스템의 성능에 근접
  3. 모델이 ASR과 음성 번역 작업을 동시에 수행할 수 있어 통합 솔루션 제공

한계

  1. 데이터 제한: 영어-독일어 고자원 언어 쌍에서만 검증, 저자원 언어 효과 미지수
  2. 계산 효율성: 기준 모델 대비 추론 속도가 느리고 모델 규모가 큼
  3. ASR 성능: 음성 인식 작업에서 여전히 전문 Whisper 모델에 뒤짐
  4. 훈련 데이터: MuST-C 데이터셋이 상대적으로 작음(400시간), 모델 잠재력 제한 가능

향후 방향

  1. 언어 확장: 더 많은 언어 방향에서 효과 검증
  2. 모델 압축: 지식 증류 등 기술을 통한 모델 규모 감소
  3. 적응기 개선: Q-Former 등 더 고급 모달리티 적응 방법 시도
  4. 강화 학습: RL 기술 통합으로 성능 추가 최적화

심층 평가

장점

  1. 혁신적 아키텍처: 음성 기초 모델과 LLM의 장점을 효과적으로 결합
  2. 충분한 실험: 다양한 인코더와 LLM 조합의 체계적 비교
  3. 실용적 가치: 엔드-투-엔드 통합 솔루션 제공
  4. 기술 세부사항: 모달리티 적응 및 훈련 전략 상세 설명
  5. 개방성: 오픈소스 모델 사용으로 재현 용이

부족한 점

  1. 언어 범위: 영어-독일어 단일 언어 쌍만 검증, 일반화 제한적
  2. 계산 비용: 훈련 및 추론의 계산 오버헤드 상세 분석 부재
  3. 오류 분석: 모델 실패 사례에 대한 심층 분석 부족
  4. 이론적 분석: 이 아키텍처가 효과적인 이유에 대한 이론적 설명 부족
  5. 데이터 의존성: 훈련 데이터 규모에 대한 민감도 분석 불충분

영향력

  1. 학술 기여: 음성 번역 분야에 새로운 엔드-투-엔드 솔루션 제공
  2. 실용적 가치: 실제 다중언어 음성 처리 시스템에 적용 가능
  3. 재현성: 오픈소스 구성 요소 사용으로 후속 연구 용이
  4. 영감: 다중 모달 LLM 응용에 대한 가치 있는 탐색 제공

적용 시나리오

  1. 다중언어 회의: 실시간 음성 번역 및 전사
  2. 교육 플랫폼: 다중언어 온라인 강좌의 자동 자막 및 번역
  3. 고객 서비스: 교차 언어 음성 상호작용 시스템
  4. 미디어 처리: 오디오 콘텐츠의 자동 전사 및 번역

참고 문헌

논문은 음성 번역, 대규모 언어 모델, 다중 모달 학습 등 분야의 중요한 연구를 인용하고 있습니다:

  • Whisper (Radford et al., 2022): 강력한 음성 인식 기초 모델
  • SeamlessM4T (Communication et al., 2023): 다중 모달 번역 모델 기준
  • MuST-C (Cattoni et al., 2021): 표준 음성 번역 데이터셋
  • QLoRA (Dettmers et al., 2023): 매개변수 효율적 미세 조정 기술

본 논문은 음성 번역 분야에서 유망한 엔드-투-엔드 솔루션을 제시하며, 일부 측면에서 개선 여지가 있지만 다중 모달 LLM의 응용에 대한 가치 있는 탐색과 실증적 결과를 제공합니다.