2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.
CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
academic

CJST: CTC Compressor 기반 디코더 전용 ASR을 위한 음성-텍스트 결합 훈련

기본 정보

  • 논문 ID: 2411.07607
  • 제목: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
  • 저자: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
  • 분류: eess.AS cs.LG cs.SD
  • 발표 시간: 2024년 11월 (arXiv 프리프린트)
  • 논문 링크: https://arxiv.org/abs/2411.07607

초록

CTC compressor는 오디오 인코더를 디코더 전용 모델에 통합하는 효과적인 방법으로서 다양한 음성 응용 분야에서 점점 더 많은 관심을 받고 있습니다. 본 논문은 디코더 전용 ASR을 위한 CTC compressor 기반의 새로운 음성-텍스트 결합 훈련(CJST) 프레임워크를 제안합니다. CJST는 간단한 모달리티 어댑터와 CTC compressor의 여러 특성(시퀀스 압축, 온라인 강제 피크 정렬, CTC 클래스 임베딩 포함)을 활용하여 음성과 텍스트 모달리티를 양방향으로 매칭합니다. Librispeech와 TED-LIUM2 코퍼스에서의 실험 결과는 제안된 CJST가 지속 시간 처리 없이 효과적인 텍스트 주입을 달성하며, 도메인 내 및 도메인 간 시나리오에서 최고 성능을 달성함을 보여줍니다.

연구 배경 및 동기

문제 정의

대규모 언어 모델(LLM)의 거대한 성공에 따라 디코더 전용 아키텍처가 다양한 음성 응용 분야에 광범위하게 적용되고 있습니다. 그러나 음성 정보를 디코더 전용 모델에 효과적으로 통합하는 방법과 ASR 성능을 향상시키기 위한 음성-텍스트 결합 훈련을 수행하는 방법은 여전히 도전적인 문제입니다.

연구 동기

  1. 통합 과제: 연속적인 음향 임베딩을 디코더 전용 모델에 효과적으로 통합하려면 적절한 어댑터 방법이 필요합니다
  2. 모달리티 매칭: 음성과 텍스트 모달리티는 시퀀스 길이와 표현 공간에서 현저한 차이가 있으며, 효과적인 정렬 메커니즘이 필요합니다
  3. 텍스트 주입: 프로덕션 수준의 ASR 모델에서 외부 언어 모델을 사용하지 않고 텍스트 데이터를 효과적으로 활용하여 성능을 향상시키는 방법

기존 방법의 한계

  1. 단순 어댑터: 전통적인 시간 축소 계층 + 선형 투영 방법은 내용 인식 압축 능력이 부족합니다
  2. RNN-T 방법: 기존 결합 훈련 방법은 주로 RNN-T 모델을 대상으로 하며 복잡한 지속 시간 처리가 필요합니다
  3. CTC compressor 민감성: 기존 CTC compressor 방법은 노이즈 데이터에서 불안정한 성능을 보입니다

핵심 기여

  1. CJST 프레임워크 제안: CTC compressor 기반의 새로운 음성-텍스트 결합 훈련 프레임워크로 양방향 모달리티 매칭을 구현합니다
  2. CTC compressor 확장: CTC compressor의 다양한 압축 모드, 경계 사례 처리, 깨끗한/노이즈 데이터에서의 동작에 대한 포괄적인 연구
  3. 지속 시간 처리 불필요: 온라인 강제 피크 정렬과 CTC 클래스 임베딩을 통해 복잡한 지속 시간 모델링 없이 효과적인 텍스트 주입을 구현합니다
  4. 성능 향상: 도메인 내 및 도메인 간 시나리오에서 최고 성능을 달성하며, 기준선 대비 약 6%의 상대적 개선을 실현합니다

방법론 상세 설명

작업 정의

본 논문은 디코더 전용 아키텍처의 자동 음성 인식 작업을 연구하며, 입력은 음성 특성 시퀀스이고 출력은 해당하는 텍스트 전사입니다. 동시에 쌍을 이룬 음성-텍스트 데이터와 순수 텍스트 데이터를 활용한 결합 훈련 방법을 고려합니다.

확장된 CTC Compressor

압축 모드

논문은 네 가지 CTC compressor 압축 모드를 연구합니다:

  1. 공백 예측 제거: 탐욕적 CTC 예측을 기반으로 모든 공백 프레임을 제거합니다
  2. 동일 예측 평균: 동일한 예측의 인접 프레임을 평균화합니다
  3. 공백 확률 제거: 공백 확률이 미리 정의된 임계값보다 높은 모든 프레임을 제거합니다
  4. 결합 모드: 먼저 공백 확률 제거를 적용한 후 동일 예측 평균을 적용합니다

경계 사례 처리

CTC compressor가 빈 출력을 생성할 수 있는 문제를 해결하기 위해 두 가지 솔루션을 제안합니다:

  • Empty Skip: 훈련 중 이러한 발화를 건너뛰고, 추론 시 직접 EOS를 출력합니다
  • Empty Fallback: 모든 인코더 출력을 단일 프레임으로 평균화한 후 정상적으로 훈련 및 추론을 진행합니다

임베딩 공유

CTC 클래스 임베딩과 텍스트 임베딩의 공유 메커니즘을 탐색하며, CTC 목적 함수를 통해 오디오 인코더 출력을 텍스트 임베딩에 더 가깝게 만듭니다.

CJST 프레임워크

쌍을 이룬 데이터 처리

쌍을 이룬 음성-텍스트 데이터의 경우:

  1. 모델 전방 전파를 통해 일반적인 ASR 훈련을 수행합니다
  2. 압축된 음향 임베딩 h'과 CTC 확률을 활용하여 강제 피크 정렬을 수행합니다
  3. MSE 손실을 통해 모달리티 어댑터를 훈련하여 h'을 의사 음향 임베딩 h'_text와 정렬합니다

순수 텍스트 데이터 처리

순수 텍스트 데이터의 경우:

  1. 기록된 길이 비율 R_len(h', y)을 기반으로 무작위로 공백 기호를 삽입합니다
  2. CTC 임베딩과 모달리티 어댑터를 통해 의사 음향 프롬프트 h'_text를 생성합니다
  3. ASR 목적 함수를 사용하여 디코더 모델을 훈련합니다
  4. h'_text에 20%의 무작위 마스킹을 적용하여 학습 난이도를 유지합니다

모달리티 어댑터

단일 주의 헤드, 컨볼루션 커널 크기 3을 포함하는 간단한 Conformer 계층을 모달리티 어댑터로 사용하며, 피드포워드 모듈의 차원 확대는 수행하지 않습니다.

실험 설정

데이터셋

  1. Librispeech: 960시간의 깨끗한 음성 데이터
  2. 내부 데이터: 2M시간의 다양한 음향 조건 데이터로, 속도 교란, 모의 반향 및 무작위 배경 노이즈를 포함합니다
  3. 텍스트 데이터: Librispeech 및 TED-LIUM2의 LM 훈련 텍스트 데이터

모델 구성

  • 디코더: 12층 LLaMA 디코더, 768 숨겨진 차원, 12개 주의 헤드
  • 오디오 인코더: 24층 Conformer, 512 숨겨진 차원, 8개 주의 헤드
  • 어휘: 각 데이터셋에 대해 4k SentencePiece 단위 사용

훈련 전략

  • 오디오 인코더 사전 훈련: 200k 스텝
  • 전체 모델 훈련: Librispeech 200k 스텝, 내부 데이터 500k 스텝
  • 결합 훈련에서 음성 및 텍스트 손실 가중치: 각각 1.0
  • 보조 CTC 손실 가중치: 0.5

평가 지표

단어 오류율(WER)을 주요 평가 지표로 사용하며, 테스트 세트에서 성능을 보고합니다.

실험 결과

CTC Compressor 종합 평가

Librispeech 결과 (표 I)

  • 모든 CTC compressor 방법이 단순 어댑터 방법을 능가합니다
  • 공백 확률 제거(임계값 0.95)가 최고 성능: test-clean 2.17%, test-other 4.94%
  • 임베딩 공유는 일부 경우에 도움이 되지만 충분히 일관성 있지 않습니다

내부 데이터 결과 (표 II)

  • 탐욕적 예측 기반 방법은 노이즈 데이터에서 성능이 저하됩니다
  • 공백 확률 제거(임계값 0.95)가 가장 견고함: 12.85% WER
  • Empty fallback 방안이 empty skip 방안보다 우수합니다

결합 훈련 결과

처음부터 훈련 (표 III)

Librispeech에서의 결과:

  • 기준선 어댑터: test-clean 3.38%, test-other 5.63%
  • LM 유사 텍스트 주입: test-clean 2.54%, test-other 5.26%
  • CJST: test-clean 2.09%, test-other 4.71%

계속 훈련 (표 IV)

도메인 내 및 도메인 간 텍스트 데이터 사용:

  • CJST가 모든 시나리오에서 최고 성능을 달성합니다
  • 도메인 간 TED-LIUM2 테스트 세트: 11.45%에서 **10.14%**로 감소
  • 기준선 대비 약 6%의 상대적 개선을 실현합니다

주요 발견

  1. 공백 확률 제거가 가장 견고한 압축 모드입니다
  2. LM 유사 훈련이 이미 상당히 효과적이며 강력한 기준선입니다
  3. CJST가 모든 시나리오에서 추가적인 개선을 제공합니다
  4. CTC compressor는 데이터 품질에 민감하며 적절한 구성이 필요합니다

관련 연구

디코더 전용 음성 모델

  • 초기 연구는 간단한 어댑터를 사용하여 오디오 인코더를 통합합니다
  • 최근 연구는 이산 오디오 토큰 방법을 탐색합니다
  • 본 논문은 연속 표현의 ASR 작업에 중점을 둡니다

CTC Compressor

  • 원래 음성 번역을 위한 주의 메커니즘에 사용되었습니다
  • 디코더 전용 모델의 음성 번역으로 확장되었습니다
  • 본 논문은 ASR에서의 적용을 처음으로 체계적으로 연구합니다

음성-텍스트 결합 훈련

  • 전통적인 방법은 주로 RNN-T 모델을 대상으로 합니다
  • JOIST, textogram, MAESTRO 등의 방법을 포함합니다
  • 본 논문은 디코더 전용 ASR을 위한 효과적인 솔루션을 처음으로 제안합니다

결론 및 논의

주요 결론

  1. CJST 프레임워크 효과성: 양방향 모달리티 매칭을 통해 효과적인 텍스트 주입을 구현합니다
  2. CTC compressor 구성의 중요성: 공백 확률 제거(높은 임계값)가 가장 견고합니다
  3. 지속 시간 처리 불필요: 강제 정렬과 CTC 임베딩을 통해 복잡한 지속 시간 모델링을 피합니다
  4. 일관된 개선: 도메인 내 및 도메인 간 시나리오에서 현저한 향상을 달성합니다

한계

  1. 계산 오버헤드: 온라인 강제 정렬은 훈련 중 계산 비용을 증가시킵니다
  2. 데이터 의존성: CTC compressor의 성능은 데이터 품질에 크게 의존합니다
  3. 매개변수 민감성: 공백 확률 임계값 등 여러 하이퍼파라미터를 신중하게 조정해야 합니다
  4. 평가 범위: 주로 영어 데이터에서 평가되었으며, 다국어 일반화 가능성은 미지수입니다

향후 방향

  1. 더 효율적인 온라인 정렬 방법 탐색
  2. 다국어 및 저자원 시나리오에서의 성능 연구
  3. 이산 오디오 토큰의 하이브리드 방법 결합
  4. CTC compressor의 견고성 최적화

심층 평가

장점

  1. 방법론 혁신: CTC compressor를 디코더 전용 ASR의 음성-텍스트 결합 훈련에 처음으로 적용합니다
  2. 체계적 연구: CTC compressor에 대한 포괄적인 실험 분석을 수행합니다
  3. 실용적 가치: 지속 시간 처리가 불필요하여 구현 복잡도를 단순화합니다
  4. 충분한 실험: 여러 데이터셋과 시나리오에서 방법의 효과성을 검증합니다
  5. 명확한 작성: 논문 구조가 명확하고 기술 세부 사항이 상세하게 설명되어 있습니다

부족한 점

  1. 이론 분석 부족: CJST가 효과적인 이유에 대한 심층적인 이론 분석이 부족합니다
  2. 계산 비용: 훈련 및 추론 시 계산 오버헤드에 대한 상세한 분석이 없습니다
  3. 하이퍼파라미터 민감성: 방법은 여러 하이퍼파라미터를 포함하며 조정 복잡도가 높습니다
  4. 평가 한계: 주로 영어 데이터에서 평가되었으며 다국어 검증이 부족합니다

영향력

  1. 학술 기여: 디코더 전용 ASR의 텍스트 주입에 새로운 사고를 제공합니다
  2. 실용적 가치: 방법이 상대적으로 간단하여 프로덕션 환경에 배포하기 용이합니다
  3. 재현성: 상세한 구현 세부 사항과 하이퍼파라미터 설정을 제공합니다
  4. 영감: CTC compressor의 추가 연구에 가치 있는 통찰력을 제공합니다

적용 시나리오

  1. 프로덕션 수준 ASR: 외부 언어 모델을 사용할 수 없는 시나리오에 적합합니다
  2. 도메인 간 적응: 특히 새로운 도메인에 빠르게 적응해야 하는 응용 분야에 적합합니다
  3. 자원 제약: 복잡한 지속 시간 모델링 방법보다 더 효율적입니다
  4. 결합 훈련: 텍스트 데이터가 풍부하지만 음성 데이터가 상대적으로 제한적인 시나리오에 적합합니다

참고 문헌

논문은 32개의 관련 참고 문헌을 인용하며, 대규모 언어 모델, 디코더 전용 아키텍처, CTC 방법, 음성 인식 및 결합 훈련 등 여러 관련 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 창의적인 CJST 프레임워크를 제안하여 디코더 전용 ASR에서 음성-텍스트 결합 훈련의 중요한 문제를 해결하는 고품질의 기술 논문입니다. 논문의 실험 설계는 충분하며 결과는 설득력 있고, 해당 분야에 중요한 학술적 및 실용적 가치를 가집니다.