2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.

CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.

academic

CJST: CTC Compressor 기반 디코더 전용 ASR을 위한 음성-텍스트 결합 훈련

기본 정보

논문 ID: 2411.07607
제목: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
저자: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
분류: eess.AS cs.LG cs.SD
발표 시간: 2024년 11월 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2411.07607

초록

CTC compressor는 오디오 인코더를 디코더 전용 모델에 통합하는 효과적인 방법으로서 다양한 음성 응용 분야에서 점점 더 많은 관심을 받고 있습니다. 본 논문은 디코더 전용 ASR을 위한 CTC compressor 기반의 새로운 음성-텍스트 결합 훈련(CJST) 프레임워크를 제안합니다. CJST는 간단한 모달리티 어댑터와 CTC compressor의 여러 특성(시퀀스 압축, 온라인 강제 피크 정렬, CTC 클래스 임베딩 포함)을 활용하여 음성과 텍스트 모달리티를 양방향으로 매칭합니다. Librispeech와 TED-LIUM2 코퍼스에서의 실험 결과는 제안된 CJST가 지속 시간 처리 없이 효과적인 텍스트 주입을 달성하며, 도메인 내 및 도메인 간 시나리오에서 최고 성능을 달성함을 보여줍니다.

연구 배경 및 동기

문제 정의

대규모 언어 모델(LLM)의 거대한 성공에 따라 디코더 전용 아키텍처가 다양한 음성 응용 분야에 광범위하게 적용되고 있습니다. 그러나 음성 정보를 디코더 전용 모델에 효과적으로 통합하는 방법과 ASR 성능을 향상시키기 위한 음성-텍스트 결합 훈련을 수행하는 방법은 여전히 도전적인 문제입니다.

연구 동기

통합 과제: 연속적인 음향 임베딩을 디코더 전용 모델에 효과적으로 통합하려면 적절한 어댑터 방법이 필요합니다
모달리티 매칭: 음성과 텍스트 모달리티는 시퀀스 길이와 표현 공간에서 현저한 차이가 있으며, 효과적인 정렬 메커니즘이 필요합니다
텍스트 주입: 프로덕션 수준의 ASR 모델에서 외부 언어 모델을 사용하지 않고 텍스트 데이터를 효과적으로 활용하여 성능을 향상시키는 방법

기존 방법의 한계

단순 어댑터: 전통적인 시간 축소 계층 + 선형 투영 방법은 내용 인식 압축 능력이 부족합니다
RNN-T 방법: 기존 결합 훈련 방법은 주로 RNN-T 모델을 대상으로 하며 복잡한 지속 시간 처리가 필요합니다
CTC compressor 민감성: 기존 CTC compressor 방법은 노이즈 데이터에서 불안정한 성능을 보입니다

핵심 기여

CJST 프레임워크 제안: CTC compressor 기반의 새로운 음성-텍스트 결합 훈련 프레임워크로 양방향 모달리티 매칭을 구현합니다
CTC compressor 확장: CTC compressor의 다양한 압축 모드, 경계 사례 처리, 깨끗한/노이즈 데이터에서의 동작에 대한 포괄적인 연구
지속 시간 처리 불필요: 온라인 강제 피크 정렬과 CTC 클래스 임베딩을 통해 복잡한 지속 시간 모델링 없이 효과적인 텍스트 주입을 구현합니다
성능 향상: 도메인 내 및 도메인 간 시나리오에서 최고 성능을 달성하며, 기준선 대비 약 6%의 상대적 개선을 실현합니다