Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
Nagpal, Venugopalan, Tobin et al.
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.
본 논문은 음성 입력을 처리할 수 있는 대규모 언어 모델(LLM)을 제안하며, 인간 선호도 기반 강화학습(RLHF)을 통한 추가 미세조정이 기존 미세조정보다 장애 음성에 더 잘 적응할 수 있음을 보여줍니다. 본 방법은 LLM 어휘표의 저빈도 텍스트 토큰을 오디오 토큰으로 대체하고, 음성 전사 데이터에 대한 미세조정을 통해 모델이 음성을 인식할 수 있도록 합니다. 이후 구문 및 의미 정확성 메트릭을 기반으로 한 강화학습 보상을 사용하여 LLM을 추가로 일반화하여 장애 음성을 인식합니다. 결과 모델이 음성 인식에서 기존 시스템을 초과하지는 못했지만, 연구에서는 사용자 정의 보상을 사용한 강화학습 미세조정이 다양한 설정의 음성에 적응할 때 언어 모델의 감독 미세조정보다 성능이 현저히 우수함을 발견했습니다.
논문은 LLM 다중모달 확장, 음성 인식, 강화학습 등 여러 분야의 중요한 작업을 포함한 35개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가: 본 논문은 기술 혁신과 사회적 가치 측면에서 모두 중요한 의미를 가지며, 제안된 아키텍처 수정이 필요 없는 LLM 음성 인식 방법과 RLHF 도메인 적응 전략은 관련 연구에 새로운 사고방식을 제공합니다. 절대 성능에서는 여전히 개선 여지가 있지만, 장애 음성 인식이라는 중요한 응용 시나리오에서의 현저한 개선은 본 방법의 실용적 가치를 보여줍니다.