2025-11-13T12:49:11.039710

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning

Nagpal, Venugopalan, Tobin et al.

We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.

academic

강화학습을 이용한 장애 음성에 적응된 LLM 기반 음성 인식

기본 정보

논문 ID: 2501.00039
제목: Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
저자: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek (Google Research)
분류: eess.AS cs.CL cs.LG cs.SD
발표 시간: 2024년 12월 25일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00039

초록

본 논문은 음성 입력을 처리할 수 있는 대규모 언어 모델(LLM)을 제안하며, 인간 선호도 기반 강화학습(RLHF)을 통한 추가 미세조정이 기존 미세조정보다 장애 음성에 더 잘 적응할 수 있음을 보여줍니다. 본 방법은 LLM 어휘표의 저빈도 텍스트 토큰을 오디오 토큰으로 대체하고, 음성 전사 데이터에 대한 미세조정을 통해 모델이 음성을 인식할 수 있도록 합니다. 이후 구문 및 의미 정확성 메트릭을 기반으로 한 강화학습 보상을 사용하여 LLM을 추가로 일반화하여 장애 음성을 인식합니다. 결과 모델이 음성 인식에서 기존 시스템을 초과하지는 못했지만, 연구에서는 사용자 정의 보상을 사용한 강화학습 미세조정이 다양한 설정의 음성에 적응할 때 언어 모델의 감독 미세조정보다 성능이 현저히 우수함을 발견했습니다.

연구 배경 및 동기

문제 정의

본 연구는 두 가지 핵심 문제를 해결합니다:

기존 LLM이 음성 입력을 처리하고 음성 인식을 수행하도록 하는 방법
LLM 기반 ASR 시스템을 장애 음성 인식 작업에 효과적으로 적응시키는 방법

중요성

다중모달 능력 확장: LLM의 오디오 처리 능력을 강화하면서 언어 이해 능력을 유지하는 것은 음성 제어 자동화 애플리케이션에 중요합니다
접근성 기술: 음성 장애가 있는 개인의 경우, 시각 및 텍스트 맥락을 결합할 수 있는 음성 인식 기술은 특별한 사회적 가치를 가집니다
저자원 시나리오 적응: 장애 음성과 같은 저자원 시나리오에서의 모델 적응은 중요한 기술적 과제입니다

기존 방법의 한계

아키텍처 수정의 복잡성: 대부분의 기존 작업은 LLM 아키텍처 수정 또는 음성 인코더를 사용한 임베딩 추출이 필요합니다
어휘표 확장 비용: 일부 방법은 오디오를 처리하기 위해 LLM 어휘표를 확장하여 계산 비용을 증가시킵니다
평가 지표의 한계: 기존 ASR 시스템은 주로 WER 등 구문 지표에 의존하며, 의미 보존 측면에서 평가가 부족합니다
장애 음성 적응의 어려움: 기존 미세조정 방법은 장애 음성 적응 시 효과가 제한적입니다

핵심 기여

아키텍처 수정이 필요 없는 LLM 음성 인식 방법 제안: 오디오 토큰을 기존 어휘표의 저빈도 텍스트 토큰에 매핑하여 아키텍처 수정을 회피합니다
RLHF 기반 ASR 도메인 적응 전략 도입: WER 및 의미 보존(MP) 점수의 조합 보상을 사용한 강화학습 최적화
장애 음성 인식에서 현저한 개선 달성: 감독 미세조정 대비 RLHF 방법이 Euphonia 데이터셋에서 현저한 성능 개선을 달성합니다
의미 보존 평가의 새로운 관점 제공: 구문 정확성(WER)과 의미 정확성(MP)을 결합한 종합 평가

방법론 상세 설명

작업 정의

입력: 원본 오디오 신호 출력: 해당 텍스트 전사 제약: LLM의 원래 아키텍처 유지, 장애 음성 도메인으로의 적응

모델 아키텍처

1단계: LLM 음성 인식 능력 구축

오디오 토큰화 및 이산화:

USM 음성 인코더(w2v-BERT 학습과 유사)를 사용하여 25Hz 빈도로 토큰 생성
중간층(16번째 층)에서 임베딩을 추출하고 1024개 클러스터로 클러스터링
오디오 임베딩을 가장 가까운 클러스터 중심 ID에 매핑

어휘표 재매핑:

1024개의 오디오 클러스터 ID를 LLM 어휘표의 마지막 1024개 저빈도 텍스트 토큰에 매핑
저빈도 토큰 선택의 동기: 이들은 일반적으로 다국어 또는 유니코드 문자이며 오디오 토큰으로 재사용될 수 있습니다
ASR 데이터에 대한 표준 감독 미세조정 사용, 입력은 이산화된 오디오 토큰, 출력은 텍스트 전사

2단계: RLHF 기반 도메인 적응

보상 함수 설계:

R(x,y;y*) = γ · MP(y,y*) + ln(1 - WER(y,y*))

여기서:

x: 원본 입력
y: 예측 전사
y*: 참 전사
γ: WER과 MP 점수를 조절하는 하이퍼파라미터
MP: 의미 보존 점수
WER: 단어 오류율

의미 보존 보상 모델:

Gemma-2B를 의미 보존 이진 분류 작업에 대해 학습
2840개의 예측-참 전사 쌍에 대해 교차 엔트로피 손실을 사용하여 학습
테스트 세트에서 0.87 AUC 달성(16의 0.89 AUC와 비교)

강화학습 최적화:

PPO(Proximal Policy Optimization) 사용
그래디언트 클리핑 및 KL 정규화 적용
다양한 γ 값 실험을 통해 최적 체크포인트 선택

기술 혁신 포인트

아키텍처 수정 없는 오디오 처리: 기존 어휘표 재사용을 통해 복잡한 아키텍처 수정 회피
다중 목표 보상 함수: 구문(WER)과 의미(MP) 정확성을 결합하여 보상 해킹 방지
점진적 학습 전략: 먼저 혼합 데이터에 대한 감독 미세조정, 이후 RLHF를 통한 도메인 적응
의미 보존 평가: 인간 선호도 기반 의미 평가 지표 도입

실험 설정

데이터셋

LibriSpeech:
- 1000시간의 표준 음성 데이터
- 영어 오디오북의 깨끗한 환경 단일 화자 녹음
- 검증을 위해 dev-clean 분할 사용
Euphonia:
- 100만 개 이상의 장애 음성 발화(~1000시간)
- 1246명의 서로 다른 음성 장애 화자로부터
- 학습 세트: 900k+ 발화, 테스트 세트: 5699 발화(200명 화자), 검증 세트: 343 발화(24명 화자)
- 언어 병리학자가 표시한 심각도 레이블 포함

평가 지표

WER (Word Error Rate): 단어 오류율, 구문 정확성 지표
MP (Meaning Preservation): 의미 보존 점수, LLM을 사용하여 예측 전사가 원래 의미를 보존하는지 판단

비교 방법

Librispeech Only: LibriSpeech에서만 학습
30:70 mixture: 30% Euphonia + 70% LibriSpeech 혼합 학습
Continued SFT: 장애 음성에 대한 계속된 감독 미세조정
RLHF variants: 다양한 γ 값의 강화학습 방법

구현 세부사항

기본 모델: Gemma 2B (256k 어휘표)
학습률: 5×10^-6, 코사인 감쇠
최적화기: Adam
입력 드롭아웃: 5×10^-2
오디오 클러스터링: LibriSpeech 기반 1024개 클러스터 학습

실험 결과

주요 결과

감독 미세조정 단계:

데이터 혼합 비율	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
LibriSpeech Only	70.9	39.0	17.1
30:70 mixture	50.4	48.2	17.2

30:70 혼합 비율은 장애 음성에서 현저한 개선을 달성하면서 표준 음성에서 성능을 유지합니다.

RLHF 적응 결과:

미세조정 전략	Euphonia Test WER↓	Euphonia Test MP↑	LibriSpeech Dev WER↓
Base SFT model	50.4	48.2	17.2
Continued SFT	57.1	42.8	22.9
RLHF (γ=0.00)	41.0	50.4	20.2
RLHF (γ=1.00)	42.6	55.7	22.0

절제 실험

다양한 γ 값의 영향:

γ=0.00 (WER만): WER이 가장 낮지만 MP 점수는 낮음
γ=0.25-0.50: WER과 MP의 균형점
γ=1.00: MP 점수가 가장 높고, WER은 약간 증가하지만 통계적으로 유의하지 않음(p=0.54)

심각도 분석: RLHF 모델은 모든 심각도 수준에서 MP 점수의 개선을 보여주며, 중등도 및 중증 장애 음성에서 개선이 더욱 두드러집니다.

사례 분석

참 전사	심각도	RLHF(γ=0.0)	WER	RLHF(γ=1.0)	WER
"not so good today"	MILD	"not so good to the."	0.5	"not so good to day."	0.5
"every one of my family listens to music"	MODERATE	"every once in my frame and listen to music"	0.62	"everybody in my family listens to music"	0.38
"dancing is so much fun"	MODERATE	"that's so much fun."	0.40	"dancing so much fun."	0.20

인간 평가

220개 샘플의 인간 평가에서:

평균 의미 보존 평가: γ=0.0 모델 29.10%, γ=1.0 모델 40.45%
모델 평가와의 상관성: Spearman 상관계수는 각각 0.684 및 0.639로 통계적으로 유의함

결론 및 논의

주요 결론

RLHF가 감독 미세조정을 크게 능가: 장애 음성 적응 작업에서 RLHF 방법이 계속된 감독 미세조정보다 현저한 개선을 달성합니다
다중 목표 보상의 효과성: WER과 MP를 결합한 보상 함수는 구문 및 의미 정확성 간의 좋은 균형을 달성할 수 있습니다
의미 보존의 중요성: 장애 음성 인식에서 의미 보존은 엄격한 단어 일치보다 더 중요합니다

한계

전체 성능 제한: 이 LLM 방법은 기존 전문 ASR 시스템을 초과하지 못합니다
계산 자원 요구: RLHF 학습은 추가 계산 자원 및 학습 시간이 필요합니다
언어 제한: 실험은 영어에서만 수행되었으며, 다국어 적용 가능성은 검증되지 않았습니다
모델 규모 제한: Gemma 2B에서만 실험했으며, 더 큰 모델의 효과는 미지수입니다

향후 방향

더 큰 모델 검증: 더 큰 규모의 LLM에서 방법의 효과성 검증
다국어 확장: 다른 언어의 장애 음성 인식으로 방법 확장
오디오 이산화 개선: 더 나은 오디오 토큰 이산화 전략 개발
다중 보상 신호 융합: 더 많은 보상 신호를 결합할 가능성 탐색

심층 평가

장점

방법의 혁신성이 강함: LLM 아키텍처 수정이 필요 없는 오디오 처리 방법은 실용적 가치가 있습니다
실험 설계가 완벽함: 감독 미세조정에서 RLHF로의 점진적 학습 전략이 합리적입니다
평가 체계가 포괄적: 구문 및 의미 지표를 결합하고 인간 평가 검증 포함
사회적 가치가 현저함: 장애 음성 연구는 중요한 사회적 의미를 가집니다

부족한 점

성능 향상이 제한적: 상대적 개선은 현저하지만 절대 성능은 여전히 개선 여지가 있습니다
계산 효율 문제: 직접 미세조정 대비 RLHF 방법의 계산 비용이 더 높습니다
일반화 검증 부족: 두 개의 데이터셋에서만 검증되었으며, 일반화 가능성은 추가 검증이 필요합니다
이론적 분석 부재: RLHF가 이 작업에서 더 효과적인 이유에 대한 이론적 설명이 부족합니다

영향력

기술 기여: LLM의 음성 인식 작업 적용에 새로운 사고방식 제공
응용 가치: 접근성 기술 발전을 위한 가치 있는 기술 경로 제공
연구 영감: 전문 도메인 적응에서 RLHF의 잠재력 시연

적용 시나리오

장애 음성 보조: 음성 장애인을 위한 보조 통신 시스템에 적용 가능
다중모달 대화 시스템: 음성과 텍스트를 동시에 처리해야 하는 애플리케이션에 적합
저자원 음성 인식: 학습 데이터가 부족한 특수 음성 도메인에 참고 가치 있음

참고문헌

논문은 LLM 다중모달 확장, 음성 인식, 강화학습 등 여러 분야의 중요한 작업을 포함한 35개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 본 논문은 기술 혁신과 사회적 가치 측면에서 모두 중요한 의미를 가지며, 제안된 아키텍처 수정이 필요 없는 LLM 음성 인식 방법과 RLHF 도메인 적응 전략은 관련 연구에 새로운 사고방식을 제공합니다. 절대 성능에서는 여전히 개선 여지가 있지만, 장애 음성 인식이라는 중요한 응용 시나리오에서의 현저한 개선은 본 방법의 실용적 가치를 보여줍니다.