2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL: 언어 모델에게 자신이 아는 것을 알도록 가르치기

기본 정보

논문 ID: 2510.11407
제목: KnowRL: Teaching Language Models to Know What They Know
저자: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
분류: cs.CL cs.AI
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11407

초록

진정으로 신뢰할 수 있는 AI는 지식 규모를 확장하는 것뿐만 아니라 "자신이 무엇을 알고 있으며 언제 모르는지 알 수 있는" 능력을 갖춰야 한다. 연구에 따르면 최고 수준의 대규모 언어 모델(LLM)도 5분의 1 이상의 경우에서 자신의 능력을 잘못 판단하며, 이는 내재적 불확실성에 기반한 응답을 완전히 신뢰할 수 없게 만든다. 최소한의 데이터가 필요한 자기 개선 강화학습 기법에서 영감을 받아, 본 논문은 모델이 자신의 실행 가능성 경계에 대한 내재적 이해를 강화함으로써 더욱 안전하고 책임감 있는 행동을 구현하는 KnowRL 프레임워크를 제안한다. 이 프레임워크는 두 가지 구성 요소를 결합한다: (i) 내성 메커니즘으로, 모델이 실행 가능하거나 실행 불가능하다고 생각하는 작업을 생성하고 분류하며; (ii) 내부 일관성을 통해 자기 지식 평가의 안정성을 강화하는 합의 기반 보상 메커니즘. 내부 생성 데이터를 사용함으로써 비용이 많이 드는 외부 감독을 완전히 회피한다. LLaMA-3.1-8B 및 Qwen-2.5-7B에서의 실험은 KnowRL이 자기 지식 능력을 지속적으로 향상시키며, 정확도는 최대 28%, F1 점수는 12% 향상됨을 보여준다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 대규모 언어 모델(LLM)의 자기 지식(self-knowledge) 부족이다. 즉, 모델이 자신의 능력 경계를 정확히 인식하지 못하고, 어떤 작업이 실행 가능한지 불가능한지를 명확히 구분하지 못한다는 것이다.

문제의 중요성

안전성 우려: 연구에 따르면 선도적인 LLM도 20% 이상의 경우에서 자신의 능력을 잘못 판단하며, 이는 심각한 신뢰 및 안전 문제를 야기한다
배포 위험: 의료, 법률, 금융 등 중요 분야에서 모델의 과도한 자신감이나 부족한 자신감은 심각한 결과를 초래할 수 있다
신뢰성 요구: 진정으로 신뢰할 수 있는 AI 시스템은 메타인지 능력을 갖춰야 하며, 자신의 지식 한계를 인식할 수 있어야 한다

기존 방법의 한계

외부 데이터베이스 및 스캐폴딩 기술은 이러한 내재적 결함을 해결하기에 적합하지 않다
신뢰도 보정은 답변이 잘못될 가능성을 나타낼 수 있지만, 모델이 자신이 정말 알고 모르는 것에 대해 일관성을 유지하도록 보장하지 못한다
체계적 방법 부재: 모델의 자기 지식 경계를 강화하는 체계적 접근 방식이 없다

연구 동기

저자들은 LLM이 내재적으로 이미 내성 능력을 갖추고 있으며, 강화학습을 통해 이러한 잠재 능력을 유도하고 강화하여 모델이 자신의 지식 경계를 더 잘 이해하고 표현할 수 있도록 해야 한다고 믿는다.

핵심 기여

KnowRL 프레임워크 제안: 제한된 초기 데이터와 외부 감독 없이 LLM의 자기 지식 경계 인식을 향상시킬 수 있는 강화학습 기반 자기 지식 강화 프레임워크
혁신적인 이중 구성 요소 설계:
- 내성 메커니즘: LLM이 실행 가능하거나 실행 불가능하다고 생각하는 문제를 생성
- 합의 기반 보상 메커니즘: 내부 일관성을 통해 안정적이고 신뢰할 수 있는 보상 신호 생성
현저한 성능 향상: 단 몇 번의 반복 만에 정확도 28% 향상 및 F1 점수 12% 향상을 달성하여 확장 가능한 자기 개선 능력을 입증
실용성 및 확장성: 방법이 간단하고 외부 자원에 독립적이며, 모든 향후 모델의 신뢰성 향상에 적용 가능

방법 상세 설명

작업 정의

자기 지식 작업은 모델이 자신의 능력과 지식 경계에 대한 이해를 바탕으로 실행 가능한 작업과 불가능한 작업을 명확히 구분할 수 있는 능력으로 정의된다. 입력은 작업 설명이고, 출력은 "실행 가능" 또는 "실행 불가능"의 이진 분류 판단이며, 제약 조건은 판단이 모델의 실제 능력 경계를 기반으로 해야 한다는 것이다.

모델 아키텍처

전체 프레임워크

KnowRL 프레임워크는 두 가지 핵심 구성 요소를 포함하는 반복적인 강화학습 훈련 루프를 채택한다:

![Framework](그림 2에 표시된 KnowRL 프레임워크)

1. 내성 메커니즘(Introspection)

기능: 모델이 실행 가능하거나 실행 불가능하다고 생각하는 작업을 자율적으로 생성
구현: 소수의 시드 예제를 사용하여 유도하며, 각 내성 실행마다 10-15회, 약 50-60개의 후보 작업 생성
진화 전략: 훈련 단계가 진행됨에 따라 초기 데이터 세트 및 초기 높은 합의 샘플과 결합하여 모델이 실행 가능성 경계에 대한 이해를 점진적으로 정제하고 안정화

2. 합의 기반 보상 메커니즘(Consensus-based Rewarding)

목표: 자기 지식의 일관성을 정량화하고 강화
방법: 각 후보 작업 x에 대해 k=8개의 독립적인 자기 분석 출력 {yi}를 추출하며, 여기서 yi ∈ {Feasible, Infeasible}
보상 계산:
```
r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
```
보상은 다수 레이블과 일치하는 출력의 비율로, 실행 가능성 평가의 내부 일관성을 직접 측정

3. 보상 해킹 필터

모델이 너무 단순하거나 복잡한 작업을 생성하여 합의 보상을 해킹하는 것을 방지하기 위해 다음 필터링 전략을 채택한다:

의미론적 중복 필터링: ROUGE-L 점수 임계값을 사용하여 의미론적으로 유사한 지시사항 필터링
키워드 필터링: 이미지 생성, 모델 훈련 등 명백히 능력 범위를 벗어나는 키워드가 포함된 항목 필터링
혼란도 필터링: 기본 모델의 음의 로그 우도를 사용하여 혼란도가 너무 높은 후보 제거

기술 혁신 포인트

자체 생성 데이터 전략: 모델 내부 생성 데이터에 완전히 의존하여 비용이 많이 드는 인간 주석 회피
합의 메커니즘: 여러 샘플의 일관성을 보상 신호로 사용하여 안정적이고 신뢰할 수 있는 학습 신호 제공
자기 개선 루프: 자기 게임 강화학습과 결합하여 모델이 자기 지식 경계 개선을 자율적으로 유도
외부 의존성 최소화: 소규모 시드 데이터 세트만 필요하며 외부 감독 불필요

실험 설정

데이터 세트

시드 데이터 세트: 100개의 검증된 예제(실행 가능한 작업 50개, 실행 불가능한 작업 50개)로, 모델 자체에서 생성되고 전문가에 의해 검증됨
내재적 평가: 자체 생성 데이터를 사용한 생성-검증 일관성 평가
외재적 평가: SelfAware 데이터 세트로, 답변 가능한 질문과 답변 불가능한 질문 및 설명 포함

평가 지표

내재적 평가: 정확도(Accuracy) - 생성-검증 과정의 일관성 측정
외재적 평가: F1 점수 - SelfAware 데이터 세트에서의 균형잡힌 정밀도 및 재현율

비교 방법

내재적 자기 지식 개선을 위한 확립된 방법이 부족하므로 기본 모델 성능을 기준선으로 평가

구현 세부 사항

모델: LLaMA-3.1-8B-Instruct 및 Qwen-2.5-7B-Instruct
RL 알고리즘: OpenRLHF 프레임워크의 Reinforce++ 알고리즘 사용
훈련 매개변수:
- 샘플링 수: k=8
- 내성 온도: 1.0, 자기 분석 온도: 0.0
- 학습률: Actor 5×10⁻⁷, Critic 9×10⁻⁶
- 총 반복 횟수: 30회, 5회 반복마다 평가

실험 결과

주요 결과

내재적 평가 결과

모델	반복 횟수	정확도(%)	향상(%)
LLaMA-3.1-8B	기본 모델	33.56	-
	30회 반복	42.99	+9.43
Qwen-2.5-7B	기본 모델	39.22	-
	30회 반복	48.29	+9.07

외재적 평가 결과(SelfAware 데이터 세트)

모델	반복 횟수	F1 점수(%)	향상(%)
LLaMA-3.1-8B	기본 모델	56.12	-
	30회 반복	63.10	+6.98
Qwen-2.5-7B	기본 모델	62.17	-
	30회 반복	68.29	+6.12

주요 발견

안정적인 단조 개선: 두 모델 모두 거의 모든 검사 지점에서 명확한 단조 개선을 보여주며, 자신의 실행 가능성 경계에 대한 이해의 안정적인 내재적 성장을 반영
빠른 수렴: 최대 개선은 초기 훈련 주기에서 나타나며, 자기 지식 개선이 비용 효율적이고 예측 가능하며 효율적일 수 있음을 시사
개선 정체기: 약 25-30회 반복 주변에서 진행이 둔화되기 시작하며, 내재적 자기 개선에 자연적 한계가 있음을 나타냄

사례 분석

LLaMA-3.1-8B 25회 반복 생성 예제:

실행 가능한 작업: 영어 문장 "The cat sat on the mat"을 프랑스어로 번역하되, 완전히 동일한 의미, 어감, 동사 시제 및 의미 유지
실행 불가능한 작업: 이분기-삼분기 멸종 사건의 정확한 원인 결정, 반박할 수 없는 증거로 뒷받침되는 명확한 결론 제시

이러한 예제들은 모델이 자신의 번역 능력 범위 내의 작업과 자신의 확실한 지식 경계를 초과하는 복잡한 과학 문제를 정확히 식별할 수 있음을 보여준다.