KnowRL: Teaching Language Models to Know What They Know
Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
진정으로 신뢰할 수 있는 AI는 지식 규모를 확장하는 것뿐만 아니라 "자신이 무엇을 알고 있으며 언제 모르는지 알 수 있는" 능력을 갖춰야 한다. 연구에 따르면 최고 수준의 대규모 언어 모델(LLM)도 5분의 1 이상의 경우에서 자신의 능력을 잘못 판단하며, 이는 내재적 불확실성에 기반한 응답을 완전히 신뢰할 수 없게 만든다. 최소한의 데이터가 필요한 자기 개선 강화학습 기법에서 영감을 받아, 본 논문은 모델이 자신의 실행 가능성 경계에 대한 내재적 이해를 강화함으로써 더욱 안전하고 책임감 있는 행동을 구현하는 KnowRL 프레임워크를 제안한다. 이 프레임워크는 두 가지 구성 요소를 결합한다: (i) 내성 메커니즘으로, 모델이 실행 가능하거나 실행 불가능하다고 생각하는 작업을 생성하고 분류하며; (ii) 내부 일관성을 통해 자기 지식 평가의 안정성을 강화하는 합의 기반 보상 메커니즘. 내부 생성 데이터를 사용함으로써 비용이 많이 드는 외부 감독을 완전히 회피한다. LLaMA-3.1-8B 및 Qwen-2.5-7B에서의 실험은 KnowRL이 자기 지식 능력을 지속적으로 향상시키며, 정확도는 최대 28%, F1 점수는 12% 향상됨을 보여준다.
자기 지식 작업은 모델이 자신의 능력과 지식 경계에 대한 이해를 바탕으로 실행 가능한 작업과 불가능한 작업을 명확히 구분할 수 있는 능력으로 정의된다. 입력은 작업 설명이고, 출력은 "실행 가능" 또는 "실행 불가능"의 이진 분류 판단이며, 제약 조건은 판단이 모델의 실제 능력 경계를 기반으로 해야 한다는 것이다.