2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
academic

KnowRL: 언어 모델에게 자신이 아는 것을 알도록 가르치기

기본 정보

  • 논문 ID: 2510.11407
  • 제목: KnowRL: Teaching Language Models to Know What They Know
  • 저자: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.11407

초록

진정으로 신뢰할 수 있는 AI는 지식 규모를 확장하는 것뿐만 아니라 "자신이 무엇을 알고 있으며 언제 모르는지 알 수 있는" 능력을 갖춰야 한다. 연구에 따르면 최고 수준의 대규모 언어 모델(LLM)도 5분의 1 이상의 경우에서 자신의 능력을 잘못 판단하며, 이는 내재적 불확실성에 기반한 응답을 완전히 신뢰할 수 없게 만든다. 최소한의 데이터가 필요한 자기 개선 강화학습 기법에서 영감을 받아, 본 논문은 모델이 자신의 실행 가능성 경계에 대한 내재적 이해를 강화함으로써 더욱 안전하고 책임감 있는 행동을 구현하는 KnowRL 프레임워크를 제안한다. 이 프레임워크는 두 가지 구성 요소를 결합한다: (i) 내성 메커니즘으로, 모델이 실행 가능하거나 실행 불가능하다고 생각하는 작업을 생성하고 분류하며; (ii) 내부 일관성을 통해 자기 지식 평가의 안정성을 강화하는 합의 기반 보상 메커니즘. 내부 생성 데이터를 사용함으로써 비용이 많이 드는 외부 감독을 완전히 회피한다. LLaMA-3.1-8B 및 Qwen-2.5-7B에서의 실험은 KnowRL이 자기 지식 능력을 지속적으로 향상시키며, 정확도는 최대 28%, F1 점수는 12% 향상됨을 보여준다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 대규모 언어 모델(LLM)의 자기 지식(self-knowledge) 부족이다. 즉, 모델이 자신의 능력 경계를 정확히 인식하지 못하고, 어떤 작업이 실행 가능한지 불가능한지를 명확히 구분하지 못한다는 것이다.

문제의 중요성

  1. 안전성 우려: 연구에 따르면 선도적인 LLM도 20% 이상의 경우에서 자신의 능력을 잘못 판단하며, 이는 심각한 신뢰 및 안전 문제를 야기한다
  2. 배포 위험: 의료, 법률, 금융 등 중요 분야에서 모델의 과도한 자신감이나 부족한 자신감은 심각한 결과를 초래할 수 있다
  3. 신뢰성 요구: 진정으로 신뢰할 수 있는 AI 시스템은 메타인지 능력을 갖춰야 하며, 자신의 지식 한계를 인식할 수 있어야 한다

기존 방법의 한계

  1. 외부 데이터베이스 및 스캐폴딩 기술은 이러한 내재적 결함을 해결하기에 적합하지 않다
  2. 신뢰도 보정은 답변이 잘못될 가능성을 나타낼 수 있지만, 모델이 자신이 정말 알고 모르는 것에 대해 일관성을 유지하도록 보장하지 못한다
  3. 체계적 방법 부재: 모델의 자기 지식 경계를 강화하는 체계적 접근 방식이 없다

연구 동기

저자들은 LLM이 내재적으로 이미 내성 능력을 갖추고 있으며, 강화학습을 통해 이러한 잠재 능력을 유도하고 강화하여 모델이 자신의 지식 경계를 더 잘 이해하고 표현할 수 있도록 해야 한다고 믿는다.

핵심 기여

  1. KnowRL 프레임워크 제안: 제한된 초기 데이터와 외부 감독 없이 LLM의 자기 지식 경계 인식을 향상시킬 수 있는 강화학습 기반 자기 지식 강화 프레임워크
  2. 혁신적인 이중 구성 요소 설계:
    • 내성 메커니즘: LLM이 실행 가능하거나 실행 불가능하다고 생각하는 문제를 생성
    • 합의 기반 보상 메커니즘: 내부 일관성을 통해 안정적이고 신뢰할 수 있는 보상 신호 생성
  3. 현저한 성능 향상: 단 몇 번의 반복 만에 정확도 28% 향상 및 F1 점수 12% 향상을 달성하여 확장 가능한 자기 개선 능력을 입증
  4. 실용성 및 확장성: 방법이 간단하고 외부 자원에 독립적이며, 모든 향후 모델의 신뢰성 향상에 적용 가능

방법 상세 설명

작업 정의

자기 지식 작업은 모델이 자신의 능력과 지식 경계에 대한 이해를 바탕으로 실행 가능한 작업과 불가능한 작업을 명확히 구분할 수 있는 능력으로 정의된다. 입력은 작업 설명이고, 출력은 "실행 가능" 또는 "실행 불가능"의 이진 분류 판단이며, 제약 조건은 판단이 모델의 실제 능력 경계를 기반으로 해야 한다는 것이다.

모델 아키텍처

전체 프레임워크

KnowRL 프레임워크는 두 가지 핵심 구성 요소를 포함하는 반복적인 강화학습 훈련 루프를 채택한다:

![Framework](그림 2에 표시된 KnowRL 프레임워크)

1. 내성 메커니즘(Introspection)

  • 기능: 모델이 실행 가능하거나 실행 불가능하다고 생각하는 작업을 자율적으로 생성
  • 구현: 소수의 시드 예제를 사용하여 유도하며, 각 내성 실행마다 10-15회, 약 50-60개의 후보 작업 생성
  • 진화 전략: 훈련 단계가 진행됨에 따라 초기 데이터 세트 및 초기 높은 합의 샘플과 결합하여 모델이 실행 가능성 경계에 대한 이해를 점진적으로 정제하고 안정화

2. 합의 기반 보상 메커니즘(Consensus-based Rewarding)

  • 목표: 자기 지식의 일관성을 정량화하고 강화
  • 방법: 각 후보 작업 x에 대해 k=8개의 독립적인 자기 분석 출력 {yi}를 추출하며, 여기서 yi ∈ {Feasible, Infeasible}
  • 보상 계산:
    r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
    
    보상은 다수 레이블과 일치하는 출력의 비율로, 실행 가능성 평가의 내부 일관성을 직접 측정

3. 보상 해킹 필터

모델이 너무 단순하거나 복잡한 작업을 생성하여 합의 보상을 해킹하는 것을 방지하기 위해 다음 필터링 전략을 채택한다:

  • 의미론적 중복 필터링: ROUGE-L 점수 임계값을 사용하여 의미론적으로 유사한 지시사항 필터링
  • 키워드 필터링: 이미지 생성, 모델 훈련 등 명백히 능력 범위를 벗어나는 키워드가 포함된 항목 필터링
  • 혼란도 필터링: 기본 모델의 음의 로그 우도를 사용하여 혼란도가 너무 높은 후보 제거

기술 혁신 포인트

  1. 자체 생성 데이터 전략: 모델 내부 생성 데이터에 완전히 의존하여 비용이 많이 드는 인간 주석 회피
  2. 합의 메커니즘: 여러 샘플의 일관성을 보상 신호로 사용하여 안정적이고 신뢰할 수 있는 학습 신호 제공
  3. 자기 개선 루프: 자기 게임 강화학습과 결합하여 모델이 자기 지식 경계 개선을 자율적으로 유도
  4. 외부 의존성 최소화: 소규모 시드 데이터 세트만 필요하며 외부 감독 불필요

실험 설정

데이터 세트

  1. 시드 데이터 세트: 100개의 검증된 예제(실행 가능한 작업 50개, 실행 불가능한 작업 50개)로, 모델 자체에서 생성되고 전문가에 의해 검증됨
  2. 내재적 평가: 자체 생성 데이터를 사용한 생성-검증 일관성 평가
  3. 외재적 평가: SelfAware 데이터 세트로, 답변 가능한 질문과 답변 불가능한 질문 및 설명 포함

평가 지표

  1. 내재적 평가: 정확도(Accuracy) - 생성-검증 과정의 일관성 측정
  2. 외재적 평가: F1 점수 - SelfAware 데이터 세트에서의 균형잡힌 정밀도 및 재현율

비교 방법

내재적 자기 지식 개선을 위한 확립된 방법이 부족하므로 기본 모델 성능을 기준선으로 평가

구현 세부 사항

  • 모델: LLaMA-3.1-8B-Instruct 및 Qwen-2.5-7B-Instruct
  • RL 알고리즘: OpenRLHF 프레임워크의 Reinforce++ 알고리즘 사용
  • 훈련 매개변수:
    • 샘플링 수: k=8
    • 내성 온도: 1.0, 자기 분석 온도: 0.0
    • 학습률: Actor 5×10⁻⁷, Critic 9×10⁻⁶
    • 총 반복 횟수: 30회, 5회 반복마다 평가

실험 결과

주요 결과

내재적 평가 결과

모델반복 횟수정확도(%)향상(%)
LLaMA-3.1-8B기본 모델33.56-
30회 반복42.99+9.43
Qwen-2.5-7B기본 모델39.22-
30회 반복48.29+9.07

외재적 평가 결과(SelfAware 데이터 세트)

모델반복 횟수F1 점수(%)향상(%)
LLaMA-3.1-8B기본 모델56.12-
30회 반복63.10+6.98
Qwen-2.5-7B기본 모델62.17-
30회 반복68.29+6.12

주요 발견

  1. 안정적인 단조 개선: 두 모델 모두 거의 모든 검사 지점에서 명확한 단조 개선을 보여주며, 자신의 실행 가능성 경계에 대한 이해의 안정적인 내재적 성장을 반영
  2. 빠른 수렴: 최대 개선은 초기 훈련 주기에서 나타나며, 자기 지식 개선이 비용 효율적이고 예측 가능하며 효율적일 수 있음을 시사
  3. 개선 정체기: 약 25-30회 반복 주변에서 진행이 둔화되기 시작하며, 내재적 자기 개선에 자연적 한계가 있음을 나타냄

사례 분석

LLaMA-3.1-8B 25회 반복 생성 예제:

  • 실행 가능한 작업: 영어 문장 "The cat sat on the mat"을 프랑스어로 번역하되, 완전히 동일한 의미, 어감, 동사 시제 및 의미 유지
  • 실행 불가능한 작업: 이분기-삼분기 멸종 사건의 정확한 원인 결정, 반박할 수 없는 증거로 뒷받침되는 명확한 결론 제시

이러한 예제들은 모델이 자신의 번역 능력 범위 내의 작업과 자신의 확실한 지식 경계를 초과하는 복잡한 과학 문제를 정확히 식별할 수 있음을 보여준다.

관련 연구

LLM의 자기 지식 연구

  1. 문제 식별: 여러 연구에서 LLM의 자기 지식의 불일관성과 동요성을 지적
  2. 평가 방법:
    • 데이터 세트 기반 답변 가능성 이진 분류 평가
    • 내재적 일관성 기반 내재적 평가
    • 자기 인식 연구
  3. 개선 방법: Self-Reflect, 불확실성 인식 지시 조정 등

LLM의 자기 개선

  1. 자기 정제 방법: Self-Refine은 LLM이 초기 답변을 생성한 후 자기 비판 및 반복적 개선 수행
  2. 합성 데이터 방법: Self-Taught Evaluator, K2 등은 자체 생성된 추론 작업 훈련 세트 사용
  3. 강화학습 방법: RLRF, R-Zero, SeRL 등은 사후 처리 강화 또는 보상 신호 사용

결론 및 논의

주요 결론

  1. 효과성 검증: KnowRL 프레임워크는 LLM의 자기 지식 능력을 현저히 향상시킬 수 있으며, 두 모델 모두에서 안정적인 개선을 달성
  2. 효율성 장점: 소규모 시드 데이터 세트와 외부 감독 없이도 몇 번의 반복 내에 최대 개선 달성
  3. 실용적 가치: 중요 분야에서 AI 시스템의 안전한 배포를 위한 구체적 경로 제공

한계

  1. 단일 언어 한계: 모든 실험은 영어 환경에서만 수행되었으며, 다국어 및 저자원 환경에서의 효과는 미지수
  2. 훈련 범위 제한: 계산 제약으로 인해 30회 반복 이상의 성능 표현을 탐색할 수 없음
  3. 규모 불확실성: 평가는 8B 매개변수 이하의 모델로 제한되며, 더 큰 모델로의 확장성은 미지수

향후 방향

  1. 다국어 확장: 다양한 언어 및 문화 배경에서 프레임워크의 효과성 테스트
  2. 장기 훈련: 더 긴 훈련 주기에서의 성능 표현 및 개선 잠재력 탐색
  3. 대규모 검증: 더 큰 매개변수 규모의 모델에서 방법의 확장성 검증
  4. 영역 특화: 의료, 법률 등 특정 영역의 자기 지식 개선

심층 평가

장점

  1. 높은 혁신성: 강화학습을 사용하여 LLM의 자기 지식 문제를 체계적으로 해결한 첫 시도로, 방법이 참신하고 효과적
  2. 높은 실용성: 완전히 내부 데이터 기반으로 외부 감독 불필요하며, 배포 및 확장이 용이
  3. 충분한 실험: 내재적 및 외재적 두 가지 평가 방식 사용으로 결과가 일관되고 설득력 있음
  4. 견고한 이론 기초: 자기 게임 강화학습 이론 프레임워크를 기반으로 설계가 합리적

부족한 점

  1. 제한된 기준선 비교: 영역 내 직접 비교 방법 부족으로 주로 기본 모델과 비교하며, 더 포괄적인 방법 비교 부족
  2. 제한된 평가 범위: 두 개의 중간 규모 모델에서만 테스트되었으며, 대규모 모델 검증 부족
  3. 미지의 장기 효과: 상대적으로 짧은 훈련 주기로 장기 개선 잠재력 확인 불가
  4. 미검증 일반화 능력: 영어 환경에서만 테스트되었으며, 언어 간 일반화 능력 미지수

영향력

  1. 학술 기여: AI 안전 분야에 새로운 연구 방향과 방법 프레임워크 제공
  2. 실용적 가치: 더욱 신뢰할 수 있는 AI 시스템의 실제 배포를 위한 실행 가능한 솔루션 제공
  3. 재현성: 저자들이 코드 및 데이터 공개 약속으로 연구 커뮤니티의 후속 연구 용이
  4. 영감 제공: LLM의 자기 개선 잠재력을 입증하여 더 많은 관련 연구 영감 제공

적용 가능 시나리오

  1. 고위험 응용: 의료 진단, 법률 자문, 금융 결정 등 높은 신뢰성이 필요한 분야
  2. 교육 시스템: 모델이 지식 경계를 정직하게 표현할 수 있어야 하는 교육 응용
  3. 연구 보조: 알려진 것과 미지의 지식 경계를 구분해야 하는 연구 지원 도구
  4. 범용 AI 시스템: 신뢰성 및 안전성 향상이 필요한 모든 AI 응용

참고문헌

논문은 풍부한 관련 문헌을 인용하며, 주요 내용은 다음을 포함한다:

  1. 자기 지식 및 메타인지 관련 연구1-7
  2. LLM에서의 강화학습 응용14, 22-24
  3. 자기 개선 및 자기 게임 방법15, 30-32, 44-49
  4. AI 안전 및 신뢰성 연구11-12, 16-17

종합 평가: 이는 LLM의 자기 지식이라는 중요한 문제에 대해 혁신적이고 실용적인 해결책을 제시하는 고품질 연구 논문이다. 일부 한계가 있지만, 그 기여는 상당하며, 방법은 참신하고, 실험 결과는 설득력 있으며, AI 안전 분야에 중요한 의미를 갖는다.