2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL: Teaching Language Models to Know What They Know

基本信息

论文ID: 2510.11407
标题: KnowRL: Teaching Language Models to Know What They Know
作者: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
分类: cs.CL cs.AI
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.11407

摘要

真正可靠的AI不仅需要扩展知识规模，更需要具备"知道自己知道什么以及何时不知道"的能力。研究表明，即使是最优秀的大语言模型在超过五分之一的情况下会错误判断自己的能力，这使得基于内在不确定性的回应无法完全信任。受需要最少数据的自我改进强化学习技术启发，本文提出了KnowRL框架，通过加强模型对自身可行性边界的内在理解，实现更安全、更负责任的行为。该框架结合两个组件：(i)内省机制，模型生成并分类其认为可行或不可行的任务；(ii)基于共识的奖励机制，通过内部一致性强化自知识评估的稳定性。通过使用内部生成的数据，完全避免了昂贵的外部监督。在LLaMA-3.1-8B和Qwen-2.5-7B上的实验表明，KnowRL稳步提升了自知识能力，准确率提升高达28%，F1分数提升12%。

安全性关切：研究表明，即使是领先的LLMs也会在超过20%的情况下错误判断自己的能力，这导致严重的信任和安全问题
部署风险：在医疗、法律、金融等关键领域，模型的过度自信或不足自信都可能带来严重后果
可靠性需求：真正可靠的AI系统需要具备元认知能力，能够认识自身知识的局限性

现有方法局限性

外部数据库和脚手架技术不适合解决这种内在缺陷
置信度校准虽然能指示答案可能错误，但不能保证模型对自己真正知道和不知道的内容保持一致
缺乏系统性方法来强化模型的自知识边界

研究动机

作者认为LLMs内在已具备内省能力，需要通过强化学习来引导和强化这种潜在能力，使模型能够更好地理解和表达自己的知识边界。

核心贡献

提出KnowRL框架：一个基于强化学习的自知识增强框架，能够在有限初始数据和无外部监督的情况下提升LLMs的自知识边界意识
创新的双组件设计：
- 内省机制：LLM生成其认为可行或不可行的问题
- 基于共识的奖励机制：通过内部一致性产生稳定、可信的奖励信号
显著的性能提升：在仅几次迭代中实现高达28%的准确率提升和12%的F1分数提升，展示了可扩展的自我改进能力
实用性和可扩展性：方法简单且独立于外部资源，适用于所有未来模型的可靠性增强

功能：模型自主生成其认为可行或不可行的任务
实现：使用少量种子示例引导，每次内省运行10-15次，产生约50-60个候选任务
演进策略：随训练步骤进展，结合初始数据集和前期高共识样本，使模型逐步细化和稳定对可行性边界的理解

2. 基于共识的奖励机制(Consensus-based Rewarding)

目标：量化和强化自知识的一致性
方法：对每个候选任务x，抽取k=8个独立的自分析输出{yi}，其中yi ∈ {Feasible, Infeasible}
奖励计算：
```
r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
```
奖励为与多数标签一致的输出比例，直接衡量可行性评估的内部一致性

3. 奖励破解过滤器

为防止模型通过生成过于简单或复杂的任务来破解共识奖励，采用以下过滤策略：

语义冗余过滤：使用ROUGE-L分数阈值过滤语义相似的指令
关键词过滤：过滤包含图像生成、模型训练等明显超出能力范围的关键词
困惑度过滤：使用基础模型的负对数似然，丢弃困惑度过高的候选

技术创新点

自生成数据策略：完全依赖模型内部生成的数据，避免昂贵的人工标注
共识机制：通过多次采样的一致性作为奖励信号，提供稳定可信的学习信号
自我改进循环：结合自我博弈强化学习，使模型能够自我引导改进自知识边界
最小化外部依赖：仅需要小规模种子数据集，无需外部监督

实验设置

数据集

种子数据集：100个验证过的示例（50个可行任务，50个不可行任务），由模型自身生成并经专家验证
内在评估：使用自生成数据进行生成-验证一致性评估
外在评估：SelfAware数据集，包含可回答和不可回答问题及其解释

评价指标

内在评估：准确率(Accuracy) - 衡量生成-验证过程的一致性
外在评估：F1分数 - 在SelfAware数据集上的平衡精确率和召回率

对比方法

由于缺乏针对内在自知识改进的既定方法，以基础模型性能作为基线进行评估。

实现细节

模型：LLaMA-3.1-8B-Instruct 和 Qwen-2.5-7B-Instruct
RL算法：使用OpenRLHF框架的Reinforce++算法
训练参数：
- 采样数：k=8
- 内省温度：1.0，自分析温度：0.0
- 学习率：Actor 5×10⁻⁷，Critic 9×10⁻⁶
- 总迭代次数：30次，每5次迭代评估一次