2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
academic

KnowRL: Teaching Language Models to Know What They Know

基本信息

  • 论文ID: 2510.11407
  • 标题: KnowRL: Teaching Language Models to Know What They Know
  • 作者: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
  • 分类: cs.CL cs.AI
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.11407

摘要

真正可靠的AI不仅需要扩展知识规模,更需要具备"知道自己知道什么以及何时不知道"的能力。研究表明,即使是最优秀的大语言模型在超过五分之一的情况下会错误判断自己的能力,这使得基于内在不确定性的回应无法完全信任。受需要最少数据的自我改进强化学习技术启发,本文提出了KnowRL框架,通过加强模型对自身可行性边界的内在理解,实现更安全、更负责任的行为。该框架结合两个组件:(i)内省机制,模型生成并分类其认为可行或不可行的任务;(ii)基于共识的奖励机制,通过内部一致性强化自知识评估的稳定性。通过使用内部生成的数据,完全避免了昂贵的外部监督。在LLaMA-3.1-8B和Qwen-2.5-7B上的实验表明,KnowRL稳步提升了自知识能力,准确率提升高达28%,F1分数提升12%。

研究背景与动机

核心问题

本研究要解决的核心问题是大语言模型(LLMs)缺乏**自知识(self-knowledge)**的问题,即模型无法准确识别自身能力的边界,不能清楚地区分哪些任务是可行的,哪些是不可行的。

问题重要性

  1. 安全性关切:研究表明,即使是领先的LLMs也会在超过20%的情况下错误判断自己的能力,这导致严重的信任和安全问题
  2. 部署风险:在医疗、法律、金融等关键领域,模型的过度自信或不足自信都可能带来严重后果
  3. 可靠性需求:真正可靠的AI系统需要具备元认知能力,能够认识自身知识的局限性

现有方法局限性

  1. 外部数据库和脚手架技术不适合解决这种内在缺陷
  2. 置信度校准虽然能指示答案可能错误,但不能保证模型对自己真正知道和不知道的内容保持一致
  3. 缺乏系统性方法来强化模型的自知识边界

研究动机

作者认为LLMs内在已具备内省能力,需要通过强化学习来引导和强化这种潜在能力,使模型能够更好地理解和表达自己的知识边界。

核心贡献

  1. 提出KnowRL框架:一个基于强化学习的自知识增强框架,能够在有限初始数据和无外部监督的情况下提升LLMs的自知识边界意识
  2. 创新的双组件设计
    • 内省机制:LLM生成其认为可行或不可行的问题
    • 基于共识的奖励机制:通过内部一致性产生稳定、可信的奖励信号
  3. 显著的性能提升:在仅几次迭代中实现高达28%的准确率提升和12%的F1分数提升,展示了可扩展的自我改进能力
  4. 实用性和可扩展性:方法简单且独立于外部资源,适用于所有未来模型的可靠性增强

方法详解

任务定义

自知识任务定义为模型能够基于对自身能力和知识边界的了解,清楚地区分可行任务和不可行任务的能力。输入为任务描述,输出为"可行"或"不可行"的二分类判断,约束条件是判断应基于模型的真实能力边界。

模型架构

整体框架

KnowRL框架采用迭代的强化学习训练循环,包含两个核心组件:

1. 内省机制(Introspection)

  • 功能:模型自主生成其认为可行或不可行的任务
  • 实现:使用少量种子示例引导,每次内省运行10-15次,产生约50-60个候选任务
  • 演进策略:随训练步骤进展,结合初始数据集和前期高共识样本,使模型逐步细化和稳定对可行性边界的理解

2. 基于共识的奖励机制(Consensus-based Rewarding)

  • 目标:量化和强化自知识的一致性
  • 方法:对每个候选任务x,抽取k=8个独立的自分析输出{yi},其中yi ∈ {Feasible, Infeasible}
  • 奖励计算
    r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
    
    奖励为与多数标签一致的输出比例,直接衡量可行性评估的内部一致性

3. 奖励破解过滤器

为防止模型通过生成过于简单或复杂的任务来破解共识奖励,采用以下过滤策略:

  • 语义冗余过滤:使用ROUGE-L分数阈值过滤语义相似的指令
  • 关键词过滤:过滤包含图像生成、模型训练等明显超出能力范围的关键词
  • 困惑度过滤:使用基础模型的负对数似然,丢弃困惑度过高的候选

技术创新点

  1. 自生成数据策略:完全依赖模型内部生成的数据,避免昂贵的人工标注
  2. 共识机制:通过多次采样的一致性作为奖励信号,提供稳定可信的学习信号
  3. 自我改进循环:结合自我博弈强化学习,使模型能够自我引导改进自知识边界
  4. 最小化外部依赖:仅需要小规模种子数据集,无需外部监督

实验设置

数据集

  1. 种子数据集:100个验证过的示例(50个可行任务,50个不可行任务),由模型自身生成并经专家验证
  2. 内在评估:使用自生成数据进行生成-验证一致性评估
  3. 外在评估:SelfAware数据集,包含可回答和不可回答问题及其解释

评价指标

  1. 内在评估:准确率(Accuracy) - 衡量生成-验证过程的一致性
  2. 外在评估:F1分数 - 在SelfAware数据集上的平衡精确率和召回率

对比方法

由于缺乏针对内在自知识改进的既定方法,以基础模型性能作为基线进行评估。

实现细节

  • 模型:LLaMA-3.1-8B-Instruct 和 Qwen-2.5-7B-Instruct
  • RL算法:使用OpenRLHF框架的Reinforce++算法
  • 训练参数
    • 采样数:k=8
    • 内省温度:1.0,自分析温度:0.0
    • 学习率:Actor 5×10⁻⁷,Critic 9×10⁻⁶
    • 总迭代次数:30次,每5次迭代评估一次

实验结果

主要结果

内在评估结果

模型迭代次数准确率(%)提升(%)
LLaMA-3.1-8B基础模型33.56-
第30次迭代42.99+9.43
Qwen-2.5-7B基础模型39.22-
第30次迭代48.29+9.07

外在评估结果(SelfAware数据集)

模型迭代次数F1分数(%)提升(%)
LLaMA-3.1-8B基础模型56.12-
第30次迭代63.10+6.98
Qwen-2.5-7B基础模型62.17-
第30次迭代68.29+6.12

关键发现

  1. 稳定的单调改进:两个模型在几乎每个检查点都显示出明确的单调改进,反映出对自身可行性边界理解的稳定内在增长
  2. 快速收敛:最大改进出现在前几个训练周期,表明自知识改进可以做到成本低、可预测且高效
  3. 改进平台期:在第25-30次迭代左右,进展开始趋于平缓,表明内在自我改进存在自然限制

案例分析

LLaMA-3.1-8B第25次迭代生成示例:

  • 可行任务:将英语句子"The cat sat on the mat"翻译成法语,保持完全相同的含义、语感、动词时态和含义
  • 不可行任务:确定二叠纪-三叠纪灭绝事件的确切原因,提供不可辩驳的证据支持的明确结论

这些示例显示模型能够准确识别其翻译能力范围内的任务和超出其确定性知识边界的复杂科学问题。

相关工作

LLMs中的自知识研究

  1. 问题识别:多项研究指出LLMs在自知识方面的不一致性和摇摆性
  2. 评估方法
    • 基于数据集的可回答性二分类评估
    • 基于内在一致性的内在评估
    • 自认知研究
  3. 改进方法:Self-Reflect、不确定性感知指令调优等

LLMs中的自我改进

  1. 自我细化方法:Self-Refine让LLM生成初始答案后进行自我批评和迭代改进
  2. 合成数据方法:Self-Taught Evaluator、K2等使用自生成的推理任务训练集
  3. 强化学习方法:RLRF、R-Zero、SeRL等使用后处理强化或奖励信号

结论与讨论

主要结论

  1. 有效性验证:KnowRL框架能够显著提升LLMs的自知识能力,在两个模型上都实现了稳定的改进
  2. 效率优势:仅使用小规模种子数据集和无外部监督,就能在几次迭代内实现最大改进
  3. 实用价值:为在关键领域安全部署AI系统提供了具体路径

局限性

  1. 单语言局限:所有实验仅在英语环境下进行,多语言和低资源环境下的效果未知
  2. 训练范围限制:由于计算约束,无法探索30次迭代以外的性能表现
  3. 规模不确定性:评估仅限于8B参数以下的模型,对更大模型的扩展性未知

未来方向

  1. 多语言扩展:测试框架在不同语言和文化背景下的有效性
  2. 长期训练:探索更长训练周期下的性能表现和改进潜力
  3. 大规模验证:在更大参数规模的模型上验证方法的可扩展性
  4. 领域特化:针对特定领域(如医疗、法律)的自知识改进

深度评价

优点

  1. 创新性强:首次系统性地使用强化学习解决LLMs自知识问题,方法新颖且有效
  2. 实用性高:完全基于内部数据,无需外部监督,易于部署和扩展
  3. 实验充分:使用内在和外在两种评估方式,结果一致且有说服力
  4. 理论基础扎实:基于自我博弈强化学习的理论框架,设计合理

不足

  1. 基线对比有限:由于领域内缺乏直接对比方法,主要与基础模型对比,缺乏更全面的方法比较
  2. 评估范围受限:仅在两个中等规模模型上测试,缺乏大规模模型验证
  3. 长期效果未知:训练周期相对较短,无法确定长期改进潜力
  4. 泛化能力待验证:仅在英语环境下测试,跨语言泛化能力未知

影响力

  1. 学术贡献:为AI安全领域提供了新的研究方向和方法框架
  2. 实用价值:为实际部署更可靠的AI系统提供了可行方案
  3. 可复现性:作者承诺公开代码和数据,有利于研究社区跟进
  4. 启发意义:展示了LLMs自我改进的潜力,可能启发更多相关研究

适用场景

  1. 高风险应用:医疗诊断、法律咨询、金融决策等需要高可靠性的领域
  2. 教育系统:需要模型能够诚实表达知识边界的教学应用
  3. 科研助手:需要区分已知和未知知识边界的研究辅助工具
  4. 通用AI系统:任何需要提升可信度和安全性的AI应用

参考文献

论文引用了丰富的相关文献,主要包括:

  1. 自知识和元认知相关研究1-7
  2. 强化学习在LLMs中的应用14, 22-24
  3. 自我改进和自我博弈方法15, 30-32, 44-49
  4. AI安全和可靠性研究11-12, 16-17

总体评价:这是一篇高质量的研究论文,针对LLMs自知识这一重要问题提出了创新且实用的解决方案。虽然存在一些局限性,但其贡献显著,方法新颖,实验结果令人信服,对AI安全领域具有重要意义。