2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

基本信息

  • 论文ID: 2410.13392
  • 标题: Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
  • 作者: Markus Huff, Elanur Ulakci (Leibniz-Institut für Wissensmedien & Eberhard Karls Universität Tübingen)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2024年10月
  • 论文链接: https://arxiv.org/abs/2410.13392

摘要

大语言模型(LLMs)在各种基于语言的任务中越来越能模拟人类认知。然而,它们的元认知能力——特别是在预测记忆表现方面——仍未得到探索。本研究引入了一个跨智能体预测模型,评估基于ChatGPT的LLMs是否与人类的学习判断(JOL)一致,这是一种元认知测量,个体预测自己未来的记忆表现。研究测试了人类和LLMs对句子对的处理,其中一个是花园路径句——一种最初误导读者产生错误解释后需要重新分析的句子。通过操纵上下文匹配度(匹配vs不匹配句子),探讨了内在线索(即相关性)如何影响LLM和人类的JOL。结果显示,虽然人类JOL能可靠预测实际记忆表现,但所测试的LLMs(GPT-3.5-turbo、GPT-4-turbo和GPT-4o)都未表现出可比的预测准确性。

研究背景与动机

  1. 要解决的问题:探索大语言模型是否具备元认知能力,特别是能否像人类一样进行学习判断(JOL),预测记忆表现。
  2. 问题的重要性
    • LLMs在对象层面(object-level)已展现出与人类认知的相似性
    • 元认知能力对于AI系统的自我监控、适应和预测人类反应至关重要
    • 这种能力的缺失限制了AI在教育、个性化学习等领域的应用
  3. 现有方法的局限性
    • 现有研究主要关注LLMs在对象层面的认知能力
    • 缺乏对元认知层面能力的系统性研究
    • LLMs虽然能模拟人类认知的聚合表现,但难以捕捉个体差异
  4. 研究动机
    • 填补LLMs元认知研究的空白
    • 为提升AI系统的自主性和人机交互质量提供理论基础
    • 探索AI在教育等需要深度认知意识的任务中的潜力

核心贡献

  1. 提出跨智能体预测模型:首次系统性比较人类和LLMs在学习判断任务上的元认知能力
  2. 揭示LLMs的元认知局限性:发现尽管LLMs在对象层面表现良好,但在元层面的监控能力严重不足
  3. 验证上下文对JOL的影响:通过花园路径句和上下文操纵,深入分析了相关性作为内在线索的作用
  4. 提供教育应用洞察:为AI在个性化学习和教育技术中的应用局限性提供了重要证据
  5. 建立新的研究范式:为未来LLMs元认知能力研究奠定了方法论基础

方法详解

任务定义

学习判断(JOL)任务:参与者(人类或LLM)阅读句子对后,预测第二个句子(花园路径句)在未来记忆测试中的可记忆性,评分范围1-10分。

输入:句子对(上下文句 + 花园路径句) 输出:相关性评分(1-10) + 可记忆性评分(1-10) 约束:上下文分为匹配和不匹配两种条件

实验设计

材料构建

  • 花园路径句:45个语法复杂的句子,如"Because Bill drinks wine is never kept in the house"
  • 上下文操纵
    • 匹配上下文:"Bill has chronic alcoholism"
    • 不匹配上下文:"Bill likes to play golf"

跨智能体预测模型

该模型包含两个核心组件:

  1. 人类实验:78名参与者完成学习-判断-测试流程
  2. LLM评估:GPT-3.5-turbo、GPT-4-turbo、GPT-4o各生成9000个独立响应

技术创新点

  1. 零样本提示策略
"Read Sentence 1 and Sentence 2 and answer the following question. 
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
  1. Bootstrap分析方法
    • 1000次重采样迭代
    • 保持参与者和项目内部结构
    • 生成95%置信区间评估预测能力
  2. 广义线性混合效应模型(GLMM)
    • 固定效应:JOL、上下文及其交互作用
    • 随机效应:参与者和项目的随机截距

实验设置

数据集

  • LLM数据:每个模型9000个响应(匹配/不匹配各4500个)
  • 人类数据:78名参与者,44个句子对(22个目标+22个干扰项)
  • 预处理:排除视力异常和未完成实验的参与者

评价指标

  • 主要指标:JOL与实际记忆表现的相关性(Bootstrap斜率)
  • 辅助指标:上下文效应的显著性检验
  • 统计方法:95%置信区间、卡方检验

对比方法

  • 人类JOL表现作为金标准
  • 三个GPT模型的零样本表现对比
  • 匹配vs不匹配上下文条件对比

实现细节

  • LLM设置:temperature=1增加响应变异性
  • 人类实验:PsychoPy编程,15分钟完成
  • 统计分析:R语言,car包进行ANOVA分析

实验结果

主要结果

人类表现

  • 匹配上下文:B = 0.167, 95% CI 0.018, 0.316 ✓显著
  • 不匹配上下文:B = 0.104, 95% CI 0.005, 0.202 ✓显著
  • JOL主效应:χ²(1) = 36.29, p < .001
  • 上下文主效应:χ²(1) = 80.59, p < .001

LLM表现

所有GPT模型在两种上下文条件下均未表现出显著的预测能力:

匹配上下文

  • GPT-3.5-turbo: B = 0.013, 95% CI -0.147, 0.172
  • GPT-4-turbo: B = 0.026, 95% CI -0.143, 0.194
  • GPT-4o: B = 0.045, 95% CI -0.159, 0.248

不匹配上下文

  • GPT-3.5-turbo: B = 0.044, 95% CI -0.087, 0.175
  • GPT-4-turbo: B = 0.016, 95% CI -0.108, 0.139
  • GPT-4o: B = 0.027, 95% CI -0.090, 0.143

关键发现

  1. 元认知能力缺失:所有测试的LLMs都无法有效预测人类记忆表现
  2. 上下文无关性:LLMs的预测失败不依赖于上下文匹配度
  3. 个体差异捕捉困难:LLMs无法模拟人类JOL的个体变异性
  4. 对象vs元层面差异:证实了LLMs在不同认知层面的能力差异

相关工作

机器心理学研究

  • Binz & Schulz (2023):LLMs在认知任务中的人类相似性
  • Strachan et al. (2024):大语言模型的心理理论测试
  • 本文扩展:从对象层面认知到元认知层面

元认知理论基础

  • Nelson (1990):元记忆和学习判断的理论框架
  • Koriat (1997):线索利用框架在JOL中的应用
  • 本文贡献:将元认知理论应用于AI系统评估

教育技术应用

  • Chen et al. (2020):AI在个性化学习中的应用
  • 本文发现:揭示了当前AI系统在教育应用中的根本局限

结论与讨论

主要结论

  1. 人类独有的元认知优势:人类能够准确进行学习判断,而当前最先进的LLMs无法做到
  2. AI自主性的瓶颈:LLMs缺乏有效的自我监控能力,限制了其自主性发展
  3. 个体差异建模的挑战:LLMs虽能模拟聚合认知表现,但难以捕捉个体层面的认知变异

局限性

  1. 零样本评估局限:未探索经过特定训练的LLMs表现
  2. 黑盒模型限制:无法深入分析LLMs内部机制
  3. 版本依赖性:结果可能不适用于未来模型版本
  4. 任务特异性:仅测试了记忆相关的元认知能力

未来方向

  1. 元认知能力增强:开发专门的元认知训练方法
  2. 个体差异建模:探索捕捉认知个体差异的技术
  3. 多元认知任务:扩展到其他类型的元认知评估
  4. 教育应用优化:基于发现改进AI教育工具

深度评价

优点

  1. 研究创新性
    • 首次系统性研究LLMs的元认知能力
    • 提出了跨智能体预测模型的新范式
    • 将认知心理学理论与AI评估有机结合
  2. 方法严谨性
    • 采用了严格的统计方法(Bootstrap + GLMM)
    • 控制了多个潜在混淆因素
    • 样本量计算基于先验功效分析
  3. 实用价值
    • 为AI教育应用提供了重要警示
    • 揭示了人机交互中的认知差异
    • 为AI系统改进指明了方向
  4. 理论贡献
    • 丰富了机器心理学研究领域
    • 验证了Nelson-Koriat元认知理论在AI评估中的适用性

不足

  1. 方法局限性
    • 仅使用零样本评估,未探索微调或提示工程的效果
    • 花园路径句可能不够代表性,影响结果的普适性
    • 温度参数设置(temperature=1)可能影响LLM表现的稳定性
  2. 分析深度不足
    • 缺乏对LLMs失败机制的深入分析
    • 未探讨不同类型内在线索的具体影响
    • 对个体差异的量化分析有限
  3. 实验设计缺陷
    • 人类和LLM的测试条件存在差异(交互性vs批处理)
    • 缺乏对LLMs内部表征的分析
    • 样本规模相对有限(78名人类参与者)

影响力

  1. 学术价值
    • 开创了LLMs元认知评估的新研究方向
    • 为认知科学与AI交叉研究提供了范例
    • 可能催生更多元认知相关的AI研究
  2. 实用影响
    • 为AI教育工具开发者提供了重要参考
    • 影响人机交互设计的理念
    • 推动AI系统自我监控能力的发展
  3. 可复现性
    • 提供了完整的数据和代码(OSF平台)
    • 实验流程描述详细清晰
    • 统计方法标准化程度高

适用场景

  1. 教育技术:个性化学习系统、智能教学助手的能力评估
  2. 人机交互:聊天机器人、AI助手的自我监控能力改进
  3. 认知评估:AI系统认知能力的标准化测试
  4. AI安全:评估AI系统的自我认知和可靠性

参考文献

  1. Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
  2. Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
  3. Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
  4. Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
  5. Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

本论文在LLMs元认知能力研究方面具有开创性意义,虽然存在一些方法局限性,但其发现对于理解AI系统的认知边界和推动相关技术发展具有重要价值。研究结果表明,当前的AI系统在自我监控和元认知方面仍有很大改进空间,这为未来的研究和应用提供了明确的方向。