Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
대규모 언어 모델(LLMs)은 다양한 언어 기반 작업에서 인간의 인지를 점점 더 잘 모방하고 있습니다. 그러나 메타인지 능력, 특히 기억 수행 예측 측면에서는 아직 탐구되지 않았습니다. 본 연구는 ChatGPT 기반 LLMs이 인간의 학습 판단(JOL)과 일치하는지 평가하는 교차 지능체 예측 모델을 도입합니다. 학습 판단은 개인이 자신의 미래 기억 수행을 예측하는 메타인지 측정입니다. 본 연구는 인간과 LLMs이 문장 쌍을 처리하는 방식을 테스트했으며, 그 중 하나는 정원 경로 문장(garden-path sentence)입니다. 정원 경로 문장은 처음에 독자를 잘못된 해석으로 오도한 후 재분석이 필요한 문장입니다. 문맥 일치도(일치하는 문장 vs 일치하지 않는 문장)를 조작하여 내재적 단서(즉, 관련성)가 LLM과 인간의 JOL에 어떻게 영향을 미치는지 탐구했습니다. 결과는 인간의 JOL이 실제 기억 수행을 안정적으로 예측할 수 있지만, 테스트된 모든 LLMs(GPT-3.5-turbo, GPT-4-turbo, GPT-4o)은 비교 가능한 예측 정확도를 보이지 못했음을 보여줍니다.
"Read Sentence 1 and Sentence 2 and answer the following question.
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.
본 논문은 LLMs의 메타인지 능력 연구에 있어 개척적 의의를 지니고 있으며, 일부 방법론적 한계가 있지만 그 발견은 AI 시스템의 인지 경계를 이해하고 관련 기술 발전을 추진하는 데 중요한 가치를 가집니다. 연구 결과는 현재의 AI 시스템이 자기 모니터링 및 메타인지 측면에서 여전히 개선의 여지가 많음을 보여주며, 이는 향후 연구 및 응용을 위한 명확한 방향을 제시합니다.