2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, UlakÃ§Ä±

Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.

academic

학습 판단: 생성형 인공지능을 넘어선 인간의 능력

기본 정보

논문 ID: 2410.13392
제목: Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
저자: Markus Huff, Elanur Ulakci (Leibniz-Institut für Wissensmedien & Eberhard Karls Universität Tübingen)
분류: cs.CL (계산 언어학)
발표 시간: 2024년 10월
논문 링크: https://arxiv.org/abs/2410.13392

초록

대규모 언어 모델(LLMs)은 다양한 언어 기반 작업에서 인간의 인지를 점점 더 잘 모방하고 있습니다. 그러나 메타인지 능력, 특히 기억 수행 예측 측면에서는 아직 탐구되지 않았습니다. 본 연구는 ChatGPT 기반 LLMs이 인간의 학습 판단(JOL)과 일치하는지 평가하는 교차 지능체 예측 모델을 도입합니다. 학습 판단은 개인이 자신의 미래 기억 수행을 예측하는 메타인지 측정입니다. 본 연구는 인간과 LLMs이 문장 쌍을 처리하는 방식을 테스트했으며, 그 중 하나는 정원 경로 문장(garden-path sentence)입니다. 정원 경로 문장은 처음에 독자를 잘못된 해석으로 오도한 후 재분석이 필요한 문장입니다. 문맥 일치도(일치하는 문장 vs 일치하지 않는 문장)를 조작하여 내재적 단서(즉, 관련성)가 LLM과 인간의 JOL에 어떻게 영향을 미치는지 탐구했습니다. 결과는 인간의 JOL이 실제 기억 수행을 안정적으로 예측할 수 있지만, 테스트된 모든 LLMs(GPT-3.5-turbo, GPT-4-turbo, GPT-4o)은 비교 가능한 예측 정확도를 보이지 못했음을 보여줍니다.

연구 배경 및 동기

해결해야 할 문제: 대규모 언어 모델이 메타인지 능력, 특히 인간처럼 학습 판단(JOL)을 수행하여 기억 수행을 예측할 수 있는지 탐구합니다.
문제의 중요성:
- LLMs은 객체 수준(object-level)에서 인간 인지와의 유사성을 보여주었습니다
- 메타인지 능력은 AI 시스템의 자기 모니터링, 적응, 인간 반응 예측에 필수적입니다
- 이러한 능력의 부재는 교육, 개인화 학습 등의 분야에서 AI 응용을 제한합니다
기존 방법의 한계:
- 기존 연구는 주로 객체 수준의 LLMs 인지 능력에 초점을 맞춥니다
- 메타인지 수준 능력에 대한 체계적 연구가 부족합니다
- LLMs은 인간 인지의 집계된 수행을 모방할 수 있지만 개인차를 포착하기 어렵습니다
연구 동기:
- LLMs 메타인지 연구의 공백을 채웁니다
- AI 시스템의 자율성 및 인간-기계 상호작용 품질 향상을 위한 이론적 기초를 제공합니다
- 깊이 있는 인지 인식이 필요한 교육 등의 작업에서 AI의 잠재력을 탐구합니다

핵심 기여

교차 지능체 예측 모델 제안: 학습 판단 작업에서 인간과 LLMs의 메타인지 능력을 처음으로 체계적으로 비교합니다
LLMs의 메타인지 한계 규명: LLMs이 객체 수준에서는 우수하지만 메타 수준의 모니터링 능력이 심각하게 부족함을 발견합니다
문맥이 JOL에 미치는 영향 검증: 정원 경로 문장과 문맥 조작을 통해 관련성이 내재적 단서로서의 역할을 심층 분석합니다
교육 응용 통찰 제공: AI의 개인화 학습 및 교육 기술 응용의 한계에 대한 중요한 증거를 제공합니다
새로운 연구 패러다임 수립: 향후 LLMs 메타인지 능력 연구를 위한 방법론적 기초를 마련합니다

방법론 상세 설명

작업 정의

학습 판단(JOL) 작업: 참가자(인간 또는 LLM)가 문장 쌍을 읽은 후 두 번째 문장(정원 경로 문장)이 향후 기억 테스트에서 기억될 가능성을 예측하며, 평가 범위는 1-10점입니다.

입력: 문장 쌍(문맥 문장 + 정원 경로 문장) 출력: 관련성 평가(1-10) + 기억 가능성 평가(1-10) 제약: 문맥은 일치 및 불일치 두 가지 조건으로 구분됩니다

실험 설계

자료 구성

정원 경로 문장: 45개의 문법적으로 복잡한 문장, 예: "Because Bill drinks wine is never kept in the house"
문맥 조작:
- 일치 문맥: "Bill has chronic alcoholism"
- 불일치 문맥: "Bill likes to play golf"

교차 지능체 예측 모델

이 모델은 두 개의 핵심 구성 요소를 포함합니다:

인간 실험: 78명의 참가자가 학습-판단-테스트 절차를 완료합니다
LLM 평가: GPT-3.5-turbo, GPT-4-turbo, GPT-4o 각각 9,000개의 독립적 응답을 생성합니다

기술 혁신 포인트

영샷(Zero-shot) 프롬프팅 전략:

"Read Sentence 1 and Sentence 2 and answer the following question. 
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"

부트스트랩 분석 방법:
- 1,000회 재샘플링 반복
- 참가자 및 항목 내부 구조 유지
- 95% 신뢰 구간을 통한 예측 능력 평가
일반화 선형 혼합 효과 모델(GLMM):
- 고정 효과: JOL, 문맥 및 상호작용
- 무작위 효과: 참가자 및 항목의 무작위 절편

실험 설정

데이터셋

LLM 데이터: 각 모델 9,000개 응답(일치/불일치 각 4,500개)
인간 데이터: 78명 참가자, 44개 문장 쌍(22개 목표 + 22개 방해 항목)
전처리: 시각 이상 및 실험 미완료 참가자 제외

평가 지표

주요 지표: JOL과 실제 기억 수행 간의 상관관계(부트스트랩 기울기)
보조 지표: 문맥 효과의 유의성 검정
통계 방법: 95% 신뢰 구간, 카이제곱 검정

비교 방법

인간 JOL 수행을 금표준으로 사용
세 개의 GPT 모델의 영샷 수행 비교
일치 vs 불일치 문맥 조건 비교

구현 세부사항

LLM 설정: temperature=1로 응답 변이성 증가
인간 실험: PsychoPy 프로그래밍, 15분 완료
통계 분석: R 언어, car 패키지를 사용한 ANOVA 분석

실험 결과

주요 결과

인간 수행

일치 문맥: B = 0.167, 95% CI 0.018, 0.316 ✓유의미
불일치 문맥: B = 0.104, 95% CI 0.005, 0.202 ✓유의미
JOL 주효과: χ²(1) = 36.29, p < .001
문맥 주효과: χ²(1) = 80.59, p < .001

LLM 수행

모든 GPT 모델은 두 문맥 조건 모두에서 유의미한 예측 능력을 보이지 못했습니다:

일치 문맥:

GPT-3.5-turbo: B = 0.013, 95% CI -0.147, 0.172 ✗
GPT-4-turbo: B = 0.026, 95% CI -0.143, 0.194 ✗
GPT-4o: B = 0.045, 95% CI -0.159, 0.248 ✗

불일치 문맥:

GPT-3.5-turbo: B = 0.044, 95% CI -0.087, 0.175 ✗
GPT-4-turbo: B = 0.016, 95% CI -0.108, 0.139 ✗
GPT-4o: B = 0.027, 95% CI -0.090, 0.143 ✗

주요 발견

메타인지 능력 부재: 테스트된 모든 LLMs은 인간의 기억 수행을 효과적으로 예측할 수 없습니다
문맥 무관성: LLMs의 예측 실패는 문맥 일치도에 의존하지 않습니다
개인차 포착의 어려움: LLMs은 인간 JOL의 개인 변이성을 모방할 수 없습니다
객체 vs 메타 수준 차이: 다양한 인지 수준에서 LLMs의 능력 차이를 확인합니다

결론 및 논의

주요 결론

인간 고유의 메타인지 우위: 인간은 정확한 학습 판단을 수행할 수 있지만 현재 최첨단 LLMs은 그렇지 못합니다
AI 자율성의 병목: LLMs은 효과적인 자기 모니터링 능력이 부족하여 자율성 발전을 제한합니다
개인차 모델링의 과제: LLMs은 집계된 인지 수행을 모방할 수 있지만 개인 수준의 인지 변이를 포착하기 어렵습니다

한계

영샷 평가의 한계: 특정 훈련을 받은 LLMs의 수행을 탐구하지 않았습니다
블랙박스 모델 제한: LLMs의 내부 메커니즘을 심층 분석할 수 없습니다
버전 의존성: 결과가 향후 모델 버전에 적용되지 않을 수 있습니다
작업 특이성: 기억 관련 메타인지 능력만 테스트했습니다

향후 방향

메타인지 능력 강화: 전문화된 메타인지 훈련 방법 개발
개인차 모델링: 인지 개인차를 포착하는 기술 탐구
다양한 메타인지 작업: 다른 유형의 메타인지 평가로 확장
교육 응용 최적화: 발견 사항을 바탕으로 AI 교육 도구 개선

심층 평가

장점

연구 혁신성:
- LLMs의 메타인지 능력을 처음으로 체계적으로 연구합니다
- 교차 지능체 예측 모델의 새로운 패러다임을 제안합니다
- 인지 심리학 이론과 AI 평가를 유기적으로 결합합니다
방법론의 엄밀성:
- 엄격한 통계 방법(부트스트랩 + GLMM)을 채택합니다
- 여러 잠재적 혼동 요인을 통제합니다
- 표본 크기 계산이 사전 검정력 분석을 기반으로 합니다
실용적 가치:
- AI 교육 응용에 중요한 경고를 제공합니다
- 인간-기계 상호작용에서의 인지 차이를 규명합니다
- AI 시스템 개선의 방향을 제시합니다
이론적 기여:
- 기계 심리학 연구 분야를 풍부하게 합니다
- Nelson-Koriat 메타인지 이론의 AI 평가 적용 가능성을 검증합니다

부족한 점

방법론의 한계:
- 영샷 평가만 사용하며 미세 조정이나 프롬프트 엔지니어링의 효과를 탐구하지 않았습니다
- 정원 경로 문장이 충분히 대표성이 있지 않을 수 있어 결과의 일반화 가능성에 영향을 미칩니다
- 온도 매개변수 설정(temperature=1)이 LLM 수행의 안정성에 영향을 미칠 수 있습니다
분석 깊이 부족:
- LLMs 실패 메커니즘에 대한 심층 분석이 부족합니다
- 다양한 유형의 내재적 단서의 구체적 영향을 탐구하지 않았습니다
- 개인차의 정량적 분석이 제한적입니다
실험 설계 결함:
- 인간과 LLM의 테스트 조건이 상이합니다(상호작용 vs 배치 처리)
- LLMs 내부 표현에 대한 분석이 부족합니다
- 표본 규모가 상대적으로 제한적입니다(78명의 인간 참가자)

영향력

학술적 가치:
- LLMs 메타인지 평가의 새로운 연구 방향을 개척합니다
- 인지 과학과 AI의 교차 연구에 범례를 제공합니다
- 더 많은 메타인지 관련 AI 연구를 촉발할 수 있습니다
실용적 영향:
- AI 교육 도구 개발자에게 중요한 참고 자료를 제공합니다
- 인간-기계 상호작용 설계 이념에 영향을 미칩니다
- AI 시스템 자기 모니터링 능력 발전을 추진합니다
재현 가능성:
- 완전한 데이터 및 코드를 제공합니다(OSF 플랫폼)
- 실험 절차 설명이 상세하고 명확합니다
- 통계 방법의 표준화 수준이 높습니다

적용 시나리오

교육 기술: 개인화 학습 시스템, 지능형 교수 보조 도구의 능력 평가
인간-기계 상호작용: 챗봇, AI 보조 도구의 자기 모니터링 능력 개선
인지 평가: AI 시스템 인지 능력의 표준화 테스트
AI 안전: AI 시스템의 자기 인식 및 신뢰성 평가

참고 문헌

Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

본 논문은 LLMs의 메타인지 능력 연구에 있어 개척적 의의를 지니고 있으며, 일부 방법론적 한계가 있지만 그 발견은 AI 시스템의 인지 경계를 이해하고 관련 기술 발전을 추진하는 데 중요한 가치를 가집니다. 연구 결과는 현재의 AI 시스템이 자기 모니터링 및 메타인지 측면에서 여전히 개선의 여지가 많음을 보여주며, 이는 향후 연구 및 응용을 위한 명확한 방향을 제시합니다.