Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic
Оценка обучаемости: Человеческая способность, выходящая за пределы генеративного искусственного интеллекта
Большие языковые модели (LLMs) все более успешно моделируют человеческое познание в различных языковых задачах. Однако их метакогнитивные способности — в частности, способность предсказывать производительность памяти — остаются неисследованными. В данном исследовании представлена кросс-агентная модель предсказания, оценивающая, соответствуют ли LLMs на основе ChatGPT человеческим суждениям об обучении (JOL) — метакогнитивной мере, при которой индивид предсказывает свою будущую производительность памяти. Исследование тестировало обработку пар предложений людьми и LLMs, где одно из них является садовой дорожкой — типом предложения, которое первоначально вводит читателя в заблуждение, требуя переанализа. Путем манипулирования степенью контекстного соответствия (соответствующие vs несоответствующие предложения) изучалось, как внутренние сигналы (т.е. релевантность) влияют на JOL LLM и человека. Результаты показали, что хотя человеческие JOL надежно предсказывают фактическую производительность памяти, все протестированные LLMs (GPT-3.5-turbo, GPT-4-turbo и GPT-4o) не продемонстрировали сравнимую точность предсказания.
Проблема, которую необходимо решить: Исследование того, обладают ли большие языковые модели метакогнитивными способностями, в частности, способны ли они, как люди, проводить суждения об обучении (JOL) и предсказывать производительность памяти.
Важность проблемы:
LLMs продемонстрировали сходство с человеческим познанием на объектном уровне
Метакогнитивные способности критичны для самоконтроля AI-систем, адаптации и предсказания человеческих реакций
Отсутствие этой способности ограничивает применение AI в образовании, персонализированном обучении и других областях
Ограничения существующих подходов:
Существующие исследования сосредоточены в основном на когнитивных способностях LLMs на объектном уровне
Отсутствует систематическое исследование способностей на метакогнитивном уровне
Хотя LLMs могут моделировать совокупные характеристики человеческого познания, им сложно уловить индивидуальные различия
Исследовательская мотивация:
Заполнить пробел в исследованиях метакогнитивных способностей LLMs
Обеспечить теоретическую основу для повышения автономности AI-систем и качества взаимодействия человека и машины
Исследовать потенциал AI в задачах, требующих глубокого когнитивного осознания, таких как образование
Предложение кросс-агентной модели предсказания: Первое систематическое сравнение метакогнитивных способностей людей и LLMs в задачах оценки обучаемости
Выявление метакогнитивных ограничений LLMs: Обнаружение того, что несмотря на хорошую производительность LLMs на объектном уровне, их способности мониторинга на метауровне серьезно недостаточны
Проверка влияния контекста на JOL: Глубокий анализ роли релевантности как внутреннего сигнала посредством манипулирования садовыми дорожками и контекстом
Предоставление образовательных инсайтов: Важные доказательства ограничений AI в приложениях персонализированного обучения и образовательных технологий
Установление новой исследовательской парадигмы: Создание методологической основы для будущих исследований метакогнитивных способностей LLMs
Задача оценки обучаемости (JOL): Участники (люди или LLM) читают пары предложений и затем предсказывают запоминаемость второго предложения (садовой дорожки) в будущем тесте памяти, оценивая по шкале от 1 до 10.
Входные данные: Пары предложений (контекстное предложение + садовая дорожка)
Выходные данные: Оценка релевантности (1-10) + оценка запоминаемости (1-10)
Ограничения: Контекст разделен на две условия: соответствующий и несоответствующий
"Read Sentence 1 and Sentence 2 and answer the following question.
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
Метод бутстрап-анализа:
1000 итераций переиспользования выборки
Сохранение внутренней структуры участников и элементов
Генерирование 95% доверительных интервалов для оценки предсказательной способности
Обобщенная линейная смешанная модель эффектов (GLMM):
Фиксированные эффекты: JOL, контекст и их взаимодействие
Случайные эффекты: случайные пересечения для участников и элементов
Уникальное метакогнитивное преимущество человека: Люди способны точно проводить оценку обучаемости, тогда как современные передовые LLMs не могут это делать
Узкое место в автономности AI: Отсутствие у LLMs эффективной способности самоконтроля ограничивает развитие их автономности
Вызовы в моделировании индивидуальных различий: Хотя LLMs могут моделировать совокупные когнитивные характеристики, им сложно уловить когнитивную вариативность на индивидуальном уровне
Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.
Данная статья имеет новаторское значение в исследовании метакогнитивных способностей LLMs. Несмотря на некоторые методологические ограничения, ее выводы имеют важную ценность для понимания когнитивных границ AI-систем и содействия развитию соответствующих технологий. Результаты исследования показывают, что современные AI-системы все еще имеют значительное пространство для улучшения в области самоконтроля и метакогнитивности, что предоставляет четкое направление для будущих исследований и приложений.