2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic

Оценка обучаемости: Человеческая способность, выходящая за пределы генеративного искусственного интеллекта

Основная информация

  • ID статьи: 2410.13392
  • Название: Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
  • Авторы: Маркус Хафф, Еланур Улакчи (Leibniz-Institut für Wissensmedien & Eberhard Karls Universität Tübingen)
  • Классификация: cs.CL (Вычислительная лингвистика)
  • Дата публикации: Октябрь 2024
  • Ссылка на статью: https://arxiv.org/abs/2410.13392

Аннотация

Большие языковые модели (LLMs) все более успешно моделируют человеческое познание в различных языковых задачах. Однако их метакогнитивные способности — в частности, способность предсказывать производительность памяти — остаются неисследованными. В данном исследовании представлена кросс-агентная модель предсказания, оценивающая, соответствуют ли LLMs на основе ChatGPT человеческим суждениям об обучении (JOL) — метакогнитивной мере, при которой индивид предсказывает свою будущую производительность памяти. Исследование тестировало обработку пар предложений людьми и LLMs, где одно из них является садовой дорожкой — типом предложения, которое первоначально вводит читателя в заблуждение, требуя переанализа. Путем манипулирования степенью контекстного соответствия (соответствующие vs несоответствующие предложения) изучалось, как внутренние сигналы (т.е. релевантность) влияют на JOL LLM и человека. Результаты показали, что хотя человеческие JOL надежно предсказывают фактическую производительность памяти, все протестированные LLMs (GPT-3.5-turbo, GPT-4-turbo и GPT-4o) не продемонстрировали сравнимую точность предсказания.

Исследовательский контекст и мотивация

  1. Проблема, которую необходимо решить: Исследование того, обладают ли большие языковые модели метакогнитивными способностями, в частности, способны ли они, как люди, проводить суждения об обучении (JOL) и предсказывать производительность памяти.
  2. Важность проблемы:
    • LLMs продемонстрировали сходство с человеческим познанием на объектном уровне
    • Метакогнитивные способности критичны для самоконтроля AI-систем, адаптации и предсказания человеческих реакций
    • Отсутствие этой способности ограничивает применение AI в образовании, персонализированном обучении и других областях
  3. Ограничения существующих подходов:
    • Существующие исследования сосредоточены в основном на когнитивных способностях LLMs на объектном уровне
    • Отсутствует систематическое исследование способностей на метакогнитивном уровне
    • Хотя LLMs могут моделировать совокупные характеристики человеческого познания, им сложно уловить индивидуальные различия
  4. Исследовательская мотивация:
    • Заполнить пробел в исследованиях метакогнитивных способностей LLMs
    • Обеспечить теоретическую основу для повышения автономности AI-систем и качества взаимодействия человека и машины
    • Исследовать потенциал AI в задачах, требующих глубокого когнитивного осознания, таких как образование

Основные вклады

  1. Предложение кросс-агентной модели предсказания: Первое систематическое сравнение метакогнитивных способностей людей и LLMs в задачах оценки обучаемости
  2. Выявление метакогнитивных ограничений LLMs: Обнаружение того, что несмотря на хорошую производительность LLMs на объектном уровне, их способности мониторинга на метауровне серьезно недостаточны
  3. Проверка влияния контекста на JOL: Глубокий анализ роли релевантности как внутреннего сигнала посредством манипулирования садовыми дорожками и контекстом
  4. Предоставление образовательных инсайтов: Важные доказательства ограничений AI в приложениях персонализированного обучения и образовательных технологий
  5. Установление новой исследовательской парадигмы: Создание методологической основы для будущих исследований метакогнитивных способностей LLMs

Подробное описание методологии

Определение задачи

Задача оценки обучаемости (JOL): Участники (люди или LLM) читают пары предложений и затем предсказывают запоминаемость второго предложения (садовой дорожки) в будущем тесте памяти, оценивая по шкале от 1 до 10.

Входные данные: Пары предложений (контекстное предложение + садовая дорожка) Выходные данные: Оценка релевантности (1-10) + оценка запоминаемости (1-10) Ограничения: Контекст разделен на две условия: соответствующий и несоответствующий

Экспериментальный дизайн

Подготовка материалов

  • Садовые дорожки: 45 грамматически сложных предложений, например: "Because Bill drinks wine is never kept in the house"
  • Манипулирование контекстом:
    • Соответствующий контекст: "Bill has chronic alcoholism"
    • Несоответствующий контекст: "Bill likes to play golf"

Кросс-агентная модель предсказания

Модель содержит два основных компонента:

  1. Эксперимент с людьми: 78 участников завершили процедуру обучение-оценка-тестирование
  2. Оценка LLM: GPT-3.5-turbo, GPT-4-turbo, GPT-4o каждый сгенерировали 9000 независимых ответов

Технические инновации

  1. Стратегия нулевого примера (Zero-shot):
"Read Sentence 1 and Sentence 2 and answer the following question. 
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
  1. Метод бутстрап-анализа:
    • 1000 итераций переиспользования выборки
    • Сохранение внутренней структуры участников и элементов
    • Генерирование 95% доверительных интервалов для оценки предсказательной способности
  2. Обобщенная линейная смешанная модель эффектов (GLMM):
    • Фиксированные эффекты: JOL, контекст и их взаимодействие
    • Случайные эффекты: случайные пересечения для участников и элементов

Экспериментальная установка

Набор данных

  • Данные LLM: 9000 ответов для каждой модели (4500 соответствующих/несоответствующих)
  • Данные людей: 78 участников, 44 пары предложений (22 целевых + 22 отвлекающих)
  • Предварительная обработка: Исключение участников с нарушениями зрения и неполным завершением эксперимента

Метрики оценки

  • Основная метрика: Корреляция между JOL и фактической производительностью памяти (бутстрап-коэффициент)
  • Вспомогательные метрики: Тесты значимости эффектов контекста
  • Статистические методы: 95% доверительные интервалы, тест хи-квадрат

Методы сравнения

  • Производительность человеческого JOL как золотой стандарт
  • Сравнение нулевого примера трех моделей GPT
  • Сравнение условий соответствующего vs несоответствующего контекста

Детали реализации

  • Параметры LLM: temperature=1 для увеличения вариативности ответов
  • Эксперимент с людьми: Программирование на PsychoPy, 15 минут на завершение
  • Статистический анализ: Язык R, пакет car для анализа ANOVA

Результаты экспериментов

Основные результаты

Производительность людей

  • Соответствующий контекст: B = 0.167, 95% CI 0.018, 0.316 ✓ значимо
  • Несоответствующий контекст: B = 0.104, 95% CI 0.005, 0.202 ✓ значимо
  • Основной эффект JOL: χ²(1) = 36.29, p < .001
  • Основной эффект контекста: χ²(1) = 80.59, p < .001

Производительность LLM

Все модели GPT не продемонстрировали значимую предсказательную способность в обоих условиях контекста:

Соответствующий контекст:

  • GPT-3.5-turbo: B = 0.013, 95% CI -0.147, 0.172
  • GPT-4-turbo: B = 0.026, 95% CI -0.143, 0.194
  • GPT-4o: B = 0.045, 95% CI -0.159, 0.248

Несоответствующий контекст:

  • GPT-3.5-turbo: B = 0.044, 95% CI -0.087, 0.175
  • GPT-4-turbo: B = 0.016, 95% CI -0.108, 0.139
  • GPT-4o: B = 0.027, 95% CI -0.090, 0.143

Ключевые находки

  1. Отсутствие метакогнитивных способностей: Все протестированные LLMs не могут эффективно предсказывать производительность человеческой памяти
  2. Независимость от контекста: Неудача предсказания LLMs не зависит от степени контекстного соответствия
  3. Сложность захвата индивидуальных различий: LLMs не могут моделировать индивидуальную вариативность человеческого JOL
  4. Различие между объектным и метауровнем: Подтверждение различий в способностях LLMs на разных уровнях познания

Связанные работы

Исследования машинной психологии

  • Binz & Schulz (2023): Сходство LLMs с человеком в когнитивных задачах
  • Strachan et al. (2024): Тестирование теории психики больших языковых моделей
  • Вклад данной работы: Расширение от объектного уровня познания к метакогнитивному уровню

Теоретические основы метакогнитивности

  • Nelson (1990): Теоретическая основа метапамяти и оценки обучаемости
  • Koriat (1997): Структура использования сигналов в JOL
  • Вклад данной работы: Применение теории метакогнитивности к оценке AI-систем

Приложения в образовательных технологиях

  • Chen et al. (2020): Применение AI в персонализированном обучении
  • Находки данной работы: Выявление фундаментальных ограничений современных AI-систем в образовательных приложениях

Выводы и обсуждение

Основные выводы

  1. Уникальное метакогнитивное преимущество человека: Люди способны точно проводить оценку обучаемости, тогда как современные передовые LLMs не могут это делать
  2. Узкое место в автономности AI: Отсутствие у LLMs эффективной способности самоконтроля ограничивает развитие их автономности
  3. Вызовы в моделировании индивидуальных различий: Хотя LLMs могут моделировать совокупные когнитивные характеристики, им сложно уловить когнитивную вариативность на индивидуальном уровне

Ограничения

  1. Ограничения оценки нулевого примера: Не исследована производительность LLMs, прошедших специальное обучение
  2. Ограничения черного ящика: Невозможно глубоко проанализировать внутренние механизмы LLMs
  3. Зависимость от версии: Результаты могут быть неприменимы к будущим версиям моделей
  4. Специфичность задачи: Протестированы только метакогнитивные способности, связанные с памятью

Будущие направления

  1. Усиление метакогнитивных способностей: Разработка специализированных методов обучения метакогнитивности
  2. Моделирование индивидуальных различий: Исследование технологий для захвата индивидуальных когнитивных различий
  3. Множественные метакогнитивные задачи: Расширение на другие типы метакогнитивной оценки
  4. Оптимизация образовательных приложений: Улучшение AI-инструментов образования на основе полученных результатов

Глубокая оценка

Преимущества

  1. Инновационность исследования:
    • Первое систематическое исследование метакогнитивных способностей LLMs
    • Предложена новая парадигма кросс-агентной модели предсказания
    • Органичное объединение теории когнитивной психологии с оценкой AI
  2. Методологическая строгость:
    • Применены строгие статистические методы (бутстрап + GLMM)
    • Контролировались множественные потенциальные факторы смешивания
    • Размер выборки рассчитан на основе априорного анализа мощности
  3. Практическая ценность:
    • Предоставлены важные предупреждения для AI-приложений в образовании
    • Выявлены когнитивные различия в взаимодействии человека и машины
    • Указаны направления для улучшения AI-систем
  4. Теоретический вклад:
    • Обогащение области исследований машинной психологии
    • Подтверждение применимости теории метакогнитивности Нельсона-Кориата в оценке AI

Недостатки

  1. Методологические ограничения:
    • Использована только оценка нулевого примера, не исследованы эффекты тонкой настройки или инженерии подсказок
    • Садовые дорожки могут быть недостаточно репрезентативны, влияя на универсальность результатов
    • Установка параметра температуры (temperature=1) может влиять на стабильность производительности LLM
  2. Недостаточная глубина анализа:
    • Отсутствует глубокий анализ механизмов отказа LLMs
    • Не исследовано конкретное влияние различных типов внутренних сигналов
    • Ограниченный количественный анализ индивидуальных различий
  3. Дефекты экспериментального дизайна:
    • Существуют различия в условиях тестирования людей и LLM (интерактивность vs пакетная обработка)
    • Отсутствует анализ внутренних представлений LLMs
    • Относительно ограниченный размер выборки (78 участников-людей)

Влияние

  1. Академическая ценность:
    • Открыто новое направление исследований оценки метакогнитивных способностей LLMs
    • Предоставлен пример для кросс-дисциплинарных исследований когнитивной науки и AI
    • Вероятно, вызовет больше исследований, связанных с метакогнитивностью AI
  2. Практическое влияние:
    • Предоставлены важные ориентиры для разработчиков AI-инструментов образования
    • Влияние на идеологию проектирования взаимодействия человека и машины
    • Содействие развитию способностей самоконтроля AI-систем
  3. Воспроизводимость:
    • Предоставлены полные данные и код (платформа OSF)
    • Подробное и четкое описание экспериментальной процедуры
    • Высокий уровень стандартизации статистических методов

Применимые сценарии

  1. Образовательные технологии: Оценка способностей систем персонализированного обучения, интеллектуальных помощников преподавания
  2. Взаимодействие человека и машины: Улучшение способностей самоконтроля чат-ботов, AI-ассистентов
  3. Оценка когнитивных способностей: Стандартизированное тестирование когнитивных способностей AI-систем
  4. Безопасность AI: Оценка самосознания и надежности AI-систем

Библиография

  1. Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
  2. Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
  3. Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
  4. Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
  5. Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

Данная статья имеет новаторское значение в исследовании метакогнитивных способностей LLMs. Несмотря на некоторые методологические ограничения, ее выводы имеют важную ценность для понимания когнитивных границ AI-систем и содействия развитию соответствующих технологий. Результаты исследования показывают, что современные AI-системы все еще имеют значительное пространство для улучшения в области самоконтроля и метакогнитивности, что предоставляет четкое направление для будущих исследований и приложений.