Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic
الحكم على التعلم: قدرة إنسانية تتجاوز الذكاء الاصطناعي التوليدي
تُظهر نماذج اللغة الكبيرة (LLMs) قدرة متزايدة على محاكاة الإدراك البشري في مختلف المهام القائمة على اللغة. ومع ذلك، لم تُستكشف بعد قدراتها ما وراء المعرفية — وخاصة في التنبؤ بأداء الذاكرة. تقدم هذه الدراسة نموذج تنبؤ عبر الوكلاء الذكيين يقيّم ما إذا كانت نماذج اللغة الكبيرة المستندة إلى ChatGPT متوافقة مع الحكم على التعلم (JOL) لدى البشر، وهو مقياس ما وراء معرفي يتنبأ فيه الفرد بأدائه المستقبلي في الذاكرة. اختبرت الدراسة معالجة البشر ونماذج اللغة الكبيرة لأزواج الجمل، حيث يكون أحدها جملة حديقة مسارات — جملة تضلل القارئ في البداية ثم تتطلب إعادة تحليل. من خلال التلاعب بدرجة توافق السياق (جمل متطابقة مقابل غير متطابقة)، تم استكشاف كيفية تأثير الإشارات الداخلية (أي الملاءمة) على الحكم على التعلم لدى نماذج اللغة الكبيرة والبشر. أظهرت النتائج أنه بينما يمكن للحكم على التعلم البشري التنبؤ بشكل موثوق بأداء الذاكرة الفعلية، فإن جميع نماذج اللغة الكبيرة المختبرة (GPT-3.5-turbo و GPT-4-turbo و GPT-4o) لم تُظهر دقة تنبؤية قابلة للمقارنة.
المشكلة المراد حلها: استكشاف ما إذا كانت نماذج اللغة الكبيرة تمتلك قدرات ما وراء معرفية، وخاصة القدرة على إجراء الحكم على التعلم (JOL) مثل البشر والتنبؤ بأداء الذاكرة.
أهمية المشكلة:
أظهرت نماذج اللغة الكبيرة تشابهاً مع الإدراك البشري على المستوى الموضوعي
القدرات ما وراء المعرفية ضرورية لمراقبة الأنظمة الذكية ذاتياً وتكيفها والتنبؤ بالاستجابات البشرية
يحد غياب هذه القدرة من تطبيقات الذكاء الاصطناعي في التعليم والتعلم الشخصي
قيود الأساليب الموجودة:
تركز الأبحاث الموجودة بشكل أساسي على القدرات المعرفية لنماذج اللغة الكبيرة على المستوى الموضوعي
نقص الدراسات المنهجية للقدرات على المستوى ما وراء المعرفي
بينما يمكن لنماذج اللغة الكبيرة محاكاة الأداء الكلي للإدراك البشري، فإنها تواجه صعوبة في التقاط الفروقات الفردية
الدافع البحثي:
سد الفجوة في أبحاث القدرات ما وراء المعرفية لنماذج اللغة الكبيرة
توفير أساس نظري لتحسين استقلالية أنظمة الذكاء الاصطناعي وجودة التفاعل بين الإنسان والآلة
استكشاف إمكانات الذكاء الاصطناعي في المهام التي تتطلب وعياً معرفياً عميقاً مثل التعليم
اقتراح نموذج تنبؤ عبر الوكلاء الذكيين: أول مقارنة منهجية بين القدرات ما وراء المعرفية للبشر ونماذج اللغة الكبيرة في مهام الحكم على التعلم
الكشف عن القيود ما وراء المعرفية لنماذج اللغة الكبيرة: اكتشاف أنه على الرغم من الأداء الجيد على المستوى الموضوعي، فإن قدرات المراقبة على المستوى ما وراء المعرفي ناقصة بشكل خطير
التحقق من تأثير السياق على الحكم على التعلم: تحليل متعمق لدور الملاءمة كإشارة داخلية من خلال جمل حديقة المسارات والتلاعب بالسياق
توفير رؤى التطبيقات التعليمية: توفير أدلة مهمة على القيود الأساسية للذكاء الاصطناعي في التعلم الشخصي وتكنولوجيا التعليم
إنشاء نموذج بحثي جديد: وضع أساس منهجي لأبحاث القدرات ما وراء المعرفية لنماذج اللغة الكبيرة في المستقبل
مهمة الحكم على التعلم (JOL): يقرأ المشاركون (البشر أو نماذج اللغة الكبيرة) أزواج الجمل ثم يتنبأون بقابلية تذكر الجملة الثانية (جملة حديقة المسارات) في اختبار الذاكرة المستقبلي، بدرجات تتراوح من 1-10.
المدخلات: أزواج الجمل (جملة السياق + جملة حديقة المسارات)
المخرجات: درجة الملاءمة (1-10) + درجة قابلية التذكر (1-10)
القيود: ينقسم السياق إلى حالتين متطابقة وغير متطابقة
الميزة ما وراء المعرفية الفريدة للبشر: يمكن للبشر إجراء الحكم على التعلم بدقة، بينما فشلت أحدث نماذج اللغة الكبيرة في القيام بذلك
اختناق استقلالية الذكاء الاصطناعي: يفتقر نماذج اللغة الكبيرة إلى القدرة على المراقبة الذاتية الفعالة، مما يحد من تطور استقلاليتها
تحدي نمذجة الفروقات الفردية: بينما يمكن لنماذج اللغة الكبيرة محاكاة الأداء المعرفي الكلي، فإنها تواجه صعوبة في التقاط التنوع المعرفي على المستوى الفردي
Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.
تتمتع هذه الورقة بأهمية رائدة في مجال أبحاث القدرات ما وراء المعرفية لنماذج اللغة الكبيرة. على الرغم من وجود بعض قيود الطريقة، فإن اكتشافاتها ذات قيمة مهمة لفهم الحدود المعرفية لأنظمة الذكاء الاصطناعي وتعزيز تطوير التقنيات ذات الصلة. تشير نتائج الدراسة إلى أن أنظمة الذكاء الاصطناعي الحالية لا تزال تحتاج إلى تحسينات كبيرة في المراقبة الذاتية والقدرات ما وراء المعرفية، مما يوفر اتجاهاً واضحاً للبحث والتطبيق في المستقبل.