2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic

الحكم على التعلم: قدرة إنسانية تتجاوز الذكاء الاصطناعي التوليدي

المعلومات الأساسية

  • معرّف الورقة: 2410.13392
  • العنوان: الحكم على التعلم: قدرة إنسانية تتجاوز الذكاء الاصطناعي التوليدي
  • المؤلفون: ماركوس هوف، إيلانور أولاكجي (معهد لايبنتس لوسائط المعرفة وجامعة إبرهارد كارلس توبنغن)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: أكتوبر 2024
  • رابط الورقة: https://arxiv.org/abs/2410.13392

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) قدرة متزايدة على محاكاة الإدراك البشري في مختلف المهام القائمة على اللغة. ومع ذلك، لم تُستكشف بعد قدراتها ما وراء المعرفية — وخاصة في التنبؤ بأداء الذاكرة. تقدم هذه الدراسة نموذج تنبؤ عبر الوكلاء الذكيين يقيّم ما إذا كانت نماذج اللغة الكبيرة المستندة إلى ChatGPT متوافقة مع الحكم على التعلم (JOL) لدى البشر، وهو مقياس ما وراء معرفي يتنبأ فيه الفرد بأدائه المستقبلي في الذاكرة. اختبرت الدراسة معالجة البشر ونماذج اللغة الكبيرة لأزواج الجمل، حيث يكون أحدها جملة حديقة مسارات — جملة تضلل القارئ في البداية ثم تتطلب إعادة تحليل. من خلال التلاعب بدرجة توافق السياق (جمل متطابقة مقابل غير متطابقة)، تم استكشاف كيفية تأثير الإشارات الداخلية (أي الملاءمة) على الحكم على التعلم لدى نماذج اللغة الكبيرة والبشر. أظهرت النتائج أنه بينما يمكن للحكم على التعلم البشري التنبؤ بشكل موثوق بأداء الذاكرة الفعلية، فإن جميع نماذج اللغة الكبيرة المختبرة (GPT-3.5-turbo و GPT-4-turbo و GPT-4o) لم تُظهر دقة تنبؤية قابلة للمقارنة.

السياق البحثي والدافع

  1. المشكلة المراد حلها: استكشاف ما إذا كانت نماذج اللغة الكبيرة تمتلك قدرات ما وراء معرفية، وخاصة القدرة على إجراء الحكم على التعلم (JOL) مثل البشر والتنبؤ بأداء الذاكرة.
  2. أهمية المشكلة:
    • أظهرت نماذج اللغة الكبيرة تشابهاً مع الإدراك البشري على المستوى الموضوعي
    • القدرات ما وراء المعرفية ضرورية لمراقبة الأنظمة الذكية ذاتياً وتكيفها والتنبؤ بالاستجابات البشرية
    • يحد غياب هذه القدرة من تطبيقات الذكاء الاصطناعي في التعليم والتعلم الشخصي
  3. قيود الأساليب الموجودة:
    • تركز الأبحاث الموجودة بشكل أساسي على القدرات المعرفية لنماذج اللغة الكبيرة على المستوى الموضوعي
    • نقص الدراسات المنهجية للقدرات على المستوى ما وراء المعرفي
    • بينما يمكن لنماذج اللغة الكبيرة محاكاة الأداء الكلي للإدراك البشري، فإنها تواجه صعوبة في التقاط الفروقات الفردية
  4. الدافع البحثي:
    • سد الفجوة في أبحاث القدرات ما وراء المعرفية لنماذج اللغة الكبيرة
    • توفير أساس نظري لتحسين استقلالية أنظمة الذكاء الاصطناعي وجودة التفاعل بين الإنسان والآلة
    • استكشاف إمكانات الذكاء الاصطناعي في المهام التي تتطلب وعياً معرفياً عميقاً مثل التعليم

المساهمات الأساسية

  1. اقتراح نموذج تنبؤ عبر الوكلاء الذكيين: أول مقارنة منهجية بين القدرات ما وراء المعرفية للبشر ونماذج اللغة الكبيرة في مهام الحكم على التعلم
  2. الكشف عن القيود ما وراء المعرفية لنماذج اللغة الكبيرة: اكتشاف أنه على الرغم من الأداء الجيد على المستوى الموضوعي، فإن قدرات المراقبة على المستوى ما وراء المعرفي ناقصة بشكل خطير
  3. التحقق من تأثير السياق على الحكم على التعلم: تحليل متعمق لدور الملاءمة كإشارة داخلية من خلال جمل حديقة المسارات والتلاعب بالسياق
  4. توفير رؤى التطبيقات التعليمية: توفير أدلة مهمة على القيود الأساسية للذكاء الاصطناعي في التعلم الشخصي وتكنولوجيا التعليم
  5. إنشاء نموذج بحثي جديد: وضع أساس منهجي لأبحاث القدرات ما وراء المعرفية لنماذج اللغة الكبيرة في المستقبل

شرح تفصيلي للطريقة

تعريف المهمة

مهمة الحكم على التعلم (JOL): يقرأ المشاركون (البشر أو نماذج اللغة الكبيرة) أزواج الجمل ثم يتنبأون بقابلية تذكر الجملة الثانية (جملة حديقة المسارات) في اختبار الذاكرة المستقبلي، بدرجات تتراوح من 1-10.

المدخلات: أزواج الجمل (جملة السياق + جملة حديقة المسارات) المخرجات: درجة الملاءمة (1-10) + درجة قابلية التذكر (1-10) القيود: ينقسم السياق إلى حالتين متطابقة وغير متطابقة

تصميم التجربة

بناء المواد

  • جمل حديقة المسارات: 45 جملة معقدة نحوياً، مثل "Because Bill drinks wine is never kept in the house"
  • التلاعب بالسياق:
    • السياق المتطابق: "Bill has chronic alcoholism"
    • السياق غير المتطابق: "Bill likes to play golf"

نموذج التنبؤ عبر الوكلاء الذكيين

يتضمن النموذج مكونين أساسيين:

  1. التجربة البشرية: 78 مشاركاً أكملوا عملية التعلم والحكم والاختبار
  2. تقييم نماذج اللغة الكبيرة: GPT-3.5-turbo و GPT-4-turbo و GPT-4o كل منها ينتج 9000 استجابة مستقلة

نقاط الابتكار التقني

  1. استراتيجية الإشارات بدون عينات:
"اقرأ الجملة 1 والجملة 2 وأجب على السؤال التالي. 
كيف تقيّم قابلية تذكر الجملة 2 من 1 (ليس على الإطلاق) إلى 10 (ممتاز)؟"
  1. طريقة تحليل Bootstrap:
    • 1000 تكرار إعادة عينات
    • الحفاظ على البنية الداخلية للمشاركين والعناصر
    • توليد فترات ثقة بنسبة 95% لتقييم القدرة التنبؤية
  2. نموذج التأثيرات المختلطة الخطية المعممة (GLMM):
    • التأثيرات الثابتة: الحكم على التعلم والسياق والتفاعل بينهما
    • التأثيرات العشوائية: الحد الأدنى العشوائي للمشاركين والعناصر

إعداد التجربة

مجموعة البيانات

  • بيانات نماذج اللغة الكبيرة: 9000 استجابة لكل نموذج (4500 متطابقة/غير متطابقة)
  • البيانات البشرية: 78 مشاركاً، 44 زوج جملة (22 هدف + 22 عنصر تشتيت)
  • المعالجة المسبقة: استبعاد المشاركين ذوي الرؤية غير الطبيعية والذين لم يكملوا التجربة

مؤشرات التقييم

  • المؤشر الرئيسي: الارتباط بين الحكم على التعلم وأداء الذاكرة الفعلية (منحدر Bootstrap)
  • المؤشرات المساعدة: اختبار الأهمية لتأثيرات السياق
  • الطريقة الإحصائية: فترات ثقة بنسبة 95%، اختبار مربع كاي

طرق المقارنة

  • أداء الحكم على التعلم البشري كمعيار ذهبي
  • مقارنة الأداء بدون عينات لثلاثة نماذج GPT
  • مقارنة حالات السياق المتطابق مقابل غير المتطابق

تفاصيل التنفيذ

  • إعدادات نماذج اللغة الكبيرة: temperature=1 لزيادة تنوع الاستجابات
  • التجربة البشرية: برمجة PsychoPy، 15 دقيقة للإكمال
  • التحليل الإحصائي: لغة R، حزمة car لتحليل ANOVA

نتائج التجربة

النتائج الرئيسية

الأداء البشري

  • السياق المتطابق: B = 0.167, 95% CI 0.018, 0.316 ✓ دال إحصائياً
  • السياق غير المتطابق: B = 0.104, 95% CI 0.005, 0.202 ✓ دال إحصائياً
  • التأثير الرئيسي للحكم على التعلم: χ²(1) = 36.29, p < .001
  • التأثير الرئيسي للسياق: χ²(1) = 80.59, p < .001

أداء نماذج اللغة الكبيرة

فشلت جميع نماذج GPT في إظهار قدرة تنبؤية دالة إحصائياً في كلا حالات السياق:

السياق المتطابق:

  • GPT-3.5-turbo: B = 0.013, 95% CI -0.147, 0.172
  • GPT-4-turbo: B = 0.026, 95% CI -0.143, 0.194
  • GPT-4o: B = 0.045, 95% CI -0.159, 0.248

السياق غير المتطابق:

  • GPT-3.5-turbo: B = 0.044, 95% CI -0.087, 0.175
  • GPT-4-turbo: B = 0.016, 95% CI -0.108, 0.139
  • GPT-4o: B = 0.027, 95% CI -0.090, 0.143

الاكتشافات الرئيسية

  1. غياب القدرات ما وراء المعرفية: فشلت جميع نماذج اللغة الكبيرة المختبرة في التنبؤ الفعال بأداء الذاكرة البشرية
  2. عدم الاعتماد على السياق: فشل التنبؤ لنماذج اللغة الكبيرة لا يعتمد على درجة توافق السياق
  3. صعوبة التقاط الفروقات الفردية: لا يمكن لنماذج اللغة الكبيرة محاكاة التنوع الفردي في الحكم على التعلم البشري
  4. الفرق بين المستوى الموضوعي والمستوى ما وراء المعرفي: تأكيد الفروقات في القدرات بين مستويات الإدراك المختلفة

الأعمال ذات الصلة

أبحاث علم النفس الآلي

  • Binz & Schulz (2023): تشابه نماذج اللغة الكبيرة مع البشر في المهام المعرفية
  • Strachan et al. (2024): اختبار نظرية العقل لنماذج اللغة الكبيرة
  • مساهمة هذه الورقة: التوسع من الإدراك على المستوى الموضوعي إلى المستوى ما وراء المعرفي

الأساس النظري لما وراء المعرفة

  • Nelson (1990): الإطار النظري لما وراء الذاكرة والحكم على التعلم
  • Koriat (1997): إطار استخدام الإشارات في الحكم على التعلم
  • مساهمة هذه الورقة: تطبيق نظرية ما وراء المعرفة على تقييم أنظمة الذكاء الاصطناعي

تطبيقات تكنولوجيا التعليم

  • Chen et al. (2020): تطبيقات الذكاء الاصطناعي في التعلم الشخصي
  • اكتشافات هذه الورقة: الكشف عن القيود الأساسية لأنظمة الذكاء الاصطناعي الحالية في التطبيقات التعليمية

الخلاصات والمناقشة

الاستنتاجات الرئيسية

  1. الميزة ما وراء المعرفية الفريدة للبشر: يمكن للبشر إجراء الحكم على التعلم بدقة، بينما فشلت أحدث نماذج اللغة الكبيرة في القيام بذلك
  2. اختناق استقلالية الذكاء الاصطناعي: يفتقر نماذج اللغة الكبيرة إلى القدرة على المراقبة الذاتية الفعالة، مما يحد من تطور استقلاليتها
  3. تحدي نمذجة الفروقات الفردية: بينما يمكن لنماذج اللغة الكبيرة محاكاة الأداء المعرفي الكلي، فإنها تواجه صعوبة في التقاط التنوع المعرفي على المستوى الفردي

القيود

  1. قيود التقييم بدون عينات: عدم استكشاف أداء نماذج اللغة الكبيرة المدربة بشكل خاص
  2. قيود النماذج الصندوق الأسود: عدم القدرة على تحليل الآليات الداخلية لنماذج اللغة الكبيرة بعمق
  3. الاعتماد على الإصدار: قد لا تنطبق النتائج على إصدارات النماذج المستقبلية
  4. خصوصية المهمة: تم اختبار القدرات ما وراء المعرفية المتعلقة بالذاكرة فقط

الاتجاهات المستقبلية

  1. تحسين القدرات ما وراء المعرفية: تطوير طرق تدريب متخصصة لتحسين القدرات ما وراء المعرفية
  2. نمذجة الفروقات الفردية: استكشاف التقنيات لالتقاط الفروقات الفردية في الإدراك
  3. مهام معرفية متعددة: التوسع إلى أنواع أخرى من التقييمات ما وراء المعرفية
  4. تحسين التطبيقات التعليمية: تحسين أدوات الذكاء الاصطناعي التعليمية بناءً على الاكتشافات

التقييم المتعمق

المميزات

  1. الابتكار البحثي:
    • أول دراسة منهجية للقدرات ما وراء المعرفية لنماذج اللغة الكبيرة
    • اقتراح نموذج جديد لنموذج التنبؤ عبر الوكلاء الذكيين
    • دمج عضوي لنظرية علم النفس المعرفي مع تقييم الذكاء الاصطناعي
  2. صرامة الطريقة:
    • استخدام طرق إحصائية صارمة (Bootstrap + GLMM)
    • التحكم في عوامل الخلط المحتملة المتعددة
    • حساب حجم العينة بناءً على تحليل القوة المسبق
  3. القيمة العملية:
    • توفير تحذير مهم لتطبيقات الذكاء الاصطناعي التعليمي
    • الكشف عن الفروقات المعرفية في التفاعل بين الإنسان والآلة
    • توجيه اتجاهات تحسين أنظمة الذكاء الاصطناعي
  4. المساهمة النظرية:
    • إثراء مجال أبحاث علم النفس الآلي
    • التحقق من قابلية تطبيق نظرية Nelson-Koriat ما وراء المعرفية في تقييم الذكاء الاصطناعي

أوجه القصور

  1. قيود الطريقة:
    • استخدام التقييم بدون عينات فقط، عدم استكشاف تأثيرات الضبط الدقيق أو هندسة الإشارات
    • قد لا تكون جمل حديقة المسارات ممثلة بشكل كافٍ، مما يؤثر على عمومية النتائج
    • قد يؤثر إعداد معامل درجة الحرارة (temperature=1) على استقرار أداء نماذج اللغة الكبيرة
  2. عمق التحليل غير كافٍ:
    • نقص التحليل المتعمق لآليات فشل نماذج اللغة الكبيرة
    • عدم استكشاف التأثير المحدد لأنواع مختلفة من الإشارات الداخلية
    • تحليل محدود للفروقات الفردية من حيث الكمية
  3. عيوب تصميم التجربة:
    • وجود اختلافات في ظروف الاختبار بين البشر ونماذج اللغة الكبيرة (التفاعلية مقابل المعالجة الدفعية)
    • نقص تحليل التمثيلات الداخلية لنماذج اللغة الكبيرة
    • حجم العينة نسبياً محدود (78 مشاركاً بشرياً)

التأثير

  1. القيمة الأكاديمية:
    • فتح اتجاه بحثي جديد لتقييم القدرات ما وراء المعرفية لنماذج اللغة الكبيرة
    • توفير نموذج للبحث المتقاطع بين العلوم المعرفية والذكاء الاصطناعي
    • قد يحفز المزيد من الأبحاث المتعلقة بما وراء المعرفة للذكاء الاصطناعي
  2. التأثير العملي:
    • توفير مرجع مهم لمطوري أدوات التعليم بالذكاء الاصطناعي
    • التأثير على فلسفة تصميم التفاعل بين الإنسان والآلة
    • تعزيز تطوير قدرات المراقبة الذاتية لأنظمة الذكاء الاصطناعي
  3. قابلية التكرار:
    • توفير بيانات وأكواد كاملة (منصة OSF)
    • وصف تفصيلي وواضح لعملية التجربة
    • مستوى عالٍ من توحيد الطرق الإحصائية

السيناريوهات المعمول بها

  1. تكنولوجيا التعليم: تقييم القدرات في أنظمة التعلم الشخصي والمساعدين التعليميين الذكيين
  2. التفاعل بين الإنسان والآلة: تحسين قدرات المراقبة الذاتية لروبوتات الدردشة ومساعدي الذكاء الاصطناعي
  3. التقييم المعرفي: الاختبار الموحد للقدرات المعرفية لأنظمة الذكاء الاصطناعي
  4. سلامة الذكاء الاصطناعي: تقييم الوعي الذاتي والموثوقية لأنظمة الذكاء الاصطناعي

المراجع

  1. Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
  2. Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
  3. Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
  4. Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
  5. Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

تتمتع هذه الورقة بأهمية رائدة في مجال أبحاث القدرات ما وراء المعرفية لنماذج اللغة الكبيرة. على الرغم من وجود بعض قيود الطريقة، فإن اكتشافاتها ذات قيمة مهمة لفهم الحدود المعرفية لأنظمة الذكاء الاصطناعي وتعزيز تطوير التقنيات ذات الصلة. تشير نتائج الدراسة إلى أن أنظمة الذكاء الاصطناعي الحالية لا تزال تحتاج إلى تحسينات كبيرة في المراقبة الذاتية والقدرات ما وراء المعرفية، مما يوفر اتجاهاً واضحاً للبحث والتطبيق في المستقبل.