2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant
Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
academic

مقارنة صعوبات معالجة الجمل بين البشر ونماذج اللغة في الهياكل المعقدة

المعلومات الأساسية

  • معرّف الورقة: 2510.07141
  • العنوان: مقارنة صعوبات معالجة الجمل بين البشر ونماذج اللغة في الهياكل المعقدة
  • المؤلفون: صموئيل جوزيف أموال، آيا ملتزر-أسشر، جوناثان بيرانت
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.07141

الملخص

لقد أثبتت نماذج اللغة الكبيرة (LLMs) قدرتها على الحوار السلس مع البشر، لكن هل تواجه صعوبات معالجة جملية مشابهة لتلك التي يواجهها البشر؟ تقارن هذه الدراسة بشكل منهجي قدرات فهم الجمل لدى البشر والنماذج اللغوية الحديثة (SOTA) عبر سبعة هياكل لغوية تحديّة. جمعت الدراسة بيانات فهم الجمل من البشر وخمس عائلات نماذج لغوية متقدمة، تختلف في الحجم وعمليات التدريب. أظهرت النتائج أن النماذج اللغوية تواجه صعوبات عامة في الهياكل المستهدفة، خاصة في جمل الحديقة المرتبكة (GP). بينما حققت أقوى النماذج دقة قريبة من الكمال في الهياكل غير-GP (وصلت GPT-5 إلى 93.7%)، إلا أنها أظهرت صعوبة في هياكل GP (GPT-5 بلغت 46.8% فقط). علاوة على ذلك، عند ترتيب الهياكل بناءً على متوسط الأداء، ارتفعت الارتباطات الرتبية بين البشر والنماذج مع زيادة عدد المعاملات.

السياق البحثي والدافع

تعريف المشكلة

مع التطورات المحققة في نماذج اللغة الكبيرة في قدرات الحوار، يطرح سؤال حاسم: هل تواجه النماذج اللغوية صعوبات معالجة في هياكل لغوية معينة مشابهة لما يواجهه البشر؟ يعتبر هذا السؤال حاسماً لفهم الآليات المعرفية للنماذج اللغوية وأوجه التشابه مع معالجة اللغة البشرية.

أهمية البحث

  1. الأهمية العلمية المعرفية: من خلال مقارنة أنماط الأخطاء بين البشر والنماذج اللغوية، يمكن الحصول على رؤى حول آليات معالجة اللغة لدى كلا الطرفين
  2. احتياجات تقييم النموذج: يركز التقييم التقليدي على الأداء الإجمالي، مع افتقار إلى التحليل الدقيق لقدرات معالجة الظواهر اللغوية المحددة
  3. القيمة التطبيقية: يساعد فهم قيود معالجة اللغة في النماذج اللغوية على تحسين تصميم النموذج ونشره التطبيقي

قيود البحث الحالي

  1. القياس غير المباشر: تستخدم معظم الدراسات مؤشرات غير مباشرة (مثل وقت القراءة والارتباك) بدلاً من اختبارات الفهم المباشرة
  2. عدم توحيد الإعدادات التجريبية: تستخدم الدراسات المختلفة نماذج وبيانات وتلميحات مختلفة، مما يصعب التوصل إلى استنتاجات موحدة
  3. نطاق تغطية محدود: يفتقد البحث إلى المقارنة المنهجية لظواهر لغوية متعددة

المساهمات الأساسية

  1. بناء مجموعة بيانات لفهم الجمل تضم سبعة هياكل لغوية تحديّة، تشمل أربعة أنواع من جمل الحديقة المرتبكة والتضمين المركزي المزدوج والتداخل المتشابه وجمل التأثير العميق
  2. اختبار منهجي لـ 31 نموذجاً متقدماً، يغطي 5 عائلات نماذج بأحجام وطرق تدريب متنوعة
  3. اكتشاف الفروقات في معالجة هياكل GP مقابل غير-GP: تُظهر النماذج اللغوية أداءً أقرب إلى الأداء البشري في جمل GP، بينما تتفوق على الأداء البشري في الهياكل غير-GP
  4. اقتراح قانون "نقطة الحلاوة": يمكن ملاحظة أنماط الفروقات بين الهدف والخط الأساسي المشابهة للبشر فقط في النماذج ذات القوة المعتدلة

شرح المنهجية

تعريف المهمة

الإدخال: جملة وسؤال فهم الإخراج: إجابة نعم/لا الهدف: مقارنة أنماط الأداء بين البشر والنماذج اللغوية في نفس المهمة

تصميم الهيكل التجريبي

سبعة هياكل لغوية

  1. جمل الحديقة المرتبكة (4 أنواع):
    • GP الفاعل/المفعول: "While the man hunted the deer ran into the woods."
    • GP الاسم/الجملة: "The policeman saw the lights were off."
    • GP الاسم/الفعل: "The complex houses married soldiers."
    • GP الجملة الموصولة المختزلة: "The chef hired last month worked overtime."
  2. التضمين المركزي المزدوج: يتضمن جملتين موصولتين متداخلتين، مثل "The man that the teacher that the student liked called sat."
  3. جمل التأثير العميق: هياكل النفي المتعددة، مثل "No head injury is too trivial to be ignored."
  4. التداخل المتشابه: يشترك اسمان في خصائص تسبب تداخلاً، مثل "The banker that the barber praised climbed the mountain."

التصميم المقارن

تم تصميم كل هيكل مع شرط الهدف (يتضمن الهيكل الصعب) وشرط الخط الأساسي (يزيل العامل الصعب)، مما يضمن قياس تأثير الهيكل نفسه.

الإجراء التجريبي

التجربة البشرية

  • المشاركون: متحدثون أصليون للغة الإنجليزية تم تجنيدهم عبر منصة Prolific
  • الإجراء: عرض الكلمات بشكل فردي (400 ميلي ثانية/كلمة)، عرض السؤال لمدة 5 ثوان
  • التصميم: يرى كل مشارك زوجاً واحداً من الجملة والسؤال فقط، لتجنب تأثيرات التعلم
  • حجم العينة: 5380 نقطة بيانات، مع 10 مشاركين لكل زوج جملة-سؤال

تجربة النموذج اللغوي

  • استراتيجية التلميح: تلميح قليل العينات يتضمن أمثلة بدون الهيكل المستهدف
  • التحكم في المتغيرات: 2 تلميح نظام × 4 ترتيبات أمثلة = 8 تكرارات
  • تغطية النموذج: 31 نموذجاً، تشمل عائلات GPT و Llama و Qwen و Gemma و DeepSeek
  • اختبار سلسلة الفكر: اختبار بعض النماذج مع تفعيل/تعطيل وضع "التفكير"

نتائج التجربة

الاكتشافات الرئيسية

1. أنماط الأداء الإجمالية

  • متوسط دقة البشر: 28.3%، مما يؤكد تحدي الهياكل
  • أفضل أداء للنموذج اللغوي: نموذج o3 بـ 74.5% (بدون سلسلة فكر)، GPT-5 بـ 88.9% (مع وضع سلسلة الفكر)
  • الفروقات الهيكلية: تشكل جمل GP تحدياً نسبياً أكبر للنماذج اللغوية مقارنة بالهياكل غير-GP

2. الفروقات الرئيسية بين هياكل GP وغير-GP

نوع النموذجدقة هياكل GPدقة الهياكل غير-GPالفرق
GPT-546.8%93.7%46.9%
o366.5%87.3%20.8%
البشر25.8%32.4%6.6%

3. تحليل التشابه مع البشر

الفروقات في الأداء المطلق:

  • هياكل GP: متوسط فرق 0.173 (أقرب إلى البشر)
  • التأثير العميق: متوسط فرق 0.328
  • التضمين المزدوج: متوسط فرق 0.330
  • التداخل المتشابه: متوسط فرق 0.370

الارتباطات الرتبية: ترتفع الارتباطات مع ترتيب صعوبة الهياكل البشرية مع زيادة حجم النموذج، حيث وصل o4-mini إلى أعلى ارتباط بـ 0.929.

4. ظاهرة "نقطة الحلاوة"

يحتاج النموذج إلى قوة معتدلة لإعادة إنتاج أنماط الفروقات بين الهدف والخط الأساسي المشابهة للبشر:

  • ضعيف جداً: أداء سيئة في كلا الشرطين
  • قوي جداً: أداء جيدة في كلا الشرطين
  • معتدل: يظهر فروقات اتجاهية مشابهة للبشر

تأثير سلسلة الفكر

  1. الاعتماد على القوة: فقط النماذج القوية بما يكفي يمكنها الاستفادة من سلسلة الفكر
  2. الخصوصية الهيكلية: تساعد سلسلة الفكر أكثر في الهياكل غير-GP، مع تأثير محدود على هياكل GP
  3. الحالات الاستثنائية: GPT-5 حققت تحسناً ملحوظاً في هياكل GP من خلال سلسلة الفكر

الأعمال ذات الصلة

البحث العصبي اللغوي

  • مقارنة التفعيل الدماغي: قارن Schrimpf وآخرون أنماط التفعيل في الدماغ والنماذج اللغوية
  • التنبؤ بالمؤشرات المعرفية: استخدام معلومات النموذج اللغوي للتنبؤ بوقت القراءة البشري وحركات العين

بحث معالجة الجملة

  • تأثير الحديقة المرتبكة: اكتشف Amouyal وآخرون أخطاء تشبه البشر في النماذج اللغوية في جمل GP معينة
  • التضمين المركزي: أظهر Hu وآخرون أن النماذج اللغوية تعتبر جمل التضمين المركزي غير نحوية مثل البشر

المساهمات المنهجية

تقارن هذه الدراسة بشكل منهجي ظواهر لغوية متعددة في إطار عمل موحد للمرة الأولى، مما يتغلب على مشكلة عدم اتساق الإعدادات التجريبية في الدراسات السابقة.

الخلاصات والنقاش

الاستنتاجات الرئيسية

  1. خصوصية هياكل GP: تُظهر النماذج اللغوية أداءً أقرب إلى الأداء البشري في جمل GP، ربما لأن جمل GP تتطلب التخلص من التفسيرات الخاطئة بدلاً من الاعتماد على ذاكرة العمل فقط
  2. تأثير الحجم: تظهر النماذج الأكبر ارتباطات أعلى مع البشر في ترتيب صعوبة الهياكل
  3. قانون نقطة الحلاوة: النماذج ذات القوة المعتدلة هي الأكثر قدرة على إعادة إنتاج أنماط المعالجة البشرية

التفسير النظري

فرضية ذاكرة العمل: تتفوق النماذج اللغوية على البشر في الهياكل التي تتطلب ذاكرة عمل كبيرة (مثل التضمين المزدوج)، لكنها تُظهر أداءً نسبياً أضعف في جمل GP التي تتطلب التخلص من التفسيرات الخاطئة، لأن الأخيرة ليست مشكلة سعة ذاكرة العمل.

القيود

  1. تغطية النموذج: تم اختبار عائلة نموذج واحدة فقط من OpenAI (نموذج مغلق المصدر)، بدون تضمين نماذج من Anthropic أو Google
  2. قيود نوع GP: لم يتم اختبار جميع أنواع جمل الحديقة المرتبكة
  3. مؤشر واحد: تم اختبار دقة الفهم فقط، مع افتقار إلى مؤشرات معرفية أخرى مثل حركات العين ووقت القراءة

الاتجاهات المستقبلية

  1. التحقق السببي: تصميم تجارب للتحقق من فرضية ذاكرة العمل
  2. التوسع في الاختبار: تضمين عائلات نماذج أكثر وأنواع GP إضافية
  3. المؤشرات متعددة الأنماط: دمج مؤشرات قياس معرفية متعددة

التقييم المتعمق

المميزات

  1. تصميم تجريبي صارم: مقارنة منهجية في إطار عمل موحد مع تحكم كافٍ في المتغيرات
  2. نطاق غير مسبوق: يغطي 31 نموذجاً و 7 ظواهر لغوية، وهي أكبر دراسة في هذا المجال
  3. اكتشافات مهمة: لاكتشاف الفروقات بين هياكل GP وغير-GP أهمية نظرية كبيرة
  4. ابتكار منهجي: قياس مباشر لقدرة الفهم بدلاً من المؤشرات غير المباشرة، مما يوفر موثوقية أكبر

أوجه القصور

  1. التفسير النظري محدود: لا تزال فرضية ذاكرة العمل بحاجة إلى مزيد من الأدلة
  2. قيود اللغة: تم اختبار اللغة الإنجليزية فقط، مع افتقار إلى التحقق عبر اللغات
  3. مهمة واحدة: استخدام الإجابة بـ نعم/لا فقط، قد لا تعكس بشكل شامل قدرة الفهم

التأثير

  1. المساهمة الأكاديمية: توفير إطار منهجي جديد لبحث المقارنة المعرفية بين الإنسان والذكاء الاصطناعي
  2. القيمة العملية: المساعدة في فهم قيود معالجة اللغة في النماذج اللغوية، وتوجيه تحسينات النموذج
  3. قابلية الاستنساخ: التزم المؤلفون بنشر الكود والبيانات، مما يسهل الأبحاث اللاحقة

السيناريوهات المطبقة

  1. تقييم النموذج: توفير أداة تقييم دقيقة الحبيبات لقدرة فهم اللغة في النماذج اللغوية
  2. البحث المعرفي: توفير نموذج لمقارنة آليات معالجة اللغة في الذكاء الاصطناعي والطبيعي
  3. التطبيقات التعليمية: يمكن استخدامها لتحديد الهياكل الصعبة في تعلم اللغة والتدريب الموجه

المراجع

  1. Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
  2. Christianson et al. (2001). Thematic roles assigned along the garden path linger.
  3. Gibson & Thomas (1999). Memory limitations and structural forgetting.
  4. Gordon et al. (2001). Memory interference during language processing.

التقييم الإجمالي: هذا بحث عالي الجودة متعدد التخصصات، يتمتع بابتكار منهجي وتصميم تجريبي صارم واكتشافات ذات أهمية نظرية وعملية كبيرة. خاصة اكتشاف الفروقات بين هياكل GP وغير-GP يوفر منظوراً جديداً لفهم الآليات المعرفية للنماذج اللغوية. على الرغم من وجود بعض القيود، فإن المساهمة الإجمالية كبيرة وتستحق البحث المتعمق اللاحق.