Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
- معرّف الورقة: 2510.07141
- العنوان: مقارنة صعوبات معالجة الجمل بين البشر ونماذج اللغة في الهياكل المعقدة
- المؤلفون: صموئيل جوزيف أموال، آيا ملتزر-أسشر، جوناثان بيرانت
- التصنيف: cs.CL cs.AI
- تاريخ النشر: أكتوبر 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.07141
لقد أثبتت نماذج اللغة الكبيرة (LLMs) قدرتها على الحوار السلس مع البشر، لكن هل تواجه صعوبات معالجة جملية مشابهة لتلك التي يواجهها البشر؟ تقارن هذه الدراسة بشكل منهجي قدرات فهم الجمل لدى البشر والنماذج اللغوية الحديثة (SOTA) عبر سبعة هياكل لغوية تحديّة. جمعت الدراسة بيانات فهم الجمل من البشر وخمس عائلات نماذج لغوية متقدمة، تختلف في الحجم وعمليات التدريب. أظهرت النتائج أن النماذج اللغوية تواجه صعوبات عامة في الهياكل المستهدفة، خاصة في جمل الحديقة المرتبكة (GP). بينما حققت أقوى النماذج دقة قريبة من الكمال في الهياكل غير-GP (وصلت GPT-5 إلى 93.7%)، إلا أنها أظهرت صعوبة في هياكل GP (GPT-5 بلغت 46.8% فقط). علاوة على ذلك، عند ترتيب الهياكل بناءً على متوسط الأداء، ارتفعت الارتباطات الرتبية بين البشر والنماذج مع زيادة عدد المعاملات.
مع التطورات المحققة في نماذج اللغة الكبيرة في قدرات الحوار، يطرح سؤال حاسم: هل تواجه النماذج اللغوية صعوبات معالجة في هياكل لغوية معينة مشابهة لما يواجهه البشر؟ يعتبر هذا السؤال حاسماً لفهم الآليات المعرفية للنماذج اللغوية وأوجه التشابه مع معالجة اللغة البشرية.
- الأهمية العلمية المعرفية: من خلال مقارنة أنماط الأخطاء بين البشر والنماذج اللغوية، يمكن الحصول على رؤى حول آليات معالجة اللغة لدى كلا الطرفين
- احتياجات تقييم النموذج: يركز التقييم التقليدي على الأداء الإجمالي، مع افتقار إلى التحليل الدقيق لقدرات معالجة الظواهر اللغوية المحددة
- القيمة التطبيقية: يساعد فهم قيود معالجة اللغة في النماذج اللغوية على تحسين تصميم النموذج ونشره التطبيقي
- القياس غير المباشر: تستخدم معظم الدراسات مؤشرات غير مباشرة (مثل وقت القراءة والارتباك) بدلاً من اختبارات الفهم المباشرة
- عدم توحيد الإعدادات التجريبية: تستخدم الدراسات المختلفة نماذج وبيانات وتلميحات مختلفة، مما يصعب التوصل إلى استنتاجات موحدة
- نطاق تغطية محدود: يفتقد البحث إلى المقارنة المنهجية لظواهر لغوية متعددة
- بناء مجموعة بيانات لفهم الجمل تضم سبعة هياكل لغوية تحديّة، تشمل أربعة أنواع من جمل الحديقة المرتبكة والتضمين المركزي المزدوج والتداخل المتشابه وجمل التأثير العميق
- اختبار منهجي لـ 31 نموذجاً متقدماً، يغطي 5 عائلات نماذج بأحجام وطرق تدريب متنوعة
- اكتشاف الفروقات في معالجة هياكل GP مقابل غير-GP: تُظهر النماذج اللغوية أداءً أقرب إلى الأداء البشري في جمل GP، بينما تتفوق على الأداء البشري في الهياكل غير-GP
- اقتراح قانون "نقطة الحلاوة": يمكن ملاحظة أنماط الفروقات بين الهدف والخط الأساسي المشابهة للبشر فقط في النماذج ذات القوة المعتدلة
الإدخال: جملة وسؤال فهم
الإخراج: إجابة نعم/لا
الهدف: مقارنة أنماط الأداء بين البشر والنماذج اللغوية في نفس المهمة
- جمل الحديقة المرتبكة (4 أنواع):
- GP الفاعل/المفعول: "While the man hunted the deer ran into the woods."
- GP الاسم/الجملة: "The policeman saw the lights were off."
- GP الاسم/الفعل: "The complex houses married soldiers."
- GP الجملة الموصولة المختزلة: "The chef hired last month worked overtime."
- التضمين المركزي المزدوج: يتضمن جملتين موصولتين متداخلتين، مثل "The man that the teacher that the student liked called sat."
- جمل التأثير العميق: هياكل النفي المتعددة، مثل "No head injury is too trivial to be ignored."
- التداخل المتشابه: يشترك اسمان في خصائص تسبب تداخلاً، مثل "The banker that the barber praised climbed the mountain."
تم تصميم كل هيكل مع شرط الهدف (يتضمن الهيكل الصعب) وشرط الخط الأساسي (يزيل العامل الصعب)، مما يضمن قياس تأثير الهيكل نفسه.
- المشاركون: متحدثون أصليون للغة الإنجليزية تم تجنيدهم عبر منصة Prolific
- الإجراء: عرض الكلمات بشكل فردي (400 ميلي ثانية/كلمة)، عرض السؤال لمدة 5 ثوان
- التصميم: يرى كل مشارك زوجاً واحداً من الجملة والسؤال فقط، لتجنب تأثيرات التعلم
- حجم العينة: 5380 نقطة بيانات، مع 10 مشاركين لكل زوج جملة-سؤال
- استراتيجية التلميح: تلميح قليل العينات يتضمن أمثلة بدون الهيكل المستهدف
- التحكم في المتغيرات: 2 تلميح نظام × 4 ترتيبات أمثلة = 8 تكرارات
- تغطية النموذج: 31 نموذجاً، تشمل عائلات GPT و Llama و Qwen و Gemma و DeepSeek
- اختبار سلسلة الفكر: اختبار بعض النماذج مع تفعيل/تعطيل وضع "التفكير"
- متوسط دقة البشر: 28.3%، مما يؤكد تحدي الهياكل
- أفضل أداء للنموذج اللغوي: نموذج o3 بـ 74.5% (بدون سلسلة فكر)، GPT-5 بـ 88.9% (مع وضع سلسلة الفكر)
- الفروقات الهيكلية: تشكل جمل GP تحدياً نسبياً أكبر للنماذج اللغوية مقارنة بالهياكل غير-GP
| نوع النموذج | دقة هياكل GP | دقة الهياكل غير-GP | الفرق |
|---|
| GPT-5 | 46.8% | 93.7% | 46.9% |
| o3 | 66.5% | 87.3% | 20.8% |
| البشر | 25.8% | 32.4% | 6.6% |
الفروقات في الأداء المطلق:
- هياكل GP: متوسط فرق 0.173 (أقرب إلى البشر)
- التأثير العميق: متوسط فرق 0.328
- التضمين المزدوج: متوسط فرق 0.330
- التداخل المتشابه: متوسط فرق 0.370
الارتباطات الرتبية: ترتفع الارتباطات مع ترتيب صعوبة الهياكل البشرية مع زيادة حجم النموذج، حيث وصل o4-mini إلى أعلى ارتباط بـ 0.929.
يحتاج النموذج إلى قوة معتدلة لإعادة إنتاج أنماط الفروقات بين الهدف والخط الأساسي المشابهة للبشر:
- ضعيف جداً: أداء سيئة في كلا الشرطين
- قوي جداً: أداء جيدة في كلا الشرطين
- معتدل: يظهر فروقات اتجاهية مشابهة للبشر
- الاعتماد على القوة: فقط النماذج القوية بما يكفي يمكنها الاستفادة من سلسلة الفكر
- الخصوصية الهيكلية: تساعد سلسلة الفكر أكثر في الهياكل غير-GP، مع تأثير محدود على هياكل GP
- الحالات الاستثنائية: GPT-5 حققت تحسناً ملحوظاً في هياكل GP من خلال سلسلة الفكر
- مقارنة التفعيل الدماغي: قارن Schrimpf وآخرون أنماط التفعيل في الدماغ والنماذج اللغوية
- التنبؤ بالمؤشرات المعرفية: استخدام معلومات النموذج اللغوي للتنبؤ بوقت القراءة البشري وحركات العين
- تأثير الحديقة المرتبكة: اكتشف Amouyal وآخرون أخطاء تشبه البشر في النماذج اللغوية في جمل GP معينة
- التضمين المركزي: أظهر Hu وآخرون أن النماذج اللغوية تعتبر جمل التضمين المركزي غير نحوية مثل البشر
تقارن هذه الدراسة بشكل منهجي ظواهر لغوية متعددة في إطار عمل موحد للمرة الأولى، مما يتغلب على مشكلة عدم اتساق الإعدادات التجريبية في الدراسات السابقة.
- خصوصية هياكل GP: تُظهر النماذج اللغوية أداءً أقرب إلى الأداء البشري في جمل GP، ربما لأن جمل GP تتطلب التخلص من التفسيرات الخاطئة بدلاً من الاعتماد على ذاكرة العمل فقط
- تأثير الحجم: تظهر النماذج الأكبر ارتباطات أعلى مع البشر في ترتيب صعوبة الهياكل
- قانون نقطة الحلاوة: النماذج ذات القوة المعتدلة هي الأكثر قدرة على إعادة إنتاج أنماط المعالجة البشرية
فرضية ذاكرة العمل: تتفوق النماذج اللغوية على البشر في الهياكل التي تتطلب ذاكرة عمل كبيرة (مثل التضمين المزدوج)، لكنها تُظهر أداءً نسبياً أضعف في جمل GP التي تتطلب التخلص من التفسيرات الخاطئة، لأن الأخيرة ليست مشكلة سعة ذاكرة العمل.
- تغطية النموذج: تم اختبار عائلة نموذج واحدة فقط من OpenAI (نموذج مغلق المصدر)، بدون تضمين نماذج من Anthropic أو Google
- قيود نوع GP: لم يتم اختبار جميع أنواع جمل الحديقة المرتبكة
- مؤشر واحد: تم اختبار دقة الفهم فقط، مع افتقار إلى مؤشرات معرفية أخرى مثل حركات العين ووقت القراءة
- التحقق السببي: تصميم تجارب للتحقق من فرضية ذاكرة العمل
- التوسع في الاختبار: تضمين عائلات نماذج أكثر وأنواع GP إضافية
- المؤشرات متعددة الأنماط: دمج مؤشرات قياس معرفية متعددة
- تصميم تجريبي صارم: مقارنة منهجية في إطار عمل موحد مع تحكم كافٍ في المتغيرات
- نطاق غير مسبوق: يغطي 31 نموذجاً و 7 ظواهر لغوية، وهي أكبر دراسة في هذا المجال
- اكتشافات مهمة: لاكتشاف الفروقات بين هياكل GP وغير-GP أهمية نظرية كبيرة
- ابتكار منهجي: قياس مباشر لقدرة الفهم بدلاً من المؤشرات غير المباشرة، مما يوفر موثوقية أكبر
- التفسير النظري محدود: لا تزال فرضية ذاكرة العمل بحاجة إلى مزيد من الأدلة
- قيود اللغة: تم اختبار اللغة الإنجليزية فقط، مع افتقار إلى التحقق عبر اللغات
- مهمة واحدة: استخدام الإجابة بـ نعم/لا فقط، قد لا تعكس بشكل شامل قدرة الفهم
- المساهمة الأكاديمية: توفير إطار منهجي جديد لبحث المقارنة المعرفية بين الإنسان والذكاء الاصطناعي
- القيمة العملية: المساعدة في فهم قيود معالجة اللغة في النماذج اللغوية، وتوجيه تحسينات النموذج
- قابلية الاستنساخ: التزم المؤلفون بنشر الكود والبيانات، مما يسهل الأبحاث اللاحقة
- تقييم النموذج: توفير أداة تقييم دقيقة الحبيبات لقدرة فهم اللغة في النماذج اللغوية
- البحث المعرفي: توفير نموذج لمقارنة آليات معالجة اللغة في الذكاء الاصطناعي والطبيعي
- التطبيقات التعليمية: يمكن استخدامها لتحديد الهياكل الصعبة في تعلم اللغة والتدريب الموجه
- Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
- Christianson et al. (2001). Thematic roles assigned along the garden path linger.
- Gibson & Thomas (1999). Memory limitations and structural forgetting.
- Gordon et al. (2001). Memory interference during language processing.
التقييم الإجمالي: هذا بحث عالي الجودة متعدد التخصصات، يتمتع بابتكار منهجي وتصميم تجريبي صارم واكتشافات ذات أهمية نظرية وعملية كبيرة. خاصة اكتشاف الفروقات بين هياكل GP وغير-GP يوفر منظوراً جديداً لفهم الآليات المعرفية للنماذج اللغوية. على الرغم من وجود بعض القيود، فإن المساهمة الإجمالية كبيرة وتستحق البحث المتعمق اللاحق.