هذه الورقة هي تعليق على دراسة Futrell و Mahowald (F&M) حول نماذج اللغة والتعلم اللغوي البشري. يؤكد F&M أن الرضع ونماذج اللغة (LMs) على حد سواء يجدان اللغات الحقيقية أسهل في التعلم من "اللغات المستحيلة" ذات البنية غير الطبيعية. يوضح المؤلفون من خلال مراجعة الأدبيات أن نماذج اللغة غالباً ما تتمكن من تعلم اللغات الحقيقية والعديد من اللغات المستحيلة بنفس السهولة. اللغات المستحيلة التي يصعب تعلمها هي ببساطة أكثر تعقيداً أو عشوائية. يجادل المؤلفون بأن نماذج اللغة تفتقر إلى الانحيازات الاستقرائية (inductive biases) التي تدعم اكتساب اللغة البشرية.
تركز هذه الورقة على مسألة نظرية جوهرية: هل نماذج اللغة (LMs) نماذج مناسبة لاكتساب اللغة البشرية؟
يهدف المؤلفون إلى توضيح الأدلة التجريبية حول قدرة نماذج اللغة على تعلم اللغات المستحيلة من خلال مراجعة منهجية للأدبيات، وتحدي وجهة نظر F&M، ودعم ادعاء تشومسكي بأن نماذج اللغة تفتقر إلى الانحيازات الاستقرائية اللغوية البشرية.
هذه الورقة ليست عرضاً لطريقة جديدة، بل هي مراجعة أدبيات نقدية. المهمة الأساسية هي:
يستخدم المؤلفون المعايير التالية لتقييم أداء نماذج اللغة في التعلم:
لا يكمن الابتكار في هذه الورقة في الطرق التقنية، بل في عمق التحليل النظري:
لا تتضمن هذه الورقة تجارب جديدة، بل إعادة تحليل للدراسات المنشورة. يراجع المؤلفون بشكل منهجي الدراسات التالية:
| الدراسة | لغات مستحيلة سهلة التعلم | نوع اللغات الصعبة | المشكلة الرئيسية |
|---|---|---|---|
| Kallini et al. | متعددة، بما في ذلك لغة MB2020 | إعادة ترتيب عشوائية، إعادة ترتيب متعددة حتمية | اللغات الصعبة عشوائية/معقدة |
| Yang et al. | متعددة | إعادة ترتيب متعددة حتمية | الخلط بين التعقيد والاستحالة |
| Xu et al. | بعض اللغات غير المعقولة | بعض اللغات غير المعقولة | قد يكون بناء المادة خاطئاً |
| Ziv et al. | لغات مقلوبة جزئياً وغيرها | - | يدعم وجهة نظر تشومسكي |
| Lou et al. | لغات مقلوبة تماماً | - | يدعم وجهة نظر تشومسكي |
يشير المؤلفون إلى Bowers (2025a):
حاول McCoy & Griffiths (2025) تقطير الأولويات البايزية إلى نماذج اللغة:
يشير المؤلفون إلى نظرية Wolpert & Macready (2002):
الجملة الأصلية (الطول 5): The cat sat on mat
قاعدة إعادة الترتيب 1 (الطول 5): cat The on sat mat
الجملة الأصلية (الطول 6): The big cat sat on mat
قاعدة إعادة الترتيب 2 (الطول 6): big The sat cat mat on
التحليل: تعلم هذه اللغة يعادل تعلم تعيينات عشوائية متعددة مختلفة، حيث يزداد التعقيد خطياً مع عدد أطوال الجمل. هذا ليس اختباراً لانحيازات النحو الكلي، بل اختباراً لقدرة حفظ تعيينات متعددة تعسفية.
يتم قلب بعض قواعد ترتيب الكلمات بشكل منهجي، لكن تبقى متسقة. النتائج: يمكن لنماذج اللغة تعلمها بسهولة، مما يشير إلى أنها تفتقر إلى الانحيازات الاستقرائية التي تستبعد هذه الأنواع من اللغات.
تقف هذه الورقة في تقليد تشومسكي اللساني التقليدي، وتعترض على التيار الاتصالي/التعلم الإحصائي من خلال إعادة تحليل الدراسات التجريبية.
هذه ورقة ذات موقف نظري واضح، وحجة منطقية صارمة، لكن أساس تجريبي نسبياً ضعيف. يطعن المؤلفون بقوة في وجهة النظر القائلة بأن "نماذج اللغة تمتلك انحيازات استقرائية شبيهة بالإنسان"، ويدعمون موقف تشومسكي اللساني التقليدي.
أعظم قيمة تكمن في توضيح المفاهيم (التمييز بين التعقيد والاستحالة) والتحليل المنطقي (تطبيق منطق التزييف و"نظرية عدم وجود غداء مجاني")، وهما يساهمان بشكل مهم في المنهجية في هذا المجال.
القيد الرئيسي هو غياب البيانات التجريبية الجديدة والتحليل العميق لآليات نماذج اللغة الداخلية. كورقة تعليق، هذا مفهوم، لكنه يحد من قوة الإقناع.
ستعزز هذه الورقة النقاش العميق حول طبيعة نماذج اللغة في اللسانيات والذكاء الاصطناعي، وتحفز تصميماً أكثر صرامة للتجارب، لكن قد لا تغير الموقف الأساسي للطرفين على الفور. قد يتطلب حل هذا النقاش المزيد من الدراسات التجريبية والأطر النظرية الأكثر دقة، وربما أدلة مستقلة من علم الأعصاب.
مؤشر التوصية: ⭐⭐⭐⭐ (4/5)