تقدم هذه الدراسة معايرة شاملة لأداء عدة نماذج لغة كبيرة مفتوحة المصدر على مهام معالجة اللغة الطبيعية الفارسية، باستخدام نماذج التعلم بدون عينات وقليل العينات. تغطي الدراسة مهام تحليل المشاعر، والتعرف على الكيانات المسماة، وفهم القراءة والإجابة على الأسئلة، باستخدام مجموعات بيانات فارسية معروفة مثل ParsiNLU و ArmanEmo. تستخدم التجارب إعدادات تجريبية صارمة بدون عينات وقليل العينات، مع تقييم الأداء باستخدام مقاييس الدقة ودرجة F1 و BLEU و ROUGE. تُظهر النتائج أن Gemma 2 يحقق أفضل أداء في كلا نمطي التعلم على جميع المهام تقريباً، مع تفوق خاص في مهام الاستدلال المعقدة. ومع ذلك، تُظهر معظم النماذج أداءً ضعيفاً في مهام الفهم على مستوى الرموز مثل التعرف على الكيانات المسماة، مما يبرز التحديات المحددة لمعالجة اللغة الفارسية.
تغطي الدراسة عدة مهام أساسية لمعالجة اللغة الطبيعية:
تم تقييم 11 نموذج لغة كبير مفتوح المصدر:
استخدام إعدادات تجريبية موحدة لمقارنة 11 نموذج لغة كبير مفتوح المصدر لضمان المقارنة العادلة.
ترتيب الأداء الإجمالي:
النتائج الرئيسية:
المهام ذات الأداء الجيد:
المهام الصعبة:
الاختلافات في المعرفة المجالية:
تحليل الظواهر اللغوية:
حالات النجاح: يتفوق Gemma2 في مهام الاستدلال المنطقي، مع القدرة على التعامل مع العلاقات الدلالية المعقدة
حالات الفشل: تواجه جميع النماذج صعوبات في فهم الاصطلاحات الفارسية المحددة والسياق الثقافي
تستشهد الورقة بـ 32 مرجعاً ذا صلة، تغطي:
تتضمن المراجع الرئيسية مجموعة معايير ParsiNLU ومجموعة بيانات المشاعر ArmanEmo وأبحاث مهمة أخرى حول قدرات نماذج اللغة الكبيرة متعددة اللغات.
الملخص: هذه ورقة بحثية تجريبية عالية الجودة تؤسس معياراً مهماً لتقييم نماذج اللغة الكبيرة الفارسية. يتمتع البحث بمنهجية صارمة ونتائج مقنعة، وله أهمية كبيرة في دفع تطوير تقنيات معالجة اللغة الطبيعية للغات منخفضة الموارد. على الرغم من وجود بعض القيود، فإن مساهماته وتأثيره كبير.