2025-11-13T19:49:11.380535

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

Cherakhloo, Abbasi, Sarafraz et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
academic

معايرة نماذج اللغة الكبيرة مفتوحة المصدر للفارسية في التعلم بدون عينات وقليل العينات

المعلومات الأساسية

  • معرّف الورقة: 2510.12807
  • العنوان: معايرة نماذج اللغة الكبيرة مفتوحة المصدر للفارسية في التعلم بدون عينات وقليل العينات
  • المؤلفون: مهدي تشيراخلو، آراش عباسي، محمد سعيد سرافراز، بيجان فوسوغي وحدت
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 16 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12807

الملخص

تقدم هذه الدراسة معايرة شاملة لأداء عدة نماذج لغة كبيرة مفتوحة المصدر على مهام معالجة اللغة الطبيعية الفارسية، باستخدام نماذج التعلم بدون عينات وقليل العينات. تغطي الدراسة مهام تحليل المشاعر، والتعرف على الكيانات المسماة، وفهم القراءة والإجابة على الأسئلة، باستخدام مجموعات بيانات فارسية معروفة مثل ParsiNLU و ArmanEmo. تستخدم التجارب إعدادات تجريبية صارمة بدون عينات وقليل العينات، مع تقييم الأداء باستخدام مقاييس الدقة ودرجة F1 و BLEU و ROUGE. تُظهر النتائج أن Gemma 2 يحقق أفضل أداء في كلا نمطي التعلم على جميع المهام تقريباً، مع تفوق خاص في مهام الاستدلال المعقدة. ومع ذلك، تُظهر معظم النماذج أداءً ضعيفاً في مهام الفهم على مستوى الرموز مثل التعرف على الكيانات المسماة، مما يبرز التحديات المحددة لمعالجة اللغة الفارسية.

خلفية البحث والدافع

  1. المشكلة الأساسية: يتطلب فعالية نماذج اللغة الكبيرة على اللغات منخفضة الموارد مثل الفارسية دراسة متعمقة. على الرغم من أن نماذج اللغة الكبيرة تُظهر أداءً ممتازاً على اللغات عالية الموارد مثل الإنجليزية، لا تزال هناك فجوات أداء كبيرة على لغات مثل الفارسية.
  2. أهمية المشكلة:
    • تتمتع اللغة الفارسية بخصائص إملائية فريدة وبنية صرفية معقدة وأنماط نحوية
    • مقارنة باللغات عالية الموارد، تفتقر الفارسية إلى مجموعات بيانات شاملة وموارد معلَّمة وأدوات معالجة لغة طبيعية متخصصة
    • الحاجة إلى توفير إمكانية الوصول العادل لتقنيات معالجة اللغة الطبيعية لمجتمع الفارسية
  3. قيود الأساليب الموجودة:
    • نقص التقييم المنهجي لنماذج اللغة الكبيرة الخاصة بالفارسية
    • يركز البحث الموجود بشكل أساسي على اللغات عالية الموارد مثل الإنجليزية
    • لم تتم دراسة الظواهر اللغوية الفارسية المحددة بشكل كافٍ
  4. دافع البحث: تقييم قدرة نماذج اللغة الكبيرة مفتوحة المصدر على مهام الفارسية من خلال نماذج التعلم بدون عينات وقليل العينات، وتوفير معايير لتطوير تقنيات معالجة اللغة الطبيعية للغات منخفضة الموارد.

المساهمات الأساسية

  1. إنشاء أول معيار شامل لنماذج اللغة الكبيرة الفارسية: يتضمن تقييماً منهجياً لـ 11 نموذج مفتوح المصدر على أكثر من 50 مهمة
  2. توفير تحليل مقارن لنماذج التعلم بدون عينات وقليل العينات: يكشف تأثير نماذج التعلم المختلفة على مهام الفارسية
  3. تحديد التحديات المحددة لمعالجة اللغة الفارسية: خاصة الصعوبات في مهام الفهم على مستوى الرموز مثل التعرف على الكيانات المسماة
  4. توفير خطوط أساسية لتطوير النماذج المستقبلية: إنشاء خطوط أساسية أداء مهمة تشير إلى المجالات الرئيسية التي تحتاج إلى تحسين

شرح الطريقة

تعريف المهام

تغطي الدراسة عدة مهام أساسية لمعالجة اللغة الطبيعية:

  • تصنيف النصوص: تحليل المشاعر، والكشف عن المشاعر
  • وسم التسلسل: التعرف على الكيانات المسماة
  • فهم القراءة: الإجابة على الأسئلة بناءً على السياق
  • توليد النصوص: الترجمة الآلية، وتلخيص النصوص
  • مهام الاستدلال: الاستدلال المنطقي، والاستدلال بالمعرفة العامة، والاستدلال الرياضي

معمارية النموذج

تم تقييم 11 نموذج لغة كبير مفتوح المصدر:

  1. Gemma2: نموذج محول فعال من Google بقدرات تمثيل متعددة اللغات محسّنة
  2. GLM4: نموذج لغة توليدي محسّن لمهام الاستدلال والفهم المعقدة
  3. LLaMA3.1/3.2: معمارية مكررة من Meta AI مع تحسين تمثيل الرموز للأحرف غير اللاتينية
  4. Qwen2/2.5: نماذج أساسية متعددة اللغات من علي بابا
  5. Mistral: نموذج فعال حسابياً يستخدم آلية الانتباه المجمعة
  6. نماذج أخرى: Marco-O1، Aya-Expanse، Falcon3، Tulu3

نقاط الابتكار التقني

  1. إطار عمل تقييم موحد: إنشاء قوالب فورية موحدة وخط أنابيب تقييم
  2. مقارنة متعددة النماذج: مقارنة منهجية لفعالية التعلم بدون عينات وقليل العينات
  3. تحليل دقيق الحبيبات: تحليل الأخطاء للظواهر اللغوية الفارسية المحددة
  4. التقييم عبر المجالات: تغطية مجالات متعددة بما في ذلك العلوم الإنسانية والعلوم والتكنولوجيا والهندسة والرياضيات

الإعدادات التجريبية

مجموعات البيانات

  1. ParsiNLU:
    • فهم القراءة: 1,000 زوج فقرة-سؤال
    • الاستدلال النصي: 2,500 زوج مقدمة-فرضية
    • تصنيف المشاعر: 12,000 جملة
    • الترجمة الآلية: 10,000 زوج جملة إنجليزي-فارسي متوازي
  2. ArmanEmo: 7,500 منشور وسائط اجتماعية فارسية معلَّم بـ 8 فئات مشاعر
  3. ArmanNER: 7,682 جملة تحتوي على ثلاث فئات كيانات: الشخص والموقع والمنظمة
  4. Persian MMLU: 1,200 سؤال متعدد الخيارات يغطي المنطق واللاهوت وعلم الاجتماع والرياضيات والعلوم الطبيعية
  5. Persian News Summary: 95,000 زوج مقالة-ملخص

مقاييس التقييم

  • مهام التصنيف: الدقة (Accuracy) ودرجة F1 الكلية
  • التعرف على الكيانات المسماة: درجة F1 على مستوى الرموز
  • فهم القراءة: المطابقة الدقيقة (EM) ودرجة F1 لتداخل الرموز
  • الترجمة الآلية: درجة BLEU
  • تلخيص النصوص: درجات ROUGE-1 و ROUGE-2 و ROUGE-L

الأساليب المقارنة

استخدام إعدادات تجريبية موحدة لمقارنة 11 نموذج لغة كبير مفتوح المصدر لضمان المقارنة العادلة.

تفاصيل التنفيذ

  • الأجهزة: وحدات معالجة الرسومات NVIDIA A100 (40GB VRAM)
  • البرامج: Hugging Face Transformers (v4.30.2)، PyTorch (v2.0.1)
  • معاملات الاستدلال: درجة حرارة 0.1 لمهام التوليد، فك التشفير الجشع لمهام التصنيف
  • إعداد قليل العينات: اختيار عشوائي لـ 5 أمثلة تمثيلية لكل مهمة

نتائج التجارب

النتائج الرئيسية

ترتيب الأداء الإجمالي:

  1. Gemma2: قليل العينات 0.61، بدون عينات 0.42 (الأفضل)
  2. GLM4: قليل العينات 0.53، بدون عينات 0.35
  3. Qwen2.5: قليل العينات 0.50، بدون عينات 0.35
  4. نماذج أخرى: الأداء تنخفض تدريجياً

النتائج الرئيسية:

  • يحافظ Gemma2 على الريادة في كلا نمطي التعلم، بميزة متوسطة تزيد عن 8%
  • يتفوق التعلم قليل العينات بشكل عام على التعلم بدون عينات، بتحسن متوسط قدره 13.8%
  • تستفيد مهام الاستدلال المعقدة بشكل أكثر وضوحاً (تحسن 17.3%)

تحليل خاص بالمهام

المهام ذات الأداء الجيد:

  • الاستدلال المنطقي واللاهوت: درجة متوسطة 0.412 و 0.395
  • فهم القراءة: تحسن 17.3% في قليل العينات مقابل بدون عينات
  • الاستدلال النصي: تحسن 15-20% في قليل العينات

المهام الصعبة:

  • التعرف على الكيانات المسماة: أداء ضعيفة لجميع النماذج، تحسن 7.2% فقط في قليل العينات
  • الرياضيات وعلوم الحاسوب: درجة متوسطة 0.287 و 0.301
  • التنبؤ على مستوى الرموز: القيود الهيكلية تحد من الأداء

التجارب الاستئصالية

الاختلافات في المعرفة المجالية:

  • العلوم الإنسانية متوسط 0.395 مقابل مجالات العلوم والتكنولوجيا والهندسة والرياضيات 0.287
  • يشير إلى توزيع غير متساوٍ لبيانات التدريب متعددة اللغات

تحليل الظواهر اللغوية:

  • معدل أخطاء التمييز الدلالي أعلى بـ 23.7%
  • معدل سوء تصنيف التعبيرات المشاعر المعقدة أعلى بـ 31.2%
  • معدل أخطاء الكيانات متعددة الرموز أعلى بـ 27.8%
  • معدل أخطاء التعبيرات الاصطلاحية أعلى بـ 34.5%

دراسات الحالة

حالات النجاح: يتفوق Gemma2 في مهام الاستدلال المنطقي، مع القدرة على التعامل مع العلاقات الدلالية المعقدة

حالات الفشل: تواجه جميع النماذج صعوبات في فهم الاصطلاحات الفارسية المحددة والسياق الثقافي

الأعمال ذات الصلة

تقييم نماذج اللغة الكبيرة متعددة اللغات

  • تطور المعايير مثل GLUE و MMLU
  • أبحاث نقل التعلم عبر اللغات
  • تطبيق التعلم قليل العينات في البيئات متعددة اللغات

موارد معالجة اللغة الطبيعية الفارسية

  • بناء مجموعات البيانات مثل ParsiNLU و ArmanEmo و ArmanNER
  • معيار FaMTEB الشامل لتضمين النصوص
  • نماذج متخصصة بالفارسية مثل PersianMind و Maral

التعلم بدون عينات وقليل العينات

  • طرق نقل المعرفة عبر اللغات
  • تقنيات هندسة الفورية
  • استراتيجيات التكيف للغات منخفضة الموارد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. مستويات أداء النموذج: يتفوق Gemma2 بشكل كبير على النماذج الأخرى، مما يعكس مزايا المعمارية
  2. تأثير نمط التعلم: يحقق التعلم قليل العينات تحسناً ملحوظاً، خاصة في مهام الاستدلال الدلالي
  3. التحديات المحددة بالمهام: مهام مستوى الرموز (مثل التعرف على الكيانات المسماة) تشكل تحدياً لجميع النماذج
  4. فجوة الأداء عبر اللغات: الفارسية أقل بمتوسط 18.7% مقابل معايير اللغة الإنجليزية

القيود

  1. اختيار النموذج: عدم تغطية جميع النماذج المتاحة، خاصة النماذج المتخصصة بالفارسية
  2. هندسة الفورية: عدم إجراء تحسين واسع النطاق للفورية
  3. تمثيل مجموعة البيانات: قد لا تغطي بالكامل الاختلافات اللهجية للغة الفارسية
  4. تحسين المعاملات الفائقة: عدم إجراء تحسين معاملات فائقة محدد بالمهام
  5. عدد الأمثلة: عدد محدود من الأمثلة قليلة العينات (3-5)

الاتجاهات المستقبلية

  1. تنويع النموذج: تقييم نماذج لغة كبيرة متخصصة بالفارسية أكثر
  2. توسيع المهام: إضافة مهام معقدة مثل التلخيص المجرد والحوار متعدد الأدوار
  3. تقنيات فورية متقدمة: استكشاف تحسين الفورية الديناميكي والاستدلال بسلسلة الأفكار
  4. التكيف المجالي: تطوير معايير للمجالات المتخصصة مثل الطب والقانون
  5. استراتيجيات الضبط الدقيق: دراسة طرق الضبط الدقيق الفعالة من حيث المعاملات
  6. البنية التحتية المجتمعية: إنشاء لوحة ترتيب معايير المجتمع

التقييم المتعمق

المزايا

  1. أهمية البحث كبيرة: ملء الفراغ في تقييم نماذج اللغة الكبيرة الفارسية، توفير مرجع مهم لأبحاث اللغات منخفضة الموارد
  2. تصميم تجريبي صارم: يضمن إطار التقييم الموحد مقارنة عادلة، يغطي مهام ومقاييس متعددة
  3. تحليل عميق وشامل: لا يوفر فقط بيانات الأداء، بل يجري أيضاً تحليل أخطاء دقيق ورؤى لغوية
  4. قيمة عملية عالية: توفير إرشادات عملية لتطبيقات معالجة اللغة الطبيعية الفارسية

أوجه القصور

  1. تغطية نموذج محدودة: نقص تقييم بعض نماذج الفارسية المتخصصة المهمة
  2. هندسة فورية غير كافية: قد لا تستفيد الفورية الموحدة بالكامل من إمكانيات بعض النماذج
  3. تحليل السياق الثقافي: يمكن أن يكون تحليل الظواهر الفارسية المحددة ثقافياً أعمق
  4. وصف موارد الحوسبة: عدم وصف تفصيلي لمقارنة تكاليف الحوسبة للنماذج المختلفة

التأثير

  1. المساهمة الأكاديمية: توفير معيار مهم لأبحاث نماذج اللغة الكبيرة متعددة اللغات، دفع تطوير تقنيات اللغات منخفضة الموارد
  2. القيمة العملية: توفير إرشادات لاختيار وتحسين النموذج الأساسي لتطبيقات معالجة اللغة الطبيعية الفارسية
  3. القابلية للتكرار: الإعدادات التجريبية التفصيلية والالتزام بالمصدر المفتوح يدعمان تكرار البحث
  4. بناء المجتمع: تعزيز تطوير مجتمع أبحاث معالجة اللغة الطبيعية الفارسية

السيناريوهات المعمول بها

  1. اختيار النموذج: اختيار نموذج أساسي مناسب لتطبيقات معالجة اللغة الطبيعية الفارسية
  2. مقارنة المعايير: بمثابة معيار أداء لتطوير النماذج الجديدة
  3. إرشادات البحث: توفير اتجاهات لتحسين النموذج المحدد بالفارسية
  4. موارد تعليمية: بمثابة مادة تدريسية لدورات معالجة اللغة الطبيعية متعددة اللغات

المراجع

تستشهد الورقة بـ 32 مرجعاً ذا صلة، تغطي:

  • أبحاث منهجية تقييم نماذج اللغة الكبيرة
  • أطر تقييم القدرات متعددة اللغات
  • موارد وتحديات معالجة اللغة الطبيعية الفارسية
  • تقنيات التعلم بدون عينات وقليل العينات

تتضمن المراجع الرئيسية مجموعة معايير ParsiNLU ومجموعة بيانات المشاعر ArmanEmo وأبحاث مهمة أخرى حول قدرات نماذج اللغة الكبيرة متعددة اللغات.


الملخص: هذه ورقة بحثية تجريبية عالية الجودة تؤسس معياراً مهماً لتقييم نماذج اللغة الكبيرة الفارسية. يتمتع البحث بمنهجية صارمة ونتائج مقنعة، وله أهمية كبيرة في دفع تطوير تقنيات معالجة اللغة الطبيعية للغات منخفضة الموارد. على الرغم من وجود بعض القيود، فإن مساهماته وتأثيره كبير.