2025-11-13T19:49:11.380535

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

Cherakhloo, Abbasi, Sarafraz et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.

academic

Évaluation comparative des modèles de langage de grande taille open-source pour le persan en apprentissage zéro-shot et few-shot

Informations de base

ID de l'article: 2510.12807
Titre: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
Auteurs: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
Classification: cs.CL cs.AI
Date de publication: 16 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.12807

Résumé

Cette étude présente une évaluation comparative exhaustive de plusieurs modèles de langage de grande taille (LLMs) open-source sur des tâches de traitement du langage naturel en persan, en utilisant les paradigmes d'apprentissage zéro-shot et few-shot. L'étude couvre l'analyse de sentiments, la reconnaissance d'entités nommées, la compréhension de lecture et les systèmes de questions-réponses, en utilisant des ensembles de données établis en persan tels que ParsiNLU et ArmanEmo. Les expériences emploient des protocoles rigoureux zéro-shot et few-shot, avec des métriques d'évaluation incluant la précision, le score F1, BLEU et ROUGE. Les résultats montrent que Gemma 2 surpasse presque toutes les tâches dans les deux paradigmes d'apprentissage, avec une performance particulièrement remarquable sur les tâches de raisonnement complexe. Cependant, la plupart des modèles présentent des performances insuffisantes sur les tâches de compréhension au niveau des tokens, comme la reconnaissance d'entités nommées, mettant en évidence les défis spécifiques du traitement du persan.

Contexte et motivation de la recherche

Problème central: L'efficacité des modèles de langage de grande taille sur les langues peu dotées en ressources (comme le persan) nécessite une investigation approfondie. Bien que les LLMs excellent sur les langues hautement dotées en ressources comme l'anglais, des écarts de performance significatifs subsistent pour le persan et les langues similaires.
Importance du problème:
- Le persan possède des caractéristiques orthographiques uniques, une structure morphologique complexe et des motifs grammaticaux particuliers
- Comparé aux langues hautement dotées en ressources, le persan manque d'ensembles de données complets, de corpus annotés et d'outils TAL spécialisés
- Il est nécessaire de fournir à la communauté persanophone un accès équitable aux technologies TAL
Limitations des approches existantes:
- Absence d'évaluation systématique des LLMs spécifiques au persan
- Les recherches existantes se concentrent principalement sur les langues hautement dotées en ressources comme l'anglais
- Les phénomènes linguistiques spécifiques au persan n'ont pas été suffisamment étudiés
Motivation de la recherche: Évaluer les capacités des LLMs open-source sur les tâches en persan via les paradigmes d'apprentissage zéro-shot et few-shot, en fournissant des références pour le développement des technologies TAL pour les langues peu dotées en ressources.

Contributions principales

Établissement du premier benchmark complet pour les LLMs en persan: Évaluation systématique de 11 modèles open-source sur plus de 50 tâches
Analyse comparative des paradigmes d'apprentissage zéro-shot et few-shot: Révélation de l'impact des différents paradigmes d'apprentissage sur les tâches en persan
Identification des défis spécifiques du traitement du persan: Particulièrement les difficultés sur les tâches de compréhension au niveau des tokens (comme la NER)
Fourniture de lignes de base pour le développement futur de modèles: Établissement de références de performance importantes, identifiant les domaines clés nécessitant des améliorations

Détails méthodologiques

Définition des tâches

L'étude couvre plusieurs tâches TAL fondamentales:

Classification de texte: Analyse de sentiments, détection d'émotions
Étiquetage de séquences: Reconnaissance d'entités nommées
Compréhension de lecture: Questions-réponses basées sur le contexte
Génération de texte: Traduction automatique, résumé de texte
Tâches de raisonnement: Raisonnement logique, raisonnement de sens commun, raisonnement mathématique

Architecture des modèles

Évaluation de 11 LLMs open-source représentatifs:

Gemma2: Modèle transformer efficace de Google, doté de capacités de représentation multilingues améliorées
GLM4: Modèle de langage génératif optimisé pour les tâches complexes de raisonnement et de compréhension
LLaMA3.1/3.2: Architecture affinée de Meta AI, avec représentation améliorée des tokens pour les caractères non-latins
Qwen2/2.5: Modèles de base multilingues d'Alibaba
Mistral: Modèle computationnellement efficace utilisant le mécanisme d'attention par requête groupée
Autres modèles: Marco-O1, Aya-Expanse, Falcon3, Tulu3

Points d'innovation technique

Cadre d'évaluation unifié: Établissement d'un pipeline d'évaluation standardisé avec modèles de prompts uniformes
Comparaison multi-paradigmes: Comparaison systématique de l'efficacité de l'apprentissage zéro-shot et few-shot
Analyse granulaire: Analyse des erreurs ciblée sur les phénomènes linguistiques spécifiques au persan
Évaluation inter-domaines: Couvrant plusieurs domaines de connaissances (sciences humaines, STEM, etc.)

Configuration expérimentale

Ensembles de données

ParsiNLU:
- Compréhension de lecture: 1 000 paires paragraphe-question
- Inférence textuelle: 2 500 paires prémisse-hypothèse
- Classification de sentiments: 12 000 phrases
- Traduction automatique: 10 000 paires de phrases parallèles anglais-persan
ArmanEmo: 7 500 publications de médias sociaux en persan, annotées avec 8 catégories d'émotions
ArmanNER: 7 682 phrases contenant trois classes d'entités (Personne, Lieu, Organisation)
Persian MMLU: 1 200 questions à choix multiples couvrant la logique, la théologie, la sociologie, les mathématiques, les sciences naturelles, etc.
Persian News Summary: 95 000 paires article-résumé

Métriques d'évaluation

Tâches de classification: Précision (Accuracy) et score F1 macro-moyenné
Reconnaissance d'entités nommées: Score F1 au niveau des tokens
Compréhension de lecture: Correspondance exacte (EM) et score F1 de chevauchement de tokens
Traduction automatique: Score BLEU
Résumé de texte: Scores ROUGE-1, ROUGE-2, ROUGE-L

Méthodes de comparaison

Comparaison de 11 LLMs open-source en utilisant une configuration expérimentale uniforme, garantissant une comparaison équitable.

Détails d'implémentation

Matériel: GPUs NVIDIA A100 (40 Go VRAM)
Logiciel: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
Paramètres d'inférence: Température de 0,1 pour les tâches de génération, décodage glouton pour les tâches de classification
Configuration few-shot: Sélection aléatoire de 5 exemples représentatifs par tâche

Résultats expérimentaux

Résultats principaux

Classement de performance globale:

Gemma2: Few-shot 0,61, zéro-shot 0,42 (meilleur)
GLM4: Few-shot 0,53, zéro-shot 0,35
Qwen2.5: Few-shot 0,50, zéro-shot 0,35
Autres modèles: Performance décroissante

Découvertes clés:

Gemma2 maintient une avance dans les deux paradigmes d'apprentissage, avec un avantage moyen supérieur à 8%
L'apprentissage few-shot surpasse systématiquement le zéro-shot, avec une amélioration moyenne de 13,8%
Les tâches de raisonnement complexe bénéficient le plus (amélioration de 17,3%)

Analyse spécifique aux tâches

Tâches de force:

Raisonnement logique et théologie: Scores moyens de 0,412 et 0,395
Compréhension de lecture: Amélioration de 17,3% en few-shot par rapport au zéro-shot
Inférence textuelle: Amélioration de 15-20% en few-shot

Tâches de défi:

Reconnaissance d'entités nommées: Performance insuffisante de tous les modèles, amélioration few-shot de seulement 7,2%
Mathématiques et informatique: Scores moyens de 0,287 et 0,301
Prédiction au niveau des tokens: Limitations structurelles limitant la performance

Expériences d'ablation

Variations de connaissances de domaine:

Sciences humaines moyenne 0,395 vs domaines STEM 0,287
Indiquant une distribution inégale des données d'entraînement multilingues

Analyse des phénomènes linguistiques:

Taux d'erreur de désambiguïsation sémantique élevé de 23,7%
Taux de mauvaise classification d'expressions émotionnelles complexes élevé de 31,2%
Taux d'erreur d'entités multi-tokens élevé de 27,8%
Taux d'erreur d'expressions idiomatiques élevé de 34,5%

Études de cas

Cas de succès: Gemma2 excelle sur les tâches de raisonnement logique, capable de traiter les relations sémantiques complexes

Cas d'échec: Tous les modèles éprouvent des difficultés avec les idiomes spécifiques au persan et la compréhension du contexte culturel

Travaux connexes

Évaluation des LLMs multilingues

Développement des benchmarks GLUE et MMLU
Recherche sur le transfert d'apprentissage inter-langues
Application de l'apprentissage few-shot dans les environnements multilingues

Ressources TAL en persan

Construction d'ensembles de données tels que ParsiNLU, ArmanEmo, ArmanNER
Benchmark FaMTEB d'embeddings de texte à grande échelle
Modèles spécifiques au persan comme PersianMind, Maral, etc.

Apprentissage zéro-shot et few-shot

Méthodes de transfert de connaissances inter-langues
Techniques d'ingénierie des prompts
Stratégies d'adaptation pour les langues peu dotées en ressources

Conclusions et discussion

Conclusions principales

Hiérarchie de performance des modèles: Gemma2 surpasse significativement les autres modèles, reflétant les avantages architecturaux
Impact du paradigme d'apprentissage: L'apprentissage few-shot apporte des améliorations significatives, particulièrement sur les tâches de raisonnement sémantique
Défis spécifiques aux tâches: Les tâches au niveau des tokens (comme la NER) présentent des défis pour tous les modèles
Écart de performance inter-langues: Le persan affiche en moyenne une performance inférieure de 18,7% par rapport aux références en anglais

Limitations

Sélection de modèles: Couverture incomplète de tous les modèles disponibles, particulièrement les modèles spécifiques au persan
Ingénierie des prompts: Absence d'optimisation extensive des prompts
Représentativité des ensembles de données: Couverture potentiellement incomplète des variations dialectales du persan
Optimisation des hyperparamètres: Absence d'ajustement des hyperparamètres spécifiques aux tâches
Nombre d'exemples: Nombre limité d'exemples few-shot (3-5)

Directions futures

Diversification des modèles: Évaluation de plus de LLMs spécifiques au persan
Extension des tâches: Inclusion de résumé abstrait, dialogue multi-tours et autres tâches complexes
Techniques de prompts avancées: Exploration de l'ajustement dynamique des prompts, du raisonnement par chaîne de pensée, etc.
Adaptation de domaine: Développement de benchmarks pour les domaines spécialisés (médical, juridique, etc.)
Stratégies d'ajustement fin: Recherche sur les méthodes d'ajustement fin paramétrique efficace
Infrastructure communautaire: Établissement d'un classement de benchmarks communautaires

Évaluation approfondie

Points forts

Importance significative de la recherche: Comble le vide dans l'évaluation des LLMs en persan, fournissant une référence importante pour la recherche sur les langues peu dotées en ressources
Conception expérimentale rigoureuse: Un cadre d'évaluation unifié assure une comparaison équitable, couvrant plusieurs tâches et métriques
Analyse approfondie et complète: Non seulement fournit des données de performance, mais offre également une analyse d'erreurs détaillée et des perspectives linguistiques
Valeur pratique élevée: Fournit des orientations pratiques pour les applications TAL en persan

Insuffisances

Couverture de modèles limitée: Absence d'évaluation de certains modèles importants spécifiques au persan
Ingénierie des prompts insuffisante: Les prompts standardisés peuvent ne pas exploiter pleinement le potentiel de certains modèles
Analyse du contexte culturel: L'analyse des phénomènes culturels spécifiques au persan pourrait être plus approfondie
Description des ressources informatiques: Absence de comparaison détaillée des coûts informatiques entre les modèles

Impact

Contribution académique: Fournit un benchmark important pour la recherche sur les LLMs multilingues, promouvant le développement des technologies pour les langues peu dotées en ressources
Valeur pratique: Fournit des orientations pour la sélection et l'optimisation de modèles pour les applications TAL en persan
Reproductibilité: Les paramètres expérimentaux détaillés et l'engagement open-source soutiennent la reproduction de la recherche
Construction communautaire: Promeut le développement de la communauté de recherche TAL en persan

Scénarios d'application

Sélection de modèles: Sélection de modèles de base appropriés pour les applications TAL en persan
Comparaison de benchmarks: Utilisation comme référence de performance pour le développement de nouveaux modèles
Orientation de recherche: Fournit des directions pour les améliorations de modèles spécifiques au persan
Ressources éducatives: Utilisation comme matériel pédagogique pour les cours de TAL multilingue

Références

L'article cite 32 références connexes, couvrant:

Méthodologie d'évaluation des LLMs
Cadres d'évaluation des capacités multilingues
Ressources et défis du TAL en persan
Techniques d'apprentissage zéro-shot et few-shot

Les références clés incluent la suite de benchmarks ParsiNLU, l'ensemble de données d'émotions ArmanEmo, et les études importantes sur les capacités des LLMs multilingues.

Résumé: Cet article est une recherche empirique de haute qualité qui établit un benchmark important pour l'évaluation des LLMs en persan. La méthodologie de recherche est rigoureuse, les résultats sont convaincants, et la contribution est significative pour promouvoir le développement des technologies TAL pour les langues peu dotées en ressources. Malgré certaines limitations, ses contributions et son impact sont remarquables.