Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
Évaluation comparative des modèles de langage de grande taille open-source pour le persan en apprentissage zéro-shot et few-shot
- ID de l'article: 2510.12807
- Titre: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- Auteurs: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
- Classification: cs.CL cs.AI
- Date de publication: 16 octobre 2025
- Lien de l'article: https://arxiv.org/abs/2510.12807
Cette étude présente une évaluation comparative exhaustive de plusieurs modèles de langage de grande taille (LLMs) open-source sur des tâches de traitement du langage naturel en persan, en utilisant les paradigmes d'apprentissage zéro-shot et few-shot. L'étude couvre l'analyse de sentiments, la reconnaissance d'entités nommées, la compréhension de lecture et les systèmes de questions-réponses, en utilisant des ensembles de données établis en persan tels que ParsiNLU et ArmanEmo. Les expériences emploient des protocoles rigoureux zéro-shot et few-shot, avec des métriques d'évaluation incluant la précision, le score F1, BLEU et ROUGE. Les résultats montrent que Gemma 2 surpasse presque toutes les tâches dans les deux paradigmes d'apprentissage, avec une performance particulièrement remarquable sur les tâches de raisonnement complexe. Cependant, la plupart des modèles présentent des performances insuffisantes sur les tâches de compréhension au niveau des tokens, comme la reconnaissance d'entités nommées, mettant en évidence les défis spécifiques du traitement du persan.
- Problème central: L'efficacité des modèles de langage de grande taille sur les langues peu dotées en ressources (comme le persan) nécessite une investigation approfondie. Bien que les LLMs excellent sur les langues hautement dotées en ressources comme l'anglais, des écarts de performance significatifs subsistent pour le persan et les langues similaires.
- Importance du problème:
- Le persan possède des caractéristiques orthographiques uniques, une structure morphologique complexe et des motifs grammaticaux particuliers
- Comparé aux langues hautement dotées en ressources, le persan manque d'ensembles de données complets, de corpus annotés et d'outils TAL spécialisés
- Il est nécessaire de fournir à la communauté persanophone un accès équitable aux technologies TAL
- Limitations des approches existantes:
- Absence d'évaluation systématique des LLMs spécifiques au persan
- Les recherches existantes se concentrent principalement sur les langues hautement dotées en ressources comme l'anglais
- Les phénomènes linguistiques spécifiques au persan n'ont pas été suffisamment étudiés
- Motivation de la recherche: Évaluer les capacités des LLMs open-source sur les tâches en persan via les paradigmes d'apprentissage zéro-shot et few-shot, en fournissant des références pour le développement des technologies TAL pour les langues peu dotées en ressources.
- Établissement du premier benchmark complet pour les LLMs en persan: Évaluation systématique de 11 modèles open-source sur plus de 50 tâches
- Analyse comparative des paradigmes d'apprentissage zéro-shot et few-shot: Révélation de l'impact des différents paradigmes d'apprentissage sur les tâches en persan
- Identification des défis spécifiques du traitement du persan: Particulièrement les difficultés sur les tâches de compréhension au niveau des tokens (comme la NER)
- Fourniture de lignes de base pour le développement futur de modèles: Établissement de références de performance importantes, identifiant les domaines clés nécessitant des améliorations
L'étude couvre plusieurs tâches TAL fondamentales:
- Classification de texte: Analyse de sentiments, détection d'émotions
- Étiquetage de séquences: Reconnaissance d'entités nommées
- Compréhension de lecture: Questions-réponses basées sur le contexte
- Génération de texte: Traduction automatique, résumé de texte
- Tâches de raisonnement: Raisonnement logique, raisonnement de sens commun, raisonnement mathématique
Évaluation de 11 LLMs open-source représentatifs:
- Gemma2: Modèle transformer efficace de Google, doté de capacités de représentation multilingues améliorées
- GLM4: Modèle de langage génératif optimisé pour les tâches complexes de raisonnement et de compréhension
- LLaMA3.1/3.2: Architecture affinée de Meta AI, avec représentation améliorée des tokens pour les caractères non-latins
- Qwen2/2.5: Modèles de base multilingues d'Alibaba
- Mistral: Modèle computationnellement efficace utilisant le mécanisme d'attention par requête groupée
- Autres modèles: Marco-O1, Aya-Expanse, Falcon3, Tulu3
- Cadre d'évaluation unifié: Établissement d'un pipeline d'évaluation standardisé avec modèles de prompts uniformes
- Comparaison multi-paradigmes: Comparaison systématique de l'efficacité de l'apprentissage zéro-shot et few-shot
- Analyse granulaire: Analyse des erreurs ciblée sur les phénomènes linguistiques spécifiques au persan
- Évaluation inter-domaines: Couvrant plusieurs domaines de connaissances (sciences humaines, STEM, etc.)
- ParsiNLU:
- Compréhension de lecture: 1 000 paires paragraphe-question
- Inférence textuelle: 2 500 paires prémisse-hypothèse
- Classification de sentiments: 12 000 phrases
- Traduction automatique: 10 000 paires de phrases parallèles anglais-persan
- ArmanEmo: 7 500 publications de médias sociaux en persan, annotées avec 8 catégories d'émotions
- ArmanNER: 7 682 phrases contenant trois classes d'entités (Personne, Lieu, Organisation)
- Persian MMLU: 1 200 questions à choix multiples couvrant la logique, la théologie, la sociologie, les mathématiques, les sciences naturelles, etc.
- Persian News Summary: 95 000 paires article-résumé
- Tâches de classification: Précision (Accuracy) et score F1 macro-moyenné
- Reconnaissance d'entités nommées: Score F1 au niveau des tokens
- Compréhension de lecture: Correspondance exacte (EM) et score F1 de chevauchement de tokens
- Traduction automatique: Score BLEU
- Résumé de texte: Scores ROUGE-1, ROUGE-2, ROUGE-L
Comparaison de 11 LLMs open-source en utilisant une configuration expérimentale uniforme, garantissant une comparaison équitable.
- Matériel: GPUs NVIDIA A100 (40 Go VRAM)
- Logiciel: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
- Paramètres d'inférence: Température de 0,1 pour les tâches de génération, décodage glouton pour les tâches de classification
- Configuration few-shot: Sélection aléatoire de 5 exemples représentatifs par tâche
Classement de performance globale:
- Gemma2: Few-shot 0,61, zéro-shot 0,42 (meilleur)
- GLM4: Few-shot 0,53, zéro-shot 0,35
- Qwen2.5: Few-shot 0,50, zéro-shot 0,35
- Autres modèles: Performance décroissante
Découvertes clés:
- Gemma2 maintient une avance dans les deux paradigmes d'apprentissage, avec un avantage moyen supérieur à 8%
- L'apprentissage few-shot surpasse systématiquement le zéro-shot, avec une amélioration moyenne de 13,8%
- Les tâches de raisonnement complexe bénéficient le plus (amélioration de 17,3%)
Tâches de force:
- Raisonnement logique et théologie: Scores moyens de 0,412 et 0,395
- Compréhension de lecture: Amélioration de 17,3% en few-shot par rapport au zéro-shot
- Inférence textuelle: Amélioration de 15-20% en few-shot
Tâches de défi:
- Reconnaissance d'entités nommées: Performance insuffisante de tous les modèles, amélioration few-shot de seulement 7,2%
- Mathématiques et informatique: Scores moyens de 0,287 et 0,301
- Prédiction au niveau des tokens: Limitations structurelles limitant la performance
Variations de connaissances de domaine:
- Sciences humaines moyenne 0,395 vs domaines STEM 0,287
- Indiquant une distribution inégale des données d'entraînement multilingues
Analyse des phénomènes linguistiques:
- Taux d'erreur de désambiguïsation sémantique élevé de 23,7%
- Taux de mauvaise classification d'expressions émotionnelles complexes élevé de 31,2%
- Taux d'erreur d'entités multi-tokens élevé de 27,8%
- Taux d'erreur d'expressions idiomatiques élevé de 34,5%
Cas de succès: Gemma2 excelle sur les tâches de raisonnement logique, capable de traiter les relations sémantiques complexes
Cas d'échec: Tous les modèles éprouvent des difficultés avec les idiomes spécifiques au persan et la compréhension du contexte culturel
- Développement des benchmarks GLUE et MMLU
- Recherche sur le transfert d'apprentissage inter-langues
- Application de l'apprentissage few-shot dans les environnements multilingues
- Construction d'ensembles de données tels que ParsiNLU, ArmanEmo, ArmanNER
- Benchmark FaMTEB d'embeddings de texte à grande échelle
- Modèles spécifiques au persan comme PersianMind, Maral, etc.
- Méthodes de transfert de connaissances inter-langues
- Techniques d'ingénierie des prompts
- Stratégies d'adaptation pour les langues peu dotées en ressources
- Hiérarchie de performance des modèles: Gemma2 surpasse significativement les autres modèles, reflétant les avantages architecturaux
- Impact du paradigme d'apprentissage: L'apprentissage few-shot apporte des améliorations significatives, particulièrement sur les tâches de raisonnement sémantique
- Défis spécifiques aux tâches: Les tâches au niveau des tokens (comme la NER) présentent des défis pour tous les modèles
- Écart de performance inter-langues: Le persan affiche en moyenne une performance inférieure de 18,7% par rapport aux références en anglais
- Sélection de modèles: Couverture incomplète de tous les modèles disponibles, particulièrement les modèles spécifiques au persan
- Ingénierie des prompts: Absence d'optimisation extensive des prompts
- Représentativité des ensembles de données: Couverture potentiellement incomplète des variations dialectales du persan
- Optimisation des hyperparamètres: Absence d'ajustement des hyperparamètres spécifiques aux tâches
- Nombre d'exemples: Nombre limité d'exemples few-shot (3-5)
- Diversification des modèles: Évaluation de plus de LLMs spécifiques au persan
- Extension des tâches: Inclusion de résumé abstrait, dialogue multi-tours et autres tâches complexes
- Techniques de prompts avancées: Exploration de l'ajustement dynamique des prompts, du raisonnement par chaîne de pensée, etc.
- Adaptation de domaine: Développement de benchmarks pour les domaines spécialisés (médical, juridique, etc.)
- Stratégies d'ajustement fin: Recherche sur les méthodes d'ajustement fin paramétrique efficace
- Infrastructure communautaire: Établissement d'un classement de benchmarks communautaires
- Importance significative de la recherche: Comble le vide dans l'évaluation des LLMs en persan, fournissant une référence importante pour la recherche sur les langues peu dotées en ressources
- Conception expérimentale rigoureuse: Un cadre d'évaluation unifié assure une comparaison équitable, couvrant plusieurs tâches et métriques
- Analyse approfondie et complète: Non seulement fournit des données de performance, mais offre également une analyse d'erreurs détaillée et des perspectives linguistiques
- Valeur pratique élevée: Fournit des orientations pratiques pour les applications TAL en persan
- Couverture de modèles limitée: Absence d'évaluation de certains modèles importants spécifiques au persan
- Ingénierie des prompts insuffisante: Les prompts standardisés peuvent ne pas exploiter pleinement le potentiel de certains modèles
- Analyse du contexte culturel: L'analyse des phénomènes culturels spécifiques au persan pourrait être plus approfondie
- Description des ressources informatiques: Absence de comparaison détaillée des coûts informatiques entre les modèles
- Contribution académique: Fournit un benchmark important pour la recherche sur les LLMs multilingues, promouvant le développement des technologies pour les langues peu dotées en ressources
- Valeur pratique: Fournit des orientations pour la sélection et l'optimisation de modèles pour les applications TAL en persan
- Reproductibilité: Les paramètres expérimentaux détaillés et l'engagement open-source soutiennent la reproduction de la recherche
- Construction communautaire: Promeut le développement de la communauté de recherche TAL en persan
- Sélection de modèles: Sélection de modèles de base appropriés pour les applications TAL en persan
- Comparaison de benchmarks: Utilisation comme référence de performance pour le développement de nouveaux modèles
- Orientation de recherche: Fournit des directions pour les améliorations de modèles spécifiques au persan
- Ressources éducatives: Utilisation comme matériel pédagogique pour les cours de TAL multilingue
L'article cite 32 références connexes, couvrant:
- Méthodologie d'évaluation des LLMs
- Cadres d'évaluation des capacités multilingues
- Ressources et défis du TAL en persan
- Techniques d'apprentissage zéro-shot et few-shot
Les références clés incluent la suite de benchmarks ParsiNLU, l'ensemble de données d'émotions ArmanEmo, et les études importantes sur les capacités des LLMs multilingues.
Résumé: Cet article est une recherche empirique de haute qualité qui établit un benchmark important pour l'évaluation des LLMs en persan. La méthodologie de recherche est rigoureuse, les résultats sont convaincants, et la contribution est significative pour promouvoir le développement des technologies TAL pour les langues peu dotées en ressources. Malgré certaines limitations, ses contributions et son impact sont remarquables.