2025-11-13T19:49:11.380535

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

Cherakhloo, Abbasi, Sarafraz et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.

academic

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

基本信息

论文ID: 2510.12807
标题: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
作者: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
分类: cs.CL cs.AI
发表时间: October 16, 2025
论文链接: https://arxiv.org/abs/2510.12807

摘要

本研究对多个开源大语言模型在波斯语自然语言处理任务上的表现进行了全面基准测试，采用零样本和少样本学习范式。研究涵盖情感分析、命名实体识别、阅读理解和问答等任务，使用ParsiNLU和ArmanEmo等已建立的波斯语数据集。实验采用严格的零样本和少样本实验设置，使用准确率、F1分数、BLEU和ROUGE等指标进行性能评估。结果显示Gemma 2在两种学习范式下几乎所有任务上都表现最佳，特别是在复杂推理任务上表现突出。然而，大多数模型在命名实体识别等词元级理解任务上表现不佳，突显了波斯语处理的特定挑战。

研究背景与动机

核心问题: 大语言模型在低资源语言（如波斯语）上的有效性需要深入研究。尽管LLMs在英语等高资源语言上表现出色，但在波斯语等语言上的性能仍存在显著差距。
问题重要性:
- 波斯语具有独特的正字法特征、复杂的形态结构和语法模式
- 相比高资源语言，波斯语缺乏全面的数据集、标注语料库和专业NLP工具
- 需要为波斯语社区提供公平的NLP技术访问
现有方法局限性:
- 缺乏针对波斯语的系统性LLM评估
- 现有研究主要关注英语等高资源语言
- 波斯语特定的语言现象未得到充分研究
研究动机: 通过零样本和少样本学习范式评估开源LLMs在波斯语任务上的能力，为低资源语言NLP技术发展提供基准。

核心贡献

建立了首个综合性波斯语LLM基准: 涵盖11个开源模型在50+任务上的系统评估
提供了零样本和少样本学习范式的对比分析: 揭示了不同学习范式对波斯语任务的影响
识别了波斯语处理的特定挑战: 特别是在词元级理解任务（如NER）上的困难
为未来模型开发提供了基准线: 建立了重要的性能基线，指出了需要改进的关键领域

方法详解

任务定义

研究涵盖多个核心NLP任务：

文本分类: 情感分析、情感检测
序列标注: 命名实体识别
阅读理解: 基于上下文的问答
文本生成: 机器翻译、文本摘要
推理任务: 逻辑推理、常识推理、数学推理

模型架构

评估了11个代表性开源LLM：

Gemma2: Google的高效transformer模型，具有增强的多语言表示能力
GLM4: 优化用于复杂推理和理解任务的生成语言模型
LLaMA3.1/3.2: Meta AI的精炼架构，改进了非拉丁文字的词元表示
Qwen2/2.5: 阿里巴巴的多语言基础模型
Mistral: 采用分组查询注意力机制的计算高效模型
其他模型: Marco-O1、Aya-Expanse、Falcon3、Tulu3

技术创新点

统一评估框架: 建立了标准化的提示模板和评估管道
多范式对比: 系统比较零样本和少样本学习的有效性
细粒度分析: 针对波斯语特定的语言现象进行错误分析
跨领域评估: 涵盖人文、STEM等多个知识领域

实验设置

数据集

ParsiNLU:
- 阅读理解：1,000个段落-问题对
- 文本蕴含：2,500个前提-假设对
- 情感分类：12,000个句子
- 机器翻译：10,000个英波平行句对
ArmanEmo: 7,500个波斯语社交媒体帖子，标注8种情感类别
ArmanNER: 7,682个句子，包含Person、Location、Organization三类实体
Persian MMLU: 1,200个多选题，涵盖逻辑、神学、社会学、数学、自然科学等领域
Persian News Summary: 95,000个文章-摘要对