Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
academicBenchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- 论文ID: 2510.12807
- 标题: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- 作者: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
- 分类: cs.CL cs.AI
- 发表时间: October 16, 2025
- 论文链接: https://arxiv.org/abs/2510.12807
本研究对多个开源大语言模型在波斯语自然语言处理任务上的表现进行了全面基准测试,采用零样本和少样本学习范式。研究涵盖情感分析、命名实体识别、阅读理解和问答等任务,使用ParsiNLU和ArmanEmo等已建立的波斯语数据集。实验采用严格的零样本和少样本实验设置,使用准确率、F1分数、BLEU和ROUGE等指标进行性能评估。结果显示Gemma 2在两种学习范式下几乎所有任务上都表现最佳,特别是在复杂推理任务上表现突出。然而,大多数模型在命名实体识别等词元级理解任务上表现不佳,突显了波斯语处理的特定挑战。
- 核心问题: 大语言模型在低资源语言(如波斯语)上的有效性需要深入研究。尽管LLMs在英语等高资源语言上表现出色,但在波斯语等语言上的性能仍存在显著差距。
- 问题重要性:
- 波斯语具有独特的正字法特征、复杂的形态结构和语法模式
- 相比高资源语言,波斯语缺乏全面的数据集、标注语料库和专业NLP工具
- 需要为波斯语社区提供公平的NLP技术访问
- 现有方法局限性:
- 缺乏针对波斯语的系统性LLM评估
- 现有研究主要关注英语等高资源语言
- 波斯语特定的语言现象未得到充分研究
- 研究动机: 通过零样本和少样本学习范式评估开源LLMs在波斯语任务上的能力,为低资源语言NLP技术发展提供基准。
- 建立了首个综合性波斯语LLM基准: 涵盖11个开源模型在50+任务上的系统评估
- 提供了零样本和少样本学习范式的对比分析: 揭示了不同学习范式对波斯语任务的影响
- 识别了波斯语处理的特定挑战: 特别是在词元级理解任务(如NER)上的困难
- 为未来模型开发提供了基准线: 建立了重要的性能基线,指出了需要改进的关键领域
研究涵盖多个核心NLP任务:
- 文本分类: 情感分析、情感检测
- 序列标注: 命名实体识别
- 阅读理解: 基于上下文的问答
- 文本生成: 机器翻译、文本摘要
- 推理任务: 逻辑推理、常识推理、数学推理
评估了11个代表性开源LLM:
- Gemma2: Google的高效transformer模型,具有增强的多语言表示能力
- GLM4: 优化用于复杂推理和理解任务的生成语言模型
- LLaMA3.1/3.2: Meta AI的精炼架构,改进了非拉丁文字的词元表示
- Qwen2/2.5: 阿里巴巴的多语言基础模型
- Mistral: 采用分组查询注意力机制的计算高效模型
- 其他模型: Marco-O1、Aya-Expanse、Falcon3、Tulu3
- 统一评估框架: 建立了标准化的提示模板和评估管道
- 多范式对比: 系统比较零样本和少样本学习的有效性
- 细粒度分析: 针对波斯语特定的语言现象进行错误分析
- 跨领域评估: 涵盖人文、STEM等多个知识领域
- ParsiNLU:
- 阅读理解:1,000个段落-问题对
- 文本蕴含:2,500个前提-假设对
- 情感分类:12,000个句子
- 机器翻译:10,000个英波平行句对
- ArmanEmo: 7,500个波斯语社交媒体帖子,标注8种情感类别
- ArmanNER: 7,682个句子,包含Person、Location、Organization三类实体
- Persian MMLU: 1,200个多选题,涵盖逻辑、神学、社会学、数学、自然科学等领域
- Persian News Summary: 95,000个文章-摘要对
- 分类任务: 准确率(Accuracy)和宏平均F1分数
- 命名实体识别: 词元级F1分数
- 阅读理解: 精确匹配(EM)和词元重叠F1分数
- 机器翻译: BLEU分数
- 文本摘要: ROUGE-1、ROUGE-2、ROUGE-L分数
采用统一的实验设置对比11个开源LLM,确保公平比较。
- 硬件: NVIDIA A100 GPUs (40GB VRAM)
- 软件: Hugging Face Transformers (v4.30.2)、PyTorch (v2.0.1)
- 推理参数: 生成任务温度设为0.1,分类任务使用贪婪解码
- 少样本设置: 每个任务随机选择5个代表性示例
整体性能排名:
- Gemma2: 少样本0.61,零样本0.42(最佳)
- GLM4: 少样本0.53,零样本0.35
- Qwen2.5: 少样本0.50,零样本0.35
- 其他模型: 性能依次递减
关键发现:
- Gemma2在两种学习范式下都保持领先,平均优势超过8%
- 少样本学习普遍优于零样本学习,平均提升13.8%
- 复杂推理任务受益最明显(17.3%提升)
优势任务:
- 逻辑推理和神学: 平均分数0.412和0.395
- 阅读理解: 少样本相比零样本提升17.3%
- 文本蕴含: 少样本提升15-20%
挑战任务:
- 命名实体识别: 所有模型表现不佳,少样本提升仅7.2%
- 数学和计算机科学: 平均分数0.287和0.301
- 词元级预测: 结构性限制导致性能受限
领域知识差异:
- 人文学科平均0.395 vs STEM领域0.287
- 表明多语言训练数据分布不均
语言现象分析:
- 语义消歧错误率高23.7%
- 复杂情感表达误分类率高31.2%
- 多词元实体错误率高27.8%
- 习语表达错误率高34.5%
成功案例: Gemma2在逻辑推理任务上表现突出,能够处理复杂的语义关系
失败案例: 所有模型在波斯语特定习语和文化语境理解上存在困难
- GLUE和MMLU等基准的发展
- 跨语言迁移学习研究
- 少样本学习在多语言环境中的应用
- ParsiNLU、ArmanEmo、ArmanNER等数据集建设
- FaMTEB大规模文本嵌入基准
- 波斯语专用模型如PersianMind、Maral等
- 模型性能层次: Gemma2显著优于其他模型,体现出架构优势
- 学习范式影响: 少样本学习带来显著改善,特别是在语义推理任务上
- 任务特定挑战: 词元级任务(如NER)对所有模型都具有挑战性
- 跨语言性能差距: 波斯语相比英语基准平均低18.7%
- 模型选择: 未涵盖所有可用模型,特别是波斯语专用模型
- 提示工程: 未进行广泛的提示优化
- 数据集代表性: 可能未完全覆盖波斯语的方言变化
- 超参数优化: 未进行任务特定的超参数调优
- 示例数量: 少样本示例数量有限(3-5个)
- 模型多样化: 评估更多波斯语专用LLM
- 任务扩展: 增加抽象摘要、多轮对话等复杂任务
- 高级提示技术: 探索动态提示调优、思维链推理等
- 领域适应: 开发医疗、法律等专业领域基准
- 微调策略: 研究参数高效微调方法
- 社区基础设施: 建立社区基准排行榜
- 研究意义重大: 填补了波斯语LLM评估的空白,为低资源语言研究提供重要参考
- 实验设计严谨: 统一的评估框架确保了公平比较,涵盖多个任务和指标
- 分析深入全面: 不仅提供性能数据,还进行了细致的错误分析和语言学洞察
- 实用价值高: 为波斯语NLP应用提供了实际指导
- 模型覆盖有限: 缺少一些重要的波斯语专用模型评估
- 提示工程不足: 标准化提示可能未充分发挥某些模型的潜力
- 文化语境分析: 对波斯语文化特定现象的分析可以更深入
- 计算资源描述: 未详细说明不同模型的计算成本对比
- 学术贡献: 为多语言LLM研究提供重要基准,推动低资源语言技术发展
- 实用价值: 为波斯语NLP应用选择和优化模型提供指导
- 可复现性: 详细的实验设置和开源承诺支持研究复现
- 社区建设: 促进波斯语NLP研究社区的发展
- 模型选择: 为波斯语NLP应用选择合适的基础模型
- 基准比较: 作为新模型开发的性能基准
- 研究指导: 为波斯语特定的模型改进提供方向
- 教育资源: 作为多语言NLP课程的教学材料
论文引用了32篇相关文献,涵盖:
- LLM评估方法学研究
- 多语言能力评估框架
- 波斯语NLP资源和挑战
- 零样本和少样本学习技术
关键参考包括ParsiNLU基准套件、ArmanEmo情感数据集、以及多语言LLM能力调研等重要工作。
总结: 这是一篇高质量的实证研究论文,为波斯语LLM评估建立了重要基准。研究方法严谨,结果有说服力,对推动低资源语言NLP技术发展具有重要意义。尽管存在一些局限性,但其贡献和影响力是显著的。