2025-11-13T19:49:11.380535

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

Cherakhloo, Abbasi, Sarafraz et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
academic

ペルシア語のゼロショット・少数ショット学習における オープンソース大規模言語モデルのベンチマーク

基本情報

  • 論文ID: 2510.12807
  • タイトル: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
  • 著者: Mahdi Cherakhloo、Arash Abbasi、Mohammad Saeid Sarafraz、Bijan Vosoughi Vahdat
  • 分類: cs.CL cs.AI
  • 発表日: 2025年10月16日
  • 論文リンク: https://arxiv.org/abs/2510.12807

要約

本研究は、複数のオープンソース大規模言語モデル(LLM)がペルシア語自然言語処理タスクにおける性能を、ゼロショット学習および少数ショット学習パラダイムを用いて包括的にベンチマークしたものである。研究は感情分析、固有表現認識、読解理解、質問応答などのタスクを対象とし、ParsiNLUおよびArmanEmoなどの確立されたペルシア語データセットを使用している。実験は厳密なゼロショットおよび少数ショット実験設定を採用し、精度、F1スコア、BLEU、ROUGEなどの指標を用いて性能を評価している。結果として、Gemma 2は両学習パラダイムにおいてほぼすべてのタスクで最高性能を示し、特に複雑な推論タスクで優れた性能を発揮した。しかし、固有表現認識などのトークンレベル理解タスクではほとんどのモデルが不十分な性能を示し、ペルシア語処理の特定の課題が浮き彫りになった。

研究背景と動機

  1. 中核的課題: 大規模言語モデルが低資源言語(ペルシア語など)において有効であるかについて、深い調査が必要である。LLMは英語などの高資源言語では優れた性能を示しているが、ペルシア語などの言語における性能には依然として大きなギャップが存在する。
  2. 問題の重要性:
    • ペルシア語は独特の正書法特性、複雑な形態構造、および文法パターンを有している
    • 高資源言語と比較して、ペルシア語は包括的なデータセット、アノテーション付きコーパス、および専門的なNLPツールが不足している
    • ペルシア語コミュニティに対して公平なNLP技術へのアクセスを提供する必要がある
  3. 既存手法の限界:
    • ペルシア語に特化した体系的なLLM評価が不足している
    • 既存研究は主に英語などの高資源言語に焦点を当てている
    • ペルシア語特有の言語現象は十分に研究されていない
  4. 研究動機: ゼロショットおよび少数ショット学習パラダイムを通じてオープンソースLLMのペルシア語タスクに対する能力を評価し、低資源言語NLP技術の発展のためのベンチマークを提供する。

中核的貢献

  1. 初の包括的ペルシア語LLMベンチマークの確立: 11個のオープンソースモデルの50以上のタスクに対する体系的評価を含む
  2. ゼロショットおよび少数ショット学習パラダイムの比較分析を提供: 異なる学習パラダイムがペルシア語タスクに与える影響を明らかにする
  3. ペルシア語処理の特定の課題を特定: 特にNERなどのトークンレベル理解タスクにおける困難さを明らかにする
  4. 将来のモデル開発のためのベースラインを提供: 重要な性能ベースラインを確立し、改善が必要な主要領域を指摘する

方法の詳細

タスク定義

研究は複数の中核的なNLPタスクを対象としている:

  • テキスト分類: 感情分析、感情検出
  • 系列ラベリング: 固有表現認識
  • 読解理解: 文脈に基づく質問応答
  • テキスト生成: 機械翻訳、テキスト要約
  • 推論タスク: 論理推論、常識推論、数学推論

モデルアーキテクチャ

11個の代表的なオープンソースLLMを評価した:

  1. Gemma2: Googleの効率的なトランスフォーマーモデル、強化された多言語表現能力を備えている
  2. GLM4: 複雑な推論および理解タスク用に最適化された生成言語モデル
  3. LLaMA3.1/3.2: Meta AIの精緻化されたアーキテクチャ、非ラテン文字のトークン表現を改善
  4. Qwen2/2.5: アリババの多言語基盤モデル
  5. Mistral: グループ化クエリアテンション機構を採用した計算効率的なモデル
  6. その他のモデル: Marco-O1、Aya-Expanse、Falcon3、Tulu3

技術的革新点

  1. 統一評価フレームワーク: 標準化されたプロンプトテンプレートおよび評価パイプラインを確立
  2. マルチパラダイム比較: ゼロショットおよび少数ショット学習の有効性を体系的に比較
  3. 細粒度分析: ペルシア語特有の言語現象に対するエラー分析を実施
  4. クロスドメイン評価: 人文科学、STEM等複数の知識領域を対象

実験設定

データセット

  1. ParsiNLU:
    • 読解理解: 1,000個の段落-質問ペア
    • テキスト含意: 2,500個の前提-仮説ペア
    • 感情分類: 12,000個の文
    • 機械翻訳: 10,000個の英波対訳文ペア
  2. ArmanEmo: 7,500個のペルシア語ソーシャルメディア投稿、8種類の感情カテゴリでアノテーション
  3. ArmanNER: 7,682個の文、Person、Location、Organization の3つのエンティティクラスを含む
  4. Persian MMLU: 論理、神学、社会学、数学、自然科学等を網羅する1,200個の多肢選択問題
  5. Persian News Summary: 95,000個の記事-要約ペア

評価指標

  • 分類タスク: 精度(Accuracy)およびマクロ平均F1スコア
  • 固有表現認識: トークンレベルF1スコア
  • 読解理解: 完全一致(EM)およびトークン重複F1スコア
  • 機械翻訳: BLEUスコア
  • テキスト要約: ROUGE-1、ROUGE-2、ROUGE-Lスコア

比較手法

11個のオープンソースLLMを統一された実験設定で比較し、公平な比較を確保した。

実装詳細

  • ハードウェア: NVIDIA A100 GPU(40GB VRAM)
  • ソフトウェア: Hugging Face Transformers(v4.30.2)、PyTorch(v2.0.1)
  • 推論パラメータ: 生成タスクの温度を0.1に設定、分類タスクは貪欲デコーディングを使用
  • 少数ショット設定: 各タスクから5個の代表的な例をランダムに選択

実験結果

主要な結果

全体的性能ランキング:

  1. Gemma2: 少数ショット0.61、ゼロショット0.42(最高)
  2. GLM4: 少数ショット0.53、ゼロショット0.35
  3. Qwen2.5: 少数ショット0.50、ゼロショット0.35
  4. その他のモデル: 性能は順次低下

主要な知見:

  • Gemma2は両学習パラダイムで優位性を維持し、平均優位性は8%以上
  • 少数ショット学習は全般的にゼロショット学習を上回り、平均改善率は13.8%
  • 複雑な推論タスクで最も顕著な改善(17.3%改善)

タスク特定分析

優位性のあるタスク:

  • 論理推論および神学: 平均スコア0.412および0.395
  • 読解理解: 少数ショットはゼロショットと比較して17.3%改善
  • テキスト含意: 少数ショットで15~20%改善

課題のあるタスク:

  • 固有表現認識: すべてのモデルで性能が不十分、少数ショット改善率は7.2%のみ
  • 数学およびコンピュータサイエンス: 平均スコア0.287および0.301
  • トークンレベル予測: 構造的制限により性能が制限される

アブレーション実験

領域知識の差異:

  • 人文科学平均0.395対STEM領域0.287
  • 多言語訓練データ分布が不均等であることを示唆

言語現象分析:

  • 意味的曖昧性解消エラー率23.7%高
  • 複雑な感情表現の誤分類率31.2%高
  • 複数トークンエンティティエラー率27.8%高
  • 慣用句表現エラー率34.5%高

ケーススタディ

成功事例: Gemma2は論理推論タスクで優れた性能を示し、複雑な意味関係を処理できる

失敗事例: すべてのモデルがペルシア語特有の慣用句および文化的文脈の理解に困難を示す

関連研究

多言語LLM評価

  • GLUEおよびMLLUなどのベンチマークの発展
  • クロスリンガル転移学習研究
  • 多言語環境における少数ショット学習の応用

ペルシア語NLPリソース

  • ParsiNLU、ArmanEmo、ArmanNERなどのデータセット構築
  • FaMTEB大規模テキスト埋め込みベンチマーク
  • PersianMind、Maralなどのペルシア語専用モデル

ゼロショットおよび少数ショット学習

  • クロスリンガル知識転移方法
  • プロンプトエンジニアリング技術
  • 低資源言語適応戦略

結論と考察

主要な結論

  1. モデル性能の階層構造: Gemma2は他のモデルを大幅に上回り、アーキテクチャの優位性を示す
  2. 学習パラダイムの影響: 少数ショット学習は顕著な改善をもたらし、特に意味推論タスクで効果的
  3. タスク特定の課題: トークンレベルタスク(NERなど)はすべてのモデルに対して課題である
  4. クロスリンガル性能ギャップ: ペルシア語は英語ベンチマークと比較して平均18.7%低い

限界

  1. モデル選択: すべての利用可能なモデル、特にペルシア語専用モデルを網羅していない
  2. プロンプトエンジニアリング: 広範なプロンプト最適化を実施していない
  3. データセット代表性: ペルシア語の方言変化を完全にカバーしていない可能性
  4. ハイパーパラメータ最適化: タスク特定のハイパーパラメータ調整を実施していない
  5. 例の数: 少数ショット例の数が限定的(3~5個)

将来の方向性

  1. モデルの多様化: より多くのペルシア語専用LLMの評価
  2. タスク拡張: 抽象要約、マルチターン対話などの複雑なタスクを追加
  3. 高度なプロンプト技術: 動的プロンプト調整、思考の連鎖推論などの探索
  4. 領域適応: 医療、法律などの専門領域ベンチマークの開発
  5. 微調整戦略: パラメータ効率的な微調整方法の研究
  6. コミュニティインフラ: コミュニティベンチマークリーダーボードの構築

深層的評価

利点

  1. 研究意義が重大: ペルシア語LLM評価の空白を埋め、低資源言語研究に重要な参考を提供
  2. 実験設計が厳密: 統一された評価フレームワークが公平な比較を確保し、複数のタスクと指標を網羅
  3. 分析が深く包括的: 性能データを提供するだけでなく、詳細なエラー分析と言語学的洞察を実施
  4. 実用価値が高い: ペルシア語NLPアプリケーションに実践的な指導を提供

不足点

  1. モデルカバレッジが限定的: 重要なペルシア語専用モデルの評価が不足
  2. プロンプトエンジニアリングが不十分: 標準化されたプロンプトが一部モデルの可能性を十分に引き出していない可能性
  3. 文化的文脈分析: ペルシア語文化特有の現象に対する分析をさらに深掘りできる
  4. 計算リソース記述: 異なるモデル間の計算コスト比較について詳細に説明していない

影響力

  1. 学術的貢献: 多言語LLM研究に重要なベンチマークを提供し、低資源言語技術の発展を推進
  2. 実用価値: ペルシア語NLPアプリケーションのモデル選択と最適化に指導を提供
  3. 再現性: 詳細な実験設定とオープンソース公開により研究の再現を支援
  4. コミュニティ構築: ペルシア語NLP研究コミュニティの発展を促進

適用シーン

  1. モデル選択: ペルシア語NLPアプリケーション用の適切な基盤モデルの選択
  2. ベンチマーク比較: 新規モデル開発の性能ベンチマーク
  3. 研究指導: ペルシア語特定のモデル改善方向の提供
  4. 教育リソース: 多言語NLP講座の教材として

参考文献

論文は32篇の関連文献を引用し、以下を網羅している:

  • LLM評価方法論研究
  • 多言語能力評価フレームワーク
  • ペルシア語NLPリソースと課題
  • ゼロショットおよび少数ショット学習技術

主要な参考文献にはParsiNLUベンチマークスイート、ArmanEmo感情データセット、および多言語LLM能力調査などの重要な研究が含まれている。


総括: これは高品質の実証研究論文であり、ペルシア語LLM評価の重要なベンチマークを確立している。研究方法は厳密であり、結果は説得力があり、低資源言語NLP技術の発展を推進する上で重要な意義を有している。いくつかの限界は存在するが、その貢献と影響力は顕著である。