2025-11-13T19:49:11.380535

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

Cherakhloo, Abbasi, Sarafraz et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
academic

Benchmarking von Open-Source Large Language Models für Persisch in Zero-Shot und Few-Shot Learning

Grundinformationen

  • Paper-ID: 2510.12807
  • Titel: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
  • Autoren: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 16. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.12807

Zusammenfassung

Diese Studie führt umfassende Benchmark-Tests mehrerer Open-Source-Sprachmodelle bei der Verarbeitung natürlicher Sprache im Persischen durch, wobei Zero-Shot- und Few-Shot-Lernparadigmen verwendet werden. Die Forschung umfasst Aufgaben wie Sentimentanalyse, Named Entity Recognition, Leseverständnis und Frage-Antwort-Systeme unter Verwendung etablierter persischer Datensätze wie ParsiNLU und ArmanEmo. Die Experimente verwenden strenge Zero-Shot- und Few-Shot-Einstellungen mit Metriken wie Genauigkeit, F1-Score, BLEU und ROUGE zur Leistungsbewertung. Die Ergebnisse zeigen, dass Gemma 2 bei fast allen Aufgaben in beiden Lernparadigmen am besten abschneidet, besonders bei komplexen Reasoning-Aufgaben. Allerdings zeigen die meisten Modelle schwache Leistungen bei Token-Level-Verständnisaufgaben wie Named Entity Recognition, was die spezifischen Herausforderungen der persischen Sprachverarbeitung unterstreicht.

Forschungshintergrund und Motivation

  1. Kernproblem: Die Effektivität großer Sprachmodelle bei ressourcenknappen Sprachen wie Persisch erfordert tiefergehende Untersuchungen. Obwohl LLMs bei hochressourcigen Sprachen wie Englisch hervorragende Ergebnisse zeigen, bestehen bei Sprachen wie Persisch erhebliche Leistungslücken.
  2. Bedeutung des Problems:
    • Persisch weist einzigartige orthographische Merkmale, komplexe morphologische Strukturen und Grammatikmuster auf
    • Im Vergleich zu hochressourcigen Sprachen fehlt es Persisch an umfassenden Datensätzen, annotierten Korpora und spezialisierten NLP-Werkzeugen
    • Es besteht Bedarf, der persischen Sprachgemeinschaft fairen Zugang zu NLP-Technologien zu bieten
  3. Einschränkungen bestehender Ansätze:
    • Mangel an systematischer LLM-Evaluierung für Persisch
    • Bestehende Forschung konzentriert sich hauptsächlich auf hochressourcige Sprachen wie Englisch
    • Persischspezifische Sprachphänomene wurden nicht ausreichend untersucht
  4. Forschungsmotivation: Durch Zero-Shot- und Few-Shot-Lernparadigmen die Fähigkeiten von Open-Source-LLMs bei persischen Aufgaben evaluieren und Benchmarks für die Entwicklung von NLP-Technologien für ressourcenknappen Sprachen bereitstellen.

Kernbeiträge

  1. Etablierung des ersten umfassenden persischen LLM-Benchmarks: Systematische Evaluierung von 11 Open-Source-Modellen bei über 50 Aufgaben
  2. Vergleichende Analyse von Zero-Shot- und Few-Shot-Lernparadigmen: Offenlegung der Auswirkungen verschiedener Lernparadigmen auf persische Aufgaben
  3. Identifikation spezifischer Herausforderungen der persischen Sprachverarbeitung: Besonders bei Token-Level-Verständnisaufgaben wie NER
  4. Bereitstellung von Baselines für zukünftige Modellentwicklung: Etablierung wichtiger Leistungsbaselines und Aufzeigung von Verbesserungsbereichen

Methodische Details

Aufgabendefinition

Die Forschung umfasst mehrere zentrale NLP-Aufgaben:

  • Textklassifizierung: Sentimentanalyse, Emotionserkennung
  • Sequenzmarkierung: Named Entity Recognition
  • Leseverständnis: Kontextbasierte Frage-Antwort-Systeme
  • Textgenerierung: Maschinelle Übersetzung, Textzusammenfassung
  • Reasoning-Aufgaben: Logisches Reasoning, Common-Sense-Reasoning, mathematisches Reasoning

Modellarchitekturen

Evaluierung von 11 repräsentativen Open-Source-LLMs:

  1. Gemma2: Googles effizientes Transformer-Modell mit verbesserter mehrsprachiger Darstellungsfähigkeit
  2. GLM4: Generatives Sprachmodell, optimiert für komplexe Reasoning- und Verständnisaufgaben
  3. LLaMA3.1/3.2: Meta AIs verfeinerte Architektur mit verbesserter Token-Darstellung für nicht-lateinische Schriften
  4. Qwen2/2.5: Alibabas mehrsprachiges Grundmodell
  5. Mistral: Recheneffizientes Modell mit Grouped-Query-Attention-Mechanismus
  6. Weitere Modelle: Marco-O1, Aya-Expanse, Falcon3, Tulu3

Technische Innovationen

  1. Einheitliches Evaluierungsframework: Etablierung standardisierter Prompt-Templates und Evaluierungs-Pipelines
  2. Multi-Paradigma-Vergleich: Systematischer Vergleich der Effektivität von Zero-Shot- und Few-Shot-Lernen
  3. Feinkörnige Analyse: Fehleranalyse für persischspezifische Sprachphänomene
  4. Bereichsübergreifende Evaluierung: Abdeckung mehrerer Wissensbereiche wie Geisteswissenschaften und STEM

Experimentelle Einrichtung

Datensätze

  1. ParsiNLU:
    • Leseverständnis: 1.000 Absatz-Frage-Paare
    • Textentailment: 2.500 Prämisse-Hypothese-Paare
    • Sentimentklassifizierung: 12.000 Sätze
    • Maschinelle Übersetzung: 10.000 englisch-persische parallele Satzpaare
  2. ArmanEmo: 7.500 persische Social-Media-Beiträge mit Annotationen für 8 Emotionskategorien
  3. ArmanNER: 7.682 Sätze mit drei Entitätsklassen: Person, Location, Organization
  4. Persian MMLU: 1.200 Multiple-Choice-Fragen, die Logik, Theologie, Soziologie, Mathematik und Naturwissenschaften abdecken
  5. Persian News Summary: 95.000 Artikel-Zusammenfassungs-Paare

Bewertungsmetriken

  • Klassifizierungsaufgaben: Genauigkeit (Accuracy) und Makro-durchschnittlicher F1-Score
  • Named Entity Recognition: Token-Level F1-Score
  • Leseverständnis: Exakte Übereinstimmung (EM) und Token-Überlappungs-F1-Score
  • Maschinelle Übersetzung: BLEU-Score
  • Textzusammenfassung: ROUGE-1, ROUGE-2, ROUGE-L-Scores

Vergleichsmethoden

Verwendung einheitlicher experimenteller Einstellungen zum Vergleich von 11 Open-Source-LLMs, um faire Vergleiche zu gewährleisten.

Implementierungsdetails

  • Hardware: NVIDIA A100 GPUs (40GB VRAM)
  • Software: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
  • Inferenzparameter: Temperatur 0,1 für Generierungsaufgaben, Greedy-Decoding für Klassifizierungsaufgaben
  • Few-Shot-Einstellung: Zufällige Auswahl von 5 repräsentativen Beispielen pro Aufgabe

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistungsranking:

  1. Gemma2: Few-Shot 0,61, Zero-Shot 0,42 (beste Leistung)
  2. GLM4: Few-Shot 0,53, Zero-Shot 0,35
  3. Qwen2.5: Few-Shot 0,50, Zero-Shot 0,35
  4. Weitere Modelle: Leistung nimmt entsprechend ab

Schlüsselfunde:

  • Gemma2 behält in beiden Lernparadigmen Führung mit durchschnittlichem Vorteil über 8%
  • Few-Shot-Lernen übertrifft durchgehend Zero-Shot-Lernen mit durchschnittlicher Verbesserung von 13,8%
  • Komplexe Reasoning-Aufgaben profitieren am deutlichsten (17,3% Verbesserung)

Aufgabenspezifische Analyse

Stärkeaufgaben:

  • Logisches Reasoning und Theologie: Durchschnittliche Scores 0,412 und 0,395
  • Leseverständnis: Few-Shot zeigt 17,3% Verbesserung gegenüber Zero-Shot
  • Textentailment: Few-Shot zeigt 15-20% Verbesserung

Herausforderungsaufgaben:

  • Named Entity Recognition: Alle Modelle zeigen schwache Leistung, Few-Shot Verbesserung nur 7,2%
  • Mathematik und Informatik: Durchschnittliche Scores 0,287 und 0,301
  • Token-Level-Vorhersage: Strukturelle Einschränkungen begrenzen Leistung

Ablationsstudien

Unterschiede im Domänenwissen:

  • Geisteswissenschaften durchschnittlich 0,395 vs. STEM-Bereiche 0,287
  • Zeigt ungleichmäßige Verteilung mehrsprachiger Trainingsdaten

Sprachphänomen-Analyse:

  • Semantische Disambiguierungsfehlerrate 23,7% höher
  • Fehlklassifizierungsrate komplexer Emotionsausdrücke 31,2% höher
  • Fehlerrate bei Multi-Token-Entitäten 27,8% höher
  • Fehlerrate bei idiomatischen Ausdrücken 34,5% höher

Fallstudien

Erfolgreiche Fälle: Gemma2 zeigt hervorragende Leistung bei logischen Reasoning-Aufgaben und kann komplexe semantische Beziehungen verarbeiten

Fehlgeschlagene Fälle: Alle Modelle haben Schwierigkeiten mit persischspezifischen Idiomen und kulturellem Kontext

Verwandte Arbeiten

Evaluierung mehrsprachiger LLMs

  • Entwicklung von Benchmarks wie GLUE und MMLU
  • Forschung zu sprachübergreifendem Transfer-Learning
  • Anwendung von Few-Shot-Lernen in mehrsprachigen Umgebungen

Persische NLP-Ressourcen

  • Entwicklung von Datensätzen wie ParsiNLU, ArmanEmo, ArmanNER
  • FaMTEB-Großmaßstab-Texteinbettungs-Benchmark
  • Persischspezifische Modelle wie PersianMind, Maral

Zero-Shot- und Few-Shot-Lernen

  • Methoden zum sprachübergreifenden Wissenstransfer
  • Prompt-Engineering-Techniken
  • Adaptationsstrategien für ressourcenknappen Sprachen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Modellleistungshierarchie: Gemma2 übertrifft andere Modelle deutlich und zeigt Architekturvorteil
  2. Auswirkung von Lernparadigmen: Few-Shot-Lernen bringt signifikante Verbesserungen, besonders bei semantischen Reasoning-Aufgaben
  3. Aufgabenspezifische Herausforderungen: Token-Level-Aufgaben wie NER stellen für alle Modelle Herausforderungen dar
  4. Sprachübergreifende Leistungslücke: Persisch liegt durchschnittlich 18,7% unter englischen Benchmarks

Einschränkungen

  1. Modellauswahl: Nicht alle verfügbaren Modelle abgedeckt, besonders persischspezifische Modelle
  2. Prompt-Engineering: Keine umfangreiche Prompt-Optimierung durchgeführt
  3. Datensatz-Repräsentativität: Möglicherweise nicht vollständige Abdeckung persischer Dialektvariationen
  4. Hyperparameter-Optimierung: Keine aufgabenspezifische Hyperparameter-Anpassung durchgeführt
  5. Beispielanzahl: Begrenzte Anzahl von Few-Shot-Beispielen (3-5)

Zukünftige Richtungen

  1. Modellvielfalt: Evaluierung weiterer persischspezifischer LLMs
  2. Aufgabenerweiterung: Hinzufügen komplexerer Aufgaben wie abstrakte Zusammenfassung, mehrteilige Dialoge
  3. Fortgeschrittene Prompt-Techniken: Erkundung dynamischer Prompt-Anpassung, Chain-of-Thought-Reasoning
  4. Domänenanpassung: Entwicklung von Benchmarks für spezialisierte Bereiche wie Medizin und Recht
  5. Fine-Tuning-Strategien: Forschung zu parametereffizienten Fine-Tuning-Methoden
  6. Community-Infrastruktur: Etablierung von Community-Benchmark-Leaderboards

Tiefgreifende Bewertung

Stärken

  1. Hohe Forschungsbedeutung: Füllt Lücke in der persischen LLM-Evaluierung und bietet wichtige Referenz für Forschung zu ressourcenknappen Sprachen
  2. Strenge Experimentgestaltung: Einheitliches Evaluierungsframework gewährleistet faire Vergleiche, umfasst mehrere Aufgaben und Metriken
  3. Umfassende Analyse: Bietet nicht nur Leistungsdaten, sondern auch detaillierte Fehleranalyse und linguistische Erkenntnisse
  4. Hoher praktischer Wert: Bietet praktische Anleitung für persische NLP-Anwendungen

Schwächen

  1. Begrenzte Modellabdeckung: Fehlende Evaluierung einiger wichtiger persischspezifischer Modelle
  2. Unzureichendes Prompt-Engineering: Standardisierte Prompts könnten das Potenzial einiger Modelle nicht vollständig ausschöpfen
  3. Oberflächliche kulturelle Kontextanalyse: Analyse persischspezifischer kultureller Phänomene könnte tiefergehend sein
  4. Unzureichende Beschreibung von Rechenressourcen: Keine detaillierte Darstellung der Rechenkosten verschiedener Modelle

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige Benchmarks für mehrsprachige LLM-Forschung und fördert Technologieentwicklung für ressourcenknappen Sprachen
  2. Praktischer Wert: Bietet Anleitung zur Modellauswahl und -optimierung für persische NLP-Anwendungen
  3. Reproduzierbarkeit: Detaillierte experimentelle Einstellungen und Open-Source-Zusagen unterstützen Forschungsreproduzierbarkeit
  4. Community-Aufbau: Fördert Entwicklung der persischen NLP-Forschungscommunity

Anwendungsszenarien

  1. Modellauswahl: Auswahl geeigneter Grundmodelle für persische NLP-Anwendungen
  2. Benchmark-Vergleich: Dient als Leistungsbenchmark für neue Modellentwicklung
  3. Forschungsanleitung: Bietet Richtung für persischspezifische Modellverbesserungen
  4. Bildungsressourcen: Dient als Lehrmaterial für mehrsprachige NLP-Kurse

Literaturverzeichnis

Das Papier zitiert 32 relevante Arbeiten, die abdecken:

  • Methodologie der LLM-Evaluierung
  • Bewertungsrahmen für mehrsprachige Fähigkeiten
  • Persische NLP-Ressourcen und Herausforderungen
  • Zero-Shot- und Few-Shot-Lernmethoden

Wichtige Referenzen umfassen die ParsiNLU-Benchmark-Suite, den ArmanEmo-Sentimentdatensatz und wichtige Arbeiten zur Untersuchung mehrsprachiger LLM-Fähigkeiten.


Zusammenfassung: Dies ist ein hochqualitatives empirisches Forschungspapier, das wichtige Benchmarks für die persische LLM-Evaluierung etabliert. Die Forschungsmethodik ist streng, die Ergebnisse überzeugend, und die Arbeit hat große Bedeutung für die Förderung der NLP-Technologieentwicklung für ressourcenknappen Sprachen. Trotz einiger Einschränkungen sind ihre Beiträge und Auswirkungen erheblich.