Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
- पेपर ID: 2510.12807
- शीर्षक: फारसी के लिए ओपन-सोर्स बड़े भाषा मॉडल्स की बेंचमार्किंग: जीरो-शॉट और फ्यू-शॉट लर्निंग में
- लेखक: महदी चेराखलू, आरश अब्बासी, मोहम्मद सईद सराफराज, बिजन वोसूघी वहदत
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन तिथि: 16 अक्टूबर, 2025
- पेपर लिंक: https://arxiv.org/abs/2510.12807
यह अनुसंधान कई ओपन-सोर्स बड़े भाषा मॉडल्स (LLMs) के फारसी भाषा प्रसंस्करण कार्यों पर प्रदर्शन का व्यापक बेंचमार्किंग प्रदान करता है, जीरो-शॉट और फ्यू-शॉट लर्निंग पद्धतियों का उपयोग करते हुए। अनुसंधान भावना विश्लेषण, नामित इकाई पहचान, पठन समझ और प्रश्नोत्तर जैसे कार्यों को शामिल करता है, ParsiNLU और ArmanEmo जैसे स्थापित फारसी डेटासेट का उपयोग करते हुए। प्रयोग कठोर जीरो-शॉट और फ्यू-शॉट प्रायोगिक सेटअप का उपयोग करते हैं, सटीकता, F1 स्कोर, BLEU और ROUGE जैसे मेट्रिक्स के साथ प्रदर्शन का मूल्यांकन करते हैं। परिणाम दिखाते हैं कि Gemma 2 दोनों लर्निंग पद्धतियों में लगभग सभी कार्यों पर सर्वश्रेष्ठ प्रदर्शन करता है, विशेषकर जटिल तर्क कार्यों पर। हालांकि, अधिकांश मॉडल्स नामित इकाई पहचान जैसे टोकन-स्तरीय समझ कार्यों पर खराब प्रदर्शन करते हैं, जो फारसी प्रसंस्करण की विशिष्ट चुनौतियों को उजागर करता है।
- मूल समस्या: कम संसाधन वाली भाषाओं (जैसे फारसी) पर बड़े भाषा मॉडल्स की प्रभावशीलता को गहराई से अध्ययन की आवश्यकता है। हालांकि LLMs अंग्रेजी जैसी उच्च संसाधन भाषाओं पर उत्कृष्ट प्रदर्शन करते हैं, फारसी जैसी भाषाओं पर प्रदर्शन में महत्वपूर्ण अंतराल बना हुआ है।
- समस्या की महत्ता:
- फारसी में अद्वितीय ऑर्थोग्राफिक विशेषताएं, जटिल आकृति विज्ञान संरचना और व्याकरणिक पैटर्न हैं
- उच्च संसाधन भाषाओं की तुलना में, फारसी में व्यापक डेटासेट, एनोटेटेड कॉर्पस और विशेषज्ञ NLP उपकरणों की कमी है
- फारसी समुदाय को NLP तकनीकों तक निष्पक्ष पहुंच प्रदान करने की आवश्यकता है
- मौजूदा पद्धतियों की सीमाएं:
- फारसी के लिए व्यवस्थित LLM मूल्यांकन की कमी
- मौजूदा अनुसंधान मुख्य रूप से अंग्रेजी जैसी उच्च संसाधन भाषाओं पर केंद्रित है
- फारसी-विशिष्ट भाषाई घटनाओं का पर्याप्त अध्ययन नहीं किया गया है
- अनुसंधान प्रेरणा: जीरो-शॉट और फ्यू-शॉट लर्निंग पद्धतियों के माध्यम से ओपन-सोर्स LLMs की फारसी कार्यों पर क्षमता का मूल्यांकन करना, कम संसाधन वाली भाषाओं के NLP तकनीकों के विकास के लिए बेंचमार्क प्रदान करना।
- पहला व्यापक फारसी LLM बेंचमार्क स्थापित किया: 50+ कार्यों पर 11 ओपन-सोर्स मॉडल्स का व्यवस्थित मूल्यांकन शामिल है
- जीरो-शॉट और फ्यू-शॉट लर्निंग पद्धतियों का तुलनात्मक विश्लेषण प्रदान किया: विभिन्न लर्निंग पद्धतियों के फारसी कार्यों पर प्रभाव को प्रकट किया
- फारसी प्रसंस्करण की विशिष्ट चुनौतियों की पहचान की: विशेषकर टोकन-स्तरीय समझ कार्यों (जैसे NER) में कठिनाइयों पर
- भविष्य के मॉडल विकास के लिए बेंचमार्क प्रदान किया: महत्वपूर्ण प्रदर्शन बेसलाइन स्थापित किए, सुधार के लिए आवश्यक क्षेत्रों को इंगित किया
अनुसंधान कई मूल NLP कार्यों को शामिल करता है:
- पाठ वर्गीकरण: भावना विश्लेषण, भावना पहचान
- अनुक्रम लेबलिंग: नामित इकाई पहचान
- पठन समझ: संदर्भ-आधारित प्रश्नोत्तर
- पाठ निर्माण: मशीन अनुवाद, पाठ सारांश
- तर्क कार्य: तार्किक तर्क, सामान्य ज्ञान तर्क, गणितीय तर्क
11 प्रतिनिधि ओपन-सोर्स LLMs का मूल्यांकन किया गया:
- Gemma2: Google का कुशल ट्रांसफॉर्मर मॉडल, बहुभाषी प्रतिनिधित्व क्षमता में वृद्धि के साथ
- GLM4: जटिल तर्क और समझ कार्यों के लिए अनुकूलित जनरेटिव भाषा मॉडल
- LLaMA3.1/3.2: Meta AI की परिष्कृत आर्किटेक्चर, गैर-लैटिन लिपि के टोकन प्रतिनिधित्व में सुधार
- Qwen2/2.5: अलीबाबा का बहुभाषी आधार मॉडल
- Mistral: समूहीकृत क्वेरी ध्यान तंत्र का उपयोग करने वाला कम्प्यूटेशनल रूप से कुशल मॉडल
- अन्य मॉडल्स: Marco-O1, Aya-Expanse, Falcon3, Tulu3
- एकीकृत मूल्यांकन ढांचा: मानकीकृत प्रॉम्प्ट टेम्पलेट और मूल्यांकन पाइपलाइन स्थापित किया
- बहु-पद्धति तुलना: जीरो-शॉट और फ्यू-शॉट लर्निंग की प्रभावशीलता की व्यवस्थित तुलना
- सूक्ष्म-दानेदार विश्लेषण: फारसी-विशिष्ट भाषाई घटनाओं के लिए त्रुटि विश्लेषण
- क्रॉस-डोमेन मूल्यांकन: मानविकी, STEM आदि कई ज्ञान क्षेत्रों को शामिल करता है
- ParsiNLU:
- पठन समझ: 1,000 पैराग्राफ-प्रश्न जोड़े
- पाठ निहितार्थ: 2,500 परिसर-परिकल्पना जोड़े
- भावना वर्गीकरण: 12,000 वाक्य
- मशीन अनुवाद: 10,000 अंग्रेजी-फारसी समानांतर वाक्य जोड़े
- ArmanEmo: 7,500 फारसी सोशल मीडिया पोस्ट, 8 भावना श्रेणियों के साथ एनोटेटेड
- ArmanNER: 7,682 वाक्य, व्यक्ति, स्थान, संगठन तीन श्रेणियों के साथ
- Persian MMLU: 1,200 बहुविकल्पीय प्रश्न, तर्क, धर्मशास्त्र, समाजशास्त्र, गणित, प्राकृतिक विज्ञान आदि क्षेत्रों को शामिल करते हुए
- Persian News Summary: 95,000 लेख-सारांश जोड़े
- वर्गीकरण कार्य: सटीकता (Accuracy) और मैक्रो-औसत F1 स्कोर
- नामित इकाई पहचान: टोकन-स्तरीय F1 स्कोर
- पठन समझ: सटीक मिलान (EM) और टोकन ओवरलैप F1 स्कोर
- मशीन अनुवाद: BLEU स्कोर
- पाठ सारांश: ROUGE-1, ROUGE-2, ROUGE-L स्कोर
11 ओपन-सोर्स LLMs की तुलना के लिए एकीकृत प्रायोगिक सेटअप का उपयोग किया, निष्पक्ष तुलना सुनिश्चित करते हुए।
- हार्डवेयर: NVIDIA A100 GPUs (40GB VRAM)
- सॉफ्टवेयर: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
- अनुमान पैरामीटर: निर्माण कार्यों के लिए तापमान 0.1 पर सेट, वर्गीकरण कार्यों के लिए लालची डिकोडिंग का उपयोग
- फ्यू-शॉट सेटअप: प्रत्येक कार्य के लिए 5 प्रतिनिधि उदाहरणों का यादृच्छिक चयन
समग्र प्रदर्शन रैंकिंग:
- Gemma2: फ्यू-शॉट 0.61, जीरो-शॉट 0.42 (सर्वश्रेष्ठ)
- GLM4: फ्यू-शॉट 0.53, जीरो-शॉट 0.35
- Qwen2.5: फ्यू-शॉट 0.50, जीरो-शॉट 0.35
- अन्य मॉडल्स: क्रमिक रूप से घटता प्रदर्शन
मुख्य निष्कर्ष:
- Gemma2 दोनों लर्निंग पद्धतियों में नेतृत्व बनाए रखता है, औसत लाभ 8% से अधिक है
- फ्यू-शॉट लर्निंग सामान्यतः जीरो-शॉट लर्निंग से बेहतर है, औसत सुधार 13.8%
- जटिल तर्क कार्य सबसे अधिक लाभान्वित होते हैं (17.3% सुधार)
मजबूत कार्य:
- तार्किक तर्क और धर्मशास्त्र: औसत स्कोर 0.412 और 0.395
- पठन समझ: जीरो-शॉट की तुलना में फ्यू-शॉट में 17.3% सुधार
- पाठ निहितार्थ: फ्यू-शॉट में 15-20% सुधार
चुनौतीपूर्ण कार्य:
- नामित इकाई पहचान: सभी मॉडल्स खराब प्रदर्शन करते हैं, फ्यू-शॉट सुधार केवल 7.2%
- गणित और कंप्यूटर विज्ञान: औसत स्कोर 0.287 और 0.301
- टोकन-स्तरीय भविष्यवाणी: संरचनात्मक सीमाएं प्रदर्शन को प्रभावित करती हैं
डोमेन ज्ञान अंतर:
- मानविकी औसत 0.395 बनाम STEM क्षेत्र 0.287
- बहुभाषी प्रशिक्षण डेटा वितरण असमानता को दर्शाता है
भाषाई घटना विश्लेषण:
- शब्दार्थ विभेद त्रुटि दर 23.7% अधिक
- जटिल भावना अभिव्यक्ति गलत वर्गीकरण दर 31.2% अधिक
- बहु-टोकन इकाई त्रुटि दर 27.8% अधिक
- मुहावरेदार अभिव्यक्ति त्रुटि दर 34.5% अधिक
सफल केस: Gemma2 तार्किक तर्क कार्यों पर उत्कृष्ट प्रदर्शन करता है, जटिल शब्दार्थ संबंधों को संभाल सकता है
विफल केस: सभी मॉडल्स फारसी-विशिष्ट मुहावरों और सांस्कृतिक संदर्भ समझ में कठिनाई का सामना करते हैं
- GLUE और MMLU जैसे बेंचमार्क का विकास
- क्रॉस-भाषा स्थानांतरण लर्निंग अनुसंधान
- बहुभाषी वातावरण में फ्यू-शॉट लर्निंग का अनुप्रयोग
- ParsiNLU, ArmanEmo, ArmanNER जैसे डेटासेट निर्माण
- FaMTEB बड़े पैमाने पर पाठ एम्बेडिंग बेंचमार्क
- PersianMind, Maral जैसे फारसी-विशिष्ट मॉडल्स
- क्रॉस-भाषा ज्ञान स्थानांतरण विधियां
- प्रॉम्प्ट इंजीनियरिंग तकनीकें
- कम संसाधन भाषा अनुकूलन रणनीतियां
- मॉडल प्रदर्शन स्तर: Gemma2 अन्य मॉडल्स से महत्वपूर्ण रूप से बेहतर है, आर्किटेक्चर लाभ को प्रदर्शित करता है
- लर्निंग पद्धति प्रभाव: फ्यू-शॉट लर्निंग महत्वपूर्ण सुधार लाता है, विशेषकर शब्दार्थ तर्क कार्यों पर
- कार्य-विशिष्ट चुनौतियां: टोकन-स्तरीय कार्य (जैसे NER) सभी मॉडल्स के लिए चुनौतीपूर्ण हैं
- क्रॉस-भाषा प्रदर्शन अंतराल: फारसी अंग्रेजी बेंचमार्क की तुलना में औसतन 18.7% कम है
- मॉडल चयन: सभी उपलब्ध मॉडल्स को शामिल नहीं किया गया है, विशेषकर फारसी-विशिष्ट मॉडल्स
- प्रॉम्प्ट इंजीनियरिंग: व्यापक प्रॉम्प्ट अनुकूलन नहीं किया गया है
- डेटासेट प्रतिनिधित्व: फारसी की बोली भिन्नताओं को पूरी तरह से कवर नहीं कर सकता है
- हाइपरपैरामीटर अनुकूलन: कार्य-विशिष्ट हाइपरपैरामीटर ट्यूनिंग नहीं की गई है
- उदाहरण संख्या: फ्यू-शॉट उदाहरण संख्या सीमित है (3-5)
- मॉडल विविधता: अधिक फारसी-विशिष्ट LLMs का मूल्यांकन करना
- कार्य विस्तार: सारांश, बहु-मोड़ संवाद जैसे जटिल कार्य जोड़ना
- उन्नत प्रॉम्प्ट तकनीकें: गतिशील प्रॉम्प्ट ट्यूनिंग, विचार श्रृंखला तर्क का अन्वेषण करना
- डोमेन अनुकूलन: चिकित्सा, कानून जैसे पेशेवर क्षेत्र बेंचमार्क विकसित करना
- सूक्ष्म-ट्यूनिंग रणनीतियां: पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग विधियों का अनुसंधान करना
- सामुदायिक बुनियादी ढांचा: सामुदायिक बेंचमार्क लीडरबोर्ड स्थापित करना
- अनुसंधान महत्व महत्वपूर्ण: फारसी LLM मूल्यांकन में खाली स्थान को भरता है, कम संसाधन भाषा अनुसंधान के लिए महत्वपूर्ण संदर्भ प्रदान करता है
- प्रायोगिक डिजाइन कठोर: एकीकृत मूल्यांकन ढांचा निष्पक्ष तुलना सुनिश्चित करता है, कई कार्य और मेट्रिक्स को शामिल करता है
- विश्लेषण गहन और व्यापक: केवल प्रदर्शन डेटा प्रदान नहीं करता है, बल्कि विस्तृत त्रुटि विश्लेषण और भाषाई अंतर्दृष्टि भी प्रदान करता है
- व्यावहारिक मूल्य उच्च: फारसी NLP अनुप्रयोगों के लिए व्यावहारिक मार्गदर्शन प्रदान करता है
- मॉडल कवरेज सीमित: कुछ महत्वपूर्ण फारसी-विशिष्ट मॉडल्स मूल्यांकन में अनुपस्थित हैं
- प्रॉम्प्ट इंजीनियरिंग अपर्याप्त: मानकीकृत प्रॉम्प्ट कुछ मॉडल्स की पूरी क्षमता का उपयोग नहीं कर सकते हैं
- सांस्कृतिक संदर्भ विश्लेषण: फारसी सांस्कृतिक-विशिष्ट घटनाओं का विश्लेषण अधिक गहन हो सकता है
- कम्प्यूटेशनल संसाधन विवरण: विभिन्न मॉडल्स की कम्प्यूटेशनल लागत तुलना का विस्तृत विवरण नहीं दिया गया है
- शैक्षणिक योगदान: बहुभाषी LLM अनुसंधान के लिए महत्वपूर्ण बेंचमार्क प्रदान करता है, कम संसाधन भाषा तकनीकों के विकास को बढ़ावा देता है
- व्यावहारिक मूल्य: फारसी NLP अनुप्रयोगों के लिए मॉडल चयन और अनुकूलन में मार्गदर्शन प्रदान करता है
- पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और ओपन-सोर्स प्रतिबद्धता अनुसंधान पुनरुत्पादन का समर्थन करती है
- सामुदायिक निर्माण: फारसी NLP अनुसंधान समुदाय के विकास को बढ़ावा देता है
- मॉडल चयन: फारसी NLP अनुप्रयोगों के लिए उपयुक्त आधार मॉडल चुनना
- बेंचमार्क तुलना: नए मॉडल विकास के लिए प्रदर्शन बेंचमार्क के रूप में कार्य करना
- अनुसंधान मार्गदर्शन: फारसी-विशिष्ट मॉडल सुधार के लिए दिशा प्रदान करना
- शैक्षणिक संसाधन: बहुभाषी NLP पाठ्यक्रमों के लिए शिक्षण सामग्री के रूप में कार्य करना
पेपर में 32 संबंधित संदर्भों का हवाला दिया गया है, जिसमें शामिल हैं:
- LLM मूल्यांकन पद्धति अनुसंधान
- बहुभाषी क्षमता मूल्यांकन ढांचा
- फारसी NLP संसाधन और चुनौतियां
- जीरो-शॉट और फ्यू-शॉट लर्निंग तकनीकें
मुख्य संदर्भों में ParsiNLU बेंचमार्क सूट, ArmanEmo भावना डेटासेट, और बहुभाषी LLM क्षमता सर्वेक्षण जैसे महत्वपूर्ण कार्य शामिल हैं।
सारांश: यह एक उच्च-गुणवत्ता वाला अनुभवजन्य अनुसंधान पेपर है जो फारसी LLM मूल्यांकन के लिए महत्वपूर्ण बेंचमार्क स्थापित करता है। अनुसंधान विधि कठोर है, परिणाम प्रेरक हैं, और कम संसाधन भाषा NLP तकनीकों के विकास को बढ़ावा देने में इसका महत्वपूर्ण महत्व है। हालांकि कुछ सीमाएं हैं, लेकिन इसका योगदान और प्रभाव महत्वपूर्ण है।