Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
academic- 논문 ID: 2510.12807
- 제목: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- 저자: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
- 분류: cs.CL cs.AI
- 발표 시간: 2025년 10월 16일
- 논문 링크: https://arxiv.org/abs/2510.12807
본 연구는 다수의 오픈소스 대규모 언어 모델(LLM)이 페르시아어 자연어 처리 작업에서의 성능을 종합적으로 벤치마킹하며, 영어 제로샷 및 퓨샷 학습 패러다임을 채택하고 있습니다. 연구는 감정 분석, 명명된 개체 인식, 독해 이해 및 질의응답 등의 작업을 포함하며, ParsiNLU 및 ArmanEmo와 같은 확립된 페르시아어 데이터셋을 사용합니다. 실험은 엄격한 영어 제로샷 및 퓨샷 실험 설정을 채택하며, 정확도, F1 점수, BLEU 및 ROUGE 등의 지표를 사용하여 성능을 평가합니다. 결과는 Gemma 2가 두 학습 패러다임 모두에서 거의 모든 작업에서 최고의 성능을 보이며, 특히 복잡한 추론 작업에서 뛰어난 성능을 보임을 나타냅니다. 그러나 대부분의 모델은 명명된 개체 인식과 같은 토큰 수준 이해 작업에서 성능이 저조하며, 페르시아어 처리의 특정 과제를 강조합니다.
- 핵심 문제: 대규모 언어 모델의 저자원 언어(예: 페르시아어)에서의 효과성에 대한 심층적 연구가 필요합니다. LLM이 영어와 같은 고자원 언어에서 우수한 성능을 보이지만, 페르시아어와 같은 언어에서의 성능에는 여전히 상당한 격차가 있습니다.
- 문제의 중요성:
- 페르시아어는 독특한 정서법 특징, 복잡한 형태 구조 및 문법 패턴을 가지고 있습니다
- 고자원 언어와 비교하여 페르시아어는 포괄적인 데이터셋, 주석이 달린 말뭉치 및 전문 NLP 도구가 부족합니다
- 페르시아어 커뮤니티에 공정한 NLP 기술 접근을 제공할 필요가 있습니다
- 기존 방법의 한계:
- 페르시아어를 위한 체계적인 LLM 평가가 부족합니다
- 기존 연구는 주로 영어와 같은 고자원 언어에 초점을 맞추고 있습니다
- 페르시아어 특정 언어 현상이 충분히 연구되지 않았습니다
- 연구 동기: 영어 제로샷 및 퓨샷 학습 패러다임을 통해 오픈소스 LLM의 페르시아어 작업 능력을 평가하여 저자원 언어 NLP 기술 발전을 위한 벤치마크를 제공합니다.
- 첫 번째 종합적 페르시아어 LLM 벤치마크 구축: 11개의 오픈소스 모델을 50개 이상의 작업에서 체계적으로 평가
- 영어 제로샷 및 퓨샷 학습 패러다임의 비교 분석 제공: 다양한 학습 패러다임이 페르시아어 작업에 미치는 영향 공개
- 페르시아어 처리의 특정 과제 식별: 특히 토큰 수준 이해 작업(예: NER)의 어려움
- 향후 모델 개발을 위한 벤치마크 제공: 중요한 성능 기준선 구축 및 개선이 필요한 핵심 영역 지적
연구는 여러 핵심 NLP 작업을 포함합니다:
- 텍스트 분류: 감정 분석, 감정 감지
- 시퀀스 레이블링: 명명된 개체 인식
- 독해 이해: 문맥 기반 질의응답
- 텍스트 생성: 기계 번역, 텍스트 요약
- 추론 작업: 논리 추론, 상식 추론, 수학 추론
11개의 대표적인 오픈소스 LLM을 평가했습니다:
- Gemma2: Google의 효율적인 트랜스포머 모델로, 향상된 다국어 표현 능력을 갖추고 있습니다
- GLM4: 복잡한 추론 및 이해 작업에 최적화된 생성 언어 모델
- LLaMA3.1/3.2: Meta AI의 정제된 아키텍처로, 비라틴 문자의 토큰 표현 개선
- Qwen2/2.5: 알리바바의 다국어 기초 모델
- Mistral: 그룹화된 쿼리 주의 메커니즘을 채택한 계산 효율적 모델
- 기타 모델: Marco-O1, Aya-Expanse, Falcon3, Tulu3
- 통합 평가 프레임워크: 표준화된 프롬프트 템플릿 및 평가 파이프라인 구축
- 다중 패러다임 비교: 영어 제로샷 및 퓨샷 학습의 효과성을 체계적으로 비교
- 세분화된 분석: 페르시아어 특정 언어 현상에 대한 오류 분석
- 교차 영역 평가: 인문학, STEM 등 여러 지식 영역 포함
- ParsiNLU:
- 독해 이해: 1,000개의 단락-질문 쌍
- 텍스트 함의: 2,500개의 전제-가설 쌍
- 감정 분류: 12,000개의 문장
- 기계 번역: 10,000개의 영어-페르시아어 병렬 문장 쌍
- ArmanEmo: 7,500개의 페르시아어 소셜 미디어 게시물로, 8가지 감정 범주로 주석 처리됨
- ArmanNER: 7,682개의 문장으로, Person, Location, Organization 세 가지 개체 클래스 포함
- Persian MMLU: 논리, 신학, 사회학, 수학, 자연과학 등을 포함하는 1,200개의 객관식 문제
- Persian News Summary: 95,000개의 기사-요약 쌍
- 분류 작업: 정확도(Accuracy) 및 매크로 평균 F1 점수
- 명명된 개체 인식: 토큰 수준 F1 점수
- 독해 이해: 정확한 일치(EM) 및 토큰 중복 F1 점수
- 기계 번역: BLEU 점수
- 텍스트 요약: ROUGE-1, ROUGE-2, ROUGE-L 점수
11개의 오픈소스 LLM을 통합된 실험 설정으로 비교하여 공정한 비교를 보장합니다.
- 하드웨어: NVIDIA A100 GPU (40GB VRAM)
- 소프트웨어: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
- 추론 매개변수: 생성 작업의 온도는 0.1로 설정, 분류 작업은 탐욕적 디코딩 사용
- 퓨샷 설정: 각 작업에서 5개의 대표적인 예제를 무작위로 선택
전체 성능 순위:
- Gemma2: 퓨샷 0.61, 영어 제로샷 0.42 (최고)
- GLM4: 퓨샷 0.53, 영어 제로샷 0.35
- Qwen2.5: 퓨샷 0.50, 영어 제로샷 0.35
- 기타 모델: 성능이 순차적으로 감소
주요 발견:
- Gemma2는 두 학습 패러다임 모두에서 선도적이며, 평균 우위는 8% 이상입니다
- 퓨샷 학습은 일반적으로 영어 제로샷 학습보다 우수하며, 평균 13.8% 개선
- 복잡한 추론 작업이 가장 큰 이점을 얻음 (17.3% 개선)
강점 작업:
- 논리 추론 및 신학: 평균 점수 0.412 및 0.395
- 독해 이해: 퓨샷이 영어 제로샷 대비 17.3% 개선
- 텍스트 함의: 퓨샷 15-20% 개선
도전 작업:
- 명명된 개체 인식: 모든 모델 성능 저조, 퓨샷 개선 7.2%만
- 수학 및 컴퓨터 과학: 평균 점수 0.287 및 0.301
- 토큰 수준 예측: 구조적 제한으로 인한 성능 제약
영역 지식 차이:
- 인문학 평균 0.395 vs STEM 영역 0.287
- 다국어 훈련 데이터 분포 불균형을 나타냄
언어 현상 분석:
- 의미 명확화 오류율 23.7% 높음
- 복잡한 감정 표현 오분류율 31.2% 높음
- 다중 토큰 개체 오류율 27.8% 높음
- 관용구 표현 오류율 34.5% 높음
성공 사례: Gemma2는 논리 추론 작업에서 뛰어난 성능을 보이며 복잡한 의미 관계를 처리할 수 있습니다
실패 사례: 모든 모델은 페르시아어 특정 관용구 및 문화적 맥락 이해에 어려움을 겪습니다
- GLUE 및 MMLU와 같은 벤치마크의 발전
- 교차 언어 전이 학습 연구
- 다국어 환경에서의 퓨샷 학습 응용
- ParsiNLU, ArmanEmo, ArmanNER 등 데이터셋 구축
- FaMTEB 대규모 텍스트 임베딩 벤치마크
- PersianMind, Maral 등 페르시아어 전용 모델
- 교차 언어 지식 전이 방법
- 프롬프트 엔지니어링 기술
- 저자원 언어 적응 전략
- 모델 성능 계층: Gemma2는 다른 모델을 크게 능가하며 아키텍처 우위를 보여줍니다
- 학습 패러다임 영향: 퓨샷 학습은 상당한 개선을 가져오며, 특히 의미 추론 작업에서 두드러집니다
- 작업별 과제: 토큰 수준 작업(예: NER)은 모든 모델에 도전적입니다
- 교차 언어 성능 격차: 페르시아어는 영어 벤치마크 대비 평균 18.7% 낮습니다
- 모델 선택: 모든 사용 가능한 모델을 포함하지 않으며, 특히 페르시아어 전용 모델이 부족합니다
- 프롬프트 엔지니어링: 광범위한 프롬프트 최적화가 수행되지 않았습니다
- 데이터셋 대표성: 페르시아어의 방언 변화를 완전히 포함하지 못할 수 있습니다
- 하이퍼파라미터 최적화: 작업별 하이퍼파라미터 조정이 수행되지 않았습니다
- 예제 수량: 퓨샷 예제 수량이 제한적입니다 (3-5개)
- 모델 다양화: 더 많은 페르시아어 전용 LLM 평가
- 작업 확장: 추상 요약, 다중 턴 대화 등 복잡한 작업 추가
- 고급 프롬프트 기술: 동적 프롬프트 조정, 사고의 연쇄 추론 등 탐색
- 영역 적응: 의료, 법률 등 전문 영역 벤치마크 개발
- 미세 조정 전략: 매개변수 효율적 미세 조정 방법 연구
- 커뮤니티 인프라: 커뮤니티 벤치마크 리더보드 구축
- 연구 의의 중대: 페르시아어 LLM 평가의 공백을 채우며 저자원 언어 연구에 중요한 참고자료를 제공합니다
- 실험 설계 엄격: 통합된 평가 프레임워크는 공정한 비교를 보장하며 여러 작업 및 지표를 포함합니다
- 분석 심층적 포괄: 성능 데이터뿐만 아니라 세밀한 오류 분석 및 언어학적 통찰력을 제공합니다
- 실용적 가치 높음: 페르시아어 NLP 응용에 실질적 지침을 제공합니다
- 모델 범위 제한: 일부 중요한 페르시아어 전용 모델 평가가 부족합니다
- 프롬프트 엔지니어링 부족: 표준화된 프롬프트는 일부 모델의 잠재력을 충분히 발휘하지 못할 수 있습니다
- 문화적 맥락 분석: 페르시아어 문화 특정 현상에 대한 분석을 더 깊이 있게 할 수 있습니다
- 계산 자원 설명 부족: 다양한 모델의 계산 비용 비교에 대한 상세한 설명이 없습니다
- 학술적 기여: 다국어 LLM 연구에 중요한 벤치마크를 제공하며 저자원 언어 기술 발전을 촉진합니다
- 실용적 가치: 페르시아어 NLP 응용을 위한 모델 선택 및 최적화에 지침을 제공합니다
- 재현성: 상세한 실험 설정 및 오픈소스 약속은 연구 재현을 지원합니다
- 커뮤니티 구축: 페르시아어 NLP 연구 커뮤니티 발전을 촉진합니다
- 모델 선택: 페르시아어 NLP 응용을 위한 적절한 기초 모델 선택
- 벤치마크 비교: 새로운 모델 개발의 성능 벤치마크로 사용
- 연구 지침: 페르시아어 특정 모델 개선을 위한 방향 제시
- 교육 자료: 다국어 NLP 과정의 교수 자료로 사용
논문은 32개의 관련 문헌을 인용하며, 다음을 포함합니다:
- LLM 평가 방법론 연구
- 다국어 능력 평가 프레임워크
- 페르시아어 NLP 자원 및 과제
- 영어 제로샷 및 퓨샷 학습 기술
주요 참고 자료에는 ParsiNLU 벤치마크 스위트, ArmanEmo 감정 데이터셋 및 다국어 LLM 능력 조사 등 중요한 작업이 포함됩니다.
요약: 이것은 페르시아어 LLM 평가를 위한 중요한 벤치마크를 구축한 고품질의 실증 연구 논문입니다. 연구 방법은 엄격하고 결과는 설득력 있으며, 저자원 언어 NLP 기술 발전을 촉진하는 데 중요한 의미를 가집니다. 일부 한계가 있지만, 그 기여와 영향력은 상당합니다.