2025-11-13T19:49:11.380535

Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning

Cherakhloo, Abbasi, Sarafraz et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.

academic

Evaluación Comparativa de Modelos de Lenguaje Grande de Código Abierto para Persa en Aprendizaje de Cero Disparos y Pocos Disparos

Información Básica

ID del Artículo: 2510.12807
Título: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
Autores: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
Clasificación: cs.CL cs.AI
Fecha de Publicación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12807

Resumen

Este estudio presenta una evaluación comparativa exhaustiva de múltiples modelos de lenguaje grande de código abierto en tareas de procesamiento de lenguaje natural en persa, utilizando paradigmas de aprendizaje de cero disparos y pocos disparos. La investigación abarca tareas de análisis de sentimientos, reconocimiento de entidades nombradas, comprensión lectora y respuesta a preguntas, utilizando conjuntos de datos establecidos en persa como ParsiNLU y ArmanEmo. Los experimentos emplean configuraciones rigurosas de cero disparos y pocos disparos, evaluando el desempeño mediante métricas como precisión, puntuación F1, BLEU y ROUGE. Los resultados demuestran que Gemma 2 presenta el mejor desempeño en prácticamente todas las tareas bajo ambos paradigmas de aprendizaje, destacando especialmente en tareas de razonamiento complejo. Sin embargo, la mayoría de los modelos muestran un desempeño deficiente en tareas de comprensión a nivel de token como el reconocimiento de entidades nombradas, lo que evidencia desafíos específicos en el procesamiento del persa.

Antecedentes y Motivación de la Investigación

Problema Central: La efectividad de los modelos de lenguaje grande en idiomas de bajos recursos como el persa requiere investigación profunda. Aunque los LLMs demuestran un desempeño excepcional en idiomas de altos recursos como el inglés, persisten brechas significativas de rendimiento en idiomas como el persa.
Importancia del Problema:
- El persa posee características ortográficas únicas, estructura morfológica compleja y patrones gramaticales sofisticados
- En comparación con idiomas de altos recursos, el persa carece de conjuntos de datos exhaustivos, corpus anotados y herramientas especializadas de PNL
- Existe la necesidad de proporcionar acceso equitativo a tecnologías de PNL para la comunidad de habla persa
Limitaciones de Enfoques Existentes:
- Ausencia de evaluación sistemática de LLMs específica para el persa
- La investigación existente se enfoca principalmente en idiomas de altos recursos como el inglés
- Los fenómenos lingüísticos específicos del persa no han sido suficientemente estudiados
Motivación de la Investigación: Evaluar la capacidad de LLMs de código abierto en tareas en persa mediante paradigmas de aprendizaje de cero disparos y pocos disparos, proporcionando un punto de referencia para el desarrollo de tecnologías de PNL en idiomas de bajos recursos.

Contribuciones Principales

Establecimiento del primer punto de referencia integral para LLMs en persa: Evaluación sistemática de 11 modelos de código abierto en más de 50 tareas
Análisis comparativo de paradigmas de aprendizaje de cero disparos y pocos disparos: Revelación del impacto de diferentes paradigmas de aprendizaje en tareas en persa
Identificación de desafíos específicos en el procesamiento del persa: Particularmente dificultades en tareas de comprensión a nivel de token como NER
Establecimiento de líneas base para desarrollo futuro de modelos: Creación de líneas de referencia de rendimiento importantes que señalan áreas clave de mejora

Explicación Detallada de la Metodología

Definición de Tareas

La investigación abarca múltiples tareas fundamentales de PNL:

Clasificación de Texto: Análisis de sentimientos, detección de emociones
Etiquetado de Secuencias: Reconocimiento de entidades nombradas
Comprensión Lectora: Respuesta a preguntas basada en contexto
Generación de Texto: Traducción automática, resumen de texto
Tareas de Razonamiento: Razonamiento lógico, razonamiento de sentido común, razonamiento matemático

Arquitecturas de Modelos

Se evaluaron 11 LLMs de código abierto representativos:

Gemma2: Modelo transformer eficiente de Google con capacidades mejoradas de representación multilingüe
GLM4: Modelo de lenguaje generativo optimizado para tareas complejas de razonamiento y comprensión
LLaMA3.1/3.2: Arquitectura refinada de Meta AI con representación de tokens mejorada para caracteres no latinos
Qwen2/2.5: Modelos base multilingües de Alibaba
Mistral: Modelo computacionalmente eficiente que utiliza mecanismo de atención de consulta agrupada
Otros Modelos: Marco-O1, Aya-Expanse, Falcon3, Tulu3

Puntos de Innovación Técnica

Marco de Evaluación Unificado: Establecimiento de plantillas de indicaciones estandarizadas y canalización de evaluación
Comparación Multi-Paradigma: Comparación sistemática de la efectividad del aprendizaje de cero disparos y pocos disparos
Análisis de Granularidad Fina: Análisis de errores dirigido a fenómenos lingüísticos específicos del persa
Evaluación Interdisciplinaria: Cobertura de múltiples dominios de conocimiento incluyendo humanidades y STEM

Configuración Experimental

Conjuntos de Datos

ParsiNLU:
- Comprensión lectora: 1,000 pares párrafo-pregunta
- Implicación textual: 2,500 pares premisa-hipótesis
- Clasificación de sentimientos: 12,000 oraciones
- Traducción automática: 10,000 pares de oraciones paralelas inglés-persa
ArmanEmo: 7,500 publicaciones de redes sociales en persa anotadas con 8 categorías de emociones
ArmanNER: 7,682 oraciones que contienen tres clases de entidades: Persona, Ubicación, Organización
Persian MMLU: 1,200 preguntas de opción múltiple que abarcan lógica, teología, sociología, matemáticas, ciencias naturales y otros campos
Persian News Summary: 95,000 pares artículo-resumen

Métricas de Evaluación

Tareas de Clasificación: Precisión (Accuracy) y puntuación F1 promediada macroscópicamente
Reconocimiento de Entidades Nombradas: Puntuación F1 a nivel de token
Comprensión Lectora: Coincidencia exacta (EM) y puntuación F1 de superposición de tokens
Traducción Automática: Puntuación BLEU
Resumen de Texto: Puntuaciones ROUGE-1, ROUGE-2, ROUGE-L

Métodos de Comparación

Comparación de 11 LLMs de código abierto bajo configuración experimental unificada para garantizar comparación equitativa.

Detalles de Implementación

Hardware: GPUs NVIDIA A100 (40GB VRAM)
Software: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
Parámetros de Inferencia: Temperatura establecida en 0.1 para tareas de generación, decodificación codicioso para tareas de clasificación
Configuración de Pocos Disparos: Selección aleatoria de 5 ejemplos representativos por tarea

Resultados Experimentales

Resultados Principales

Clasificación General de Desempeño:

Gemma2: Pocos disparos 0.61, cero disparos 0.42 (Óptimo)
GLM4: Pocos disparos 0.53, cero disparos 0.35
Qwen2.5: Pocos disparos 0.50, cero disparos 0.35
Otros Modelos: Desempeño decreciente subsecuente

Hallazgos Clave:

Gemma2 mantiene liderazgo bajo ambos paradigmas de aprendizaje con ventaja promedio superior al 8%
El aprendizaje de pocos disparos supera consistentemente al aprendizaje de cero disparos con mejora promedio del 13.8%
Las tareas de razonamiento complejo se benefician más notablemente (mejora del 17.3%)

Análisis Específico por Tarea

Tareas de Fortaleza:

Razonamiento Lógico y Teología: Puntuaciones promedio de 0.412 y 0.395
Comprensión Lectora: Mejora del 17.3% en pocos disparos comparado con cero disparos
Implicación Textual: Mejora del 15-20% en pocos disparos

Tareas Desafiantes:

Reconocimiento de Entidades Nombradas: Desempeño deficiente en todos los modelos, mejora de solo 7.2% en pocos disparos
Matemáticas e Informática: Puntuaciones promedio de 0.287 y 0.301
Predicción a Nivel de Token: Limitaciones estructurales restringen el desempeño

Experimentos de Ablación

Variaciones en Conocimiento de Dominio:

Humanidades promedio 0.395 vs campos STEM 0.287
Indica distribución desigual de datos de entrenamiento multilingüe

Análisis de Fenómenos Lingüísticos:

Tasa de error en desambiguación semántica 23.7% más alta
Tasa de clasificación errónea en expresiones emocionales complejas 31.2% más alta
Tasa de error en entidades multi-token 27.8% más alta
Tasa de error en expresiones idiomáticas 34.5% más alta

Análisis de Casos

Casos Exitosos: Gemma2 demuestra desempeño destacado en tareas de razonamiento lógico, con capacidad para manejar relaciones semánticas complejas

Casos Fallidos: Todos los modelos presentan dificultades en la comprensión de idiomas específicos del persa y contextos culturales

Trabajo Relacionado

Evaluación de LLMs Multilingües

Desarrollo de puntos de referencia como GLUE y MMLU
Investigación en aprendizaje de transferencia entre idiomas
Aplicación de aprendizaje de pocos disparos en entornos multilingües

Recursos de PNL en Persa

Construcción de conjuntos de datos como ParsiNLU, ArmanEmo, ArmanNER
Punto de referencia FaMTEB de incrustaciones de texto a gran escala
Modelos especializados en persa como PersianMind, Maral

Aprendizaje de Cero Disparos y Pocos Disparos

Métodos de transferencia de conocimiento entre idiomas
Técnicas de ingeniería de indicaciones
Estrategias de adaptación para idiomas de bajos recursos

Conclusiones y Discusión

Conclusiones Principales

Jerarquía de Desempeño de Modelos: Gemma2 supera significativamente a otros modelos, reflejando ventajas arquitectónicas
Impacto del Paradigma de Aprendizaje: El aprendizaje de pocos disparos produce mejoras significativas, particularmente en tareas de razonamiento semántico
Desafíos Específicos por Tarea: Las tareas a nivel de token como NER presentan desafíos para todos los modelos
Brecha de Desempeño Interlingüe: El persa presenta un promedio 18.7% más bajo comparado con puntos de referencia en inglés

Limitaciones

Selección de Modelos: No cubre todos los modelos disponibles, particularmente modelos especializados en persa
Ingeniería de Indicaciones: No se realizó optimización extensiva de indicaciones
Representatividad de Conjuntos de Datos: Puede no cubrir completamente variaciones dialectales del persa
Optimización de Hiperparámetros: No se realizó ajuste de hiperparámetros específico por tarea
Cantidad de Ejemplos: Cantidad limitada de ejemplos en pocos disparos (3-5)

Direcciones Futuras

Diversificación de Modelos: Evaluación de más LLMs especializados en persa
Extensión de Tareas: Inclusión de tareas complejas como resumen abstractivo y diálogo multironda
Técnicas Avanzadas de Indicaciones: Exploración de ajuste dinámico de indicaciones y razonamiento de cadena de pensamiento
Adaptación a Dominios: Desarrollo de puntos de referencia para dominios especializados como medicina y derecho
Estrategias de Ajuste Fino: Investigación de métodos de ajuste fino eficientes en parámetros
Infraestructura Comunitaria: Establecimiento de tabla de clasificación de puntos de referencia comunitarios

Evaluación Profunda

Fortalezas

Significancia de la Investigación: Llena el vacío en evaluación de LLMs para persa, proporcionando referencia importante para investigación en idiomas de bajos recursos
Diseño Experimental Riguroso: Marco de evaluación unificado asegura comparación equitativa, abarcando múltiples tareas e indicadores
Análisis Exhaustivo y Profundo: No solo proporciona datos de desempeño sino también análisis detallado de errores e insights lingüísticos
Alto Valor Práctico: Proporciona orientación práctica para aplicaciones de PNL en persa

Insuficiencias

Cobertura Limitada de Modelos: Falta evaluación de algunos modelos especializados importantes en persa
Ingeniería de Indicaciones Insuficiente: Las indicaciones estandarizadas pueden no maximizar el potencial de ciertos modelos
Análisis de Contexto Cultural: El análisis de fenómenos específicos de la cultura persa podría ser más profundo
Descripción de Recursos Computacionales: Falta comparación detallada de costos computacionales entre modelos

Impacto

Contribución Académica: Proporciona punto de referencia importante para investigación en LLMs multilingües, promoviendo desarrollo de tecnología en idiomas de bajos recursos
Valor Práctico: Proporciona orientación para selección y optimización de modelos en aplicaciones de PNL en persa
Reproducibilidad: Configuración experimental detallada y compromiso de código abierto apoyan reproducción de investigación
Construcción Comunitaria: Promueve desarrollo de comunidad de investigación en PNL en persa

Escenarios Aplicables

Selección de Modelos: Selección de modelos base apropiados para aplicaciones de PNL en persa
Comparación de Puntos de Referencia: Servir como punto de referencia de desempeño para desarrollo de nuevos modelos
Orientación de Investigación: Proporcionar dirección para mejoras de modelos específicas del persa
Recursos Educativos: Servir como material de enseñanza para cursos de PNL multilingüe

Referencias

El artículo cita 32 referencias relacionadas que abarcan:

Investigación en metodología de evaluación de LLMs
Marcos de evaluación de capacidades multilingües
Recursos y desafíos de PNL en persa
Técnicas de aprendizaje de cero disparos y pocos disparos

Las referencias clave incluyen el conjunto de puntos de referencia ParsiNLU, el conjunto de datos de emociones ArmanEmo, e investigaciones importantes sobre capacidades de LLMs multilingües.

Resumen: Este es un artículo de investigación empírica de alta calidad que establece un punto de referencia importante para evaluación de LLMs en persa. La metodología de investigación es rigurosa, los resultados son convincentes, y tiene significancia importante para promover el desarrollo de tecnología de PNL en idiomas de bajos recursos. Aunque presenta algunas limitaciones, sus contribuciones e impacto son notables.