Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
Evaluación Comparativa de Modelos de Lenguaje Grande de Código Abierto para Persa en Aprendizaje de Cero Disparos y Pocos Disparos
- ID del Artículo: 2510.12807
- Título: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- Autores: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: 16 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.12807
Este estudio presenta una evaluación comparativa exhaustiva de múltiples modelos de lenguaje grande de código abierto en tareas de procesamiento de lenguaje natural en persa, utilizando paradigmas de aprendizaje de cero disparos y pocos disparos. La investigación abarca tareas de análisis de sentimientos, reconocimiento de entidades nombradas, comprensión lectora y respuesta a preguntas, utilizando conjuntos de datos establecidos en persa como ParsiNLU y ArmanEmo. Los experimentos emplean configuraciones rigurosas de cero disparos y pocos disparos, evaluando el desempeño mediante métricas como precisión, puntuación F1, BLEU y ROUGE. Los resultados demuestran que Gemma 2 presenta el mejor desempeño en prácticamente todas las tareas bajo ambos paradigmas de aprendizaje, destacando especialmente en tareas de razonamiento complejo. Sin embargo, la mayoría de los modelos muestran un desempeño deficiente en tareas de comprensión a nivel de token como el reconocimiento de entidades nombradas, lo que evidencia desafíos específicos en el procesamiento del persa.
- Problema Central: La efectividad de los modelos de lenguaje grande en idiomas de bajos recursos como el persa requiere investigación profunda. Aunque los LLMs demuestran un desempeño excepcional en idiomas de altos recursos como el inglés, persisten brechas significativas de rendimiento en idiomas como el persa.
- Importancia del Problema:
- El persa posee características ortográficas únicas, estructura morfológica compleja y patrones gramaticales sofisticados
- En comparación con idiomas de altos recursos, el persa carece de conjuntos de datos exhaustivos, corpus anotados y herramientas especializadas de PNL
- Existe la necesidad de proporcionar acceso equitativo a tecnologías de PNL para la comunidad de habla persa
- Limitaciones de Enfoques Existentes:
- Ausencia de evaluación sistemática de LLMs específica para el persa
- La investigación existente se enfoca principalmente en idiomas de altos recursos como el inglés
- Los fenómenos lingüísticos específicos del persa no han sido suficientemente estudiados
- Motivación de la Investigación: Evaluar la capacidad de LLMs de código abierto en tareas en persa mediante paradigmas de aprendizaje de cero disparos y pocos disparos, proporcionando un punto de referencia para el desarrollo de tecnologías de PNL en idiomas de bajos recursos.
- Establecimiento del primer punto de referencia integral para LLMs en persa: Evaluación sistemática de 11 modelos de código abierto en más de 50 tareas
- Análisis comparativo de paradigmas de aprendizaje de cero disparos y pocos disparos: Revelación del impacto de diferentes paradigmas de aprendizaje en tareas en persa
- Identificación de desafíos específicos en el procesamiento del persa: Particularmente dificultades en tareas de comprensión a nivel de token como NER
- Establecimiento de líneas base para desarrollo futuro de modelos: Creación de líneas de referencia de rendimiento importantes que señalan áreas clave de mejora
La investigación abarca múltiples tareas fundamentales de PNL:
- Clasificación de Texto: Análisis de sentimientos, detección de emociones
- Etiquetado de Secuencias: Reconocimiento de entidades nombradas
- Comprensión Lectora: Respuesta a preguntas basada en contexto
- Generación de Texto: Traducción automática, resumen de texto
- Tareas de Razonamiento: Razonamiento lógico, razonamiento de sentido común, razonamiento matemático
Se evaluaron 11 LLMs de código abierto representativos:
- Gemma2: Modelo transformer eficiente de Google con capacidades mejoradas de representación multilingüe
- GLM4: Modelo de lenguaje generativo optimizado para tareas complejas de razonamiento y comprensión
- LLaMA3.1/3.2: Arquitectura refinada de Meta AI con representación de tokens mejorada para caracteres no latinos
- Qwen2/2.5: Modelos base multilingües de Alibaba
- Mistral: Modelo computacionalmente eficiente que utiliza mecanismo de atención de consulta agrupada
- Otros Modelos: Marco-O1, Aya-Expanse, Falcon3, Tulu3
- Marco de Evaluación Unificado: Establecimiento de plantillas de indicaciones estandarizadas y canalización de evaluación
- Comparación Multi-Paradigma: Comparación sistemática de la efectividad del aprendizaje de cero disparos y pocos disparos
- Análisis de Granularidad Fina: Análisis de errores dirigido a fenómenos lingüísticos específicos del persa
- Evaluación Interdisciplinaria: Cobertura de múltiples dominios de conocimiento incluyendo humanidades y STEM
- ParsiNLU:
- Comprensión lectora: 1,000 pares párrafo-pregunta
- Implicación textual: 2,500 pares premisa-hipótesis
- Clasificación de sentimientos: 12,000 oraciones
- Traducción automática: 10,000 pares de oraciones paralelas inglés-persa
- ArmanEmo: 7,500 publicaciones de redes sociales en persa anotadas con 8 categorías de emociones
- ArmanNER: 7,682 oraciones que contienen tres clases de entidades: Persona, Ubicación, Organización
- Persian MMLU: 1,200 preguntas de opción múltiple que abarcan lógica, teología, sociología, matemáticas, ciencias naturales y otros campos
- Persian News Summary: 95,000 pares artículo-resumen
- Tareas de Clasificación: Precisión (Accuracy) y puntuación F1 promediada macroscópicamente
- Reconocimiento de Entidades Nombradas: Puntuación F1 a nivel de token
- Comprensión Lectora: Coincidencia exacta (EM) y puntuación F1 de superposición de tokens
- Traducción Automática: Puntuación BLEU
- Resumen de Texto: Puntuaciones ROUGE-1, ROUGE-2, ROUGE-L
Comparación de 11 LLMs de código abierto bajo configuración experimental unificada para garantizar comparación equitativa.
- Hardware: GPUs NVIDIA A100 (40GB VRAM)
- Software: Hugging Face Transformers (v4.30.2), PyTorch (v2.0.1)
- Parámetros de Inferencia: Temperatura establecida en 0.1 para tareas de generación, decodificación codicioso para tareas de clasificación
- Configuración de Pocos Disparos: Selección aleatoria de 5 ejemplos representativos por tarea
Clasificación General de Desempeño:
- Gemma2: Pocos disparos 0.61, cero disparos 0.42 (Óptimo)
- GLM4: Pocos disparos 0.53, cero disparos 0.35
- Qwen2.5: Pocos disparos 0.50, cero disparos 0.35
- Otros Modelos: Desempeño decreciente subsecuente
Hallazgos Clave:
- Gemma2 mantiene liderazgo bajo ambos paradigmas de aprendizaje con ventaja promedio superior al 8%
- El aprendizaje de pocos disparos supera consistentemente al aprendizaje de cero disparos con mejora promedio del 13.8%
- Las tareas de razonamiento complejo se benefician más notablemente (mejora del 17.3%)
Tareas de Fortaleza:
- Razonamiento Lógico y Teología: Puntuaciones promedio de 0.412 y 0.395
- Comprensión Lectora: Mejora del 17.3% en pocos disparos comparado con cero disparos
- Implicación Textual: Mejora del 15-20% en pocos disparos
Tareas Desafiantes:
- Reconocimiento de Entidades Nombradas: Desempeño deficiente en todos los modelos, mejora de solo 7.2% en pocos disparos
- Matemáticas e Informática: Puntuaciones promedio de 0.287 y 0.301
- Predicción a Nivel de Token: Limitaciones estructurales restringen el desempeño
Variaciones en Conocimiento de Dominio:
- Humanidades promedio 0.395 vs campos STEM 0.287
- Indica distribución desigual de datos de entrenamiento multilingüe
Análisis de Fenómenos Lingüísticos:
- Tasa de error en desambiguación semántica 23.7% más alta
- Tasa de clasificación errónea en expresiones emocionales complejas 31.2% más alta
- Tasa de error en entidades multi-token 27.8% más alta
- Tasa de error en expresiones idiomáticas 34.5% más alta
Casos Exitosos: Gemma2 demuestra desempeño destacado en tareas de razonamiento lógico, con capacidad para manejar relaciones semánticas complejas
Casos Fallidos: Todos los modelos presentan dificultades en la comprensión de idiomas específicos del persa y contextos culturales
- Desarrollo de puntos de referencia como GLUE y MMLU
- Investigación en aprendizaje de transferencia entre idiomas
- Aplicación de aprendizaje de pocos disparos en entornos multilingües
- Construcción de conjuntos de datos como ParsiNLU, ArmanEmo, ArmanNER
- Punto de referencia FaMTEB de incrustaciones de texto a gran escala
- Modelos especializados en persa como PersianMind, Maral
- Métodos de transferencia de conocimiento entre idiomas
- Técnicas de ingeniería de indicaciones
- Estrategias de adaptación para idiomas de bajos recursos
- Jerarquía de Desempeño de Modelos: Gemma2 supera significativamente a otros modelos, reflejando ventajas arquitectónicas
- Impacto del Paradigma de Aprendizaje: El aprendizaje de pocos disparos produce mejoras significativas, particularmente en tareas de razonamiento semántico
- Desafíos Específicos por Tarea: Las tareas a nivel de token como NER presentan desafíos para todos los modelos
- Brecha de Desempeño Interlingüe: El persa presenta un promedio 18.7% más bajo comparado con puntos de referencia en inglés
- Selección de Modelos: No cubre todos los modelos disponibles, particularmente modelos especializados en persa
- Ingeniería de Indicaciones: No se realizó optimización extensiva de indicaciones
- Representatividad de Conjuntos de Datos: Puede no cubrir completamente variaciones dialectales del persa
- Optimización de Hiperparámetros: No se realizó ajuste de hiperparámetros específico por tarea
- Cantidad de Ejemplos: Cantidad limitada de ejemplos en pocos disparos (3-5)
- Diversificación de Modelos: Evaluación de más LLMs especializados en persa
- Extensión de Tareas: Inclusión de tareas complejas como resumen abstractivo y diálogo multironda
- Técnicas Avanzadas de Indicaciones: Exploración de ajuste dinámico de indicaciones y razonamiento de cadena de pensamiento
- Adaptación a Dominios: Desarrollo de puntos de referencia para dominios especializados como medicina y derecho
- Estrategias de Ajuste Fino: Investigación de métodos de ajuste fino eficientes en parámetros
- Infraestructura Comunitaria: Establecimiento de tabla de clasificación de puntos de referencia comunitarios
- Significancia de la Investigación: Llena el vacío en evaluación de LLMs para persa, proporcionando referencia importante para investigación en idiomas de bajos recursos
- Diseño Experimental Riguroso: Marco de evaluación unificado asegura comparación equitativa, abarcando múltiples tareas e indicadores
- Análisis Exhaustivo y Profundo: No solo proporciona datos de desempeño sino también análisis detallado de errores e insights lingüísticos
- Alto Valor Práctico: Proporciona orientación práctica para aplicaciones de PNL en persa
- Cobertura Limitada de Modelos: Falta evaluación de algunos modelos especializados importantes en persa
- Ingeniería de Indicaciones Insuficiente: Las indicaciones estandarizadas pueden no maximizar el potencial de ciertos modelos
- Análisis de Contexto Cultural: El análisis de fenómenos específicos de la cultura persa podría ser más profundo
- Descripción de Recursos Computacionales: Falta comparación detallada de costos computacionales entre modelos
- Contribución Académica: Proporciona punto de referencia importante para investigación en LLMs multilingües, promoviendo desarrollo de tecnología en idiomas de bajos recursos
- Valor Práctico: Proporciona orientación para selección y optimización de modelos en aplicaciones de PNL en persa
- Reproducibilidad: Configuración experimental detallada y compromiso de código abierto apoyan reproducción de investigación
- Construcción Comunitaria: Promueve desarrollo de comunidad de investigación en PNL en persa
- Selección de Modelos: Selección de modelos base apropiados para aplicaciones de PNL en persa
- Comparación de Puntos de Referencia: Servir como punto de referencia de desempeño para desarrollo de nuevos modelos
- Orientación de Investigación: Proporcionar dirección para mejoras de modelos específicas del persa
- Recursos Educativos: Servir como material de enseñanza para cursos de PNL multilingüe
El artículo cita 32 referencias relacionadas que abarcan:
- Investigación en metodología de evaluación de LLMs
- Marcos de evaluación de capacidades multilingües
- Recursos y desafíos de PNL en persa
- Técnicas de aprendizaje de cero disparos y pocos disparos
Las referencias clave incluyen el conjunto de puntos de referencia ParsiNLU, el conjunto de datos de emociones ArmanEmo, e investigaciones importantes sobre capacidades de LLMs multilingües.
Resumen: Este es un artículo de investigación empírica de alta calidad que establece un punto de referencia importante para evaluación de LLMs en persa. La metodología de investigación es rigurosa, los resultados son convincentes, y tiene significancia importante para promover el desarrollo de tecnología de PNL en idiomas de bajos recursos. Aunque presenta algunas limitaciones, sus contribuciones e impacto son notables.