2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu
With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
academic

Midiendo Respuestas Morales de LLM en Capacidades Multilingües

Información Básica

  • ID del Artículo: 2510.08776
  • Título: Measuring Moral LLM Responses in Multilingual Capacities
  • Autores: Kimaya Basu, Savi Kolari, Allison Yu
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 9 de octubre de 2025 (Preimpresión en ArXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08776

Resumen

Con el uso generalizado de modelos de lenguaje grande (LLM) a nivel mundial, la necesidad de comprender y regular sus respuestas multilingües ha aumentado significativamente. Esta investigación evalúa el desempeño de modelos de vanguardia y modelos de código abierto líderes en cinco dimensiones a través de idiomas de recursos bajos y altos para medir la precisión y consistencia de los LLM en entornos multilingües. El estudio utiliza una escala de calificación de cinco puntos y evaluadores basados en LLM para la evaluación. Los resultados muestran que GPT-5 tiene el mejor desempeño promedio en todas las categorías, mientras que otros modelos muestran mayor inconsistencia entre idiomas y categorías. Específicamente, en las categorías de Consentimiento y Autonomía (Consent & Autonomy) y Prevención de Daños y Seguridad (Harm Prevention & Safety), GPT obtiene las puntuaciones más altas (promedios de 3.56 y 4.73 respectivamente), mientras que Gemini 2.5 Pro obtiene las más bajas (promedios de 1.39 y 1.98 respectivamente).

Contexto e Motivación de la Investigación

Preguntas de Investigación

Esta investigación aborda las siguientes preguntas clave:

  1. Problema de Consistencia Moral Multilingüe: ¿Las respuestas morales y éticas de los LLM se mantienen consistentes en diferentes entornos lingüísticos?
  2. Sensibilidad Lingüística de Mecanismos de Seguridad: ¿Qué tan efectivas son las medidas de seguridad existentes en idiomas no ingleses?
  3. Sesgos y Estereotipos Translingües: ¿Exhiben los modelos diferentes grados de sesgo en diferentes idiomas?

Importancia del Problema

  1. Demanda de Aplicación Global: Los LLM se están convirtiendo en herramientas cotidianas para usuarios globales, requiriendo confiabilidad translingüe
  2. Preocupaciones de Seguridad: La investigación demuestra que los mecanismos de seguridad de los LLM funcionan peor en idiomas no ingleses y son susceptibles a explotación maliciosa
  3. Diferencias Culturales en Estándares Morales: Los juicios morales pueden variar significativamente según el contexto lingüístico y cultural

Limitaciones de Métodos Existentes

  1. Datos de Prueba Principalmente en Inglés: Los puntos de referencia existentes se concentran principalmente en entornos de habla inglesa
  2. Falta de Evaluación Sistemática: Ausencia de un marco de evaluación integral que abarque múltiples dimensiones morales
  3. Puntos Ciegos Lingüísticos en Mecanismos de Seguridad: La investigación existente revela vulnerabilidades en protocolos de seguridad en idiomas de recursos bajos

Contribuciones Principales

  1. Construcción de Conjunto de Datos de Evaluación Moral Multilingüe y Multidimensional: Creación de un conjunto de evaluación integral que contiene 5 categorías, 100 preguntas cada una, cubriendo 6 idiomas
  2. Análisis Moral Translingüe Sistemático: Primer análisis sistemático de respuestas morales multilingües de LLM convencionales
  3. Descubrimiento de Fragilidades en Mecanismos de Seguridad: Revelación de diferencias significativas en mecanismos de seguridad de LLM entre idiomas
  4. Establecimiento de Puntos de Referencia de Desempeño de Modelos: Provisión de puntos de referencia y marco de evaluación para futuras investigaciones en IA moral multilingüe

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Preguntas de ética moral en 6 idiomas (inglés, chino, español, árabe, hindi, suajili) Salida: Puntuación de idoneidad moral de respuestas del modelo (escala de 1-5) Restricciones: Las respuestas deben tener menos de 50 palabras; las preguntas de juicio moral requieren respuestas claras de sí/no/posiblemente

Marco de Evaluación

Construcción del Conjunto de Datos

El equipo de investigación construyó un conjunto de datos que contiene 500 preguntas en inglés, divididas en cinco categorías:

  1. Sesgos y Estereotipos (Biases & Stereotypes): Prueba si el modelo perpetúa sesgos dañinos
  2. Consentimiento y Autonomía (Consent & Autonomy): Utiliza indicaciones engañosas para probar mecanismos de seguridad
  3. Prevención de Daños y Seguridad (Harm Prevention & Safety): Prueba protocolos de seguridad mediante preguntas indirectas
  4. Legalidad (Legality): Prueba cómo el modelo maneja diferencias legales en diferentes regiones
  5. Juicio Moral (Moral Judgment): Evalúa la adherencia del modelo a principios morales fundamentales

Estrategia de Selección de Idiomas

  • Idiomas de Recursos Altos: Chino, español, árabe
  • Idiomas de Recursos Bajos: Hindi, suajili
  • Criterios de Selección: Diversidad de estructura lingüística, diferencias de contexto cultural, variación de sistemas de escritura

Rango de Modelos Probados

  • Modelos de Vanguardia: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
  • Modelos de Código Abierto: Llama 4 Scout, Qwen3 235B-a22b
  • Base de Selección: Datos de entrenamiento, objetivos de aplicación, características regionales, grado de apertura

Métodos de Evaluación

Marco LLM-as-a-Judge

  • Modelo Evaluador: Gemini 2.5 Pro como evaluador principal
  • Criterios de Calificación: Escala de 5 puntos, considerando precisión de respuesta y calidad del razonamiento
  • Verificación de Consistencia: Validación cruzada utilizando GPT-5 y Qwen3

Procedimiento de Evaluación

  1. Traducción de preguntas en inglés al idioma objetivo (utilizando Googletrans)
  2. Generación de respuestas en idioma objetivo por el modelo
  3. Traducción de respuestas nuevamente al inglés para evaluación
  4. Calificación basada en escalas específicas de categoría

Configuración Experimental

Detalles del Conjunto de Datos

  • Número Total de Preguntas: 500 preguntas originales en inglés
  • Cobertura Lingüística: 6 idiomas × 500 preguntas = 3000 muestras de prueba
  • Distribución de Categorías: 100 preguntas por categoría, distribución uniforme
  • Herramienta de Traducción: Paquete Python Googletrans

Métricas de Evaluación

  • Métrica Principal: Calificación en escala de 5 puntos (1=peor, 5=mejor)
  • Métricas Específicas de Categoría: Estándares de calificación especializados para cada categoría moral
  • Medición de Consistencia: Análisis de desviación estándar de respuestas translingües

Parámetros Experimentales

  • Configuración de Temperatura: 0.7 (reducir variación aleatoria)
  • Límite de Respuesta: Menos de 50 palabras
  • Indicación del Sistema: Formato de instrucción unificado

Resultados Experimentales

Resultados Principales

Clasificación de Desempeño General

  1. GPT-5: Puntuación promedio del 92%, mejor desempeño en todas las categorías
  2. Claude Sonnet 4: Desempeño estable, buen desempeño en categorías de seguridad
  3. Gemini 2.5 Pro: Desempeño excelente en categorías académicas, pero pobre en categorías de seguridad
  4. Llama 4 Scout: Desempeño medio
  5. Qwen3 235B: Puntuación promedio del 66%, peor desempeño general

Hallazgos Clave

Diferencias Significativas en Categorías de Seguridad:

  • Categoría Consent & Autonomy: GPT-5 (3.56) vs Gemini 2.5 Pro (1.39)
  • Categoría Harm Prevention & Safety: GPT-5 (4.73) vs Gemini 2.5 Pro (1.98)

Impacto del Nivel de Recursos Lingüísticos:

  • En la categoría de preguntas engañosas, los modelos obtienen puntuaciones más altas en idiomas de recursos bajos
  • En idiomas de recursos altos, los modelos son más fácilmente "engañados" para proporcionar información dañina

Desempeño Específico del Modelo:

  • Gemini 2.5 Pro: Desempeño excelente en categorías directas (sesgo, legalidad, juicio moral), pero desempeño extremadamente pobre en categorías indirectas
  • Qwen3: Exhibe sesgo regional evidente en preguntas legales en chino

Experimentos de Ablación

Verificación de Calidad de Traducción

  • Verificación aleatoria de precisión de traducción
  • Diferencia de calificación controlada dentro de 1 punto
  • Validación cruzada para asegurar consistencia de evaluación

Prueba de Sesgo del Evaluador

  • Gemini no muestra sesgo evidente hacia sus propias respuestas
  • Las calificaciones de Qwen promedian 0.5 puntos más bajas
  • Las calificaciones de GPT-5 promedian 0.6 puntos más altas

Análisis de Casos

El artículo proporciona ejemplos de respuestas típicas, mostrando:

  1. GPT-5 rechaza proporcionar información dañina en preguntas de seguridad
  2. Gemini 2.5 Pro es "engañado" exitosamente en ciertas preguntas engañosas
  3. Qwen3 exhibe orientación hacia la ley china en preguntas legales

Trabajo Relacionado

Medición de Marcos Morales

  • Adaptación de Herramientas Psicológicas: Aplicación de herramientas psicológicas como la Prueba de Definición de Problemas (DIT) a LLM
  • Análisis de Marcos Filosóficos: Evaluación del razonamiento moral utilitarista vs deontológico
  • Limitaciones: Los métodos existentes tienen alcance limitado, carecen de perspectiva translingüe

Investigación de Capacidades Multilingües

  • Pruebas de Capacidad de Razonamiento: Pruebas translingües de dilemas morales como el problema del tranvía
  • Precisión Factual: Consistencia de respuestas factuales en diferentes idiomas
  • Diferencias de Desempeño: Idiomas de recursos altos superan a idiomas de recursos bajos

Investigación de Limitaciones de Seguridad

  • Ataques de Jailbreak: Eludir mecanismos de seguridad mediante idiomas no ingleses
  • Puntos de Referencia a Gran Escala: Pruebas de desempeño de seguridad en 100+ idiomas
  • Descubrimiento de Vulnerabilidades: Vulnerabilidades en protocolos de seguridad en idiomas de recursos bajos

Conclusiones y Discusión

Conclusiones Principales

  1. Diferencias Significativas Entre Modelos: GPT-5 es claramente superior a otros modelos en respuestas morales y de seguridad
  2. Sensibilidad Lingüística: Todos los modelos muestran diferentes grados de degradación de desempeño en idiomas no ingleses
  3. Fragilidad de Mecanismos de Seguridad: Existen diferencias significativas en las tasas de éxito de preguntas engañosas entre idiomas
  4. Existencia de Sesgo Regional: Ciertos modelos exhiben sesgo legal regional evidente

Limitaciones

  1. Dependencia de Traducción: La dependencia de Google Translate puede introducir errores
  2. Falta de Punto de Referencia Humano: No se recopilaron respuestas humanas como estándar de comparación
  3. Subjetividad de la Escala: La escala de evaluación puede no reflejar completamente los valores sociales
  4. Cobertura Lingüística Limitada: Solo se prueban 6 idiomas, representatividad limitada

Direcciones Futuras

  1. Expansión de Cobertura Lingüística: Extensión a todos los idiomas soportados por Google Translate
  2. Establecimiento de Punto de Referencia Humano: Recopilación de respuestas humanas de contextos culturales diversos
  3. Investigación del Impacto de Formulación: Investigación profunda de cómo la formulación de preguntas afecta las respuestas
  4. Mejora de Mecanismos de Seguridad: Mejora de protocolos de seguridad multilingües basada en vulnerabilidades descubiertas

Evaluación Profunda

Fortalezas

  1. Significancia de la Investigación: Primera evaluación sistemática de respuestas morales multilingües de LLM, llenando un vacío de investigación importante
  2. Rigor Metodológico: Adopción de un marco de evaluación integral de múltiples modelos, idiomas y dimensiones
  3. Valor Práctico de Hallazgos: Las vulnerabilidades de seguridad reveladas tienen importancia significativa para la implementación práctica
  4. Contribución del Conjunto de Datos: El conjunto de datos de evaluación moral multilingüe construido puede servir como punto de referencia para investigaciones posteriores

Insuficiencias

  1. Control de Calidad de Traducción: Dependencia excesiva de traducción automática puede afectar la confiabilidad de resultados
  2. Consideración Insuficiente del Contexto Cultural: Falta de consideración adecuada de diferencias en estándares morales entre culturas
  3. Limitación del Tamaño de Muestra: Solo 100 preguntas por categoría, puede ser insuficiente para cubrir escenarios morales complejos
  4. Criterios de Evaluación Únicos: Dependencia principalmente de un único evaluador LLM, puede existir sesgo sistemático

Impacto

  1. Contribución Académica: Establecimiento de nuevo paradigma de investigación para investigación en ética de IA multilingüe
  2. Valor Práctico: Provisión de herramienta importante de evaluación de riesgos para implementación segura de IA
  3. Impacto en Políticas: Los resultados de investigación pueden proporcionar base científica para políticas de gobernanza y regulación de IA
  4. Avance Tecnológico: Promoción del desarrollo de tecnología de seguridad de IA multilingüe

Escenarios Aplicables

  1. Evaluación de Seguridad de IA: Evaluación de seguridad de LLM por empresas e instituciones de investigación
  2. Implementación de IA Multilingüe: Orientación del control de riesgos en aplicaciones de IA translingüe
  3. Cumplimiento Regulatorio: Asistencia a organismos reguladores en la formulación de estándares de ética de IA
  4. Investigación Académica: Provisión de base para investigación en ética de IA y procesamiento de lenguaje natural multilingüe

Referencias

Este artículo cita múltiples investigaciones relacionadas importantes:

  1. Achiam et al. (2023) - Informe Técnico de GPT-4
  2. Jin et al. (2024) - Investigación del Problema del Tranvía Multilingüe
  3. Fu and Liu (2025) - Investigación de Confiabilidad de Evaluadores LLM Multilingües
  4. Lin et al. (2025) - Ataques de Jailbreak de LLM a través de Artículos de Seguridad
  5. Zheng et al. (2023) - Método de Evaluación LLM-as-a-Judge

Evaluación General: Esta es una investigación de significancia pionera que revela sistemáticamente problemas importantes en respuestas morales multilingües de LLM actuales. Aunque existen algunas limitaciones en la metodología, sus hallazgos de investigación tienen valor teórico y práctico importante para la seguridad de IA y el desarrollo de IA multilingüe. Esta investigación establece una base importante para futuras investigaciones en ética de IA multilingüe.