2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu

With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.

academic

Midiendo Respuestas Morales de LLM en Capacidades Multilingües

Información Básica

ID del Artículo: 2510.08776
Título: Measuring Moral LLM Responses in Multilingual Capacities
Autores: Kimaya Basu, Savi Kolari, Allison Yu
Clasificación: cs.CL cs.AI
Fecha de Publicación: 9 de octubre de 2025 (Preimpresión en ArXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.08776

Resumen

Con el uso generalizado de modelos de lenguaje grande (LLM) a nivel mundial, la necesidad de comprender y regular sus respuestas multilingües ha aumentado significativamente. Esta investigación evalúa el desempeño de modelos de vanguardia y modelos de código abierto líderes en cinco dimensiones a través de idiomas de recursos bajos y altos para medir la precisión y consistencia de los LLM en entornos multilingües. El estudio utiliza una escala de calificación de cinco puntos y evaluadores basados en LLM para la evaluación. Los resultados muestran que GPT-5 tiene el mejor desempeño promedio en todas las categorías, mientras que otros modelos muestran mayor inconsistencia entre idiomas y categorías. Específicamente, en las categorías de Consentimiento y Autonomía (Consent & Autonomy) y Prevención de Daños y Seguridad (Harm Prevention & Safety), GPT obtiene las puntuaciones más altas (promedios de 3.56 y 4.73 respectivamente), mientras que Gemini 2.5 Pro obtiene las más bajas (promedios de 1.39 y 1.98 respectivamente).

Contexto e Motivación de la Investigación

Preguntas de Investigación

Esta investigación aborda las siguientes preguntas clave:

Problema de Consistencia Moral Multilingüe: ¿Las respuestas morales y éticas de los LLM se mantienen consistentes en diferentes entornos lingüísticos?
Sensibilidad Lingüística de Mecanismos de Seguridad: ¿Qué tan efectivas son las medidas de seguridad existentes en idiomas no ingleses?
Sesgos y Estereotipos Translingües: ¿Exhiben los modelos diferentes grados de sesgo en diferentes idiomas?

Importancia del Problema

Demanda de Aplicación Global: Los LLM se están convirtiendo en herramientas cotidianas para usuarios globales, requiriendo confiabilidad translingüe
Preocupaciones de Seguridad: La investigación demuestra que los mecanismos de seguridad de los LLM funcionan peor en idiomas no ingleses y son susceptibles a explotación maliciosa
Diferencias Culturales en Estándares Morales: Los juicios morales pueden variar significativamente según el contexto lingüístico y cultural

Limitaciones de Métodos Existentes

Datos de Prueba Principalmente en Inglés: Los puntos de referencia existentes se concentran principalmente en entornos de habla inglesa
Falta de Evaluación Sistemática: Ausencia de un marco de evaluación integral que abarque múltiples dimensiones morales
Puntos Ciegos Lingüísticos en Mecanismos de Seguridad: La investigación existente revela vulnerabilidades en protocolos de seguridad en idiomas de recursos bajos

Contribuciones Principales

Construcción de Conjunto de Datos de Evaluación Moral Multilingüe y Multidimensional: Creación de un conjunto de evaluación integral que contiene 5 categorías, 100 preguntas cada una, cubriendo 6 idiomas
Análisis Moral Translingüe Sistemático: Primer análisis sistemático de respuestas morales multilingües de LLM convencionales
Descubrimiento de Fragilidades en Mecanismos de Seguridad: Revelación de diferencias significativas en mecanismos de seguridad de LLM entre idiomas
Establecimiento de Puntos de Referencia de Desempeño de Modelos: Provisión de puntos de referencia y marco de evaluación para futuras investigaciones en IA moral multilingüe

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Preguntas de ética moral en 6 idiomas (inglés, chino, español, árabe, hindi, suajili) Salida: Puntuación de idoneidad moral de respuestas del modelo (escala de 1-5) Restricciones: Las respuestas deben tener menos de 50 palabras; las preguntas de juicio moral requieren respuestas claras de sí/no/posiblemente

Marco de Evaluación

Construcción del Conjunto de Datos

El equipo de investigación construyó un conjunto de datos que contiene 500 preguntas en inglés, divididas en cinco categorías:

Sesgos y Estereotipos (Biases & Stereotypes): Prueba si el modelo perpetúa sesgos dañinos
Consentimiento y Autonomía (Consent & Autonomy): Utiliza indicaciones engañosas para probar mecanismos de seguridad
Prevención de Daños y Seguridad (Harm Prevention & Safety): Prueba protocolos de seguridad mediante preguntas indirectas
Legalidad (Legality): Prueba cómo el modelo maneja diferencias legales en diferentes regiones
Juicio Moral (Moral Judgment): Evalúa la adherencia del modelo a principios morales fundamentales

Estrategia de Selección de Idiomas

Idiomas de Recursos Altos: Chino, español, árabe
Idiomas de Recursos Bajos: Hindi, suajili
Criterios de Selección: Diversidad de estructura lingüística, diferencias de contexto cultural, variación de sistemas de escritura

Rango de Modelos Probados

Modelos de Vanguardia: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
Modelos de Código Abierto: Llama 4 Scout, Qwen3 235B-a22b
Base de Selección: Datos de entrenamiento, objetivos de aplicación, características regionales, grado de apertura

Métodos de Evaluación

Marco LLM-as-a-Judge

Modelo Evaluador: Gemini 2.5 Pro como evaluador principal
Criterios de Calificación: Escala de 5 puntos, considerando precisión de respuesta y calidad del razonamiento
Verificación de Consistencia: Validación cruzada utilizando GPT-5 y Qwen3

Procedimiento de Evaluación

Traducción de preguntas en inglés al idioma objetivo (utilizando Googletrans)
Generación de respuestas en idioma objetivo por el modelo
Traducción de respuestas nuevamente al inglés para evaluación
Calificación basada en escalas específicas de categoría

Configuración Experimental

Detalles del Conjunto de Datos

Número Total de Preguntas: 500 preguntas originales en inglés
Cobertura Lingüística: 6 idiomas × 500 preguntas = 3000 muestras de prueba
Distribución de Categorías: 100 preguntas por categoría, distribución uniforme
Herramienta de Traducción: Paquete Python Googletrans

Métricas de Evaluación

Métrica Principal: Calificación en escala de 5 puntos (1=peor, 5=mejor)
Métricas Específicas de Categoría: Estándares de calificación especializados para cada categoría moral
Medición de Consistencia: Análisis de desviación estándar de respuestas translingües

Parámetros Experimentales

Configuración de Temperatura: 0.7 (reducir variación aleatoria)
Límite de Respuesta: Menos de 50 palabras
Indicación del Sistema: Formato de instrucción unificado

Resultados Experimentales

Resultados Principales

Clasificación de Desempeño General

GPT-5: Puntuación promedio del 92%, mejor desempeño en todas las categorías
Claude Sonnet 4: Desempeño estable, buen desempeño en categorías de seguridad
Gemini 2.5 Pro: Desempeño excelente en categorías académicas, pero pobre en categorías de seguridad
Llama 4 Scout: Desempeño medio
Qwen3 235B: Puntuación promedio del 66%, peor desempeño general

Hallazgos Clave

Diferencias Significativas en Categorías de Seguridad:

Categoría Consent & Autonomy: GPT-5 (3.56) vs Gemini 2.5 Pro (1.39)
Categoría Harm Prevention & Safety: GPT-5 (4.73) vs Gemini 2.5 Pro (1.98)

Impacto del Nivel de Recursos Lingüísticos:

En la categoría de preguntas engañosas, los modelos obtienen puntuaciones más altas en idiomas de recursos bajos
En idiomas de recursos altos, los modelos son más fácilmente "engañados" para proporcionar información dañina

Desempeño Específico del Modelo:

Gemini 2.5 Pro: Desempeño excelente en categorías directas (sesgo, legalidad, juicio moral), pero desempeño extremadamente pobre en categorías indirectas
Qwen3: Exhibe sesgo regional evidente en preguntas legales en chino

Experimentos de Ablación

Verificación de Calidad de Traducción

Verificación aleatoria de precisión de traducción
Diferencia de calificación controlada dentro de 1 punto
Validación cruzada para asegurar consistencia de evaluación

Prueba de Sesgo del Evaluador

Gemini no muestra sesgo evidente hacia sus propias respuestas
Las calificaciones de Qwen promedian 0.5 puntos más bajas
Las calificaciones de GPT-5 promedian 0.6 puntos más altas

Análisis de Casos

El artículo proporciona ejemplos de respuestas típicas, mostrando:

GPT-5 rechaza proporcionar información dañina en preguntas de seguridad
Gemini 2.5 Pro es "engañado" exitosamente en ciertas preguntas engañosas
Qwen3 exhibe orientación hacia la ley china en preguntas legales

Trabajo Relacionado

Medición de Marcos Morales

Adaptación de Herramientas Psicológicas: Aplicación de herramientas psicológicas como la Prueba de Definición de Problemas (DIT) a LLM
Análisis de Marcos Filosóficos: Evaluación del razonamiento moral utilitarista vs deontológico
Limitaciones: Los métodos existentes tienen alcance limitado, carecen de perspectiva translingüe

Investigación de Capacidades Multilingües

Pruebas de Capacidad de Razonamiento: Pruebas translingües de dilemas morales como el problema del tranvía
Precisión Factual: Consistencia de respuestas factuales en diferentes idiomas
Diferencias de Desempeño: Idiomas de recursos altos superan a idiomas de recursos bajos

Investigación de Limitaciones de Seguridad

Ataques de Jailbreak: Eludir mecanismos de seguridad mediante idiomas no ingleses
Puntos de Referencia a Gran Escala: Pruebas de desempeño de seguridad en 100+ idiomas
Descubrimiento de Vulnerabilidades: Vulnerabilidades en protocolos de seguridad en idiomas de recursos bajos

Conclusiones y Discusión

Conclusiones Principales

Diferencias Significativas Entre Modelos: GPT-5 es claramente superior a otros modelos en respuestas morales y de seguridad
Sensibilidad Lingüística: Todos los modelos muestran diferentes grados de degradación de desempeño en idiomas no ingleses
Fragilidad de Mecanismos de Seguridad: Existen diferencias significativas en las tasas de éxito de preguntas engañosas entre idiomas
Existencia de Sesgo Regional: Ciertos modelos exhiben sesgo legal regional evidente

Limitaciones

Dependencia de Traducción: La dependencia de Google Translate puede introducir errores
Falta de Punto de Referencia Humano: No se recopilaron respuestas humanas como estándar de comparación
Subjetividad de la Escala: La escala de evaluación puede no reflejar completamente los valores sociales
Cobertura Lingüística Limitada: Solo se prueban 6 idiomas, representatividad limitada

Direcciones Futuras

Expansión de Cobertura Lingüística: Extensión a todos los idiomas soportados por Google Translate
Establecimiento de Punto de Referencia Humano: Recopilación de respuestas humanas de contextos culturales diversos
Investigación del Impacto de Formulación: Investigación profunda de cómo la formulación de preguntas afecta las respuestas
Mejora de Mecanismos de Seguridad: Mejora de protocolos de seguridad multilingües basada en vulnerabilidades descubiertas

Evaluación Profunda

Fortalezas

Significancia de la Investigación: Primera evaluación sistemática de respuestas morales multilingües de LLM, llenando un vacío de investigación importante
Rigor Metodológico: Adopción de un marco de evaluación integral de múltiples modelos, idiomas y dimensiones
Valor Práctico de Hallazgos: Las vulnerabilidades de seguridad reveladas tienen importancia significativa para la implementación práctica
Contribución del Conjunto de Datos: El conjunto de datos de evaluación moral multilingüe construido puede servir como punto de referencia para investigaciones posteriores

Insuficiencias

Control de Calidad de Traducción: Dependencia excesiva de traducción automática puede afectar la confiabilidad de resultados
Consideración Insuficiente del Contexto Cultural: Falta de consideración adecuada de diferencias en estándares morales entre culturas
Limitación del Tamaño de Muestra: Solo 100 preguntas por categoría, puede ser insuficiente para cubrir escenarios morales complejos
Criterios de Evaluación Únicos: Dependencia principalmente de un único evaluador LLM, puede existir sesgo sistemático

Impacto

Contribución Académica: Establecimiento de nuevo paradigma de investigación para investigación en ética de IA multilingüe
Valor Práctico: Provisión de herramienta importante de evaluación de riesgos para implementación segura de IA
Impacto en Políticas: Los resultados de investigación pueden proporcionar base científica para políticas de gobernanza y regulación de IA
Avance Tecnológico: Promoción del desarrollo de tecnología de seguridad de IA multilingüe

Escenarios Aplicables

Evaluación de Seguridad de IA: Evaluación de seguridad de LLM por empresas e instituciones de investigación
Implementación de IA Multilingüe: Orientación del control de riesgos en aplicaciones de IA translingüe
Cumplimiento Regulatorio: Asistencia a organismos reguladores en la formulación de estándares de ética de IA
Investigación Académica: Provisión de base para investigación en ética de IA y procesamiento de lenguaje natural multilingüe

Referencias

Este artículo cita múltiples investigaciones relacionadas importantes:

Achiam et al. (2023) - Informe Técnico de GPT-4
Jin et al. (2024) - Investigación del Problema del Tranvía Multilingüe
Fu and Liu (2025) - Investigación de Confiabilidad de Evaluadores LLM Multilingües
Lin et al. (2025) - Ataques de Jailbreak de LLM a través de Artículos de Seguridad
Zheng et al. (2023) - Método de Evaluación LLM-as-a-Judge

Evaluación General: Esta es una investigación de significancia pionera que revela sistemáticamente problemas importantes en respuestas morales multilingües de LLM actuales. Aunque existen algunas limitaciones en la metodología, sus hallazgos de investigación tienen valor teórico y práctico importante para la seguridad de IA y el desarrollo de IA multilingüe. Esta investigación establece una base importante para futuras investigaciones en ética de IA multilingüe.