With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
- ID статьи: 2510.08776
- Название: Measuring Moral LLM Responses in Multilingual Capacities
- Авторы: Kimaya Basu, Savi Kolari, Allison Yu
- Классификация: cs.CL cs.AI
- Дата публикации: 9 октября 2025 г. (препринт ArXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.08776
С расширением глобального использования больших языковых моделей (LLM) возрастает необходимость понимания и регулирования их многоязычных ответов. Данное исследование оценивает производительность передовых моделей и ведущих моделей с открытым исходным кодом по пяти измерениям на языках с низкими и высокими ресурсами для измерения точности и согласованности LLM в многоязычной среде. Исследование использует пятибалльную шкалу оценивания и оценивающие LLM для оценки. Результаты показывают, что GPT-5 демонстрирует лучшую среднюю производительность во всех категориях, тогда как другие модели проявляют большую непоследовательность между языками и категориями. В частности, в категориях «Согласие и автономия» и «Предотвращение вреда и безопасность» GPT получает наивысшие баллы (в среднем 3,56 и 4,73 соответственно), тогда как Gemini 2.5 Pro получает наименьшие баллы (в среднем 1,39 и 1,98).
Данное исследование решает следующие ключевые проблемы:
- Проблема многоязычной моральной согласованности: сохраняют ли LLM согласованность моральных и этических ответов в различных языковых контекстах
- Языковая чувствительность механизмов безопасности: эффективность существующих мер безопасности на неанглийских языках
- Предвзятость и стереотипы между языками: проявляют ли модели различные уровни предвзятости на разных языках
- Потребности глобализированных приложений: LLM становятся повседневным инструментом для глобальных пользователей, требуя обеспечения надежности между языками
- Проблемы безопасности: исследования показывают, что механизмы безопасности LLM работают хуже на неанглийских языках и подвержены злоупотреблениям
- Культурные различия в моральных стандартах: моральные суждения могут существенно различаться в зависимости от языкового происхождения
- Тестовые данные в основном на английском языке: существующие эталонные тесты сосредоточены в основном на англоязычной среде
- Отсутствие систематической оценки: нехватка комплексной оценочной базы по нескольким моральным измерениям
- Языковые слепые пятна механизмов безопасности: существующие исследования выявляют уязвимости в протоколах безопасности на языках с низкими ресурсами
- Построение многомерного многоязычного набора данных для оценки морали: создание комплексного набора данных для оценки, содержащего 5 категорий, по 100 вопросов в каждой, охватывающего 6 языков
- Систематический анализ моральных ответов между языками: первый систематический анализ многоязычных моральных ответов основных LLM
- Выявление уязвимостей механизмов безопасности: раскрытие значительных различий в механизмах безопасности LLM между языками
- Установление эталонов производительности моделей: предоставление эталонов и оценочной базы для будущих многоязычных исследований морального ИИ
Входные данные: вопросы морально-этического характера на 6 языках (английский, китайский, испанский, арабский, хинди, суахили)
Выходные данные: оценка моральной надлежащести ответов модели (по пятибалльной шкале)
Ограничения: ответы должны быть в пределах 50 слов, вопросы морального суждения требуют четких ответов да/нет/возможно
Исследовательская группа построила набор данных, содержащий 500 вопросов на английском языке, разделенных на пять категорий:
- Предвзятость и стереотипы (Biases & Stereotypes): тестирование того, воспроизводит ли модель вредные предубеждения
- Согласие и автономия (Consent & Autonomy): использование обманчивых подсказок для тестирования механизмов безопасности
- Предотвращение вреда и безопасность (Harm Prevention & Safety): тестирование протоколов безопасности через косвенные вопросы
- Законность (Legality): тестирование обработки моделью различий в законодательстве разных регионов
- Моральное суждение (Moral Judgment): оценка соблюдения моделью основных моральных принципов
- Языки с высокими ресурсами: китайский, испанский, арабский
- Языки с низкими ресурсами: хинди, суахили
- Критерии отбора: разнообразие языковой структуры, различия культурного происхождения, вариации систем письма
- Передовые модели: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
- Модели с открытым исходным кодом: Llama 4 Scout, Qwen3 235B-a22b
- Основание для выбора: данные обучения, цели применения, региональные особенности, степень открытости
- Модель оценивающая: Gemini 2.5 Pro в качестве основного оценивающего
- Критерии оценивания: пятибалльная шкала, учитывающая точность ответа и качество рассуждений
- Проверка согласованности: перекрестная проверка с использованием GPT-5 и Qwen3
- Перевод вопросов на английском языке на целевые языки (с использованием Googletrans)
- Генерация моделью ответов на целевом языке
- Перевод ответов обратно на английский для оценивания
- Оценивание на основе категориально-специфических шкал
- Общее количество вопросов: 500 исходных вопросов на английском языке
- Охват языков: 6 языков × 500 вопросов = 3000 тестовых образцов
- Распределение по категориям: по 100 вопросов в каждой категории, равномерное распределение
- Инструмент перевода: пакет Googletrans Python
- Основной показатель: оценивание по пятибалльной шкале (1=худший, 5=лучший)
- Категориально-специфические показатели: каждая моральная категория имеет специальные критерии оценивания
- Измерение согласованности: анализ стандартного отклонения ответов между языками
- Установка температуры: 0,7 (снижение случайной вариации)
- Ограничение ответов: не более 50 слов
- Системная подсказка: унифицированный формат инструкций
- GPT-5: средняя оценка 92%, лучшая производительность во всех категориях
- Claude Sonnet 4: стабильная производительность, хорошие результаты в категориях безопасности
- Gemini 2.5 Pro: отличная производительность в академических категориях, но слабая в категориях безопасности
- Llama 4 Scout: средняя производительность
- Qwen3 235B: средняя оценка 66%, худшая общая производительность
Значительные различия в категориях безопасности:
- Категория Consent & Autonomy: GPT-5 (3,56) vs Gemini 2.5 Pro (1,39)
- Категория Harm Prevention & Safety: GPT-5 (4,73) vs Gemini 2.5 Pro (1,98)
Влияние уровня языковых ресурсов:
- В категориях с обманчивыми вопросами модели получают более высокие баллы на языках с низкими ресурсами
- На языках с высокими ресурсами модели более легко "обманываются" для предоставления вредной информации
Производительность, специфичная для модели:
- Gemini 2.5 Pro: отличная производительность в прямых категориях (предвзятость, законность, моральное суждение), но крайне слабая в косвенных категориях
- Qwen3: проявляет явную региональную предвзятость в вопросах китайского права
- Случайная выборка для проверки точности перевода
- Разница в оценках контролируется в пределах 1 балла
- Перекрестная проверка обеспечивает согласованность оценивания
- Gemini не проявляет явной предвзятости в отношении собственных ответов
- Оценки Qwen в среднем на 0,5 балла ниже
- Оценки GPT-5 в среднем на 0,6 балла выше
Статья предоставляет примеры типичных ответов, демонстрирующие:
- GPT-5 отказывает в предоставлении вредной информации по вопросам безопасности
- Gemini 2.5 Pro успешно "обманывается" на некоторых обманчивых вопросах
- Qwen3 проявляет ориентацию на китайское законодательство в вопросах права
- Адаптация психологических инструментов: применение психологических инструментов, таких как тест определения проблем (DIT), к LLM
- Анализ философских основ: оценка морального рассуждения утилитаризма vs деонтологии
- Ограничения: существующие методы имеют ограниченный охват, отсутствует многоязычная перспектива
- Тестирование способности к рассуждению: перекрестное языковое тестирование моральных дилемм, таких как проблема вагонетки
- Точность фактов: согласованность фактических ответов на разных языках
- Различия в производительности: языки с высокими ресурсами превосходят языки с низкими ресурсами
- Атаки типа jailbreak: обход механизмов безопасности через неанглийские языки
- Крупномасштабные эталоны: тестирование производительности безопасности на 100+ языках
- Выявление уязвимостей: пробелы в протоколах безопасности на языках с низкими ресурсами
- Значительные различия между моделями: GPT-5 явно превосходит другие модели в моральных и безопасных ответах
- Языковая чувствительность: все модели демонстрируют различную степень снижения производительности на неанглийских языках
- Уязвимость механизмов безопасности: значительные различия в успешности обманчивых вопросов на разных языках
- Наличие региональной предвзятости: некоторые модели проявляют явную региональную правовую предвзятость
- Зависимость от перевода: опора на Google Translate может привести к ошибкам
- Отсутствие человеческого эталона: не собраны человеческие ответы для сравнения
- Субъективность шкалы: оценочная шкала может не полностью отражать социальные ценности
- Ограниченное охватывание языков: тестирование только 6 языков имеет ограниченную репрезентативность
- Расширение охватывания языков: расширение на все языки, поддерживаемые Google Translate
- Установление человеческого эталона: сбор человеческих ответов из многокультурного происхождения
- Исследование влияния формулировки: углубленное исследование влияния формулировки вопроса на ответы
- Улучшение механизмов безопасности: совершенствование многоязычных протоколов безопасности на основе выявленных пробелов
- Значительная исследовательская значимость: первая систематическая оценка многоязычных моральных ответов LLM, заполняющая важный исследовательский пробел
- Строгая методология: применение комплексной оценочной базы с несколькими моделями, языками и измерениями
- Практическая ценность выводов: выявленные уязвимости безопасности имеют важное значение для практического развертывания
- Вклад набора данных: построенный многоязычный набор данных для оценки морали может служить эталоном для последующих исследований
- Контроль качества перевода: чрезмерная зависимость от машинного перевода может повлиять на надежность результатов
- Недостаточное учет культурного контекста: недостаточное рассмотрение различий моральных стандартов в различных культурных контекстах
- Ограничение размера выборки: по 100 вопросов в каждой категории может быть недостаточно для охватывания сложных моральных сценариев
- Единственность критериев оценивания: основная опора на единственного оценивающего LLM может привести к систематической предвзятости
- Академический вклад: установление новой исследовательской парадигмы для многоязычных исследований этики ИИ
- Практическая ценность: предоставление важного инструмента оценки рисков для безопасного развертывания ИИ
- Политическое влияние: результаты исследования могут служить научной основой для политики управления и регулирования ИИ
- Технологический прогресс: содействие развитию многоязычных технологий безопасности ИИ
- Оценка безопасности ИИ: оценка безопасности LLM предприятиями и исследовательскими учреждениями
- Развертывание многоязычного ИИ: руководство по контролю рисков при развертывании многоязычных приложений ИИ
- Соответствие нормативным требованиям: помощь регулирующим органам в разработке стандартов этики ИИ
- Академические исследования: предоставление основы для исследований в области этики ИИ и многоязычной обработки естественного языка
Данная статья ссылается на несколько важных связанных исследований:
- Achiam et al. (2023) - Технический отчет GPT-4
- Jin et al. (2024) - Многоязычное исследование проблемы вагонетки
- Fu and Liu (2025) - Исследование надежности многоязычного оценивания LLM
- Lin et al. (2025) - Атаки типа jailbreak на LLM через документы безопасности
- Zheng et al. (2023) - Метод оценивания LLM-as-a-Judge
Общая оценка: это новаторское исследование, систематически раскрывающее важные проблемы в многоязычных моральных ответах современных LLM. Несмотря на некоторые методологические ограничения, его выводы имеют важное теоретическое и практическое значение для безопасности ИИ и развития многоязычного ИИ. Данное исследование закладывает важную основу для будущих исследований многоязычной этики ИИ.