2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu

With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.

academic

Измерение моральных ответов LLM в многоязычных контекстах

Основная информация

ID статьи: 2510.08776
Название: Measuring Moral LLM Responses in Multilingual Capacities
Авторы: Kimaya Basu, Savi Kolari, Allison Yu
Классификация: cs.CL cs.AI
Дата публикации: 9 октября 2025 г. (препринт ArXiv)
Ссылка на статью: https://arxiv.org/abs/2510.08776

Аннотация

С расширением глобального использования больших языковых моделей (LLM) возрастает необходимость понимания и регулирования их многоязычных ответов. Данное исследование оценивает производительность передовых моделей и ведущих моделей с открытым исходным кодом по пяти измерениям на языках с низкими и высокими ресурсами для измерения точности и согласованности LLM в многоязычной среде. Исследование использует пятибалльную шкалу оценивания и оценивающие LLM для оценки. Результаты показывают, что GPT-5 демонстрирует лучшую среднюю производительность во всех категориях, тогда как другие модели проявляют большую непоследовательность между языками и категориями. В частности, в категориях «Согласие и автономия» и «Предотвращение вреда и безопасность» GPT получает наивысшие баллы (в среднем 3,56 и 4,73 соответственно), тогда как Gemini 2.5 Pro получает наименьшие баллы (в среднем 1,39 и 1,98).

Предпосылки и мотивация исследования

Исследовательские вопросы

Данное исследование решает следующие ключевые проблемы:

Проблема многоязычной моральной согласованности: сохраняют ли LLM согласованность моральных и этических ответов в различных языковых контекстах
Языковая чувствительность механизмов безопасности: эффективность существующих мер безопасности на неанглийских языках
Предвзятость и стереотипы между языками: проявляют ли модели различные уровни предвзятости на разных языках

Значимость проблемы

Потребности глобализированных приложений: LLM становятся повседневным инструментом для глобальных пользователей, требуя обеспечения надежности между языками
Проблемы безопасности: исследования показывают, что механизмы безопасности LLM работают хуже на неанглийских языках и подвержены злоупотреблениям
Культурные различия в моральных стандартах: моральные суждения могут существенно различаться в зависимости от языкового происхождения

Ограничения существующих подходов

Тестовые данные в основном на английском языке: существующие эталонные тесты сосредоточены в основном на англоязычной среде
Отсутствие систематической оценки: нехватка комплексной оценочной базы по нескольким моральным измерениям
Языковые слепые пятна механизмов безопасности: существующие исследования выявляют уязвимости в протоколах безопасности на языках с низкими ресурсами

Основные вклады

Построение многомерного многоязычного набора данных для оценки морали: создание комплексного набора данных для оценки, содержащего 5 категорий, по 100 вопросов в каждой, охватывающего 6 языков
Систематический анализ моральных ответов между языками: первый систематический анализ многоязычных моральных ответов основных LLM
Выявление уязвимостей механизмов безопасности: раскрытие значительных различий в механизмах безопасности LLM между языками
Установление эталонов производительности моделей: предоставление эталонов и оценочной базы для будущих многоязычных исследований морального ИИ

Подробное описание методологии

Определение задачи

Входные данные: вопросы морально-этического характера на 6 языках (английский, китайский, испанский, арабский, хинди, суахили) Выходные данные: оценка моральной надлежащести ответов модели (по пятибалльной шкале) Ограничения: ответы должны быть в пределах 50 слов, вопросы морального суждения требуют четких ответов да/нет/возможно

Оценочная база

Построение набора данных

Исследовательская группа построила набор данных, содержащий 500 вопросов на английском языке, разделенных на пять категорий:

Предвзятость и стереотипы (Biases & Stereotypes): тестирование того, воспроизводит ли модель вредные предубеждения
Согласие и автономия (Consent & Autonomy): использование обманчивых подсказок для тестирования механизмов безопасности
Предотвращение вреда и безопасность (Harm Prevention & Safety): тестирование протоколов безопасности через косвенные вопросы
Законность (Legality): тестирование обработки моделью различий в законодательстве разных регионов
Моральное суждение (Moral Judgment): оценка соблюдения моделью основных моральных принципов

Стратегия выбора языков

Языки с высокими ресурсами: китайский, испанский, арабский
Языки с низкими ресурсами: хинди, суахили
Критерии отбора: разнообразие языковой структуры, различия культурного происхождения, вариации систем письма

Диапазон тестируемых моделей

Передовые модели: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
Модели с открытым исходным кодом: Llama 4 Scout, Qwen3 235B-a22b
Основание для выбора: данные обучения, цели применения, региональные особенности, степень открытости

Методы оценки

Основа LLM-as-a-Judge

Модель оценивающая: Gemini 2.5 Pro в качестве основного оценивающего
Критерии оценивания: пятибалльная шкала, учитывающая точность ответа и качество рассуждений
Проверка согласованности: перекрестная проверка с использованием GPT-5 и Qwen3

Процесс оценивания

Перевод вопросов на английском языке на целевые языки (с использованием Googletrans)
Генерация моделью ответов на целевом языке
Перевод ответов обратно на английский для оценивания
Оценивание на основе категориально-специфических шкал

Экспериментальная установка

Детали набора данных

Общее количество вопросов: 500 исходных вопросов на английском языке
Охват языков: 6 языков × 500 вопросов = 3000 тестовых образцов
Распределение по категориям: по 100 вопросов в каждой категории, равномерное распределение
Инструмент перевода: пакет Googletrans Python

Оценочные показатели

Основной показатель: оценивание по пятибалльной шкале (1=худший, 5=лучший)
Категориально-специфические показатели: каждая моральная категория имеет специальные критерии оценивания
Измерение согласованности: анализ стандартного отклонения ответов между языками

Параметры эксперимента

Установка температуры: 0,7 (снижение случайной вариации)
Ограничение ответов: не более 50 слов
Системная подсказка: унифицированный формат инструкций

Результаты экспериментов

Основные результаты

Общий рейтинг производительности

GPT-5: средняя оценка 92%, лучшая производительность во всех категориях
Claude Sonnet 4: стабильная производительность, хорошие результаты в категориях безопасности
Gemini 2.5 Pro: отличная производительность в академических категориях, но слабая в категориях безопасности
Llama 4 Scout: средняя производительность
Qwen3 235B: средняя оценка 66%, худшая общая производительность

Ключевые выводы

Значительные различия в категориях безопасности:

Категория Consent & Autonomy: GPT-5 (3,56) vs Gemini 2.5 Pro (1,39)
Категория Harm Prevention & Safety: GPT-5 (4,73) vs Gemini 2.5 Pro (1,98)

Влияние уровня языковых ресурсов:

В категориях с обманчивыми вопросами модели получают более высокие баллы на языках с низкими ресурсами
На языках с высокими ресурсами модели более легко "обманываются" для предоставления вредной информации

Производительность, специфичная для модели:

Gemini 2.5 Pro: отличная производительность в прямых категориях (предвзятость, законность, моральное суждение), но крайне слабая в косвенных категориях
Qwen3: проявляет явную региональную предвзятость в вопросах китайского права

Абляционные эксперименты

Проверка качества перевода

Случайная выборка для проверки точности перевода
Разница в оценках контролируется в пределах 1 балла
Перекрестная проверка обеспечивает согласованность оценивания

Тестирование предвзятости оценивающего

Gemini не проявляет явной предвзятости в отношении собственных ответов
Оценки Qwen в среднем на 0,5 балла ниже
Оценки GPT-5 в среднем на 0,6 балла выше

Анализ конкретных случаев

Статья предоставляет примеры типичных ответов, демонстрирующие:

GPT-5 отказывает в предоставлении вредной информации по вопросам безопасности
Gemini 2.5 Pro успешно "обманывается" на некоторых обманчивых вопросах
Qwen3 проявляет ориентацию на китайское законодательство в вопросах права

Связанные работы

Измерение моральных основ

Адаптация психологических инструментов: применение психологических инструментов, таких как тест определения проблем (DIT), к LLM
Анализ философских основ: оценка морального рассуждения утилитаризма vs деонтологии
Ограничения: существующие методы имеют ограниченный охват, отсутствует многоязычная перспектива

Исследования многоязычных способностей

Тестирование способности к рассуждению: перекрестное языковое тестирование моральных дилемм, таких как проблема вагонетки
Точность фактов: согласованность фактических ответов на разных языках
Различия в производительности: языки с высокими ресурсами превосходят языки с низкими ресурсами

Исследования ограничений безопасности

Атаки типа jailbreak: обход механизмов безопасности через неанглийские языки
Крупномасштабные эталоны: тестирование производительности безопасности на 100+ языках
Выявление уязвимостей: пробелы в протоколах безопасности на языках с низкими ресурсами

Выводы и обсуждение

Основные выводы

Значительные различия между моделями: GPT-5 явно превосходит другие модели в моральных и безопасных ответах
Языковая чувствительность: все модели демонстрируют различную степень снижения производительности на неанглийских языках
Уязвимость механизмов безопасности: значительные различия в успешности обманчивых вопросов на разных языках
Наличие региональной предвзятости: некоторые модели проявляют явную региональную правовую предвзятость

Ограничения

Зависимость от перевода: опора на Google Translate может привести к ошибкам
Отсутствие человеческого эталона: не собраны человеческие ответы для сравнения
Субъективность шкалы: оценочная шкала может не полностью отражать социальные ценности
Ограниченное охватывание языков: тестирование только 6 языков имеет ограниченную репрезентативность

Направления будущих исследований

Расширение охватывания языков: расширение на все языки, поддерживаемые Google Translate
Установление человеческого эталона: сбор человеческих ответов из многокультурного происхождения
Исследование влияния формулировки: углубленное исследование влияния формулировки вопроса на ответы
Улучшение механизмов безопасности: совершенствование многоязычных протоколов безопасности на основе выявленных пробелов

Глубокая оценка

Преимущества

Значительная исследовательская значимость: первая систематическая оценка многоязычных моральных ответов LLM, заполняющая важный исследовательский пробел
Строгая методология: применение комплексной оценочной базы с несколькими моделями, языками и измерениями
Практическая ценность выводов: выявленные уязвимости безопасности имеют важное значение для практического развертывания
Вклад набора данных: построенный многоязычный набор данных для оценки морали может служить эталоном для последующих исследований

Недостатки

Контроль качества перевода: чрезмерная зависимость от машинного перевода может повлиять на надежность результатов
Недостаточное учет культурного контекста: недостаточное рассмотрение различий моральных стандартов в различных культурных контекстах
Ограничение размера выборки: по 100 вопросов в каждой категории может быть недостаточно для охватывания сложных моральных сценариев
Единственность критериев оценивания: основная опора на единственного оценивающего LLM может привести к систематической предвзятости

Влияние

Академический вклад: установление новой исследовательской парадигмы для многоязычных исследований этики ИИ
Практическая ценность: предоставление важного инструмента оценки рисков для безопасного развертывания ИИ
Политическое влияние: результаты исследования могут служить научной основой для политики управления и регулирования ИИ
Технологический прогресс: содействие развитию многоязычных технологий безопасности ИИ

Применимые сценарии

Оценка безопасности ИИ: оценка безопасности LLM предприятиями и исследовательскими учреждениями
Развертывание многоязычного ИИ: руководство по контролю рисков при развертывании многоязычных приложений ИИ
Соответствие нормативным требованиям: помощь регулирующим органам в разработке стандартов этики ИИ
Академические исследования: предоставление основы для исследований в области этики ИИ и многоязычной обработки естественного языка

Библиография

Данная статья ссылается на несколько важных связанных исследований:

Achiam et al. (2023) - Технический отчет GPT-4
Jin et al. (2024) - Многоязычное исследование проблемы вагонетки
Fu and Liu (2025) - Исследование надежности многоязычного оценивания LLM
Lin et al. (2025) - Атаки типа jailbreak на LLM через документы безопасности
Zheng et al. (2023) - Метод оценивания LLM-as-a-Judge

Общая оценка: это новаторское исследование, систематически раскрывающее важные проблемы в многоязычных моральных ответах современных LLM. Несмотря на некоторые методологические ограничения, его выводы имеют важное теоретическое и практическое значение для безопасности ИИ и развития многоязычного ИИ. Данное исследование закладывает важную основу для будущих исследований многоязычной этики ИИ.