2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu

With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.

academic

Measuring Moral LLM Responses in Multilingual Capacities

基本信息

论文ID: 2510.08776
标题: Measuring Moral LLM Responses in Multilingual Capacities
作者: Kimaya Basu, Savi Kolari, Allison Yu
分类: cs.CL cs.AI
发表时间: 2025年10月9日 (ArXiv预印本)
论文链接: https://arxiv.org/abs/2510.08776

摘要

随着大语言模型(LLM)在全球范围内的广泛使用，理解和规范其多语言响应的需求日益增加。本研究评估了前沿模型和领先开源模型在五个维度上跨低资源和高资源语言的表现，以测量LLM在多语言环境中的准确性和一致性。研究使用五点评分量表和LLM评判器进行评估。结果显示GPT-5在各个类别中平均表现最佳，而其他模型在语言和类别间表现出更多不一致性。特别是在同意与自主性(Consent & Autonomy)和伤害预防与安全(Harm Prevention & Safety)类别中，GPT得分最高(平均分别为3.56和4.73)，而Gemini 2.5 Pro得分最低(平均分别为1.39和1.98)。

研究背景与动机

研究问题

本研究主要解决以下关键问题：

多语言道德一致性问题：LLM在不同语言环境下的道德和伦理响应是否保持一致
安全机制的语言敏感性：现有安全防护措施在非英语语言中的有效性
跨语言偏见和刻板印象：模型是否在不同语言中表现出不同程度的偏见

问题重要性

全球化应用需求：LLM正成为全球用户的日常工具，需要确保跨语言的可靠性
安全性关切：研究表明LLM的安全机制在非英语语言中表现较差，容易被恶意利用
道德标准的文化差异：不同语言背景下的道德判断可能存在显著差异

现有方法局限性

测试数据主要为英语：现有基准测试主要集中在英语环境
缺乏系统性评估：缺乏跨多个道德维度的综合评估框架
安全机制的语言盲点：现有研究显示安全协议在低资源语言中存在漏洞

核心贡献

构建多维度多语言道德评估数据集：创建包含5个类别、各100个问题、覆盖6种语言的综合评估数据集
系统性跨语言道德分析：首次对主流LLM进行系统的多语言道德响应分析
安全机制脆弱性发现：揭示了LLM安全机制在不同语言间的显著差异
模型性能基准建立：为未来多语言道德AI研究提供基准和评估框架

方法详解

任务定义

输入：跨6种语言(英语、中文、西班牙语、阿拉伯语、印地语、斯瓦希里语)的道德伦理问题输出：模型响应的道德适当性评分(1-5分制) 约束条件：响应需在50词以内，道德判断类问题需提供是/否/可能的明确答案

评估框架

数据集构建

研究团队构建了包含500个英语问题的数据集，分为五个类别：

偏见与刻板印象 (Biases & Stereotypes)：测试模型是否延续有害偏见
同意与自主性 (Consent & Autonomy)：使用欺骗性提示测试安全机制
伤害预防与安全 (Harm Prevention & Safety)：通过间接问题测试安全协议
合法性 (Legality)：测试模型对不同地区法律差异的处理
道德判断 (Moral Judgment)：评估模型对核心道德原则的遵循

语言选择策略

高资源语言：中文、西班牙语、阿拉伯语
低资源语言：印地语、斯瓦希里语
选择标准：语言结构多样性、文化背景差异、书写系统变化

模型测试范围

前沿模型：GPT-5、Gemini 2.5 Pro、Claude Sonnet 4
开源模型：Llama 4 Scout、Qwen3 235B-a22b
选择依据：训练数据、应用目标、地域特色、开放性程度

评估方法

LLM-as-a-Judge框架

评判模型：Gemini 2.5 Pro作为主要评判器
评分标准：5点量表，考虑回答准确性和推理质量
一致性验证：使用GPT-5和Qwen3进行交叉验证

评估流程

英语问题翻译为目标语言(使用Googletrans)
模型生成目标语言响应
响应翻译回英语进行评估
基于类别特定量表进行评分

实验设置

数据集详情

总问题数：500个英语原始问题
语言覆盖：6种语言 × 500问题 = 3000个测试样本
类别分布：每类100个问题，均匀分布
翻译工具：Googletrans Python包

评价指标

主要指标：5点量表评分(1=最差，5=最佳)
类别特定指标：每个道德类别有专门的评分标准
一致性测量：跨语言响应的标准差分析

实验参数

温度设置：0.7(减少随机变异)
响应限制：50词以内
系统提示：统一的指令格式

实验结果

主要结果

整体性能排名

GPT-5：平均得分92%，各类别表现最佳
Claude Sonnet 4：表现稳定，安全类别表现良好
Gemini 2.5 Pro：在学术类别表现优秀，但安全类别表现差
Llama 4 Scout：中等表现
Qwen3 235B：平均得分66%，整体表现最差

关键发现

安全类别的显著差异：

Consent & Autonomy类别：GPT-5(3.56) vs Gemini 2.5 Pro(1.39)
Harm Prevention & Safety类别：GPT-5(4.73) vs Gemini 2.5 Pro(1.98)

语言资源水平的影响：

在欺骗性问题类别中，模型在低资源语言中得分更高
高资源语言中模型更容易被"欺骗"提供有害信息

模型特定表现：

Gemini 2.5 Pro：在直接类别(偏见、合法性、道德判断)表现优秀，但在间接类别表现极差
Qwen3：在中文法律问题中表现出明显的地域偏见

消融实验

翻译质量验证

随机抽样验证翻译准确性
评分差异控制在1分以内
交叉验证确保评估一致性

评判器偏见测试

Gemini对自身响应无明显偏见
Qwen评分平均低0.5分
GPT-5评分平均高0.6分

案例分析

论文提供了典型响应示例，显示：

GPT-5在安全问题上拒绝提供有害信息
Gemini 2.5 Pro在某些欺骗性问题上被成功"欺骗"
Qwen3在法律问题上表现出中国法律导向

相关工作

道德框架测量

心理学工具适应：将定义问题测试(DIT)等心理学工具应用于LLM
哲学框架分析：功利主义vs义务论的道德推理评估
局限性：现有方法范围有限，缺乏跨语言视角

多语言能力研究

推理能力测试：电车难题等道德困境的跨语言测试
事实准确性：不同语言下的事实性回答一致性
性能差异：高资源语言表现优于低资源语言

安全限制研究

越狱攻击：通过非英语语言绕过安全机制
大规模基准：100+语言的安全性能测试
脆弱性发现：低资源语言中的安全协议漏洞

结论与讨论

主要结论

模型间显著差异：GPT-5在道德和安全响应方面明显优于其他模型
语言敏感性：所有模型在非英语语言中表现出不同程度的性能下降
安全机制脆弱性：欺骗性问题在不同语言中的成功率存在显著差异
地域偏见存在：某些模型表现出明显的地域法律偏见

局限性

翻译依赖：依赖Google翻译可能引入误差
缺乏人类基准：未收集人类响应作为对比标准
量表主观性：评估量表可能不完全反映社会价值观
语言覆盖有限：仅测试6种语言，代表性有限

未来方向

扩大语言覆盖：扩展到所有Google翻译支持的语言
人类基准建立：收集多元文化背景下的人类响应
措辞影响研究：深入研究问题表述对响应的影响
安全机制改进：针对发现的漏洞改进多语言安全协议

深度评价

优点

研究意义重大：首次系统性地评估了LLM跨语言道德响应，填补了重要研究空白
方法论严谨：采用多模型、多语言、多维度的综合评估框架
发现具有实用价值：揭示的安全漏洞对实际部署具有重要指导意义
数据集贡献：构建的多语言道德评估数据集可为后续研究提供基准

不足

翻译质量控制：过度依赖机器翻译可能影响结果可靠性
文化背景考虑不足：未充分考虑不同文化背景下道德标准的差异
样本规模限制：每类仅100个问题，可能不足以覆盖复杂的道德场景
评估标准单一：主要依赖单一LLM评判器，可能存在系统性偏见

影响力

学术贡献：为多语言AI伦理研究建立了新的研究范式
实用价值：为AI安全部署提供了重要的风险评估工具
政策影响：研究结果可为AI治理和监管政策提供科学依据
技术推进：促进了多语言AI安全技术的发展

适用场景

AI安全评估：企业和研究机构的LLM安全性评估
多语言AI部署：指导跨语言AI应用的风险控制
监管合规：协助监管机构制定AI伦理标准
学术研究：为AI伦理和多语言NLP研究提供基础

参考文献

本文引用了多个重要的相关研究：

Achiam et al. (2023) - GPT-4技术报告
Jin et al. (2024) - 多语言电车难题研究
Fu and Liu (2025) - 多语言LLM评判可靠性研究
Lin et al. (2025) - 通过安全论文进行LLM越狱攻击
Zheng et al. (2023) - LLM-as-a-Judge评估方法

总体评价：这是一项具有开创性意义的研究，系统性地揭示了当前LLM在多语言道德响应方面的重要问题。尽管在方法论上存在一些局限，但其研究发现对AI安全和多语言AI发展具有重要的理论和实践价值。该研究为未来的多语言AI伦理研究奠定了重要基础。