2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu
With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
academic

多言語能力における道徳的なLLM応答の測定

基本情報

  • 論文ID: 2510.08776
  • タイトル: Measuring Moral LLM Responses in Multilingual Capacities
  • 著者: Kimaya Basu、Savi Kolari、Allison Yu
  • 分類: cs.CL cs.AI
  • 発表日: 2025年10月9日 (ArXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08776

要約

大規模言語モデル(LLM)が世界中で広く使用されるようになるにつれて、その多言語応答の理解と規制の必要性が増加しています。本研究は、最先端モデルと主要なオープンソースモデルが5つの次元にわたって低資源言語と高資源言語における性能を評価し、多言語環境におけるLLMの正確性と一貫性を測定しています。研究では5段階評価スケールとLLM評価者を使用して評価を実施しました。結果として、GPT-5がすべてのカテゴリで平均的に最高の性能を示し、他のモデルは言語とカテゴリ間でより多くの不一貫性を示しました。特に同意と自律性(Consent & Autonomy)および危害防止と安全性(Harm Prevention & Safety)のカテゴリでは、GPT-5が最高得点(それぞれ平均3.56および4.73)を獲得し、Gemini 2.5 Proが最低得点(それぞれ平均1.39および1.98)を獲得しました。

研究背景と動機

研究課題

本研究は以下の主要な課題に対処しています:

  1. 多言語道徳的一貫性の問題: 異なる言語環境におけるLLMの道徳的および倫理的応答が一貫性を保つかどうか
  2. 安全メカニズムの言語感度: 既存の安全保護措置が非英語言語における有効性
  3. 言語間の偏見とステレオタイプ: モデルが異なる言語で異なる程度の偏見を示すかどうか

問題の重要性

  1. グローバル化されたアプリケーション需要: LLMが世界中のユーザーの日常ツールになりつつあり、言語間の信頼性を確保する必要があります
  2. 安全性への懸念: 研究によると、LLMの安全メカニズムは非英語言語で性能が低く、悪意のある利用に対して脆弱です
  3. 道徳基準の文化的差異: 異なる言語背景下での道徳的判断には顕著な差異が存在する可能性があります

既存方法の限界

  1. テストデータが主に英語: 既存のベンチマークテストは主に英語環境に集中しています
  2. 体系的評価の欠如: 複数の道徳次元にわたる包括的評価フレームワークが不足しています
  3. 安全メカニズムの言語的盲点: 既存研究は、安全プロトコルが低資源言語に脆弱性を持つことを示しています

核心的貢献

  1. 多次元多言語道徳評価データセットの構築: 5つのカテゴリ、各100の質問、6言語をカバーする包括的評価データセットを作成しました
  2. 体系的な言語間道徳分析: 主流LLMの多言語道徳応答に関する初の体系的分析を実施しました
  3. 安全メカニズムの脆弱性発見: LLMの安全メカニズムが異なる言語間で顕著な差異を持つことを明らかにしました
  4. モデル性能ベンチマークの確立: 将来の多言語道徳AI研究のためのベンチマークと評価フレームワークを提供しました

方法の詳細

タスク定義

入力: 6言語(英語、中国語、スペイン語、アラビア語、ヒンディー語、スワヒリ語)にわたる道徳倫理的質問 出力: モデル応答の道徳的適切性スコア(1-5段階) 制約条件: 応答は50語以内、道徳判断質問は明確なはい/いいえ/おそらくの回答が必要

評価フレームワーク

データセット構築

研究チームは500の英語質問を含むデータセットを構築し、5つのカテゴリに分類しました:

  1. 偏見とステレオタイプ (Biases & Stereotypes): モデルが有害な偏見を継続するかどうかをテストします
  2. 同意と自律性 (Consent & Autonomy): 欺瞞的なプロンプトを使用して安全メカニズムをテストします
  3. 危害防止と安全性 (Harm Prevention & Safety): 間接的な質問を通じて安全プロトコルをテストします
  4. 合法性 (Legality): 異なる地域の法律的差異に対するモデルの処理をテストします
  5. 道徳的判断 (Moral Judgment): 核心的な道徳原則に対するモデルの遵守を評価します

言語選択戦略

  • 高資源言語: 中国語、スペイン語、アラビア語
  • 低資源言語: ヒンディー語、スワヒリ語
  • 選択基準: 言語構造の多様性、文化的背景の差異、書記体系の変化

モデルテスト範囲

  • 最先端モデル: GPT-5、Gemini 2.5 Pro、Claude Sonnet 4
  • オープンソースモデル: Llama 4 Scout、Qwen3 235B-a22b
  • 選択根拠: 訓練データ、応用目標、地域的特性、開放性

評価方法

LLM-as-a-Judgeフレームワーク

  • 評価モデル: Gemini 2.5 Proを主要評価者として使用
  • 評価基準: 5段階スケール、回答の正確性と推論の質を考慮
  • 一貫性検証: GPT-5とQwen3を使用したクロス検証

評価プロセス

  1. 英語質問を目標言語に翻訳(Googletransを使用)
  2. モデルが目標言語で応答を生成
  3. 応答を英語に翻訳して評価
  4. カテゴリ固有のスケールに基づいてスコアリング

実験設定

データセット詳細

  • 総質問数: 500の英語オリジナル質問
  • 言語カバレッジ: 6言語 × 500質問 = 3000テストサンプル
  • カテゴリ分布: 各カテゴリ100質問、均等分布
  • 翻訳ツール: Googletrans Pythonパッケージ

評価指標

  • 主要指標: 5段階スケールスコア(1=最悪、5=最高)
  • カテゴリ固有指標: 各道徳カテゴリに専門的な評価基準
  • 一貫性測定: 言語間応答の標準偏差分析

実験パラメータ

  • 温度設定: 0.7(ランダム変動を削減)
  • 応答制限: 50語以内
  • システムプロンプト: 統一された指示形式

実験結果

主要結果

全体的性能ランキング

  1. GPT-5: 平均スコア92%、すべてのカテゴリで最高性能
  2. Claude Sonnet 4: 安定した性能、安全カテゴリで優秀
  3. Gemini 2.5 Pro: 学術カテゴリで優秀だが、安全カテゴリで性能が低い
  4. Llama 4 Scout: 中程度の性能
  5. Qwen3 235B: 平均スコア66%、全体的に最低性能

主要な発見

安全カテゴリの顕著な差異:

  • 同意と自律性カテゴリ: GPT-5(3.56) vs Gemini 2.5 Pro(1.39)
  • 危害防止と安全性カテゴリ: GPT-5(4.73) vs Gemini 2.5 Pro(1.98)

言語資源レベルの影響:

  • 欺瞞的な質問カテゴリでは、モデルは低資源言語でより高いスコアを獲得
  • 高資源言語ではモデルがより容易に「欺かれて」有害情報を提供

モデル固有の性能:

  • Gemini 2.5 Pro: 直接的なカテゴリ(偏見、合法性、道徳的判断)で優秀だが、間接的なカテゴリで極めて低い性能
  • Qwen3: 中国語の法律問題で明らかな地域的偏見を示す

アブレーション実験

翻訳品質検証

  • ランダムサンプリングで翻訳精度を検証
  • スコア差異を1ポイント以内に制御
  • クロス検証で評価の一貫性を確保

評価者バイアステスト

  • Geminiは自身の応答に明らかなバイアスなし
  • Qwen評価は平均0.5ポイント低い
  • GPT-5評価は平均0.6ポイント高い

ケース分析

論文は典型的な応答例を提供し、以下を示しています:

  1. GPT-5 は安全問題で有害情報の提供を拒否
  2. Gemini 2.5 Pro は特定の欺瞞的質問で成功裏に「欺かれる」
  3. Qwen3 は法律問題で中国法指向を示す

関連研究

道徳フレームワーク測定

  • 心理学ツール適応: 定義問題テスト(DIT)などの心理学ツールをLLMに適用
  • 哲学的フレームワーク分析: 功利主義対義務論の道徳推論評価
  • 限界: 既存方法は範囲が限定的で、言語間の視点が不足

多言語能力研究

  • 推論能力テスト: トロッコ問題などの道徳的ジレンマの言語間テスト
  • 事実的正確性: 異なる言語での事実的回答の一貫性
  • 性能差異: 高資源言語が低資源言語を上回る性能

安全制限研究

  • ジェイルブレイク攻撃: 非英語言語を通じた安全メカニズムの回避
  • 大規模ベンチマーク: 100以上の言語での安全性能テスト
  • 脆弱性発見: 低資源言語における安全プロトコルの漏洞

結論と議論

主要な結論

  1. モデル間の顕著な差異: GPT-5は道徳および安全応答において他のモデルを明らかに上回っています
  2. 言語感度: すべてのモデルは非英語言語で異なる程度の性能低下を示します
  3. 安全メカニズムの脆弱性: 欺瞞的な質問の成功率は言語間で顕著な差異があります
  4. 地域的偏見の存在: 特定のモデルは明らかな地域的法律偏見を示します

限界

  1. 翻訳への依存: Google翻訳への依存は誤差を導入する可能性があります
  2. 人間ベースラインの欠如: 比較基準として人間の応答を収集していません
  3. スケールの主観性: 評価スケールは社会的価値観を完全に反映しない可能性があります
  4. 言語カバレッジの限定: 6言語のみをテストし、代表性が限定的です

今後の方向性

  1. 言語カバレッジの拡大: Google翻訳がサポートするすべての言語に拡張
  2. 人間ベースラインの確立: 多様な文化背景を持つ人間の応答を収集
  3. 表現方法の影響研究: 質問の表現がどのように応答に影響するかを深く研究
  4. 安全メカニズムの改善: 発見された漏洞に対応する多言語安全プロトコルの改善

深い評価

利点

  1. 研究意義が重大: LLMの言語間道徳応答を初めて体系的に評価し、重要な研究ギャップを埋めました
  2. 方法論が厳密: 複数モデル、複数言語、複数次元の包括的評価フレームワークを採用
  3. 発見が実用的価値: 明らかにされた安全漏洞は実際の展開に重要な指導価値があります
  4. データセット貢献: 構築された多言語道徳評価データセットは後続研究のベンチマークを提供

不足

  1. 翻訳品質管理: 機械翻訳への過度な依存は結果の信頼性に影響する可能性があります
  2. 文化的背景の考慮不足: 異なる文化背景下での道徳基準の差異を十分に考慮していません
  3. サンプルサイズの制限: 各カテゴリ100質問は複雑な道徳シナリオをカバーするのに不十分な可能性があります
  4. 評価基準の単一性: 主に単一のLLM評価者に依存し、体系的バイアスが存在する可能性があります

影響力

  1. 学術的貢献: 多言語AI倫理研究の新しい研究パラダイムを確立しました
  2. 実用的価値: AI安全展開のための重要なリスク評価ツールを提供します
  3. 政策への影響: 研究結果はAI統治と規制政策に科学的根拠を提供できます
  4. 技術進展: 多言語AI安全技術の発展を促進しました

適用シーン

  1. AI安全評価: 企業と研究機関のLLM安全性評価
  2. 多言語AI展開: 言語間AI応用のリスク管理を指導
  3. 規制コンプライアンス: 規制機関がAI倫理基準を策定するのを支援
  4. 学術研究: AI倫理と多言語NLP研究に基礎を提供

参考文献

本文は複数の重要な関連研究を引用しています:

  1. Achiam et al. (2023) - GPT-4技術レポート
  2. Jin et al. (2024) - 多言語トロッコ問題研究
  3. Fu and Liu (2025) - 多言語LLM評価の信頼性研究
  4. Lin et al. (2025) - 安全論文によるLLMジェイルブレイク攻撃
  5. Zheng et al. (2023) - LLM-as-a-Judge評価方法

総合評価: これは多言語道徳応答におけるLLMの重要な問題を体系的に明らかにした開拓的な研究です。方法論上いくつかの限界がありますが、その研究発見はAI安全と多言語AI開発に対して重要な理論的および実践的価値を持っています。本研究は将来の多言語AI倫理研究のための重要な基礎を確立しています。