Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic 論文ID : 2510.10677タイトル : Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data著者 : Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang分類 : cs.CL (計算言語学)発表日 : 2025年10月12日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.10677 大規模言語モデル(LLM)の能力向上に伴い、悪意のあるリクエストのリスクも増加しており、そのようなクエリを検出するための効果的なLLMセーフガード検出の必要性が強調されています。既存の方法は主に解釈可能性に欠け、低リソース言語でのパフォーマンスが低い分類器ベースのアプローチに依存しています。これらの制限に対処するため、本論文はConsistentGuardを提案します。これは推論ベースの多言語セーフガードシステムであり、推論を通じて解釈可能性を強化し、アライメントを通じて言語間の知識転移を促進します。わずか1,000個のトレーニングサンプルを使用して、本手法は3つのデータセットの6言語で優れたパフォーマンスを示し、大量のデータで訓練されたより大きなモデルを上回り、強力な解釈可能性と汎化能力を示しています。
中核的問題 :既存のLLMセーフガード方法は低リソース言語でのパフォーマンスが大幅に低下し、解釈可能性に欠けている重要性 :LLMアプリケーションの普及に伴い、多言語環境でのセーフガード需要が急速に増加している既存方法の制限 :
分類器ベースの方法は解釈可能性と証拠サポートに欠ける 低リソース言語(ベンガル語など)でのパフォーマンスが大幅に低下 言語間推論の一貫性の問題を無視している 研究動機 :推論能力を備え、多言語間で一貫性を保つセーフガードフレームワークの構築ConsistentGuardフレームワークの提案 :推論ベースの多言語セーフガード訓練フレームワークで、解釈可能性、有効性、言語間汎化能力を強化CAOアルゴリズムの設計 :制約付きアライメント最適化(Constrained Alignment Optimization)を提案し、言語間推論の不一貫性を解決データ効率的な訓練の実現 :わずか1,000個のトレーニングサンプルで3つのデータセットの6言語で優れたパフォーマンスを達成多言語ベンチマークの構築 :既存の英語セーフガードベンチマークを6言語に拡張し、コードとデータをオープンソース化入力 :ユーザークエリテキスト(複数言語)
出力 :安全性判定(有害/無害) + 推論プロセス + 違反カテゴリ
制約 :言語間推論の一貫性を維持し、判定根拠の解釈可能な説明を提供
ConsistentGuardは3段階の訓練フレームワークを採用しています:
目標 :教師あり微調整(SFT)を通じた知識蒸留方法 :DeepSeek V3 671Bを教師モデルとして使用し、3段階推論を含むトレーニングデータを生成:
理解:会話内容の理解 ルールマッチング:関連する判定原則のマッチング 判定:原則違反の有無の分析 データ構築 :4つの英語セーフガードデータセットから1,000個のサンプルをランダムサンプリングアルゴリズム :グループ相対ポリシー最適化(GRPO)を採用報酬関数の設計 :r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]
ここでLは推論長、Lbestは最適長(512に設定)、pは3元組の繰り返し率
報酬の構成 :
正確性報酬:判定の正確性 フォーマット報酬:出力フォーマットの規範性 長さ報酬:推論長の安定性制御 多様性報酬:長さ報酬の悪用防止 アルゴリズム :制約付きアライメント最適化(CAO)データ構築 :
英語データを5言語に翻訳 失敗セットと成功セットを構築 アライメントサンプルの合成:失敗入力+成功出力+アンカーサンプル 最適化目標 :LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc
二重報酬メカニズム :推論長と多様性のバランスを巧妙に取り、推論の過度な長さによる効率低下を回避制約付きアライメント最適化 :グローバル正則化項を通じて最適化方向を制約し、高リソース言語のパフォーマンス低下を防止3段階の段階的訓練 :知識蒸留から推論強化を経て言語間アライメントへの体系的なアプローチデータ効率的な設計 :わずか1,000サンプルで大規模訓練モデルと同等のパフォーマンスを実現訓練データ :4つのオープンソースセーフガードデータセットを混合し、1,000個のサンプルをランダムサンプリング
Aegis、BeaverTails、ToxicChat、WildGuard 評価データセット :3つの広く使用されているセーフガードベンチマーク
OpenAI Moderation ToxicChat SimpleSafetyTests 言語カバレッジ :英語、フランス語、中国語、日本語、ベンガル語、ヒンディー語主要指標 :マクロ平均F1スコア補助分析 :解釈可能性評価、言語間一貫性分析Llama Guard 3 (1B/8B) ShieldGemma (2B/9B) GuardReasoner (3B) 基盤モデル :Qwen2.5-3Bハードウェア環境 :2台のNVIDIA A100 40G最適推論長 :512トークン訓練サンプル :わずか1,000個の英語サンプルOpenAI Moderationデータセット上:
英語 :78.94 (第2位、Llama Guard 3 8Bの79.69に次ぐ)低リソース言語のパフォーマンス :
ベンガル語:72.10 (複数のベースラインを上回る) ヒンディー語:73.26 (優れたパフォーマンス) ToxicChatデータセット上:
英語 :84.26 (GuardReasonerと同等)言語間の安定性 :言語間のパフォーマンス差が比較的小さいSFTベースライン vs 推論訓練:推論訓練はすべての言語で大幅な改善をもたらす 二重報酬メカニズムの有効性:R1-GRPOは標準GRPOと比較してパフォーマンスが向上 CAO vs DPO:CAOはほとんどの言語でパフォーマンス改善をもたらし、DPOの効果は不安定 CAOは低リソース言語での改善がより顕著 データ効率 :わずか1,000サンプルで127,600サンプルで訓練されたモデルと同等のパフォーマンスを達成言語間汎化 :推論訓練は言語間汎化能力を大幅に向上アライメント効果 :CAOは言語間のパフォーマンス差を効果的に縮小、特に低リソース言語で顕著解釈可能性 :モデルは詳細な推論プロセスを提供し、違反理由と関連ルールを説明既存方法は主に分類器ベース(Llama Guard、ShieldGemma) 解釈可能性と言語間能力に欠ける 本論文は多言語セーフガード問題を初めて体系的に解決 CoT、自己改善などの方法に基づいて構築 セーフガードタスク用に推論長と多様性を最適化 推論深度と応答遅延のトレードオフのバランス 既存研究は主にQAタスクの言語間アライメントに焦点 本論文は初めて言語間アライメントをセーフガードに適用 高リソース言語のパフォーマンス低下を回避する制約最適化を提案 推論強化の多言語セーフガードフレームワークはパフォーマンスと解釈可能性を大幅に向上 制約付きアライメント最適化は言語間推論の不一貫性を効果的に解決 データ効率的な訓練戦略はリソース制約シナリオで重要な価値を持つ 体系的な3段階訓練フレームワークは多言語AI安全に新しいパラダイムを提供 言語カバレッジの限定 :6言語のみで検証、他の低リソース言語への汎化性は未検証モデルスケールの制限 :3Bパラメータモデルのみで検証、大規模モデルの効果は未知訓練データスケール :1,000サンプルは比較的小規模、より大規模データの効果は未検証評価次元 :主に分類精度に焦点、人間の好みなどの包括的評価に欠ける説明品質 :推論説明の品質評価が困難、標準答案がないより多くの低リソース言語と言語族への拡張 より大規模なモデルでの方法の有効性検証 推論説明品質の自動評価方法の開発 長文本と対話シナリオでのセーフガードの探索 問題への対応性が強い :既存方法の低リソース言語での核心的な痛点に直撃方法の革新性が高い :
多言語セーフガード問題を初めて体系的に解決 制約付きアライメント最適化アルゴリズムの設計が巧妙 二重報酬メカニズムが複数の目標をバランス 実験設計が充分 :
複数データセット・複数言語での検証 詳細なアブレーション実験 複数の強力なベースラインとの比較 実用価値が高い :データ効率的で展開が容易オープンソース貢献 :コードと拡張ベンチマークを提供理論分析が不足 :方法の有効性に対する理論的説明に欠ける評価の制限 :
言語カバレッジが比較的限定的 説明品質の定量的評価に欠ける 文化的差異が安全基準に与える影響を考慮していない 方法の複雑性 :3段階訓練が実装複雑性を増加ベンチマーク構築 :機械翻訳が意味的偏差を導入する可能性学術的貢献 :多言語AI安全に新しい研究方向を開拓実用価値 :グローバル化したAIアプリケーションにセーフガード解決策を提供再現性 :オープンソースコードとデータが後続研究をサポート啓発性 :推論+アライメントのフレームワークは他の多言語タスクに拡張可能多言語AIサービス :グローバル対話システムとコンテンツ生成プラットフォームリソース制約環境 :小規模モデル展開シナリオ安全要件が高いアプリケーション :解釈可能なセーフガードが必要なシステム言語間一貫性要件 :統一された安全基準が必要な多言語プラットフォーム論文は大量の関連研究を引用しており、主に以下を含みます:
LLMセーフガード:Llama Guard、ShieldGemma、GuardReasonerなど 推論強化方法:Chain-of-Thought、自己改善、対抗的議論など 言語間方法:多言語事前訓練、指示調整、直接選好最適化など 評価ベンチマーク:OpenAI Moderation、ToxicChat、SimpleSafetyTestsなど 総合評価 :これは高品質の研究論文であり、多言語AI安全という重要かつ課題的な問題に対して革新的なソリューションを提案しています。方法設計は合理的で、実験検証は充分であり、重要な学術的価値と実用的価値を持っています。いくつかの制限事項がありますが、この分野の発展に重要な貢献をしています。