2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.

Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.

academic

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

基本信息

论文ID: 2510.10677
标题: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
作者: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月12日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10677

摘要

随着大型语言模型(LLM)能力的提升，恶意请求的风险也随之增加，突出了有效LLM安全防护检测此类查询的需求。现有方法主要依赖于缺乏可解释性且在低资源语言上表现不佳的分类器方法。为解决这些局限性，本文提出了ConsistentGuard，一个新颖的基于推理的多语言安全防护系统，通过推理增强可解释性，并通过对齐促进语言间的知识迁移。仅使用1,000个训练样本，该方法在三个数据集的六种语言上展现出卓越性能，超越了使用大量数据训练的更大模型，并表现出强大的可解释性和泛化能力。

研究背景与动机

问题定义

核心问题：现有LLM安全防护方法在低资源语言上性能显著下降，且缺乏可解释性
重要性：随着LLM应用的普及，对多语言环境下的安全防护需求日益迫切
现有方法局限性：
- 基于分类器的方法缺乏可解释性和证据支持
- 在低资源语言(如孟加拉语)上性能大幅下降
- 忽视了跨语言推理一致性问题
研究动机：构建一个既具备推理能力又能在多语言间保持一致性的安全防护框架

核心贡献

提出ConsistentGuard框架：基于推理的多语言安全防护训练框架，增强可解释性、有效性和跨语言泛化能力
设计CAO算法：提出约束对齐优化(Constrained Alignment Optimization)，解决跨语言推理不一致问题
实现数据高效训练：仅用1,000个训练样本在三个数据集六种语言上取得优异性能
构建多语言基准：扩展现有英语安全基准到六种语言，并开源代码和数据

方法详解

任务定义

输入：用户查询文本(多种语言) 输出：安全性判断(有害/无害) + 推理过程 + 违规类别约束：保持跨语言推理一致性，提供可解释的判断依据

模型架构

ConsistentGuard采用三阶段训练框架：

1. 冷启动阶段(Cold Start)

目标：通过监督微调(SFT)进行知识蒸馏
方法：使用DeepSeek V3 671B作为教师模型，生成包含三步推理的训练数据：
- 理解：理解对话内容
- 规则匹配：匹配相关判断原则
- 判断：分析是否违反原则
数据构建：从四个英语安全数据集中随机采样1,000个样本

2. 推理训练阶段(Reasoning Training)

算法：采用群体相对策略优化(GRPO)
奖励函数设计：

r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

其中L为推理长度，Lbest为最优长度(设为512)，p为三元组重复率

奖励组成：
- 准确性奖励：判断正确性
- 格式奖励：输出格式规范性
- 长度奖励：控制推理长度稳定
- 多样性奖励：防止长度奖励被利用

3. 跨语言对齐阶段(Cross-lingual Alignment)

算法：约束对齐优化(CAO)
数据构建：
- 将英语数据翻译为5种语言
- 构建失败集和成功集
- 合成对齐样本：失败输入+成功输出+锚点样本
优化目标：

LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

技术创新点

双重奖励机制：巧妙平衡推理长度和多样性，避免推理过长影响效率
约束对齐优化：通过全局正则化项约束优化方向，防止高资源语言性能退化
三阶段渐进训练：从知识蒸馏到推理增强再到跨语言对齐的系统性方法
数据高效设计：仅用1,000样本实现与大规模训练模型相当的性能

实验设置

数据集

训练数据：混合四个开源安全数据集，随机采样1,000个样本
- Aegis, BeaverTails, ToxicChat, WildGuard
评估数据集：三个广泛使用的安全基准
- OpenAI Moderation
- ToxicChat
- SimpleSafetyTests
语言覆盖：英语、法语、中文、日语、孟加拉语、印地语

评价指标

主要指标：宏平均F1分数
辅助分析：可解释性评估、跨语言一致性分析

对比方法

Llama Guard 3 (1B/8B)
ShieldGemma (2B/9B)
GuardReasoner (3B)

实现细节

基础模型：Qwen2.5-3B
硬件环境：两块NVIDIA A100 40G
最优推理长度：512 tokens
训练样本：仅1,000个英语样本

实验结果

主要结果

在OpenAI Moderation数据集上：

英语：78.94 (第二名，仅次于Llama Guard 3 8B的79.69)
低资源语言表现：
- 孟加拉语：72.10 (超越多个基线)
- 印地语：73.26 (表现优异)

在ToxicChat数据集上：

英语：84.26 (与GuardReasoner相当)
跨语言稳定性：各语言间性能差距较小

消融实验

推理训练消融

SFT基线 vs 推理训练：推理训练在所有语言上都带来显著提升
双重奖励机制有效性：R1-GRPO相比标准GRPO性能更优

对齐方法消融

CAO vs DPO：CAO在大多数语言上带来性能提升，而DPO效果不稳定
CAO在低资源语言上的提升更为明显

关键发现

数据效率：仅用1,000样本达到与使用127,600样本训练的模型相当性能
跨语言泛化：推理训练显著提升跨语言泛化能力
对齐效果：CAO有效缩小语言间性能差距，特别是低资源语言
可解释性：模型提供详细推理过程，说明违规原因和相关规则

结论与讨论

主要结论

推理增强的多语言安全防护框架显著提升性能和可解释性
约束对齐优化有效解决跨语言推理不一致问题
数据高效的训练策略在资源受限场景下具有重要价值
系统性的三阶段训练框架为多语言AI安全提供新范式

局限性

语言覆盖有限：仅验证6种语言，其他低资源语言泛化性待验证
模型规模限制：仅在3B参数模型上验证，大模型效果未知
训练数据规模：1,000样本相对较小，更大规模数据的效果待探索
评估维度：主要关注分类准确性，缺乏人类偏好等综合评估
解释质量：难以评估推理解释的质量，缺乏标准答案

未来方向

扩展到更多低资源语言和语言家族
在更大规模模型上验证方法有效性
开发推理解释质量的自动评估方法
探索长文本和对话场景下的安全防护

深度评价

优点

问题针对性强：直击现有方法在低资源语言上的核心痛点
方法创新性高：
- 首次系统性解决多语言安全防护问题
- 约束对齐优化算法设计巧妙
- 双重奖励机制平衡多个目标
实验设计充分：
- 多数据集多语言验证
- 详细的消融实验
- 与多个强基线对比
实用价值高：数据高效，易于部署
开源贡献：提供代码和扩展基准

不足

理论分析不足：缺乏对方法有效性的理论解释
评估局限性：
- 语言覆盖相对有限
- 缺乏解释质量的定量评估
- 未考虑文化差异对安全标准的影响
方法复杂度：三阶段训练增加了实现复杂度
基准构建：机器翻译可能引入语义偏差

影响力

学术贡献：为多语言AI安全开辟新研究方向
实用价值：为全球化AI应用提供安全防护解决方案
可复现性：开源代码和数据支持后续研究
启发性：推理+对齐的框架可扩展到其他多语言任务

适用场景

多语言AI服务：全球化的对话系统和内容生成平台
资源受限环境：小模型部署场景
安全要求高的应用：需要可解释安全防护的系统
跨语言一致性要求：需要统一安全标准的多语言平台

参考文献

论文引用了大量相关工作，主要包括：

LLM安全防护：Llama Guard, ShieldGemma, GuardReasoner等
推理增强方法：Chain-of-Thought, 自我改进, 对抗辩论等
跨语言方法：多语言预训练, 指令调优, 直接偏好优化等
评估基准：OpenAI Moderation, ToxicChat, SimpleSafetyTests等

总体评价：这是一篇高质量的研究论文，针对多语言AI安全这一重要且具有挑战性的问题提出了创新性解决方案。方法设计合理，实验验证充分，具有重要的学术价值和实用价值。尽管存在一些局限性，但为该领域的发展做出了重要贡献。

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

基本信息

摘要

研究背景与动机

问题定义

核心贡献

方法详解

任务定义

模型架构

1. 冷启动阶段(Cold Start)

2. 推理训练阶段(Reasoning Training)

3. 跨语言对齐阶段(Cross-lingual Alignment)

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

消融实验

推理训练消融

对齐方法消融

关键发现

相关工作

LLM安全防护

推理增强训练

跨语言知识泛化

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献