Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
대형 언어 모델(LLM)의 능력이 향상됨에 따라 악의적 요청의 위험도 증가하고 있으며, 이러한 쿼리를 감지하기 위한 효과적인 LLM 안전장치의 필요성이 대두되고 있습니다. 기존 방법은 주로 해석 가능성이 부족하고 저자원 언어에서 성능이 저하되는 분류기 방식에 의존합니다. 이러한 한계를 해결하기 위해 본 논문은 ConsistentGuard를 제안합니다. 이는 추론을 통해 해석 가능성을 강화하고 정렬을 통해 언어 간 지식 이전을 촉진하는 새로운 추론 기반 다국어 안전장치 시스템입니다. 단 1,000개의 훈련 샘플만 사용하여 이 방법은 세 개의 데이터셋에서 여섯 개 언어에 걸쳐 우수한 성능을 보여주며, 대량의 데이터로 훈련된 더 큰 모델을 능가하고 강력한 해석 가능성과 일반화 능력을 나타냅니다.
LLM 안전장치: Llama Guard, ShieldGemma, GuardReasoner 등
추론 강화 방법: 사고의 연쇄, 자기 개선, 대립적 논쟁 등
언어 간 방법: 다국어 사전 훈련, 지시 미세 조정, 직접 선호도 최적화 등
평가 벤치마크: OpenAI Moderation, ToxicChat, SimpleSafetyTests 등
종합 평가: 이는 다국어 AI 안전이라는 중요하고 도전적인 문제에 대해 혁신적인 솔루션을 제시하는 고품질 연구 논문입니다. 방법 설계가 합리적이고 실험 검증이 충분하며 중요한 학술 가치와 실용 가치를 갖고 있습니다. 일부 한계가 있지만 해당 분야의 발전에 중요한 기여를 하고 있습니다.