2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.

Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.

academic

Déverrouiller les Garde-fous des LLM pour les Langues à Faibles Ressources via le Raisonnement et l'Alignement avec des Données d'Entraînement Minimales

Informations Fondamentales

ID de l'article : 2510.10677
Titre : Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Auteurs : Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
Classification : cs.CL (Linguistique Informatique)
Date de publication : 12 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10677

Résumé

Avec l'amélioration des capacités des grands modèles de langage (LLM), les risques de requêtes malveillantes augmentent également, soulignant le besoin de mécanismes de protection efficaces des LLM pour détecter ces requêtes. Les méthodes existantes reposent principalement sur des approches de classification manquant d'interprétabilité et performant mal sur les langues à faibles ressources. Pour résoudre ces limitations, cet article propose ConsistentGuard, un nouveau système de protection multilingue basé sur le raisonnement, améliorant l'interprétabilité par le raisonnement et facilitant le transfert de connaissances entre langues par l'alignement. Utilisant seulement 1 000 échantillons d'entraînement, cette méthode démontre des performances exceptionnelles sur six langues à travers trois ensembles de données, surpassant les modèles plus grands entraînés avec des quantités de données considérables, et exhibe une forte interprétabilité et capacité de généralisation.

Contexte de Recherche et Motivation

Définition du Problème

Problème central : Les méthodes existantes de protection des LLM montrent une dégradation significative des performances sur les langues à faibles ressources et manquent d'interprétabilité
Importance : Avec la prolifération des applications LLM, le besoin de protection multilingue devient de plus en plus urgent
Limitations des méthodes existantes :
- Les approches basées sur des classificateurs manquent d'interprétabilité et de justification probante
- Les performances diminuent considérablement sur les langues à faibles ressources (comme le bengali)
- Négligence de la cohérence du raisonnement transfrontalier
Motivation de la recherche : Construire un cadre de protection possédant à la fois des capacités de raisonnement et une cohérence maintenue entre les langues

Contributions Principales

Proposition du cadre ConsistentGuard : Cadre d'entraînement de protection multilingue basé sur le raisonnement, améliorant l'interprétabilité, l'efficacité et la capacité de généralisation transfrontalière
Conception de l'algorithme CAO : Proposition de l'Optimisation d'Alignement Contraint (Constrained Alignment Optimization) pour résoudre les problèmes d'incohérence du raisonnement transfrontalier
Réalisation d'un entraînement efficace en données : Obtention de performances exceptionnelles sur six langues à travers trois ensembles de données en utilisant seulement 1 000 échantillons d'entraînement
Construction d'un repère multilingue : Extension des repères de sécurité anglais existants à six langues, avec publication du code et des données

Détails de la Méthode

Définition de la Tâche

Entrée : Texte de requête utilisateur (multilingue) Sortie : Jugement de sécurité (nuisible/inoffensif) + processus de raisonnement + catégorie de violation Contraintes : Maintenir la cohérence du raisonnement transfrontalier, fournir des justifications interprétables

Architecture du Modèle

ConsistentGuard adopte un cadre d'entraînement en trois étapes :

1. Phase de Démarrage à Froid (Cold Start)

Objectif : Distillation de connaissances via l'ajustement fin supervisé (SFT)
Méthode : Utilisation de DeepSeek V3 671B comme modèle enseignant, générant des données d'entraînement contenant un raisonnement en trois étapes :
- Compréhension : Comprendre le contenu de la conversation
- Correspondance de règles : Correspondre les principes de jugement pertinents
- Jugement : Analyser si les principes sont violés
Construction des données : Échantillonnage aléatoire de 1 000 échantillons à partir de quatre ensembles de données de sécurité anglais

2. Phase d'Entraînement au Raisonnement (Reasoning Training)

Algorithme : Optimisation de Politique Relative de Groupe (GRPO)
Conception de la fonction de récompense :

r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

où L est la longueur du raisonnement, Lbest est la longueur optimale (fixée à 512), et p est le taux de répétition des triplets

Composition de la récompense :
- Récompense de précision : Exactitude du jugement
- Récompense de format : Conformité du format de sortie
- Récompense de longueur : Contrôle de la stabilité de la longueur du raisonnement
- Récompense de diversité : Prévention de l'exploitation de la récompense de longueur

3. Phase d'Alignement Transfrontalier (Cross-lingual Alignment)

Algorithme : Optimisation d'Alignement Contraint (CAO)
Construction des données :
- Traduction des données anglaises en 5 langues
- Construction d'ensembles d'échecs et de succès
- Synthèse d'échantillons d'alignement : entrée d'échec + sortie de succès + échantillon d'ancrage
Objectif d'optimisation :

LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

Points d'Innovation Technique

Mécanisme de double récompense : Équilibre astucieux entre la longueur du raisonnement et la diversité, évitant que le raisonnement trop long n'affecte l'efficacité
Optimisation d'alignement contraint : Contrainte de la direction d'optimisation via un terme de régularisation globale, prévenant la dégradation des performances des langues à ressources élevées
Entraînement progressif en trois étapes : Approche systématique allant de la distillation de connaissances à l'amélioration du raisonnement jusqu'à l'alignement transfrontalier
Conception efficace en données : Réalisation de performances comparables aux modèles entraînés à grande échelle en utilisant seulement 1 000 échantillons

Configuration Expérimentale

Ensembles de Données

Données d'entraînement : Fusion de quatre ensembles de données de sécurité en source ouverte, échantillonnage aléatoire de 1 000 échantillons
- Aegis, BeaverTails, ToxicChat, WildGuard
Ensembles de données d'évaluation : Trois repères de sécurité largement utilisés
- OpenAI Moderation
- ToxicChat
- SimpleSafetyTests
Couverture linguistique : Anglais, français, chinois, japonais, bengali, hindi

Métriques d'Évaluation

Métrique principale : Score F1 macro-moyenné
Analyse auxiliaire : Évaluation de l'interprétabilité, analyse de la cohérence transfrontalière

Méthodes de Comparaison

Llama Guard 3 (1B/8B)
ShieldGemma (2B/9B)
GuardReasoner (3B)

Détails d'Implémentation

Modèle de base : Qwen2.5-3B
Environnement matériel : Deux GPU NVIDIA A100 40G
Longueur de raisonnement optimale : 512 tokens
Échantillons d'entraînement : Seulement 1 000 échantillons anglais

Résultats Expérimentaux

Résultats Principaux

Sur l'ensemble de données OpenAI Moderation :

Anglais : 78,94 (deuxième place, juste derrière Llama Guard 3 8B avec 79,69)
Performance des langues à faibles ressources :
- Bengali : 72,10 (surpassant plusieurs lignes de base)
- Hindi : 73,26 (performance exceptionnelle)

Sur l'ensemble de données ToxicChat :

Anglais : 84,26 (comparable à GuardReasoner)
Stabilité transfrontalière : Écart de performance réduit entre les langues

Expériences d'Ablation

Ablation de l'Entraînement au Raisonnement

Ligne de base SFT vs entraînement au raisonnement : L'entraînement au raisonnement apporte des améliorations significatives dans toutes les langues
Efficacité du mécanisme de double récompense : R1-GRPO surpasse le GRPO standard

Ablation de la Méthode d'Alignement

CAO vs DPO : CAO apporte des améliorations de performance dans la plupart des langues, tandis que DPO est instable
L'amélioration de CAO est plus prononcée sur les langues à faibles ressources

Découvertes Clés

Efficacité des données : Atteinte de performances comparables aux modèles entraînés avec 127 600 échantillons en utilisant seulement 1 000 échantillons
Généralisation transfrontalière : L'entraînement au raisonnement améliore significativement la capacité de généralisation transfrontalière
Effet d'alignement : CAO réduit efficacement l'écart de performance entre les langues, particulièrement pour les langues à faibles ressources
Interprétabilité : Le modèle fournit un processus de raisonnement détaillé, expliquant les raisons des violations et les règles pertinentes

Travaux Connexes

Protection des LLM

Les méthodes existantes reposent principalement sur des classificateurs (Llama Guard, ShieldGemma)
Manquent d'interprétabilité et de capacités transfrontalières
Cet article résout systématiquement pour la première fois le problème de la protection multilingue

Entraînement Amélioré par le Raisonnement

Construit sur les bases de CoT, auto-amélioration et autres méthodes
Optimisation de la longueur et de la diversité du raisonnement pour les tâches de sécurité
Équilibre entre la profondeur du raisonnement et la latence de réponse

Généralisation Transfrontalière des Connaissances

Les recherches existantes se concentrent principalement sur l'alignement transfrontalier pour les tâches d'assurance qualité
Cet article applique pour la première fois l'alignement transfrontalier à la protection de la sécurité
Propose une optimisation contrainte pour éviter la dégradation des performances des langues à ressources élevées

Conclusion et Discussion

Conclusions Principales

Le cadre de protection multilingue amélioré par le raisonnement améliore significativement les performances et l'interprétabilité
L'optimisation d'alignement contraint résout efficacement les problèmes d'incohérence du raisonnement transfrontalier
La stratégie d'entraînement efficace en données a une valeur importante dans les scénarios à ressources limitées
Le cadre d'entraînement systématique en trois étapes fournit un nouveau paradigme pour la sécurité de l'IA multilingue

Limitations

Couverture linguistique limitée : Validation sur seulement 6 langues, la généralisation à d'autres langues à faibles ressources reste à vérifier
Limitation de la taille du modèle : Validation uniquement sur des modèles de 3B paramètres, les effets sur les grands modèles restent inconnus
Échelle des données d'entraînement : 1 000 échantillons sont relativement peu nombreux, les effets avec des données plus volumineuses restent à explorer
Dimensions d'évaluation : Accent principal sur la précision de la classification, manque d'évaluations globales telles que les préférences humaines
Qualité des explications : Difficile d'évaluer la qualité des explications de raisonnement, absence de réponses standard

Directions Futures

Extension à plus de langues à faibles ressources et familles linguistiques
Validation de l'efficacité de la méthode sur des modèles de plus grande taille
Développement de méthodes d'évaluation automatique de la qualité des explications de raisonnement
Exploration de la protection de la sécurité dans les scénarios de texte long et de conversation

Évaluation Approfondie

Avantages

Forte pertinence du problème : Aborde directement les points faibles des méthodes existantes sur les langues à faibles ressources
Haute innovativité de la méthode :
- Première résolution systématique du problème de protection multilingue
- Conception ingénieuse de l'algorithme d'optimisation d'alignement contraint
- Mécanisme de double récompense équilibrant plusieurs objectifs
Conception expérimentale complète :
- Validation multi-ensembles de données et multilingue
- Expériences d'ablation détaillées
- Comparaison avec plusieurs lignes de base fortes
Haute valeur pratique : Efficace en données, facile à déployer
Contribution en source ouverte : Fourniture de code et de repères étendus

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique de l'efficacité de la méthode
Limitations d'évaluation :
- Couverture linguistique relativement limitée
- Manque d'évaluation quantitative de la qualité des explications
- Absence de considération des différences culturelles sur les normes de sécurité
Complexité de la méthode : L'entraînement en trois étapes augmente la complexité d'implémentation
Construction de repères : La traduction automatique peut introduire des écarts sémantiques

Impact

Contribution académique : Ouvre une nouvelle direction de recherche pour la sécurité de l'IA multilingue
Valeur pratique : Fournit une solution de protection de la sécurité pour les applications d'IA mondialisées
Reproductibilité : Le code et les données en source ouverte soutiennent les recherches ultérieures
Caractère inspirant : Le cadre raisonnement + alignement peut s'étendre à d'autres tâches multilingues

Scénarios d'Application

Services d'IA multilingues : Systèmes de conversation mondialisés et plateformes de génération de contenu
Environnements à ressources limitées : Scénarios de déploiement de petits modèles
Applications à exigences de sécurité élevées : Systèmes nécessitant une protection de sécurité interprétable
Exigences de cohérence transfrontalière : Plateformes multilingues nécessitant des normes de sécurité uniformes

Références

L'article cite de nombreux travaux connexes, incluant principalement :

Protection des LLM : Llama Guard, ShieldGemma, GuardReasoner, etc.
Méthodes améliorées par le raisonnement : Chain-of-Thought, auto-amélioration, débat contradictoire, etc.
Méthodes transfrontalières : Préentraînement multilingue, ajustement fin d'instructions, optimisation directe des préférences, etc.
Repères d'évaluation : OpenAI Moderation, ToxicChat, SimpleSafetyTests, etc.

Évaluation Globale : Ceci est un article de recherche de haute qualité qui propose une solution innovante à un problème important et difficile de sécurité de l'IA multilingue. La conception de la méthode est raisonnable, la vérification expérimentale est complète, et elle possède une valeur académique et pratique importante. Bien que présentant certaines limitations, elle apporte une contribution significative au développement de ce domaine.