Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic
Déverrouiller les Garde-fous des LLM pour les Langues à Faibles Ressources via le Raisonnement et l'Alignement avec des Données d'Entraînement Minimales
Avec l'amélioration des capacités des grands modèles de langage (LLM), les risques de requêtes malveillantes augmentent également, soulignant le besoin de mécanismes de protection efficaces des LLM pour détecter ces requêtes. Les méthodes existantes reposent principalement sur des approches de classification manquant d'interprétabilité et performant mal sur les langues à faibles ressources. Pour résoudre ces limitations, cet article propose ConsistentGuard, un nouveau système de protection multilingue basé sur le raisonnement, améliorant l'interprétabilité par le raisonnement et facilitant le transfert de connaissances entre langues par l'alignement. Utilisant seulement 1 000 échantillons d'entraînement, cette méthode démontre des performances exceptionnelles sur six langues à travers trois ensembles de données, surpassant les modèles plus grands entraînés avec des quantités de données considérables, et exhibe une forte interprétabilité et capacité de généralisation.
Problème central : Les méthodes existantes de protection des LLM montrent une dégradation significative des performances sur les langues à faibles ressources et manquent d'interprétabilité
Importance : Avec la prolifération des applications LLM, le besoin de protection multilingue devient de plus en plus urgent
Limitations des méthodes existantes :
Les approches basées sur des classificateurs manquent d'interprétabilité et de justification probante
Les performances diminuent considérablement sur les langues à faibles ressources (comme le bengali)
Négligence de la cohérence du raisonnement transfrontalier
Motivation de la recherche : Construire un cadre de protection possédant à la fois des capacités de raisonnement et une cohérence maintenue entre les langues
Proposition du cadre ConsistentGuard : Cadre d'entraînement de protection multilingue basé sur le raisonnement, améliorant l'interprétabilité, l'efficacité et la capacité de généralisation transfrontalière
Conception de l'algorithme CAO : Proposition de l'Optimisation d'Alignement Contraint (Constrained Alignment Optimization) pour résoudre les problèmes d'incohérence du raisonnement transfrontalier
Réalisation d'un entraînement efficace en données : Obtention de performances exceptionnelles sur six langues à travers trois ensembles de données en utilisant seulement 1 000 échantillons d'entraînement
Construction d'un repère multilingue : Extension des repères de sécurité anglais existants à six langues, avec publication du code et des données
Entrée : Texte de requête utilisateur (multilingue)
Sortie : Jugement de sécurité (nuisible/inoffensif) + processus de raisonnement + catégorie de violation
Contraintes : Maintenir la cohérence du raisonnement transfrontalier, fournir des justifications interprétables
Mécanisme de double récompense : Équilibre astucieux entre la longueur du raisonnement et la diversité, évitant que le raisonnement trop long n'affecte l'efficacité
Optimisation d'alignement contraint : Contrainte de la direction d'optimisation via un terme de régularisation globale, prévenant la dégradation des performances des langues à ressources élevées
Entraînement progressif en trois étapes : Approche systématique allant de la distillation de connaissances à l'amélioration du raisonnement jusqu'à l'alignement transfrontalier
Conception efficace en données : Réalisation de performances comparables aux modèles entraînés à grande échelle en utilisant seulement 1 000 échantillons
Efficacité des données : Atteinte de performances comparables aux modèles entraînés avec 127 600 échantillons en utilisant seulement 1 000 échantillons
Généralisation transfrontalière : L'entraînement au raisonnement améliore significativement la capacité de généralisation transfrontalière
Effet d'alignement : CAO réduit efficacement l'écart de performance entre les langues, particulièrement pour les langues à faibles ressources
Interprétabilité : Le modèle fournit un processus de raisonnement détaillé, expliquant les raisons des violations et les règles pertinentes
Couverture linguistique limitée : Validation sur seulement 6 langues, la généralisation à d'autres langues à faibles ressources reste à vérifier
Limitation de la taille du modèle : Validation uniquement sur des modèles de 3B paramètres, les effets sur les grands modèles restent inconnus
Échelle des données d'entraînement : 1 000 échantillons sont relativement peu nombreux, les effets avec des données plus volumineuses restent à explorer
Dimensions d'évaluation : Accent principal sur la précision de la classification, manque d'évaluations globales telles que les préférences humaines
Qualité des explications : Difficile d'évaluer la qualité des explications de raisonnement, absence de réponses standard
L'article cite de nombreux travaux connexes, incluant principalement :
Protection des LLM : Llama Guard, ShieldGemma, GuardReasoner, etc.
Méthodes améliorées par le raisonnement : Chain-of-Thought, auto-amélioration, débat contradictoire, etc.
Méthodes transfrontalières : Préentraînement multilingue, ajustement fin d'instructions, optimisation directe des préférences, etc.
Repères d'évaluation : OpenAI Moderation, ToxicChat, SimpleSafetyTests, etc.
Évaluation Globale : Ceci est un article de recherche de haute qualité qui propose une solution innovante à un problème important et difficile de sécurité de l'IA multilingue. La conception de la méthode est raisonnable, la vérification expérimentale est complète, et elle possède une valeur académique et pratique importante. Bien que présentant certaines limitations, elle apporte une contribution significative au développement de ce domaine.