2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic

Déverrouiller les Garde-fous des LLM pour les Langues à Faibles Ressources via le Raisonnement et l'Alignement avec des Données d'Entraînement Minimales

Informations Fondamentales

  • ID de l'article : 2510.10677
  • Titre : Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
  • Auteurs : Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
  • Classification : cs.CL (Linguistique Informatique)
  • Date de publication : 12 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10677

Résumé

Avec l'amélioration des capacités des grands modèles de langage (LLM), les risques de requêtes malveillantes augmentent également, soulignant le besoin de mécanismes de protection efficaces des LLM pour détecter ces requêtes. Les méthodes existantes reposent principalement sur des approches de classification manquant d'interprétabilité et performant mal sur les langues à faibles ressources. Pour résoudre ces limitations, cet article propose ConsistentGuard, un nouveau système de protection multilingue basé sur le raisonnement, améliorant l'interprétabilité par le raisonnement et facilitant le transfert de connaissances entre langues par l'alignement. Utilisant seulement 1 000 échantillons d'entraînement, cette méthode démontre des performances exceptionnelles sur six langues à travers trois ensembles de données, surpassant les modèles plus grands entraînés avec des quantités de données considérables, et exhibe une forte interprétabilité et capacité de généralisation.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème central : Les méthodes existantes de protection des LLM montrent une dégradation significative des performances sur les langues à faibles ressources et manquent d'interprétabilité
  2. Importance : Avec la prolifération des applications LLM, le besoin de protection multilingue devient de plus en plus urgent
  3. Limitations des méthodes existantes :
    • Les approches basées sur des classificateurs manquent d'interprétabilité et de justification probante
    • Les performances diminuent considérablement sur les langues à faibles ressources (comme le bengali)
    • Négligence de la cohérence du raisonnement transfrontalier
  4. Motivation de la recherche : Construire un cadre de protection possédant à la fois des capacités de raisonnement et une cohérence maintenue entre les langues

Contributions Principales

  1. Proposition du cadre ConsistentGuard : Cadre d'entraînement de protection multilingue basé sur le raisonnement, améliorant l'interprétabilité, l'efficacité et la capacité de généralisation transfrontalière
  2. Conception de l'algorithme CAO : Proposition de l'Optimisation d'Alignement Contraint (Constrained Alignment Optimization) pour résoudre les problèmes d'incohérence du raisonnement transfrontalier
  3. Réalisation d'un entraînement efficace en données : Obtention de performances exceptionnelles sur six langues à travers trois ensembles de données en utilisant seulement 1 000 échantillons d'entraînement
  4. Construction d'un repère multilingue : Extension des repères de sécurité anglais existants à six langues, avec publication du code et des données

Détails de la Méthode

Définition de la Tâche

Entrée : Texte de requête utilisateur (multilingue) Sortie : Jugement de sécurité (nuisible/inoffensif) + processus de raisonnement + catégorie de violation Contraintes : Maintenir la cohérence du raisonnement transfrontalier, fournir des justifications interprétables

Architecture du Modèle

ConsistentGuard adopte un cadre d'entraînement en trois étapes :

1. Phase de Démarrage à Froid (Cold Start)

  • Objectif : Distillation de connaissances via l'ajustement fin supervisé (SFT)
  • Méthode : Utilisation de DeepSeek V3 671B comme modèle enseignant, générant des données d'entraînement contenant un raisonnement en trois étapes :
    • Compréhension : Comprendre le contenu de la conversation
    • Correspondance de règles : Correspondre les principes de jugement pertinents
    • Jugement : Analyser si les principes sont violés
  • Construction des données : Échantillonnage aléatoire de 1 000 échantillons à partir de quatre ensembles de données de sécurité anglais

2. Phase d'Entraînement au Raisonnement (Reasoning Training)

  • Algorithme : Optimisation de Politique Relative de Groupe (GRPO)
  • Conception de la fonction de récompense :
r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

où L est la longueur du raisonnement, Lbest est la longueur optimale (fixée à 512), et p est le taux de répétition des triplets

  • Composition de la récompense :
    • Récompense de précision : Exactitude du jugement
    • Récompense de format : Conformité du format de sortie
    • Récompense de longueur : Contrôle de la stabilité de la longueur du raisonnement
    • Récompense de diversité : Prévention de l'exploitation de la récompense de longueur

3. Phase d'Alignement Transfrontalier (Cross-lingual Alignment)

  • Algorithme : Optimisation d'Alignement Contraint (CAO)
  • Construction des données :
    • Traduction des données anglaises en 5 langues
    • Construction d'ensembles d'échecs et de succès
    • Synthèse d'échantillons d'alignement : entrée d'échec + sortie de succès + échantillon d'ancrage
  • Objectif d'optimisation :
LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

Points d'Innovation Technique

  1. Mécanisme de double récompense : Équilibre astucieux entre la longueur du raisonnement et la diversité, évitant que le raisonnement trop long n'affecte l'efficacité
  2. Optimisation d'alignement contraint : Contrainte de la direction d'optimisation via un terme de régularisation globale, prévenant la dégradation des performances des langues à ressources élevées
  3. Entraînement progressif en trois étapes : Approche systématique allant de la distillation de connaissances à l'amélioration du raisonnement jusqu'à l'alignement transfrontalier
  4. Conception efficace en données : Réalisation de performances comparables aux modèles entraînés à grande échelle en utilisant seulement 1 000 échantillons

Configuration Expérimentale

Ensembles de Données

  • Données d'entraînement : Fusion de quatre ensembles de données de sécurité en source ouverte, échantillonnage aléatoire de 1 000 échantillons
    • Aegis, BeaverTails, ToxicChat, WildGuard
  • Ensembles de données d'évaluation : Trois repères de sécurité largement utilisés
    • OpenAI Moderation
    • ToxicChat
    • SimpleSafetyTests
  • Couverture linguistique : Anglais, français, chinois, japonais, bengali, hindi

Métriques d'Évaluation

  • Métrique principale : Score F1 macro-moyenné
  • Analyse auxiliaire : Évaluation de l'interprétabilité, analyse de la cohérence transfrontalière

Méthodes de Comparaison

  • Llama Guard 3 (1B/8B)
  • ShieldGemma (2B/9B)
  • GuardReasoner (3B)

Détails d'Implémentation

  • Modèle de base : Qwen2.5-3B
  • Environnement matériel : Deux GPU NVIDIA A100 40G
  • Longueur de raisonnement optimale : 512 tokens
  • Échantillons d'entraînement : Seulement 1 000 échantillons anglais

Résultats Expérimentaux

Résultats Principaux

Sur l'ensemble de données OpenAI Moderation :

  • Anglais : 78,94 (deuxième place, juste derrière Llama Guard 3 8B avec 79,69)
  • Performance des langues à faibles ressources :
    • Bengali : 72,10 (surpassant plusieurs lignes de base)
    • Hindi : 73,26 (performance exceptionnelle)

Sur l'ensemble de données ToxicChat :

  • Anglais : 84,26 (comparable à GuardReasoner)
  • Stabilité transfrontalière : Écart de performance réduit entre les langues

Expériences d'Ablation

Ablation de l'Entraînement au Raisonnement

  • Ligne de base SFT vs entraînement au raisonnement : L'entraînement au raisonnement apporte des améliorations significatives dans toutes les langues
  • Efficacité du mécanisme de double récompense : R1-GRPO surpasse le GRPO standard

Ablation de la Méthode d'Alignement

  • CAO vs DPO : CAO apporte des améliorations de performance dans la plupart des langues, tandis que DPO est instable
  • L'amélioration de CAO est plus prononcée sur les langues à faibles ressources

Découvertes Clés

  1. Efficacité des données : Atteinte de performances comparables aux modèles entraînés avec 127 600 échantillons en utilisant seulement 1 000 échantillons
  2. Généralisation transfrontalière : L'entraînement au raisonnement améliore significativement la capacité de généralisation transfrontalière
  3. Effet d'alignement : CAO réduit efficacement l'écart de performance entre les langues, particulièrement pour les langues à faibles ressources
  4. Interprétabilité : Le modèle fournit un processus de raisonnement détaillé, expliquant les raisons des violations et les règles pertinentes

Travaux Connexes

Protection des LLM

  • Les méthodes existantes reposent principalement sur des classificateurs (Llama Guard, ShieldGemma)
  • Manquent d'interprétabilité et de capacités transfrontalières
  • Cet article résout systématiquement pour la première fois le problème de la protection multilingue

Entraînement Amélioré par le Raisonnement

  • Construit sur les bases de CoT, auto-amélioration et autres méthodes
  • Optimisation de la longueur et de la diversité du raisonnement pour les tâches de sécurité
  • Équilibre entre la profondeur du raisonnement et la latence de réponse

Généralisation Transfrontalière des Connaissances

  • Les recherches existantes se concentrent principalement sur l'alignement transfrontalier pour les tâches d'assurance qualité
  • Cet article applique pour la première fois l'alignement transfrontalier à la protection de la sécurité
  • Propose une optimisation contrainte pour éviter la dégradation des performances des langues à ressources élevées

Conclusion et Discussion

Conclusions Principales

  1. Le cadre de protection multilingue amélioré par le raisonnement améliore significativement les performances et l'interprétabilité
  2. L'optimisation d'alignement contraint résout efficacement les problèmes d'incohérence du raisonnement transfrontalier
  3. La stratégie d'entraînement efficace en données a une valeur importante dans les scénarios à ressources limitées
  4. Le cadre d'entraînement systématique en trois étapes fournit un nouveau paradigme pour la sécurité de l'IA multilingue

Limitations

  1. Couverture linguistique limitée : Validation sur seulement 6 langues, la généralisation à d'autres langues à faibles ressources reste à vérifier
  2. Limitation de la taille du modèle : Validation uniquement sur des modèles de 3B paramètres, les effets sur les grands modèles restent inconnus
  3. Échelle des données d'entraînement : 1 000 échantillons sont relativement peu nombreux, les effets avec des données plus volumineuses restent à explorer
  4. Dimensions d'évaluation : Accent principal sur la précision de la classification, manque d'évaluations globales telles que les préférences humaines
  5. Qualité des explications : Difficile d'évaluer la qualité des explications de raisonnement, absence de réponses standard

Directions Futures

  1. Extension à plus de langues à faibles ressources et familles linguistiques
  2. Validation de l'efficacité de la méthode sur des modèles de plus grande taille
  3. Développement de méthodes d'évaluation automatique de la qualité des explications de raisonnement
  4. Exploration de la protection de la sécurité dans les scénarios de texte long et de conversation

Évaluation Approfondie

Avantages

  1. Forte pertinence du problème : Aborde directement les points faibles des méthodes existantes sur les langues à faibles ressources
  2. Haute innovativité de la méthode :
    • Première résolution systématique du problème de protection multilingue
    • Conception ingénieuse de l'algorithme d'optimisation d'alignement contraint
    • Mécanisme de double récompense équilibrant plusieurs objectifs
  3. Conception expérimentale complète :
    • Validation multi-ensembles de données et multilingue
    • Expériences d'ablation détaillées
    • Comparaison avec plusieurs lignes de base fortes
  4. Haute valeur pratique : Efficace en données, facile à déployer
  5. Contribution en source ouverte : Fourniture de code et de repères étendus

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explication théorique de l'efficacité de la méthode
  2. Limitations d'évaluation :
    • Couverture linguistique relativement limitée
    • Manque d'évaluation quantitative de la qualité des explications
    • Absence de considération des différences culturelles sur les normes de sécurité
  3. Complexité de la méthode : L'entraînement en trois étapes augmente la complexité d'implémentation
  4. Construction de repères : La traduction automatique peut introduire des écarts sémantiques

Impact

  1. Contribution académique : Ouvre une nouvelle direction de recherche pour la sécurité de l'IA multilingue
  2. Valeur pratique : Fournit une solution de protection de la sécurité pour les applications d'IA mondialisées
  3. Reproductibilité : Le code et les données en source ouverte soutiennent les recherches ultérieures
  4. Caractère inspirant : Le cadre raisonnement + alignement peut s'étendre à d'autres tâches multilingues

Scénarios d'Application

  1. Services d'IA multilingues : Systèmes de conversation mondialisés et plateformes de génération de contenu
  2. Environnements à ressources limitées : Scénarios de déploiement de petits modèles
  3. Applications à exigences de sécurité élevées : Systèmes nécessitant une protection de sécurité interprétable
  4. Exigences de cohérence transfrontalière : Plateformes multilingues nécessitant des normes de sécurité uniformes

Références

L'article cite de nombreux travaux connexes, incluant principalement :

  • Protection des LLM : Llama Guard, ShieldGemma, GuardReasoner, etc.
  • Méthodes améliorées par le raisonnement : Chain-of-Thought, auto-amélioration, débat contradictoire, etc.
  • Méthodes transfrontalières : Préentraînement multilingue, ajustement fin d'instructions, optimisation directe des préférences, etc.
  • Repères d'évaluation : OpenAI Moderation, ToxicChat, SimpleSafetyTests, etc.

Évaluation Globale : Ceci est un article de recherche de haute qualité qui propose une solution innovante à un problème important et difficile de sécurité de l'IA multilingue. La conception de la méthode est raisonnable, la vérification expérimentale est complète, et elle possède une valeur académique et pratique importante. Bien que présentant certaines limitations, elle apporte une contribution significative au développement de ce domaine.