2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.

Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.

academic

Sbloccare i Meccanismi di Sicurezza degli LLM per Lingue a Basse Risorse tramite Ragionamento e Allineamento con Dati di Addestramento Minimali

Informazioni Fondamentali

ID Articolo: 2510.10677
Titolo: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Autori: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10677

Riassunto

Con il miglioramento delle capacità dei modelli linguistici di grandi dimensioni (LLM), aumenta anche il rischio di richieste dannose, evidenziando la necessità di meccanismi di sicurezza efficaci degli LLM per rilevare tali query. I metodi esistenti si basano principalmente su approcci classificatori che mancano di interpretabilità e mostrano prestazioni scadenti su lingue a basse risorse. Per affrontare queste limitazioni, questo articolo propone ConsistentGuard, un innovativo sistema di protezione multilingue basato sul ragionamento che migliora l'interpretabilità attraverso il ragionamento e promuove il trasferimento di conoscenze tra lingue tramite allineamento. Utilizzando solo 1.000 campioni di addestramento, il metodo dimostra prestazioni eccezionali su sei lingue in tre dataset, superando modelli più grandi addestrati con quantità significative di dati e mostrando forte interpretabilità e capacità di generalizzazione.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: I metodi di sicurezza degli LLM esistenti mostrano un calo significativo di prestazioni su lingue a basse risorse e mancano di interpretabilità
Importanza: Con la diffusione delle applicazioni LLM, la necessità di meccanismi di sicurezza in ambienti multilingui diventa sempre più urgente
Limitazioni dei Metodi Esistenti:
- Gli approcci basati su classificatori mancano di interpretabilità e supporto probatorio
- Le prestazioni diminuiscono drasticamente su lingue a basse risorse (come il bengalese)
- Trascurano il problema della coerenza del ragionamento transfrontaliero
Motivazione della Ricerca: Costruire un framework di protezione che possieda sia capacità di ragionamento che coerenza mantenuta tra lingue

Contributi Fondamentali

Propone il Framework ConsistentGuard: Un framework di addestramento per la protezione multilingue basato sul ragionamento che migliora l'interpretabilità, l'efficacia e la capacità di generalizzazione transfrontaliera
Progetta l'Algoritmo CAO: Propone l'Ottimizzazione dell'Allineamento Vincolato (Constrained Alignment Optimization) per affrontare il problema dell'incoerenza del ragionamento transfrontaliero
Realizza Addestramento Efficiente in Termini di Dati: Ottiene prestazioni eccezionali su sei lingue in tre dataset utilizzando solo 1.000 campioni di addestramento
Costruisce Benchmark Multilingue: Estende i benchmark di sicurezza inglesi esistenti a sei lingue e rende open source il codice e i dati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Testo della query dell'utente (lingue multiple) Output: Giudizio di sicurezza (dannoso/non dannoso) + processo di ragionamento + categoria di violazione Vincoli: Mantenere la coerenza del ragionamento transfrontaliero, fornire basi di giudizio interpretabili

Architettura del Modello

ConsistentGuard adotta un framework di addestramento in tre fasi:

1. Fase di Avvio a Freddo (Cold Start)

Obiettivo: Distillazione della conoscenza tramite messa a punto supervisionata (SFT)
Metodo: Utilizza DeepSeek V3 671B come modello insegnante per generare dati di addestramento con ragionamento in tre fasi:
- Comprensione: Comprendere il contenuto della conversazione
- Corrispondenza delle Regole: Abbinare i principi di giudizio rilevanti
- Giudizio: Analizzare se viola i principi
Costruzione dei Dati: Campionamento casuale di 1.000 campioni da quattro dataset di sicurezza inglesi

2. Fase di Addestramento del Ragionamento (Reasoning Training)

Algoritmo: Ottimizzazione della Strategia Relativa di Gruppo (GRPO)
Progettazione della Funzione di Ricompensa:

r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

dove L è la lunghezza del ragionamento, Lbest è la lunghezza ottimale (impostata a 512), p è il tasso di ripetizione delle triple

Composizione della Ricompensa:
- Ricompensa di Accuratezza: Correttezza del giudizio
- Ricompensa di Formato: Conformità del formato di output
- Ricompensa di Lunghezza: Controllare la stabilità della lunghezza del ragionamento
- Ricompensa di Diversità: Prevenire l'abuso della ricompensa di lunghezza

3. Fase di Allineamento Transfrontaliero (Cross-lingual Alignment)

Algoritmo: Ottimizzazione dell'Allineamento Vincolato (CAO)
Costruzione dei Dati:
- Tradurre i dati inglesi in 5 lingue
- Costruire insiemi di fallimento e successo
- Sintetizzare campioni di allineamento: input fallito + output di successo + campione di ancoraggio
Obiettivo di Ottimizzazione:

LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

Punti di Innovazione Tecnica

Meccanismo di Doppia Ricompensa: Bilancia abilmente la lunghezza del ragionamento e la diversità, evitando che il ragionamento eccessivamente lungo influisca sull'efficienza
Ottimizzazione dell'Allineamento Vincolato: Attraverso un termine di regolarizzazione globale vincola la direzione di ottimizzazione, prevenendo il deterioramento delle prestazioni in lingue ad alte risorse
Addestramento Progressivo in Tre Fasi: Un approccio sistematico dalla distillazione della conoscenza al miglioramento del ragionamento all'allineamento transfrontaliero
Progettazione Efficiente in Termini di Dati: Realizza prestazioni paragonabili all'addestramento su larga scala utilizzando solo 1.000 campioni

Configurazione Sperimentale

Dataset

Dati di Addestramento: Miscela di quattro dataset di sicurezza open source, campionamento casuale di 1.000 campioni
- Aegis, BeaverTails, ToxicChat, WildGuard
Dataset di Valutazione: Tre benchmark di sicurezza ampiamente utilizzati
- OpenAI Moderation
- ToxicChat
- SimpleSafetyTests
Copertura Linguistica: Inglese, Francese, Cinese, Giapponese, Bengalese, Hindi

Metriche di Valutazione

Metrica Principale: Punteggio F1 Macro-medio
Analisi Ausiliaria: Valutazione dell'interpretabilità, analisi della coerenza transfrontaliera

Metodi di Confronto

Llama Guard 3 (1B/8B)
ShieldGemma (2B/9B)
GuardReasoner (3B)

Dettagli di Implementazione

Modello Base: Qwen2.5-3B
Ambiente Hardware: Due NVIDIA A100 40G
Lunghezza Ottimale di Ragionamento: 512 token
Campioni di Addestramento: Solo 1.000 campioni inglesi

Risultati Sperimentali

Risultati Principali

Nel dataset OpenAI Moderation:

Inglese: 78,94 (secondo posto, solo dopo Llama Guard 3 8B con 79,69)
Prestazioni in Lingue a Basse Risorse:
- Bengalese: 72,10 (supera molteplici baseline)
- Hindi: 73,26 (prestazioni eccellenti)

Nel dataset ToxicChat:

Inglese: 84,26 (paragonabile a GuardReasoner)
Stabilità Transfrontaliera: Differenze di prestazioni relativamente piccole tra le lingue

Esperimenti di Ablazione

Ablazione dell'Addestramento del Ragionamento

Baseline SFT vs Addestramento del Ragionamento: L'addestramento del ragionamento porta miglioramenti significativi in tutte le lingue
Efficacia del Meccanismo di Doppia Ricompensa: R1-GRPO mostra prestazioni superiori rispetto a GRPO standard

Ablazione del Metodo di Allineamento

CAO vs DPO: CAO porta miglioramenti di prestazioni nella maggior parte delle lingue, mentre DPO mostra effetti instabili
CAO mostra miglioramenti più evidenti su lingue a basse risorse

Scoperte Chiave

Efficienza dei Dati: Raggiunge prestazioni paragonabili ai modelli addestrati con 127.600 campioni utilizzando solo 1.000 campioni
Generalizzazione Transfrontaliera: L'addestramento del ragionamento migliora significativamente la capacità di generalizzazione transfrontaliera
Effetto di Allineamento: CAO riduce efficacemente il divario di prestazioni tra lingue, in particolare per lingue a basse risorse
Interpretabilità: Il modello fornisce processi di ragionamento dettagliati, spiegando i motivi delle violazioni e le regole pertinenti

Lavori Correlati

Protezione di Sicurezza degli LLM

I metodi esistenti si basano principalmente su classificatori (Llama Guard, ShieldGemma)
Mancano di interpretabilità e capacità transfrontaliera
Questo articolo affronta sistematicamente per la prima volta il problema della protezione di sicurezza multilingue

Addestramento Potenziato dal Ragionamento

Costruito su metodi come CoT e auto-miglioramento
Ottimizzato per compiti di protezione di sicurezza in termini di lunghezza e diversità del ragionamento
Bilancia il compromesso tra profondità del ragionamento e latenza di risposta

Generalizzazione della Conoscenza Transfrontaliera

La ricerca esistente si concentra principalmente sull'allineamento transfrontaliero per compiti di QA
Questo articolo applica per la prima volta l'allineamento transfrontaliero alla protezione di sicurezza
Propone ottimizzazione vincolata per evitare il deterioramento delle prestazioni in lingue ad alte risorse

Conclusioni e Discussione

Conclusioni Principali

Il framework di protezione multilingue potenziato dal ragionamento migliora significativamente le prestazioni e l'interpretabilità
L'ottimizzazione dell'allineamento vincolato risolve efficacemente il problema dell'incoerenza del ragionamento transfrontaliero
La strategia di addestramento efficiente in termini di dati ha un valore importante in scenari con risorse limitate
Il framework sistematico di addestramento in tre fasi fornisce un nuovo paradigma per la sicurezza dell'IA multilingue

Limitazioni

Copertura Linguistica Limitata: Validato solo su 6 lingue, la generalizzazione ad altre lingue a basse risorse rimane da verificare
Limitazione della Scala del Modello: Validato solo su modelli con parametri 3B, l'effetto su modelli più grandi è sconosciuto
Scala dei Dati di Addestramento: 1.000 campioni sono relativamente piccoli, l'effetto di dati su scala più grande rimane da esplorare
Dimensioni di Valutazione: Si concentra principalmente sull'accuratezza della classificazione, manca di valutazioni comprehensive come le preferenze umane
Qualità dell'Interpretazione: Difficile valutare la qualità delle interpretazioni di ragionamento, manca di risposte standard

Direzioni Future

Estendere a più lingue a basse risorse e famiglie linguistiche
Validare l'efficacia del metodo su modelli di scala più grande
Sviluppare metodi di valutazione automatica per la qualità dell'interpretazione del ragionamento
Esplorare la protezione di sicurezza in scenari di testo lungo e conversazionali

Valutazione Approfondita

Punti di Forza

Forte Specificità del Problema: Affronta direttamente il punto critico dei metodi esistenti su lingue a basse risorse
Alta Innovatività del Metodo:
- Affronta sistematicamente per la prima volta il problema della protezione di sicurezza multilingue
- Il design dell'algoritmo di ottimizzazione dell'allineamento vincolato è ingegnoso
- Il meccanismo di doppia ricompensa bilancia efficacemente molteplici obiettivi
Progettazione Sperimentale Completa:
- Validazione su più dataset e lingue
- Esperimenti di ablazione dettagliati
- Confronto con molteplici baseline forti
Alto Valore Pratico: Efficiente in termini di dati, facile da distribuire
Contributo Open Source: Fornisce codice e benchmark estesi

Insufficienze

Analisi Teorica Insufficiente: Manca di spiegazione teorica dell'efficacia del metodo
Limitazioni di Valutazione:
- Copertura linguistica relativamente limitata
- Manca di valutazione quantitativa della qualità dell'interpretazione
- Non considera l'impatto delle differenze culturali sugli standard di sicurezza
Complessità del Metodo: L'addestramento in tre fasi aumenta la complessità di implementazione
Costruzione del Benchmark: La traduzione automatica potrebbe introdurre deviazioni semantiche

Impatto

Contributo Accademico: Apre una nuova direzione di ricerca per la sicurezza dell'IA multilingue
Valore Pratico: Fornisce una soluzione di protezione di sicurezza per applicazioni AI globalizzate
Riproducibilità: Il codice open source e i dati supportano la ricerca successiva
Ispirazione: Il framework ragionamento + allineamento è estensibile ad altri compiti multilingui

Scenari Applicabili

Servizi AI Multilingui: Sistemi di conversazione e piattaforme di generazione di contenuti globalizzate
Ambienti con Risorse Limitate: Scenari di distribuzione di modelli piccoli
Applicazioni con Elevati Requisiti di Sicurezza: Sistemi che richiedono protezione di sicurezza interpretabile
Piattaforme Multilingui con Requisiti di Coerenza: Piattaforme che richiedono standard di sicurezza unificati

Bibliografia

L'articolo cita numerosi lavori correlati, principalmente includenti:

Protezione di Sicurezza degli LLM: Llama Guard, ShieldGemma, GuardReasoner, ecc.
Metodi Potenziati dal Ragionamento: Chain-of-Thought, auto-miglioramento, dibattito avversariale, ecc.
Metodi Transfrontalieri: Pre-addestramento multilingue, messa a punto di istruzioni, ottimizzazione diretta delle preferenze, ecc.
Benchmark di Valutazione: OpenAI Moderation, ToxicChat, SimpleSafetyTests, ecc.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a un problema importante e impegnativo della sicurezza dell'IA multilingue. Il design del metodo è razionale, la verifica sperimentale è completa e possiede un importante valore accademico e pratico. Sebbene presenti alcune limitazioni, ha fornito contributi significativi allo sviluppo di questo campo.