Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic
Sbloccare i Meccanismi di Sicurezza degli LLM per Lingue a Basse Risorse tramite Ragionamento e Allineamento con Dati di Addestramento Minimali
Con il miglioramento delle capacità dei modelli linguistici di grandi dimensioni (LLM), aumenta anche il rischio di richieste dannose, evidenziando la necessità di meccanismi di sicurezza efficaci degli LLM per rilevare tali query. I metodi esistenti si basano principalmente su approcci classificatori che mancano di interpretabilità e mostrano prestazioni scadenti su lingue a basse risorse. Per affrontare queste limitazioni, questo articolo propone ConsistentGuard, un innovativo sistema di protezione multilingue basato sul ragionamento che migliora l'interpretabilità attraverso il ragionamento e promuove il trasferimento di conoscenze tra lingue tramite allineamento. Utilizzando solo 1.000 campioni di addestramento, il metodo dimostra prestazioni eccezionali su sei lingue in tre dataset, superando modelli più grandi addestrati con quantità significative di dati e mostrando forte interpretabilità e capacità di generalizzazione.
Problema Centrale: I metodi di sicurezza degli LLM esistenti mostrano un calo significativo di prestazioni su lingue a basse risorse e mancano di interpretabilità
Importanza: Con la diffusione delle applicazioni LLM, la necessità di meccanismi di sicurezza in ambienti multilingui diventa sempre più urgente
Limitazioni dei Metodi Esistenti:
Gli approcci basati su classificatori mancano di interpretabilità e supporto probatorio
Le prestazioni diminuiscono drasticamente su lingue a basse risorse (come il bengalese)
Trascurano il problema della coerenza del ragionamento transfrontaliero
Motivazione della Ricerca: Costruire un framework di protezione che possieda sia capacità di ragionamento che coerenza mantenuta tra lingue
Propone il Framework ConsistentGuard: Un framework di addestramento per la protezione multilingue basato sul ragionamento che migliora l'interpretabilità, l'efficacia e la capacità di generalizzazione transfrontaliera
Progetta l'Algoritmo CAO: Propone l'Ottimizzazione dell'Allineamento Vincolato (Constrained Alignment Optimization) per affrontare il problema dell'incoerenza del ragionamento transfrontaliero
Realizza Addestramento Efficiente in Termini di Dati: Ottiene prestazioni eccezionali su sei lingue in tre dataset utilizzando solo 1.000 campioni di addestramento
Costruisce Benchmark Multilingue: Estende i benchmark di sicurezza inglesi esistenti a sei lingue e rende open source il codice e i dati
Input: Testo della query dell'utente (lingue multiple)
Output: Giudizio di sicurezza (dannoso/non dannoso) + processo di ragionamento + categoria di violazione
Vincoli: Mantenere la coerenza del ragionamento transfrontaliero, fornire basi di giudizio interpretabili
Meccanismo di Doppia Ricompensa: Bilancia abilmente la lunghezza del ragionamento e la diversità, evitando che il ragionamento eccessivamente lungo influisca sull'efficienza
Ottimizzazione dell'Allineamento Vincolato: Attraverso un termine di regolarizzazione globale vincola la direzione di ottimizzazione, prevenendo il deterioramento delle prestazioni in lingue ad alte risorse
Addestramento Progressivo in Tre Fasi: Un approccio sistematico dalla distillazione della conoscenza al miglioramento del ragionamento all'allineamento transfrontaliero
Progettazione Efficiente in Termini di Dati: Realizza prestazioni paragonabili all'addestramento su larga scala utilizzando solo 1.000 campioni
Copertura Linguistica Limitata: Validato solo su 6 lingue, la generalizzazione ad altre lingue a basse risorse rimane da verificare
Limitazione della Scala del Modello: Validato solo su modelli con parametri 3B, l'effetto su modelli più grandi è sconosciuto
Scala dei Dati di Addestramento: 1.000 campioni sono relativamente piccoli, l'effetto di dati su scala più grande rimane da esplorare
Dimensioni di Valutazione: Si concentra principalmente sull'accuratezza della classificazione, manca di valutazioni comprehensive come le preferenze umane
Qualità dell'Interpretazione: Difficile valutare la qualità delle interpretazioni di ragionamento, manca di risposte standard
L'articolo cita numerosi lavori correlati, principalmente includenti:
Protezione di Sicurezza degli LLM: Llama Guard, ShieldGemma, GuardReasoner, ecc.
Metodi Potenziati dal Ragionamento: Chain-of-Thought, auto-miglioramento, dibattito avversariale, ecc.
Metodi Transfrontalieri: Pre-addestramento multilingue, messa a punto di istruzioni, ottimizzazione diretta delle preferenze, ecc.
Benchmark di Valutazione: OpenAI Moderation, ToxicChat, SimpleSafetyTests, ecc.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a un problema importante e impegnativo della sicurezza dell'IA multilingue. Il design del metodo è razionale, la verifica sperimentale è completa e possiede un importante valore accademico e pratico. Sebbene presenti alcune limitazioni, ha fornito contributi significativi allo sviluppo di questo campo.