Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic
Entsperrung von LLM-Schutzmaßnahmen für ressourcenarm Sprachen durch Reasoning und Alignment mit minimalem Trainingsdaten
Mit der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) steigt auch das Risiko böswilliger Anfragen, was die Notwendigkeit effektiver LLM-Sicherheitsschutzmaßnahmen zur Erkennung solcher Anfragen unterstreicht. Bestehende Methoden basieren hauptsächlich auf Klassifikatoren, denen es an Interpretierbarkeit mangelt und die bei ressourcenarm Sprachen schlecht abschneiden. Um diese Einschränkungen zu beheben, wird ConsistentGuard vorgeschlagen – ein neuartiges, auf Reasoning basierendes mehrsprachiges Sicherheitsschutzsystem, das die Interpretierbarkeit durch Reasoning verbessert und die Wissensübertragung zwischen Sprachen durch Alignment fördert. Mit nur 1.000 Trainingsbeispielen zeigt die Methode hervorragende Leistungen in sechs Sprachen über drei Datensätze hinweg, übertrifft größere Modelle, die mit großen Datenmengen trainiert wurden, und zeigt starke Interpretierbarkeit und Generalisierungsfähigkeit.
Vorschlag des ConsistentGuard-Rahmens: Ein auf Reasoning basierendes mehrsprachiges Sicherheitsschutz-Trainingsframework, das Interpretierbarkeit, Effektivität und sprachübergreifende Generalisierungsfähigkeit verbessert
Entwicklung des CAO-Algorithmus: Vorschlag der Constrained Alignment Optimization (CAO) zur Lösung von Inkonsistenzen beim sprachübergreifenden Reasoning
Umsetzung dateneffizienten Trainings: Erreichung hervorragender Leistungen über sechs Sprachen in drei Datensätzen mit nur 1.000 Trainingsbeispielen
Konstruktion mehrsprachiger Benchmarks: Erweiterung bestehender englischsprachiger Sicherheits-Benchmarks auf sechs Sprachen mit Open-Source-Code und Daten
Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
LLM-Sicherheitsschutz: Llama Guard, ShieldGemma, GuardReasoner etc.
Reasoning-verstärkte Methoden: Chain-of-Thought, Selbstverbesserung, adversarische Debatten etc.
Sprachübergreifende Methoden: Mehrsprachiges Pretraining, Instruction Tuning, Direct Preference Optimization etc.
Evaluierungs-Benchmarks: OpenAI Moderation, ToxicChat, SimpleSafetyTests etc.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für das wichtige und herausfordernde Problem der mehrsprachigen KI-Sicherheit bietet. Die Methodengestaltung ist rational, die experimentelle Validierung umfassend, mit wichtigem akademischem und praktischem Wert. Trotz einiger Einschränkungen leistet es wichtige Beiträge zur Entwicklung dieses Forschungsbereichs.