Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic
Разблокировка защиты LLM для языков с ограниченными ресурсами посредством рассуждений и выравнивания с минимальными данными обучения
С развитием возможностей больших языковых моделей (LLM) возрастает риск вредоносных запросов, что подчеркивает необходимость эффективного обнаружения таких запросов системами защиты LLM. Существующие методы в основном полагаются на классификаторы, которые лишены интерпретируемости и показывают плохие результаты на языках с ограниченными ресурсами. Для решения этих ограничений в статье предлагается ConsistentGuard — новая система многоязычной защиты на основе рассуждений, которая повышает интерпретируемость через рассуждения и способствует передаче знаний между языками через выравнивание. Используя всего 1000 обучающих образцов, метод демонстрирует превосходную производительность на шести языках в трех наборах данных, превосходя более крупные модели, обученные на больших объемах данных, и проявляет сильную интерпретируемость и способность к обобщению.
Основная проблема: Существующие методы защиты LLM значительно снижают производительность на языках с ограниченными ресурсами и лишены интерпретируемости
Важность: С распространением приложений LLM растет потребность в защите в многоязычной среде
Ограничения существующих методов:
Методы на основе классификаторов лишены интерпретируемости и доказательств
Значительное снижение производительности на языках с ограниченными ресурсами (например, бенгальском)
Игнорирование проблемы согласованности кросс-языковых рассуждений
Исследовательская мотивация: Создание системы защиты, обладающей способностью к рассуждениям и сохраняющей согласованность между языками
Предложение фреймворка ConsistentGuard: Фреймворк обучения многоязычной защиты на основе рассуждений, повышающий интерпретируемость, эффективность и кросс-языковую способность к обобщению
Разработка алгоритма CAO: Предложение оптимизации с ограниченным выравниванием (Constrained Alignment Optimization) для решения проблемы несогласованности кросс-языковых рассуждений
Реализация эффективного обучения на данных: Достижение отличной производительности на шести языках в трех наборах данных, используя всего 1000 обучающих образцов
Создание многоязычного бенчмарка: Расширение существующего англоязычного бенчмарка защиты на шесть языков с открытым исходным кодом и данными
Входные данные: Текст пользовательского запроса (на нескольких языках)
Выходные данные: Оценка безопасности (вредоносный/безопасный) + процесс рассуждения + категория нарушения
Ограничения: Сохранение согласованности кросс-языковых рассуждений, предоставление интерпретируемых оснований для решения
Двойной механизм вознаграждения: Умелое балансирование длины рассуждения и разнообразия, предотвращение чрезмерно длинных рассуждений
Оптимизация с ограниченным выравниванием: Ограничение направления оптимизации через глобальный регуляризационный член, предотвращение деградации производительности на языках с большими ресурсами
Прогрессивное трехэтапное обучение: Систематический подход от дистилляции знаний к усилению рассуждений и кросс-языковому выравниванию
Эффективное проектирование данных: Достижение производительности, сравнимой с крупномасштабным обучением, используя всего 1000 образцов
Статья цитирует большое количество связанных работ, включая:
Защита LLM: Llama Guard, ShieldGemma, GuardReasoner и др.
Методы, усиленные рассуждениями: Chain-of-Thought, самосовершенствование, противоречивые дебаты и др.
Кросс-языковые методы: многоязычное предварительное обучение, настройка инструкций, прямая оптимизация предпочтений и др.
Бенчмарки оценки: OpenAI Moderation, ToxicChat, SimpleSafetyTests и др.
Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение важной и сложной проблемы многоязычной безопасности AI. Метод хорошо спроектирован, эксперименты достаточно проверены и имеют важную академическую и практическую ценность. Несмотря на некоторые ограничения, работа вносит значительный вклад в развитие этой области.