2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.

Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.

academic

Разблокировка защиты LLM для языков с ограниченными ресурсами посредством рассуждений и выравнивания с минимальными данными обучения

Основная информация

ID статьи: 2510.10677
Название: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Авторы: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
Категория: cs.CL (Компьютерная лингвистика)
Дата публикации: 12 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10677

Аннотация

С развитием возможностей больших языковых моделей (LLM) возрастает риск вредоносных запросов, что подчеркивает необходимость эффективного обнаружения таких запросов системами защиты LLM. Существующие методы в основном полагаются на классификаторы, которые лишены интерпретируемости и показывают плохие результаты на языках с ограниченными ресурсами. Для решения этих ограничений в статье предлагается ConsistentGuard — новая система многоязычной защиты на основе рассуждений, которая повышает интерпретируемость через рассуждения и способствует передаче знаний между языками через выравнивание. Используя всего 1000 обучающих образцов, метод демонстрирует превосходную производительность на шести языках в трех наборах данных, превосходя более крупные модели, обученные на больших объемах данных, и проявляет сильную интерпретируемость и способность к обобщению.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Существующие методы защиты LLM значительно снижают производительность на языках с ограниченными ресурсами и лишены интерпретируемости
Важность: С распространением приложений LLM растет потребность в защите в многоязычной среде
Ограничения существующих методов:
- Методы на основе классификаторов лишены интерпретируемости и доказательств
- Значительное снижение производительности на языках с ограниченными ресурсами (например, бенгальском)
- Игнорирование проблемы согласованности кросс-языковых рассуждений
Исследовательская мотивация: Создание системы защиты, обладающей способностью к рассуждениям и сохраняющей согласованность между языками

Основные вклады

Предложение фреймворка ConsistentGuard: Фреймворк обучения многоязычной защиты на основе рассуждений, повышающий интерпретируемость, эффективность и кросс-языковую способность к обобщению
Разработка алгоритма CAO: Предложение оптимизации с ограниченным выравниванием (Constrained Alignment Optimization) для решения проблемы несогласованности кросс-языковых рассуждений
Реализация эффективного обучения на данных: Достижение отличной производительности на шести языках в трех наборах данных, используя всего 1000 обучающих образцов
Создание многоязычного бенчмарка: Расширение существующего англоязычного бенчмарка защиты на шесть языков с открытым исходным кодом и данными

Подробное описание методов

Определение задачи

Входные данные: Текст пользовательского запроса (на нескольких языках) Выходные данные: Оценка безопасности (вредоносный/безопасный) + процесс рассуждения + категория нарушения Ограничения: Сохранение согласованности кросс-языковых рассуждений, предоставление интерпретируемых оснований для решения

Архитектура модели

ConsistentGuard использует трехэтапный фреймворк обучения:

1. Этап холодного старта (Cold Start)

Цель: Дистилляция знаний через контролируемую тонкую настройку (SFT)
Метод: Использование DeepSeek V3 671B в качестве модели-учителя для генерации обучающих данных с трехэтапным рассуждением:
- Понимание: понимание содержания диалога
- Сопоставление правил: сопоставление соответствующих принципов оценки
- Суждение: анализ нарушения принципов
Построение данных: Случайная выборка 1000 образцов из четырех англоязычных наборов данных защиты

2. Этап обучения рассуждениям (Reasoning Training)

Алгоритм: Оптимизация относительной политики группы (GRPO)
Проектирование функции вознаграждения:

r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

где L — длина рассуждения, Lbest — оптимальная длина (установлена на 512), p — коэффициент повторения триплетов

Компоненты вознаграждения:
- Вознаграждение за точность: корректность суждения
- Вознаграждение за формат: нормативность выходного формата
- Вознаграждение за длину: стабилизация длины рассуждения
- Вознаграждение за разнообразие: предотвращение эксплуатации вознаграждения за длину

3. Этап кросс-языкового выравнивания (Cross-lingual Alignment)

Алгоритм: Оптимизация с ограниченным выравниванием (CAO)
Построение данных:
- Перевод англоязычных данных на 5 языков
- Построение набора отказов и набора успехов
- Синтез образцов выравнивания: входные данные отказа + выходные данные успеха + образцы якорей
Цель оптимизации:

LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

Технические инновации

Двойной механизм вознаграждения: Умелое балансирование длины рассуждения и разнообразия, предотвращение чрезмерно длинных рассуждений
Оптимизация с ограниченным выравниванием: Ограничение направления оптимизации через глобальный регуляризационный член, предотвращение деградации производительности на языках с большими ресурсами
Прогрессивное трехэтапное обучение: Систематический подход от дистилляции знаний к усилению рассуждений и кросс-языковому выравниванию
Эффективное проектирование данных: Достижение производительности, сравнимой с крупномасштабным обучением, используя всего 1000 образцов

Экспериментальная установка

Наборы данных

Обучающие данные: Смешанные четыре открытых набора данных защиты, случайная выборка 1000 образцов
- Aegis, BeaverTails, ToxicChat, WildGuard
Наборы данных оценки: Три широко используемых бенчмарка защиты
- OpenAI Moderation
- ToxicChat
- SimpleSafetyTests
Языковое покрытие: английский, французский, китайский, японский, бенгальский, хинди

Метрики оценки

Основная метрика: Макро-усредненный F1-балл
Вспомогательный анализ: Оценка интерпретируемости, анализ кросс-языковой согласованности

Методы сравнения

Llama Guard 3 (1B/8B)
ShieldGemma (2B/9B)
GuardReasoner (3B)

Детали реализации

Базовая модель: Qwen2.5-3B
Аппаратное окружение: Два NVIDIA A100 40G
Оптимальная длина рассуждения: 512 токенов
Обучающие образцы: Всего 1000 англоязычных образцов

Результаты экспериментов

Основные результаты

На наборе данных OpenAI Moderation:

Английский: 78.94 (второе место, уступая только Llama Guard 3 8B с 79.69)
Производительность на языках с ограниченными ресурсами:
- Бенгальский: 72.10 (превосходит несколько базовых методов)
- Хинди: 73.26 (отличная производительность)

На наборе данных ToxicChat:

Английский: 84.26 (сравнимо с GuardReasoner)
Кросс-языковая стабильность: Небольшие различия в производительности между языками

Абляционные эксперименты

Абляция обучения рассуждениям

Базовая линия SFT vs обучение рассуждениям: обучение рассуждениям приносит значительные улучшения на всех языках
Эффективность двойного механизма вознаграждения: R1-GRPO показывает лучшую производительность по сравнению со стандартным GRPO

Абляция методов выравнивания

CAO vs DPO: CAO приносит улучшения производительности на большинстве языков, тогда как DPO нестабилен
Улучшение CAO на языках с ограниченными ресурсами более выражено

Ключевые выводы

Эффективность данных: Достижение производительности, сравнимой с моделями, обученными на 127 600 образцах, используя всего 1000 образцов
Кросс-языковое обобщение: Обучение рассуждениям значительно улучшает способность к кросс-языковому обобщению
Эффект выравнивания: CAO эффективно сокращает разрыв в производительности между языками, особенно на языках с ограниченными ресурсами
Интерпретируемость: Модель предоставляет подробный процесс рассуждения, объясняя причины нарушений и соответствующие правила

Связанные работы

Защита LLM

Существующие методы в основном основаны на классификаторах (Llama Guard, ShieldGemma)
Лишены интерпретируемости и кросс-языковых возможностей
Данная работа впервые систематически решает проблему многоязычной защиты

Обучение, усиленное рассуждениями

Построено на основе методов CoT, самосовершенствования и т.д.
Оптимизировано для задач защиты с точки зрения длины и разнообразия рассуждений
Балансирование между глубиной рассуждения и задержкой ответа

Кросс-языковое обобщение знаний

Существующие исследования в основном сосредоточены на кросс-языковом выравнивании для задач QA
Данная работа впервые применяет кросс-языковое выравнивание к защите
Предложена оптимизация с ограничениями для предотвращения деградации производительности на языках с большими ресурсами

Заключение и обсуждение

Основные выводы

Фреймворк многоязычной защиты, усиленный рассуждениями, значительно повышает производительность и интерпретируемость
Оптимизация с ограниченным выравниванием эффективно решает проблему несогласованности кросс-языковых рассуждений
Стратегия эффективного обучения на данных имеет важное значение в сценариях с ограниченными ресурсами
Систематический трехэтапный фреймворк обучения предоставляет новую парадигму для многоязычной безопасности AI

Ограничения

Ограниченное языковое покрытие: Проверено только на 6 языках, способность к обобщению на другие языки с ограниченными ресурсами требует проверки
Ограничение размера модели: Проверено только на модели с 3B параметрами, эффективность на больших моделях неизвестна
Масштаб обучающих данных: 1000 образцов относительно небольшой объем, эффект больших масштабов данных требует изучения
Размерность оценки: Основное внимание уделяется точности классификации, отсутствуют комплексные оценки, такие как предпочтения человека
Качество объяснений: Сложно оценить качество объяснений рассуждений, отсутствуют стандартные ответы

Будущие направления

Расширение на большее количество языков с ограниченными ресурсами и языковых семей
Проверка эффективности метода на более крупных моделях
Разработка методов автоматической оценки качества объяснений рассуждений
Исследование защиты для длинных текстов и сценариев диалога

Глубокая оценка

Преимущества

Сильная целевая ориентация проблемы: Прямое решение основной проблемы существующих методов на языках с ограниченными ресурсами
Высокая инновационность метода:
- Первое систематическое решение проблемы многоязычной защиты
- Умное проектирование алгоритма оптимизации с ограниченным выравниванием
- Двойной механизм вознаграждения для балансирования нескольких целей
Достаточный экспериментальный дизайн:
- Проверка на нескольких наборах данных и языках
- Подробные абляционные эксперименты
- Сравнение с несколькими сильными базовыми методами
Высокая практическая ценность: Эффективность данных, простота развертывания
Вклад в открытый исходный код: Предоставление кода и расширенного бенчмарка

Недостатки

Недостаточный теоретический анализ: Отсутствие теоретического объяснения эффективности метода
Ограничения оценки:
- Относительно ограниченное языковое покрытие
- Отсутствие количественной оценки качества объяснений
- Отсутствие учета культурных различий в стандартах безопасности
Сложность метода: Трехэтапное обучение увеличивает сложность реализации
Построение бенчмарка: Машинный перевод может вносить семантические отклонения

Влияние

Академический вклад: Открытие нового направления исследований в области многоязычной безопасности AI
Практическая ценность: Предоставление решения для защиты глобализированных приложений AI
Воспроизводимость: Открытый код и данные поддерживают дальнейшие исследования
Вдохновляющий характер: Фреймворк рассуждений + выравнивания может быть расширен на другие многоязычные задачи

Применимые сценарии

Многоязычные сервисы AI: Глобализированные системы диалога и платформы генерации контента
Среды с ограниченными ресурсами: Сценарии развертывания малых моделей
Приложения с высокими требованиями безопасности: Системы, требующие интерпретируемой защиты
Платформы с требованиями кросс-языковой согласованности: Многоязычные платформы, требующие единых стандартов безопасности

Библиография

Статья цитирует большое количество связанных работ, включая:

Защита LLM: Llama Guard, ShieldGemma, GuardReasoner и др.
Методы, усиленные рассуждениями: Chain-of-Thought, самосовершенствование, противоречивые дебаты и др.
Кросс-языковые методы: многоязычное предварительное обучение, настройка инструкций, прямая оптимизация предпочтений и др.
Бенчмарки оценки: OpenAI Moderation, ToxicChat, SimpleSafetyTests и др.

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение важной и сложной проблемы многоязычной безопасности AI. Метод хорошо спроектирован, эксперименты достаточно проверены и имеют важную академическую и практическую ценность. Несмотря на некоторые ограничения, работа вносит значительный вклад в развитие этой области.