Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic
Desbloqueando Salvaguardas de LLM para Idiomas de Bajos Recursos mediante Razonamiento y Alineación con Datos de Entrenamiento Mínimos
Con el aumento de las capacidades de los modelos de lenguaje grande (LLM), también aumenta el riesgo de solicitudes maliciosas, lo que destaca la necesidad de sistemas de protección efectivos de LLM para detectar tales consultas. Los métodos existentes se basan principalmente en enfoques de clasificación que carecen de interpretabilidad y funcionan mal en idiomas de bajos recursos. Para abordar estas limitaciones, este artículo propone ConsistentGuard, un novedoso sistema de protección multilingüe basado en razonamiento que mejora la interpretabilidad mediante razonamiento y facilita la transferencia de conocimiento entre idiomas mediante alineación. Utilizando solo 1,000 muestras de entrenamiento, el método demuestra un rendimiento excepcional en seis idiomas en tres conjuntos de datos, superando modelos más grandes entrenados con datos abundantes y exhibiendo una fuerte interpretabilidad y capacidad de generalización.
Problema Central: Los métodos existentes de protección de LLM muestran un rendimiento significativamente reducido en idiomas de bajos recursos y carecen de interpretabilidad
Importancia: Con la proliferación de aplicaciones de LLM, la necesidad de protección de seguridad en entornos multilingües es cada vez más urgente
Limitaciones de Métodos Existentes:
Los métodos basados en clasificadores carecen de interpretabilidad y apoyo de evidencia
El rendimiento disminuye significativamente en idiomas de bajos recursos (como bengalí)
Se ignora el problema de la consistencia del razonamiento entre idiomas
Motivación de la Investigación: Construir un marco de protección que posea capacidades de razonamiento y mantenga consistencia entre idiomas
Propuesta del Marco ConsistentGuard: Un marco de entrenamiento de protección multilingüe basado en razonamiento que mejora la interpretabilidad, efectividad y capacidad de generalización entre idiomas
Diseño del Algoritmo CAO: Propone Optimización de Alineación Restringida (Constrained Alignment Optimization) para resolver problemas de inconsistencia en el razonamiento entre idiomas
Implementación de Entrenamiento Eficiente en Datos: Logra rendimiento excepcional en seis idiomas en tres conjuntos de datos utilizando solo 1,000 muestras de entrenamiento
Construcción de Referencia Multilingüe: Extiende los puntos de referencia de seguridad existentes en inglés a seis idiomas y libera código y datos
Entrada: Texto de consulta del usuario (múltiples idiomas)
Salida: Juicio de seguridad (dañino/inofensivo) + Proceso de razonamiento + Categoría de violación
Restricciones: Mantener consistencia en el razonamiento entre idiomas, proporcionar justificación interpretable
Mecanismo de Recompensa Dual: Equilibra ingeniosamente la longitud del razonamiento y la diversidad, evitando que el razonamiento excesivo afecte la eficiencia
Optimización de Alineación Restringida: Restringe la dirección de optimización mediante un término de regularización global, previniendo la degradación del rendimiento en idiomas de altos recursos
Entrenamiento Progresivo de Tres Etapas: Enfoque sistemático desde destilación de conocimiento hasta mejora de razonamiento y alineación entre idiomas
Diseño Eficiente en Datos: Logra rendimiento comparable al entrenamiento a gran escala utilizando solo 1,000 muestras
El artículo cita ampliamente trabajos relacionados, incluyendo principalmente:
Protección de Seguridad de LLM: Llama Guard, ShieldGemma, GuardReasoner, etc.
Métodos Mejorados por Razonamiento: Chain-of-Thought, auto-mejora, debate adversarial, etc.
Métodos Entre Idiomas: Preentrenamiento multilingüe, ajuste fino de instrucciones, optimización de preferencia directa, etc.
Puntos de Referencia de Evaluación: OpenAI Moderation, ToxicChat, SimpleSafetyTests, etc.
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para el importante y desafiante problema de la seguridad de IA multilingüe. El diseño del método es razonable, la validación experimental es completa y posee valor académico y práctico significativo. Aunque existen algunas limitaciones, hace contribuciones importantes al desarrollo del campo.