2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.

Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.

academic

Desbloqueando Salvaguardas de LLM para Idiomas de Bajos Recursos mediante Razonamiento y Alineación con Datos de Entrenamiento Mínimos

Información Básica

ID del Artículo: 2510.10677
Título: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
Autores: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10677

Resumen

Con el aumento de las capacidades de los modelos de lenguaje grande (LLM), también aumenta el riesgo de solicitudes maliciosas, lo que destaca la necesidad de sistemas de protección efectivos de LLM para detectar tales consultas. Los métodos existentes se basan principalmente en enfoques de clasificación que carecen de interpretabilidad y funcionan mal en idiomas de bajos recursos. Para abordar estas limitaciones, este artículo propone ConsistentGuard, un novedoso sistema de protección multilingüe basado en razonamiento que mejora la interpretabilidad mediante razonamiento y facilita la transferencia de conocimiento entre idiomas mediante alineación. Utilizando solo 1,000 muestras de entrenamiento, el método demuestra un rendimiento excepcional en seis idiomas en tres conjuntos de datos, superando modelos más grandes entrenados con datos abundantes y exhibiendo una fuerte interpretabilidad y capacidad de generalización.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los métodos existentes de protección de LLM muestran un rendimiento significativamente reducido en idiomas de bajos recursos y carecen de interpretabilidad
Importancia: Con la proliferación de aplicaciones de LLM, la necesidad de protección de seguridad en entornos multilingües es cada vez más urgente
Limitaciones de Métodos Existentes:
- Los métodos basados en clasificadores carecen de interpretabilidad y apoyo de evidencia
- El rendimiento disminuye significativamente en idiomas de bajos recursos (como bengalí)
- Se ignora el problema de la consistencia del razonamiento entre idiomas
Motivación de la Investigación: Construir un marco de protección que posea capacidades de razonamiento y mantenga consistencia entre idiomas

Contribuciones Principales

Propuesta del Marco ConsistentGuard: Un marco de entrenamiento de protección multilingüe basado en razonamiento que mejora la interpretabilidad, efectividad y capacidad de generalización entre idiomas
Diseño del Algoritmo CAO: Propone Optimización de Alineación Restringida (Constrained Alignment Optimization) para resolver problemas de inconsistencia en el razonamiento entre idiomas
Implementación de Entrenamiento Eficiente en Datos: Logra rendimiento excepcional en seis idiomas en tres conjuntos de datos utilizando solo 1,000 muestras de entrenamiento
Construcción de Referencia Multilingüe: Extiende los puntos de referencia de seguridad existentes en inglés a seis idiomas y libera código y datos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Texto de consulta del usuario (múltiples idiomas) Salida: Juicio de seguridad (dañino/inofensivo) + Proceso de razonamiento + Categoría de violación Restricciones: Mantener consistencia en el razonamiento entre idiomas, proporcionar justificación interpretable

Arquitectura del Modelo

ConsistentGuard adopta un marco de entrenamiento de tres etapas:

1. Etapa de Inicio en Frío (Cold Start)

Objetivo: Destilación de conocimiento mediante ajuste fino supervisado (SFT)
Método: Utiliza DeepSeek V3 671B como modelo maestro, generando datos de entrenamiento con razonamiento de tres pasos:
- Comprensión: Entender el contenido de la conversación
- Coincidencia de Reglas: Coincidir con principios de decisión relevantes
- Juicio: Analizar si viola los principios
Construcción de Datos: Muestreo aleatorio de 1,000 muestras de cuatro conjuntos de datos de seguridad en inglés

2. Etapa de Entrenamiento de Razonamiento (Reasoning Training)

Algoritmo: Optimización de Política Relativa de Grupo (GRPO)
Diseño de Función de Recompensa:

r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

donde L es la longitud del razonamiento, Lbest es la longitud óptima (establecida en 512), y p es la tasa de repetición de tripletes

Componentes de Recompensa:
- Recompensa de Precisión: Corrección del juicio
- Recompensa de Formato: Regularidad del formato de salida
- Recompensa de Longitud: Control de la estabilidad de la longitud del razonamiento
- Recompensa de Diversidad: Prevención de la explotación de la recompensa de longitud

3. Etapa de Alineación Entre Idiomas (Cross-lingual Alignment)

Algoritmo: Optimización de Alineación Restringida (CAO)
Construcción de Datos:
- Traducción de datos en inglés a 5 idiomas
- Construcción de conjuntos de fallos y éxitos
- Síntesis de muestras alineadas: entrada fallida + salida exitosa + muestras de anclaje
Objetivo de Optimización:

LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

Puntos de Innovación Técnica

Mecanismo de Recompensa Dual: Equilibra ingeniosamente la longitud del razonamiento y la diversidad, evitando que el razonamiento excesivo afecte la eficiencia
Optimización de Alineación Restringida: Restringe la dirección de optimización mediante un término de regularización global, previniendo la degradación del rendimiento en idiomas de altos recursos
Entrenamiento Progresivo de Tres Etapas: Enfoque sistemático desde destilación de conocimiento hasta mejora de razonamiento y alineación entre idiomas
Diseño Eficiente en Datos: Logra rendimiento comparable al entrenamiento a gran escala utilizando solo 1,000 muestras

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento: Mezcla de cuatro conjuntos de datos de seguridad de código abierto, muestreo aleatorio de 1,000 muestras
- Aegis, BeaverTails, ToxicChat, WildGuard
Conjuntos de Datos de Evaluación: Tres puntos de referencia de seguridad ampliamente utilizados
- OpenAI Moderation
- ToxicChat
- SimpleSafetyTests
Cobertura de Idiomas: Inglés, francés, chino, japonés, bengalí, hindi

Métricas de Evaluación

Métrica Principal: Puntuación F1 de promedio macro
Análisis Auxiliar: Evaluación de interpretabilidad, análisis de consistencia entre idiomas

Métodos de Comparación

Llama Guard 3 (1B/8B)
ShieldGemma (2B/9B)
GuardReasoner (3B)

Detalles de Implementación

Modelo Base: Qwen2.5-3B
Entorno de Hardware: Dos NVIDIA A100 40G
Longitud Óptima de Razonamiento: 512 tokens
Muestras de Entrenamiento: Solo 1,000 muestras en inglés

Resultados Experimentales

Resultados Principales

En el conjunto de datos OpenAI Moderation:

Inglés: 78.94 (segundo lugar, solo por debajo de Llama Guard 3 8B con 79.69)
Rendimiento en Idiomas de Bajos Recursos:
- Bengalí: 72.10 (supera múltiples líneas base)
- Hindi: 73.26 (rendimiento excepcional)

En el conjunto de datos ToxicChat:

Inglés: 84.26 (comparable a GuardReasoner)
Estabilidad Entre Idiomas: Diferencias de rendimiento relativamente pequeñas entre idiomas

Experimentos de Ablación

Ablación del Entrenamiento de Razonamiento

Línea Base SFT vs Entrenamiento de Razonamiento: El entrenamiento de razonamiento proporciona mejoras significativas en todos los idiomas
Efectividad del Mecanismo de Recompensa Dual: R1-GRPO supera a GRPO estándar

Ablación del Método de Alineación

CAO vs DPO: CAO proporciona mejoras de rendimiento en la mayoría de idiomas, mientras que DPO es inestable
La mejora de CAO es más pronunciada en idiomas de bajos recursos

Hallazgos Clave

Eficiencia de Datos: Logra rendimiento comparable al de modelos entrenados con 127,600 muestras utilizando solo 1,000 muestras
Generalización Entre Idiomas: El entrenamiento de razonamiento mejora significativamente la capacidad de generalización entre idiomas
Efecto de Alineación: CAO reduce efectivamente las brechas de rendimiento entre idiomas, especialmente en idiomas de bajos recursos
Interpretabilidad: El modelo proporciona procesos de razonamiento detallados, explicando razones de violación y reglas relevantes

Trabajo Relacionado

Protección de Seguridad de LLM

Los métodos existentes se basan principalmente en clasificadores (Llama Guard, ShieldGemma)
Carecen de interpretabilidad y capacidad multilingüe
Este artículo aborda sistemáticamente por primera vez el problema de la protección de seguridad multilingüe

Entrenamiento Mejorado por Razonamiento

Se basa en métodos de CoT, auto-mejora, etc.
Optimiza la longitud del razonamiento y la diversidad para tareas de protección de seguridad
Equilibra la compensación entre profundidad de razonamiento y latencia de respuesta

Generalización de Conocimiento Entre Idiomas

La investigación existente se enfoca principalmente en alineación entre idiomas para tareas de QA
Este artículo aplica por primera vez la alineación entre idiomas a la protección de seguridad
Propone optimización restringida para evitar degradación del rendimiento en idiomas de altos recursos

Conclusiones y Discusión

Conclusiones Principales

El marco de protección multilingüe mejorado por razonamiento mejora significativamente el rendimiento e interpretabilidad
La optimización de alineación restringida resuelve efectivamente problemas de inconsistencia en el razonamiento entre idiomas
La estrategia de entrenamiento eficiente en datos tiene valor importante en escenarios con recursos limitados
El marco sistemático de entrenamiento de tres etapas proporciona un nuevo paradigma para la seguridad de IA multilingüe

Limitaciones

Cobertura de Idiomas Limitada: Solo se valida en 6 idiomas, la generalización a otros idiomas de bajos recursos requiere verificación
Restricción de Tamaño de Modelo: Solo se verifica en modelos de 3B parámetros, el efecto en modelos más grandes es desconocido
Escala de Datos de Entrenamiento: 1,000 muestras son relativamente pequeñas, el efecto de datos a mayor escala requiere exploración
Dimensiones de Evaluación: Se enfoca principalmente en precisión de clasificación, carece de evaluaciones integrales como preferencias humanas
Calidad de Explicación: Es difícil evaluar la calidad de las explicaciones de razonamiento, falta de respuestas estándar

Direcciones Futuras

Extensión a más idiomas de bajos recursos y familias lingüísticas
Validación de la efectividad del método en modelos de mayor escala
Desarrollo de métodos de evaluación automática para la calidad de explicaciones de razonamiento
Exploración de protección de seguridad en escenarios de texto largo y conversación

Evaluación Profunda

Fortalezas

Fuerte Pertinencia del Problema: Aborda directamente el dolor central de los métodos existentes en idiomas de bajos recursos
Alta Innovación del Método:
- Aborda sistemáticamente por primera vez el problema de la protección de seguridad multilingüe
- Diseño ingenioso del algoritmo de optimización de alineación restringida
- Mecanismo de recompensa dual que equilibra múltiples objetivos
Diseño Experimental Completo:
- Validación en múltiples conjuntos de datos e idiomas
- Experimentos de ablación detallados
- Comparación con múltiples líneas base sólidas
Alto Valor Práctico: Eficiente en datos, fácil de desplegar
Contribución de Código Abierto: Proporciona código y puntos de referencia extendidos

Insuficiencias

Análisis Teórico Insuficiente: Falta explicación teórica de la efectividad del método
Limitaciones de Evaluación:
- Cobertura de idiomas relativamente limitada
- Falta de evaluación cuantitativa de la calidad de explicación
- No considera el impacto de diferencias culturales en estándares de seguridad
Complejidad del Método: El entrenamiento de tres etapas aumenta la complejidad de implementación
Construcción de Referencia: La traducción automática puede introducir desviaciones semánticas

Impacto

Contribución Académica: Abre nuevas direcciones de investigación para la seguridad de IA multilingüe
Valor Práctico: Proporciona soluciones de protección de seguridad para aplicaciones de IA globalizadas
Reproducibilidad: El código abierto y los datos apoyan investigaciones posteriores
Inspiración: El marco de razonamiento + alineación es extensible a otras tareas multilingües

Escenarios Aplicables

Servicios de IA Multilingüe: Sistemas de conversación globalizados y plataformas de generación de contenido
Entornos con Recursos Limitados: Escenarios de despliegue de modelos pequeños
Aplicaciones con Altos Requisitos de Seguridad: Sistemas que requieren protección de seguridad interpretable
Plataformas Multilingües con Requisitos de Consistencia: Plataformas que requieren estándares de seguridad unificados

Referencias

El artículo cita ampliamente trabajos relacionados, incluyendo principalmente:

Protección de Seguridad de LLM: Llama Guard, ShieldGemma, GuardReasoner, etc.
Métodos Mejorados por Razonamiento: Chain-of-Thought, auto-mejora, debate adversarial, etc.
Métodos Entre Idiomas: Preentrenamiento multilingüe, ajuste fino de instrucciones, optimización de preferencia directa, etc.
Puntos de Referencia de Evaluación: OpenAI Moderation, ToxicChat, SimpleSafetyTests, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para el importante y desafiante problema de la seguridad de IA multilingüe. El diseño del método es razonable, la validación experimental es completa y posee valor académico y práctico significativo. Aunque existen algunas limitaciones, hace contribuciones importantes al desarrollo del campo.