2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.
Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
academic

Desbloqueando Salvaguardas de LLM para Idiomas de Bajos Recursos mediante Razonamiento y Alineación con Datos de Entrenamiento Mínimos

Información Básica

  • ID del Artículo: 2510.10677
  • Título: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
  • Autores: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10677

Resumen

Con el aumento de las capacidades de los modelos de lenguaje grande (LLM), también aumenta el riesgo de solicitudes maliciosas, lo que destaca la necesidad de sistemas de protección efectivos de LLM para detectar tales consultas. Los métodos existentes se basan principalmente en enfoques de clasificación que carecen de interpretabilidad y funcionan mal en idiomas de bajos recursos. Para abordar estas limitaciones, este artículo propone ConsistentGuard, un novedoso sistema de protección multilingüe basado en razonamiento que mejora la interpretabilidad mediante razonamiento y facilita la transferencia de conocimiento entre idiomas mediante alineación. Utilizando solo 1,000 muestras de entrenamiento, el método demuestra un rendimiento excepcional en seis idiomas en tres conjuntos de datos, superando modelos más grandes entrenados con datos abundantes y exhibiendo una fuerte interpretabilidad y capacidad de generalización.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los métodos existentes de protección de LLM muestran un rendimiento significativamente reducido en idiomas de bajos recursos y carecen de interpretabilidad
  2. Importancia: Con la proliferación de aplicaciones de LLM, la necesidad de protección de seguridad en entornos multilingües es cada vez más urgente
  3. Limitaciones de Métodos Existentes:
    • Los métodos basados en clasificadores carecen de interpretabilidad y apoyo de evidencia
    • El rendimiento disminuye significativamente en idiomas de bajos recursos (como bengalí)
    • Se ignora el problema de la consistencia del razonamiento entre idiomas
  4. Motivación de la Investigación: Construir un marco de protección que posea capacidades de razonamiento y mantenga consistencia entre idiomas

Contribuciones Principales

  1. Propuesta del Marco ConsistentGuard: Un marco de entrenamiento de protección multilingüe basado en razonamiento que mejora la interpretabilidad, efectividad y capacidad de generalización entre idiomas
  2. Diseño del Algoritmo CAO: Propone Optimización de Alineación Restringida (Constrained Alignment Optimization) para resolver problemas de inconsistencia en el razonamiento entre idiomas
  3. Implementación de Entrenamiento Eficiente en Datos: Logra rendimiento excepcional en seis idiomas en tres conjuntos de datos utilizando solo 1,000 muestras de entrenamiento
  4. Construcción de Referencia Multilingüe: Extiende los puntos de referencia de seguridad existentes en inglés a seis idiomas y libera código y datos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Texto de consulta del usuario (múltiples idiomas) Salida: Juicio de seguridad (dañino/inofensivo) + Proceso de razonamiento + Categoría de violación Restricciones: Mantener consistencia en el razonamiento entre idiomas, proporcionar justificación interpretable

Arquitectura del Modelo

ConsistentGuard adopta un marco de entrenamiento de tres etapas:

1. Etapa de Inicio en Frío (Cold Start)

  • Objetivo: Destilación de conocimiento mediante ajuste fino supervisado (SFT)
  • Método: Utiliza DeepSeek V3 671B como modelo maestro, generando datos de entrenamiento con razonamiento de tres pasos:
    • Comprensión: Entender el contenido de la conversación
    • Coincidencia de Reglas: Coincidir con principios de decisión relevantes
    • Juicio: Analizar si viola los principios
  • Construcción de Datos: Muestreo aleatorio de 1,000 muestras de cuatro conjuntos de datos de seguridad en inglés

2. Etapa de Entrenamiento de Razonamiento (Reasoning Training)

  • Algoritmo: Optimización de Política Relativa de Grupo (GRPO)
  • Diseño de Función de Recompensa:
r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

donde L es la longitud del razonamiento, Lbest es la longitud óptima (establecida en 512), y p es la tasa de repetición de tripletes

  • Componentes de Recompensa:
    • Recompensa de Precisión: Corrección del juicio
    • Recompensa de Formato: Regularidad del formato de salida
    • Recompensa de Longitud: Control de la estabilidad de la longitud del razonamiento
    • Recompensa de Diversidad: Prevención de la explotación de la recompensa de longitud

3. Etapa de Alineación Entre Idiomas (Cross-lingual Alignment)

  • Algoritmo: Optimización de Alineación Restringida (CAO)
  • Construcción de Datos:
    • Traducción de datos en inglés a 5 idiomas
    • Construcción de conjuntos de fallos y éxitos
    • Síntesis de muestras alineadas: entrada fallida + salida exitosa + muestras de anclaje
  • Objetivo de Optimización:
LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

Puntos de Innovación Técnica

  1. Mecanismo de Recompensa Dual: Equilibra ingeniosamente la longitud del razonamiento y la diversidad, evitando que el razonamiento excesivo afecte la eficiencia
  2. Optimización de Alineación Restringida: Restringe la dirección de optimización mediante un término de regularización global, previniendo la degradación del rendimiento en idiomas de altos recursos
  3. Entrenamiento Progresivo de Tres Etapas: Enfoque sistemático desde destilación de conocimiento hasta mejora de razonamiento y alineación entre idiomas
  4. Diseño Eficiente en Datos: Logra rendimiento comparable al entrenamiento a gran escala utilizando solo 1,000 muestras

Configuración Experimental

Conjuntos de Datos

  • Datos de Entrenamiento: Mezcla de cuatro conjuntos de datos de seguridad de código abierto, muestreo aleatorio de 1,000 muestras
    • Aegis, BeaverTails, ToxicChat, WildGuard
  • Conjuntos de Datos de Evaluación: Tres puntos de referencia de seguridad ampliamente utilizados
    • OpenAI Moderation
    • ToxicChat
    • SimpleSafetyTests
  • Cobertura de Idiomas: Inglés, francés, chino, japonés, bengalí, hindi

Métricas de Evaluación

  • Métrica Principal: Puntuación F1 de promedio macro
  • Análisis Auxiliar: Evaluación de interpretabilidad, análisis de consistencia entre idiomas

Métodos de Comparación

  • Llama Guard 3 (1B/8B)
  • ShieldGemma (2B/9B)
  • GuardReasoner (3B)

Detalles de Implementación

  • Modelo Base: Qwen2.5-3B
  • Entorno de Hardware: Dos NVIDIA A100 40G
  • Longitud Óptima de Razonamiento: 512 tokens
  • Muestras de Entrenamiento: Solo 1,000 muestras en inglés

Resultados Experimentales

Resultados Principales

En el conjunto de datos OpenAI Moderation:

  • Inglés: 78.94 (segundo lugar, solo por debajo de Llama Guard 3 8B con 79.69)
  • Rendimiento en Idiomas de Bajos Recursos:
    • Bengalí: 72.10 (supera múltiples líneas base)
    • Hindi: 73.26 (rendimiento excepcional)

En el conjunto de datos ToxicChat:

  • Inglés: 84.26 (comparable a GuardReasoner)
  • Estabilidad Entre Idiomas: Diferencias de rendimiento relativamente pequeñas entre idiomas

Experimentos de Ablación

Ablación del Entrenamiento de Razonamiento

  • Línea Base SFT vs Entrenamiento de Razonamiento: El entrenamiento de razonamiento proporciona mejoras significativas en todos los idiomas
  • Efectividad del Mecanismo de Recompensa Dual: R1-GRPO supera a GRPO estándar

Ablación del Método de Alineación

  • CAO vs DPO: CAO proporciona mejoras de rendimiento en la mayoría de idiomas, mientras que DPO es inestable
  • La mejora de CAO es más pronunciada en idiomas de bajos recursos

Hallazgos Clave

  1. Eficiencia de Datos: Logra rendimiento comparable al de modelos entrenados con 127,600 muestras utilizando solo 1,000 muestras
  2. Generalización Entre Idiomas: El entrenamiento de razonamiento mejora significativamente la capacidad de generalización entre idiomas
  3. Efecto de Alineación: CAO reduce efectivamente las brechas de rendimiento entre idiomas, especialmente en idiomas de bajos recursos
  4. Interpretabilidad: El modelo proporciona procesos de razonamiento detallados, explicando razones de violación y reglas relevantes

Trabajo Relacionado

Protección de Seguridad de LLM

  • Los métodos existentes se basan principalmente en clasificadores (Llama Guard, ShieldGemma)
  • Carecen de interpretabilidad y capacidad multilingüe
  • Este artículo aborda sistemáticamente por primera vez el problema de la protección de seguridad multilingüe

Entrenamiento Mejorado por Razonamiento

  • Se basa en métodos de CoT, auto-mejora, etc.
  • Optimiza la longitud del razonamiento y la diversidad para tareas de protección de seguridad
  • Equilibra la compensación entre profundidad de razonamiento y latencia de respuesta

Generalización de Conocimiento Entre Idiomas

  • La investigación existente se enfoca principalmente en alineación entre idiomas para tareas de QA
  • Este artículo aplica por primera vez la alineación entre idiomas a la protección de seguridad
  • Propone optimización restringida para evitar degradación del rendimiento en idiomas de altos recursos

Conclusiones y Discusión

Conclusiones Principales

  1. El marco de protección multilingüe mejorado por razonamiento mejora significativamente el rendimiento e interpretabilidad
  2. La optimización de alineación restringida resuelve efectivamente problemas de inconsistencia en el razonamiento entre idiomas
  3. La estrategia de entrenamiento eficiente en datos tiene valor importante en escenarios con recursos limitados
  4. El marco sistemático de entrenamiento de tres etapas proporciona un nuevo paradigma para la seguridad de IA multilingüe

Limitaciones

  1. Cobertura de Idiomas Limitada: Solo se valida en 6 idiomas, la generalización a otros idiomas de bajos recursos requiere verificación
  2. Restricción de Tamaño de Modelo: Solo se verifica en modelos de 3B parámetros, el efecto en modelos más grandes es desconocido
  3. Escala de Datos de Entrenamiento: 1,000 muestras son relativamente pequeñas, el efecto de datos a mayor escala requiere exploración
  4. Dimensiones de Evaluación: Se enfoca principalmente en precisión de clasificación, carece de evaluaciones integrales como preferencias humanas
  5. Calidad de Explicación: Es difícil evaluar la calidad de las explicaciones de razonamiento, falta de respuestas estándar

Direcciones Futuras

  1. Extensión a más idiomas de bajos recursos y familias lingüísticas
  2. Validación de la efectividad del método en modelos de mayor escala
  3. Desarrollo de métodos de evaluación automática para la calidad de explicaciones de razonamiento
  4. Exploración de protección de seguridad en escenarios de texto largo y conversación

Evaluación Profunda

Fortalezas

  1. Fuerte Pertinencia del Problema: Aborda directamente el dolor central de los métodos existentes en idiomas de bajos recursos
  2. Alta Innovación del Método:
    • Aborda sistemáticamente por primera vez el problema de la protección de seguridad multilingüe
    • Diseño ingenioso del algoritmo de optimización de alineación restringida
    • Mecanismo de recompensa dual que equilibra múltiples objetivos
  3. Diseño Experimental Completo:
    • Validación en múltiples conjuntos de datos e idiomas
    • Experimentos de ablación detallados
    • Comparación con múltiples líneas base sólidas
  4. Alto Valor Práctico: Eficiente en datos, fácil de desplegar
  5. Contribución de Código Abierto: Proporciona código y puntos de referencia extendidos

Insuficiencias

  1. Análisis Teórico Insuficiente: Falta explicación teórica de la efectividad del método
  2. Limitaciones de Evaluación:
    • Cobertura de idiomas relativamente limitada
    • Falta de evaluación cuantitativa de la calidad de explicación
    • No considera el impacto de diferencias culturales en estándares de seguridad
  3. Complejidad del Método: El entrenamiento de tres etapas aumenta la complejidad de implementación
  4. Construcción de Referencia: La traducción automática puede introducir desviaciones semánticas

Impacto

  1. Contribución Académica: Abre nuevas direcciones de investigación para la seguridad de IA multilingüe
  2. Valor Práctico: Proporciona soluciones de protección de seguridad para aplicaciones de IA globalizadas
  3. Reproducibilidad: El código abierto y los datos apoyan investigaciones posteriores
  4. Inspiración: El marco de razonamiento + alineación es extensible a otras tareas multilingües

Escenarios Aplicables

  1. Servicios de IA Multilingüe: Sistemas de conversación globalizados y plataformas de generación de contenido
  2. Entornos con Recursos Limitados: Escenarios de despliegue de modelos pequeños
  3. Aplicaciones con Altos Requisitos de Seguridad: Sistemas que requieren protección de seguridad interpretable
  4. Plataformas Multilingües con Requisitos de Consistencia: Plataformas que requieren estándares de seguridad unificados

Referencias

El artículo cita ampliamente trabajos relacionados, incluyendo principalmente:

  • Protección de Seguridad de LLM: Llama Guard, ShieldGemma, GuardReasoner, etc.
  • Métodos Mejorados por Razonamiento: Chain-of-Thought, auto-mejora, debate adversarial, etc.
  • Métodos Entre Idiomas: Preentrenamiento multilingüe, ajuste fino de instrucciones, optimización de preferencia directa, etc.
  • Puntos de Referencia de Evaluación: OpenAI Moderation, ToxicChat, SimpleSafetyTests, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para el importante y desafiante problema de la seguridad de IA multilingüe. El diseño del método es razonable, la validación experimental es completa y posee valor académico y práctico significativo. Aunque existen algunas limitaciones, hace contribuciones importantes al desarrollo del campo.