Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
- ID del Artículo: 2505.03052
- Título: Teaching Models to Understand (but not Generate) High-risk Data
- Autores: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
- Clasificación: cs.CL cs.LG
- Conferencia de Publicación: COLM 2025
- Enlace del Artículo: https://arxiv.org/abs/2505.03052
Los desarrolladores de modelos de lenguaje típicamente filtran contenido de alto riesgo —como texto tóxico o protegido por derechos de autor— de sus datos de preentrenamiento para evitar que los modelos generen resultados similares. Sin embargo, eliminar tales datos completamente limita la capacidad de los modelos para reconocer y responder apropiadamente a contenido dañino o sensible. En este artículo, presentamos Selective Loss to Understand but Not Generate (SLUNG), un paradigma de preentrenamiento mediante el cual los modelos aprenden a entender datos de alto riesgo sin aprender a generarlos. En lugar de aplicar uniformemente la pérdida de predicción del siguiente token, SLUNG evita selectivamente incentivar la generación de tokens de alto riesgo mientras asegura que permanezcan dentro de la ventana de contexto del modelo. A medida que el modelo aprende a predecir tokens de bajo riesgo que siguen a los de alto riesgo, se ve obligado a entender el contenido de alto riesgo. A través de nuestros experimentos, demostramos que SLUNG mejora consistentemente la comprensión de datos de alto riesgo por parte de los modelos (por ejemplo, la capacidad de reconocer contenido tóxico) sin aumentar su generación (por ejemplo, la toxicidad de las respuestas del modelo). En general, nuestro paradigma SLUNG permite que los modelos se beneficien del texto de alto riesgo que de otro modo sería filtrado.
Existe una contradicción fundamental en el desarrollo actual de modelos de lenguaje: para prevenir que los modelos generen contenido dañino (como texto tóxico, contenido protegido por derechos de autor, etc.), los desarrolladores típicamente filtran estos contenidos de alto riesgo de los datos de preentrenamiento. Sin embargo, aunque este enfoque mejora la seguridad del modelo, limita la capacidad del modelo para reconocer y responder apropiadamente a contenido dañino o sensible.
- Efectos secundarios del filtrado de datos: Eliminar completamente datos de alto riesgo reduce la capacidad del modelo para entender este tipo de contenido
- Acoplamiento entre comprensión y generación: El objetivo tradicional de predicción del siguiente token esencialmente acopla la capacidad de comprensión del modelo con su capacidad de generación
- Requisitos de implementación práctica: En aplicaciones reales, los modelos necesitan poder identificar y manejar solicitudes dañinas, lo que requiere cierta comprensión del contenido dañino
Los autores proponen lograr lo "mejor de ambos mundos": entrenar modelos que puedan entender datos de alto riesgo sin generar este tipo de contenido. Esto requiere ir más allá del objetivo estándar de predicción del siguiente token, desacoplando la capacidad de comprensión del modelo de su capacidad de generación.
- Propuesta del marco SLUNG: Un nuevo paradigma de preentrenamiento que desacopla la comprensión de la generación mediante una función de pérdida selectiva
- Innovación técnica: Diseño de estrategias de entrenamiento diferenciadas basadas en el nivel de riesgo de los tokens, incluyendo dos implementaciones: Masked SLUNG e Unlikelihood SLUNG
- Verificación experimental: Validación del método en dos escenarios: comprensión de contenido tóxico y aprendizaje de entidades ficticias
- Contribución teórica: Proporciona un nuevo marco y perspectiva para el desarrollo de modelos de lenguaje seguros y capaces
Dado un documento de preentrenamiento X=(x1,x2,...,x∣X∣), cada token tiene una etiqueta binaria correspondiente (l1,l2,...,l∣X∣), donde li∈{0,1} indica si el i-ésimo token es un token de alto riesgo (li=1) o un token de bajo riesgo (li=0).
El objetivo es entrenar un modelo que asigne una perplejidad alta a los spans de alto riesgo, mientras mantiene una perplejidad baja en los spans de bajo riesgo que potencialmente podrían estar condicionados por contenido de alto riesgo.
La innovación clave de SLUNG radica en aplicar diferentes funciones de pérdida a tokens de diferentes niveles de riesgo:
L(θ,X)=−∑i=1∣X∣[1[li=1]fθ(xi∣x<i)+1[li=0]logpθ(xi∣x<i)]
Donde:
- Los tokens de alto riesgo (li=1) utilizan una función de pérdida personalizada fθ(xi∣x<i)
- Los tokens de bajo riesgo (li=0) utilizan el objetivo de máxima verosimilitud estándar
- Todos los tokens se mantienen en la ventana de contexto del modelo
1. Masked SLUNG
Establece fθ(xi∣x<i)=0 para tokens de alto riesgo, es decir, enmascara su pérdida de generación, pero el token sigue siendo visible para el mecanismo de atención.
2. Unlikelihood SLUNG
Aplica fθ(xi∣x<i)=log(1−pθ(xi∣x<i)) para tokens de alto riesgo, penalizando explícitamente al modelo por asignar probabilidades altas a tokens de alto riesgo.
- Diseño de desacoplamiento: Primera implementación del desacoplamiento entre capacidades de comprensión y generación en la fase de preentrenamiento
- Preservación del contexto: Aunque los tokens de alto riesgo no participan en el cálculo de pérdida o son penalizados, permanecen en el contexto, asegurando que el modelo aprenda sus representaciones
- Mecanismo de aprendizaje indirecto: Al aprender a predecir tokens de bajo riesgo que siguen contenido de alto riesgo, se fuerza al modelo a entender el contenido de alto riesgo
- Marco flexible: Puede utilizarse con cualquier clasificador de detección de riesgos
- Modelo base: OLMo 1B (preentrenamiento continuo desde checkpoint 737)
- Datos de entrenamiento: Últimos 40 mil millones de tokens del conjunto de datos Dolma original + documentos de Reddit tóxicos inyectados (aproximadamente 2.12 mil millones de tokens, 5%)
- Clasificación de toxicidad: Uso del clasificador de toxicidad FastText, categorizando contenido en Not Toxic, Possibly Toxic y Definitely Toxic
- Control (OLMo 1B): Modelo original sin exposición a datos tóxicos
- Low-risk Baseline: Entrenamiento solo en contenido de Reddit no tóxico
- Toxic Baseline: Entrenamiento en todos los datos (incluyendo contenido tóxico) usando máxima verosimilitud estándar
- Masked SLUNG: Enmascaramiento de pérdida para tokens Definitely Toxic y Possibly Toxic
- Unlikelihood SLUNG: Aplicación de pérdida unlikelihood para tokens Definitely Toxic
- Conjunto de datos TOFU: Contiene pares de preguntas y respuestas con perfiles de autores sintéticos
- Configuración de entrenamiento: Ajuste fino solo en la columna de respuestas, con nombres de entidades marcados como tokens de alto riesgo
- Objetivo: Aprender hechos relacionados con entidades evitando generar nombres de entidades
- Evaluación de generación: Uso de RealToxicityPrompts para evaluar la tendencia del modelo a generar contenido tóxico, puntuación mediante Perspective API
- Evaluación de comprensión: Entrenamiento de sondas lineales en el conjunto de datos CivilComments, evaluando la capacidad de clasificación de toxicidad de los estados ocultos del modelo (AUROC)
- Evaluación de generación: Medición de la proporción de nombres de entidades en la salida del modelo
- Evaluación de comprensión: Uso de GPT-4o para evaluar la corrección del modelo al responder preguntas de hechos
- Óptimo de Pareto: El método SLUNG alcanza la frontera de Pareto en el equilibrio comprensión-generación, mejorando tanto la capacidad de comprensión de toxicidad como reduciendo la generación de toxicidad
- Mejora en la Comprensión: Masked SLUNG e Unlikelihood SLUNG alcanzan AUROC de aproximadamente 0.825 y 0.820 respectivamente en CivilComments, significativamente superior a la línea base Control de 0.810
- Seguridad en la Generación: Ambos métodos SLUNG mantienen puntuaciones de generación de toxicidad alrededor de 0.165, muy por debajo del Toxic Baseline de 0.175
- Persistencia después del ajuste fino de instrucciones: Después del ajuste fino de instrucciones, los métodos SLUNG mantienen su optimalidad de Pareto
Con datos tóxicos aumentando de 20M a 320M tokens:
- Masked SLUNG mantiene consistentemente el mejor equilibrio comprensión-generación
- La capacidad de comprensión mejora linealmente con la cantidad de datos, pero el crecimiento de toxicidad generada es lento
- Demuestra la buena escalabilidad de SLUNG
| Método | Tasa de Generación de Nombres↓ | Tasa de Corrección Completa↑ | Tasa de Corrección Parcial↑ |
|---|
| OLMo 1B | 57.5% | 3.5% | 15.5% |
| Entrenamiento Directo | 34.3±9.2% | 28.2±0.6% | 51.4±0.7% |
| Masked SLUNG | 4.1±1.2% | 20.8±1.9% | 44.0±2.1% |
| Unlikelihood SLUNG | 1.5±0.7% | 22.3±2.1% | 43.6±3.2% |
- Todos los métodos muestran diferencias insignificantes en perplejidad en documentos Dolma, indicando que SLUNG no daña la capacidad de modelado de lenguaje general
- Masked SLUNG muestra la perplejidad más baja en documentos de Reddit no tóxicos
- Unlikelihood SLUNG muestra perplejidad más alta en el dominio de Reddit, posiblemente porque la pérdida unlikelihood afecta la distribución de generación de ese dominio
En el experimento TOFU, los modelos SLUNG aprendieron a responder preguntas usando pronombres ("he", "she") u omitiendo el sujeto, evitando exitosamente generar nombres de entidades mientras preservaban información de hechos.
- El trabajo existente aborda principalmente el contenido de alto riesgo mediante filtrado
- Grattafiori et al. (2024), Soldaini et al. (2024) y otros adoptan filtrado a nivel de documento o span
- Aunque estos métodos mejoran la seguridad, pierden diversidad de datos
- Entrenamiento Unlikelihood: Penaliza secuencias indeseables con alta probabilidad
- Aprendizaje Contrastivo: Promueve candidatos preferidos mediante contraste
- RLHF: Suprime generación dañina mediante retroalimentación humana
- Estos métodos se enfocaban principalmente en suprimir generación, sin evaluar explícitamente la capacidad de comprensión
- Decodificación Guiada por Clasificador: Uso de clasificadores auxiliares para ajustar probabilidades de generación
- Método de Tokens de Control: Condicionamiento de generación mediante tokens especiales
- DExperts: Uso de modelos expertos "buenos" y "malos" para guiar generación
- SLUNG logra exitosamente desacoplar las capacidades de comprensión y generación de modelos de lenguaje, proporcionando un nuevo paradigma para el desarrollo de IA segura
- El método demuestra excelente desempeño en dos escenarios diferentes (contenido tóxico y aprendizaje de entidades), probando su generalidad
- SLUNG permite que los modelos se beneficien de texto de alto riesgo que de otro modo sería filtrado, mejorando la eficiencia de utilización de datos
- Restricciones de presupuesto computacional: Los experimentos utilizan preentrenamiento continuo en lugar de entrenamiento desde cero, posiblemente subestimando el potencial completo del método
- Dependencia del clasificador: La efectividad del método depende de la calidad del clasificador de detección de riesgos
- Alcance de evaluación: La verificación se realiza principalmente en modelos de 1B parámetros, con efectos en modelos a gran escala pendientes de verificación
- Especificidad de dominio: Unlikelihood SLUNG puede afectar la capacidad de generación en dominios específicos
- Preentrenamiento a gran escala: Evaluación de efectos de SLUNG en configuraciones de preentrenamiento completo
- Investigación de resistencia a ataques: Exploración de la resistencia de SLUNG a ataques de jailbreak
- Mejora de clasificadores: Desarrollo de sistemas de detección de riesgos más precisos
- Análisis teórico: Comprensión más profunda de las bases teóricas del mecanismo de desacoplamiento
- Innovación fuerte: Primera implementación del desacoplamiento comprensión-generación en la fase de preentrenamiento, con enfoque novedoso
- Alto valor práctico: Resuelve un problema importante en el campo de la seguridad de IA, con amplias perspectivas de aplicación
- Experimentación suficiente: Verificación en dos escenarios diferentes, incluyendo múltiples métodos de comparación y experimentos de ablación
- Método simple: Implementación relativamente simple, fácil de reproducir y aplicar
- Teoría clara: Principios del mecanismo de desacoplamiento bien explicados, con expresión matemática rigurosa
- Limitaciones de escala: Los experimentos se realizan principalmente en modelos de pequeña escala, con efectos en modelos grandes aún desconocidos
- Limitaciones de evaluación: La detección de toxicidad depende de clasificadores específicos, posiblemente con sesgos
- Efectos a largo plazo: Falta de evaluación del impacto del método en el comportamiento del modelo a largo plazo
- Costo computacional: Requiere anotación adicional de riesgos, aumentando el costo de preprocesamiento
- Contribución académica: Proporciona nuevas perspectivas para la investigación de seguridad de IA, potencialmente inspirando trabajo posterior
- Valor práctico: Tiene significado de orientación directa para el desarrollo de modelos de lenguaje en la industria
- Reproducibilidad: Los autores se comprometen a liberar código, facilitando verificación y extensión por la comunidad
- Sistemas de moderación de contenido: Aplicaciones que necesitan identificar pero no generar contenido dañino
- Protección de derechos de autor: Escenarios de aprendizaje de contenido protegido evitando copia directa
- Manejo de información sensible: Sistemas que entienden pero no divulgan información privada
- Aplicaciones educativas: Escenarios que necesitan entender contenido inapropiado para propósitos educativos sin propagarlo
El artículo cita múltiples trabajos importantes, incluyendo:
- Longpre et al. (2023): Investigación sobre el impacto de datos de preentrenamiento en capacidades del modelo
- Welleck et al. (2019): Trabajo original sobre entrenamiento Unlikelihood
- Soldaini et al. (2024): Construcción y métodos de filtrado del conjunto de datos Dolma
- Gehman et al. (2020): Referencia de evaluación RealToxicityPrompts
Este artículo proporciona una contribución metodológica importante para el entrenamiento seguro de modelos de lenguaje, logrando el desacoplamiento entre comprensión y generación mediante un diseño ingenioso de funciones de pérdida, sentando las bases para futuras investigaciones en IA segura.