2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

Enseñar a los Modelos a Entender (pero no Generar) Datos de Alto Riesgo

Información Básica

ID del Artículo: 2505.03052
Título: Teaching Models to Understand (but not Generate) High-risk Data
Autores: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
Clasificación: cs.CL cs.LG
Conferencia de Publicación: COLM 2025
Enlace del Artículo: https://arxiv.org/abs/2505.03052

Resumen

Los desarrolladores de modelos de lenguaje típicamente filtran contenido de alto riesgo —como texto tóxico o protegido por derechos de autor— de sus datos de preentrenamiento para evitar que los modelos generen resultados similares. Sin embargo, eliminar tales datos completamente limita la capacidad de los modelos para reconocer y responder apropiadamente a contenido dañino o sensible. En este artículo, presentamos Selective Loss to Understand but Not Generate (SLUNG), un paradigma de preentrenamiento mediante el cual los modelos aprenden a entender datos de alto riesgo sin aprender a generarlos. En lugar de aplicar uniformemente la pérdida de predicción del siguiente token, SLUNG evita selectivamente incentivar la generación de tokens de alto riesgo mientras asegura que permanezcan dentro de la ventana de contexto del modelo. A medida que el modelo aprende a predecir tokens de bajo riesgo que siguen a los de alto riesgo, se ve obligado a entender el contenido de alto riesgo. A través de nuestros experimentos, demostramos que SLUNG mejora consistentemente la comprensión de datos de alto riesgo por parte de los modelos (por ejemplo, la capacidad de reconocer contenido tóxico) sin aumentar su generación (por ejemplo, la toxicidad de las respuestas del modelo). En general, nuestro paradigma SLUNG permite que los modelos se beneficien del texto de alto riesgo que de otro modo sería filtrado.

Antecedentes de Investigación y Motivación

Contexto del Problema

Existe una contradicción fundamental en el desarrollo actual de modelos de lenguaje: para prevenir que los modelos generen contenido dañino (como texto tóxico, contenido protegido por derechos de autor, etc.), los desarrolladores típicamente filtran estos contenidos de alto riesgo de los datos de preentrenamiento. Sin embargo, aunque este enfoque mejora la seguridad del modelo, limita la capacidad del modelo para reconocer y responder apropiadamente a contenido dañino o sensible.

Problemas Centrales

Efectos secundarios del filtrado de datos: Eliminar completamente datos de alto riesgo reduce la capacidad del modelo para entender este tipo de contenido
Acoplamiento entre comprensión y generación: El objetivo tradicional de predicción del siguiente token esencialmente acopla la capacidad de comprensión del modelo con su capacidad de generación
Requisitos de implementación práctica: En aplicaciones reales, los modelos necesitan poder identificar y manejar solicitudes dañinas, lo que requiere cierta comprensión del contenido dañino

Motivación de la Investigación

Los autores proponen lograr lo "mejor de ambos mundos": entrenar modelos que puedan entender datos de alto riesgo sin generar este tipo de contenido. Esto requiere ir más allá del objetivo estándar de predicción del siguiente token, desacoplando la capacidad de comprensión del modelo de su capacidad de generación.

Contribuciones Principales

Propuesta del marco SLUNG: Un nuevo paradigma de preentrenamiento que desacopla la comprensión de la generación mediante una función de pérdida selectiva
Innovación técnica: Diseño de estrategias de entrenamiento diferenciadas basadas en el nivel de riesgo de los tokens, incluyendo dos implementaciones: Masked SLUNG e Unlikelihood SLUNG
Verificación experimental: Validación del método en dos escenarios: comprensión de contenido tóxico y aprendizaje de entidades ficticias
Contribución teórica: Proporciona un nuevo marco y perspectiva para el desarrollo de modelos de lenguaje seguros y capaces

Explicación Detallada del Método

Definición de la Tarea

Dado un documento de preentrenamiento $X = (x_1, x_2, ..., x_{|X|})$ , cada token tiene una etiqueta binaria correspondiente $(l_1, l_2, ..., l_{|X|})$ , donde $l_i \in \{0,1\}$ indica si el i-ésimo token es un token de alto riesgo ( $l_i = 1$ ) o un token de bajo riesgo ( $l_i = 0$ ).

El objetivo es entrenar un modelo que asigne una perplejidad alta a los spans de alto riesgo, mientras mantiene una perplejidad baja en los spans de bajo riesgo que potencialmente podrían estar condicionados por contenido de alto riesgo.

Arquitectura del Modelo

Idea Central de SLUNG

La innovación clave de SLUNG radica en aplicar diferentes funciones de pérdida a tokens de diferentes niveles de riesgo:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

Donde:

Los tokens de alto riesgo ( $l_i = 1$ ) utilizan una función de pérdida personalizada $f_\theta(x_i | x_{<i})$
Los tokens de bajo riesgo ( $l_i = 0$ ) utilizan el objetivo de máxima verosimilitud estándar
Todos los tokens se mantienen en la ventana de contexto del modelo

Dos Implementaciones Específicas

1. Masked SLUNG Establece $f_\theta(x_i | x_{<i}) = 0$ para tokens de alto riesgo, es decir, enmascara su pérdida de generación, pero el token sigue siendo visible para el mecanismo de atención.

2. Unlikelihood SLUNG
Aplica $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ para tokens de alto riesgo, penalizando explícitamente al modelo por asignar probabilidades altas a tokens de alto riesgo.

Puntos de Innovación Técnica

Diseño de desacoplamiento: Primera implementación del desacoplamiento entre capacidades de comprensión y generación en la fase de preentrenamiento
Preservación del contexto: Aunque los tokens de alto riesgo no participan en el cálculo de pérdida o son penalizados, permanecen en el contexto, asegurando que el modelo aprenda sus representaciones
Mecanismo de aprendizaje indirecto: Al aprender a predecir tokens de bajo riesgo que siguen contenido de alto riesgo, se fuerza al modelo a entender el contenido de alto riesgo
Marco flexible: Puede utilizarse con cualquier clasificador de detección de riesgos

Configuración Experimental

Experimento Uno: Comprensión de Contenido Tóxico

Conjunto de Datos

Modelo base: OLMo 1B (preentrenamiento continuo desde checkpoint 737)
Datos de entrenamiento: Últimos 40 mil millones de tokens del conjunto de datos Dolma original + documentos de Reddit tóxicos inyectados (aproximadamente 2.12 mil millones de tokens, 5%)
Clasificación de toxicidad: Uso del clasificador de toxicidad FastText, categorizando contenido en Not Toxic, Possibly Toxic y Definitely Toxic

Métodos de Comparación

Control (OLMo 1B): Modelo original sin exposición a datos tóxicos
Low-risk Baseline: Entrenamiento solo en contenido de Reddit no tóxico
Toxic Baseline: Entrenamiento en todos los datos (incluyendo contenido tóxico) usando máxima verosimilitud estándar
Masked SLUNG: Enmascaramiento de pérdida para tokens Definitely Toxic y Possibly Toxic
Unlikelihood SLUNG: Aplicación de pérdida unlikelihood para tokens Definitely Toxic

Experimento Dos: Aprendizaje de Entidades Ficticias

Conjunto de Datos

Conjunto de datos TOFU: Contiene pares de preguntas y respuestas con perfiles de autores sintéticos
Configuración de entrenamiento: Ajuste fino solo en la columna de respuestas, con nombres de entidades marcados como tokens de alto riesgo
Objetivo: Aprender hechos relacionados con entidades evitando generar nombres de entidades

Métricas de Evaluación

Experimento de Toxicidad

Evaluación de generación: Uso de RealToxicityPrompts para evaluar la tendencia del modelo a generar contenido tóxico, puntuación mediante Perspective API
Evaluación de comprensión: Entrenamiento de sondas lineales en el conjunto de datos CivilComments, evaluando la capacidad de clasificación de toxicidad de los estados ocultos del modelo (AUROC)

Experimento de Aprendizaje de Entidades

Evaluación de generación: Medición de la proporción de nombres de entidades en la salida del modelo
Evaluación de comprensión: Uso de GPT-4o para evaluar la corrección del modelo al responder preguntas de hechos

Resultados Experimentales

Resultados Principales

Hallazgos Centrales del Experimento de Toxicidad

Óptimo de Pareto: El método SLUNG alcanza la frontera de Pareto en el equilibrio comprensión-generación, mejorando tanto la capacidad de comprensión de toxicidad como reduciendo la generación de toxicidad
Mejora en la Comprensión: Masked SLUNG e Unlikelihood SLUNG alcanzan AUROC de aproximadamente 0.825 y 0.820 respectivamente en CivilComments, significativamente superior a la línea base Control de 0.810
Seguridad en la Generación: Ambos métodos SLUNG mantienen puntuaciones de generación de toxicidad alrededor de 0.165, muy por debajo del Toxic Baseline de 0.175
Persistencia después del ajuste fino de instrucciones: Después del ajuste fino de instrucciones, los métodos SLUNG mantienen su optimalidad de Pareto

Efectos de la Escala de Datos

Con datos tóxicos aumentando de 20M a 320M tokens:

Masked SLUNG mantiene consistentemente el mejor equilibrio comprensión-generación
La capacidad de comprensión mejora linealmente con la cantidad de datos, pero el crecimiento de toxicidad generada es lento
Demuestra la buena escalabilidad de SLUNG

Resultados del Experimento de Aprendizaje de Entidades

Método	Tasa de Generación de Nombres↓	Tasa de Corrección Completa↑	Tasa de Corrección Parcial↑
OLMo 1B	57.5%	3.5%	15.5%
Entrenamiento Directo	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%

Experimentos de Ablación

Análisis de Perplejidad

Todos los métodos muestran diferencias insignificantes en perplejidad en documentos Dolma, indicando que SLUNG no daña la capacidad de modelado de lenguaje general
Masked SLUNG muestra la perplejidad más baja en documentos de Reddit no tóxicos
Unlikelihood SLUNG muestra perplejidad más alta en el dominio de Reddit, posiblemente porque la pérdida unlikelihood afecta la distribución de generación de ese dominio

Análisis de Casos

En el experimento TOFU, los modelos SLUNG aprendieron a responder preguntas usando pronombres ("he", "she") u omitiendo el sujeto, evitando exitosamente generar nombres de entidades mientras preservaban información de hechos.

Trabajo Relacionado

Filtrado de Datos y Manejo de Datos de Alto Riesgo

El trabajo existente aborda principalmente el contenido de alto riesgo mediante filtrado
Grattafiori et al. (2024), Soldaini et al. (2024) y otros adoptan filtrado a nivel de documento o span
Aunque estos métodos mejoran la seguridad, pierden diversidad de datos

Métodos de Entrenamiento para Prevenir Generación Indeseable

Entrenamiento Unlikelihood: Penaliza secuencias indeseables con alta probabilidad
Aprendizaje Contrastivo: Promueve candidatos preferidos mediante contraste
RLHF: Suprime generación dañina mediante retroalimentación humana
Estos métodos se enfocaban principalmente en suprimir generación, sin evaluar explícitamente la capacidad de comprensión

Métodos en Tiempo de Decodificación

Decodificación Guiada por Clasificador: Uso de clasificadores auxiliares para ajustar probabilidades de generación
Método de Tokens de Control: Condicionamiento de generación mediante tokens especiales
DExperts: Uso de modelos expertos "buenos" y "malos" para guiar generación

Conclusiones y Discusión

Conclusiones Principales

SLUNG logra exitosamente desacoplar las capacidades de comprensión y generación de modelos de lenguaje, proporcionando un nuevo paradigma para el desarrollo de IA segura
El método demuestra excelente desempeño en dos escenarios diferentes (contenido tóxico y aprendizaje de entidades), probando su generalidad
SLUNG permite que los modelos se beneficien de texto de alto riesgo que de otro modo sería filtrado, mejorando la eficiencia de utilización de datos

Limitaciones

Restricciones de presupuesto computacional: Los experimentos utilizan preentrenamiento continuo en lugar de entrenamiento desde cero, posiblemente subestimando el potencial completo del método
Dependencia del clasificador: La efectividad del método depende de la calidad del clasificador de detección de riesgos
Alcance de evaluación: La verificación se realiza principalmente en modelos de 1B parámetros, con efectos en modelos a gran escala pendientes de verificación
Especificidad de dominio: Unlikelihood SLUNG puede afectar la capacidad de generación en dominios específicos

Direcciones Futuras

Preentrenamiento a gran escala: Evaluación de efectos de SLUNG en configuraciones de preentrenamiento completo
Investigación de resistencia a ataques: Exploración de la resistencia de SLUNG a ataques de jailbreak
Mejora de clasificadores: Desarrollo de sistemas de detección de riesgos más precisos
Análisis teórico: Comprensión más profunda de las bases teóricas del mecanismo de desacoplamiento

Evaluación Profunda

Fortalezas

Innovación fuerte: Primera implementación del desacoplamiento comprensión-generación en la fase de preentrenamiento, con enfoque novedoso
Alto valor práctico: Resuelve un problema importante en el campo de la seguridad de IA, con amplias perspectivas de aplicación
Experimentación suficiente: Verificación en dos escenarios diferentes, incluyendo múltiples métodos de comparación y experimentos de ablación
Método simple: Implementación relativamente simple, fácil de reproducir y aplicar
Teoría clara: Principios del mecanismo de desacoplamiento bien explicados, con expresión matemática rigurosa

Insuficiencias

Limitaciones de escala: Los experimentos se realizan principalmente en modelos de pequeña escala, con efectos en modelos grandes aún desconocidos
Limitaciones de evaluación: La detección de toxicidad depende de clasificadores específicos, posiblemente con sesgos
Efectos a largo plazo: Falta de evaluación del impacto del método en el comportamiento del modelo a largo plazo
Costo computacional: Requiere anotación adicional de riesgos, aumentando el costo de preprocesamiento

Impacto

Contribución académica: Proporciona nuevas perspectivas para la investigación de seguridad de IA, potencialmente inspirando trabajo posterior
Valor práctico: Tiene significado de orientación directa para el desarrollo de modelos de lenguaje en la industria
Reproducibilidad: Los autores se comprometen a liberar código, facilitando verificación y extensión por la comunidad

Escenarios Aplicables

Sistemas de moderación de contenido: Aplicaciones que necesitan identificar pero no generar contenido dañino
Protección de derechos de autor: Escenarios de aprendizaje de contenido protegido evitando copia directa
Manejo de información sensible: Sistemas que entienden pero no divulgan información privada
Aplicaciones educativas: Escenarios que necesitan entender contenido inapropiado para propósitos educativos sin propagarlo

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

Longpre et al. (2023): Investigación sobre el impacto de datos de preentrenamiento en capacidades del modelo
Welleck et al. (2019): Trabajo original sobre entrenamiento Unlikelihood
Soldaini et al. (2024): Construcción y métodos de filtrado del conjunto de datos Dolma
Gehman et al. (2020): Referencia de evaluación RealToxicityPrompts

Este artículo proporciona una contribución metodológica importante para el entrenamiento seguro de modelos de lenguaje, logrando el desacoplamiento entre comprensión y generación mediante un diseño ingenioso de funciones de pérdida, sentando las bases para futuras investigaciones en IA segura.