2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

Dirección Intra-Distribución: Equilibrando Control y Coherencia en la Generación de Modelos de Lenguaje

Información Básica

ID del Artículo: 2510.13285
Título: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Autores: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13285

Resumen

Los métodos de dirección de activaciones controlan el comportamiento de modelos de lenguaje grandes (LLM) modificando activaciones internas durante la inferencia. Sin embargo, la mayoría de los métodos de dirección de activaciones existentes dependen de una intensidad de dirección fija, lo que resulta en control insuficiente o intervención excesiva, reduciendo la credibilidad y coherencia del texto. Este artículo propone la Dirección Intra-Distribución (IDS), un nuevo método que ajusta adaptativamente la intensidad de dirección basándose en la distribución de datos de entrada en el espacio de representación. IDS ajusta dinámicamente la intervención según la posición del input dado en la distribución, logrando intervención adaptativa y estabilidad generativa durante el proceso de generación de texto. Los experimentos demuestran que IDS logra una precisión sólida en tareas de clasificación mientras produce texto coherente sin colapso, haciendo que IDS sea particularmente adecuado para aplicaciones prácticas.

Antecedentes de Investigación y Motivación

Definición del Problema

Aunque los modelos de lenguaje grandes poseen capacidades de generalización excepcionales, pueden producir comportamientos indeseables, incluyendo:

Inexactitud Fáctica: Generación de información errónea
Problemas de Seguridad: Producción de contenido dañino
Problemas de Alineación: Desajuste con requisitos específicos de aplicaciones

Limitaciones de Métodos Existentes

RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana): Requiere grandes volúmenes de datos y recursos computacionales, la modificación de pesos del modelo es opaca, potencialmente introduciendo nuevos sesgos
Ingeniería de Prompts: Efectos indirectos, altamente sensible al contexto
Métodos de Dirección de Activaciones Existentes:
- Utilizan intensidad de dirección fija, resultando en dirección insuficiente o excesiva
- Carecen de pruebas adecuadas en generación de texto abierto
- No pueden generar texto dirigido creíble

Motivación de Investigación

Necesidad de un método que pueda controlar precisamente el comportamiento de LLM mientras mantiene la calidad del texto, especialmente en escenarios de aplicación de alto riesgo.

Contribuciones Principales

Propuesta del Método IDS: Un nuevo método de dirección de activaciones que ajusta dinámicamente la intensidad de dirección basándose en cada input, logrando control preciso del comportamiento mientras mantiene credibilidad y coherencia textual
Evaluación Experimental Exhaustiva: Evaluación del desempeño de IDS en 6 LLM y 7 conjuntos de datos, comparación con dos métodos competidores, demostrando su efectividad, robustez y generalidad en tareas de predicción de token único y generación de texto abierto
Estudios de Ablación: Análisis profundo de los componentes del desempeño de IDS, revelando los mecanismos de su éxito
Fundamentos Teóricos: Basados en la hipótesis de representación lineal, proporcionando soluciones de forma cerrada para cálculo eficiente en tiempo real

Detalles del Método

Definición de Tarea

Dada la activación original h_{l,p} ∈ R^d de un modelo de lenguaje en la capa l y posición de token p, la dirección de activaciones modifica el comportamiento mediante la siguiente intervención:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

donde v_l ∈ R^d es el vector de dirección que codifica la dirección del comportamiento deseado, y α_{l,p} ∈ R controla la intensidad de intervención para la capa y posición de token específicas.

Arquitectura del Modelo

El método IDS contiene tres fases principales:

1. Modelado de Distribución

Construcción de Conjunto de Datos Contrastivo: Modelado separado de distribuciones de activaciones para comportamiento positivo (D^+_l) y negativo (D^-_l)
Reducción de Dimensionalidad PCA: Aplicación de análisis de componentes principales para abordar la maldición de dimensionalidad en espacios de alta dimensión
Modelado de Distancia de Mahalanobis: Uso de distancia de Mahalanobis para medir la distancia de activaciones a la distribución objetivo, estableciendo el percentil 95 como umbral intra-distribución ε

2. Determinación del Factor de Dirección Óptimo

Formulación de la determinación del factor de dirección como problema de optimización restringida:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Proporcionando solución de forma cerrada:

α = {
  (-b + √(b² - 4ac))/(2a), si b² - 4ac ≥ 0
  -b/(2a), si b² - 4ac < 0
}

donde:

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Selección de Capas

Evaluación de la capacidad discriminativa de vectores de dirección basada en puntuación F1
Establecimiento de umbral de 0.7, interviniendo solo en capas con capacidad discriminativa sólida

Puntos de Innovación Técnica

Intensidad de Dirección Adaptativa: Ajuste dinámico de la intensidad de intervención según la posición del input en la distribución del comportamiento objetivo
Restricción de Distribución: Garantía de que las activaciones dirigidas permanezcan dentro de la distribución del comportamiento objetivo
Solución de Forma Cerrada: Proporcionamiento de método de cálculo eficiente en tiempo real
Mecanismo de Selección de Capas: Intervención solo en capas con alta capacidad discriminativa

Configuración Experimental

Conjuntos de Datos

Tareas de Clasificación: Filtrado de spam SMS, MMLU
Comportamientos de Seguridad de IA: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
Generación Abierta: Combinación de conjuntos de datos de instrucciones dañinas e inofensivas

Modelos

Prueba de 6 modelos decoder-only:

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

Métricas de Evaluación

Impacto de Desempeño de Dirección (SPI): Cuantificación de la proporción de respuestas no alineadas corregidas por dirección
Perplejidad (PPL): Evaluación de credibilidad textual
Evaluación GPT-4: Evaluación automática de si el texto generado exhibe el comportamiento objetivo

Métodos de Comparación

CAA-1 y CAA-1.5: Métodos de adición de activaciones contrastivas, usando factores de dirección fijos de 1 y 1.5
MERA: Método de reducción de errores mecanizados basado en sondas lineales

Resultados Experimentales

Resultados Principales

Tareas de Generación de Token Único

Clasificación General: Clasificación promedio de IDS de 1.67, significativamente superior a MERA (1.93), CAA-1.5 (2.52) y CAA-1 (3.07)
Desempeño del Modelo: Clasificación primera en 5 de 6 modelos
Desempeño del Conjunto de Datos: Clasificación primera en 5 de 7 conjuntos de datos
Mejora de Desempeño: Mejora de hasta 18 puntos porcentuales en algunos modelos comparado con MERA

Generación de Texto Abierto

Clasificación SPI: Clasificación promedio de IDS de 1.39, clasificación primera en todos los 6 modelos y 4 conjuntos de datos
Consistencia: Clasificación consistentemente en los dos primeros en 18 configuraciones, demostrando robustez excepcional
Desempeño Equilibrado: Logro del mejor equilibrio entre efecto de dirección y credibilidad textual

Experimentos de Ablación

Proporción de Varianza Explicada por PCA: Retención de varianza del 30%-42% produce resultados SPI más altos y estables
Umbral de Distancia de Mahalanobis: Correlación leve positiva entre umbral y desempeño de dirección
Umbral de Puntuación F1: Desempeño de dirección comienza a disminuir cuando supera 80%

Análisis de Casos

El artículo presenta comparación de IDS y MERA en el manejo de prompts dañinos:

Prompt: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
Salida IDS: Proporciona descripciones de síntomas relevantes pero seguras
Salida MERA: Produce secuencias de tokens repetitivos y sin sentido, experimentando colapso textual

Asociación entre Dirección Excesiva y Colapso

Los experimentos demuestran que MERA tiende a producir factores de dirección promedio más grandes, resultando en activaciones que se desvían de la distribución, finalmente causando colapso textual y perplejidad elevada.

Trabajo Relacionado

Métodos de Dirección de Activaciones

CAA (Adición de Activaciones Contrastivas): Uso de factor de dirección fijo, potencialmente resultando en dirección insuficiente o excesiva
MERA: Predicción de errores basada en sondas lineales para ajustar intensidad de dirección, pero principalmente enfocado en tareas supervisadas

Fundamentos Teóricos

Hipótesis de Representación Lineal: Los conceptos de alto nivel pueden codificarse como direcciones en el espacio de activaciones
Cálculo de Vectores de Dirección: Métodos de diferencia de medias y técnicas de sondeo supervisado

Conclusiones y Discusión

Conclusiones Principales

IDS logra el mejor equilibrio entre control de comportamiento y coherencia textual mediante ajuste dinámico de intensidad de dirección
Las restricciones basadas en distribución previenen efectivamente la dirección excesiva y el colapso textual
El método demuestra robustez sólida y generalidad en múltiples modelos y tareas

Limitaciones

Actualmente enfocado en dirección direccional, sin cubrir dirección angular
Requiere construcción de conjuntos de datos contrastivos para modelar distribuciones
La reducción de dimensionalidad PCA puede perder información importante

Direcciones Futuras

Extensión a métodos de dirección angular
Aplicación a generación de veracidad en tareas de razonamiento complejo
Aplicación de dirección durante el proceso de razonamiento en modelos de razonamiento

Evaluación Profunda

Fortalezas

Fundamentos Teóricos Sólidos: Marco teórico basado en hipótesis de representación lineal y restricciones de distribución
Innovación Metodológica Fuerte: Primera propuesta de ajuste adaptativo de intensidad de dirección basado en distribución
Evaluación Experimental Exhaustiva: Evaluación sistemática en múltiples modelos, conjuntos de datos y tareas
Alto Valor Práctico: Proporciona soluciones de forma cerrada, adecuadas para aplicaciones en tiempo real
Resultados Convincentes: Logro de óptimo de Pareto entre efecto de dirección y calidad textual

Insuficiencias

Complejidad Computacional: Requiere cálculos de PCA y distancia de Mahalanobis, potencialmente aumentando sobrecarga de inferencia
Sensibilidad de Hiperparámetros: Múltiples hiperparámetros (proporción de varianza PCA, umbral de distancia, umbral F1) requieren ajuste
Dependencia de Datos: Requiere conjuntos de datos contrastivos de alta calidad para modelar distribuciones
Análisis Teórico Insuficiente: Carencia de garantías teóricas sobre convergencia y estabilidad del método

Impacto

Contribución Académica: Proporciona nuevo marco teórico y método práctico para el campo de dirección de activaciones
Aplicación Práctica: Particularmente adecuado para escenarios de aplicación de alto riesgo que requieren control preciso del comportamiento de LLM
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

Seguridad de Contenido: Prevención de generación de contenido dañino o inapropiado
Control de Facticidad: Reducción de alucinaciones e información errónea
Alineación de Comportamiento: Alineación del comportamiento del modelo con requisitos específicos de aplicaciones
Aplicaciones en Tiempo Real: Escenarios que requieren ajuste dinámico del comportamiento del modelo durante inferencia

Referencias

El artículo cita trabajos importantes en los campos de dirección de activaciones, aprendizaje de representaciones y seguridad de IA, incluyendo:

Rimsky et al. (2024): Artículo original del método CAA
Hedström et al. (2025): Método MERA
Turner et al. (2024): Revisión de ingeniería de activaciones
Mikolov et al. (2013): Trabajo temprano sobre hipótesis de representación lineal

Resumen: El método IDS propuesto en este artículo posee importancia innovadora significativa en el campo de la dirección de activaciones. Al introducir restricciones de distribución y mecanismos de ajuste adaptativo, resuelve efectivamente el problema de dirección excesiva de métodos existentes. Los resultados experimentales demuestran plenamente la efectividad y valor práctico del método, proporcionando herramientas importantes para el despliegue seguro de LLM.