2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic

Dirección Intra-Distribución: Equilibrando Control y Coherencia en la Generación de Modelos de Lenguaje

Información Básica

  • ID del Artículo: 2510.13285
  • Título: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
  • Autores: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13285

Resumen

Los métodos de dirección de activaciones controlan el comportamiento de modelos de lenguaje grandes (LLM) modificando activaciones internas durante la inferencia. Sin embargo, la mayoría de los métodos de dirección de activaciones existentes dependen de una intensidad de dirección fija, lo que resulta en control insuficiente o intervención excesiva, reduciendo la credibilidad y coherencia del texto. Este artículo propone la Dirección Intra-Distribución (IDS), un nuevo método que ajusta adaptativamente la intensidad de dirección basándose en la distribución de datos de entrada en el espacio de representación. IDS ajusta dinámicamente la intervención según la posición del input dado en la distribución, logrando intervención adaptativa y estabilidad generativa durante el proceso de generación de texto. Los experimentos demuestran que IDS logra una precisión sólida en tareas de clasificación mientras produce texto coherente sin colapso, haciendo que IDS sea particularmente adecuado para aplicaciones prácticas.

Antecedentes de Investigación y Motivación

Definición del Problema

Aunque los modelos de lenguaje grandes poseen capacidades de generalización excepcionales, pueden producir comportamientos indeseables, incluyendo:

  1. Inexactitud Fáctica: Generación de información errónea
  2. Problemas de Seguridad: Producción de contenido dañino
  3. Problemas de Alineación: Desajuste con requisitos específicos de aplicaciones

Limitaciones de Métodos Existentes

  1. RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana): Requiere grandes volúmenes de datos y recursos computacionales, la modificación de pesos del modelo es opaca, potencialmente introduciendo nuevos sesgos
  2. Ingeniería de Prompts: Efectos indirectos, altamente sensible al contexto
  3. Métodos de Dirección de Activaciones Existentes:
    • Utilizan intensidad de dirección fija, resultando en dirección insuficiente o excesiva
    • Carecen de pruebas adecuadas en generación de texto abierto
    • No pueden generar texto dirigido creíble

Motivación de Investigación

Necesidad de un método que pueda controlar precisamente el comportamiento de LLM mientras mantiene la calidad del texto, especialmente en escenarios de aplicación de alto riesgo.

Contribuciones Principales

  1. Propuesta del Método IDS: Un nuevo método de dirección de activaciones que ajusta dinámicamente la intensidad de dirección basándose en cada input, logrando control preciso del comportamiento mientras mantiene credibilidad y coherencia textual
  2. Evaluación Experimental Exhaustiva: Evaluación del desempeño de IDS en 6 LLM y 7 conjuntos de datos, comparación con dos métodos competidores, demostrando su efectividad, robustez y generalidad en tareas de predicción de token único y generación de texto abierto
  3. Estudios de Ablación: Análisis profundo de los componentes del desempeño de IDS, revelando los mecanismos de su éxito
  4. Fundamentos Teóricos: Basados en la hipótesis de representación lineal, proporcionando soluciones de forma cerrada para cálculo eficiente en tiempo real

Detalles del Método

Definición de Tarea

Dada la activación original h_{l,p} ∈ R^d de un modelo de lenguaje en la capa l y posición de token p, la dirección de activaciones modifica el comportamiento mediante la siguiente intervención:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

donde v_l ∈ R^d es el vector de dirección que codifica la dirección del comportamiento deseado, y α_{l,p} ∈ R controla la intensidad de intervención para la capa y posición de token específicas.

Arquitectura del Modelo

El método IDS contiene tres fases principales:

1. Modelado de Distribución

  • Construcción de Conjunto de Datos Contrastivo: Modelado separado de distribuciones de activaciones para comportamiento positivo (D^+_l) y negativo (D^-_l)
  • Reducción de Dimensionalidad PCA: Aplicación de análisis de componentes principales para abordar la maldición de dimensionalidad en espacios de alta dimensión
  • Modelado de Distancia de Mahalanobis: Uso de distancia de Mahalanobis para medir la distancia de activaciones a la distribución objetivo, estableciendo el percentil 95 como umbral intra-distribución ε

2. Determinación del Factor de Dirección Óptimo

Formulación de la determinación del factor de dirección como problema de optimización restringida:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Proporcionando solución de forma cerrada:

α = {
  (-b + √(b² - 4ac))/(2a), si b² - 4ac ≥ 0
  -b/(2a), si b² - 4ac < 0
}

donde:

  • a = ||Mv||²
  • b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
  • c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Selección de Capas

  • Evaluación de la capacidad discriminativa de vectores de dirección basada en puntuación F1
  • Establecimiento de umbral de 0.7, interviniendo solo en capas con capacidad discriminativa sólida

Puntos de Innovación Técnica

  1. Intensidad de Dirección Adaptativa: Ajuste dinámico de la intensidad de intervención según la posición del input en la distribución del comportamiento objetivo
  2. Restricción de Distribución: Garantía de que las activaciones dirigidas permanezcan dentro de la distribución del comportamiento objetivo
  3. Solución de Forma Cerrada: Proporcionamiento de método de cálculo eficiente en tiempo real
  4. Mecanismo de Selección de Capas: Intervención solo en capas con alta capacidad discriminativa

Configuración Experimental

Conjuntos de Datos

  1. Tareas de Clasificación: Filtrado de spam SMS, MMLU
  2. Comportamientos de Seguridad de IA: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
  3. Generación Abierta: Combinación de conjuntos de datos de instrucciones dañinas e inofensivas

Modelos

Prueba de 6 modelos decoder-only:

  • Gemma-2 (2B-it, 9B-it)
  • Qwen-2.5 (1.5B-it, 7B-it)
  • Llama-3.2 (1B-it)
  • Llama-3.1 (8B-it)

Métricas de Evaluación

  1. Impacto de Desempeño de Dirección (SPI): Cuantificación de la proporción de respuestas no alineadas corregidas por dirección
  2. Perplejidad (PPL): Evaluación de credibilidad textual
  3. Evaluación GPT-4: Evaluación automática de si el texto generado exhibe el comportamiento objetivo

Métodos de Comparación

  1. CAA-1 y CAA-1.5: Métodos de adición de activaciones contrastivas, usando factores de dirección fijos de 1 y 1.5
  2. MERA: Método de reducción de errores mecanizados basado en sondas lineales

Resultados Experimentales

Resultados Principales

Tareas de Generación de Token Único

  • Clasificación General: Clasificación promedio de IDS de 1.67, significativamente superior a MERA (1.93), CAA-1.5 (2.52) y CAA-1 (3.07)
  • Desempeño del Modelo: Clasificación primera en 5 de 6 modelos
  • Desempeño del Conjunto de Datos: Clasificación primera en 5 de 7 conjuntos de datos
  • Mejora de Desempeño: Mejora de hasta 18 puntos porcentuales en algunos modelos comparado con MERA

Generación de Texto Abierto

  • Clasificación SPI: Clasificación promedio de IDS de 1.39, clasificación primera en todos los 6 modelos y 4 conjuntos de datos
  • Consistencia: Clasificación consistentemente en los dos primeros en 18 configuraciones, demostrando robustez excepcional
  • Desempeño Equilibrado: Logro del mejor equilibrio entre efecto de dirección y credibilidad textual

Experimentos de Ablación

  1. Proporción de Varianza Explicada por PCA: Retención de varianza del 30%-42% produce resultados SPI más altos y estables
  2. Umbral de Distancia de Mahalanobis: Correlación leve positiva entre umbral y desempeño de dirección
  3. Umbral de Puntuación F1: Desempeño de dirección comienza a disminuir cuando supera 80%

Análisis de Casos

El artículo presenta comparación de IDS y MERA en el manejo de prompts dañinos:

  • Prompt: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
  • Salida IDS: Proporciona descripciones de síntomas relevantes pero seguras
  • Salida MERA: Produce secuencias de tokens repetitivos y sin sentido, experimentando colapso textual

Asociación entre Dirección Excesiva y Colapso

Los experimentos demuestran que MERA tiende a producir factores de dirección promedio más grandes, resultando en activaciones que se desvían de la distribución, finalmente causando colapso textual y perplejidad elevada.

Trabajo Relacionado

Métodos de Dirección de Activaciones

  1. CAA (Adición de Activaciones Contrastivas): Uso de factor de dirección fijo, potencialmente resultando en dirección insuficiente o excesiva
  2. MERA: Predicción de errores basada en sondas lineales para ajustar intensidad de dirección, pero principalmente enfocado en tareas supervisadas

Fundamentos Teóricos

  • Hipótesis de Representación Lineal: Los conceptos de alto nivel pueden codificarse como direcciones en el espacio de activaciones
  • Cálculo de Vectores de Dirección: Métodos de diferencia de medias y técnicas de sondeo supervisado

Conclusiones y Discusión

Conclusiones Principales

  1. IDS logra el mejor equilibrio entre control de comportamiento y coherencia textual mediante ajuste dinámico de intensidad de dirección
  2. Las restricciones basadas en distribución previenen efectivamente la dirección excesiva y el colapso textual
  3. El método demuestra robustez sólida y generalidad en múltiples modelos y tareas

Limitaciones

  1. Actualmente enfocado en dirección direccional, sin cubrir dirección angular
  2. Requiere construcción de conjuntos de datos contrastivos para modelar distribuciones
  3. La reducción de dimensionalidad PCA puede perder información importante

Direcciones Futuras

  1. Extensión a métodos de dirección angular
  2. Aplicación a generación de veracidad en tareas de razonamiento complejo
  3. Aplicación de dirección durante el proceso de razonamiento en modelos de razonamiento

Evaluación Profunda

Fortalezas

  1. Fundamentos Teóricos Sólidos: Marco teórico basado en hipótesis de representación lineal y restricciones de distribución
  2. Innovación Metodológica Fuerte: Primera propuesta de ajuste adaptativo de intensidad de dirección basado en distribución
  3. Evaluación Experimental Exhaustiva: Evaluación sistemática en múltiples modelos, conjuntos de datos y tareas
  4. Alto Valor Práctico: Proporciona soluciones de forma cerrada, adecuadas para aplicaciones en tiempo real
  5. Resultados Convincentes: Logro de óptimo de Pareto entre efecto de dirección y calidad textual

Insuficiencias

  1. Complejidad Computacional: Requiere cálculos de PCA y distancia de Mahalanobis, potencialmente aumentando sobrecarga de inferencia
  2. Sensibilidad de Hiperparámetros: Múltiples hiperparámetros (proporción de varianza PCA, umbral de distancia, umbral F1) requieren ajuste
  3. Dependencia de Datos: Requiere conjuntos de datos contrastivos de alta calidad para modelar distribuciones
  4. Análisis Teórico Insuficiente: Carencia de garantías teóricas sobre convergencia y estabilidad del método

Impacto

  1. Contribución Académica: Proporciona nuevo marco teórico y método práctico para el campo de dirección de activaciones
  2. Aplicación Práctica: Particularmente adecuado para escenarios de aplicación de alto riesgo que requieren control preciso del comportamiento de LLM
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

  1. Seguridad de Contenido: Prevención de generación de contenido dañino o inapropiado
  2. Control de Facticidad: Reducción de alucinaciones e información errónea
  3. Alineación de Comportamiento: Alineación del comportamiento del modelo con requisitos específicos de aplicaciones
  4. Aplicaciones en Tiempo Real: Escenarios que requieren ajuste dinámico del comportamiento del modelo durante inferencia

Referencias

El artículo cita trabajos importantes en los campos de dirección de activaciones, aprendizaje de representaciones y seguridad de IA, incluyendo:

  • Rimsky et al. (2024): Artículo original del método CAA
  • Hedström et al. (2025): Método MERA
  • Turner et al. (2024): Revisión de ingeniería de activaciones
  • Mikolov et al. (2013): Trabajo temprano sobre hipótesis de representación lineal

Resumen: El método IDS propuesto en este artículo posee importancia innovadora significativa en el campo de la dirección de activaciones. Al introducir restricciones de distribución y mecanismos de ajuste adaptativo, resuelve efectivamente el problema de dirección excesiva de métodos existentes. Los resultados experimentales demuestran plenamente la efectividad y valor práctico del método, proporcionando herramientas importantes para el despliegue seguro de LLM.