In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
Dirección Intra-Distribución: Equilibrando Control y Coherencia en la Generación de Modelos de Lenguaje
Los métodos de dirección de activaciones controlan el comportamiento de modelos de lenguaje grandes (LLM) modificando activaciones internas durante la inferencia. Sin embargo, la mayoría de los métodos de dirección de activaciones existentes dependen de una intensidad de dirección fija, lo que resulta en control insuficiente o intervención excesiva, reduciendo la credibilidad y coherencia del texto. Este artículo propone la Dirección Intra-Distribución (IDS), un nuevo método que ajusta adaptativamente la intensidad de dirección basándose en la distribución de datos de entrada en el espacio de representación. IDS ajusta dinámicamente la intervención según la posición del input dado en la distribución, logrando intervención adaptativa y estabilidad generativa durante el proceso de generación de texto. Los experimentos demuestran que IDS logra una precisión sólida en tareas de clasificación mientras produce texto coherente sin colapso, haciendo que IDS sea particularmente adecuado para aplicaciones prácticas.
RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana): Requiere grandes volúmenes de datos y recursos computacionales, la modificación de pesos del modelo es opaca, potencialmente introduciendo nuevos sesgos
Ingeniería de Prompts: Efectos indirectos, altamente sensible al contexto
Métodos de Dirección de Activaciones Existentes:
Utilizan intensidad de dirección fija, resultando en dirección insuficiente o excesiva
Carecen de pruebas adecuadas en generación de texto abierto
Necesidad de un método que pueda controlar precisamente el comportamiento de LLM mientras mantiene la calidad del texto, especialmente en escenarios de aplicación de alto riesgo.
Propuesta del Método IDS: Un nuevo método de dirección de activaciones que ajusta dinámicamente la intensidad de dirección basándose en cada input, logrando control preciso del comportamiento mientras mantiene credibilidad y coherencia textual
Evaluación Experimental Exhaustiva: Evaluación del desempeño de IDS en 6 LLM y 7 conjuntos de datos, comparación con dos métodos competidores, demostrando su efectividad, robustez y generalidad en tareas de predicción de token único y generación de texto abierto
Estudios de Ablación: Análisis profundo de los componentes del desempeño de IDS, revelando los mecanismos de su éxito
Fundamentos Teóricos: Basados en la hipótesis de representación lineal, proporcionando soluciones de forma cerrada para cálculo eficiente en tiempo real
Dada la activación original h_{l,p} ∈ R^d de un modelo de lenguaje en la capa l y posición de token p, la dirección de activaciones modifica el comportamiento mediante la siguiente intervención:
h_{l,p} ← h_{l,p} + α_{l,p}v_l
donde v_l ∈ R^d es el vector de dirección que codifica la dirección del comportamiento deseado, y α_{l,p} ∈ R controla la intensidad de intervención para la capa y posición de token específicas.
Construcción de Conjunto de Datos Contrastivo: Modelado separado de distribuciones de activaciones para comportamiento positivo (D^+_l) y negativo (D^-_l)
Reducción de Dimensionalidad PCA: Aplicación de análisis de componentes principales para abordar la maldición de dimensionalidad en espacios de alta dimensión
Modelado de Distancia de Mahalanobis: Uso de distancia de Mahalanobis para medir la distancia de activaciones a la distribución objetivo, estableciendo el percentil 95 como umbral intra-distribución ε
Intensidad de Dirección Adaptativa: Ajuste dinámico de la intensidad de intervención según la posición del input en la distribución del comportamiento objetivo
Restricción de Distribución: Garantía de que las activaciones dirigidas permanezcan dentro de la distribución del comportamiento objetivo
Solución de Forma Cerrada: Proporcionamiento de método de cálculo eficiente en tiempo real
Mecanismo de Selección de Capas: Intervención solo en capas con alta capacidad discriminativa
Los experimentos demuestran que MERA tiende a producir factores de dirección promedio más grandes, resultando en activaciones que se desvían de la distribución, finalmente causando colapso textual y perplejidad elevada.
El artículo cita trabajos importantes en los campos de dirección de activaciones, aprendizaje de representaciones y seguridad de IA, incluyendo:
Rimsky et al. (2024): Artículo original del método CAA
Hedström et al. (2025): Método MERA
Turner et al. (2024): Revisión de ingeniería de activaciones
Mikolov et al. (2013): Trabajo temprano sobre hipótesis de representación lineal
Resumen: El método IDS propuesto en este artículo posee importancia innovadora significativa en el campo de la dirección de activaciones. Al introducir restricciones de distribución y mecanismos de ajuste adaptativo, resuelve efectivamente el problema de dirección excesiva de métodos existentes. Los resultados experimentales demuestran plenamente la efectividad y valor práctico del método, proporcionando herramientas importantes para el despliegue seguro de LLM.