In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
Pilotage Intra-Distribution : Équilibrer le Contrôle et la Cohérence dans la Génération de Modèles de Langage
Les méthodes de pilotage par activation contrôlent le comportement des grands modèles de langage (LLM) en modifiant les activations internes lors de l'inférence. Cependant, la plupart des méthodes de pilotage par activation existantes dépendent d'une intensité de pilotage fixe, ce qui entraîne un contrôle insuffisant ou une intervention excessive, réduisant ainsi la crédibilité et la cohérence du texte. Cet article propose le Pilotage Intra-Distribution (IDS), une nouvelle approche qui ajuste dynamiquement l'intensité du pilotage en fonction de la distribution des données d'entrée dans l'espace de représentation. L'IDS adapte l'intervention en fonction de la position de l'entrée donnée dans la distribution, réalisant une intervention adaptative et une stabilité de génération tout au long du processus de génération de texte. Les expériences montrent que l'IDS atteint une précision élevée sur les tâches de classification, tout en produisant un texte cohérent sans effondrement, ce qui rend l'IDS particulièrement adapté aux applications pratiques.
Bien que les grands modèles de langage possèdent des capacités de généralisation exceptionnelles, ils peuvent produire des comportements indésirables, notamment :
RLHF (Apprentissage par Renforcement avec Retours Humains) : nécessite de grandes quantités de données et de ressources informatiques, la modification des poids du modèle manque de transparence, peut introduire de nouveaux biais
Ingénierie des Invites : effets indirects, hautement sensible au contexte
Méthodes de Pilotage par Activation Existantes :
Utilisation d'une intensité de pilotage fixe, entraînant un pilotage insuffisant ou excessif
Tests insuffisants sur la génération de texte en libre
Nécessité d'une méthode capable de contrôler précisément le comportement des LLM tout en maintenant la qualité du texte, particulièrement dans les scénarios d'applications à haut risque.
Proposition de la méthode IDS : une nouvelle approche de pilotage par activation capable d'ajuster dynamiquement l'intensité du pilotage en fonction de chaque entrée, réalisant un contrôle comportemental précis tout en maintenant la crédibilité et la cohérence du texte
Évaluation Expérimentale Complète : évaluation de la performance d'IDS sur 6 LLM et 7 ensembles de données, comparaison avec deux méthodes concurrentes, démontrant son efficacité, sa robustesse et sa généralité sur les tâches de prédiction de token unique et de génération de texte en libre
Études d'Ablation : analyse approfondie des composants contribuant à la performance d'IDS, révélant les mécanismes de son succès
Fondements Théoriques : basés sur l'hypothèse de représentation linéaire, fournissant une solution en forme fermée, permettant un calcul efficace en temps réel
Étant donné l'activation originale h_{l,p} ∈ R^d d'un modèle de langage à la couche l et à la position de token p, le pilotage par activation modifie le comportement par l'intervention suivante :
h_{l,p} ← h_{l,p} + α_{l,p}v_l
où v_l ∈ R^d est le vecteur de pilotage codant la direction du comportement souhaité, et α_{l,p} ∈ R contrôle l'intensité de l'intervention pour la couche et la position de token spécifiques.
Construction d'Ensembles de Données Contrastifs : modélisation séparée des distributions d'activation pour les comportements positifs (D^+_l) et négatifs (D^-_l)
Réduction de Dimensionnalité par PCA : application de l'analyse en composantes principales pour résoudre le problème de malédiction de dimensionnalité dans les espaces de haute dimension
Modélisation par Distance de Mahalanobis : utilisation de la distance de Mahalanobis pour mesurer la distance de l'activation à la distribution cible, établissement du 95e percentile comme seuil intra-distribution ε
Intensité de Pilotage Adaptative : ajustement dynamique de l'intensité de l'intervention en fonction de la position de l'entrée dans la distribution du comportement cible
Contrainte de Distribution : assurance que l'activation pilotée reste dans la distribution du comportement cible
Solution en Forme Fermée : fourniture d'une méthode de calcul efficace en temps réel
Mécanisme de Sélection des Couches : intervention uniquement sur les couches possédant une forte capacité discriminante
Les expériences montrent que MERA tend à produire des facteurs de pilotage moyens plus importants, entraînant une déviation de l'activation de la distribution, causant finalement l'effondrement du texte et une perplexité élevée.
L'article cite des travaux importants dans les domaines du pilotage par activation, de l'apprentissage de représentations, et de la sécurité de l'IA, notamment :
Rimsky et al. (2024) : article original de la méthode CAA
Hedström et al. (2025) : méthode MERA
Turner et al. (2024) : synthèse de l'ingénierie d'activation
Mikolov et al. (2013) : travaux précoces sur l'hypothèse de représentation linéaire
Résumé : La méthode IDS proposée dans cet article possède une importance d'innovation significative dans le domaine du pilotage par activation. En introduisant des contraintes de distribution et des mécanismes d'ajustement adaptatif, elle résout efficacement le problème de surpilotage des méthodes existantes. Les résultats expérimentaux démontrent pleinement l'efficacité et la valeur pratique de la méthode, fournissant un outil important pour le déploiement sécurisé des LLM.