2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

Pilotage Intra-Distribution : Équilibrer le Contrôle et la Cohérence dans la Génération de Modèles de Langage

Informations Fondamentales

ID de l'article : 2510.13285
Titre : In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Auteurs : Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13285

Résumé

Les méthodes de pilotage par activation contrôlent le comportement des grands modèles de langage (LLM) en modifiant les activations internes lors de l'inférence. Cependant, la plupart des méthodes de pilotage par activation existantes dépendent d'une intensité de pilotage fixe, ce qui entraîne un contrôle insuffisant ou une intervention excessive, réduisant ainsi la crédibilité et la cohérence du texte. Cet article propose le Pilotage Intra-Distribution (IDS), une nouvelle approche qui ajuste dynamiquement l'intensité du pilotage en fonction de la distribution des données d'entrée dans l'espace de représentation. L'IDS adapte l'intervention en fonction de la position de l'entrée donnée dans la distribution, réalisant une intervention adaptative et une stabilité de génération tout au long du processus de génération de texte. Les expériences montrent que l'IDS atteint une précision élevée sur les tâches de classification, tout en produisant un texte cohérent sans effondrement, ce qui rend l'IDS particulièrement adapté aux applications pratiques.

Contexte de Recherche et Motivation

Définition du Problème

Bien que les grands modèles de langage possèdent des capacités de généralisation exceptionnelles, ils peuvent produire des comportements indésirables, notamment :

Imprécision factuelle : génération d'informations erronées
Problèmes de sécurité : production de contenu nuisible
Problèmes d'alignement : non-conformité aux exigences d'applications spécifiques

Limitations des Méthodes Existantes

RLHF (Apprentissage par Renforcement avec Retours Humains) : nécessite de grandes quantités de données et de ressources informatiques, la modification des poids du modèle manque de transparence, peut introduire de nouveaux biais
Ingénierie des Invites : effets indirects, hautement sensible au contexte
Méthodes de Pilotage par Activation Existantes :
- Utilisation d'une intensité de pilotage fixe, entraînant un pilotage insuffisant ou excessif
- Tests insuffisants sur la génération de texte en libre
- Incapacité à générer du texte piloté crédible

Motivation de la Recherche

Nécessité d'une méthode capable de contrôler précisément le comportement des LLM tout en maintenant la qualité du texte, particulièrement dans les scénarios d'applications à haut risque.

Contributions Principales

Proposition de la méthode IDS : une nouvelle approche de pilotage par activation capable d'ajuster dynamiquement l'intensité du pilotage en fonction de chaque entrée, réalisant un contrôle comportemental précis tout en maintenant la crédibilité et la cohérence du texte
Évaluation Expérimentale Complète : évaluation de la performance d'IDS sur 6 LLM et 7 ensembles de données, comparaison avec deux méthodes concurrentes, démontrant son efficacité, sa robustesse et sa généralité sur les tâches de prédiction de token unique et de génération de texte en libre
Études d'Ablation : analyse approfondie des composants contribuant à la performance d'IDS, révélant les mécanismes de son succès
Fondements Théoriques : basés sur l'hypothèse de représentation linéaire, fournissant une solution en forme fermée, permettant un calcul efficace en temps réel

Détails de la Méthode

Définition de la Tâche

Étant donné l'activation originale h_{l,p} ∈ R^d d'un modèle de langage à la couche l et à la position de token p, le pilotage par activation modifie le comportement par l'intervention suivante :

h_{l,p} ← h_{l,p} + α_{l,p}v_l

où v_l ∈ R^d est le vecteur de pilotage codant la direction du comportement souhaité, et α_{l,p} ∈ R contrôle l'intensité de l'intervention pour la couche et la position de token spécifiques.

Architecture du Modèle

La méthode IDS comprend trois étapes principales :

1. Modélisation de la Distribution

Construction d'Ensembles de Données Contrastifs : modélisation séparée des distributions d'activation pour les comportements positifs (D^+_l) et négatifs (D^-_l)
Réduction de Dimensionnalité par PCA : application de l'analyse en composantes principales pour résoudre le problème de malédiction de dimensionnalité dans les espaces de haute dimension
Modélisation par Distance de Mahalanobis : utilisation de la distance de Mahalanobis pour mesurer la distance de l'activation à la distribution cible, établissement du 95e percentile comme seuil intra-distribution ε

2. Détermination du Facteur de Pilotage Optimal

Formulation de la détermination du facteur de pilotage comme un problème d'optimisation sous contrainte :

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Fourniture d'une solution en forme fermée :

α = {
  (-b + √(b² - 4ac))/(2a), si b² - 4ac ≥ 0
  -b/(2a), si b² - 4ac < 0
}

où :

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Sélection des Couches

Évaluation de la capacité discriminante des vecteurs de pilotage basée sur le score F1
Établissement d'un seuil de 0,7, intervention uniquement sur les couches avec une forte capacité discriminante

Points d'Innovation Technique

Intensité de Pilotage Adaptative : ajustement dynamique de l'intensité de l'intervention en fonction de la position de l'entrée dans la distribution du comportement cible
Contrainte de Distribution : assurance que l'activation pilotée reste dans la distribution du comportement cible
Solution en Forme Fermée : fourniture d'une méthode de calcul efficace en temps réel
Mécanisme de Sélection des Couches : intervention uniquement sur les couches possédant une forte capacité discriminante

Configuration Expérimentale

Ensembles de Données

Tâches de Classification : filtrage de spam SMS, MMLU
Comportements de Sécurité IA : coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
Génération en Libre : combinaison d'ensembles de données d'instructions nuisibles et inoffensives

Modèles

Test de 6 modèles decoder-only :

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

Métriques d'Évaluation

Impact de Performance du Pilotage (SPI) : quantification de la proportion de réponses mal alignées corrigées par le pilotage
Perplexité (PPL) : évaluation de la crédibilité du texte
Évaluation GPT-4 : évaluation automatique de la manifestation du comportement cible dans le texte généré

Méthodes de Comparaison

CAA-1 et CAA-1.5 : méthodes d'ajout d'activation contrastive, utilisant des facteurs de pilotage fixes de 1 et 1,5
MERA : méthode de réduction d'erreur mécanisée basée sur des sondes linéaires

Résultats Expérimentaux

Résultats Principaux

Tâches de Génération de Token Unique

Classement Global : classement moyen d'IDS de 1,67, significativement supérieur à MERA (1,93), CAA-1.5 (2,52) et CAA-1 (3,07)
Performance du Modèle : classement premier sur 5 des 6 modèles
Performance de l'Ensemble de Données : classement premier sur 5 des 7 ensembles de données
Amélioration de Performance : amélioration jusqu'à 18 points de pourcentage par rapport à MERA sur certains modèles

Génération de Texte en Libre

Classement SPI : classement moyen d'IDS de 1,39, classement premier sur tous les 6 modèles et 4 ensembles de données
Cohérence : classement constamment dans les deux premiers sur 18 configurations, démontrant une robustesse exceptionnelle
Performance Équilibrée : réalisation du meilleur équilibre entre l'efficacité du pilotage et la crédibilité du texte

Études d'Ablation

Ratio de Variance Expliquée par PCA : conservation de 30%-42% de la variance produit les résultats SPI les plus élevés et les plus stables
Seuil de Distance de Mahalanobis : corrélation légèrement positive entre le seuil et la performance du pilotage
Seuil de Score F1 : la performance du pilotage commence à diminuer au-delà de 80%

Analyse de Cas

L'article présente une comparaison entre IDS et MERA dans le traitement d'invites nuisibles :

Invite : "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
Sortie IDS : fourniture de descriptions de symptômes pertinentes mais sûres
Sortie MERA : production de séquences de tokens répétitives et dénuées de sens, effondrement du texte

Association entre Surpilotage et Effondrement

Les expériences montrent que MERA tend à produire des facteurs de pilotage moyens plus importants, entraînant une déviation de l'activation de la distribution, causant finalement l'effondrement du texte et une perplexité élevée.

Travaux Connexes

Méthodes de Pilotage par Activation

CAA (Ajout d'Activation Contrastive) : utilisation d'un facteur de pilotage fixe, pouvant entraîner un pilotage insuffisant ou excessif
MERA : ajustement de l'intensité du pilotage basé sur la prédiction d'erreur par sonde linéaire, mais principalement destiné aux tâches supervisées

Fondements Théoriques

Hypothèse de Représentation Linéaire : les concepts de haut niveau peuvent être codés comme des directions dans l'espace d'activation
Calcul du Vecteur de Pilotage : méthode de différence de moyennes et techniques de sondage supervisé

Conclusions et Discussion

Conclusions Principales

L'IDS réalise le meilleur équilibre entre le contrôle comportemental et la cohérence du texte en ajustant dynamiquement l'intensité du pilotage
Les contraintes basées sur la distribution préviennent efficacement le surpilotage et l'effondrement du texte
La méthode démontre une robustesse et une généralité fortes sur plusieurs modèles et tâches

Limitations

Actuellement concentrée sur le pilotage directionnel, n'abordant pas le pilotage angulaire
Nécessite la construction d'ensembles de données contrastifs pour modéliser la distribution
La réduction de dimensionnalité par PCA peut perdre certaines informations importantes

Directions Futures

Extension aux méthodes de pilotage angulaire
Application à la génération de véracité dans les tâches de raisonnement complexe
Application du pilotage au cours du processus de raisonnement dans les modèles de raisonnement

Évaluation Approfondie

Points Forts

Fondements Théoriques Solides : cadre théorique basé sur l'hypothèse de représentation linéaire et les contraintes de distribution
Innovation Méthodologique Forte : première proposition d'ajustement adaptatif de l'intensité du pilotage basée sur la distribution
Expérimentation Complète et Suffisante : évaluation systématique sur plusieurs modèles, ensembles de données et tâches
Valeur Pratique Élevée : fourniture d'une solution en forme fermée, adaptée aux applications en temps réel
Résultats Convaincants : réalisation de l'optimalité de Pareto entre l'efficacité du pilotage et la qualité du texte

Insuffisances

Complexité Computationnelle : nécessite le calcul de PCA et de distance de Mahalanobis, pouvant augmenter la surcharge d'inférence
Sensibilité aux Hyperparamètres : plusieurs hyperparamètres (ratio de variance PCA, seuil de distance, seuil F1) nécessitent un ajustement
Dépendance aux Données : nécessite des ensembles de données contrastifs de haute qualité pour modéliser la distribution
Analyse Théorique Insuffisante : manque de garanties théoriques sur la convergence et la stabilité de la méthode

Impact

Contribution Académique : fourniture d'un nouveau cadre théorique et d'une méthode pratique pour le domaine du pilotage par activation
Application Pratique : particulièrement adaptée aux scénarios d'applications à haut risque nécessitant un contrôle précis du comportement des LLM
Reproductibilité : fourniture de détails d'implémentation détaillés et de code open-source

Scénarios d'Application

Sécurité du Contenu : prévention de la génération de contenu nuisible ou inapproprié
Contrôle de Factualité : réduction des hallucinations et des informations erronées
Alignement Comportemental : alignement du comportement du modèle avec les exigences d'applications spécifiques
Applications en Temps Réel : scénarios nécessitant un ajustement dynamique du comportement du modèle lors de l'inférence

Références

L'article cite des travaux importants dans les domaines du pilotage par activation, de l'apprentissage de représentations, et de la sécurité de l'IA, notamment :

Rimsky et al. (2024) : article original de la méthode CAA
Hedström et al. (2025) : méthode MERA
Turner et al. (2024) : synthèse de l'ingénierie d'activation
Mikolov et al. (2013) : travaux précoces sur l'hypothèse de représentation linéaire

Résumé : La méthode IDS proposée dans cet article possède une importance d'innovation significative dans le domaine du pilotage par activation. En introduisant des contraintes de distribution et des mécanismes d'ajustement adaptatif, elle résout efficacement le problème de surpilotage des méthodes existantes. Les résultats expérimentaux démontrent pleinement l'efficacité et la valeur pratique de la méthode, fournissant un outil important pour le déploiement sécurisé des LLM.