2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic

Pilotage Intra-Distribution : Équilibrer le Contrôle et la Cohérence dans la Génération de Modèles de Langage

Informations Fondamentales

  • ID de l'article : 2510.13285
  • Titre : In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
  • Auteurs : Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.13285

Résumé

Les méthodes de pilotage par activation contrôlent le comportement des grands modèles de langage (LLM) en modifiant les activations internes lors de l'inférence. Cependant, la plupart des méthodes de pilotage par activation existantes dépendent d'une intensité de pilotage fixe, ce qui entraîne un contrôle insuffisant ou une intervention excessive, réduisant ainsi la crédibilité et la cohérence du texte. Cet article propose le Pilotage Intra-Distribution (IDS), une nouvelle approche qui ajuste dynamiquement l'intensité du pilotage en fonction de la distribution des données d'entrée dans l'espace de représentation. L'IDS adapte l'intervention en fonction de la position de l'entrée donnée dans la distribution, réalisant une intervention adaptative et une stabilité de génération tout au long du processus de génération de texte. Les expériences montrent que l'IDS atteint une précision élevée sur les tâches de classification, tout en produisant un texte cohérent sans effondrement, ce qui rend l'IDS particulièrement adapté aux applications pratiques.

Contexte de Recherche et Motivation

Définition du Problème

Bien que les grands modèles de langage possèdent des capacités de généralisation exceptionnelles, ils peuvent produire des comportements indésirables, notamment :

  1. Imprécision factuelle : génération d'informations erronées
  2. Problèmes de sécurité : production de contenu nuisible
  3. Problèmes d'alignement : non-conformité aux exigences d'applications spécifiques

Limitations des Méthodes Existantes

  1. RLHF (Apprentissage par Renforcement avec Retours Humains) : nécessite de grandes quantités de données et de ressources informatiques, la modification des poids du modèle manque de transparence, peut introduire de nouveaux biais
  2. Ingénierie des Invites : effets indirects, hautement sensible au contexte
  3. Méthodes de Pilotage par Activation Existantes :
    • Utilisation d'une intensité de pilotage fixe, entraînant un pilotage insuffisant ou excessif
    • Tests insuffisants sur la génération de texte en libre
    • Incapacité à générer du texte piloté crédible

Motivation de la Recherche

Nécessité d'une méthode capable de contrôler précisément le comportement des LLM tout en maintenant la qualité du texte, particulièrement dans les scénarios d'applications à haut risque.

Contributions Principales

  1. Proposition de la méthode IDS : une nouvelle approche de pilotage par activation capable d'ajuster dynamiquement l'intensité du pilotage en fonction de chaque entrée, réalisant un contrôle comportemental précis tout en maintenant la crédibilité et la cohérence du texte
  2. Évaluation Expérimentale Complète : évaluation de la performance d'IDS sur 6 LLM et 7 ensembles de données, comparaison avec deux méthodes concurrentes, démontrant son efficacité, sa robustesse et sa généralité sur les tâches de prédiction de token unique et de génération de texte en libre
  3. Études d'Ablation : analyse approfondie des composants contribuant à la performance d'IDS, révélant les mécanismes de son succès
  4. Fondements Théoriques : basés sur l'hypothèse de représentation linéaire, fournissant une solution en forme fermée, permettant un calcul efficace en temps réel

Détails de la Méthode

Définition de la Tâche

Étant donné l'activation originale h_{l,p} ∈ R^d d'un modèle de langage à la couche l et à la position de token p, le pilotage par activation modifie le comportement par l'intervention suivante :

h_{l,p} ← h_{l,p} + α_{l,p}v_l

où v_l ∈ R^d est le vecteur de pilotage codant la direction du comportement souhaité, et α_{l,p} ∈ R contrôle l'intensité de l'intervention pour la couche et la position de token spécifiques.

Architecture du Modèle

La méthode IDS comprend trois étapes principales :

1. Modélisation de la Distribution

  • Construction d'Ensembles de Données Contrastifs : modélisation séparée des distributions d'activation pour les comportements positifs (D^+_l) et négatifs (D^-_l)
  • Réduction de Dimensionnalité par PCA : application de l'analyse en composantes principales pour résoudre le problème de malédiction de dimensionnalité dans les espaces de haute dimension
  • Modélisation par Distance de Mahalanobis : utilisation de la distance de Mahalanobis pour mesurer la distance de l'activation à la distribution cible, établissement du 95e percentile comme seuil intra-distribution ε

2. Détermination du Facteur de Pilotage Optimal

Formulation de la détermination du facteur de pilotage comme un problème d'optimisation sous contrainte :

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Fourniture d'une solution en forme fermée :

α = {
  (-b + √(b² - 4ac))/(2a), si b² - 4ac ≥ 0
  -b/(2a), si b² - 4ac < 0
}

où :

  • a = ||Mv||²
  • b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
  • c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Sélection des Couches

  • Évaluation de la capacité discriminante des vecteurs de pilotage basée sur le score F1
  • Établissement d'un seuil de 0,7, intervention uniquement sur les couches avec une forte capacité discriminante

Points d'Innovation Technique

  1. Intensité de Pilotage Adaptative : ajustement dynamique de l'intensité de l'intervention en fonction de la position de l'entrée dans la distribution du comportement cible
  2. Contrainte de Distribution : assurance que l'activation pilotée reste dans la distribution du comportement cible
  3. Solution en Forme Fermée : fourniture d'une méthode de calcul efficace en temps réel
  4. Mécanisme de Sélection des Couches : intervention uniquement sur les couches possédant une forte capacité discriminante

Configuration Expérimentale

Ensembles de Données

  1. Tâches de Classification : filtrage de spam SMS, MMLU
  2. Comportements de Sécurité IA : coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
  3. Génération en Libre : combinaison d'ensembles de données d'instructions nuisibles et inoffensives

Modèles

Test de 6 modèles decoder-only :

  • Gemma-2 (2B-it, 9B-it)
  • Qwen-2.5 (1.5B-it, 7B-it)
  • Llama-3.2 (1B-it)
  • Llama-3.1 (8B-it)

Métriques d'Évaluation

  1. Impact de Performance du Pilotage (SPI) : quantification de la proportion de réponses mal alignées corrigées par le pilotage
  2. Perplexité (PPL) : évaluation de la crédibilité du texte
  3. Évaluation GPT-4 : évaluation automatique de la manifestation du comportement cible dans le texte généré

Méthodes de Comparaison

  1. CAA-1 et CAA-1.5 : méthodes d'ajout d'activation contrastive, utilisant des facteurs de pilotage fixes de 1 et 1,5
  2. MERA : méthode de réduction d'erreur mécanisée basée sur des sondes linéaires

Résultats Expérimentaux

Résultats Principaux

Tâches de Génération de Token Unique

  • Classement Global : classement moyen d'IDS de 1,67, significativement supérieur à MERA (1,93), CAA-1.5 (2,52) et CAA-1 (3,07)
  • Performance du Modèle : classement premier sur 5 des 6 modèles
  • Performance de l'Ensemble de Données : classement premier sur 5 des 7 ensembles de données
  • Amélioration de Performance : amélioration jusqu'à 18 points de pourcentage par rapport à MERA sur certains modèles

Génération de Texte en Libre

  • Classement SPI : classement moyen d'IDS de 1,39, classement premier sur tous les 6 modèles et 4 ensembles de données
  • Cohérence : classement constamment dans les deux premiers sur 18 configurations, démontrant une robustesse exceptionnelle
  • Performance Équilibrée : réalisation du meilleur équilibre entre l'efficacité du pilotage et la crédibilité du texte

Études d'Ablation

  1. Ratio de Variance Expliquée par PCA : conservation de 30%-42% de la variance produit les résultats SPI les plus élevés et les plus stables
  2. Seuil de Distance de Mahalanobis : corrélation légèrement positive entre le seuil et la performance du pilotage
  3. Seuil de Score F1 : la performance du pilotage commence à diminuer au-delà de 80%

Analyse de Cas

L'article présente une comparaison entre IDS et MERA dans le traitement d'invites nuisibles :

  • Invite : "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
  • Sortie IDS : fourniture de descriptions de symptômes pertinentes mais sûres
  • Sortie MERA : production de séquences de tokens répétitives et dénuées de sens, effondrement du texte

Association entre Surpilotage et Effondrement

Les expériences montrent que MERA tend à produire des facteurs de pilotage moyens plus importants, entraînant une déviation de l'activation de la distribution, causant finalement l'effondrement du texte et une perplexité élevée.

Travaux Connexes

Méthodes de Pilotage par Activation

  1. CAA (Ajout d'Activation Contrastive) : utilisation d'un facteur de pilotage fixe, pouvant entraîner un pilotage insuffisant ou excessif
  2. MERA : ajustement de l'intensité du pilotage basé sur la prédiction d'erreur par sonde linéaire, mais principalement destiné aux tâches supervisées

Fondements Théoriques

  • Hypothèse de Représentation Linéaire : les concepts de haut niveau peuvent être codés comme des directions dans l'espace d'activation
  • Calcul du Vecteur de Pilotage : méthode de différence de moyennes et techniques de sondage supervisé

Conclusions et Discussion

Conclusions Principales

  1. L'IDS réalise le meilleur équilibre entre le contrôle comportemental et la cohérence du texte en ajustant dynamiquement l'intensité du pilotage
  2. Les contraintes basées sur la distribution préviennent efficacement le surpilotage et l'effondrement du texte
  3. La méthode démontre une robustesse et une généralité fortes sur plusieurs modèles et tâches

Limitations

  1. Actuellement concentrée sur le pilotage directionnel, n'abordant pas le pilotage angulaire
  2. Nécessite la construction d'ensembles de données contrastifs pour modéliser la distribution
  3. La réduction de dimensionnalité par PCA peut perdre certaines informations importantes

Directions Futures

  1. Extension aux méthodes de pilotage angulaire
  2. Application à la génération de véracité dans les tâches de raisonnement complexe
  3. Application du pilotage au cours du processus de raisonnement dans les modèles de raisonnement

Évaluation Approfondie

Points Forts

  1. Fondements Théoriques Solides : cadre théorique basé sur l'hypothèse de représentation linéaire et les contraintes de distribution
  2. Innovation Méthodologique Forte : première proposition d'ajustement adaptatif de l'intensité du pilotage basée sur la distribution
  3. Expérimentation Complète et Suffisante : évaluation systématique sur plusieurs modèles, ensembles de données et tâches
  4. Valeur Pratique Élevée : fourniture d'une solution en forme fermée, adaptée aux applications en temps réel
  5. Résultats Convaincants : réalisation de l'optimalité de Pareto entre l'efficacité du pilotage et la qualité du texte

Insuffisances

  1. Complexité Computationnelle : nécessite le calcul de PCA et de distance de Mahalanobis, pouvant augmenter la surcharge d'inférence
  2. Sensibilité aux Hyperparamètres : plusieurs hyperparamètres (ratio de variance PCA, seuil de distance, seuil F1) nécessitent un ajustement
  3. Dépendance aux Données : nécessite des ensembles de données contrastifs de haute qualité pour modéliser la distribution
  4. Analyse Théorique Insuffisante : manque de garanties théoriques sur la convergence et la stabilité de la méthode

Impact

  1. Contribution Académique : fourniture d'un nouveau cadre théorique et d'une méthode pratique pour le domaine du pilotage par activation
  2. Application Pratique : particulièrement adaptée aux scénarios d'applications à haut risque nécessitant un contrôle précis du comportement des LLM
  3. Reproductibilité : fourniture de détails d'implémentation détaillés et de code open-source

Scénarios d'Application

  1. Sécurité du Contenu : prévention de la génération de contenu nuisible ou inapproprié
  2. Contrôle de Factualité : réduction des hallucinations et des informations erronées
  3. Alignement Comportemental : alignement du comportement du modèle avec les exigences d'applications spécifiques
  4. Applications en Temps Réel : scénarios nécessitant un ajustement dynamique du comportement du modèle lors de l'inférence

Références

L'article cite des travaux importants dans les domaines du pilotage par activation, de l'apprentissage de représentations, et de la sécurité de l'IA, notamment :

  • Rimsky et al. (2024) : article original de la méthode CAA
  • Hedström et al. (2025) : méthode MERA
  • Turner et al. (2024) : synthèse de l'ingénierie d'activation
  • Mikolov et al. (2013) : travaux précoces sur l'hypothèse de représentation linéaire

Résumé : La méthode IDS proposée dans cet article possède une importance d'innovation significative dans le domaine du pilotage par activation. En introduisant des contraintes de distribution et des mécanismes d'ajustement adaptatif, elle résout efficacement le problème de surpilotage des méthodes existantes. Les résultats expérimentaux démontrent pleinement l'efficacité et la valeur pratique de la méthode, fournissant un outil important pour le déploiement sécurisé des LLM.