A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
Cet article fournit une base théorique pour les techniques de contrôle au moment de l'inférence des grands modèles de langage. Les recherches existantes montrent qu'il est possible de contrôler efficacement le comportement des grands modèles de langage en modifiant directement les états internes du modèle (en ajoutant des vecteurs aux activations ou en mettant à jour les matrices de poids). Cependant, ces techniques reposent généralement sur des heuristiques empiriques et manquent de fondement théorique. Cet article généralise la théorie aux transformers multi-blocs profonds en se basant sur la découverte que l'influence des invites peut être mathématiquement mappée en mises à jour de poids implicites. L'article montre comment tout bloc d'information dans une invite utilisateur peut être représenté et combiné en interne via des vecteurs de poids et des matrices de poids, et dérive une approche principielle pour compresser cette information en « vecteurs d'idée » et « matrices d'idée » indépendants des tokens.
Le problème fondamental que cette recherche vise à résoudre est : pourquoi les techniques d'intervention de modèle existantes (telles que le guidage d'activation et l'édition de modèle) peuvent-elles contrôler efficacement les comportements de modèle complexes ? Quels sont les principes mathématiques sous-jacents à ces techniques ?
Absence de théorie : Bien que les techniques de guidage vectoriel et d'édition matricielle soient très efficaces en pratique, elles manquent d'explication théorique basée sur l'architecture transformer
Limitations des méthodes : Les méthodes existantes reposent principalement sur des heuristiques empiriques, comme la construction de vecteurs de guidage par moyenne des activations contrastées d'invites
Besoin d'un cadre unifié : Un cadre théorique unifié est nécessaire pour expliquer comment les instructions textuelles se traduisent en changements de poids ou d'activations concrets
Méthodes de guidage d'activation : L'utilisation seule de l'addition vectorielle peut ne pas représenter complètement l'effet complet des instructions
Méthodes d'édition de modèle : Absence de stratégies dérivées des premiers principes pour compresser les informations d'invite générales en mises à jour de poids réutilisables
Explication théorique insuffisante : Le succès des techniques existantes manque d'explication théorique basée sur les mécanismes de calcul des transformers
Extension théorique : Extension de la théorie des correctifs de tokens pour un bloc transformer unique à l'architecture transformer multi-blocs profonde
Cadre des correctifs d'idée : Proposition d'une méthode pour agréger les correctifs transitoires dépendants des tokens en mises à jour de poids réutilisables
Unification théorique : Fourniture d'une explication théorique unifiée pour les techniques existantes de guidage vectoriel et d'édition matricielle
Méthode pratique : Fourniture d'une méthode de calcul pour convertir directement les invites textuelles en mises à jour de poids
Étant donné une invite contenant un bloc d'instruction I et du contenu ultérieur C = I, x₁, ..., xₙ, l'objectif est de trouver une mise à jour de poids équivalente telle que la sortie du modèle après suppression de l'instruction I soit identique à celle de l'invite complète originale.
En se basant sur les travaux de Dherin et al., la sortie d'un bloc transformer unique peut être parfaitement reproduite via les correctifs de tokens suivants :
En supposant que les vecteurs aᵢ sont distribués de manière sphérique, Z s'approxime comme un multiple de la matrice identité, ce qui donne la formule pratique :
Unification théorique : Unification réussie des techniques empiriques de contrôle de modèle dans un cadre théorique basé sur le calcul transformer
Efficacité de la méthode : Les expériences démontrent la faisabilité de la méthode des correctifs d'idée sur les tâches arithmétiques et de traduction
Explication théorique : Fourniture d'une base mathématique pour les méthodes heuristiques existantes, comme le fait que la moyenne d'activation contrastée est le bon choix pour l'approximation des moindres carrés
Outils d'analyse : Utilisation du cadre comme outil d'analyse pour mieux comprendre les représentations de tâches et le raisonnement dans les grands modèles de langage
Amélioration des performances : Recherche de méthodes pour réduire l'écart de performance et diminuer la sensibilité aux hyperparamètres
Extension des applications : Exploration des applications sur des tâches plus complexes
Approfondissement théorique : Perfectionnement supplémentaire du cadre théorique pour traiter des cas plus généraux
Contribution théorique majeure : Première fourniture d'une base théorique rigoureuse pour les techniques de contrôle de modèle, comblant un vide théorique important
Rigueur mathématique : Fourniture de dérivations mathématiques complètes et de preuves de théorèmes, cadre théorique solide
Force d'unification : Unification réussie de deux classes de méthodes apparemment différentes (guidage vectoriel et édition matricielle)
Valeur pratique : La méthode peut être appliquée directement, offrant de nouvelles perspectives pour les applications pratiques
Valeur académique : Fourniture d'une base théorique importante pour la compréhension des mécanismes transformer et la recherche sur le contrôle de modèle
Perspectives pratiques : Fourniture d'une nouvelle voie technologique pour le déploiement et le contrôle de modèles
Inspiration pour la recherche : Peut catalyser davantage de recherches sur les méthodes de contrôle de modèle basées sur la théorie
Dherin et al. (2025) - Théorie de l'apprentissage dynamique implicite pour les transformers à bloc unique
Turner et al. (2025) - Ingénierie d'activation pour guider les modèles de langage
Meng et al. (2022) - Localisation et édition des associations factuelles dans GPT
Todd et al. (2024) - Vecteurs fonctionnels dans les grands modèles de langage
Évaluation globale : Cet article possède une valeur théorique importante, fournissant avec succès une base théorique rigoureuse pour les techniques empiriques de contrôle de modèle. Bien qu'il y ait de la place pour l'amélioration dans la vérification expérimentale, sa contribution théorique est importante pour la compréhension et le développement des techniques de contrôle de modèles transformer.