2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.

A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.

academic

Transmuter les invites en poids

Informations de base

ID de l'article : 2510.08734
Titre : Transmuter les invites en poids
Auteurs : Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
Classification : cs.LG (Apprentissage automatique)
Date de publication : 9 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.08734

Résumé

Cet article fournit une base théorique pour les techniques de contrôle au moment de l'inférence des grands modèles de langage. Les recherches existantes montrent qu'il est possible de contrôler efficacement le comportement des grands modèles de langage en modifiant directement les états internes du modèle (en ajoutant des vecteurs aux activations ou en mettant à jour les matrices de poids). Cependant, ces techniques reposent généralement sur des heuristiques empiriques et manquent de fondement théorique. Cet article généralise la théorie aux transformers multi-blocs profonds en se basant sur la découverte que l'influence des invites peut être mathématiquement mappée en mises à jour de poids implicites. L'article montre comment tout bloc d'information dans une invite utilisateur peut être représenté et combiné en interne via des vecteurs de poids et des matrices de poids, et dérive une approche principielle pour compresser cette information en « vecteurs d'idée » et « matrices d'idée » indépendants des tokens.

Contexte et motivation de la recherche

Définition du problème

Le problème fondamental que cette recherche vise à résoudre est : pourquoi les techniques d'intervention de modèle existantes (telles que le guidage d'activation et l'édition de modèle) peuvent-elles contrôler efficacement les comportements de modèle complexes ? Quels sont les principes mathématiques sous-jacents à ces techniques ?

Importance

Absence de théorie : Bien que les techniques de guidage vectoriel et d'édition matricielle soient très efficaces en pratique, elles manquent d'explication théorique basée sur l'architecture transformer
Limitations des méthodes : Les méthodes existantes reposent principalement sur des heuristiques empiriques, comme la construction de vecteurs de guidage par moyenne des activations contrastées d'invites
Besoin d'un cadre unifié : Un cadre théorique unifié est nécessaire pour expliquer comment les instructions textuelles se traduisent en changements de poids ou d'activations concrets

Limitations des approches existantes

Méthodes de guidage d'activation : L'utilisation seule de l'addition vectorielle peut ne pas représenter complètement l'effet complet des instructions
Méthodes d'édition de modèle : Absence de stratégies dérivées des premiers principes pour compresser les informations d'invite générales en mises à jour de poids réutilisables
Explication théorique insuffisante : Le succès des techniques existantes manque d'explication théorique basée sur les mécanismes de calcul des transformers

Contributions principales

Extension théorique : Extension de la théorie des correctifs de tokens pour un bloc transformer unique à l'architecture transformer multi-blocs profonde
Cadre des correctifs d'idée : Proposition d'une méthode pour agréger les correctifs transitoires dépendants des tokens en mises à jour de poids réutilisables
Unification théorique : Fourniture d'une explication théorique unifiée pour les techniques existantes de guidage vectoriel et d'édition matricielle
Méthode pratique : Fourniture d'une méthode de calcul pour convertir directement les invites textuelles en mises à jour de poids

Détails de la méthode

Définition de la tâche

Étant donné une invite contenant un bloc d'instruction I et du contenu ultérieur C = I, x₁, ..., xₙ, l'objectif est de trouver une mise à jour de poids équivalente telle que la sortie du modèle après suppression de l'instruction I soit identique à celle de l'invite complète originale.

Théorie des correctifs de tokens

Extension à un bloc unique

En se basant sur les travaux de Dherin et al., la sortie d'un bloc transformer unique peut être parfaitement reproduite via les correctifs de tokens suivants :

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

où aₓ = A(C\I, x) est la sortie d'attention du token x en l'absence du contexte I.

Extension multi-blocs

Pour les transformers profonds, les correctifs de tokens doivent être appliqués récursivement à chaque couche :

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

Le correctif de chaque couche est calculé en utilisant les activations transformées de la couche précédente.

Dérivation des correctifs d'idée

Approximation du vecteur d'idée

En minimisant l'erreur quadratique moyenne sur tous les vecteurs de tokens, on obtient l'approximation optimale du vecteur d'idée :

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

Approximation de la matrice d'idée

Théorème 3.1 : Considérant n vecteurs a₁,...,aₙ, le problème de minimisation :

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

admet une solution unique si et seulement si l'opérateur Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ est inversible :

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

Approximation pratique

En supposant que les vecteurs aᵢ sont distribués de manière sphérique, Z s'approxime comme un multiple de la matrice identité, ce qui donne la formule pratique :

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

Points d'innovation technique

Fondement théorique : Première explication théorique basée sur l'architecture transformer pour les techniques empiriques de contrôle de modèle
Cadre unifié : Unification du guidage vectoriel et de l'édition matricielle dans un mécanisme unique de mise à jour de poids
Rigueur mathématique : Fourniture de dérivations mathématiques rigoureuses et de preuves de théorèmes
Praticité : La méthode peut être appliquée directement aux modèles réels sans rétropropagation

Configuration expérimentale

Ensembles de données

Tâches arithmétiques : Ensemble de données synthétiques pour l'addition et la multiplication de nombres à trois chiffres
Traduction automatique : Utilisation de l'ensemble de données de traduction anglais-français « mntn/en-fr »

Modèles

Toutes les expériences utilisent le modèle Gemma 3.0 1B

Métriques d'évaluation

Tâches arithmétiques : Précision (objectif ≥ 80%)
Traduction automatique : Évaluation de la qualité de traduction à l'aide de Gemini 2.5-Flash-lite

Détails d'implémentation

Couches cibles : couches 10-20
Hyperparamètres : c₁ et c₂ déterminés par ajustement
Améliorations de stabilité : Normalisation par la norme du vecteur d'attention pour les mises à jour de rang 1

Résultats expérimentaux

Résultats principaux

Tâches arithmétiques

Addition : Atteint 100% de précision avec moins de 300 tokens de démonstration
Multiplication : Atteint 80% de précision, démontrant l'efficacité de la méthode sur des tâches plus complexes
Observations comportementales : Le modèle corrigé produit un raisonnement en chaîne plus détaillé

Traduction automatique

Modèle corrigé : Atteint 60% de précision sans instructions
Modèle de base : Atteint 72% de précision avec instructions
Écart de performance : Un écart de 12% existe, mais démontre la faisabilité de la méthode

Découvertes clés

Sensibilité aux hyperparamètres : La méthode est hautement sensible à l'hyperparamètre c₁
- c₁ trop faible : Le modèle répète simplement l'entrée
- c₁ trop élevé : La sortie devient répétitive et instable
Cas supérieurs à la base de référence : Sur certains problèmes arithmétiques, le modèle corrigé surpasse même le modèle de base avec instructions
Confusion linguistique : Dans les tâches de traduction, le modèle utilise parfois par défaut la mauvaise langue cible

Analyse de cas

Cas de succès (Addition) :

Requête : 2 9 2
Sortie du modèle corrigé : « Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13. »

Cas de correction d'erreur (Multiplication) :

Erreur du modèle de base : 0 * 8 * 6 = 48
Correction du modèle corrigé : 0 * 8 * 6 = 0

Travaux connexes

Méthodes de guidage d'activation

Vecteurs de guidage : Guidage du comportement du modèle en ajoutant des vecteurs soigneusement conçus au flux résiduel
Méthodes contrastées : Construction de vecteurs utilisant les différences d'activation entre les invites positives et négatives
Vecteurs fonctionnels : Capture de représentations vectorielles spécifiques aux tâches

Méthodes d'édition de modèle

ROME : Édition de rang 1 pour modifier les associations factuelles
MEND : Apprentissage des mises à jour de faible rang des matrices de poids avant-plan
Contrôle de sécurité : Suppression des directions d'activation non sûres par édition

Contribution de cet article

Première fourniture d'un cadre théorique unifié dérivé des premiers principes, expliquant pourquoi ces deux classes de méthodes sont efficaces.

Conclusion et discussion

Conclusions principales

Unification théorique : Unification réussie des techniques empiriques de contrôle de modèle dans un cadre théorique basé sur le calcul transformer
Efficacité de la méthode : Les expériences démontrent la faisabilité de la méthode des correctifs d'idée sur les tâches arithmétiques et de traduction
Explication théorique : Fourniture d'une base mathématique pour les méthodes heuristiques existantes, comme le fait que la moyenne d'activation contrastée est le bon choix pour l'approximation des moindres carrés

Limitations

Écart de performance : Perte de performance par rapport à l'invite directe
Sensibilité aux hyperparamètres : La méthode est hautement sensible au choix des hyperparamètres, nécessitant un ajustement minutieux
Complexité des tâches : Les performances sur des tâches plus complexes nécessitent une vérification supplémentaire
Complexité de calcul : Le calcul de Z⁻¹ est relativement difficile dans le cas général

Directions futures

Outils d'analyse : Utilisation du cadre comme outil d'analyse pour mieux comprendre les représentations de tâches et le raisonnement dans les grands modèles de langage
Amélioration des performances : Recherche de méthodes pour réduire l'écart de performance et diminuer la sensibilité aux hyperparamètres
Extension des applications : Exploration des applications sur des tâches plus complexes
Approfondissement théorique : Perfectionnement supplémentaire du cadre théorique pour traiter des cas plus généraux

Évaluation approfondie

Points forts

Contribution théorique majeure : Première fourniture d'une base théorique rigoureuse pour les techniques de contrôle de modèle, comblant un vide théorique important
Rigueur mathématique : Fourniture de dérivations mathématiques complètes et de preuves de théorèmes, cadre théorique solide
Force d'unification : Unification réussie de deux classes de méthodes apparemment différentes (guidage vectoriel et édition matricielle)
Valeur pratique : La méthode peut être appliquée directement, offrant de nouvelles perspectives pour les applications pratiques

Insuffisances

Échelle expérimentale limitée : Vérification uniquement sur le modèle de 1B paramètres, manque d'expériences sur les grands modèles
Gamme de tâches étroite : Les tâches expérimentales sont relativement simples, les performances sur les tâches NLP complexes sont inconnues
Perte de performance : Baisse de performance significative par rapport au prompting direct
Défis d'ingénierie : La sensibilité aux hyperparamètres peut limiter les applications pratiques

Impact

Valeur académique : Fourniture d'une base théorique importante pour la compréhension des mécanismes transformer et la recherche sur le contrôle de modèle
Perspectives pratiques : Fourniture d'une nouvelle voie technologique pour le déploiement et le contrôle de modèles
Inspiration pour la recherche : Peut catalyser davantage de recherches sur les méthodes de contrôle de modèle basées sur la théorie

Scénarios applicables

Analyse de modèle : Compréhension des représentations internes et des mécanismes de calcul du modèle
Déploiement léger : Réalisation de la spécialisation de modèle dans les environnements aux ressources limitées
Contrôle de sécurité : Fourniture de conseils théoriques pour la sécurité et l'alignement des modèles
Outil de R&D : Utilisation comme outil d'analyse pour le développement et le débogage de modèles

Références

Les références clés incluent :

Dherin et al. (2025) - Théorie de l'apprentissage dynamique implicite pour les transformers à bloc unique
Turner et al. (2025) - Ingénierie d'activation pour guider les modèles de langage
Meng et al. (2022) - Localisation et édition des associations factuelles dans GPT
Todd et al. (2024) - Vecteurs fonctionnels dans les grands modèles de langage

Évaluation globale : Cet article possède une valeur théorique importante, fournissant avec succès une base théorique rigoureuse pour les techniques empiriques de contrôle de modèle. Bien qu'il y ait de la place pour l'amélioration dans la vérification expérimentale, sa contribution théorique est importante pour la compréhension et le développement des techniques de contrôle de modèles transformer.