2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.

A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.

academic

Prompts in Gewichte umwandeln

Grundlegende Informationen

Paper-ID: 2510.08734
Titel: Transmuting prompts into weights
Autoren: Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
Klassifizierung: cs.LG (Machine Learning)
Veröffentlichungsdatum: 9. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.08734

Zusammenfassung

Das Papier bietet eine theoretische Grundlage für Inferenz-Zeit-Kontrolltechniken großer Sprachmodelle. Bisherige Forschungen zeigen, dass das Verhalten großer Sprachmodelle durch direkte Änderung interner Zustände (Hinzufügen von Vektoren zu Aktivierungen oder Aktualisierung von Gewichtsmatrizen) effektiv gesteuert werden kann. Diese Techniken basieren jedoch typischerweise auf empirischen Heuristiken und entbehren theoretischer Unterstützung. Basierend auf der Erkenntnis, dass Prompt-Einflüsse mathematisch als implizite Gewichtsaktualisierungen abgebildet werden können, verallgemeinert das Papier diese Theorie auf tiefe Multi-Block-Transformer. Das Papier zeigt, wie jeder Informationsblock in Benutzer-Prompts durch Gewichtsvektoren und Gewichtsmatrizen intern dargestellt und kombiniert werden kann, und leitet einen prinzipiellen Ansatz ab, um diese Informationen in token-unabhängige „Ideen-Vektoren" und „Ideen-Matrizen" zu komprimieren.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Warum sind bestehende Modellinterventionstechniken (wie Aktivierungslenkung und Modellbearbeitung) bei der effektiven Steuerung komplexen Modellverhaltens erfolgreich? Welche mathematischen Prinzipien liegen diesen Techniken zugrunde?

Bedeutung

Theoretische Lücke: Obwohl Vektor-Lenkung und Matrix-Bearbeitungstechniken in der Praxis sehr effektiv sind, fehlt eine theoretische Erklärung basierend auf der Transformer-Architektur
Methodische Einschränkungen: Bestehende Methoden basieren hauptsächlich auf empirischen Heuristiken, wie der Konstruktion von Lenkvektoren durch Durchschnittsaktivierungen kontrastierender Prompts
Bedarf nach einheitlichem Rahmen: Ein einheitlicher theoretischer Rahmen ist erforderlich, um zu erklären, wie Textanweisungen in konkrete Gewichts- oder Aktivierungsänderungen umgewandelt werden

Einschränkungen bestehender Methoden

Aktivierungslenkungsmethoden: Die ausschließliche Verwendung von Vektoraddition kann möglicherweise nicht die vollständige Wirkung von Anweisungen darstellen
Modellbearbeitungsmethoden: Mangel an Strategien aus ersten Prinzipien zur Komprimierung allgemeiner Prompt-Informationen in wiederverwendbare Gewichtsaktualisierungen
Unzureichende theoretische Erklärung: Der Erfolg bestehender Techniken entbehrt einer Erklärung basierend auf Transformer-Berechnungsmechanismen

Kernbeiträge

Theoretische Erweiterung: Erweiterung der Token-Patch-Theorie einzelner Transformer-Blöcke auf tiefe Multi-Block-Transformer-Architekturen
Ideen-Patch-Rahmen: Vorschlag einer Methode zur Aggregation token-abhängiger momentaner Patches in wiederverwendbare Gewichtsaktualisierungen
Theoretische Vereinigung: Bereitstellung einer einheitlichen theoretischen Erklärung für bestehende Vektor-Lenkung und Matrix-Bearbeitungstechniken
Praktische Methode: Bereitstellung einer Rechenmethode zur direkten Umwandlung von Text-Prompts in Gewichtsaktualisierungen

Methodische Details

Aufgabendefinition

Gegeben ein Prompt C = I, x₁, ..., xₙ mit einem Anweisungsblock I und nachfolgendem Inhalt ist das Ziel, eine äquivalente Gewichtsaktualisierung zu finden, sodass die Modellausgabe nach Entfernung der Anweisung I der Ausgabe des ursprünglichen vollständigen Prompts entspricht.

Token-Patch-Theorie

Einzelblock-Erweiterung

Basierend auf der Arbeit von Dherin et al. kann die Ausgabe eines einzelnen Transformer-Blocks durch das folgende Token-Patch perfekt repliziert werden:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

wobei aₓ = A(C\I, x) die Aufmerksamkeitsausgabe des Tokens x ohne Kontext I ist.

Multi-Block-Erweiterung

Für tiefe Transformer müssen Token-Patches rekursiv auf jede Schicht angewendet werden:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

Das Patch jeder Schicht wird unter Verwendung der transformierten Aktivierungen der vorherigen Schicht berechnet.

Ideen-Patch-Herleitung

Ideen-Vektor-Approximation

Durch Minimierung des quadratischen Fehlers über alle Token-Vektoren wird die optimale Approximation des Ideen-Vektors erhalten:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

Ideen-Matrix-Approximation

Theorem 3.1: Betrachten Sie n Vektoren a₁,...,aₙ. Das Minimierungsproblem:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

hat eine eindeutige Lösung genau dann, wenn der Operator Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ invertierbar ist:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

Praktische Approximation

Unter der Annahme, dass Vektoren aᵢ kugelförmig verteilt sind, wird Z als Vielfaches der Einheitsmatrix approximiert, was die praktische Formel ergibt:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

Technische Innovationen

Theoretische Grundlage: Erstmalige Bereitstellung einer auf der Transformer-Architektur basierenden theoretischen Erklärung für empirische Modellkontrolltechniken
Einheitlicher Rahmen: Vereinigung von Vektor-Lenkung und Matrix-Bearbeitung in einem einzigen Gewichtsaktualisierungsmechanismus
Mathematische Strenge: Bereitstellung strenger mathematischer Herleitungen und Theorembeweise
Praktikabilität: Methode kann direkt auf reale Modelle angewendet werden, ohne Rückwärtspropagation erforderlich

Experimentelle Einrichtung

Datensätze

Arithmetische Aufgaben: Synthetische Datensätze für dreistellige Addition und Multiplikation
Maschinelle Übersetzung: Verwendung des Datensatzes „mntn/en-fr" für Englisch-Französisch-Übersetzung

Modelle

Alle Experimente verwenden das Gemma 3.0 1B Modell

Bewertungsmetriken

Arithmetische Aufgaben: Genauigkeit (Ziel ≥80%)
Maschinelle Übersetzung: Bewertung der Übersetzungsqualität mit Gemini 2.5-Flash-lite

Implementierungsdetails

Zielschichten: Schichten 10-20
Hyperparameter: c₁ und c₂ durch Abstimmung bestimmt
Stabilitätsverbesserung: Rank-1-Aktualisierungen durch Normalisierung der Aufmerksamkeitsvektornorm

Experimentelle Ergebnisse

Hauptergebnisse

Arithmetische Aufgaben

Addition: 100% Genauigkeit mit weniger als 300 Demonstrations-Tokens erreicht
Multiplikation: 80% Genauigkeit erreicht, was die Effektivität der Methode bei komplexeren Aufgaben beweist
Verhaltensbeobachtung: Gepatchte Modelle erzeugen detailliertere Kettenfolgerungen

Maschinelle Übersetzung

Gepatchtes Modell: 60% Genauigkeit ohne Anweisungen erreicht
Baseline-Modell: 72% Genauigkeit mit Anweisungen erreicht
Leistungslücke: 12% Leistungslücke vorhanden, aber Machbarkeit der Methode nachgewiesen

Wichtige Erkenntnisse

Hyperparameter-Empfindlichkeit: Methode ist hochempfindlich gegenüber Hyperparameter c₁
- c₁ zu niedrig: Modell wiederholt einfach die Eingabe
- c₁ zu hoch: Ausgabe wird repetitiv und instabil
Überlegene Baseline-Fälle: Bei einigen arithmetischen Problemen übertrifft das gepatchte Modell sogar das Baseline-Modell mit Anweisungen
Sprachverwirrung: Bei Übersetzungsaufgaben wählt das Modell manchmal standardmäßig die falsche Zielsprache

Fallstudien

Erfolgreicher Fall (Addition):

Anfrage: 2 9 2
Gepatchte Modellausgabe: „Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13."

Fehlerkorrektur-Fall (Multiplikation):

Baseline-Modellfehler: 0 * 8 * 6 = 48
Gepatchtes Modell korrekt: 0 * 8 * 6 = 0

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretische Vereinigung: Erfolgreiche Vereinigung empirischer Modellkontrolltechniken in einem auf Transformer-Berechnungen basierenden theoretischen Rahmen
Methodische Effektivität: Experimente beweisen die Machbarkeit der Ideen-Patch-Methode bei arithmetischen und Übersetzungsaufgaben
Theoretische Erklärung: Bereitstellung einer mathematischen Grundlage für bestehende Heuristiken, wie dass die Durchschnittsaktivierung kontrastierender Prompts die richtige Wahl für eine Kleinste-Quadrate-Approximation ist

Einschränkungen

Leistungslücke: Leistungsverlust im Vergleich zu direktem Prompting
Hyperparameter-Empfindlichkeit: Methode ist hochempfindlich gegenüber Hyperparameter-Auswahl und erfordert sorgfältige Abstimmung
Aufgabenkomplexität: Leistung bei komplexeren Aufgaben bedarf weiterer Überprüfung
Rechenkomplexität: Berechnung von Z⁻¹ ist im allgemeinen Fall schwierig

Zukünftige Richtungen

Analysewerkzeuge: Verwendung des Rahmens als Analysewerkzeug für besseres Verständnis von Aufgabendarstellungen und Schlussfolgerungen in großen Sprachmodellen
Leistungsverbesserung: Untersuchung von Methoden zur Verringerung der Leistungslücke und Reduzierung der Hyperparameter-Empfindlichkeit
Erweiterte Anwendungen: Erkundung von Anwendungen bei mehr komplexen Aufgaben
Theoretische Vertiefung: Weitere Verfeinerung des theoretischen Rahmens zur Behandlung allgemeinerer Fälle

Tiefgreifende Bewertung

Stärken

Bedeutender theoretischer Beitrag: Erstmalige Bereitstellung einer strengen theoretischen Grundlage für Modellkontrolltechniken, Schließung einer wichtigen theoretischen Lücke
Mathematische Strenge: Vollständige mathematische Herleitungen und Theorembeweise mit solidem theoretischem Rahmen
Starke Einheitlichkeit: Erfolgreiche Vereinigung scheinbar unterschiedlicher Methoden (Vektor-Lenkung und Matrix-Bearbeitung)
Praktischer Wert: Methode kann direkt angewendet werden und bietet neue Perspektiven für praktische Anwendungen

Mängel

Begrenzte Experimentskala: Validierung nur auf 1B-Parameter-Modellen, fehlende Experimente mit großen Modellen
Enge Aufgabenbandbreite: Experimentelle Aufgaben sind relativ einfach, Leistung bei komplexen NLP-Aufgaben unbekannt
Leistungsverlust: Deutliche Leistungsabnahme im Vergleich zu direktem Prompting
Technische Herausforderungen: Hyperparameter-Empfindlichkeit kann praktische Anwendungen einschränken

Auswirkungen

Akademischer Wert: Bereitstellung wichtiger theoretischer Grundlagen für Transformer-Mechanismus-Verständnis und Modellkontrollforschung
Praktische Aussichten: Neue technische Wege für Modellbereitstellung und -steuerung
Forschungsinspiration: Kann mehr theoriegestützte Modellkontrollmethodenforschung katalysieren

Anwendungsszenarien

Modellanalyse: Verständnis interner Modelldarstellungen und Berechnungsmechanismen
Leichte Bereitstellung: Realisierung von Modellspezialisierung in ressourcenbeschränkten Umgebungen
Sicherheitskontrolle: Theoretische Anleitung für Modellsicherheit und Ausrichtung
Forschungs- und Entwicklungswerkzeuge: Analysewerkzeug für Modellentwicklung und Debugging

Referenzen

Wichtige Referenzen umfassen:

Dherin et al. (2025) - Theorie des impliziten dynamischen Lernens für einzelne Transformer-Blöcke
Turner et al. (2025) - Aktivierungstechnik zur Lenkung von Sprachmodellen
Meng et al. (2022) - Lokalisierung und Bearbeitung von Faktenzuordnungen in GPT
Todd et al. (2024) - Funktionsvektoren in großen Sprachmodellen

Gesamtbewertung: Dies ist ein Papier mit bedeutendem theoretischem Wert, das erfolgreich eine strenge theoretische Grundlage für empirische Modellkontrolltechniken bietet. Obwohl in der experimentellen Validierung noch Verbesserungspotenzial besteht, hat sein theoretischer Beitrag wichtige Bedeutung für das Verständnis und die Entwicklung von Transformer-Modellkontrolltechniken.