2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.
A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
academic

Prompts in Gewichte umwandeln

Grundlegende Informationen

  • Paper-ID: 2510.08734
  • Titel: Transmuting prompts into weights
  • Autoren: Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
  • Klassifizierung: cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 9. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.08734

Zusammenfassung

Das Papier bietet eine theoretische Grundlage für Inferenz-Zeit-Kontrolltechniken großer Sprachmodelle. Bisherige Forschungen zeigen, dass das Verhalten großer Sprachmodelle durch direkte Änderung interner Zustände (Hinzufügen von Vektoren zu Aktivierungen oder Aktualisierung von Gewichtsmatrizen) effektiv gesteuert werden kann. Diese Techniken basieren jedoch typischerweise auf empirischen Heuristiken und entbehren theoretischer Unterstützung. Basierend auf der Erkenntnis, dass Prompt-Einflüsse mathematisch als implizite Gewichtsaktualisierungen abgebildet werden können, verallgemeinert das Papier diese Theorie auf tiefe Multi-Block-Transformer. Das Papier zeigt, wie jeder Informationsblock in Benutzer-Prompts durch Gewichtsvektoren und Gewichtsmatrizen intern dargestellt und kombiniert werden kann, und leitet einen prinzipiellen Ansatz ab, um diese Informationen in token-unabhängige „Ideen-Vektoren" und „Ideen-Matrizen" zu komprimieren.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Warum sind bestehende Modellinterventionstechniken (wie Aktivierungslenkung und Modellbearbeitung) bei der effektiven Steuerung komplexen Modellverhaltens erfolgreich? Welche mathematischen Prinzipien liegen diesen Techniken zugrunde?

Bedeutung

  1. Theoretische Lücke: Obwohl Vektor-Lenkung und Matrix-Bearbeitungstechniken in der Praxis sehr effektiv sind, fehlt eine theoretische Erklärung basierend auf der Transformer-Architektur
  2. Methodische Einschränkungen: Bestehende Methoden basieren hauptsächlich auf empirischen Heuristiken, wie der Konstruktion von Lenkvektoren durch Durchschnittsaktivierungen kontrastierender Prompts
  3. Bedarf nach einheitlichem Rahmen: Ein einheitlicher theoretischer Rahmen ist erforderlich, um zu erklären, wie Textanweisungen in konkrete Gewichts- oder Aktivierungsänderungen umgewandelt werden

Einschränkungen bestehender Methoden

  1. Aktivierungslenkungsmethoden: Die ausschließliche Verwendung von Vektoraddition kann möglicherweise nicht die vollständige Wirkung von Anweisungen darstellen
  2. Modellbearbeitungsmethoden: Mangel an Strategien aus ersten Prinzipien zur Komprimierung allgemeiner Prompt-Informationen in wiederverwendbare Gewichtsaktualisierungen
  3. Unzureichende theoretische Erklärung: Der Erfolg bestehender Techniken entbehrt einer Erklärung basierend auf Transformer-Berechnungsmechanismen

Kernbeiträge

  1. Theoretische Erweiterung: Erweiterung der Token-Patch-Theorie einzelner Transformer-Blöcke auf tiefe Multi-Block-Transformer-Architekturen
  2. Ideen-Patch-Rahmen: Vorschlag einer Methode zur Aggregation token-abhängiger momentaner Patches in wiederverwendbare Gewichtsaktualisierungen
  3. Theoretische Vereinigung: Bereitstellung einer einheitlichen theoretischen Erklärung für bestehende Vektor-Lenkung und Matrix-Bearbeitungstechniken
  4. Praktische Methode: Bereitstellung einer Rechenmethode zur direkten Umwandlung von Text-Prompts in Gewichtsaktualisierungen

Methodische Details

Aufgabendefinition

Gegeben ein Prompt C = I, x₁, ..., xₙ mit einem Anweisungsblock I und nachfolgendem Inhalt ist das Ziel, eine äquivalente Gewichtsaktualisierung zu finden, sodass die Modellausgabe nach Entfernung der Anweisung I der Ausgabe des ursprünglichen vollständigen Prompts entspricht.

Token-Patch-Theorie

Einzelblock-Erweiterung

Basierend auf der Arbeit von Dherin et al. kann die Ausgabe eines einzelnen Transformer-Blocks durch das folgende Token-Patch perfekt repliziert werden:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

wobei aₓ = A(C\I, x) die Aufmerksamkeitsausgabe des Tokens x ohne Kontext I ist.

Multi-Block-Erweiterung

Für tiefe Transformer müssen Token-Patches rekursiv auf jede Schicht angewendet werden:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

Das Patch jeder Schicht wird unter Verwendung der transformierten Aktivierungen der vorherigen Schicht berechnet.

Ideen-Patch-Herleitung

Ideen-Vektor-Approximation

Durch Minimierung des quadratischen Fehlers über alle Token-Vektoren wird die optimale Approximation des Ideen-Vektors erhalten:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

Ideen-Matrix-Approximation

Theorem 3.1: Betrachten Sie n Vektoren a₁,...,aₙ. Das Minimierungsproblem:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

hat eine eindeutige Lösung genau dann, wenn der Operator Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ invertierbar ist:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

Praktische Approximation

Unter der Annahme, dass Vektoren aᵢ kugelförmig verteilt sind, wird Z als Vielfaches der Einheitsmatrix approximiert, was die praktische Formel ergibt:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

Technische Innovationen

  1. Theoretische Grundlage: Erstmalige Bereitstellung einer auf der Transformer-Architektur basierenden theoretischen Erklärung für empirische Modellkontrolltechniken
  2. Einheitlicher Rahmen: Vereinigung von Vektor-Lenkung und Matrix-Bearbeitung in einem einzigen Gewichtsaktualisierungsmechanismus
  3. Mathematische Strenge: Bereitstellung strenger mathematischer Herleitungen und Theorembeweise
  4. Praktikabilität: Methode kann direkt auf reale Modelle angewendet werden, ohne Rückwärtspropagation erforderlich

Experimentelle Einrichtung

Datensätze

  1. Arithmetische Aufgaben: Synthetische Datensätze für dreistellige Addition und Multiplikation
  2. Maschinelle Übersetzung: Verwendung des Datensatzes „mntn/en-fr" für Englisch-Französisch-Übersetzung

Modelle

Alle Experimente verwenden das Gemma 3.0 1B Modell

Bewertungsmetriken

  • Arithmetische Aufgaben: Genauigkeit (Ziel ≥80%)
  • Maschinelle Übersetzung: Bewertung der Übersetzungsqualität mit Gemini 2.5-Flash-lite

Implementierungsdetails

  • Zielschichten: Schichten 10-20
  • Hyperparameter: c₁ und c₂ durch Abstimmung bestimmt
  • Stabilitätsverbesserung: Rank-1-Aktualisierungen durch Normalisierung der Aufmerksamkeitsvektornorm

Experimentelle Ergebnisse

Hauptergebnisse

Arithmetische Aufgaben

  • Addition: 100% Genauigkeit mit weniger als 300 Demonstrations-Tokens erreicht
  • Multiplikation: 80% Genauigkeit erreicht, was die Effektivität der Methode bei komplexeren Aufgaben beweist
  • Verhaltensbeobachtung: Gepatchte Modelle erzeugen detailliertere Kettenfolgerungen

Maschinelle Übersetzung

  • Gepatchtes Modell: 60% Genauigkeit ohne Anweisungen erreicht
  • Baseline-Modell: 72% Genauigkeit mit Anweisungen erreicht
  • Leistungslücke: 12% Leistungslücke vorhanden, aber Machbarkeit der Methode nachgewiesen

Wichtige Erkenntnisse

  1. Hyperparameter-Empfindlichkeit: Methode ist hochempfindlich gegenüber Hyperparameter c₁
    • c₁ zu niedrig: Modell wiederholt einfach die Eingabe
    • c₁ zu hoch: Ausgabe wird repetitiv und instabil
  2. Überlegene Baseline-Fälle: Bei einigen arithmetischen Problemen übertrifft das gepatchte Modell sogar das Baseline-Modell mit Anweisungen
  3. Sprachverwirrung: Bei Übersetzungsaufgaben wählt das Modell manchmal standardmäßig die falsche Zielsprache

Fallstudien

Erfolgreicher Fall (Addition):

  • Anfrage: 2 9 2
  • Gepatchte Modellausgabe: „Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13."

Fehlerkorrektur-Fall (Multiplikation):

  • Baseline-Modellfehler: 0 * 8 * 6 = 48
  • Gepatchtes Modell korrekt: 0 * 8 * 6 = 0

Verwandte Arbeiten

Aktivierungslenkungsmethoden

  • Lenkvektoren: Lenkung des Modellverhaltens durch Hinzufügen sorgfältig gestalteter Vektoren zum Residuumfluss
  • Kontrastmethoden: Konstruktion von Vektoren unter Verwendung von Aktivierungsdifferenzen zwischen positiven und negativen Beispiel-Prompts
  • Funktionsvektoren: Erfassung aufgabenspezifischer Vektordarstellungen

Modellbearbeitungsmethoden

  • ROME: Verwendung von Rank-1-Matrix-Bearbeitung zur Änderung von Faktenzuordnungen
  • MEND: Erlernung von Niedrig-Rang-Aktualisierungen von Feedforward-Gewichtsmatrizen
  • Sicherheitskontrolle: Entfernung unsicherer Aktivierungsrichtungen durch Bearbeitung

Beitrag dieses Papiers

Erstmalige Bereitstellung eines einheitlichen theoretischen Rahmens aus ersten Prinzipien, der erklärt, warum beide Methodenklassen effektiv sind.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Vereinigung: Erfolgreiche Vereinigung empirischer Modellkontrolltechniken in einem auf Transformer-Berechnungen basierenden theoretischen Rahmen
  2. Methodische Effektivität: Experimente beweisen die Machbarkeit der Ideen-Patch-Methode bei arithmetischen und Übersetzungsaufgaben
  3. Theoretische Erklärung: Bereitstellung einer mathematischen Grundlage für bestehende Heuristiken, wie dass die Durchschnittsaktivierung kontrastierender Prompts die richtige Wahl für eine Kleinste-Quadrate-Approximation ist

Einschränkungen

  1. Leistungslücke: Leistungsverlust im Vergleich zu direktem Prompting
  2. Hyperparameter-Empfindlichkeit: Methode ist hochempfindlich gegenüber Hyperparameter-Auswahl und erfordert sorgfältige Abstimmung
  3. Aufgabenkomplexität: Leistung bei komplexeren Aufgaben bedarf weiterer Überprüfung
  4. Rechenkomplexität: Berechnung von Z⁻¹ ist im allgemeinen Fall schwierig

Zukünftige Richtungen

  1. Analysewerkzeuge: Verwendung des Rahmens als Analysewerkzeug für besseres Verständnis von Aufgabendarstellungen und Schlussfolgerungen in großen Sprachmodellen
  2. Leistungsverbesserung: Untersuchung von Methoden zur Verringerung der Leistungslücke und Reduzierung der Hyperparameter-Empfindlichkeit
  3. Erweiterte Anwendungen: Erkundung von Anwendungen bei mehr komplexen Aufgaben
  4. Theoretische Vertiefung: Weitere Verfeinerung des theoretischen Rahmens zur Behandlung allgemeinerer Fälle

Tiefgreifende Bewertung

Stärken

  1. Bedeutender theoretischer Beitrag: Erstmalige Bereitstellung einer strengen theoretischen Grundlage für Modellkontrolltechniken, Schließung einer wichtigen theoretischen Lücke
  2. Mathematische Strenge: Vollständige mathematische Herleitungen und Theorembeweise mit solidem theoretischem Rahmen
  3. Starke Einheitlichkeit: Erfolgreiche Vereinigung scheinbar unterschiedlicher Methoden (Vektor-Lenkung und Matrix-Bearbeitung)
  4. Praktischer Wert: Methode kann direkt angewendet werden und bietet neue Perspektiven für praktische Anwendungen

Mängel

  1. Begrenzte Experimentskala: Validierung nur auf 1B-Parameter-Modellen, fehlende Experimente mit großen Modellen
  2. Enge Aufgabenbandbreite: Experimentelle Aufgaben sind relativ einfach, Leistung bei komplexen NLP-Aufgaben unbekannt
  3. Leistungsverlust: Deutliche Leistungsabnahme im Vergleich zu direktem Prompting
  4. Technische Herausforderungen: Hyperparameter-Empfindlichkeit kann praktische Anwendungen einschränken

Auswirkungen

  1. Akademischer Wert: Bereitstellung wichtiger theoretischer Grundlagen für Transformer-Mechanismus-Verständnis und Modellkontrollforschung
  2. Praktische Aussichten: Neue technische Wege für Modellbereitstellung und -steuerung
  3. Forschungsinspiration: Kann mehr theoriegestützte Modellkontrollmethodenforschung katalysieren

Anwendungsszenarien

  1. Modellanalyse: Verständnis interner Modelldarstellungen und Berechnungsmechanismen
  2. Leichte Bereitstellung: Realisierung von Modellspezialisierung in ressourcenbeschränkten Umgebungen
  3. Sicherheitskontrolle: Theoretische Anleitung für Modellsicherheit und Ausrichtung
  4. Forschungs- und Entwicklungswerkzeuge: Analysewerkzeug für Modellentwicklung und Debugging

Referenzen

Wichtige Referenzen umfassen:

  1. Dherin et al. (2025) - Theorie des impliziten dynamischen Lernens für einzelne Transformer-Blöcke
  2. Turner et al. (2025) - Aktivierungstechnik zur Lenkung von Sprachmodellen
  3. Meng et al. (2022) - Lokalisierung und Bearbeitung von Faktenzuordnungen in GPT
  4. Todd et al. (2024) - Funktionsvektoren in großen Sprachmodellen

Gesamtbewertung: Dies ist ein Papier mit bedeutendem theoretischem Wert, das erfolgreich eine strenge theoretische Grundlage für empirische Modellkontrolltechniken bietet. Obwohl in der experimentellen Validierung noch Verbesserungspotenzial besteht, hat sein theoretischer Beitrag wichtige Bedeutung für das Verständnis und die Entwicklung von Transformer-Modellkontrolltechniken.