2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.

A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.

academic

Trasmutazione dei prompt in pesi

Informazioni Fondamentali

ID Articolo: 2510.08734
Titolo: Transmuting prompts into weights
Autori: Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.08734

Riassunto

L'articolo fornisce fondamenti teorici per le tecniche di controllo al momento dell'inferenza nei modelli di linguaggio di grandi dimensioni. Ricerche esistenti dimostrano che il comportamento dei modelli di linguaggio di grandi dimensioni può essere controllato efficacemente modificando direttamente gli stati interni del modello (aggiungendo vettori alle attivazioni o aggiornando matrici di pesi). Tuttavia, queste tecniche si basano tipicamente su euristiche empiriche e mancano di supporto teorico. Questo articolo generalizza la teoria a transformer multi-blocco profondo sulla base della scoperta che l'influenza dei prompt può essere mappata matematicamente in aggiornamenti di pesi impliciti. L'articolo dimostra come qualsiasi blocco di informazioni nel prompt dell'utente possa essere rappresentato e combinato internamente attraverso vettori di pesi e matrici di pesi, e deriva un approccio metodico per comprimere queste informazioni in "vettori di idee" e "matrici di idee" indipendenti dai token.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale che questa ricerca affronta è: perché le tecniche di intervento sul modello esistenti (come la guida dell'attivazione e l'editing del modello) riescono a controllare efficacemente il comportamento complesso del modello? Quali sono i principi matematici sottostanti a queste tecniche?

Importanza

Carenza Teorica: Sebbene le tecniche di guida vettoriale e editing matriciale siano molto efficaci nella pratica, mancano di spiegazioni teoriche basate sull'architettura transformer
Limitazioni Metodologiche: I metodi esistenti si basano principalmente su euristiche empiriche, come la costruzione di vettori di guida attraverso la media delle attivazioni di prompt contrastanti
Necessità di un Framework Unificato: È necessario un framework teorico unificato per spiegare come le istruzioni testuali si trasformano in cambiamenti specifici di pesi o attivazioni

Limitazioni dei Metodi Esistenti

Metodi di Guida dell'Attivazione: L'uso della sola addizione vettoriale potrebbe non rappresentare completamente l'effetto completo delle istruzioni
Metodi di Editing del Modello: Mancanza di strategie derivate dai primi principi per comprimere informazioni di prompt generiche in aggiornamenti di pesi riutilizzabili
Spiegazione Teorica Insufficiente: Il successo delle tecniche esistenti manca di spiegazioni teoriche basate sui meccanismi computazionali dei transformer

Contributi Principali

Estensione Teorica: Estensione della teoria della patch token di un singolo blocco transformer all'architettura transformer multi-blocco profondo
Framework di Patch di Idee: Proposta di un metodo per aggregare patch istantanee dipendenti dai token in aggiornamenti di pesi riutilizzabili
Unificazione Teorica: Fornisce una spiegazione teorica unificata per le tecniche di guida vettoriale e editing matriciale esistenti
Metodo Pratico: Fornisce un metodo computazionale per trasformare direttamente i prompt testuali in aggiornamenti di pesi

Dettagli del Metodo

Definizione del Compito

Dato un prompt contenente un blocco di istruzioni I e contenuto successivo C = I, x₁, ..., xₙ, l'obiettivo è trovare un aggiornamento di pesi equivalente tale che l'output del modello con l'istruzione I rimossa sia identico all'output del prompt completo originale.

Teoria della Patch Token

Estensione a Singolo Blocco

Basato sul lavoro di Dherin et al., l'output di un singolo blocco transformer può essere replicato perfettamente attraverso la seguente patch token:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

dove aₓ = A(C\I, x) è l'output dell'attenzione del token x senza il contesto I.

Estensione Multi-Blocco

Per i transformer profondi, le patch token devono essere applicate ricorsivamente a ogni livello:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

La patch di ogni livello utilizza le attivazioni trasformate del livello precedente.

Derivazione della Patch di Idee

Approssimazione del Vettore di Idee

Minimizzando l'errore quadratico medio su tutti i vettori token, si ottiene l'approssimazione ottimale del vettore di idee:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

Approssimazione della Matrice di Idee

Teorema 3.1: Considerando n vettori a₁,...,aₙ, il problema di minimizzazione:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

ha una soluzione unica se e solo se l'operatore Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ è invertibile:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

Approssimazione Pratica

Assumendo che i vettori aᵢ siano distribuiti sfericamente, Z si approssima come multiplo della matrice identità, ottenendo la formula pratica:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

Punti di Innovazione Tecnica

Fondamenti Teorici: Prima spiegazione teorica basata sull'architettura transformer delle tecniche di controllo del modello empiriche
Framework Unificato: Unificazione della guida vettoriale e dell'editing matriciale in un singolo meccanismo di aggiornamento dei pesi
Rigore Matematico: Fornisce derivazioni matematiche rigorose e prove di teoremi
Praticità: Il metodo può essere applicato direttamente ai modelli reali senza richiedere backpropagation

Configurazione Sperimentale

Dataset

Compiti Aritmetici: Dataset sintetico di addizione e moltiplicazione a tre cifre
Traduzione Automatica: Dataset di traduzione inglese-francese "mntn/en-fr"

Modelli

Tutti gli esperimenti utilizzano il modello Gemma 3.0 1B

Metriche di Valutazione

Compiti Aritmetici: Accuratezza (target ≥80%)
Traduzione Automatica: Valutazione della qualità della traduzione utilizzando Gemini 2.5-Flash-lite

Dettagli di Implementazione

Livelli Target: livelli 10-20
Iperparametri: c₁ e c₂ determinati attraverso ottimizzazione
Miglioramenti di Stabilità: Aggiornamenti rank-1 attraverso normalizzazione della norma del vettore di attenzione

Risultati Sperimentali

Risultati Principali

Compiti Aritmetici

Addizione: Raggiunge il 100% di accuratezza utilizzando meno di 300 token di dimostrazione
Moltiplicazione: Raggiunge l'80% di accuratezza, dimostrando l'efficacia del metodo su compiti più complessi
Osservazioni Comportamentali: Il modello con patch produce ragionamenti a catena più dettagliati

Traduzione Automatica

Modello con Patch: Raggiunge il 60% di accuratezza senza istruzioni
Modello Baseline: Raggiunge il 72% di accuratezza con istruzioni
Divario di Prestazioni: Esiste un divario di prestazioni del 12%, ma dimostra la fattibilità del metodo

Scoperte Chiave

Sensibilità agli Iperparametri: Il metodo è altamente sensibile all'iperparametro c₁
- c₁ troppo basso: il modello semplicemente ripete l'input
- c₁ troppo alto: l'output diventa ripetitivo e instabile
Casi Superiori al Baseline: In alcuni problemi aritmetici, il modello con patch supera persino il modello baseline con istruzioni
Confusione Linguistica: Nei compiti di traduzione, il modello a volte utilizza per impostazione predefinita la lingua di destinazione sbagliata

Analisi di Casi

Caso di Successo (Addizione):

Query: 2 9 2
Output del Modello con Patch: "Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13."

Caso di Correzione di Errore (Moltiplicazione):

Errore del Modello Baseline: 0 * 8 * 6 = 48
Correttezza del Modello con Patch: 0 * 8 * 6 = 0

Lavori Correlati

Metodi di Guida dell'Attivazione

Vettori di Guida: Guida del comportamento del modello aggiungendo vettori accuratamente progettati al flusso residuo
Metodi Contrastivi: Costruzione di vettori utilizzando le differenze di attivazione tra prompt di campioni positivi e negativi
Vettori Funzionali: Cattura di rappresentazioni vettoriali specifiche per compiti

Metodi di Editing del Modello

ROME: Modifica delle associazioni di fatti utilizzando editing matriciale rank-1
MEND: Apprendimento di aggiornamenti a basso rango delle matrici di pesi feedforward
Controllo di Sicurezza: Rimozione di direzioni di attivazione non sicure attraverso editing

Contributi di Questo Articolo

Prima fornitura di un framework teorico unificato derivato dai primi principi, spiegando perché entrambe le classi di metodi sono efficaci.

Conclusioni e Discussione

Conclusioni Principali

Unificazione Teorica: Unificazione riuscita delle tecniche di controllo del modello empiriche in un framework teorico basato sul calcolo transformer
Efficacia del Metodo: Gli esperimenti dimostrano la fattibilità del metodo di patch di idee su compiti aritmetici e di traduzione
Spiegazione Teorica: Fornisce una base matematica per i metodi euristici esistenti, come la media dell'attivazione contrastiva essendo la scelta corretta per l'approssimazione dei minimi quadrati

Limitazioni

Divario di Prestazioni: Esiste una perdita di prestazioni rispetto al prompting diretto
Sensibilità agli Iperparametri: Il metodo è altamente sensibile alla scelta degli iperparametri, richiedendo un'ottimizzazione attenta
Complessità del Compito: Le prestazioni su compiti più complessi richiedono ulteriore verifica
Complessità Computazionale: Il calcolo di Z⁻¹ è relativamente difficile nel caso generale

Direzioni Future

Strumenti di Analisi: Utilizzo del framework come strumento di analisi per una migliore comprensione delle rappresentazioni e del ragionamento dei compiti nei modelli di linguaggio di grandi dimensioni
Miglioramento delle Prestazioni: Ricerca di metodi per ridurre il divario di prestazioni e diminuire la sensibilità agli iperparametri
Estensione dell'Applicazione: Esplorazione dell'applicazione su compiti più complessi
Approfondimento Teorico: Ulteriore perfezionamento del framework teorico per affrontare casi più generali

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Prima fornitura di una base teorica rigorosa per le tecniche di controllo del modello, colmando un importante vuoto teorico
Rigore Matematico: Fornisce derivazioni matematiche complete e prove di teoremi, con un framework teorico solido
Forte Unificazione: Unificazione riuscita di due classi di metodi apparentemente diverse (guida vettoriale e editing matriciale)
Valore Pratico: Il metodo può essere applicato direttamente, fornendo nuovi spunti per applicazioni pratiche

Insufficienze

Scala Sperimentale Limitata: Verifica solo su modelli con parametri 1B, mancanza di esperimenti su modelli di grandi dimensioni
Intervallo di Compiti Ristretto: I compiti sperimentali sono relativamente semplici, le prestazioni su compiti NLP complessi rimangono sconosciute
Perdita di Prestazioni: Calo evidente di prestazioni rispetto al prompting diretto
Sfide Ingegneristiche: La sensibilità agli iperparametri potrebbe limitare l'applicazione pratica

Impatto

Valore Accademico: Fornisce una base teorica importante per la comprensione dei meccanismi transformer e la ricerca sul controllo del modello
Prospettive Pratiche: Fornisce nuovi percorsi tecnologici per il deployment e il controllo del modello
Ispirazione per la Ricerca: Potrebbe catalizzare ulteriori ricerche su metodi di controllo del modello basati sulla teoria

Scenari Applicabili

Analisi del Modello: Comprensione delle rappresentazioni interne e dei meccanismi computazionali del modello
Deployment Leggero: Realizzazione della specializzazione del modello in ambienti con risorse limitate
Controllo di Sicurezza: Fornire guida teorica per la sicurezza e l'allineamento del modello
Strumenti di Ricerca e Sviluppo: Utilizzo come strumento di analisi per lo sviluppo e il debug del modello

Riferimenti Bibliografici

I riferimenti bibliografici chiave includono:

Dherin et al. (2025) - Teoria dell'apprendimento della dinamica implicita per transformer a singolo blocco
Turner et al. (2025) - Ingegneria dell'attivazione per la guida dei modelli di linguaggio
Meng et al. (2022) - Localizzazione e editing delle associazioni di fatti in GPT
Todd et al. (2024) - Vettori funzionali nei modelli di linguaggio di grandi dimensioni

Valutazione Complessiva: Questo è un articolo di importante valore teorico che fornisce con successo una base teorica rigorosa per le tecniche di controllo del modello empiriche. Sebbene vi sia spazio per miglioramenti nella verifica sperimentale, il suo contributo teorico è significativo per la comprensione e lo sviluppo delle tecniche di controllo dei modelli transformer.