2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.

A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.

academic

Трансмутация подсказок в веса

Основная информация

ID статьи: 2510.08734
Название: Transmuting prompts into weights
Авторы: Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
Классификация: cs.LG (Машинное обучение)
Дата публикации: 9 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.08734

Аннотация

Данная статья предоставляет теоретическую основу для методов управления большими языковыми моделями во время вывода. Существующие исследования показывают, что поведение больших языковых моделей можно эффективно контролировать путём прямого изменения внутренних состояний модели (добавления векторов к активациям или обновления матриц весов). Однако эти методы обычно основаны на эмпирических эвристиках и лишены теоретического обоснования. В данной работе, основываясь на открытии того, что влияние подсказки может быть математически отображено как неявное обновление весов, авторы обобщают теорию на глубокие многоблочные трансформеры. Статья демонстрирует, как любой информационный блок в пользовательской подсказке может быть внутренне представлен и скомбинирован через весовые векторы и весовые матрицы, и выводит принципиальный метод сжатия этой информации в независимые от токенов "векторы идей" и "матрицы идей".

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: почему существующие методы вмешательства в модель (такие как активационное руководство и редактирование моделей) эффективно контролируют сложное поведение моделей? Какие математические принципы лежат в основе этих методов?

Значимость

Отсутствие теории: несмотря на практическую эффективность методов векторного руководства и редактирования матриц, отсутствует теоретическое объяснение на основе архитектуры трансформера
Ограничения методов: существующие подходы в основном основаны на эмпирических эвристиках, таких как построение векторов руководства через усреднение активаций контрастных подсказок
Необходимость единого фреймворка: требуется единая теоретическая основа для объяснения того, как текстовые инструкции преобразуются в конкретные изменения весов или активаций

Ограничения существующих методов

Методы активационного руководства: использование только векторного сложения может не полностью представить полный эффект инструкции
Методы редактирования моделей: отсутствует стратегия, выведенная из первых принципов, для сжатия универсальной информации подсказки в переиспользуемые обновления весов
Недостаточное теоретическое объяснение: успех существующих методов не объясняется механизмами вычислений трансформера

Основные вклады

Теоретическое расширение: расширение теории патчей токенов для одного блока трансформера на архитектуру глубоких многоблочных трансформеров
Фреймворк патчей идей: предложение метода агрегирования зависящих от токенов временных патчей в переиспользуемые обновления весов
Теоретическое объединение: предоставление единого теоретического объяснения для существующих методов векторного руководства и редактирования матриц
Практический метод: предоставление вычислительного метода для прямого преобразования текстовых подсказок в обновления весов

Детальное описание методики

Определение задачи

Дана подсказка, содержащая блок инструкции I и последующее содержимое C = I, x₁, ..., xₙ, цель состоит в нахождении эквивалентного обновления весов, такого, что вывод модели после удаления инструкции I совпадает с выводом исходной полной подсказки.

Теория патчей токенов

Расширение для одного блока

На основе работы Dherin и соавторов, выход одного блока трансформера может быть идеально воспроизведён следующим патчем токена:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

где aₓ = A(C\I, x) — выход внимания токена x без контекста I.

Расширение для нескольких блоков

Для глубокого трансформера патчи токенов должны рекурсивно применяться к каждому слою:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

Патч каждого слоя вычисляется с использованием преобразованных активаций предыдущего слоя.

Вывод патчей идей

Приближение вектора идеи

Путём минимизации квадратичной ошибки для всех векторов токенов получается оптимальное приближение вектора идеи:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

Приближение матрицы идеи

Теорема 3.1: Рассмотрим n векторов a₁,...,aₙ, задача минимизации:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

имеет единственное решение тогда и только тогда, когда оператор Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ обратим:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

Практическое приближение

Предполагая сферическое распределение векторов aᵢ, Z приблизительно равно кратному единичной матрице, получается практическая формула:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

Технические инновации

Теоретическая основа: первое предоставление теоретического объяснения на основе архитектуры трансформера для эмпирических методов управления моделями
Единый фреймворк: объединение векторного руководства и редактирования матриц в единый механизм обновления весов
Математическая строгость: предоставление строгих математических выводов и доказательств теорем
Практичность: метод может быть непосредственно применён к реальным моделям без обратного распространения

Экспериментальная установка

Наборы данных

Арифметические задачи: синтетический набор данных трёхзначного сложения и умножения
Машинный перевод: набор данных английско-французского перевода "mntn/en-fr"

Модели

Все эксперименты используют модель Gemma 3.0 1B

Метрики оценки

Арифметические задачи: точность (целевое значение ≥80%)
Машинный перевод: оценка качества перевода с использованием Gemini 2.5-Flash-lite

Детали реализации

Целевые слои: слои 10-20
Гиперпараметры: c₁ и c₂ определяются путём настройки
Улучшение стабильности: нормализация rank-1 обновлений через норму векторов внимания

Результаты экспериментов

Основные результаты

Арифметические задачи

Сложение: достижение 100% точности с использованием менее 300 токенов демонстрации
Умножение: достижение 80% точности, демонстрирующее эффективность метода на более сложных задачах
Поведение: модель с патчем производит более детальное цепочечное рассуждение

Машинный перевод

Модель с патчем: достижение 60% точности без инструкции
Базовая модель: достижение 72% точности с инструкцией
Разрыв производительности: существует 12% разрыв производительности, но демонстрирует осуществимость метода

Ключевые находки

Чувствительность гиперпараметров: метод высоко чувствителен к гиперпараметру c₁
- c₁ слишком низкий: модель просто повторяет вход
- c₁ слишком высокий: выход становится повторяющимся и нестабильным
Превосходство над базовым вариантом: в некоторых арифметических задачах модель с патчем даже превосходит базовую модель с инструкцией
Языковая путаница: в задачах перевода модель иногда по умолчанию выбирает неправильный целевой язык

Анализ случаев

Успешный случай (сложение):

Запрос: 2 9 2
Выход модели с патчем: "Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13."

Случай исправления ошибки (умножение):

Ошибка базовой модели: 0 * 8 * 6 = 48
Правильный результат модели с патчем: 0 * 8 * 6 = 0

Связанные работы

Методы активационного руководства

Векторы руководства: направление поведения модели путём добавления тщательно разработанных векторов к потокам остатков
Контрастные методы: построение векторов с использованием различий активаций положительных и отрицательных примеров подсказок
Функциональные векторы: захват векторных представлений, специфичных для конкретных задач

Методы редактирования моделей

ROME: использование rank-1 редактирования матриц для изменения ассоциаций фактов
MEND: обучение низкоранговых обновлений весовых матриц прямого распространения
Управление безопасностью: удаление небезопасных направлений активации путём редактирования

Вклад данной работы

Первое предоставление единого теоретического фреймворка, выведенного из первых принципов, объясняющего, почему оба класса методов эффективны.

Заключение и обсуждение

Основные выводы

Теоретическое объединение: успешное объединение эмпирических методов управления моделями в теоретический фреймворк, основанный на вычислениях трансформера
Эффективность метода: эксперименты демонстрируют осуществимость метода патчей идей на арифметических и переводческих задачах
Теоретическое объяснение: предоставление математической основы для существующих эвристических методов, таких как усреднение контрастных активаций как правильный выбор для приближения наименьших квадратов

Ограничения

Разрыв производительности: существует потеря производительности по сравнению с прямым использованием подсказок
Чувствительность гиперпараметров: метод высоко чувствителен к выбору гиперпараметров, требует тщательной настройки
Сложность задач: производительность на более сложных задачах требует дальнейшей проверки
Вычислительная сложность: вычисление Z⁻¹ в общем случае является сложным

Направления будущих исследований

Аналитические инструменты: использование фреймворка как аналитического инструмента для лучшего понимания представления задач и рассуждений в больших языковых моделях
Улучшение производительности: исследование методов сокращения разрыва производительности и снижения чувствительности гиперпараметров
Расширение приложений: исследование применения на более сложных задачах
Углубление теории: дальнейшее совершенствование теоретического фреймворка для обработки более общих случаев

Глубокая оценка

Преимущества

Значительный теоретический вклад: первое предоставление строгой теоретической основы для методов управления моделями, заполнение важного теоретического пробела
Математическая строгость: предоставление полных математических выводов и доказательств теорем, прочная теоретическая основа
Сильная объединяющая способность: успешное объединение кажущихся различными двух классов методов (векторное руководство и редактирование матриц)
Практическая ценность: метод может быть непосредственно применён, предоставляя новые идеи для практических приложений

Недостатки

Ограниченный масштаб экспериментов: проверка только на модели с 1B параметрами, отсутствие экспериментов на крупномасштабных моделях
Узкий диапазон задач: экспериментальные задачи относительно просты, производительность на сложных задачах НЛП неизвестна
Потеря производительности: значительное снижение производительности по сравнению с прямым использованием подсказок
Инженерные вызовы: чувствительность гиперпараметров может ограничить практическое применение

Влияние

Академическая ценность: предоставление важной теоретической основы для исследований механизмов трансформеров и управления моделями
Практические перспективы: предоставление новых технических путей для развёртывания и управления моделями
Исследовательское вдохновение: возможность стимулирования дальнейших исследований методов управления моделями, основанных на теории

Применимые сценарии

Анализ моделей: понимание внутренних представлений и механизмов вычислений моделей
Лёгкое развёртывание: реализация специализации моделей в среде с ограниченными ресурсами
Управление безопасностью: предоставление теоретического руководства для безопасности и выравнивания моделей
Инструменты разработки: использование в качестве аналитического инструмента для разработки и отладки моделей

Библиография

Ключевые ссылки включают:

Dherin et al. (2025) - Теория неявного динамического обучения для одного блока трансформера
Turner et al. (2025) - Инженерия активаций для руководства языковыми моделями
Meng et al. (2022) - Локализация и редактирование ассоциаций фактов в GPT
Todd et al. (2024) - Функциональные векторы в больших языковых моделях

Общая оценка: Это статья с важным теоретическим значением, которая успешно предоставляет строгую теоретическую основу для эмпирических методов управления моделями. Хотя в аспекте экспериментальной проверки есть место для улучшения, её теоретический вклад имеет важное значение для понимания и развития методов управления моделями трансформеров.