A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
Данная статья предоставляет теоретическую основу для методов управления большими языковыми моделями во время вывода. Существующие исследования показывают, что поведение больших языковых моделей можно эффективно контролировать путём прямого изменения внутренних состояний модели (добавления векторов к активациям или обновления матриц весов). Однако эти методы обычно основаны на эмпирических эвристиках и лишены теоретического обоснования. В данной работе, основываясь на открытии того, что влияние подсказки может быть математически отображено как неявное обновление весов, авторы обобщают теорию на глубокие многоблочные трансформеры. Статья демонстрирует, как любой информационный блок в пользовательской подсказке может быть внутренне представлен и скомбинирован через весовые векторы и весовые матрицы, и выводит принципиальный метод сжатия этой информации в независимые от токенов "векторы идей" и "матрицы идей".
Основной вопрос, который решает данное исследование: почему существующие методы вмешательства в модель (такие как активационное руководство и редактирование моделей) эффективно контролируют сложное поведение моделей? Какие математические принципы лежат в основе этих методов?
Отсутствие теории: несмотря на практическую эффективность методов векторного руководства и редактирования матриц, отсутствует теоретическое объяснение на основе архитектуры трансформера
Ограничения методов: существующие подходы в основном основаны на эмпирических эвристиках, таких как построение векторов руководства через усреднение активаций контрастных подсказок
Необходимость единого фреймворка: требуется единая теоретическая основа для объяснения того, как текстовые инструкции преобразуются в конкретные изменения весов или активаций
Методы активационного руководства: использование только векторного сложения может не полностью представить полный эффект инструкции
Методы редактирования моделей: отсутствует стратегия, выведенная из первых принципов, для сжатия универсальной информации подсказки в переиспользуемые обновления весов
Недостаточное теоретическое объяснение: успех существующих методов не объясняется механизмами вычислений трансформера
Дана подсказка, содержащая блок инструкции I и последующее содержимое C = I, x₁, ..., xₙ, цель состоит в нахождении эквивалентного обновления весов, такого, что вывод модели после удаления инструкции I совпадает с выводом исходной полной подсказки.
Теоретическое объединение: успешное объединение эмпирических методов управления моделями в теоретический фреймворк, основанный на вычислениях трансформера
Эффективность метода: эксперименты демонстрируют осуществимость метода патчей идей на арифметических и переводческих задачах
Теоретическое объяснение: предоставление математической основы для существующих эвристических методов, таких как усреднение контрастных активаций как правильный выбор для приближения наименьших квадратов
Аналитические инструменты: использование фреймворка как аналитического инструмента для лучшего понимания представления задач и рассуждений в больших языковых моделях
Улучшение производительности: исследование методов сокращения разрыва производительности и снижения чувствительности гиперпараметров
Расширение приложений: исследование применения на более сложных задачах
Углубление теории: дальнейшее совершенствование теоретического фреймворка для обработки более общих случаев
Значительный теоретический вклад: первое предоставление строгой теоретической основы для методов управления моделями, заполнение важного теоретического пробела
Математическая строгость: предоставление полных математических выводов и доказательств теорем, прочная теоретическая основа
Сильная объединяющая способность: успешное объединение кажущихся различными двух классов методов (векторное руководство и редактирование матриц)
Практическая ценность: метод может быть непосредственно применён, предоставляя новые идеи для практических приложений
Dherin et al. (2025) - Теория неявного динамического обучения для одного блока трансформера
Turner et al. (2025) - Инженерия активаций для руководства языковыми моделями
Meng et al. (2022) - Локализация и редактирование ассоциаций фактов в GPT
Todd et al. (2024) - Функциональные векторы в больших языковых моделях
Общая оценка: Это статья с важным теоретическим значением, которая успешно предоставляет строгую теоретическую основу для эмпирических методов управления моделями. Хотя в аспекте экспериментальной проверки есть место для улучшения, её теоретический вклад имеет важное значение для понимания и развития методов управления моделями трансформеров.