A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
본 논문은 대규모 언어 모델의 추론 시간 제어 기술에 대한 이론적 기초를 제공합니다. 기존 연구에 따르면 모델 내부 상태를 직접 수정(활성화에 벡터 추가 또는 가중치 행렬 업데이트)하여 대규모 언어 모델의 동작을 효과적으로 제어할 수 있습니다. 그러나 이러한 기술들은 일반적으로 경험적 휴리스틱에 기반하고 있어 이론적 지원이 부족합니다. 본 논문은 프롬프트의 영향이 수학적으로 암묵적 가중치 업데이트로 매핑될 수 있다는 발견을 바탕으로 이 이론을 깊은 다중 블록 트랜스포머로 확장합니다. 논문은 사용자 프롬프트의 모든 정보 블록이 가중치 벡터와 가중치 행렬을 통해 내부적으로 어떻게 표현되고 결합되는지를 보여주며, 이 정보를 토큰 무관의 "아이디어 벡터"와 "아이디어 행렬"로 압축하는 원칙적 방법을 도출합니다.