2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.
A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
academic

프롬프트를 가중치로 변환하기

기본 정보

  • 논문 ID: 2510.08734
  • 제목: Transmuting prompts into weights
  • 저자: Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
  • 분류: cs.LG (기계학습)
  • 발표 시간: 2025년 10월 9일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.08734

초록

본 논문은 대규모 언어 모델의 추론 시간 제어 기술에 대한 이론적 기초를 제공합니다. 기존 연구에 따르면 모델 내부 상태를 직접 수정(활성화에 벡터 추가 또는 가중치 행렬 업데이트)하여 대규모 언어 모델의 동작을 효과적으로 제어할 수 있습니다. 그러나 이러한 기술들은 일반적으로 경험적 휴리스틱에 기반하고 있어 이론적 지원이 부족합니다. 본 논문은 프롬프트의 영향이 수학적으로 암묵적 가중치 업데이트로 매핑될 수 있다는 발견을 바탕으로 이 이론을 깊은 다중 블록 트랜스포머로 확장합니다. 논문은 사용자 프롬프트의 모든 정보 블록이 가중치 벡터와 가중치 행렬을 통해 내부적으로 어떻게 표현되고 결합되는지를 보여주며, 이 정보를 토큰 무관의 "아이디어 벡터"와 "아이디어 행렬"로 압축하는 원칙적 방법을 도출합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하려는 핵심 문제는 다음과 같습니다: 기존의 모델 개입 기술(활성화 유도 및 모델 편집 등)이 복잡한 모델 동작을 효과적으로 제어할 수 있는 이유는 무엇인가? 이러한 기술 뒤에 숨겨진 수학적 원리는 무엇인가?

중요성

  1. 이론적 공백: 벡터 유도 및 행렬 편집 기술이 실제로는 매우 효과적이지만, 트랜스포머 아키텍처에 기반한 이론적 설명이 부족합니다
  2. 방법의 한계: 기존 방법은 주로 경험적 휴리스틱에 기반하고 있으며, 예를 들어 대조 프롬프트의 평균 활성화를 통해 유도 벡터를 구성합니다
  3. 통합 프레임워크의 필요성: 텍스트 지시사항이 구체적인 가중치 또는 활성화 변화로 어떻게 변환되는지를 설명하는 통합 이론 프레임워크가 필요합니다

기존 방법의 한계

  1. 활성화 유도 방법: 벡터 덧셈만으로는 지시사항의 전체 효과를 완전히 표현하지 못할 수 있습니다
  2. 모델 편집 방법: 일반적인 프롬프트 정보를 재사용 가능한 가중치 업데이트로 압축하기 위한 제1원리 기반 전략이 부족합니다
  3. 이론적 설명 부족: 기존 기술의 성공이 트랜스포머 계산 메커니즘에 기반한 이론적 설명을 갖추지 못하고 있습니다

핵심 기여

  1. 이론적 확장: 단일 트랜스포머 블록의 토큰 패치 이론을 깊은 다중 블록 트랜스포머 아키텍처로 확장
  2. 아이디어 패치 프레임워크: 토큰 의존적 일시적 패치를 재사용 가능한 가중치 업데이트로 집계하는 방법 제안
  3. 이론적 통합: 기존의 벡터 유도 및 행렬 편집 기술에 대한 통합 이론적 설명 제공
  4. 실용적 방법: 텍스트 프롬프트를 가중치 업데이트로 직접 변환하는 계산 방법 제공

방법 상세 설명

작업 정의

지시사항 블록 I와 후속 콘텐츠를 포함하는 프롬프트 C = I, x₁, ..., xₙ이 주어졌을 때, 목표는 지시사항 I를 제거한 후의 모델 출력이 원본 완전한 프롬프트의 출력과 동일하게 하는 동등한 가중치 업데이트를 찾는 것입니다.

토큰 패치 이론

단일 블록 확장

Dherin 등의 작업을 기반으로, 단일 트랜스포머 블록의 출력은 다음의 토큰 패치를 통해 완벽하게 복제될 수 있습니다:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

여기서 aₓ = A(C\I, x)는 컨텍스트 I가 없을 때 토큰 x의 주의 출력입니다.

다중 블록 확장

깊은 트랜스포머의 경우, 토큰 패치는 각 계층에 재귀적으로 적용되어야 합니다:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

각 계층의 패치는 이전 계층의 변환된 활성화를 사용하여 계산됩니다.

아이디어 패치 도출

아이디어 벡터 근사

모든 토큰 벡터의 제곱 오차를 최소화하여 아이디어 벡터의 최적 근사를 얻습니다:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

아이디어 행렬 근사

정리 3.1: n개의 벡터 a₁,...,aₙ을 고려하면, 최소화 문제:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

연산자 Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ가 가역일 때만 유일한 해를 가집니다:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

실용적 근사

벡터 aᵢ가 구형 분포를 따른다고 가정하면, Z는 단위 행렬의 배수로 근사되어 실용적 공식을 얻습니다:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

기술적 혁신점

  1. 이론적 기초: 경험적 모델 제어 기술에 대한 트랜스포머 아키텍처 기반 이론적 설명을 처음으로 제공
  2. 통합 프레임워크: 벡터 유도와 행렬 편집을 단일 가중치 업데이트 메커니즘으로 통합
  3. 수학적 엄밀성: 엄격한 수학적 도출 및 정리 증명 제공
  4. 실용성: 역전파 없이 실제 모델에 직접 적용 가능한 방법

실험 설정

데이터셋

  1. 산술 작업: 3자리 덧셈과 곱셈의 합성 데이터셋
  2. 기계 번역: "mntn/en-fr" 영불 번역 데이터셋 사용

모델

모든 실험에서 Gemma 3.0 1B 모델 사용

평가 지표

  • 산술 작업: 정확도(목표 ≥80%)
  • 기계 번역: Gemini 2.5-Flash-lite를 사용한 번역 품질 평가

구현 세부사항

  • 목표 계층: 제10-20층
  • 하이퍼파라미터: c₁과 c₂는 조정을 통해 결정
  • 안정성 개선: 주의 벡터 범수 정규화를 통한 rank-1 업데이트

실험 결과

주요 결과

산술 작업

  • 덧셈: 300개 미만의 시연 토큰으로 100% 정확도 달성
  • 곱셈: 80% 정확도 달성, 더 복잡한 작업에 대한 방법의 효과성 증명
  • 동작 관찰: 패치된 모델은 더 상세한 연쇄 추론 생성

기계 번역

  • 패치된 모델: 지시사항 없이 60% 정확도 달성
  • 기준선 모델: 지시사항 포함 시 72% 정확도 달성
  • 성능 차이: 12%의 성능 차이 존재하지만 방법의 타당성 증명

주요 발견

  1. 하이퍼파라미터 민감성: 방법이 하이퍼파라미터 c₁에 매우 민감함
    • c₁이 너무 낮음: 모델이 단순히 입력 반복
    • c₁이 너무 높음: 출력이 반복적이고 불안정해짐
  2. 기준선을 능가하는 경우: 일부 산술 문제에서 패치된 모델이 지시사항이 있는 기준선 모델을 능가
  3. 언어 혼동: 번역 작업에서 모델이 때때로 잘못된 목표 언어로 기본 설정

사례 분석

성공 사례(덧셈):

  • 쿼리: 2 9 2
  • 패치된 모델 출력: "Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13."

오류 수정 사례(곱셈):

  • 기준선 모델 오류: 0 * 8 * 6 = 48
  • 패치된 모델 정답: 0 * 8 * 6 = 0

관련 연구

활성화 유도 방법

  • 유도 벡터: 잔차 흐름에 신중하게 설계된 벡터를 추가하여 모델 동작 유도
  • 대조 방법: 긍정 및 부정 샘플 프롬프트의 활성화 차이를 사용하여 벡터 구성
  • 기능 벡터: 특정 작업의 벡터 표현 캡처

모델 편집 방법

  • ROME: rank-1 행렬 편집을 사용하여 사실 관계 수정
  • MEND: 피드포워드 가중치 행렬의 저차 업데이트 학습
  • 안전 제어: 편집을 통해 안전하지 않은 활성화 방향 제거

본 논문의 기여

제1원리에서 출발하는 통합 이론 프레임워크를 처음으로 제공하여 이 두 가지 방법 클래스가 모두 효과적인 이유를 설명합니다.

결론 및 논의

주요 결론

  1. 이론적 통합: 경험적 모델 제어 기술을 트랜스포머 계산에 기반한 이론 프레임워크로 성공적으로 통합
  2. 방법의 효과성: 실험이 산술 및 번역 작업에서 아이디어 패치 방법의 타당성을 증명
  3. 이론적 설명: 대조 활성화 평균이 최소제곱 근사의 올바른 선택인 것처럼 기존 휴리스틱 방법에 수학적 기초 제공

한계

  1. 성능 차이: 직접 프롬프팅과 비교하여 성능 손실 존재
  2. 하이퍼파라미터 민감성: 방법이 하이퍼파라미터 선택에 매우 민감하여 신중한 조정 필요
  3. 작업 복잡성: 더 복잡한 작업에서의 성능은 추가 검증 필요
  4. 계산 복잡성: Z⁻¹의 계산이 일반적인 경우 어려움

향후 방향

  1. 분석 도구: 프레임워크를 분석 도구로 사용하여 대규모 언어 모델의 작업 표현 및 추론을 더 잘 이해
  2. 성능 개선: 성능 차이 감소 및 하이퍼파라미터 민감성 저감 방법 연구
  3. 확장 적용: 더 많은 복잡한 작업에서의 적용 탐색
  4. 이론 심화: 더 일반적인 경우를 다루기 위한 이론 프레임워크 추가 개선

심층 평가

장점

  1. 중대한 이론적 기여: 모델 제어 기술에 대한 엄격한 이론적 기초를 처음으로 제공하여 중요한 이론적 공백 해결
  2. 수학적 엄밀성: 완전한 수학적 도출 및 정리 증명 제공, 견고한 이론 프레임워크
  3. 강한 통합성: 겉으로는 다른 두 가지 방법(벡터 유도 및 행렬 편집)을 성공적으로 통합
  4. 실용적 가치: 방법을 직접 적용 가능하며 실제 응용에 새로운 사고 제공

부족한 점

  1. 제한된 실험 규모: 1B 파라미터 모델에서만 검증, 대규모 모델 실험 부족
  2. 좁은 작업 범위: 실험 작업이 상대적으로 단순하며 복잡한 NLP 작업의 성능 미지수
  3. 성능 손실: 직접 프롬프팅 대비 명백한 성능 저하
  4. 공학적 과제: 하이퍼파라미터 민감성이 실제 응용을 제한할 수 있음

영향력

  1. 학술적 가치: 트랜스포머 메커니즘 이해 및 모델 제어 연구에 중요한 이론적 기초 제공
  2. 실용적 전망: 모델 배포 및 제어를 위한 새로운 기술 경로 제공
  3. 연구 영감: 이론 기반 모델 제어 방법 연구를 촉발할 가능성

적용 시나리오

  1. 모델 분석: 모델 내부 표현 및 계산 메커니즘 이해
  2. 경량 배포: 자원 제한 환경에서 모델 전문화 구현
  3. 안전 제어: 모델 안전성 및 정렬을 위한 이론적 지도 제공
  4. 연구 개발 도구: 모델 개발 및 디버깅을 위한 분석 도구

참고문헌

주요 참고문헌:

  1. Dherin et al. (2025) - 단일 블록 트랜스포머의 암묵적 동역학 학습 이론
  2. Turner et al. (2025) - 활성화 공학으로 언어 모델 유도
  3. Meng et al. (2022) - GPT의 사실 관계 위치 파악 및 편집
  4. Todd et al. (2024) - 대규모 언어 모델의 기능 벡터

종합 평가: 본 논문은 중요한 이론적 가치를 지닌 논문으로, 경험적 모델 제어 기술에 대한 엄격한 이론적 기초를 성공적으로 제공합니다. 실험 검증 측면에서 개선의 여지가 있지만, 그 이론적 기여는 트랜스포머 모델 제어 기술의 이해 및 발전에 중요한 의미를 가집니다.