2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

분포 내 조향: 언어 모델 생성에서 제어와 일관성의 균형

기본 정보

논문 ID: 2510.13285
제목: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
저자: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 10월 15일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2510.13285

초록

활성화 조향 방법은 추론 시 내부 활성화를 수정하여 대규모 언어 모델(LLM)의 동작을 제어합니다. 그러나 기존의 활성화 조향 방법 대부분은 고정된 조향 강도에 의존하여 제어 부족 또는 과도한 개입을 초래하고, 이는 텍스트의 신뢰성과 일관성을 저하시킵니다. 본 논문은 분포 내 조향(IDS)을 제안하는데, 이는 표현 공간의 입력 데이터 분포에 기반하여 조향 강도를 적응적으로 조정하는 새로운 방법입니다. IDS는 주어진 입력이 분포 내에서의 위치에 따라 개입을 동적으로 조정하여 텍스트 생성 과정에서 적응적 개입과 생성 안정성을 실현합니다. 실험 결과는 IDS가 분류 작업에서 강력한 정확도를 달성하면서 동시에 붕괴 없이 일관된 텍스트를 생성하므로, IDS가 실제 응용에 특히 적합함을 보여줍니다.

연구 배경 및 동기

문제 정의

대규모 언어 모델은 뛰어난 일반화 능력을 가지고 있지만 다음을 포함한 부정적인 동작을 생성할 수 있습니다:

사실적 부정확성: 잘못된 정보 생성
안전성 문제: 해로운 콘텐츠 생성
정렬 문제: 특정 응용 요구사항과 불일치

기존 방법의 한계

RLHF(인간 피드백 강화 학습): 대량의 데이터와 계산 자원 필요, 모델 가중치 수정 방식이 불투명하며 새로운 편향을 도입할 수 있음
프롬프트 엔지니어링: 효과가 간접적이며 문맥에 매우 민감함
기존 활성화 조향 방법:
- 고정된 조향 강도 사용으로 조향 부족 또는 과도한 조향 초래
- 개방형 텍스트 생성에 대한 충분한 테스트 부족
- 신뢰할 수 있는 조향 텍스트 생성 불가능

연구 동기

특히 고위험 응용 시나리오에서 텍스트 품질을 유지하면서 LLM 동작을 정확하게 제어할 수 있는 방법이 필요합니다.

핵심 기여

IDS 방법 제안: 각 입력에 따라 조향 강도를 동적으로 조정하여 텍스트의 신뢰성과 일관성을 유지하면서 정확한 동작 제어를 실현하는 새로운 활성화 조향 방법
포괄적 실험 평가: 6개의 LLM과 7개의 데이터셋에서 IDS 성능을 평가하고 두 가지 경쟁 방법과 비교하여 단일 토큰 예측 및 개방형 텍스트 생성 작업에서의 효과성, 견고성 및 일반성을 입증
제거 연구: IDS 성능의 각 구성 요소를 심층 분석하여 성공의 메커니즘 규명
이론적 기초: 선형 표현 가정에 기반하여 폐쇄형 해결책을 제공하여 효율적인 실시간 계산 실현

방법 상세 설명

작업 정의

언어 모델의 층 l과 토큰 위치 p에서의 원본 활성화 h_{l,p} ∈ R^d가 주어질 때, 활성화 조향은 다음 개입을 통해 동작을 수정합니다:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

여기서 v_l ∈ R^d는 원하는 동작 방향을 인코딩하는 조향 벡터이고, α_{l,p} ∈ R은 특정 층과 토큰 위치의 개입 강도를 제어합니다.

모델 아키텍처

IDS 방법은 세 가지 주요 단계로 구성됩니다:

1. 분포 모델링(Distribution Modeling)

대조 데이터셋 구성: 긍정적 동작(D^+_l)과 부정적 동작(D^-_l)의 활성화 분포를 각각 모델링
PCA 차원 축소: 고차원 공간의 차원의 저주 문제를 해결하기 위해 주성분 분석 적용
마할라노비스 거리 모델링: 마할라노비스 거리를 사용하여 활성화에서 목표 분포까지의 거리를 측정하고, 95 백분위수를 분포 내 임계값 ε으로 설정

2. 최적 조향 계수 결정

조향 계수의 결정을 제약 최적화 문제로 표현:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

폐쇄형 해결책 제공:

α = {
  (-b + √(b² - 4ac))/(2a), if b² - 4ac ≥ 0
  -b/(2a), if b² - 4ac < 0
}

여기서:

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. 층 선택

F1 점수에 기반하여 조향 벡터의 판별 능력 평가
임계값 0.7 설정, 판별 능력이 강한 층에서만 개입 수행

기술적 혁신점

적응적 조향 강도: 목표 동작 분포 내 입력의 위치에 따라 개입 강도를 동적으로 조정
분포 제약: 조향 후 활성화가 목표 동작의 분포 내에 유지되도록 보장
폐쇄형 해결책: 효율적인 실시간 계산 방법 제공
층 선택 메커니즘: 높은 판별 능력을 가진 층에서만 개입 수행

실험 설정

데이터셋

분류 작업: SMS 스팸 필터링, MMLU
AI 안전 동작: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
개방형 생성: 해로운 지시사항 데이터셋과 무해한 지시사항 데이터셋 결합

모델

6개의 디코더 전용 모델 테스트:

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

평가 지표

조향 성능 영향(SPI): 조향이 정렬되지 않은 답변을 수정하는 비율을 정량화
혼란도(PPL): 텍스트 신뢰성 평가
GPT-4 평가: 생성된 텍스트가 목표 동작을 나타내는지 자동 평가

비교 방법

CAA-1 및 CAA-1.5: 고정된 조향 계수 1과 1.5를 사용하는 대조 활성화 추가 방법
MERA: 선형 프로브 기반 메커니즘화된 오류 감소 방법

실험 결과

주요 결과

단일 토큰 생성 작업

전체 순위: IDS 평균 순위 1.67, MERA(1.93), CAA-1.5(2.52), CAA-1(3.07)보다 현저히 우수
모델 성능: 6개 모델 중 5개에서 1위
데이터셋 성능: 7개 데이터셋 중 5개에서 1위
성능 향상: 일부 모델에서 MERA 대비 최대 18 백분점 향상

개방형 텍스트 생성

SPI 순위: IDS 평균 순위 1.39, 모든 6개 모델과 4개 데이터셋에서 1위
일관성: 18개 구성에서 지속적으로 상위 2위 순위, 뛰어난 견고성 시연
균형 성능: 조향 효과와 텍스트 신뢰도 간의 최적 균형 달성

제거 실험

PCA 분산 설명 비율: 30%-42%의 분산 보존이 가장 높고 가장 안정적인 SPI 결과 생성
마할라노비스 거리 임계값: 임계값과 조향 성능 간 약한 양의 상관관계
F1 점수 임계값: 80% 초과 시 조향 성능 저하 시작

사례 분석

논문은 해로운 프롬프트 처리 시 IDS와 MERA의 대조를 시연합니다:

프롬프트: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
IDS 출력: 관련성 있지만 안전한 증상 설명 제공
MERA 출력: 반복적이고 무의미한 토큰 시퀀스 생성, 텍스트 붕괴 발생

과도한 조향과 붕괴의 연관성

실험은 MERA가 더 큰 평균 조향 계수를 생성하는 경향이 있어 활성화가 분포에서 벗어나고 궁극적으로 텍스트 붕괴와 높은 혼란도를 초래함을 보여줍니다.

결론 및 논의

주요 결론

IDS는 조향 강도를 동적으로 조정하여 동작 제어와 텍스트 일관성 간의 최적 균형 달성
분포 기반 제약은 과도한 조향과 텍스트 붕괴를 효과적으로 방지
방법은 다양한 모델과 작업에서 강력한 견고성과 일반성 시연

한계

현재 방향성 조향에 초점, 각도 조향 미포함
분포 모델링을 위해 대조 데이터셋 구성 필요
PCA 차원 축소는 일부 중요한 정보 손실 가능

향후 방향

각도 조향 방법으로 확장
복잡한 추론 작업의 사실성 생성에 적용
추론 모델의 추론 과정에서 조향 적용

심층 평가

장점

견고한 이론적 기초: 선형 표현 가정과 분포 제약에 기반한 이론적 프레임워크
강한 방법 혁신성: 분포 기반 적응적 조향 강도 조정을 처음 제안
포괄적이고 충분한 실험: 여러 모델, 데이터셋 및 작업에 걸친 체계적 평가
높은 실용 가치: 폐쇄형 해결책 제공, 실시간 응용에 적합
설득력 있는 결과: 조향 효과와 텍스트 품질 간의 파레토 최적 달성

부족한 점

계산 복잡도: PCA 및 마할라노비스 거리 계산 필요, 추론 오버헤드 증가 가능
초매개변수 민감성: 여러 초매개변수(PCA 분산 비율, 거리 임계값, F1 임계값) 조정 필요
데이터 의존성: 분포 모델링을 위해 고품질 대조 데이터셋 필요
불충분한 이론 분석: 방법의 수렴성 및 안정성에 대한 이론적 보장 부족

영향력

학술적 기여: 활성화 조향 분야에 새로운 이론적 프레임워크 및 실용적 방법 제공
실제 응용: LLM 동작의 정확한 제어가 필요한 고위험 응용 시나리오에 특히 적합
재현성: 상세한 구현 세부사항 및 오픈소스 코드 제공

적용 시나리오

콘텐츠 안전: 해로운 또는 부적절한 콘텐츠 생성 방지
사실성 제어: 환각 및 오류 정보 감소
동작 정렬: 모델 동작을 특정 응용 요구사항과 정렬
실시간 응용: 추론 시 모델 동작을 동적으로 조정해야 하는 시나리오

참고문헌

논문은 활성화 조향, 표현 학습, AI 안전 등 분야의 중요한 작업을 인용하며, 다음을 포함합니다:

Rimsky et al. (2024): CAA 방법의 원본 논문
Hedström et al. (2025): MERA 방법
Turner et al. (2024): 활성화 엔지니어링 종합 검토
Mikolov et al. (2013): 선형 표현 가정의 초기 작업

요약: 본 논문에서 제안한 IDS 방법은 활성화 조향 분야에서 중요한 혁신 의의를 가지며, 분포 제약과 적응적 조정 메커니즘을 도입하여 기존 방법의 과도한 조향 문제를 효과적으로 해결합니다. 실험 결과는 방법의 효과성과 실용 가치를 충분히 입증하며, LLM의 안전한 배포를 위한 중요한 도구를 제공합니다.