In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
활성화 조향 방법은 추론 시 내부 활성화를 수정하여 대규모 언어 모델(LLM)의 동작을 제어합니다. 그러나 기존의 활성화 조향 방법 대부분은 고정된 조향 강도에 의존하여 제어 부족 또는 과도한 개입을 초래하고, 이는 텍스트의 신뢰성과 일관성을 저하시킵니다. 본 논문은 분포 내 조향(IDS)을 제안하는데, 이는 표현 공간의 입력 데이터 분포에 기반하여 조향 강도를 적응적으로 조정하는 새로운 방법입니다. IDS는 주어진 입력이 분포 내에서의 위치에 따라 개입을 동적으로 조정하여 텍스트 생성 과정에서 적응적 개입과 생성 안정성을 실현합니다. 실험 결과는 IDS가 분류 작업에서 강력한 정확도를 달성하면서 동시에 붕괴 없이 일관된 텍스트를 생성하므로, IDS가 실제 응용에 특히 적합함을 보여줍니다.
논문은 활성화 조향, 표현 학습, AI 안전 등 분야의 중요한 작업을 인용하며, 다음을 포함합니다:
Rimsky et al. (2024): CAA 방법의 원본 논문
Hedström et al. (2025): MERA 방법
Turner et al. (2024): 활성화 엔지니어링 종합 검토
Mikolov et al. (2013): 선형 표현 가정의 초기 작업
요약: 본 논문에서 제안한 IDS 방법은 활성화 조향 분야에서 중요한 혁신 의의를 가지며, 분포 제약과 적응적 조정 메커니즘을 도입하여 기존 방법의 과도한 조향 문제를 효과적으로 해결합니다. 실험 결과는 방법의 효과성과 실용 가치를 충분히 입증하며, LLM의 안전한 배포를 위한 중요한 도구를 제공합니다.