In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
In-Distribution Steering: Kontrolle und Kohärenz bei der Sprachmodellgenerierung ausbalancieren
Aktivierungslenkungsmethoden kontrollieren das Verhalten großer Sprachmodelle (LLMs) durch Modifikation interner Aktivierungen während der Inferenz. Allerdings beruhen die meisten bestehenden Aktivierungslenkungsmethoden auf fester Lenkungsstärke, was zu unzureichender Kontrolle oder übermäßiger Intervention führt und dadurch die Glaubwürdigkeit und Kohärenz des Textes beeinträchtigt. Dieses Paper präsentiert In-Distribution Steering (IDS), eine neuartige Methode, die die Lenkungsstärke adaptiv basierend auf der Eingabeverteilung im Darstellungsraum anpasst. IDS passt die Intervention dynamisch basierend auf der Position einer gegebenen Eingabe in der Verteilung an und erreitet damit adaptive Intervention und Generierungsstabilität während des Textgenerierungsprozesses. Experimente zeigen, dass IDS starke Genauigkeit bei Klassifizierungsaufgaben erreicht und gleichzeitig kohärente Texte ohne Zusammenbruch erzeugt, was IDS besonders für praktische Anwendungen geeignet macht.
RLHF (Reinforcement Learning from Human Feedback): Erfordert große Datenmengen und Rechenressourcen, undurchsichtige Modellgewichtsmodifikation, kann neue Verzerrungen einführen
Bedarf einer Methode, die präzise Kontrolle des LLM-Verhaltens ermöglicht, während gleichzeitig die Textqualität erhalten bleibt, besonders in hochriskanten Anwendungsszenarien.
Vorschlag der IDS-Methode: Eine neuartige Aktivierungslenkungsmethode, die die Lenkungsstärke dynamisch für jede Eingabe anpasst und präzise Verhaltenskontrolle bei Beibehaltung von Textglaubwürdigkeit und Kohärenz erreicht
Umfassende experimentelle Bewertung: Bewertung der IDS-Leistung auf 6 LLMs und 7 Datensätzen, Vergleich mit zwei konkurrierenden Methoden, Nachweis der Effektivität, Robustheit und Allgemeingültigkeit bei Single-Token-Vorhersage und offenen Textgenerierungsaufgaben
Ablationsstudien: Tiefgehende Analyse der Komponenten der IDS-Leistung, Offenlegung der Erfolgsmechanismen
Theoretische Grundlagen: Basierend auf der linearen Darstellungsannahme, Bereitstellung einer geschlossenen Lösung für effiziente Echtzeitberechnung
Gegeben die ursprüngliche Aktivierung h_{l,p} ∈ R^d eines Sprachmodells in Schicht l und Token-Position p, modifiziert die Aktivierungslenkung das Verhalten durch folgende Intervention:
h_{l,p} ← h_{l,p} + α_{l,p}v_l
wobei v_l ∈ R^d ein Lenkungsvektor ist, der die Richtung des gewünschten Verhaltens kodiert, und α_{l,p} ∈ R die Interventionsstärke für die spezifische Schicht und Token-Position kontrolliert.
Konstruktion kontrastiver Datensätze: Separate Modellierung von Aktivierungsverteilungen für positives Verhalten (D^+_l) und negatives Verhalten (D^-_l)
PCA-Dimensionsreduktion: Anwendung der Hauptkomponentenanalyse zur Lösung des Fluchs der Dimensionalität im hochdimensionalen Raum
Mahalanobis-Distanz-Modellierung: Verwendung der Mahalanobis-Distanz zur Messung der Entfernung von Aktivierungen zur Zielverteilung, Festlegung des 95. Perzentils als Schwellenwert ε für Verteilungsinnerheit
Experimente zeigen, dass MERA dazu neigt, größere durchschnittliche Lenkungsfaktoren zu erzeugen, was dazu führt, dass Aktivierungen von der Verteilung abweichen und letztendlich Textzusammenbruch und hohe Perplexität verursachen.
Das Paper zitiert wichtige Arbeiten aus den Bereichen Aktivierungslenkung, Darstellungslernen und KI-Sicherheit, einschließlich:
Rimsky et al. (2024): Originalarbeit der CAA-Methode
Hedström et al. (2025): MERA-Methode
Turner et al. (2024): Übersicht über Aktivierungstechnik
Mikolov et al. (2013): Frühe Arbeiten zur linearen Darstellungsannahme
Zusammenfassung: Die in diesem Paper vorgeschlagene IDS-Methode hat bedeutende Innovationsbedeutung im Aktivierungslenkungsfeld. Durch Einführung von Verteilungsbeschränkungen und adaptiven Anpassungsmechanismen löst sie effektiv das Überlenkungsproblem bestehender Methoden. Experimentelle Ergebnisse beweisen vollständig die Effektivität und den praktischen Wert der Methode und bieten wichtige Werkzeuge für sichere LLM-Bereitstellung.