2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic

In-Distribution Steering: Kontrolle und Kohärenz bei der Sprachmodellgenerierung ausbalancieren

Grundinformationen

  • Paper-ID: 2510.13285
  • Titel: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
  • Autoren: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13285

Zusammenfassung

Aktivierungslenkungsmethoden kontrollieren das Verhalten großer Sprachmodelle (LLMs) durch Modifikation interner Aktivierungen während der Inferenz. Allerdings beruhen die meisten bestehenden Aktivierungslenkungsmethoden auf fester Lenkungsstärke, was zu unzureichender Kontrolle oder übermäßiger Intervention führt und dadurch die Glaubwürdigkeit und Kohärenz des Textes beeinträchtigt. Dieses Paper präsentiert In-Distribution Steering (IDS), eine neuartige Methode, die die Lenkungsstärke adaptiv basierend auf der Eingabeverteilung im Darstellungsraum anpasst. IDS passt die Intervention dynamisch basierend auf der Position einer gegebenen Eingabe in der Verteilung an und erreitet damit adaptive Intervention und Generierungsstabilität während des Textgenerierungsprozesses. Experimente zeigen, dass IDS starke Genauigkeit bei Klassifizierungsaufgaben erreicht und gleichzeitig kohärente Texte ohne Zusammenbruch erzeugt, was IDS besonders für praktische Anwendungen geeignet macht.

Forschungshintergrund und Motivation

Problemdefinition

Obwohl große Sprachmodelle außergewöhnliche Verallgemeinerungsfähigkeiten besitzen, können sie unerwünschtes Verhalten zeigen, einschließlich:

  1. Faktische Ungenauigkeit: Erzeugung falscher Informationen
  2. Sicherheitsprobleme: Produktion schädlicher Inhalte
  3. Ausrichtungsprobleme: Nichtübereinstimmung mit spezifischen Anwendungsanforderungen

Einschränkungen bestehender Methoden

  1. RLHF (Reinforcement Learning from Human Feedback): Erfordert große Datenmengen und Rechenressourcen, undurchsichtige Modellgewichtsmodifikation, kann neue Verzerrungen einführen
  2. Prompt Engineering: Indirekte Wirkung, hochgradig kontextabhängig
  3. Bestehende Aktivierungslenkungsmethoden:
    • Verwenden feste Lenkungsstärke, führt zu unzureichender oder übermäßiger Lenkung
    • Mangelnde ausreichende Tests bei offener Textgenerierung
    • Können keinen glaubwürdigen gelenkten Text erzeugen

Forschungsmotivation

Bedarf einer Methode, die präzise Kontrolle des LLM-Verhaltens ermöglicht, während gleichzeitig die Textqualität erhalten bleibt, besonders in hochriskanten Anwendungsszenarien.

Kernbeiträge

  1. Vorschlag der IDS-Methode: Eine neuartige Aktivierungslenkungsmethode, die die Lenkungsstärke dynamisch für jede Eingabe anpasst und präzise Verhaltenskontrolle bei Beibehaltung von Textglaubwürdigkeit und Kohärenz erreicht
  2. Umfassende experimentelle Bewertung: Bewertung der IDS-Leistung auf 6 LLMs und 7 Datensätzen, Vergleich mit zwei konkurrierenden Methoden, Nachweis der Effektivität, Robustheit und Allgemeingültigkeit bei Single-Token-Vorhersage und offenen Textgenerierungsaufgaben
  3. Ablationsstudien: Tiefgehende Analyse der Komponenten der IDS-Leistung, Offenlegung der Erfolgsmechanismen
  4. Theoretische Grundlagen: Basierend auf der linearen Darstellungsannahme, Bereitstellung einer geschlossenen Lösung für effiziente Echtzeitberechnung

Methodische Details

Aufgabendefinition

Gegeben die ursprüngliche Aktivierung h_{l,p} ∈ R^d eines Sprachmodells in Schicht l und Token-Position p, modifiziert die Aktivierungslenkung das Verhalten durch folgende Intervention:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

wobei v_l ∈ R^d ein Lenkungsvektor ist, der die Richtung des gewünschten Verhaltens kodiert, und α_{l,p} ∈ R die Interventionsstärke für die spezifische Schicht und Token-Position kontrolliert.

Modellarchitektur

Die IDS-Methode umfasst drei Hauptphasen:

1. Verteilungsmodellierung (Distribution Modeling)

  • Konstruktion kontrastiver Datensätze: Separate Modellierung von Aktivierungsverteilungen für positives Verhalten (D^+_l) und negatives Verhalten (D^-_l)
  • PCA-Dimensionsreduktion: Anwendung der Hauptkomponentenanalyse zur Lösung des Fluchs der Dimensionalität im hochdimensionalen Raum
  • Mahalanobis-Distanz-Modellierung: Verwendung der Mahalanobis-Distanz zur Messung der Entfernung von Aktivierungen zur Zielverteilung, Festlegung des 95. Perzentils als Schwellenwert ε für Verteilungsinnerheit

2. Bestimmung des optimalen Lenkungsfaktors

Formulierung der Bestimmung des Lenkungsfaktors als eingeschränktes Optimierungsproblem:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Bereitstellung einer geschlossenen Lösung:

α = {
  (-b + √(b² - 4ac))/(2a), wenn b² - 4ac ≥ 0
  -b/(2a), wenn b² - 4ac < 0
}

wobei:

  • a = ||Mv||²
  • b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
  • c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Schichtauswahl

  • Bewertung der Diskriminativfähigkeit von Lenkungsvektoren basierend auf F1-Score
  • Festlegung eines Schwellenwerts von 0,7, Intervention nur in Schichten mit starker Diskriminativfähigkeit

Technische Innovationen

  1. Adaptive Lenkungsstärke: Dynamische Anpassung der Interventionsstärke basierend auf der Position der Eingabe in der Zielverhaltenverteilung
  2. Verteilungsbeschränkungen: Sicherstellung, dass gelenkte Aktivierungen innerhalb der Zielverhaltenverteilung bleiben
  3. Geschlossene Lösung: Bereitstellung einer effizienten Echtzeitberechnungsmethode
  4. Schichtauswahlmechanismus: Intervention nur in Schichten mit hoher Diskriminativfähigkeit

Experimentelle Einrichtung

Datensätze

  1. Klassifizierungsaufgaben: SMS-Spam-Filterung, MMLU
  2. KI-Sicherheitsverhalten: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
  3. Offene Generierung: Kombination von schädlichen und harmlosen Anweisungsdatensätzen

Modelle

Test von 6 Decoder-Only-Modellen:

  • Gemma-2 (2B-it, 9B-it)
  • Qwen-2.5 (1.5B-it, 7B-it)
  • Llama-3.2 (1B-it)
  • Llama-3.1 (8B-it)

Bewertungsmetriken

  1. Steering Performance Impact (SPI): Quantifizierung des Anteils der Korrektur falsch ausgerichteter Antworten durch Lenkung
  2. Perplexität (PPL): Bewertung der Textglaubwürdigkeit
  3. GPT-4-Bewertung: Automatische Bewertung, ob generierter Text das Zielverhalten zeigt

Vergleichsmethoden

  1. CAA-1 und CAA-1.5: Kontrastive Aktivierungsadditionsmethoden mit festen Lenkungsfaktoren 1 und 1,5
  2. MERA: Mechanisierte Fehlerreduktionsmethode basierend auf linearen Sonden

Experimentelle Ergebnisse

Hauptergebnisse

Single-Token-Generierungsaufgaben

  • Gesamtranking: IDS durchschnittliches Ranking 1,67, deutlich besser als MERA (1,93), CAA-1.5 (2,52) und CAA-1 (3,07)
  • Modellleistung: Ranking an erster Stelle bei 5 von 6 Modellen
  • Datensatzleistung: Ranking an erster Stelle bei 5 von 7 Datensätzen
  • Leistungssteigerung: Verbesserung um bis zu 18 Prozentpunkte gegenüber MERA bei einigen Modellen

Offene Textgenerierung

  • SPI-Ranking: IDS durchschnittliches Ranking 1,39, Ranking an erster Stelle bei allen 6 Modellen und 4 Datensätzen
  • Konsistenz: Durchgehend Ranking in den Top 2 bei 18 Konfigurationen, zeigt ausgezeichnete Robustheit
  • Ausgewogene Leistung: Erreicht optimales Gleichgewicht zwischen Lenkungseffektivität und Textglaubwürdigkeit

Ablationsstudien

  1. PCA-Varianzerklärbarkeitsverhältnis: Beibehaltung von 30%-42% der Varianz erzeugt höchste und stabilste SPI-Ergebnisse
  2. Mahalanobis-Distanz-Schwellenwert: Schwellenwert zeigt leichte positive Korrelation mit Lenkungsleistung
  3. F1-Score-Schwellenwert: Lenkungsleistung beginnt über 80% zu sinken

Fallstudien

Das Paper zeigt Vergleiche zwischen IDS und MERA bei der Verarbeitung schädlicher Eingaben:

  • Eingabe: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
  • IDS-Ausgabe: Bereitstellung relevanter aber sicherer Symptombeschreibungen
  • MERA-Ausgabe: Erzeugung wiederholter und bedeutungsloser Token-Sequenzen, Textzusammenbruch

Verbindung zwischen Überlenkung und Zusammenbruch

Experimente zeigen, dass MERA dazu neigt, größere durchschnittliche Lenkungsfaktoren zu erzeugen, was dazu führt, dass Aktivierungen von der Verteilung abweichen und letztendlich Textzusammenbruch und hohe Perplexität verursachen.

Verwandte Arbeiten

Aktivierungslenkungsmethoden

  1. CAA (Contrastive Activation Addition): Verwendung fester Lenkungsfaktoren, kann zu unzureichender oder übermäßiger Lenkung führen
  2. MERA: Basierend auf linearen Sonden zur Vorhersage von Fehlern zur Anpassung der Lenkungsstärke, hauptsächlich für überwachte Aufgaben

Theoretische Grundlagen

  • Lineare Darstellungsannahme: Hochrangige Konzepte können als Richtungen im Aktivierungsraum kodiert werden
  • Lenkungsvektorberechnung: Differenzmittelwert-Methode und überwachte Sondenverfahren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. IDS erreicht durch dynamische Anpassung der Lenkungsstärke optimales Gleichgewicht zwischen Verhaltenskontrolle und Textkohärenz
  2. Verteilungsbasierte Beschränkungen verhindern effektiv Überlenkung und Textzusammenbruch
  3. Die Methode zeigt starke Robustheit und Allgemeingültigkeit über verschiedene Modelle und Aufgaben hinweg

Einschränkungen

  1. Derzeit auf direktionale Lenkung konzentriert, nicht auf Winkellenkung
  2. Erfordert Konstruktion kontrastiver Datensätze zur Verteilungsmodellierung
  3. PCA-Dimensionsreduktion kann einige wichtige Informationen verlieren

Zukünftige Richtungen

  1. Erweiterung auf Winkellenkungsmethoden
  2. Anwendung auf Wahrheitsgenerierung bei komplexen Reasoning-Aufgaben
  3. Anwendung von Lenkung während des Reasoning-Prozesses in Reasoning-Modellen

Tiefgehende Bewertung

Stärken

  1. Solide theoretische Grundlagen: Theoretischer Rahmen basierend auf linearer Darstellungsannahme und Verteilungsbeschränkungen
  2. Starke methodische Innovation: Erstmalige Vorschlag adaptiver Lenkungsstärkeneinstellung basierend auf Verteilung
  3. Umfassende und gründliche Experimente: Systematische Bewertung über mehrere Modelle, Datensätze und Aufgaben
  4. Hoher praktischer Wert: Bereitstellung geschlossener Lösung, geeignet für Echtzeitanwendungen
  5. Überzeugende Ergebnisse: Erreicht Pareto-Optimalität zwischen Lenkungseffektivität und Textqualität

Mängel

  1. Rechenkomplexität: Erfordert PCA- und Mahalanobis-Distanzberechnung, kann Inferenz-Overhead erhöhen
  2. Hyperparameter-Empfindlichkeit: Mehrere Hyperparameter (PCA-Varianzquote, Distanzschwellenwert, F1-Schwellenwert) erfordern Optimierung
  3. Datenabhängigkeit: Erfordert hochwertige kontrastive Datensätze zur Verteilungsmodellierung
  4. Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Stabilität der Methode

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen theoretischen Rahmen und praktische Methode für das Aktivierungslenkungsfeld
  2. Praktische Anwendung: Besonders geeignet für hochriskante Anwendungsszenarien, die präzise Kontrolle des LLM-Verhaltens erfordern
  3. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

  1. Inhaltssicherheit: Verhinderung der Erzeugung schädlicher oder unangemessener Inhalte
  2. Faktizitätskontrolle: Reduzierung von Halluzinationen und Fehlinformationen
  3. Verhaltensausrichtung: Ausrichtung des Modellverhaltens mit spezifischen Anwendungsanforderungen
  4. Echtzeitanwendungen: Szenarien, die dynamische Anpassung des Modellverhaltens während der Inferenz erfordern

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus den Bereichen Aktivierungslenkung, Darstellungslernen und KI-Sicherheit, einschließlich:

  • Rimsky et al. (2024): Originalarbeit der CAA-Methode
  • Hedström et al. (2025): MERA-Methode
  • Turner et al. (2024): Übersicht über Aktivierungstechnik
  • Mikolov et al. (2013): Frühe Arbeiten zur linearen Darstellungsannahme

Zusammenfassung: Die in diesem Paper vorgeschlagene IDS-Methode hat bedeutende Innovationsbedeutung im Aktivierungslenkungsfeld. Durch Einführung von Verteilungsbeschränkungen und adaptiven Anpassungsmechanismen löst sie effektiv das Überlenkungsproblem bestehender Methoden. Experimentelle Ergebnisse beweisen vollständig die Effektivität und den praktischen Wert der Methode und bieten wichtige Werkzeuge für sichere LLM-Bereitstellung.