2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic

Präzise Attributintensitätskontrolle in großen Sprachmodellen durch gezielte Repräsentationsbearbeitung

Grundinformationen

  • Paper-ID: 2510.12121
  • Titel: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
  • Autoren: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
  • Klassifizierung: cs.AI cs.CL cs.LG
  • Veröffentlichungszeit/Konferenz: Preprint (Zur Überprüfung eingereicht)
  • Paper-Link: https://arxiv.org/abs/2510.12121

Zusammenfassung

Dieses Paper präsentiert eine Methode namens PRE-CONTROL zur präzisen Kontrolle der Attributintensität in großen Sprachmodellen (LLMs). Die Methode realisiert präzise Attributintensitätskontrolle durch drei Schlüsseldesigns: (1) Umformulierung der präzisen Attributintensitätskontrolle als Zielerfüllungsproblem statt einfacher Maximierung; (2) Training einer leichtgewichtigen Wertfunktion mittels zeitlicher Differenzenlernens zur Vorhersage der endgültigen Attributintensitätsbewertung aus partiellen Generierungen; (3) Anwendung gradientenbasierter Interventionen auf verborgene Repräsentationen zur präzisen Navigation des Modells zu spezifischen Attributintensitätszielen. Experimente zeigen, dass die Methode die Textgenerierung zu benutzerdefinierten Attributintensitäten lenken kann und Effizienzsteigerungen bei nachgelagerten Aufgaben wie Präferenzdatensynthese, Pareto-Grenzwertapproximation und Ausrichtungsverhaltens-Destillation demonstriert.

Forschungshintergrund und Motivation

Problemdefinition

Aktuelle LLM-Ausrichtungsmethoden weisen eine kritische Einschränkung auf: Sie können nur Richtungsvorgaben oder offene Anleitung bieten, können aber nicht zuverlässig präzise Attributintensitäten erreichen. Beispielsweise könnte ein Benutzer möchten, dass eine E-Mail eine Formalität von 3 (auf einer 5er-Skala) hat, statt einfach nur „formaler" oder „weniger formell" zu sein.

Bedeutung des Problems

Die präzise Attributintensitätskontrolle ist entscheidend für die Entwicklung von KI-Systemen, die vielfältige Benutzererwartungen erfüllen, besonders in Multi-Ziel-Ausrichtungsszenarien, wo Konflikte zwischen verschiedenen Attributen bestehen und skalare Anpassungen auf kontinuierlichen Skalen erforderlich sind, um optimale Kompromisse zu finden.

Einschränkungen bestehender Methoden

  1. RLHF und DPO: Erzeugen statische Modelle, die den Durchschnittswert des gewünschten Verhaltens erfassen, erfordern teure Umschulung zur Anpassung von Prioritäten
  2. Prompt-Methoden: Vollständig abhängig von der Modellinterpretation von Stilanweisungen, inkonsistente Ergebnisse
  3. Guided Decoding: Behandelt Attributintensität typischerweise als Klassifizierung statt als kontinuierlichen Wert
  4. Multi-Ziel-Ausrichtungsmethoden: Erfordern umfangreiches Training zur Approximation der globalen Pareto-Menge

Forschungsmotivation

Bestehende Methoden mangelt es an der Fähigkeit zur präzisen Attributintensitätskontrolle. Dieses Paper zielt darauf ab, feingranulare, kontinuierliche Attributintensitätskontrolle zu realisieren, die über einfache Richtungsausrichtung hinausgeht.

Kernbeiträge

  1. Problemumformulierung: Umformulierung der präzisen Attributintensitätskontrolle als Zielerfüllungsproblem statt einfacher Maximierung/Minimierung
  2. Wertfunktionsmethode: Training einer leichtgewichtigen Wertfunktion durch zeitliches Differenzenlernen zur Vorhersage der endgültigen Attributbewertung aus partiellen Generierungen
  3. Repräsentationsbearbeitungstechnik: Anwendung gradientenbasierter Interventionen auf verborgene Repräsentationen zur präzisen Navigation zu spezifischen Attributintensitätszielen
  4. Effiziente Anwendung: Demonstration von Effizienzvorteilen bei Pareto-Grenzwertapproximation (Zeitkomplexität von O(m^d) auf O(n+k) reduziert) und kontrollierbarer Modell-Destillation

Methodische Details

Aufgabendefinition

Gegeben ein Zielattributintensität τ ∈ 0,1 und eine Belohnungsfunktion R(x), besteht das Ziel darin, Text zu generieren, dessen Attributintensitätsbewertung dem Zielwert entspricht, statt einfach die Belohnung zu maximieren.

Modellarchitektur

1. Umstrukturierung des Zielerfüllungsproblems

Traditionelles Ausrichtungsziel:

max_θ E_{x~π_θ}[R(x)]

Zielerfüllungsformulierung dieses Papers:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

wobei R̂(x) eine auf 0,1 normalisierte Belohnungsfunktion ist.

2. Wertfunktionstraining

Verwendung von TD(λ) zum Training einer Wertfunktion V_φ(h_t) zur Vorhersage der erwarteten Attributintensität einer partiellen Sequenz:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

Berechnung der verallgemeinerten Rendite:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

Wertfunktionsverlust:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. Testzeit-Intervention

Anpassung des verborgenen Zustands durch Gradientenabstieg:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

Multi-Attribut-Fall:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

Technische Innovationen

  1. Zielorientiertes Design: Übergang von Richtungsoptimierung zu präziser Zielerfüllung
  2. Echtzeit-Rückmeldungsmechanismus: Wertfunktion bietet Zwischenfeedback während des Generierungsprozesses
  3. Navigation im Repräsentationsraum: Direkte präzise Navigation im hochdimensionalen Repräsentationsraum
  4. Multi-Attribut-Koordination: Gleichzeitige Kontrolle mehrerer möglicherweise konfliktierender Attribute

Experimentelle Einrichtung

Datensätze

  1. HelpSteer2: 20.324 Trainingsbeispiele, 1.038 Testbeispiele, enthält 5 Attribute (Hilfreichkeit, Korrektheit, Kohärenz, Komplexität, Ausführlichkeit)
  2. Code-UltraFeedback: 10.000 komplexe Anweisungen, enthält 5 programmierbezogene Attribute (Komplexität & Effizienz, Stil, Erklärung, Anweisungsbefolgung, Lesbarkeit)

Bewertungsmetriken

  1. Self-BLEU-Bewertung: Messung der Vielfalt des generierten Textes (niedriger ist besser)
  2. ℓ1-Abstand zum Ziel: Bewertung der Nähe der Modellausgabe zur benutzerdefinierten Attributbewertung
  3. Erfolgsquote: Häufigkeit, mit der die Modellausgabe die erwartete Attributkonfiguration exakt erfüllt

Vergleichsmethoden

  • Base: Direktes Generieren des Basismodells
  • Prompting: Einbeziehung der Zielattributbewertung in die Eingabeaufforderung
  • ITI: Training einer linearen Schicht zur Vorhersage der Belohnung und Anpassung der Aktivierungen entlang der gelernten Richtung
  • MAT-Steer: Lernen von spärlichen, orthogonalen Multi-Attribut-Steuervektoren
  • RE-Control: Durchführung von Testzeit-Interventionen mit offener Optimierung

Implementierungsdetails

  • Basismodelle: LLaMA-3.2-3b und Phi-4-mini
  • Wertfunktion: 4-schichtiges MLP
  • Belohnungsmodell: ArmoRM-Llama3-8B
  • Interventionsschicht: Letzte Transformer-Schicht
  • Optimierer: Adam mit Early-Stopping-Technik

Experimentelle Ergebnisse

Hauptergebnisse

Experimentelle Ergebnisse bei repräsentativen Zielwerten:

Positives Ziel (HelpSteer2 4,4,4,2,2):

  • LLaMA-3.2-3b: PRE-CONTROL Erfolgsquote 7,96% vs. beste Baseline 5,39%
  • Phi-4-mini: PRE-CONTROL Erfolgsquote 8,31% vs. beste Baseline 5,70%

Negatives Ziel (HelpSteer2 3,3,3,2,2):

  • LLaMA-3.2-3b: PRE-CONTROL Erfolgsquote 6,60% vs. beste Baseline 5,84%
  • Phi-4-mini: PRE-CONTROL Erfolgsquote 9,11% vs. beste Baseline 8,73%

Code-UltraFeedback-Ergebnisse:

  • Positives Ziel 3,3,3,3,3: Erfolgsquote steigt auf 17,46%-26,16%
  • Negatives Ziel 2,2,2,2,2: Erfolgsquote steigt auf 22,34%-30,68%

Iterative Interventionsergebnisse

PRE-CONTROL zeigt kontinuierliche Leistungsverbesserungen über mehrere Iterationen, während andere Methoden nach der zweiten Iteration stagnieren.

Pareto-Grenzwertapproximation

  • Qualitätsverbesserung: Hypervolumen steigt von 7,54 auf 12,66
  • Effizienzverbesserung: Rechenaufwand sinkt von 3,3 GPU-Stunden auf 0,4 Stunden (8-fache Reduktion)
  • Mehr Punkte gefunden: Nicht-dominierte Punkte steigen von 45 auf 69

Kontrollierbare Destillation

Erreicht 16,81 Hypervolumen mit 15k Samples und 2,1 GPU-Stunden, übertrifft die Best-of-N-Methode mit 15,27 (erfordert 50k Samples und 7,8 GPU-Stunden).

Fallstudienanalyse

Qualitative Analysen zeigen, dass PRE-CONTROL:

  • Negative Kontrolle: Übermäßig detaillierte Antworten 4,4,4,3,3 präzise auf prägnante Version 3,3,3,2,2 anpassen kann
  • Positive Kontrolle: Einfache Antworten 4,4,4,1,1 auf detailliertere Version 4,4,4,2,2 erweitern kann

Verwandte Arbeiten

LLM-Ausrichtung

  1. Feinabstimmungsparadigmen: RLHF und DPO erfordern mehrstufiges Training, ressourcenintensiv
  2. Testzeit-Interventionen: Prompt-Engineering und Guided Decoding mangelt es an präzisen Kontrollmechanismen
  3. Multi-Ziel-Ausrichtung: Bestehende Methoden erfordern teure Umschulung zur Einbindung von Multi-Ziel-Präferenzen

Repräsentationstechnik

  1. Aktivierungsstörung: Entwicklung von Plug-and-Play-Methoden zu gelernten Steuervektoren
  2. Repräsentationsfeinabstimmung: Effiziente Bearbeitung von Aktivierungen mit niedrigrangigen Projektionsmatrizen
  3. Einschränkungen: Hauptsächlich auf binäre oder kategorische Attributkontrolle ausgerichtet, nicht auf präzise Ziele auf kontinuierlichen Skalen

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. PRE-CONTROL realisiert präzise Attributintensitätskontrolle in LLMs
  2. Die Zielerfüllungsformulierung ist besser geeignet für präzise Kontrolle als traditionelle Maximierungsmethoden
  3. Die Kombination von Wertfunktion und Gradientenintervention bietet einen effektiven Kontrollmechanismus
  4. Die Methode demonstriert Effizienzvorteile in mehreren nachgelagerten Anwendungen

Einschränkungen

  1. Wertfunktion als Belohnungsmodell-Proxy: Ein leichtgewichtiges MLP kann möglicherweise nicht alle Details des ursprünglichen Belohnungssignals erfassen
  2. Intervention in der letzten Schicht: Die aktuelle Implementierung wendet Interventionen nur auf die letzte Transformer-Schicht an, kann möglicherweise nicht vollständig die Repräsentationshierarchie des Modells nutzen
  3. Rechenaufwand: Obwohl relativ effizient, erfordert immer noch zusätzliches Wertfunktionstraining und Testzeit-Berechnung

Zukünftige Richtungen

  1. Erforschung komplexerer Wertfunktionsarchitekturen zur besseren Approximation der Belohnungsmodell-Fähigkeiten
  2. Untersuchung von Multi-Schicht-Interventionsstrategien oder Aufmerksamkeitsmodifikationen
  3. Entwicklung adaptiver Mechanismen zur selektiven Abfrage des vollständigen Belohnungsmodells bei schwierigen Fällen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Umformulierung der Attributkontrolle als Zielerfüllungsproblem durchbricht die Grenzen traditioneller Richtungsausrichtung
  2. Systematische Methode: Wertfunktionstraining, TD-Lernen und Gradientenintervention bilden ein vollständiges technisches System
  3. Umfassende Experimente: Gründliche Bewertung über zwei Datensätze, zwei Modelle mit Ablationsstudien und Anwendungsvalidierung
  4. Hoher praktischer Wert: Demonstriert signifikante Effizienzsteigerungen bei Pareto-Grenzwertapproximation und Modell-Destillation

Mängel

  1. Unzureichende theoretische Analyse: Mangel an Konvergenzgarantien und theoretischer Analyse der Interventionsstabilität
  2. Abhängigkeit von Wertfunktion: Methodenleistung hängt stark von der Qualität der Wertfunktion ab
  3. Generalisierungsfähigkeit: Nur auf spezifischen Attributen und Modellen validiert, Generalisierungsfähigkeit erfordert weitere Verifikation
  4. Rechenkomplexität: Obwohl relativ effizient, erfordert Testzeit immer noch zusätzliche Berechnung

Auswirkungen

  1. Akademischer Beitrag: Bietet ein neues Forschungsparadigma für präzise LLM-Kontrolle
  2. Praktischer Wert: Bietet effektive Werkzeuge für personalisierte KI-Systeme und Multi-Ziel-Optimierung
  3. Reproduzierbarkeit: Autoren stellen vollständigen Code und experimentelle Konfigurationen bereit

Anwendungsszenarien

  1. Personalisierte Inhaltsgenerierung: Erfordert präzise Kontrolle von Textstil, Komplexität und anderen Attributen
  2. Multi-Ziel-Optimierung: Suche nach optimalen Kompromissen zwischen konfliktierenden Attributen
  3. Modellausrichtung: Effiziente Generierung von Trainingsdaten, die spezifische Attributanforderungen erfüllen
  4. Interaktive KI-Systeme: Dynamische Anpassung von Ausgabeattributen basierend auf Benutzer-Feedback

Literaturverzeichnis

Das Paper zitiert 46 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie LLM-Ausrichtung, Multi-Ziel-Optimierung und Repräsentationstechnik abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode zur präzisen Attributintensitätskontrolle präsentiert und sowohl in theoretischen Beiträgen als auch in praktischem Wert hervorragende Leistungen zeigt. Die Methodengestaltung ist vernünftig, die experimentelle Validierung ist umfassend, und es leistet wichtige Beiträge zum Bereich der LLM-Kontrolle.