2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.

Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control

academic

Präzise Attributintensitätskontrolle in großen Sprachmodellen durch gezielte Repräsentationsbearbeitung

Grundinformationen

Paper-ID: 2510.12121
Titel: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Autoren: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
Klassifizierung: cs.AI cs.CL cs.LG
Veröffentlichungszeit/Konferenz: Preprint (Zur Überprüfung eingereicht)
Paper-Link: https://arxiv.org/abs/2510.12121

Zusammenfassung

Dieses Paper präsentiert eine Methode namens PRE-CONTROL zur präzisen Kontrolle der Attributintensität in großen Sprachmodellen (LLMs). Die Methode realisiert präzise Attributintensitätskontrolle durch drei Schlüsseldesigns: (1) Umformulierung der präzisen Attributintensitätskontrolle als Zielerfüllungsproblem statt einfacher Maximierung; (2) Training einer leichtgewichtigen Wertfunktion mittels zeitlicher Differenzenlernens zur Vorhersage der endgültigen Attributintensitätsbewertung aus partiellen Generierungen; (3) Anwendung gradientenbasierter Interventionen auf verborgene Repräsentationen zur präzisen Navigation des Modells zu spezifischen Attributintensitätszielen. Experimente zeigen, dass die Methode die Textgenerierung zu benutzerdefinierten Attributintensitäten lenken kann und Effizienzsteigerungen bei nachgelagerten Aufgaben wie Präferenzdatensynthese, Pareto-Grenzwertapproximation und Ausrichtungsverhaltens-Destillation demonstriert.

Forschungshintergrund und Motivation

Problemdefinition

Aktuelle LLM-Ausrichtungsmethoden weisen eine kritische Einschränkung auf: Sie können nur Richtungsvorgaben oder offene Anleitung bieten, können aber nicht zuverlässig präzise Attributintensitäten erreichen. Beispielsweise könnte ein Benutzer möchten, dass eine E-Mail eine Formalität von 3 (auf einer 5er-Skala) hat, statt einfach nur „formaler" oder „weniger formell" zu sein.

Bedeutung des Problems

Die präzise Attributintensitätskontrolle ist entscheidend für die Entwicklung von KI-Systemen, die vielfältige Benutzererwartungen erfüllen, besonders in Multi-Ziel-Ausrichtungsszenarien, wo Konflikte zwischen verschiedenen Attributen bestehen und skalare Anpassungen auf kontinuierlichen Skalen erforderlich sind, um optimale Kompromisse zu finden.

Einschränkungen bestehender Methoden

RLHF und DPO: Erzeugen statische Modelle, die den Durchschnittswert des gewünschten Verhaltens erfassen, erfordern teure Umschulung zur Anpassung von Prioritäten
Prompt-Methoden: Vollständig abhängig von der Modellinterpretation von Stilanweisungen, inkonsistente Ergebnisse
Guided Decoding: Behandelt Attributintensität typischerweise als Klassifizierung statt als kontinuierlichen Wert
Multi-Ziel-Ausrichtungsmethoden: Erfordern umfangreiches Training zur Approximation der globalen Pareto-Menge

Forschungsmotivation

Bestehende Methoden mangelt es an der Fähigkeit zur präzisen Attributintensitätskontrolle. Dieses Paper zielt darauf ab, feingranulare, kontinuierliche Attributintensitätskontrolle zu realisieren, die über einfache Richtungsausrichtung hinausgeht.

Kernbeiträge

Problemumformulierung: Umformulierung der präzisen Attributintensitätskontrolle als Zielerfüllungsproblem statt einfacher Maximierung/Minimierung
Wertfunktionsmethode: Training einer leichtgewichtigen Wertfunktion durch zeitliches Differenzenlernen zur Vorhersage der endgültigen Attributbewertung aus partiellen Generierungen
Repräsentationsbearbeitungstechnik: Anwendung gradientenbasierter Interventionen auf verborgene Repräsentationen zur präzisen Navigation zu spezifischen Attributintensitätszielen
Effiziente Anwendung: Demonstration von Effizienzvorteilen bei Pareto-Grenzwertapproximation (Zeitkomplexität von O(m^d) auf O(n+k) reduziert) und kontrollierbarer Modell-Destillation

Methodische Details

Aufgabendefinition

Gegeben ein Zielattributintensität τ ∈ 0,1 und eine Belohnungsfunktion R(x), besteht das Ziel darin, Text zu generieren, dessen Attributintensitätsbewertung dem Zielwert entspricht, statt einfach die Belohnung zu maximieren.

Modellarchitektur

1. Umstrukturierung des Zielerfüllungsproblems

Traditionelles Ausrichtungsziel:

max_θ E_{x~π_θ}[R(x)]

Zielerfüllungsformulierung dieses Papers:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

wobei R̂(x) eine auf 0,1 normalisierte Belohnungsfunktion ist.

2. Wertfunktionstraining

Verwendung von TD(λ) zum Training einer Wertfunktion V_φ(h_t) zur Vorhersage der erwarteten Attributintensität einer partiellen Sequenz:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

Berechnung der verallgemeinerten Rendite:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

Wertfunktionsverlust:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. Testzeit-Intervention

Anpassung des verborgenen Zustands durch Gradientenabstieg:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

Multi-Attribut-Fall:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

Technische Innovationen

Zielorientiertes Design: Übergang von Richtungsoptimierung zu präziser Zielerfüllung
Echtzeit-Rückmeldungsmechanismus: Wertfunktion bietet Zwischenfeedback während des Generierungsprozesses
Navigation im Repräsentationsraum: Direkte präzise Navigation im hochdimensionalen Repräsentationsraum
Multi-Attribut-Koordination: Gleichzeitige Kontrolle mehrerer möglicherweise konfliktierender Attribute

Experimentelle Einrichtung

Datensätze

HelpSteer2: 20.324 Trainingsbeispiele, 1.038 Testbeispiele, enthält 5 Attribute (Hilfreichkeit, Korrektheit, Kohärenz, Komplexität, Ausführlichkeit)
Code-UltraFeedback: 10.000 komplexe Anweisungen, enthält 5 programmierbezogene Attribute (Komplexität & Effizienz, Stil, Erklärung, Anweisungsbefolgung, Lesbarkeit)

Bewertungsmetriken

Self-BLEU-Bewertung: Messung der Vielfalt des generierten Textes (niedriger ist besser)
ℓ1-Abstand zum Ziel: Bewertung der Nähe der Modellausgabe zur benutzerdefinierten Attributbewertung
Erfolgsquote: Häufigkeit, mit der die Modellausgabe die erwartete Attributkonfiguration exakt erfüllt

Vergleichsmethoden

Base: Direktes Generieren des Basismodells
Prompting: Einbeziehung der Zielattributbewertung in die Eingabeaufforderung
ITI: Training einer linearen Schicht zur Vorhersage der Belohnung und Anpassung der Aktivierungen entlang der gelernten Richtung
MAT-Steer: Lernen von spärlichen, orthogonalen Multi-Attribut-Steuervektoren
RE-Control: Durchführung von Testzeit-Interventionen mit offener Optimierung

Implementierungsdetails

Basismodelle: LLaMA-3.2-3b und Phi-4-mini
Wertfunktion: 4-schichtiges MLP
Belohnungsmodell: ArmoRM-Llama3-8B
Interventionsschicht: Letzte Transformer-Schicht
Optimierer: Adam mit Early-Stopping-Technik

Experimentelle Ergebnisse

Hauptergebnisse

Experimentelle Ergebnisse bei repräsentativen Zielwerten:

Positives Ziel (HelpSteer2 4,4,4,2,2):

LLaMA-3.2-3b: PRE-CONTROL Erfolgsquote 7,96% vs. beste Baseline 5,39%
Phi-4-mini: PRE-CONTROL Erfolgsquote 8,31% vs. beste Baseline 5,70%

Negatives Ziel (HelpSteer2 3,3,3,2,2):

LLaMA-3.2-3b: PRE-CONTROL Erfolgsquote 6,60% vs. beste Baseline 5,84%
Phi-4-mini: PRE-CONTROL Erfolgsquote 9,11% vs. beste Baseline 8,73%

Code-UltraFeedback-Ergebnisse:

Positives Ziel 3,3,3,3,3: Erfolgsquote steigt auf 17,46%-26,16%
Negatives Ziel 2,2,2,2,2: Erfolgsquote steigt auf 22,34%-30,68%

Iterative Interventionsergebnisse

PRE-CONTROL zeigt kontinuierliche Leistungsverbesserungen über mehrere Iterationen, während andere Methoden nach der zweiten Iteration stagnieren.

Pareto-Grenzwertapproximation

Qualitätsverbesserung: Hypervolumen steigt von 7,54 auf 12,66
Effizienzverbesserung: Rechenaufwand sinkt von 3,3 GPU-Stunden auf 0,4 Stunden (8-fache Reduktion)
Mehr Punkte gefunden: Nicht-dominierte Punkte steigen von 45 auf 69

Kontrollierbare Destillation

Erreicht 16,81 Hypervolumen mit 15k Samples und 2,1 GPU-Stunden, übertrifft die Best-of-N-Methode mit 15,27 (erfordert 50k Samples und 7,8 GPU-Stunden).

Fallstudienanalyse

Qualitative Analysen zeigen, dass PRE-CONTROL:

Negative Kontrolle: Übermäßig detaillierte Antworten 4,4,4,3,3 präzise auf prägnante Version 3,3,3,2,2 anpassen kann
Positive Kontrolle: Einfache Antworten 4,4,4,1,1 auf detailliertere Version 4,4,4,2,2 erweitern kann

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

PRE-CONTROL realisiert präzise Attributintensitätskontrolle in LLMs
Die Zielerfüllungsformulierung ist besser geeignet für präzise Kontrolle als traditionelle Maximierungsmethoden
Die Kombination von Wertfunktion und Gradientenintervention bietet einen effektiven Kontrollmechanismus
Die Methode demonstriert Effizienzvorteile in mehreren nachgelagerten Anwendungen

Einschränkungen

Wertfunktion als Belohnungsmodell-Proxy: Ein leichtgewichtiges MLP kann möglicherweise nicht alle Details des ursprünglichen Belohnungssignals erfassen
Intervention in der letzten Schicht: Die aktuelle Implementierung wendet Interventionen nur auf die letzte Transformer-Schicht an, kann möglicherweise nicht vollständig die Repräsentationshierarchie des Modells nutzen
Rechenaufwand: Obwohl relativ effizient, erfordert immer noch zusätzliches Wertfunktionstraining und Testzeit-Berechnung

Zukünftige Richtungen

Erforschung komplexerer Wertfunktionsarchitekturen zur besseren Approximation der Belohnungsmodell-Fähigkeiten
Untersuchung von Multi-Schicht-Interventionsstrategien oder Aufmerksamkeitsmodifikationen
Entwicklung adaptiver Mechanismen zur selektiven Abfrage des vollständigen Belohnungsmodells bei schwierigen Fällen

Tiefgreifende Bewertung

Stärken

Starke Innovation: Umformulierung der Attributkontrolle als Zielerfüllungsproblem durchbricht die Grenzen traditioneller Richtungsausrichtung
Systematische Methode: Wertfunktionstraining, TD-Lernen und Gradientenintervention bilden ein vollständiges technisches System
Umfassende Experimente: Gründliche Bewertung über zwei Datensätze, zwei Modelle mit Ablationsstudien und Anwendungsvalidierung
Hoher praktischer Wert: Demonstriert signifikante Effizienzsteigerungen bei Pareto-Grenzwertapproximation und Modell-Destillation

Mängel

Unzureichende theoretische Analyse: Mangel an Konvergenzgarantien und theoretischer Analyse der Interventionsstabilität
Abhängigkeit von Wertfunktion: Methodenleistung hängt stark von der Qualität der Wertfunktion ab
Generalisierungsfähigkeit: Nur auf spezifischen Attributen und Modellen validiert, Generalisierungsfähigkeit erfordert weitere Verifikation
Rechenkomplexität: Obwohl relativ effizient, erfordert Testzeit immer noch zusätzliche Berechnung

Auswirkungen

Akademischer Beitrag: Bietet ein neues Forschungsparadigma für präzise LLM-Kontrolle
Praktischer Wert: Bietet effektive Werkzeuge für personalisierte KI-Systeme und Multi-Ziel-Optimierung
Reproduzierbarkeit: Autoren stellen vollständigen Code und experimentelle Konfigurationen bereit

Anwendungsszenarien

Personalisierte Inhaltsgenerierung: Erfordert präzise Kontrolle von Textstil, Komplexität und anderen Attributen
Multi-Ziel-Optimierung: Suche nach optimalen Kompromissen zwischen konfliktierenden Attributen
Modellausrichtung: Effiziente Generierung von Trainingsdaten, die spezifische Attributanforderungen erfüllen
Interaktive KI-Systeme: Dynamische Anpassung von Ausgabeattributen basierend auf Benutzer-Feedback

Literaturverzeichnis

Das Paper zitiert 46 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie LLM-Ausrichtung, Multi-Ziel-Optimierung und Repräsentationstechnik abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode zur präzisen Attributintensitätskontrolle präsentiert und sowohl in theoretischen Beiträgen als auch in praktischem Wert hervorragende Leistungen zeigt. Die Methodengestaltung ist vernünftig, die experimentelle Validierung ist umfassend, und es leistet wichtige Beiträge zum Bereich der LLM-Kontrolle.