Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic
Präzise Attributintensitätskontrolle in großen Sprachmodellen durch gezielte Repräsentationsbearbeitung
Dieses Paper präsentiert eine Methode namens PRE-CONTROL zur präzisen Kontrolle der Attributintensität in großen Sprachmodellen (LLMs). Die Methode realisiert präzise Attributintensitätskontrolle durch drei Schlüsseldesigns: (1) Umformulierung der präzisen Attributintensitätskontrolle als Zielerfüllungsproblem statt einfacher Maximierung; (2) Training einer leichtgewichtigen Wertfunktion mittels zeitlicher Differenzenlernens zur Vorhersage der endgültigen Attributintensitätsbewertung aus partiellen Generierungen; (3) Anwendung gradientenbasierter Interventionen auf verborgene Repräsentationen zur präzisen Navigation des Modells zu spezifischen Attributintensitätszielen. Experimente zeigen, dass die Methode die Textgenerierung zu benutzerdefinierten Attributintensitäten lenken kann und Effizienzsteigerungen bei nachgelagerten Aufgaben wie Präferenzdatensynthese, Pareto-Grenzwertapproximation und Ausrichtungsverhaltens-Destillation demonstriert.
Aktuelle LLM-Ausrichtungsmethoden weisen eine kritische Einschränkung auf: Sie können nur Richtungsvorgaben oder offene Anleitung bieten, können aber nicht zuverlässig präzise Attributintensitäten erreichen. Beispielsweise könnte ein Benutzer möchten, dass eine E-Mail eine Formalität von 3 (auf einer 5er-Skala) hat, statt einfach nur „formaler" oder „weniger formell" zu sein.
Die präzise Attributintensitätskontrolle ist entscheidend für die Entwicklung von KI-Systemen, die vielfältige Benutzererwartungen erfüllen, besonders in Multi-Ziel-Ausrichtungsszenarien, wo Konflikte zwischen verschiedenen Attributen bestehen und skalare Anpassungen auf kontinuierlichen Skalen erforderlich sind, um optimale Kompromisse zu finden.
RLHF und DPO: Erzeugen statische Modelle, die den Durchschnittswert des gewünschten Verhaltens erfassen, erfordern teure Umschulung zur Anpassung von Prioritäten
Prompt-Methoden: Vollständig abhängig von der Modellinterpretation von Stilanweisungen, inkonsistente Ergebnisse
Guided Decoding: Behandelt Attributintensität typischerweise als Klassifizierung statt als kontinuierlichen Wert
Multi-Ziel-Ausrichtungsmethoden: Erfordern umfangreiches Training zur Approximation der globalen Pareto-Menge
Bestehende Methoden mangelt es an der Fähigkeit zur präzisen Attributintensitätskontrolle. Dieses Paper zielt darauf ab, feingranulare, kontinuierliche Attributintensitätskontrolle zu realisieren, die über einfache Richtungsausrichtung hinausgeht.
Problemumformulierung: Umformulierung der präzisen Attributintensitätskontrolle als Zielerfüllungsproblem statt einfacher Maximierung/Minimierung
Wertfunktionsmethode: Training einer leichtgewichtigen Wertfunktion durch zeitliches Differenzenlernen zur Vorhersage der endgültigen Attributbewertung aus partiellen Generierungen
Repräsentationsbearbeitungstechnik: Anwendung gradientenbasierter Interventionen auf verborgene Repräsentationen zur präzisen Navigation zu spezifischen Attributintensitätszielen
Effiziente Anwendung: Demonstration von Effizienzvorteilen bei Pareto-Grenzwertapproximation (Zeitkomplexität von O(m^d) auf O(n+k) reduziert) und kontrollierbarer Modell-Destillation
Gegeben ein Zielattributintensität τ ∈ 0,1 und eine Belohnungsfunktion R(x), besteht das Ziel darin, Text zu generieren, dessen Attributintensitätsbewertung dem Zielwert entspricht, statt einfach die Belohnung zu maximieren.
Erreicht 16,81 Hypervolumen mit 15k Samples und 2,1 GPU-Stunden, übertrifft die Best-of-N-Methode mit 15,27 (erfordert 50k Samples und 7,8 GPU-Stunden).
Wertfunktion als Belohnungsmodell-Proxy: Ein leichtgewichtiges MLP kann möglicherweise nicht alle Details des ursprünglichen Belohnungssignals erfassen
Intervention in der letzten Schicht: Die aktuelle Implementierung wendet Interventionen nur auf die letzte Transformer-Schicht an, kann möglicherweise nicht vollständig die Repräsentationshierarchie des Modells nutzen
Rechenaufwand: Obwohl relativ effizient, erfordert immer noch zusätzliches Wertfunktionstraining und Testzeit-Berechnung
Das Paper zitiert 46 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie LLM-Ausrichtung, Multi-Ziel-Optimierung und Repräsentationstechnik abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Methode zur präzisen Attributintensitätskontrolle präsentiert und sowohl in theoretischen Beiträgen als auch in praktischem Wert hervorragende Leistungen zeigt. Die Methodengestaltung ist vernünftig, die experimentelle Validierung ist umfassend, und es leistet wichtige Beiträge zum Bereich der LLM-Kontrolle.