Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
Jenseits der Oberfläche: Verbesserung der LLM-as-a-Judge-Ausrichtung mit Menschen durch interne Repräsentationen
Mit der kontinuierlichen Erweiterung des Umfangs von Bewertungsaufgaben hat sich das Paradigma der automatisierten Bewertung mittels großer Sprachmodelle „LLM-as-a-Judge" weit verbreitet. Jedoch bleibt es eine Herausforderung, die Ausrichtung mit menschlichen Vorlieben ohne komplexe Prompts oder Feinabstimmung zu verbessern. Frühere Forschungen konzentrierten sich hauptsächlich auf die Optimierung oberflächlicher Ausgaben und ignorierten die reichhaltigen schichtübergreifenden Repräsentationen. Inspiriert durch vorläufige Erkenntnisse – dass in mittleren bis oberen Schichten kodierte semantische und aufgabenbezogene Repräsentationen oft besser mit menschlichen Urteilen übereinstimmen als die letzte Schicht – wird LAGER vorgestellt, ein nachträgliches Plug-and-Play-Framework, das die Ausrichtung der punktweisen Bewertung von LLM-as-a-Judge mit menschlichen Bewertungen durch Nutzung interner Repräsentationen verbessert. LAGER erzeugt feingranulare Bewertungswerte durch Aggregation schichtübergreifender Bewertungs-Token-Logits und Berechnung erwarteter Bewertungen aus Softmax-basierten Verteilungen, während das LLM-Backbone eingefroren bleibt und der Inferenzprozess unbeeinträchtigt bleibt.
Kernproblem: Bestehende LLM-as-a-Judge-Methoden verlassen sich hauptsächlich auf die Ausgabe der letzten Schicht für die Bewertung und ignorieren die reichhaltigen schichtübergreifenden Repräsentationsinformationen im Modell, was zu einer suboptimalen Ausrichtung mit menschlichen Urteilen führt.
Bedeutung:
LLM-as-a-Judge findet breite Anwendung in Modellbewertung, Datensynthese und Modellverbesserung
Die Verbesserung der Bewertungsgenauigkeit und Konsistenz mit menschlichen Vorlieben ist entscheidend für die Zuverlässigkeit von KI-Systemen
Großflächige Bewertungsaufgaben erfordern effiziente und genaue automatisierte Bewertungsmethoden
Einschränkungen bestehender Methoden:
Prompt-basierte Methoden erfordern komplexe Inferenzschritte und erhöhen die Rechenkosten
Feinabstimmungsmethoden sind mit Verallgemeinerungsproblemen konfrontiert und haben begrenzte Anpassungsfähigkeit
Traditionelle Methoden verlassen sich nur auf die Ausgabe der letzten Schicht und ignorieren semantische Informationen aus mittleren Schichten
Forschungsmotivation:
Vorläufige Studien zeigen, dass mittlere bis obere Schichten (ca. 20-30 Schichten) oft eine höhere Korrelation mit menschlichen Bewertungen aufweisen als die letzte Schicht
Verschiedene Schichten kodieren unterschiedliche Informationstypen: untere Schichten konzentrieren sich auf lexikalische Informationen, mittlere bis obere Schichten auf semantische und globale Informationen
Es wird eine leichte, Plug-and-Play-Methode benötigt, um diese internen Repräsentationen zu nutzen
Vorstellung des LAGER-Frameworks: Ein nachträgliches, Plug-and-Play-Framework, das die Ausrichtung von LLM-as-a-Judge mit menschlichen Bewertungen durch Aggregation schichtübergreifender interner Repräsentationen verbessert
Entdeckung der Vorteile mittlerer Schichten: Empirischer Nachweis, dass mittlere bis obere Schicht-Repräsentationen besser mit menschlichen Urteilen übereinstimmen als die letzte Schicht
Erreichung signifikanter Leistungssteigerungen: Bis zu 7,5% Verbesserung auf drei Standard-Ausrichtungs-Benchmarks (Flask, HelpSteer, BIGGen)
Nachweis der Verallgemeinerungsfähigkeit: Demonstration guter Generalisierungsleistung bei nachgelagerten Anwendungen wie Instruktionsdatenauswahl und Sentiment-Verständnis
Bereitstellung einer leichtgewichtigen Lösung: Nur L+1 Gewichtsparameter erforderlich, Modell-Backbone bleibt eingefroren
Vorteile mittlerer Schichten: Mittlere bis obere Schicht-Repräsentationen stimmen tatsächlich besser mit menschlichen Urteilen überein als die letzte Schicht
Leichtgewichtige Effektivität: Signifikante Leistungsverbesserung durch Training nur weniger Parameter
Inferenz nicht erforderlich: Erreiche oder übertreffe Inferenzmethoden ohne explizite Inferenzschritte
Gute Verallgemeinerung: Ausgezeichnete Leistung bei mehreren nachgelagerten Aufgaben
Dieses Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:
LLM-as-a-Judge-Forschung (Lin & Chen, 2023; Liu et al., 2023 etc.)
Interne Repräsentationsforschung (Wang et al., 2020; Yang et al., 2022 etc.)
Bewertungs-Benchmarks und Methoden (Ye et al., 2024; Kim et al., 2024 etc.)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das das innovative LAGER-Framework vorstellt und die automatisierte Bewertungs-Menschenausrichtung durch Nutzung interner LLM-Repräsentationen erheblich verbessert. Die Methode ist einfach und effektiv, die Experimente umfassend und gründlich, mit wichtigem akademischen Wert und praktischer Bedeutung. Die Haupteinschränkung liegt in der Anwendbarkeit nur auf Open-Source-Modelle, aber angesichts der rasanten Entwicklung von Open-Source-LLMs hat diese Arbeit weiterhin breite Anwendungsperspektiven.