Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Titel: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Autoren: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
Klassifizierung: cs.AI
Veröffentlichungsdatum: 20. November 2025 (arXiv-Preprint, in Begutachtung)
Dieses Papier präsentiert das CRM-Framework (Collaborative Reward Model – Kollaboratives Belohnungsmodell), das ein koordiniertes Team von Fachexperten-Evaluatoren an die Stelle eines einzelnen Black-Box-Belohnungsmodells setzt, um die Robustheit und Interpretierbarkeit von RLHF (Reinforcement Learning from Human Feedback – Verstärkungslernens aus menschlichem Feedback) zu verbessern. Traditionelle Belohnungsmodelle haben Schwierigkeiten, mehrere möglicherweise konkurrierende Präferenzdimensionen gleichzeitig zu optimieren (wie Faktizität, Nützlichkeit, Sicherheit) und bieten begrenzte Transparenz hinsichtlich der Bewertungsgründe. CRM löst diese Probleme durch die Zerlegung der Präferenzbeurteilung in domänenspezifische Agenten, wobei jeder Agent ein Teilsignal erzeugt, begleitet von einem globalen Evaluator basierend auf Ranking und Embedding-Ähnlichkeit. Ein zentralisierter Aggregator fusioniert diese Signale bei jedem Zeitschritt und balanciert schrittweise Korrektheit, Multi-Agent-Konsistenz und Wiederholungsstrafen aus, um eine einzelne Trainingsbelohnung zu erzeugen, die mit Standard-RL-Pipelines kompatibel ist. Das Papier führt auch die RewardBench-Benchmark-Suite ein, die einen praktischen Weg für modulare, interpretierbare Belohnungsmodellierung bietet.
Die Ausrichtung großer Sprachmodelle (LLMs) stützt sich typischerweise auf RLHF-Techniken, bei denen ein gelerntes Belohnungsmodell die Strategie zu bevorzugtem Verhalten lenkt. Traditionelle skalare Einzelbelohnungsmodelle weisen jedoch folgende Schlüsselprobleme auf:
Schwierigkeiten bei der Abwägung mehrdimensionaler Präferenzen: Menschliche Präferenzen sind von Natur aus mehrdimensional und umfassen Faktoren wie faktische Genauigkeit, Kohärenz, Nützlichkeit und Sicherheit, während eine einzelne skalare Belohnung nicht leicht die Kompromisse zwischen diesen manchmal konkurrierenden Kriterien erfassen kann
Unzureichende Interpretierbarkeit: Traditionelle Belohnungsmodelle bieten begrenzte Einblicke und es ist schwierig zu verstehen, warum eine bestimmte Ausgabe hoch oder niedrig bewertet wurde
Risiko von Reward-Hacking: Die Undurchsichtigkeit macht es schwierig, Fehler zu diagnostizieren und erhöht das Risiko, dass die Strategie Lücken in der Belohnungsfunktion ausnutzt (Ausgaben mit hohen Scores, die aber nicht mit der echten Absicht übereinstimmen)
Mit der zunehmenden Bereitstellung von LLMs in kritischen Anwendungen wird es immer wichtiger, die Zuverlässigkeit, Sicherheit und Interpretierbarkeit des Modellverhaltens zu gewährleisten. Das Belohnungsmodell als Kernkomponente der Ausrichtungs-Pipeline beeinflusst direkt die Leistung und Vertrauenswürdigkeit des endgültigen Modells.
Ensemble-Methoden: Obwohl einige Forschungen Ensemble-basierte Belohnungsmodelle zur Abschwächung von Überoptimierung untersuchen, fehlt es an strukturierter Bewertungszerlegung
Multi-Objective-Formulierungen: Bestehende Arbeiten zerlegen Feedback in interpretierbare Dimensionen und reaggregieren durch Lernen von Mischungen, aber es fehlt ein Echtzeit-Multi-Perspektiven-Feedback-Mechanismus
Selbstreflexionsmethoden: Wie Critique-out-Loud, die Scores und Kritik ausgeben, um Interpretierbarkeit zu verbessern, integrieren aber keine Fachagenten in die Belohnungsmodellierung
Die Kernmotivation dieses Papiers besteht darin, die Belohnungsmodellierung von einem einzelnen Black-Box-Oracle zu einem adaptiven, interpretierbaren und skalierbaren Multi-Agent-Evaluierungs-Ökosystem umzudefinieren, um durch koordinierte verteilte Evaluatoren transparentere und robustere Belohnungsgestaltung zu erreichen.
Neues Paradigma: Präsentation eines neuen Paradigmas der kollaborativen Multi-Agent-Bewertung zur Erweiterung von RLHF mit verbesserter Interpretierbarkeit und Robustheit im Vergleich zu Single-Black-Box-Belohnungsmodellen
Strukturierter Kollaborationsmechanismus: Entwurf eines strukturierten Kollaborations-Belohnungsmechanismus (MARM – Multi-Agent Reward Model) mit Fachexperten-Evaluatoren und zentralisiertem Aggregator, der mehrdimensionale interpretierbare Signale in eine einzelne Belohnung fusioniert, die für Standard-Policy-Gradient-Methoden nutzbar ist
RewardBench-Benchmark: Veröffentlichung einer um Multi-Agent-Präferenzen organisierten Benchmark- und Trainings-Suite, die eine gemeinsame Plattform für die Erforschung modularer, interpretierbarer Belohnungsmodellierung bietet
Signifikante Leistungsverbesserungen: Erreichung erheblicher Gewinne bei komplexen Reasoning-Aufgaben mit höherer Genauigkeit und Stabilität im Vergleich zu Single-RM-Baselines, während Flüssigkeit und Sicherheit erhalten bleiben, was die Wirksamkeit der Multi-Perspektiven-Belohnungsgestaltung beweist
Gegeben ein großes Policy-Modell πθ und eine Menge von Prompts x, erzeugt das Modell strukturierte Ausgaben o = πθ(x), die mehrstufige Reasoning-Trajektorien und endgültige Antworten enthalten. Das Ziel besteht darin, durch mehrdimensionale Bewertungsräume zu lernen, anstatt eine feste skalare Belohnung zu optimieren.
CRM rekonstruiert das Post-Training als verteilten, feedback-gesteuerten Optimierungsprozess und führt ein Team von Fachagenten ein, die Ausgaben großer Modelle aus komplementären Perspektiven kollaborativ bewerten:
Vier Kernagenten:
Data Optimizer (Datenoptimierer): Quantifiziert Ausgabeeffizienz und Vielfalt, bestraft redundante Reasoning-Trajektorien und fördert gleichzeitig ausgewogene Exploration
Quality Assessor (Qualitätsbewertung): Bietet feinkörnige Urteile, bewertet Reasoning-Genauigkeit, faktische Konsistenz und logische Kohärenz von Zwischenschritten
Data Synthesizer (Datensynthesizer): Verbessert die Überwachung durch Injektion synthetischer Störungen und Integration externen Wissens, verbessert Robustheit und Domänen-Generalisierung
Data Analyzer (Datenanalysator): Überwacht kontinuierlich statistische Trends der Belohnungssignale, erzwingt Stabilität und verhindert Kollaps oder Muster-Drift
Outcome Reward (Ergebnis-Belohnung): Verifiziert, ob Partial-Reasoning den Zwischenerwartungen entspricht
Enhanced Data Reward (Verbesserte Daten-Belohnung): Nutzt vom Data Synthesizer generierte verbesserte oder kontrafaktische Stichproben für stärkere Überwachung
Modell-Level-Belohnungen:
Berechnung der Kosinus-Ähnlichkeit zwischen Vorhersage- und Referenz-Embeddings mit dem all-MiniLM-L6-v2-Encoder:
Verteilte Evaluierungsarchitektur: Erstmalige Systematisierung der Belohnungsmodellierung als Multi-Agent-Kollaborationsprozess, wobei jeder Agent sich auf eine spezifische Bewertungsdimension konzentriert
Verbesserte Interpretierbarkeit: Jeder Agent-Score repräsentiert eine menschlich verständliche Bewertung (z.B. faktische Genauigkeit), die gemeinsam ein mehrdimensionales Bild der Ausgabequalität bilden
Modulares Design: Ermöglicht die Einführung neuer Evaluatoren als Plug-in-Agenten und bietet einen skalierbaren Weg zur Selbstregulierung und interpretierbaren Reward-Ausrichtung
Keine zusätzliche Annotation erforderlich: Multi-Perspektiven-Belohnungsgestaltung erfordert keine über die für das Training der Evaluatoren verwendete Annotation hinausgehende zusätzliche menschliche Annotation
Standard-Kompatibilität: Erzeugt eine einzelne Trainingsbelohnung, die vollständig mit Standard-RL-Pipelines (wie GRPO, PPO) kompatibel ist
Signifikante Verbesserung der Reasoning-Genauigkeit
RewardBench(rerank) von 0,639 auf 0,689 erhöht
Quality Assessor führt feinkörniges Bewertungs-Feedback ein, erfasst besser strukturelle Kohärenz und schrittweise logische Plausibilität
Drei Agenten → Vier Agenten:
Weitere Verbesserung bei kombinierten Reasoning- und Fakten-Syntheseaufgaben
Data Synthesizer verbessert Modell-Generalisierung durch Abschwächung lokaler Überanpassung
Verbessert semantische Vollständigkeit von Zwischenreasoning-Ketten
Auswirkung der Aggregationsstrategie:
Reranking-Methode: Übertrifft kontinuierlich andere Varianten bei hochpräzisen Reasoning-Aufgaben, explizite Präferenzmodellierung und paarweises Ranking tragen zu diskriminativerer Belohnungsgestaltung bei
Embedding-Methode: Zeigt bessere Stabilität und Skalierbarkeit in komplexer Multi-Agent-Koordination
Wirksamkeit der Multi-Perspektiven-Bewertung: Das Kollaborations-Framework erreicht signifikante Verbesserungen bei Reasoning-Robustheit und mathematischer Präzision, ohne Gesprächsqualität zu beeinträchtigen
Modulare Vorteile: Die Einführung verschiedener Agenten bringt schrittweise Verbesserungen, validiert den Wert der Bewertungszerlegung
Stabilitätserhaltung: Die Leistung bei allgemeinen Gesprächsaufgaben (Chat, Chat Hard) bleibt relativ stabil, zeigt, dass der Belohnungs-Fusions-Mechanismus mehrdimensionale Ziele effektiv ausgleicht
Generalisierungsfähigkeit: Die Einführung des Data Synthesizers verbessert die Modellleistung bei Aufgaben, die kombiniertes Reasoning erfordern, erheblich
Paradigmenwechsel: MARM definiert Belohnungsmodellierung erfolgreich als Multi-Agent-Bewertungsprozess um, nicht als einzelnes Black-Box-Oracle
Leistungsvalidierung: Umfassende Experimente auf RewardBench, Math und GSM8K beweisen, dass Multi-Agent-Kollaboration Reasoning-Genauigkeit, mathematische Präzision und Gesamtstabilität signifikant verbessert, ohne Gesprächsqualität zu beeinträchtigen
Modulare Vorteile: Die Einführung von Rollen wie Quality Assessor und Data Synthesizer verbessert Konsistenz und Generalisierungsfähigkeit weiter, unterstreicht die Vorteile von domänenspezifischer Zerlegung und koordiniertem Feedback in der Belohnungsmodellierung
Praktischer Wert: Bietet skalierbare und modulare Gestaltung, unterstützt Integration neuer Evaluatoren als Plug-in-Agenten, kompatibel mit bestehenden RLHF-Pipelines
Rechnerischer Overhead: Multi-Agent-Bewertung erfordert mehr Rechenressourcen als Single-Reward-Modell, jeder Agent benötigt unabhängige Bewertung
Gewichtsoptimierung: Kollaborative Gewichtskoeffizienten (α, β, γ, δ, η) erfordern empirische Anpassung, es fehlt ein automatischer Optimierungsmechanismus
Agent-Design: Das Papier beschreibt nicht detailliert, wie einzelne Fachagenten trainiert werden und wie ihre Bewertungsqualität gewährleistet wird
Skalierungsvalidierung: Experimente konzentrieren sich hauptsächlich auf kleinere Modelle (494M Parameter), Leistung bei großen Modellen ist unbekannt
Gesprächsqualitäts-Kompromiss: Obwohl das Papier behauptet, Gesprächsqualität zu erhalten, zeigen Tabellendaten einen leichten Rückgang bei Chat- und Chat-Hard-Dimensionen
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
Belohnungsmodellierung:
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
Multi-Agent-Bewertung:
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
Feinkörnige Rückmeldung:
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
Gesamtbewertung: Dieses Papier präsentiert ein innovatives und praktisches Multi-Agent-Kollaborations-Belohnungsmodellierungs-Framework, das wichtige Beiträge zur Verbesserung der Interpretierbarkeit und Reasoning-Fähigkeit von RLHF leistet. Obwohl es Probleme wie begrenzte Experimentskala und unzureichende Implementierungsdetails gibt, hat seine Kernidee wichtigen akademischen Wert und Anwendungspotenzial. Es wird erwartet, dass die Autoren in nachfolgenden Arbeiten mehr Implementierungsdetails hinzufügen, die Experimentskala erweitern und relevanten Code und Modelle open-sourcen, um die Entwicklung der Gemeinschaft zu fördern.