Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
Conception Collaborative de Récompense Multi-Agent pour Améliorer le Raisonnement en Apprentissage par Renforcement
Titre : Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Auteurs : Pei Yang (Gradient), Ke Zhang (Université Waseda), Ji Wang (Université Columbia), Xiao Chen (Université Polytechnique de Hong Kong), Yuxin Tang (Université Rice & Réseau Gradient), Eric Yang, Lynn Ai, Bill Shi (Gradient)
Classification : cs.AI
Date de publication : 20 novembre 2025 (prépublication arXiv, en cours d'examen)
Cet article propose le cadre CRM (Collaborative Reward Model, Modèle de Récompense Collaborative Multi-Agent), qui remplace un modèle de récompense unique de type boîte noire par une équipe d'experts coordonnés pour améliorer la robustesse et l'interprétabilité de l'RLHF (Apprentissage par Renforcement à partir de Retours Humains). Les modèles de récompense traditionnels peinent à optimiser simultanément plusieurs dimensions de préférences potentiellement conflictuelles (comme la factualité, l'utilité, la sécurité) et offrent une transparence limitée quant aux raisons des évaluations. Le CRM résout ces problèmes en décomposant l'évaluation des préférences en agents spécialisés par domaine, chaque agent produisant un signal partiel, accompagné d'un évaluateur global basé sur le classement et la similarité d'intégration. Un agrégateur centralisé fusionne ces signaux à chaque pas de temps, équilibrant la correction progressive, la cohérence multi-agent et les pénalités de répétition, produisant une récompense d'entraînement unique compatible avec les pipelines RL standard. L'article introduit également la suite de benchmarks RewardBench, offrant un chemin pratique vers la modélisation de récompenses modulaire et interprétable.
L'alignement des grands modèles de langage (LLMs) repose généralement sur la technique RLHF, où un modèle de récompense appris guide la politique vers un comportement préféré. Cependant, les modèles de récompense scalaires uniques traditionnels présentent les problèmes clés suivants :
Difficultés à équilibrer les préférences multidimensionnelles : Les préférences humaines sont intrinsèquement multidimensionnelles, englobant la précision factuelle, la cohérence, l'utilité et la sécurité, tandis qu'une récompense scalaire unique ne peut pas facilement capturer les compromis entre ces critères parfois concurrents
Interprétabilité insuffisante : Les modèles de récompense traditionnels offrent des perspectives limitées, rendant difficile la compréhension des raisons pour lesquelles une sortie reçoit un score élevé ou faible
Risque de piratage de récompense : L'opacité rend le diagnostic des erreurs difficile, augmentant le risque que la politique exploite les failles de la fonction de récompense (produisant des sorties avec des scores élevés mais non alignées avec l'intention réelle)
Avec le déploiement croissant des LLMs dans des applications critiques, assurer la fiabilité, la sécurité et l'interprétabilité du comportement des modèles devient essentiel. Le modèle de récompense, en tant que composant central du pipeline d'alignement, affecte directement la performance et la crédibilité du modèle final.
Méthodes d'ensemble : Bien que certaines recherches explorent les modèles de récompense basés sur des ensembles pour atténuer la suroptimisation, il manque une décomposition d'évaluation structurée
Formulations multi-objectifs : Les travaux existants décomposent les retours en dimensions interprétables et réagrègent par apprentissage de mélange, mais manquent d'un mécanisme de retours multi-perspectives en temps réel
Méthodes d'auto-réflexion : Comme Critique-out-Loud qui produit des scores et des critiques pour améliorer l'interprétabilité, mais n'intègre pas les agents experts dans la modélisation de récompenses
La motivation centrale de cet article est de redéfinir la modélisation de récompenses, passant d'un oracle unique de type boîte noire à un écosystème d'évaluation multi-agent adaptatif, interprétable et scalable, réalisant un façonnage de récompenses plus transparent et robuste par le biais d'évaluateurs distribués coordonnés.
Nouveau paradigme : Propose un nouveau paradigme d'évaluation collaborative multi-agent étendant l'RLHF, améliorant l'interprétabilité et la robustesse par rapport aux modèles de récompense uniques de type boîte noire
Mécanisme de Collaboration Structuré : Conçoit une structure MARM (Multi-Agent Reward Model, Modèle de Récompense Multi-Agent) avec des évaluateurs experts et un agrégateur centralisé, fusionnant les signaux multidimensionnels interprétables en une récompense d'entraînement unique utilisable par les méthodes de gradient de politique standard
Benchmark RewardBench : Publie une suite de benchmarks et d'entraînement organisée autour de préférences multi-agent, fournissant une plateforme commune pour la recherche sur la modélisation de récompenses modulaire et interprétable
Améliorations Significatives de Performance : Réalise des gains significatifs sur les tâches de raisonnement complexe, avec une précision et une stabilité supérieures aux baselines de RM unique, tout en maintenant la fluidité et la sécurité, prouvant l'efficacité du façonnage de récompenses multi-perspectives
Étant donné un modèle de politique à grande échelle πθ et un ensemble d'invites x, le modèle génère une sortie structurée o = πθ(x) contenant des trajectoires de raisonnement multi-étapes et une réponse finale. L'objectif est d'apprendre dans un espace d'évaluation multidimensionnel plutôt que d'optimiser une récompense scalaire fixe.
Le CRM restructure l'entraînement post-formation en un processus d'optimisation distribué et piloté par les retours, introduisant une équipe d'agents experts évaluant collaborativement les sorties du grand modèle sous des perspectives complémentaires :
Quatre Agents Principaux :
Optimiseur de Données (Data Optimizer) : Quantifie l'efficacité et la diversité des sorties, pénalisant les trajectoires de raisonnement redondantes tout en encourageant l'exploration équilibrée
Évaluateur de Qualité (Quality Assessor) : Fournit des jugements à grain fin, évaluant la précision du raisonnement, la cohérence factuelle et la cohérence logique des étapes intermédiaires
Synthétiseur de Données (Data Synthesizer) : Améliore la supervision en injectant des perturbations synthétiques et en intégrant des connaissances externes, améliorant la robustesse et la capacité de généralisation inter-domaines
Analyseur de Données (Data Analyzer) : Surveille continuellement les tendances statistiques des signaux de récompense, imposant la stabilité et prévenant l'effondrement ou la dérive de motifs
Récompense de Résultat (Outcome Reward) : Vérifie si le raisonnement partiel satisfait les attentes intermédiaires
Récompense de Données Améliorées (Enhanced Data Reward) : Utilise les échantillons améliorés ou contrefactuels générés par le synthétiseur de données pour une supervision plus forte
Récompenses au Niveau du Modèle :
Utilise l'encodeur all-MiniLM-L6-v2 pour calculer la similarité cosinus entre les intégrations prédites et de référence :
R_sim = cos(h_pred, h_ref)
Composants d'Évaluation Multidimensionnelle :
Récompense de Précision (R_acc) : Vérifie l'équivalence mathématique par comparaison symbolique (utilisant latex2sympy2, math_verify)
Récompense de Format (R_fmt) : Impose le respect du format de raisonnement défini par les balises et
Récompense d'Étapes de Raisonnement (R_step) : Encourage les explications multi-étapes organisées et interprétables
Récompense à Mise à l'Échelle Cosinus (R_cs) : Module la récompense de précision par la longueur d'achèvement pour prévenir la verbosité
Pénalité de Répétition (R_rep) : Pénalise la redondance n-gramme et les boucles dégénérées détectées par l'analyseur de données
Où les coefficients (α, β, γ, δ, η) sont ajustés empiriquement pour équilibrer la correction factuelle, la clarté du raisonnement et la fluidité linguistique.
Architecture d'Évaluation Distribuée : Systématise pour la première fois la modélisation de récompenses en tant que processus de collaboration multi-agent, chaque agent se concentrant sur une dimension d'évaluation spécifique
Amélioration de l'Interprétabilité : Le score de chaque agent représente une évaluation compréhensible par l'humain (comme la précision factuelle), formant collectivement un portrait multidimensionnel de la qualité de sortie
Conception Modulaire : Permet l'introduction de nouveaux évaluateurs en tant qu'agents plug-in, offrant un chemin scalable vers l'auto-régulation et l'alignement de récompenses interprétables
Sans Annotation Supplémentaire : Le façonnage de récompenses multi-perspectives ne nécessite pas d'annotation humaine supplémentaire au-delà de celle utilisée pour l'entraînement des évaluateurs
Compatibilité Standard : Produit une récompense d'entraînement unique entièrement compatible avec les pipelines RL standard (comme GRPO, PPO)
Cadre d'Optimisation : GRPO (Optimisation de Politique de Renforcement Généralisée)
Modèle de Base : Qwen/Qwen2.5-0.5B-Instruct (494M paramètres)
Format d'Invite : Utilise des invites structurées, le processus de raisonnement dans les balises <think>...</think>, la réponse finale dans les balises <answer>...</answer>
Modèle d'Intégration : all-MiniLM-L6-v2 pour le calcul de similarité sémantique
Amélioration significative de la précision du raisonnement
RewardBench(rerank) passant de 0.639 à 0.689
L'évaluateur de qualité introduit des retours d'évaluation à grain fin, capturant mieux la cohérence structurelle et la raisonnabilité logique progressive
Trois agents → Quatre agents :
Amélioration supplémentaire des tâches de raisonnement combiné et de synthèse factuelle
Le synthétiseur de données améliore la généralisation du modèle en atténuant le surapprentissage local
Améliore l'intégrité sémantique des chaînes de raisonnement intermédiaires
Impact de la Stratégie d'Agrégation :
Méthode de Réclassement : Surpasse continuellement les autres variantes sur les tâches de raisonnement haute précision, la modélisation explicite des préférences et le classement par paires contribuant à un façonnage de récompenses plus discriminant
Méthode d'Intégration : Démontre une meilleure stabilité et scalabilité dans la coordination multi-agent complexe
L'article démontre le comportement du modèle par des invites structurées :
Processus de Raisonnement : Affiche le raisonnement étape par étape dans les balises <think>, permettant au modèle de récompense d'évaluer la qualité du raisonnement
Réponse Finale : Fournit le résultat final dans les balises <answer>, facilitant la vérification de correction
Cette sortie structurée permet aux différents agents d'évaluer séparément différents aspects de la chaîne de raisonnement.
Efficacité de l'Évaluation Multi-Perspectives : Le cadre collaboratif réalise des améliorations significatives en robustesse du raisonnement et précision mathématique, sans compromettre la qualité de conversation
Avantages de la Modularité : L'introduction de différents agents apporte des améliorations progressives, validant la valeur de la décomposition d'évaluation
Maintien de la Stabilité : Les performances restent relativement stables sur les tâches de conversation générale (Chat, Chat Hard), indiquant que le mécanisme de fusion de récompenses équilibre efficacement les objectifs multidimensionnels
Capacité de Généralisation : L'introduction du synthétiseur de données améliore significativement les performances du modèle sur les tâches nécessitant un raisonnement combiné
Changement de Paradigme : Le MARM redéfinit avec succès la modélisation de récompenses en tant que processus d'évaluation multi-agent plutôt qu'un oracle unique de type boîte noire
Validation de Performance : Les expériences complètes sur RewardBench, Math et GSM8K démontrent que la collaboration multi-agent améliore significativement la précision du raisonnement, la précision mathématique et la stabilité globale, sans compromettre la qualité de conversation
Avantages de la Modularité : L'introduction de rôles tels que l'évaluateur de qualité et le synthétiseur de données améliore davantage la cohérence et la capacité de généralisation, soulignant les avantages de la décomposition spécifique au domaine et des retours coordonnés dans la modélisation de récompenses
Valeur Pratique : Fournit une conception scalable et modulaire, supportant l'intégration de nouveaux évaluateurs en tant qu'agents plug-in, compatible avec les pipelines RLHF existants
Surcharge Computationnelle : L'évaluation multi-agent nécessite plus de ressources computationnelles qu'un modèle de récompense unique, chaque agent nécessitant une évaluation indépendante
Ajustement des Poids : Les coefficients de poids collaboratif (α, β, γ, δ, η) nécessitent un ajustement empirique, manquant d'un mécanisme d'optimisation automatique
Conception d'Agents : L'article ne détaille pas suffisamment comment entraîner les agents experts individuels et assurer la qualité de leurs évaluations
Validation à Grande Échelle : Les expériences se concentrent principalement sur les petits modèles (494M paramètres), les performances sur les modèles à grande échelle restant inconnues
Compromis de Qualité de Conversation : Bien que l'article affirme maintenir la qualité de conversation, les données du tableau montrent une légère baisse de performance sur les dimensions Chat et Chat Hard
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
Modélisation de Récompense :
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
Évaluation Multi-Agent :
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
Retours à Grain Fin :
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
Évaluation Générale : Cet article propose un cadre innovant et pratique de modélisation de récompenses collaborative multi-agent, apportant des contributions importantes à l'amélioration de l'interprétabilité et de la capacité de raisonnement de l'RLHF. Bien qu'il présente des limitations telles que l'échelle expérimentale limitée et les détails d'implémentation insuffisants, son idée centrale possède une valeur académique importante et des perspectives d'application prometteuses. Nous attendons que les auteurs complètent davantage les détails d'implémentation, élargissent l'échelle expérimentale dans les travaux ultérieurs, et ouvrent le code et les modèles connexes pour promouvoir le développement de la communauté.