Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
Diseño Colaborativo de Recompensas Multi-Agente para Mejorar el Razonamiento en Aprendizaje por Refuerzo
Título: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Autores: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
Clasificación: cs.AI
Fecha de Publicación: 20 de noviembre de 2025 (preimpresión en arXiv, en revisión)
Este artículo propone el marco CRM (Modelo de Recompensa Colaborativa, Collaborative Reward Model), que reemplaza un único modelo de recompensa de caja negra mediante un equipo coordinado de evaluadores expertos para mejorar la robustez e interpretabilidad del RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana). Los modelos de recompensa tradicionales tienen dificultades para optimizar simultáneamente múltiples dimensiones de preferencia potencialmente conflictivas (como factualidad, utilidad y seguridad), y ofrecen transparencia limitada sobre las razones de las puntuaciones. CRM aborda estos problemas descomponiendo la evaluación de preferencias en agentes específicos del dominio, donde cada agente produce señales parciales, acompañados por un evaluador global basado en clasificación y similitud de incrustaciones. Un agregador centralizado fusiona estas señales en cada paso de tiempo, equilibrando la corrección progresiva, la consistencia multi-agente y penalizaciones por repetición, produciendo una única recompensa de entrenamiento compatible con canalizaciones RL estándar. El artículo también introduce la suite de referencia RewardBench, proporcionando una ruta práctica para modelado de recompensas modular e interpretable.
La alineación de Modelos de Lenguaje Grande (LLMs) generalmente depende de la técnica RLHF, donde un modelo de recompensa aprendido guía la política hacia comportamientos preferidos. Sin embargo, los modelos de recompensa escalares únicos tradicionales presentan los siguientes problemas clave:
Dificultad en equilibrar preferencias multidimensionales: Las preferencias humanas son inherentemente multidimensionales, abarcando precisión factual, coherencia, utilidad y seguridad, mientras que una recompensa escalar única no puede capturar fácilmente los compromisos entre estos criterios a menudo competitivos
Interpretabilidad insuficiente: Los modelos de recompensa tradicionales proporcionan información limitada, dificultando la comprensión de por qué una salida recibe una puntuación alta o baja
Riesgo de manipulación de recompensas: La falta de transparencia dificulta el diagnóstico de errores, aumentando el riesgo de que la política aprenda a explotar vulnerabilidades en la función de recompensa (produciendo salidas con puntuaciones altas pero inconsistentes con la intención real)
Con el despliegue cada vez mayor de LLMs en aplicaciones críticas, garantizar la confiabilidad, seguridad e interpretabilidad del comportamiento del modelo es cada vez más crucial. El modelo de recompensa, como componente central de la canalización de alineación, impacta directamente en el desempeño y credibilidad del modelo final.
Métodos de conjunto: Aunque hay investigaciones que exploran modelos de recompensa basados en conjuntos para mitigar la sobreoptimización, aún carecen de descomposición estructurada de evaluaciones
Formulaciones multi-objetivo: El trabajo existente descompone la retroalimentación en dimensiones interpretables y reagrega mediante mezclas aprendidas, pero carece de mecanismos de retroalimentación multi-perspectiva en tiempo real
Métodos de auto-reflexión: Como Critique-out-Loud que produce puntuaciones y críticas para mejorar la interpretabilidad, pero no integra agentes expertos en el modelado de recompensas
La motivación central de este artículo es redefinir el modelado de recompensas de un único oráculo de caja negra a un ecosistema de evaluación multi-agente adaptativo, interpretable y escalable, logrando una conformación de recompensas más transparente y robusta mediante evaluadores distribuidos coordinados.
Nuevo Paradigma: Propone un nuevo paradigma de evaluación multi-agente colaborativa que extiende RLHF, mejorando la interpretabilidad y robustez en comparación con modelos de recompensa de caja negra única
Mecanismo de Colaboración Estructurada: Diseña un mecanismo de recompensa colaborativa estructurado MARM (Modelo de Recompensa Multi-Agente), que incluye evaluadores expertos y un agregador centralizado, fusionando señales interpretables multidimensionales en una única recompensa utilizable por métodos de gradiente de política estándar
Referencia RewardBench: Publica una suite de referencia y entrenamiento organizada alrededor de preferencias multi-agente, proporcionando una plataforma común para investigar modelado de recompensas modular e interpretable
Mejoras de Desempeño Significativas: Logra ganancias significativas en tareas de razonamiento complejo, con mayor precisión y estabilidad en comparación con líneas base de RM único, manteniendo fluidez y seguridad, demostrando la efectividad de la conformación de recompensas multi-perspectiva
Dado un modelo de política a gran escala πθ y un conjunto de indicaciones x, el modelo genera salidas estructuradas o = πθ(x) que contienen trayectorias de razonamiento multi-paso y respuestas finales. El objetivo es aprender a través de un espacio de evaluación multidimensional, en lugar de optimizar una recompensa escalar fija.
CRM reconstruye el post-entrenamiento como un proceso de optimización distribuido impulsado por retroalimentación, introduciendo un equipo de agentes expertos que colaboran en la evaluación de salidas de modelos grandes desde perspectivas complementarias:
Cuatro Agentes Principales:
Optimizador de Datos (Data Optimizer): Cuantifica la eficiencia y diversidad de salidas, penalizando trayectorias de razonamiento redundantes mientras fomenta la exploración equilibrada
Evaluador de Calidad (Quality Assessor): Proporciona juicios de grano fino, evaluando precisión de razonamiento, consistencia factual y coherencia lógica de pasos intermedios
Sintetizador de Datos (Data Synthesizer): Mejora la supervisión mediante inyección de perturbaciones sintéticas e integración de conocimiento externo, mejorando robustez y capacidad de generalización del dominio
Analizador de Datos (Data Analyzer): Monitorea continuamente tendencias estadísticas de señales de recompensa, forzando estabilidad y previniendo colapso o desviación de patrones
Recompensa de Resultado (Outcome Reward): Verifica si el razonamiento parcial se alinea con expectativas intermedias
Recompensa de Datos Mejorada (Enhanced Data Reward): Utiliza muestras mejoradas o contrafácticas generadas por el sintetizador de datos para proporcionar supervisión más fuerte
Recompensas a Nivel de Modelo:
Utilizando el codificador all-MiniLM-L6-v2 para calcular similitud coseno entre incrustaciones predichas y de referencia:
R_sim = cos(h_pred, h_ref)
Componentes de Evaluación Multidimensional:
Recompensa de Precisión (R_acc): Verifica equivalencia matemática mediante comparación simbólica (usando latex2sympy2, math_verify)
Recompensa de Formato (R_fmt): Fuerza cumplimiento del formato de razonamiento definido por etiquetas <think> y <answer>
Recompensa de Pasos de Razonamiento (R_step): Fomenta explicaciones organizadas y multi-paso interpretables
Recompensa de Escalado Coseno (R_cs): Modera la recompensa de precisión mediante modulación de longitud de finalización para prevenir verbosidad
Penalización por Repetición (R_rep): Penaliza redundancia n-gramas y bucles degenerados detectados por el analizador de datos
Arquitectura de Evaluación Distribuida: Sistematiza por primera vez el modelado de recompensas como un proceso de colaboración multi-agente, donde cada agente se enfoca en una dimensión de evaluación específica
Mejora de Interpretabilidad: La puntuación de cada agente representa una evaluación comprensible por humanos (como precisión factual), formando colectivamente un retrato multidimensional de la calidad de salida
Diseño Modular: Permite que nuevos evaluadores se introduzcan como agentes complementarios, proporcionando una ruta escalable hacia auto-regulación y alineación de recompensas interpretables
Sin Anotación Adicional: La conformación de recompensas multi-perspectiva no requiere anotación humana adicional más allá de la utilizada para entrenar los evaluadores
Compatibilidad Estándar: Produce una única recompensa de entrenamiento completamente compatible con canalizaciones RL estándar (como GRPO, PPO)
Formato de Indicación: Utiliza indicaciones estructuradas, con proceso de razonamiento dentro de etiquetas <think>...</think> y respuesta final dentro de etiquetas <answer>...</answer>
Modelo de Incrustación: all-MiniLM-L6-v2 para cálculo de similitud semántica
El evaluador de calidad introduce retroalimentación de evaluación de grano fino, capturando mejor coherencia estructural y razonabilidad lógica paso a paso
Tres agentes → Cuatro agentes:
Mejora adicional en tareas de razonamiento combinado y síntesis de hechos
El sintetizador de datos mejora la generalización del modelo mitigando sobreajuste local
Mejora la integridad semántica de cadenas de razonamiento intermedias
Impacto de la Estrategia de Agregación:
Método de Reordenamiento: Supera consistentemente otras variantes en tareas de razonamiento de alta precisión, con modelado de preferencia explícito y clasificación por pares contribuyendo a conformación de recompensas más discriminativa
Método de Incrustación: Demuestra mejor estabilidad y escalabilidad en coordinación multi-agente compleja
El artículo demuestra el comportamiento del modelo a través de indicaciones estructuradas:
Proceso de Razonamiento: Muestra razonamiento paso a paso dentro de etiquetas <think>, permitiendo que el modelo de recompensa evalúe la calidad del razonamiento
Respuesta Final: Proporciona resultado final dentro de etiquetas <answer>, facilitando verificación de corrección
Esta salida estructurada permite que cada agente evalúe por separado diferentes aspectos de la cadena de razonamiento.
Efectividad de Evaluación Multi-Perspectiva: El marco colaborativo logra mejoras significativas en robustez de razonamiento y precisión matemática, sin comprometer la calidad del diálogo
Ventajas de Modularidad: La introducción de diferentes agentes aporta mejoras progresivas, validando el valor de la descomposición de evaluaciones
Mantenimiento de Estabilidad: El desempeño se mantiene relativamente estable en tareas generales de diálogo (Chat, Chat Hard), indicando que el mecanismo de fusión de recompensas equilibra efectivamente objetivos multidimensionales
Capacidad de Generalización: La introducción del sintetizador de datos mejora significativamente el desempeño del modelo en tareas que requieren razonamiento combinado
Cambio de Paradigma: MARM redefine exitosamente el modelado de recompensas como un proceso de evaluación multi-agente, en lugar de un único oráculo de caja negra
Validación de Desempeño: Experimentos exhaustivos en RewardBench, Math y GSM8K demuestran que la colaboración multi-agente mejora significativamente precisión de razonamiento, precisión matemática y estabilidad general, sin comprometer calidad de diálogo
Ventajas de Modularidad: La introducción de roles como evaluador de calidad y sintetizador de datos mejora aún más consistencia y capacidad de generalización, destacando las ventajas de descomposición específica del dominio y retroalimentación coordinada en modelado de recompensas
Valor Práctico: Proporciona diseño escalable y modular que soporta integración de nuevos evaluadores como agentes complementarios, compatible con canalizaciones RLHF existentes
Costo Computacional: La evaluación multi-agente requiere más recursos computacionales que un único modelo de recompensa, con cada agente requiriendo evaluación independiente
Ajuste de Pesos: Los coeficientes de pesos colaborativos (α, β, γ, δ, η) requieren ajuste empírico, careciendo de mecanismo de optimización automática
Diseño de Agentes: El artículo no especifica en detalle cómo entrenar cada agente experto, ni cómo asegurar la calidad de sus evaluaciones
Validación de Escala: Los experimentos se realizan principalmente en modelos pequeños (494M parámetros), con desempeño en modelos a gran escala desconocido
Compensación de Calidad de Diálogo: Aunque el artículo afirma mantener calidad de diálogo, los datos de tabla muestran ligera disminución en dimensiones Chat y Chat Hard
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
Modelado de Recompensas:
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
Evaluación Multi-Agente:
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
Retroalimentación de Grano Fino:
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
Evaluación General: Este artículo propone un marco innovador y práctico de modelado de recompensas colaborativo multi-agente, haciendo contribuciones importantes en mejorar interpretabilidad y capacidad de razonamiento de RLHF. Aunque existen problemas como escala experimental limitada e insuficiencia de detalles de implementación, la idea central posee valor académico importante y perspectivas de aplicación. Se espera que en trabajo posterior los autores complementen más detalles de implementación, expandan escala experimental, y liberen código y modelos relacionados para promover desarrollo de la comunidad.