Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
Progettazione Collaborativa di Ricompense Multi-Agente per Migliorare il Ragionamento nell'Apprendimento per Rinforzo
Titolo: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Autori: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
Classificazione: cs.AI
Data di Pubblicazione: 20 novembre 2025 (preprint arXiv, in fase di revisione)
Questo articolo propone il framework CRM (Collaborative Reward Model, Modello di Ricompensa Collaborativa), che sostituisce il singolo modello di ricompensa black-box con un team coordinato di esperti valutatori per migliorare la robustezza e l'interpretabilità dell'RLHF (Reinforcement Learning from Human Feedback). I modelli di ricompensa tradizionali faticano a ottimizzare simultaneamente molteplici dimensioni di preferenza potenzialmente conflittuali (come fattualità, utilità, sicurezza) e offrono trasparenza limitata sui motivi della valutazione. CRM affronta questi problemi decomponendo la valutazione delle preferenze in agenti specifici del dominio, dove ogni agente produce segnali parziali, accompagnati da un valutatore globale basato su ranking e somiglianza di embedding. Un aggregatore centralizzato fonde questi segnali ad ogni passo temporale, bilanciando correttezza progressiva, coerenza multi-agente e penalità di ripetizione, producendo una singola ricompensa di addestramento compatibile con pipeline RL standard. L'articolo introduce inoltre la suite di benchmark RewardBench, fornendo un percorso pratico per la modellazione di ricompense modulare e interpretabile.
L'allineamento dei modelli di linguaggio di grandi dimensioni (LLM) dipende tipicamente dalla tecnologia RLHF, in cui il modello di ricompensa appreso guida la politica verso comportamenti preferiti. Tuttavia, i modelli di ricompensa scalari singoli tradizionali presentano i seguenti problemi critici:
Difficoltà nel bilanciare preferenze multidimensionali: Le preferenze umane sono intrinsecamente multidimensionali, abbracciano accuratezza fattuale, coerenza, utilità e sicurezza, mentre una singola ricompensa scalare non può facilmente catturare i compromessi tra questi standard talvolta concorrenti
Interpretabilità insufficiente: I modelli di ricompensa tradizionali forniscono intuizioni limitate, rendendo difficile comprendere perché un output sia valutato alto o basso
Rischio di reward hacking: L'opacità rende difficile diagnosticare errori, aumentando il rischio che la politica sfrutti le lacune della funzione di ricompensa (producendo output con punteggio elevato ma incoerenti con l'intento reale)
Con il crescente dispiegamento degli LLM in applicazioni critiche, garantire l'affidabilità, la sicurezza e l'interpretabilità del comportamento del modello diventa fondamentale. Il modello di ricompensa, come componente centrale della pipeline di allineamento, influenza direttamente le prestazioni e l'affidabilità del modello finale.
Metodi di ensemble: Sebbene alcuni studi esplorino modelli di ricompensa basati su ensemble per mitigare l'over-optimization, manca ancora una decomposizione strutturata della valutazione
Formulazioni multi-obiettivo: I lavori esistenti decompongono il feedback in dimensioni interpretabili e reaggregano attraverso l'apprendimento di miscele, ma mancano meccanismi di feedback multi-prospettiva in tempo reale
Metodi di auto-riflessione: Come Critique-out-Loud che produce punteggi e critiche per migliorare l'interpretabilità, ma non integra agenti esperti nella modellazione delle ricompense
La motivazione centrale di questo articolo è ridefinire la modellazione delle ricompense da un singolo oracle black-box a un ecosistema di valutazione multi-agente adattivo, interpretabile e scalabile, realizzando una ricompensa più trasparente e robusta attraverso valutatori distribuiti coordinati.
Nuovo Paradigma: Propone un nuovo paradigma di valutazione collaborativa multi-agente che estende l'RLHF, migliorando l'interpretabilità e la robustezza rispetto ai singoli modelli di ricompensa black-box
Meccanismo di Collaborazione Strutturato: Progetta il meccanismo di ricompensa collaborativa strutturato MARM (Multi-Agent Reward Model), contenente valutatori esperti e un aggregatore centralizzato, che fonde segnali interpretabili multidimensionali in una singola ricompensa utilizzabile dai metodi di gradiente di politica standard
Benchmark RewardBench: Rilascia una suite di benchmark e addestramento organizzata attorno a preferenze multi-agente, fornendo una piattaforma comune per la ricerca sulla modellazione di ricompense modulare e interpretabile
Miglioramenti Significativi delle Prestazioni: Raggiunge guadagni significativi su compiti di ragionamento complesso, con maggiore accuratezza e stabilità rispetto ai baseline RM singoli, mantenendo fluidità e sicurezza, dimostrando l'efficacia della ricompensa multi-prospettiva
Dato un modello di politica su larga scala πθ e un insieme di prompt x, il modello genera output strutturati o = πθ(x) contenenti traiettorie di ragionamento multi-step e risposta finale. L'obiettivo è imparare attraverso uno spazio di valutazione multidimensionale, piuttosto che ottimizzare una ricompensa scalare fissa.
CRM ricostituisce il post-addestramento come processo di ottimizzazione distribuito e guidato dal feedback, introducendo un team di agenti esperti che valutano collaborativamente gli output del modello di linguaggio da prospettive complementari:
Quattro Agenti Principali:
Ottimizzatore di Dati (Data Optimizer): Quantifica l'efficienza e la diversità dell'output, penalizzando le traiettorie di ragionamento ridondanti incoraggiando al contempo l'esplorazione equilibrata
Valutatore di Qualità (Quality Assessor): Fornisce giudizi a grana fine, valutando l'accuratezza del ragionamento, la coerenza fattuale e la connessione logica dei passaggi intermedi
Sintetizzatore di Dati (Data Synthesizer): Migliora la supervisione iniettando perturbazioni sintetiche e integrando conoscenze esterne, migliorando la robustezza e la capacità di generalizzazione del dominio
Analizzatore di Dati (Data Analyzer): Monitora continuamente le tendenze statistiche dei segnali di ricompensa, imponendo stabilità e prevenendo il collasso o la deriva di pattern
Ricompensa di Risultato (Outcome Reward): Verifica se il ragionamento parziale soddisfa le aspettative intermedie
Ricompensa di Dati Migliorati (Enhanced Data Reward): Utilizza campioni potenziati o controffattuali generati dal sintetizzatore di dati per fornire supervisione più forte
Ricompense a Livello di Modello:
Utilizza l'encoder all-MiniLM-L6-v2 per calcolare la somiglianza del coseno tra embedding di previsione e riferimento:
R_sim = cos(h_pred, h_ref)
Componenti di Valutazione Multidimensionale:
Ricompensa di Accuratezza (R_acc): Verifica l'equivalenza matematica attraverso confronto simbolico (utilizzando latex2sympy2, math_verify)
Ricompensa di Formato (R_fmt): Applica il rispetto del formato di ragionamento definito dai tag e
Ricompensa di Passaggi di Ragionamento (R_step): Incoraggia spiegazioni organizzate e interpretabili multi-step
Ricompensa Scalata Coseno (R_cs): Modera la ricompensa di accuratezza attraverso modulazione della lunghezza di completamento per prevenire prolissità
Penalità di Ripetizione (R_rep): Penalizza la ridondanza n-gram e i cicli degenerativi rilevati dall'analizzatore di dati
Dove i coefficienti (α, β, γ, δ, η) sono regolati empiricamente per bilanciare correttezza fattuale, chiarezza del ragionamento e fluidità linguistica.
Architettura di Valutazione Distribuita: Sistematizza per la prima volta la modellazione di ricompense come processo di collaborazione multi-agente, con ogni agente focalizzato su una dimensione di valutazione specifica
Miglioramento dell'Interpretabilità: Il punteggio di ogni agente rappresenta una valutazione comprensibile dall'uomo (come accuratezza fattuale), formando collettivamente un quadro multidimensionale della qualità dell'output
Progettazione Modulare: Consente l'introduzione di nuovi valutatori come agenti plug-in, fornendo un percorso scalabile verso l'auto-regolazione e l'allineamento di ricompense interpretabili
Nessuna Annotazione Aggiuntiva Richiesta: La ricompensa multi-prospettiva non richiede annotazioni umane aggiuntive oltre a quelle utilizzate per addestrare i valutatori
Compatibilità Standard: Produce una singola ricompensa di addestramento completamente compatibile con pipeline RL standard (come GRPO, PPO)
Framework di Ottimizzazione: GRPO (Guided Reinforcement Policy Optimization)
Modello Base: Qwen/Qwen2.5-0.5B-Instruct (494M parametri)
Formato Prompt: Utilizza prompt strutturati, processo di ragionamento all'interno dei tag <think>...</think>, risposta finale all'interno dei tag <answer>...</answer>
Modello di Embedding: all-MiniLM-L6-v2 per il calcolo della somiglianza semantica
Miglioramento significativo dell'accuratezza di ragionamento
RewardBench(rerank) da 0.639 a 0.689
Il valutatore di qualità introduce feedback di valutazione a grana fine, catturando meglio la coerenza strutturale e la ragionevolezza logica progressiva
Tre agenti → Quattro agenti:
Ulteriore miglioramento su compiti di ragionamento combinato e fattuale
Il sintetizzatore di dati migliora la generalizzazione del modello alleviando l'overfitting locale
Migliora la completezza semantica della catena di ragionamento intermedia
Impatto della Strategia di Aggregazione:
Metodo Reranking: Supera continuamente altre varianti su compiti di ragionamento ad alta precisione, il modello di preferenza esplicito e il ranking a coppie contribuiscono a una ricompensa più discriminante
Metodo Embedding: Dimostra migliore stabilità e scalabilità nel coordinamento multi-agente complesso
L'articolo mostra il comportamento del modello attraverso prompt strutturati:
Processo di Ragionamento: Mostra il ragionamento passo dopo passo all'interno dei tag <think>, consentendo al modello di ricompensa di valutare la qualità del ragionamento
Risposta Finale: Fornisce il risultato finale all'interno dei tag <answer>, facilitando la verifica della correttezza
Questo output strutturato consente ai diversi agenti di valutare separatamente diversi aspetti della catena di ragionamento.
Efficacia della Valutazione Multi-Prospettiva: Il framework collaborativo raggiunge miglioramenti significativi nella robustezza del ragionamento e nella precisione matematica, senza compromettere la qualità del dialogo
Vantaggi della Modularità: L'introduzione di diversi agenti porta miglioramenti progressivi, convalidando il valore della decomposizione della valutazione
Mantenimento della Stabilità: Le prestazioni rimangono relativamente stabili su compiti di dialogo generale (Chat, Chat Hard), indicando che il meccanismo di fusione di ricompense bilancia efficacemente gli obiettivi multidimensionali
Capacità di Generalizzazione: L'introduzione del sintetizzatore di dati migliora significativamente le prestazioni del modello su compiti che richiedono ragionamento combinato
Cambio di Paradigma: MARM ridefinisce con successo la modellazione di ricompense come processo di valutazione multi-agente, piuttosto che un singolo oracle black-box
Verifica delle Prestazioni: Gli esperimenti completi su RewardBench, Math e GSM8K dimostrano che la collaborazione multi-agente migliora significativamente l'accuratezza del ragionamento, la precisione matematica e la stabilità complessiva, senza compromettere la qualità del dialogo
Vantaggi della Modularità: L'introduzione di ruoli come il valutatore di qualità e il sintetizzatore di dati migliora ulteriormente la coerenza e la capacità di generalizzazione, evidenziando i vantaggi della decomposizione specifica del dominio e del feedback coordinato nella modellazione di ricompense
Valore Pratico: Fornisce un design scalabile e modulare che supporta l'integrazione di nuovi valutatori come agenti plug-in, compatibile con pipeline RLHF esistenti
Overhead Computazionale: La valutazione multi-agente richiede più risorse di calcolo rispetto a un singolo modello di ricompensa, con ogni agente che richiede valutazione indipendente
Ottimizzazione dei Pesi: I coefficienti di peso collaborativo (α, β, γ, δ, η) richiedono regolazione empirica, mancando meccanismi di ottimizzazione automatica
Progettazione degli Agenti: L'articolo non specifica in dettaglio come addestrare i singoli agenti esperti e come garantire la qualità della loro valutazione
Verifica su Scala: Gli esperimenti si concentrano principalmente su modelli più piccoli (494M parametri), le prestazioni su modelli su larga scala rimangono sconosciute
Compromesso sulla Qualità del Dialogo: Sebbene l'articolo affermi di mantenere la qualità del dialogo, i dati della tabella mostrano un leggero calo di prestazioni nelle dimensioni Chat e Chat Hard
Compiti di Ragionamento Matematico: Gli esperimenti dimostrano effetti significativi su benchmark matematici come GSM8K
Esigenze di Valutazione Multidimensionale: Applicazioni che richiedono di considerare simultaneamente accuratezza, sicurezza, utilità e altre dimensioni
Requisiti di Alta Interpretabilità: Domini come finanza e medicina che richiedono spiegazioni delle decisioni
Compiti di Output Strutturato: Risoluzione di problemi che richiedono ragionamento progressivo
Uso Cauto:
Generazione di Dialogo: Gli esperimenti mostrano un leggero calo della qualità del dialogo, richiedendo compromessi
Compiti Creativi: L'eccessiva strutturazione potrebbe limitare la creatività
Applicazioni in Tempo Reale: La valutazione multi-agente potrebbe aumentare la latenza
Scenari con Risorse Limitate: L'overhead computazionale è considerevole
Richiede Verifica:
Modelli su Larga Scala: Le prestazioni su modelli con miliardi di parametri rimangono sconosciute
Scenari Multilingue: L'applicabilità su compiti non in inglese rimane da verificare
Generazione di Testo Lungo: L'effetto su compiti come la scrittura di lunghi articoli non è chiaro
Estensione Multimodale: La scalabilità a compiti di immagine, audio e altre modalità
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
Modellazione di Ricompense:
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
Valutazione Multi-Agente:
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
Feedback a Grana Fine:
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
Valutazione Complessiva: Questo articolo propone un framework innovativo e pratico di modellazione collaborativa di ricompense multi-agente, fornendo importanti contributi al miglioramento dell'interpretabilità e della capacità di ragionamento dell'RLHF. Nonostante le limitazioni come la scala sperimentale limitata e i dettagli di implementazione insufficienti, l'idea centrale ha importante valore accademico e prospettive di applicazione. Si attende che gli autori integrino più dettagli di implementazione, espandano la scala sperimentale e rendano open-source il codice e i modelli correlati negli studi futuri per promuovere lo sviluppo della comunità.