Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
Многоагентное совместное проектирование вознаграждений для улучшения рассуждений в обучении с подкреплением
Название: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Авторы: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
Категория: cs.AI
Дата публикации: 20 ноября 2025 г. (препринт arXiv, на рецензировании)
В данной работе предлагается структура CRM (Collaborative Reward Model — модель совместного вознаграждения), которая заменяет единую чёрную коробку модели вознаграждения координируемой командой экспертных оценщиков для повышения надёжности и интерпретируемости RLHF (обучение с подкреплением из обратной связи человека). Традиционные модели вознаграждения испытывают трудности с одновременной оптимизацией нескольких потенциально конфликтующих измерений предпочтений (таких как фактичность, полезность, безопасность) и имеют ограниченную прозрачность причин оценивания. CRM решает эти проблемы путём разложения оценки предпочтений на специализированные агенты, каждый из которых производит частичный сигнал, в сочетании с глобальным оценщиком на основе ранжирования и сходства вложений. Централизованный агрегатор объединяет эти сигналы на каждом временном шаге, балансируя пошаговую корректность, согласованность между агентами и штрафы за повторения, создавая единое вознаграждение для обучения, совместимое со стандартным конвейером RL. В работе также представлен набор эталонов RewardBench, обеспечивающий практический путь к модульному, интерпретируемому моделированию вознаграждений.
Выравнивание больших языковых моделей (LLM) обычно зависит от технологии RLHF, в которой изученная модель вознаграждения направляет политику к предпочтительному поведению. Однако традиционные модели единого скалярного вознаграждения имеют следующие ключевые проблемы:
Сложность балансировки многомерных предпочтений: Человеческие предпочтения по своей природе многомерны, охватывая факторы точности фактов, связности, полезности и безопасности, тогда как единое скалярное вознаграждение не может легко отразить компромиссы между этими иногда конкурирующими критериями
Недостаточная интерпретируемость: Традиционные модели вознаграждения предоставляют ограниченные сведения, затрудняя понимание того, почему определённый результат получил высокую или низкую оценку
Риск взлома вознаграждения: Непрозрачность затрудняет диагностику ошибок, увеличивая риск того, что политика будет использовать уязвимости функции вознаграждения (производя результаты с высокой оценкой, но не соответствующие истинному намерению)
По мере увеличения развёртывания LLM в критических приложениях обеспечение надёжности, безопасности и интерпретируемости поведения модели становится критически важным. Модель вознаграждения как ключевой компонент конвейера выравнивания напрямую влияет на производительность и надёжность окончательной модели.
Методы ансамбля: Хотя некоторые исследования изучают модели вознаграждений на основе ансамбля для смягчения чрезмерной оптимизации, по-прежнему отсутствует структурированное разложение оценки
Многоцелевые формулировки: Существующие работы разлагают обратную связь на интерпретируемые измерения и переагрегируют путём обучения смешиванию, но не хватает механизма обратной связи в реальном времени с множественными точками зрения
Методы самоотражения: Такие как Critique-out-Loud, выводящие оценки и критику для повышения интерпретируемости, но не интегрирующие экспертные агенты в моделирование вознаграждений
Основная мотивация данной работы состоит в переопределении моделирования вознаграждений с единого чёрного ящика оракула на адаптивную, интерпретируемую и масштабируемую экосистему многоагентной оценки, достигая более прозрачного и надёжного формирования вознаграждений посредством координируемых распределённых оценщиков.
Новая парадигма: Предложена новая парадигма многоагентной совместной оценки, расширяющая RLHF, с повышенной интерпретируемостью и надёжностью по сравнению с единой чёрной коробкой модели вознаграждения
Структурированный механизм сотрудничества: Разработан структурированный механизм совместного вознаграждения MARM (Multi-Agent Reward Model), включающий экспертные оценщики и централизованный агрегатор, объединяющий многомерные интерпретируемые сигналы в единое вознаграждение, используемое стандартными методами градиентной политики
Эталон RewardBench: Выпущен набор эталонов и обучения, организованный вокруг многоагентных предпочтений, обеспечивающий универсальную платформу для исследования модульного, интерпретируемого моделирования вознаграждений
Значительное улучшение производительности: Достигнуты значительные выигрыши в сложных задачах рассуждений с более высокой точностью и стабильностью по сравнению с базовой линией единой RM, сохраняя плавность и безопасность, что доказывает эффективность многоточечного формирования вознаграждений
Учитывая крупномасштабную модель политики πθ и набор подсказок x, модель генерирует структурированный результат o = πθ(x), содержащий многошаговые траектории рассуждений и окончательный ответ. Цель состоит в обучении в многомерном пространстве оценки, а не в оптимизации фиксированного скалярного вознаграждения.
CRM переструктурирует постобучение как распределённый, управляемый обратной связью процесс оптимизации, вводя команду экспертных агентов для совместной оценки результатов крупной модели с дополняющих точек зрения:
Четыре основных агента:
Оптимизатор данных (Data Optimizer): Количественно определяет эффективность и разнообразие результатов, штрафуя избыточные траектории рассуждений при одновременном поощрении сбалансированного исследования
Оценщик качества (Quality Assessor): Обеспечивает детальные суждения, оценивая точность рассуждений, согласованность фактов и логическую связность промежуточных шагов
Синтезатор данных (Data Synthesizer): Повышает надзор путём внедрения синтетических возмущений и интеграции внешних знаний, повышая надёжность и обобщаемость в области
Анализатор данных (Data Analyzer): Непрерывно отслеживает статистические тенденции сигналов вознаграждения, обеспечивая стабильность и предотвращая коллапс или дрейф паттернов
Вознаграждение за результат (Outcome Reward): Проверяет, соответствуют ли частичные рассуждения промежуточным ожиданиям
Улучшенное вознаграждение за данные (Enhanced Data Reward): Использует улучшенные или контрфактические образцы, созданные синтезатором данных, для обеспечения более сильного надзора
Вознаграждение на уровне модели:
Использует кодировщик all-MiniLM-L6-v2 для вычисления косинусного сходства между предсказанными и эталонными вложениями:
R_sim = cos(h_pred, h_ref)
Компоненты многомерной оценки:
Вознаграждение за точность (R_acc): Проверяет математическую эквивалентность посредством символического сравнения (используя latex2sympy2, math_verify)
Вознаграждение за формат (R_fmt): Обеспечивает соответствие формату рассуждений, определённому тегами и
Вознаграждение за шаги рассуждений (R_step): Поощряет организованные, интерпретируемые многошаговые объяснения
Вознаграждение с косинусным масштабированием (R_cs): Модулирует вознаграждение за точность длиной завершения для предотвращения многословности
Штраф за повторение (R_rep): Штрафует n-граммовую избыточность и дегенеративные циклы, обнаруженные анализатором данных
Архитектура распределённой оценки: Впервые систематизирует моделирование вознаграждений как процесс многоагентного сотрудничества, где каждый агент сосредоточен на конкретном измерении оценки
Повышение интерпретируемости: Оценка каждого агента представляет понимаемую человеком оценку (например, фактическую точность), совместно формируя многомерный портрет качества результата
Модульное проектирование: Позволяет вводить новые оценщики как подключаемые агенты, обеспечивая масштабируемый путь к саморегулирующемуся и интерпретируемому выравниванию вознаграждений
Без дополнительной аннотации: Многоточечное формирование вознаграждений не требует дополнительной аннотации человеком сверх используемой для обучения оценщиков
Совместимость со стандартами: Производит единое вознаграждение для обучения, полностью совместимое со стандартными конвейерами RL (такими как GRPO, PPO)
Формат подсказки: Использует структурированные подсказки, процесс рассуждения находится внутри тегов <think>...</think>, окончательный ответ — внутри тегов <answer>...</answer>
Модель вложений: all-MiniLM-L6-v2 для вычисления семантического сходства
Метод переранжирования: Постоянно превосходит другие варианты в задачах высокой точности рассуждений, явное моделирование предпочтений и попарное ранжирование способствуют более дифференцированному формированию вознаграждений
Метод вложений: Демонстрирует лучшую стабильность и масштабируемость в сложной многоагентной координации
Эффективность многоточечной оценки: Совместная структура достигает значительного улучшения в надёжности рассуждений и математической точности, не ущербляя качество диалога
Преимущества модульности: Введение различных агентов приносит постепенные улучшения, подтверждая ценность разложенной оценки
Сохранение стабильности: Производительность остаётся относительно стабильной в общих задачах диалога (Chat, Chat Hard), указывая на то, что механизм слияния вознаграждений эффективно балансирует многомерные цели
Способность к обобщению: Введение синтезатора данных значительно повышает производительность модели в задачах, требующих комбинированных рассуждений
Смена парадигмы: MARM успешно переопределяет моделирование вознаграждений как процесс многоагентной оценки, а не единого чёрного ящика оракула
Проверка производительности: Комплексные эксперименты на RewardBench, Math и GSM8K доказывают, что многоагентное сотрудничество значительно повышает точность рассуждений, математическую точность и общую стабильность, не ущербляя качество диалога
Преимущества модульности: Введение ролей, таких как оценщик качества и синтезатор данных, дополнительно повышает согласованность и способность к обобщению, подчёркивая преимущества специализированного разложения и координируемой обратной связи в моделировании вознаграждений
Практическая ценность: Обеспечивает масштабируемое и модульное проектирование, поддерживающее интеграцию новых оценщиков как подключаемых агентов, совместимое с существующими конвейерами RLHF
Вычислительные затраты: Многоагентная оценка требует больше вычислительных ресурсов по сравнению с единой моделью вознаграждения, каждый агент требует независимой оценки
Проектирование агентов: Статья не детально описывает, как обучать каждого экспертного агента и как обеспечивать качество их оценок
Проверка масштаба: Эксперименты проводились в основном на небольших моделях (494M параметров), производительность на крупномасштабных моделях неизвестна
Компромисс в качестве диалога: Хотя статья утверждает сохранение качества диалога, данные таблицы показывают небольшое снижение производительности в измерениях Chat и Chat Hard
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
Моделирование вознаграждений:
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
Многоагентная оценка:
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
Детальная обратная связь:
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
Общая оценка: Данная работа предлагает инновационную и практичную структуру многоагентного совместного моделирования вознаграждений, вносящую важный вклад в повышение интерпретируемости RLHF и способности к рассуждениям. Несмотря на ограничения в масштабе экспериментов и недостаточность деталей реализации, основная идея имеет важную академическую ценность и перспективы применения. Ожидается, что авторы в последующих работах дополнят больше деталей реализации, расширят масштаб экспериментов и откроют соответствующий код и модели для содействия развитию сообщества.