2025-11-21T13:37:16.010816

Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning

Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic

Многоагентное совместное проектирование вознаграждений для улучшения рассуждений в обучении с подкреплением

Основная информация

  • ID статьи: 2511.16202
  • Название: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
  • Авторы: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
  • Категория: cs.AI
  • Дата публикации: 20 ноября 2025 г. (препринт arXiv, на рецензировании)
  • Ссылка на статью: https://arxiv.org/abs/2511.16202

Аннотация

В данной работе предлагается структура CRM (Collaborative Reward Model — модель совместного вознаграждения), которая заменяет единую чёрную коробку модели вознаграждения координируемой командой экспертных оценщиков для повышения надёжности и интерпретируемости RLHF (обучение с подкреплением из обратной связи человека). Традиционные модели вознаграждения испытывают трудности с одновременной оптимизацией нескольких потенциально конфликтующих измерений предпочтений (таких как фактичность, полезность, безопасность) и имеют ограниченную прозрачность причин оценивания. CRM решает эти проблемы путём разложения оценки предпочтений на специализированные агенты, каждый из которых производит частичный сигнал, в сочетании с глобальным оценщиком на основе ранжирования и сходства вложений. Централизованный агрегатор объединяет эти сигналы на каждом временном шаге, балансируя пошаговую корректность, согласованность между агентами и штрафы за повторения, создавая единое вознаграждение для обучения, совместимое со стандартным конвейером RL. В работе также представлен набор эталонов RewardBench, обеспечивающий практический путь к модульному, интерпретируемому моделированию вознаграждений.

Исследовательский контекст и мотивация

1. Основная проблема

Выравнивание больших языковых моделей (LLM) обычно зависит от технологии RLHF, в которой изученная модель вознаграждения направляет политику к предпочтительному поведению. Однако традиционные модели единого скалярного вознаграждения имеют следующие ключевые проблемы:

  • Сложность балансировки многомерных предпочтений: Человеческие предпочтения по своей природе многомерны, охватывая факторы точности фактов, связности, полезности и безопасности, тогда как единое скалярное вознаграждение не может легко отразить компромиссы между этими иногда конкурирующими критериями
  • Недостаточная интерпретируемость: Традиционные модели вознаграждения предоставляют ограниченные сведения, затрудняя понимание того, почему определённый результат получил высокую или низкую оценку
  • Риск взлома вознаграждения: Непрозрачность затрудняет диагностику ошибок, увеличивая риск того, что политика будет использовать уязвимости функции вознаграждения (производя результаты с высокой оценкой, но не соответствующие истинному намерению)

2. Важность проблемы

По мере увеличения развёртывания LLM в критических приложениях обеспечение надёжности, безопасности и интерпретируемости поведения модели становится критически важным. Модель вознаграждения как ключевой компонент конвейера выравнивания напрямую влияет на производительность и надёжность окончательной модели.

3. Ограничения существующих подходов

  • Методы ансамбля: Хотя некоторые исследования изучают модели вознаграждений на основе ансамбля для смягчения чрезмерной оптимизации, по-прежнему отсутствует структурированное разложение оценки
  • Многоцелевые формулировки: Существующие работы разлагают обратную связь на интерпретируемые измерения и переагрегируют путём обучения смешиванию, но не хватает механизма обратной связи в реальном времени с множественными точками зрения
  • Методы самоотражения: Такие как Critique-out-Loud, выводящие оценки и критику для повышения интерпретируемости, но не интегрирующие экспертные агенты в моделирование вознаграждений

4. Исследовательская мотивация

Основная мотивация данной работы состоит в переопределении моделирования вознаграждений с единого чёрного ящика оракула на адаптивную, интерпретируемую и масштабируемую экосистему многоагентной оценки, достигая более прозрачного и надёжного формирования вознаграждений посредством координируемых распределённых оценщиков.

Основные вклады

  1. Новая парадигма: Предложена новая парадигма многоагентной совместной оценки, расширяющая RLHF, с повышенной интерпретируемостью и надёжностью по сравнению с единой чёрной коробкой модели вознаграждения
  2. Структурированный механизм сотрудничества: Разработан структурированный механизм совместного вознаграждения MARM (Multi-Agent Reward Model), включающий экспертные оценщики и централизованный агрегатор, объединяющий многомерные интерпретируемые сигналы в единое вознаграждение, используемое стандартными методами градиентной политики
  3. Эталон RewardBench: Выпущен набор эталонов и обучения, организованный вокруг многоагентных предпочтений, обеспечивающий универсальную платформу для исследования модульного, интерпретируемого моделирования вознаграждений
  4. Значительное улучшение производительности: Достигнуты значительные выигрыши в сложных задачах рассуждений с более высокой точностью и стабильностью по сравнению с базовой линией единой RM, сохраняя плавность и безопасность, что доказывает эффективность многоточечного формирования вознаграждений

Подробное описание метода

Определение задачи

Учитывая крупномасштабную модель политики πθ и набор подсказок x, модель генерирует структурированный результат o = πθ(x), содержащий многошаговые траектории рассуждений и окончательный ответ. Цель состоит в обучении в многомерном пространстве оценки, а не в оптимизации фиксированного скалярного вознаграждения.

Формализованная цель:

max_θ E_{x~D}[F(αR_ranker(o) + βR_similarity(o) + Σ_{i=1}^K λ_i R_i(o))]

где:

  • F(·) — централизованный агрегатор, преобразующий разнородные сигналы в скалярное вознаграждение
  • {α, β, λ_i} — адаптивные веса, изучаемые или настраиваемые во время обучения
  • A = {a1, a2, ..., aK} — набор агентов, каждый агент ai выводит оценку Ri(o) для конкретного измерения оценки

Архитектура модели

1. Совместное моделирование вознаграждений (CRM)

CRM переструктурирует постобучение как распределённый, управляемый обратной связью процесс оптимизации, вводя команду экспертных агентов для совместной оценки результатов крупной модели с дополняющих точек зрения:

Четыре основных агента:

  • Оптимизатор данных (Data Optimizer): Количественно определяет эффективность и разнообразие результатов, штрафуя избыточные траектории рассуждений при одновременном поощрении сбалансированного исследования
  • Оценщик качества (Quality Assessor): Обеспечивает детальные суждения, оценивая точность рассуждений, согласованность фактов и логическую связность промежуточных шагов
  • Синтезатор данных (Data Synthesizer): Повышает надзор путём внедрения синтетических возмущений и интеграции внешних знаний, повышая надёжность и обобщаемость в области
  • Анализатор данных (Data Analyzer): Непрерывно отслеживает статистические тенденции сигналов вознаграждения, обеспечивая стабильность и предотвращая коллапс или дрейф паттернов

2. Проектирование функции вознаграждения

Вознаграждение на уровне шагов:

  • Вознаграждение за результат (Outcome Reward): Проверяет, соответствуют ли частичные рассуждения промежуточным ожиданиям
  • Улучшенное вознаграждение за данные (Enhanced Data Reward): Использует улучшенные или контрфактические образцы, созданные синтезатором данных, для обеспечения более сильного надзора

Вознаграждение на уровне модели: Использует кодировщик all-MiniLM-L6-v2 для вычисления косинусного сходства между предсказанными и эталонными вложениями:

R_sim = cos(h_pred, h_ref)

Компоненты многомерной оценки:

  • Вознаграждение за точность (R_acc): Проверяет математическую эквивалентность посредством символического сравнения (используя latex2sympy2, math_verify)
  • Вознаграждение за формат (R_fmt): Обеспечивает соответствие формату рассуждений, определённому тегами и
  • Вознаграждение за шаги рассуждений (R_step): Поощряет организованные, интерпретируемые многошаговые объяснения
  • Вознаграждение с косинусным масштабированием (R_cs): Модулирует вознаграждение за точность длиной завершения для предотвращения многословности
  • Штраф за повторение (R_rep): Штрафует n-граммовую избыточность и дегенеративные циклы, обнаруженные анализатором данных

Механизм совместных весов:

R_collab = αR_acc + βR_sim + γR_fmt + δR_step - ηR_rep

где коэффициенты (α, β, γ, δ, η) эмпирически настраиваются для балансировки фактической корректности, ясности рассуждений и языковой плавности.

3. Агрегация вознаграждений и обновление политики

Централизованная агрегация:

r_t = F(R_collab(o_t), R_enhanced(o_t))

где F — нелинейный оператор слияния, балансирующий формат рассуждений, точность и штрафы за повторение.

Оптимизация политики: Использует обобщённую оценку преимущества (GAE) для обновления модели политики:

L_policy = -E_t[Â_t log π_θ(a_t|s_t)]

Оптимизация модели стоимости: Оптимизируется путём регрессии на централизованное вознаграждение:

L_value = E_t[(V_φ(s_t) - r_t)²]

где Â_t — функция преимущества, V_φ — модель стоимости.

Технические инновации

  1. Архитектура распределённой оценки: Впервые систематизирует моделирование вознаграждений как процесс многоагентного сотрудничества, где каждый агент сосредоточен на конкретном измерении оценки
  2. Повышение интерпретируемости: Оценка каждого агента представляет понимаемую человеком оценку (например, фактическую точность), совместно формируя многомерный портрет качества результата
  3. Модульное проектирование: Позволяет вводить новые оценщики как подключаемые агенты, обеспечивая масштабируемый путь к саморегулирующемуся и интерпретируемому выравниванию вознаграждений
  4. Без дополнительной аннотации: Многоточечное формирование вознаграждений не требует дополнительной аннотации человеком сверх используемой для обучения оценщиков
  5. Совместимость со стандартами: Производит единое вознаграждение для обучения, полностью совместимое со стандартными конвейерами RL (такими как GRPO, PPO)

Экспериментальная установка

Наборы данных

Основные наборы данных:

  1. RewardBench: Эталон, организованный вокруг многоагентных предпочтений, включающий несколько измерений оценки:
    • Chat: качество диалога
    • Chat Hard: сложные сценарии диалога
    • Safety: оценка безопасности
    • Reasoning: способность к рассуждениям
  2. GSM8K: Набор данных математических рассуждений
  3. Math: Набор данных решения математических задач
  4. AI-MO/NuminaMath-TIR:
    • Набор обучения: 3 800 образцов
    • Набор тестирования: 99 образцов

Метрики оценки

  • Точность: Коэффициент правильности по категориям задач
  • Качество рассуждений: Логическая связность и полнота шагов
  • Качество диалога: Плавность и полезность
  • Безопасность: Оценка безопасности результатов

Методы сравнения

Базовая модель: Qwen2.5-0.5B-Instruct (примерно 494M параметров)

Экспериментальные конфигурации:

  • Два агента: анализатор данных + оптимизатор данных
  • Три агента: анализатор данных + оптимизатор данных + оценщик качества
  • Четыре агента: анализатор данных + оптимизатор данных + оценщик качества + синтезатор данных

Варианты:

  • MARM: базовая совместная модель
  • MARM(rerank): версия с переранжированием
  • MARM(emb): версия на основе вложений

Детали реализации

  • Фреймворк оптимизации: GRPO (обобщённая оптимизация политики с подкреплением)
  • Базовая модель: Qwen/Qwen2.5-0.5B-Instruct (494M параметров)
  • Формат подсказки: Использует структурированные подсказки, процесс рассуждения находится внутри тегов <think>...</think>, окончательный ответ — внутри тегов <answer>...</answer>
  • Модель вложений: all-MiniLM-L6-v2 для вычисления семантического сходства

Результаты экспериментов

Основные результаты

Таблица 1: Результаты MARM на RewardBench, Math и GSM8K

Конфигурация с двумя агентами (анализатор данных + оптимизатор данных)

МетодChatChat HardSafetyReasoningMathGSM8K
Qwen2.5-0.5B-ins0.1930.5610.5610.5980.1390.08%
MARM0.1900.5570.5530.6590.14919.64%
MARM(rerank)0.1820.5450.5660.4230.13622.16%
MARM(emb)0.1980.5610.5360.5670.13122.33%

Ключевые выводы:

  • Точность GSM8K повысилась с 0.08% до 22.33%, улучшение примерно в 279 раз
  • Измерение рассуждений повысилось с 0.598 до 0.659 (базовая версия MARM)

Конфигурация с тремя агентами (+ оценщик качества)

МетодChatChat HardSafetyReasoningMathGSM8K
MARM(rerank)0.1900.5670.5380.3980.14322.87%
MARM(emb)0.1990.5320.5700.6370.14123.15%

Ключевые выводы:

  • Добавление оценщика качества дополнительно повышает GSM8K до 23.15%
  • Показатели, связанные с рассуждениями, продолжают улучшаться

Конфигурация с четырьмя агентами (+ синтезатор данных)

МетодChatChat HardSafetyReasoningMathGSM8K
MARM(rerank)0.1820.5680.5270.6100.19229.87%
MARM(emb)0.1790.5570.5730.5780.15227.60%

Лучшая производительность:

  • Точность GSM8K достигает 29.87% (MARM(rerank)), улучшение примерно в 374 раза по сравнению с базовой линией
  • Измерение Math достигает 0.192, значительно превосходя другие конфигурации

Абляционные исследования

Влияние количества агентов:

  1. Два агента → три агента:
    • Значительное улучшение точности рассуждений
    • RewardBench(rerank) повышается с 0.639 до 0.689
    • Оценщик качества вводит детальную обратную связь по оценке, лучше захватывая структурную связность и пошаговую логическую обоснованность
  2. Три агента → четыре агента:
    • Дальнейшее улучшение в задачах комбинированных рассуждений и фактичности
    • Синтезатор данных повышает обобщаемость модели путём смягчения локального переобучения
    • Улучшает семантическую полноту промежуточных цепочек рассуждений

Влияние стратегии агрегации:

  • Метод переранжирования: Постоянно превосходит другие варианты в задачах высокой точности рассуждений, явное моделирование предпочтений и попарное ранжирование способствуют более дифференцированному формированию вознаграждений
  • Метод вложений: Демонстрирует лучшую стабильность и масштабируемость в сложной многоагентной координации

Анализ примеров

Статья демонстрирует поведение модели через структурированные подсказки:

  • Процесс рассуждения: Показывает пошаговые рассуждения внутри тегов <think>, позволяя модели вознаграждения оценивать качество рассуждений
  • Окончательный ответ: Предоставляет окончательный результат внутри тегов <answer>, облегчая проверку корректности

Такой структурированный результат позволяет каждому агенту отдельно оценивать различные аспекты цепочки рассуждений.

Экспериментальные выводы

  1. Эффективность многоточечной оценки: Совместная структура достигает значительного улучшения в надёжности рассуждений и математической точности, не ущербляя качество диалога
  2. Преимущества модульности: Введение различных агентов приносит постепенные улучшения, подтверждая ценность разложенной оценки
  3. Сохранение стабильности: Производительность остаётся относительно стабильной в общих задачах диалога (Chat, Chat Hard), указывая на то, что механизм слияния вознаграждений эффективно балансирует многомерные цели
  4. Способность к обобщению: Введение синтезатора данных значительно повышает производительность модели в задачах, требующих комбинированных рассуждений

Связанные работы

1. Моделирование вознаграждений и RLHF

  • Классические методы: InstructGPT, GPT-4 и другие используют модели скалярного вознаграждения, но с ограниченной прозрачностью
  • Методы ансамбля: Смягчают чрезмерную оптимизацию посредством ансамблей моделей вознаграждений
  • Многоцелевые методы: Разлагают обратную связь на интерпретируемые измерения (полезность, честность, многословность)
  • Методы самоотражения: Critique-out-Loud выводит оценки и критику для повышения интерпретируемости

2. Многоагентность и структурированная оценка

  • AI Safety via Debate: Пионерски вводит механизм, где два модели дебатируют, а третья сторона оценивает
  • Параметры в стиле RLAIF: Агенты имитируют рецензентов или судей с разными точками зрения
  • ChatEval: Агрегирует несколько LLM в качестве судейской коллегии для дебатов и голосования

Отличие CRM:

  • Использует агентов не только при оценке, но и интегрирует их в моделирование вознаграждений
  • Экспертные агенты служат реальными участниками сигналов вознаграждения во время обучения
  • Обеспечивает многоточечную обратную связь с учётом структуры

3. Технологии детальной обратной связи

  • GRPO: Обобщённая оптимизация политики с подкреплением
  • SPIN: Обучение с подкреплением из структурированной обратной связи
  • RAFT: Выравнивание вознаграждений с деревом обратной связи

CRM дополняет эти технологии, сосредоточиваясь на разложении вознаграждений многоагентного сотрудничества.

Заключение и обсуждение

Основные выводы

  1. Смена парадигмы: MARM успешно переопределяет моделирование вознаграждений как процесс многоагентной оценки, а не единого чёрного ящика оракула
  2. Проверка производительности: Комплексные эксперименты на RewardBench, Math и GSM8K доказывают, что многоагентное сотрудничество значительно повышает точность рассуждений, математическую точность и общую стабильность, не ущербляя качество диалога
  3. Преимущества модульности: Введение ролей, таких как оценщик качества и синтезатор данных, дополнительно повышает согласованность и способность к обобщению, подчёркивая преимущества специализированного разложения и координируемой обратной связи в моделировании вознаграждений
  4. Практическая ценность: Обеспечивает масштабируемое и модульное проектирование, поддерживающее интеграцию новых оценщиков как подключаемых агентов, совместимое с существующими конвейерами RLHF

Ограничения

  1. Вычислительные затраты: Многоагентная оценка требует больше вычислительных ресурсов по сравнению с единой моделью вознаграждения, каждый агент требует независимой оценки
  2. Настройка весов: Коэффициенты совместных весов (α, β, γ, δ, η) требуют эмпирической настройки, отсутствует механизм автоматической оптимизации
  3. Проектирование агентов: Статья не детально описывает, как обучать каждого экспертного агента и как обеспечивать качество их оценок
  4. Проверка масштаба: Эксперименты проводились в основном на небольших моделях (494M параметров), производительность на крупномасштабных моделях неизвестна
  5. Компромисс в качестве диалога: Хотя статья утверждает сохранение качества диалога, данные таблицы показывают небольшое снижение производительности в измерениях Chat и Chat Hard

Будущие направления

  1. Автоматическое обучение весам: Разработка адаптивных механизмов для автоматического изучения и настройки совместных весов
  2. Методы обучения агентов: Систематизация процесса обучения экспертных агентов и механизмов обеспечения качества
  3. Проверка в крупном масштабе: Проверка эффективности и масштабируемости структуры на более крупномасштабных моделях
  4. Динамический выбор агентов: Динамический выбор и комбинирование релевантных агентов в зависимости от типа задачи
  5. Обобщение между областями: Расширение на дополнительные области и типы задач

Глубокая оценка

Преимущества

  1. Сильная инновационность:
    • Впервые систематизирует моделирование вознаграждений как процесс многоагентного сотрудничества
    • Предложенная архитектура распределённой оценки обладает оригинальностью
    • Концепция модульного проектирования передовая
  2. Прорыв в интерпретируемости:
    • Каждый агент обеспечивает понимаемую человеком оценку
    • Значительно повышает прозрачность по сравнению с чёрной коробкой моделей вознаграждений
    • Способствует диагностике и отладке поведения модели
  3. Достаточная экспериментальная проверка:
    • Систематическая оценка на нескольких эталонах
    • Включает абляционные исследования различных конфигураций агентов
    • Впечатляющее улучшение на GSM8K (279-374 раза)
  4. Высокая практическая ценность:
    • Совместимость со стандартными конвейерами RL
    • Предоставляет эталон RewardBench для содействия последующим исследованиям
    • Модульное проектирование облегчает расширение и настройку
  5. Прочная теоретическая база:
    • Чёткое определение проблемы
    • Строгая математическая формализация
    • Обоснованное проектирование метода

Недостатки

  1. Недостаточность деталей метода:
    • Конкретные методы обучения каждого экспертного агента не описаны подробно
    • Процесс настройки коэффициентов весов недостаточно описан
    • Конкретная реализация функции агрегации F(·) недостаточно ясна
  2. Ограничения экспериментов:
    • Проверка только на небольших моделях (494M параметров)
    • Отсутствие сравнения с большим количеством методов SOTA
    • Отсутствие отчётов о статистической значимости
    • Снижение качества диалога не проанализировано глубоко
  3. Отсутствие анализа эффективности:
    • Не сообщается время обучения и скорость вывода
    • Вычислительные затраты многоагентной оценки не количественно определены
    • Отсутствует анализ компромисса между эффективностью и производительностью
  4. Проблемы воспроизводимости:
    • Гиперпараметры недостаточно детально описаны
    • Недостаточно деталей реализации агентов
    • Не объявлено, будут ли код и модели открыты
  5. Недостаточная проверка обобщаемости:
    • Основной фокус на задачах математических рассуждений
    • Производительность в других областях (генерация кода, творческое письмо) неизвестна
    • Способность к кроссязычному общению не оценена
  6. Отсутствие теоретического анализа:
    • Отсутствует анализ сходимости
    • Не объясняется с теоретической точки зрения, почему многоагентный подход превосходит единую модель
    • Отсутствует теоретическое руководство по связи между количеством агентов и производительностью

Влияние

  1. Академический вклад:
    • Обеспечивает новое направление исследований для области RLHF
    • Многоагентное моделирование вознаграждений может стать новой парадигмой
    • Эталон RewardBench способствует стандартизации оценки
  2. Практическая ценность:
    • Повышает интерпретируемость выравнивания крупных моделей
    • Явное преимущество в задачах, требующих высокой точности, таких как математические рассуждения
    • Модульное проектирование облегчает промышленное применение
  3. Потенциальное влияние:
    • Может способствовать переходу моделирования вознаграждений от чёрного ящика к белому ящику
    • Обеспечивает инструменты для исследования безопасного и надёжного ИИ
    • Вдохновляет дополнительные исследования многоагентного сотрудничества
  4. Воспроизводимость:
    • Описание метода относительно ясно
    • Но отсутствие деталей реализации может повлиять на воспроизводимость
    • Ожидается открытие авторами кода и моделей

Применимые сценарии

Высокая применимость:

  1. Задачи математических рассуждений: Эксперименты доказывают значительный эффект на эталонах математики, таких как GSM8K
  2. Требования многомерной оценки: Приложения, требующие одновременного рассмотрения точности, безопасности, полезности и других измерений
  3. Требования высокой интерпретируемости: Области, такие как финансы и здравоохранение, требующие объяснения причин решений
  4. Задачи со структурированным результатом: Решение проблем, требующих пошагового рассуждения

Осторожное использование:

  1. Генерация диалога: Эксперименты показывают небольшое снижение качества диалога, требуется компромисс
  2. Творческие задачи: Чрезмерная структурированность может ограничить творчество
  3. Приложения в реальном времени: Многоагентная оценка может увеличить задержку
  4. Сценарии с ограниченными ресурсами: Большие вычислительные затраты

Требуется проверка:

  1. Крупномасштабные модели: Производительность на моделях с десятками миллиардов параметров неизвестна
  2. Кроссязычные сценарии: Применимость задач на неанглийских языках требует проверки
  3. Генерация длинного текста: Эффект на задачах длинного письма неясен
  4. Другие модальности: Расширяемость на изображения, аудио и другие многомодальные задачи

Список литературы

Ключевые ссылки:

  1. Основы RLHF:
    • Christiano et al. (2017) - Deep reinforcement learning from human preferences
    • Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
  2. Моделирование вознаграждений:
    • Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
    • Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
  3. Многоагентная оценка:
    • Irving et al. (2018) - AI safety via debate
    • Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
  4. Детальная обратная связь:
    • Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
    • Ankner et al. (2024) - Critique-out-loud reward models

Общая оценка: Данная работа предлагает инновационную и практичную структуру многоагентного совместного моделирования вознаграждений, вносящую важный вклад в повышение интерпретируемости RLHF и способности к рассуждениям. Несмотря на ограничения в масштабе экспериментов и недостаточность деталей реализации, основная идея имеет важную академическую ценность и перспективы применения. Ожидается, что авторы в последующих работах дополнят больше деталей реализации, расширят масштаб экспериментов и откроют соответствующий код и модели для содействия развитию сообщества.