2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic

О роли дисперсии предпочтений в оптимизации предпочтений

Основная информация

  • ID статьи: 2510.13022
  • Название: On the Role of Preference Variance in Preference Optimization
  • Авторы: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (Принстонский университет)
  • Классификация: cs.CL
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13022

Аннотация

Прямая оптимизация предпочтений (DPO) стала важным методом обучения на основе человеческих предпочтений для выравнивания больших языковых моделей (LLM). Однако сбор данных о человеческих предпочтениях является дорогостоящим и неэффективным, что побуждает исследователей искать способы снижения требований к аннотированию. В данной работе исследуется влияние дисперсии предпочтений (PVar) на эффективность обучения DPO, где PVar измеряет дисперсию предпочтений модели при сравнении пар ответов. Исследование предоставляет теоретические выводы, устанавливая верхнюю границу нормы градиента DPO для любого заданного запроса, контролируемую PVar этого запроса. Это означает, что запросы с низким PVar могут производить только небольшие обновления градиентов, что делает их менее ценными для обучения. Экспериментальные результаты показывают, что запросы с более высоким PVar превосходят случайный выбор или запросы с более низким PVar. Примечательно, что при использовании оригинальных человеческих аннотаций из набора данных UltraFeedback обучение только на топ-10% запросов с наивысшим PVar достигает лучшей производительности оценки, чем использование полного набора данных.

Исследовательский контекст и мотивация

1. Определение проблемы

Выравнивание больших языковых моделей является ключевым процессом обеспечения того, чтобы выходные данные модели соответствовали человеческим ценностям и ожиданиям. Традиционный метод RLHF (Reinforcement Learning from Human Feedback) требует сложного многоэтапного обучения, тогда как DPO служит более простой альтернативой, выполняя тонкую настройку непосредственно на данных пар предпочтений.

2. Основные вызовы

  • Высокая стоимость сбора данных: Аннотирование человеческих предпочтений требует значительных человеческих ресурсов и времени
  • Проблемы эффективности обучения: Не все обучающие образцы вносят одинаковый вклад в улучшение модели
  • Отсутствие теоретического руководства для выбора данных: Существующие методы не имеют теоретической основы для выявления высокоценных обучающих образцов

3. Исследовательская мотивация

Вдохновленные недавними исследованиями динамики обучения RLHF и паттернов дисперсии вознаграждений, авторы предположили, что запросы, генерирующие "похожие" ответы, создают слабые сигналы предпочтений, что может привести к неэффективному обучению DPO. Таким образом, данная работа направлена на поиск количественно измеримой характеристики запроса для определения его полезности в DPO.

Основные вклады

  1. Теоретический вклад: Установление теоретической связи между нормой градиента DPO и дисперсией предпочтений (PVar), доказывающее, что при нулевом PVar амплитуда градиента политики DPO обязательно мала
  2. Методологическое новшество: Предложение метода выбора данных на основе PVar с теоретемой моста от теоретических онлайн-величин к практическим оффлайн-оценкам
  3. Эмпирическая верификация: Проверка превосходства подмножеств данных с высоким PVar на нескольких моделях, наборах данных и бенчмарках
  4. Практическая ценность: Демонстрация того, что использование только топ-10% запросов с высоким PVar превосходит производительность полного набора данных, значительно снижая объем работ по аннотированию

Подробное описание методологии

Определение задачи

Для заданного запроса x и пары ответов (y_w, y_l), где y_w предпочтительнее y_l, цель DPO состоит в минимизации потерь отрицательного логарифма правдоподобия:

L_DPO(θ) = -E_(x,y_w,y_l)∼D [log σ(r̂_θ(x, y_w) - r̂_θ(x, y_l))]

где r̂_θ(x, y) = β(log π_θ(y|x) - log π_ref(y|x)) — неявная функция вознаграждения.

Определение дисперсии предпочтений (PVar)

Для фиксированного запроса x, PVar определяется как:

PVar_θ[x] = Var_(y_i,y_j∼π_θ(·|x)) [p_θ(x; y_i, y_j)]

где p_θ(x; y_i, y_j) = σ(r̂_θ(x, y_i) - r̂_θ(x, y_j)) — вероятность предпочтения.

Практический метод оценки

Использование метода Монте-Карло и внешней модели вознаграждения r_φ(x, y) для оценки PVar:

P̂Var[x] = 1/(n(n-1)) ∑_(i≠j) (p̂(x; y_i, y_j) - p̄)²

где p̂(x; y_i, y_j) = σ(r_φ(x, y_i) - r_φ(x, y_j)), p̄ = 1/2.

Теоретический анализ

Теорема 4.1 (PVar ограничивает градиент DPO)

Для параметра θ и входа x норма градиента потерь DPO имеет верхнюю границу:

‖∇_θL_DPO(π_θ, π_ref; x)‖ ≤ C(x, θ) · PVar_θ[x]^(1/3)

где C(x, θ) = 8β|y|γ(x; θ) — константа, зависящая от нормы якобиана модели и длины ответа.

Теорема 4.2 (Граница градиента от оффлайна к онлайну)

Связывает практическую оффлайн-оценку PVar с онлайн-динамикой обучения:

‖∇_θL_DPO(π_θ, π_ref; x)‖ ≤ C(x, θ) · (P̂Var_(φ,θ_0)[x] + Ξ(x; θ, φ))^(1/3)

где Ξ(x; θ, φ) содержит три члена ошибок: расхождение политики-вознаграждения, ошибку модели вознаграждения и смещение распределения политики.

Экспериментальная установка

Наборы данных

  • UltraFeedback: Крупномасштабный набор данных с 60K разнообразных запросов
  • Chatbot Arena Conversations: 33K реальных диалогов пользователей
  • HH-RLHF: 160K сравнений человеческих предпочтений от Anthropic
  • WebGPT: 20K пар вопрос-ответ, ориентированных на факты

Модели

  • Базовые модели: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
  • Модель вознаграждения: Skywork-Reward-Llama-3.1-8B-v0.2

Оценочные бенчмарки

  • AlpacaEval 2.0: 805 разнообразных запросов с использованием GPT-4-Turbo в качестве судьи
  • Arena-Hard: Задачи сложного логического вывода в сравнении с GPT-4-0314

Детали реализации

  • Оптимизатор: AdamW
  • Скорость обучения: 5×10⁻⁷ (косинусное расписание с предварительным прогревом 0.1)
  • Размер пакета: 32
  • DPO β: 0.1
  • Количество эпох обучения: 2

Экспериментальные результаты

Основные результаты

Анализ распределения PVar

Распределение PVar в двух наборах данных показывает широкий диапазон от близкого к нулю до максимума 0.25, указывая на значительные различия в интенсивности сигналов предпочтений между запросами.

Анализ потерь при обучении

  • Топ 50% (наивысший PVar): Потери снижаются быстрее всего, сходятся к наименьшему значению
  • Нижние 50% (наименьший PVar): Сходятся медленнее всего, конечные потери наибольшие
  • Случайные 50%: Производительность находится между двумя крайностями

Результаты сравнения производительности

В комбинации Llama-3.1-8B-Instruct + UltraFeedback:

  • AlpacaEval 2.0 LC: Топ 50% (36.2%) > Случайные (34.9%) > Нижние (34.8%)
  • Arena-Hard WR: Топ 50% (32.2%) > Случайные (31.0%) > Нижние (30.7%)

Проверка робастности

Сравнительные эксперименты с использованием моделей вознаграждения разных размеров (1B, 3B, 8B) показывают, что метод PVar постоянно превосходит базовый метод разницы вознаграждений, особенно при использовании меньших, менее надежных моделей вознаграждения.

Эксперименты по эффективному DPO

Ключевое открытие: Модель, обученная только на топ-10% человеческих аннотированных запросов с наивысшим PVar (AlpacaEval 2.0 WR: 37.0%), значительно превосходит пиковую производительность модели, обученной на полном наборе данных (36.5%), при сокращении объема данных более чем в 6 раз.

Абляционные исследования

Абляционные эксперименты с изменением параметра β (β = 0.01) подтверждают робастность результатов, стратегия выбора топ-запросов сохраняет лучшую производительность во всех комбинациях модель-набор данных.

Связанные работы

DPO и его варианты

DPO служит упрощенной альтернативой RLHF, исключая отдельный этап построения модели вознаграждения. Последующие варианты включают расширения, обрабатывающие ранжирования за пределами парных предпочтений, упрощенные цели без эталонной модели и другие.

Теоретический анализ RLHF

Недавние исследования сосредоточены на критическом влиянии дисперсии вознаграждения на цель RLHF, обнаруживая, что низкая дисперсия вознаграждения приводит к исчезновению градиентов. Данная работа расширяет эти выводы на область обучения предпочтениям.

Активное обучение

Связанные работы включают стратегии активного обучения при тонкой настройке LLM, методы выбора образцов на основе неопределенности и разнообразия, а также формулировки задач оффлайн-контекстного бандита, специально предназначенные для RLHF и DPO.

Заключение и обсуждение

Основные выводы

  1. Теоретические выводы: Установление прямой связи между PVar и амплитудой градиента DPO, где запросы с низким PVar производят меньшие обновления градиентов
  2. Эмпирическая верификация: Подмножества данных с высоким PVar постоянно превосходят случайный или низкий PVar выбор в различных условиях
  3. Практическая ценность: Только 10% высококачественных данных превосходят производительность полного набора данных, значительно повышая эффективность аннотирования

Ограничения

  1. Зависимость от внешней модели вознаграждения: Качество оценки PVar напрямую зависит от надежности внешней модели вознаграждения
  2. Контроль членов ошибок: Эффективность метода предполагает, что сигнал PVar не доминируется членами ошибок
  3. Область применения: Главным образом проверено на английских задачах, обобщаемость на другие языки и области требует дальнейшей проверки

Направления будущих исследований

  1. Исследование применения PVar в других алгоритмах оптимизации предпочтений
  2. Разработка методов динамической оценки PVar для адаптации к изменениям распределения во время обучения
  3. Расширение концепции PVar на мультимодальные и многоязычные условия

Глубокая оценка

Преимущества

  1. Прочная теоретическая основа: Предоставляет строгие математические доказательства, устанавливающие теоретическую связь между оффлайн-выбором и онлайн-динамикой
  2. Комплексный дизайн экспериментов: Охватывает несколько моделей, наборов данных и оценочных бенчмарков, результаты убедительны
  3. Значительная практическая ценность: Значительно снижает требования к аннотированию при повышении производительности, имеет важное прикладное значение
  4. Сильная робастность метода: Демонстрирует отличную производительность при руководстве моделей вознаграждения разных размеров

Недостатки

  1. Вычислительные издержки: Требует генерации нескольких ответов для каждого запроса для оценки PVar, увеличивая вычислительные затраты
  2. Теоретические предположения: Некоторый теоретический анализ опирается на предположения, такие как липшицева непрерывность, которые могут не полностью выполняться в практических приложениях
  3. Ограниченное сравнение базовых методов: Главным образом сравнивается с методом разницы вознаграждений, отсутствует сравнение с другими методами выбора данных

Влияние

  1. Академический вклад: Предоставляет новую теоретическую перспективу и практические инструменты для области оптимизации предпочтений
  2. Промышленное применение: Может значительно снизить стоимость аннотирования при выравнивании LLM, имеет важную коммерческую ценность
  3. Воспроизводимость: Предоставляет подробные детали реализации и настройки гиперпараметров, облегчая воспроизведение

Сценарии применения

  1. Среды с ограниченными ресурсами: Особенно подходит для сценариев с ограниченным бюджетом аннотирования
  2. Крупномасштабное развертывание: Может использоваться для оптимизации процессов выравнивания LLM промышленного уровня
  3. Исследовательский инструмент: Предоставляет новые аналитические инструменты для исследований обучения предпочтениям

Библиография

Данная работа ссылается на важные работы в областях оптимизации предпочтений, теоретического анализа RLHF и активного обучения, в частности на оригинальную статью DPO Rafailov et al. (2023) и теоретический анализ дисперсии вознаграждения Razin et al. (2025), которые обеспечили важную основу для данного исследования.


Общая оценка: Это высококачественная статья с хорошей интеграцией теории и практики, которая не только предоставляет глубокие теоретические выводы, но и демонстрирует значительную практическую ценность. Введение концепции PVar предоставляет новый аналитический инструмент для области оптимизации предпочтений и, вероятно, будет способствовать дальнейшему развитию этой области.