On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic
О роли дисперсии предпочтений в оптимизации предпочтений
Прямая оптимизация предпочтений (DPO) стала важным методом обучения на основе человеческих предпочтений для выравнивания больших языковых моделей (LLM). Однако сбор данных о человеческих предпочтениях является дорогостоящим и неэффективным, что побуждает исследователей искать способы снижения требований к аннотированию. В данной работе исследуется влияние дисперсии предпочтений (PVar) на эффективность обучения DPO, где PVar измеряет дисперсию предпочтений модели при сравнении пар ответов. Исследование предоставляет теоретические выводы, устанавливая верхнюю границу нормы градиента DPO для любого заданного запроса, контролируемую PVar этого запроса. Это означает, что запросы с низким PVar могут производить только небольшие обновления градиентов, что делает их менее ценными для обучения. Экспериментальные результаты показывают, что запросы с более высоким PVar превосходят случайный выбор или запросы с более низким PVar. Примечательно, что при использовании оригинальных человеческих аннотаций из набора данных UltraFeedback обучение только на топ-10% запросов с наивысшим PVar достигает лучшей производительности оценки, чем использование полного набора данных.
Выравнивание больших языковых моделей является ключевым процессом обеспечения того, чтобы выходные данные модели соответствовали человеческим ценностям и ожиданиям. Традиционный метод RLHF (Reinforcement Learning from Human Feedback) требует сложного многоэтапного обучения, тогда как DPO служит более простой альтернативой, выполняя тонкую настройку непосредственно на данных пар предпочтений.
Высокая стоимость сбора данных: Аннотирование человеческих предпочтений требует значительных человеческих ресурсов и времени
Проблемы эффективности обучения: Не все обучающие образцы вносят одинаковый вклад в улучшение модели
Отсутствие теоретического руководства для выбора данных: Существующие методы не имеют теоретической основы для выявления высокоценных обучающих образцов
Вдохновленные недавними исследованиями динамики обучения RLHF и паттернов дисперсии вознаграждений, авторы предположили, что запросы, генерирующие "похожие" ответы, создают слабые сигналы предпочтений, что может привести к неэффективному обучению DPO. Таким образом, данная работа направлена на поиск количественно измеримой характеристики запроса для определения его полезности в DPO.
Теоретический вклад: Установление теоретической связи между нормой градиента DPO и дисперсией предпочтений (PVar), доказывающее, что при нулевом PVar амплитуда градиента политики DPO обязательно мала
Методологическое новшество: Предложение метода выбора данных на основе PVar с теоретемой моста от теоретических онлайн-величин к практическим оффлайн-оценкам
Эмпирическая верификация: Проверка превосходства подмножеств данных с высоким PVar на нескольких моделях, наборах данных и бенчмарках
Практическая ценность: Демонстрация того, что использование только топ-10% запросов с высоким PVar превосходит производительность полного набора данных, значительно снижая объем работ по аннотированию
Для заданного запроса x и пары ответов (y_w, y_l), где y_w предпочтительнее y_l, цель DPO состоит в минимизации потерь отрицательного логарифма правдоподобия:
Распределение PVar в двух наборах данных показывает широкий диапазон от близкого к нулю до максимума 0.25, указывая на значительные различия в интенсивности сигналов предпочтений между запросами.
Сравнительные эксперименты с использованием моделей вознаграждения разных размеров (1B, 3B, 8B) показывают, что метод PVar постоянно превосходит базовый метод разницы вознаграждений, особенно при использовании меньших, менее надежных моделей вознаграждения.
Ключевое открытие: Модель, обученная только на топ-10% человеческих аннотированных запросов с наивысшим PVar (AlpacaEval 2.0 WR: 37.0%), значительно превосходит пиковую производительность модели, обученной на полном наборе данных (36.5%), при сокращении объема данных более чем в 6 раз.
DPO служит упрощенной альтернативой RLHF, исключая отдельный этап построения модели вознаграждения. Последующие варианты включают расширения, обрабатывающие ранжирования за пределами парных предпочтений, упрощенные цели без эталонной модели и другие.
Недавние исследования сосредоточены на критическом влиянии дисперсии вознаграждения на цель RLHF, обнаруживая, что низкая дисперсия вознаграждения приводит к исчезновению градиентов. Данная работа расширяет эти выводы на область обучения предпочтениям.
Связанные работы включают стратегии активного обучения при тонкой настройке LLM, методы выбора образцов на основе неопределенности и разнообразия, а также формулировки задач оффлайн-контекстного бандита, специально предназначенные для RLHF и DPO.
Теоретические выводы: Установление прямой связи между PVar и амплитудой градиента DPO, где запросы с низким PVar производят меньшие обновления градиентов
Эмпирическая верификация: Подмножества данных с высоким PVar постоянно превосходят случайный или низкий PVar выбор в различных условиях
Практическая ценность: Только 10% высококачественных данных превосходят производительность полного набора данных, значительно повышая эффективность аннотирования
Прочная теоретическая основа: Предоставляет строгие математические доказательства, устанавливающие теоретическую связь между оффлайн-выбором и онлайн-динамикой
Комплексный дизайн экспериментов: Охватывает несколько моделей, наборов данных и оценочных бенчмарков, результаты убедительны
Значительная практическая ценность: Значительно снижает требования к аннотированию при повышении производительности, имеет важное прикладное значение
Сильная робастность метода: Демонстрирует отличную производительность при руководстве моделей вознаграждения разных размеров
Вычислительные издержки: Требует генерации нескольких ответов для каждого запроса для оценки PVar, увеличивая вычислительные затраты
Теоретические предположения: Некоторый теоретический анализ опирается на предположения, такие как липшицева непрерывность, которые могут не полностью выполняться в практических приложениях
Ограниченное сравнение базовых методов: Главным образом сравнивается с методом разницы вознаграждений, отсутствует сравнение с другими методами выбора данных
Данная работа ссылается на важные работы в областях оптимизации предпочтений, теоретического анализа RLHF и активного обучения, в частности на оригинальную статью DPO Rafailov et al. (2023) и теоретический анализ дисперсии вознаграждения Razin et al. (2025), которые обеспечили важную основу для данного исследования.
Общая оценка: Это высококачественная статья с хорошей интеграцией теории и практики, которая не только предоставляет глубокие теоретические выводы, но и демонстрирует значительную практическую ценность. Введение концепции PVar предоставляет новый аналитический инструмент для области оптимизации предпочтений и, вероятно, будет способствовать дальнейшему развитию этой области.