On the Role of Preference Variance in Preference Optimization
Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic
Sobre el Papel de la Varianza de Preferencia en la Optimización de Preferencias
La Optimización de Preferencias Directa (DPO) se ha convertido en un método importante para aprender de preferencias humanas y alinear modelos de lenguaje grandes (LLMs). Sin embargo, la recopilación de datos de preferencias humanas es costosa e ineficiente, lo que ha motivado a los investigadores a buscar formas de reducir los requisitos de anotación. Este artículo investiga el impacto de la varianza de preferencia (PVar) en la efectividad del entrenamiento con DPO, donde PVar mide la varianza de las preferencias del modelo al comparar pares de respuestas. El estudio proporciona información teórica al establecer un límite superior de la norma del gradiente de DPO para cualquier indicación dada, demostrando que está controlada por la PVar de esa indicación. Esto implica que las indicaciones con baja PVar solo pueden producir actualizaciones de gradiente pequeñas, lo que las hace de menor valor para el aprendizaje. Los resultados experimentales demuestran que las indicaciones con mayor PVar superan a las selecciones aleatorias o a las indicaciones con menor PVar. Notablemente, en experimentos utilizando anotaciones humanas originales del conjunto de datos UltraFeedback, el entrenamiento utilizando solo el 10% superior de indicaciones con mayor PVar logra un desempeño de evaluación mejor que el uso del conjunto de datos completo.
La alineación de modelos de lenguaje grande es un proceso crucial para garantizar que los resultados generados por el modelo se alineen con los valores y expectativas humanas. Mientras que el método tradicional de RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) requiere entrenamiento complejo en múltiples etapas, DPO sirve como una alternativa más simple, realizando ajuste fino directo en datos de pares de preferencias.
Alto costo de recopilación de datos: La anotación de preferencias humanas requiere recursos humanos y tiempo significativos
Problemas de eficiencia de entrenamiento: No todas las muestras de entrenamiento contribuyen igualmente a la mejora del modelo
Falta de orientación teórica en la selección de datos: Los métodos existentes carecen de fundamento teórico para identificar muestras de entrenamiento de alto valor
Inspirados por investigaciones recientes sobre dinámicas de entrenamiento de RLHF y patrones de varianza de recompensa, los autores hipotetizaron que las indicaciones que generan respuestas "similares" producen señales de preferencia débiles, lo que podría resultar en un entrenamiento ineficiente con DPO. Por lo tanto, este artículo tiene como objetivo encontrar una característica de indicación cuantificable para determinar su utilidad en DPO.
Contribución Teórica: Establece la conexión teórica entre la norma del gradiente de DPO y la varianza de preferencia (PVar), demostrando que cuando PVar es cero, la magnitud del gradiente de política de DPO es necesariamente pequeña
Innovación Metodológica: Propone un método de selección de datos basado en PVar, proporcionando un teorema puente desde cantidades teóricas en línea hasta estimaciones prácticas fuera de línea
Verificación Empírica: Valida la superioridad del desempeño de subconjuntos de datos con alta PVar en múltiples modelos, conjuntos de datos y puntos de referencia
Valor Práctico: Demuestra que el uso de solo el 10% superior de indicaciones con alta PVar puede superar el desempeño del conjunto de datos completo, reduciendo significativamente la carga de anotación
Dada una indicación x y un par de respuestas (yw, yl), donde yw es preferible a yl, el objetivo de DPO es minimizar la pérdida de log-verosimilitud negativa:
La distribución de PVar en dos conjuntos de datos muestra un rango amplio desde cerca de 0 hasta un máximo de 0.25, indicando diferencias significativas en la intensidad de las señales de preferencia entre indicaciones.
Los experimentos comparativos utilizando modelos de recompensa de diferentes tamaños (1B, 3B, 8B) demuestran que el método PVar supera consistentemente la línea base de brecha de recompensa, con ventajas particularmente evidentes al utilizar modelos de recompensa más pequeños y menos confiables.
Hallazgo Clave: El modelo entrenado utilizando solo el 10% superior de indicaciones anotadas por humanos con mayor PVar (AlpacaEval 2.0 WR: 37.0%) supera significativamente el desempeño máximo del modelo utilizando el conjunto de datos completo (36.5%), con una reducción de datos superior a 6 veces.
Los experimentos de ablación que modifican el parámetro β (β = 0.01) confirman la robustez de los resultados, manteniendo la estrategia de selección Top el mejor desempeño en todas las combinaciones de modelo-conjunto de datos.
DPO sirve como una alternativa simplificada a RLHF, eliminando la etapa independiente de modelado de recompensas. Las variantes posteriores incluyen extensiones que manejan clasificaciones más allá de preferencias pareadas, objetivos simplificados sin modelos de referencia, entre otros.
Investigaciones recientes se han enfocado en el impacto crítico de la varianza de recompensa en objetivos de RLHF, descubriendo que la varianza de recompensa baja conduce a desaparición de gradientes. Este artículo extiende estas perspectivas al campo del aprendizaje de preferencias.
El trabajo relacionado incluye estrategias de aprendizaje activo en ajuste fino de LLMs, métodos de selección de muestras basados en incertidumbre y diversidad, así como formulaciones de problemas de bandidos contextuales duales fuera de línea específicamente para RLHF y DPO.
Perspectiva Teórica: Establece la conexión directa entre PVar y la magnitud del gradiente de DPO, donde las indicaciones con baja PVar producen actualizaciones de gradiente más pequeñas
Verificación Empírica: Los subconjuntos de datos con alta PVar superan consistentemente a las selecciones aleatorias o con baja PVar en múltiples configuraciones
Valor Práctico: Solo el 10% de datos de alta calidad puede superar el desempeño del conjunto de datos completo, mejorando significativamente la eficiencia de anotación
Dependencia de Modelo de Recompensa Externo: La calidad de la estimación de PVar depende directamente de la confiabilidad del modelo de recompensa externo
Control de Términos de Error: La efectividad del método asume que la señal de PVar no es dominada por términos de error
Alcance de Aplicabilidad: Principalmente validado en tareas en inglés, la generalización a otros idiomas y dominios requiere verificación adicional
Fundamento Teórico Sólido: Proporciona pruebas matemáticas rigurosas, estableciendo conexión teórica entre selección fuera de línea y dinámica en línea
Diseño Experimental Integral: Abarca múltiples modelos, conjuntos de datos y puntos de referencia de evaluación, con resultados convincentes
Valor Práctico Significativo: Reduce sustancialmente los requisitos de anotación mientras mejora el desempeño, con importante valor de aplicación
Robustez del Método: Demuestra excelente desempeño bajo la guía de modelos de recompensa de diferentes tamaños
Costo Computacional: Requiere generar múltiples respuestas para cada indicación para estimar PVar, aumentando el costo computacional
Supuestos Teóricos: Algunos análisis teóricos dependen de supuestos como continuidad de Lipschitz, que podrían no satisfacerse completamente en aplicaciones prácticas
Comparación de Líneas Base Limitada: Principalmente compara con el método de brecha de recompensa, careciendo de comparación con otros métodos de selección de datos
Contribución Académica: Proporciona una nueva perspectiva teórica y herramientas prácticas para el campo de optimización de preferencias
Aplicación Industrial: Puede reducir significativamente los costos de anotación en la alineación de LLMs a nivel industrial, con importante valor comercial
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros, facilitando la reproducción
Este artículo cita trabajos importantes en los campos de optimización de preferencias, análisis teórico de RLHF y aprendizaje activo, siendo particularmente el artículo original de DPO de Rafailov et al. (2023) y el análisis teórico de varianza de recompensa de Razin et al. (2025) los que proporcionan fundamento importante para esta investigación.
Evaluación General: Este es un artículo de alta calidad que combina bien teoría y práctica, proporcionando no solo perspectivas teóricas profundas sino también valor práctico significativo. La introducción del concepto de PVar proporciona nuevas herramientas de análisis para el campo de optimización de preferencias, con potencial para impulsar el desarrollo futuro de este campo.