2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.
Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
academic

Sobre el Papel de la Varianza de Preferencia en la Optimización de Preferencias

Información Básica

  • ID del Artículo: 2510.13022
  • Título: On the Role of Preference Variance in Preference Optimization
  • Autores: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (Universidad de Princeton)
  • Clasificación: cs.CL
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13022

Resumen

La Optimización de Preferencias Directa (DPO) se ha convertido en un método importante para aprender de preferencias humanas y alinear modelos de lenguaje grandes (LLMs). Sin embargo, la recopilación de datos de preferencias humanas es costosa e ineficiente, lo que ha motivado a los investigadores a buscar formas de reducir los requisitos de anotación. Este artículo investiga el impacto de la varianza de preferencia (PVar) en la efectividad del entrenamiento con DPO, donde PVar mide la varianza de las preferencias del modelo al comparar pares de respuestas. El estudio proporciona información teórica al establecer un límite superior de la norma del gradiente de DPO para cualquier indicación dada, demostrando que está controlada por la PVar de esa indicación. Esto implica que las indicaciones con baja PVar solo pueden producir actualizaciones de gradiente pequeñas, lo que las hace de menor valor para el aprendizaje. Los resultados experimentales demuestran que las indicaciones con mayor PVar superan a las selecciones aleatorias o a las indicaciones con menor PVar. Notablemente, en experimentos utilizando anotaciones humanas originales del conjunto de datos UltraFeedback, el entrenamiento utilizando solo el 10% superior de indicaciones con mayor PVar logra un desempeño de evaluación mejor que el uso del conjunto de datos completo.

Contexto de Investigación y Motivación

1. Definición del Problema

La alineación de modelos de lenguaje grande es un proceso crucial para garantizar que los resultados generados por el modelo se alineen con los valores y expectativas humanas. Mientras que el método tradicional de RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) requiere entrenamiento complejo en múltiples etapas, DPO sirve como una alternativa más simple, realizando ajuste fino directo en datos de pares de preferencias.

2. Desafíos Centrales

  • Alto costo de recopilación de datos: La anotación de preferencias humanas requiere recursos humanos y tiempo significativos
  • Problemas de eficiencia de entrenamiento: No todas las muestras de entrenamiento contribuyen igualmente a la mejora del modelo
  • Falta de orientación teórica en la selección de datos: Los métodos existentes carecen de fundamento teórico para identificar muestras de entrenamiento de alto valor

3. Motivación de la Investigación

Inspirados por investigaciones recientes sobre dinámicas de entrenamiento de RLHF y patrones de varianza de recompensa, los autores hipotetizaron que las indicaciones que generan respuestas "similares" producen señales de preferencia débiles, lo que podría resultar en un entrenamiento ineficiente con DPO. Por lo tanto, este artículo tiene como objetivo encontrar una característica de indicación cuantificable para determinar su utilidad en DPO.

Contribuciones Principales

  1. Contribución Teórica: Establece la conexión teórica entre la norma del gradiente de DPO y la varianza de preferencia (PVar), demostrando que cuando PVar es cero, la magnitud del gradiente de política de DPO es necesariamente pequeña
  2. Innovación Metodológica: Propone un método de selección de datos basado en PVar, proporcionando un teorema puente desde cantidades teóricas en línea hasta estimaciones prácticas fuera de línea
  3. Verificación Empírica: Valida la superioridad del desempeño de subconjuntos de datos con alta PVar en múltiples modelos, conjuntos de datos y puntos de referencia
  4. Valor Práctico: Demuestra que el uso de solo el 10% superior de indicaciones con alta PVar puede superar el desempeño del conjunto de datos completo, reduciendo significativamente la carga de anotación

Explicación Detallada del Método

Definición de la Tarea

Dada una indicación x y un par de respuestas (yw, yl), donde yw es preferible a yl, el objetivo de DPO es minimizar la pérdida de log-verosimilitud negativa:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

donde r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) es la función de recompensa implícita.

Definición de Varianza de Preferencia (PVar)

Para una indicación fija x, PVar se define como:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

donde pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) es la probabilidad de preferencia.

Método de Estimación Práctica

Se utiliza el método de Monte Carlo y un modelo de recompensa externo rφ(x, y) para estimar PVar:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

donde p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)), p̄ = 1/2.

Análisis Teórico

Teorema 4.1 (PVar Limita el Gradiente de DPO)

Para el parámetro θ y la entrada x, la norma del gradiente de pérdida de DPO tiene un límite superior:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

donde C(x, θ) = 8β|y|γ(x; θ) es una constante que depende de la norma jacobiana del modelo y la longitud de respuesta.

Teorema 4.2 (Límite de Gradiente Fuera de Línea a En Línea)

Conecta la estimación de PVar fuera de línea práctica con la dinámica de entrenamiento en línea:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

donde Ξ(x; θ, φ) contiene tres términos de error: divergencia política-recompensa, error del modelo de recompensa y cambio de distribución política.

Configuración Experimental

Conjuntos de Datos

  • UltraFeedback: Conjunto de datos a gran escala con 60K indicaciones diversas
  • Chatbot Arena Conversations: 33K conversaciones de usuarios reales
  • HH-RLHF: 160K comparaciones de preferencias humanas de Anthropic
  • WebGPT: 20K pares de preguntas y respuestas de redes densas en hechos

Modelos

  • Modelos Base: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
  • Modelo de Recompensa: Skywork-Reward-Llama-3.1-8B-v0.2

Puntos de Referencia de Evaluación

  • AlpacaEval 2.0: 805 indicaciones diversas, utilizando GPT-4-Turbo como evaluador
  • Arena-Hard: Tareas de razonamiento difícil, comparación con GPT-4-0314

Detalles de Implementación

  • Optimizador: AdamW
  • Tasa de aprendizaje: 5×10⁻⁷ (programación de coseno, relación de precalentamiento 0.1)
  • Tamaño de lote: 32
  • DPO β: 0.1
  • Épocas de entrenamiento: 2

Resultados Experimentales

Resultados Principales

Análisis de Distribución de PVar

La distribución de PVar en dos conjuntos de datos muestra un rango amplio desde cerca de 0 hasta un máximo de 0.25, indicando diferencias significativas en la intensidad de las señales de preferencia entre indicaciones.

Análisis de Pérdida de Entrenamiento

  • Top 50% (PVar más alta): La pérdida disminuye más rápidamente, convergiendo al valor más bajo
  • Bottom 50% (PVar más baja): Converge más lentamente, con la pérdida final más alta
  • Random 50%: El desempeño se sitúa entre los dos anteriores

Resultados de Comparación de Desempeño

En la combinación Llama-3.1-8B-Instruct + UltraFeedback:

  • AlpacaEval 2.0 LC: Top 50% (36.2%) > Random (34.9%) > Bottom (34.8%)
  • Arena-Hard WR: Top 50% (32.2%) > Random (31.0%) > Bottom (30.7%)

Verificación de Robustez

Los experimentos comparativos utilizando modelos de recompensa de diferentes tamaños (1B, 3B, 8B) demuestran que el método PVar supera consistentemente la línea base de brecha de recompensa, con ventajas particularmente evidentes al utilizar modelos de recompensa más pequeños y menos confiables.

Experimento de DPO Eficiente

Hallazgo Clave: El modelo entrenado utilizando solo el 10% superior de indicaciones anotadas por humanos con mayor PVar (AlpacaEval 2.0 WR: 37.0%) supera significativamente el desempeño máximo del modelo utilizando el conjunto de datos completo (36.5%), con una reducción de datos superior a 6 veces.

Experimentos de Ablación

Los experimentos de ablación que modifican el parámetro β (β = 0.01) confirman la robustez de los resultados, manteniendo la estrategia de selección Top el mejor desempeño en todas las combinaciones de modelo-conjunto de datos.

Trabajo Relacionado

DPO y sus Variantes

DPO sirve como una alternativa simplificada a RLHF, eliminando la etapa independiente de modelado de recompensas. Las variantes posteriores incluyen extensiones que manejan clasificaciones más allá de preferencias pareadas, objetivos simplificados sin modelos de referencia, entre otros.

Análisis Teórico de RLHF

Investigaciones recientes se han enfocado en el impacto crítico de la varianza de recompensa en objetivos de RLHF, descubriendo que la varianza de recompensa baja conduce a desaparición de gradientes. Este artículo extiende estas perspectivas al campo del aprendizaje de preferencias.

Aprendizaje Activo

El trabajo relacionado incluye estrategias de aprendizaje activo en ajuste fino de LLMs, métodos de selección de muestras basados en incertidumbre y diversidad, así como formulaciones de problemas de bandidos contextuales duales fuera de línea específicamente para RLHF y DPO.

Conclusiones y Discusión

Conclusiones Principales

  1. Perspectiva Teórica: Establece la conexión directa entre PVar y la magnitud del gradiente de DPO, donde las indicaciones con baja PVar producen actualizaciones de gradiente más pequeñas
  2. Verificación Empírica: Los subconjuntos de datos con alta PVar superan consistentemente a las selecciones aleatorias o con baja PVar en múltiples configuraciones
  3. Valor Práctico: Solo el 10% de datos de alta calidad puede superar el desempeño del conjunto de datos completo, mejorando significativamente la eficiencia de anotación

Limitaciones

  1. Dependencia de Modelo de Recompensa Externo: La calidad de la estimación de PVar depende directamente de la confiabilidad del modelo de recompensa externo
  2. Control de Términos de Error: La efectividad del método asume que la señal de PVar no es dominada por términos de error
  3. Alcance de Aplicabilidad: Principalmente validado en tareas en inglés, la generalización a otros idiomas y dominios requiere verificación adicional

Direcciones Futuras

  1. Explorar la aplicación de PVar en otros algoritmos de optimización de preferencias
  2. Investigar métodos de estimación dinámica de PVar para adaptarse a cambios de distribución durante el entrenamiento
  3. Extender el concepto de PVar a configuraciones multimodales y multilingües

Evaluación Profunda

Fortalezas

  1. Fundamento Teórico Sólido: Proporciona pruebas matemáticas rigurosas, estableciendo conexión teórica entre selección fuera de línea y dinámica en línea
  2. Diseño Experimental Integral: Abarca múltiples modelos, conjuntos de datos y puntos de referencia de evaluación, con resultados convincentes
  3. Valor Práctico Significativo: Reduce sustancialmente los requisitos de anotación mientras mejora el desempeño, con importante valor de aplicación
  4. Robustez del Método: Demuestra excelente desempeño bajo la guía de modelos de recompensa de diferentes tamaños

Deficiencias

  1. Costo Computacional: Requiere generar múltiples respuestas para cada indicación para estimar PVar, aumentando el costo computacional
  2. Supuestos Teóricos: Algunos análisis teóricos dependen de supuestos como continuidad de Lipschitz, que podrían no satisfacerse completamente en aplicaciones prácticas
  3. Comparación de Líneas Base Limitada: Principalmente compara con el método de brecha de recompensa, careciendo de comparación con otros métodos de selección de datos

Impacto

  1. Contribución Académica: Proporciona una nueva perspectiva teórica y herramientas prácticas para el campo de optimización de preferencias
  2. Aplicación Industrial: Puede reducir significativamente los costos de anotación en la alineación de LLMs a nivel industrial, con importante valor comercial
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros, facilitando la reproducción

Escenarios de Aplicabilidad

  1. Entornos con Recursos Limitados: Particularmente adecuado para escenarios con presupuesto de anotación limitado
  2. Despliegue a Gran Escala: Puede utilizarse para optimizar procesos de alineación de LLMs a nivel industrial
  3. Herramienta de Investigación: Proporciona nuevas herramientas de análisis para investigación en aprendizaje de preferencias

Referencias

Este artículo cita trabajos importantes en los campos de optimización de preferencias, análisis teórico de RLHF y aprendizaje activo, siendo particularmente el artículo original de DPO de Rafailov et al. (2023) y el análisis teórico de varianza de recompensa de Razin et al. (2025) los que proporcionan fundamento importante para esta investigación.


Evaluación General: Este es un artículo de alta calidad que combina bien teoría y práctica, proporcionando no solo perspectivas teóricas profundas sino también valor práctico significativo. La introducción del concepto de PVar proporciona nuevas herramientas de análisis para el campo de optimización de preferencias, con potencial para impulsar el desarrollo futuro de este campo.