2025-11-25T12:07:18.689911

On the Role of Preference Variance in Preference Optimization

Guo, Li, Qiu et al.

Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.

academic

Sobre el Papel de la Varianza de Preferencia en la Optimización de Preferencias

Información Básica

ID del Artículo: 2510.13022
Título: On the Role of Preference Variance in Preference Optimization
Autores: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang (Universidad de Princeton)
Clasificación: cs.CL
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13022

Resumen

La Optimización de Preferencias Directa (DPO) se ha convertido en un método importante para aprender de preferencias humanas y alinear modelos de lenguaje grandes (LLMs). Sin embargo, la recopilación de datos de preferencias humanas es costosa e ineficiente, lo que ha motivado a los investigadores a buscar formas de reducir los requisitos de anotación. Este artículo investiga el impacto de la varianza de preferencia (PVar) en la efectividad del entrenamiento con DPO, donde PVar mide la varianza de las preferencias del modelo al comparar pares de respuestas. El estudio proporciona información teórica al establecer un límite superior de la norma del gradiente de DPO para cualquier indicación dada, demostrando que está controlada por la PVar de esa indicación. Esto implica que las indicaciones con baja PVar solo pueden producir actualizaciones de gradiente pequeñas, lo que las hace de menor valor para el aprendizaje. Los resultados experimentales demuestran que las indicaciones con mayor PVar superan a las selecciones aleatorias o a las indicaciones con menor PVar. Notablemente, en experimentos utilizando anotaciones humanas originales del conjunto de datos UltraFeedback, el entrenamiento utilizando solo el 10% superior de indicaciones con mayor PVar logra un desempeño de evaluación mejor que el uso del conjunto de datos completo.

Contexto de Investigación y Motivación

1. Definición del Problema

La alineación de modelos de lenguaje grande es un proceso crucial para garantizar que los resultados generados por el modelo se alineen con los valores y expectativas humanas. Mientras que el método tradicional de RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) requiere entrenamiento complejo en múltiples etapas, DPO sirve como una alternativa más simple, realizando ajuste fino directo en datos de pares de preferencias.

2. Desafíos Centrales

Alto costo de recopilación de datos: La anotación de preferencias humanas requiere recursos humanos y tiempo significativos
Problemas de eficiencia de entrenamiento: No todas las muestras de entrenamiento contribuyen igualmente a la mejora del modelo
Falta de orientación teórica en la selección de datos: Los métodos existentes carecen de fundamento teórico para identificar muestras de entrenamiento de alto valor

3. Motivación de la Investigación

Inspirados por investigaciones recientes sobre dinámicas de entrenamiento de RLHF y patrones de varianza de recompensa, los autores hipotetizaron que las indicaciones que generan respuestas "similares" producen señales de preferencia débiles, lo que podría resultar en un entrenamiento ineficiente con DPO. Por lo tanto, este artículo tiene como objetivo encontrar una característica de indicación cuantificable para determinar su utilidad en DPO.

Contribuciones Principales

Contribución Teórica: Establece la conexión teórica entre la norma del gradiente de DPO y la varianza de preferencia (PVar), demostrando que cuando PVar es cero, la magnitud del gradiente de política de DPO es necesariamente pequeña
Innovación Metodológica: Propone un método de selección de datos basado en PVar, proporcionando un teorema puente desde cantidades teóricas en línea hasta estimaciones prácticas fuera de línea
Verificación Empírica: Valida la superioridad del desempeño de subconjuntos de datos con alta PVar en múltiples modelos, conjuntos de datos y puntos de referencia
Valor Práctico: Demuestra que el uso de solo el 10% superior de indicaciones con alta PVar puede superar el desempeño del conjunto de datos completo, reduciendo significativamente la carga de anotación

Explicación Detallada del Método

Definición de la Tarea

Dada una indicación x y un par de respuestas (yw, yl), donde yw es preferible a yl, el objetivo de DPO es minimizar la pérdida de log-verosimilitud negativa:

LDPO(θ) = -E(x,yw,yl)∼D [log σ(r̂θ(x, yw) - r̂θ(x, yl))]

donde r̂θ(x, y) = β(log πθ(y|x) - log πref(y|x)) es la función de recompensa implícita.

Definición de Varianza de Preferencia (PVar)

Para una indicación fija x, PVar se define como:

PVarθ[x] = Varyi,yj∼πθ(·|x) [pθ(x; yi, yj)]

donde pθ(x; yi, yj) = σ(r̂θ(x, yi) - r̂θ(x, yj)) es la probabilidad de preferencia.

Método de Estimación Práctica

Se utiliza el método de Monte Carlo y un modelo de recompensa externo rφ(x, y) para estimar PVar:

P̂Var[x] = 1/(n(n-1)) ∑i≠j (p̂(x; yi, yj) - p̄)²

donde p̂(x; yi, yj) = σ(rφ(x, yi) - rφ(x, yj)), p̄ = 1/2.

Análisis Teórico

Teorema 4.1 (PVar Limita el Gradiente de DPO)

Para el parámetro θ y la entrada x, la norma del gradiente de pérdida de DPO tiene un límite superior:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · PVarθ[x]^(1/3)

donde C(x, θ) = 8β|y|γ(x; θ) es una constante que depende de la norma jacobiana del modelo y la longitud de respuesta.

Teorema 4.2 (Límite de Gradiente Fuera de Línea a En Línea)

Conecta la estimación de PVar fuera de línea práctica con la dinámica de entrenamiento en línea:

‖∇θLDPO(πθ, πref; x)‖ ≤ C(x, θ) · (P̂Varφ,θ0[x] + Ξ(x; θ, φ))^(1/3)

donde Ξ(x; θ, φ) contiene tres términos de error: divergencia política-recompensa, error del modelo de recompensa y cambio de distribución política.

Configuración Experimental

Conjuntos de Datos

UltraFeedback: Conjunto de datos a gran escala con 60K indicaciones diversas
Chatbot Arena Conversations: 33K conversaciones de usuarios reales
HH-RLHF: 160K comparaciones de preferencias humanas de Anthropic
WebGPT: 20K pares de preguntas y respuestas de redes densas en hechos

Modelos

Modelos Base: Mistral-7B-Instruct-v0.2, Llama-3.1-8B-Instruct
Modelo de Recompensa: Skywork-Reward-Llama-3.1-8B-v0.2

Puntos de Referencia de Evaluación

AlpacaEval 2.0: 805 indicaciones diversas, utilizando GPT-4-Turbo como evaluador
Arena-Hard: Tareas de razonamiento difícil, comparación con GPT-4-0314

Detalles de Implementación

Optimizador: AdamW
Tasa de aprendizaje: 5×10⁻⁷ (programación de coseno, relación de precalentamiento 0.1)
Tamaño de lote: 32
DPO β: 0.1
Épocas de entrenamiento: 2

Resultados Experimentales

Resultados Principales

Análisis de Distribución de PVar

La distribución de PVar en dos conjuntos de datos muestra un rango amplio desde cerca de 0 hasta un máximo de 0.25, indicando diferencias significativas en la intensidad de las señales de preferencia entre indicaciones.

Análisis de Pérdida de Entrenamiento

Top 50% (PVar más alta): La pérdida disminuye más rápidamente, convergiendo al valor más bajo
Bottom 50% (PVar más baja): Converge más lentamente, con la pérdida final más alta
Random 50%: El desempeño se sitúa entre los dos anteriores

Resultados de Comparación de Desempeño

En la combinación Llama-3.1-8B-Instruct + UltraFeedback:

AlpacaEval 2.0 LC: Top 50% (36.2%) > Random (34.9%) > Bottom (34.8%)
Arena-Hard WR: Top 50% (32.2%) > Random (31.0%) > Bottom (30.7%)

Verificación de Robustez

Los experimentos comparativos utilizando modelos de recompensa de diferentes tamaños (1B, 3B, 8B) demuestran que el método PVar supera consistentemente la línea base de brecha de recompensa, con ventajas particularmente evidentes al utilizar modelos de recompensa más pequeños y menos confiables.

Experimento de DPO Eficiente

Hallazgo Clave: El modelo entrenado utilizando solo el 10% superior de indicaciones anotadas por humanos con mayor PVar (AlpacaEval 2.0 WR: 37.0%) supera significativamente el desempeño máximo del modelo utilizando el conjunto de datos completo (36.5%), con una reducción de datos superior a 6 veces.

Experimentos de Ablación

Los experimentos de ablación que modifican el parámetro β (β = 0.01) confirman la robustez de los resultados, manteniendo la estrategia de selección Top el mejor desempeño en todas las combinaciones de modelo-conjunto de datos.

Trabajo Relacionado

DPO y sus Variantes

DPO sirve como una alternativa simplificada a RLHF, eliminando la etapa independiente de modelado de recompensas. Las variantes posteriores incluyen extensiones que manejan clasificaciones más allá de preferencias pareadas, objetivos simplificados sin modelos de referencia, entre otros.

Análisis Teórico de RLHF

Investigaciones recientes se han enfocado en el impacto crítico de la varianza de recompensa en objetivos de RLHF, descubriendo que la varianza de recompensa baja conduce a desaparición de gradientes. Este artículo extiende estas perspectivas al campo del aprendizaje de preferencias.

Aprendizaje Activo

El trabajo relacionado incluye estrategias de aprendizaje activo en ajuste fino de LLMs, métodos de selección de muestras basados en incertidumbre y diversidad, así como formulaciones de problemas de bandidos contextuales duales fuera de línea específicamente para RLHF y DPO.

Conclusiones y Discusión

Conclusiones Principales

Perspectiva Teórica: Establece la conexión directa entre PVar y la magnitud del gradiente de DPO, donde las indicaciones con baja PVar producen actualizaciones de gradiente más pequeñas
Verificación Empírica: Los subconjuntos de datos con alta PVar superan consistentemente a las selecciones aleatorias o con baja PVar en múltiples configuraciones
Valor Práctico: Solo el 10% de datos de alta calidad puede superar el desempeño del conjunto de datos completo, mejorando significativamente la eficiencia de anotación

Limitaciones

Dependencia de Modelo de Recompensa Externo: La calidad de la estimación de PVar depende directamente de la confiabilidad del modelo de recompensa externo
Control de Términos de Error: La efectividad del método asume que la señal de PVar no es dominada por términos de error
Alcance de Aplicabilidad: Principalmente validado en tareas en inglés, la generalización a otros idiomas y dominios requiere verificación adicional

Direcciones Futuras

Explorar la aplicación de PVar en otros algoritmos de optimización de preferencias
Investigar métodos de estimación dinámica de PVar para adaptarse a cambios de distribución durante el entrenamiento
Extender el concepto de PVar a configuraciones multimodales y multilingües

Evaluación Profunda

Fortalezas

Fundamento Teórico Sólido: Proporciona pruebas matemáticas rigurosas, estableciendo conexión teórica entre selección fuera de línea y dinámica en línea
Diseño Experimental Integral: Abarca múltiples modelos, conjuntos de datos y puntos de referencia de evaluación, con resultados convincentes
Valor Práctico Significativo: Reduce sustancialmente los requisitos de anotación mientras mejora el desempeño, con importante valor de aplicación
Robustez del Método: Demuestra excelente desempeño bajo la guía de modelos de recompensa de diferentes tamaños

Deficiencias

Costo Computacional: Requiere generar múltiples respuestas para cada indicación para estimar PVar, aumentando el costo computacional
Supuestos Teóricos: Algunos análisis teóricos dependen de supuestos como continuidad de Lipschitz, que podrían no satisfacerse completamente en aplicaciones prácticas
Comparación de Líneas Base Limitada: Principalmente compara con el método de brecha de recompensa, careciendo de comparación con otros métodos de selección de datos

Impacto

Contribución Académica: Proporciona una nueva perspectiva teórica y herramientas prácticas para el campo de optimización de preferencias
Aplicación Industrial: Puede reducir significativamente los costos de anotación en la alineación de LLMs a nivel industrial, con importante valor comercial
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros, facilitando la reproducción

Escenarios de Aplicabilidad

Entornos con Recursos Limitados: Particularmente adecuado para escenarios con presupuesto de anotación limitado
Despliegue a Gran Escala: Puede utilizarse para optimizar procesos de alineación de LLMs a nivel industrial
Herramienta de Investigación: Proporciona nuevas herramientas de análisis para investigación en aprendizaje de preferencias

Referencias

Este artículo cita trabajos importantes en los campos de optimización de preferencias, análisis teórico de RLHF y aprendizaje activo, siendo particularmente el artículo original de DPO de Rafailov et al. (2023) y el análisis teórico de varianza de recompensa de Razin et al. (2025) los que proporcionan fundamento importante para esta investigación.

Evaluación General: Este es un artículo de alta calidad que combina bien teoría y práctica, proporcionando no solo perspectivas teóricas profundas sino también valor práctico significativo. La introducción del concepto de PVar proporciona nuevas herramientas de análisis para el campo de optimización de preferencias, con potencial para impulsar el desarrollo futuro de este campo.