Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic
Mejora del Razonamiento de LLM mediante Optimización de Preferencia de Ruta de Razonamiento No Antropomórfica
Los métodos actuales para mejorar las capacidades de razonamiento de los modelos de lenguaje grande frecuentemente introducen sesgos de entrenamiento hacia trayectorias de razonamiento humano. Particularmente en la optimización de preferencia paso a paso, la dependencia de anotaciones de pasos intermedios de humanos o modelos de alta capacidad limita la exploración de rutas de razonamiento alternativas no antropomórficas, restringiendo así el rendimiento alcanzable. A través de un estudio piloto a pequeña escala, los autores observaron que aproximadamente el 75% de los casos presentan el primer paso erróneo del modelo después del punto de confianza más bajo. Esto sugiere que guiar al modelo en el punto de confianza más bajo antes de que ocurra el error proporciona una supervisión más precisa que localizar el primer error explícito. Este artículo propone la Optimización de Preferencia de Ruta de Razonamiento Guiada por Confianza (CGPO), un método que utiliza señales de confianza para identificar puntos de máxima incertidumbre en el proceso de razonamiento del modelo y aplica guía de ruta de razonamiento no antropomórfica autogenerada para mitigar la desviación de trayectoria.
El problema central que enfrentan los métodos actuales de mejora de capacidades de razonamiento de modelos de lenguaje grande es:
Limitación por Sesgo Humano: Los métodos existentes dependen excesivamente de trayectorias de razonamiento humano o de modelos fuertes, limitando la exploración de rutas de razonamiento no antropomórficas
Localización Imprecisa de Errores: Los métodos tradicionales proporcionan supervisión localizando el primer error explícito, pero este frecuentemente no es el punto de intervención óptimo
Alto Costo de Anotación: La optimización de preferencia paso a paso requiere numerosas anotaciones humanas o de modelos fuertes, con costos de aplicación práctica prohibitivos
Los autores descubrieron mediante análisis que en aproximadamente el 75% de los casos de error, el primer paso erróneo del modelo ocurre después de su punto de confianza más bajo. Esta observación inspiró el enfoque de optimización de ruta de razonamiento basado en confianza del modelo en lugar de cognición humana.
Métodos como Step-DPO: Dependen de anotaciones humano o de modelos fuertes para localizar pasos erróneos, con alto costo y espacio de exploración limitado
RLHF Tradicional: Se enfoca principalmente en optimización de resultados, con atención insuficiente a pasos intermedios de trayectoria de razonamiento
Sesgo de Alineación Humana: Forzar al modelo a seguir patrones de razonamiento humano puede limitar su capacidad potencial
Propuesta del Método CGPO: Un método de optimización de preferencia de ruta de razonamiento guiado por confianza que no requiere dependencia de modelos más fuertes o supervisión humana
Exploración de Rutas de Razonamiento No Antropomórficas: Construcción de datos de aprendizaje de preferencia mediante señales de confianza del modelo, explorando rutas de razonamiento no antropomórficas
Validación Multidominio: Verificación de la efectividad del método en tareas de razonamiento matemático y generación de código, demostrando generalidad del método
Contribución de Código Abierto: Compromiso de publicar repositorio completo de código, conjuntos de datos y modelos entrenados, promoviendo reproducibilidad
Dado un problema de entrada x, el modelo de política inicial π₀ genera una secuencia de razonamiento y = (y₁, y₂, ..., yₜ), donde yₜ ∈ V (vocabulario). En el paso de decodificación temporal t, la confianza del modelo se define como:
Uso de umbral de confianza τ para segmentar pasos de razonamiento, donde τ se determina basándose en la distribución de todos los valores de confianza en el conjunto de datos
Los tokens con confianza inferior a τ actúan como puntos de división, reconstruyendo la secuencia y en secuencia de pasos s = (s₁, s₂, ..., sⱼ)
Segmentación de Pasos Impulsada por Confianza: Liberación de puntos de anclaje predefinidos, segmentación de pasos de razonamiento basada en incertidumbre intrínseca del modelo
Construcción de Preferencia Autosupervisada: Utilización de modelo de recompensa para seleccionar tokens óptimo/peor en punto más incierto, sin anotación humana
Exploración de Razonamiento No Antropomórfico: Permitir al modelo explorar rutas de razonamiento que no se alinean con hábitos cognitivos humanos pero pueden ser más efectivas
Perspectiva de Problema Profunda: Identificación del problema de sesgo humano en métodos existentes, proposición de enfoque de solución novedoso
Diseño de Método Ingenioso: Combinación de señales de confianza con optimización de preferencia, logro de optimización de ruta de razonamiento sin supervisión
Fundamento Teórico Insuficiente: Falta de explicación teórica profunda de por qué rutas de razonamiento no antropomórficas son más efectivas
Rango de Aplicabilidad Limitado: Verificación principalmente en tareas de razonamiento estructurado, aplicabilidad en tareas abiertas desconocida
Confiabilidad de Confianza del Modelo: La confianza del modelo en sí puede no ser suficientemente confiable, especialmente en datos fuera de distribución
Análisis de Costo Computacional: Falta de análisis detallado de cambio de costo computacional comparado con métodos baseline
El artículo cita trabajos importantes en campos relacionados como optimización de razonamiento, aprendizaje de preferencia y estimación de confianza, proporcionando fundamento teórico sólido para diseño de método. Particularmente digno de atención es análisis comparativo con métodos de optimización de preferencia directamente relacionados como Step-DPO y DPO.
Evaluación General: Este es un trabajo con contribuciones importantes en el campo de optimización de capacidades de razonamiento de modelos de lenguaje grande. Mediante introducción del concepto de rutas de razonamiento no antropomórficas y estrategia de optimización basada en confianza, proporciona nueva dirección de investigación para el campo. Aunque hay espacio para mejora en explicación teórica y rango de aplicabilidad, su valor práctico e innovación lo convierten en progreso importante en el campo.