2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.

Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.

academic

Mejora del Razonamiento de LLM mediante Optimización de Preferencia de Ruta de Razonamiento No Antropomórfica

Información Básica

ID del Artículo: 2510.11104
Título: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Autores: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
Clasificación: cs.CL cs.AI
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11104

Resumen

Los métodos actuales para mejorar las capacidades de razonamiento de los modelos de lenguaje grande frecuentemente introducen sesgos de entrenamiento hacia trayectorias de razonamiento humano. Particularmente en la optimización de preferencia paso a paso, la dependencia de anotaciones de pasos intermedios de humanos o modelos de alta capacidad limita la exploración de rutas de razonamiento alternativas no antropomórficas, restringiendo así el rendimiento alcanzable. A través de un estudio piloto a pequeña escala, los autores observaron que aproximadamente el 75% de los casos presentan el primer paso erróneo del modelo después del punto de confianza más bajo. Esto sugiere que guiar al modelo en el punto de confianza más bajo antes de que ocurra el error proporciona una supervisión más precisa que localizar el primer error explícito. Este artículo propone la Optimización de Preferencia de Ruta de Razonamiento Guiada por Confianza (CGPO), un método que utiliza señales de confianza para identificar puntos de máxima incertidumbre en el proceso de razonamiento del modelo y aplica guía de ruta de razonamiento no antropomórfica autogenerada para mitigar la desviación de trayectoria.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que enfrentan los métodos actuales de mejora de capacidades de razonamiento de modelos de lenguaje grande es:

Limitación por Sesgo Humano: Los métodos existentes dependen excesivamente de trayectorias de razonamiento humano o de modelos fuertes, limitando la exploración de rutas de razonamiento no antropomórficas
Localización Imprecisa de Errores: Los métodos tradicionales proporcionan supervisión localizando el primer error explícito, pero este frecuentemente no es el punto de intervención óptimo
Alto Costo de Anotación: La optimización de preferencia paso a paso requiere numerosas anotaciones humanas o de modelos fuertes, con costos de aplicación práctica prohibitivos

Motivación de la Investigación

Los autores descubrieron mediante análisis que en aproximadamente el 75% de los casos de error, el primer paso erróneo del modelo ocurre después de su punto de confianza más bajo. Esta observación inspiró el enfoque de optimización de ruta de razonamiento basado en confianza del modelo en lugar de cognición humana.

Limitaciones de Métodos Existentes

Métodos como Step-DPO: Dependen de anotaciones humano o de modelos fuertes para localizar pasos erróneos, con alto costo y espacio de exploración limitado
RLHF Tradicional: Se enfoca principalmente en optimización de resultados, con atención insuficiente a pasos intermedios de trayectoria de razonamiento
Sesgo de Alineación Humana: Forzar al modelo a seguir patrones de razonamiento humano puede limitar su capacidad potencial

Contribuciones Principales

Propuesta del Método CGPO: Un método de optimización de preferencia de ruta de razonamiento guiado por confianza que no requiere dependencia de modelos más fuertes o supervisión humana
Exploración de Rutas de Razonamiento No Antropomórficas: Construcción de datos de aprendizaje de preferencia mediante señales de confianza del modelo, explorando rutas de razonamiento no antropomórficas
Validación Multidominio: Verificación de la efectividad del método en tareas de razonamiento matemático y generación de código, demostrando generalidad del método
Contribución de Código Abierto: Compromiso de publicar repositorio completo de código, conjuntos de datos y modelos entrenados, promoviendo reproducibilidad

Explicación Detallada del Método

Definición de Tarea

Dado un problema de entrada x, el modelo de política inicial π₀ genera una secuencia de razonamiento y = (y₁, y₂, ..., yₜ), donde yₜ ∈ V (vocabulario). En el paso de decodificación temporal t, la confianza del modelo se define como:

cₜ ≜ p(yₜ|π₀, x, y<t)

Arquitectura del Modelo

1. Definición de Pasos de Razonamiento

Uso de umbral de confianza τ para segmentar pasos de razonamiento, donde τ se determina basándose en la distribución de todos los valores de confianza en el conjunto de datos
Los tokens con confianza inferior a τ actúan como puntos de división, reconstruyendo la secuencia y en secuencia de pasos s = (s₁, s₂, ..., sⱼ)

2. Proceso de Construcción de Pares de Preferencia

Determinación de Trayectoria Inicial:

Selección de la secuencia anterior al paso más incierto como trayectoria de razonamiento inicial compartida sᵢₙᵢₜ

Construcción de Pares Chosen/Rejected:

Introducción de modelo de recompensa R para evaluar tokens candidatos Top-k dado (x, sᵢₙᵢₜ)
Selección de tokens de puntuación más alta y más baja como tokens iniciales de rama chosen y rejected respectivamente
π₀ continúa muestreo hasta encontrar o token con confianza inferior a τ

3. Objetivo de Entrenamiento

Adopción de función objetivo estilo DPO:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

donde:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Puntos de Innovación Técnica

Segmentación de Pasos Impulsada por Confianza: Liberación de puntos de anclaje predefinidos, segmentación de pasos de razonamiento basada en incertidumbre intrínseca del modelo
Construcción de Preferencia Autosupervisada: Utilización de modelo de recompensa para seleccionar tokens óptimo/peor en punto más incierto, sin anotación humana
Exploración de Razonamiento No Antropomórfico: Permitir al modelo explorar rutas de razonamiento que no se alinean con hábitos cognitivos humanos pero pueden ser más efectivas

Configuración Experimental

Conjuntos de Datos

Tareas de Razonamiento Matemático:

Datos de entrenamiento: 10,795 indicaciones del conjunto de datos Step-DPO-10k
Conjuntos de datos de evaluación: GSM8K, MATH, Omni-Math
Modelos: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT, etc.

Tareas de Generación de Código:

Datos de entrenamiento: 2,641 muestras del conjunto de entrenamiento LeetCodeDataset
Conjuntos de datos de evaluación: LiveCodeBench, LeetCodeDataset
Modelo: Deepseek-Coder-7B-Instruct-v1.5

Métricas de Evaluación

Razonamiento Matemático: Precisión de coincidencia exacta (respuesta final coincide completamente con respuesta estándar)
Generación de Código: Tasa de aprobación (código generado pasa todos los casos de prueba en entorno sandbox)

Métodos de Comparación

Modelo Base: Modelo base original
Step-DPO: Método de optimización de preferencia paso a paso basado en anotación humana

Detalles de Implementación

Umbral de confianza: percentil 2 de distribución de confianza del conjunto de datos
Candidatos Top-k: k=8
Configuración de entrenamiento: β=0.3-0.4, tasa de aprendizaje 5e-7, tamaño de lote 128, entrenamiento 4-8 épocas

Resultados Experimentales

Resultados Principales

Rendimiento en Tareas de Razonamiento Matemático:

GSM8K: CGPO supera a Step-DPO en todos los modelos, con mejora más significativa en MetaMath-Llama-8B (+4.3% vs base)
MATH: Supera a Step-DPO en MetaMath-Llama-8B y Qwen2-7B-SFT
Hallazgo Clave: Incluso cuando Step-DPO muestra degradación de rendimiento (como en MetaMath-Mistral-7B), CGPO aún proporciona mejora

Rendimiento en Tareas de Generación de Código:

LiveCodeBench: Mejora de 2.1% (19.3% → 19.7%)
LeetCodeDataset: Mejora de 4.0% (12.7% → 13.2%)

Experimentos de Ablación

1. Análisis de Escalabilidad

Verificación de escalabilidad del método aumentando escala de datos de entrenamiento (10k → 80k):

MetaMath-Llama-8B en GSM8K mejora de 85.3% a 86.4%
Qwen2-7B-SFT en GSM8K mejora de 88.6% a 89.5%
Indica que CGPO posee buena escalabilidad de datos

2. Impacto del Modelo de Recompensa

Comparación de dos modelos de recompensa ASPRM y Math-Shepherd:

ASPRM muestra mejor rendimiento, pero incluso con Math-Shepherd más débil se observa mejora
Demuestra importancia de evaluación fine-grained a nivel de token

3. Análisis de Umbral de Confianza

Aumento de umbral generalmente trae mejora de rendimiento, pero demasiado alto resulta en secuencias demasiado cortas
Diferentes modelos tienen umbrales óptimos diferentes, requiriendo ajuste específico

Verificación de Capacidad de Generalización

Rendimiento en Omni-Math (problemas de competencia matemática olímpica):

CGPO supera a Step-DPO en 4/5 modelos
Demuestra buena capacidad de generalización fuera de distribución del método

Análisis de Casos

Verificación de hipótesis central mediante análisis de 200 muestras de error:

MetaMath-Llama-8B: 78% de errores ocurren después del punto de confianza más bajo
Qwen2-7B-SFT: 72% de errores ocurren después del punto de confianza más bajo
Respalda concepto de diseño de intervención temprana basada en confianza

Trabajo Relacionado

Métodos de Optimización de Preferencia

PPO: Alta complejidad pero rendimiento estable
DPO/SimPO: Optimización directa de señales de preferencia pareada, menor costo computacional
Contribución del Artículo: Extensión de optimización de preferencia a pasos intermedios de ruta de razonamiento

Métodos Conscientes de Confianza

Método de Probabilidad Directa: Uso de probabilidad del token predicho (adoptado en este artículo)
Método de Consistencia Generativa: Medición de confianza mediante consistencia de respuesta
Innovación del Artículo: Uso de confianza para segmentación de pasos de ruta de razonamiento y optimización

Optimización de Trayectoria de Razonamiento

Ajuste Fino Supervisado: Alineación directa a secuencias anotadas
RLHF: Optimización hacia trayectorias con puntuaciones más altas
Ventaja del Artículo: Sin necesidad de anotación de modelo fuerte, exploración de rutas de razonamiento no antropomórficas

Conclusiones y Discusión

Conclusiones Principales

Valor de Rutas de Razonamiento No Antropomórficas: Los modelos pueden lograr mejor rendimiento explorando rutas de razonamiento no antropomórficas
Efectividad de Señales de Confianza: La confianza del modelo es indicador efectivo para identificar puntos de dificultad de razonamiento
Potencial de Aprendizaje Autosupervisado: Mejora efectiva de capacidades de razonamiento sin anotación de modelo fuerte o humana

Limitaciones

Restricción de Recursos Computacionales: Incapacidad de verificar escalabilidad en modelos más grandes (como 70B)
Limitación de Dominio: Verificación principalmente en dominios matemático y de código, aplicabilidad en razonamiento de sentido común pendiente
Dependencia de Modelo de Recompensa: Aún requiere modelo de recompensa fine-grained específico de dominio

Direcciones Futuras

Verificación a Mayor Escala: Validación de efectividad del método en modelos más grandes y más dominios
Modelo de Recompensa Universal: Desarrollo de modelo de evaluación fine-grained universal entre dominios
Análisis Teórico: Comprensión profunda de fundamentos teóricos de por qué rutas de razonamiento no antropomórficas son más efectivas

Evaluación Profunda

Fortalezas

Perspectiva de Problema Profunda: Identificación del problema de sesgo humano en métodos existentes, proposición de enfoque de solución novedoso
Diseño de Método Ingenioso: Combinación de señales de confianza con optimización de preferencia, logro de optimización de ruta de razonamiento sin supervisión
Verificación Experimental Completa: Verificación experimental multimodelo, multitarea y multiángulo, resultados altamente convincentes
Alto Valor Práctico: Reducción de dependencia de anotación de modelo fuerte, mejora de usabilidad práctica del método

Insuficiencias

Fundamento Teórico Insuficiente: Falta de explicación teórica profunda de por qué rutas de razonamiento no antropomórficas son más efectivas
Rango de Aplicabilidad Limitado: Verificación principalmente en tareas de razonamiento estructurado, aplicabilidad en tareas abiertas desconocida
Confiabilidad de Confianza del Modelo: La confianza del modelo en sí puede no ser suficientemente confiable, especialmente en datos fuera de distribución
Análisis de Costo Computacional: Falta de análisis detallado de cambio de costo computacional comparado con métodos baseline

Impacto

Valor Académico: Proporciona nueva dirección de investigación para optimización de capacidades de razonamiento, puede inspirar más trabajo relacionado
Valor Práctico: Mejora de rendimiento mientras se reduce costo de anotación, posee importante valor de aplicación de ingeniería
Reproducibilidad: Compromiso de código abierto completo y datos, favorable para promoción y mejora del método

Escenarios Aplicables

Entornos con Recursos Limitados: Mejora de capacidades de razonamiento cuando no se puede obtener anotación de modelo fuerte
Tareas de Razonamiento Estructurado: Matemática, código, razonamiento lógico y otras tareas con estándares de evaluación claros
Mejora Autónoma de Modelo: Como componente técnico para aprendizaje continuo y autooptimización de modelo

Referencias Bibliográficas

El artículo cita trabajos importantes en campos relacionados como optimización de razonamiento, aprendizaje de preferencia y estimación de confianza, proporcionando fundamento teórico sólido para diseño de método. Particularmente digno de atención es análisis comparativo con métodos de optimización de preferencia directamente relacionados como Step-DPO y DPO.

Evaluación General: Este es un trabajo con contribuciones importantes en el campo de optimización de capacidades de razonamiento de modelos de lenguaje grande. Mediante introducción del concepto de rutas de razonamiento no antropomórficas y estrategia de optimización basada en confianza, proporciona nueva dirección de investigación para el campo. Aunque hay espacio para mejora en explicación teórica y rango de aplicabilidad, su valor práctico e innovación lo convierten en progreso importante en el campo.