Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic
Amélioration du Raisonnement des LLM via l'Optimisation des Préférences de Chemins de Raisonnement Non-Humains
Les méthodes actuelles d'amélioration des capacités de raisonnement des grands modèles de langage introduisent souvent des biais d'entraînement liés aux trajectoires de raisonnement humain. En particulier, dans l'optimisation des préférences par étapes, la dépendance aux annotations des étapes intermédiaires par des humains ou des modèles hautement performants limite l'exploration des chemins de raisonnement alternatifs non-humains, ce qui restreint les performances réalisables. Par le biais d'une étude pilote à petite échelle, les auteurs ont observé que dans environ 75 % des cas, la première étape erronée du modèle survient après le point de confiance minimale. Cela suggère que guider le modèle au point de confiance minimale avant l'erreur fournit une supervision plus précise que la localisation de la première erreur explicite. Cet article propose l'optimisation des préférences de chemins de raisonnement guidée par la confiance (CGPO), une méthode qui exploite les signaux de confiance pour identifier les points d'incertitude maximale dans le processus de raisonnement du modèle et applique des chemins de raisonnement non-humains auto-générés pour atténuer la dérive de trajectoire.
Le problème fondamental auquel font face les méthodes actuelles d'amélioration des capacités de raisonnement des grands modèles de langage est :
Limitation du biais humain : Les méthodes existantes dépendent excessivement des trajectoires de raisonnement humaines ou de modèles puissants, limitant l'exploration des chemins de raisonnement non-humains
Localisation inexacte des erreurs : Les méthodes traditionnelles supervisent en localisant la première erreur explicite, mais ce n'est souvent pas le point d'intervention optimal
Coût d'annotation élevé : L'optimisation des préférences par étapes nécessite d'importantes annotations humaines ou de modèles puissants, avec un coût d'application pratique très élevé
Les auteurs ont découvert par analyse que dans environ 75 % des cas d'erreur, la première étape erronée du modèle survient après son point de confiance minimale. Cette observation a inspiré l'idée d'optimiser les chemins de raisonnement basée sur la confiance du modèle plutôt que sur la cognition humaine.
Méthodes comme Step-DPO : Dépendent des annotations humaines ou de modèles puissants pour localiser les étapes erronées, avec un coût élevé et un espace d'exploration limité
RLHF traditionnel : Se concentre principalement sur l'optimisation des résultats, avec une attention insuffisante aux étapes intermédiaires des trajectoires de raisonnement
Biais d'alignement humain : Forcer le modèle à suivre les modèles de raisonnement humain peut limiter ses capacités potentielles
Proposition de la méthode CGPO : Une méthode d'optimisation des préférences de chemins de raisonnement guidée par la confiance, sans dépendre de modèles plus puissants ou de supervision humaine
Exploration de chemins de raisonnement non-humains : Construction de données d'apprentissage des préférences par les signaux de confiance du modèle lui-même, explorant les chemins de raisonnement non-humains
Validation multi-domaines : Vérification de l'efficacité de la méthode sur les tâches de raisonnement mathématique et de génération de code, démontrant l'universalité de la méthode
Contribution open-source : Engagement de publier la base de code complète, les ensembles de données et les modèles entraînés, favorisant la reproductibilité
Étant donné un problème d'entrée x, le modèle de politique initial π₀ génère une séquence de raisonnement y = (y₁, y₂, ..., yₜ), où yₜ ∈ V (vocabulaire). Au pas de décodage t, la confiance du modèle est définie comme :
Utilisation d'un seuil de confiance τ pour segmenter les étapes de raisonnement, τ étant déterminé en fonction de la distribution de toutes les valeurs de confiance dans l'ensemble de données
Les tokens avec une confiance inférieure à τ servent de points de segmentation, reconstruisant la séquence y en séquence d'étapes s = (s₁, s₂, ..., sⱼ)
Segmentation des étapes guidée par la confiance : Libération des points d'ancrage prédéfinis, segmentation des étapes de raisonnement basée sur l'incertitude intrinsèque du modèle
Construction des préférences auto-supervisées : Utilisation d'un modèle de récompense pour sélectionner les tokens optimaux/pessimaux au point d'incertitude maximale, sans annotation humaine
Exploration de raisonnement non-humain : Permettre au modèle d'explorer des chemins de raisonnement qui ne correspondent pas aux habitudes cognitives humaines mais qui peuvent être plus efficaces
Valeur des chemins de raisonnement non-humains : Les modèles peuvent obtenir de meilleures performances en explorant des chemins de raisonnement non-humains
Efficacité des signaux de confiance : La confiance du modèle est un indicateur efficace pour identifier les points de difficulté du raisonnement
Potentiel de l'apprentissage auto-supervisé : Amélioration efficace des capacités de raisonnement sans annotation de modèles puissants ou humains
Limitation des Ressources de Calcul : Impossibilité de vérifier la scalabilité sur des modèles plus grands (par exemple, 70B)
Limitation du Domaine : Vérification principalement dans les domaines mathématiques et du code, l'applicabilité dans d'autres domaines comme le raisonnement de sens commun reste à vérifier
Dépendance au Modèle de Récompense : Nécessite toujours un modèle d'évaluation fine-grained spécifique au domaine
Intuition Profonde du Problème : Identification du problème de biais humain dans les méthodes existantes, proposition d'une approche novatrice pour le résoudre
Conception Ingénieuse de la Méthode : Combinaison des signaux de confiance avec l'optimisation des préférences, réalisant l'optimisation des chemins de raisonnement non-supervisée
Vérification Expérimentale Complète : Expériences multi-modèles, multi-tâches et multi-angles, résultats très convaincants
Valeur Pratique Élevée : Réduction de la dépendance aux annotations de modèles puissants, amélioration de l'applicabilité pratique de la méthode
Fondements Théoriques Insuffisants : Manque d'explication théorique profonde sur pourquoi les chemins de raisonnement non-humains sont plus efficaces
Portée d'Application Limitée : Vérification principalement sur les tâches de raisonnement structuré, l'applicabilité sur les tâches ouvertes reste inconnue
Fiabilité de la Confiance : La confiance du modèle elle-même peut ne pas être suffisamment fiable, particulièrement sur les données hors-distribution
Analyse des Surcharges de Calcul : Pas d'analyse détaillée des changements de surcharge de calcul par rapport aux méthodes baseline
Valeur Académique : Fournit une nouvelle direction de recherche pour l'optimisation des capacités de raisonnement, susceptible d'inspirer plus de travaux connexes
Valeur Pratique : Amélioration des performances tout en réduisant les coûts d'annotation, possédant une importante valeur d'application en ingénierie
Reproductibilité : Engagement de publier le code complet et les données, favorable à la promotion et l'amélioration de la méthode
L'article cite les travaux importants dans les domaines connexes de l'optimisation du raisonnement, de l'apprentissage des préférences et de l'estimation de la confiance, fournissant une base théorique solide pour la conception de la méthode. Particulièrement dignes d'attention sont les analyses comparatives avec les méthodes d'optimisation des préférences directement connexes comme Step-DPO et DPO.
Évaluation Globale : Ceci est un travail possédant une contribution importante dans le domaine de l'optimisation des capacités de raisonnement des grands modèles de langage. En introduisant le concept de chemins de raisonnement non-humains et une stratégie d'optimisation basée sur la confiance, il fournit une nouvelle direction de recherche pour ce domaine. Bien qu'il y ait encore de la place pour l'amélioration dans l'explication théorique et la portée d'application, sa valeur pratique et son caractère innovant en font un progrès important dans ce domaine.