Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic
Повышение рассуждений LLM путем оптимизации предпочтений пути рассуждений, не похожего на человеческий
Современные методы повышения способности к рассуждениям больших языковых моделей часто вводят смещение обучения в отношении траекторий рассуждений человека. В частности, при пошаговой оптимизации предпочтений зависимость от аннотаций промежуточных этапов человека или высокопроизводительных моделей ограничивает исследование альтернативных путей рассуждений, не похожих на человеческие, тем самым ограничивая достижимую производительность. На основе небольшого пилотного исследования авторы наблюдали, что примерно в 75% случаев первая ошибка модели происходит после точки с наименьшей уверенностью. Это указывает на то, что направление модели в точке наименьшей уверенности перед ошибкой обеспечивает более точный надзор, чем определение первой явной ошибки. В данной работе предлагается оптимизация предпочтений пути рассуждений, направляемая уверенностью (CGPO), которая использует сигналы уверенности для определения точек максимальной неопределённости в процессе рассуждений модели и применяет самогенерируемые направления пути рассуждений, не похожие на человеческие, для смягчения дрейфа траектории.
Основная проблема, с которой сталкиваются современные методы повышения способности к рассуждениям больших языковых моделей, заключается в следующем:
Ограничения человеческого смещения: существующие методы чрезмерно зависят от траекторий рассуждений человека или сильных моделей, ограничивая исследование путей рассуждений, не похожих на человеческие
Неточное определение ошибок: традиционные методы осуществляют надзор путём определения первой явной ошибки, но это часто не является оптимальной точкой вмешательства
Высокие затраты на аннотирование: пошаговая оптимизация предпочтений требует большого объёма ручного или сильного аннотирования моделей, что приводит к высоким практическим затратам
Авторы путём анализа обнаружили, что примерно в 75% случаев ошибок первый неправильный шаг модели происходит после точки её наименьшей уверенности. Это наблюдение вдохновило идею оптимизации пути рассуждений на основе уверенности модели, а не человеческого познания.
Методы типа Step-DPO: зависят от аннотаций человека или сильной модели для определения ошибочных шагов, высокие затраты и ограниченное пространство исследования
Традиционное RLHF: в основном сосредоточено на оптимизации результатов с недостаточным вниманием к промежуточным этапам траектории рассуждений
Смещение выравнивания с человеком: принуждение модели следовать человеческим моделям рассуждений может ограничить её потенциальные возможности
Предложение метода CGPO: метод оптимизации предпочтений пути рассуждений, направляемый уверенностью, без необходимости в более сильных моделях или человеческом надзоре
Исследование путей рассуждений, не похожих на человеческие: построение данных предпочтений обучения на основе сигналов уверенности самой модели, исследование путей рассуждений, не похожих на человеческие
Проверка в нескольких областях: проверка эффективности метода на задачах математического рассуждения и генерации кода, доказательство универсальности метода
Вклад открытого исходного кода: обещание выпустить полную кодовую базу, наборы данных и обученные модели для повышения воспроизводимости
Учитывая входную задачу x, начальная модель политики π₀ генерирует последовательность рассуждений y = (y₁, y₂, ..., yₜ), где yₜ ∈ V (словарь). На временном шаге декодирования t уверенность модели определяется как:
Разделение шагов, направляемое уверенностью: отход от предопределённых якорей, разделение шагов рассуждения на основе внутренней неопределённости модели
Построение самоконтролируемых предпочтений: использование модели вознаграждения для выбора оптимальных/неоптимальных токенов в точке максимальной неопределённости без человеческого аннотирования
Исследование путей рассуждений, не похожих на человеческие: позволяет модели исследовать пути рассуждений, которые не соответствуют человеческим когнитивным привычкам, но могут быть более эффективными
Ценность путей рассуждений, не похожих на человеческие: модели могут достичь лучшей производительности путём исследования путей рассуждений, не похожих на человеческие
Эффективность сигналов уверенности: уверенность модели является эффективным показателем для определения точек затруднения в рассуждении
Потенциал самоконтролируемого обучения: возможность повышения способности к рассуждению без аннотирования сильной модели или человека
Ограничения вычислительных ресурсов: не удалось проверить масштабируемость на более крупных моделях (например, 70B)
Ограничения по областям: в основном проверено на математических и кодовых областях, применимость на задачах здравого смысла требует дальнейшей проверки
Зависимость от модели вознаграждения: по-прежнему требуется специфичная для области fine-grained модель вознаграждения
Глубокое понимание проблемы: определение проблемы человеческого смещения в существующих методах, предложение новаторского решения
Искусное проектирование метода: объединение сигналов уверенности с оптимизацией предпочтений, реализация неконтролируемой оптимизации пути рассуждения
Полная экспериментальная проверка: многомодельные, многозадачные, многоугольные экспериментальные проверки с убедительными результатами
Высокая практическая ценность: снижение зависимости от аннотирования сильной модели при одновременном повышении производительности, важное инженерное применение
Недостаточная теоретическая база: отсутствие глубокого теоретического объяснения того, почему пути рассуждений, не похожие на человеческие, более эффективны
Ограниченная область применения: в основном проверено на структурированных задачах рассуждения, применимость на открытых задачах неизвестна
Надёжность уверенности: сама уверенность модели может быть недостаточно надёжной, особенно на данных вне распределения
Анализ вычислительных затрат: отсутствует подробный анализ изменения вычислительных затрат по сравнению с методом базовой линии
Академическая ценность: предоставление нового направления исследований для оптимизации способности к рассуждению, потенциально вдохновляющее больше соответствующих работ
Практическая ценность: снижение затрат на аннотирование при повышении производительности, важное инженерное применение
Воспроизводимость: обещание выпустить полный исходный код и данные, способствующее распространению и улучшению метода
Статья цитирует важные работы в соответствующих областях оптимизации рассуждения, обучения предпочтениям и оценки уверенности, обеспечивая прочную теоретическую базу для проектирования метода. Особого внимания заслуживает сравнительный анализ с непосредственно связанными методами оптимизации предпочтений, такими как Step-DPO и DPO.
Общая оценка: Это важная работа в области оптимизации способности к рассуждению больших языковых моделей. Путём введения концепции путей рассуждений, не похожих на человеческие, и стратегии оптимизации, направляемой уверенностью, она предоставляет новое направление исследований для этой области. Хотя существует место для улучшения в теоретическом объяснении и области применения, её практическая ценность и инновационность делают её важным прогрессом в этой области.