2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.

Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.

academic

Повышение рассуждений LLM путем оптимизации предпочтений пути рассуждений, не похожего на человеческий

Основная информация

ID статьи: 2510.11104
Название: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Авторы: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
Категория: cs.CL cs.AI
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11104

Аннотация

Современные методы повышения способности к рассуждениям больших языковых моделей часто вводят смещение обучения в отношении траекторий рассуждений человека. В частности, при пошаговой оптимизации предпочтений зависимость от аннотаций промежуточных этапов человека или высокопроизводительных моделей ограничивает исследование альтернативных путей рассуждений, не похожих на человеческие, тем самым ограничивая достижимую производительность. На основе небольшого пилотного исследования авторы наблюдали, что примерно в 75% случаев первая ошибка модели происходит после точки с наименьшей уверенностью. Это указывает на то, что направление модели в точке наименьшей уверенности перед ошибкой обеспечивает более точный надзор, чем определение первой явной ошибки. В данной работе предлагается оптимизация предпочтений пути рассуждений, направляемая уверенностью (CGPO), которая использует сигналы уверенности для определения точек максимальной неопределённости в процессе рассуждений модели и применяет самогенерируемые направления пути рассуждений, не похожие на человеческие, для смягчения дрейфа траектории.

Предпосылки и мотивация исследования

Определение проблемы

Основная проблема, с которой сталкиваются современные методы повышения способности к рассуждениям больших языковых моделей, заключается в следующем:

Ограничения человеческого смещения: существующие методы чрезмерно зависят от траекторий рассуждений человека или сильных моделей, ограничивая исследование путей рассуждений, не похожих на человеческие
Неточное определение ошибок: традиционные методы осуществляют надзор путём определения первой явной ошибки, но это часто не является оптимальной точкой вмешательства
Высокие затраты на аннотирование: пошаговая оптимизация предпочтений требует большого объёма ручного или сильного аннотирования моделей, что приводит к высоким практическим затратам

Мотивация исследования

Авторы путём анализа обнаружили, что примерно в 75% случаев ошибок первый неправильный шаг модели происходит после точки её наименьшей уверенности. Это наблюдение вдохновило идею оптимизации пути рассуждений на основе уверенности модели, а не человеческого познания.

Ограничения существующих методов

Методы типа Step-DPO: зависят от аннотаций человека или сильной модели для определения ошибочных шагов, высокие затраты и ограниченное пространство исследования
Традиционное RLHF: в основном сосредоточено на оптимизации результатов с недостаточным вниманием к промежуточным этапам траектории рассуждений
Смещение выравнивания с человеком: принуждение модели следовать человеческим моделям рассуждений может ограничить её потенциальные возможности

Основные вклады

Предложение метода CGPO: метод оптимизации предпочтений пути рассуждений, направляемый уверенностью, без необходимости в более сильных моделях или человеческом надзоре
Исследование путей рассуждений, не похожих на человеческие: построение данных предпочтений обучения на основе сигналов уверенности самой модели, исследование путей рассуждений, не похожих на человеческие
Проверка в нескольких областях: проверка эффективности метода на задачах математического рассуждения и генерации кода, доказательство универсальности метода
Вклад открытого исходного кода: обещание выпустить полную кодовую базу, наборы данных и обученные модели для повышения воспроизводимости

Подробное описание метода

Определение задачи

Учитывая входную задачу x, начальная модель политики π₀ генерирует последовательность рассуждений y = (y₁, y₂, ..., yₜ), где yₜ ∈ V (словарь). На временном шаге декодирования t уверенность модели определяется как:

cₜ ≜ p(yₜ|π₀, x, y<t)

Архитектура модели

1. Определение шагов рассуждения

Использование порога уверенности τ для разделения шагов рассуждения, τ определяется на основе распределения всех значений уверенности в наборе данных
Токены с уверенностью ниже τ служат точками разделения, последовательность y перестраивается в последовательность шагов s = (s₁, s₂, ..., sⱼ)

2. Процесс построения пар предпочтений

Определение начальной траектории:

Выбор последовательности перед наиболее неопределённым шагом в качестве общей начальной траектории рассуждения sᵢₙᵢₜ

Построение пар Chosen/Rejected:

Введение модели вознаграждения R для оценки Top-k кандидатов токенов для данного (x, sᵢₙᵢₜ)
Выбор токенов с наивысшим и наименьшим баллом соответственно в качестве начальных токенов для ветвей chosen и rejected
π₀ продолжает выборку до встречи с или токеном с уверенностью ниже τ

3. Целевая функция обучения

Использование целевой функции в стиле DPO:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

где:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Технические инновации

Разделение шагов, направляемое уверенностью: отход от предопределённых якорей, разделение шагов рассуждения на основе внутренней неопределённости модели
Построение самоконтролируемых предпочтений: использование модели вознаграждения для выбора оптимальных/неоптимальных токенов в точке максимальной неопределённости без человеческого аннотирования
Исследование путей рассуждений, не похожих на человеческие: позволяет модели исследовать пути рассуждений, которые не соответствуют человеческим когнитивным привычкам, но могут быть более эффективными

Экспериментальная установка

Наборы данных

Задачи математического рассуждения:

Данные обучения: 10 795 подсказок из набора данных Step-DPO-10k
Наборы данных оценки: GSM8K, MATH, Omni-Math
Модели: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT и др.

Задачи генерации кода:

Данные обучения: 2 641 образец из набора обучения LeetCodeDataset
Наборы данных оценки: LiveCodeBench, LeetCodeDataset
Модели: Deepseek-Coder-7B-Instruct-v1.5

Метрики оценки

Математическое рассуждение: точность точного совпадения (окончательный ответ полностью совпадает со стандартным ответом)
Генерация кода: коэффициент прохождения (сгенерированный код проходит все тестовые случаи в изолированной среде)

Методы сравнения

Base Model: исходная базовая модель
Step-DPO: метод пошаговой оптимизации предпочтений на основе человеческого аннотирования

Детали реализации

Порог уверенности: 2-й процентиль распределения уверенности набора данных
Кандидаты Top-k: k=8
Конфигурация обучения: β=0,3-0,4, скорость обучения 5e-7, размер пакета 128, обучение 4-8 эпох

Результаты экспериментов

Основные результаты

Производительность на задачах математического рассуждения:

GSM8K: CGPO превосходит Step-DPO на всех моделях, наиболее значительное улучшение на MetaMath-Llama-8B (+4,3% против базовой модели)
MATH: превосходит Step-DPO на MetaMath-Llama-8B и Qwen2-7B-SFT
Ключевое открытие: даже когда производительность Step-DPO снижается (например, MetaMath-Mistral-7B), CGPO всё ещё обеспечивает улучшение

Производительность на задачах генерации кода:

LiveCodeBench: улучшение на 2,1% (19,3% → 19,7%)
LeetCodeDataset: улучшение на 4,0% (12,7% → 13,2%)

Абляционные исследования

1. Анализ масштабируемости

Проверка масштабируемости метода путём увеличения объёма данных обучения (10k → 80k):

MetaMath-Llama-8B на GSM8K улучшилась с 85,3% до 86,4%
Qwen2-7B-SFT на GSM8K улучшилась с 88,6% до 89,5%
Указывает на хорошую масштабируемость CGPO по данным

2. Влияние модели вознаграждения

Сравнение двух моделей вознаграждения ASPRM и Math-Shepherd:

ASPRM показывает лучшие результаты, но даже использование более слабого Math-Shepherd приносит улучшение
Доказывает важность fine-grained оценки на уровне токенов

3. Анализ порога уверенности

Повышение порога обычно приводит к улучшению производительности, но слишком высокий порог приводит к слишком коротким последовательностям
Оптимальный порог различается для разных моделей, требует целевой настройки

Проверка способности к обобщению

Производительность на Omni-Math (задачи математических олимпиад):

CGPO превосходит Step-DPO на 4 из 5 моделей
Доказывает хорошую способность метода к обобщению вне распределения

Анализ примеров

Анализ 200 ошибочных образцов для проверки основного предположения:

MetaMath-Llama-8B: 78% ошибок происходят после точки наименьшей уверенности
Qwen2-7B-SFT: 72% ошибок происходят после точки наименьшей уверенности
Поддерживает идею раннего вмешательства на основе уверенности

Связанные работы

Методы оптимизации предпочтений

PPO: высокая сложность, но стабильные результаты
DPO/SimPO: прямая оптимизация сигналов парных предпочтений, низкие вычислительные затраты
Вклад данной работы: расширение оптимизации предпочтений на промежуточные шаги пути рассуждения

Методы, учитывающие уверенность

Метод прямой вероятности: использование вероятности предсказанного токена (применяется в данной работе)
Метод согласованности генерации: измерение уверенности через согласованность ответов
Инновация данной работы: использование уверенности для разделения шагов пути рассуждения и оптимизации

Оптимизация траектории рассуждения

Контролируемая тонкая настройка: прямое выравнивание с аннотированной последовательностью
RLHF: оптимизация траекторий в направлении более высоких баллов
Преимущество данной работы: не требует аннотирования сильной модели, исследует пути рассуждений, не похожие на человеческие

Выводы и обсуждение

Основные выводы

Ценность путей рассуждений, не похожих на человеческие: модели могут достичь лучшей производительности путём исследования путей рассуждений, не похожих на человеческие
Эффективность сигналов уверенности: уверенность модели является эффективным показателем для определения точек затруднения в рассуждении
Потенциал самоконтролируемого обучения: возможность повышения способности к рассуждению без аннотирования сильной модели или человека

Ограничения

Ограничения вычислительных ресурсов: не удалось проверить масштабируемость на более крупных моделях (например, 70B)
Ограничения по областям: в основном проверено на математических и кодовых областях, применимость на задачах здравого смысла требует дальнейшей проверки
Зависимость от модели вознаграждения: по-прежнему требуется специфичная для области fine-grained модель вознаграждения

Будущие направления

Проверка в большем масштабе: проверка эффективности метода на более крупных моделях и в большем количестве областей
Универсальная модель вознаграждения: разработка кроссдоменной универсальной модели fine-grained оценки
Теоретический анализ: глубокое понимание теоретических основ путей рассуждений, не похожих на человеческие

Глубокая оценка

Преимущества

Глубокое понимание проблемы: определение проблемы человеческого смещения в существующих методах, предложение новаторского решения
Искусное проектирование метода: объединение сигналов уверенности с оптимизацией предпочтений, реализация неконтролируемой оптимизации пути рассуждения
Полная экспериментальная проверка: многомодельные, многозадачные, многоугольные экспериментальные проверки с убедительными результатами
Высокая практическая ценность: снижение зависимости от аннотирования сильной модели при одновременном повышении производительности, важное инженерное применение

Недостатки

Недостаточная теоретическая база: отсутствие глубокого теоретического объяснения того, почему пути рассуждений, не похожие на человеческие, более эффективны
Ограниченная область применения: в основном проверено на структурированных задачах рассуждения, применимость на открытых задачах неизвестна
Надёжность уверенности: сама уверенность модели может быть недостаточно надёжной, особенно на данных вне распределения
Анализ вычислительных затрат: отсутствует подробный анализ изменения вычислительных затрат по сравнению с методом базовой линии

Влияние

Академическая ценность: предоставление нового направления исследований для оптимизации способности к рассуждению, потенциально вдохновляющее больше соответствующих работ
Практическая ценность: снижение затрат на аннотирование при повышении производительности, важное инженерное применение
Воспроизводимость: обещание выпустить полный исходный код и данные, способствующее распространению и улучшению метода

Применимые сценарии

Среды с ограниченными ресурсами: повышение способности к рассуждению при невозможности получить аннотирование сильной модели
Задачи структурированного рассуждения: математика, код, логическое рассуждение и другие задачи с чёткими стандартами оценки
Самосовершенствование модели: как технический компонент непрерывного обучения и самооптимизации модели

Библиография

Статья цитирует важные работы в соответствующих областях оптимизации рассуждения, обучения предпочтениям и оценки уверенности, обеспечивая прочную теоретическую базу для проектирования метода. Особого внимания заслуживает сравнительный анализ с непосредственно связанными методами оптимизации предпочтений, такими как Step-DPO и DPO.

Общая оценка: Это важная работа в области оптимизации способности к рассуждению больших языковых моделей. Путём введения концепции путей рассуждений, не похожих на человеческие, и стратегии оптимизации, направляемой уверенностью, она предоставляет новое направление исследований для этой области. Хотя существует место для улучшения в теоретическом объяснении и области применения, её практическая ценность и инновационность делают её важным прогрессом в этой области.