2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

Улучшение дистилляции рассуждений с длинной цепью через самоанализ с учетом ошибок

Основная информация

ID статьи: 2505.22131
Название: Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Авторы: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: май 2025 г. (препринт ArXiv)
Ссылка на статью: https://arxiv.org/abs/2505.22131

Аннотация

Большие языковые модели (LLM) демонстрируют мощные способности рассуждения и превосходную производительность при решении математических задач. В последнее время дистилляция способностей рассуждения из цепочек мыслей (Chain-of-Thought, CoT) стала эффективным методом улучшения малых языковых моделей (SLM). Существующие исследования обычно используют SLM в качестве модели-ученика и применяют контролируемую тонкую настройку (SFT) с длинными цепочками CoT в качестве сигналов контроля для передачи способностей рассуждения. Однако эти длинные цепочки CoT от учителя обычно не учитывают возможности модели-ученика, что ограничивает эффективное использование траекторий рассуждения. Для преодоления этого ограничения в данной работе предлагается фреймворк ORION (Error-aware self-Reflection for Improving Reasoning distillatION), который уточняет CoT учителя через процесс самоанализа с учетом ошибок. ORION позволяет модели-ученику строить более адаптированные CoT учителя путем уточнения CoT учителя и интеграции собственных ошибок рассуждения. Эксперименты на нескольких эталонах математического рассуждения показывают, что ORION достигает улучшения производительности более чем на 2% по сравнению со всеми базовыми методами.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как эффективно дистиллировать способности рассуждения с длинной цепью из больших моделей рассуждения в малые языковые модели, особенно при решении математических задач.

Важность проблемы

Ограничения вычислительных ресурсов: Хотя большие модели рассуждения показывают отличную производительность, их развертывание дорогостоящее, требуется передача способностей в более легкие модели
Разрыв в способностях рассуждения: Малые модели плохо справляются со сложными математическими задачами рассуждения, требуется эффективный метод передачи знаний
Потребности практического применения: Образование, научные исследования и другие области требуют математических систем рассуждения, которые одновременно эффективны и точны

Ограничения существующих методов

Отсутствие осведомленности о способностях: В традиционных методах дистилляции длинные цепочки CoT, генерируемые учителем, не учитывают фактический уровень способностей модели-ученика
Проблема пассивного обучения: Модель-ученик может только пассивно принимать слишком сложные шаги рассуждения, что затрудняет интериоризацию эффективных паттернов рассуждения
Недостаточное использование ошибок: Существующие методы недостаточно используют информацию об ошибках самой модели-ученика для улучшения процесса обучения

Исследовательская мотивация

Вдохновленные цитатой Джорджа Бернарда Шоу "Успех заключается не в том, чтобы никогда не ошибаться, а в том, чтобы не повторять одну и ту же ошибку", авторы предлагают использовать информацию об ошибках модели-ученика для руководства процессом уточнения CoT, генерируя таким образом сигналы контроля, более подходящие для обучения модели-ученика.

Основные вклады

Предложение фреймворка ORION: Впервые механизм самоанализа с учетом ошибок введен в дистилляцию рассуждений с длинной цепью, позволяя модели-ученику уточнять CoT учителя на основе собственных ошибок
Разработка двухэтапной стратегии обучения: Включает этап обнаружения ошибок и этап уточнения рассуждения, систематически используя ошибки модели-ученика
Достижение значительного улучшения производительности: Превосходит все базовые методы более чем на 2% на нескольких эталонах математического рассуждения (GSM-Hard, MATH500, AIME24, AMC23)
Предоставление глубокого анализа: Доказано, что CoT, генерируемый ORION, имеет более высокую согласованность и логическую последовательность, процесс обучения более стабилен

Подробное описание метода

Определение задачи

Дана математическая задача q, целью является обучение малой языковой модели Ms способности генерировать точное решение. Входные данные представляют собой описание задачи, выходные данные — полное решение, содержащее процесс рассуждения и окончательный ответ.

Архитектура модели

1. Обзор традиционных методов дистилляции

Vanilla SFT: Прямое контролируемое обучение с использованием вручную аннотированных меток ответов

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

Дистилляция рассуждений с длинной цепью: Использование CoT, генерируемого учителем, в качестве сигналов контроля

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. Разработка фреймворка ORION

Этап первый: Обнаружение ошибок (Error Exposure)

Для каждой задачи qi генерируются K кандидатов решений с использованием различных температур τ:

Yi ~ SampleτM(s(InstructQA(qi)))

Отбираются ошибочные решения для построения набора ошибок:

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

Этап второй: Уточнение рассуждения (Reasoning Refinement)

Модель-ученик уточняет CoT учителя на основе ошибочных решений:

õi_k = Ms(InstructRef(q, yi_k, oi))

Построение уточненного набора данных для обучения:

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

Технические инновации

Механизм с учетом ошибок: Впервые систематически используется информация об ошибках модели-ученика в дистилляции CoT
Уточнение через самоанализ: Модель-ученик активно участвует в построении данных для обучения, а не пассивно их принимает
Проектирование адаптации способностей: Генерируемые CoT лучше соответствуют способностям обучения модели-ученика, сокращая разрыв между учителем и учеником

Экспериментальная установка

Наборы данных

Данные для обучения: 10 000 случайно выбранных образцов из набора данных OpenR1-Math-220k
Наборы данных для оценки:
- GSM-Hard: 1 319 математических задач с повышенной сложностью вычислений
- MATH500: 500 задач математических соревнований
- AIME24: 30 задач американского математического приглашительного конкурса
- AMC23: 40 задач американского математического конкурса

Метрики оценки

Acc@1: Точность при однократной выборке
Acc@10: Лучшая точность при 10 выборках

Методы сравнения

Базовые методы с нулевыми примерами: Vanilla LLM, Wrong-of-Thought
Базовые методы SFT: SFT(Label), SFT(Long-CoT)
Варианты абляции: ORION w/o Solution Error, ORION w/o Self-Reflection

Детали реализации

Базовые модели: Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
Конфигурация обучения: Скорость обучения 5×10^-5, накопление градиентов 8 шагов, обучение на 3 эпохах
Стратегия оптимизации: Использование LoRA для эффективного обучения

Результаты экспериментов

Основные результаты

На всех наборах данных для тестирования ORION значительно превосходит базовые методы:

Результаты Qwen3-8B-Instruct:

Метод	AIME24	AMC23	Math500	GSM-H	Среднее
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

Ключевые находки:

ORION показывает среднее улучшение на 2.38% по сравнению с самым сильным базовым методом SFT(Long-CoT)
Наблюдается последовательное улучшение на всех базовых моделях
Улучшение более чем на 5% по сравнению с методом подсказок с учетом ошибок Wrong-of-Thought

Эксперименты абляции

Компонент	AIME24	AMC23	Math500	GSM-H	Среднее
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
w/o Solution Error	26.67	60.00	83.15	59.27	57.27
w/o Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (полный)	26.67	62.50	83.50	59.83	58.13

Выводы анализа:

Механизм самоанализа обеспечивает улучшение производительности примерно на 1.5%
Интеграция информации об ошибках обеспечивает дополнительное улучшение примерно на 0.86%
Оба компонента дополняют друг друга, совместный эффект оптимален

Анализ стабильности обучения

Анализ значений энтропии показал:

Значения энтропии в процессе обучения ORION значительно ниже и более стабильны
Механизм самоанализа эффективно способствует более стабильному процессу обучения
Добавление информации об ошибках дополнительно снижает энтропию обучения

Оценка качества генерации

Длина рассуждения: CoT, генерируемый ORION, примерно на 40% короче, чем у базовых методов, эффективно смягчая проблему чрезмерного размышления

Оценка перплексии: ORION достигает перплексии 16.9 на Qwen3, значительно ниже, чем 24.8 у SFT(Long-CoT)

Оценка предпочтения GPT-4: ORION получает 44.2% показатель победы, примерно в два раза выше, чем у других методов

Анализ типов ошибок

При анализе 500 ошибочных образцов обнаружено:

Ошибки рассуждения составляют 46.5%, являясь основным типом ошибок
ORION достигает 41.5% успеха в исправлении ошибок рассуждения, значительно превосходя базовый показатель 15.5%
Также наблюдается явное улучшение при ошибках понимания и вычислительных ошибках

Связанные работы

Исследования математического рассуждения

Методы подсказок CoT: Wei et al. (2022) предложили цепочку мыслей, которая значительно улучшила способности математического рассуждения
Развитие моделей рассуждения: Специализированные модели рассуждения, такие как DeepSeek-R1, показывают превосходную производительность на математических задачах

Исследования дистилляции знаний

Традиционная дистилляция: Прямое использование выходных данных учителя в качестве сигналов контроля
Дистилляция рассуждения: Работы Hsieh et al. (2023) и других исследуют передачу способностей рассуждения

Обучение с учетом ошибок

Методы исправления ошибок: An et al. (2023) предложили использование ошибочных решений для обучения
Инновация данной работы: Впервые механизм с учетом ошибок введен в процесс уточнения CoT

Заключение и обсуждение

Основные выводы

Эффективность ORION: Достигает последовательного и значительного улучшения производительности на нескольких эталонах математического рассуждения
Обоснованность механизма: Механизм самоанализа с учетом ошибок может генерировать данные для обучения, более подходящие для модели-ученика
Улучшение обучения: По сравнению с традиционными методами обучение ORION более стабильно, качество генерации выше

Ограничения

Вычислительные затраты: По-прежнему зависит от мощных закрытых моделей рассуждения для генерации начальных CoT, вычислительные затраты значительны
Ограничения модели учителя: Основано главным образом на DeepSeek-R1, недостаточно исследованы эффекты других моделей рассуждения
Ограничение области применения: В настоящее время проверено главным образом на задачах математического рассуждения, эффективность на других задачах рассуждения требует дальнейшей проверки

Направления будущих исследований

Исследование более эффективных методов генерации CoT для снижения зависимости от закрытых моделей
Расширение на больше задач рассуждения и областей
Исследование более детальных стратегий классификации и обработки ошибок

Глубокая оценка

Преимущества

Высокая инновационность: Впервые систематически используется информация об ошибках модели-ученика для уточнения CoT, идея оригинальна
Полные эксперименты: Проведена всесторонняя оценка на нескольких наборах данных и нескольких базовых моделях
Глубокий анализ: Не только сообщаются числовые показатели производительности, но и проводится анализ с нескольких углов, включая стабильность обучения и качество генерации
Хорошая воспроизводимость: Предоставлены подробные детали реализации и открытый исходный код

Недостатки

Недостаточный теоретический анализ: Отсутствует теоретическое объяснение того, почему механизм с учетом ошибок эффективен
Отсутствие анализа вычислительных затрат: Не проведен подробный анализ дополнительных вычислительных затрат ORION по сравнению с базовыми методами
Обработка типов ошибок: Стратегии обработки различных типов ошибок относительно просты, возможны улучшения

Влияние

Академическая ценность: Предоставляет новое направление исследований для дистилляции способностей рассуждения
Практическая ценность: Метод относительно прост в реализации, имеет хорошие перспективы применения
Вдохновляющее значение: Идея с учетом ошибок может быть применима к другим задачам NLP

Сценарии применения

Образовательные приложения: Может использоваться для построения систем математического наставничества
Научные инструменты: Подходит для сценариев исследований, требующих способностей математического рассуждения
Среды с ограниченными ресурсами: Имеет ценность в сценариях, где вычислительные ресурсы ограничены, но требуются способности рассуждения

Список литературы

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

Предложенный в данной статье фреймворк ORION умело использует информацию об ошибках модели-ученика для улучшения процесса дистилляции способностей рассуждения и представляет собой инновационный и практический вклад. Хотя в теоретическом анализе и анализе вычислительных затрат еще есть место для улучшения, основная идея обладает хорошей вдохновляющей ценностью и потенциалом распространения.