Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic
Улучшение дистилляции рассуждений с длинной цепью через самоанализ с учетом ошибок
Большие языковые модели (LLM) демонстрируют мощные способности рассуждения и превосходную производительность при решении математических задач. В последнее время дистилляция способностей рассуждения из цепочек мыслей (Chain-of-Thought, CoT) стала эффективным методом улучшения малых языковых моделей (SLM). Существующие исследования обычно используют SLM в качестве модели-ученика и применяют контролируемую тонкую настройку (SFT) с длинными цепочками CoT в качестве сигналов контроля для передачи способностей рассуждения. Однако эти длинные цепочки CoT от учителя обычно не учитывают возможности модели-ученика, что ограничивает эффективное использование траекторий рассуждения. Для преодоления этого ограничения в данной работе предлагается фреймворк ORION (Error-aware self-Reflection for Improving Reasoning distillatION), который уточняет CoT учителя через процесс самоанализа с учетом ошибок. ORION позволяет модели-ученику строить более адаптированные CoT учителя путем уточнения CoT учителя и интеграции собственных ошибок рассуждения. Эксперименты на нескольких эталонах математического рассуждения показывают, что ORION достигает улучшения производительности более чем на 2% по сравнению со всеми базовыми методами.
Основная проблема, которую решает данное исследование: как эффективно дистиллировать способности рассуждения с длинной цепью из больших моделей рассуждения в малые языковые модели, особенно при решении математических задач.
Ограничения вычислительных ресурсов: Хотя большие модели рассуждения показывают отличную производительность, их развертывание дорогостоящее, требуется передача способностей в более легкие модели
Разрыв в способностях рассуждения: Малые модели плохо справляются со сложными математическими задачами рассуждения, требуется эффективный метод передачи знаний
Потребности практического применения: Образование, научные исследования и другие области требуют математических систем рассуждения, которые одновременно эффективны и точны
Отсутствие осведомленности о способностях: В традиционных методах дистилляции длинные цепочки CoT, генерируемые учителем, не учитывают фактический уровень способностей модели-ученика
Проблема пассивного обучения: Модель-ученик может только пассивно принимать слишком сложные шаги рассуждения, что затрудняет интериоризацию эффективных паттернов рассуждения
Недостаточное использование ошибок: Существующие методы недостаточно используют информацию об ошибках самой модели-ученика для улучшения процесса обучения
Вдохновленные цитатой Джорджа Бернарда Шоу "Успех заключается не в том, чтобы никогда не ошибаться, а в том, чтобы не повторять одну и ту же ошибку", авторы предлагают использовать информацию об ошибках модели-ученика для руководства процессом уточнения CoT, генерируя таким образом сигналы контроля, более подходящие для обучения модели-ученика.
Предложение фреймворка ORION: Впервые механизм самоанализа с учетом ошибок введен в дистилляцию рассуждений с длинной цепью, позволяя модели-ученику уточнять CoT учителя на основе собственных ошибок
Разработка двухэтапной стратегии обучения: Включает этап обнаружения ошибок и этап уточнения рассуждения, систематически используя ошибки модели-ученика
Достижение значительного улучшения производительности: Превосходит все базовые методы более чем на 2% на нескольких эталонах математического рассуждения (GSM-Hard, MATH500, AIME24, AMC23)
Предоставление глубокого анализа: Доказано, что CoT, генерируемый ORION, имеет более высокую согласованность и логическую последовательность, процесс обучения более стабилен
Дана математическая задача q, целью является обучение малой языковой модели Ms способности генерировать точное решение. Входные данные представляют собой описание задачи, выходные данные — полное решение, содержащее процесс рассуждения и окончательный ответ.
Механизм с учетом ошибок: Впервые систематически используется информация об ошибках модели-ученика в дистилляции CoT
Уточнение через самоанализ: Модель-ученик активно участвует в построении данных для обучения, а не пассивно их принимает
Проектирование адаптации способностей: Генерируемые CoT лучше соответствуют способностям обучения модели-ученика, сокращая разрыв между учителем и учеником
Методы подсказок CoT: Wei et al. (2022) предложили цепочку мыслей, которая значительно улучшила способности математического рассуждения
Развитие моделей рассуждения: Специализированные модели рассуждения, такие как DeepSeek-R1, показывают превосходную производительность на математических задачах
Вычислительные затраты: По-прежнему зависит от мощных закрытых моделей рассуждения для генерации начальных CoT, вычислительные затраты значительны
Ограничения модели учителя: Основано главным образом на DeepSeek-R1, недостаточно исследованы эффекты других моделей рассуждения
Ограничение области применения: В настоящее время проверено главным образом на задачах математического рассуждения, эффективность на других задачах рассуждения требует дальнейшей проверки
Высокая инновационность: Впервые систематически используется информация об ошибках модели-ученика для уточнения CoT, идея оригинальна
Полные эксперименты: Проведена всесторонняя оценка на нескольких наборах данных и нескольких базовых моделях
Глубокий анализ: Не только сообщаются числовые показатели производительности, но и проводится анализ с нескольких углов, включая стабильность обучения и качество генерации
Хорошая воспроизводимость: Предоставлены подробные детали реализации и открытый исходный код
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
Предложенный в данной статье фреймворк ORION умело использует информацию об ошибках модели-ученика для улучшения процесса дистилляции способностей рассуждения и представляет собой инновационный и практический вклад. Хотя в теоретическом анализе и анализе вычислительных затрат еще есть место для улучшения, основная идея обладает хорошей вдохновляющей ценностью и потенциалом распространения.