The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic
Цена второго размышления: об оценке эффективности рассуждений в больших языковых моделях
Недавние модели рассуждений, обученные с использованием обучения с подкреплением и обратной цепочки мыслей (CoT), демонстрируют проблему избыточного размышления: они генерируют чрезмерно длинные выходные данные даже для простых задач, расходуя вычислительные ресурсы. Существующие методы оценки, основанные на эффективности токенов, предоставляют неполную перспективу, игнорируя сложность задач и промежуточные вычислительные затраты. В данной работе эффективность рассуждений формализуется как относительная метрика между моделями рассуждений и инструктивными моделями, где инструктивные модели рассматриваются как базовый уровень минимальных усилий. Посредством систематического исследования четырёх моделей рассуждений и нескольких эталонов выявлены два последовательных паттерна: (i) инструктивные модели в целом достигают более высокой эффективности, (ii) сложность задачи влияет на эффективность, модели рассуждений тратят вычисления на простые задачи, но обеспечивают ценность на сложные задачи. На основе этого понимания предложен COTHINK — простой двухэтапный конвейер: инструктивная модель создаёт краткий план, модель рассуждений выполняет расширение. На GSM8K, MATH500 и AIME24 COTHINK снижает использование токенов на 21,1% на четырёх моделях рассуждений при сохранении точности.
Проблема избыточного размышления: Недавние модели рассуждений (thinking models) показывают отличные результаты в задачах математического рассуждения, но страдают от серьёзной проблемы избыточного размышления. Эти модели генерируют выходные данные в 5-10 раз длиннее, чем стандартные инструктивно-настроенные модели, даже для простых задач.
Ограничения оценки: Существующие методы оценки эффективности рассуждений имеют две основные проблемы:
Игнорируют относительную природу избыточного и недостаточного размышления, которые можно наблюдать только посредством сравнительного анализа
Игнорируют промежуточные вычислительные затраты, такие как стоимость генерации нескольких кандидатов при выборке best-of-N
Расход вычислительных ресурсов: Средняя длина выходных данных модели рассуждений на эталоне AIME2024 увеличивается с 770 токенов для Qwen2.5-32B-Instruct до 6 067 токенов для QwQ, что приводит к значительному расходу вычислительных ресурсов.
Существующие методы оценки основаны на эффективности токенов одной модели τ(M,D) = Q(D)/CM(D), но эта абсолютная метрика не отражает относительную эффективность рассуждений. В данной работе утверждается, что необходима относительная структура эффективности для лучшей оценки производительности моделей рассуждений.
Предложена структура оценки относительной эффективности рассуждений: Эффективность рассуждений определяется как относительная метрика между моделью рассуждений и инструктивной моделью η(MR,MI) = τ(MR,D)/τ(MI,D)
Выявлены два ключевых паттерна:
Инструктивные модели в целом демонстрируют более высокую эффективность токенов
Сложность задачи сильно влияет на эффективность; модели рассуждений чрезмерно вычисляют на простых задачах, но обеспечивают ценность на сложных задачах
Предложен двухэтапный совместный конвейер COTHINK: Объединяет лаконичность инструктивных моделей с возможностями проверки моделей рассуждений
Достигнуто значительное повышение эффективности: Среднее снижение использования токенов на 21,1% на трёх математических эталонах при одновременном повышении точности на 1,66%
В данной работе исследуется проблема вычислительной эффективности в задачах математического рассуждения, где входные данные — математические задачи, выходные данные — процесс решения и окончательный ответ. Ограничение состоит в минимизации вычислительных затрат при сохранении точности.
Инструктивная модель генерирует краткий план из 2–4 высокоуровневых шагов рассуждения без конкретных вычислений или окончательного ответа.
Системное приглашение:
You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.
Модель рассуждений проверяет и завершает решение на основе плана, используя меньше токенов.
Пользовательское приглашение:
Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}
Динамическая адаптация к сложности: Без предварительной оценки сложности задачи модель рассуждений может динамически адаптировать усилия проверки на основе качества плана
Объединение дополнительных преимуществ: На простых задачах план обычно правильный, модель рассуждений быстро сходится; на сложных задачах план обеспечивает структурированную отправную точку
Удобство развёртывания: Не требует изменений архитектуры, может быть непосредственно применён к существующим моделям
Наблюдение 1: Инструктивные модели демонстрируют высокую эффективность токенов, большинство моделей рассуждений имеют η < 1
Наблюдение 2: Сложность задачи влияет на эффективность рассуждений; модели рассуждений тратят вычисления на простые задачи, обеспечивают ценность на сложные задачи
5 задач: обе модели успешны, инструктивная модель лаконична, модель рассуждений многословна
16 задач: только модель рассуждений успешна (посредством проверки и исправления)
9 задач: обе модели не успешны
Ключевой вывод: предоставление инструктивной модели эпизода модели рассуждений в качестве префикса требует только 27,5% эпизода и 11,9% токенов для решения задачи.
Модели, обученные с помощью SFT (QwQ, DeepSeek-R1-Distill) лучше следуют инструкциям плана COTHINK
Модели, обученные только с помощью RL (DAPO) показывают меньшую согласованность в следовании инструкциям, но всё ещё демонстрируют сильные возможности руководства на задачах, таких как MATH500
Статья цитирует важные работы в смежных областях эффективности рассуждений, моделей рассуждений и гибридного рассуждения, обеспечивая прочную теоретическую основу и справочные материалы для сравнения.
Общая оценка: Это высококачественная статья с важными вклады в оценку и оптимизацию эффективности рассуждений. Посредством введения структуры оценки относительной эффективности и совместного конвейера COTHINK она предоставляет эффективное решение для решения проблемы избыточного размышления в моделях рассуждений. Несмотря на некоторые ограничения, её инновационность и практическая ценность делают её важной в этой области.