2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic

Цена второго размышления: об оценке эффективности рассуждений в больших языковых моделях

Основная информация

  • ID статьи: 2505.22017
  • Название: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
  • Авторы: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
  • Категория: cs.CL (Вычислительная лингвистика)
  • Дата публикации: 14 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2505.22017

Аннотация

Недавние модели рассуждений, обученные с использованием обучения с подкреплением и обратной цепочки мыслей (CoT), демонстрируют проблему избыточного размышления: они генерируют чрезмерно длинные выходные данные даже для простых задач, расходуя вычислительные ресурсы. Существующие методы оценки, основанные на эффективности токенов, предоставляют неполную перспективу, игнорируя сложность задач и промежуточные вычислительные затраты. В данной работе эффективность рассуждений формализуется как относительная метрика между моделями рассуждений и инструктивными моделями, где инструктивные модели рассматриваются как базовый уровень минимальных усилий. Посредством систематического исследования четырёх моделей рассуждений и нескольких эталонов выявлены два последовательных паттерна: (i) инструктивные модели в целом достигают более высокой эффективности, (ii) сложность задачи влияет на эффективность, модели рассуждений тратят вычисления на простые задачи, но обеспечивают ценность на сложные задачи. На основе этого понимания предложен COTHINK — простой двухэтапный конвейер: инструктивная модель создаёт краткий план, модель рассуждений выполняет расширение. На GSM8K, MATH500 и AIME24 COTHINK снижает использование токенов на 21,1% на четырёх моделях рассуждений при сохранении точности.

Исследовательский контекст и мотивация

Определение проблемы

  1. Проблема избыточного размышления: Недавние модели рассуждений (thinking models) показывают отличные результаты в задачах математического рассуждения, но страдают от серьёзной проблемы избыточного размышления. Эти модели генерируют выходные данные в 5-10 раз длиннее, чем стандартные инструктивно-настроенные модели, даже для простых задач.
  2. Ограничения оценки: Существующие методы оценки эффективности рассуждений имеют две основные проблемы:
    • Игнорируют относительную природу избыточного и недостаточного размышления, которые можно наблюдать только посредством сравнительного анализа
    • Игнорируют промежуточные вычислительные затраты, такие как стоимость генерации нескольких кандидатов при выборке best-of-N
  3. Расход вычислительных ресурсов: Средняя длина выходных данных модели рассуждений на эталоне AIME2024 увеличивается с 770 токенов для Qwen2.5-32B-Instruct до 6 067 токенов для QwQ, что приводит к значительному расходу вычислительных ресурсов.

Исследовательская мотивация

Существующие методы оценки основаны на эффективности токенов одной модели τ(M,D) = Q(D)/CM(D), но эта абсолютная метрика не отражает относительную эффективность рассуждений. В данной работе утверждается, что необходима относительная структура эффективности для лучшей оценки производительности моделей рассуждений.

Основные вклады

  1. Предложена структура оценки относительной эффективности рассуждений: Эффективность рассуждений определяется как относительная метрика между моделью рассуждений и инструктивной моделью η(MR,MI) = τ(MR,D)/τ(MI,D)
  2. Выявлены два ключевых паттерна:
    • Инструктивные модели в целом демонстрируют более высокую эффективность токенов
    • Сложность задачи сильно влияет на эффективность; модели рассуждений чрезмерно вычисляют на простых задачах, но обеспечивают ценность на сложных задачах
  3. Предложен двухэтапный совместный конвейер COTHINK: Объединяет лаконичность инструктивных моделей с возможностями проверки моделей рассуждений
  4. Достигнуто значительное повышение эффективности: Среднее снижение использования токенов на 21,1% на трёх математических эталонах при одновременном повышении точности на 1,66%

Подробное описание методов

Определение задачи

В данной работе исследуется проблема вычислительной эффективности в задачах математического рассуждения, где входные данные — математические задачи, выходные данные — процесс решения и окончательный ответ. Ограничение состоит в минимизации вычислительных затрат при сохранении точности.

Структура оценки относительной эффективности

Основная формула

Относительная эффективность рассуждений определяется как:

η(MR,MI) = τ(MR,D) / τ(MI,D)

где τ(M,D) = Q(D)/CM(D) — традиционная эффективность токенов.

Предположение о законе масштабирования эффективности

На основе закона масштабирования времени тестирования Q(C) ∝ C^β (β < 1), эффективность рассуждений может быть аппроксимирована как:

η ≈ (CR/CI)^β

Двухэтапный конвейер COTHINK

Первый этап: генерация плана

Инструктивная модель генерирует краткий план из 2–4 высокоуровневых шагов рассуждения без конкретных вычислений или окончательного ответа.

Системное приглашение:

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

Второй этап: проверка и расширение

Модель рассуждений проверяет и завершает решение на основе плана, используя меньше токенов.

Пользовательское приглашение:

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

Технические инновации

  1. Динамическая адаптация к сложности: Без предварительной оценки сложности задачи модель рассуждений может динамически адаптировать усилия проверки на основе качества плана
  2. Объединение дополнительных преимуществ: На простых задачах план обычно правильный, модель рассуждений быстро сходится; на сложных задачах план обеспечивает структурированную отправную точку
  3. Удобство развёртывания: Не требует изменений архитектуры, может быть непосредственно применён к существующим моделям

Экспериментальная установка

Наборы данных

Используются три эталона математического рассуждения с возрастающей сложностью:

  • GSM8K: начальный уровень, 1 319 образцов, длина решения 48–1 070 токенов
  • MATH500: уровень средней школы, 500 образцов, длина решения 45–3 360 токенов
  • AIME24: университетский уровень, 30 образцов, длина решения 284–4 010 токенов

Конфигурация моделей

Оценка 5 репрезентативных моделей масштаба 32B:

  • Qwen2.5-32B-Instruct: универсальная инструктивная модель (базовый уровень)
  • DAPO: модель рассуждений, обученная только с RL
  • DeepSeek-R1-Distill: модель рассуждений на основе дистилляции
  • QwQ: модель рассуждений, обученная с помощью SFT+RL
  • Qwen3: гибридная модель рассуждений (поддерживает режимы размышления/без размышления)

Метрики оценки

  • Pass@1: точность при первой попытке
  • #Tokens: общее количество токенов, генерируемых для каждой задачи
  • Эффективность токенов τ: соотношение качества к затратам
  • Эффективность рассуждений η: соотношение эффективности относительно инструктивной модели
  • Процент побед: доля преимуществ во всех точках оценки

Методы сравнения

  • Solo-Thinking: независимое решение одной моделью
  • Выборка Best-of-N: генерация N=5 кандидатов, выбор кратчайшего
  • No-Thinking: пропуск процесса размышления и прямая генерация ответа

Результаты экспериментов

Основные результаты

Выводы анализа относительной эффективности

  1. Наблюдение 1: Инструктивные модели демонстрируют высокую эффективность токенов, большинство моделей рассуждений имеют η < 1
  2. Наблюдение 2: Сложность задачи влияет на эффективность рассуждений; модели рассуждений тратят вычисления на простые задачи, обеспечивают ценность на сложные задачи

Производительность COTHINK

  • Общий процент побед: 61,7% (37/60 точек оценки)
  • Процент побед по задачам:
    • GSM8K: 37,5% (большое пространство для улучшения на простых задачах)
    • MATH500: 87,5% (лучшая производительность на задачах уровня средней школы)
    • AIME24: 60% (хорошая производительность на задачах университетского уровня)

Повышение эффективности

  • Среднее снижение токенов: 21,1%, максимум 41,8%
  • Повышение точности: среднее 1,66%
  • Рейтинг моделей (повышение эффективности): QwQ > DeepSeek-R1-Distill > DAPO

Анализ примеров

Исследование случаев AIME24

Сравнительный анализ показывает три сценария:

  1. 5 задач: обе модели успешны, инструктивная модель лаконична, модель рассуждений многословна
  2. 16 задач: только модель рассуждений успешна (посредством проверки и исправления)
  3. 9 задач: обе модели не успешны

Ключевой вывод: предоставление инструктивной модели эпизода модели рассуждений в качестве префикса требует только 27,5% эпизода и 11,9% токенов для решения задачи.

Абляционные эксперименты

Анализ источников неэффективности

  1. Неэффективность на уровне алгоритма: Обучение RL может снизить информационную плотность на шаг, поощряя более многословную генерацию
  2. Неэффективность распределения данных: Обучение обратной CoT создаёт многоэпизодный паттерн проверки, который сохраняется во время вывода

Влияние различных стратегий обучения

  • Модели, обученные с помощью SFT (QwQ, DeepSeek-R1-Distill) лучше следуют инструкциям плана COTHINK
  • Модели, обученные только с помощью RL (DAPO) показывают меньшую согласованность в следовании инструкциям, но всё ещё демонстрируют сильные возможности руководства на задачах, таких как MATH500

Связанные работы

Исследования эффективности токенов

Существующие методы решения проблемы избыточного размышления включают:

  • Ограничение длины выходных данных посредством приглашений
  • Поощрение ранней остановки
  • Обучение RL с штрафом за длину
  • SFT на коротких решениях

Методы гибридного рассуждения

Недавние работы исследуют адаптивное распределение задач:

  • Qwen3 и NoThinking используют жёстко закодированные правила переключения
  • Ключевой вызов состоит в том, что LLM не может воспринимать сложность задачи на этапе предварительного заполнения

Инженерия приглашений с эскизами

COTHINK вдохновлён инженерией приглашений с эскизами; связанные параллельные работы включают:

  • Thought Manipulation: вставка предварительно сгенерированной CoT между метками размышления
  • Scot: лёгкие модели параллельно создают несколько эскизов CoT

Выводы и обсуждение

Основные выводы

  1. Важность оценки относительной эффективности: Традиционная оценка эффективности токенов недостаточна, требуется относительная перспектива
  2. Паттерны эффективности, зависящие от сложности: Избыточное размышление на простых задачах, проявление ценности на сложных задачах
  3. Эффективность совместного конвейера: COTHINK успешно объединяет дополнительные преимущества обоих типов моделей

Ограничения

  1. Ограниченное улучшение на простых задачах: Процент побед на простых задачах, таких как GSM8K, составляет только 37,5%
  2. Зависимость от качества плана: Производительность второго этапа зависит от качества плана первого этапа
  3. Ограниченный диапазон оценки: Проверка проводилась в основном на задачах математического рассуждения; применимость в других областях требует проверки

Направления будущих исследований

  1. Расширение на другие задачи рассуждения: генерация кода, логическое рассуждение и т. д.
  2. Динамическая адаптация плана: адаптация плана на основе обратной связи модели рассуждений
  3. Сквозная оптимизация: совместное обучение двухэтапной модели

Глубокая оценка

Преимущества

  1. Чёткое определение проблемы: точное выявление проблемы избыточного размышления в моделях рассуждений
  2. Инновационная структура оценки: оценка относительной эффективности более обоснована, чем традиционные абсолютные показатели
  3. Простой и эффективный метод: дизайн COTHINK интуитивен, легко реализуется и развёртывается
  4. Полные эксперименты: охватывают несколько моделей, наборов данных и измерений оценки
  5. Глубокий теоретический анализ: предоставляет теоретическую структуру закона масштабирования эффективности

Недостатки

  1. Ограниченная теоретическая база: предположение о законе масштабирования эффективности не имеет строгого доказательства
  2. Простая стратегия генерации плана: инженерия приглашений на первом этапе относительно грубая
  3. Недостаточная кросс-доменная проверка: проверка проводилась только на задачах математического рассуждения
  4. Анализ вычислительных затрат: отсутствует подробный анализ дополнительных затрат двухэтапного конвейера

Влияние

  1. Академический вклад: предоставляет новую перспективу для оценки эффективности рассуждений, может повлиять на будущие стандарты оценки
  2. Практическая ценность: COTHINK может быть непосредственно применён к существующим системам для снижения затрат на вывод
  3. Воспроизводимость: описание методов ясно, обещано открытие исходного кода

Применимые сценарии

  1. Среды с ограниченными вычислительными ресурсами: сценарии, требующие баланса между точностью и эффективностью
  2. Задачи смешанной сложности: приложения, содержащие как простые, так и сложные задачи
  3. Системы вывода в реальном времени: интерактивные системы с требованиями к времени отклика

Библиография

Статья цитирует важные работы в смежных областях эффективности рассуждений, моделей рассуждений и гибридного рассуждения, обеспечивая прочную теоретическую основу и справочные материалы для сравнения.


Общая оценка: Это высококачественная статья с важными вклады в оценку и оптимизацию эффективности рассуждений. Посредством введения структуры оценки относительной эффективности и совместного конвейера COTHINK она предоставляет эффективное решение для решения проблемы избыточного размышления в моделях рассуждений. Несмотря на некоторые ограничения, её инновационность и практическая ценность делают её важной в этой области.