2025-11-25T21:37:18.557733

Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?

Wang, Yang, Long et al.
Hybrid thinking enables LLMs to switch between reasoning and direct answering, offering a balance between efficiency and reasoning capability. Yet our experiments reveal that current hybrid thinking LLMs only achieve partial mode separation: reasoning behaviors often leak into the no-think mode. To understand and mitigate this, we analyze the factors influencing controllability and identify four that matter most: (1) larger data scale, (2) using think and no-think answers from different questions rather than the same question, (3) a moderate increase in no-think data number, and (4) a two-phase strategy that first trains reasoning ability and then applies hybrid think training. Building on these findings, we propose a practical recipe that, compared to standard training, can maintain accuracy in both modes while significantly reducing no-think output length (from $1085$ to $585$ on MATH500) and occurrences of reasoning-supportive tokens such as ``\texttt{wait}'' (from $5917$ to $522$ on MATH500). Our findings highlight the limitations of current hybrid thinking and offer directions for strengthening its controllability.
academic

Демистификация гибридного мышления: могут ли LLM действительно переключаться между режимами Think и No-Think?

Основная информация

  • ID статьи: 2510.12680
  • Название: Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?
  • Авторы: Shouren Wang, Wang Yang, Xianxuan Long, Qifan Wang, Vipin Chaudhary, Xiaotian Han
  • Учреждения: Case Western Reserve University, Meta AI
  • Категория: cs.LG cs.AI cs.CL
  • Дата публикации: 14 января 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.12680

Аннотация

Гибридное мышление (Hybrid thinking) позволяет большим языковым моделям переключаться между рассуждением и прямым ответом, обеспечивая баланс между эффективностью и способностью к рассуждению. Однако экспериментальные результаты показывают, что текущие LLM с гибридным мышлением могут достичь только частичного разделения режимов: поведение рассуждения часто просачивается в режим no-think. Для понимания и смягчения этой проблемы исследование анализирует факторы, влияющие на управляемость, и выявляет четыре наиболее важных фактора: (1) большой объём данных, (2) использование ответов think и no-think из разных задач, а не из одной задачи, (3) умеренное увеличение количества данных no-think, (4) двухэтапная стратегия, при которой сначала обучается способность к рассуждению, а затем применяется обучение гибридному мышлению. На основе этих выводов предлагается практическая схема обучения, которая при сохранении точности в обоих режимах значительно сокращает длину выходных данных no-think (с 1085 до 585 на MATH500) и частоту появления вспомогательных слов рассуждения, таких как "wait" (с 5917 до 522).

Исследовательский контекст и мотивация

Определение проблемы

Гибридное мышление — это широко применяемый метод, используемый в коммерческих моделях Gemini, GPT-oss, Qwen3 и DeepSeek V3.1, который повышает эффективность и гибкость процесса рассуждения путём контроля того, проводит ли модель рассуждение. Однако отсутствует систематическое исследование возможностей моделей с гибридным мышлением.

Основная проблема

При оценке Qwen3-8B обнаружено, что хотя модель показывает лучшие результаты в режиме think (например, 63% точности на AIME24 и 11 394 токена), в режиме no-think всё ещё наблюдается проблема просачивания поведения рассуждения:

  • Длина выходных данных значительно превышает чистую модель базовой линии no-think
  • В режиме no-think всё ещё генерируются рефлексивные слова, такие как "wait", "hmm"
  • Невозможно достичь полного разделения режимов think и no-think

Исследовательская мотивация

Существующие реализации гибридного мышления обеспечивают только ограниченную управляемость и не могут достичь истинного разделения режимов, что побуждает исследователей систематически изучать стратегии обучения и компромиссы для повышения управляемости режимов.

Основные вклады

  1. Систематический анализ: Первый комплексный анализ возможностей моделей с гибридным мышлением, раскрывающий ограничения текущих методов
  2. Выявление ключевых факторов: Через контролируемые эксперименты выявлены четыре ключевых фактора обучения, влияющих на управляемость гибридного мышления
  3. Практическая схема обучения: Предложена практическая схема обучения на основе экспериментальных выводов, значительно улучшающая управляемость режима no-think
  4. Повышение производительности: Значительное сокращение избыточности выходных данных и просачивания рассуждений в режиме no-think при сохранении точности

Подробное описание методологии

Определение задачи

Задача гибридного мышления направлена на обучение модели решать, проводить ли явное рассуждение, на основе управляющих токенов (таких как \no_think, \think):

  • Режим Think: модель проводит детальное рассуждение в тегах <think>, а затем даёт ответ
  • Режим No-think: модель напрямую даёт ответ без явного процесса рассуждения

Структура экспериментального дизайна

Стратегия построения данных

Используется набор данных OpenR1-Math, содержащий:

  • Данные No-think: прямые ответы из Numina-Math
  • Данные Think: ответы с процессом рассуждения, сгенерированные DeepSeek-R1

Сравнительные установки

  • Парные vs непарные: содержит ли каждая задача одновременно ответы think и no-think
  • Соотношение данных: различные соотношения данных think и no-think (1:4, 1:2, 1:1)
  • Стратегии обучения: смешанное обучение vs двухэтапное обучение

Ключевые экспериментальные выводы

1. Эффект масштаба данных

Эксперименты с использованием 20k, 40k, 80k, 140k образцов показывают:

  • Точность режима Think постепенно улучшается с увеличением масштаба
  • Точность режима No-think остаётся относительно стабильной
  • Ключевой вывод: длина выходных данных No-think значительно снижается с увеличением масштаба данных, приближаясь к базовой линии при масштабе 140k

2. Влияние парной стратегии

Сравнение парных (ответы think и no-think для одной задачи) и непарных установок:

  • Непарные установки производят более короткие выходные данные в режиме no-think
  • Точность остаётся практически неизменной
  • Заключение: использование ответов think и no-think из разных задач более эффективно

3. Оптимизация соотношения данных

Тестирование различных соотношений think:no-think (1:4, 1:2, 1:1):

  • Умеренное увеличение доли данных no-think улучшает управляемость режима no-think
  • Производительность режима Think практически не затрагивается
  • Оптимальное соотношение: соотношение 1:4 или 1:2 показывает лучшие результаты

4. Преимущества двухэтапного обучения

Сравнение смешанного и двухэтапного обучения:

  • Двухэтапное обучение: сначала обучение на чистых данных think, затем смешанное обучение
  • Сокращает длину выходных данных no-think при всех масштабах данных
  • Лучше смягчает влияние режима think на выходные данные no-think

Экспериментальная установка

Наборы данных

  • MATH500: задачи математического рассуждения
  • AIME24: задачи американского математического конкурса
  • GPQA: научные вопросы уровня аспирантуры
  • MMLU-STEM: задачи многодисциплинарного понимания

Метрики оценки

  • Точность (Accuracy): доля правильных ответов
  • Длина выходных данных (Output Length): среднее количество токенов
  • Подсчёт слова "Wait" (#Wait Count): частота появления рефлексивных слов ("wait", "hmm", "alternatively")

Базовые модели

  • Qwen2.5-7B-Instruct: чистая базовая линия no-think
  • Модель Pure-think: модель, обученная только на данных think
  • Модель Pure no-think: модель, обученная только на данных no-think

Детали реализации

  • Базовые модели: Qwen2.5-7B-Base, LLaMA-3.1-8B-Base
  • Параметры обучения: 3 эпохи, скорость обучения 1.0×10⁻⁵, доля прогрева 0.1
  • Масштаб данных: набор смешанных данных из 80K образцов

Результаты экспериментов

Основные результаты

Сравнение эффекта разделения режимов

Ключевые результаты на наборе данных MATH500:

МодельТочность режима ThinkТочность режима No-thinkДлина выходных данных ThinkДлина выходных данных No-thinkПодсчёт Wait в режиме No-think
Исходная схема85.88%63.16%453910865917
Улучшенная схема86.78%63.60%4481585522

Анализ моделей с открытым исходным кодом

Оценка моделей серии Qwen3 показывает:

  • Все модели (4B, 8B, 14B) всё ещё генерируют рефлексивные слова в режиме no-think
  • Длина выходных данных значительно превышает чистую базовую линию no-think
  • Подтверждает ограничения текущего гибридного мышления

Абляционные эксперименты

Влияние масштаба данных

  • 20k → 140k: длина выходных данных no-think снижается с 2214 до 776 (MATH500)
  • Производительность режима Think остаётся стабильной
  • Подтверждает важность крупномасштабных данных для управляемости

Сравнение стратегий обучения

Двухэтапное обучение по сравнению со смешанным обучением:

  • MATH500: длина выходных данных no-think снижается с 1086 до 640
  • AIME24: с 2086 до 1398
  • Показывает лучшие результаты при всех масштабах данных

Анализ конкретных примеров

Статья демонстрирует конкретный пример задачи геометрии AIME24:

  • Режим No-think: несмотря на пустой тег <think>, модель всё ещё генерирует внешние утверждения рассуждения, такие как "Wait — this is not correct"
  • Режим Think: полный процесс рассуждения находится внутри тега <think>
  • Иллюстрирует несовершенный контроль текущего гибридного мышления

Связанные работы

Методы рассуждения LLM

  • Методы с подкреплением: DeepSeek использует GRPO для достижения SOTA производительности
  • Методы контролируемой тонкой настройки: использование отобранных траекторий рассуждения, таких как SkyThought-T1 и Bespoke-Stratos-32B
  • Выбор данных: небольшие наборы данных высокого качества обеспечивают значительное улучшение

Эффективное рассуждение

  • Сжатие выходных данных: TokenSkip и LightThinker повышают эффективность путём удаления избыточных токенов
  • Оптимизация предпочтений: Kimi 1.5 и Sky-Thought снижают избыточность путём выравнивания длинных и коротких ответов
  • Стратегии ранней остановки: использование методов зондирования для реализации ранней остановки

Развитие гибридного мышления

  • Gemini: первая реализация переключения рассуждения через управляющие токены
  • Qwen3: расширение на несколько масштабов моделей
  • GPT-oss: исследование различных глубин рассуждения
  • DeepSeek V3.1: повышение управляемости через крупномасштабное обучение с подкреплением

Выводы и обсуждение

Основные выводы

  1. Явление частичного разделения: текущие модели с гибридным мышлением могут достичь только частичного разделения режимов, поведение рассуждения просачивается в режим no-think
  2. Ключевые факторы обучения: масштаб данных, парная стратегия, соотношение данных и дизайн этапов обучения значительно влияют на управляемость
  3. Практическая схема улучшения: путём оптимизации этих факторов можно значительно улучшить лаконичность режима no-think при сохранении точности

Ограничения

  1. Диапазон экспериментов: в основном основано на модели Qwen2.5-7B, что может ограничить универсальность выводов
  2. Полное разделение: всё ещё не достигнуто полное разделение режимов think и no-think
  3. Метрики оценки: в основном сосредоточено на длине выходных данных и подсчёте слов, что может упустить другие важные измерения управления

Будущие направления

  1. Расширение на более крупные модели: проверка применимости выводов на более крупных моделях
  2. Более точные механизмы управления: исследование методов управления рассуждением с более тонкой зернистостью
  3. Теоретический анализ: глубокое понимание внутренних механизмов просачивания режимов
  4. Оптимизация, ориентированная на приложения: оптимизация стратегий гибридного мышления для конкретных сценариев применения

Глубокая оценка

Преимущества

  1. Систематическое исследование: первый комплексный систематический анализ гибридного мышления, заполняющий важный исследовательский пробел
  2. Высокая практическая ценность: предложенная схема обучения непосредственно применима и имеет важное руководящее значение для промышленности
  3. Строгий экспериментальный дизайн: систематический анализ каждого влияющего фактора путём контроля переменных
  4. Значительные результаты: достигнуто значительное улучшение по ключевым показателям (сокращение длины выходных данных на 46%, сокращение рефлексивных слов на 91%)
  5. Точное выявление проблемы: точное выявление и количественная оценка основной проблемы текущего гибридного мышления

Недостатки

  1. Ограниченная теоретическая глубина: в основном эмпирическое исследование, не хватает теоретического объяснения явления просачивания режимов
  2. Ограниченный диапазон моделей: эксперименты в основном сосредоточены на моделях масштаба 7B-8B, применимость к более крупным моделям требует проверки
  3. Одномерная оценка: в основном сосредоточено на длине выходных данных и конкретных словах, может упустить другие важные показатели качества управления
  4. Основная проблема не решена: хотя улучшена управляемость, полное разделение режимов всё ещё не достигнуто

Влияние

  1. Академическая ценность: предоставляет важную эмпирическую базу и методологическое руководство для исследования гибридного мышления
  2. Промышленное применение: имеет прямое руководящее значение для реализации гибридного мышления в коммерческих LLM
  3. Исследовательское вдохновение: указывает важные направления для последующих исследований, особенно в балансе управляемости и эффективности
  4. Сильная воспроизводимость: ясная экспериментальная установка, открытый исходный код, удобство для проверки и расширения

Применимые сценарии

  1. Разработка коммерческих LLM: предоставляет руководство по обучению для коммерческих моделей, требующих баланса между способностью к рассуждению и эффективностью
  2. Образовательные приложения: применение в образовательных сценариях, требующих контроля отображения процесса рассуждения
  3. Сервисы API: предоставляет техническую основу для API-сервисов, предлагающих различные глубины рассуждения
  4. Исследовательские инструменты: предоставляет методологическую поддержку для исследовательских задач, требующих управляемого рассуждения

Библиография

Статья цитирует большое количество связанных работ, включая в основном:

  • Серия DeepSeek (Guo et al., 2025; Liu et al., 2024)
  • Серия Qwen (Yang et al., 2024, 2025)
  • Исследования методов рассуждения (Chen et al., 2024a,b; 2025a,b)
  • Исследования эффективного рассуждения (Sui et al., 2025; Xia et al., 2025)
  • Базовые наборы данных (Lightman et al., 2023; Rein et al., 2024)

Эта статья вносит новаторский вклад в важное и практическое направление исследования гибридного мышления, раскрывая ограничения текущих методов путём систематического экспериментального анализа и предлагая практические схемы улучшения. Хотя в теоретической глубине и фундаментальном решении проблемы требуется дальнейшее исследование, её эмпирическая ценность и практическое руководящее значение делают её важным справочным материалом в этой области.