Hybrid thinking enables LLMs to switch between reasoning and direct answering, offering a balance between efficiency and reasoning capability. Yet our experiments reveal that current hybrid thinking LLMs only achieve partial mode separation: reasoning behaviors often leak into the no-think mode. To understand and mitigate this, we analyze the factors influencing controllability and identify four that matter most: (1) larger data scale, (2) using think and no-think answers from different questions rather than the same question, (3) a moderate increase in no-think data number, and (4) a two-phase strategy that first trains reasoning ability and then applies hybrid think training. Building on these findings, we propose a practical recipe that, compared to standard training, can maintain accuracy in both modes while significantly reducing no-think output length (from $1085$ to $585$ on MATH500) and occurrences of reasoning-supportive tokens such as ``\texttt{wait}'' (from $5917$ to $522$ on MATH500). Our findings highlight the limitations of current hybrid thinking and offer directions for strengthening its controllability.
- ID статьи: 2510.12680
- Название: Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?
- Авторы: Shouren Wang, Wang Yang, Xianxuan Long, Qifan Wang, Vipin Chaudhary, Xiaotian Han
- Учреждения: Case Western Reserve University, Meta AI
- Категория: cs.LG cs.AI cs.CL
- Дата публикации: 14 января 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.12680
Гибридное мышление (Hybrid thinking) позволяет большим языковым моделям переключаться между рассуждением и прямым ответом, обеспечивая баланс между эффективностью и способностью к рассуждению. Однако экспериментальные результаты показывают, что текущие LLM с гибридным мышлением могут достичь только частичного разделения режимов: поведение рассуждения часто просачивается в режим no-think. Для понимания и смягчения этой проблемы исследование анализирует факторы, влияющие на управляемость, и выявляет четыре наиболее важных фактора: (1) большой объём данных, (2) использование ответов think и no-think из разных задач, а не из одной задачи, (3) умеренное увеличение количества данных no-think, (4) двухэтапная стратегия, при которой сначала обучается способность к рассуждению, а затем применяется обучение гибридному мышлению. На основе этих выводов предлагается практическая схема обучения, которая при сохранении точности в обоих режимах значительно сокращает длину выходных данных no-think (с 1085 до 585 на MATH500) и частоту появления вспомогательных слов рассуждения, таких как "wait" (с 5917 до 522).
Гибридное мышление — это широко применяемый метод, используемый в коммерческих моделях Gemini, GPT-oss, Qwen3 и DeepSeek V3.1, который повышает эффективность и гибкость процесса рассуждения путём контроля того, проводит ли модель рассуждение. Однако отсутствует систематическое исследование возможностей моделей с гибридным мышлением.
При оценке Qwen3-8B обнаружено, что хотя модель показывает лучшие результаты в режиме think (например, 63% точности на AIME24 и 11 394 токена), в режиме no-think всё ещё наблюдается проблема просачивания поведения рассуждения:
- Длина выходных данных значительно превышает чистую модель базовой линии no-think
- В режиме no-think всё ещё генерируются рефлексивные слова, такие как "wait", "hmm"
- Невозможно достичь полного разделения режимов think и no-think
Существующие реализации гибридного мышления обеспечивают только ограниченную управляемость и не могут достичь истинного разделения режимов, что побуждает исследователей систематически изучать стратегии обучения и компромиссы для повышения управляемости режимов.
- Систематический анализ: Первый комплексный анализ возможностей моделей с гибридным мышлением, раскрывающий ограничения текущих методов
- Выявление ключевых факторов: Через контролируемые эксперименты выявлены четыре ключевых фактора обучения, влияющих на управляемость гибридного мышления
- Практическая схема обучения: Предложена практическая схема обучения на основе экспериментальных выводов, значительно улучшающая управляемость режима no-think
- Повышение производительности: Значительное сокращение избыточности выходных данных и просачивания рассуждений в режиме no-think при сохранении точности
Задача гибридного мышления направлена на обучение модели решать, проводить ли явное рассуждение, на основе управляющих токенов (таких как \no_think, \think):
- Режим Think: модель проводит детальное рассуждение в тегах
<think>, а затем даёт ответ - Режим No-think: модель напрямую даёт ответ без явного процесса рассуждения
Используется набор данных OpenR1-Math, содержащий:
- Данные No-think: прямые ответы из Numina-Math
- Данные Think: ответы с процессом рассуждения, сгенерированные DeepSeek-R1
- Парные vs непарные: содержит ли каждая задача одновременно ответы think и no-think
- Соотношение данных: различные соотношения данных think и no-think (1:4, 1:2, 1:1)
- Стратегии обучения: смешанное обучение vs двухэтапное обучение
Эксперименты с использованием 20k, 40k, 80k, 140k образцов показывают:
- Точность режима Think постепенно улучшается с увеличением масштаба
- Точность режима No-think остаётся относительно стабильной
- Ключевой вывод: длина выходных данных No-think значительно снижается с увеличением масштаба данных, приближаясь к базовой линии при масштабе 140k
Сравнение парных (ответы think и no-think для одной задачи) и непарных установок:
- Непарные установки производят более короткие выходные данные в режиме no-think
- Точность остаётся практически неизменной
- Заключение: использование ответов think и no-think из разных задач более эффективно
Тестирование различных соотношений think:no-think (1:4, 1:2, 1:1):
- Умеренное увеличение доли данных no-think улучшает управляемость режима no-think
- Производительность режима Think практически не затрагивается
- Оптимальное соотношение: соотношение 1:4 или 1:2 показывает лучшие результаты
Сравнение смешанного и двухэтапного обучения:
- Двухэтапное обучение: сначала обучение на чистых данных think, затем смешанное обучение
- Сокращает длину выходных данных no-think при всех масштабах данных
- Лучше смягчает влияние режима think на выходные данные no-think
- MATH500: задачи математического рассуждения
- AIME24: задачи американского математического конкурса
- GPQA: научные вопросы уровня аспирантуры
- MMLU-STEM: задачи многодисциплинарного понимания
- Точность (Accuracy): доля правильных ответов
- Длина выходных данных (Output Length): среднее количество токенов
- Подсчёт слова "Wait" (#Wait Count): частота появления рефлексивных слов ("wait", "hmm", "alternatively")
- Qwen2.5-7B-Instruct: чистая базовая линия no-think
- Модель Pure-think: модель, обученная только на данных think
- Модель Pure no-think: модель, обученная только на данных no-think
- Базовые модели: Qwen2.5-7B-Base, LLaMA-3.1-8B-Base
- Параметры обучения: 3 эпохи, скорость обучения 1.0×10⁻⁵, доля прогрева 0.1
- Масштаб данных: набор смешанных данных из 80K образцов
Ключевые результаты на наборе данных MATH500:
| Модель | Точность режима Think | Точность режима No-think | Длина выходных данных Think | Длина выходных данных No-think | Подсчёт Wait в режиме No-think |
|---|
| Исходная схема | 85.88% | 63.16% | 4539 | 1086 | 5917 |
| Улучшенная схема | 86.78% | 63.60% | 4481 | 585 | 522 |
Оценка моделей серии Qwen3 показывает:
- Все модели (4B, 8B, 14B) всё ещё генерируют рефлексивные слова в режиме no-think
- Длина выходных данных значительно превышает чистую базовую линию no-think
- Подтверждает ограничения текущего гибридного мышления
- 20k → 140k: длина выходных данных no-think снижается с 2214 до 776 (MATH500)
- Производительность режима Think остаётся стабильной
- Подтверждает важность крупномасштабных данных для управляемости
Двухэтапное обучение по сравнению со смешанным обучением:
- MATH500: длина выходных данных no-think снижается с 1086 до 640
- AIME24: с 2086 до 1398
- Показывает лучшие результаты при всех масштабах данных
Статья демонстрирует конкретный пример задачи геометрии AIME24:
- Режим No-think: несмотря на пустой тег
<think>, модель всё ещё генерирует внешние утверждения рассуждения, такие как "Wait — this is not correct" - Режим Think: полный процесс рассуждения находится внутри тега
<think> - Иллюстрирует несовершенный контроль текущего гибридного мышления
- Методы с подкреплением: DeepSeek использует GRPO для достижения SOTA производительности
- Методы контролируемой тонкой настройки: использование отобранных траекторий рассуждения, таких как SkyThought-T1 и Bespoke-Stratos-32B
- Выбор данных: небольшие наборы данных высокого качества обеспечивают значительное улучшение
- Сжатие выходных данных: TokenSkip и LightThinker повышают эффективность путём удаления избыточных токенов
- Оптимизация предпочтений: Kimi 1.5 и Sky-Thought снижают избыточность путём выравнивания длинных и коротких ответов
- Стратегии ранней остановки: использование методов зондирования для реализации ранней остановки
- Gemini: первая реализация переключения рассуждения через управляющие токены
- Qwen3: расширение на несколько масштабов моделей
- GPT-oss: исследование различных глубин рассуждения
- DeepSeek V3.1: повышение управляемости через крупномасштабное обучение с подкреплением
- Явление частичного разделения: текущие модели с гибридным мышлением могут достичь только частичного разделения режимов, поведение рассуждения просачивается в режим no-think
- Ключевые факторы обучения: масштаб данных, парная стратегия, соотношение данных и дизайн этапов обучения значительно влияют на управляемость
- Практическая схема улучшения: путём оптимизации этих факторов можно значительно улучшить лаконичность режима no-think при сохранении точности
- Диапазон экспериментов: в основном основано на модели Qwen2.5-7B, что может ограничить универсальность выводов
- Полное разделение: всё ещё не достигнуто полное разделение режимов think и no-think
- Метрики оценки: в основном сосредоточено на длине выходных данных и подсчёте слов, что может упустить другие важные измерения управления
- Расширение на более крупные модели: проверка применимости выводов на более крупных моделях
- Более точные механизмы управления: исследование методов управления рассуждением с более тонкой зернистостью
- Теоретический анализ: глубокое понимание внутренних механизмов просачивания режимов
- Оптимизация, ориентированная на приложения: оптимизация стратегий гибридного мышления для конкретных сценариев применения
- Систематическое исследование: первый комплексный систематический анализ гибридного мышления, заполняющий важный исследовательский пробел
- Высокая практическая ценность: предложенная схема обучения непосредственно применима и имеет важное руководящее значение для промышленности
- Строгий экспериментальный дизайн: систематический анализ каждого влияющего фактора путём контроля переменных
- Значительные результаты: достигнуто значительное улучшение по ключевым показателям (сокращение длины выходных данных на 46%, сокращение рефлексивных слов на 91%)
- Точное выявление проблемы: точное выявление и количественная оценка основной проблемы текущего гибридного мышления
- Ограниченная теоретическая глубина: в основном эмпирическое исследование, не хватает теоретического объяснения явления просачивания режимов
- Ограниченный диапазон моделей: эксперименты в основном сосредоточены на моделях масштаба 7B-8B, применимость к более крупным моделям требует проверки
- Одномерная оценка: в основном сосредоточено на длине выходных данных и конкретных словах, может упустить другие важные показатели качества управления
- Основная проблема не решена: хотя улучшена управляемость, полное разделение режимов всё ещё не достигнуто
- Академическая ценность: предоставляет важную эмпирическую базу и методологическое руководство для исследования гибридного мышления
- Промышленное применение: имеет прямое руководящее значение для реализации гибридного мышления в коммерческих LLM
- Исследовательское вдохновение: указывает важные направления для последующих исследований, особенно в балансе управляемости и эффективности
- Сильная воспроизводимость: ясная экспериментальная установка, открытый исходный код, удобство для проверки и расширения
- Разработка коммерческих LLM: предоставляет руководство по обучению для коммерческих моделей, требующих баланса между способностью к рассуждению и эффективностью
- Образовательные приложения: применение в образовательных сценариях, требующих контроля отображения процесса рассуждения
- Сервисы API: предоставляет техническую основу для API-сервисов, предлагающих различные глубины рассуждения
- Исследовательские инструменты: предоставляет методологическую поддержку для исследовательских задач, требующих управляемого рассуждения
Статья цитирует большое количество связанных работ, включая в основном:
- Серия DeepSeek (Guo et al., 2025; Liu et al., 2024)
- Серия Qwen (Yang et al., 2024, 2025)
- Исследования методов рассуждения (Chen et al., 2024a,b; 2025a,b)
- Исследования эффективного рассуждения (Sui et al., 2025; Xia et al., 2025)
- Базовые наборы данных (Lightman et al., 2023; Rein et al., 2024)
Эта статья вносит новаторский вклад в важное и практическое направление исследования гибридного мышления, раскрывая ограничения текущих методов путём систематического экспериментального анализа и предлагая практические схемы улучшения. Хотя в теоретической глубине и фундаментальном решении проблемы требуется дальнейшее исследование, её эмпирическая ценность и практическое руководящее значение делают её важным справочным материалом в этой области.