2025-11-25T21:37:18.557733

Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?

Wang, Yang, Long et al.

Hybrid thinking enables LLMs to switch between reasoning and direct answering, offering a balance between efficiency and reasoning capability. Yet our experiments reveal that current hybrid thinking LLMs only achieve partial mode separation: reasoning behaviors often leak into the no-think mode. To understand and mitigate this, we analyze the factors influencing controllability and identify four that matter most: (1) larger data scale, (2) using think and no-think answers from different questions rather than the same question, (3) a moderate increase in no-think data number, and (4) a two-phase strategy that first trains reasoning ability and then applies hybrid think training. Building on these findings, we propose a practical recipe that, compared to standard training, can maintain accuracy in both modes while significantly reducing no-think output length (from $1085$ to $585$ on MATH500) and occurrences of reasoning-supportive tokens such as ``\texttt{wait}'' (from $5917$ to $522$ on MATH500). Our findings highlight the limitations of current hybrid thinking and offer directions for strengthening its controllability.

academic

Демистификация гибридного мышления: могут ли LLM действительно переключаться между режимами Think и No-Think?

Основная информация

ID статьи: 2510.12680
Название: Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?
Авторы: Shouren Wang, Wang Yang, Xianxuan Long, Qifan Wang, Vipin Chaudhary, Xiaotian Han
Учреждения: Case Western Reserve University, Meta AI
Категория: cs.LG cs.AI cs.CL
Дата публикации: 14 января 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12680

Аннотация

Гибридное мышление (Hybrid thinking) позволяет большим языковым моделям переключаться между рассуждением и прямым ответом, обеспечивая баланс между эффективностью и способностью к рассуждению. Однако экспериментальные результаты показывают, что текущие LLM с гибридным мышлением могут достичь только частичного разделения режимов: поведение рассуждения часто просачивается в режим no-think. Для понимания и смягчения этой проблемы исследование анализирует факторы, влияющие на управляемость, и выявляет четыре наиболее важных фактора: (1) большой объём данных, (2) использование ответов think и no-think из разных задач, а не из одной задачи, (3) умеренное увеличение количества данных no-think, (4) двухэтапная стратегия, при которой сначала обучается способность к рассуждению, а затем применяется обучение гибридному мышлению. На основе этих выводов предлагается практическая схема обучения, которая при сохранении точности в обоих режимах значительно сокращает длину выходных данных no-think (с 1085 до 585 на MATH500) и частоту появления вспомогательных слов рассуждения, таких как "wait" (с 5917 до 522).

Исследовательский контекст и мотивация

Определение проблемы

Гибридное мышление — это широко применяемый метод, используемый в коммерческих моделях Gemini, GPT-oss, Qwen3 и DeepSeek V3.1, который повышает эффективность и гибкость процесса рассуждения путём контроля того, проводит ли модель рассуждение. Однако отсутствует систематическое исследование возможностей моделей с гибридным мышлением.

Основная проблема

При оценке Qwen3-8B обнаружено, что хотя модель показывает лучшие результаты в режиме think (например, 63% точности на AIME24 и 11 394 токена), в режиме no-think всё ещё наблюдается проблема просачивания поведения рассуждения:

Длина выходных данных значительно превышает чистую модель базовой линии no-think
В режиме no-think всё ещё генерируются рефлексивные слова, такие как "wait", "hmm"
Невозможно достичь полного разделения режимов think и no-think

Исследовательская мотивация

Существующие реализации гибридного мышления обеспечивают только ограниченную управляемость и не могут достичь истинного разделения режимов, что побуждает исследователей систематически изучать стратегии обучения и компромиссы для повышения управляемости режимов.

Основные вклады

Систематический анализ: Первый комплексный анализ возможностей моделей с гибридным мышлением, раскрывающий ограничения текущих методов
Выявление ключевых факторов: Через контролируемые эксперименты выявлены четыре ключевых фактора обучения, влияющих на управляемость гибридного мышления
Практическая схема обучения: Предложена практическая схема обучения на основе экспериментальных выводов, значительно улучшающая управляемость режима no-think
Повышение производительности: Значительное сокращение избыточности выходных данных и просачивания рассуждений в режиме no-think при сохранении точности

Подробное описание методологии

Определение задачи

Задача гибридного мышления направлена на обучение модели решать, проводить ли явное рассуждение, на основе управляющих токенов (таких как \no_think, \think):

Режим Think: модель проводит детальное рассуждение в тегах <think>, а затем даёт ответ
Режим No-think: модель напрямую даёт ответ без явного процесса рассуждения

Структура экспериментального дизайна

Стратегия построения данных

Используется набор данных OpenR1-Math, содержащий:

Данные No-think: прямые ответы из Numina-Math
Данные Think: ответы с процессом рассуждения, сгенерированные DeepSeek-R1

Сравнительные установки

Парные vs непарные: содержит ли каждая задача одновременно ответы think и no-think
Соотношение данных: различные соотношения данных think и no-think (1:4, 1:2, 1:1)
Стратегии обучения: смешанное обучение vs двухэтапное обучение

Ключевые экспериментальные выводы

1. Эффект масштаба данных

Эксперименты с использованием 20k, 40k, 80k, 140k образцов показывают:

Точность режима Think постепенно улучшается с увеличением масштаба
Точность режима No-think остаётся относительно стабильной
Ключевой вывод: длина выходных данных No-think значительно снижается с увеличением масштаба данных, приближаясь к базовой линии при масштабе 140k

2. Влияние парной стратегии

Сравнение парных (ответы think и no-think для одной задачи) и непарных установок:

Непарные установки производят более короткие выходные данные в режиме no-think
Точность остаётся практически неизменной
Заключение: использование ответов think и no-think из разных задач более эффективно

3. Оптимизация соотношения данных

Тестирование различных соотношений think:no-think (1:4, 1:2, 1:1):

Умеренное увеличение доли данных no-think улучшает управляемость режима no-think
Производительность режима Think практически не затрагивается
Оптимальное соотношение: соотношение 1:4 или 1:2 показывает лучшие результаты

4. Преимущества двухэтапного обучения

Сравнение смешанного и двухэтапного обучения:

Двухэтапное обучение: сначала обучение на чистых данных think, затем смешанное обучение
Сокращает длину выходных данных no-think при всех масштабах данных
Лучше смягчает влияние режима think на выходные данные no-think

Экспериментальная установка

Наборы данных

MATH500: задачи математического рассуждения
AIME24: задачи американского математического конкурса
GPQA: научные вопросы уровня аспирантуры
MMLU-STEM: задачи многодисциплинарного понимания

Метрики оценки

Точность (Accuracy): доля правильных ответов
Длина выходных данных (Output Length): среднее количество токенов
Подсчёт слова "Wait" (#Wait Count): частота появления рефлексивных слов ("wait", "hmm", "alternatively")

Базовые модели

Qwen2.5-7B-Instruct: чистая базовая линия no-think
Модель Pure-think: модель, обученная только на данных think
Модель Pure no-think: модель, обученная только на данных no-think

Детали реализации

Базовые модели: Qwen2.5-7B-Base, LLaMA-3.1-8B-Base
Параметры обучения: 3 эпохи, скорость обучения 1.0×10⁻⁵, доля прогрева 0.1
Масштаб данных: набор смешанных данных из 80K образцов

Результаты экспериментов

Основные результаты

Сравнение эффекта разделения режимов

Ключевые результаты на наборе данных MATH500:

Модель	Точность режима Think	Точность режима No-think	Длина выходных данных Think	Длина выходных данных No-think	Подсчёт Wait в режиме No-think
Исходная схема	85.88%	63.16%	4539	1086	5917
Улучшенная схема	86.78%	63.60%	4481	585	522

Анализ моделей с открытым исходным кодом

Оценка моделей серии Qwen3 показывает:

Все модели (4B, 8B, 14B) всё ещё генерируют рефлексивные слова в режиме no-think
Длина выходных данных значительно превышает чистую базовую линию no-think
Подтверждает ограничения текущего гибридного мышления

Абляционные эксперименты

Влияние масштаба данных

20k → 140k: длина выходных данных no-think снижается с 2214 до 776 (MATH500)
Производительность режима Think остаётся стабильной
Подтверждает важность крупномасштабных данных для управляемости

Сравнение стратегий обучения

Двухэтапное обучение по сравнению со смешанным обучением:

MATH500: длина выходных данных no-think снижается с 1086 до 640
AIME24: с 2086 до 1398
Показывает лучшие результаты при всех масштабах данных

Анализ конкретных примеров

Статья демонстрирует конкретный пример задачи геометрии AIME24:

Режим No-think: несмотря на пустой тег <think>, модель всё ещё генерирует внешние утверждения рассуждения, такие как "Wait — this is not correct"
Режим Think: полный процесс рассуждения находится внутри тега <think>
Иллюстрирует несовершенный контроль текущего гибридного мышления

Связанные работы

Методы рассуждения LLM

Методы с подкреплением: DeepSeek использует GRPO для достижения SOTA производительности
Методы контролируемой тонкой настройки: использование отобранных траекторий рассуждения, таких как SkyThought-T1 и Bespoke-Stratos-32B
Выбор данных: небольшие наборы данных высокого качества обеспечивают значительное улучшение

Эффективное рассуждение

Сжатие выходных данных: TokenSkip и LightThinker повышают эффективность путём удаления избыточных токенов
Оптимизация предпочтений: Kimi 1.5 и Sky-Thought снижают избыточность путём выравнивания длинных и коротких ответов
Стратегии ранней остановки: использование методов зондирования для реализации ранней остановки

Развитие гибридного мышления

Gemini: первая реализация переключения рассуждения через управляющие токены
Qwen3: расширение на несколько масштабов моделей
GPT-oss: исследование различных глубин рассуждения
DeepSeek V3.1: повышение управляемости через крупномасштабное обучение с подкреплением

Выводы и обсуждение

Основные выводы

Явление частичного разделения: текущие модели с гибридным мышлением могут достичь только частичного разделения режимов, поведение рассуждения просачивается в режим no-think
Ключевые факторы обучения: масштаб данных, парная стратегия, соотношение данных и дизайн этапов обучения значительно влияют на управляемость
Практическая схема улучшения: путём оптимизации этих факторов можно значительно улучшить лаконичность режима no-think при сохранении точности

Ограничения

Диапазон экспериментов: в основном основано на модели Qwen2.5-7B, что может ограничить универсальность выводов
Полное разделение: всё ещё не достигнуто полное разделение режимов think и no-think
Метрики оценки: в основном сосредоточено на длине выходных данных и подсчёте слов, что может упустить другие важные измерения управления

Будущие направления

Расширение на более крупные модели: проверка применимости выводов на более крупных моделях
Более точные механизмы управления: исследование методов управления рассуждением с более тонкой зернистостью
Теоретический анализ: глубокое понимание внутренних механизмов просачивания режимов
Оптимизация, ориентированная на приложения: оптимизация стратегий гибридного мышления для конкретных сценариев применения

Глубокая оценка

Преимущества

Систематическое исследование: первый комплексный систематический анализ гибридного мышления, заполняющий важный исследовательский пробел
Высокая практическая ценность: предложенная схема обучения непосредственно применима и имеет важное руководящее значение для промышленности
Строгий экспериментальный дизайн: систематический анализ каждого влияющего фактора путём контроля переменных
Значительные результаты: достигнуто значительное улучшение по ключевым показателям (сокращение длины выходных данных на 46%, сокращение рефлексивных слов на 91%)
Точное выявление проблемы: точное выявление и количественная оценка основной проблемы текущего гибридного мышления

Недостатки

Ограниченная теоретическая глубина: в основном эмпирическое исследование, не хватает теоретического объяснения явления просачивания режимов
Ограниченный диапазон моделей: эксперименты в основном сосредоточены на моделях масштаба 7B-8B, применимость к более крупным моделям требует проверки
Одномерная оценка: в основном сосредоточено на длине выходных данных и конкретных словах, может упустить другие важные показатели качества управления
Основная проблема не решена: хотя улучшена управляемость, полное разделение режимов всё ещё не достигнуто

Влияние

Академическая ценность: предоставляет важную эмпирическую базу и методологическое руководство для исследования гибридного мышления
Промышленное применение: имеет прямое руководящее значение для реализации гибридного мышления в коммерческих LLM
Исследовательское вдохновение: указывает важные направления для последующих исследований, особенно в балансе управляемости и эффективности
Сильная воспроизводимость: ясная экспериментальная установка, открытый исходный код, удобство для проверки и расширения

Применимые сценарии

Разработка коммерческих LLM: предоставляет руководство по обучению для коммерческих моделей, требующих баланса между способностью к рассуждению и эффективностью
Образовательные приложения: применение в образовательных сценариях, требующих контроля отображения процесса рассуждения
Сервисы API: предоставляет техническую основу для API-сервисов, предлагающих различные глубины рассуждения
Исследовательские инструменты: предоставляет методологическую поддержку для исследовательских задач, требующих управляемого рассуждения

Библиография

Статья цитирует большое количество связанных работ, включая в основном:

Серия DeepSeek (Guo et al., 2025; Liu et al., 2024)
Серия Qwen (Yang et al., 2024, 2025)
Исследования методов рассуждения (Chen et al., 2024a,b; 2025a,b)
Исследования эффективного рассуждения (Sui et al., 2025; Xia et al., 2025)
Базовые наборы данных (Lightman et al., 2023; Rein et al., 2024)

Эта статья вносит новаторский вклад в важное и практическое направление исследования гибридного мышления, раскрывая ограничения текущих методов путём систематического экспериментального анализа и предлагая практические схемы улучшения. Хотя в теоретической глубине и фундаментальном решении проблемы требуется дальнейшее исследование, её эмпирическая ценность и практическое руководящее значение делают её важным справочным материалом в этой области.