LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
Kang, Song, Kim
Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.
academic
LiteStage: Латентность-осведомленный пропуск слоёв для многоэтапного рассуждения
Многоэтапное рассуждение стало эффективной стратегией для повышения способности к рассуждению малых языковых моделей путём разложения сложных задач на последовательные подэтапы. Однако это происходит за счёт увеличения латентности. Авторы наблюдают, что существующие методы адаптивного ускорения (такие как пропуск слоёв) испытывают трудности с балансировкой эффективности и точности в этой постановке, сталкиваясь с двумя ключевыми вызовами: (1) различия в чувствительности пропуска между этапами, (2) генерация избыточных токенов на выходе. Для решения этих проблем в статье предлагается LiteStage — фреймворк латентность-осведомленного пропуска слоёв для многоэтапного рассуждения. LiteStage объединяет поэтапный автономный поиск для распределения оптимального бюджета слоёв и механизм раннего выхода на основе уверенности для подавления ненужного декодирования. Эксперименты на трёх эталонах (OBQA, CSQA и StrategyQA) показывают, что LiteStage достигает ускорения до 1,70×, потеря точности менее 4,0%, превосходя предыдущие методы пропуска слоёв без обучения.
Многоэтапное рассуждение повышает способность малых языковых моделей к рассуждению путём разложения сложных задач на несколько последовательных подзадач. Например, TinyThinker использует трёхэтапное рассуждение: вспоминание (Recall), анализ (Analysis) и резюмирование (Summary). Хотя этот подход эффективно улучшает качество рассуждения, он неизбежно увеличивает латентность вывода.
Путём глубокого анализа авторы выявили две ключевые проблемы:
Различия в чувствительности пропуска между этапами: Различные этапы рассуждения демонстрируют значительные различия в чувствительности к пропуску слоёв. Эксперименты показывают, что этап 3 (резюмирование) наиболее чувствителен к пропуску слоёв, в то время как этап 1 (вспоминание) относительно устойчив.
Генерация избыточных токенов: Хотя пропуск слоёв снижает вычислительные затраты на токен, он часто приводит к генерации большего количества токенов, что фактически увеличивает сквозную латентность.
Существующие методы пропуска слоёв (такие как SkipDecode, UnifiedSkip, AdaSkip) обычно используют единую стратегию пропуска, не способную адаптироваться к характеристикам различных этапов многоэтапного рассуждения, что приводит к:
Чрезмерному сжатию на чувствительных этапах, вызывающему резкое падение точности
Игнорированию проблемы увеличения длины генерации, вызванной пропуском слоёв
Отсутствию механизмов оптимизации, осведомлённых о латентности
Предложение фреймворка LiteStage: Первый специализированный фреймворк латентность-осведомленного пропуска слоёв для многоэтапного рассуждения, эффективно решающий проблемы различий в чувствительности между этапами и генерации избыточных токенов.
Стратегия распределения поэтапного бюджета слоёв: Разработан алгоритм жадного поиска от самого медленного к самому быстрому этапу, распределяющий оптимальный бюджет пропуска слоёв для каждого этапа рассуждения.
Механизм раннего выхода на основе уверенности: Введено онлайн-мониторирование уверенности для динамического прекращения низкоуверенной избыточной генерации, дополнительно повышающее эффективность вывода.
Значительное улучшение производительности: Достижение ускорения 1,16-1,70× на трёх эталонных наборах данных с потерей точности всего 0,4-4,0%, значительно превосходя существующие методы без обучения.
Неравномерное распределение бюджета слоёв: Адаптивное распределение различных бюджетов пропуска слоёв для каждого этапа в соответствии с различиями в чувствительности, избегая чрезмерного сжатия на чувствительных этапах.
Оптимизация, осведомлённая о латентности: Рассмотрение не только точности, но и фактической латентности вывода, автоматическое исключение конфигураций, которые, хотя и пропускают больше слоёв, имеют более высокую латентность.
Динамическое управление генерацией: Активное управление длиной генерации посредством мониторирования уверенности, смягчение проблемы избыточных токенов, вызванной пропуском слоёв.
Различия в чувствительности этапов: Эксперименты с пропуском одного этапа подтверждают, что этап 3 наиболее чувствителен к пропуску слоёв, его кривая точности практически определяет верхний предел общей производительности.
Парадокс латентности: Больший пропуск слоёв не всегда приводит к более быстрому выводу; из-за увеличения длины генерации некоторые конфигурации фактически приводят к увеличению латентности.
Паттерны уверенности: Уверенность токенов модели с пропуском слоёв показывает монотонно убывающий тренд, в то время как полная модель может восстановить уверенность на более поздних этапах.
На конкретном примере из CSQA демонстрируется, как ранний выход при генерации эффективно обрезает низкоуверенный избыточный текст, сохраняя при этом целостность основной логики рассуждения и согласованность окончательного ответа.
Существующие методы в основном ориентированы на модели с длительным рассуждением, не уделяя достаточного внимания проблеме увеличения длины генерации, вызванной сжатием модели.
Неравномерная чувствительность в многоэтапном рассуждении: Различные этапы рассуждения демонстрируют значительные различия в чувствительности к сжатию слоёв, требуя дифференцированных стратегий оптимизации.
Необходимость оптимизации, осведомлённой о латентности: Простой пропуск слоёв может привести к ухудшению латентности из-за увеличения длины генерации, требуя комплексного рассмотрения точности и латентности.
Эффективность управления генерацией: Ранний выход при генерации на основе уверенности эффективно смягчает проблему избыточной генерации, вызванной пропуском слоёв.
Затраты на автономный поиск: По сравнению с другими методами без обучения, автономная конфигурация LiteStage требует больше вычислительных ресурсов (примерно 1-7,6 часов).
Зависимость от архитектуры модели: Основная проверка проведена на моделях семейства Llama, эффективность на других архитектурах, таких как Qwen, ограничена.
Ограничения области применения: Специально разработано для сценариев многоэтапного рассуждения, применимость к одноэтапному рассуждению недостаточно проверена.
Точное выявление проблемы: Точное выявление ключевых узких мест в многоэтапном рассуждении, включая различия в чувствительности между этапами и проблему избыточной генерации.
Разумный дизайн метода: Хитрый дизайн фреймворка, объединяющего автономный и онлайн-компоненты, обеспечивающий как эффективность оптимизации, так и контроль затрат во время выполнения.
Достаточный дизайн экспериментов: Подробные мотивационные эксперименты, абляционные исследования и анализ примеров полностью проверяют эффективность метода.
Высокая практическая ценность: Как метод без обучения, имеет хорошие перспективы практического применения.
Недостаточный теоретический анализ: Отсутствие теоретического объяснения различий в чувствительности между этапами, в основном опирается на эмпирические наблюдения.
Эвристическая установка параметров: Ключевые параметры, такие как порог уверенности и размер кэша, в основном устанавливаются эвристически, отсутствует систематический анализ.
Ограниченная обобщаемость: Значительные различия в производительности на различных архитектурах моделей, способность к обобщению требует улучшения.
Академический вклад: Первое систематическое исследование проблемы оптимизации пропуска слоёв в многоэтапном рассуждении, предоставляющее новую перспективу для связанных исследований.
Практическая ценность: Предоставление практического решения для эффективного вывода малых языковых моделей, способствующее развитию развёртывания на граничных устройствах.
Воспроизводимость: Предоставление полной реализации кода, облегчающей последующие исследования и применение.
Статья цитирует множество важных связанных работ, включая:
TinyThinker (Piao and Park, 2024): Представительная работа по многоэтапному рассуждению
AdaSkip (He et al., 2025): Последний метод пропуска слоёв на уровне подслоя
Mixture-of-Depths (Raposo et al., 2024): Пионерская работа по динамическому распределению вычислений
Общая оценка: Данная статья предлагает инновационное решение проблемы оптимизации пропуска слоёв в многоэтапном рассуждении, имея значительные вклады как в теоретические идеи, так и в практические результаты. Хотя существуют некоторые ограничения, она открывает новое направление исследований для эффективного вывода малых языковых моделей, имея важное академическое значение и практическую ценность.