2025-11-17T14:34:12.785982

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

Kang, Song, Kim
Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.
academic

LiteStage: Латентность-осведомленный пропуск слоёв для многоэтапного рассуждения

Основная информация

  • ID статьи: 2510.14211
  • Название: LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
  • Авторы: Beomseok Kang, Jiwon Song, Jae-Joon Kim (Сеульский национальный университет)
  • Классификация: cs.CL, cs.AI
  • Дата публикации: 16 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.14211
  • Ссылка на код: https://github.com/beomseokg/LiteStage

Аннотация

Многоэтапное рассуждение стало эффективной стратегией для повышения способности к рассуждению малых языковых моделей путём разложения сложных задач на последовательные подэтапы. Однако это происходит за счёт увеличения латентности. Авторы наблюдают, что существующие методы адаптивного ускорения (такие как пропуск слоёв) испытывают трудности с балансировкой эффективности и точности в этой постановке, сталкиваясь с двумя ключевыми вызовами: (1) различия в чувствительности пропуска между этапами, (2) генерация избыточных токенов на выходе. Для решения этих проблем в статье предлагается LiteStage — фреймворк латентность-осведомленного пропуска слоёв для многоэтапного рассуждения. LiteStage объединяет поэтапный автономный поиск для распределения оптимального бюджета слоёв и механизм раннего выхода на основе уверенности для подавления ненужного декодирования. Эксперименты на трёх эталонах (OBQA, CSQA и StrategyQA) показывают, что LiteStage достигает ускорения до 1,70×, потеря точности менее 4,0%, превосходя предыдущие методы пропуска слоёв без обучения.

Исследовательский контекст и мотивация

Определение проблемы

Многоэтапное рассуждение повышает способность малых языковых моделей к рассуждению путём разложения сложных задач на несколько последовательных подзадач. Например, TinyThinker использует трёхэтапное рассуждение: вспоминание (Recall), анализ (Analysis) и резюмирование (Summary). Хотя этот подход эффективно улучшает качество рассуждения, он неизбежно увеличивает латентность вывода.

Основные вызовы

Путём глубокого анализа авторы выявили две ключевые проблемы:

  1. Различия в чувствительности пропуска между этапами: Различные этапы рассуждения демонстрируют значительные различия в чувствительности к пропуску слоёв. Эксперименты показывают, что этап 3 (резюмирование) наиболее чувствителен к пропуску слоёв, в то время как этап 1 (вспоминание) относительно устойчив.
  2. Генерация избыточных токенов: Хотя пропуск слоёв снижает вычислительные затраты на токен, он часто приводит к генерации большего количества токенов, что фактически увеличивает сквозную латентность.

Ограничения существующих методов

Существующие методы пропуска слоёв (такие как SkipDecode, UnifiedSkip, AdaSkip) обычно используют единую стратегию пропуска, не способную адаптироваться к характеристикам различных этапов многоэтапного рассуждения, что приводит к:

  • Чрезмерному сжатию на чувствительных этапах, вызывающему резкое падение точности
  • Игнорированию проблемы увеличения длины генерации, вызванной пропуском слоёв
  • Отсутствию механизмов оптимизации, осведомлённых о латентности

Основные вклады

  1. Предложение фреймворка LiteStage: Первый специализированный фреймворк латентность-осведомленного пропуска слоёв для многоэтапного рассуждения, эффективно решающий проблемы различий в чувствительности между этапами и генерации избыточных токенов.
  2. Стратегия распределения поэтапного бюджета слоёв: Разработан алгоритм жадного поиска от самого медленного к самому быстрому этапу, распределяющий оптимальный бюджет пропуска слоёв для каждого этапа рассуждения.
  3. Механизм раннего выхода на основе уверенности: Введено онлайн-мониторирование уверенности для динамического прекращения низкоуверенной избыточной генерации, дополнительно повышающее эффективность вывода.
  4. Значительное улучшение производительности: Достижение ускорения 1,16-1,70× на трёх эталонных наборах данных с потерей точности всего 0,4-4,0%, значительно превосходя существующие методы без обучения.

Подробное описание метода

Определение задачи

Дано тестовое множество D, цель — найти поэтапный бюджет слоёв L, минимизирующий латентность вывода при заданном пороге точности ε:

argmin_L (1/|D|) ∑_{d∈D} T(M_L(d))
subject to: A(M_L(d)) ≤ A(M(d)) - ε

где T и A обозначают латентность вывода и точность соответственно, M_L и M обозначают модель с применённым пропуском слоёв и полную модель.

Архитектура модели

LiteStage содержит два взаимодополняющих компонента:

1. Автономная конфигурация (Offline Configuration)

Шаг 1: Оценка важности слоёв

  • Используется косинусное сходство на уровне подслоя в качестве прокси важности
  • Отдельно вычисляется важность многоголовочного самовнимания (MHSA) и сетей прямого распространения (FFN):
I^(j)_MHSA = (1/N) ∑_{n=0}^{N-1} cos(MHSA^(j)(x) + x, x)
I^(j)_FFN = (1/N) ∑_{n=0}^{N-1} cos(FFN^(j)(x) + x, x)

Шаг 2: Поиск бюджета слоёв

  • Жадный поиск, начинающийся с самого медленного этапа рассуждения
  • Построение кривой точность-латентность, выбор оптимальной конфигурации латентности при соблюдении ограничений точности
  • Поэтапная оптимизация, обеспечивающая точное отражение взаимодействия между этапами

2. Онлайн-настройка (Online Adjustment)

Шаг 3: Ранний выход при генерации

  • Ведение кэша уверенности для последних n токенов
  • Вычисление средней уверенности μ_Conf, прекращение генерации при падении ниже порога
  • Уверенность определяется как максимальное значение логита для каждого токена

Технические инновации

  1. Неравномерное распределение бюджета слоёв: Адаптивное распределение различных бюджетов пропуска слоёв для каждого этапа в соответствии с различиями в чувствительности, избегая чрезмерного сжатия на чувствительных этапах.
  2. Оптимизация, осведомлённая о латентности: Рассмотрение не только точности, но и фактической латентности вывода, автоматическое исключение конфигураций, которые, хотя и пропускают больше слоёв, имеют более высокую латентность.
  3. Динамическое управление генерацией: Активное управление длиной генерации посредством мониторирования уверенности, смягчение проблемы избыточных токенов, вызванной пропуском слоёв.

Экспериментальная установка

Наборы данных

Используется трёхэтапный процесс рассуждения TinyThinker, оценка проводится на трёх эталонах вопросов и ответов:

  • OpenBookQA (OBQA): Задача открытого вопроса и ответа
  • CommonSenseQA (CSQA): Вопросы и ответы с рассуждением на основе здравого смысла
  • StrategyQA: Вопросы и ответы со стратегическим рассуждением

Метрики оценки

  • Точность: Процент правильных ответов
  • Коэффициент ускорения: Улучшение скорости вывода относительно модели с полными слоями
  • Латентность: Сквозное время вывода

Методы сравнения

  • SkipDecode: Прогрессивный пропуск глубоких слоёв
  • UnifiedSkip: Периодический пропуск слоёв
  • AdaSkip: Оценка важности подслоя на основе косинусного сходства

Детали реализации

  • Основная модель: TinyLlama-1.1B-Chat-v1.0
  • Обучение 10 эпох, размер пакета 16 (OBQA/CSQA) или 24 (StrategyQA)
  • Скорость обучения 5×10^-5
  • Оценка с использованием протокола самосогласованности с 10 итерациями
  • Порог уверенности установлен на 0,5, размер кэша n=5

Результаты экспериментов

Основные результаты

На трёх эталонных наборах данных LiteStage значительно превосходит базовые методы:

Набор данныхТочность базовой моделиТочность LiteStageКоэффициент ускорения
OBQA64,0%60,0%1,32×
CSQA54,8%53,2%1,16×
StrategyQA62,4%62,0%1,70×

Ключевые находки

  1. Различия в чувствительности этапов: Эксперименты с пропуском одного этапа подтверждают, что этап 3 наиболее чувствителен к пропуску слоёв, его кривая точности практически определяет верхний предел общей производительности.
  2. Парадокс латентности: Больший пропуск слоёв не всегда приводит к более быстрому выводу; из-за увеличения длины генерации некоторые конфигурации фактически приводят к увеличению латентности.
  3. Паттерны уверенности: Уверенность токенов модели с пропуском слоёв показывает монотонно убывающий тренд, в то время как полная модель может восстановить уверенность на более поздних этапах.

Абляционные исследования

Эффект неравномерного распределения бюджета слоёв:

  • При одинаковом количестве пропускаемых слоёв точность LiteStage значительно выше, чем при единой стратегии пропуска
  • По мере увеличения количества пропускаемых слоёв разница в производительности ещё больше увеличивается

Вклад раннего выхода при генерации:

  • При лёгком пропуске слоёв ранний выход оказывает минимальное влияние (-0,5% шагов декодирования)
  • При тяжёлом пропуске слоёв может сократить до 82,5% шагов декодирования
  • Точность остаётся в основном стабильной, в отдельных случаях даже немного улучшается

Анализ примеров

На конкретном примере из CSQA демонстрируется, как ранний выход при генерации эффективно обрезает низкоуверенный избыточный текст, сохраняя при этом целостность основной логики рассуждения и согласованность окончательного ответа.

Связанные работы

Многоэтапная генерация

  • TinyThinker: Предложен цикл трёхэтапного рассуждения вспоминание-анализ-резюмирование
  • DeAR: Использует процесс разложение-анализ-переосмысление
  • CasCoD: Каскадная дистилляция разложенной цепи мыслей
  • Self-Discover: Динамическая организация структуры рассуждения

Технология пропуска слоёв

Методы на основе обучения:

  • LayerSkip, DeeBERT, EE-LLM: Ранний выход из промежуточных слоёв
  • Mixture-of-Depth: Требует обучения модели и маршрутизатора

Методы без обучения:

  • SkipDecode: Прогрессивный пропуск глубоких слоёв
  • Unified Skipping: Периодический пропуск
  • ShortGPT: На основе косинусного сходства
  • AdaSkip: Оценка важности подслоя

Ранний выход при генерации

Существующие методы в основном ориентированы на модели с длительным рассуждением, не уделяя достаточного внимания проблеме увеличения длины генерации, вызванной сжатием модели.

Заключение и обсуждение

Основные выводы

  1. Неравномерная чувствительность в многоэтапном рассуждении: Различные этапы рассуждения демонстрируют значительные различия в чувствительности к сжатию слоёв, требуя дифференцированных стратегий оптимизации.
  2. Необходимость оптимизации, осведомлённой о латентности: Простой пропуск слоёв может привести к ухудшению латентности из-за увеличения длины генерации, требуя комплексного рассмотрения точности и латентности.
  3. Эффективность управления генерацией: Ранний выход при генерации на основе уверенности эффективно смягчает проблему избыточной генерации, вызванной пропуском слоёв.

Ограничения

  1. Затраты на автономный поиск: По сравнению с другими методами без обучения, автономная конфигурация LiteStage требует больше вычислительных ресурсов (примерно 1-7,6 часов).
  2. Зависимость от архитектуры модели: Основная проверка проведена на моделях семейства Llama, эффективность на других архитектурах, таких как Qwen, ограничена.
  3. Ограничения области применения: Специально разработано для сценариев многоэтапного рассуждения, применимость к одноэтапному рассуждению недостаточно проверена.

Направления будущих исследований

  1. Расширение на больше архитектур моделей: Исследование характеристик чувствительности пропуска для различных архитектур
  2. Динамическое распределение бюджета: Разработка механизмов адаптивной настройки бюджета слоёв во время выполнения
  3. Оптимизация многомодального рассуждения: Расширение фреймворка на задачи многомодального рассуждения, такие как зрительно-языковые

Глубокая оценка

Преимущества

  1. Точное выявление проблемы: Точное выявление ключевых узких мест в многоэтапном рассуждении, включая различия в чувствительности между этапами и проблему избыточной генерации.
  2. Разумный дизайн метода: Хитрый дизайн фреймворка, объединяющего автономный и онлайн-компоненты, обеспечивающий как эффективность оптимизации, так и контроль затрат во время выполнения.
  3. Достаточный дизайн экспериментов: Подробные мотивационные эксперименты, абляционные исследования и анализ примеров полностью проверяют эффективность метода.
  4. Высокая практическая ценность: Как метод без обучения, имеет хорошие перспективы практического применения.

Недостатки

  1. Недостаточный теоретический анализ: Отсутствие теоретического объяснения различий в чувствительности между этапами, в основном опирается на эмпирические наблюдения.
  2. Эвристическая установка параметров: Ключевые параметры, такие как порог уверенности и размер кэша, в основном устанавливаются эвристически, отсутствует систематический анализ.
  3. Ограниченная обобщаемость: Значительные различия в производительности на различных архитектурах моделей, способность к обобщению требует улучшения.

Влияние

  1. Академический вклад: Первое систематическое исследование проблемы оптимизации пропуска слоёв в многоэтапном рассуждении, предоставляющее новую перспективу для связанных исследований.
  2. Практическая ценность: Предоставление практического решения для эффективного вывода малых языковых моделей, способствующее развитию развёртывания на граничных устройствах.
  3. Воспроизводимость: Предоставление полной реализации кода, облегчающей последующие исследования и применение.

Применимые сценарии

LiteStage особенно подходит для следующих сценариев:

  • Развёртывание на граничных устройствах с ограниченными ресурсами
  • Сложные задачи, требующие многоэтапного рассуждения
  • Приложения, чувствительные к латентности в реальном времени
  • Ускорение вывода малых языковых моделей

Ссылки

Статья цитирует множество важных связанных работ, включая:

  • TinyThinker (Piao and Park, 2024): Представительная работа по многоэтапному рассуждению
  • AdaSkip (He et al., 2025): Последний метод пропуска слоёв на уровне подслоя
  • Mixture-of-Depths (Raposo et al., 2024): Пионерская работа по динамическому распределению вычислений

Общая оценка: Данная статья предлагает инновационное решение проблемы оптимизации пропуска слоёв в многоэтапном рассуждении, имея значительные вклады как в теоретические идеи, так и в практические результаты. Хотя существуют некоторые ограничения, она открывает новое направление исследований для эффективного вывода малых языковых моделей, имея важное академическое значение и практическую ценность.