LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
Kang, Song, Kim
Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.
다단계 추론은 복잡한 문제를 순차적 부분 단계로 분해하여 소형 언어 모델의 추론 능력을 향상시키는 효과적인 전략이 되었습니다. 그러나 이는 지연시간 증가를 초래합니다. 저자들은 기존의 적응형 가속 기술(예: 레이어 스킵핑)이 이러한 설정에서 효율성과 정확도의 균형을 맞추기 어렵다는 것을 관찰했으며, 주로 두 가지 핵심 과제에 직면했습니다: (1) 단계 간 스킵핑 민감도의 차이, (2) 중복 출력 토큰의 생성. 이러한 문제를 해결하기 위해 본 논문은 다단계 추론을 위한 지연시간 인식 레이어 스킵핑 프레임워크인 LiteStage를 제안합니다. LiteStage는 최적 레이어 예산을 할당하는 단계별 오프라인 검색과 불필요한 디코딩을 억제하기 위한 신뢰도 기반 온라인 생성 조기 종료 메커니즘을 결합합니다. OBQA, CSQA 및 StrategyQA 세 가지 벤치마크에서의 실험은 LiteStage가 최대 1.70배의 가속을 달성하면서 정확도 손실이 4.0% 미만이며, 이전의 훈련 불필요 레이어 스킵핑 방법을 능가함을 보여줍니다.
다단계 추론은 복잡한 문제를 여러 개의 연속적인 부분 문제로 분해하여 소형 언어 모델의 추론 능력을 향상시킵니다. 예를 들어, TinyThinker는 세 단계 추론을 채택합니다: 회상(Recall), 분석(Analysis) 및 요약(Summary). 이러한 방법이 추론 품질을 효과적으로 향상시키지만, 추론 지연시간도 불가피하게 증가시킵니다.
AdaSkip (He et al., 2025): 부분 레이어 수준 레이어 스킵핑의 최신 방법
Mixture-of-Depths (Raposo et al., 2024): 동적 계산 할당의 개척적 연구
전체 평가: 본 논문은 다단계 추론의 레이어 스킵핑 최적화 문제에 대해 혁신적인 해결책을 제시하며, 이론적 통찰력과 실제 효과 모두에서 현저한 기여를 합니다. 일부 한계가 있지만, 소형 언어 모델의 효율적 추론을 위한 새로운 연구 방향을 개척했으며, 중요한 학술적 가치와 실용적 의미를 가집니다.