Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
대규모 언어 모델(LLMs)과 다중모달 대규모 언어 모델(MLLMs)의 발전에 따라, 전통적으로 모델 매개변수를 확대하여 성능을 향상시키는 방법이 하드웨어 제약에 직면하고 있습니다. 현재의 주요 계산 병목은 모델 규모에서 초장문 텍스트 컨텍스트, 고해상도 이미지 및 장시간 비디오 처리 시 자기주의(self-attention) 메커니즘의 이차 복잡도 오버헤드로 전환되었습니다. 본 논문은 AI 효율성 연구의 초점을 모델 중심 압축에서 데이터 중심 압축으로 전환할 것을 제안합니다. 데이터 중심 압축은 훈련 또는 추론 중에 처리되는 데이터량을 직접 압축하여 AI 효율성을 향상시킵니다. 본 논문은 통합된 효율성 전략 프레임워크를 구축하고, 데이터 중심 압축 방법의 전체 현황을 체계적으로 검토하며, 다양한 시나리오에서의 장점을 분석하고, 핵심 과제 및 향후 연구 방향을 제시합니다.
전통적인 모델 중심 압축 방법(양자화, 가지치기, 증류, 저순위 분해)은 주로 모델 매개변수 W를 최적화하지만, 컨텍스트 길이 증가로 인한 문제를 효과적으로 해결할 수 없습니다. 이러한 방법들은 긴 시퀀스에 직면했을 때 여전히 완전한 입력 데이터 X를 처리해야 하므로, 이차 복잡도 문제를 근본적으로 해결할 수 없습니다.