2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

基本信息

  • 论文ID: 2505.19147
  • 标题: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
  • 作者: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
  • 分类: cs.CL, cs.AI, cs.CV
  • 发表时间/会议: arXiv preprint (2025年1月)
  • 论文链接: https://arxiv.org/abs/2505.19147

摘要

随着大语言模型(LLMs)和多模态大语言模型(MLLMs)的发展,传统上依赖于扩大模型参数来提升性能的方法正面临硬件限制。当前主要的计算瓶颈已从模型规模转向处理超长文本上下文、高分辨率图像和长视频时自注意力机制的二次复杂度开销。本文提出AI效率研究的重点应从模型中心压缩转向数据中心压缩。数据中心压缩通过直接压缩训练或推理期间处理的数据量来提高AI效率。论文建立了统一的效率策略框架,系统回顾了数据中心压缩方法的全景,分析了其在不同场景下的优势,并概述了关键挑战和未来研究方向。

研究背景与动机

问题定义

本文要解决的核心问题是:随着AI模型处理的上下文长度急剧增长,如何有效应对由此带来的计算效率挑战。

重要性分析

  1. 技术趋势变化: 从2022-2024年,AI性能提升主要依靠模型规模扩大,但到2024年模型规模增长趋于平缓(约1T参数),而上下文长度持续指数级增长
  2. 计算瓶颈转移: 主要计算开销从线性的参数增长转向自注意力机制的二次复杂度O(n²)
  3. 跨域需求: 语言模型需要处理更长的推理链,视觉模型需要处理更高分辨率图像和更长视频,生成模型需要创建更高质量内容

现有方法局限性

传统的模型中心压缩方法(量化、剪枝、蒸馏、低秩分解)主要针对模型参数W进行优化,但无法有效应对上下文长度增长带来的挑战。这些方法在面对长序列时仍需处理完整的输入数据X,无法从根本上解决二次复杂度问题。

研究动机

基于对AI发展趋势的深入分析,作者提出数据中心压缩作为新兴范式,通过直接减少处理的数据量来应对长上下文挑战,具有更好的通用性、效率性和兼容性。

核心贡献

  1. 范式转换分析: 分析了AI效率研究从参数中心向上下文中心计算瓶颈的关键转变,论证了效率优化范式转换的必要性
  2. 统一理论框架: 建立了涵盖架构设计、模型中心压缩和数据中心压缩的统一数学表述框架
  3. 系统性综述: 对数据中心压缩方法进行全面调研,构建统一分类框架,分析不同场景下的优势
  4. 挑战与方向: 深入分析当前挑战并提出有前景的未来研究方向,旨在催化该领域的创新

方法详解

任务定义

数据中心压缩旨在通过压缩操作Φ将原始输入序列X转换为压缩表示X',满足|X'| < |X|,同时尽可能保持模型性能。

统一框架

给定输入数据X和网络参数W,神经网络F的输出为:

Y = F(W, X)

效率优化可从三个角度进行:

  1. 高效计算架构(F): 设计线性或亚二次复杂度的架构
  2. 模型中心压缩(W): W' = Γ(W), |W'| < |W|
  3. 数据中心压缩(X): X' = Φ(X), |X'| < |X|

数据中心压缩架构

压缩标准(E)

参数化方法:

  • 训练感知方法:通过训练优化额外参数Δθ学习评分函数
  • 训练无关方法:直接使用预训练网络作为评分函数

非参数化方法:

  • 内在计算方法:利用模型内部计算(如注意力权重)进行token评分
  • 外部计算方法:设计额外度量评估token关系

压缩策略(P)

Token剪枝: 直接丢弃重要性低的token

X' = X \ {xt | st < τ}

Token合并: 通过语义相似性合并token

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

技术创新点

  1. 双阶段效率: 同时加速训练和推理阶段
  2. 架构兼容性: 与现有压缩方法正交,可无缝集成
  3. 二次收益: 利用自注意力的O(n²)复杂度获得显著计算节省
  4. 通用适用性: 跨模态和任务的token冗余一致性
  5. 低实现成本: 现代架构支持变长输入,无需重训练

实验设置

数据集与评估

论文通过多个领域的实验验证了数据中心压缩方法的有效性:

复杂推理任务:

  • MATH-500, AIME24, GSM8K
  • 模型: DeepSeek-R1-Distill-Llama-8B
  • KV缓存预算: 1024 tokens

图像理解任务:

  • GQA, MMB, MMB-CN
  • 模型: LLaVA-1.5-7B
  • 保留25%视觉token

视频理解任务:

  • MVBench, MLVU, VideoMME
  • 模型: LLaVA-OneVision-7B
  • 保留15%视觉token

图像生成任务:

  • 模型: FLUX.1-dev (DiT-based)
  • 缓存周期N=4, 比率R=90%

对比方法

  • KV缓存方法: H2O, SnapKV, KNorm
  • 视觉压缩方法: FastV, SparseVLM, PDrop
  • 基线方法: Random dropping, Pooling

实验结果

主要发现

实验揭示了一个反直觉的现象:精心设计的压缩方法在多个场景下表现不如随机丢弃

复杂推理任务

  • 在AIME24上,随机丢弃比SnapKV高出10%准确率
  • H2O, SnapKV, KNorm均持续低于随机丢弃

图像理解任务

  • 随机丢弃和池化操作优于部分设计方法
  • 空间均匀性缓解了基于注意力方法的位置偏差

视频理解任务

  • 即使只保留15%token,随机丢弃仍优于设计方法
  • 均匀的时空token分布对视频表示至关重要

图像生成任务

  • 所有基于特征的策略得分均低于随机选择
  • 相似token聚类导致生成质量最差

性能分析

数据中心压缩在计算和内存方面带来显著收益:

计算复杂度: Ω(X')/Ω(X) = O(m²/n²) 内存使用: M(X')/M(X) ≈ m/n KV缓存优化: MKV(X')/MKV(X) = m/n

相关工作

效率优化方法分类

  1. 高效架构: Linear Attention, RWKV, State Space Models (Mamba)
  2. 模型压缩: 剪枝、量化、蒸馏、低秩分解
  3. 数据压缩: 数据集压缩、token压缩

本文贡献定位

  • 首次系统性地将数据中心压缩定位为AI效率的新范式
  • 建立了统一的理论框架整合各类效率策略
  • 提供了跨领域的全面分析和评估

结论与讨论

主要结论

  1. 范式转换: AI效率研究重点应从模型中心转向数据中心压缩
  2. 方法局限: 当前基于注意力的压缩方法存在位置偏差等根本性问题
  3. 设计原则: 空间和时间均匀性是有效压缩的关键设计原则

当前挑战

性能退化问题

  • 方法论瓶颈: 注意力分数的位置偏差影响压缩效果
  • 固有局限: 某些任务(如视觉定位、OCR解析)对压缩敏感

数据表示不优

  • 冗余性方法和重要性方法都无法保证最优的下游建模表示
  • 缺乏考虑序列结构和语义模式的稳定性

评估公平性

  • FLOPs和压缩比不能真实反映实际加速效果
  • 缺乏专门针对压缩的基准测试

未来方向

数据-模型协同压缩

  • 分阶段集成:先模型压缩后数据压缩
  • 相互增强:利用梯度信息指导token选择,用token演化指导层剪枝

专用评估基准

  • 跨领域任务覆盖(NLP、CV、多模态)
  • 压缩敏感任务(OCR、ASR)
  • 性能-延迟联合评估

深度评价

优点

  1. 前瞻性洞察: 准确识别了AI发展的关键趋势转变,提出了具有前瞻性的研究范式
  2. 理论贡献: 建立了统一的数学框架,为不同效率策略提供了理论基础
  3. 全面性分析: 跨多个领域和任务进行了系统性的方法分类和分析
  4. 实证发现: 通过大量实验揭示了当前方法的根本性问题,为领域发展提供了重要启示
  5. 写作质量: 逻辑清晰,表述准确,图表丰富,易于理解

不足

  1. 理论深度: 虽然提供了统一框架,但对数据中心压缩的理论分析还不够深入
  2. 方法创新: 主要是综述性工作,缺乏具体的新方法提出
  3. 实验范围: 实验主要集中在验证现有方法的问题,缺乏对解决方案的探索
  4. 量化分析: 对不同压缩方法的理论复杂度分析不够详细

影响力

  1. 领域贡献: 为AI效率研究提供了新的思路和方向,可能引领该领域的研究重点转移
  2. 实用价值: 分析结果对实际部署具有重要指导意义,特别是在资源受限环境下
  3. 可复现性: 提供了详细的实验设置和github项目,便于后续研究
  4. 启发性: 揭示的问题和提出的方向为未来研究提供了明确的路线图

适用场景

  1. 长上下文应用: 特别适用于需要处理长文本、高分辨率图像或长视频的场景
  2. 资源受限环境: 在移动设备、边缘计算等计算资源有限的场景下具有重要价值
  3. 实时交互系统: UI代理、自动驾驶、具身AI等需要高效处理连续输入的系统
  4. 大规模部署: 云服务提供商在大规模模型部署时的效率优化

参考文献

论文引用了大量相关工作,主要包括:

  • Transformer架构及其变体 (Vaswani et al., 2017)
  • 大语言模型系列 (OpenAI GPT, Meta LLaMA, Qwen等)
  • 多模态模型 (LLaVA, InternVL等)
  • 效率优化方法 (量化、剪枝、蒸馏等经典工作)
  • 数据中心压缩的代表性工作

该论文为AI效率研究领域提供了重要的理论框架和实践指导,具有较高的学术价值和实用意义。