2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic

AI 효율성을 모델 중심에서 데이터 중심 압축으로 전환

기본 정보

  • 논문 ID: 2505.19147
  • 제목: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
  • 저자: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
  • 분류: cs.CL, cs.AI, cs.CV
  • 발표 시간/학술대회: arXiv preprint (2025년 1월)
  • 논문 링크: https://arxiv.org/abs/2505.19147

초록

대규모 언어 모델(LLMs)과 다중모달 대규모 언어 모델(MLLMs)의 발전에 따라, 전통적으로 모델 매개변수를 확대하여 성능을 향상시키는 방법이 하드웨어 제약에 직면하고 있습니다. 현재의 주요 계산 병목은 모델 규모에서 초장문 텍스트 컨텍스트, 고해상도 이미지 및 장시간 비디오 처리 시 자기주의(self-attention) 메커니즘의 이차 복잡도 오버헤드로 전환되었습니다. 본 논문은 AI 효율성 연구의 초점을 모델 중심 압축에서 데이터 중심 압축으로 전환할 것을 제안합니다. 데이터 중심 압축은 훈련 또는 추론 중에 처리되는 데이터량을 직접 압축하여 AI 효율성을 향상시킵니다. 본 논문은 통합된 효율성 전략 프레임워크를 구축하고, 데이터 중심 압축 방법의 전체 현황을 체계적으로 검토하며, 다양한 시나리오에서의 장점을 분석하고, 핵심 과제 및 향후 연구 방향을 제시합니다.

연구 배경 및 동기

문제 정의

본 논문이 해결하고자 하는 핵심 문제는 다음과 같습니다: AI 모델이 처리하는 컨텍스트 길이가 급격히 증가함에 따라, 이로 인한 계산 효율성 문제를 어떻게 효과적으로 대응할 것인가?

중요성 분석

  1. 기술 트렌드 변화: 2022-2024년 동안 AI 성능 향상은 주로 모델 규모 확대에 의존했으나, 2024년에는 모델 규모 증가가 둔화되었으며(약 1T 매개변수), 컨텍스트 길이는 지속적으로 지수적으로 증가하고 있습니다.
  2. 계산 병목 전환: 주요 계산 오버헤드가 선형적 매개변수 증가에서 자기주의 메커니즘의 이차 복잡도 O(n²)로 전환되었습니다.
  3. 교차 도메인 요구사항: 언어 모델은 더 긴 추론 체인을 처리해야 하고, 시각 모델은 더 높은 해상도 이미지와 더 긴 비디오를 처리해야 하며, 생성 모델은 더 높은 품질의 콘텐츠를 생성해야 합니다.

기존 방법의 한계

전통적인 모델 중심 압축 방법(양자화, 가지치기, 증류, 저순위 분해)은 주로 모델 매개변수 W를 최적화하지만, 컨텍스트 길이 증가로 인한 문제를 효과적으로 해결할 수 없습니다. 이러한 방법들은 긴 시퀀스에 직면했을 때 여전히 완전한 입력 데이터 X를 처리해야 하므로, 이차 복잡도 문제를 근본적으로 해결할 수 없습니다.

연구 동기

AI 발전 추세에 대한 심층 분석을 바탕으로, 저자들은 데이터 중심 압축을 새로운 패러다임으로 제안하며, 처리되는 데이터량을 직접 감소시켜 장문 컨텍스트 문제에 대응하는 방식이 더 나은 범용성, 효율성 및 호환성을 갖추고 있음을 주장합니다.

핵심 기여

  1. 패러다임 전환 분석: AI 효율성 연구가 매개변수 중심에서 컨텍스트 중심 계산 병목으로의 핵심 전환을 분석하고, 효율성 최적화 패러다임 전환의 필요성을 논증합니다.
  2. 통합 이론 프레임워크: 아키텍처 설계, 모델 중심 압축 및 데이터 중심 압축을 포괄하는 통합 수학적 표현 프레임워크를 구축합니다.
  3. 체계적 종합 검토: 데이터 중심 압축 방법에 대한 포괄적 조사를 수행하고, 통합 분류 프레임워크를 구축하며, 다양한 시나리오에서의 장점을 분석합니다.
  4. 과제 및 방향: 현재의 과제를 심층 분석하고 유망한 향후 연구 방향을 제시하여 해당 분야의 혁신을 촉진하고자 합니다.

방법론 상세 설명

작업 정의

데이터 중심 압축은 압축 연산 Φ를 통해 원본 입력 시퀀스 X를 압축된 표현 X'로 변환하는 것을 목표로 하며, |X'| < |X|를 만족하면서 모델 성능을 최대한 유지합니다.

통합 프레임워크

입력 데이터 X와 네트워크 매개변수 W가 주어졌을 때, 신경망 F의 출력은 다음과 같습니다:

Y = F(W, X)

효율성 최적화는 세 가지 관점에서 수행될 수 있습니다:

  1. 효율적 계산 아키텍처(F): 선형 또는 준이차 복잡도의 아키텍처 설계
  2. 모델 중심 압축(W): W' = Γ(W), |W'| < |W|
  3. 데이터 중심 압축(X): X' = Φ(X), |X'| < |X|

데이터 중심 압축 아키텍처

압축 기준(E)

매개변수화 방법:

  • 훈련 인식 방법: 추가 매개변수 Δθ를 훈련하여 점수 함수 학습
  • 훈련 무관 방법: 사전훈련된 네트워크를 점수 함수로 직접 사용

비매개변수화 방법:

  • 내재 계산 방법: 모델 내부 계산(예: 주의 가중치)을 활용한 토큰 점수 매기기
  • 외부 계산 방법: 토큰 관계 평가를 위한 추가 메트릭 설계

압축 전략(P)

토큰 가지치기: 중요도가 낮은 토큰 직접 제거

X' = X \ {xt | st < τ}

토큰 병합: 의미적 유사성을 통한 토큰 병합

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

기술 혁신점

  1. 이중 단계 효율성: 훈련 및 추론 단계를 동시에 가속화
  2. 아키텍처 호환성: 기존 압축 방법과 직교하며 무결한 통합 가능
  3. 이차 수익: 자기주의의 O(n²) 복잡도를 활용한 현저한 계산 절감
  4. 범용 적용성: 모달리티 및 작업 간 토큰 중복성의 일관성
  5. 낮은 구현 비용: 현대 아키텍처는 가변 길이 입력을 지원하며 재훈련 불필요

실험 설정

데이터셋 및 평가

논문은 다양한 도메인의 실험을 통해 데이터 중심 압축 방법의 유효성을 검증했습니다:

복잡 추론 작업:

  • MATH-500, AIME24, GSM8K
  • 모델: DeepSeek-R1-Distill-Llama-8B
  • KV 캐시 예산: 1024 토큰

이미지 이해 작업:

  • GQA, MMB, MMB-CN
  • 모델: LLaVA-1.5-7B
  • 시각 토큰 25% 보유

비디오 이해 작업:

  • MVBench, MLVU, VideoMME
  • 모델: LLaVA-OneVision-7B
  • 시각 토큰 15% 보유

이미지 생성 작업:

  • 모델: FLUX.1-dev (DiT 기반)
  • 캐시 주기 N=4, 비율 R=90%

비교 방법

  • KV 캐시 방법: H2O, SnapKV, KNorm
  • 시각 압축 방법: FastV, SparseVLM, PDrop
  • 기준선 방법: 무작위 제거, 풀링

실험 결과

주요 발견

실험은 직관에 반하는 현상을 드러냈습니다: 정교하게 설계된 압축 방법이 다양한 시나리오에서 무작위 제거보다 성능이 떨어집니다.

복잡 추론 작업

  • AIME24에서 무작위 제거가 SnapKV보다 10% 높은 정확도 달성
  • H2O, SnapKV, KNorm 모두 지속적으로 무작위 제거보다 낮은 성능

이미지 이해 작업

  • 무작위 제거 및 풀링 연산이 일부 설계 방법을 능가
  • 공간 균일성이 주의 기반 방법의 위치 편향 완화

비디오 이해 작업

  • 토큰의 15%만 보유해도 무작위 제거가 설계 방법을 능가
  • 균일한 시공간 토큰 분포가 비디오 표현에 필수적

이미지 생성 작업

  • 모든 특성 기반 전략의 점수가 무작위 선택보다 낮음
  • 유사 토큰 클러스터링으로 인한 생성 품질 최악

성능 분석

데이터 중심 압축은 계산 및 메모리 측면에서 현저한 이득을 제공합니다:

계산 복잡도: Ω(X')/Ω(X) = O(m²/n²) 메모리 사용: M(X')/M(X) ≈ m/n KV 캐시 최적화: MKV(X')/MKV(X) = m/n

관련 연구

효율성 최적화 방법 분류

  1. 효율적 아키텍처: Linear Attention, RWKV, State Space Models (Mamba)
  2. 모델 압축: 가지치기, 양자화, 증류, 저순위 분해
  3. 데이터 압축: 데이터셋 압축, 토큰 압축

본 논문의 기여 위치

  • 데이터 중심 압축을 AI 효율성의 새로운 패러다임으로 처음 체계적으로 위치시킴
  • 다양한 효율성 전략을 통합하는 통합 이론 프레임워크 구축
  • 교차 도메인 포괄적 분석 및 평가 제공

결론 및 논의

주요 결론

  1. 패러다임 전환: AI 효율성 연구의 초점을 모델 중심에서 데이터 중심 압축으로 전환해야 함
  2. 방법 한계: 현재의 주의 기반 압축 방법은 위치 편향 등 근본적인 문제 존재
  3. 설계 원칙: 공간 및 시간 균일성이 효과적 압축의 핵심 설계 원칙

현재 과제

성능 저하 문제

  • 방법론 병목: 주의 점수의 위치 편향이 압축 효과에 영향
  • 내재적 한계: 일부 작업(시각 위치 파악, OCR 해석)은 압축에 민감

데이터 표현 최적화 부족

  • 중복성 방법과 중요성 방법 모두 최적의 하위 모델링 표현을 보장할 수 없음
  • 시퀀스 구조 및 의미 패턴의 안정성을 고려한 방법 부족

평가 공정성

  • FLOPs 및 압축 비율이 실제 가속 효과를 진정으로 반영하지 못함
  • 압축 전용 벤치마크 부족

향후 방향

데이터-모델 협력 압축

  • 단계적 통합: 모델 압축 후 데이터 압축
  • 상호 강화: 그래디언트 정보를 활용한 토큰 선택 지도, 토큰 진화를 통한 계층 가지치기 지도

전용 평가 벤치마크

  • 교차 도메인 작업 커버리지(NLP, CV, 다중모달)
  • 압축 민감 작업(OCR, ASR)
  • 성능-지연 시간 결합 평가

심층 평가

장점

  1. 선견지명 있는 통찰: AI 발전의 핵심 추세 변화를 정확히 파악하고 선견지명 있는 연구 패러다임 제시
  2. 이론적 기여: 통합 수학 프레임워크 구축으로 다양한 효율성 전략에 이론적 기초 제공
  3. 포괄적 분석: 다양한 도메인 및 작업에 걸친 체계적 방법 분류 및 분석
  4. 실증적 발견: 대규모 실험을 통해 현재 방법의 근본적 문제 드러내고 분야 발전에 중요한 통찰 제공
  5. 작문 품질: 논리 명확, 표현 정확, 도표 풍부, 이해하기 용이

부족점

  1. 이론적 깊이: 통합 프레임워크 제공하지만 데이터 중심 압축의 이론적 분석 깊이 부족
  2. 방법 혁신: 주로 종합 검토 작업이며 구체적 신규 방법 제시 부족
  3. 실험 범위: 실험이 주로 기존 방법의 문제 검증에 집중하며 해결책 탐색 부족
  4. 정량 분석: 다양한 압축 방법의 이론적 복잡도 분석 상세도 부족

영향력

  1. 분야 기여: AI 효율성 연구에 새로운 사고와 방향 제공하여 해당 분야의 연구 초점 전환 가능성
  2. 실용 가치: 분석 결과가 실제 배포에 중요한 지도 가치, 특히 자원 제한 환경에서 의미 있음
  3. 재현성: 상세한 실험 설정 및 GitHub 프로젝트 제공으로 후속 연구 용이
  4. 영감 제공: 드러낸 문제 및 제시한 방향이 향후 연구에 명확한 로드맵 제공

적용 시나리오

  1. 장문 컨텍스트 응용: 특히 장문 텍스트, 고해상도 이미지 또는 장시간 비디오 처리 필요 시나리오에 적합
  2. 자원 제한 환경: 모바일 기기, 엣지 컴퓨팅 등 계산 자원 제한 시나리오에서 중요한 가치
  3. 실시간 상호작용 시스템: UI 에이전트, 자율주행, 구체화된 AI 등 연속 입력 고효율 처리 필요 시스템
  4. 대규모 배포: 클라우드 서비스 제공자의 대규모 모델 배포 시 효율성 최적화

참고문헌

논문은 대량의 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

  • Transformer 아키텍처 및 변형 (Vaswani et al., 2017)
  • 대규모 언어 모델 시리즈 (OpenAI GPT, Meta LLaMA, Qwen 등)
  • 다중모달 모델 (LLaVA, InternVL 등)
  • 효율성 최적화 방법 (양자화, 가지치기, 증류 등 고전 연구)
  • 데이터 중심 압축의 대표 연구

본 논문은 AI 효율성 연구 분야에 중요한 이론 프레임워크 및 실무 지도를 제공하며, 높은 학술 가치 및 실용 의의를 갖추고 있습니다.