2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic

Verschiebung der KI-Effizienz von modellzentrierter zu datenzentrierter Kompression

Grundlegende Informationen

  • Paper-ID: 2505.19147
  • Titel: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
  • Autoren: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
  • Klassifizierung: cs.CL, cs.AI, cs.CV
  • Veröffentlichungsdatum/Konferenz: arXiv preprint (Januar 2025)
  • Paper-Link: https://arxiv.org/abs/2505.19147

Zusammenfassung

Mit der Entwicklung großer Sprachmodelle (LLMs) und multimodaler großer Sprachmodelle (MLLMs) stoßen traditionelle Methoden, die auf der Vergrößerung von Modellparametern zur Leistungssteigerung beruhen, auf Hardwarebeschränkungen. Der aktuelle Hauptengpass bei der Berechnung hat sich von der Modellgröße zur quadratischen Komplexität des Selbstaufmerksamkeitsmechanismus bei der Verarbeitung von Ultralangtextkontexten, hochauflösenden Bildern und langen Videos verschoben. Dieses Papier schlägt vor, dass der Forschungsschwerpunkt der KI-Effizienz von der modellzentrierten Kompression zur datenzentrierten Kompression verschoben werden sollte. Die datenzentrierte Kompression verbessert die KI-Effizienz durch direkte Kompression der während des Trainings oder der Inferenz verarbeiteten Datenmenge. Das Papier etabliert einen einheitlichen Rahmen für Effizienzstrategien, überprüft systematisch das Spektrum datenzentrierter Kompressionsmethoden, analysiert ihre Vorteile in verschiedenen Szenarien und skizziert wichtige Herausforderungen und zukünftige Forschungsrichtungen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das dieses Papier lösen soll, ist: Wie kann man die Herausforderungen der Recheneffizienz wirksam bewältigen, wenn die Kontextlänge, die von KI-Modellen verarbeitet wird, rapide anwächst?

Bedeutungsanalyse

  1. Veränderung von Technologietrends: Von 2022-2024 beruhte die Verbesserung der KI-Leistung hauptsächlich auf der Vergrößerung der Modellgröße, aber ab 2024 verlangsamt sich das Wachstum der Modellgröße (etwa 1T Parameter), während die Kontextlänge weiterhin exponentiell wächst
  2. Verschiebung des Rechenengpasses: Die Hauptrechenkosten verschieben sich vom linearen Parameterwachstum zur quadratischen Komplexität O(n²) des Selbstaufmerksamkeitsmechanismus
  3. Bereichsübergreifende Anforderungen: Sprachmodelle müssen längere Inferenzketten verarbeiten, Sichtmodelle müssen höher aufgelöste Bilder und längere Videos verarbeiten, generative Modelle müssen Inhalte höherer Qualität erstellen

Einschränkungen bestehender Methoden

Traditionelle modellzentrierte Kompressionsmethoden (Quantisierung, Pruning, Destillation, Niedrigrangzerlegung) optimieren hauptsächlich die Modellparameter W, können aber die Herausforderungen durch das Wachstum der Kontextlänge nicht wirksam bewältigen. Diese Methoden müssen bei langen Sequenzen immer noch die vollständigen Eingabedaten X verarbeiten und können das Problem der quadratischen Komplexität nicht grundlegend lösen.

Forschungsmotivation

Basierend auf einer tiefgreifenden Analyse der KI-Entwicklungstrends schlagen die Autoren datenzentrierte Kompression als neues Paradigma vor, das durch direkte Reduzierung der verarbeiteten Datenmenge die Herausforderungen des langen Kontexts bewältigt und bessere Universalität, Effizienz und Kompatibilität bietet.

Kernbeiträge

  1. Paradigmenwechsel-Analyse: Analysiert den Schlüsselwechsel in der KI-Effizienzforschung von parameterzentrischen zu kontextzentrischen Rechenengpässen und argumentiert für die Notwendigkeit eines Paradigmenwechsels bei der Effizienzoptimierung
  2. Einheitlicher theoretischer Rahmen: Etabliert einen einheitlichen mathematischen Ausdrucksrahmen, der Architekturdesign, modellzentrierte Kompression und datenzentrierte Kompression umfasst
  3. Systematische Übersicht: Führt eine umfassende Untersuchung datenzentrierter Kompressionsmethoden durch, konstruiert einen einheitlichen Klassifizierungsrahmen und analysiert Vorteile in verschiedenen Szenarien
  4. Herausforderungen und Richtungen: Analysiert aktuelle Herausforderungen tiefgreifend und schlägt vielversprechende zukünftige Forschungsrichtungen vor, um Innovation in diesem Bereich zu katalysieren

Methodische Details

Aufgabendefinition

Die datenzentrierte Kompression zielt darauf ab, die ursprüngliche Eingabesequenz X durch eine Kompressionoperation Φ in eine komprimierte Darstellung X' zu transformieren, wobei |X'| < |X| erfüllt ist und die Modellleistung so weit wie möglich erhalten bleibt.

Einheitlicher Rahmen

Gegeben Eingabedaten X und Netzwerkparameter W ist die Ausgabe des neuronalen Netzes F:

Y = F(W, X)

Die Effizienzoptimierung kann aus drei Perspektiven durchgeführt werden:

  1. Effiziente Rechenarchitektur (F): Entwurf von Architekturen mit linearer oder subquadratischer Komplexität
  2. Modellzentrierte Kompression (W): W' = Γ(W), |W'| < |W|
  3. Datenzentrierte Kompression (X): X' = Φ(X), |X'| < |X|

Datenzentrierte Kompressionsarchitektur

Kompressionskriterium (E)

Parametrisierte Methoden:

  • Trainingsabhängige Methoden: Optimierung zusätzlicher Parameter Δθ durch Training zur Erlernung von Bewertungsfunktionen
  • Trainingsunabhängige Methoden: Direkte Verwendung des vortrainierten Netzes als Bewertungsfunktion

Nichtparametrisierte Methoden:

  • Innere Berechnungsmethoden: Nutzung interner Netzwerkberechnungen (z. B. Aufmerksamkeitsgewichte) zur Token-Bewertung
  • Externe Berechnungsmethoden: Entwurf zusätzlicher Metriken zur Bewertung von Token-Beziehungen

Kompressionsstrategie (P)

Token-Pruning: Direktes Verwerfen von Token mit niedriger Wichtigkeit

X' = X \ {xt | st < τ}

Token-Zusammenführung: Zusammenführung von Token durch semantische Ähnlichkeit

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

Technische Innovationspunkte

  1. Zweistufige Effizienz: Gleichzeitige Beschleunigung von Trainings- und Inferenzphasen
  2. Architekturkompatibilität: Orthogonal zu bestehenden Kompressionsmethoden, nahtlose Integration möglich
  3. Quadratische Gewinne: Nutzung der O(n²)-Komplexität der Selbstaufmerksamkeit für erhebliche Rechenersparnisse
  4. Universelle Anwendbarkeit: Konsistenz von Token-Redundanz über Modalitäten und Aufgaben hinweg
  5. Niedrige Implementierungskosten: Moderne Architekturen unterstützen variable Eingabelängen ohne Umschulung erforderlich

Experimentelle Einrichtung

Datensätze und Bewertung

Das Papier validiert die Wirksamkeit datenzentrierter Kompressionsmethoden durch Experimente in mehreren Bereichen:

Komplexe Inferenzaufgaben:

  • MATH-500, AIME24, GSM8K
  • Modell: DeepSeek-R1-Distill-Llama-8B
  • KV-Cache-Budget: 1024 Token

Bildverständnisaufgaben:

  • GQA, MMB, MMB-CN
  • Modell: LLaVA-1.5-7B
  • Beibehaltung von 25% visueller Token

Videoverständnisaufgaben:

  • MVBench, MLVU, VideoMME
  • Modell: LLaVA-OneVision-7B
  • Beibehaltung von 15% visueller Token

Bildgenerierungsaufgaben:

  • Modell: FLUX.1-dev (DiT-basiert)
  • Cache-Zyklus N=4, Verhältnis R=90%

Vergleichsmethoden

  • KV-Cache-Methoden: H2O, SnapKV, KNorm
  • Visuelle Kompressionsmethoden: FastV, SparseVLM, PDrop
  • Baseline-Methoden: Zufälliges Verwerfen, Pooling

Experimentelle Ergebnisse

Hauptergebnisse

Die Experimente offenbaren ein kontraintuitives Phänomen: Sorgfältig gestaltete Kompressionsmethoden schneiden in mehreren Szenarien schlechter ab als zufälliges Verwerfen.

Komplexe Inferenzaufgaben

  • Bei AIME24 ist zufälliges Verwerfen um 10% höher in der Genauigkeit als SnapKV
  • H2O, SnapKV, KNorm liegen durchgehend unter zufälligem Verwerfen

Bildverständnisaufgaben

  • Zufälliges Verwerfen und Pooling-Operationen übertreffen teilweise gestaltete Methoden
  • Räumliche Gleichmäßigkeit mildert Positionsverzerrungen aufmerksamkeitsbasierter Methoden

Videoverständnisaufgaben

  • Selbst wenn nur 15% der Token beibehalten werden, übertrifft zufälliges Verwerfen gestaltete Methoden
  • Gleichmäßige räumlich-zeitliche Token-Verteilung ist für die Videodarstellung entscheidend

Bildgenerierungsaufgaben

  • Alle merkmalgestützten Strategien erzielen niedrigere Werte als zufällige Auswahl
  • Ähnliche Token-Clusterung führt zu schlechtester Generierungsqualität

Leistungsanalyse

Die datenzentrierte Kompression bringt erhebliche Gewinne in Berechnung und Speicher:

Rechenkomplexität: Ω(X')/Ω(X) = O(m²/n²) Speichernutzung: M(X')/M(X) ≈ m/n KV-Cache-Optimierung: MKV(X')/MKV(X) = m/n

Verwandte Arbeiten

Klassifizierung von Effizienzoptimierungsmethoden

  1. Effiziente Architekturen: Linear Attention, RWKV, State Space Models (Mamba)
  2. Modellkompression: Pruning, Quantisierung, Destillation, Niedrigrangzerlegung
  3. Datenkompression: Datensatzkompression, Token-Kompression

Positionierung des Beitrags dieses Papiers

  • Erste systematische Positionierung datenzentrierter Kompression als neues Paradigma für KI-Effizienz
  • Etablierung eines einheitlichen theoretischen Rahmens zur Integration verschiedener Effizienzstrategien
  • Bereitstellung umfassender bereichsübergreifender Analyse und Bewertung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Paradigmenwechsel: Der Forschungsschwerpunkt der KI-Effizienz sollte sich von modellzentrierter zu datenzentrierter Kompression verschieben
  2. Methodische Einschränkungen: Aktuelle aufmerksamkeitsbasierte Kompressionsmethoden weisen grundlegende Probleme wie Positionsverzerrung auf
  3. Designprinzipien: Räumliche und zeitliche Gleichmäßigkeit sind Schlüsseldesignprinzipien für wirksame Kompression

Aktuelle Herausforderungen

Leistungsabbau-Problem

  • Methodologischer Engpass: Positionsverzerrung von Aufmerksamkeitswerten beeinträchtigt Kompressionsergebnisse
  • Inhärente Einschränkungen: Einige Aufgaben (wie visuelle Lokalisierung, OCR-Analyse) sind kompressionsempfindlich

Suboptimale Datendarstellung

  • Sowohl Redundanz- als auch Wichtigkeitsmethoden können optimale nachgelagerte Modellierungsdarstellung nicht garantieren
  • Mangel an Berücksichtigung von Sequenzstruktur und semantischen Mustern

Bewertungsgerechtigkeit

  • FLOPs und Kompressionsverhältnis können tatsächliche Beschleunigungseffekte nicht widerspiegeln
  • Mangel an speziellen Benchmarks für Kompression

Zukünftige Richtungen

Daten-Modell-Kokompressionierung

  • Phasenweise Integration: Erst Modellkompression, dann Datenkompression
  • Gegenseitige Verstärkung: Nutzung von Gradienteninformationen zur Anleitung der Token-Auswahl, Verwendung von Token-Evolution zur Anleitung des Layer-Pruning

Spezialisierte Bewertungs-Benchmarks

  • Bereichsübergreifende Aufgabenabdeckung (NLP, CV, Multimodal)
  • Kompressionssensitive Aufgaben (OCR, ASR)
  • Gemeinsame Bewertung von Leistung und Latenz

Tiefgreifende Bewertung

Stärken

  1. Zukunftsorientierte Einsichten: Identifiziert genau die Schlüsseltrendverschiebung in der KI-Entwicklung und schlägt ein zukunftsorientiertes Forschungsparadigma vor
  2. Theoretischer Beitrag: Etabliert einen einheitlichen mathematischen Rahmen, der theoretische Grundlagen für verschiedene Effizienzstrategien bietet
  3. Umfassende Analyse: Systematische Methodenklassifizierung und -analyse über mehrere Bereiche und Aufgaben hinweg
  4. Empirische Erkenntnisse: Umfangreiche Experimente offenbaren grundlegende Probleme aktueller Methoden und bieten wichtige Erkenntnisse für die Bereichsentwicklung
  5. Schreibqualität: Klare Logik, präzise Ausdrucksweise, reichhaltige Grafiken, leicht verständlich

Mängel

  1. Theoretische Tiefe: Obwohl ein einheitlicher Rahmen bereitgestellt wird, ist die theoretische Analyse datenzentrierter Kompression nicht ausreichend tiefgreifend
  2. Methodische Innovation: Hauptsächlich eine Übersichtsarbeit, es fehlen konkrete neue Methodenvorschläge
  3. Experimenteller Umfang: Experimente konzentrieren sich hauptsächlich auf die Validierung von Problemen bestehender Methoden, es fehlt die Erforschung von Lösungen
  4. Quantitative Analyse: Die theoretische Komplexitätsanalyse verschiedener Kompressionsmethoden ist nicht ausreichend detailliert

Auswirkungen

  1. Bereichsbeitrag: Bietet neue Perspektiven und Richtungen für die KI-Effizienzforschung und könnte einen Paradigmenwechsel in diesem Bereich einleiten
  2. Praktischer Wert: Analyseergebnisse haben wichtige Auswirkungen auf die praktische Bereitstellung, besonders in ressourcenbeschränkten Umgebungen
  3. Reproduzierbarkeit: Detaillierte experimentelle Einrichtung und GitHub-Projekte ermöglichen nachfolgende Forschung
  4. Inspirationskraft: Die offenbarten Probleme und vorgeschlagenen Richtungen bieten eine klare Roadmap für zukünftige Forschung

Anwendungsszenarien

  1. Langkontext-Anwendungen: Besonders geeignet für Szenarien, die lange Texte, hochauflösende Bilder oder lange Videos verarbeiten müssen
  2. Ressourcenbeschränkte Umgebungen: Von großem Wert in Szenarien mit begrenzten Rechenressourcen wie Mobilgeräten und Edge-Computing
  3. Echtzeit-Interaktionssysteme: UI-Agenten, autonomes Fahren, verkörperte KI und andere Systeme, die kontinuierliche Eingaben effizient verarbeiten müssen
  4. Großflächige Bereitstellung: Effizienzoptimierung für Cloud-Service-Provider bei großflächiger Modellbereitstellung

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Transformer-Architektur und ihre Varianten (Vaswani et al., 2017)
  • Große Sprachmodellserien (OpenAI GPT, Meta LLaMA, Qwen usw.)
  • Multimodale Modelle (LLaVA, InternVL usw.)
  • Effizienzoptimierungsmethoden (klassische Arbeiten zu Quantisierung, Pruning, Destillation usw.)
  • Repräsentative Arbeiten zur datenzentrierten Kompression

Dieses Papier bietet einen wichtigen theoretischen Rahmen und praktische Anleitung für die KI-Effizienzforschung und hat hohen akademischen Wert und praktische Bedeutung.