2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.

The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.

academic

Verschiebung der KI-Effizienz von modellzentrierter zu datenzentrierter Kompression

Grundlegende Informationen

Paper-ID: 2505.19147
Titel: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Autoren: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
Klassifizierung: cs.CL, cs.AI, cs.CV
Veröffentlichungsdatum/Konferenz: arXiv preprint (Januar 2025)
Paper-Link: https://arxiv.org/abs/2505.19147

Zusammenfassung

Mit der Entwicklung großer Sprachmodelle (LLMs) und multimodaler großer Sprachmodelle (MLLMs) stoßen traditionelle Methoden, die auf der Vergrößerung von Modellparametern zur Leistungssteigerung beruhen, auf Hardwarebeschränkungen. Der aktuelle Hauptengpass bei der Berechnung hat sich von der Modellgröße zur quadratischen Komplexität des Selbstaufmerksamkeitsmechanismus bei der Verarbeitung von Ultralangtextkontexten, hochauflösenden Bildern und langen Videos verschoben. Dieses Papier schlägt vor, dass der Forschungsschwerpunkt der KI-Effizienz von der modellzentrierten Kompression zur datenzentrierten Kompression verschoben werden sollte. Die datenzentrierte Kompression verbessert die KI-Effizienz durch direkte Kompression der während des Trainings oder der Inferenz verarbeiteten Datenmenge. Das Papier etabliert einen einheitlichen Rahmen für Effizienzstrategien, überprüft systematisch das Spektrum datenzentrierter Kompressionsmethoden, analysiert ihre Vorteile in verschiedenen Szenarien und skizziert wichtige Herausforderungen und zukünftige Forschungsrichtungen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das dieses Papier lösen soll, ist: Wie kann man die Herausforderungen der Recheneffizienz wirksam bewältigen, wenn die Kontextlänge, die von KI-Modellen verarbeitet wird, rapide anwächst?

Bedeutungsanalyse

Veränderung von Technologietrends: Von 2022-2024 beruhte die Verbesserung der KI-Leistung hauptsächlich auf der Vergrößerung der Modellgröße, aber ab 2024 verlangsamt sich das Wachstum der Modellgröße (etwa 1T Parameter), während die Kontextlänge weiterhin exponentiell wächst
Verschiebung des Rechenengpasses: Die Hauptrechenkosten verschieben sich vom linearen Parameterwachstum zur quadratischen Komplexität O(n²) des Selbstaufmerksamkeitsmechanismus
Bereichsübergreifende Anforderungen: Sprachmodelle müssen längere Inferenzketten verarbeiten, Sichtmodelle müssen höher aufgelöste Bilder und längere Videos verarbeiten, generative Modelle müssen Inhalte höherer Qualität erstellen

Einschränkungen bestehender Methoden

Traditionelle modellzentrierte Kompressionsmethoden (Quantisierung, Pruning, Destillation, Niedrigrangzerlegung) optimieren hauptsächlich die Modellparameter W, können aber die Herausforderungen durch das Wachstum der Kontextlänge nicht wirksam bewältigen. Diese Methoden müssen bei langen Sequenzen immer noch die vollständigen Eingabedaten X verarbeiten und können das Problem der quadratischen Komplexität nicht grundlegend lösen.

Forschungsmotivation

Basierend auf einer tiefgreifenden Analyse der KI-Entwicklungstrends schlagen die Autoren datenzentrierte Kompression als neues Paradigma vor, das durch direkte Reduzierung der verarbeiteten Datenmenge die Herausforderungen des langen Kontexts bewältigt und bessere Universalität, Effizienz und Kompatibilität bietet.

Kernbeiträge

Paradigmenwechsel-Analyse: Analysiert den Schlüsselwechsel in der KI-Effizienzforschung von parameterzentrischen zu kontextzentrischen Rechenengpässen und argumentiert für die Notwendigkeit eines Paradigmenwechsels bei der Effizienzoptimierung
Einheitlicher theoretischer Rahmen: Etabliert einen einheitlichen mathematischen Ausdrucksrahmen, der Architekturdesign, modellzentrierte Kompression und datenzentrierte Kompression umfasst
Systematische Übersicht: Führt eine umfassende Untersuchung datenzentrierter Kompressionsmethoden durch, konstruiert einen einheitlichen Klassifizierungsrahmen und analysiert Vorteile in verschiedenen Szenarien
Herausforderungen und Richtungen: Analysiert aktuelle Herausforderungen tiefgreifend und schlägt vielversprechende zukünftige Forschungsrichtungen vor, um Innovation in diesem Bereich zu katalysieren

Methodische Details

Aufgabendefinition

Die datenzentrierte Kompression zielt darauf ab, die ursprüngliche Eingabesequenz X durch eine Kompressionoperation Φ in eine komprimierte Darstellung X' zu transformieren, wobei |X'| < |X| erfüllt ist und die Modellleistung so weit wie möglich erhalten bleibt.

Einheitlicher Rahmen

Gegeben Eingabedaten X und Netzwerkparameter W ist die Ausgabe des neuronalen Netzes F:

Y = F(W, X)

Die Effizienzoptimierung kann aus drei Perspektiven durchgeführt werden:

Effiziente Rechenarchitektur (F): Entwurf von Architekturen mit linearer oder subquadratischer Komplexität
Modellzentrierte Kompression (W): W' = Γ(W), |W'| < |W|
Datenzentrierte Kompression (X): X' = Φ(X), |X'| < |X|

Datenzentrierte Kompressionsarchitektur

Kompressionskriterium (E)

Parametrisierte Methoden:

Trainingsabhängige Methoden: Optimierung zusätzlicher Parameter Δθ durch Training zur Erlernung von Bewertungsfunktionen
Trainingsunabhängige Methoden: Direkte Verwendung des vortrainierten Netzes als Bewertungsfunktion

Nichtparametrisierte Methoden:

Innere Berechnungsmethoden: Nutzung interner Netzwerkberechnungen (z. B. Aufmerksamkeitsgewichte) zur Token-Bewertung
Externe Berechnungsmethoden: Entwurf zusätzlicher Metriken zur Bewertung von Token-Beziehungen

Kompressionsstrategie (P)

Token-Pruning: Direktes Verwerfen von Token mit niedriger Wichtigkeit

X' = X \ {xt | st < τ}

Token-Zusammenführung: Zusammenführung von Token durch semantische Ähnlichkeit

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

Technische Innovationspunkte

Zweistufige Effizienz: Gleichzeitige Beschleunigung von Trainings- und Inferenzphasen
Architekturkompatibilität: Orthogonal zu bestehenden Kompressionsmethoden, nahtlose Integration möglich
Quadratische Gewinne: Nutzung der O(n²)-Komplexität der Selbstaufmerksamkeit für erhebliche Rechenersparnisse
Universelle Anwendbarkeit: Konsistenz von Token-Redundanz über Modalitäten und Aufgaben hinweg
Niedrige Implementierungskosten: Moderne Architekturen unterstützen variable Eingabelängen ohne Umschulung erforderlich

Experimentelle Einrichtung

Datensätze und Bewertung

Das Papier validiert die Wirksamkeit datenzentrierter Kompressionsmethoden durch Experimente in mehreren Bereichen:

Komplexe Inferenzaufgaben:

MATH-500, AIME24, GSM8K
Modell: DeepSeek-R1-Distill-Llama-8B
KV-Cache-Budget: 1024 Token

Bildverständnisaufgaben:

GQA, MMB, MMB-CN
Modell: LLaVA-1.5-7B
Beibehaltung von 25% visueller Token

Videoverständnisaufgaben:

MVBench, MLVU, VideoMME
Modell: LLaVA-OneVision-7B
Beibehaltung von 15% visueller Token

Bildgenerierungsaufgaben:

Modell: FLUX.1-dev (DiT-basiert)
Cache-Zyklus N=4, Verhältnis R=90%

Vergleichsmethoden

KV-Cache-Methoden: H2O, SnapKV, KNorm
Visuelle Kompressionsmethoden: FastV, SparseVLM, PDrop
Baseline-Methoden: Zufälliges Verwerfen, Pooling

Experimentelle Ergebnisse

Hauptergebnisse

Die Experimente offenbaren ein kontraintuitives Phänomen: Sorgfältig gestaltete Kompressionsmethoden schneiden in mehreren Szenarien schlechter ab als zufälliges Verwerfen.

Komplexe Inferenzaufgaben

Bei AIME24 ist zufälliges Verwerfen um 10% höher in der Genauigkeit als SnapKV
H2O, SnapKV, KNorm liegen durchgehend unter zufälligem Verwerfen

Bildverständnisaufgaben

Zufälliges Verwerfen und Pooling-Operationen übertreffen teilweise gestaltete Methoden
Räumliche Gleichmäßigkeit mildert Positionsverzerrungen aufmerksamkeitsbasierter Methoden

Videoverständnisaufgaben

Selbst wenn nur 15% der Token beibehalten werden, übertrifft zufälliges Verwerfen gestaltete Methoden
Gleichmäßige räumlich-zeitliche Token-Verteilung ist für die Videodarstellung entscheidend

Bildgenerierungsaufgaben

Alle merkmalgestützten Strategien erzielen niedrigere Werte als zufällige Auswahl
Ähnliche Token-Clusterung führt zu schlechtester Generierungsqualität

Paradigmenwechsel: Der Forschungsschwerpunkt der KI-Effizienz sollte sich von modellzentrierter zu datenzentrierter Kompression verschieben
Methodische Einschränkungen: Aktuelle aufmerksamkeitsbasierte Kompressionsmethoden weisen grundlegende Probleme wie Positionsverzerrung auf
Designprinzipien: Räumliche und zeitliche Gleichmäßigkeit sind Schlüsseldesignprinzipien für wirksame Kompression

Aktuelle Herausforderungen

Leistungsabbau-Problem

Methodologischer Engpass: Positionsverzerrung von Aufmerksamkeitswerten beeinträchtigt Kompressionsergebnisse
Inhärente Einschränkungen: Einige Aufgaben (wie visuelle Lokalisierung, OCR-Analyse) sind kompressionsempfindlich

Suboptimale Datendarstellung

Sowohl Redundanz- als auch Wichtigkeitsmethoden können optimale nachgelagerte Modellierungsdarstellung nicht garantieren
Mangel an Berücksichtigung von Sequenzstruktur und semantischen Mustern

Bewertungsgerechtigkeit

FLOPs und Kompressionsverhältnis können tatsächliche Beschleunigungseffekte nicht widerspiegeln
Mangel an speziellen Benchmarks für Kompression

Zukünftige Richtungen

Daten-Modell-Kokompressionierung

Phasenweise Integration: Erst Modellkompression, dann Datenkompression
Gegenseitige Verstärkung: Nutzung von Gradienteninformationen zur Anleitung der Token-Auswahl, Verwendung von Token-Evolution zur Anleitung des Layer-Pruning

Spezialisierte Bewertungs-Benchmarks

Bereichsübergreifende Aufgabenabdeckung (NLP, CV, Multimodal)
Kompressionssensitive Aufgaben (OCR, ASR)
Gemeinsame Bewertung von Leistung und Latenz

Tiefgreifende Bewertung

Stärken

Zukunftsorientierte Einsichten: Identifiziert genau die Schlüsseltrendverschiebung in der KI-Entwicklung und schlägt ein zukunftsorientiertes Forschungsparadigma vor
Theoretischer Beitrag: Etabliert einen einheitlichen mathematischen Rahmen, der theoretische Grundlagen für verschiedene Effizienzstrategien bietet
Umfassende Analyse: Systematische Methodenklassifizierung und -analyse über mehrere Bereiche und Aufgaben hinweg
Empirische Erkenntnisse: Umfangreiche Experimente offenbaren grundlegende Probleme aktueller Methoden und bieten wichtige Erkenntnisse für die Bereichsentwicklung
Schreibqualität: Klare Logik, präzise Ausdrucksweise, reichhaltige Grafiken, leicht verständlich

Mängel

Theoretische Tiefe: Obwohl ein einheitlicher Rahmen bereitgestellt wird, ist die theoretische Analyse datenzentrierter Kompression nicht ausreichend tiefgreifend
Methodische Innovation: Hauptsächlich eine Übersichtsarbeit, es fehlen konkrete neue Methodenvorschläge
Experimenteller Umfang: Experimente konzentrieren sich hauptsächlich auf die Validierung von Problemen bestehender Methoden, es fehlt die Erforschung von Lösungen
Quantitative Analyse: Die theoretische Komplexitätsanalyse verschiedener Kompressionsmethoden ist nicht ausreichend detailliert

Auswirkungen

Bereichsbeitrag: Bietet neue Perspektiven und Richtungen für die KI-Effizienzforschung und könnte einen Paradigmenwechsel in diesem Bereich einleiten
Praktischer Wert: Analyseergebnisse haben wichtige Auswirkungen auf die praktische Bereitstellung, besonders in ressourcenbeschränkten Umgebungen
Reproduzierbarkeit: Detaillierte experimentelle Einrichtung und GitHub-Projekte ermöglichen nachfolgende Forschung
Inspirationskraft: Die offenbarten Probleme und vorgeschlagenen Richtungen bieten eine klare Roadmap für zukünftige Forschung

Anwendungsszenarien

Langkontext-Anwendungen: Besonders geeignet für Szenarien, die lange Texte, hochauflösende Bilder oder lange Videos verarbeiten müssen
Ressourcenbeschränkte Umgebungen: Von großem Wert in Szenarien mit begrenzten Rechenressourcen wie Mobilgeräten und Edge-Computing
Echtzeit-Interaktionssysteme: UI-Agenten, autonomes Fahren, verkörperte KI und andere Systeme, die kontinuierliche Eingaben effizient verarbeiten müssen
Großflächige Bereitstellung: Effizienzoptimierung für Cloud-Service-Provider bei großflächiger Modellbereitstellung

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Transformer-Architektur und ihre Varianten (Vaswani et al., 2017)
Große Sprachmodellserien (OpenAI GPT, Meta LLaMA, Qwen usw.)
Multimodale Modelle (LLaVA, InternVL usw.)
Effizienzoptimierungsmethoden (klassische Arbeiten zu Quantisierung, Pruning, Destillation usw.)
Repräsentative Arbeiten zur datenzentrierten Kompression

Dieses Papier bietet einen wichtigen theoretischen Rahmen und praktische Anleitung für die KI-Effizienzforschung und hat hohen akademischen Wert und praktische Bedeutung.