Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic
Verschiebung der KI-Effizienz von modellzentrierter zu datenzentrierter Kompression
Mit der Entwicklung großer Sprachmodelle (LLMs) und multimodaler großer Sprachmodelle (MLLMs) stoßen traditionelle Methoden, die auf der Vergrößerung von Modellparametern zur Leistungssteigerung beruhen, auf Hardwarebeschränkungen. Der aktuelle Hauptengpass bei der Berechnung hat sich von der Modellgröße zur quadratischen Komplexität des Selbstaufmerksamkeitsmechanismus bei der Verarbeitung von Ultralangtextkontexten, hochauflösenden Bildern und langen Videos verschoben. Dieses Papier schlägt vor, dass der Forschungsschwerpunkt der KI-Effizienz von der modellzentrierten Kompression zur datenzentrierten Kompression verschoben werden sollte. Die datenzentrierte Kompression verbessert die KI-Effizienz durch direkte Kompression der während des Trainings oder der Inferenz verarbeiteten Datenmenge. Das Papier etabliert einen einheitlichen Rahmen für Effizienzstrategien, überprüft systematisch das Spektrum datenzentrierter Kompressionsmethoden, analysiert ihre Vorteile in verschiedenen Szenarien und skizziert wichtige Herausforderungen und zukünftige Forschungsrichtungen.
Das Kernproblem, das dieses Papier lösen soll, ist: Wie kann man die Herausforderungen der Recheneffizienz wirksam bewältigen, wenn die Kontextlänge, die von KI-Modellen verarbeitet wird, rapide anwächst?
Veränderung von Technologietrends: Von 2022-2024 beruhte die Verbesserung der KI-Leistung hauptsächlich auf der Vergrößerung der Modellgröße, aber ab 2024 verlangsamt sich das Wachstum der Modellgröße (etwa 1T Parameter), während die Kontextlänge weiterhin exponentiell wächst
Verschiebung des Rechenengpasses: Die Hauptrechenkosten verschieben sich vom linearen Parameterwachstum zur quadratischen Komplexität O(n²) des Selbstaufmerksamkeitsmechanismus
Traditionelle modellzentrierte Kompressionsmethoden (Quantisierung, Pruning, Destillation, Niedrigrangzerlegung) optimieren hauptsächlich die Modellparameter W, können aber die Herausforderungen durch das Wachstum der Kontextlänge nicht wirksam bewältigen. Diese Methoden müssen bei langen Sequenzen immer noch die vollständigen Eingabedaten X verarbeiten und können das Problem der quadratischen Komplexität nicht grundlegend lösen.
Basierend auf einer tiefgreifenden Analyse der KI-Entwicklungstrends schlagen die Autoren datenzentrierte Kompression als neues Paradigma vor, das durch direkte Reduzierung der verarbeiteten Datenmenge die Herausforderungen des langen Kontexts bewältigt und bessere Universalität, Effizienz und Kompatibilität bietet.
Paradigmenwechsel-Analyse: Analysiert den Schlüsselwechsel in der KI-Effizienzforschung von parameterzentrischen zu kontextzentrischen Rechenengpässen und argumentiert für die Notwendigkeit eines Paradigmenwechsels bei der Effizienzoptimierung
Einheitlicher theoretischer Rahmen: Etabliert einen einheitlichen mathematischen Ausdrucksrahmen, der Architekturdesign, modellzentrierte Kompression und datenzentrierte Kompression umfasst
Systematische Übersicht: Führt eine umfassende Untersuchung datenzentrierter Kompressionsmethoden durch, konstruiert einen einheitlichen Klassifizierungsrahmen und analysiert Vorteile in verschiedenen Szenarien
Herausforderungen und Richtungen: Analysiert aktuelle Herausforderungen tiefgreifend und schlägt vielversprechende zukünftige Forschungsrichtungen vor, um Innovation in diesem Bereich zu katalysieren
Die datenzentrierte Kompression zielt darauf ab, die ursprüngliche Eingabesequenz X durch eine Kompressionoperation Φ in eine komprimierte Darstellung X' zu transformieren, wobei |X'| < |X| erfüllt ist und die Modellleistung so weit wie möglich erhalten bleibt.
Die Experimente offenbaren ein kontraintuitives Phänomen: Sorgfältig gestaltete Kompressionsmethoden schneiden in mehreren Szenarien schlechter ab als zufälliges Verwerfen.
Phasenweise Integration: Erst Modellkompression, dann Datenkompression
Gegenseitige Verstärkung: Nutzung von Gradienteninformationen zur Anleitung der Token-Auswahl, Verwendung von Token-Evolution zur Anleitung des Layer-Pruning
Zukunftsorientierte Einsichten: Identifiziert genau die Schlüsseltrendverschiebung in der KI-Entwicklung und schlägt ein zukunftsorientiertes Forschungsparadigma vor
Theoretischer Beitrag: Etabliert einen einheitlichen mathematischen Rahmen, der theoretische Grundlagen für verschiedene Effizienzstrategien bietet
Umfassende Analyse: Systematische Methodenklassifizierung und -analyse über mehrere Bereiche und Aufgaben hinweg
Empirische Erkenntnisse: Umfangreiche Experimente offenbaren grundlegende Probleme aktueller Methoden und bieten wichtige Erkenntnisse für die Bereichsentwicklung
Theoretische Tiefe: Obwohl ein einheitlicher Rahmen bereitgestellt wird, ist die theoretische Analyse datenzentrierter Kompression nicht ausreichend tiefgreifend
Methodische Innovation: Hauptsächlich eine Übersichtsarbeit, es fehlen konkrete neue Methodenvorschläge
Experimenteller Umfang: Experimente konzentrieren sich hauptsächlich auf die Validierung von Problemen bestehender Methoden, es fehlt die Erforschung von Lösungen
Quantitative Analyse: Die theoretische Komplexitätsanalyse verschiedener Kompressionsmethoden ist nicht ausreichend detailliert
Langkontext-Anwendungen: Besonders geeignet für Szenarien, die lange Texte, hochauflösende Bilder oder lange Videos verarbeiten müssen
Ressourcenbeschränkte Umgebungen: Von großem Wert in Szenarien mit begrenzten Rechenressourcen wie Mobilgeräten und Edge-Computing
Echtzeit-Interaktionssysteme: UI-Agenten, autonomes Fahren, verkörperte KI und andere Systeme, die kontinuierliche Eingaben effizient verarbeiten müssen
Großflächige Bereitstellung: Effizienzoptimierung für Cloud-Service-Provider bei großflächiger Modellbereitstellung
Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
Transformer-Architektur und ihre Varianten (Vaswani et al., 2017)
Große Sprachmodellserien (OpenAI GPT, Meta LLaMA, Qwen usw.)
Multimodale Modelle (LLaVA, InternVL usw.)
Effizienzoptimierungsmethoden (klassische Arbeiten zu Quantisierung, Pruning, Destillation usw.)
Repräsentative Arbeiten zur datenzentrierten Kompression
Dieses Papier bietet einen wichtigen theoretischen Rahmen und praktische Anleitung für die KI-Effizienzforschung und hat hohen akademischen Wert und praktische Bedeutung.