2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.

The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.

academic

Spostamento dell'Efficienza dell'IA dalla Compressione Incentrata sul Modello a quella Incentrata sui Dati

Informazioni Fondamentali

ID Articolo: 2505.19147
Titolo: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Autori: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
Classificazione: cs.CL, cs.AI, cs.CV
Data di Pubblicazione/Conferenza: arXiv preprint (gennaio 2025)
Link dell'Articolo: https://arxiv.org/abs/2505.19147

Riassunto

Con lo sviluppo dei Modelli di Linguaggio di Grandi Dimensioni (LLM) e dei Modelli di Linguaggio Multimodali di Grandi Dimensioni (MLLM), i metodi tradizionali che si basano sull'espansione dei parametri del modello per migliorare le prestazioni stanno affrontando limitazioni hardware. Il collo di bottiglia computazionale principale si è spostato dalla dimensione del modello alla complessità quadratica del meccanismo di auto-attenzione nel trattamento di contesti testuali ultra-lunghi, immagini ad alta risoluzione e video lunghi. Questo articolo propone che il focus della ricerca sull'efficienza dell'IA dovrebbe spostarsi dalla compressione incentrata sul modello a quella incentrata sui dati. La compressione incentrata sui dati migliora l'efficienza dell'IA comprimendo direttamente la quantità di dati elaborati durante l'addestramento o l'inferenza. L'articolo stabilisce un framework unificato di strategie di efficienza, esamina sistematicamente il panorama dei metodi di compressione incentrati sui dati, analizza i loro vantaggi in diversi scenari e delinea le sfide chiave e le direzioni di ricerca future.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questo articolo è: come affrontare efficacemente le sfide di efficienza computazionale derivanti dalla crescita drastica della lunghezza del contesto elaborato dai modelli di IA.

Analisi dell'Importanza

Cambiamento delle Tendenze Tecnologiche: Dal 2022 al 2024, il miglioramento delle prestazioni dell'IA si è basato principalmente sull'espansione della dimensione del modello, ma entro il 2024 la crescita della dimensione del modello si è stabilizzata (circa 1T parametri), mentre la lunghezza del contesto continua a crescere esponenzialmente
Trasferimento del Collo di Bottiglia Computazionale: Il carico computazionale principale si è spostato dalla crescita lineare dei parametri alla complessità quadratica O(n²) del meccanismo di auto-attenzione
Esigenze Trasversali ai Domini: I modelli linguistici devono elaborare catene di ragionamento più lunghe, i modelli visivi devono elaborare immagini ad alta risoluzione e video più lunghi, i modelli generativi devono creare contenuti di qualità superiore

Limitazioni dei Metodi Esistenti

I metodi tradizionali di compressione incentrati sul modello (quantizzazione, potatura, distillazione, decomposizione a basso rango) si concentrano principalmente sull'ottimizzazione dei parametri del modello W, ma non possono affrontare efficacemente le sfide derivanti dalla crescita della lunghezza del contesto. Questi metodi devono ancora elaborare i dati di input completi X quando affrontano sequenze lunghe, senza risolvere fondamentalmente il problema della complessità quadratica.

Motivazione della Ricerca

Basandosi su un'analisi approfondita delle tendenze di sviluppo dell'IA, gli autori propongono la compressione incentrata sui dati come nuovo paradigma emergente, che affronta le sfide del contesto lungo riducendo direttamente la quantità di dati elaborati, con migliore generalità, efficienza e compatibilità.

Contributi Fondamentali

Analisi del Cambio di Paradigma: Analizza il cambiamento critico nella ricerca sull'efficienza dell'IA dal collo di bottiglia computazionale incentrato sui parametri a quello incentrato sul contesto, argomentando la necessità della trasformazione del paradigma di ottimizzazione dell'efficienza
Framework Teorico Unificato: Stabilisce un framework di espressione matematica unificato che copre la progettazione dell'architettura, la compressione incentrata sul modello e la compressione incentrata sui dati
Revisione Sistematica: Conduce un'indagine completa sui metodi di compressione incentrati sui dati, costruisce un framework di classificazione unificato e analizza i vantaggi in diversi scenari
Sfide e Direzioni: Analizza in profondità le sfide attuali e propone direzioni di ricerca future promettenti, mirate a catalizzare l'innovazione in questo campo

Dettagli dei Metodi

Definizione del Compito

La compressione incentrata sui dati mira a trasformare la sequenza di input originale X in una rappresentazione compressa X' attraverso l'operazione di compressione Φ, soddisfacendo |X'| < |X|, mantenendo il più possibile le prestazioni del modello.

Framework Unificato

Dato i dati di input X e i parametri di rete W, l'output della rete neurale F è:

Y = F(W, X)

L'ottimizzazione dell'efficienza può essere eseguita da tre prospettive:

Architettura Computazionale Efficiente (F): Progettazione di architetture con complessità lineare o sub-quadratica
Compressione Incentrata sul Modello (W): W' = Γ(W), |W'| < |W|
Compressione Incentrata sui Dati (X): X' = Φ(X), |X'| < |X|

Architettura di Compressione Incentrata sui Dati

Standard di Compressione (E)

Metodi Parametrici:

Metodi Consapevoli dell'Addestramento: Ottimizzazione di parametri aggiuntivi Δθ attraverso l'addestramento per apprendere la funzione di scoring
Metodi Indipendenti dall'Addestramento: Utilizzo diretto della rete pre-addestrata come funzione di scoring

Metodi Non Parametrici:

Metodi di Calcolo Intrinseco: Utilizzo del calcolo interno del modello (come i pesi di attenzione) per lo scoring dei token
Metodi di Calcolo Esterno: Progettazione di metriche aggiuntive per valutare le relazioni tra token

Strategie di Compressione (P)

Potatura dei Token: Scartamento diretto dei token con bassa importanza

X' = X \ {xt | st < τ}

Fusione dei Token: Fusione dei token attraverso la similarità semantica

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

Punti di Innovazione Tecnica

Efficienza a Due Stadi: Accelerazione simultanea delle fasi di addestramento e inferenza
Compatibilità Architettonica: Ortogonale ai metodi di compressione esistenti, integrabile senza soluzione di continuità
Benefici Quadratici: Sfruttamento della complessità O(n²) dell'auto-attenzione per ottenere risparmi computazionali significativi
Applicabilità Universale: Coerenza della ridondanza dei token tra modalità e compiti
Basso Costo di Implementazione: Il supporto dell'architettura moderna per input di lunghezza variabile non richiede riaddestramenti

Configurazione Sperimentale

Dataset e Valutazione

L'articolo verifica l'efficacia dei metodi di compressione incentrati sui dati attraverso esperimenti in più domini:

Compiti di Ragionamento Complesso:

MATH-500, AIME24, GSM8K
Modello: DeepSeek-R1-Distill-Llama-8B
Budget della Cache KV: 1024 token

Compiti di Comprensione di Immagini:

GQA, MMB, MMB-CN
Modello: LLaVA-1.5-7B
Conservazione del 25% dei token visivi

Compiti di Comprensione di Video:

MVBench, MLVU, VideoMME
Modello: LLaVA-OneVision-7B
Conservazione del 15% dei token visivi

Compiti di Generazione di Immagini:

Modello: FLUX.1-dev (basato su DiT)
Periodo di Cache N=4, Rapporto R=90%

Metodi di Confronto

Metodi della Cache KV: H2O, SnapKV, KNorm
Metodi di Compressione Visiva: FastV, SparseVLM, PDrop
Metodi di Base: Random dropping, Pooling

Risultati Sperimentali

Scoperte Principali

Gli esperimenti rivelano un fenomeno controintuitivo: i metodi di compressione accuratamente progettati si comportano peggio dello scartamento casuale in più scenari.

Compiti di Ragionamento Complesso

Su AIME24, lo scartamento casuale supera SnapKV di un'accuratezza del 10%
H2O, SnapKV, KNorm rimangono costantemente al di sotto dello scartamento casuale

Compiti di Comprensione di Immagini

Lo scartamento casuale e le operazioni di pooling superano alcuni metodi progettati
L'uniformità spaziale mitiga la distorsione posizionale dei metodi basati sull'attenzione

Compiti di Comprensione di Video

Anche conservando solo il 15% dei token, lo scartamento casuale supera i metodi progettati
La distribuzione uniforme spazio-temporale dei token è essenziale per la rappresentazione video

Compiti di Generazione di Immagini

Tutte le strategie basate su caratteristiche hanno punteggi inferiori alla selezione casuale
Il clustering di token simili produce la peggiore qualità di generazione

Architetture Efficienti: Linear Attention, RWKV, State Space Models (Mamba)
Compressione del Modello: Potatura, quantizzazione, distillazione, decomposizione a basso rango
Compressione dei Dati: Compressione del dataset, compressione dei token

Posizionamento del Contributo dell'Articolo

Primo posizionamento sistematico della compressione incentrata sui dati come nuovo paradigma per l'efficienza dell'IA
Stabilimento di un framework teorico unificato che integra varie strategie di efficienza
Fornitura di un'analisi completa e trasversale ai domini e valutazione

Conclusioni e Discussione

Conclusioni Principali

Cambio di Paradigma: Il focus della ricerca sull'efficienza dell'IA dovrebbe spostarsi dalla compressione incentrata sul modello a quella incentrata sui dati
Limitazioni dei Metodi: I metodi di compressione attuali basati sull'attenzione presentano problemi fondamentali come la distorsione posizionale
Principi di Progettazione: L'uniformità spaziale e temporale è il principio di progettazione chiave per una compressione efficace

Sfide Attuali

Problema della Degradazione delle Prestazioni

Collo di Bottiglia Metodologico: La distorsione posizionale dei punteggi di attenzione influisce sull'efficacia della compressione
Limitazioni Intrinseche: Alcuni compiti (come la localizzazione visiva, l'analisi OCR) sono sensibili alla compressione

Rappresentazione dei Dati Non Ottimale

Sia i metodi di ridondanza che quelli di importanza non possono garantire la rappresentazione ottimale per la modellazione downstream
Mancanza di considerazione della stabilità delle strutture di sequenza e dei modelli semantici

Equità della Valutazione

FLOPs e rapporto di compressione non riflettono accuratamente l'effetto di accelerazione effettivo
Mancanza di benchmark specializzati per la compressione

Direzioni Future

Compressione Cooperativa Dati-Modello

Integrazione Graduale: Compressione del modello prima, seguita da compressione dei dati
Potenziamento Reciproco: Utilizzo di informazioni di gradiente per guidare la selezione dei token, utilizzo dell'evoluzione dei token per guidare la potatura dei livelli

Benchmark di Valutazione Specializzati

Copertura di compiti trasversali ai domini (NLP, CV, multimodale)
Compiti sensibili alla compressione (OCR, ASR)
Valutazione congiunta prestazioni-latenza

Valutazione Approfondita

Punti di Forza

Intuizioni Lungimiranti: Identificazione accurata del cambio di tendenza critico nello sviluppo dell'IA, proposta di un paradigma di ricerca lungimirante
Contributi Teorici: Stabilimento di un framework matematico unificato che fornisce fondamenti teorici per diverse strategie di efficienza
Analisi Completa: Classificazione e analisi sistematica dei metodi attraverso più domini e compiti
Scoperte Empiriche: Rivelazione attraverso ampi esperimenti dei problemi fondamentali dei metodi attuali, fornendo importanti intuizioni per lo sviluppo del campo
Qualità della Scrittura: Logica chiara, espressione accurata, figure e tabelle ricche, facile da comprendere

Limitazioni

Profondità Teorica: Sebbene fornisca un framework unificato, l'analisi teorica della compressione incentrata sui dati non è sufficientemente approfondita
Innovazione dei Metodi: Principalmente un lavoro di revisione, mancanza di proposte di nuovi metodi specifici
Portata Sperimentale: Gli esperimenti si concentrano principalmente sulla verifica dei problemi dei metodi esistenti, mancanza di esplorazione di soluzioni
Analisi Quantitativa: L'analisi della complessità teorica dei diversi metodi di compressione non è sufficientemente dettagliata

Impatto

Contributo al Campo: Fornisce nuove prospettive e direzioni per la ricerca sull'efficienza dell'IA, potrebbe guidare il cambiamento del focus di ricerca del campo
Valore Pratico: I risultati dell'analisi hanno un significato guida importante per il deployment effettivo, in particolare in ambienti con risorse limitate
Riproducibilità: Fornisce configurazioni sperimentali dettagliate e progetti github, facilitando la ricerca successiva
Ispirazione: Le problematiche rivelate e le direzioni proposte forniscono una chiara roadmap per la ricerca futura

Scenari Applicabili

Applicazioni di Contesto Lungo: Particolarmente adatte a scenari che richiedono l'elaborazione di testi lunghi, immagini ad alta risoluzione o video lunghi
Ambienti con Risorse Limitate: Ha un valore importante in scenari con risorse computazionali limitate come dispositivi mobili e edge computing
Sistemi di Interazione in Tempo Reale: Agenti UI, guida autonoma, IA incarnata e altri sistemi che richiedono l'elaborazione efficiente di input continui
Deployment su Larga Scala: Ottimizzazione dell'efficienza per i provider di servizi cloud nel deployment di modelli su larga scala

Bibliografia

L'articolo cita numerosi lavori correlati, principalmente includenti:

Architettura Transformer e sue varianti (Vaswani et al., 2017)
Serie di Modelli di Linguaggio di Grandi Dimensioni (OpenAI GPT, Meta LLaMA, Qwen, ecc.)
Modelli Multimodali (LLaVA, InternVL, ecc.)
Metodi di Ottimizzazione dell'Efficienza (lavori classici in quantizzazione, potatura, distillazione, ecc.)
Lavori Rappresentativi della Compressione Incentrata sui Dati

Questo articolo fornisce un importante framework teorico e una guida pratica per il campo della ricerca sull'efficienza dell'IA, con notevole valore accademico e pratico.