2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.

The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.

academic

Déplacement de l'Efficacité de l'IA de la Compression Centrée sur le Modèle à la Compression Centrée sur les Données

Informations Fondamentales

ID de l'article: 2505.19147
Titre: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Auteurs: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
Classification: cs.CL, cs.AI, cs.CV
Date de Publication/Conférence: Preprint arXiv (janvier 2025)
Lien de l'article: https://arxiv.org/abs/2505.19147

Résumé

Avec le développement des grands modèles de langage (LLMs) et des grands modèles de langage multimodaux (MLLMs), les méthodes traditionnelles qui reposaient sur l'expansion des paramètres du modèle pour améliorer les performances font face à des limitations matérielles. Le goulot d'étranglement computationnel principal s'est déplacé de la taille du modèle vers la complexité quadratique du mécanisme d'auto-attention lors du traitement de contextes textuels ultra-longs, d'images haute résolution et de vidéos longues. Cet article propose que l'accent de la recherche en efficacité de l'IA devrait passer de la compression centrée sur le modèle à la compression centrée sur les données. La compression centrée sur les données améliore l'efficacité de l'IA en comprimant directement le volume de données traitées lors de l'entraînement ou de l'inférence. L'article établit un cadre unifié de stratégies d'efficacité, examine systématiquement le panorama des méthodes de compression centrées sur les données, analyse leurs avantages dans différents scénarios, et esquisse les défis clés et les directions de recherche futures.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé par cet article est: comment faire face efficacement aux défis d'efficacité computationnelle résultant de la croissance rapide de la longueur du contexte traité par les modèles d'IA.

Analyse de l'Importance

Évolution des Tendances Technologiques: De 2022 à 2024, l'amélioration des performances de l'IA dépendait principalement de l'expansion de la taille du modèle, mais à partir de 2024, la croissance de la taille du modèle s'est stabilisée (environ 1T paramètres), tandis que la longueur du contexte continue de croître exponentiellement
Déplacement du Goulot d'Étranglement Computationnel: Les dépenses computationnelles principales se sont déplacées de la croissance linéaire des paramètres vers la complexité quadratique O(n²) du mécanisme d'auto-attention
Besoins Transversaux: Les modèles de langage doivent traiter des chaînes de raisonnement plus longues, les modèles visuels doivent traiter des images haute résolution et des vidéos plus longues, et les modèles génératifs doivent créer du contenu de meilleure qualité

Limitations des Méthodes Existantes

Les méthodes traditionnelles de compression centrée sur le modèle (quantification, élagage, distillation, décomposition de faible rang) se concentrent principalement sur l'optimisation des paramètres du modèle W, mais ne peuvent pas répondre efficacement aux défis posés par la croissance de la longueur du contexte. Ces méthodes doivent toujours traiter les données d'entrée complètes X face à des séquences longues, et ne peuvent pas résoudre fondamentalement le problème de la complexité quadratique.

Motivation de la Recherche

Basée sur une analyse approfondie des tendances du développement de l'IA, les auteurs proposent la compression centrée sur les données comme nouveau paradigme, qui répond aux défis du contexte long en réduisant directement le volume de données traitées, offrant une meilleure universalité, efficacité et compatibilité.

Contributions Principales

Analyse du Changement de Paradigme: Analyse le changement clé du goulot d'étranglement computationnel de la recherche en efficacité de l'IA, passant du centre des paramètres au centre du contexte, et justifie la nécessité de transformer le paradigme d'optimisation de l'efficacité
Cadre Théorique Unifié: Établit un cadre d'expression mathématique unifié couvrant la conception architecturale, la compression centrée sur le modèle et la compression centrée sur les données
Examen Systématique: Mène une enquête complète sur les méthodes de compression centrée sur les données, construit un cadre de classification unifié, et analyse les avantages dans différents scénarios
Défis et Directions: Analyse en profondeur les défis actuels et propose des directions de recherche futures prometteuses, visant à catalyser l'innovation dans ce domaine

Détails de la Méthode

Définition de la Tâche

La compression centrée sur les données vise à transformer la séquence d'entrée originale X en une représentation comprimée X' par une opération de compression Φ, satisfaisant |X'| < |X|, tout en préservant autant que possible les performances du modèle.

Cadre Unifié

Étant donné les données d'entrée X et les paramètres du réseau W, la sortie du réseau de neurones F est:

Y = F(W, X)

L'optimisation de l'efficacité peut être effectuée sous trois angles:

Architecture Computationnelle Efficace (F): Concevoir des architectures avec une complexité linéaire ou sous-quadratique
Compression Centrée sur le Modèle (W): W' = Γ(W), |W'| < |W|
Compression Centrée sur les Données (X): X' = Φ(X), |X'| < |X|

Architecture de Compression Centrée sur les Données

Critères de Compression (E)

Méthodes Paramétriques:

Méthodes conscientes de l'entraînement: Optimiser les paramètres supplémentaires Δθ par entraînement pour apprendre la fonction de notation
Méthodes indépendantes de l'entraînement: Utiliser directement le réseau pré-entraîné comme fonction de notation

Méthodes Non-Paramétriques:

Méthodes de calcul intrinsèque: Utiliser les calculs internes du modèle (comme les poids d'attention) pour la notation des tokens
Méthodes de calcul externe: Concevoir des mesures supplémentaires pour évaluer les relations entre tokens

Stratégies de Compression (P)

Élagage de Tokens: Supprimer directement les tokens de faible importance

X' = X \ {xt | st < τ}

Fusion de Tokens: Fusionner les tokens par similarité sémantique

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

Points d'Innovation Technique

Efficacité Bidirectionnelle: Accélérer simultanément les phases d'entraînement et d'inférence
Compatibilité Architecturale: Orthogonal aux méthodes de compression existantes, peut s'intégrer de manière transparente
Bénéfices Quadratiques: Exploiter la complexité O(n²) de l'auto-attention pour obtenir des économies computationnelles significatives
Applicabilité Universelle: Cohérence de la redondance des tokens entre les modalités et les tâches
Faible Coût d'Implémentation: Les architectures modernes supportent les entrées de longueur variable, sans nécessité de réentraînement

Configuration Expérimentale

Ensembles de Données et Évaluation

L'article valide l'efficacité des méthodes de compression centrée sur les données par des expériences dans plusieurs domaines:

Tâches de Raisonnement Complexe:

MATH-500, AIME24, GSM8K
Modèle: DeepSeek-R1-Distill-Llama-8B
Budget de cache KV: 1024 tokens

Tâches de Compréhension d'Images:

GQA, MMB, MMB-CN
Modèle: LLaVA-1.5-7B
Conservation de 25% des tokens visuels

Tâches de Compréhension Vidéo:

MVBench, MLVU, VideoMME
Modèle: LLaVA-OneVision-7B
Conservation de 15% des tokens visuels

Tâches de Génération d'Images:

Modèle: FLUX.1-dev (basé sur DiT)
Période de cache N=4, ratio R=90%

Méthodes de Comparaison

Méthodes de Cache KV: H2O, SnapKV, KNorm
Méthodes de Compression Visuelle: FastV, SparseVLM, PDrop
Méthodes de Base: Suppression aléatoire, Pooling

Résultats Expérimentaux

Découvertes Principales

Les expériences révèlent un phénomène contre-intuitif: les méthodes de compression soigneusement conçues ne surpassent pas la suppression aléatoire dans plusieurs scénarios.

Tâches de Raisonnement Complexe

Sur AIME24, la suppression aléatoire surpasse SnapKV de 10% en précision
H2O, SnapKV, KNorm sont tous constamment inférieurs à la suppression aléatoire

Tâches de Compréhension d'Images

La suppression aléatoire et le pooling surpassent certaines méthodes conçues
L'uniformité spatiale atténue les biais de position des méthodes basées sur l'attention

Tâches de Compréhension Vidéo

Même en conservant seulement 15% des tokens, la suppression aléatoire surpasse les méthodes conçues
La distribution uniforme spatio-temporelle des tokens est essentielle pour la représentation vidéo

Tâches de Génération d'Images

Tous les scores des stratégies basées sur les caractéristiques sont inférieurs à la sélection aléatoire
Le clustering de tokens similaires entraîne la pire qualité de génération

Analyse des Performances

La compression centrée sur les données apporte des bénéfices significatifs en termes de calcul et de mémoire:

Complexité Computationnelle: Ω(X')/Ω(X) = O(m²/n²) Utilisation Mémoire: M(X')/M(X) ≈ m/n Optimisation du Cache KV: MKV(X')/MKV(X) = m/n

Travaux Connexes

Classification des Méthodes d'Optimisation de l'Efficacité

Architectures Efficaces: Linear Attention, RWKV, State Space Models (Mamba)
Compression de Modèle: Élagage, quantification, distillation, décomposition de faible rang
Compression de Données: Compression d'ensemble de données, compression de tokens

Positionnement de la Contribution de cet Article

Première positionnement systématique de la compression centrée sur les données comme nouveau paradigme pour l'efficacité de l'IA
Établissement d'un cadre théorique unifié intégrant diverses stratégies d'efficacité
Fourniture d'une analyse complète et d'une évaluation inter-domaines

Conclusion et Discussion

Conclusions Principales

Changement de Paradigme: L'accent de la recherche en efficacité de l'IA devrait passer de la compression centrée sur le modèle à la compression centrée sur les données
Limitations des Méthodes: Les méthodes de compression actuelles basées sur l'attention présentent des problèmes fondamentaux tels que les biais de position
Principes de Conception: L'uniformité spatiale et temporelle est un principe de conception clé pour une compression efficace

Défis Actuels

Problème de Dégradation des Performances

Goulot d'Étranglement Méthodologique: Les biais de position des scores d'attention affectent l'efficacité de la compression
Limitations Inhérentes: Certaines tâches (comme la localisation visuelle, l'analyse OCR) sont sensibles à la compression

Représentation de Données Non-Optimale

Les méthodes de redondance et d'importance ne peuvent garantir une représentation optimale pour la modélisation en aval
Manque de considération pour la stabilité des structures de séquence et des motifs sémantiques

Équité de l'Évaluation

Les FLOPs et les ratios de compression ne reflètent pas fidèlement les effets d'accélération réels
Manque de benchmarks spécialisés pour la compression

Directions Futures

Compression Coopérative Données-Modèle

Intégration par étapes: compression de modèle d'abord, puis compression de données
Amélioration mutuelle: utiliser les informations de gradient pour guider la sélection de tokens, utiliser l'évolution de tokens pour guider l'élagage de couches

Benchmarks d'Évaluation Spécialisés

Couverture de tâches inter-domaines (NLP, CV, multimodal)
Tâches sensibles à la compression (OCR, ASR)
Évaluation conjointe performance-latence

Évaluation Approfondie

Points Forts

Perspectives Avant-Gardistes: Identifie avec précision le changement de tendance clé du développement de l'IA et propose un paradigme de recherche avant-gardiste
Contribution Théorique: Établit un cadre mathématique unifié, fournissant une base théorique pour différentes stratégies d'efficacité
Analyse Complète: Effectue une classification systématique et une analyse des méthodes dans plusieurs domaines et tâches
Découvertes Empiriques: Révèle par de nombreuses expériences les problèmes fondamentaux des méthodes actuelles, fournissant des perspectives importantes pour le développement du domaine
Qualité de Rédaction: Logique claire, expression précise, figures riches, facile à comprendre

Insuffisances

Profondeur Théorique: Bien que fournissant un cadre unifié, l'analyse théorique de la compression centrée sur les données n'est pas suffisamment approfondie
Innovation Méthodologique: Travail principalement de synthèse, manque de propositions de nouvelles méthodes concrètes
Portée Expérimentale: Les expériences se concentrent principalement sur la vérification des problèmes des méthodes existantes, manquent d'exploration de solutions
Analyse Quantitative: L'analyse de la complexité théorique des différentes méthodes de compression manque de détails

Impact

Contribution au Domaine: Fournit de nouvelles perspectives et directions pour la recherche en efficacité de l'IA, peut conduire à un changement de l'accent de la recherche dans ce domaine
Valeur Pratique: Les résultats d'analyse ont une importance significative pour le déploiement réel, particulièrement dans les environnements à ressources limitées
Reproductibilité: Fournit des configurations expérimentales détaillées et des projets github, facilitant la recherche ultérieure
Nature Inspirante: Les problèmes révélés et les directions proposées fournissent une feuille de route claire pour la recherche future

Scénarios Applicables

Applications de Contexte Long: Particulièrement applicable aux scénarios nécessitant le traitement de textes longs, d'images haute résolution ou de vidéos longues
Environnements à Ressources Limitées: Possède une valeur importante dans les scénarios avec des ressources computationnelles limitées tels que les appareils mobiles et l'informatique en périphérie
Systèmes d'Interaction en Temps Réel: Agents UI, conduite autonome, IA incarnée et autres systèmes nécessitant un traitement efficace d'entrées continues
Déploiement à Grande Échelle: Optimisation de l'efficacité lors du déploiement de modèles à grande échelle par les fournisseurs de services cloud

Références

L'article cite un grand nombre de travaux connexes, incluant principalement:

Architecture Transformer et ses variantes (Vaswani et al., 2017)
Séries de grands modèles de langage (OpenAI GPT, Meta LLaMA, Qwen, etc.)
Modèles multimodaux (LLaVA, InternVL, etc.)
Méthodes d'optimisation de l'efficacité (travaux classiques en quantification, élagage, distillation, etc.)
Travaux représentatifs en compression centrée sur les données

Cet article fournit un cadre théorique important et des orientations pratiques pour le domaine de la recherche en efficacité de l'IA, possédant une valeur académique et une signification pratique considérables.