2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.

The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.

academic

Cambio de la Eficiencia de IA de Compresión Centrada en Modelos a Compresión Centrada en Datos

Información Básica

ID del Artículo: 2505.19147
Título: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Autores: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
Clasificación: cs.CL, cs.AI, cs.CV
Fecha de Publicación/Conferencia: arXiv preprint (enero de 2025)
Enlace del Artículo: https://arxiv.org/abs/2505.19147

Resumen

Con el desarrollo de modelos de lenguaje grandes (LLMs) y modelos de lenguaje grandes multimodales (MLLMs), los métodos tradicionales que dependen de la expansión de parámetros del modelo para mejorar el rendimiento enfrentan limitaciones de hardware. El cuello de botella computacional principal ha pasado del tamaño del modelo a la complejidad cuadrática del mecanismo de autoatención al procesar contextos de texto ultralargo, imágenes de alta resolución y videos largos. Este artículo propone que el enfoque de la investigación en eficiencia de IA debe cambiar de compresión centrada en modelos a compresión centrada en datos. La compresión centrada en datos mejora la eficiencia de IA comprimiendo directamente la cantidad de datos procesados durante el entrenamiento o la inferencia. El artículo establece un marco unificado de estrategias de eficiencia, revisa sistemáticamente el panorama de métodos de compresión centrada en datos, analiza sus ventajas en diferentes escenarios y esboza desafíos clave y direcciones futuras de investigación.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda este artículo es: ¿Cómo abordar efectivamente los desafíos de eficiencia computacional causados por el crecimiento acelerado de la longitud del contexto que procesan los modelos de IA?

Análisis de Importancia

Cambio en Tendencias Tecnológicas: De 2022 a 2024, la mejora del rendimiento de IA dependía principalmente de la expansión del tamaño del modelo, pero hacia 2024 el crecimiento del tamaño del modelo se ha estabilizado (aproximadamente 1T parámetros), mientras que la longitud del contexto continúa creciendo exponencialmente
Transición del Cuello de Botella Computacional: El gasto computacional principal ha pasado del crecimiento lineal de parámetros a la complejidad cuadrática O(n²) del mecanismo de autoatención
Demandas Interdisciplinarias: Los modelos de lenguaje necesitan procesar cadenas de razonamiento más largas, los modelos visuales necesitan procesar imágenes de mayor resolución y videos más largos, y los modelos generativos necesitan crear contenido de mayor calidad

Limitaciones de Métodos Existentes

Los métodos tradicionales de compresión centrada en modelos (cuantización, poda, destilación, descomposición de bajo rango) se optimizan principalmente para los parámetros del modelo W, pero no pueden abordar efectivamente los desafíos causados por el crecimiento de la longitud del contexto. Estos métodos aún necesitan procesar datos de entrada completos X cuando se enfrentan a secuencias largas, sin resolver fundamentalmente el problema de la complejidad cuadrática.

Motivación de la Investigación

Basándose en un análisis profundo de las tendencias de desarrollo de IA, los autores proponen la compresión centrada en datos como un nuevo paradigma que aborda los desafíos de contexto largo reduciendo directamente la cantidad de datos procesados, con mejor universalidad, eficiencia y compatibilidad.

Contribuciones Principales

Análisis de Cambio de Paradigma: Analiza el cambio clave en la investigación de eficiencia de IA desde cuellos de botella computacionales centrados en parámetros hacia cuellos de botella centrados en contexto, argumentando la necesidad de transformación del paradigma de optimización de eficiencia
Marco Teórico Unificado: Establece un marco de expresión matemática unificado que abarca diseño de arquitectura, compresión centrada en modelos y compresión centrada en datos
Revisión Sistemática: Realiza una investigación exhaustiva de métodos de compresión centrada en datos, construye un marco de clasificación unificado y analiza las ventajas en diferentes escenarios
Desafíos y Direcciones: Analiza profundamente los desafíos actuales y propone direcciones prometedoras de investigación futura, con el objetivo de catalizar la innovación en el campo

Detalles de Métodos

Definición de Tareas

La compresión centrada en datos tiene como objetivo transformar la secuencia de entrada original X en una representación comprimida X' mediante una operación de compresión Φ, satisfaciendo |X'| < |X|, mientras se mantiene el rendimiento del modelo tanto como sea posible.

Marco Unificado

Dado los datos de entrada X y los parámetros de red W, la salida de la red neuronal F es:

Y = F(W, X)

La optimización de eficiencia puede realizarse desde tres perspectivas:

Arquitectura de Computación Eficiente (F): Diseñar arquitecturas con complejidad lineal o subcuadrática
Compresión Centrada en Modelos (W): W' = Γ(W), |W'| < |W|
Compresión Centrada en Datos (X): X' = Φ(X), |X'| < |X|

Arquitectura de Compresión Centrada en Datos

Criterios de Compresión (E)

Métodos Parametrizados:

Métodos conscientes del entrenamiento: Optimizar parámetros adicionales Δθ a través del entrenamiento para aprender funciones de puntuación
Métodos independientes del entrenamiento: Utilizar directamente la red preentrenada como función de puntuación

Métodos No Parametrizados:

Métodos de computación intrínseca: Utilizar computaciones internas del modelo (como pesos de atención) para puntuación de tokens
Métodos de computación externa: Diseñar métricas adicionales para evaluar relaciones entre tokens

Estrategias de Compresión (P)

Poda de Tokens: Descartar directamente tokens con baja importancia

X' = X \ {xt | st < τ}

Fusión de Tokens: Fusionar tokens mediante similitud semántica

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

Puntos de Innovación Técnica

Eficiencia de Dos Etapas: Acelera simultáneamente las etapas de entrenamiento e inferencia
Compatibilidad de Arquitectura: Ortogonal a los métodos de compresión existentes, se integra sin problemas
Beneficios Cuadráticos: Aprovecha la complejidad O(n²) de la autoatención para lograr ahorros computacionales significativos
Aplicabilidad Universal: Consistencia de redundancia de tokens entre modalidades y tareas
Bajo Costo de Implementación: Las arquitecturas modernas soportan entrada de longitud variable, sin necesidad de reentrenamiento

Configuración Experimental

Conjuntos de Datos y Evaluación

El artículo valida la efectividad de los métodos de compresión centrada en datos a través de experimentos en múltiples dominios:

Tareas de Razonamiento Complejo:

MATH-500, AIME24, GSM8K
Modelo: DeepSeek-R1-Distill-Llama-8B
Presupuesto de caché KV: 1024 tokens

Tareas de Comprensión de Imágenes:

GQA, MMB, MMB-CN
Modelo: LLaVA-1.5-7B
Retención del 25% de tokens visuales

Tareas de Comprensión de Videos:

MVBench, MLVU, VideoMME
Modelo: LLaVA-OneVision-7B
Retención del 15% de tokens visuales

Tareas de Generación de Imágenes:

Modelo: FLUX.1-dev (basado en DiT)
Período de caché N=4, ratio R=90%

Métodos de Comparación

Métodos de Caché KV: H2O, SnapKV, KNorm
Métodos de Compresión Visual: FastV, SparseVLM, PDrop
Métodos Base: Descarte aleatorio, Pooling

Resultados Experimentales

Hallazgos Principales

Los experimentos revelan un fenómeno contraintuitivo: los métodos cuidadosamente diseñados tienen un desempeño inferior al descarte aleatorio en múltiples escenarios.

Tareas de Razonamiento Complejo

En AIME24, el descarte aleatorio supera a SnapKV por un 10% en precisión
H2O, SnapKV, KNorm se mantienen consistentemente por debajo del descarte aleatorio

Tareas de Comprensión de Imágenes

El descarte aleatorio y las operaciones de pooling superan algunos métodos diseñados
La uniformidad espacial mitiga el sesgo de posición de los métodos basados en atención

Tareas de Comprensión de Videos

Incluso reteniendo solo el 15% de tokens, el descarte aleatorio supera los métodos diseñados
La distribución uniforme de tokens espacio-temporales es esencial para la representación de video

Tareas de Generación de Imágenes

Todas las estrategias basadas en características obtienen puntuaciones inferiores a la selección aleatoria
El agrupamiento de tokens similares resulta en la peor calidad de generación

Arquitecturas Eficientes: Linear Attention, RWKV, State Space Models (Mamba)
Compresión de Modelos: Poda, cuantización, destilación, descomposición de bajo rango
Compresión de Datos: Compresión de conjuntos de datos, compresión de tokens

Posicionamiento de la Contribución del Artículo

Primera posición sistemática de la compresión centrada en datos como nuevo paradigma para la eficiencia de IA
Establece un marco teórico unificado que integra diversas estrategias de eficiencia
Proporciona análisis exhaustivo y evaluación entre dominios

Conclusiones y Discusión

Conclusiones Principales

Cambio de Paradigma: El enfoque de la investigación en eficiencia de IA debe cambiar de compresión centrada en modelos a compresión centrada en datos
Limitaciones de Métodos: Los métodos actuales de compresión basados en atención presentan problemas fundamentales como sesgo de posición
Principios de Diseño: La uniformidad espacial y temporal son principios de diseño clave para una compresión efectiva

Desafíos Actuales

Problema de Degradación de Rendimiento

Cuello de Botella Metodológico: El sesgo de posición de las puntuaciones de atención afecta la efectividad de la compresión
Limitaciones Inherentes: Algunas tareas (como localización visual, análisis OCR) son sensibles a la compresión

Representación de Datos Subóptima

Tanto los métodos de redundancia como los de importancia no pueden garantizar la representación de modelado descendente óptima
Falta de consideración de la estabilidad de la estructura de secuencia y patrones semánticos

Equidad de Evaluación

FLOPs y relación de compresión no reflejan fielmente los efectos de aceleración real
Falta de puntos de referencia especializados para compresión

Direcciones Futuras

Compresión Colaborativa Datos-Modelo

Integración por etapas: Primero compresión de modelos, luego compresión de datos
Mejora mutua: Utilizar información de gradientes para guiar la selección de tokens, usar evolución de tokens para guiar poda de capas

Puntos de Referencia de Evaluación Especializados

Cobertura de tareas entre dominios (PNL, Visión por Computadora, Multimodal)
Tareas sensibles a compresión (OCR, ASR)
Evaluación conjunta de rendimiento-latencia

Evaluación Profunda

Fortalezas

Perspectiva Prospectiva: Identifica con precisión cambios clave en las tendencias de desarrollo de IA y propone un paradigma de investigación prospectivo
Contribución Teórica: Establece un marco matemático unificado que proporciona base teórica para diferentes estrategias de eficiencia
Análisis Integral: Realiza clasificación y análisis sistemático de métodos entre múltiples dominios y tareas
Hallazgos Empíricos: Revela a través de extensos experimentos problemas fundamentales de métodos actuales, proporcionando perspectivas importantes para el desarrollo del campo
Calidad de Escritura: Lógica clara, expresión precisa, gráficos abundantes, fácil de entender

Insuficiencias

Profundidad Teórica: Aunque proporciona un marco unificado, el análisis teórico de la compresión centrada en datos aún no es suficientemente profundo
Innovación de Métodos: Principalmente trabajo de revisión, carece de propuesta de nuevos métodos específicos
Alcance Experimental: Los experimentos se concentran principalmente en verificar problemas de métodos existentes, carecen de exploración de soluciones
Análisis Cuantitativo: El análisis de complejidad teórica de diferentes métodos de compresión no es suficientemente detallado

Impacto

Contribución al Campo: Proporciona nuevas ideas y direcciones para la investigación de eficiencia de IA, potencialmente liderando un cambio en el enfoque de investigación del campo
Valor Práctico: Los resultados del análisis tienen importancia significativa para el despliegue real, especialmente en entornos con recursos limitados
Reproducibilidad: Proporciona configuración experimental detallada y proyectos de github, facilitando investigación posterior
Inspiración: Los problemas revelados y las direcciones propuestas proporcionan una hoja de ruta clara para investigación futura

Escenarios Aplicables

Aplicaciones de Contexto Largo: Particularmente aplicable a escenarios que requieren procesar texto largo, imágenes de alta resolución o videos largos
Entornos con Recursos Limitados: Tiene valor importante en escenarios como dispositivos móviles, computación perimetral donde los recursos computacionales son limitados
Sistemas de Interacción en Tiempo Real: Agentes de UI, conducción autónoma, IA encarnada y otros sistemas que necesitan procesar entrada continua de manera eficiente
Despliegue a Escala: Optimización de eficiencia para proveedores de servicios en la nube en despliegue de modelos a gran escala

Referencias

El artículo cita una gran cantidad de trabajo relacionado, incluyendo principalmente:

Arquitectura Transformer y sus variantes (Vaswani et al., 2017)
Series de modelos de lenguaje grandes (OpenAI GPT, Meta LLaMA, Qwen, etc.)
Modelos multimodales (LLaVA, InternVL, etc.)
Métodos de optimización de eficiencia (trabajo clásico en cuantización, poda, destilación, etc.)
Trabajo representativo en compresión centrada en datos

Este artículo proporciona un marco teórico importante y orientación práctica para el campo de investigación de eficiencia de IA, con valor académico y práctico considerable.