Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic
La Compressibilità Misura la Complessità: il Principio della Lunghezza Minima di Descrizione Incontra la Teoria dell'Apprendimento Singolare
Questo articolo estende il principio della Lunghezza Minima di Descrizione (Minimum Description Length, MDL) a modelli singolari come le reti neurali attraverso la Teoria dell'Apprendimento Singolare (Singular Learning Theory, SLT), investigando la compressibilità delle reti neurali. Mediante esperimenti su larga scala di tecniche di compressione quali quantizzazione e fattorizzazione sulla suite di modelli Pythia, si scopre che le stime di complessità basate sul Coefficiente di Apprendimento Locale (Local Learning Coefficient, LLC) sono altamente correlate alla compressibilità, mostrando in alcuni casi persino una relazione lineare. I risultati della ricerca forniscono un percorso teorico per la valutazione rigorosa dei limiti di compressione dei modelli.
Il problema fondamentale affrontato in questo articolo riguarda come misurare teoricamente la complessità dei modelli di reti neurali, in particolare distinguendo tra due modalità di apprendimento diverse: "memorizzare i dati di addestramento" e "scoprire soluzioni generali". I metodi tradizionali non riescono a determinare dalla sola funzione di perdita se un modello ha effettivamente acquisito capacità di generalizzazione.
Motivazione Economica: La compressione dei modelli influisce direttamente sui costi di inferenza. Dimezzare la memoria del modello potrebbe raddoppiare il suo valore operativo, il che spinge significativi investimenti in ricerca e sviluppo privato
Lacuna Teorica: Le tecniche di compressione esistenti mancano di fondamenti teorici solidi, in particolare nella comprensione dei limiti di compressione
Significato per la Sicurezza: Comprendere i limiti di compressione è significativo per la sicurezza nella valutazione dei requisiti informativi per il trasferimento delle capacità del modello
Limitazioni dell'MDL Classico: L'MDL tradizionale assume che i modelli siano "regolari" (la mappatura da parametri a distribuzioni è uno-a-uno, la matrice di informazione di Fisher è non singolare), ma le reti neurali violano questi presupposti
Metodi Euristici: Le tecniche di compressione esistenti (come il pruning basato sullo spettro dell'Hessiano) mancano di fondamenti teorici
Paradosso della Dimensionalità: La "dimensione effettiva" delle reti neurali è molto inferiore al numero di parametri, ma manca una spiegazione teorica rigorosa
Principio MDL Singolare: Estensione del principio MDL a reti neurali utilizzando la teoria dell'apprendimento singolare, provando l'esistenza di una codifica bipartita la cui ridondanza asintotica coinvolge il Coefficiente di Apprendimento Locale (LLC)
Ponte Teoria-Pratica: Stabilimento di una connessione teorica tra LLC e tecniche di compressione pratiche (quantizzazione, fattorizzazione)
Verifica Empirica: Validazione della relazione lineare tra LLC e compressibilità sulla serie di modelli Pythia (fino a 6,9B parametri) con R²≥0,98
Framework dei Limiti di Compressione: Fornitura di un framework teorico rigoroso per la valutazione dei limiti di compressione dei modelli
Dato un margine di tolleranza della perdita ε>0 e parametri dello schema di compressione P, trovare la massima quantità di compressione P_max tale che la perdita aumenti dal valore originale L alla soglia L+ε. La compressibilità è definita come la massima quantità di compressione che può essere tollerata.
Spazio campionario X (finito), distribuzione generatrice di dati q^(n) ∈ Δ(X^n)
Modello statistico parametrizzato M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
Codifica bipartita: prima si invia la rappresentazione della distribuzione codificata ⟦p⟧, poi i dati codificati con p ⟦x^(n)⟧_p
Teorema Fondamentale (Teorema 1):
Esiste una codifica bipartita tale che per qualsiasi distribuzione generatrice di dati realizzabile q ∈ M, la ridondanza asintotica è:
R_n = λ log n - (m-1) log log n + O_p(1)
dove λ è il coefficiente di apprendimento e m è la molteplicità.
Codifica Orientata al Volume: Diversamente dalla distribuzione uniforme tradizionale, assegna codifiche più brevi alle ipotesi che occupano maggiore volume parametrico
Gestione della Singolarità: Affronta la struttura geometrica degenere delle reti neurali attraverso il teorema di risoluzione della singolarità
Coefficiente di Apprendimento Locale: Utilizza LLC λ(w*) e molteplicità m(w*) per caratterizzare le proprietà geometriche dei minimi locali
Per la compressione mediante quantizzazione, si stabilisce la condizione di volume:
Vol(C_h) ≤ V(ε)
cioè il volume dell'unità di quantizzazione ≤ volume dell'insieme di sottolivello ε.
Si ottiene il budget di bit per coordinata:
b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)
Intuizione Chiave: Il numero critico di bit cresce linearmente con LLC; maggiore è LLC (minore è la degenerazione), più bit sono necessari per mantenere la precisione.
Contributo Teorico: Estensione riuscita del principio MDL a modelli singolari, stabilimento della connessione teorica tra LLC e compressibilità
Scoperte Empiriche: LLC può predire accuratamente i limiti di compressione delle reti neurali, in particolare per la compressione mediante quantizzazione
Validazione del Metodo: Fornitura di validazione indipendente per la stima dell'LLC in modelli transformer su larga scala
Possibile distorsione sistematica tra valori stimati e reali
Presupposto i.i.d.: Il framework teorico assume dati indipendenti e identicamente distribuiti, ma la modellazione del linguaggio viola questo presupposto
Costo Computazionale: Una singola stima dell'LLC per Pythia-6.9B richiede circa 3,5 ore su GPU H200
Portata di Validazione: Validazione principalmente sulla serie Pythia, necessitando validazione su più architetture di modelli
Copertura di Tecniche di Compressione: Focalizzazione principalmente su quantizzazione e fattorizzazione, copertura insufficiente di tecniche di compressione avanzate