In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.
- ID Articolo: 2510.14890
- Titolo: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
- Autori: Andrew Welbaum, Wanli Qiao (George Mason University)
- Classificazione: stat.ME stat.ML
- Data di Pubblicazione: 17 Ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.14890
Nel modello di miscela di regressioni lineari, i coefficienti di regressione sono considerati come vettori casuali che possono seguire distribuzioni continue o discrete. Questo articolo propone due algoritmi di Massimizzazione dell'Aspettativa (EM) per stimare tale distribuzione a priori. Il primo algoritmo risolve una versione kernelizzata della stima di massima verosimiglianza non parametrica (NPMLE), che non solo recupera distribuzioni a priori continue, ma stima accuratamente il numero di cluster quando il a priori è discreto. Il secondo algoritmo mira ad approssimare l'NPMLE per distribuzioni a priori con densità. Combinato con un passo di post-elaborazione, funziona bene anche su priori discreti. Vengono studiate le proprietà di convergenza di entrambi gli algoritmi e la loro efficacia è dimostrata attraverso simulazioni e applicazioni su dataset reali.
Il modello di miscela di regressioni lineari estende la regressione lineare multivariata, permettendo al vettore dei coefficienti di avere una distribuzione a priori continua o discreta. Questo modello ha ampie applicazioni quando la variabile di risposta e le covariate possono avere relazioni lineari personalizzate o raggruppate, inclusa la segmentazione di mercato, la ricerca medica, la ricerca educativa e varie ricerche industriali ed economiche.
Consideriamo n osservazioni indipendenti (x1,y1),…,(xn,yn)∈Rd×R, generate dal seguente modello:
yi=xiTβi+σzi
dove β1,…,βn∼iidG∗, z1,…,zn∼iidN(0,1), σ>0 è noto, e G∗ è una distribuzione di probabilità sconosciuta su Rd.
- Limitazioni dei Metodi Esistenti: Gli algoritmi EM tradizionali richiedono di conoscere in anticipo il numero di componenti K, mentre i metodi basati su NPMLE (come Jiang and Guntuboyina 2025), sebbene teoricamente consistenti, spesso non riescono a rilevare accuratamente il numero reale di componenti nella pratica
- Esigenze Pratiche: È necessario un metodo che possa gestire sia distribuzioni continue che rilevare automaticamente il numero di componenti di distribuzioni discrete
- Applicazioni di Clustering: Quando G∗ è discreto, è necessario raggruppare le osservazioni in base ai risultati stimati
- Propone l'Algoritmo EM-NPMLE: Per distribuzioni a priori con densità, converge all'NPMLE
- Propone l'Algoritmo EM-NPKMLE: Attraverso l'ottimizzazione vincolata della stima di densità kernel, rileva automaticamente il numero di componenti di distribuzioni discrete
- Garanzie Teoriche: Dimostra le proprietà di convergenza di entrambi gli algoritmi
- Strategie di Post-elaborazione: Propone metodi di post-elaborazione mean shift e SCMS per gestire strutture speciali
- Verifica Pratica: Valida l'efficacia del metodo su simulazioni e dati reali
Dati i dati osservati {(xi,yi)}i=1n, l'obiettivo è stimare la distribuzione a priori sconosciuta G∗, e quindi:
- Eseguire la stima non parametrica per distribuzioni continue
- Determinare automaticamente il numero di componenti per distribuzioni discrete e stimare i parametri
- Eseguire il clustering in base ai risultati stimati
Scenario Applicabile: G∗ ha una funzione di densità g∗
Flusso dell'Algoritmo:
- Passo E: Calcolare la densità posteriore
fi(t+1)(β)=∫Rdϕσ(yi−xiTβ)g(t)(β)dβϕσ(yi−xiTβ)g(t)(β)
- Passo M: Aggiornare la stima di densità
g(t+1)=n1∑i=1nfi(t+1)
Proprietà Teoriche:
- Teorema 2.1: Sotto condizioni appropriate, G(t) converge debolmente all'unico NPMLE G^
Idea Centrale: Limitare l'ottimizzazione all'insieme delle stime di densità kernel Gkde:
Gkde={nhd1∑ℓ=1nv(h2∥⋅−β~ℓ∥2):β~1,…,β~n∈Rd}
Struttura dell'Algoritmo: Algoritmo EM a doppio ciclo
- Ciclo Esterno: Iterazioni EM per aggiornare la distribuzione
- Ciclo Interno: Salita del gradiente per ottimizzare i parametri della stima di densità kernel
Formule di Aggiornamento Chiave:
νℓ(r+1)=ξ(νℓ(r);β(t),x,y)=C(νℓ(r),β(t),x,y)A(νℓ(r);β(t),x,y)
dove A e C sono determinati dai calcoli del gradiente.
- Dimensione del Passo Adattiva: La salita del gradiente utilizza una dimensione del passo adattiva 1/C(νℓ(r),β(t),x,y), senza necessità di regolazione manuale
- Selezione della Larghezza di Banda: Strategia di selezione della larghezza di banda basata sul principio di massima levigatezza, evitando modalità spurie
- Flessibilità della Post-elaborazione: Metodi di post-elaborazione corrispondenti progettati per diverse strutture a priori
Simulazione 1: Distribuzione discreta a tre componenti
- Componenti: y=3−x, y=1+1.5x, y=−1+0.5x
- Pesi: (0.3, 0.3, 0.4)
- Rumore: σ=0.5
- Dimensione del campione: da 500 a 10.000
Simulazione 2: Distribuzione continua
- Distribuzione uniforme su due cerchi concentrici: 21×Uniform{B(1)}+21×Uniform{B(2)}
- Indice di Rand Aggiustato (ARI): Qualità del clustering
- Accuratezza del Rilevamento dei Componenti: Proporzione di corretta identificazione del numero reale di componenti
- Distanza di Wasserstein-2: Qualità della stima della distribuzione
- Bias e Deviazione Standard: Precisione della stima dei parametri
- Metodo CGM: Metodo del gradiente condizionale di Jiang and Guntuboyina (2025)
- EM-NPMLE + Mean Shift: Versione con post-elaborazione
- Metodo Oracle: Limite teorico con distribuzione vera nota
- Funzione kernel: kernel gaussiano
- Larghezza di banda: selezionata in base al principio di massima levigatezza
- Inizializzazione: distribuzione uniforme o output di EM-NPMLE
- Criterio di convergenza: distanza L2 inferiore a una soglia predefinita
Risultati della Simulazione 1 (dimensione del campione 10.000):
- EM-NPKMLE: ARI=0.651, tasso di rilevamento componenti=99.5%, distanza W-2=0.288
- EM-NPMLE+Mean Shift: ARI=0.662, tasso di rilevamento componenti=100%, distanza W-2=0.265
- CGM: ARI=0.596, tasso di rilevamento componenti=0%, numero medio di componenti=7.57
Scoperte Chiave:
- Sia EM-NPKMLE che EM-NPMLE+Mean Shift riescono a stimare coerentemente il numero reale di componenti
- Il metodo CGM sistematicamente sovrastima il numero di componenti
- Con l'aumento della dimensione del campione, tutte le stime tendono al valore vero
Per la stima dei coefficienti di tre componenti (n=10.000):
- Componente 1: Valore vero (3,-1), stima (-0.112, 0.004)±(0.011, 0.010)
- Componente 2: Valore vero (1,1.5), stima (-0.115, 0.013)±(0.018, 0.012)
- Componente 3: Valore vero (-1,0.5), stima (0.113, 0.027)±(0.013, 0.010)
GEM-NPKMLE (ciclo interno singolo) rispetto all'EM-NPKMLE completo:
- Tempo: 15.4 minuti vs 115.9 minuti (n=5000)
- Prestazioni: sostanzialmente equivalenti (per campioni grandi)
Dati CO2-GDP:
- Rilevati 2 componenti principali, con pesi 0.484 e 0.358
- Coefficienti: (0.022, 0.179) e (-0.070, 0.343)
- Coerenti con i componenti principali del metodo CGM
Dati di Percezione del Tono Musicale:
- Rilevati 2 componenti, in accordo con le previsioni della teoria musicale
- I componenti corrispondono alle previsioni teoriche di y=x e y=2
- Lavori Classici: Kiefer and Wolfowitz (1956) descrivono per la prima volta l'NPMLE per modelli di miscela
- Progressi Recenti: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025) e altri
- EM Moderno: Formalizzato da Dempster et al. (1977)
- Regressione di Miscela: Esteso al clustering di regressione lineare da DeSarbo and Cron (1988)
- Stima del Numero di Componenti: I metodi tradizionali si basano su criteri informativi come AIC e BIC
- Nessuna Necessità di Preimpostare il Numero di Componenti: Rispetto agli algoritmi EM tradizionali
- Rilevamento Accurato dei Componenti: Rispetto ai metodi NPMLE esistenti
- Framework Unificato: Gestisce simultaneamente distribuzioni continue e discrete
- Algoritmo EM-NPKMLE è in grado di rilevare automaticamente il numero reale di componenti di distribuzioni discrete, evitando il problema della sovrastima dei metodi tradizionali
- Garanzie di Convergenza: Entrambi gli algoritmi hanno garanzie teoriche di convergenza
- Forte Praticità: Mostrano buone prestazioni sia su simulazioni che su dati reali
- Efficienza Computazionale: La variante GEM fornisce un buon equilibrio tra efficienza e precisione
- Selezione della Larghezza di Banda: Richiede una strategia appropriata di selezione della larghezza di banda; il metodo attuale potrebbe non essere ottimale
- Ottimi Locali: La salita del gradiente potrebbe rimanere intrappolata in ottimi locali
- Sfide ad Alta Dimensionalità: Le prestazioni in casi ad alta dimensionalità richiedono ulteriori ricerche
- Giudizio della Distribuzione: È difficile in pratica giudicare in anticipo se la distribuzione è continua o discreta
- Larghezza di Banda Adattiva: Sviluppare larghezze di banda adattive per diverse iterazioni o dimensioni
- Analisi Teorica: Approfondire le proprietà teoriche di EM-NPKMLE
- Applicazioni Estese: Generalizzare a modelli di miscela generale
- Ottimizzazione Computazionale: Migliorare ulteriormente l'efficienza computazionale dell'algoritmo
- Forte Innovazione Metodologica: L'NPMLE vincolato dalla stima di densità kernel è un approccio innovativo
- Alto Valore Pratico: Risolve il problema pratico del rilevamento automatico del numero di componenti
- Fondamenti Teorici Solidi: Fornisce prove di convergenza
- Esperimenti Completi: Include verifiche su simulazioni e dati reali
- Scrittura Chiara: Descrizione dettagliata degli algoritmi e derivazioni matematiche rigorose
- Dipendenza dalla Larghezza di Banda: Le prestazioni dell'algoritmo sono relativamente sensibili alla scelta della larghezza di banda
- Complessità Computazionale: La struttura a doppio ciclo ha costi computazionali relativamente elevati
- Scalabilità ad Alta Dimensionalità: Manca uno studio sistematico in casi ad alta dimensionalità
- Confronti Limitati: Principalmente confrontato con il metodo CGM, mancano più baseline
- Contributo Teorico: Fornisce nuove prospettive per la stima non parametrica di regressioni di miscela
- Valore Pratico: Ha applicazioni dirette nei campi del clustering e della stima di distribuzioni
- Riproducibilità: La descrizione dettagliata dell'algoritmo facilita la riproduzione
- Estensibilità: Il framework è estensibile ad altri modelli di miscela
- Segmentazione di Mercato: Analisi dei modelli comportamentali di diversi gruppi di consumatori
- Ricerca Medica: Analisi della risposta al trattamento di sottogruppi di pazienti
- Ricerca Economica: Modelli di crescita economica con percorsi di sviluppo diversi
- Apprendimento Automatico: Regressione di clustering e apprendimento semi-supervisionato
- Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
- Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
- Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
- Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.
Valutazione Complessiva: Questo è un articolo di alta qualità di metodologia statistica che propone algoritmi EM innovativi per risolvere importanti problemi nelle regressioni di miscela lineare. Il metodo ha fondamenti teorici solidi e buone prestazioni pratiche, fornendo strumenti preziosi per i campi correlati. Nonostante alcune limitazioni, i suoi contributi sono significativi e ha buon valore accademico e applicativo.