2025-11-22T01:28:15.129039

EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions

Welbaum, Qiao
In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.
academic

रैखिक प्रतिगमन के मिश्रण के लिए अरैखिक अनुमान के लिए EM दृष्टिकोण

मूल जानकारी

  • पेपर ID: 2510.14890
  • शीर्षक: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
  • लेखक: Andrew Welbaum, Wanli Qiao (जॉर्ज मेसन विश्वविद्यालय)
  • वर्गीकरण: stat.ME stat.ML
  • प्रकाशन समय: 17 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.14890

सारांश

मिश्रित रैखिक प्रतिगमन मॉडल में, प्रतिगमन गुणांकों को यादृच्छिक वेक्टर के रूप में माना जाता है जो संभवतः सतत या असतत वितरण का पालन करते हैं। यह पेपर इस पूर्व वितरण का अनुमान लगाने के लिए दो अपेक्षा-अधिकतमकरण (EM) एल्गोरिदम प्रस्तावित करता है। पहला एल्गोरिदम अरैखिक अधिकतम संभावना अनुमान (NPMLE) के कर्नेलीकृत संस्करण को हल करता है, जो न केवल सतत पूर्व वितरण को पुनः प्राप्त कर सकता है, बल्कि जब पूर्व असतत हो तो क्लस्टरिंग संख्या को सटीक रूप से अनुमानित कर सकता है। दूसरा एल्गोरिदम NPMLE को अनुमानित करने के लिए डिज़ाइन किया गया है, घनत्व वाले पूर्व वितरण के लिए। पश्च-प्रसंस्करण चरण के साथ संयुक्त, यह असतत पूर्व पर भी अच्छा प्रदर्शन करता है। दोनों एल्गोरिदम के अभिसरण गुणों का अध्ययन किया गया है, और सिमुलेशन और वास्तविक डेटा सेट अनुप्रयोगों के माध्यम से इसकी प्रभावशीलता प्रदर्शित की गई है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मिश्रित रैखिक प्रतिगमन मॉडल बहुभिन्न रैखिक प्रतिगमन को विस्तारित करता है, जो गुणांक वेक्टर को सतत या असतत पूर्व वितरण रखने की अनुमति देता है। यह मॉडल व्यापक अनुप्रयोग में है जब प्रतिक्रिया चर और सहसंयोजक व्यक्तिगत या क्लस्टर किए गए रैखिक संबंध रख सकते हैं, जिसमें बाजार विभाजन, चिकित्सा अनुसंधान, शैक्षिक अनुसंधान और विभिन्न औद्योगिक और आर्थिक अनुसंधान शामिल हैं।

मॉडल सेटअप

n स्वतंत्र अवलोकनों (x1,y1),,(xn,yn)Rd×R(x_1, y_1), \ldots, (x_n, y_n) \in \mathbb{R}^d \times \mathbb{R} पर विचार करें, जो निम्नलिखित मॉडल द्वारा उत्पन्न होते हैं: yi=xiTβi+σziy_i = x_i^T \beta_i + \sigma z_i जहां β1,,βniidG\beta_1, \ldots, \beta_n \stackrel{iid}{\sim} G^*, z1,,zniidN(0,1)z_1, \ldots, z_n \stackrel{iid}{\sim} N(0,1), σ>0\sigma > 0 ज्ञात है, और GG^* Rd\mathbb{R}^d पर अज्ञात संभाव्यता वितरण है।

अनुसंधान प्रेरणा

  1. मौजूदा विधियों की सीमाएं: पारंपरिक EM एल्गोरिदम को घटकों की संख्या K पहले से जानने की आवश्यकता है, जबकि NPMLE पर आधारित विधियां (जैसे Jiang and Guntuboyina 2025) सैद्धांतिक रूप से सुसंगत हैं, लेकिन व्यावहारिक रूप से अक्सर वास्तविक घटकों की संख्या का सटीक पता नहीं लगा सकते हैं
  2. व्यावहारिक आवश्यकता: ऐसी विधि की आवश्यकता है जो सतत वितरण को संभाल सके और असतत वितरण घटकों की संख्या को स्वचालित रूप से पहचान सके
  3. क्लस्टरिंग अनुप्रयोग: जब GG^* असतत हो, तो अनुमानित परिणामों के आधार पर अवलोकन बिंदुओं को क्लस्टर करने की आवश्यकता है

मुख्य योगदान

  1. EM-NPMLE एल्गोरिदम प्रस्तावित करना: घनत्व वाले पूर्व वितरण के लिए, NPMLE में अभिसरण
  2. EM-NPKMLE एल्गोरिदम प्रस्तावित करना: कर्नेल घनत्व अनुमान के माध्यम से बाधित अनुकूलन, असतत वितरण की घटकों की संख्या को स्वचालित रूप से पहचान सकता है
  3. सैद्धांतिक गारंटी: दोनों एल्गोरिदम के अभिसरण गुणों को साबित करना
  4. पश्च-प्रसंस्करण रणनीति: विशेष संरचना को संभालने के लिए माध्य स्थानांतरण और SCMS पश्च-प्रसंस्करण विधियां प्रस्तावित करना
  5. व्यावहारिकता सत्यापन: सिमुलेशन और वास्तविक डेटा पर विधि की प्रभावशीलता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

दिए गए अवलोकन डेटा {(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n के साथ, लक्ष्य अज्ञात पूर्व वितरण GG^* का अनुमान लगाना है, और इसके बाद:

  1. सतत वितरण के लिए अरैखिक अनुमान
  2. असतत वितरण के लिए घटकों की संख्या को स्वचालित रूप से निर्धारित करना और पैरामीटर का अनुमान लगाना
  3. अनुमानित परिणामों के आधार पर क्लस्टरिंग

EM-NPMLE एल्गोरिदम (विधि 1)

लागू परिदृश्य: GG^* घनत्व फ़ंक्शन gg^* है

एल्गोरिदम प्रवाह:

  1. E चरण: पश्च घनत्व की गणना करें fi(t+1)(β)=ϕσ(yixiTβ)g(t)(β)Rdϕσ(yixiTβ)g(t)(β)dβf_i^{(t+1)}(\beta) = \frac{\phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)}{\int_{\mathbb{R}^d} \phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)d\beta}
  2. M चरण: घनत्व अनुमान को अपडेट करें g(t+1)=1ni=1nfi(t+1)g^{(t+1)} = \frac{1}{n}\sum_{i=1}^n f_i^{(t+1)}

सैद्धांतिक गुण:

  • प्रमेय 2.1: उपयुक्त शर्तों के तहत, G(t)G^{(t)} अद्वितीय NPMLE G^\hat{G} में कमजोर रूप से अभिसरित होता है

EM-NPKMLE एल्गोरिदम (विधि 2)

मूल विचार: अनुकूलन को कर्नेल घनत्व अनुमान सेट Gkde\mathcal{G}_{kde} तक सीमित करें: Gkde={1nhd=1nv(β~2h2):β~1,,β~nRd}\mathcal{G}_{kde} = \left\{\frac{1}{nh^d}\sum_{\ell=1}^n v\left(\frac{\|\cdot - \tilde{\beta}_\ell\|^2}{h^2}\right) : \tilde{\beta}_1, \ldots, \tilde{\beta}_n \in \mathbb{R}^d\right\}

एल्गोरिदम संरचना: दोहरा लूप EM एल्गोरिदम

  • बाहरी लूप: EM पुनरावृत्ति वितरण को अपडेट करता है
  • आंतरिक लूप: कर्नेल घनत्व अनुमान पैरामीटर को अनुकूलित करने के लिए ढाल आरोहण

मुख्य अपडेट सूत्र: ν(r+1)=ξ(ν(r);β(t),x,y)=A(ν(r);β(t),x,y)C(ν(r),β(t),x,y)\nu_\ell^{(r+1)} = \xi(\nu_\ell^{(r)}; \beta^{(t)}, x, y) = \frac{A(\nu_\ell^{(r)}; \beta^{(t)}, x, y)}{C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)}

जहां AA और CC ढाल गणना द्वारा निर्धारित होते हैं।

तकनीकी नवाचार बिंदु

  1. अनुकूली चरण आकार: ढाल आरोहण स्व-अनुकूली चरण आकार 1/C(ν(r),β(t),x,y)1/C(\nu_\ell^{(r)}, \beta^{(t)}, x, y) का उपयोग करता है, मैनुअल ट्यूनिंग की आवश्यकता नहीं है
  2. बैंडविड्थ चयन: अधिकतम चिकनाई सिद्धांत पर आधारित बैंडविड्थ चयन रणनीति, नकली मोडल से बचना
  3. पश्च-प्रसंस्करण लचीलापन: विभिन्न पूर्व संरचनाओं के लिए संबंधित पश्च-प्रसंस्करण विधियां डिज़ाइन करना

प्रयोगात्मक सेटअप

सिमुलेशन डेटा

सिमुलेशन 1: तीन-घटक असतत वितरण

  • घटक: y=3xy = 3-x, y=1+1.5xy = 1+1.5x, y=1+0.5xy = -1+0.5x
  • वजन: (0.3, 0.3, 0.4)
  • शोर: σ=0.5\sigma = 0.5
  • नमूना आकार: 500 से 10,000

सिमुलेशन 2: सतत वितरण

  • दो संकेंद्रित वृत्तों पर समान वितरण: 12×Uniform{B(1)}+12×Uniform{B(2)}\frac{1}{2} \times \text{Uniform}\{B(1)\} + \frac{1}{2} \times \text{Uniform}\{B(2)\}

मूल्यांकन मेट्रिक्स

  1. समायोजित रैंड सूचकांक (ARI): क्लस्टरिंग गुणवत्ता
  2. घटक पहचान सटीकता: वास्तविक घटकों की संख्या को सही ढंग से पहचानने का अनुपात
  3. Wasserstein-2 दूरी: वितरण अनुमान गुणवत्ता
  4. पूर्वाग्रह और मानक विचलन: पैरामीटर अनुमान सटीकता

तुलना विधियां

  1. CGM विधि: Jiang and Guntuboyina (2025) की सशर्त ढाल विधि
  2. EM-NPMLE + Mean Shift: पश्च-प्रसंस्करण संस्करण
  3. Oracle विधि: सैद्धांतिक ऊपरी सीमा जब सच्चा वितरण ज्ञात हो

कार्यान्वयन विवरण

  • कर्नेल फ़ंक्शन: गाऊसी कर्नेल
  • बैंडविड्थ: अधिकतम चिकनाई सिद्धांत के आधार पर चयन
  • प्रारंभिकीकरण: समान वितरण या EM-NPMLE आउटपुट
  • अभिसरण मानदंड: L2L_2 दूरी पूर्वनिर्धारित सीमा से कम

प्रयोगात्मक परिणाम

मुख्य परिणाम

सिमुलेशन 1 परिणाम (नमूना आकार 10,000):

  • EM-NPKMLE: ARI=0.651, घटक पहचान दर=99.5%, W-2 दूरी=0.288
  • EM-NPMLE+Mean Shift: ARI=0.662, घटक पहचान दर=100%, W-2 दूरी=0.265
  • CGM: ARI=0.596, घटक पहचान दर=0%, औसत घटक संख्या=7.57

मुख्य निष्कर्ष:

  1. EM-NPKMLE और EM-NPMLE+Mean Shift दोनों वास्तविक घटकों की संख्या का सुसंगत अनुमान लगा सकते हैं
  2. CGM विधि घटकों की संख्या को व्यवस्थित रूप से अधिक आंकती है
  3. नमूना आकार बढ़ने के साथ, सभी अनुमान सच्चे मान की ओर प्रवृत्त होते हैं

पैरामीटर अनुमान सटीकता

तीन घटकों के गुणांक अनुमान के लिए (n=10,000):

  • घटक 1: सच्चा मान (3,-1), अनुमान (-0.112, 0.004)±(0.011, 0.010)
  • घटक 2: सच्चा मान (1,1.5), अनुमान (-0.115, 0.013)±(0.018, 0.012)
  • घटक 3: सच्चा मान (-1,0.5), अनुमान (0.113, 0.027)±(0.013, 0.010)

कम्प्यूटेशनल दक्षता तुलना

GEM-NPKMLE (एकल आंतरिक लूप) पूर्ण EM-NPKMLE की तुलना में:

  • समय: 15.4 मिनट बनाम 115.9 मिनट (n=5000)
  • प्रदर्शन: बड़े नमूनों पर मूलतः समान

वास्तविक डेटा अनुप्रयोग

CO2-GDP डेटा:

  • 2 मुख्य घटकों का पता चला, वजन 0.484 और 0.358
  • गुणांक: (0.022, 0.179) और (-0.070, 0.343)
  • CGM विधि के मुख्य घटकों के साथ सुसंगत

संगीत टोन धारणा डेटा:

  • 2 घटकों का पता चला, संगीत सिद्धांत की अपेक्षा के अनुरूप
  • घटक y=xy=x और y=2y=2 की सैद्धांतिक भविष्यवाणी के अनुरूप

संबंधित कार्य

NPMLE संबंधित अनुसंधान

  • शास्त्रीय कार्य: Kiefer and Wolfowitz (1956) ने पहली बार मिश्रण मॉडल के NPMLE का वर्णन किया
  • हाल की प्रगति: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025) आदि

EM एल्गोरिदम विकास

  • आधुनिक EM: Dempster et al. (1977) द्वारा औपचारिकीकरण
  • मिश्रित प्रतिगमन: DeSarbo and Cron (1988) द्वारा क्लस्टरिंग रैखिक प्रतिगमन तक विस्तार
  • घटक संख्या अनुमान: पारंपरिक विधियां AIC, BIC आदि सूचना मानदंड पर आधारित हैं

इस पेपर के लाभ

  1. घटकों की संख्या पूर्वनिर्धारित करने की आवश्यकता नहीं: पारंपरिक EM एल्गोरिदम की तुलना में
  2. सटीक घटक पहचान: मौजूदा NPMLE विधियों की तुलना में
  3. एकीकृत ढांचा: सतत और असतत वितरण दोनों को एक साथ संभालना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. EM-NPKMLE एल्गोरिदम असतत वितरण के वास्तविक घटकों की संख्या को स्वचालित रूप से पहचान सकता है, पारंपरिक विधियों की अधिक अनुमान समस्या से बचता है
  2. अभिसरण गारंटी: दोनों एल्गोरिदम में सैद्धांतिक अभिसरण गारंटी है
  3. व्यावहारिकता मजबूत: सिमुलेशन और वास्तविक डेटा पर अच्छा प्रदर्शन
  4. कम्प्यूटेशनल दक्षता: GEM वेरिएंट दक्षता और सटीकता का अच्छा संतुलन प्रदान करता है

सीमाएं

  1. बैंडविड्थ चयन: उपयुक्त बैंडविड्थ चयन रणनीति की आवश्यकता है, वर्तमान विधि इष्टतम नहीं हो सकती है
  2. स्थानीय इष्टतम: ढाल आरोहण स्थानीय इष्टतम में फंस सकता है
  3. उच्च-आयामी चुनौतियां: उच्च-आयामी मामलों में प्रदर्शन को आगे के अनुसंधान की आवश्यकता है
  4. वितरण निर्णय: व्यावहारिक रूप से यह निर्धारित करना कठिन है कि वितरण सतत है या असतत

भविष्य की दिशाएं

  1. अनुकूली बैंडविड्थ: विभिन्न पुनरावृत्तियों या आयामों के लिए अनुकूली बैंडविड्थ विकसित करना
  2. सैद्धांतिक विश्लेषण: EM-NPKMLE के सैद्धांतिक गुणों का गहन अध्ययन
  3. विस्तारित अनुप्रयोग: सामान्य मिश्रण वितरण मॉडल तक सामान्यीकरण
  4. कम्प्यूटेशनल अनुकूलन: एल्गोरिदम की कम्प्यूटेशनल दक्षता में और सुधार

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार मजबूत: कर्नेल घनत्व अनुमान बाधित NPMLE एक नया विचार है
  2. व्यावहारिक मूल्य उच्च: घटकों की संख्या की स्वचालित पहचान की व्यावहारिक समस्या को हल करता है
  3. सैद्धांतिक आधार ठोस: अभिसरण प्रमाण प्रदान करता है
  4. प्रयोग पर्याप्त: सिमुलेशन और वास्तविक डेटा सत्यापन शामिल है
  5. लेखन स्पष्ट: एल्गोरिदम विवरण विस्तृत, गणितीय व्युत्पत्ति कठोर

कमियां

  1. बैंडविड्थ निर्भरता: एल्गोरिदम प्रदर्शन बैंडविड्थ चयन के प्रति काफी संवेदनशील है
  2. कम्प्यूटेशनल जटिलता: दोहरा लूप संरचना कम्प्यूटेशनल लागत अधिक है
  3. उच्च-आयामी विस्तारशीलता: उच्च-आयामी मामलों में व्यवस्थित अनुसंधान की कमी है
  4. सीमित तुलना: मुख्य रूप से CGM विधि के साथ तुलना, अधिक baseline की कमी है

प्रभाव

  1. सैद्धांतिक योगदान: मिश्रित प्रतिगमन के अरैखिक अनुमान के लिए नया विचार प्रदान करता है
  2. व्यावहारिक मूल्य: क्लस्टरिंग और वितरण अनुमान क्षेत्र में प्रत्यक्ष अनुप्रयोग
  3. पुनरुत्पादनीयता: एल्गोरिदम विवरण विस्तृत, पुनरुत्पादन में आसान
  4. विस्तारशीलता: ढांचा अन्य मिश्रण मॉडल तक विस्तारित किया जा सकता है

लागू परिदृश्य

  1. बाजार विभाजन: विभिन्न उपभोक्ता समूहों के व्यवहार पैटर्न विश्लेषण
  2. चिकित्सा अनुसंधान: रोगी उप-समूहों के उपचार प्रतिक्रिया विश्लेषण
  3. आर्थिक अनुसंधान: विभिन्न विकास पथों के आर्थिक वृद्धि पैटर्न
  4. मशीन लर्निंग: क्लस्टरिंग प्रतिगमन और अर्ध-निरीक्षित शिक्षा

संदर्भ

  1. Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
  2. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
  3. Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
  4. Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला सांख्यिकीय पद्धति विज्ञान पेपर है जो मिश्रित रैखिक प्रतिगमन में महत्वपूर्ण समस्या को हल करने के लिए नवाचारी EM एल्गोरिदम प्रस्तावित करता है। विधि में ठोस सैद्धांतिक आधार और अच्छा व्यावहारिक प्रदर्शन है, संबंधित क्षेत्र के लिए मूल्यवान उपकरण प्रदान करता है। कुछ सीमाओं के बावजूद, इसका योगदान महत्वपूर्ण है और इसमें अच्छा शैक्षणिक और अनुप्रयोग मूल्य है।