2025-11-24T20:04:16.711349

Partial Identification of Individual-Level Parameters Using Aggregate Data in a Nonparametric Model

Moon
I develop a methodology to partially identify linear combinations of conditional mean outcomes when the researcher only has access to aggregate data. Unlike the existing literature, I only allow for marginal, not joint, distributions of covariates in my model of aggregate data. Bounds are obtained by solving an optimization program and can easily accommodate additional polyhedral shape restrictions. I provide an empirical illustration of the method to Rhode Island standardized exam data.
academic

समग्र डेटा का उपयोग करके गैर-पैरामीट्रिक मॉडल में व्यक्तिगत-स्तर के पैरामीटर की आंशिक पहचान

बुनियादी जानकारी

  • पेपर ID: 2403.07236
  • शीर्षक: समग्र डेटा का उपयोग करके गैर-पैरामीट्रिक मॉडल में व्यक्तिगत-स्तर के पैरामीटर की आंशिक पहचान
  • लेखक: सारा मून (MIT)
  • वर्गीकरण: econ.EM stat.ME
  • प्रकाशन समय: 16 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2403.07236

सारांश

यह पेपर एक पद्धति विकसित करता है जो तब सशर्त माध्य परिणामों के रैखिक संयोजन की आंशिक पहचान के लिए है जब शोधकर्ता केवल समग्र डेटा प्राप्त कर सकते हैं। मौजूदा साहित्य के विपरीत, लेखक समग्र डेटा मॉडल में केवल सहसंयोजकों के सीमांत वितरण की अनुमति देते हैं, संयुक्त वितरण नहीं। अनुकूलन कार्यक्रम को हल करके सीमाएं प्राप्त की जाती हैं और अतिरिक्त बहुफलकीय आकार की बाधाओं को आसानी से समायोजित किया जा सकता है। पेपर रोड आइलैंड मानकीकृत परीक्षा डेटा पर विधि के अनुभवजन्य अनुप्रयोग प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान पारिस्थितिक अनुमान समस्या को संबोधित करता है: जब शोधकर्ता केवल समग्र डेटा देख सकते हैं, तो व्यक्तिगत-स्तर के पैरामीटर का अनुमान कैसे लगाया जाए। विशेष रूप से, जब केवल निम्नलिखित को देखा जा सकता है:

  • प्रत्येक समूह के भीतर औसत परिणाम EYi|Gi = g
  • प्रत्येक समूह के भीतर प्रत्येक सहसंयोजक का सीमांत वितरण PXℓi = xk,ℓ|Gi = g
  • समूहों का सापेक्ष आकार PGi = g

व्यक्तिगत-स्तर की सशर्त माध्य EYi|Xi = xk के रैखिक संयोजन की पहचान कैसे करें।

समस्या की महत्ता

  1. डेटा उपलब्धता की सीमाएं: व्यावहारिक रूप से, गोपनीयता सुरक्षा के कारण, अक्सर केवल सीमांत वितरण प्राप्त किए जा सकते हैं, संयुक्त वितरण नहीं
  2. नीति निर्माण की आवश्यकता: प्रभावी नीति बनाने के लिए व्यक्तिगत-स्तर के कारणात्मक प्रभावों को समझने की आवश्यकता है
  3. पारिस्थितिक भ्रम: समग्र स्तर पर संबंध व्यक्तिगत स्तर पर संबंधों से महत्वपूर्ण रूप से भिन्न हो सकते हैं

मौजूदा विधियों की सीमाएं

मौजूदा साहित्य (जैसे Cross और Manski 2002, Cho और Manski 2008) आमतौर पर मानते हैं कि सहसंयोजकों का संयुक्त वितरण देखा जा सकता है, जो व्यावहारिक रूप से अक्सर अवास्तविक है। मौजूदा विधियों का सीधा अनुप्रयोग गैर-कसी सीमाएं उत्पन्न करता है।

मुख्य योगदान

  1. पद्धति संबंधी नवाचार: केवल सीमांत वितरण पर आधारित आंशिक पहचान विधि प्रस्तावित करता है, जो वास्तविक डेटा उपलब्धता के अनुरूप है
  2. सैद्धांतिक गारंटी: निर्मित सीमाओं की कसी (sharpness) को साबित करता है
  3. कम्प्यूटेशनल ढांचा: पहचान समस्या को द्विस्तरीय अनुकूलन समस्या में परिवर्तित करता है, कम्प्यूटेशनल कार्यान्वयन को सुविधाजनक बनाता है
  4. अनुमान प्रक्रिया: विश्वास अंतराल निर्माण के लिए प्रभावी विधि प्रदान करता है, केवल सीमांत जानकारी की आवश्यकता है
  5. अनुभवजन्य अनुप्रयोग: शिक्षा डेटा पर विधि की व्यावहारिकता प्रदर्शित करता है

विधि विवरण

कार्य परिभाषा

इनपुट:

  • प्रत्येक समूह का औसत परिणाम: EYi|Gi = g
  • प्रत्येक समूह का सहसंयोजक सीमांत वितरण: PXℓi = xk,ℓ|Gi = g
  • समूह का आकार: PGi = g

आउटपुट:

  • सशर्त माध्य रैखिक संयोजन का पहचान समुच्चय: ∑K k=1 λkEYi|Xi = xk

बाधा शर्तें:

  • Yi ∈ yℓ, yu (सीमित समर्थन)
  • Xi, Gi असतत यादृच्छिक चर हैं
  • केवल सीमांत वितरण देखा जाता है, संयुक्त नहीं

मॉडल आर्किटेक्चर

1. बुनियादी बाधा समीकरण

विधि तीन मुख्य बाधा समीकरणों पर आधारित है:

सीमांत-संयुक्त संगति:

P[Xℓi = xk,ℓ|Gi = g] = ∑K j=1 1{xj,ℓ = xk,ℓ}P[Xi = xj|Gi = g]

समूह के भीतर अपेक्षा विघटन:

E[Yi|Gi = g] = ∑K k=1 E[Yi|Xi = xk, Gi = g]P[Xi = xk|Gi = g]

समूहों के बीच समग्रीकरण:

E[Yi|Xi = xk]∑G g=1 P[Gi = g]P[Xi = xk|Gi = g] = ∑G g=1 P[Gi = g]P[Xi = xk|Gi = g]E[Yi|Xi = xk, Gi = g]

2. पहचान समुच्चय निर्माण

सहसंयोजक वितरण का पहचान समुच्चय परिभाषित करें:

P = {(p11,...,pKG) | pkg ≥ 0, ∑K k=1 pkg = 1 ∀g,
     P[Xℓi = xj,ℓ|Gi = g] = ∑K k=1 1{xk,ℓ = xj,ℓ}pkg ∀g,ℓ,j}

पैरामीटर का पहचान समुच्चय:

D = {∑K k=1 λkdk | ∃(p,c,d) बाधा शर्तों को संतुष्ट करता है}

3. द्विस्तरीय अनुकूलन व्यक्तिकरण

प्रस्ताव 1: पहचान समुच्चय D = L,U, जहां:

L = inf{pkg},{ckg},{dk} ∑K k=1 λkdk
s.t. {pkg} ∈ P, {ckg} ∈ [yℓ,yu]KG, {dk} ∈ [yℓ,yu]K,
     dk∑G g=1 P[Gi = g]pkg = ∑G g=1 P[Gi = g]pkgckg ∀k,
     E[Yi|Gi = g] = ∑K k=1 ckgpkg ∀g

ऊपरी सीमा U संबंधित supremum समस्या के माध्यम से प्राप्त की जाती है।

तकनीकी नवाचार बिंदु

  1. कसी: Cross-Manski विधि के सीधे अनुप्रयोग की तुलना में, यह विधि अधिक कसी सीमाएं उत्पन्न करती है
  2. कम्प्यूटेशनल व्यावहारिकता: आंतरिक समस्या रैखिक प्रोग्रामिंग है, बाहरी समस्या ग्रिड खोज के माध्यम से हल की जाती है
  3. विस्तारशीलता: अतिरिक्त बहुफलकीय बाधा शर्तों को जोड़ना आसान है
  4. केवल सीमांत जानकारी की आवश्यकता: अनुमान प्रक्रिया को संयुक्त वितरण जानकारी की आवश्यकता नहीं है

प्रयोगात्मक सेटअप

डेटासेट

  1. सिम्युलेटेड डेटा: तीन विभिन्न सेटिंग्स के साथ सिम्युलेशन अध्ययन
    • द्विआधारी परिणाम Yi ∈ {0,1}
    • तीन द्विआधारी सहसंयोजक Xi = (X1i, X2i, X3i)
    • पाँच समूह Gi ∈ {1,...,5}
    • डेटा जनन मॉडल: Yi = 1{4X1i - 9X2i - 4X3i - 1 ≥ ui}, ui ~ N(0,1)
  2. अनुभवजन्य डेटा: रोड आइलैंड मानकीकृत परीक्षा डेटा (RICAS)
    • 2019 वसंत 3-8 ग्रेड के छात्र
    • अंग्रेजी और गणित परीक्षा पास दर
    • सहसंयोजक: जाति (whitei), आर्थिक कठिनाई (econi), अंग्रेजी शिक्षार्थी स्थिति (ELLi)
    • 5 काउंटी समूहों के रूप में

मूल्यांकन मेट्रिक्स

  • पहचान समुच्चय की चौड़ाई
  • विश्वास अंतराल कवरेज दर
  • अनुमानित सीमा और वास्तविक पहचान समुच्चय की सापेक्ष चौड़ाई अनुपात
  • विश्वास अंतराल और पहचान समुच्चय की सापेक्ष चौड़ाई अनुपात

तुलनात्मक विधियां

  • अतिरिक्त प्रतिबंध के बिना बेसलाइन विधि
  • Cross-Manski (2002) विधि का सीधा अनुप्रयोग
  • एकरसता बाधा जोड़ने वाली विधि
  • उप-समूह डेटा का उपयोग करने वाली विधि

कार्यान्वयन विवरण

  • 90% विश्वास अंतराल निर्माण
  • बहुविध परीक्षण के लिए Bonferroni सुधार
  • गैर-उत्तल अनुकूलन के लिए बहु-प्रारंभिक बिंदु ग्रिड खोज
  • द्विआधारी चर के लिए Clopper-Pearson अंतराल

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. सिम्युलेशन प्रयोग निष्कर्ष

  • कवरेज दर: सभी पैरामीटर के 90% विश्वास अंतराल की कवरेज दर 1 है (रूढ़िवादी लेकिन प्रभावी)
  • चौड़ाई नियंत्रण: विश्वास अंतराल की औसत चौड़ाई पहचान समुच्चय की चौड़ाई से 3% से अधिक नहीं है
  • अनुमान सटीकता: अनुमानित सीमा की औसत चौड़ाई पहचान समुच्चय की चौड़ाई के समान है

2. सीमा जानकारी की मात्रा के चालक कारक

मुख्य खोज: जब सीमांत संभावना PXℓi = xk,ℓ|Gi = g 1 के करीब होती है, तो सीमाएं अधिक सूचनापूर्ण होती हैं। कारण यह है कि इस स्थिति में संयुक्त संभावना PXi = xk|Gi = g के संभावित मान की सीमा छोटी होती है।

3. Cross-Manski विधि तुलना

यह विधि जो सीमाएं उत्पन्न करती है, वे Cross-Manski विधि की सीमाओं में सख्ती से निहित हैं, कसी लाभ की पुष्टि करते हैं।

अनुभवजन्य अनुप्रयोग परिणाम

1. रोड आइलैंड परीक्षा डेटा

गणित परीक्षा में श्वेत/गैर-श्वेत पास दर का अंतर:

  • अप्रतिबंधित: अत्यंत व्यापक सीमाएं, लगभग कोई जानकारी नहीं
  • एकरसता बाधा: कुछ पैरामीटर सीमाएं संकीर्ण होती हैं
  • उप-समूह डेटा: सीमाओं में महत्वपूर्ण सुधार
  • उप-समूह डेटा + एकरसता: सबसे कसी सीमाएं, जैसे आर्थिक कठिनाई लेकिन गैर-अंग्रेजी शिक्षार्थी छात्रों के लिए अंतर -26%, 52% में है

अंग्रेजी परीक्षा परिणाम समान, जहां आर्थिक कठिनाई गैर-अंग्रेजी शिक्षार्थी के श्वेत/गैर-श्वेत पास दर का अंतर -30%, 64% में अनुमानित है।

2. बाधा शर्त प्रभाव

  • एकरसता बाधा: आर्थिक स्थिति और अंग्रेजी क्षमता के तर्कसंगत क्रमांकन धारणा पर आधारित
  • उप-समूह डेटा: अतिरिक्त जानकारी प्रदान करता है, सीमाओं को महत्वपूर्ण रूप से संकीर्ण करता है
  • समरूपता बाधा: काउंटी के बीच कोई अंतर नहीं मानता है, परिणाम खाली समुच्चय है, यह दर्शाता है कि यह धारणा डेटा के साथ असंगत है

विलोपन प्रयोग

तीन विभिन्न सिम्युलेशन सेटिंग्स के माध्यम से सत्यापित किया गया:

  1. सीमांत वितरण की चरमता सीमा चौड़ाई को प्रभावित करती है
  2. डेटा प्रतिनिधित्व विशिष्ट उप-समूहों की पहचान सटीकता को प्रभावित करता है
  3. विभिन्न डेटा जनन प्रक्रियाओं के तहत विधि की दृढ़ता

संबंधित कार्य

पारिस्थितिक अनुमान साहित्य

  • शास्त्रीय कार्य: Robinson (1950), Duncan और Davis (1953), Theil (1954)
  • आधुनिक विकास: Cross और Manski (2002), Cho और Manski (2008)
  • डेटा संलयन: Fan et al. (2014, 2016), Buchinsky et al. (2022)

इस पेपर का योगदान स्थिति

  1. डेटा मॉडल: केवल सीमांत वितरण वाली स्थिति को पहली बार व्यवस्थित रूप से संभालता है
  2. पद्धति विज्ञान: कसी सीमाओं के लिए कम्प्यूटेशनल ढांचा प्रदान करता है
  3. अनुमान सिद्धांत: केवल सीमांत जानकारी की आवश्यकता वाली अनुमान प्रक्रिया विकसित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. केवल सीमांत वितरण के आधार पर व्यक्तिगत-स्तर के पैरामीटर की सार्थक आंशिक पहचान संभव है
  2. द्विस्तरीय अनुकूलन ढांचा कम्प्यूटेशनल रूप से व्यावहारिक समाधान प्रदान करता है
  3. अतिरिक्त आकार बाधाएं और उप-समूह जानकारी पहचान सटीकता में महत्वपूर्ण रूप से सुधार कर सकते हैं
  4. विधि वास्तविक शिक्षा डेटा में व्यावहारिक मूल्य प्रदर्शित करती है

सीमाएं

  1. कम्प्यूटेशनल जटिलता: जब सहसंयोजक या समूह संख्या बड़ी हो तो कम्प्यूटेशनल बोझ भारी होता है
  2. रूढ़िवादिता: Bonferroni सुधार विश्वास अंतराल को रूढ़िवादी बनाता है
  3. असतत करण आवश्यकता: विधि असतत सहसंयोजकों तक सीमित है
  4. सीमा चौड़ाई: कुछ स्थितियों में सीमाएं अभी भी काफी व्यापक हो सकती हैं

भविष्य की दिशाएं

  1. निरंतर सहसंयोजकों के मामले में विस्तार
  2. अधिक कुशल कम्प्यूटेशनल एल्गोरिदम विकसित करना
  3. कम रूढ़िवादी अनुमान विधियों की खोज
  4. डेटा-निर्भर भारित पैरामीटरों पर विचार करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक कठोरता: पूर्ण पहचान सिद्धांत और कसी प्रमाण प्रदान करता है
  2. व्यावहारिक शक्ति: वास्तविक डेटा विश्लेषण में महत्वपूर्ण समस्या को हल करता है
  3. विधि नवाचार: सीमांत वितरण प्रतिबंध के तहत पहचान समस्या को पहली बार व्यवस्थित रूप से संभालता है
  4. कम्प्यूटेशनल व्यावहारिकता: विशिष्ट एल्गोरिदम कार्यान्वयन योजना प्रदान करता है
  5. अनुभवजन्य सत्यापन: सिम्युलेशन और वास्तविक डेटा के माध्यम से विधि प्रभावशीलता सत्यापित करता है

कमियां

  1. कम्प्यूटेशनल दक्षता: बड़े पैमाने की समस्याओं के लिए कम्प्यूटेशनल चुनौतियों का सामना कर सकता है
  2. धारणा सीमाएं: सीमित समर्थन और असतत धारणाओं की आवश्यकता है
  3. अनुमान रूढ़िवादिता: विश्वास अंतराल निर्माण अपेक्षाकृत रूढ़िवादी है
  4. अनुप्रयोग सीमा: मुख्य रूप से अनुप्रस्थ-अनुभागीय समग्र डेटा के लिए उपयुक्त है

प्रभाव

  1. शैक्षणिक योगदान: पारिस्थितिक अनुमान साहित्य के लिए महत्वपूर्ण सैद्धांतिक विस्तार प्रदान करता है
  2. व्यावहारिक मूल्य: नीति निर्माताओं के लिए उपयोगी विश्लेषण उपकरण प्रदान करता है
  3. पद्धति विज्ञान महत्व: आंशिक पहचान में अनुकूलन विधियों के अनुप्रयोग की संभावना प्रदर्शित करता है
  4. पुनरुत्पादनीयता: विस्तृत एल्गोरिदम विवरण और कार्यान्वयन विवरण प्रदान करता है

लागू परिदृश्य

  1. शिक्षा अनुसंधान: विभिन्न समूहों के शिक्षा परिणामों में अंतर का विश्लेषण
  2. सार्वजनिक नीति: विभिन्न लोगों के लिए नीति के विषम प्रभावों का मूल्यांकन
  3. चिकित्सा स्वास्थ्य: समग्र डेटा के आधार पर स्वास्थ्य अंतर का विश्लेषण
  4. सामाजिक विज्ञान: कोई भी परिदृश्य जहां समग्र डेटा से व्यक्तिगत व्यवहार का अनुमान लगाने की आवश्यकता है

संदर्भ

  • Cross, P. J. और C. F. Manski (2002). Regressions, short and long. Econometrica 70(1), 357–368.
  • Cho, W. K. T. और C. F. Manski (2008). Cross-level/ecological inference. The Oxford Handbook of Political Methodology.
  • Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. American Sociological Review 15(3), 351–357.

यह पेपर पारिस्थितिक अनुमान क्षेत्र में महत्वपूर्ण योगदान देता है, विशेष रूप से वास्तविक डेटा सीमाओं को संभालने में। हालांकि कुछ कम्प्यूटेशनल और धारणा संबंधी सीमाएं हैं, लेकिन इसकी सैद्धांतिक कठोरता और व्यावहारिक मूल्य इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाते हैं।