Epidemiologists and social scientists have used the Network Scale-Up Method (NSUM) for over thirty years to estimate the size of a hidden sub-population within a social network. This method involves querying a subset of network nodes about the number of their neighbours belonging to the hidden sub-population. In general, NSUM assumes that the social network topology and the hidden sub-population distribution are well-behaved; hence, the NSUM estimate is close to the actual value. However, bounds on NSUM estimation errors have not been analytically proven. This paper provides analytical bounds on the error incurred by the two most popular NSUM estimators. These bounds assume that the queried nodes accurately provide their degree and the number of neighbors belonging to the hidden population. Our key findings are twofold. First, we show that when an adversary designs the network and places the hidden sub-population, then the estimate can be a factor of $Ω(\sqrt{n})$ off from the real value (in a network with $n$ nodes). Second, we also prove error bounds when the underlying network is randomly generated, showing that a small constant factor can be achieved with high probability using samples of logarithmic size $O(\log{n})$. We present improved analytical bounds for Erdos-Renyi and Scale-Free networks. Our theoretical analysis is supported by an extensive set of numerical experiments designed to determine the effect of the sample size on the accuracy of the estimates in both synthetic and real networks.
معرّف الورقة : 2407.10640العنوان : حدود الخطأ لطريقة توسيع نطاق الشبكةالمؤلفون : Sergio Díaz-Aranda, Juan Marcos Ramirez, Mohit Daga, Jaya Prakash Champati, Jose Aguilar, Rosa Lillo, Antonio Fernández Antaالتصنيف : cs.DC (الحوسبة الموزعة)، cs.DM (الرياضيات المنفصلة)، cs.SI (الشبكات الاجتماعية والمعلومات)تاريخ النشر : يوليو 2024 (مسودة arXiv)رابط الورقة : https://arxiv.org/abs/2407.10640 استخدم علماء الأوبئة والعلماء الاجتماعيون طريقة توسيع نطاق الشبكة (NSUM) لأكثر من 30 سنة لتقدير حجم المجموعات المخفية في الشبكات الاجتماعية. تعمل الطريقة من خلال الاستعلام عن مجموعة فرعية من عقد الشبكة حول عدد الجيران الذين ينتمون إلى المجموعة المخفية. بشكل عام، تفترض NSUM أن طوبولوجيا الشبكة الاجتماعية وتوزيع المجموعة المخفية يتمتعان بخصائص جيدة، وبالتالي فإن تقديرات NSUM قريبة من القيم الفعلية. ومع ذلك، لم يتم إثبات حدود خطأ تقديرات NSUM بشكل تحليلي. تقدم هذه الورقة حدود خطأ تحليلية لخطأ ناتج عن اثنين من أكثر مقدرات NSUM شيوعاً. النتائج الرئيسية هي: أولاً، عندما يصمم الخصم الشبكة ويضع المجموعة المخفية، قد ينحرف التقدير عن القيمة الحقيقية بمعامل Ω(√n)؛ ثانياً، عندما يتم توليد الشبكة الأساسية عشوائياً، يمكن استخدام عينة بحجم O(log n) لتحقيق حدود خطأ بعامل ثابت صغير باحتمالية عالية.
طريقة توسيع نطاق الشبكة (NSUM) هي تقنية مسح غير مباشرة تُستخدم لتقدير حجم المجموعات المخفية التي يصعب الوصول إليها مباشرة في الشبكات الاجتماعية، مثل مرضى الأمراض والضحايا والأعضاء في الشبكات السرية. الفكرة الأساسية للطريقة هي السؤال عن جزء من العقد في الشبكة: "كم عدد الجيران الذين تعرفهم؟" و"كم عدد منهم ينتمي إلى المجموعة المخفية؟"
القيمة التطبيقية العملية : تطبيقات NSUM واسعة في الصحة العامة والعلوم الاجتماعية ومجالات الأمان، مثل تقدير عدد مرضى الإيدز ودرجة انتشار COVID-19الفجوة النظرية : على الرغم من استخدام NSUM لأكثر من 30 سنة، تفتقر إلى تحليل صارم لحدود الخطأ النظريةموثوقية الطريقة : يتطلب ضمانات نظرية لضمان دقة وموثوقية التقديراتغياب إثبات تحليلي لحدود الخطأ النظرية الافتراضات حول طوبولوجيا الشبكة وتوزيع المجموعة المخفية متفائلة جداً عدم النظر في تحليل الحالة الأسوأ في السيناريوهات المعادية توفير حدود الخطأ النظرية لـ NSUM للمرة الأولى : توفير حدود خطأ تحليلية صارمة لاثنين من أكثر مقدرات NSUM شيوعاً (MoR و RoS)إثبات الحد الأدنى المعادي : إثبات أن خطأ أي مقدر NSUM في السيناريوهات المعادية يكون على الأقل Ω(√n)تحليل الحد الأعلى على الشبكات العشوائية : إثبات أنه في الشبكات العشوائية، يمكن استخدام عينة بحجم O(log n) لتحقيق حدود خطأ بعامل ثابت صغيرتحليل نماذج شبكة محددة : توفير حدود تحليلية محسّنة لشبكات Erdős-Rényi و Scale-Freeالتحقق التجريبي الواسع : التحقق من التحليل النظري من خلال تجارب رقمية على الشبكات الاصطناعية والحقيقيةبالنظر إلى رسم بياني موجه G = (V, E) ومجموعة مخفية H ⊆ V، جمع بيانات العلاقات المجمعة (ARD) من مجموعة عينة S ⊆ V، تقدير الانتشار ρ(I) = |H|/|V|.
يقدم كل عقدة تم أخذ عينة منها v:
درجة الدخول Rv (عدد الجيران الداخليين) عدد الجيران الداخليين الذين ينتمون إلى المجموعة المخفية Cv تمثيل الرسم البياني الموجه : G = (V, E)، حيث الحافة (u,v) ∈ E تشير إلى أن العقدة v تعرف العقدة uالمجموعة المخفية : H ⊆ V هي مجموعة العقد ذات خصائص محددةاستراتيجية العينة : اختيار عشوائي موحد لمجموعة العينة S من Vمقدر نسبة المتوسط (MoR) :ρ_MoR(I[S]) = (1/|S|) ∑_{v∈S} (C_v/R_v)
مقدر نسبة المجموع (RoS) :ρ_RoS(I[S]) = (∑_{v∈S} C_v)/(∑_{v∈S} R_v)
لأي طريقة تقدير M، يتم التعريف كالتالي:
الخطأ الأعلى: E^+_M(I,S) = max(1, ρ_M(IS )/ρ(I)) الخطأ الأدنى: E^-_M(I,S) = max(1, ρ(I)/ρ_M(IS )) الخطأ الإجمالي: E_M(I,S) = max(E^+_M(I,S), E^-_M(I,S)) بناء مثال معاكس ذكي للشبكة:
يحتوي على رسم بياني فرعي كامل بـ k عقدة Vc k عقدة إضافية Va، كل منها متصلة بعقدة مختلفة من الرسم البياني الفرعي الكامل عقدة خاصة s متصلة بجميع عقد الرسم البياني الفرعي الكامل من خلال تصميم تكوينين مختلفين للمجموعة المخفية I₁ = (G, {s}) و I₂ = (G, Va)، بحيث ينتجان نفس ARD لكن اختلاف كبير في الانتشار، مما يثبت الحد الأدنى Ω(√n).
الرؤية الأساسية : إثبات أن المتغيرات العشوائية Yv = Cv/Rv و Xvj (متغيرات المؤشر) لها ارتباط سلبي، وهو أمر أساسي لتطبيق عدم المساواة في التركيز.
تعريف الارتباط السلبي : بالنسبة للمتغيرات العشوائية Z₁, Z₂, ..., Zn، إذا كان لأي مجموعة فرعية B ⊆ {1,2,...,n}:
E[∏_{i∈B} Z_i] ≤ ∏_{i∈B} E[Z_i]
استخدام حدود Chernoff-Hoeffding المعدلة للتعامل مع الاعتماد الأسطواني السلبي للمتغيرات العشوائية المحدودة، للحصول على الدالة:
F(x,y) = ((e^{x-1})/x^x)^y + ((e^{1/x-1})/x^{-1/x})^y
الشبكات الاصطناعية :الرسوم البيانية العشوائية Erdős-Rényi: نموذج G(n,p)، n = 10⁶ شبكات Scale-Free: توزيع الدرجة ∝k^{-γ}، γ ∈ (2,3) الشبكات الحقيقية :شبكة الصداقة لمنصة البث الموسيقي Deezer من المجر ورومانيا وكرواتيا عدد العقد: 41,000-55,000، عدد الحواف: 125,000-500,000 احتمالية الخطأ: PrE_M > β متوسط الخطأ: EE_M تعقيد العينة: الحد الأدنى لحجم العينة المطلوب لتحقيق احتمالية خطأ معينة توليد 100 نسخة لكل تكوين أخذ عينات من 200 مجموعة عينة بأحجام مختلفة لكل نسخة التنفيذ باستخدام MATLAB، يعمل على Dell Inspiron 14 7000 الحد الأدنى المعادي : أكدت التجارب على إحكام الحد الأدنى Ω(√n)الحد الأعلى على الشبكات العشوائية :
تم التحقق من حدود الخطأ لمقدرات MoR و RoS يتفوق مقدر RoS عادة على MoR الحدود النظرية متحفظة نسبياً لكن الاتجاهات صحيحة لعتبة الخطأ β = 1 + ε، يشير التحليل النظري إلى الحاجة لحجم عينة:
m ≥ (ln 2 + α ln n)/(ρ(1 - (1/β)(ln β + 1)))
متوسط درجة أعلى يؤدي إلى خطأ تقدير أقل أداء MoR و RoS متشابهة توافق جيد بين الحدود النظرية والنتائج التجريبية تفوق واضح لمقدر RoS على MoR تؤثر عدم التجانس في توزيع الدرجة على دقة التقدير الحدود النظرية متحفظة نسبياً لكن الاتجاهات صحيحة التجارب على مجموعة بيانات Deezer تشير إلى:
الحدود النظرية لا تزال فعالة على الشبكات الحقيقية دقة التقدير تختلف حسب الأنواع الموسيقية كمجموعات مخفية كلما زاد الانتشار، كان التقدير أكثر دقة NSUM الكلاسيكية : الطريقة الأصلية المقترحة من قبل Bernard وآخرون (1991)المقدرات المحسّنة : MoR (Killworth وآخرون، 1998) و RoS (Killworth وآخرون، 1998)التطبيقات الحديثة : تحقيقات الأوبئة COVID-19، تحليل الشبكات الاجتماعيةChen وآخرون (2016) : توفير حدود تحت افتراض معرفة عدد العقد المخفيةSrivastava وآخرون (2024) : تقدير الاتجاه بدلاً من القيم المطلقة لانتشار المجموعة المخفيةمساهمة هذه الورقة : أول تحليل شامل لحدود الخطأ لمقدرات NSUM الكلاسيكيةاختراق نظري : أول حدود خطأ نظرية صارمة لـ NSUMالقيود المعادية : إثبات القيود الأساسية لـ NSUM في أسوأ الحالاتمزايا الشبكات العشوائية : يمكن لـ NSUM تحقيق ضمانات أداء جيدة في الشبكات العشوائيةالتوجيه العملي : توفير أساس نظري لاختيار حجم العينة في التطبيقات العمليةالافتراضات المثالية : افتراض أن العقد المستجوبة تقدم بدقة درجات العقد وعدد الجيران المخفيينقيود نموذج الشبكة : التحليل الرئيسي يركز على شبكات Erdős-Rényi و Scale-Freeالحدود المتحفظة : الحدود النظرية متحفظة نسبياً مقارنة بالأداء الفعليتوسيع نماذج الشبكة : دراسة نماذج الكتل العشوائية والشبكات الهندسية الزائديةالتحليل المعادي : دراسة الحالات التي تكون فيها الشبكة عشوائية لكن توزيع المجموعة المخفية معادياستخدام المعلومات الإضافية : استكشاف كيفية استخدام ARD للحصول على معلومات طوبولوجيا الشبكةالطرق العملية : تطوير تنفيذ NSUM فعال تحت الضمانات النظريةالصرامة النظرية : توفير إطار عمل تحليلي نظري شامل لأول مرة في مجال NSUMابتكار الطريقة : استخدام ذكي للارتباط السلبي وعدم المساواة في التركيز لحل التحديات التقنيةكفاية التجارب : التحقق الشامل من خلال الشبكات الاصطناعية والحقيقيةالقيمة العملية : توفير أساس منهجي نظري موثوق للتطبيقات العملية لـ NSUMتثالية الافتراضات : قد لا تقدم العقد في الواقع المعلومات بدقةتحفظ الحدود : وجود فجوة كبيرة بين الحدود النظرية والأداء الفعليةقيود نموذج الشبكة : عدم تغطية جميع أنواع الشبكات المهمةالمساهمة الأكاديمية : ملء الفراغ المهم في التحليل النظري لمجال NSUMالقيمة العملية : توفير أساس منهجي نظري موثوق للصحة العامة والعلوم الاجتماعية وغيرهاالإلهام البحثي : وضع أساس نظري للأبحاث اللاحقة ذات الصلةتقدير حجم المجموعات المخفية في تحقيقات الصحة العامة تحديد المجموعات المحددة في تحليل الشبكات الاجتماعية تقييم السكان المتأثرين في استجابة الكوارث تطبيقات المسح غير المباشر التي تتطلب ضمانات نظرية تستشهد هذه الورقة بـ 26 مرجعاً ذا صلة، تشمل بشكل أساسي:
Bernard وآخرون (1991): العمل الأساسي لطريقة NSUM Killworth وآخرون (1998): اقتراح مقدرات MoR و RoS Chen وآخرون (2016): الأعمال النظرية ذات الصلة بتقدير نطاق الشبكة Srivastava وآخرون (2024): أحدث التطورات في تقدير اتجاه NSUM التقييم الشامل : هذه ورقة رائدة في التحليل النظري لـ NSUM، تملأ الفراغ في التحليل النظري لهذا المجال على مدى 30 سنة، وتوفر أساساً نظرياً مهماً وتوجيهاً للتطبيقات العملية.