Les épidémiologistes et les chercheurs en sciences sociales utilisent la méthode d'extrapolation d'échelle de réseau (NSUM) depuis plus de 30 ans pour estimer la taille des sous-groupes cachés dans les réseaux sociaux. La méthode fonctionne en interrogeant un sous-ensemble de nœuds du réseau sur le nombre de leurs voisins appartenant au sous-groupe caché. En général, la NSUM suppose que la topologie du réseau social et la distribution du sous-groupe caché sont bien comportées, de sorte que les estimations NSUM se rapprochent des valeurs réelles. Cependant, les bornes d'erreur des estimations NSUM n'ont pas été analytiquement prouvées. Cet article fournit des bornes analytiques d'erreur pour deux des estimateurs NSUM les plus populaires. Les principales conclusions sont au nombre de deux : premièrement, lorsqu'un adversaire conçoit le réseau et place le sous-groupe caché, l'estimation peut s'écarter de la valeur réelle d'un facteur Ω(√n) ; deuxièmement, lorsque le réseau sous-jacent est généré aléatoirement, l'utilisation d'un échantillon de taille O(log n) peut réaliser avec haute probabilité des bornes d'erreur à facteur constant petit.
La méthode d'extrapolation d'échelle de réseau (NSUM) est une technique d'enquête indirecte utilisée pour estimer la taille des populations cachées difficiles à atteindre directement dans les réseaux sociaux, telles que les patients atteints de maladies, les victimes de catastrophes ou les membres de réseaux secrets. L'idée centrale de la méthode consiste à interroger une partie des nœuds du réseau : « Combien de voisins connaissez-vous ? » et « Combien d'entre eux appartiennent au groupe caché ? »
Valeur pratique : La NSUM a des applications très larges dans la santé publique, les sciences sociales et la sécurité, comme l'estimation du nombre de patients atteints du SIDA, la prévalence de la COVID-19, etc.
Lacune théorique : Bien que la NSUM soit utilisée depuis plus de 30 ans, il manque une analyse rigoureuse des bornes d'erreur théoriques
Fiabilité de la méthode : Des garanties théoriques sont nécessaires pour assurer l'exactitude et la crédibilité des estimations
Premières bornes d'erreur théoriques pour la NSUM : Fourniture de bornes d'erreur analytiques rigoureuses pour les deux estimateurs NSUM les plus populaires (MoR et RoS)
Preuve de bornes inférieures adversariales : Démonstration que dans un scénario adversarial, l'erreur de tout estimateur NSUM est au moins Ω(√n)
Analyse de bornes supérieures sur réseaux aléatoires : Démonstration que dans les réseaux aléatoires, l'utilisation d'un échantillon de taille O(log n) peut réaliser des bornes d'erreur à facteur constant petit
Analyse pour modèles de réseau spécifiques : Fourniture de bornes analytiques améliorées pour les réseaux d'Erdős-Rényi et sans échelle
Vérification expérimentale extensive : Validation de l'analyse théorique par des expériences numériques sur réseaux synthétiques et réels
Étant donné un graphe orienté G = (V, E) et un sous-groupe caché H ⊆ V, collecter des données de relations agrégées (ARD) à partir d'un ensemble d'échantillons S ⊆ V pour estimer la prévalence ρ(I) = |H|/|V|.
Chaque nœud échantillonné v rapporte :
Le nombre d'entrées Rv (nombre de voisins entrants)
Le nombre de voisins entrants appartenant au sous-groupe caché Cv
Construction d'un contre-exemple de réseau ingénieux :
Contenant un sous-graphe complet de k nœuds Vc
k nœuds supplémentaires Va, chacun connecté à un nœud différent du sous-graphe complet
Un nœud spécial s connecté à tous les nœuds du sous-graphe complet
En concevant deux configurations de sous-groupes cachés différentes I₁ = (G, {s}) et I₂ = (G, Va) qui produisent les mêmes ARD mais avec une grande différence de prévalence, on prouve la borne inférieure Ω(√n).
Intuition clé : Démonstration que les variables aléatoires Yv = Cv/Rv et Xvj (variables indicatrices) possèdent une corrélation négative, ce qui est crucial pour appliquer les inégalités de concentration.
Définition de corrélation négative : Pour les variables aléatoires Z₁, Z₂, ..., Zn, si pour tout sous-ensemble B ⊆ {1,2,...,n}, on a :
Utilisation de bornes de Chernoff-Hoeffding modifiées pour traiter la dépendance cylindrique négative de variables aléatoires bornées, obtenant la fonction :
Cet article cite 26 références connexes, incluant principalement :
Bernard et al. (1991) : Travail fondateur de la méthode NSUM
Killworth et al. (1998) : Proposition des estimateurs MoR et RoS
Chen et al. (2016) : Travaux théoriques connexes sur l'estimation d'échelle de réseau
Srivastava et al. (2024) : Progrès récents en estimation de tendance NSUM
Évaluation globale : Cet article est d'une importance pionnière dans l'analyse théorique de la NSUM, comblant le vide d'analyse théorique de 30 ans dans ce domaine et fournissant une base théorique et une orientation importantes pour les applications pratiques.