Эпидемиологи и социальные учёные используют метод масштабирования сетей (NSUM) более 30 лет для оценки размера скрытых подгрупп в социальных сетях. Метод работает путём опроса подмножества узлов сети о количестве их соседей, принадлежащих скрытой подгруппе. Обычно NSUM предполагает, что топология социальной сети и распределение скрытой подгруппы хорошо структурированы, поэтому оценки NSUM близки к истинным значениям. Однако границы ошибок оценок NSUM никогда не были аналитически доказаны. В данной статье представлены аналитические границы ошибок для двух наиболее популярных оценивателей NSUM. Основные результаты таковы: во-первых, когда противник проектирует сеть и размещает скрытую подгруппу, оценка может отклониться от истинного значения на множитель Ω(√n); во-вторых, когда базовая сеть генерируется случайно, использование выборки размером O(log n) может с высокой вероятностью достичь границ ошибок с малым постоянным множителем.
Метод масштабирования сетей (NSUM) — это техника косвенного опроса для оценки размера скрытых групп в социальных сетях, которые трудно достичь напрямую, таких как пациенты с заболеваниями, жертвы катастроф или члены подпольных сетей. Основная идея метода заключается в опросе части узлов сети: "Сколько соседей вы знаете?" и "Сколько из них принадлежат скрытой группе?"
Практическая ценность: NSUM широко применяется в общественном здравоохранении, социальных науках и безопасности, например при оценке числа пациентов со СПИДом, распространённости COVID-19 и т.д.
Теоретический пробел: Несмотря на 30-летнее использование NSUM, отсутствует строгий анализ теоретических границ ошибок
Надёжность метода: Необходимы теоретические гарантии для обеспечения точности и достоверности оценок
Первые теоретические границы ошибок NSUM: Предоставлены строгие аналитические границы ошибок для двух наиболее популярных оценивателей NSUM (MoR и RoS)
Доказательство состязательной нижней границы: Доказано, что в состязательном сценарии любой оценитель NSUM имеет ошибку не менее Ω(√n)
Анализ верхней границы на случайных сетях: Доказано, что на случайных сетях использование выборки размером O(log n) позволяет достичь границ ошибок с малым постоянным множителем
Анализ для конкретных сетевых моделей: Предоставлены улучшенные аналитические границы для сетей Erdős-Rényi и безмасштабных сетей
Широкая экспериментальная верификация: Теоретический анализ проверен численными экспериментами на синтетических и реальных сетях
Дан ориентированный граф G = (V, E) и скрытая подгруппа H ⊆ V, собираются агрегированные данные отношений (ARD) из выборки S ⊆ V для оценки распространённости ρ(I) = |H|/|V|.
Каждый опрошенный узел v сообщает:
Входящую степень Rv (количество входящих соседей)
Количество входящих соседей Cv, принадлежащих скрытой группе
k дополнительных узлов Va, каждый соединённый с одним узлом полного подграфа
Специальный узел s, соединённый со всеми узлами полного подграфа
Путём проектирования двух различных конфигураций скрытой группы I₁ = (G, {s}) и I₂ = (G, Va), которые производят одинаковые ARD, но имеют значительно отличающиеся распространённости, доказана нижняя граница Ω(√n).
Ключевое наблюдение: Доказано, что случайные величины Yv = Cv/Rv и Xvj (индикаторные переменные) имеют отрицательную корреляцию, что является ключевым для применения неравенств концентрации.
Определение отрицательной корреляции: Для случайных величин Z₁, Z₂, ..., Zn, если для любого подмножества B ⊆ {1,2,...,n} выполняется:
Использованы модифицированные границы Chernoff-Hoeffding для обработки ограниченных случайных величин с отрицательной цилиндрической зависимостью, получена функция:
В статье цитируется 26 связанных источников, включая:
Bernard и др. (1991): Основополагающая работа по методу NSUM
Killworth и др. (1998): Предложение оценивателей MoR и RoS
Chen и др. (2016): Связанные теоретические работы по оцениванию масштаба сети
Srivastava и др. (2024): Последние достижения в оцениванию тренда NSUM
Общая оценка: Это новаторская статья в теоретическом анализе NSUM, заполняющая пробел в теоретическом анализе этого метода за 30 лет, предоставляющая важную теоретическую основу и руководство для практических приложений.