There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
- ID статьи: 2505.15370
- Название: Modelling the Spread of New Information on Social Networks
- Авторы: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
- Классификация: cs.SI (Социальные и информационные сети)
- Дата публикации: 14 октября 2025 г. (arXiv v3)
- Ссылка на статью: https://arxiv.org/abs/2505.15370v3
В данной работе исследуется проблема прогнозирования распространения новой информации в социальных сетях, а именно прогнозирование того, будут ли пользователи делиться информацией о ранее неизвестных темах. Существующие исследования обычно случайным образом распределяют информацию и пользователей в обучающие и тестовые наборы, обеспечивая, что оба набора происходят из одного распределения. Однако проблема распространения новой информации по сути является задачей классификации с обобщением вне распределения. Экспериментальные результаты показывают, что когда обучающее и тестовое распределения совпадают, существующие алгоритмы, в основном использующие признаки содержания сообщения, работают хорошо, но их производительность значительно снижается при тестировании вне распределения (когда темы в тестовых данных отсутствуют в обучающих данных). Исследование показывает, что при дополнении или замене признаков сообщения признаками профиля пользователя и исторического поведения производительность прогнозирования вне распределения значительно улучшается, с повышением оценки F1 с 0,117 до 0,705. Результаты показывают, что поведение при распространении информации о неизвестных темах в значительной степени может быть предсказано на основе профиля пользователя и исторического поведения и практически не зависит от содержания.
Основной проблемой, решаемой в данной работе, является прогнозирование распространения новой информации, то есть прогнозирование того, будут ли пользователи делиться информацией о ранее неизвестных темах. Это типичная задача обобщения вне распределения, поскольку темы в тестовых данных полностью отсутствуют в обучающих данных.
- Междисциплинарное значение: Прогнозирование распространения информации имеет важное значение для информатики, социальных наук, политологии и маркетинга
- Практическая ценность: Применяется в маркетинговых кампаниях, политической пропаганде, распространении дезинформации и слухов
- Теоретическое значение: Способствует пониманию внутренних механизмов распространения информации в социальных сетях
- Чрезмерная зависимость от содержания сообщения: Существующие алгоритмы в основном используют признаки, извлеченные из текстового содержания сообщений
- Отсутствие оценки вне распределения: Существующие исследования обычно используют случайное разделение наборов данных, обеспечивая, что обучающие и тестовые данные происходят из одного распределения
- Недооценка данных о пользователях: Профиль пользователя, список подписок и историческое поведение недостаточно учитываются
В социальных сетях часто появляются новые темы (например, срочные новости), поэтому помимо традиционной классификации с одинаковым распределением требуется способность прогнозирования вне распределения, что более актуально и ценно в практических приложениях.
- Предложена новая парадигма оценки: Впервые четко разграничены прогнозирование с одинаковым распределением и прогнозирование вне распределения, предоставляя более полную структуру оценки для исследования прогнозирования распространения
- Построена комплексная система признаков: Определены и построены 303 признака, включая 78 признаков, связанных с сообщениями, и 225 признаков, связанных с пользователями
- Выявлена важность признаков пользователя: Эксперименты доказывают критическую важность признаков пользователя для прогнозирования вне распределения, с повышением оценки F1 с 0,117 до 0,705
- Предоставлены важные теоретические выводы: Обнаружено, что поведение при распространении в значительной степени не зависит от содержания и в основном определяется признаками пользователя ("It is who we are, not what we see")
Прогнозирование распространения определяется как прогнозирование того, будет ли получатель распространять сообщение, полученное от отправителя:
f:{M,US,UR}→y∈{0,1}
где:
- M: сообщение
- US: отправитель
- UR: получатель
- y=1: получатель будет распространять сообщение, y=0: не будет распространять
Содержит текстовое содержание 111 401 сообщения из X (Twitter) с извлечением 78 признаков, связанных с сообщениями:
- Признаки темы (39): Определение темы сообщения с использованием моделей Twitter-roBERTa и LDA
- Языковые признаки (10): Грамматическая правильность, полярность, субъективность и т.д.
- Признаки читаемости (11): Индекс читаемости Flesch, индекс SMOG и т.д.
- Признаки эмоциональной окраски (5): Оценки положительной, отрицательной и нейтральной эмоциональной окраски
- Признаки эмоций (8): Вероятности гнева, радости, страха и других эмоций
- Признаки ненавистнических высказываний (4): Меры агрессивности и ненависти
- Признаки хэштегов (1): Наличие определенного хэштега
Содержит три категории данных, связанных с пользователями:
Данные профиля пользователя Data(U-P):
- Профиль пользователя и список подписок
- Извлечение 30 признаков: количество подписчиков, меры влияния, сетевые отношения и т.д.
Данные исторического поведения пользователя Data(U-HA):
- Метаданные последних 50 сообщений
- Извлечение 38 признаков: коэффициент распространения, модели взаимодействия, взаимодействие между пользователями и т.д.
Данные исторических сообщений пользователя Data(U-HM):
- Текстовое содержание последних 50 сообщений
- Извлечение 157 признаков: агрегированные признаки исторических сообщений, сходство тем и т.д.
Использование дерева решений XGBoost с анализом важности признаков для выявления ключевой роли признаков пользователя. Основные гиперпараметры:
- Максимальная глубина: 8
- Скорость обучения: 0,3
- Количество оценщиков: 100
Расширение модели SUA-ACNN с добавлением компонента MLP для обработки данных пользователя:
- NN-M: Использование только данных сообщений
- NN-U: Использование только данных пользователей
- NN-ALL: Использование всех типов данных
Использование BERT-base для обработки текста сообщений и создания семантических вложений для прогнозирования.
- Дизайн оценки вне распределения: Для каждого хэштега используются данные других 13 хэштегов для обучения и тестирования на данном хэштеге
- Стратегия генерации отрицательных образцов: Для каждого положительного образца выбирается наиболее похожий отрицательный образец, обеспечивая релевантность оценки
- Многоуровневая система признаков: Систематическое извлечение признаков из сообщений, профилей пользователей, исторического поведения и других измерений
- Источник данных: Академический API платформы X (бывший Twitter)
- Временной диапазон: 27 июля - 14 августа 2022 г.
- Масштаб данных:
- 111 401 сообщение
- 44 014 событий распространения (положительные образцы)
- 79 707 уникальных пользователей
- 3,8 млн исторических сообщений
- Охват тем: 14 популярных хэштегов
Создание трех наборов данных с различными соотношениями положительных и отрицательных образцов:
- Набор данных 1:1: Один наиболее похожий отрицательный образец на каждый положительный образец
- Набор данных 1:5: Пять наиболее похожих отрицательных образцов на каждый положительный образец
- Набор данных 1:10: Пять похожих и пять случайных отрицательных образцов на каждый положительный образец
Основное использование оценки F1:
F1=TP+21(FP+FN)TP
Для результатов по нескольким хэштегам вычисляются общее среднее значение и стандартное отклонение.
Проведение трех типов экспериментов:
- Эксперимент I: Прогнозирование с одинаковым распределением смешанных хэштегов
- Эксперимент II: Прогнозирование с одинаковым распределением отдельных хэштегов
- Эксперимент III: Прогнозирование вне распределения
Оценка F1 на наборе данных 1:5:
| Модель | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1 | 0.884±0.002 | 0.852±0.005 | 0.758±0.002 | 0.844±0.009 | 0.835±0.004 | 0.740±0.003 | 0.740±0.010 |
Общая оценка F1 (μ̄±σ̄):
| Модель | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1 | 0.697±0.076 | 0.705±0.084 | 0.117±0.131 | 0.623±0.109 | 0.702±0.071 | 0.108±0.055 | 0.091±0.101 |
- Ключевая роль признаков пользователя:
- Модели, использующие только признаки сообщений, показывают резкое снижение производительности при прогнозировании вне распределения
- Модели, использующие только признаки пользователя, показывают производительность, сравнимую с моделями, использующими все признаки
- Анализ важности признаков:
- Из 20 наиболее важных признаков 17 связаны с пользователем
- Наиболее важный признак - "Следит ли получатель за отправителем" (U-P_R_FollowS)
- Значительное улучшение производительности:
- Оценка F1 для прогнозирования вне распределения повышается с 0,117 до 0,705 (улучшение на 502%)
- Доказана важность признаков пользователя для прогнозирования новых тем
Через сравнительные эксперименты с различными комбинациями признаков обнаружено:
- Признаки U-P и U-HA: Вносят наибольший вклад в прогнозирование вне распределения
- Признаки U-HM: Показывают производительность, аналогичную признакам сообщений, с ограниченной производительностью вне распределения
- Признаки сообщений: Практически неэффективны в условиях вне распределения
Существующие исследования подразделяются на несколько категорий:
- Прогнозирование популярности сообщений: Прогнозирование масштаба распространения сообщения
- Прогнозирование деревьев распространения: Прогнозирование пути и времени распространения
- Прогнозирование распространения: Прогнозирование поведения распространения конкретного пользователя
- Зависимость от признаков: Чрезмерная зависимость от признаков текста сообщения
- Ограничения оценки: Отсутствие оценки вне распределения
- Недостаточное использование данных: Недооценка ценности данных профиля пользователя и поведения
- Впервые систематически проводится оценка вне распределения
- Полное рассмотрение признаков, связанных с пользователем
- Предоставление более реалистичного сценария оценки
- Независимость от содержания: Поведение при распространении в значительной степени не зависит от конкретного содержания и в основном определяется признаками пользователя
- Способность обобщения признаков пользователя: Профиль пользователя и историческое поведение обладают способностью обобщения между темами
- Важность парадигмы оценки: Оценка вне распределения более значима для практических приложений
- Ограничение платформы: Исследование основано только на данных платформы X
- Временное окно: Рассматривается только поведение распространения в течение 24 часов
- Инженерия признаков: Извлечение некоторых признаков зависит от конкретных инструментов и моделей
- Культурный контекст: Не учитываются различия в поведении в различных культурных контекстах
- Кроссплатформенные исследования: Расширение на другие платформы социальных сетей
- Динамическое моделирование: Рассмотрение временной эволюции поведения пользователя
- Причинный вывод: Глубокое понимание причинно-следственных связей между признаками пользователя и поведением распространения
- Приложения в реальном времени: Разработка систем прогнозирования в реальном времени
- Инновационная постановка проблемы:
- Впервые четко сформулирована проблема прогнозирования распространения вне распределения
- Более близко к практическим сценариям приложения
- Строгий дизайн экспериментов:
- Сравнение нескольких моделей для проверки
- Подробные абляционные эксперименты
- Анализ статистической значимости
- Комплексная инженерия признаков:
- Систематическое построение 303 признаков
- Многомерный анализ важности признаков
- Глубокий теоретический вклад:
- Важный вывод "It is who we are, not what we see"
- Предоставление новой перспективы для понимания поведения в социальных сетях
- Репрезентативность данных:
- Использование только 14 хэштегов может быть недостаточно полным
- Короткий временной диапазон, отсутствие долгосрочного наблюдения
- Интерпретируемость признаков:
- Психологические механизмы некоторых признаков пользователя недостаточно ясны
- Отсутствие глубокого анализа взаимодействия признаков
- Практические соображения:
- Получение полной истории пользователя может быть затруднено в практических приложениях
- Недостаточное рассмотрение вопросов защиты конфиденциальности
- Сложность модели:
- 303 признака могут содержать избыточность
- Отсутствие анализа выбора признаков и снижения размерности
- Академический вклад:
- Предоставление новой парадигмы оценки для исследования распространения информации
- Оспаривание предположений существующих методов
- Практическая ценность:
- Руководство для алгоритмов рекомендаций платформ социальных сетей
- Новые идеи для маркетинга и мониторинга общественного мнения
- Воспроизводимость:
- Подробное описание экспериментальной установки и параметров
- Открытая методология инженерии признаков
- Платформы социальных сетей: Рекомендация контента и прогнозирование поведения пользователя
- Цифровой маркетинг: Определение целевых пользователей и стратегия контента
- Мониторинг общественного мнения: Прогнозирование распространения горячих тем
- Академические исследования: Анализ социальных сетей и моделирование поведения
Статья цитирует 48 связанных работ, охватывающих:
- Теоретические исследования распространения информации
- Применение методов машинного обучения
- Анализ поведения в социальных сетях
- Технологии обработки естественного языка
Ключевые цитируемые работы включают классические исследования прогнозирования распространения, нейросетевые модели (такие как BERT, SUA-ACNN) и фундаментальные исследования анализа социальных сетей.
Общая оценка: Это высококачественная исследовательская работа со значительными вклады в постановку проблемы, методологические инновации и экспериментальную проверку. Особенно выделяются предложение прогнозирования вне распределения и открытие важности признаков пользователя, которые открывают новое направление в исследовании распространения информации в социальных сетях. Несмотря на некоторые ограничения, ее теоретическая ценность и практическое значение весьма значительны и, как ожидается, окажут важное влияние на соответствующие области.