2025-11-17T00:04:13.380329

Modelling the Spread of New Information on Social Networks

Xu, Zhou, Lampos et al.

There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.

academic

Modélisation de la Propagation des Nouvelles Informations sur les Réseaux Sociaux

Informations Fondamentales

ID de l'article : 2505.15370
Titre : Modelling the Spread of New Information on Social Networks
Auteurs : Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
Classification : cs.SI (Réseaux Sociaux et Informationnels)
Date de publication : 14 octobre 2025 (arXiv v3)
Lien de l'article : https://arxiv.org/abs/2505.15370v3

Résumé

Cet article étudie le problème de la prédiction de la propagation des nouvelles informations sur les réseaux sociaux, c'est-à-dire prédire si un utilisateur partagera des informations sur un sujet précédemment inconnu. Les recherches existantes attribuent généralement les informations et les utilisateurs de manière aléatoire aux ensembles d'entraînement et de test, garantissant que les deux ensembles proviennent de la même distribution. Le problème de la propagation des nouvelles informations est essentiellement une tâche de classification de généralisation hors-distribution. Les résultats expérimentaux montrent que lorsque les distributions d'entraînement et de test sont identiques, les algorithmes existants utilisant principalement des caractéristiques de contenu de message fonctionnent bien, mais leurs performances diminuent considérablement lorsque l'ensemble de test est hors-distribution (c'est-à-dire que les sujets des données de test n'existent pas dans les données d'entraînement). L'étude révèle que l'utilisation de caractéristiques de profil utilisateur et de comportement historique pour compléter ou remplacer les caractéristiques de message améliore considérablement les performances de prédiction hors-distribution, avec un score F1 passant de 0,117 à 0,705. Les résultats indiquent que le comportement de partage pour les sujets non vus peut être largement prédit par le profil utilisateur et le comportement historique, et est essentiellement indépendant du contenu.

Contexte et Motivation de la Recherche

1. Problème à Résoudre

Le problème fondamental abordé par cet article est la prédiction de la propagation des nouvelles informations, c'est-à-dire prédire si un utilisateur partagera des informations sur un sujet précédemment inconnu. Il s'agit d'un problème typique de généralisation hors-distribution, car les sujets impliqués dans les données de test n'existent pas du tout dans les données d'entraînement.

2. Importance du Problème

Importance Interdisciplinaire : La prédiction de la propagation des informations revêt une importance significative pour l'informatique, les sciences sociales, la science politique et le marketing
Valeur Pratique : Elle possède une valeur d'application importante dans les campagnes de marketing, la propagande politique, la désinformation et la propagation de rumeurs
Signification Théorique : Elle contribue à la compréhension des mécanismes intrinsèques de la diffusion des informations sur les médias sociaux

3. Limitations des Méthodes Existantes

Dépendance Excessive au Contenu du Message : Les algorithmes existants utilisent principalement des caractéristiques extraites du contenu textuel des messages
Manque d'Évaluation Hors-Distribution : Les recherches existantes adoptent généralement une division aléatoire des ensembles de données, garantissant que les données d'entraînement et de test proviennent de la même distribution
Sous-estimation des Données Relatives aux Utilisateurs : Les informations importantes telles que le profil utilisateur, la liste de suivi et le comportement historique sont sous-estimées

4. Motivation de la Recherche

Les nouveaux sujets apparaissent fréquemment sur les plateformes de médias sociaux (comme les actualités d'urgence). Par conséquent, au-delà de la classification traditionnelle avec distribution identique, une capacité de prédiction hors-distribution est nécessaire, ce qui est plus difficile et plus précieux dans les applications pratiques.

Contributions Principales

Proposition d'un Nouveau Paradigme d'Évaluation : Première distinction explicite entre la prédiction avec distribution identique et la prédiction hors-distribution, fournissant un cadre d'évaluation plus complet pour la recherche sur la prédiction de partage
Construction d'un Système de Caractéristiques Intégré : Identification et construction de 303 caractéristiques, incluant 78 caractéristiques liées aux messages et 225 caractéristiques liées aux utilisateurs
Révélation de l'Importance des Caractéristiques Utilisateur : Les expériences prouvent que les caractéristiques liées aux utilisateurs sont essentielles pour la prédiction hors-distribution, avec un score F1 passant de 0,117 à 0,705
Fourniture d'Intuitions Théoriques Importantes : Découverte que le comportement de partage est largement indépendant du contenu et est principalement déterminé par les caractéristiques utilisateur (« C'est qui nous sommes, pas ce que nous voyons »)

Explication Détaillée de la Méthode

Définition de la Tâche

La prédiction de partage est définie comme la prédiction de la probabilité qu'un destinataire partage un message reçu d'un expéditeur :

$f : \{M, U_S, U_R\} \rightarrow y \in \{0, 1\}$

Où :

$M$ : le message
$U_S$ : l'expéditeur
$U_R$ : le destinataire
$y=1$ : le destinataire partagera le message, $y=0$ : ne partagera pas

Architecture des Données

1. Données de Message Data(M)

Contient le contenu textuel de 111 401 messages de X (Twitter), avec 78 caractéristiques liées aux messages extraites :

Caractéristiques de Sujet (39) : Identification des sujets de message à l'aide des modèles Twitter-roBERTa et LDA
Caractéristiques Linguistiques (10) : Correction grammaticale, polarité, subjectivité, etc.
Caractéristiques de Lisibilité (11) : Indice de lecture Flesch, indice SMOG, etc.
Caractéristiques de Sentiment (5) : Scores de sentiment positif, négatif et neutre
Caractéristiques Émotionnelles (8) : Probabilités d'émotions telles que la colère, la joie, la peur, etc.
Caractéristiques de Discours Haineux (4) : Mesures d'agressivité et de haine
Caractéristiques d'Étiquette (1) : Présence d'hashtags spécifiques

2. Données Utilisateur Data(U)

Contient trois catégories de données liées aux utilisateurs :

Données de Profil Utilisateur Data(U-P) :

Profil utilisateur et liste de suivi
Extraction de 30 caractéristiques : nombre de followers, mesures d'influence, relations réseau, etc.

Données de Comportement Historique Utilisateur Data(U-HA) :

Métadonnées des 50 derniers messages historiques
Extraction de 38 caractéristiques : taux de partage, modèles d'interaction, interactions entre utilisateurs, etc.

Données de Messages Historiques Utilisateur Data(U-HM) :

Contenu textuel des 50 derniers messages historiques
Extraction de 157 caractéristiques : caractéristiques agrégées des messages historiques, similarité de sujet, etc.

Architecture du Modèle

1. Modèle d'Arbre de Décision (DT)

Utilise XGBoost pour les arbres de décision, découvrant le rôle clé des caractéristiques utilisateur par analyse d'importance des caractéristiques. Hyperparamètres principaux :

Profondeur maximale : 8
Taux d'apprentissage : 0,3
Nombre d'estimateurs : 100

2. Modèle de Réseau de Neurones (NN)

Basé sur l'extension du modèle SUA-ACNN, ajoutant un composant MLP pour traiter les données utilisateur :

NN-M : Utilise uniquement les données de message
NN-U : Utilise uniquement les données utilisateur
NN-ALL : Utilise tous les types de données

3. Modèle BERT

Utilise BERT-base pour traiter le texte du message, générant des plongements sémantiques pour la prédiction.

Points d'Innovation Technique

Conception d'Évaluation Hors-Distribution : Pour chaque hashtag, utilise les données des 13 autres hashtags pour l'entraînement et teste sur ce hashtag
Stratégie de Génération d'Échantillons Négatifs : Sélectionne l'échantillon négatif le plus similaire pour chaque échantillon positif, garantissant la pertinence de l'évaluation
Système de Caractéristiques Multicouches : Extraction systématique de caractéristiques à partir de multiples dimensions incluant le message, le profil utilisateur et le comportement historique

Configuration Expérimentale

Ensemble de Données

Source de Données : API académique de la plateforme X (anciennement Twitter)
Plage Temporelle : 27 juillet au 14 août 2022
Échelle de Données :
- 111 401 messages
- 44 014 événements de partage (échantillons positifs)
- 79 707 utilisateurs uniques
- 3,8 millions de messages historiques
Couverture de Sujets : 14 hashtags populaires

Construction de l'Ensemble de Données

Création de trois ensembles de données avec différents ratios d'échantillons positifs/négatifs :

Ensemble 1:1 : Un échantillon négatif le plus similaire pour chaque échantillon positif
Ensemble 1:5 : Cinq échantillons négatifs les plus similaires pour chaque échantillon positif
Ensemble 1:10 : Cinq échantillons négatifs similaires + cinq échantillons négatifs aléatoires pour chaque échantillon positif

Métriques d'Évaluation

Utilise principalement le score F1 : $F1 = \frac{TP}{TP + \frac{1}{2}(FP + FN)}$

Pour les résultats de plusieurs hashtags, calcule la moyenne globale et l'écart-type.

Conception Expérimentale

Trois types d'expériences sont menées :

Expérience I : Prédiction avec distribution identique pour hashtags mixtes
Expérience II : Prédiction avec distribution identique pour hashtag unique
Expérience III : Prédiction hors-distribution

Résultats Expérimentaux

Résultats Principaux

Prédiction avec Distribution Identique (Expérience I)

Scores F1 sur l'ensemble de données 1:5 :

Modèle	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
Score F1	0,884±0,002	0,852±0,005	0,758±0,002	0,844±0,009	0,835±0,004	0,740±0,003	0,740±0,010

Prédiction Hors-Distribution (Expérience III)

Score F1 global (μ̄±σ̄) :

Modèle	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
Score F1	0,697±0,076	0,705±0,084	0,117±0,131	0,623±0,109	0,702±0,071	0,108±0,055	0,091±0,101

Découvertes Clés

Rôle Clé des Caractéristiques Utilisateur :
- Les modèles utilisant uniquement des caractéristiques de message connaissent une baisse drastique de performance en prédiction hors-distribution
- Les modèles utilisant uniquement des caractéristiques utilisateur fonctionnent de manière comparable aux modèles utilisant toutes les caractéristiques en prédiction hors-distribution
Analyse d'Importance des Caractéristiques :
- Parmi les 20 caractéristiques les plus importantes, 17 sont liées aux utilisateurs
- La caractéristique la plus importante est « le destinataire suit-il l'expéditeur » (U-P_R_FollowS)
Amélioration Significative des Performances :
- Score F1 en prédiction hors-distribution passe de 0,117 à 0,705 (amélioration de 502%)
- Prouve l'importance des caractéristiques utilisateur pour la prédiction de nouveaux sujets

Expériences d'Ablation

Par le biais d'expériences de comparaison avec différentes combinaisons de caractéristiques, on découvre :

Caractéristiques U-P et U-HA : Contribuent le plus à la prédiction hors-distribution
Caractéristiques U-HM : Fonctionnent de manière similaire aux caractéristiques de message, avec des performances limitées hors-distribution
Caractéristiques de Message : Deviennent pratiquement inefficaces dans le cadre hors-distribution

Travaux Connexes

Recherche sur la Diffusion des Informations

Les recherches existantes se divisent principalement en plusieurs catégories :

Prédiction de Popularité des Messages : Prédire l'ampleur de la propagation des messages
Prédiction d'Arbre de Diffusion : Prédire les chemins et les délais de propagation
Prédiction de Partage : Prédire le comportement de partage d'utilisateurs spécifiques

Limitations des Méthodes Existantes

Dépendance aux Caractéristiques : Dépendance excessive aux caractéristiques de texte de message
Limitations d'Évaluation : Manque d'évaluation hors-distribution
Sous-utilisation des Données : Négligence de la valeur des données de profil utilisateur et de comportement

Avantages de Cet Article

Première évaluation systématique hors-distribution
Considération complète des caractéristiques liées aux utilisateurs
Fourniture d'un scénario d'évaluation plus réaliste

Conclusion et Discussion

Conclusions Principales

Indépendance du Contenu : Le comportement de partage est largement indépendant du contenu spécifique et est principalement déterminé par les caractéristiques utilisateur
Capacité de Généralisation des Caractéristiques Utilisateur : Le profil utilisateur et le comportement historique possèdent une capacité de généralisation inter-sujets
Importance du Paradigme d'Évaluation : L'évaluation hors-distribution est plus significative pour les applications pratiques

Limitations

Limitation de Plateforme : L'étude est basée uniquement sur les données de la plateforme X
Fenêtre Temporelle : Considère uniquement le comportement de partage dans les 24 heures
Ingénierie des Caractéristiques : L'extraction de certaines caractéristiques dépend d'outils et de modèles spécifiques
Contexte Culturel : Ne considère pas les différences de comportement selon les contextes culturels

Directions Futures

Recherche Multiplateforme : Extension à d'autres plateformes de médias sociaux
Modélisation Dynamique : Considération de l'évolution temporelle du comportement utilisateur
Inférence Causale : Compréhension approfondie de la relation causale entre les caractéristiques utilisateur et le comportement de partage
Application en Temps Réel : Développement de systèmes de prédiction en temps réel

Évaluation Approfondie

Points Forts

Innovation dans la Formulation du Problème :
- Première proposition explicite du problème de prédiction de partage hors-distribution
- Plus proche des scénarios d'application réels
Conception Expérimentale Rigoureuse :
- Comparaison de plusieurs modèles pour la validation
- Expériences d'ablation détaillées
- Analyse de la signification statistique
Ingénierie des Caractéristiques Complète :
- Construction systématique de 303 caractéristiques
- Analyse d'importance des caractéristiques multidimensionnelle
Contributions Théoriques Profondes :
- Intuition importante « C'est qui nous sommes, pas ce que nous voyons »
- Nouvelle perspective pour la compréhension du comportement sur les médias sociaux

Insuffisances

Représentativité des Données :
- Utilisation de seulement 14 hashtags, potentiellement insuffisant
- Plage temporelle courte, manque d'observation à long terme
Explicabilité des Caractéristiques :
- Les mécanismes psychologiques de certaines caractéristiques utilisateur ne sont pas suffisamment clairs
- Manque d'analyse approfondie des interactions entre caractéristiques
Considérations Pratiques :
- L'obtention de données historiques utilisateur complètes peut être difficile dans les applications pratiques
- Considérations insuffisantes concernant la protection de la vie privée
Complexité du Modèle :
- 303 caractéristiques peuvent présenter une redondance
- Manque d'analyse de sélection et de réduction de dimensionnalité des caractéristiques

Impact

Contribution Académique :
- Fourniture d'un nouveau paradigme d'évaluation pour la recherche sur la propagation des informations
- Remise en question des hypothèses des méthodes existantes
Valeur Pratique :
- Orientation pour les algorithmes de recommandation des plateformes de médias sociaux
- Nouvelles perspectives pour le marketing numérique et la surveillance de l'opinion publique
Reproductibilité :
- Description détaillée de la configuration expérimentale et des paramètres
- Méthode d'ingénierie des caractéristiques ouverte

Scénarios d'Application

Plateformes de Médias Sociaux : Recommandation de contenu et prédiction du comportement utilisateur
Marketing Numérique : Identification des utilisateurs cibles et stratégie de contenu
Surveillance de l'Opinion Publique : Prédiction de la propagation des sujets tendance
Recherche Académique : Analyse des réseaux sociaux et modélisation du comportement

Références Bibliographiques

L'article cite 48 références pertinentes, couvrant :

Recherche théorique sur la diffusion des informations
Application des méthodes d'apprentissage automatique
Analyse du comportement sur les médias sociaux
Techniques de traitement du langage naturel

Les références clés incluent les travaux classiques sur la prédiction de partage, les modèles de réseaux de neurones (tels que BERT et SUA-ACNN) ainsi que la recherche fondamentale en analyse des réseaux sociaux.

Évaluation Globale : Cet article est une recherche de haute qualité avec des contributions significatives dans la formulation du problème, l'innovation méthodologique et la validation expérimentale. En particulier, la proposition de prédiction hors-distribution et la découverte de l'importance des caractéristiques utilisateur ouvrent une nouvelle direction pour la recherche sur la propagation des informations sur les médias sociaux. Bien qu'il présente certaines limitations, sa valeur théorique et son utilité pratique sont remarquables et devraient avoir un impact important sur les domaines connexes.