2025-11-17T00:04:13.380329

Modelling the Spread of New Information on Social Networks

Xu, Zhou, Lampos et al.
There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
academic

Modellazione della Diffusione di Nuove Informazioni sulle Reti Sociali

Informazioni Fondamentali

  • ID Articolo: 2505.15370
  • Titolo: Modelling the Spread of New Information on Social Networks
  • Autori: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
  • Classificazione: cs.SI (Social and Information Networks)
  • Data di Pubblicazione: 14 ottobre 2025 (arXiv v3)
  • Link Articolo: https://arxiv.org/abs/2505.15370v3

Riassunto

Questo articolo affronta il problema della previsione della diffusione di nuove informazioni sulle reti sociali, ovvero la previsione se gli utenti condivideranno informazioni su argomenti precedentemente sconosciuti. La ricerca esistente generalmente assegna casualmente informazioni e utenti ai set di addestramento e test, garantendo che entrambi i set provengano dalla stessa distribuzione. Il problema della diffusione di nuove informazioni è essenzialmente un compito di classificazione con generalizzazione fuori distribuzione. I risultati sperimentali mostrano che quando le distribuzioni di addestramento e test sono identiche, gli algoritmi esistenti che utilizzano principalmente caratteristiche di contenuto dei messaggi funzionano bene, ma le prestazioni diminuiscono significativamente quando il set di test è fuori distribuzione (cioè, gli argomenti nei dati di test non esistono nei dati di addestramento). Lo studio rivela che l'integrazione o la sostituzione delle caratteristiche dei messaggi con caratteristiche del profilo utente e del comportamento storico migliora notevolmente le prestazioni di previsione fuori distribuzione, con il punteggio F1 che passa da 0,117 a 0,705. I risultati indicano che il comportamento di condivisione per argomenti sconosciuti può essere previsto in larga misura attraverso il profilo utente e il comportamento storico, ed è essenzialmente indipendente dal contenuto.

Contesto di Ricerca e Motivazione

1. Problema Centrale da Risolvere

Il problema fondamentale affrontato in questo articolo è la previsione della diffusione di nuove informazioni, ovvero la previsione se gli utenti condivideranno informazioni su argomenti precedentemente sconosciuti. Si tratta di un tipico problema di generalizzazione fuori distribuzione, poiché gli argomenti nei dati di test non esistono completamente nei dati di addestramento.

2. Importanza del Problema

  • Importanza Interdisciplinare: La previsione della diffusione di informazioni è significativa per l'informatica, le scienze sociali, la politologia e il marketing
  • Valore Applicativo Pratico: Possiede importanti applicazioni in campagne di marketing, propaganda politica, diffusione di disinformazione e propagazione di voci
  • Significato Teorico: Contribuisce alla comprensione dei meccanismi intrinseci di diffusione delle informazioni sui social media

3. Limitazioni dei Metodi Esistenti

  • Dipendenza Eccessiva dal Contenuto dei Messaggi: Gli algoritmi esistenti utilizzano principalmente caratteristiche estratte dal contenuto testuale dei messaggi
  • Mancanza di Valutazione Fuori Distribuzione: La ricerca esistente generalmente adotta il metodo di divisione casuale dei dataset, garantendo che i dati di addestramento e test provengano dalla stessa distribuzione
  • Sottovalutazione dei Dati Relativi agli Utenti: Informazioni importanti come profili utente, elenchi di seguiti e comportamento storico sono sottovalutate

4. Motivazione della Ricerca

Sui social media emergono frequentemente nuovi argomenti (come notizie di attualità), pertanto oltre alla classificazione tradizionale con distribuzione identica, è necessaria la capacità di previsione fuori distribuzione, che è più impegnativa e preziosa nelle applicazioni pratiche.

Contributi Fondamentali

  1. Propone un Nuovo Paradigma di Valutazione: Distingue chiaramente per la prima volta tra previsione con distribuzione identica e previsione fuori distribuzione, fornendo un quadro di valutazione più completo per la ricerca sulla previsione di condivisioni
  2. Costruisce un Sistema di Caratteristiche Integrato: Identifica e costruisce 303 caratteristiche, incluse 78 caratteristiche relative ai messaggi e 225 caratteristiche relative agli utenti
  3. Rivela l'Importanza delle Caratteristiche Utente: Gli esperimenti dimostrano che le caratteristiche relative agli utenti sono cruciali per la previsione fuori distribuzione, con il punteggio F1 che passa da 0,117 a 0,705
  4. Fornisce Importanti Intuizioni Teoriche: Scopre che il comportamento di condivisione è in larga misura indipendente dal contenuto, determinato principalmente dalle caratteristiche utente ("It is who we are, not what we see")

Spiegazione Dettagliata del Metodo

Definizione del Compito

La previsione di condivisione è definita come la previsione se il destinatario condividerà un messaggio ricevuto dal mittente:

f:{M,US,UR}y{0,1}f : \{M, U_S, U_R\} \rightarrow y \in \{0, 1\}

Dove:

  • MM: il messaggio
  • USU_S: il mittente
  • URU_R: il destinatario
  • y=1y=1: il destinatario condividerà il messaggio, y=0y=0: non lo farà

Architettura dei Dati

1. Dati dei Messaggi Data(M)

Contiene il contenuto testuale di 111.401 messaggi da X (Twitter), con 78 caratteristiche relative ai messaggi estratte:

  • Caratteristiche Tematiche (39): Argomenti dei messaggi identificati utilizzando modelli Twitter-roBERTa e LDA
  • Caratteristiche Linguistiche (10): Correttezza grammaticale, polarità, soggettività, ecc.
  • Caratteristiche di Leggibilità (11): Indice di lettura Flesch, indice SMOG, ecc.
  • Caratteristiche di Sentimento (5): Punteggi di sentimento positivo, negativo e neutro
  • Caratteristiche Emotive (8): Probabilità di rabbia, gioia, paura, ecc.
  • Caratteristiche di Discorso d'Odio (4): Misure di aggressività e odio
  • Caratteristiche di Etichette (1): Presenza di hashtag specifici

2. Dati Utente Data(U)

Contiene tre categorie di dati relativi agli utenti:

Dati del Profilo Utente Data(U-P):

  • Profilo utente ed elenco di seguiti
  • 30 caratteristiche estratte: numero di follower, misure di influenza, relazioni di rete, ecc.

Dati del Comportamento Storico Utente Data(U-HA):

  • Metadati degli ultimi 50 messaggi storici
  • 38 caratteristiche estratte: tasso di condivisione, modelli di interazione, interazioni tra utenti, ecc.

Dati dei Messaggi Storici Utente Data(U-HM):

  • Contenuto testuale degli ultimi 50 messaggi storici
  • 157 caratteristiche estratte: caratteristiche aggregate dei messaggi storici, somiglianza tematica, ecc.

Architettura del Modello

1. Modello ad Albero Decisionale (DT)

Utilizza XGBoost, scoprendo il ruolo cruciale delle caratteristiche utente attraverso l'analisi dell'importanza delle caratteristiche. Iperparametri principali:

  • Profondità massima: 8
  • Tasso di apprendimento: 0,3
  • Numero di stimatori: 100

2. Modello di Rete Neurale (NN)

Basato su un'estensione del modello SUA-ACNN, con aggiunta di componenti MLP per elaborare i dati utente:

  • NN-M: Utilizza solo dati dei messaggi
  • NN-U: Utilizza solo dati utente
  • NN-ALL: Utilizza tutti i tipi di dati

3. Modello BERT

Utilizza BERT-base per elaborare il testo dei messaggi, generando embedding semantici per la previsione.

Punti di Innovazione Tecnica

  1. Progettazione di Valutazione Fuori Distribuzione: Per ogni hashtag, utilizza dati da altri 13 hashtag per l'addestramento e testa su quell'hashtag
  2. Strategia di Generazione di Campioni Negativi: Per ogni campione positivo, seleziona il campione negativo più simile, garantendo la rilevanza della valutazione
  3. Sistema di Caratteristiche Multilivello: Estrae sistematicamente caratteristiche da messaggi, profili utente, comportamento storico e altre dimensioni

Configurazione Sperimentale

Dataset

  • Fonte Dati: API Accademica della piattaforma X (precedentemente Twitter)
  • Intervallo Temporale: 27 luglio - 14 agosto 2022
  • Scala Dati:
    • 111.401 messaggi
    • 44.014 eventi di condivisione (campioni positivi)
    • 79.707 utenti unici
    • 3,8 milioni di messaggi storici
  • Copertura Tematica: 14 hashtag popolari

Costruzione del Dataset

Crea tre dataset con diversi rapporti campioni positivi-negativi:

  • Dataset 1:1: Un campione negativo più simile per ogni campione positivo
  • Dataset 1:5: 5 campioni negativi più simili per ogni campione positivo
  • Dataset 1:10: 5 campioni negativi simili + 5 campioni negativi casuali per ogni campione positivo

Metriche di Valutazione

Utilizza principalmente il punteggio F1: F1=TPTP+12(FP+FN)F1 = \frac{TP}{TP + \frac{1}{2}(FP + FN)}

Per i risultati di più hashtag, calcola la media complessiva e la deviazione standard.

Progettazione Sperimentale

Conduce tre tipi di esperimenti:

  1. Esperimento I: Previsione con distribuzione identica su hashtag misti
  2. Esperimento II: Previsione con distribuzione identica su singolo hashtag
  3. Esperimento III: Previsione fuori distribuzione

Risultati Sperimentali

Risultati Principali

Previsione con Distribuzione Identica (Esperimento I)

Punteggi F1 sul dataset 1:5:

ModelloDT-ALLDT-UDT-MNN-ALLNN-UNN-MBERT
Punteggio F10,884±0,0020,852±0,0050,758±0,0020,844±0,0090,835±0,0040,740±0,0030,740±0,010

Previsione Fuori Distribuzione (Esperimento III)

Punteggio F1 complessivo (μ̄±σ̄):

ModelloDT-ALLDT-UDT-MNN-ALLNN-UNN-MBERT
Punteggio F10,697±0,0760,705±0,0840,117±0,1310,623±0,1090,702±0,0710,108±0,0550,091±0,101

Scoperte Chiave

  1. Ruolo Cruciale delle Caratteristiche Utente:
    • I modelli che utilizzano solo caratteristiche di messaggi mostrano un calo drastico delle prestazioni nella previsione fuori distribuzione
    • I modelli che utilizzano solo caratteristiche utente funzionano in modo comparabile ai modelli che utilizzano tutte le caratteristiche
  2. Analisi dell'Importanza delle Caratteristiche:
    • Tra le 20 caratteristiche più importanti, 17 sono relative agli utenti
    • La caratteristica più importante è "il destinatario segue il mittente" (U-P_R_FollowS)
  3. Miglioramento Significativo delle Prestazioni:
    • Il punteggio F1 della previsione fuori distribuzione passa da 0,117 a 0,705 (miglioramento del 502%)
    • Dimostra l'importanza delle caratteristiche utente per la previsione di nuovi argomenti

Esperimenti di Ablazione

Attraverso esperimenti di confronto con diverse combinazioni di caratteristiche, scopre che:

  • Caratteristiche U-P e U-HA: Contribuiscono maggiormente alla previsione fuori distribuzione
  • Caratteristiche U-HM: Funzionano in modo simile alle caratteristiche di messaggi, con prestazioni limitate fuori distribuzione
  • Caratteristiche di Messaggi: Praticamente inefficaci nell'impostazione fuori distribuzione

Lavori Correlati

Ricerca sulla Diffusione di Informazioni

La ricerca esistente si divide principalmente in diverse categorie:

  1. Previsione della Popolarità dei Messaggi: Previsione della scala di propagazione dei messaggi
  2. Previsione dell'Albero di Diffusione: Previsione del percorso e del tempo di propagazione
  3. Previsione di Condivisione: Previsione del comportamento di condivisione di utenti specifici

Limitazioni dei Metodi Esistenti

  1. Dipendenza dalle Caratteristiche: Dipendenza eccessiva dalle caratteristiche testuali dei messaggi
  2. Limitazioni di Valutazione: Mancanza di valutazione fuori distribuzione
  3. Utilizzo Insufficiente dei Dati: Sottovalutazione del valore dei dati di profilo utente e comportamento

Vantaggi di Questo Articolo

  1. Primo a condurre sistematicamente una valutazione fuori distribuzione
  2. Considera completamente le caratteristiche relative agli utenti
  3. Fornisce uno scenario di valutazione più realistico

Conclusioni e Discussione

Conclusioni Principali

  1. Indipendenza dal Contenuto: Il comportamento di condivisione è in larga misura indipendente dal contenuto specifico, determinato principalmente dalle caratteristiche utente
  2. Capacità di Generalizzazione delle Caratteristiche Utente: Il profilo utente e il comportamento storico possiedono capacità di generalizzazione tra argomenti
  3. Importanza del Paradigma di Valutazione: La valutazione fuori distribuzione è più significativa per le applicazioni pratiche

Limitazioni

  1. Limitazioni della Piattaforma: La ricerca si basa solo su dati della piattaforma X
  2. Finestra Temporale: Considera solo il comportamento di condivisione entro 24 ore
  3. Ingegneria delle Caratteristiche: L'estrazione di alcune caratteristiche dipende da strumenti e modelli specifici
  4. Contesto Culturale: Non considera le differenze comportamentali in diversi contesti culturali

Direzioni Future

  1. Ricerca Multipiattaforma: Estensione ad altre piattaforme di social media
  2. Modellazione Dinamica: Considerazione dell'evoluzione temporale del comportamento utente
  3. Inferenza Causale: Comprensione più profonda della relazione causale tra caratteristiche utente e comportamento di condivisione
  4. Applicazione in Tempo Reale: Sviluppo di sistemi di previsione in tempo reale

Valutazione Approfondita

Punti di Forza

  1. Innovazione nella Formulazione del Problema:
    • Primo a proporre esplicitamente il problema di previsione di condivisione fuori distribuzione
    • Più vicino ai scenari di applicazione pratica
  2. Progettazione Sperimentale Rigorosa:
    • Confronto di più modelli per la verifica
    • Esperimenti di ablazione dettagliati
    • Analisi della significatività statistica
  3. Ingegneria delle Caratteristiche Completa:
    • Costruzione sistematica di 303 caratteristiche
    • Analisi dell'importanza delle caratteristiche multidimensionale
  4. Contributi Teorici Profondi:
    • Importante intuizione "It is who we are, not what we see"
    • Fornisce una nuova prospettiva per la comprensione del comportamento sui social media

Insufficienze

  1. Rappresentatività dei Dati:
    • Utilizza solo 14 hashtag, potenzialmente non sufficientemente completo
    • Intervallo temporale breve, manca l'osservazione a lungo termine
  2. Interpretabilità delle Caratteristiche:
    • I meccanismi psicologici di alcune caratteristiche utente non sono sufficientemente chiari
    • Manca un'analisi approfondita delle interazioni tra caratteristiche
  3. Considerazioni Pratiche:
    • L'ottenimento di dati storici utente completi potrebbe essere difficile nelle applicazioni pratiche
    • Considerazioni insufficienti sulla protezione della privacy
  4. Complessità del Modello:
    • 303 caratteristiche potrebbero contenere ridondanza
    • Manca l'analisi di selezione e riduzione dimensionale delle caratteristiche

Impatto

  1. Contributo Accademico:
    • Fornisce un nuovo paradigma di valutazione per la ricerca sulla diffusione di informazioni
    • Sfida le ipotesi dei metodi esistenti
  2. Valore Pratico:
    • Fornisce orientamenti per gli algoritmi di raccomandazione delle piattaforme di social media
    • Offre nuove prospettive per il marketing digitale e il monitoraggio dell'opinione pubblica
  3. Riproducibilità:
    • Descrizione dettagliata della configurazione sperimentale e dei parametri
    • Metodologia di ingegneria delle caratteristiche aperta

Scenari Applicabili

  1. Piattaforme di Social Media: Raccomandazione di contenuti e previsione del comportamento utente
  2. Marketing Digitale: Identificazione di utenti target e strategia di contenuti
  3. Monitoraggio dell'Opinione Pubblica: Previsione della propagazione di argomenti di tendenza
  4. Ricerca Accademica: Analisi di reti sociali e modellazione del comportamento

Bibliografia

L'articolo cita 48 riferimenti correlati, coprendo:

  • Ricerca sulla teoria della diffusione di informazioni
  • Applicazione di metodi di apprendimento automatico
  • Analisi del comportamento sui social media
  • Tecnologie di elaborazione del linguaggio naturale

I riferimenti chiave includono lavori classici sulla previsione di condivisioni, modelli di reti neurali (come BERT, SUA-ACNN) e ricerca fondamentale sull'analisi di reti sociali.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con contributi significativi nella formulazione del problema, innovazione metodologica e verifica sperimentale. In particolare, la proposta di previsione fuori distribuzione e la scoperta dell'importanza delle caratteristiche utente aprono una nuova direzione per la ricerca sulla diffusione di informazioni sui social media. Nonostante alcune limitazioni, il suo valore teorico e pratico sono notevoli e si prevede che avrà un impatto significativo nel campo correlato.