2025-11-17T00:04:13.380329

Modelling the Spread of New Information on Social Networks

Xu, Zhou, Lampos et al.
There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
academic

Modellierung der Ausbreitung neuer Informationen in sozialen Netzwerken

Grundlegende Informationen

  • Paper-ID: 2505.15370
  • Titel: Modelling the Spread of New Information on Social Networks
  • Autoren: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
  • Klassifizierung: cs.SI (Soziale und Informationsnetzwerke)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v3)
  • Paper-Link: https://arxiv.org/abs/2505.15370v3

Zusammenfassung

Dieses Paper untersucht das Vorhersageproblem der Ausbreitung neuer Informationen in sozialen Netzwerken, d.h. die Vorhersage, ob Benutzer Informationen über zuvor unbekannte Themen weitergeben werden. Bestehende Forschungen weisen Informationen und Benutzer typischerweise zufällig Trainings- und Testmengen zu, um sicherzustellen, dass beide Mengen aus derselben Verteilung stammen. Das Vorhersageproblem für neue Informationen ist jedoch im Wesentlichen eine Klassifizierungsaufgabe mit Verteilungsversatz. Die experimentellen Ergebnisse zeigen, dass bestehende Algorithmen, die hauptsächlich Nachrichteninhaltsmerkmale verwenden, bei gleicher Trainings- und Testverteilung gut funktionieren, aber bei Testverteilungsversatz (d.h. wenn die Themen in den Testdaten in den Trainingsdaten nicht vorhanden sind) erheblich an Leistung verlieren. Die Forschung zeigt, dass die Ergänzung oder der Ersatz von Nachrichtenmerkmalen durch Benutzerprofile und historische Verhaltensmerkmale die Vorhersageleistung bei Verteilungsversatz erheblich verbessert, wobei der F1-Score von 0,117 auf 0,705 ansteigt. Die Ergebnisse deuten darauf hin, dass Weitergabeverhalten bei unbekannten Themen in großem Maße durch Benutzerprofile und historisches Verhalten vorhersagbar ist und grundsätzlich inhaltsunabhängig ist.

Forschungshintergrund und Motivation

1. Zu lösendes Kernproblem

Das Kernproblem dieses Papers ist die Vorhersage der Ausbreitung neuer Informationen, d.h. die Vorhersage, ob Benutzer Informationen über zuvor unbekannte Themen weitergeben werden. Dies ist ein typisches Verteilungsversatz-Generalisierungsproblem, da die in den Testdaten behandelten Themen in den Trainingsdaten vollständig fehlen.

2. Bedeutung des Problems

  • Interdisziplinäre Bedeutung: Die Vorhersage der Informationsausbreitung ist für Informatik, Sozialwissenschaften, Politikwissenschaft und Marketing von großer Bedeutung
  • Praktischer Anwendungswert: Wichtige Anwendungen in Marketingkampagnen, politischer Propaganda, Desinformation und Gerüchteverbreitung
  • Theoretische Bedeutung: Trägt zum Verständnis der inneren Mechanismen der Informationsdiffusion in sozialen Medien bei

3. Einschränkungen bestehender Methoden

  • Übermäßige Abhängigkeit von Nachrichteninhalten: Bestehende Algorithmen verwenden hauptsächlich aus Nachrichtentextinhalten extrahierte Merkmale
  • Mangel an Verteilungsversatz-Bewertung: Bestehende Forschungen verwenden typischerweise zufällige Datensatzteilungen, um sicherzustellen, dass Trainings- und Testdaten aus derselben Verteilung stammen
  • Vernachlässigung benutzerbezogener Daten: Benutzerprofile, Kontaktlisten und historisches Verhalten werden unterschätzt

4. Forschungsmotivation

Neue Themen erscheinen häufig auf Social-Media-Plattformen (z.B. Nachrichten). Daher ist neben der traditionellen Klassifizierung mit gleicher Verteilung auch die Vorhersagefähigkeit bei Verteilungsversatz erforderlich, was in praktischen Anwendungen anspruchsvoller und wertvoller ist.

Kernbeiträge

  1. Vorschlag eines neuen Bewertungsparadigmas: Erstmalige klare Unterscheidung zwischen Vorhersagen mit gleicher Verteilung und Vorhersagen mit Verteilungsversatz, bietet einen umfassenderen Bewertungsrahmen für die Weitergabeforschung
  2. Aufbau eines umfassenden Merkmalssystems: Identifizierung und Konstruktion von 303 Merkmalen, einschließlich 78 nachrichtenbezogener Merkmale und 225 benutzerbezogener Merkmale
  3. Offenlegung der Bedeutung von Benutzermerkmalen: Experimente zeigen, dass benutzerbezogene Merkmale für Vorhersagen bei Verteilungsversatz entscheidend sind, F1-Score steigt von 0,117 auf 0,705
  4. Bereitstellung wichtiger theoretischer Erkenntnisse: Entdeckung, dass Weitergabeverhalten in großem Maße inhaltsunabhängig ist und hauptsächlich durch Benutzermerkmale bestimmt wird ("It is who we are, not what we see")

Methodische Details

Aufgabendefinition

Die Weitergabeprognose wird als Vorhersage definiert, ob ein Empfänger eine vom Absender erhaltene Nachricht weitergeben wird:

f:{M,US,UR}y{0,1}f : \{M, U_S, U_R\} \rightarrow y \in \{0, 1\}

Wobei:

  • MM: Nachricht
  • USU_S: Absender
  • URU_R: Empfänger
  • y=1y=1: Empfänger wird die Nachricht weitergeben, y=0y=0: wird nicht weitergeben

Datenarchitektur

1. Nachrichtendaten Data(M)

Enthält Textinhalte von 111.401 X-(Twitter-)Nachrichten, extrahiert 78 nachrichtenbezogene Merkmale:

  • Themenmerkmale (39): Themenidentifikation mit Twitter-roBERTa und LDA-Modellen
  • Sprachmerkmale (10): Grammatikalische Korrektheit, Polarität, Subjektivität usw.
  • Lesbarkeitsmerkmale (11): Flesch-Lesbarkeitsindex, SMOG-Index usw.
  • Sentimentmerkmale (5): Positive, negative und neutrale Stimmungswerte
  • Emotionsmerkmale (8): Wahrscheinlichkeiten für Wut, Freude, Angst usw.
  • Hassrede-Merkmale (4): Aggressivitäts- und Hassmaße
  • Etikett-Merkmale (1): Vorhandensein spezifischer Hashtags

2. Benutzerdaten Data(U)

Enthält drei Kategorien benutzerbezogener Daten:

Benutzerprofilldaten Data(U-P):

  • Benutzerprofile und Kontaktlisten
  • Extrahiert 30 Merkmale: Follower-Anzahl, Einflussmaße, Netzwerkbeziehungen usw.

Historische Benutzerverhaltendaten Data(U-HA):

  • Metadaten der letzten 50 historischen Nachrichten
  • Extrahiert 38 Merkmale: Weitergabequoten, Interaktionsmuster, Benutzerinteraktionen usw.

Historische Benutzernachrichtendaten Data(U-HM):

  • Textinhalte der letzten 50 historischen Nachrichten
  • Extrahiert 157 Merkmale: Aggregierte Merkmale historischer Nachrichten, Themenähnlichkeit usw.

Modellarchitektur

1. Entscheidungsbaummodell (DT)

Verwendet XGBoost-Entscheidungsbäume, entdeckt die Schlüsselrolle von Benutzermerkmalen durch Merkmalswichtigkeitsanalyse. Haupthyperparameter:

  • Maximale Tiefe: 8
  • Lernrate: 0,3
  • Anzahl der Schätzer: 100

2. Neuronales Netzwerk (NN)

Basierend auf dem SUA-ACNN-Modell erweitert, MLP-Komponente zur Verarbeitung von Benutzerdaten hinzugefügt:

  • NN-M: Verwendet nur Nachrichtendaten
  • NN-U: Verwendet nur Benutzerdaten
  • NN-ALL: Verwendet alle Datentypen

3. BERT-Modell

Verwendet BERT-base zur Verarbeitung von Nachrichtentexten, generiert semantische Einbettungen für Vorhersagen.

Technische Innovationen

  1. Verteilungsversatz-Bewertungsdesign: Für jeden Hashtag werden Daten von 13 anderen Hashtags zum Trainieren verwendet und auf diesem Hashtag getestet
  2. Negative Stichprobengenerierungsstrategie: Für jede positive Stichprobe wird die ähnlichste negative Stichprobe ausgewählt, um die Relevanz der Bewertung sicherzustellen
  3. Mehrstufiges Merkmalssystem: Systematische Extraktion von Merkmalen aus mehreren Dimensionen wie Nachrichten, Benutzerprofilen und historischem Verhalten

Experimentelle Einrichtung

Datensatz

  • Datenquelle: X-Plattform (ehemals Twitter) akademische API
  • Zeitraum: 27. Juli bis 14. August 2022
  • Datengröße:
    • 111.401 Nachrichten
    • 44.014 Weitergabeereignisse (positive Stichproben)
    • 79.707 eindeutige Benutzer
    • 3,8 Millionen historische Nachrichten
  • Themenabdeckung: 14 beliebte Hashtags

Datensatzkonstruktion

Erstellt drei verschiedene Datensätze mit unterschiedlichen Verhältnissen positiver zu negativer Stichproben:

  • 1:1-Datensatz: Jede positive Stichprobe mit einer ähnlichsten negativen Stichprobe
  • 1:5-Datensatz: Jede positive Stichprobe mit 5 ähnlichsten negativen Stichproben
  • 1:10-Datensatz: Jede positive Stichprobe mit 5 ähnlichen + 5 zufälligen negativen Stichproben

Bewertungsmetriken

Hauptsächlich F1-Score verwendet: F1=TPTP+12(FP+FN)F1 = \frac{TP}{TP + \frac{1}{2}(FP + FN)}

Für Ergebnisse mehrerer Hashtags werden Gesamtmittelwert und Standardabweichung berechnet.

Experimentelles Design

Drei Arten von Experimenten durchgeführt:

  1. Experiment I: Vorhersagen mit gleicher Verteilung bei gemischten Hashtags
  2. Experiment II: Vorhersagen mit gleicher Verteilung bei einzelnen Hashtags
  3. Experiment III: Vorhersagen bei Verteilungsversatz

Experimentelle Ergebnisse

Hauptergebnisse

Vorhersagen mit gleicher Verteilung (Experiment I)

F1-Scores auf dem 1:5-Datensatz:

ModellDT-ALLDT-UDT-MNN-ALLNN-UNN-MBERT
F1-Score0,884±0,0020,852±0,0050,758±0,0020,844±0,0090,835±0,0040,740±0,0030,740±0,010

Vorhersagen bei Verteilungsversatz (Experiment III)

Gesamter F1-Score (μ̄±σ̄):

ModellDT-ALLDT-UDT-MNN-ALLNN-UNN-MBERT
F1-Score0,697±0,0760,705±0,0840,117±0,1310,623±0,1090,702±0,0710,108±0,0550,091±0,101

Wichtigste Erkenntnisse

  1. Schlüsselrolle von Benutzermerkmalen:
    • Modelle, die nur Nachrichtenmerkmale verwenden, zeigen bei Vorhersagen mit Verteilungsversatz einen drastischen Leistungsabfall
    • Modelle, die nur Benutzermerkmale verwenden, zeigen bei Vorhersagen mit Verteilungsversatz ähnliche Leistung wie Modelle mit allen Merkmalen
  2. Merkmalswichtigkeitsanalyse:
    • Von den 20 wichtigsten Merkmalen sind 17 benutzerbezogen
    • Das wichtigste Merkmal ist "ob der Empfänger dem Absender folgt" (U-P_R_FollowS)
  3. Signifikante Leistungsverbesserung:
    • F1-Score bei Verteilungsversatz steigt von 0,117 auf 0,705 (502% Verbesserung)
    • Beweist die Bedeutung von Benutzermerkmalen für die Vorhersage neuer Themen

Ablationsexperimente

Durch Vergleichsexperimente mit verschiedenen Merkmalskombinationen wird festgestellt:

  • U-P und U-HA Merkmale: Tragen am meisten zur Vorhersage bei Verteilungsversatz bei
  • U-HM Merkmale: Ähnliche Leistung wie Nachrichtenmerkmale, begrenzte Leistung bei Verteilungsversatz
  • Nachrichtenmerkmale: Bei Verteilungsversatz praktisch unwirksam

Verwandte Arbeiten

Informationsausbreitungsforschung

Bestehende Forschungen lassen sich in mehrere Kategorien einteilen:

  1. Nachrichtenpopularitätsvorhersage: Vorhersage der Ausbreitungsgröße von Nachrichten
  2. Ausbreitungsbaumvorhersage: Vorhersage von Ausbreitungspfaden und -zeiten
  3. Weitergabeprognose: Vorhersage des Weitgabeverhaltens spezifischer Benutzer

Einschränkungen bestehender Methoden

  1. Merkmalsabhängigkeit: Übermäßige Abhängigkeit von Nachrichtentextmerkmalen
  2. Bewertungseinschränkungen: Mangel an Bewertung bei Verteilungsversatz
  3. Unzureichende Datennutzung: Vernachlässigung des Wertes von Benutzerprofil- und Verhaltensdaten

Vorteile dieses Papers

  1. Erstmalige systematische Bewertung bei Verteilungsversatz
  2. Umfassende Berücksichtigung benutzerbezogener Merkmale
  3. Realistischere Bewertungsszenarien

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Inhaltsunabhängigkeit: Weitergabeverhalten ist in großem Maße inhaltsunabhängig und wird hauptsächlich durch Benutzermerkmale bestimmt
  2. Generalisierungsfähigkeit von Benutzermerkmalen: Benutzerprofile und historisches Verhalten haben Generalisierungsfähigkeit über Themen hinweg
  3. Bedeutung des Bewertungsparadigmas: Bewertung bei Verteilungsversatz ist für praktische Anwendungen bedeutsamer

Einschränkungen

  1. Plattformeinschränkung: Forschung basiert nur auf X-Plattformdaten
  2. Zeitfenster: Berücksichtigt nur Weitergabeverhalten innerhalb von 24 Stunden
  3. Merkmalstechnik: Teilweise Merkmalextraktion hängt von spezifischen Tools und Modellen ab
  4. Kultureller Hintergrund: Berücksichtigt keine Verhaltensunterschiede in verschiedenen kulturellen Kontexten

Zukünftige Richtungen

  1. Plattformübergreifende Forschung: Erweiterung auf andere Social-Media-Plattformen
  2. Dynamische Modellierung: Berücksichtigung zeitlicher Entwicklung von Benutzerverhalten
  3. Kausale Inferenz: Tieferes Verständnis der Kausalbeziehung zwischen Benutzermerkmalen und Weitgabeverhalten
  4. Echtzeitanwendung: Entwicklung von Echtzeit-Vorhersagesystemen

Tiefgreifende Bewertung

Stärken

  1. Innovative Problemformulierung:
    • Erstmalige explizite Formulierung des Verteilungsversatz-Weitgabeprognoseproblems
    • Näher an praktischen Anwendungsszenarien
  2. Strenge experimentelle Gestaltung:
    • Vergleich mehrerer Modelle zur Validierung
    • Detaillierte Ablationsexperimente
    • Statistische Signifikanztests
  3. Umfassende Merkmalstechnik:
    • Systematische Konstruktion von 303 Merkmalen
    • Mehrdimensionale Merkmalswichtigkeitsanalyse
  4. Tiefe theoretische Beiträge:
    • Wichtige Erkenntnis "It is who we are, not what we see"
    • Neue Perspektive zum Verständnis von Social-Media-Verhalten

Schwächen

  1. Datendarstellbarkeit:
    • Verwendung von nur 14 Hashtags, möglicherweise nicht umfassend genug
    • Relativ kurze Zeitspanne, mangelnde Langzeitbeobachtung
  2. Merkmalserklärbarkeit:
    • Psychologische Mechanismen einiger Benutzermerkmale nicht ausreichend klar
    • Mangel an tiefgehender Analyse von Merkmalswechselwirkungen
  3. Praktische Überlegungen:
    • Beschaffung vollständiger Benutzerverlaufsdaten in praktischen Anwendungen möglicherweise schwierig
    • Unzureichende Berücksichtigung des Datenschutzes
  4. Modellkomplexität:
    • 303 Merkmale könnten Redundanzen aufweisen
    • Mangel an Merkmalsauswahl und Dimensionalitätsreduktionsanalyse

Einfluss

  1. Akademischer Beitrag:
    • Bietet neues Bewertungsparadigma für Informationsausbreitungsforschung
    • Stellt Annahmen bestehender Methoden in Frage
  2. Praktischer Wert:
    • Richtungweisend für Empfehlungsalgorithmen von Social-Media-Plattformen
    • Neue Perspektiven für Marketing und Stimmungsüberwachung
  3. Reproduzierbarkeit:
    • Detaillierte experimentelle Einrichtung und Parameterbeschreibung
    • Offene Merkmalstechnik-Methoden

Anwendungsszenarien

  1. Social-Media-Plattformen: Inhaltsempfehlung und Benutzerverhaltensprognose
  2. Digitales Marketing: Zielbenutzeridentifikation und Inhaltsstrategien
  3. Stimmungsüberwachung: Vorhersage der Ausbreitung von Trending Topics
  4. Akademische Forschung: Analyse sozialer Netzwerke und Verhaltensmodellierung

Literaturverzeichnis

Das Paper zitiert 48 relevante Literaturquellen, die folgende Bereiche abdecken:

  • Theoretische Forschung zur Informationsdiffusion
  • Anwendung von Machine-Learning-Methoden
  • Analyse von Social-Media-Verhalten
  • Techniken der Verarbeitung natürlicher Sprache

Wichtige Referenzen umfassen klassische Weitgabeprognose-Arbeiten, neuronale Netzwerkmodelle (wie BERT, SUA-ACNN) sowie grundlegende Forschung zur Analyse sozialer Netzwerke.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper mit signifikanten Beiträgen in Problemformulierung, methodischer Innovation und experimenteller Validierung. Besonders die Einführung der Verteilungsversatz-Vorhersage und die Entdeckung der Bedeutung von Benutzermerkmalen eröffnen neue Richtungen in der Informationsausbreitungsforschung in sozialen Medien. Trotz einiger Einschränkungen haben sowohl der theoretische Wert als auch der praktische Nutzen großes Potenzial und werden voraussichtlich bedeutende Auswirkungen auf verwandte Bereiche haben.