There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
- 論文ID: 2505.15370
- タイトル: Modelling the Spread of New Information on Social Networks
- 著者: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
- 分類: cs.SI(ソーシャルおよび情報ネットワーク)
- 発表日時: 2025年10月14日(arXiv v3)
- 論文リンク: https://arxiv.org/abs/2505.15370v3
本論文は、ソーシャルネットワークにおける新情報の拡散予測問題、すなわちユーザーが以前に見たことのないトピックに関する情報をリツイートするかどうかを予測する問題を研究している。既存研究では、通常、情報とユーザーをランダムに訓練セットとテストセットに割り当て、両セットが同じ分布から来ていることを保証している。一方、新情報拡散問題は本質的に分布外汎化分類タスクである。実験結果は、訓練とテスト分布が同じ場合、主にメッセージコンテンツ特徴を使用する既存アルゴリズムは良好な性能を示すが、テストセット分布外(すなわち、テストデータのトピックが訓練データに存在しない)では性能が著しく低下することを示している。研究により、ユーザープロフィールと履歴行動特徴でメッセージ特徴を補完または置き換えた後、分布外予測性能が大幅に向上し、F1スコアが0.117から0.705に上昇することが判明した。結果は、未見のトピックに関するリツイート行動が、ユーザープロフィールと履歴行動によって大部分が予測可能であり、基本的にコンテンツとは無関係であることを示唆している。
本論文が解決する中核的問題は新情報拡散予測、すなわちユーザーが以前に見たことのないトピックに関する情報をリツイートするかどうかを予測することである。これは典型的な分布外汎化問題であり、テストデータに関連するトピックが訓練データに完全に存在しないためである。
- 学際的重要性:情報拡散予測は、コンピュータサイエンス、社会科学、政治学、マーケティングなど複数の分野に重要な意義を持つ
- 実用的価値:マーケティングキャンペーン、政治宣伝、虚偽情報およびデマ拡散シナリオにおいて重要な応用価値を有する
- 理論的意義:ソーシャルメディア上の情報拡散の内在的メカニズムの理解に寄与する
- メッセージコンテンツへの過度な依存:既存アルゴリズムは主にメッセージテキストコンテンツから抽出された特徴を使用する
- 分布外評価の欠如:既存研究は通常、ランダムなデータセット分割方式を採用し、訓練とテストデータが同じ分布から来ていることを保証する
- ユーザー関連データの軽視:ユーザープロフィール、フォローリスト、履歴行動などの重要な情報が過小評価されている
ソーシャルメディアプラットフォームでは新しいトピック(突発ニュースなど)が頻繁に出現するため、従来の同分布分類に加えて、分布外予測能力が必要であり、これは実際の応用においてより挑戦的で価値がある。
- 新しい評価パラダイムの提案:初めて同分布予測と分布外予測を明確に区別し、リツイート予測研究に対してより包括的な評価フレームワークを提供した
- 包括的特徴体系の構築:303個の特徴を識別・構築した。これには78個のメッセージ関連特徴と225個のユーザー関連特徴が含まれる
- ユーザー特徴の重要性の解明:実験により、ユーザー関連特徴が分布外予測に不可欠であることを証明し、F1スコアが0.117から0.705に上昇した
- 重要な理論的洞察の提供:リツイート行動が大部分コンテンツと無関係であり、主にユーザー特徴によって決定されることを発見した(「It is who we are, not what we see」)
リツイート予測は、受信者が送信者から受け取ったメッセージをリツイートするかどうかを予測することとして定義される:
f:{M,US,UR}→y∈{0,1}
ここで:
- M:メッセージ
- US:送信者
- UR:受信者
- y=1:受信者がメッセージをリツイートする、y=0:リツイートしない
111,401件のX(Twitter)メッセージのテキストコンテンツを含み、78個のメッセージ関連特徴を抽出する:
- トピック特徴(39個):Twitter-roBERTaおよびLDAモデルを使用してメッセージトピックを識別
- 言語特徴(10個):文法正確性、極性、主観性など
- 可読性特徴(11個):Flesch読みやすさ指数、SMOG指数など
- 感情特徴(5個):ポジティブ、ネガティブ、ニュートラル感情スコア
- 情動特徴(8個):怒り、喜び、恐怖などの情動確率
- ヘイトスピーチ特徴(4個):攻撃性、ヘイト性測定値
- タグ特徴(1個):特定ハッシュタグの存在
3種類のユーザー関連データを含む:
ユーザープロフィールデータ Data(U-P):
- ユーザープロフィールおよびフォローリスト
- 30個の特徴を抽出:フォロワー数、影響力測定値、ネットワーク関係など
ユーザー履歴行動データ Data(U-HA):
- 最近50件の履歴メッセージのメタデータ
- 38個の特徴を抽出:リツイート率、相互作用パターン、ユーザー間相互作用など
ユーザー履歴メッセージデータ Data(U-HM):
- 最近50件の履歴メッセージのテキストコンテンツ
- 157個の特徴を抽出:履歴メッセージの集約特徴、トピック類似性など
XGBoost決定木を使用し、特徴重要度分析を通じてユーザー特徴の重要な役割を発見する。主要なハイパーパラメータ:
SUA-ACNNモデルに基づいて拡張され、ユーザーデータを処理するためのMLPコンポーネントを追加:
- NN-M:メッセージデータのみを使用
- NN-U:ユーザーデータのみを使用
- NN-ALL:すべてのデータタイプを使用
BERT-baseを使用してメッセージテキストを処理し、予測のための意味埋め込みを生成する。
- 分布外評価設計:各ハッシュタグについて、他の13個のハッシュタグのデータを使用して訓練し、そのハッシュタグでテストする
- 負サンプル生成戦略:各正サンプルに対して最も類似した負サンプルを選択し、評価の関連性を確保する
- 多層的特徴体系:メッセージ、ユーザープロフィール、履歴行動など複数の次元から体系的に特徴を抽出
- データソース:Xプラットフォーム(旧Twitter)学術API
- 時間範囲:2022年7月27日~8月14日
- データ規模:
- 111,401件のメッセージ
- 44,014件のリツイートイベント(正サンプル)
- 79,707人のユニークユーザー
- 380万件の履歴メッセージ
- トピックカバレッジ:14個の人気ハッシュタグ
異なる正負サンプル比率の3つのデータセットを作成:
- 1:1データセット:各正サンプルに1つの最も類似した負サンプルを配置
- 1:5データセット:各正サンプルに5つの最も類似した負サンプルを配置
- 1:10データセット:各正サンプルに5つの類似した負サンプルと5つのランダム負サンプルを配置
主にF1スコアを使用:
F1=TP+21(FP+FN)TP
複数のハッシュタグの結果については、全体平均と標準偏差を計算する。
3種類の実験を実施:
- 実験I:混合ハッシュタグの同分布予測
- 実験II:単一ハッシュタグの同分布予測
- 実験III:分布外予測
1:5データセット上のF1スコア:
| モデル | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1スコア | 0.884±0.002 | 0.852±0.005 | 0.758±0.002 | 0.844±0.009 | 0.835±0.004 | 0.740±0.003 | 0.740±0.010 |
全体F1スコア(μ̄±σ̄):
| モデル | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1スコア | 0.697±0.076 | 0.705±0.084 | 0.117±0.131 | 0.623±0.109 | 0.702±0.071 | 0.108±0.055 | 0.091±0.101 |
- ユーザー特徴の重要な役割:
- メッセージ特徴のみを使用するモデルは、分布外予測で性能が急激に低下する
- ユーザー特徴のみを使用するモデルは、分布外予測ですべての特徴を使用するモデルと同等の性能を示す
- 特徴重要度分析:
- 最も重要な20個の特徴のうち、ユーザー関連特徴が17個を占める
- 最も重要な特徴は「受信者が送信者をフォローしているかどうか」(U-P_R_FollowS)である
- 性能向上が顕著:
- 分布外予測F1スコアが0.117から0.705に上昇(502%向上)
- 新しいトピック予測に対するユーザー特徴の重要性を証明した
異なる特徴組み合わせの比較実験を通じて、以下を発見:
- U-PおよびU-HA特徴:分布外予測への貢献が最大
- U-HM特徴:メッセージ特徴と同様の性能を示し、分布外性能は限定的
- メッセージ特徴:分布外設定ではほぼ機能しない
既存研究は主に以下のカテゴリに分類される:
- メッセージ人気度予測:メッセージの伝播規模を予測
- 拡散ツリー予測:伝播経路と時間を予測
- リツイート予測:特定ユーザーのリツイート行動を予測
- 特徴依存性:メッセージテキスト特徴への過度な依存
- 評価の限界:分布外評価の欠如
- データ利用不足:ユーザープロフィールおよび行動データの価値を軽視
- 初めて体系的に分布外評価を実施
- ユーザー関連特徴を包括的に考慮
- より現実的な評価シナリオを提供
- コンテンツ無関性:リツイート行動は大部分がコンテンツと無関係であり、主にユーザー特徴によって決定される
- ユーザー特徴の汎化能力:ユーザープロフィールと履歴行動はトピック間の汎化能力を有する
- 評価パラダイムの重要性:分布外評価は実際の応用に対してより意味がある
- プラットフォーム限定:研究はXプラットフォームデータのみに基づく
- 時間窓:24時間以内のリツイート行動のみを考慮
- 特徴エンジニアリング:一部の特徴抽出は特定のツールとモデルに依存
- 文化的背景:異なる文化的背景下での行動差異を考慮していない
- クロスプラットフォーム研究:他のソーシャルメディアプラットフォームへの拡張
- 動的モデリング:ユーザー行動の時間的進化を考慮
- 因果推論:ユーザー特徴とリツイート行動の因果関係の深い理解
- リアルタイム応用:リアルタイム予測システムの開発
- 問題設定の革新性:
- 初めて分布外リツイート予測問題を明確に提案
- 実際の応用シナリオにより適合
- 実験設計の厳密性:
- 複数モデルの比較検証
- 詳細なアブレーション実験
- 統計的有意性分析
- 特徴エンジニアリングの包括性:
- 303個の特徴の体系的構築
- 多次元的な特徴重要度分析
- 理論的貢献の深さ:
- 「It is who we are, not what we see」という重要な洞察
- ソーシャルメディア行動理解への新しい視点を提供
- データ代表性:
- 14個のハッシュタグのみを使用し、十分に包括的でない可能性
- 時間スパンが短く、長期的観察が不足
- 特徴解釈性:
- 一部のユーザー特徴の心理学的メカニズムが十分に明確でない
- 特徴相互作用の深い分析が不足
- 実用性の考慮:
- 完全なユーザー履歴データの取得は実際の応用では困難な可能性
- プライバシー保護の考慮が不足
- モデルの複雑性:
- 303個の特徴に冗長性が存在する可能性
- 特徴選択と次元削減分析が不足
- 学術的貢献:
- 情報拡散研究に新しい評価パラダイムを提供
- 既存手法の仮定に異議を唱える
- 実用的価値:
- ソーシャルメディアプラットフォームの推奨アルゴリズムに指導的意義
- マーケティングと舆論監視に新しい視点を提供
- 再現性:
- 詳細な実験設定とパラメータ記述
- オープンな特徴エンジニアリング方法
- ソーシャルメディアプラットフォーム:コンテンツ推奨とユーザー行動予測
- デジタルマーケティング:ターゲットユーザー識別とコンテンツ戦略
- 舆論監視:ホットトピック拡散予測
- 学術研究:ソーシャルネットワーク分析と行動モデリング
論文は関連文献48篇を引用しており、以下を含む:
- 情報拡散理論研究
- 機械学習手法の応用
- ソーシャルメディア行動分析
- 自然言語処理技術
主要な参考文献には、リツイート予測の古典的研究、ニューラルネットワークモデル(BERT、SUA-ACNNなど)、およびソーシャルネットワーク分析の基礎研究が含まれる。
総合評価:これは高品質な研究論文であり、問題設定、方法的革新、実験検証の面で顕著な貢献を有している。特に分布外予測の提案とユーザー特徴の重要性の発見は、ソーシャルメディア情報拡散研究に新しい方向を切り開いている。いくつかの限界は存在するが、その理論的価値と実用的意義は顕著であり、関連分野に重要な影響を与えることが予想される。