2025-11-17T00:04:13.380329

Modelling the Spread of New Information on Social Networks

Xu, Zhou, Lampos et al.

There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.

academic

Modelado de la Propagación de Nueva Información en Redes Sociales

Información Básica

ID del Artículo: 2505.15370
Título: Modelling the Spread of New Information on Social Networks
Autores: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
Clasificación: cs.SI (Redes Sociales e Información)
Fecha de Publicación: 14 de octubre de 2025 (arXiv v3)
Enlace del Artículo: https://arxiv.org/abs/2505.15370v3

Resumen

Este artículo investiga el problema de predicción de la propagación de nueva información en redes sociales, es decir, predecir si los usuarios compartirán información sobre temas previamente desconocidos. La investigación existente típicamente asigna aleatoriamente información y usuarios a conjuntos de entrenamiento y prueba, asegurando que ambos conjuntos provengan de la misma distribución. Sin embargo, el problema de propagación de nueva información es esencialmente una tarea de clasificación de generalización fuera de distribución. Los resultados experimentales muestran que cuando las distribuciones de entrenamiento y prueba son idénticas, los algoritmos existentes que utilizan principalmente características de contenido de mensajes funcionan bien, pero su rendimiento disminuye significativamente cuando el conjunto de prueba está fuera de distribución (es decir, los temas en los datos de prueba no existen en los datos de entrenamiento). El estudio descubre que al complementar o reemplazar características de mensajes con características de perfil de usuario y comportamiento histórico, el rendimiento de predicción fuera de distribución mejora significativamente, con la puntuación F1 aumentando de 0.117 a 0.705. Los resultados indican que el comportamiento de compartir sobre temas desconocidos puede predecirse en gran medida mediante el perfil de usuario y el comportamiento histórico, siendo esencialmente independiente del contenido.

Antecedentes y Motivación de la Investigación

1. Problema Central a Resolver

El problema central que aborda este artículo es la predicción de propagación de nueva información, es decir, predecir si los usuarios compartirán información sobre temas previamente desconocidos. Este es un problema típico de generalización fuera de distribución, ya que los temas en los datos de prueba no existen completamente en los datos de entrenamiento.

2. Importancia del Problema

Importancia Interdisciplinaria: La predicción de propagación de información tiene importancia significativa en múltiples disciplinas incluyendo ciencias de la computación, ciencias sociales, ciencia política y marketing
Valor de Aplicación Práctica: Posee valor de aplicación importante en escenarios como campañas de marketing, propaganda política, información falsa y propagación de rumores
Significado Teórico: Contribuye a la comprensión de los mecanismos intrínsecos de difusión de información en redes sociales

3. Limitaciones de Métodos Existentes

Dependencia Excesiva del Contenido del Mensaje: Los algoritmos existentes utilizan principalmente características extraídas del contenido de texto del mensaje
Falta de Evaluación Fuera de Distribución: La investigación existente típicamente adopta métodos de división aleatoria de conjuntos de datos, asegurando que los datos de entrenamiento y prueba provengan de la misma distribución
Subestimación de Datos Relacionados con Usuarios: Información importante como perfiles de usuario, listas de seguimiento y comportamiento histórico es subestimada

4. Motivación de la Investigación

Los nuevos temas (como noticias de última hora) aparecen frecuentemente en plataformas de redes sociales, por lo que además de la clasificación tradicional con la misma distribución, se requiere capacidad de predicción fuera de distribución, que es más desafiante y valiosa en aplicaciones prácticas.

Contribuciones Principales

Propuesta de un Nuevo Paradigma de Evaluación: Distingue explícitamente por primera vez entre predicción con la misma distribución y predicción fuera de distribución, proporcionando un marco de evaluación más completo para la investigación de predicción de compartición
Construcción de un Sistema Integral de Características: Identifica y construye 303 características, incluyendo 78 características relacionadas con mensajes y 225 características relacionadas con usuarios
Revelación de la Importancia de Características de Usuario: Los experimentos demuestran que las características relacionadas con usuarios son cruciales para la predicción fuera de distribución, con la puntuación F1 aumentando de 0.117 a 0.705
Proporciona Perspectivas Teóricas Importantes: Descubre que el comportamiento de compartición está en gran medida desvinculado del contenido, siendo determinado principalmente por características de usuario ("It is who we are, not what we see")

Explicación Detallada del Método

Definición de la Tarea

La predicción de compartición se define como predecir si un receptor compartirá un mensaje recibido de un remitente:

$f : \{M, U_S, U_R\} \rightarrow y \in \{0, 1\}$

Donde:

$M$ : Mensaje
$U_S$ : Remitente
$U_R$ : Receptor
$y=1$ : El receptor compartirá el mensaje, $y=0$ : No lo compartirá

Arquitectura de Datos

1. Datos de Mensaje Data(M)

Contiene contenido de texto de 111,401 mensajes de X (Twitter), extrayendo 78 características relacionadas con mensajes:

Características de Tema (39): Identificación de temas de mensajes utilizando modelos Twitter-roBERTa y LDA
Características Lingüísticas (10): Corrección gramatical, polaridad, subjetividad, etc.
Características de Legibilidad (11): Índice de lectura Flesch, índice SMOG, etc.
Características de Sentimiento (5): Puntuaciones de sentimiento positivo, negativo y neutral
Características de Emoción (8): Probabilidades de ira, alegría, miedo, etc.
Características de Discurso de Odio (4): Medidas de agresividad y odio
Características de Etiqueta (1): Presencia de hashtags específicos

2. Datos de Usuario Data(U)

Contiene tres categorías de datos relacionados con usuarios:

Datos de Perfil de Usuario Data(U-P):

Perfil de usuario y listas de seguimiento
Extrae 30 características: número de seguidores, medidas de influencia, relaciones de red, etc.

Datos de Comportamiento Histórico de Usuario Data(U-HA):

Metadatos de los últimos 50 mensajes históricos
Extrae 38 características: tasa de compartición, patrones de interacción, interacciones entre usuarios, etc.

Datos de Mensajes Históricos de Usuario Data(U-HM):

Contenido de texto de los últimos 50 mensajes históricos
Extrae 157 características: características agregadas de mensajes históricos, similitud de temas, etc.

Arquitectura del Modelo

1. Modelo de Árbol de Decisión (DT)

Utiliza XGBoost de árbol de decisión, descubriendo el papel clave de características de usuario a través del análisis de importancia de características. Hiperparámetros principales:

Profundidad máxima: 8
Tasa de aprendizaje: 0.3
Número de estimadores: 100

2. Modelo de Red Neuronal (NN)

Basado en la extensión del modelo SUA-ACNN, añadiendo componente MLP para procesar datos de usuario:

NN-M: Utiliza solo datos de mensaje
NN-U: Utiliza solo datos de usuario
NN-ALL: Utiliza todos los tipos de datos

3. Modelo BERT

Utiliza BERT-base para procesar texto de mensaje, generando incrustaciones semánticas para predicción.

Puntos de Innovación Técnica

Diseño de Evaluación Fuera de Distribución: Para cada hashtag, utiliza datos de otros 13 hashtags para entrenamiento, probando en ese hashtag
Estrategia de Generación de Muestras Negativas: Para cada muestra positiva, selecciona la muestra negativa más similar, asegurando relevancia de la evaluación
Sistema de Características Multinivel: Extrae sistemáticamente características de múltiples dimensiones incluyendo mensajes, perfil de usuario y comportamiento histórico

Configuración Experimental

Conjunto de Datos

Fuente de Datos: API académica de plataforma X (anterior Twitter)
Rango Temporal: 27 de julio a 14 de agosto de 2022
Escala de Datos:
- 111,401 mensajes
- 44,014 eventos de compartición (muestras positivas)
- 79,707 usuarios únicos
- 3.8 millones de mensajes históricos
Cobertura de Temas: 14 hashtags populares

Construcción del Conjunto de Datos

Crea tres conjuntos de datos con diferentes proporciones de muestras positivas y negativas:

Conjunto de Datos 1:1: Una muestra negativa más similar para cada muestra positiva
Conjunto de Datos 1:5: Cinco muestras negativas más similares para cada muestra positiva
Conjunto de Datos 1:10: Cinco muestras negativas similares + cinco muestras negativas aleatorias para cada muestra positiva

Métricas de Evaluación

Utiliza principalmente la puntuación F1: $F1 = \frac{TP}{TP + \frac{1}{2}(FP + FN)}$

Para resultados de múltiples hashtags, calcula la media general y desviación estándar.

Diseño Experimental

Realiza tres tipos de experimentos:

Experimento I: Predicción con la misma distribución de hashtags mezclados
Experimento II: Predicción con la misma distribución de hashtag único
Experimento III: Predicción fuera de distribución

Resultados Experimentales

Resultados Principales

Predicción con la Misma Distribución (Experimento I)

Puntuaciones F1 en el conjunto de datos 1:5:

Modelo	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
Puntuación F1	0.884±0.002	0.852±0.005	0.758±0.002	0.844±0.009	0.835±0.004	0.740±0.003	0.740±0.010

Predicción Fuera de Distribución (Experimento III)

Puntuación F1 General (μ̄±σ̄):

Modelo	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
Puntuación F1	0.697±0.076	0.705±0.084	0.117±0.131	0.623±0.109	0.702±0.071	0.108±0.055	0.091±0.101

Hallazgos Clave

Papel Crítico de Características de Usuario:
- Los modelos que utilizan solo características de mensaje muestran una disminución drástica de rendimiento en predicción fuera de distribución
- Los modelos que utilizan solo características de usuario funcionan de manera comparable a los modelos que utilizan todas las características
Análisis de Importancia de Características:
- Entre las 20 características más importantes, 17 son características relacionadas con usuarios
- La característica más importante es "si el receptor sigue al remitente" (U-P_R_FollowS)
Mejora de Rendimiento Significativa:
- La puntuación F1 de predicción fuera de distribución aumenta de 0.117 a 0.705 (mejora del 502%)
- Demuestra la importancia de características de usuario para predicción de nuevos temas

Experimentos de Ablación

A través de experimentos comparativos de diferentes combinaciones de características, descubre:

Características U-P y U-HA: Contribuyen más a la predicción fuera de distribución
Características U-HM: Rendimiento similar a características de mensaje, rendimiento limitado fuera de distribución
Características de Mensaje: Prácticamente inefectivas en configuración fuera de distribución

Trabajo Relacionado

Investigación de Difusión de Información

La investigación existente se divide principalmente en varias categorías:

Predicción de Popularidad de Mensaje: Predicción de la escala de propagación de mensajes
Predicción de Árbol de Difusión: Predicción de ruta de propagación y tiempo
Predicción de Compartición: Predicción del comportamiento de compartición de usuarios específicos

Limitaciones de Métodos Existentes

Dependencia de Características: Dependencia excesiva de características de texto de mensaje
Limitaciones de Evaluación: Falta de evaluación fuera de distribución
Utilización Insuficiente de Datos: Subestimación del valor de datos de perfil de usuario y comportamiento

Ventajas de Este Artículo

Realiza evaluación fuera de distribución sistemática por primera vez
Considera integralmente características relacionadas con usuarios
Proporciona escenarios de evaluación más realistas

Conclusiones y Discusión

Conclusiones Principales

Independencia del Contenido: El comportamiento de compartición está en gran medida desvinculado del contenido específico, siendo determinado principalmente por características de usuario
Capacidad de Generalización de Características de Usuario: El perfil de usuario y el comportamiento histórico poseen capacidad de generalización entre temas
Importancia del Paradigma de Evaluación: La evaluación fuera de distribución es más significativa para aplicaciones prácticas

Limitaciones

Limitaciones de Plataforma: La investigación se basa solo en datos de plataforma X
Ventana Temporal: Solo considera comportamiento de compartición dentro de 24 horas
Ingeniería de Características: La extracción de algunas características depende de herramientas y modelos específicos
Contexto Cultural: No considera diferencias de comportamiento en diferentes contextos culturales

Direcciones Futuras

Investigación Multiplataforma: Extensión a otras plataformas de redes sociales
Modelado Dinámico: Consideración de la evolución temporal del comportamiento de usuario
Inferencia Causal: Comprensión más profunda de la relación causal entre características de usuario y comportamiento de compartición
Aplicación en Tiempo Real: Desarrollo de sistemas de predicción en tiempo real

Evaluación Profunda

Fortalezas

Innovación en Formulación del Problema:
- Propone explícitamente por primera vez el problema de predicción de compartición fuera de distribución
- Más cercano a escenarios de aplicación práctica
Diseño Experimental Riguroso:
- Comparación de múltiples modelos para verificación
- Experimentos de ablación detallados
- Análisis de significancia estadística
Ingeniería de Características Integral:
- Construcción sistemática de 303 características
- Análisis multidimensional de importancia de características
Contribución Teórica Profunda:
- Perspectiva importante de "It is who we are, not what we see"
- Proporciona nueva perspectiva para comprender comportamiento en redes sociales

Insuficiencias

Representatividad de Datos:
- Utiliza solo 14 hashtags, posiblemente no suficientemente integral
- Lapso temporal relativamente corto, falta de observación a largo plazo
Interpretabilidad de Características:
- Los mecanismos psicológicos de algunas características de usuario no son suficientemente claros
- Falta análisis profundo de interacciones de características
Consideraciones de Practicidad:
- Obtener datos históricos completos de usuario puede ser difícil en aplicaciones prácticas
- Consideraciones insuficientes sobre protección de privacidad
Complejidad del Modelo:
- 303 características pueden contener redundancia
- Falta análisis de selección de características y reducción de dimensionalidad

Impacto

Contribución Académica:
- Proporciona nuevo paradigma de evaluación para investigación de propagación de información
- Desafía suposiciones de métodos existentes
Valor Práctico:
- Proporciona orientación para algoritmos de recomendación de plataformas de redes sociales
- Ofrece nuevas perspectivas para marketing digital y monitoreo de opinión pública
Reproducibilidad:
- Descripción detallada de configuración experimental y parámetros
- Metodología de ingeniería de características abierta

Escenarios de Aplicación

Plataformas de Redes Sociales: Recomendación de contenido y predicción de comportamiento de usuario
Marketing Digital: Identificación de usuarios objetivo y estrategia de contenido
Monitoreo de Opinión Pública: Predicción de propagación de temas candentes
Investigación Académica: Análisis de redes sociales y modelado de comportamiento

Referencias

El artículo cita 48 referencias relacionadas, abarcando:

Investigación de teoría de difusión de información
Aplicación de métodos de aprendizaje automático
Análisis de comportamiento en redes sociales
Tecnología de procesamiento de lenguaje natural

Las referencias clave incluyen trabajos clásicos de predicción de compartición, modelos de redes neuronales (como BERT, SUA-ACNN) e investigación fundamental en análisis de redes sociales.

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones significativas en formulación del problema, innovación de método y verificación experimental. Particularmente, la propuesta de predicción fuera de distribución y el descubrimiento de la importancia de características de usuario abren nuevas direcciones para la investigación de propagación de información en redes sociales. Aunque posee algunas limitaciones, su valor teórico y significado práctico son destacados, y se espera que tenga un impacto importante en campos relacionados.