There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
- ID del Artículo: 2505.15370
- Título: Modelling the Spread of New Information on Social Networks
- Autores: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
- Clasificación: cs.SI (Redes Sociales e Información)
- Fecha de Publicación: 14 de octubre de 2025 (arXiv v3)
- Enlace del Artículo: https://arxiv.org/abs/2505.15370v3
Este artículo investiga el problema de predicción de la propagación de nueva información en redes sociales, es decir, predecir si los usuarios compartirán información sobre temas previamente desconocidos. La investigación existente típicamente asigna aleatoriamente información y usuarios a conjuntos de entrenamiento y prueba, asegurando que ambos conjuntos provengan de la misma distribución. Sin embargo, el problema de propagación de nueva información es esencialmente una tarea de clasificación de generalización fuera de distribución. Los resultados experimentales muestran que cuando las distribuciones de entrenamiento y prueba son idénticas, los algoritmos existentes que utilizan principalmente características de contenido de mensajes funcionan bien, pero su rendimiento disminuye significativamente cuando el conjunto de prueba está fuera de distribución (es decir, los temas en los datos de prueba no existen en los datos de entrenamiento). El estudio descubre que al complementar o reemplazar características de mensajes con características de perfil de usuario y comportamiento histórico, el rendimiento de predicción fuera de distribución mejora significativamente, con la puntuación F1 aumentando de 0.117 a 0.705. Los resultados indican que el comportamiento de compartir sobre temas desconocidos puede predecirse en gran medida mediante el perfil de usuario y el comportamiento histórico, siendo esencialmente independiente del contenido.
El problema central que aborda este artículo es la predicción de propagación de nueva información, es decir, predecir si los usuarios compartirán información sobre temas previamente desconocidos. Este es un problema típico de generalización fuera de distribución, ya que los temas en los datos de prueba no existen completamente en los datos de entrenamiento.
- Importancia Interdisciplinaria: La predicción de propagación de información tiene importancia significativa en múltiples disciplinas incluyendo ciencias de la computación, ciencias sociales, ciencia política y marketing
- Valor de Aplicación Práctica: Posee valor de aplicación importante en escenarios como campañas de marketing, propaganda política, información falsa y propagación de rumores
- Significado Teórico: Contribuye a la comprensión de los mecanismos intrínsecos de difusión de información en redes sociales
- Dependencia Excesiva del Contenido del Mensaje: Los algoritmos existentes utilizan principalmente características extraídas del contenido de texto del mensaje
- Falta de Evaluación Fuera de Distribución: La investigación existente típicamente adopta métodos de división aleatoria de conjuntos de datos, asegurando que los datos de entrenamiento y prueba provengan de la misma distribución
- Subestimación de Datos Relacionados con Usuarios: Información importante como perfiles de usuario, listas de seguimiento y comportamiento histórico es subestimada
Los nuevos temas (como noticias de última hora) aparecen frecuentemente en plataformas de redes sociales, por lo que además de la clasificación tradicional con la misma distribución, se requiere capacidad de predicción fuera de distribución, que es más desafiante y valiosa en aplicaciones prácticas.
- Propuesta de un Nuevo Paradigma de Evaluación: Distingue explícitamente por primera vez entre predicción con la misma distribución y predicción fuera de distribución, proporcionando un marco de evaluación más completo para la investigación de predicción de compartición
- Construcción de un Sistema Integral de Características: Identifica y construye 303 características, incluyendo 78 características relacionadas con mensajes y 225 características relacionadas con usuarios
- Revelación de la Importancia de Características de Usuario: Los experimentos demuestran que las características relacionadas con usuarios son cruciales para la predicción fuera de distribución, con la puntuación F1 aumentando de 0.117 a 0.705
- Proporciona Perspectivas Teóricas Importantes: Descubre que el comportamiento de compartición está en gran medida desvinculado del contenido, siendo determinado principalmente por características de usuario ("It is who we are, not what we see")
La predicción de compartición se define como predecir si un receptor compartirá un mensaje recibido de un remitente:
f:{M,US,UR}→y∈{0,1}
Donde:
- M: Mensaje
- US: Remitente
- UR: Receptor
- y=1: El receptor compartirá el mensaje, y=0: No lo compartirá
Contiene contenido de texto de 111,401 mensajes de X (Twitter), extrayendo 78 características relacionadas con mensajes:
- Características de Tema (39): Identificación de temas de mensajes utilizando modelos Twitter-roBERTa y LDA
- Características Lingüísticas (10): Corrección gramatical, polaridad, subjetividad, etc.
- Características de Legibilidad (11): Índice de lectura Flesch, índice SMOG, etc.
- Características de Sentimiento (5): Puntuaciones de sentimiento positivo, negativo y neutral
- Características de Emoción (8): Probabilidades de ira, alegría, miedo, etc.
- Características de Discurso de Odio (4): Medidas de agresividad y odio
- Características de Etiqueta (1): Presencia de hashtags específicos
Contiene tres categorías de datos relacionados con usuarios:
Datos de Perfil de Usuario Data(U-P):
- Perfil de usuario y listas de seguimiento
- Extrae 30 características: número de seguidores, medidas de influencia, relaciones de red, etc.
Datos de Comportamiento Histórico de Usuario Data(U-HA):
- Metadatos de los últimos 50 mensajes históricos
- Extrae 38 características: tasa de compartición, patrones de interacción, interacciones entre usuarios, etc.
Datos de Mensajes Históricos de Usuario Data(U-HM):
- Contenido de texto de los últimos 50 mensajes históricos
- Extrae 157 características: características agregadas de mensajes históricos, similitud de temas, etc.
Utiliza XGBoost de árbol de decisión, descubriendo el papel clave de características de usuario a través del análisis de importancia de características. Hiperparámetros principales:
- Profundidad máxima: 8
- Tasa de aprendizaje: 0.3
- Número de estimadores: 100
Basado en la extensión del modelo SUA-ACNN, añadiendo componente MLP para procesar datos de usuario:
- NN-M: Utiliza solo datos de mensaje
- NN-U: Utiliza solo datos de usuario
- NN-ALL: Utiliza todos los tipos de datos
Utiliza BERT-base para procesar texto de mensaje, generando incrustaciones semánticas para predicción.
- Diseño de Evaluación Fuera de Distribución: Para cada hashtag, utiliza datos de otros 13 hashtags para entrenamiento, probando en ese hashtag
- Estrategia de Generación de Muestras Negativas: Para cada muestra positiva, selecciona la muestra negativa más similar, asegurando relevancia de la evaluación
- Sistema de Características Multinivel: Extrae sistemáticamente características de múltiples dimensiones incluyendo mensajes, perfil de usuario y comportamiento histórico
- Fuente de Datos: API académica de plataforma X (anterior Twitter)
- Rango Temporal: 27 de julio a 14 de agosto de 2022
- Escala de Datos:
- 111,401 mensajes
- 44,014 eventos de compartición (muestras positivas)
- 79,707 usuarios únicos
- 3.8 millones de mensajes históricos
- Cobertura de Temas: 14 hashtags populares
Crea tres conjuntos de datos con diferentes proporciones de muestras positivas y negativas:
- Conjunto de Datos 1:1: Una muestra negativa más similar para cada muestra positiva
- Conjunto de Datos 1:5: Cinco muestras negativas más similares para cada muestra positiva
- Conjunto de Datos 1:10: Cinco muestras negativas similares + cinco muestras negativas aleatorias para cada muestra positiva
Utiliza principalmente la puntuación F1:
F1=TP+21(FP+FN)TP
Para resultados de múltiples hashtags, calcula la media general y desviación estándar.
Realiza tres tipos de experimentos:
- Experimento I: Predicción con la misma distribución de hashtags mezclados
- Experimento II: Predicción con la misma distribución de hashtag único
- Experimento III: Predicción fuera de distribución
Puntuaciones F1 en el conjunto de datos 1:5:
| Modelo | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| Puntuación F1 | 0.884±0.002 | 0.852±0.005 | 0.758±0.002 | 0.844±0.009 | 0.835±0.004 | 0.740±0.003 | 0.740±0.010 |
Puntuación F1 General (μ̄±σ̄):
| Modelo | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| Puntuación F1 | 0.697±0.076 | 0.705±0.084 | 0.117±0.131 | 0.623±0.109 | 0.702±0.071 | 0.108±0.055 | 0.091±0.101 |
- Papel Crítico de Características de Usuario:
- Los modelos que utilizan solo características de mensaje muestran una disminución drástica de rendimiento en predicción fuera de distribución
- Los modelos que utilizan solo características de usuario funcionan de manera comparable a los modelos que utilizan todas las características
- Análisis de Importancia de Características:
- Entre las 20 características más importantes, 17 son características relacionadas con usuarios
- La característica más importante es "si el receptor sigue al remitente" (U-P_R_FollowS)
- Mejora de Rendimiento Significativa:
- La puntuación F1 de predicción fuera de distribución aumenta de 0.117 a 0.705 (mejora del 502%)
- Demuestra la importancia de características de usuario para predicción de nuevos temas
A través de experimentos comparativos de diferentes combinaciones de características, descubre:
- Características U-P y U-HA: Contribuyen más a la predicción fuera de distribución
- Características U-HM: Rendimiento similar a características de mensaje, rendimiento limitado fuera de distribución
- Características de Mensaje: Prácticamente inefectivas en configuración fuera de distribución
La investigación existente se divide principalmente en varias categorías:
- Predicción de Popularidad de Mensaje: Predicción de la escala de propagación de mensajes
- Predicción de Árbol de Difusión: Predicción de ruta de propagación y tiempo
- Predicción de Compartición: Predicción del comportamiento de compartición de usuarios específicos
- Dependencia de Características: Dependencia excesiva de características de texto de mensaje
- Limitaciones de Evaluación: Falta de evaluación fuera de distribución
- Utilización Insuficiente de Datos: Subestimación del valor de datos de perfil de usuario y comportamiento
- Realiza evaluación fuera de distribución sistemática por primera vez
- Considera integralmente características relacionadas con usuarios
- Proporciona escenarios de evaluación más realistas
- Independencia del Contenido: El comportamiento de compartición está en gran medida desvinculado del contenido específico, siendo determinado principalmente por características de usuario
- Capacidad de Generalización de Características de Usuario: El perfil de usuario y el comportamiento histórico poseen capacidad de generalización entre temas
- Importancia del Paradigma de Evaluación: La evaluación fuera de distribución es más significativa para aplicaciones prácticas
- Limitaciones de Plataforma: La investigación se basa solo en datos de plataforma X
- Ventana Temporal: Solo considera comportamiento de compartición dentro de 24 horas
- Ingeniería de Características: La extracción de algunas características depende de herramientas y modelos específicos
- Contexto Cultural: No considera diferencias de comportamiento en diferentes contextos culturales
- Investigación Multiplataforma: Extensión a otras plataformas de redes sociales
- Modelado Dinámico: Consideración de la evolución temporal del comportamiento de usuario
- Inferencia Causal: Comprensión más profunda de la relación causal entre características de usuario y comportamiento de compartición
- Aplicación en Tiempo Real: Desarrollo de sistemas de predicción en tiempo real
- Innovación en Formulación del Problema:
- Propone explícitamente por primera vez el problema de predicción de compartición fuera de distribución
- Más cercano a escenarios de aplicación práctica
- Diseño Experimental Riguroso:
- Comparación de múltiples modelos para verificación
- Experimentos de ablación detallados
- Análisis de significancia estadística
- Ingeniería de Características Integral:
- Construcción sistemática de 303 características
- Análisis multidimensional de importancia de características
- Contribución Teórica Profunda:
- Perspectiva importante de "It is who we are, not what we see"
- Proporciona nueva perspectiva para comprender comportamiento en redes sociales
- Representatividad de Datos:
- Utiliza solo 14 hashtags, posiblemente no suficientemente integral
- Lapso temporal relativamente corto, falta de observación a largo plazo
- Interpretabilidad de Características:
- Los mecanismos psicológicos de algunas características de usuario no son suficientemente claros
- Falta análisis profundo de interacciones de características
- Consideraciones de Practicidad:
- Obtener datos históricos completos de usuario puede ser difícil en aplicaciones prácticas
- Consideraciones insuficientes sobre protección de privacidad
- Complejidad del Modelo:
- 303 características pueden contener redundancia
- Falta análisis de selección de características y reducción de dimensionalidad
- Contribución Académica:
- Proporciona nuevo paradigma de evaluación para investigación de propagación de información
- Desafía suposiciones de métodos existentes
- Valor Práctico:
- Proporciona orientación para algoritmos de recomendación de plataformas de redes sociales
- Ofrece nuevas perspectivas para marketing digital y monitoreo de opinión pública
- Reproducibilidad:
- Descripción detallada de configuración experimental y parámetros
- Metodología de ingeniería de características abierta
- Plataformas de Redes Sociales: Recomendación de contenido y predicción de comportamiento de usuario
- Marketing Digital: Identificación de usuarios objetivo y estrategia de contenido
- Monitoreo de Opinión Pública: Predicción de propagación de temas candentes
- Investigación Académica: Análisis de redes sociales y modelado de comportamiento
El artículo cita 48 referencias relacionadas, abarcando:
- Investigación de teoría de difusión de información
- Aplicación de métodos de aprendizaje automático
- Análisis de comportamiento en redes sociales
- Tecnología de procesamiento de lenguaje natural
Las referencias clave incluyen trabajos clásicos de predicción de compartición, modelos de redes neuronales (como BERT, SUA-ACNN) e investigación fundamental en análisis de redes sociales.
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones significativas en formulación del problema, innovación de método y verificación experimental. Particularmente, la propuesta de predicción fuera de distribución y el descubrimiento de la importancia de características de usuario abren nuevas direcciones para la investigación de propagación de información en redes sociales. Aunque posee algunas limitaciones, su valor teórico y significado práctico son destacados, y se espera que tenga un impacto importante en campos relacionados.