Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
- ID del Artículo: 2510.13542
- Título: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
- Autores: Martin Licht, Sara Ketabi, Farzad Khalvati
- Clasificación: cs.LG (Aprendizaje Automático)
- Fecha de Publicación: 15 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.13542v1
El modelado de temas es una herramienta útil para analizar grandes corpus de documentos, particularmente artículos académicos. Aunque existen múltiples técnicas de modelado de temas, estas presentan un desempeño deficiente cuando se aplican a textos médicos, posiblemente debido a la escasez de documentos disponibles para ciertos temas en el ámbito sanitario. Este artículo propone ProtoTopic, un modelo de temas basado en redes prototípicas para la generación de temas en resúmenes de artículos médicos. Las redes prototípicas son modelos eficientes e interpretables que realizan predicciones calculando distancias entre puntos de datos de entrada y un conjunto de representaciones prototípicas, siendo particularmente efectivas en escenarios de aprendizaje con pocos datos o pocos ejemplos. A través de ProtoTopic, los autores demuestran una coherencia temática y diversidad mejoradas en comparación con dos líneas base de modelado de temas de la literatura, probando la capacidad del modelo para generar temas relevantes médicamente incluso con datos limitados.
- Problema Central: Las técnicas de modelado de temas existentes presentan un desempeño deficiente en textos médicos, especialmente en situaciones de escasez de datos
- Importancia: El rápido crecimiento de la literatura médica requiere herramientas efectivas de modelado de temas para ayudar a investigadores y clínicos a filtrar y localizar información relevante rápidamente
- Limitaciones de Métodos Existentes:
- Datos de entrenamiento insuficientes: Escasez de datos de entrenamiento de alta calidad en entornos clínicos
- Falta de interpretabilidad: La mayoría de modelos de última generación son modelos de caja negra
- Especificidad de la terminología médica: Los textos médicos presentan terminología específica y variaciones de formato
Las aplicaciones de PNL en el ámbito sanitario enfrentan tres desafíos principales: escasez de datos, falta de interpretabilidad y especificidad de la terminología médica. Las redes prototípicas pueden aprender efectivamente en escenarios de pocos ejemplos mientras proporcionan interpretabilidad, lo que las convierte en una opción ideal para el modelado de temas médicos.
- Primera aplicación de redes prototípicas a tareas de modelado de temas: Desarrollo de ProtoTopic, especializado específicamente en modelado de temas para resúmenes médicos
- Evaluación de Desempeño Integral: Comparación exhaustiva con dos modelos de última generación (LDA y BERTopic)
- Análisis de Múltiples Números de Temas: Investigación del impacto de diferentes números de temas (25, 50, 100) en el desempeño del modelo
- Validación de Significancia Estadística: Demostración de ventajas significativas de ProtoTopic sobre las líneas base mediante prueba t
Entrada: Conjunto de resúmenes de artículos médicos
Salida: Resultados de agrupamiento temático y palabras clave representativas para cada tema
Objetivo: Generar temas médicos de alta coherencia y diversidad en escenarios de pocos ejemplos
Se utilizan dos modelos Transformer para generar incrustaciones de texto:
- PubMedBERT: Variante de BERT entrenada específicamente en artículos médicos, generando vectores de 768 dimensiones
- all-MiniLM-L6-v2: Transformer de oraciones de propósito general, generando vectores de 384 dimensiones
Agrupamiento K-means de vectores de incrustación para generar etiquetas pseudas:
- Asignación de documentos a K agrupamientos
- Centros de agrupamiento como etiquetas pseudas para entrenar la red prototípica
Algoritmo central basado en la red prototípica de Snell et al.:
Cálculo de Prototipos:
ck=∣Sk∣1∑(xi,yi)∈Skfϕ(xi)
donde Sk es el conjunto de soporte de la clase k, y fϕ es la función de incrustación.
Probabilidad de Clasificación:
pϕ(y=k∣x)=∑k′exp(−d(fϕ(x),ck′))exp(−d(fϕ(x),ck))
Función de Pérdida:
J(ϕ)=−logpϕ(y=k∣x)
Utilización de TF-IDF basado en clases (c-TF-IDF) para extraer palabras clave representativas de cada tema, método que redefine la frecuencia de palabras como el porcentaje de aparición de la palabra en todos los grupos, en lugar de la proporción del grupo en el que aparece la palabra.
- Capacidad de Aprendizaje con Pocos Ejemplos: Implementación de aprendizaje de representaciones temáticas efectivas con solo pocos ejemplos mediante redes prototípicas
- Interpretabilidad: Provisión de explicaciones mediante la presentación de casos prototípicos más similares
- Adaptabilidad al Dominio: Combinación de incrustaciones especializadas en medicina (PubMedBERT) e incrustaciones de propósito general para comparación
- Entrenamiento Episódico: Cada episodio contiene 5 clases, con 5 muestras de soporte y 5 puntos de consulta por clase
- Conjunto de Datos: PubMed200k RCT
- Escala: 200,000 resúmenes de ensayos controlados aleatorios, 2.3 millones de oraciones
- Preprocesamiento:
- Eliminación de caracteres no alfabéticos
- Conversión a minúsculas
- Tokenización de texto
- Eliminación de palabras de alta frecuencia (como "the", "and", "of", etc.)
- Coherencia Temática (Topic Coherence): Utilización de la métrica CV, analizando la coocurrencia de palabras clave temáticas en el corpus
- Diversidad Temática (Topic Diversity): Extracción de las 25 palabras clave principales de cada tema, cálculo del porcentaje de palabras únicas entre todas las palabras clave temáticas
- LDA (Latent Dirichlet Allocation): Modelo temático probabilístico clásico
- BERTopic: Modelo temático neuronal basado en incrustaciones BERT
- Optimizador: ADAM, tasa de aprendizaje 0.00005
- Configuración de Entrenamiento: 50 episodios/época, total de 10 épocas
- Hardware: GPU T4 de Google Colab (15GB RAM)
- Congelación de Parámetros: Congelación de todos los Transformers preentrenados excepto las últimas dos capas
25 Temas:
| Modelo | Puntuación de Coherencia | Diversidad Temática |
|---|
| LDA | 0.4910 | 40.8% |
| BERTopic | 0.5137 | 49.6% |
| ProtoTopic (all-MiniLM) | 0.5396 | 84.5% |
| ProtoTopic (PubMedBERT) | 0.5754 | 86.1% |
50 Temas:
| Modelo | Puntuación de Coherencia | Diversidad Temática |
|---|
| LDA | 0.5017 | 43.8% |
| BERTopic | 0.5394 | 54.5% |
| ProtoTopic (all-MiniLM) | 0.6789 | 73.5% |
| ProtoTopic (PubMedBERT) | 0.6734 | 75.9% |
100 Temas:
| Modelo | Puntuación de Coherencia | Diversidad Temática |
|---|
| LDA | 0.5090 | 55.6% |
| BERTopic | 0.6173 | 58.0% |
| ProtoTopic (all-MiniLM) | 0.7173 | 58.6% |
| ProtoTopic (PubMedBERT) | 0.7117 | 61.2% |
Demostración mediante prueba t (p < 0.00001) de que ProtoTopic es significativamente superior a BERTopic en métricas de coherencia y diversidad.
- BERTopic: Generación de palabras clave demasiado genéricas (como "patients", "median", "overall"), carentes de poder discriminativo
- ProtoTopic: Generación de palabras clave altamente específicas, evitando vocabulario genérico, como terminología específica para lesiones de miembros inferiores
- Tendencia de Coherencia: La coherencia temática de todos los modelos mejora con el aumento del número de temas
- Tendencia de Diversidad:
- Modelos de línea base: La diversidad mejora con el aumento del número de temas
- ProtoTopic: La diversidad disminuye con el aumento del número de temas (de 86.1% a 61.2%)
- Modelos Probabilísticos: LDA utiliza la suposición de bolsa de palabras, ignorando el orden de palabras
- Modelos Neurales:
- LDA2VEC: Combinación de incrustaciones Word2Vec
- ETM: Utilización de incrustaciones CBOW
- BERTopic: Basado en incrustaciones BERT
- Métodos de Optimización: Algoritmos de metaaprendizaje como MAML
- Métodos de Métrica:
- Redes Siamesas
- Redes de Coincidencia
- Redes de Relación
- Redes Prototípicas
- Visión por Computadora: Tareas de clasificación de imágenes
- Dominio de PNL: ProSeNet, ProtoryNet, ProtoSeq y otras aplicaciones de clasificación de texto
- ProtoTopic supera a los modelos de línea base en todas las métricas de evaluación
- Incluso con incrustaciones de propósito general (all-MiniLM-L6-v2) se logra un desempeño excelente
- El modelo puede generar temas relevantes médicamente e interpretables
- Función de Pérdida: Utilización únicamente de la pérdida básica de red prototípica, sin considerar la compacidad de agrupamientos y la distancia entre prototipos
- Algoritmo de Agrupamiento: Utilización únicamente de K-means, sin exploración de otros métodos como HDBSCAN
- Reducción de Dimensionalidad: No se explora el efecto de la reducción de dimensionalidad en incrustaciones de alta dimensión
- Evaluación de Usuarios: Falta de evaluación subjetiva por parte de médicos clínicos
- Mejora del diseño de funciones de pérdida
- Exploración de diferentes técnicas de agrupamiento
- Investigación del impacto de la reducción de dimensionalidad
- Realización de estudios con usuarios clínicos
- Fuerte Innovación: Primera aplicación de redes prototípicas a tareas de modelado de temas
- Experimentación Exhaustiva: Comparación integral con múltiples modelos de incrustación y varios números de temas
- Rigor Estadístico: Provisión de pruebas de significancia estadística
- Alto Valor Práctico: Solución del problema de escasez de datos en el dominio médico
- Buena Interpretabilidad: Las redes prototípicas proporcionan mecanismos de explicación intuitivos
- Conjunto de Datos Único: Validación únicamente en el conjunto de datos PubMed200k
- Dimensiones de Evaluación Limitadas: Falta de evaluación humana y evaluación en tareas posteriores
- Complejidad Computacional No Analizada: Ausencia de comparación de eficiencia computacional con líneas base
- Sensibilidad de Hiperparámetros: Análisis insuficiente del impacto de hiperparámetros clave
- Contribución Académica: Provisión de un nuevo paradigma de modelado de temas para el campo de PNL médica
- Valor Práctico: Aplicabilidad en análisis de literatura médica y apoyo a la toma de decisiones clínicas
- Reproducibilidad: Utilización de conjuntos de datos públicos, configuración experimental detallada
- Análisis de Literatura Médica: Ayuda a investigadores en la comprensión rápida de grandes volúmenes de artículos médicos
- Descubrimiento de Conocimiento Clínico: Descubrimiento de patrones de enfermedades a partir de pocos casos
- Extensión Interdisciplinaria: Generalización a otros dominios especializados con escasez de datos
Este artículo cita 45 referencias relacionadas, abarcando modelado de temas, aprendizaje con pocos ejemplos, redes prototípicas y otros campos clave, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen:
- Snell et al. (2017): Prototypical Networks for Few-Shot Learning
- Grootendorst (2022): BERTopic neural topic modeling
- Blei et al. (2003): Latent Dirichlet Allocation
Evaluación General: Este artículo propone un método innovador y práctico de modelado de temas médicos con valor significativo en la solución del problema de escasez de datos. El diseño experimental es razonable, los resultados son convincentes y realiza contribuciones significativas al campo de la PNL médica.