2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati

Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.

academic

ProtoTopic: Red Prototípica para Modelado de Temas Médicos en Pocos Ejemplos

Información Básica

ID del Artículo: 2510.13542
Título: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
Autores: Martin Licht, Sara Ketabi, Farzad Khalvati
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 15 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.13542v1

Resumen

El modelado de temas es una herramienta útil para analizar grandes corpus de documentos, particularmente artículos académicos. Aunque existen múltiples técnicas de modelado de temas, estas presentan un desempeño deficiente cuando se aplican a textos médicos, posiblemente debido a la escasez de documentos disponibles para ciertos temas en el ámbito sanitario. Este artículo propone ProtoTopic, un modelo de temas basado en redes prototípicas para la generación de temas en resúmenes de artículos médicos. Las redes prototípicas son modelos eficientes e interpretables que realizan predicciones calculando distancias entre puntos de datos de entrada y un conjunto de representaciones prototípicas, siendo particularmente efectivas en escenarios de aprendizaje con pocos datos o pocos ejemplos. A través de ProtoTopic, los autores demuestran una coherencia temática y diversidad mejoradas en comparación con dos líneas base de modelado de temas de la literatura, probando la capacidad del modelo para generar temas relevantes médicamente incluso con datos limitados.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Las técnicas de modelado de temas existentes presentan un desempeño deficiente en textos médicos, especialmente en situaciones de escasez de datos
Importancia: El rápido crecimiento de la literatura médica requiere herramientas efectivas de modelado de temas para ayudar a investigadores y clínicos a filtrar y localizar información relevante rápidamente
Limitaciones de Métodos Existentes:
- Datos de entrenamiento insuficientes: Escasez de datos de entrenamiento de alta calidad en entornos clínicos
- Falta de interpretabilidad: La mayoría de modelos de última generación son modelos de caja negra
- Especificidad de la terminología médica: Los textos médicos presentan terminología específica y variaciones de formato

Motivación de la Investigación

Las aplicaciones de PNL en el ámbito sanitario enfrentan tres desafíos principales: escasez de datos, falta de interpretabilidad y especificidad de la terminología médica. Las redes prototípicas pueden aprender efectivamente en escenarios de pocos ejemplos mientras proporcionan interpretabilidad, lo que las convierte en una opción ideal para el modelado de temas médicos.

Contribuciones Principales

Primera aplicación de redes prototípicas a tareas de modelado de temas: Desarrollo de ProtoTopic, especializado específicamente en modelado de temas para resúmenes médicos
Evaluación de Desempeño Integral: Comparación exhaustiva con dos modelos de última generación (LDA y BERTopic)
Análisis de Múltiples Números de Temas: Investigación del impacto de diferentes números de temas (25, 50, 100) en el desempeño del modelo
Validación de Significancia Estadística: Demostración de ventajas significativas de ProtoTopic sobre las líneas base mediante prueba t

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de resúmenes de artículos médicos Salida: Resultados de agrupamiento temático y palabras clave representativas para cada tema Objetivo: Generar temas médicos de alta coherencia y diversidad en escenarios de pocos ejemplos

Arquitectura del Modelo

1. Generación de Incrustaciones de Texto

Se utilizan dos modelos Transformer para generar incrustaciones de texto:

PubMedBERT: Variante de BERT entrenada específicamente en artículos médicos, generando vectores de 768 dimensiones
all-MiniLM-L6-v2: Transformer de oraciones de propósito general, generando vectores de 384 dimensiones

2. Agrupamiento K-means

Agrupamiento K-means de vectores de incrustación para generar etiquetas pseudas:

Asignación de documentos a K agrupamientos
Centros de agrupamiento como etiquetas pseudas para entrenar la red prototípica

3. Entrenamiento de Red Prototípica

Algoritmo central basado en la red prototípica de Snell et al.:

Cálculo de Prototipos: $c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)$

donde $S_k$ es el conjunto de soporte de la clase k, y $f_\phi$ es la función de incrustación.

Probabilidad de Clasificación: $p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}$

Función de Pérdida: $J(\phi) = -\log p_\phi(y=k|x)$

4. Extracción de Palabras Clave

Utilización de TF-IDF basado en clases (c-TF-IDF) para extraer palabras clave representativas de cada tema, método que redefine la frecuencia de palabras como el porcentaje de aparición de la palabra en todos los grupos, en lugar de la proporción del grupo en el que aparece la palabra.

Puntos de Innovación Técnica

Capacidad de Aprendizaje con Pocos Ejemplos: Implementación de aprendizaje de representaciones temáticas efectivas con solo pocos ejemplos mediante redes prototípicas
Interpretabilidad: Provisión de explicaciones mediante la presentación de casos prototípicos más similares
Adaptabilidad al Dominio: Combinación de incrustaciones especializadas en medicina (PubMedBERT) e incrustaciones de propósito general para comparación
Entrenamiento Episódico: Cada episodio contiene 5 clases, con 5 muestras de soporte y 5 puntos de consulta por clase

Configuración Experimental

Conjunto de Datos

Conjunto de Datos: PubMed200k RCT
Escala: 200,000 resúmenes de ensayos controlados aleatorios, 2.3 millones de oraciones
Preprocesamiento:
- Eliminación de caracteres no alfabéticos
- Conversión a minúsculas
- Tokenización de texto
- Eliminación de palabras de alta frecuencia (como "the", "and", "of", etc.)

Métricas de Evaluación

Coherencia Temática (Topic Coherence): Utilización de la métrica CV, analizando la coocurrencia de palabras clave temáticas en el corpus
Diversidad Temática (Topic Diversity): Extracción de las 25 palabras clave principales de cada tema, cálculo del porcentaje de palabras únicas entre todas las palabras clave temáticas

Métodos de Comparación

LDA (Latent Dirichlet Allocation): Modelo temático probabilístico clásico
BERTopic: Modelo temático neuronal basado en incrustaciones BERT

Detalles de Implementación

Optimizador: ADAM, tasa de aprendizaje 0.00005
Configuración de Entrenamiento: 50 episodios/época, total de 10 épocas
Hardware: GPU T4 de Google Colab (15GB RAM)
Congelación de Parámetros: Congelación de todos los Transformers preentrenados excepto las últimas dos capas

Resultados Experimentales

Resultados Principales

Resultados Cuantitativos

25 Temas:

Modelo	Puntuación de Coherencia	Diversidad Temática
LDA	0.4910	40.8%
BERTopic	0.5137	49.6%
ProtoTopic (all-MiniLM)	0.5396	84.5%
ProtoTopic (PubMedBERT)	0.5754	86.1%

50 Temas:

Modelo	Puntuación de Coherencia	Diversidad Temática
LDA	0.5017	43.8%
BERTopic	0.5394	54.5%
ProtoTopic (all-MiniLM)	0.6789	73.5%
ProtoTopic (PubMedBERT)	0.6734	75.9%

100 Temas:

Modelo	Puntuación de Coherencia	Diversidad Temática
LDA	0.5090	55.6%
BERTopic	0.6173	58.0%
ProtoTopic (all-MiniLM)	0.7173	58.6%
ProtoTopic (PubMedBERT)	0.7117	61.2%

Significancia Estadística

Demostración mediante prueba t (p < 0.00001) de que ProtoTopic es significativamente superior a BERTopic en métricas de coherencia y diversidad.

Análisis de Resultados Cualitativos

Comparación de Especificidad Temática

BERTopic: Generación de palabras clave demasiado genéricas (como "patients", "median", "overall"), carentes de poder discriminativo
ProtoTopic: Generación de palabras clave altamente específicas, evitando vocabulario genérico, como terminología específica para lesiones de miembros inferiores

Análisis de Tendencias

Tendencia de Coherencia: La coherencia temática de todos los modelos mejora con el aumento del número de temas
Tendencia de Diversidad:
- Modelos de línea base: La diversidad mejora con el aumento del número de temas
- ProtoTopic: La diversidad disminuye con el aumento del número de temas (de 86.1% a 61.2%)

Trabajo Relacionado

Evolución del Modelado de Temas

Modelos Probabilísticos: LDA utiliza la suposición de bolsa de palabras, ignorando el orden de palabras
Modelos Neurales:
- LDA2VEC: Combinación de incrustaciones Word2Vec
- ETM: Utilización de incrustaciones CBOW
- BERTopic: Basado en incrustaciones BERT

Aprendizaje con Pocos Ejemplos

Métodos de Optimización: Algoritmos de metaaprendizaje como MAML
Métodos de Métrica:
- Redes Siamesas
- Redes de Coincidencia
- Redes de Relación
- Redes Prototípicas

Aplicaciones de Redes Prototípicas

Visión por Computadora: Tareas de clasificación de imágenes
Dominio de PNL: ProSeNet, ProtoryNet, ProtoSeq y otras aplicaciones de clasificación de texto

Conclusiones y Discusión

Conclusiones Principales

ProtoTopic supera a los modelos de línea base en todas las métricas de evaluación
Incluso con incrustaciones de propósito general (all-MiniLM-L6-v2) se logra un desempeño excelente
El modelo puede generar temas relevantes médicamente e interpretables

Limitaciones

Función de Pérdida: Utilización únicamente de la pérdida básica de red prototípica, sin considerar la compacidad de agrupamientos y la distancia entre prototipos
Algoritmo de Agrupamiento: Utilización únicamente de K-means, sin exploración de otros métodos como HDBSCAN
Reducción de Dimensionalidad: No se explora el efecto de la reducción de dimensionalidad en incrustaciones de alta dimensión
Evaluación de Usuarios: Falta de evaluación subjetiva por parte de médicos clínicos

Direcciones Futuras

Mejora del diseño de funciones de pérdida
Exploración de diferentes técnicas de agrupamiento
Investigación del impacto de la reducción de dimensionalidad
Realización de estudios con usuarios clínicos

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera aplicación de redes prototípicas a tareas de modelado de temas
Experimentación Exhaustiva: Comparación integral con múltiples modelos de incrustación y varios números de temas
Rigor Estadístico: Provisión de pruebas de significancia estadística
Alto Valor Práctico: Solución del problema de escasez de datos en el dominio médico
Buena Interpretabilidad: Las redes prototípicas proporcionan mecanismos de explicación intuitivos

Deficiencias

Conjunto de Datos Único: Validación únicamente en el conjunto de datos PubMed200k
Dimensiones de Evaluación Limitadas: Falta de evaluación humana y evaluación en tareas posteriores
Complejidad Computacional No Analizada: Ausencia de comparación de eficiencia computacional con líneas base
Sensibilidad de Hiperparámetros: Análisis insuficiente del impacto de hiperparámetros clave

Impacto

Contribución Académica: Provisión de un nuevo paradigma de modelado de temas para el campo de PNL médica
Valor Práctico: Aplicabilidad en análisis de literatura médica y apoyo a la toma de decisiones clínicas
Reproducibilidad: Utilización de conjuntos de datos públicos, configuración experimental detallada

Escenarios de Aplicación

Análisis de Literatura Médica: Ayuda a investigadores en la comprensión rápida de grandes volúmenes de artículos médicos
Descubrimiento de Conocimiento Clínico: Descubrimiento de patrones de enfermedades a partir de pocos casos
Extensión Interdisciplinaria: Generalización a otros dominios especializados con escasez de datos

Referencias Bibliográficas

Este artículo cita 45 referencias relacionadas, abarcando modelado de temas, aprendizaje con pocos ejemplos, redes prototípicas y otros campos clave, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen:

Snell et al. (2017): Prototypical Networks for Few-Shot Learning
Grootendorst (2022): BERTopic neural topic modeling
Blei et al. (2003): Latent Dirichlet Allocation

Evaluación General: Este artículo propone un método innovador y práctico de modelado de temas médicos con valor significativo en la solución del problema de escasez de datos. El diseño experimental es razonable, los resultados son convincentes y realiza contribuciones significativas al campo de la PNL médica.