2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati
Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
academic

ProtoTopic: Red Prototípica para Modelado de Temas Médicos en Pocos Ejemplos

Información Básica

  • ID del Artículo: 2510.13542
  • Título: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
  • Autores: Martin Licht, Sara Ketabi, Farzad Khalvati
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 15 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.13542v1

Resumen

El modelado de temas es una herramienta útil para analizar grandes corpus de documentos, particularmente artículos académicos. Aunque existen múltiples técnicas de modelado de temas, estas presentan un desempeño deficiente cuando se aplican a textos médicos, posiblemente debido a la escasez de documentos disponibles para ciertos temas en el ámbito sanitario. Este artículo propone ProtoTopic, un modelo de temas basado en redes prototípicas para la generación de temas en resúmenes de artículos médicos. Las redes prototípicas son modelos eficientes e interpretables que realizan predicciones calculando distancias entre puntos de datos de entrada y un conjunto de representaciones prototípicas, siendo particularmente efectivas en escenarios de aprendizaje con pocos datos o pocos ejemplos. A través de ProtoTopic, los autores demuestran una coherencia temática y diversidad mejoradas en comparación con dos líneas base de modelado de temas de la literatura, probando la capacidad del modelo para generar temas relevantes médicamente incluso con datos limitados.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Las técnicas de modelado de temas existentes presentan un desempeño deficiente en textos médicos, especialmente en situaciones de escasez de datos
  2. Importancia: El rápido crecimiento de la literatura médica requiere herramientas efectivas de modelado de temas para ayudar a investigadores y clínicos a filtrar y localizar información relevante rápidamente
  3. Limitaciones de Métodos Existentes:
    • Datos de entrenamiento insuficientes: Escasez de datos de entrenamiento de alta calidad en entornos clínicos
    • Falta de interpretabilidad: La mayoría de modelos de última generación son modelos de caja negra
    • Especificidad de la terminología médica: Los textos médicos presentan terminología específica y variaciones de formato

Motivación de la Investigación

Las aplicaciones de PNL en el ámbito sanitario enfrentan tres desafíos principales: escasez de datos, falta de interpretabilidad y especificidad de la terminología médica. Las redes prototípicas pueden aprender efectivamente en escenarios de pocos ejemplos mientras proporcionan interpretabilidad, lo que las convierte en una opción ideal para el modelado de temas médicos.

Contribuciones Principales

  1. Primera aplicación de redes prototípicas a tareas de modelado de temas: Desarrollo de ProtoTopic, especializado específicamente en modelado de temas para resúmenes médicos
  2. Evaluación de Desempeño Integral: Comparación exhaustiva con dos modelos de última generación (LDA y BERTopic)
  3. Análisis de Múltiples Números de Temas: Investigación del impacto de diferentes números de temas (25, 50, 100) en el desempeño del modelo
  4. Validación de Significancia Estadística: Demostración de ventajas significativas de ProtoTopic sobre las líneas base mediante prueba t

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de resúmenes de artículos médicos Salida: Resultados de agrupamiento temático y palabras clave representativas para cada tema Objetivo: Generar temas médicos de alta coherencia y diversidad en escenarios de pocos ejemplos

Arquitectura del Modelo

1. Generación de Incrustaciones de Texto

Se utilizan dos modelos Transformer para generar incrustaciones de texto:

  • PubMedBERT: Variante de BERT entrenada específicamente en artículos médicos, generando vectores de 768 dimensiones
  • all-MiniLM-L6-v2: Transformer de oraciones de propósito general, generando vectores de 384 dimensiones

2. Agrupamiento K-means

Agrupamiento K-means de vectores de incrustación para generar etiquetas pseudas:

  • Asignación de documentos a K agrupamientos
  • Centros de agrupamiento como etiquetas pseudas para entrenar la red prototípica

3. Entrenamiento de Red Prototípica

Algoritmo central basado en la red prototípica de Snell et al.:

Cálculo de Prototipos: ck=1Sk(xi,yi)Skfϕ(xi)c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)

donde SkS_k es el conjunto de soporte de la clase k, y fϕf_\phi es la función de incrustación.

Probabilidad de Clasificación: pϕ(y=kx)=exp(d(fϕ(x),ck))kexp(d(fϕ(x),ck))p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}

Función de Pérdida: J(ϕ)=logpϕ(y=kx)J(\phi) = -\log p_\phi(y=k|x)

4. Extracción de Palabras Clave

Utilización de TF-IDF basado en clases (c-TF-IDF) para extraer palabras clave representativas de cada tema, método que redefine la frecuencia de palabras como el porcentaje de aparición de la palabra en todos los grupos, en lugar de la proporción del grupo en el que aparece la palabra.

Puntos de Innovación Técnica

  1. Capacidad de Aprendizaje con Pocos Ejemplos: Implementación de aprendizaje de representaciones temáticas efectivas con solo pocos ejemplos mediante redes prototípicas
  2. Interpretabilidad: Provisión de explicaciones mediante la presentación de casos prototípicos más similares
  3. Adaptabilidad al Dominio: Combinación de incrustaciones especializadas en medicina (PubMedBERT) e incrustaciones de propósito general para comparación
  4. Entrenamiento Episódico: Cada episodio contiene 5 clases, con 5 muestras de soporte y 5 puntos de consulta por clase

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos: PubMed200k RCT
  • Escala: 200,000 resúmenes de ensayos controlados aleatorios, 2.3 millones de oraciones
  • Preprocesamiento:
    • Eliminación de caracteres no alfabéticos
    • Conversión a minúsculas
    • Tokenización de texto
    • Eliminación de palabras de alta frecuencia (como "the", "and", "of", etc.)

Métricas de Evaluación

  1. Coherencia Temática (Topic Coherence): Utilización de la métrica CV, analizando la coocurrencia de palabras clave temáticas en el corpus
  2. Diversidad Temática (Topic Diversity): Extracción de las 25 palabras clave principales de cada tema, cálculo del porcentaje de palabras únicas entre todas las palabras clave temáticas

Métodos de Comparación

  1. LDA (Latent Dirichlet Allocation): Modelo temático probabilístico clásico
  2. BERTopic: Modelo temático neuronal basado en incrustaciones BERT

Detalles de Implementación

  • Optimizador: ADAM, tasa de aprendizaje 0.00005
  • Configuración de Entrenamiento: 50 episodios/época, total de 10 épocas
  • Hardware: GPU T4 de Google Colab (15GB RAM)
  • Congelación de Parámetros: Congelación de todos los Transformers preentrenados excepto las últimas dos capas

Resultados Experimentales

Resultados Principales

Resultados Cuantitativos

25 Temas:

ModeloPuntuación de CoherenciaDiversidad Temática
LDA0.491040.8%
BERTopic0.513749.6%
ProtoTopic (all-MiniLM)0.539684.5%
ProtoTopic (PubMedBERT)0.575486.1%

50 Temas:

ModeloPuntuación de CoherenciaDiversidad Temática
LDA0.501743.8%
BERTopic0.539454.5%
ProtoTopic (all-MiniLM)0.678973.5%
ProtoTopic (PubMedBERT)0.673475.9%

100 Temas:

ModeloPuntuación de CoherenciaDiversidad Temática
LDA0.509055.6%
BERTopic0.617358.0%
ProtoTopic (all-MiniLM)0.717358.6%
ProtoTopic (PubMedBERT)0.711761.2%

Significancia Estadística

Demostración mediante prueba t (p < 0.00001) de que ProtoTopic es significativamente superior a BERTopic en métricas de coherencia y diversidad.

Análisis de Resultados Cualitativos

Comparación de Especificidad Temática

  • BERTopic: Generación de palabras clave demasiado genéricas (como "patients", "median", "overall"), carentes de poder discriminativo
  • ProtoTopic: Generación de palabras clave altamente específicas, evitando vocabulario genérico, como terminología específica para lesiones de miembros inferiores

Análisis de Tendencias

  1. Tendencia de Coherencia: La coherencia temática de todos los modelos mejora con el aumento del número de temas
  2. Tendencia de Diversidad:
    • Modelos de línea base: La diversidad mejora con el aumento del número de temas
    • ProtoTopic: La diversidad disminuye con el aumento del número de temas (de 86.1% a 61.2%)

Trabajo Relacionado

Evolución del Modelado de Temas

  1. Modelos Probabilísticos: LDA utiliza la suposición de bolsa de palabras, ignorando el orden de palabras
  2. Modelos Neurales:
    • LDA2VEC: Combinación de incrustaciones Word2Vec
    • ETM: Utilización de incrustaciones CBOW
    • BERTopic: Basado en incrustaciones BERT

Aprendizaje con Pocos Ejemplos

  1. Métodos de Optimización: Algoritmos de metaaprendizaje como MAML
  2. Métodos de Métrica:
    • Redes Siamesas
    • Redes de Coincidencia
    • Redes de Relación
    • Redes Prototípicas

Aplicaciones de Redes Prototípicas

  • Visión por Computadora: Tareas de clasificación de imágenes
  • Dominio de PNL: ProSeNet, ProtoryNet, ProtoSeq y otras aplicaciones de clasificación de texto

Conclusiones y Discusión

Conclusiones Principales

  1. ProtoTopic supera a los modelos de línea base en todas las métricas de evaluación
  2. Incluso con incrustaciones de propósito general (all-MiniLM-L6-v2) se logra un desempeño excelente
  3. El modelo puede generar temas relevantes médicamente e interpretables

Limitaciones

  1. Función de Pérdida: Utilización únicamente de la pérdida básica de red prototípica, sin considerar la compacidad de agrupamientos y la distancia entre prototipos
  2. Algoritmo de Agrupamiento: Utilización únicamente de K-means, sin exploración de otros métodos como HDBSCAN
  3. Reducción de Dimensionalidad: No se explora el efecto de la reducción de dimensionalidad en incrustaciones de alta dimensión
  4. Evaluación de Usuarios: Falta de evaluación subjetiva por parte de médicos clínicos

Direcciones Futuras

  1. Mejora del diseño de funciones de pérdida
  2. Exploración de diferentes técnicas de agrupamiento
  3. Investigación del impacto de la reducción de dimensionalidad
  4. Realización de estudios con usuarios clínicos

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera aplicación de redes prototípicas a tareas de modelado de temas
  2. Experimentación Exhaustiva: Comparación integral con múltiples modelos de incrustación y varios números de temas
  3. Rigor Estadístico: Provisión de pruebas de significancia estadística
  4. Alto Valor Práctico: Solución del problema de escasez de datos en el dominio médico
  5. Buena Interpretabilidad: Las redes prototípicas proporcionan mecanismos de explicación intuitivos

Deficiencias

  1. Conjunto de Datos Único: Validación únicamente en el conjunto de datos PubMed200k
  2. Dimensiones de Evaluación Limitadas: Falta de evaluación humana y evaluación en tareas posteriores
  3. Complejidad Computacional No Analizada: Ausencia de comparación de eficiencia computacional con líneas base
  4. Sensibilidad de Hiperparámetros: Análisis insuficiente del impacto de hiperparámetros clave

Impacto

  1. Contribución Académica: Provisión de un nuevo paradigma de modelado de temas para el campo de PNL médica
  2. Valor Práctico: Aplicabilidad en análisis de literatura médica y apoyo a la toma de decisiones clínicas
  3. Reproducibilidad: Utilización de conjuntos de datos públicos, configuración experimental detallada

Escenarios de Aplicación

  1. Análisis de Literatura Médica: Ayuda a investigadores en la comprensión rápida de grandes volúmenes de artículos médicos
  2. Descubrimiento de Conocimiento Clínico: Descubrimiento de patrones de enfermedades a partir de pocos casos
  3. Extensión Interdisciplinaria: Generalización a otros dominios especializados con escasez de datos

Referencias Bibliográficas

Este artículo cita 45 referencias relacionadas, abarcando modelado de temas, aprendizaje con pocos ejemplos, redes prototípicas y otros campos clave, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen:

  • Snell et al. (2017): Prototypical Networks for Few-Shot Learning
  • Grootendorst (2022): BERTopic neural topic modeling
  • Blei et al. (2003): Latent Dirichlet Allocation

Evaluación General: Este artículo propone un método innovador y práctico de modelado de temas médicos con valor significativo en la solución del problema de escasez de datos. El diseño experimental es razonable, los resultados son convincentes y realiza contribuciones significativas al campo de la PNL médica.