2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.

Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.

academic

Destilación de Modelos de Lenguaje Grande para la Extracción Eficiente de Información Clínica

Información Básica

ID del Artículo: 2501.00031
Título: Distilling Large Language Models for Efficient Clinical Information Extraction
Autores: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
Clasificación: cs.CL (Computación y Lenguaje)
Fecha de Publicación: 3 de enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00031

Resumen

Este estudio transfiere el conocimiento de modelos de lenguaje grande a modelos BERT aproximadamente 1000 veces más pequeños mediante técnicas de destilación de conocimiento para tareas de reconocimiento de entidades nombradas clínicas. La investigación utiliza LLMs de última generación (modelos Gemini y OpenAI) así como ontologías médicas (RxNorm y SNOMED) como anotadores docentes, realizando extracción de medicamentos, enfermedades y síntomas en más de 3300 notas clínicas. El modelo BERT destilado mantiene un rendimiento comparable mientras mejora la velocidad de inferencia 4-12 veces y reduce los costos 2-101 veces, proporcionando una solución eficiente y escalable para la extracción de información clínica.

Antecedentes y Motivación de la Investigación

Definición del Problema

Las notas clínicas en registros de salud electrónicos contienen información no estructurada valiosa que a menudo no se refleja en campos estructurados. La conversión de información de texto libre a datos estructurados es crucial para la selección de cohortes, análisis observacionales y sistemas de preguntas y respuestas, pero la extracción de información de notas clínicas sigue siendo desafiante.

Limitaciones de los Métodos Existentes

Métodos Tradicionales: Los enfoques basados en reglas utilizan coincidencia de cadenas y ontologías médicas. Aunque son interpretables y computacionalmente eficientes, a menudo no capturan la diversidad de representaciones de entidades clínicas, incluyendo sinónimos, abreviaturas, descripciones detalladas y errores ortográficos.
Métodos de Aprendizaje Automático: Los modelos tipo BERT funcionan bien, pero los modelos actuales de NER clínico a menudo se enfocan en dominios o tipos de entidades específicos, limitando la aplicabilidad general. El ajuste fino requiere grandes cantidades de datos anotados, con alto costo y consumo de tiempo.
Modelos de Lenguaje Grande: Los LLMs muestran un desempeño excelente en tareas de NER clínico, pero requieren recursos computacionales sustanciales, son costosos, y los LLMs propietarios necesitan puntos finales compatibles con HIPAA para procesar información de salud protegida.

Motivación de la Investigación

La técnica de destilación de conocimiento ofrece una solución prometedora para estos desafíos, permitiendo transferir el conocimiento de modelos grandes a modelos pequeños, abordando tanto las limitaciones de los modelos BERT específicos del dominio como evitando los problemas de implementación de LLMs computacionalmente costosos.

Contribuciones Principales

Sistema de Anotadores Docentes Múltiples: Se desarrolló un sistema de anotadores docentes que combina LLMs de última generación (modelos Gemini y OpenAI) con ontologías médicas (RxNorm y SNOMED) para tareas de NER clínico en múltiples tipos de notas.
Modelo Destilado Eficiente: Se creó y publicó un modelo destilado basado en BERT, aproximadamente 1/1000 del tamaño de los LLMs modernos, entrenado en más de 2000 documentos clínicos, cubriendo notas de progresión tumoral, resúmenes de alta hospitalaria, informes radiológicos y resúmenes científicos.
Evaluación Integral Verificada: Se realizó una evaluación exhaustiva en cinco conjuntos de datos clínicos públicos, incluyendo análisis de modos de fallo del modelo y análisis de validación externa entre sistemas de salud.

Explicación Detallada de la Metodología

Definición de la Tarea

Esta investigación se enfoca en tres tareas distintas de NER:

Extracción de Medicamentos: Identificación de nombres de medicamentos y categorías farmacológicas en notas clínicas
Extracción de Enfermedades: Identificación de enfermedades, síndromes y condiciones patológicas
Extracción de Síntomas: Identificación de síntomas de pacientes y manifestaciones clínicas

Cada tarea utiliza el formato de anotación "Dentro-Fuera" (IO), donde las palabras dentro de entidades se etiquetan como "Inside" y otras palabras como "Outside".

Arquitectura del Modelo

Tubería de Anotación Docente

Anotadores LLM: Evaluación de cuatro LLMs de última generación como anotadores docentes
- GPT-4o (versión 2024-08-06)
- GPT-4o-mini (versión 2024-07-18)
- o1-mini (versión 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
Anotadores de Ontología: Utilización de la API del Anotador de BioPortal para acceder a ontologías biomédicas
- RxNorm: para extracción de medicamentos
- SNOMED CT: para extracción de enfermedades y síntomas
Combinación Óptima de Docentes: Evaluación de los 31 subconjuntos posibles de 5 anotadores docentes, seleccionando la combinación con la puntuación F1 más alta en el conjunto de desarrollo.

Implementación de Destilación de Modelos

Para cada tarea de NER, se utiliza la tubería óptima de anotación docente para generar etiquetas de entrenamiento, seguido del ajuste fino de modelos BERT independientes:

BERT base: Modelo de lenguaje general
BioBERT: Preentrenado en literatura biomédica
BioClinBERT: Específicamente para texto clínico

Parámetros de entrenamiento: tasa de aprendizaje = 2×10⁻⁵, tamaño de lote = 8, decaimiento de peso = 0.01, entrenamiento durante 10 épocas.

Puntos de Innovación Técnica

Estrategia de Fusión de Múltiples Docentes: A diferencia de investigaciones existentes que utilizan un único modelo docente, este estudio evalúa sistemáticamente 31 combinaciones de LLMs y ontologías, seleccionando la combinación óptima para diferentes tareas.
Capacidad de Generalización Transdominio: Entrenamiento y prueba en múltiples tipos de notas clínicas, incluyendo resúmenes de alta, notas de progresión, informes radiológicos, etc.
Análisis de Costo-Beneficio: Proporciona comparaciones detalladas de tiempo de inferencia y costo, cuantificando las ventajas prácticas de implementación del modelo destilado.

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos Principales

n2c2 2018 Track 2: 505 resúmenes de alta de MIMIC-III, anotados por expertos para extracción de medicamentos
- Conjunto de entrenamiento: 303, conjunto de prueba: 202, conjunto de desarrollo: 25
Corpus de Enfermedades NCBI: 793 resúmenes de PubMed, anotados por expertos para extracción de enfermedades
- Utiliza división de conjunto de datos oficial
Conjunto de Datos CORAL: Notas de progresión desidentificadas de 40 pacientes (20 cáncer de mama, 20 cáncer de páncreas)
- Conjunto de prueba: 35, conjunto de desarrollo: 5

Conjunto de Datos de Anotación Docente

Combinación de todos los conjuntos de datos disponibles, incluyendo 1000 notas clínicas de MIMIC-III (muestreo estratificado por tipo de documento), resultando en un conjunto de datos de anotación docente de 2096 documentos.

Validación Externa

Utilización del conjunto de datos MedAlign para validación externa, conteniendo 276 registros longitudinales de pacientes del Hospital Stanford y del Hospital Infantil Lucile Packard.

Métricas de Evaluación

Utilización de precisión, recuperación y puntuación F1 estándar a nivel de token, con anotación humana como estándar de oro.

Métodos de Comparación

Predicción directa de anotadores docentes
Modelo BERT ajustado fino con etiquetas humanas
Modelo BERT destilado con etiquetas docentes

Detalles de Implementación

Entrenamiento con GPU NVIDIA 4xH100
Todos los LLMs ejecutados a través de puntos finales de API compatibles con HIPAA
Parámetros normalizados: temperatura = 0.01, top-p = 0.9

Resultados Experimentales

Resultados Principales

Rendimiento de Combinación de Anotadores Docentes

Tarea	Combinación Óptima	Puntuación F1
Extracción de Enfermedades	o1-mini	0.787
Extracción de Medicamentos	Gemini-1.5-flash + GPT-4o	0.881
Extracción de Síntomas	Gemini-1.5-flash + GPT-4o	0.801

Comparación de Rendimiento del Modelo Destilado

Tarea	BERT + Etiquetas Humanas	BERT + Etiquetas Docentes	Solo Anotador Docente
Extracción de Enfermedades	0.89	0.84	0.82
Extracción de Medicamentos	0.91	0.87	0.84
Extracción de Síntomas	-	0.68	0.73

Comparación de Eficiencia

Modelo	Tiempo de Inferencia por Nota (segundos)	Costo por Nota (USD)
BioBERT Destilado	0.14	0.000187
GPT-4o	1.66 (+1086%)	0.0159 (+8402%)
o1-mini	0.58 (+314%)	0.0189 (+1001%)
Gemini Flash	1.17 (+736%)	0.000460 (+146%)

Resultados de Validación Externa

Desempeño en el conjunto de datos MedAlign:

Extracción de Medicamentos: F1 = 0.883
Extracción de Enfermedades: F1 = 0.726
Extracción de Síntomas: F1 = 0.699

Análisis de Errores

Mediante revisión manual se encontró que la mayoría de falsos positivos se deben realmente a errores de anotación:

Extracción de Síntomas: 82.05% de falsos positivos son anotaciones correctas
Extracción de Medicamentos: 62.93% de falsos positivos son anotaciones correctas
Extracción de Enfermedades: 73.33% de falsos positivos son anotaciones correctas

Hallazgos Experimentales

Jerarquía de Rendimiento: Ajuste fino con etiquetas humanas > Destilación con etiquetas docentes > Predicción directa de docentes
Función Limitada de Ontología: Los anotadores de ontología no se incluyen en las combinaciones óptimas para extracción de síntomas
Ventaja de BioBERT: Muestra el mejor desempeño en la mayoría de tareas
Beneficio Significativo de Costo: Los modelos destilados son 2-101 veces más baratos que los LLMs y 4-12 veces más rápidos

Trabajo Relacionado

Direcciones de Investigación en NER Clínico

Métodos Tradicionales: Enfoques basados en reglas y ontologías, como UMLS
Métodos de Aprendizaje Profundo: Modelos tipo BERT, incluyendo variantes específicas del dominio como BioBERT y ClinicalBERT
Métodos de Supervisión Débil: Como TROVE, utilizando la ontología UMLS para generar etiquetas débiles para entrenar modelos BERT

Investigación en Destilación de Conocimiento

Destilación General: Destilación de GPT-4 a modelos de tamaño medio como LLaMA
Destilación en Dominio Médico: Éxito de DistilFLERT y PubMedBERT destilado en aplicaciones médicas

Ventajas Respecto al Trabajo Relacionado

Fusión de Múltiples Docentes: Evaluación sistemática de efectos combinados de LLMs y ontologías
Validación Transdominio: Verificación de capacidad de generalización entre múltiples tipos de notas y sistemas de salud
Evaluación Integral: Incluye análisis de costo-beneficio y análisis detallado de errores

Conclusiones y Discusión

Conclusiones Principales

El modelo BERT destilado puede lograr un rendimiento cercano al de LLMs grandes en tareas de NER clínico con un costo computacional y tiempo de inferencia significativamente menores, proporcionando una solución práctica para la extracción de información clínica.

Limitaciones

Calidad Desigual del Docente: Particularmente variabilidad en la calidad de anotación de síntomas
Tipos de Entidades Limitados: Solo cubre tres tipos de entidades, sin incluir procedimientos o determinantes sociales
Ausencia de Tareas Complejas: No aborda estados de aseveración (como negación) o tareas de extracción de relaciones
Ingeniería de Indicaciones Insuficiente: Todos los LLMs utilizan el mismo indicador, sin optimización específica
Calidad del Conjunto de Prueba: Existen problemas de inconsistencia en anotaciones

Direcciones Futuras

Extensión a más tipos de entidades y tareas complejas de NER
Mejora de estrategias de ingeniería de indicaciones
Exploración de técnicas de destilación más avanzadas
Mejora de la calidad de anotación del conjunto de prueba

Evaluación Profunda

Fortalezas

Alta Practicidad: Resuelve el problema práctico del alto costo de implementación de LLMs
Metodología Sistemática: Evaluación exhaustiva de múltiples estrategias de combinación de docentes
Verificación Suficiente: Incluye validación externa y análisis detallado de errores
Transparencia Abierta: Proporciona código y configuración experimental detallada
Cuantificación de Costos: Proporciona datos concretos de comparación de tiempo y costo

Deficiencias

Innovación Limitada: La destilación de conocimiento no es una tecnología nueva; la contribución principal está en el nivel de aplicación
Comparación de Referencia Insuficiente: Falta comparación directa con otros métodos de destilación
Análisis Teórico Deficiente: No analiza profundamente por qué ciertas combinaciones de docentes funcionan mejor
Limitaciones de Aplicabilidad: Se enfoca principalmente en texto clínico en inglés; la capacidad de generalización requiere verificación

Impacto

Alto Valor Práctico: Proporciona una solución viable para implementación de PNL clínica
Buena Reproducibilidad: Proporciona código completo e información de conjuntos de datos
Gran Potencial de Promoción: El método es extensible a otras tareas de PNL médica
Aplicaciones Sensibles a Costos: Tiene importancia significativa para entornos con recursos limitados

Escenarios Aplicables

Sistemas de Información Hospitalaria: Necesidad de procesar en tiempo real grandes volúmenes de notas clínicas
Instituciones de Investigación: Recursos computacionales limitados pero necesidad de NER de alta calidad
Productos de IA Médica: Necesidad de equilibrar rendimiento y costo de implementación
Extensión Multilingüe: Puede servir como marco base para NER clínico en otros idiomas

Referencias

El artículo cita 61 referencias relacionadas, principalmente incluyendo:

Trabajo relacionado con BERT: Devlin et al. (2019), Lee et al. (2020) BioBERT
Destilación de Conocimiento: Hinton et al. (2015), Zhou et al. (2024)
PNL Clínico: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
Ontologías Médicas: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm

Este estudio proporciona una solución práctica y eficiente para el campo de la extracción de información clínica, equilibrando exitosamente el rendimiento del modelo con el costo de implementación mediante técnicas de destilación de conocimiento, poseyendo importante valor práctico y significado de promoción.