Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
- ID del Artículo: 2501.00031
- Título: Distilling Large Language Models for Efficient Clinical Information Extraction
- Autores: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
- Clasificación: cs.CL (Computación y Lenguaje)
- Fecha de Publicación: 3 de enero de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.00031
Este estudio transfiere el conocimiento de modelos de lenguaje grande a modelos BERT aproximadamente 1000 veces más pequeños mediante técnicas de destilación de conocimiento para tareas de reconocimiento de entidades nombradas clínicas. La investigación utiliza LLMs de última generación (modelos Gemini y OpenAI) así como ontologías médicas (RxNorm y SNOMED) como anotadores docentes, realizando extracción de medicamentos, enfermedades y síntomas en más de 3300 notas clínicas. El modelo BERT destilado mantiene un rendimiento comparable mientras mejora la velocidad de inferencia 4-12 veces y reduce los costos 2-101 veces, proporcionando una solución eficiente y escalable para la extracción de información clínica.
Las notas clínicas en registros de salud electrónicos contienen información no estructurada valiosa que a menudo no se refleja en campos estructurados. La conversión de información de texto libre a datos estructurados es crucial para la selección de cohortes, análisis observacionales y sistemas de preguntas y respuestas, pero la extracción de información de notas clínicas sigue siendo desafiante.
- Métodos Tradicionales: Los enfoques basados en reglas utilizan coincidencia de cadenas y ontologías médicas. Aunque son interpretables y computacionalmente eficientes, a menudo no capturan la diversidad de representaciones de entidades clínicas, incluyendo sinónimos, abreviaturas, descripciones detalladas y errores ortográficos.
- Métodos de Aprendizaje Automático: Los modelos tipo BERT funcionan bien, pero los modelos actuales de NER clínico a menudo se enfocan en dominios o tipos de entidades específicos, limitando la aplicabilidad general. El ajuste fino requiere grandes cantidades de datos anotados, con alto costo y consumo de tiempo.
- Modelos de Lenguaje Grande: Los LLMs muestran un desempeño excelente en tareas de NER clínico, pero requieren recursos computacionales sustanciales, son costosos, y los LLMs propietarios necesitan puntos finales compatibles con HIPAA para procesar información de salud protegida.
La técnica de destilación de conocimiento ofrece una solución prometedora para estos desafíos, permitiendo transferir el conocimiento de modelos grandes a modelos pequeños, abordando tanto las limitaciones de los modelos BERT específicos del dominio como evitando los problemas de implementación de LLMs computacionalmente costosos.
- Sistema de Anotadores Docentes Múltiples: Se desarrolló un sistema de anotadores docentes que combina LLMs de última generación (modelos Gemini y OpenAI) con ontologías médicas (RxNorm y SNOMED) para tareas de NER clínico en múltiples tipos de notas.
- Modelo Destilado Eficiente: Se creó y publicó un modelo destilado basado en BERT, aproximadamente 1/1000 del tamaño de los LLMs modernos, entrenado en más de 2000 documentos clínicos, cubriendo notas de progresión tumoral, resúmenes de alta hospitalaria, informes radiológicos y resúmenes científicos.
- Evaluación Integral Verificada: Se realizó una evaluación exhaustiva en cinco conjuntos de datos clínicos públicos, incluyendo análisis de modos de fallo del modelo y análisis de validación externa entre sistemas de salud.
Esta investigación se enfoca en tres tareas distintas de NER:
- Extracción de Medicamentos: Identificación de nombres de medicamentos y categorías farmacológicas en notas clínicas
- Extracción de Enfermedades: Identificación de enfermedades, síndromes y condiciones patológicas
- Extracción de Síntomas: Identificación de síntomas de pacientes y manifestaciones clínicas
Cada tarea utiliza el formato de anotación "Dentro-Fuera" (IO), donde las palabras dentro de entidades se etiquetan como "Inside" y otras palabras como "Outside".
- Anotadores LLM: Evaluación de cuatro LLMs de última generación como anotadores docentes
- GPT-4o (versión 2024-08-06)
- GPT-4o-mini (versión 2024-07-18)
- o1-mini (versión 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- Anotadores de Ontología: Utilización de la API del Anotador de BioPortal para acceder a ontologías biomédicas
- RxNorm: para extracción de medicamentos
- SNOMED CT: para extracción de enfermedades y síntomas
- Combinación Óptima de Docentes: Evaluación de los 31 subconjuntos posibles de 5 anotadores docentes, seleccionando la combinación con la puntuación F1 más alta en el conjunto de desarrollo.
Para cada tarea de NER, se utiliza la tubería óptima de anotación docente para generar etiquetas de entrenamiento, seguido del ajuste fino de modelos BERT independientes:
- BERT base: Modelo de lenguaje general
- BioBERT: Preentrenado en literatura biomédica
- BioClinBERT: Específicamente para texto clínico
Parámetros de entrenamiento: tasa de aprendizaje = 2×10⁻⁵, tamaño de lote = 8, decaimiento de peso = 0.01, entrenamiento durante 10 épocas.
- Estrategia de Fusión de Múltiples Docentes: A diferencia de investigaciones existentes que utilizan un único modelo docente, este estudio evalúa sistemáticamente 31 combinaciones de LLMs y ontologías, seleccionando la combinación óptima para diferentes tareas.
- Capacidad de Generalización Transdominio: Entrenamiento y prueba en múltiples tipos de notas clínicas, incluyendo resúmenes de alta, notas de progresión, informes radiológicos, etc.
- Análisis de Costo-Beneficio: Proporciona comparaciones detalladas de tiempo de inferencia y costo, cuantificando las ventajas prácticas de implementación del modelo destilado.
- n2c2 2018 Track 2: 505 resúmenes de alta de MIMIC-III, anotados por expertos para extracción de medicamentos
- Conjunto de entrenamiento: 303, conjunto de prueba: 202, conjunto de desarrollo: 25
- Corpus de Enfermedades NCBI: 793 resúmenes de PubMed, anotados por expertos para extracción de enfermedades
- Utiliza división de conjunto de datos oficial
- Conjunto de Datos CORAL: Notas de progresión desidentificadas de 40 pacientes (20 cáncer de mama, 20 cáncer de páncreas)
- Conjunto de prueba: 35, conjunto de desarrollo: 5
Combinación de todos los conjuntos de datos disponibles, incluyendo 1000 notas clínicas de MIMIC-III (muestreo estratificado por tipo de documento), resultando en un conjunto de datos de anotación docente de 2096 documentos.
Utilización del conjunto de datos MedAlign para validación externa, conteniendo 276 registros longitudinales de pacientes del Hospital Stanford y del Hospital Infantil Lucile Packard.
Utilización de precisión, recuperación y puntuación F1 estándar a nivel de token, con anotación humana como estándar de oro.
- Predicción directa de anotadores docentes
- Modelo BERT ajustado fino con etiquetas humanas
- Modelo BERT destilado con etiquetas docentes
- Entrenamiento con GPU NVIDIA 4xH100
- Todos los LLMs ejecutados a través de puntos finales de API compatibles con HIPAA
- Parámetros normalizados: temperatura = 0.01, top-p = 0.9
| Tarea | Combinación Óptima | Puntuación F1 |
|---|
| Extracción de Enfermedades | o1-mini | 0.787 |
| Extracción de Medicamentos | Gemini-1.5-flash + GPT-4o | 0.881 |
| Extracción de Síntomas | Gemini-1.5-flash + GPT-4o | 0.801 |
| Tarea | BERT + Etiquetas Humanas | BERT + Etiquetas Docentes | Solo Anotador Docente |
|---|
| Extracción de Enfermedades | 0.89 | 0.84 | 0.82 |
| Extracción de Medicamentos | 0.91 | 0.87 | 0.84 |
| Extracción de Síntomas | - | 0.68 | 0.73 |
| Modelo | Tiempo de Inferencia por Nota (segundos) | Costo por Nota (USD) |
|---|
| BioBERT Destilado | 0.14 | 0.000187 |
| GPT-4o | 1.66 (+1086%) | 0.0159 (+8402%) |
| o1-mini | 0.58 (+314%) | 0.0189 (+1001%) |
| Gemini Flash | 1.17 (+736%) | 0.000460 (+146%) |
Desempeño en el conjunto de datos MedAlign:
- Extracción de Medicamentos: F1 = 0.883
- Extracción de Enfermedades: F1 = 0.726
- Extracción de Síntomas: F1 = 0.699
Mediante revisión manual se encontró que la mayoría de falsos positivos se deben realmente a errores de anotación:
- Extracción de Síntomas: 82.05% de falsos positivos son anotaciones correctas
- Extracción de Medicamentos: 62.93% de falsos positivos son anotaciones correctas
- Extracción de Enfermedades: 73.33% de falsos positivos son anotaciones correctas
- Jerarquía de Rendimiento: Ajuste fino con etiquetas humanas > Destilación con etiquetas docentes > Predicción directa de docentes
- Función Limitada de Ontología: Los anotadores de ontología no se incluyen en las combinaciones óptimas para extracción de síntomas
- Ventaja de BioBERT: Muestra el mejor desempeño en la mayoría de tareas
- Beneficio Significativo de Costo: Los modelos destilados son 2-101 veces más baratos que los LLMs y 4-12 veces más rápidos
- Métodos Tradicionales: Enfoques basados en reglas y ontologías, como UMLS
- Métodos de Aprendizaje Profundo: Modelos tipo BERT, incluyendo variantes específicas del dominio como BioBERT y ClinicalBERT
- Métodos de Supervisión Débil: Como TROVE, utilizando la ontología UMLS para generar etiquetas débiles para entrenar modelos BERT
- Destilación General: Destilación de GPT-4 a modelos de tamaño medio como LLaMA
- Destilación en Dominio Médico: Éxito de DistilFLERT y PubMedBERT destilado en aplicaciones médicas
- Fusión de Múltiples Docentes: Evaluación sistemática de efectos combinados de LLMs y ontologías
- Validación Transdominio: Verificación de capacidad de generalización entre múltiples tipos de notas y sistemas de salud
- Evaluación Integral: Incluye análisis de costo-beneficio y análisis detallado de errores
El modelo BERT destilado puede lograr un rendimiento cercano al de LLMs grandes en tareas de NER clínico con un costo computacional y tiempo de inferencia significativamente menores, proporcionando una solución práctica para la extracción de información clínica.
- Calidad Desigual del Docente: Particularmente variabilidad en la calidad de anotación de síntomas
- Tipos de Entidades Limitados: Solo cubre tres tipos de entidades, sin incluir procedimientos o determinantes sociales
- Ausencia de Tareas Complejas: No aborda estados de aseveración (como negación) o tareas de extracción de relaciones
- Ingeniería de Indicaciones Insuficiente: Todos los LLMs utilizan el mismo indicador, sin optimización específica
- Calidad del Conjunto de Prueba: Existen problemas de inconsistencia en anotaciones
- Extensión a más tipos de entidades y tareas complejas de NER
- Mejora de estrategias de ingeniería de indicaciones
- Exploración de técnicas de destilación más avanzadas
- Mejora de la calidad de anotación del conjunto de prueba
- Alta Practicidad: Resuelve el problema práctico del alto costo de implementación de LLMs
- Metodología Sistemática: Evaluación exhaustiva de múltiples estrategias de combinación de docentes
- Verificación Suficiente: Incluye validación externa y análisis detallado de errores
- Transparencia Abierta: Proporciona código y configuración experimental detallada
- Cuantificación de Costos: Proporciona datos concretos de comparación de tiempo y costo
- Innovación Limitada: La destilación de conocimiento no es una tecnología nueva; la contribución principal está en el nivel de aplicación
- Comparación de Referencia Insuficiente: Falta comparación directa con otros métodos de destilación
- Análisis Teórico Deficiente: No analiza profundamente por qué ciertas combinaciones de docentes funcionan mejor
- Limitaciones de Aplicabilidad: Se enfoca principalmente en texto clínico en inglés; la capacidad de generalización requiere verificación
- Alto Valor Práctico: Proporciona una solución viable para implementación de PNL clínica
- Buena Reproducibilidad: Proporciona código completo e información de conjuntos de datos
- Gran Potencial de Promoción: El método es extensible a otras tareas de PNL médica
- Aplicaciones Sensibles a Costos: Tiene importancia significativa para entornos con recursos limitados
- Sistemas de Información Hospitalaria: Necesidad de procesar en tiempo real grandes volúmenes de notas clínicas
- Instituciones de Investigación: Recursos computacionales limitados pero necesidad de NER de alta calidad
- Productos de IA Médica: Necesidad de equilibrar rendimiento y costo de implementación
- Extensión Multilingüe: Puede servir como marco base para NER clínico en otros idiomas
El artículo cita 61 referencias relacionadas, principalmente incluyendo:
- Trabajo relacionado con BERT: Devlin et al. (2019), Lee et al. (2020) BioBERT
- Destilación de Conocimiento: Hinton et al. (2015), Zhou et al. (2024)
- PNL Clínico: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
- Ontologías Médicas: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm
Este estudio proporciona una solución práctica y eficiente para el campo de la extracción de información clínica, equilibrando exitosamente el rendimiento del modelo con el costo de implementación mediante técnicas de destilación de conocimiento, poseyendo importante valor práctico y significado de promoción.