Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
- ID статьи: 2501.00031
- Название: Distilling Large Language Models for Efficient Clinical Information Extraction
- Авторы: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
- Классификация: cs.CL (Вычислительная лингвистика)
- Дата публикации: 3 января 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.00031
В данном исследовании посредством технологии дистилляции знаний осуществляется передача знаний из больших языковых моделей в модель BERT, объём которой примерно в 1000 раз меньше, для решения задачи клинического распознавания именованных сущностей. Исследование использует современные LLM (модели Gemini и OpenAI), а также медицинские онтологии (RxNorm и SNOMED) в качестве учителей-аннотаторов для извлечения лекарств, заболеваний и симптомов из более чем 3300 клинических записей. Дистиллированная модель BERT при сохранении сопоставимой производительности обеспечивает ускорение вывода в 4-12 раз и снижение затрат в 2-101 раз, предоставляя эффективное и масштабируемое решение для извлечения клинической информации.
Клинические записи в электронных медицинских картах содержат большой объём ценной неструктурированной информации, которая часто не отражается в структурированных полях. Преобразование информации из свободного текста в структурированные данные критически важно для отбора когорт, наблюдательного анализа и систем вопросно-ответного типа, однако извлечение информации из клинических записей остаётся сложной задачей.
- Традиционные подходы: Методы, основанные на правилах, используют сопоставление строк и медицинские онтологии. Хотя они интерпретируемы и вычислительно эффективны, они часто не могут охватить разнообразные представления клинических сущностей, включая синонимы, аббревиатуры, детальные описания и орфографические ошибки.
- Методы машинного обучения: Модели типа BERT показывают отличные результаты, однако современные модели клинического NER часто сосредоточены на конкретных областях или типах сущностей, что ограничивает их широкую применимость. Тонкая настройка требует больших объёмов аннотированных данных, что дорого и затратно по времени.
- Большие языковые модели: LLM демонстрируют превосходные результаты в задачах клинического NER, однако требуют значительных вычислительных ресурсов, дорогостоящи, а проприетарные LLM требуют совместимых с HIPAA конечных точек для обработки защищённой медицинской информации.
Технология дистилляции знаний предоставляет перспективное решение для преодоления этих вызовов, позволяя передавать знания из больших моделей в малые модели, одновременно решая ограничения моделей BERT, специфичных для предметной области, и избегая проблем развёртывания вычислительно дорогостоящих LLM.
- Система многоучительских аннотаторов: Разработана система, объединяющая современные LLM (модели Gemini и OpenAI) с медицинскими онтологиями (RxNorm и SNOMED) для задач клинического NER на различных типах записей.
- Эффективная дистиллированная модель: Создана и опубликована дистиллированная модель на основе BERT, объём которой составляет примерно 1/1000 от объёма современных LLM, обученная на более чем 2000 клинических документов, охватывающих записи о прогрессировании опухоли, выписные эпикризы, радиологические отчёты и научные аннотации.
- Комплексная оценка и валидация: Проведена комплексная оценка на пяти открытых клинических наборах данных, включая анализ режимов отказа модели и анализ внешней валидации в различных системах здравоохранения.
Исследование сосредоточено на трёх различных задачах NER:
- Извлечение лекарств: Распознавание названий лекарств и категорий лекарственных средств в клинических записях
- Извлечение заболеваний: Распознавание заболеваний, синдромов и патологических состояний
- Извлечение симптомов: Распознавание симптомов пациентов и клинических проявлений
Каждая задача использует формат аннотации "внутри-снаружи" (IO), где слова внутри сущности помечаются как "Inside", остальные слова — как "Outside".
- Аннотаторы LLM: Оценка четырёх современных LLM в качестве учителей-аннотаторов
- GPT-4o (версия 2024-08-06)
- GPT-4o-mini (версия 2024-07-18)
- o1-mini (версия 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- Аннотаторы онтологий: Использование API аннотатора BioPortal для доступа к биомедицинским онтологиям
- RxNorm: для извлечения лекарств
- SNOMED CT: для извлечения заболеваний и симптомов
- Оптимальная комбинация учителей: Оценка всех 31 возможной подмножества комбинаций пяти учителей-аннотаторов с выбором комбинации, показывающей наивысший показатель F1 на наборе разработки.
Для каждой задачи NER используется оптимальный конвейер учителей-аннотаторов для генерации обучающих меток, затем выполняется тонкая настройка независимых моделей BERT:
- BERT base: Универсальная языковая модель
- BioBERT: Предварительно обученная на биомедицинской литературе
- BioClinBERT: Специально разработанная для клинических текстов
Параметры обучения: скорость обучения = 2×10⁻⁵, размер пакета = 8, затухание веса = 0,01, обучение в течение 10 эпох.
- Стратегия слияния нескольких учителей: В отличие от существующих исследований, использующих одного учителя, данное исследование систематически оценивает 31 комбинацию LLM и онтологий, выбирая оптимальные комбинации для различных задач.
- Способность к обобщению между областями: Обучение и тестирование на различных типах клинических записей, включая выписные эпикризы, записи о прогрессировании, радиологические отчёты и т.д.
- Анализ соотношения затрат и выгод: Предоставление детального сравнения времени вывода и затрат, количественное определение практических преимуществ развёртывания дистиллированной модели.
- n2c2 2018 Track 2: 505 выписных эпикризов из MIMIC-III с экспертной аннотацией для извлечения лекарств
- Обучающий набор: 303 записи, тестовый набор: 202 записи, набор разработки: 25 записей
- NCBI Disease Corpus: 793 аннотации PubMed с экспертной аннотацией для извлечения заболеваний
- Использование официального разделения набора данных
- Набор данных CORAL: Деидентифицированные записи о прогрессировании 40 пациентов (20 с раком молочной железы, 20 с раком поджелудочной железы)
- Тестовый набор: 35 записей, набор разработки: 5 записей
Объединение всех доступных наборов данных, включая 1000 клинических записей MIMIC-III (стратифицированная выборка по типу документа), итоговый набор данных для аннотации учителями содержит 2096 документов.
Использование набора данных MedAlign для внешней валидации, содержащего 276 продольных записей пациентов из больницы Стэнфорда и детской больницы Люсиль Пакард.
Использование стандартных показателей точности, полноты и F1-оценки на уровне токенов с использованием ручной аннотации в качестве золотого стандарта.
- Прямое предсказание учителями-аннотаторами
- Модель BERT с тонкой настройкой на основе ручных меток
- Модель BERT с дистилляцией на основе меток учителей
- Использование NVIDIA 4xH100 GPU для обучения
- Все LLM выполняются через совместимые с HIPAA конечные точки API
- Стандартизированные параметры: temperature = 0,01, top-p = 0,9
| Задача | Оптимальная комбинация | F1-оценка |
|---|
| Извлечение заболеваний | o1-mini | 0,787 |
| Извлечение лекарств | Gemini-1.5-flash + GPT-4o | 0,881 |
| Извлечение симптомов | Gemini-1.5-flash + GPT-4o | 0,801 |
| Задача | BERT + ручные метки | BERT + метки учителей | Только учителя-аннотаторы |
|---|
| Извлечение заболеваний | 0,89 | 0,84 | 0,82 |
| Извлечение лекарств | 0,91 | 0,87 | 0,84 |
| Извлечение симптомов | — | 0,68 | 0,73 |
| Модель | Время вывода на запись (сек) | Стоимость на запись (USD) |
|---|
| Дистиллированный BioBERT | 0,14 | 0,000187 |
| GPT-4o | 1,66 (+1086%) | 0,0159 (+8402%) |
| o1-mini | 0,58 (+314%) | 0,0189 (+1001%) |
| Gemini Flash | 1,17 (+736%) | 0,000460 (+146%) |
Производительность на наборе данных MedAlign:
- Извлечение лекарств: F1 = 0,883
- Извлечение заболеваний: F1 = 0,726
- Извлечение симптомов: F1 = 0,699
Путём ручного анализа выявлено, что большинство ложных срабатываний фактически обусловлены ошибками в наборе аннотаций:
- Извлечение симптомов: 82,05% ложных срабатываний фактически являются правильной аннотацией
- Извлечение лекарств: 62,93% ложных срабатываний фактически являются правильной аннотацией
- Извлечение заболеваний: 73,33% ложных срабатываний фактически являются правильной аннотацией
- Иерархия производительности: Ручные метки + микронастройка > Дистилляция с метками учителей > Прямое предсказание учителей
- Ограниченная роль онтологий: Аннотаторы онтологий не входят в оптимальные комбинации для извлечения симптомов
- Преимущества BioBERT: Показывает лучшую производительность в большинстве задач
- Значительное соотношение затрат и выгод: Дистиллированная модель дешевле LLM в 2-101 раз и быстрее в 4-12 раз
- Традиционные методы: Методы, основанные на правилах и онтологиях, такие как UMLS
- Методы глубокого обучения: Модели типа BERT, включая специфичные для предметной области варианты BioBERT, ClinicalBERT и т.д.
- Методы слабого контроля: Такие как TROVE, использующие онтологию UMLS для генерации слабых меток для обучения моделей BERT
- Универсальная дистилляция: Дистилляция из GPT-4 в модели среднего размера, такие как LLaMA
- Дистилляция в медицинской области: Успешное применение DistilFLERT и дистиллированного PubMedBERT в медицинских приложениях
- Слияние нескольких учителей: Систематическая оценка эффектов комбинирования LLM и онтологий
- Валидация между областями: Проверка способности к обобщению на различных типах записей и системах здравоохранения
- Комплексная оценка: Включение анализа соотношения затрат и выгод и детального анализа ошибок
Дистиллированная модель BERT в задачах клинического NER может достичь производительности, близкой к производительности больших LLM, при значительно более низких вычислительных затратах и времени вывода, предоставляя практическое решение для извлечения клинической информации.
- Неравномерное качество учителей: Особенно значительные вариации в качестве аннотации симптомов
- Ограниченные типы сущностей: Охват только трёх типов сущностей, без процедур, социальных детерминант и т.д.
- Отсутствие сложных задач: Отсутствие обработки состояния утверждения (например, отрицание) или задач извлечения отношений
- Недостаточная инженерия подсказок: Все LLM используют одинаковые подсказки без специфичной оптимизации
- Качество тестового набора: Наличие проблем с согласованностью аннотаций
- Расширение на большее количество типов сущностей и сложные задачи NER
- Улучшение стратегий инженерии подсказок
- Исследование более продвинутых методов дистилляции
- Повышение качества аннотации тестового набора
- Высокая практическая применимость: Решение проблемы высокой стоимости развёртывания LLM
- Систематический подход: Комплексная оценка различных стратегий комбинирования учителей
- Достаточная валидация: Включение внешней валидации и детального анализа ошибок
- Открытость и прозрачность: Предоставление кода и детальных параметров экспериментов
- Количественная оценка затрат: Предоставление конкретных данных сравнения времени и затрат
- Ограниченная новизна: Дистилляция знаний сама по себе не является новой технологией; основной вклад находится на уровне приложений
- Недостаточное сравнение с базовыми методами: Отсутствие прямого сравнения с другими методами дистилляции
- Отсутствие теоретического анализа: Недостаточное углубление в анализ того, почему определённые комбинации учителей работают лучше
- Ограничения применимости: Основное внимание сосредоточено на английских клинических текстах; способность к обобщению требует проверки
- Высокая практическая ценность: Предоставление осуществимого решения для развёртывания клинического NLP
- Хорошая воспроизводимость: Предоставление полного кода и информации о наборах данных
- Большой потенциал распространения: Метод может быть расширен на другие задачи медицинского NLP
- Значимость для приложений, чувствительных к затратам: Важное значение для сред с ограниченными ресурсами
- Системы информации больниц: Требующие обработки больших объёмов клинических записей в реальном времени
- Научные учреждения: С ограниченными вычислительными ресурсами, но требующие высокого качества NER
- Медицинские AI-продукты: Требующие баланса между производительностью и стоимостью развёртывания
- Расширение на другие языки: Может служить основой для клинического NER на других языках
Статья цитирует 61 связанную работу, включая:
- Работы, связанные с BERT: Devlin et al. (2019), Lee et al. (2020) BioBERT
- Дистилляция знаний: Hinton et al. (2015), Zhou et al. (2024)
- Клинический NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
- Медицинские онтологии: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm
Данное исследование предоставляет практическое и эффективное решение для области извлечения клинической информации, успешно балансируя производительность модели и стоимость развёртывания посредством технологии дистилляции знаний, обладая важной практической ценностью и значительным потенциалом распространения.