2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.

Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.

academic

Дистилляция больших языковых моделей для эффективного извлечения клинической информации

Основная информация

ID статьи: 2501.00031
Название: Distilling Large Language Models for Efficient Clinical Information Extraction
Авторы: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 3 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00031

Аннотация

В данном исследовании посредством технологии дистилляции знаний осуществляется передача знаний из больших языковых моделей в модель BERT, объём которой примерно в 1000 раз меньше, для решения задачи клинического распознавания именованных сущностей. Исследование использует современные LLM (модели Gemini и OpenAI), а также медицинские онтологии (RxNorm и SNOMED) в качестве учителей-аннотаторов для извлечения лекарств, заболеваний и симптомов из более чем 3300 клинических записей. Дистиллированная модель BERT при сохранении сопоставимой производительности обеспечивает ускорение вывода в 4-12 раз и снижение затрат в 2-101 раз, предоставляя эффективное и масштабируемое решение для извлечения клинической информации.

Предпосылки и мотивация исследования

Определение проблемы

Клинические записи в электронных медицинских картах содержат большой объём ценной неструктурированной информации, которая часто не отражается в структурированных полях. Преобразование информации из свободного текста в структурированные данные критически важно для отбора когорт, наблюдательного анализа и систем вопросно-ответного типа, однако извлечение информации из клинических записей остаётся сложной задачей.

Ограничения существующих методов

Традиционные подходы: Методы, основанные на правилах, используют сопоставление строк и медицинские онтологии. Хотя они интерпретируемы и вычислительно эффективны, они часто не могут охватить разнообразные представления клинических сущностей, включая синонимы, аббревиатуры, детальные описания и орфографические ошибки.
Методы машинного обучения: Модели типа BERT показывают отличные результаты, однако современные модели клинического NER часто сосредоточены на конкретных областях или типах сущностей, что ограничивает их широкую применимость. Тонкая настройка требует больших объёмов аннотированных данных, что дорого и затратно по времени.
Большие языковые модели: LLM демонстрируют превосходные результаты в задачах клинического NER, однако требуют значительных вычислительных ресурсов, дорогостоящи, а проприетарные LLM требуют совместимых с HIPAA конечных точек для обработки защищённой медицинской информации.

Мотивация исследования

Технология дистилляции знаний предоставляет перспективное решение для преодоления этих вызовов, позволяя передавать знания из больших моделей в малые модели, одновременно решая ограничения моделей BERT, специфичных для предметной области, и избегая проблем развёртывания вычислительно дорогостоящих LLM.

Основные вклады

Система многоучительских аннотаторов: Разработана система, объединяющая современные LLM (модели Gemini и OpenAI) с медицинскими онтологиями (RxNorm и SNOMED) для задач клинического NER на различных типах записей.
Эффективная дистиллированная модель: Создана и опубликована дистиллированная модель на основе BERT, объём которой составляет примерно 1/1000 от объёма современных LLM, обученная на более чем 2000 клинических документов, охватывающих записи о прогрессировании опухоли, выписные эпикризы, радиологические отчёты и научные аннотации.
Комплексная оценка и валидация: Проведена комплексная оценка на пяти открытых клинических наборах данных, включая анализ режимов отказа модели и анализ внешней валидации в различных системах здравоохранения.

Подробное описание методологии

Определение задачи

Исследование сосредоточено на трёх различных задачах NER:

Извлечение лекарств: Распознавание названий лекарств и категорий лекарственных средств в клинических записях
Извлечение заболеваний: Распознавание заболеваний, синдромов и патологических состояний
Извлечение симптомов: Распознавание симптомов пациентов и клинических проявлений

Каждая задача использует формат аннотации "внутри-снаружи" (IO), где слова внутри сущности помечаются как "Inside", остальные слова — как "Outside".

Архитектура модели

Конвейер учителей-аннотаторов

Аннотаторы LLM: Оценка четырёх современных LLM в качестве учителей-аннотаторов
- GPT-4o (версия 2024-08-06)
- GPT-4o-mini (версия 2024-07-18)
- o1-mini (версия 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
Аннотаторы онтологий: Использование API аннотатора BioPortal для доступа к биомедицинским онтологиям
- RxNorm: для извлечения лекарств
- SNOMED CT: для извлечения заболеваний и симптомов
Оптимальная комбинация учителей: Оценка всех 31 возможной подмножества комбинаций пяти учителей-аннотаторов с выбором комбинации, показывающей наивысший показатель F1 на наборе разработки.

Реализация дистилляции модели

Для каждой задачи NER используется оптимальный конвейер учителей-аннотаторов для генерации обучающих меток, затем выполняется тонкая настройка независимых моделей BERT:

BERT base: Универсальная языковая модель
BioBERT: Предварительно обученная на биомедицинской литературе
BioClinBERT: Специально разработанная для клинических текстов

Параметры обучения: скорость обучения = 2×10⁻⁵, размер пакета = 8, затухание веса = 0,01, обучение в течение 10 эпох.

Технические инновации

Стратегия слияния нескольких учителей: В отличие от существующих исследований, использующих одного учителя, данное исследование систематически оценивает 31 комбинацию LLM и онтологий, выбирая оптимальные комбинации для различных задач.
Способность к обобщению между областями: Обучение и тестирование на различных типах клинических записей, включая выписные эпикризы, записи о прогрессировании, радиологические отчёты и т.д.
Анализ соотношения затрат и выгод: Предоставление детального сравнения времени вывода и затрат, количественное определение практических преимуществ развёртывания дистиллированной модели.

Экспериментальная установка

Наборы данных

Основные наборы данных

n2c2 2018 Track 2: 505 выписных эпикризов из MIMIC-III с экспертной аннотацией для извлечения лекарств
- Обучающий набор: 303 записи, тестовый набор: 202 записи, набор разработки: 25 записей
NCBI Disease Corpus: 793 аннотации PubMed с экспертной аннотацией для извлечения заболеваний
- Использование официального разделения набора данных
Набор данных CORAL: Деидентифицированные записи о прогрессировании 40 пациентов (20 с раком молочной железы, 20 с раком поджелудочной железы)
- Тестовый набор: 35 записей, набор разработки: 5 записей

Наборы данных для аннотации учителями

Объединение всех доступных наборов данных, включая 1000 клинических записей MIMIC-III (стратифицированная выборка по типу документа), итоговый набор данных для аннотации учителями содержит 2096 документов.

Внешняя валидация

Использование набора данных MedAlign для внешней валидации, содержащего 276 продольных записей пациентов из больницы Стэнфорда и детской больницы Люсиль Пакард.

Метрики оценки

Использование стандартных показателей точности, полноты и F1-оценки на уровне токенов с использованием ручной аннотации в качестве золотого стандарта.

Методы сравнения

Прямое предсказание учителями-аннотаторами
Модель BERT с тонкой настройкой на основе ручных меток
Модель BERT с дистилляцией на основе меток учителей

Детали реализации

Использование NVIDIA 4xH100 GPU для обучения
Все LLM выполняются через совместимые с HIPAA конечные точки API
Стандартизированные параметры: temperature = 0,01, top-p = 0,9

Результаты экспериментов

Основные результаты

Производительность комбинаций учителей-аннотаторов

Задача	Оптимальная комбинация	F1-оценка
Извлечение заболеваний	o1-mini	0,787
Извлечение лекарств	Gemini-1.5-flash + GPT-4o	0,881
Извлечение симптомов	Gemini-1.5-flash + GPT-4o	0,801

Сравнение производительности дистиллированной модели

Задача	BERT + ручные метки	BERT + метки учителей	Только учителя-аннотаторы
Извлечение заболеваний	0,89	0,84	0,82
Извлечение лекарств	0,91	0,87	0,84
Извлечение симптомов	—	0,68	0,73

Сравнение эффективности

Модель	Время вывода на запись (сек)	Стоимость на запись (USD)
Дистиллированный BioBERT	0,14	0,000187
GPT-4o	1,66 (+1086%)	0,0159 (+8402%)
o1-mini	0,58 (+314%)	0,0189 (+1001%)
Gemini Flash	1,17 (+736%)	0,000460 (+146%)

Результаты внешней валидации

Производительность на наборе данных MedAlign:

Извлечение лекарств: F1 = 0,883
Извлечение заболеваний: F1 = 0,726
Извлечение симптомов: F1 = 0,699

Анализ ошибок

Путём ручного анализа выявлено, что большинство ложных срабатываний фактически обусловлены ошибками в наборе аннотаций:

Извлечение симптомов: 82,05% ложных срабатываний фактически являются правильной аннотацией
Извлечение лекарств: 62,93% ложных срабатываний фактически являются правильной аннотацией
Извлечение заболеваний: 73,33% ложных срабатываний фактически являются правильной аннотацией

Экспериментальные выводы

Иерархия производительности: Ручные метки + микронастройка > Дистилляция с метками учителей > Прямое предсказание учителей
Ограниченная роль онтологий: Аннотаторы онтологий не входят в оптимальные комбинации для извлечения симптомов
Преимущества BioBERT: Показывает лучшую производительность в большинстве задач
Значительное соотношение затрат и выгод: Дистиллированная модель дешевле LLM в 2-101 раз и быстрее в 4-12 раз

Связанные работы

Направления исследований клинического NER

Традиционные методы: Методы, основанные на правилах и онтологиях, такие как UMLS
Методы глубокого обучения: Модели типа BERT, включая специфичные для предметной области варианты BioBERT, ClinicalBERT и т.д.
Методы слабого контроля: Такие как TROVE, использующие онтологию UMLS для генерации слабых меток для обучения моделей BERT

Исследования дистилляции знаний

Универсальная дистилляция: Дистилляция из GPT-4 в модели среднего размера, такие как LLaMA
Дистилляция в медицинской области: Успешное применение DistilFLERT и дистиллированного PubMedBERT в медицинских приложениях

Преимущества данной работы по сравнению с связанными исследованиями

Слияние нескольких учителей: Систематическая оценка эффектов комбинирования LLM и онтологий
Валидация между областями: Проверка способности к обобщению на различных типах записей и системах здравоохранения
Комплексная оценка: Включение анализа соотношения затрат и выгод и детального анализа ошибок

Выводы и обсуждение

Основные выводы

Дистиллированная модель BERT в задачах клинического NER может достичь производительности, близкой к производительности больших LLM, при значительно более низких вычислительных затратах и времени вывода, предоставляя практическое решение для извлечения клинической информации.

Ограничения

Неравномерное качество учителей: Особенно значительные вариации в качестве аннотации симптомов
Ограниченные типы сущностей: Охват только трёх типов сущностей, без процедур, социальных детерминант и т.д.
Отсутствие сложных задач: Отсутствие обработки состояния утверждения (например, отрицание) или задач извлечения отношений
Недостаточная инженерия подсказок: Все LLM используют одинаковые подсказки без специфичной оптимизации
Качество тестового набора: Наличие проблем с согласованностью аннотаций

Направления будущих исследований

Расширение на большее количество типов сущностей и сложные задачи NER
Улучшение стратегий инженерии подсказок
Исследование более продвинутых методов дистилляции
Повышение качества аннотации тестового набора

Глубокая оценка

Преимущества

Высокая практическая применимость: Решение проблемы высокой стоимости развёртывания LLM
Систематический подход: Комплексная оценка различных стратегий комбинирования учителей
Достаточная валидация: Включение внешней валидации и детального анализа ошибок
Открытость и прозрачность: Предоставление кода и детальных параметров экспериментов
Количественная оценка затрат: Предоставление конкретных данных сравнения времени и затрат

Недостатки

Ограниченная новизна: Дистилляция знаний сама по себе не является новой технологией; основной вклад находится на уровне приложений
Недостаточное сравнение с базовыми методами: Отсутствие прямого сравнения с другими методами дистилляции
Отсутствие теоретического анализа: Недостаточное углубление в анализ того, почему определённые комбинации учителей работают лучше
Ограничения применимости: Основное внимание сосредоточено на английских клинических текстах; способность к обобщению требует проверки

Влияние

Высокая практическая ценность: Предоставление осуществимого решения для развёртывания клинического NLP
Хорошая воспроизводимость: Предоставление полного кода и информации о наборах данных
Большой потенциал распространения: Метод может быть расширен на другие задачи медицинского NLP
Значимость для приложений, чувствительных к затратам: Важное значение для сред с ограниченными ресурсами

Применимые сценарии

Системы информации больниц: Требующие обработки больших объёмов клинических записей в реальном времени
Научные учреждения: С ограниченными вычислительными ресурсами, но требующие высокого качества NER
Медицинские AI-продукты: Требующие баланса между производительностью и стоимостью развёртывания
Расширение на другие языки: Может служить основой для клинического NER на других языках

Библиография

Статья цитирует 61 связанную работу, включая:

Работы, связанные с BERT: Devlin et al. (2019), Lee et al. (2020) BioBERT
Дистилляция знаний: Hinton et al. (2015), Zhou et al. (2024)
Клинический NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
Медицинские онтологии: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm

Данное исследование предоставляет практическое и эффективное решение для области извлечения клинической информации, успешно балансируя производительность модели и стоимость развёртывания посредством технологии дистилляции знаний, обладая важной практической ценностью и значительным потенциалом распространения.