Большие языковые модели, дополненные поиском (RAG-LLMs), демонстрируют превосходную производительность в медицинской области благодаря интеграции внешних знаний, особенно в клинической диагностике. Однако существующие методы RAG испытывают трудности при адаптации стратегий поиска в соответствии со сложностью диагностики и полнотой информации входных образцов, что приводит к чрезмерному и ненужному поиску, снижает вычислительную эффективность и увеличивает риск введения шума, тем самым снижая точность диагностики. Для решения этой проблемы предлагается ICA-RAG (адаптивное поиск-дополненное генерирование, направляемое полнотой информации) — новая структура для повышения надежности RAG при диагностике заболеваний. ICA-RAG использует модуль адаптивного управления для оценки необходимости поиска на основе полноты информации входных данных, оптимизируя поиск и фильтрацию знаний для лучшего согласования операций поиска с клиническими потребностями. Эксперименты на трех китайских наборах данных электронных медицинских записей (ЭМЗ) демонстрируют значительное превосходство ICA-RAG над базовыми методами, подчеркивая его эффективность в клинической диагностике.
Большие языковые модели сталкиваются с двумя основными проблемами в медицинских задачах:
Прямая диагностика заболевания: дана последовательность токенов, представляющая входной текст , генерирование текста LLM можно формализовать как:
Диагностика заболевания с RAG: извлечение соответствующих знаний из внешних источников знаний и их интеграция: где
Адаптивная диагностика заболевания с RAG: введение управляющей функции F для оценки входных данных Q:
\text{LLM}(Q, \text{prompt}), & \text{если } F(Q) = \langle\text{Activate}\rangle \\ \text{LLM}(Q, d, \text{prompt}), & \text{в противном случае} \end{cases}$$ ### Архитектура модели Структура ICA-RAG включает три основных этапа: #### Этап (a): Оптимизация решения о поиске на основе полноты информации входных данных 1. **Разделение текста**: разделение входных данных Q на текстовые единицы (по умолчанию — предложения): $Q = \{s_i\}_{i=1}^n$ 2. **Классификация важности**: обучение классификатора для предсказания важности каждой единицы: $$l_i = \text{Classifier}(s_i) \quad \forall i \in \{1, 2, ..., n\}$$ Метки разделены на три категории: - A: критическая информация для принятия диагностического решения - B: информация, положительно способствующая поиску, но не позволяющая прямо вывести результат - C: относительно неважная информация 3. **Расчет полноты информации**: $$I_{\text{norm}}(Q) = \frac{1}{\alpha \cdot n} \sum_{i=1}^n (\alpha \cdot I(l_i = A) + \beta \cdot I(l_i = B) + \gamma \cdot I(l_i = C))$$ #### Этап (b): Поиск на основе разделения документов и отображения 1. **Поиск на уровне предложений**: каждое предложение используется как запрос для извлечения топ-m релевантных текстовых блоков 2. **Переранжирование на уровне документов**: подсчет количества блоков каждого документа, извлеченных для переранжирования 3. **Стратегия отображения**: отображение текстовых блоков обратно в исходные документы и переранжирование на основе подсчета блоков #### Этап (c): Фильтрация знаний и генерирование диагностики, направляемые подсказками Использование шаблона подсказки дифференциальной диагностики для фильтрации нерелевантных документов, имитируя процесс дифференциальной диагностики врача. ### Технические инновации 1. **Оценка полноты информации**: преобразование сложного понимания документов в простую задачу на уровне предложений 2. **Стратегия аннотирования с маскированием**: автоматическое получение обучающих меток путем операций маскирования последовательности 3. **Переранжирование отображения блок-документ**: расчет только на основе численных результатов поиска, снижение затрат памяти 4. **Фильтрация дифференциальной диагностики**: имитация процесса клинической дифференциальной диагностики для фильтрации нерелевантной информации ## Экспериментальная установка ### Наборы данных - **CMEMR**: набор данных китайских электронных медицинских записей - **ClinicalBench**: клинический эталонный набор данных - **CMB-Clin**: китайский медицинский эталонный клинический набор данных Все наборы данных настроены как задачи сквозной диагностики с информацией о пациентах в качестве входных данных и диагностическими выводами врача в качестве истинных меток. ### Метрики оценки Использование стандартизированной терминологии заболеваний в соответствии с Международной классификацией болезней (МКБ-10), расчет точности, полноты и F1-оценки на уровне набора с использованием нечеткого совпадения (порог 0,5). ### Методы сравнения 1. **Методы без поиска**: CoT, SC-CoT, ATP 2. **Методы стандартного поиска**: RAG2, LongRAG 3. **Методы адаптивного поиска**: Adaptive-RAG, DRAGIN, SEAKR ### Детали реализации - **Основная модель**: qwen2.5-7B-instruct - **Классификатор**: BERT-base-Chinese - **Поисковая система**: BM25 - **Внешняя база знаний**: база данных клинических медицинских знаний CMKD ## Результаты экспериментов ### Основные результаты | Метод | CMEMR F1(%) | ClinicalBench F1(%) | CMB-Clin F1(%) | |------|-------------|---------------------|-----------------| | CoT | 48.82 | 38.46 | 52.14 | | LongRAG | 49.07 | 39.25 | 51.81 | | Adaptive-RAG | 49.27 | 38.04 | 53.44 | | **ICA-RAG** | **50.88** | **40.79** | **53.53** | Ключевые выводы: 1. ICA-RAG достигает оптимальных или близких к оптимальным оценок F1 на всех наборах данных 2. По сравнению с LongRAG значения F1 улучшены на 1,81%, 1,54% и 1,72% соответственно 3. Значительно превосходит другие методы адаптивного RAG ### Абляционные эксперименты Результаты абляции на наборе данных CMEMR: | Вариант | F1(%) | Величина снижения | |------|-------|----------| | ICA-RAG | 50.88 | - | | без решения | 48.07 | -2.81% | | без блока | 49.78 | -1.10% | | без M-переранжирования | 49.59 | -1.29% | | без дифференциала | 49.85 | -1.03% | ### Анализ эффективности - **Временная эффективность**: значительное улучшение по сравнению с неадаптивными методами RAG - **Эффективность параметров**: классификатор BERT-Base (110M параметров) более легкий, чем T5-Large (770M параметров) в Adaptive-RAG - **Применимость**: не требует доступа к распределению вероятностей выходов LLM, применим к закрытым моделям и развертыванию через API ## Связанные работы ### Применение RAG в клинической диагностике заболеваний - Большинство исследований используют базовые методы поиска, кодируя внешние знания и запросы задач с помощью моделей встраивания - Графы знаний также широко применяются - Отсутствует оптимизация, учитывающая специфику медицинской области ### Адаптивный RAG - **FLARE и DRAGIN**: активация поиска при генерировании LLM токенов с низкой уверенностью - **Self-RAG**: обучение модели динамическому поиску, критике и генерированию текста - **Adaptive-RAG**: оценка сложности запроса для определения необходимости поиска - Существующие методы в основном ориентированы на задачи вопросно-ответного характера и плохо переносятся на медицинскую диагностику ## Заключение и обсуждение ### Основные выводы ICA-RAG эффективно решает проблему жесткой стратегии поиска в традиционных методах поиск-дополненного генерирования путем оптимизации адаптивного решения о поиске на основе полноты информации входных данных, демонстрируя сильную адаптивность в сложных клинических сценариях. ### Ограничения 1. **Ограничения стратегии аннотирования**: из-за возможного повторения содержимого в информации пациента LLM может по-прежнему дать правильный диагноз после маскирования ключевых предложений, что приводит к неточным меткам аннотирования 2. **Сложность медицинского текста**: клинический медицинский текст содержит сокращения, синонимы и альтернативные названия, способ записи различается между врачами, влияя на точность поиска 3. **Необходимость ручной проверки**: стратегия автоматического аннотирования по-прежнему требует ручной проверки и исправления ### Будущие направления 1. Исследование более эффективных стратегий предварительной обработки медицинского текста для улучшения качества поиска 2. Применение ICA-RAG к другим медицинским задачам 3. Дальнейшая оптимизация процесса поиска ## Глубокая оценка ### Преимущества 1. **Высокая инновационность**: впервые предложен механизм адаптивного решения о поиске на основе полноты информации 2. **Высокая практичность**: не требует настройки основной LLM, высокая применимость 3. **Полные эксперименты**: комплексная оценка и абляционные эксперименты на нескольких наборах данных 4. **Повышение эффективности**: значительное улучшение вычислительной эффективности при сохранении производительности ### Недостатки 1. **Ограничение наборов данных**: проверка только на китайских наборах данных ЭМЗ, отсутствие кроссязычной и кроссдоменной проверки 2. **Качество аннотирования**: стратегия автоматического аннотирования содержит шум, требует ручного вмешательства 3. **Установка пороговых значений**: установка пороговых значений полноты информации θ₁ и θ₂ лишена теоретического обоснования 4. **Зависимость от базы знаний**: производительность в значительной степени зависит от качества внешней базы знаний ### Влияние 1. **Академический вклад**: предоставляет новые идеи для применения RAG в области медицинского ИИ 2. **Практическая ценность**: может быть непосредственно применен в системах поддержки клинических решений 3. **Воспроизводимость**: подробное описание методов, четкая постановка экспериментов ### Применимые сценарии 1. **Клиническая диагностика**: особенно подходит для случаев со сложными симптомами, требующих дифференциальной диагностики 2. **Системы медицинских вопросов и ответов**: может повысить точность и эффективность систем медицинских консультаций 3. **Медицинское образование**: может служить вспомогательным инструментом для обучения студентов-медиков ## Библиография Статья цитирует 41 соответствующий источник, охватывающий важные работы в нескольких областях, включая большие языковые модели, поиск-дополненное генерирование и медицинский ИИ, обеспечивая прочную теоретическую основу для исследования. --- **Общая оценка**: это высококачественная статья с важным вкладом в область медицинского ИИ. Авторы предлагают инновационное решение ограничений существующих методов RAG в медицинской диагностике и подтверждают эффективность метода посредством полных экспериментов. Несмотря на некоторые ограничения, его инновационность и практичность делают его важным прогрессом в этой области.