Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
- ID статьи: 2501.01305
- Название: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
- Авторы: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
- Классификация: cs.CL (Вычислительная лингвистика)
- Дата публикации: 2 января 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.01305
- Учреждения: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology
Большие языковые модели (LLMs) привлекают все большее внимание медицинских специалистов в качестве вспомогательного средства для диагностической оценки, обещая облегчить нагрузку на системы здравоохранения, вызванную перегруженностью пациентов и нехваткой поставщиков медицинских услуг. Для того чтобы LLMs эффективно поддерживали диагностическую оценку, они должны быть способны тесно воспроизводить стандартные диагностические процедуры, используемые клиницистами. В данной работе специально исследуется процесс диагностической оценки с использованием опросника здоровья пациента-9 (PHQ-9) для большого депрессивного расстройства (БДР) и опросника генерализованного тревожного расстройства-7 (GAD-7) для генерализованного тревожного расстройства (ГТР). Исследование изучает различные методы подсказок и тонкой настройки для направления проприетарных и открытых LLMs в соответствии с этими диагностическими процедурами и оценивает согласованность между диагностическими результатами, генерируемыми LLMs, и проверенными экспертами эталонными стандартами.
- Нагрузка на систему здравоохранения: Современная система здравоохранения сталкивается с двойным давлением перегруженности пациентов и нехватки поставщиков медицинских услуг
- Потребность в диагностике психического здоровья: Растущие проблемы психического здоровья требуют стандартизированных инструментов диагностической оценки
- Потенциал LLMs в здравоохранении: Большие языковые модели демонстрируют отличные результаты в задачах обработки естественного языка и имеют потенциал применения в сценариях медицинского диалога
- Стандартизированная диагностика: PHQ-9 и GAD-7 являются широко используемыми в клинической практике стандартизированными инструментами оценки
- Потребность в автоматизации: Автоматизация диагностической оценки с помощью LLMs может снизить нагрузку на клиницистов
- Требование согласованности: LLMs должны быть способны воспроизводить стандартные диагностические процедуры клиницистов для практического применения
- Методы оценки: Основаны только на оценке релевантности текста, не хватает глубокого понимания
- Методы интерпретируемого ИИ: Использование суррогатных моделей LIME/SHAP, но с ограниченной клинической интерпретируемостью
- Идентификация текстовых фрагментов: Отсутствие специализированного руководства по конкретным диагностическим критериям
- Специализированная модель первого поколения: Предложена DiagnosticLlama, первая модель с тонкой настройкой на основе архитектуры Llama, специально разработанная для оценки диагностических стандартов
- Комплексная оценочная база: Установлена всеобъемлющая система оценки, охватывающая два основных класса методов: подсказки и тонкую настройку
- Высококачественный набор данных: Построен синтетический набор данных с аннотациями LLM, проверенный экспертами, способствующий соответствующим исследованиям
- Сравнение нескольких моделей: Систематическое сравнение производительности проприетарных моделей (GPT-3.5, GPT-4o) и открытых моделей (Llama-3.1-8b, Mixtral-8x7b)
- Стандартизированная методология: Предоставлены стандартизированные методы применения LLMs к диагностической оценке PHQ-9 и GAD-7
Входные данные: Текст постов в социальных сетях (в качестве прокси для взаимодействия пациента и клинициста)
Выходные данные: Идентификация текстовых фрагментов для каждого пункта PHQ-9/GAD-7 и определение наличия симптомов
Ограничения: Должно строго соответствовать стандартным диагностическим процедурам PHQ-9 и GAD-7
- Наивные подсказки: Прямые инструктивные подсказки
- Подсказки с примерами: Few-shot подсказки с предоставлением небольшого количества примеров
- Направляющие подсказки: Подсказки Chain-of-Thought с включением шагов рассуждения
- Базовая модель: MentalLlama (обучена на 105K инструкций по психическому здоровью)
- DiagnosticLlama: MentalLlama с тонкой настройкой с использованием HuggingFace AutoTrain на наборе данных PRIMATE
- Базовые данные: Использование набора данных PRIMATE (посты в социальных сетях + аннотации PHQ-9)
- Расширение GPT-4o: Использование GPT-4o для идентификации текстовых фрагментов, соответствующих симптомам
- Проверка экспертами: Три клинических эксперта проверили выходные данные GPT-4o (Cohen's Kappa: 0,74 для PHQ-9, 0,72 для GAD-7)
- Контроль качества: Сохранены только результаты аннотирования, согласованные экспертами
- Специфичная для симптомов подсказка: Специализированные шаблоны подсказок, разработанные для каждого симптома PHQ-9 и GAD-7
- Многоуровневая оценка: Двойная система оценки, объединяющая ранжирование hits@k и стандартные метрики классификации
- Согласованность между моделями: Проверка эффективности методологии на нескольких LLMs различных размеров и типов
- Клиническая валидация: Привлечение профессиональных клинических врачей для проверки качества, обеспечение клинической релевантности
- Набор данных PRIMATE: Содержит посты в социальных сетях и соответствующие аннотации PHQ-9
- Подмножество, проверенное экспертами:
- PHQ-9: 40 образцов с аннотациями GPT-4o, проверенные экспертами
- GAD-7: 17 образцов с аннотациями GPT-4o, проверенные экспертами
- Данные с аннотациями моделей: Результаты аннотирования несколькими моделями для всего 1034 постов
- Метрики ранжирования hits@k:
- hits@1: Процент попаданий, когда наиболее похожий текстовый фрагмент находится в топ-1 эталонного стандарта
- hits@5: Процент попаданий, когда наиболее похожий текстовый фрагмент находится в топ-5 эталонного стандарта
- Стандартные метрики классификации: Точность (Accuracy), Precision, Recall, F1-оценка
- Проприетарные модели: GPT-3.5-Turbo, GPT-4o-mini
- Открытые модели: Llama-3.1-8b, Mixtral-8x7b
- Модели с тонкой настройкой: MentalLlama, DiagnosticLlama
- Традиционные методы: BERT, MentalBERT, MentalRoBERTa
- Методы машинного обучения: Logistic Regression, Random Forest, XGBoost
- Использование HuggingFace AutoTrain для тонкой настройки без кода
- Применение одинаковой структуры подсказок ко всем моделям для обеспечения справедливого сравнения
- Случайный выбор тестового подмножества из-за ограничений бюджета и API
Производительность проприетарных моделей:
| Модель | hits@1 | hits@5 | Accuracy | Precision | Recall | F1-score |
|---|
| GPT-3.5-Turbo | 87% | 98% | 0,93 | 0,89 | 0,96 | 0,92 |
| GPT-4o-mini | 89% | 99% | 0,94 | 0,96 | 0,98 | 0,92 |
Производительность открытых моделей:
| Модель | hits@1 | hits@5 | Accuracy | Precision | Recall | F1-score |
|---|
| Llama-3.1-8b | 83% | 88% | 0,84 | 0,86 | 0,78 | 0,82 |
| Mixtral-8x7b | 92% | 99% | 0,92 | 0,96 | 0,95 | 0,93 |
Производительность моделей с тонкой настройкой:
| Модель | hits@1 | hits@5 | Accuracy | Precision | Recall | F1-score |
|---|
| MentalLlama | — | — | 0,82 | 0,83 | 0,63 | 0,75 |
| DiagnosticLlama | 68,3% | 76,2% | — | — | — | — |
Результаты GAD-7 демонстрируют аналогичные тенденции PHQ-9, при этом проприетарные и открытые модели приближаются к качеству аннотирования человеком.
- Различия в производительности моделей: Новое поколение LLMs значительно превосходит более старые версии
- Llama2-7b-chat: F1=0,663
- Mistral-instruct: F1=0,655
- Вызовы тонкой настройки: Тонкая настройка LLMs для профессиональных диагностических задач чрезвычайно сложна
- MentalLlama прямо повторяет входные данные, демонстрируя важность конфигурации тонкой настройки
- DiagnosticLlama показывает улучшения, но требует дальнейшей оптимизации
- Сравнение с традиционными методами:
- BERT: F1=0,69
- MentalBERT: F1=0,71
- MentalRoBERTa: F1=0,48
- Традиционные методы ML показывают худшую производительность (максимум XGBoost: F1=0,65)
Статья демонстрирует на конкретных примерах, как модели идентифицируют фрагменты текста, соответствующие симптомам PHQ-9, например, распознавание "I thought I set myself up for success. Now I believe I was dead wrong for joining" как соответствующего симптому "чувство себя неудачником".
- Методы оценки: Ранжирование оценки текста на основе релевантности к симптомам PHQ-9/GAD-7
- Методы интерпретируемого ИИ: Использование методов LIME/SHAP для клинической интерпретации выходных данных моделей BERT
- Идентификация текстовых фрагментов: Прогнозирование и суммирование текстовых фрагментов с сравнением с ручными аннотациями
- Специализированное руководство: Высокоспециализированное руководство по выходным данным модели, ориентированное на конкретные диагностические стандарты
- Новизна: Первая модель с тонкой настройкой на основе архитектуры Llama, специально разработанная для диагностики
- Систематичность: Систематическое сравнение двух основных классов методов: подсказок и тонкой настройки
- Эффективность обучения Few-shot: LLMs в режиме few-shot способны приближаться к качеству оценки профессиональных клинических врачей
- Различия в рассуждениях: Несмотря на близкие результаты, процесс рассуждения LLMs значительно отличается от процесса клинициста
- Вызовы тонкой настройки: Тонкая настройка LLMs для вспомогательной диагностики психического здоровья по-прежнему сталкивается с серьезными техническими проблемами
- Практический потенциал: Исследование предоставляет перспективное направление для облегчения нагрузки на систему здравоохранения
- Согласованность рассуждений: Ограниченное соответствие между процессом рассуждения LLMs и клинициста
- Размер данных: Относительно небольшой размер набора данных эталонного стандарта, проверенного экспертами
- Ограничения бюджета: Стоимость API ограничила масштабную экспериментальную проверку
- Сложность тонкой настройки: Тонкая настройка требует значительных ресурсов и настройки гиперпараметров
- Клиническое применение: Разработка приложений для клинических врачей
- Расширенная оценка: Расширение DiagnosticLlama на GAD-7, увеличение размера набора данных
- Сложные опросники: Поддержка структурированных опросников с нелинейной структурой (например, CSSRS)
- Ограничения безопасности: Интеграция терминологических ограничений и переписывания выходных данных для обеспечения безопасности
- Высокая клиническая релевантность: Прямое направление на широко используемые в клинической практике стандартизированные инструменты оценки
- Комплексная методология: Охватывает два основных подхода: подсказки и тонкую настройку
- Строгая оценка: Привлечение профессиональных клинических врачей для проверки, обеспечение надежности результатов
- Вклад в открытый исходный код: Предоставление моделей и наборов данных для использования сообществом
- Достаточные эксперименты: Систематическое сравнение нескольких моделей и метрик
- Размер набора данных: Относительно небольшой размер набора данных, проверенного экспертами, может повлиять на обобщаемость выводов
- Ограничение области применения: Охватывает только два заболевания (депрессия и тревожность), ограниченный охват
- Анализ рассуждений: Недостаточно глубокий анализ различий между процессом рассуждения LLMs и клинициста
- Анализ затрат и выгод: Отсутствует анализ экономической эффективности практического развертывания
- Этическое обсуждение: Недостаточное обсуждение этических проблем, связанных с ИИ-вспомогательной диагностикой психического здоровья
- Академическая ценность: Предоставляет важный справочный материал для применения LLMs в области психического здоровья
- Практическая ценность: Предоставляет техническую основу для развертывания систем ИИ-вспомогательной диагностики в медицинских учреждениях
- Социальное значение: Обещает облегчить проблему нехватки ресурсов психиатрической помощи
- Воспроизводимость: Открытый код и наборы данных поддерживают воспроизведение и расширение исследований
- Первичный скрининг: Подходит для масштабного первичного скрининга психического здоровья
- Вспомогательная диагностика: Служит вспомогательным инструментом для клинических врачей, а не заменой
- Телемедицина: Поддержка услуг удаленной психиатрической помощи
- Исследовательский инструмент: Предоставляет инструмент автоматизированного анализа для исследований психического здоровья
Статья ссылается на 29 соответствующих работ, охватывающих несколько связанных областей, включая LLMs, оценку психического здоровья, инженерию подсказок, методы тонкой настройки и другие, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это важная исследовательская работа в области применения LLMs к диагностике психического здоровья. Методология статьи научна, эксперименты полны, выводы надежны, и она вносит ценный вклад в развитие этой междисциплинарной области. Несмотря на некоторые ограничения, ее новаторское значение и практическая ценность делают ее важным справочным материалом в этой области.