2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

Большие языковые модели для диагностической оценки психического здоровья: Исследование потенциала больших языковых моделей в помощи диагностической оценке психического здоровья -- Случай депрессии и тревожности

Основная информация

ID статьи: 2501.01305
Название: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
Авторы: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01305
Учреждения: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

Аннотация

Большие языковые модели (LLMs) привлекают все большее внимание медицинских специалистов в качестве вспомогательного средства для диагностической оценки, обещая облегчить нагрузку на системы здравоохранения, вызванную перегруженностью пациентов и нехваткой поставщиков медицинских услуг. Для того чтобы LLMs эффективно поддерживали диагностическую оценку, они должны быть способны тесно воспроизводить стандартные диагностические процедуры, используемые клиницистами. В данной работе специально исследуется процесс диагностической оценки с использованием опросника здоровья пациента-9 (PHQ-9) для большого депрессивного расстройства (БДР) и опросника генерализованного тревожного расстройства-7 (GAD-7) для генерализованного тревожного расстройства (ГТР). Исследование изучает различные методы подсказок и тонкой настройки для направления проприетарных и открытых LLMs в соответствии с этими диагностическими процедурами и оценивает согласованность между диагностическими результатами, генерируемыми LLMs, и проверенными экспертами эталонными стандартами.

Исследовательский контекст и мотивация

Предпосылки проблемы

Нагрузка на систему здравоохранения: Современная система здравоохранения сталкивается с двойным давлением перегруженности пациентов и нехватки поставщиков медицинских услуг
Потребность в диагностике психического здоровья: Растущие проблемы психического здоровья требуют стандартизированных инструментов диагностической оценки
Потенциал LLMs в здравоохранении: Большие языковые модели демонстрируют отличные результаты в задачах обработки естественного языка и имеют потенциал применения в сценариях медицинского диалога

Значимость исследования

Стандартизированная диагностика: PHQ-9 и GAD-7 являются широко используемыми в клинической практике стандартизированными инструментами оценки
Потребность в автоматизации: Автоматизация диагностической оценки с помощью LLMs может снизить нагрузку на клиницистов
Требование согласованности: LLMs должны быть способны воспроизводить стандартные диагностические процедуры клиницистов для практического применения

Ограничения существующих подходов

Методы оценки: Основаны только на оценке релевантности текста, не хватает глубокого понимания
Методы интерпретируемого ИИ: Использование суррогатных моделей LIME/SHAP, но с ограниченной клинической интерпретируемостью
Идентификация текстовых фрагментов: Отсутствие специализированного руководства по конкретным диагностическим критериям

Основные вклады

Специализированная модель первого поколения: Предложена DiagnosticLlama, первая модель с тонкой настройкой на основе архитектуры Llama, специально разработанная для оценки диагностических стандартов
Комплексная оценочная база: Установлена всеобъемлющая система оценки, охватывающая два основных класса методов: подсказки и тонкую настройку
Высококачественный набор данных: Построен синтетический набор данных с аннотациями LLM, проверенный экспертами, способствующий соответствующим исследованиям
Сравнение нескольких моделей: Систематическое сравнение производительности проприетарных моделей (GPT-3.5, GPT-4o) и открытых моделей (Llama-3.1-8b, Mixtral-8x7b)
Стандартизированная методология: Предоставлены стандартизированные методы применения LLMs к диагностической оценке PHQ-9 и GAD-7

Подробное описание методологии

Определение задачи

Входные данные: Текст постов в социальных сетях (в качестве прокси для взаимодействия пациента и клинициста) Выходные данные: Идентификация текстовых фрагментов для каждого пункта PHQ-9/GAD-7 и определение наличия симптомов Ограничения: Должно строго соответствовать стандартным диагностическим процедурам PHQ-9 и GAD-7

Архитектура модели

1. Методы подсказок (Prompting Methods)

Наивные подсказки: Прямые инструктивные подсказки
Подсказки с примерами: Few-shot подсказки с предоставлением небольшого количества примеров
Направляющие подсказки: Подсказки Chain-of-Thought с включением шагов рассуждения

2. Методы тонкой настройки (Fine-tuning Methods)

Базовая модель: MentalLlama (обучена на 105K инструкций по психическому здоровью)
DiagnosticLlama: MentalLlama с тонкой настройкой с использованием HuggingFace AutoTrain на наборе данных PRIMATE

Процесс обработки данных

Создание набора данных эталонного стандарта

Базовые данные: Использование набора данных PRIMATE (посты в социальных сетях + аннотации PHQ-9)
Расширение GPT-4o: Использование GPT-4o для идентификации текстовых фрагментов, соответствующих симптомам
Проверка экспертами: Три клинических эксперта проверили выходные данные GPT-4o (Cohen's Kappa: 0,74 для PHQ-9, 0,72 для GAD-7)
Контроль качества: Сохранены только результаты аннотирования, согласованные экспертами

Технологические инновации

Специфичная для симптомов подсказка: Специализированные шаблоны подсказок, разработанные для каждого симптома PHQ-9 и GAD-7
Многоуровневая оценка: Двойная система оценки, объединяющая ранжирование hits@k и стандартные метрики классификации
Согласованность между моделями: Проверка эффективности методологии на нескольких LLMs различных размеров и типов
Клиническая валидация: Привлечение профессиональных клинических врачей для проверки качества, обеспечение клинической релевантности

Экспериментальная установка

Наборы данных

Набор данных PRIMATE: Содержит посты в социальных сетях и соответствующие аннотации PHQ-9
Подмножество, проверенное экспертами:
- PHQ-9: 40 образцов с аннотациями GPT-4o, проверенные экспертами
- GAD-7: 17 образцов с аннотациями GPT-4o, проверенные экспертами
Данные с аннотациями моделей: Результаты аннотирования несколькими моделями для всего 1034 постов

Метрики оценки

Метрики ранжирования hits@k:
- hits@1: Процент попаданий, когда наиболее похожий текстовый фрагмент находится в топ-1 эталонного стандарта
- hits@5: Процент попаданий, когда наиболее похожий текстовый фрагмент находится в топ-5 эталонного стандарта
Стандартные метрики классификации: Точность (Accuracy), Precision, Recall, F1-оценка

Методы сравнения

Проприетарные модели: GPT-3.5-Turbo, GPT-4o-mini
Открытые модели: Llama-3.1-8b, Mixtral-8x7b
Модели с тонкой настройкой: MentalLlama, DiagnosticLlama
Традиционные методы: BERT, MentalBERT, MentalRoBERTa
Методы машинного обучения: Logistic Regression, Random Forest, XGBoost

Детали реализации

Использование HuggingFace AutoTrain для тонкой настройки без кода
Применение одинаковой структуры подсказок ко всем моделям для обеспечения справедливого сравнения
Случайный выбор тестового подмножества из-за ограничений бюджета и API

Результаты экспериментов

Основные результаты

Результаты аннотирования симптомов PHQ-9

Производительность проприетарных моделей:

Модель	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
GPT-3.5-Turbo	87%	98%	0,93	0,89	0,96	0,92
GPT-4o-mini	89%	99%	0,94	0,96	0,98	0,92

Производительность открытых моделей:

Модель	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
Llama-3.1-8b	83%	88%	0,84	0,86	0,78	0,82
Mixtral-8x7b	92%	99%	0,92	0,96	0,95	0,93

Производительность моделей с тонкой настройкой:

Модель	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
MentalLlama	—	—	0,82	0,83	0,63	0,75
DiagnosticLlama	68,3%	76,2%	—	—	—	—

Результаты аннотирования симптомов GAD-7

Результаты GAD-7 демонстрируют аналогичные тенденции PHQ-9, при этом проприетарные и открытые модели приближаются к качеству аннотирования человеком.

Важные выводы

Различия в производительности моделей: Новое поколение LLMs значительно превосходит более старые версии
- Llama2-7b-chat: F1=0,663
- Mistral-instruct: F1=0,655
Вызовы тонкой настройки: Тонкая настройка LLMs для профессиональных диагностических задач чрезвычайно сложна
- MentalLlama прямо повторяет входные данные, демонстрируя важность конфигурации тонкой настройки
- DiagnosticLlama показывает улучшения, но требует дальнейшей оптимизации
Сравнение с традиционными методами:
- BERT: F1=0,69
- MentalBERT: F1=0,71
- MentalRoBERTa: F1=0,48
- Традиционные методы ML показывают худшую производительность (максимум XGBoost: F1=0,65)

Анализ примеров

Статья демонстрирует на конкретных примерах, как модели идентифицируют фрагменты текста, соответствующие симптомам PHQ-9, например, распознавание "I thought I set myself up for success. Now I believe I was dead wrong for joining" как соответствующего симптому "чувство себя неудачником".

Связанные работы

Основные направления исследований

Методы оценки: Ранжирование оценки текста на основе релевантности к симптомам PHQ-9/GAD-7
Методы интерпретируемого ИИ: Использование методов LIME/SHAP для клинической интерпретации выходных данных моделей BERT
Идентификация текстовых фрагментов: Прогнозирование и суммирование текстовых фрагментов с сравнением с ручными аннотациями

Преимущества данной работы

Специализированное руководство: Высокоспециализированное руководство по выходным данным модели, ориентированное на конкретные диагностические стандарты
Новизна: Первая модель с тонкой настройкой на основе архитектуры Llama, специально разработанная для диагностики
Систематичность: Систематическое сравнение двух основных классов методов: подсказок и тонкой настройки

Заключение и обсуждение

Основные выводы

Эффективность обучения Few-shot: LLMs в режиме few-shot способны приближаться к качеству оценки профессиональных клинических врачей
Различия в рассуждениях: Несмотря на близкие результаты, процесс рассуждения LLMs значительно отличается от процесса клинициста
Вызовы тонкой настройки: Тонкая настройка LLMs для вспомогательной диагностики психического здоровья по-прежнему сталкивается с серьезными техническими проблемами
Практический потенциал: Исследование предоставляет перспективное направление для облегчения нагрузки на систему здравоохранения

Ограничения

Согласованность рассуждений: Ограниченное соответствие между процессом рассуждения LLMs и клинициста
Размер данных: Относительно небольшой размер набора данных эталонного стандарта, проверенного экспертами
Ограничения бюджета: Стоимость API ограничила масштабную экспериментальную проверку
Сложность тонкой настройки: Тонкая настройка требует значительных ресурсов и настройки гиперпараметров

Будущие направления

Клиническое применение: Разработка приложений для клинических врачей
Расширенная оценка: Расширение DiagnosticLlama на GAD-7, увеличение размера набора данных
Сложные опросники: Поддержка структурированных опросников с нелинейной структурой (например, CSSRS)
Ограничения безопасности: Интеграция терминологических ограничений и переписывания выходных данных для обеспечения безопасности

Глубокая оценка

Преимущества

Высокая клиническая релевантность: Прямое направление на широко используемые в клинической практике стандартизированные инструменты оценки
Комплексная методология: Охватывает два основных подхода: подсказки и тонкую настройку
Строгая оценка: Привлечение профессиональных клинических врачей для проверки, обеспечение надежности результатов
Вклад в открытый исходный код: Предоставление моделей и наборов данных для использования сообществом
Достаточные эксперименты: Систематическое сравнение нескольких моделей и метрик

Недостатки

Размер набора данных: Относительно небольшой размер набора данных, проверенного экспертами, может повлиять на обобщаемость выводов
Ограничение области применения: Охватывает только два заболевания (депрессия и тревожность), ограниченный охват
Анализ рассуждений: Недостаточно глубокий анализ различий между процессом рассуждения LLMs и клинициста
Анализ затрат и выгод: Отсутствует анализ экономической эффективности практического развертывания
Этическое обсуждение: Недостаточное обсуждение этических проблем, связанных с ИИ-вспомогательной диагностикой психического здоровья

Влияние

Академическая ценность: Предоставляет важный справочный материал для применения LLMs в области психического здоровья
Практическая ценность: Предоставляет техническую основу для развертывания систем ИИ-вспомогательной диагностики в медицинских учреждениях
Социальное значение: Обещает облегчить проблему нехватки ресурсов психиатрической помощи
Воспроизводимость: Открытый код и наборы данных поддерживают воспроизведение и расширение исследований

Применимые сценарии

Первичный скрининг: Подходит для масштабного первичного скрининга психического здоровья
Вспомогательная диагностика: Служит вспомогательным инструментом для клинических врачей, а не заменой
Телемедицина: Поддержка услуг удаленной психиатрической помощи
Исследовательский инструмент: Предоставляет инструмент автоматизированного анализа для исследований психического здоровья

Список литературы

Статья ссылается на 29 соответствующих работ, охватывающих несколько связанных областей, включая LLMs, оценку психического здоровья, инженерию подсказок, методы тонкой настройки и другие, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это важная исследовательская работа в области применения LLMs к диагностике психического здоровья. Методология статьи научна, эксперименты полны, выводы надежны, и она вносит ценный вклад в развитие этой междисциплинарной области. Несмотря на некоторые ограничения, ее новаторское значение и практическая ценность делают ее важным справочным материалом в этой области.