2025-11-15T23:04:12.069621

GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study

Lorenzoni, Velmovitsky, Alencar et al.

Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming. In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance. Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity. These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.

academic

GPT-4 при оценке клинической депрессии: пилотное исследование на основе LLM

Основная информация

ID статьи: 2501.00199
Название: GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
Авторы: Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
Классификация: cs.CL (Вычислительная лингвистика), cs.AI (Искусственный интеллект)
Дата публикации: 31 декабря 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00199

Аннотация

Депрессия поражает миллионы людей во всем мире и является одним из наиболее распространенных психических расстройств. Ранее выявление психических заболеваний может сэкономить средства для учреждений общественного здравоохранения и предотвратить развитие других серьезных осложнений. Кроме того, нехватка специалистов является критической проблемой, поскольку диагностика клинической депрессии в высокой степени зависит от профессионалов и требует значительных временных затрат.

В данном исследовании изучается использование GPT-4 для оценки клинической депрессии на основе расшифровок интервью пациентов. Исследование проверяет способность модели классифицировать интервью пациентов в две категории (депрессия и отсутствие депрессии). Проводится сравнительный анализ с учетом сложности подсказок (простые и сложные подсказки) и различных параметров температуры для оценки влияния сложности подсказок и стохастичности на производительность модели.

Результаты показывают значительную вариативность точности и F1-оценки GPT-4 при различных конфигурациях, с наилучшей производительностью, наблюдаемой при низких значениях температуры (0,0–0,2) для сложных подсказок. Однако при превышении определенного порога (температура ≥ 0,3) связь между стохастичностью и производительностью становится непредсказуемой, что снижает преимущества сложности подсказок.

Предпосылки и мотивация исследования

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как использовать большую языковую модель GPT-4 для оказания помощи в клинической диагностике депрессии, в частности путем анализа расшифровок интервью пациентов для двоичной классификации (депрессия/отсутствие депрессии).

Значимость проблемы

Глобальное бремя здравоохранения: Депрессия является одним из наиболее распространенных психических расстройств в мире, поражающим миллионы людей
Ценность раннего выявления: Раннее обнаружение может значительно снизить медицинские расходы и предотвратить серьезные осложнения
Нехватка ресурсов: Острая нехватка специалистов в области психического здоровья, диагностический процесс зависит от экспертов и требует много времени
Технологические возможности: Развитие больших языковых моделей открывает новые возможности для автоматизации оценки психического здоровья

Ограничения существующих подходов

Традиционные методы машинного обучения: Основное внимание уделяется методам SVM, TextCNN и т.д., с ограниченным применением к набору данных DAIC-WOZ
Зависимость от инженерии признаков: Требуется ручное извлечение признаков, отсутствует сквозная автоматизация
Недостаточное применение LLM: Хотя существуют исследования по использованию LLM для выявления депрессии, отсутствуют систематические исследования инженерии подсказок и оптимизации параметров

Мотивация исследования

Путем систематического изучения применения GPT-4 в оценке клинической депрессии, с особым акцентом на стратегии инженерии подсказок и влияние параметров модели (таких как температура) на производительность, обеспечить эмпирическую основу для диагностики психического здоровья с помощью ИИ.

Основные вклады

Первое систематическое исследование применения GPT-4 в задаче двоичной классификации клинической депрессии на основе набора данных DAIC-WOZ с комплексной оценкой
Предложение прогрессивной стратегии инженерии подсказок, от простых подсказок к сложным подсказкам и далее к подсказкам, дополненным примерами, с систематическим анализом влияния различной сложности на производительность
Глубокий анализ влияния параметра температуры на стабильность и производительность модели, выявление оптимального диапазона температур 0,0–0,2
Раскрытие нелинейной связи между сложностью подсказок и стохастичностью, предоставление рекомендаций по оптимизации параметров для клинических приложений ИИ
Предоставление практических стратегий конфигурации для диагностики психического здоровья с помощью ИИ, подчеркивание важности снижения ложноотрицательных результатов в клинической среде

Подробное описание методов

Определение задачи

Входные данные: Расшифровки интервью пациентов (из набора данных DAIC-WOZ) Выходные данные: Результат двоичной классификации ("depressed" или "not depressed") Ограничения: Стандартизированные диагностические критерии на основе шкалы PHQ-8

Архитектура экспериментального дизайна

Исследование использует пятиэтапный прогрессивный экспериментальный дизайн:

RQ1: Базовая линия простой подсказки

Использование наиболее базовой подсказки классификации без какого-либо контекста или примеров в качестве базовой линии производительности.

RQ2: Подсказка, дополненная примерами

Добавление четырех примеров (два случая депрессии, два случая отсутствия депрессии) к простой подсказке, применение стратегии few-shot обучения.

RQ3: Дизайн сложной подсказки

Объединение примеров и подробного клинического контекста, имитация перспективы профессионального психопатолога, предоставление более богатой информации для руководства.

RQ4: Оптимизация параметра температуры

Систематическое тестирование влияния различных значений температуры (0,0, 0,1, 0,2, 0,3, 0,5) на производительность модели.

RQ5: Анализ стабильности

Анализ влияния вариативности выходных данных на надежность клинической диагностики GPT-4.

Технические инновации

Прогрессивный дизайн сложности подсказок: Систематический метод инженерии подсказок от простого к сложному
Моделирование связи температура-производительность: Первое систематическое исследование роли параметра температуры в задачах клинической классификации
Клинически ориентированная структура оценки: Акцент на снижение ложноотрицательных результатов в соответствии с клинической практикой
Прямой вывод без обучения: Полностью основано на способностях предварительно обученной модели к нулевому и малому обучению

Экспериментальная установка

Набор данных

DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)

Размер: 189 сеансов интервью, фактически использовано 184–188 (небольшие изменения из-за проблем с обработкой данных)
Аннотация: На основе шкалы PHQ-8, 56 случаев депрессии, примерно 130 случаев отсутствия депрессии
Тип данных: Расшифровки интервью
Распределение данных: Примерно 30% случаев депрессии, 70% случаев отсутствия депрессии (несбалансированный набор данных)

Метрики оценки

Точность (Accuracy): Общая правильность классификации
Точность (Precision): Доля истинно положительных среди предсказанных как депрессия
Полнота (Recall): Доля правильно выявленных среди фактически депрессивных
F1-оценка: Гармоническое среднее точности и полноты
Матрица ошибок: Подробное отображение распределения результатов классификации

Детали реализации

API интерфейс: OpenAI GPT-4 API
Среда программирования: Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
Диапазон температур: От 0,0 до 0,5 с интервалом 0,1
Выбор примеров: Сбалансированный выбор двух положительных и двух отрицательных случаев

Результаты экспериментов

Основные результаты

RQ1: Результаты базовой линии простой подсказки

Метрика	Значение
Точность	70,74%
Точность (Precision)	54,55%
Полнота (Recall)	10,71%
F1-оценка	17,91%

Матрица ошибок: 127 истинно отрицательных, 5 ложноположительных, 50 ложноотрицательных, 6 истинно положительных

RQ2: Результаты подсказки, дополненной примерами

Метрика	Значение
Точность	70,49%
Точность (Precision)	50,00%
Полнота (Recall)	77,78%
F1-оценка	60,87%

Ключевое открытие: Значительное повышение полноты до 77,78%, F1-оценка прыгает с 17,91% до 60,87%

RQ3: Результаты сложной подсказки

Метрика	Значение
Точность	69,23%
Точность (Precision)	48,39%
Полнота (Recall)	55,56%
F1-оценка	51,72%

Неожиданное открытие: Производительность сложной подсказки фактически снижается, возможно, из-за чрезмерной стохастичности, вводимой параметром температуры по умолчанию

RQ4: Результаты оптимизации температуры

Температура	Точность	Точность (Precision)	Полнота (Recall)	F1-оценка
0,0	72,28%	51,95%	74,07%	61,07%
0,1	73,37%	53,09%	79,63%	63,70%
0,2	71,74%	51,16%	81,48%	62,86%
0,3	67,93%	46,67%	64,81%	54,26%
0,5	68,48%	47,56%	72,22%	57,35%

Ключевые экспериментальные находки

Оптимальный диапазон температур: Диапазон 0,0–0,2 показывает наилучшую производительность, максимальная точность 73,37% и F1-оценка 63,70% достигаются при температуре 0,1
Нелинейная связь температура-производительность: При температуре ≥ 0,3 производительность значительно снижается с непредсказуемыми колебаниями
Значительный эффект обучения на примерах: Few-shot обучение повышает F1-оценку с 17,91% до 60,87%
Парадокс сложности: Чрезмерно сложные подсказки при параметре температуры по умолчанию фактически снижают производительность
Оптимизация клинических показателей: Параметры низкой температуры эффективно балансируют чувствительность и специфичность

Анализ абляционных экспериментов

Благодаря прогрессивному экспериментальному дизайну можно четко увидеть вклад каждого компонента:

Базовая способность классификации: Простая подсказка уже обладает определенной способностью классификации (70,74% точность)
Прирост от обучения на примерах: Few-shot обучение значительно повышает полноту (с 10,71% до 77,78%)
Ценность оптимизации температуры: Надлежащая установка температуры может дополнительно оптимизировать баланс производительности
Стоимость сложности: Чрезмерно инженерные подсказки могут вносить шум

Связанные работы

Традиционные методы машинного обучения

Существующие исследования в основном используют методы SVM, TextCNN и другие традиционные методы ML на наборе данных DAIC-WOZ для выявления депрессии, с акцентом на анализ речевых признаков и анализ тональности текста, но отсутствует сквозная автоматизация.

Применение LLM в области психического здоровья

Исследование E-DAIC: Использование LLM для прогнозирования оценок PHQ-8 с достижением средней абсолютной ошибки 3,65
Кроссдоменное применение LLM: Демонстрация потенциала в анализе тональности и задачах классификации в финансовой сфере, разработке программного обеспечения и других областях

Относительные преимущества данной работы

Систематическая инженерия подсказок: Первое систематическое исследование влияния сложности подсказок на клиническую классификацию
Анализ чувствительности параметров: Глубокое исследование роли параметра температуры в стабильности
Клинически ориентированный дизайн: Акцент на снижение ложноотрицательных результатов в соответствии с клинической практикой

Заключение и обсуждение

Основные выводы

GPT-4 имеет потенциал для классификации клинической депрессии: При надлежащей конфигурации может достичь точности 73,37% и F1-оценки 63,70%
Стратегии инженерии подсказок эффективны: Дополнение примерами значительно повышает производительность, особенно полноту
Параметр температуры имеет решающее значение: Диапазон низкой температуры 0,0–0,2 обеспечивает оптимальный баланс стабильности и производительности
Сложность требует осторожного баланса: Чрезмерно сложные подсказки могут вносить ненужную вариативность
Клиническое применение требует тонкой настройки: Конфигурация параметров оказывает значительное влияние на согласованность и надежность

Ограничения

Ограничение размера набора данных: Только 189 образцов, что может повлиять на обобщаемость результатов
Проблема дисбаланса данных: Уровень депрессии 30% значительно выше, чем в реальной популяции, что может привести к смещению
Единственный источник данных: Использование только набора данных DAIC-WOZ, отсутствие кроссдатасетной валидации
Влияние стохастичности: Присущая модели стохастичность может повлиять на согласованность результатов
Отсутствие профессиональной валидации: Отсутствие сравнения с диагностическими результатами клинических экспертов

Направления будущих исследований

Поколение с дополнением поиска (RAG): Интеграция внешних медицинских баз знаний для повышения диагностической точности
Микротонирование для конкретной области: Специальное обучение модели с использованием клинических данных
Мультимодальное слияние: Объединение информации из речи, видео и других модальностей
Стратегии контроля вариативности: Исследование методов агрегирования результатов нескольких прогонов
Крупномасштабная клиническая валидация: Валидация на более крупных и разнообразных клинических данных

Глубокая оценка

Преимущества

Строгий дизайн исследования: Прогрессивный экспериментальный дизайн четко демонстрирует влияние каждого фактора
Высокая практическая ценность: Предоставление практического руководства для диагностики психического здоровья с помощью ИИ
Глубокий анализ параметров: Систематическое исследование влияния параметра температуры на производительность
Четкая клиническая ориентация: Внимание к снижению ложноотрицательных результатов в соответствии с клинической практикой
Прозрачные и подробные результаты: Предоставление подробных матриц ошибок и показателей производительности

Недостатки

Небольшой размер выборки: 189 образцов относительно ограничены для исследований глубокого обучения
Отсутствие проверки статистической значимости: Не сообщается о статистической значимости результатов
Недостаточный контроль стохастичности: Не использовано усреднение нескольких прогонов для контроля случайной вариативности
Ограниченное сравнение с базовыми линиями: Отсутствие сравнения с другими LLM или традиционными методами
Отсутствие клинической валидации: Отсутствие сравнения с диагностикой реальных клинических экспертов

Влияние

Академический вклад: Предоставление важного справочника для применения LLM в области психического здоровья
Практическая ценность: Предоставление рекомендаций по конфигурации для разработки клинических инструментов ИИ
Методологическая ценность: Методы инженерии подсказок и оптимизации параметров могут быть распространены на другие клинические задачи
Политическое влияние: Предоставление эмпирической поддержки для нормативного регулирования и стандартизации ИИ в здравоохранении

Применимые сценарии

Клиническая вспомогательная диагностика: Использование в качестве вспомогательного инструмента для специалистов в области психического здоровья
Крупномасштабный скрининг: Проведение первоначального скрининга в регионах с ограниченными ресурсами
Телемедицина: Поддержка онлайн-услуг в области психического здоровья
Исследовательский инструмент: Использование для предварительной обработки данных при крупномасштабных исследованиях психического здоровья

Библиография

Статья цитирует 20 соответствующих источников, охватывающих:

Исследования, связанные с набором данных DAIC-WOZ
Применение традиционного машинного обучения при выявлении депрессии
Задачи классификации и генерации LLM в различных областях
Стандартизированные инструменты оценки психического здоровья (PHQ-8)

Общая оценка: Это высококачественное предварительное исследование, систематически изучающее потенциал GPT-4 в оценке клинической депрессии. Дизайн исследования обоснован, результаты экспериментов ценны и вносят значительный вклад в область диагностики психического здоровья с помощью ИИ. Несмотря на ограничения в размере выборки и методах валидации, исследование создает прочную основу для последующих работ.