2025-11-12T04:28:10.201322

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation

Wang, Wang, Wu et al.
Constrained by the cost and ethical concerns of involving real seekers in AI-driven mental health, researchers develop LLM-based conversational agents (CAs) with tailored configurations, such as profiles, symptoms, and scenarios, to simulate seekers. While these efforts advance AI in mental health, achieving more realistic seeker simulation remains hindered by two key challenges: dynamic evolution and multi-session memory. Seekers' mental states often fluctuate during counseling, which typically spans multiple sessions. To address this, we propose AnnaAgent, an emotional and cognitive dynamic agent system equipped with tertiary memory. AnnaAgent incorporates an emotion modulator and a complaint elicitor trained on real counseling dialogues, enabling dynamic control of the simulator's configurations. Additionally, its tertiary memory mechanism effectively integrates short-term and long-term memory across sessions. Evaluation results, both automated and manual, demonstrate that AnnaAgent achieves more realistic seeker simulation in psychological counseling compared to existing baselines. The ethically reviewed and screened code can be found on https://github.com/sci-m-wang/AnnaAgent.
academic

AnnaAgent: Система динамической эволюции агента с многосеансовой памятью для реалистичного моделирования обратившихся за помощью

Основная информация

  • ID статьи: 2506.00551
  • Название: AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation
  • Авторы: Ming Wang, Peidong Wang, Lin Wu, Xiaocui Yang, Daling Wang, Shi Feng, Yuxin Chen, Bixuan Wang, Yifei Zhang
  • Классификация: cs.CL cs.AI
  • Дата публикации: 10 июня 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2506.00551

Аннотация

Из-за затрат и этических проблем, связанных с привлечением реальных обратившихся за помощью в исследованиях психического здоровья на основе ИИ, исследователи разработали диалоговых агентов на основе LLM для моделирования обратившихся, используя настраиваемые конфигурации, такие как профиль, симптомы и сценарии. Несмотря на эти достижения в применении ИИ в области психического здоровья, достижение более реалистичного моделирования обратившихся сталкивается с двумя ключевыми вызовами: динамической эволюцией и многосеансовой памятью. Психическое состояние обратившихся часто колеблется в процессе консультирования, обычно охватывающем несколько сеансов. Для решения этой проблемы в статье предлагается AnnaAgent — система динамического эмоционального и когнитивного агента, оснащённая трёхуровневой памятью. AnnaAgent интегрирует регулятор эмоций и направляющий основной жалобы, обученные на реальных консультационных диалогах, что позволяет динамически управлять конфигурацией моделирующего агента. Кроме того, его трёхуровневый механизм памяти эффективно объединяет краткосрочную и долгосрочную память между сеансами. Результаты оценки показывают, что AnnaAgent обеспечивает более реалистичное моделирование обратившихся в психологическом консультировании по сравнению с существующими базовыми методами.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как более реалистично моделировать поведение обратившихся за помощью в исследованиях психического здоровья на основе ИИ. В частности:

  1. Затраты и этические ограничения: привлечение большого количества реальных обратившихся для исследований не только дорогостоящее, но и может вызвать этические проблемы
  2. Недостатки существующих методов моделирования: текущие диалоговые агенты на основе LLM при моделировании обратившихся демонстрируют эмоциональную плоскость, легко принимают советы и другие проблемы
  3. Отсутствие динамичности: существующие методы не могут моделировать эмоциональные колебания и когнитивные изменения обратившихся в процессе консультирования
  4. Отсутствие многосеансовой памяти: психологическое консультирование обычно представляет собой долгосрочный многосеансовый процесс, но существующие методы не имеют механизма памяти между сеансами

Значимость исследования

Проблемы психического здоровья являются важным вызовом, стоящим перед современным обществом, а количество подготовленных терапевтов ограничено. Технология ИИ имеет огромный потенциал в поддержке психического здоровья, но требует более реалистичного моделирования обратившихся для:

  • построения данных и оценки эффективности
  • подготовки психологических консультантов
  • проведения психологических исследований и экспериментов

Ограничения существующих методов

На основе анализа литературы авторы выявили следующие проблемы в существующих методах моделирования обратившихся:

  1. Статические конфигурации: эмоции и когнитивные симптомы остаются неизменными на протяжении всего процесса консультирования
  2. Отсутствие механизма памяти: невозможность обработки диалогов, содержащих информацию из предыдущих сеансов
  3. Нереалистичное поведение: легко согласиться с советами, чрезмерная покорность, плоское выражение эмоций

Основные вклады

  1. Первое выявление двух ключевых вызовов — динамической эволюции и многосеансовой памяти, формализация динамической эволюции как изменения эмоций и основной жалобы, разделение многосеансовой памяти на различные уровни
  2. Разработка системы AnnaAgent: система динамического эмоционального и когнитивного агента с трёхуровневой памятью, которая моделирует динамическую эволюцию в консультировании путём управления изменениями эмоций и когнитивных симптомов в диалоге
  3. Верификация эффективности системы: экспериментальная оценка доказывает, что AnnaAgent может более реалистично моделировать поведение обратившихся в психологическом консультировании

Подробное описание методологии

Определение задачи

Задача моделирования обратившихся требует назначения конфигурации роли для LLM, включающей:

  • Profile (профиль): основная личная информация (возраст, пол, профессия и т.д.)
  • Complaint (жалоба): понимание обратившимся своих симптомов и основные проблемы
  • Situation (ситуация): жизненная среда и пережитые события
  • Status (статус): физическое и психологическое состояние
  • Emotion (эмоция): ожидаемый стиль эмоционального ответа

Архитектура модели

AnnaAgent использует архитектуру многоагентной системы, включающую две основные группы агентов:

1. Группа управления динамической эволюцией

Регулирование эмоций:

  • Рассуждающий об эмоциях: обучен на Qwen2.5-7B-Instruct, использует набор данных D4 для изучения моделей эволюции эмоций в реальных консультациях
  • Возмущающий эмоции: вводит случайные возмущения для избежания фиксированных моделей изменения эмоций, назначает вероятностные веса на основе эмоционального расстояния:

P(emoT)=w(d(GT,GB)×GT)Gjw(d(GB,Gj))×GjP(emo_T) = \frac{w(d(G_T, G_B) \times |G_T|)}{\sum_{G_j} w(d(G_B, G_j)) \times |G_j|}

где GBG_B и GTG_T обозначают базовую и целевую эмоциональные группы соответственно, d()d(\cdot) обозначает расстояние между эмоциональными группами.

Направление основной жалобы:

  • Генерация цепи жалоб: генерирует цепь изменений жалоб на основе конфигурации обратившегося и недавних событий
  • Управление переключением жалоб: алгоритмически определяет, следует ли переключиться на следующий этап жалобы в цепи

2. Группа планирования трёхуровневой памяти

  • Оперативная память: содержание диалога текущего сеанса
  • Краткосрочная память: недавние события и изменения состояния, захватываемые через шкалы самоотчёта
  • Долгосрочная память: диалоги и записи шкал из предыдущих сеансов, планируемые через Agentic RAG

Технические инновации

  1. Моделирование динамической эволюции: первая формализация динамических изменений обратившихся как эволюции по двум измерениям — эмоциям и жалобам
  2. Трёхуровневый механизм памяти: система памяти с временной иерархией, разработанная на основе теории памяти
  3. Обучение эволюции на основе данных: обучение моделей изменения эмоций и жалоб на основе реальных данных консультаций
  4. Координация многоагентной системы: реализация сложного динамического управления и планирования памяти через сотрудничество агентов

Экспериментальная установка

Наборы данных

  • Набор данных D4: китайский набор данных диалогов, ориентированных на диагностику депрессии
  • Набор данных DAIC-WOZ: английский набор данных диалогов о психическом здоровье
  • Использование GPT-4o для аннотирования данных, привлечение 3 экспертов-психологов для проверки данных цепи жалоб

Показатели оценки

  1. Степень антропоморфизма (Anthropomorphism): использование BERT-score для оценки согласованности высказываний моделирующего агента с реальными обратившимися
  2. Верность личности (Personality Fidelity): разработка интервью-вопросов, использование оценки G-Eval для оценки соответствия конфигурации
  3. Точность когнитивной информации из предыдущего сеанса: оценка эффективности долгосрочной памяти

Методы сравнения

Выбраны три базовых метода:

  • Chen et al. (2023a)
  • Duro et al. (2024)
  • Qiu and Lan (2024)

Детали реализации

  • Базовая модель: Qwen2.5-7B-Instruct
  • Модель консультанта: PsycoLLM, EmoLLM, SoulChat
  • Классификация эмоций: на основе категорий эмоций GoEmotions
  • Инструменты шкал: SCL-90, BDI, SAAS и другие шкалы самоотчёта

Результаты экспериментов

Основные результаты

Сравнение степени антропоморфизма: На наборах данных D4 и DAIC AnnaAgent достигает лучших или близких к лучшим результатов при диалоге с различными моделями консультантов:

Набор данныхКонсультантChen et al.Duro et al.Qiu & LanAnnaAgent
D4PsycoLLM0.62930.64550.68660.6691
D4EmoLLM0.65290.64690.64490.6649
DAICPsycoLLM0.34580.48640.34260.4910

Верность личности: AnnaAgent в целом превосходит базовые методы по оценке G-Eval.

Абляционные эксперименты

  1. Абляция динамической эволюции: удаление компонента динамической эволюции приводит к снижению F1-оценки с 0.6691 до 0.6144 (набор данных D4)
  2. Абляция долгосрочной памяти: удаление долгосрочной памяти значительно снижает точность когнитивной информации виртуального обратившегося о предыдущих сеансах

Исследование обобщаемости

Эксперименты на GPT-4o-mini и Llama-3.1-8B-Instruct демонстрируют хорошую стабильность AnnaAgent между моделями, с относительным стандартным отклонением менее 10%.

Связанные работы

Применение LLM в области психического здоровья

  • Диалоговые системы: ChatCounselor, Serena и другие предоставляют поддержку в консультировании по психическому здоровью
  • Диагностика и лечение: повышение точности диагностики, эффективности лечения и доступности услуг

Традиционное моделирование обратившихся

  • Стандартизированные пациенты: реальные люди, более реалистично, но дорого
  • Виртуальные обратившиеся: дешево, но менее реалистично

Ролевое воплощение LLM

  • Построение ролевых знаний: через мелкозернистую информацию о роли и аннотирование эмоций
  • Персонализированное обучение: условная инструкционная настройка с информацией о личностных чертах

Заключение и обсуждение

Основные выводы

  1. AnnaAgent успешно решает вызовы динамической эволюции и многосеансовой памяти в моделировании обратившихся
  2. Модели эволюции эмоций и жалоб, обученные на реальных данных, эффективно повышают реалистичность моделирования
  3. Трёхуровневый механизм памяти демонстрирует отличные результаты при обработке информации между сеансами

Ограничения

  1. Формализационные упрощения: для удобства технической реализации процесс динамической эволюции подвергся определённому упрощению
  2. Грубость системы памяти: механизм координации трёхуровневой системы памяти остаётся на начальном уровне
  3. Зависимость от данных: высокая зависимость от качества и количества реальных данных консультаций

Направления будущих исследований

  1. Более мелкозернистое моделирование динамической эволюции
  2. Более сложные механизмы координации многосеансовой памяти
  3. Расширение на более широкий спектр сценариев психического здоровья и языков

Глубокая оценка

Преимущества

  1. Точное выявление проблемы: первое явное выделение двух ключевых вызовов — динамической эволюции и многосеансовой памяти
  2. Разумный дизайн метода: архитектура многоагентной системы ясна, функции каждого модуля определены
  3. Полные эксперименты: включают основные результаты, абляционные эксперименты и проверку обобщаемости
  4. Высокая практическая ценность: предоставляет важный инструмент для исследований ИИ в области психического здоровья

Недостатки

  1. Ограниченная теоретическая глубина: отсутствует глубокий анализ механизмов динамической эволюции с позиций психологической теории
  2. Однообразные показатели оценки: в основном полагаются на автоматизированные показатели, недостаточно человеческой оценки профессиональными психологами
  3. Недостаточное рассмотрение этических аспектов: хотя упоминается этическая экспертиза, обсуждение потенциальных рисков злоупотребления недостаточно глубоко

Влияние

  1. Академический вклад: предоставляет новое направление исследований и эталон для области ИИ в психическом здоровье
  2. Практическая ценность: может использоваться для подготовки консультантов, психологических исследований и других сценариев
  3. Воспроизводимость: предоставляет открытый исходный код, облегчающий воспроизведение и расширение исследований

Применимые сценарии

  • Подготовка и оценка психологических консультантов
  • Разработка диалоговых систем поддержки психического здоровья
  • Психологические исследования и эксперименты
  • Увеличение данных о психическом здоровье

Библиография

Статья цитирует богатый объём связанных работ, включая:

  • Обзорные работы по применению ИИ в психическом здоровье
  • Исследования ролевого воплощения LLM и многоагентных систем
  • Исследования психологического консультирования и стандартизированных пациентов
  • Литературу по теории памяти и технологии RAG

Общая оценка: Это статья с важным вкладом в область ИИ и психического здоровья, которая впервые систематически решает ключевые технические вызовы в моделировании обратившихся. Хотя есть место для улучшения в теоретической глубине и методах оценки, её инновационный подход и практическая ценность делают её важным прогрессом в данной области.