2025-11-12T04:28:10.201322

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation

Wang, Wang, Wu et al.

Constrained by the cost and ethical concerns of involving real seekers in AI-driven mental health, researchers develop LLM-based conversational agents (CAs) with tailored configurations, such as profiles, symptoms, and scenarios, to simulate seekers. While these efforts advance AI in mental health, achieving more realistic seeker simulation remains hindered by two key challenges: dynamic evolution and multi-session memory. Seekers' mental states often fluctuate during counseling, which typically spans multiple sessions. To address this, we propose AnnaAgent, an emotional and cognitive dynamic agent system equipped with tertiary memory. AnnaAgent incorporates an emotion modulator and a complaint elicitor trained on real counseling dialogues, enabling dynamic control of the simulator's configurations. Additionally, its tertiary memory mechanism effectively integrates short-term and long-term memory across sessions. Evaluation results, both automated and manual, demonstrate that AnnaAgent achieves more realistic seeker simulation in psychological counseling compared to existing baselines. The ethically reviewed and screened code can be found on https://github.com/sci-m-wang/AnnaAgent.

academic

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation

基本信息

论文ID: 2506.00551
标题: AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation
作者: Ming Wang, Peidong Wang, Lin Wu, Xiaocui Yang, Daling Wang, Shi Feng, Yuxin Chen, Bixuan Wang, Yifei Zhang
分类: cs.CL cs.AI
发表时间: 2025年6月10日（arXiv预印本）
论文链接: https://arxiv.org/abs/2506.00551

摘要

由于在AI驱动的心理健康研究中涉及真实求助者存在成本和伦理问题，研究人员开发了基于LLM的对话代理(CA)来模拟求助者，使用定制的配置如个人档案、症状和场景。尽管这些努力推进了AI在心理健康领域的应用，但实现更真实的求助者模拟仍面临两个关键挑战：动态演化和多会话记忆。求助者的心理状态在通常跨越多个会话的咨询过程中经常波动。为解决这一问题，本文提出AnnaAgent，一个配备三级记忆的情感和认知动态代理系统。AnnaAgent集成了基于真实咨询对话训练的情感调节器和主诉引导器，能够动态控制模拟器的配置。此外，其三级记忆机制有效整合了跨会话的短期和长期记忆。评估结果表明，AnnaAgent在心理咨询中实现了比现有基线更真实的求助者模拟。

研究背景与动机

问题定义

本研究要解决的核心问题是如何在AI驱动的心理健康研究中更真实地模拟求助者行为。具体而言：

成本和伦理限制：涉及大量真实求助者进行研究不仅成本高昂，还可能带来伦理问题
现有模拟方法的不足：当前基于LLM的对话代理在模拟求助者时存在情感平淡、容易接受建议等问题
缺乏动态性：现有方法无法模拟求助者在咨询过程中的情感波动和认知变化
多会话记忆缺失：心理咨询通常是长期、多会话的过程，但现有方法缺乏跨会话的记忆机制

研究重要性

心理健康问题是当今社会面临的重要挑战，而训练有素的治疗师数量有限。AI技术在心理健康支持方面具有巨大潜力，但需要更真实的求助者模拟来：

进行数据构建和效果评估
训练心理咨询师
开展心理学研究和实验

现有方法局限性

通过文献调研，作者发现现有的求助者模拟方法存在以下问题：

静态配置：情感和症状认知在整个咨询过程中保持不变
缺乏记忆机制：无法处理涉及前次会话内容的对话
行为不真实：容易认同建议、过于顺从、情感表达平淡

核心贡献

首次提出动态演化和多会话记忆两个关键挑战，并将动态演化形式化为情感和主诉的变化，将多会话记忆分为不同阶段
设计了AnnaAgent系统：一个具有三级记忆的情感和认知动态代理系统，通过控制对话中的情感和症状认知变化来模拟咨询中的动态演化
验证了系统有效性：通过实验评估证明AnnaAgent能够更真实地模拟心理咨询中的求助者行为

方法详解

任务定义

求助者模拟任务需要为LLM分配角色配置，包括：

Profile：基本个人信息（年龄、性别、职业等）
Complaint：求助者对症状的认知和主要问题
Situation：生活环境和经历的事件
Status：身体和心理相关状态
Emotion：期望的情感响应风格

模型架构

AnnaAgent采用多代理系统架构，包含两个主要代理组：

1. 动态演化控制组

情感调节：

情感推理器：基于Qwen2.5-7B-Instruct训练，使用D4数据集学习真实咨询中的情感演化模式
情感扰动器：引入随机扰动避免固化的情感变化模式，根据情感距离分配概率权重：

$P(emo_T) = \frac{w(d(G_T, G_B) \times |G_T|)}{\sum_{G_j} w(d(G_B, G_j)) \times |G_j|}$

其中 $G_B$ 和 $G_T$ 分别表示基础和目标情感组， $d(\cdot)$ 表示情感组间距离。

主诉引导：

主诉链生成：基于求助者配置和近期事件生成主诉变化链
主诉切换控制：通过算法判断是否切换到链中下一阶段的主诉

2. 三级记忆调度组

实时记忆：当前会话的对话内容
短期记忆：近期事件和状态变化，通过自我报告量表捕获
长期记忆：前次会话的对话和量表记录，通过Agentic RAG调度

技术创新点

动态演化建模：首次将求助者的动态变化形式化为情感和主诉两个维度的演化
三级记忆机制：参考记忆理论设计的时间分层记忆系统
数据驱动的演化学习：基于真实咨询数据训练情感和主诉变化模型
多代理协调：通过代理间协作实现复杂的动态控制和记忆调度

实验设置

数据集

D4数据集：中文抑郁症诊断导向对话数据集
DAIC-WOZ数据集：英文心理健康对话数据集
使用GPT-4o进行数据标注，邀请3名心理学专家审核主诉链数据

评价指标

拟人化程度(Anthropomorphism)：使用BERT-score评估模拟器话语与真实求助者的一致性
人格保真度(Personality Fidelity)：设计访谈问题，使用G-Eval评分评估配置匹配度
前次会话认知准确性：评估长期记忆的有效性

对比方法

选择三个基线方法：

Chen et al. (2023a)
Duro et al. (2024)
Qiu and Lan (2024)

实现细节

骨干模型：Qwen2.5-7B-Instruct
咨询师模型：PsycoLLM、EmoLLM、SoulChat
情感分类：基于GoEmotions情感类别
量表工具：SCL-90、BDI、SAAS等自我报告量表

实验结果

主要结果

拟人化程度对比：在D4和DAIC数据集上，AnnaAgent在与不同咨询师模型对话时均取得最佳或次佳表现：

数据集	咨询师	Chen et al.	Duro et al.	Qiu & Lan	AnnaAgent
D4	PsycoLLM	0.6293	0.6455	0.6866	0.6691
D4	EmoLLM	0.6529	0.6469	0.6449	0.6649
DAIC	PsycoLLM	0.3458	0.4864	0.3426	0.4910

人格保真度：AnnaAgent在G-Eval评分中整体优于基线方法。

消融实验

动态演化消融：移除动态演化组件后，F1分数从0.6691降至0.6144（D4数据集）
长期记忆消融：移除长期记忆显著降低了虚拟求助者对前次会话的认知准确性

泛化性研究

在GPT-4o-mini和Llama-3.1-8B-Instruct上的实验表明，AnnaAgent具有良好的跨模型稳定性，相对标准差均小于10%。

相关工作

LLM在心理健康中的应用

对话系统：ChatCounselor、Serena等提供心理健康咨询支持
诊断和治疗：提高诊断准确性、治疗效果和服务可及性

传统求助者模拟

标准化患者：真人扮演，成本高但更真实
虚拟求助者：成本低但真实性不足

LLM角色扮演

角色知识构建：通过细粒度角色信息和情感标注
个性化训练：结合人格特质信息的条件指令调优

结论与讨论

主要结论

AnnaAgent成功解决了求助者模拟中的动态演化和多会话记忆挑战
基于真实数据训练的情感和主诉演化模型能有效提升模拟真实性
三级记忆机制在处理跨会话信息方面表现出色

局限性

形式化简化：为技术实现的便利，对动态演化过程进行了一定程度的形式化简化
记忆系统粗糙：三级记忆系统的协调机制仍较为初级
数据依赖：高度依赖真实咨询数据的质量和数量

未来方向

更细粒度的动态演化建模
更复杂的多会话记忆协调机制
扩展到更多心理健康场景和语言

深度评价

优点

问题识别准确：首次明确提出动态演化和多会话记忆两个核心挑战
方法设计合理：多代理系统架构清晰，各模块功能明确
实验充分：包含主要结果、消融实验和泛化性验证
实用价值高：为心理健康AI研究提供重要工具

不足

理论深度有限：缺乏对动态演化机制的深层心理学理论分析
评估指标单一：主要依赖自动化指标，缺乏专业心理学家的人工评估
伦理考虑不足：虽然提及伦理审查，但对潜在滥用风险的讨论不够深入

影响力

学术贡献：为AI心理健康领域提供新的研究方向和基准
实用价值：可用于咨询师培训、心理学研究等多个场景
可复现性：提供开源代码，便于研究复现和扩展

适用场景

心理咨询师培训和评估
心理健康对话系统开发
心理学研究和实验
心理健康数据增强

参考文献

论文引用了丰富的相关工作，包括：

心理健康AI应用的综述性工作
LLM角色扮演和多代理系统研究
心理咨询和标准化患者相关研究
记忆理论和RAG技术文献

总体评价：这是一篇在AI心理健康领域具有重要贡献的论文，首次系统性地解决了求助者模拟中的关键技术挑战。虽然在理论深度和评估方面还有改进空间，但其创新性方法和实用价值使其成为该领域的重要进展。