2025-11-12T04:28:10.201322

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation

Wang, Wang, Wu et al.

Constrained by the cost and ethical concerns of involving real seekers in AI-driven mental health, researchers develop LLM-based conversational agents (CAs) with tailored configurations, such as profiles, symptoms, and scenarios, to simulate seekers. While these efforts advance AI in mental health, achieving more realistic seeker simulation remains hindered by two key challenges: dynamic evolution and multi-session memory. Seekers' mental states often fluctuate during counseling, which typically spans multiple sessions. To address this, we propose AnnaAgent, an emotional and cognitive dynamic agent system equipped with tertiary memory. AnnaAgent incorporates an emotion modulator and a complaint elicitor trained on real counseling dialogues, enabling dynamic control of the simulator's configurations. Additionally, its tertiary memory mechanism effectively integrates short-term and long-term memory across sessions. Evaluation results, both automated and manual, demonstrate that AnnaAgent achieves more realistic seeker simulation in psychological counseling compared to existing baselines. The ethically reviewed and screened code can be found on https://github.com/sci-m-wang/AnnaAgent.

academic

AnnaAgent: Sistema de Agente de Evolución Dinámica con Memoria Multisesión para Simulación Realista de Solicitantes de Ayuda

Información Básica

ID del Artículo: 2506.00551
Título: AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation
Autores: Ming Wang, Peidong Wang, Lin Wu, Xiaocui Yang, Daling Wang, Shi Feng, Yuxin Chen, Bixuan Wang, Yifei Zhang
Clasificación: cs.CL cs.AI
Fecha de Publicación: 10 de junio de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2506.00551

Resumen

Debido a los costos y problemas éticos asociados con la participación de solicitantes de ayuda reales en investigaciones de salud mental impulsadas por IA, los investigadores han desarrollado agentes de conversación basados en LLM (CA) para simular solicitantes de ayuda, utilizando configuraciones personalizadas como perfiles personales, síntomas y escenarios. Aunque estos esfuerzos han avanzado en la aplicación de IA en el campo de la salud mental, la realización de simulaciones más realistas de solicitantes de ayuda enfrenta dos desafíos clave: evolución dinámica y memoria multisesión. El estado psicológico del solicitante de ayuda fluctúa frecuentemente durante el proceso de asesoramiento, que generalmente abarca múltiples sesiones. Para abordar este problema, este artículo propone AnnaAgent, un sistema de agente dinámico emocional y cognitivo equipado con memoria de tres niveles. AnnaAgent integra un regulador emocional y un guía de queja principal entrenados en diálogos de asesoramiento reales, capaces de controlar dinámicamente la configuración del simulador. Además, su mecanismo de memoria de tres niveles integra efectivamente la memoria a corto y largo plazo entre sesiones. Los resultados de la evaluación demuestran que AnnaAgent logra una simulación de solicitante de ayuda más realista en asesoramiento psicológico en comparación con las líneas base existentes.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que aborda esta investigación es cómo simular de manera más realista el comportamiento de los solicitantes de ayuda en investigaciones de salud mental impulsadas por IA. Específicamente:

Limitaciones de costos y ética: La investigación que involucra a muchos solicitantes de ayuda reales no solo es costosa, sino que también puede plantear problemas éticos
Insuficiencias de los métodos de simulación existentes: Los agentes de conversación actuales basados en LLM presentan problemas como afecto plano y aceptación fácil de sugerencias al simular solicitantes de ayuda
Falta de dinamismo: Los métodos existentes no pueden simular las fluctuaciones emocionales y cambios cognitivos que experimenta el solicitante de ayuda durante el proceso de asesoramiento
Ausencia de memoria multisesión: El asesoramiento psicológico es típicamente un proceso a largo plazo y multisesión, pero los métodos existentes carecen de mecanismos de memoria entre sesiones

Importancia de la Investigación

Los problemas de salud mental son un desafío importante que enfrenta la sociedad actual, mientras que el número de terapeutas capacitados es limitado. La tecnología de IA tiene un enorme potencial en el apoyo a la salud mental, pero requiere simulaciones más realistas de solicitantes de ayuda para:

Construir conjuntos de datos y evaluar efectividad
Entrenar a consejeros psicológicos
Realizar investigaciones y experimentos psicológicos

Limitaciones de los Métodos Existentes

A través de la revisión de literatura, los autores identifican los siguientes problemas en los métodos existentes de simulación de solicitantes de ayuda:

Configuración estática: Las emociones y la cognición de síntomas permanecen sin cambios durante todo el proceso de asesoramiento
Falta de mecanismo de memoria: Incapacidad para manejar conversaciones que involucren contenido de sesiones anteriores
Comportamiento poco realista: Tendencia a estar de acuerdo con sugerencias, excesiva conformidad, expresión emocional plana

Contribuciones Principales

Primera propuesta de dos desafíos clave: evolución dinámica y memoria multisesión, formalizando la evolución dinámica como cambios en emociones y quejas principales, y dividiendo la memoria multisesión en diferentes etapas
Diseño del sistema AnnaAgent: Un sistema de agente dinámico emocional y cognitivo con memoria de tres niveles, que simula la evolución dinámica en asesoramiento controlando cambios en emociones y cognición de síntomas en el diálogo
Verificación de la efectividad del sistema: Evaluación experimental que demuestra que AnnaAgent puede simular de manera más realista el comportamiento de los solicitantes de ayuda en asesoramiento psicológico

Explicación Detallada del Método

Definición de la Tarea

La tarea de simulación de solicitantes de ayuda requiere asignar configuración de rol al LLM, incluyendo:

Perfil: Información personal básica (edad, género, profesión, etc.)
Queja Principal: Cognición del solicitante de ayuda sobre síntomas y problemas principales
Situación: Entorno de vida y eventos experimentados
Estado: Estados físicos y psicológicos relacionados
Emoción: Estilo de respuesta emocional esperado

Arquitectura del Modelo

AnnaAgent adopta una arquitectura de sistema multiagente, que incluye dos grupos principales de agentes:

1. Grupo de Control de Evolución Dinámica

Regulación Emocional:

Razonador Emocional: Entrenado en Qwen2.5-7B-Instruct, aprende patrones de evolución emocional en asesoramiento real utilizando el conjunto de datos D4
Perturbador Emocional: Introduce perturbación aleatoria para evitar patrones de cambio emocional fijos, asignando pesos de probabilidad según la distancia emocional:

$P(emo_T) = \frac{w(d(G_T, G_B) \times |G_T|)}{\sum_{G_j} w(d(G_B, G_j)) \times |G_j|}$

donde $G_B$ y $G_T$ representan respectivamente grupos emocionales base y objetivo, y $d(\cdot)$ representa la distancia entre grupos emocionales.

Guía de Queja Principal:

Generación de Cadena de Quejas: Genera cadena de cambios de quejas basada en la configuración del solicitante de ayuda y eventos recientes
Control de Cambio de Quejas: Determina mediante algoritmo si cambiar a la siguiente etapa de quejas en la cadena

2. Grupo de Programación de Memoria de Tres Niveles

Memoria en Tiempo Real: Contenido de conversación de la sesión actual
Memoria a Corto Plazo: Eventos recientes y cambios de estado, capturados a través de escalas de autoinforme
Memoria a Largo Plazo: Diálogos de sesiones anteriores y registros de escalas, programados a través de RAG Agéntico

Puntos de Innovación Técnica

Modelado de Evolución Dinámica: Primera formalización de cambios dinámicos del solicitante de ayuda como evolución en dos dimensiones: emociones y quejas principales
Mecanismo de Memoria de Tres Niveles: Sistema de memoria estratificado temporalmente diseñado con referencia a teoría de memoria
Aprendizaje de Evolución Impulsado por Datos: Modelos de cambio emocional y de quejas entrenados en datos de asesoramiento real
Coordinación Multiagente: Logra control dinámico complejo y programación de memoria a través de colaboración entre agentes

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos D4: Conjunto de datos de diálogo orientado al diagnóstico de depresión en chino
Conjunto de Datos DAIC-WOZ: Conjunto de datos de diálogo de salud mental en inglés
Anotación de datos realizada con GPT-4o, con revisión de 3 expertos en psicología para datos de cadena de quejas

Métricas de Evaluación

Grado de Antropomorfismo: Evaluación de consistencia entre el discurso del simulador y solicitantes de ayuda reales usando BERT-score
Fidelidad de Personalidad: Diseño de preguntas de entrevista, evaluación de coincidencia de configuración usando puntuación G-Eval
Precisión de Cognición de Sesión Anterior: Evaluación de efectividad de memoria a largo plazo

Métodos de Comparación

Se seleccionan tres métodos de línea base:

Chen et al. (2023a)
Duro et al. (2024)
Qiu and Lan (2024)

Detalles de Implementación

Modelo Base: Qwen2.5-7B-Instruct
Modelos de Consejero: PsycoLLM, EmoLLM, SoulChat
Clasificación Emocional: Basada en categorías de emociones GoEmotions
Herramientas de Escala: SCL-90, BDI, SAAS y otras escalas de autoinforme

Resultados Experimentales

Resultados Principales

Comparación de Grado de Antropomorfismo: En los conjuntos de datos D4 y DAIC, AnnaAgent logra el mejor o segundo mejor desempeño en conversaciones con diferentes modelos de consejero:

Conjunto de Datos	Consejero	Chen et al.	Duro et al.	Qiu & Lan	AnnaAgent
D4	PsycoLLM	0.6293	0.6455	0.6866	0.6691
D4	EmoLLM	0.6529	0.6469	0.6449	0.6649
DAIC	PsycoLLM	0.3458	0.4864	0.3426	0.4910

Fidelidad de Personalidad: AnnaAgent supera generalmente a los métodos de línea base en puntuación G-Eval.

Experimentos de Ablación

Ablación de Evolución Dinámica: La eliminación del componente de evolución dinámica reduce la puntuación F1 de 0.6691 a 0.6144 (conjunto de datos D4)
Ablación de Memoria a Largo Plazo: La eliminación de memoria a largo plazo reduce significativamente la precisión de cognición del solicitante de ayuda virtual sobre sesiones anteriores

Investigación de Generalización

Los experimentos en GPT-4o-mini y Llama-3.1-8B-Instruct demuestran que AnnaAgent posee buena estabilidad entre modelos, con desviación estándar relativa menor al 10%.

Trabajo Relacionado

Aplicaciones de LLM en Salud Mental

Sistemas de Conversación: ChatCounselor, Serena y otros proporcionan apoyo de asesoramiento de salud mental
Diagnóstico y Tratamiento: Mejora de precisión diagnóstica, efectividad del tratamiento y accesibilidad de servicios

Simulación Tradicional de Solicitantes de Ayuda

Pacientes Estandarizados: Interpretados por actores reales, más realista pero costoso
Solicitantes de Ayuda Virtuales: Bajo costo pero realismo insuficiente

Juego de Roles de LLM

Construcción de Conocimiento de Rol: A través de información de rol de grano fino y anotación emocional
Entrenamiento Personalizado: Ajuste de instrucciones condicionales combinadas con información de rasgos de personalidad

Conclusiones y Discusión

Conclusiones Principales

AnnaAgent resuelve exitosamente los desafíos de evolución dinámica y memoria multisesión en simulación de solicitantes de ayuda
Los modelos de evolución emocional y de quejas principales entrenados en datos reales pueden mejorar efectivamente el realismo de la simulación
El mecanismo de memoria de tres niveles demuestra excelente desempeño en el manejo de información entre sesiones

Limitaciones

Simplificación Formal: Se realiza cierto grado de simplificación formal del proceso de evolución dinámica por conveniencia de implementación técnica
Sistema de Memoria Rudimentario: El mecanismo de coordinación del sistema de memoria de tres niveles aún es relativamente primitivo
Dependencia de Datos: Altamente dependiente de la calidad y cantidad de datos de asesoramiento real

Direcciones Futuras

Modelado de evolución dinámica más granular
Mecanismos de coordinación de memoria multisesión más complejos
Extensión a más escenarios de salud mental e idiomas

Evaluación Profunda

Fortalezas

Identificación Precisa del Problema: Primera identificación explícita de dos desafíos centrales: evolución dinámica y memoria multisesión
Diseño de Método Razonable: Arquitectura de sistema multiagente clara con funciones de módulo bien definidas
Experimentación Completa: Incluye resultados principales, experimentos de ablación y verificación de generalización
Alto Valor Práctico: Proporciona herramienta importante para investigación de IA en salud mental

Insuficiencias

Profundidad Teórica Limitada: Falta análisis teórico psicológico profundo sobre mecanismos de evolución dinámica
Métricas de Evaluación Únicas: Depende principalmente de métricas automatizadas, carece de evaluación manual por psicólogos profesionales
Consideración Ética Insuficiente: Aunque menciona revisión ética, la discusión sobre riesgos potenciales de abuso es insuficiente

Impacto

Contribución Académica: Proporciona nueva dirección de investigación y referencia para el campo de IA en salud mental
Valor Práctico: Aplicable a entrenamiento de consejeros, investigación psicológica y múltiples escenarios
Reproducibilidad: Proporciona código de código abierto, facilitando reproducción y extensión de investigación

Escenarios Aplicables

Entrenamiento y evaluación de consejeros psicológicos
Desarrollo de sistemas de diálogo de salud mental
Investigación y experimentos psicológicos
Aumento de datos de salud mental

Referencias

El artículo cita abundante trabajo relacionado, incluyendo:

Trabajos de revisión de aplicaciones de IA en salud mental
Investigación de juego de roles de LLM y sistemas multiagente
Investigación relacionada con asesoramiento psicológico y pacientes estandarizados
Literatura de teoría de memoria y tecnología RAG

Evaluación General: Este es un artículo con contribuciones importantes en el campo de IA en salud mental, abordando por primera vez sistemáticamente desafíos técnicos clave en simulación de solicitantes de ayuda. Aunque hay espacio para mejora en profundidad teórica y evaluación, su método innovador y valor práctico lo convierten en un progreso importante en el campo.