Constrained by the cost and ethical concerns of involving real seekers in AI-driven mental health, researchers develop LLM-based conversational agents (CAs) with tailored configurations, such as profiles, symptoms, and scenarios, to simulate seekers. While these efforts advance AI in mental health, achieving more realistic seeker simulation remains hindered by two key challenges: dynamic evolution and multi-session memory. Seekers' mental states often fluctuate during counseling, which typically spans multiple sessions. To address this, we propose AnnaAgent, an emotional and cognitive dynamic agent system equipped with tertiary memory. AnnaAgent incorporates an emotion modulator and a complaint elicitor trained on real counseling dialogues, enabling dynamic control of the simulator's configurations. Additionally, its tertiary memory mechanism effectively integrates short-term and long-term memory across sessions. Evaluation results, both automated and manual, demonstrate that AnnaAgent achieves more realistic seeker simulation in psychological counseling compared to existing baselines. The ethically reviewed and screened code can be found on https://github.com/sci-m-wang/AnnaAgent.
- ID Articolo: 2506.00551
- Titolo: AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation
- Autori: Ming Wang, Peidong Wang, Lin Wu, Xiaocui Yang, Daling Wang, Shi Feng, Yuxin Chen, Bixuan Wang, Yifei Zhang
- Classificazione: cs.CL cs.AI
- Data di Pubblicazione: 10 giugno 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2506.00551
A causa dei costi e delle questioni etiche coinvolte nell'utilizzo di richiedenti aiuto reali nella ricerca sulla salute mentale guidata dall'IA, i ricercatori hanno sviluppato agenti conversazionali (CA) basati su LLM per simulare richiedenti aiuto, utilizzando configurazioni personalizzate come profili personali, sintomi e scenari. Sebbene questi sforzi abbiano fatto progredire l'applicazione dell'IA nel campo della salute mentale, il raggiungimento di una simulazione più realistica dei richiedenti aiuto affronta due sfide critiche: evoluzione dinamica e memoria multi-sessione. Lo stato psicologico del richiedente aiuto fluttua frequentemente durante il processo di consulenza, che generalmente si estende su più sessioni. Per affrontare questo problema, il presente articolo propone AnnaAgent, un sistema agente dinamico emotivo e cognitivo dotato di memoria a tre livelli. AnnaAgent integra un regolatore emotivo e un facilitatore del reclamo principale addestrati su dialoghi di consulenza reali, in grado di controllare dinamicamente la configurazione del simulatore. Inoltre, il suo meccanismo di memoria a tre livelli integra efficacemente la memoria a breve e lungo termine tra le sessioni. I risultati della valutazione dimostrano che AnnaAgent realizza una simulazione più realistica del richiedente aiuto rispetto ai metodi di base esistenti nella consulenza psicologica.
Il problema centrale affrontato da questa ricerca è come simulare in modo più realistico il comportamento dei richiedenti aiuto nella ricerca sulla salute mentale guidata dall'IA. Nello specifico:
- Limitazioni di costo ed etica: Condurre ricerche con un gran numero di richiedenti aiuto reali non solo è costoso, ma può anche sollevare questioni etiche
- Insufficienza dei metodi di simulazione esistenti: Gli attuali agenti conversazionali basati su LLM presentano problemi come affetti piatti e facile accettazione dei consigli nella simulazione dei richiedenti aiuto
- Mancanza di dinamicità: I metodi esistenti non riescono a simulare le fluttuazioni emotive e i cambiamenti cognitivi dei richiedenti aiuto durante il processo di consulenza
- Assenza di memoria multi-sessione: La consulenza psicologica è tipicamente un processo a lungo termine e multi-sessione, ma i metodi esistenti mancano di meccanismi di memoria tra le sessioni
I problemi di salute mentale rappresentano una sfida importante affrontata dalla società contemporanea, mentre il numero di terapeuti qualificati è limitato. La tecnologia dell'IA ha un enorme potenziale nel supporto della salute mentale, ma richiede simulazioni più realistiche dei richiedenti aiuto per:
- Costruire dataset e valutare l'efficacia
- Formare consulenti psicologici
- Condurre ricerche e esperimenti psicologici
Attraverso una revisione della letteratura, gli autori hanno identificato i seguenti problemi nei metodi di simulazione dei richiedenti aiuto esistenti:
- Configurazione statica: Le emozioni e la consapevolezza dei sintomi rimangono invariate durante l'intero processo di consulenza
- Mancanza di meccanismo di memoria: Incapacità di gestire dialoghi che coinvolgono il contenuto di sessioni precedenti
- Comportamento non realistico: Tendenza ad accettare facilmente i consigli, eccessiva conformità, espressione emotiva piatta
- Prima proposta delle due sfide critiche di evoluzione dinamica e memoria multi-sessione, formalizzando l'evoluzione dinamica come cambiamento di emozioni e reclami principali, e dividendo la memoria multi-sessione in diverse fasi
- Progettazione del sistema AnnaAgent: Un sistema agente dinamico emotivo e cognitivo con memoria a tre livelli, che simula l'evoluzione dinamica nella consulenza controllando i cambiamenti di emozioni e consapevolezza dei sintomi nel dialogo
- Verifica dell'efficacia del sistema: Attraverso la valutazione sperimentale si dimostra che AnnaAgent può simulare in modo più realistico il comportamento dei richiedenti aiuto nella consulenza psicologica
Il compito di simulazione del richiedente aiuto richiede l'assegnazione di una configurazione di ruolo all'LLM, che include:
- Profilo: Informazioni personali di base (età, sesso, professione, ecc.)
- Reclamo: Consapevolezza del richiedente aiuto dei sintomi e problemi principali
- Situazione: Ambiente di vita ed eventi esperiti
- Stato: Stati correlati al corpo e alla psiche
- Emozione: Stile di risposta emotiva atteso
AnnaAgent adotta un'architettura multi-agente, contenente due gruppi di agenti principali:
Regolazione Emotiva:
- Ragionatore Emotivo: Addestrato su Qwen2.5-7B-Instruct, utilizza il dataset D4 per apprendere i modelli di evoluzione emotiva nella consulenza reale
- Perturbatore Emotivo: Introduce perturbazioni casuali per evitare modelli di cambiamento emotivo cristallizzati, assegnando pesi di probabilità in base alla distanza emotiva:
P(emoT)=∑Gjw(d(GB,Gj))×∣Gj∣w(d(GT,GB)×∣GT∣)
dove GB e GT rappresentano rispettivamente il gruppo emotivo di base e quello target, e d(⋅) rappresenta la distanza tra i gruppi emotivi.
Facilitazione del Reclamo Principale:
- Generazione della Catena di Reclami: Genera una catena di cambiamenti dei reclami basata sulla configurazione del richiedente aiuto e sugli eventi recenti
- Controllo del Cambio di Reclamo: Attraverso un algoritmo determina se passare alla fase successiva dei reclami nella catena
- Memoria in Tempo Reale: Contenuto del dialogo della sessione corrente
- Memoria a Breve Termine: Eventi recenti e cambiamenti di stato, catturati attraverso scale di auto-segnalazione
- Memoria a Lungo Termine: Dialoghi e registri di scale della sessione precedente, pianificati attraverso Agentic RAG
- Modellazione dell'Evoluzione Dinamica: Prima formalizzazione dei cambiamenti dinamici del richiedente aiuto come evoluzione su due dimensioni: emozioni e reclami principali
- Meccanismo di Memoria a Tre Livelli: Sistema di memoria stratificato nel tempo progettato con riferimento alla teoria della memoria
- Apprendimento dell'Evoluzione Guidato dai Dati: Modelli di cambiamento emotivo e dei reclami addestrati su dati di consulenza reali
- Coordinamento Multi-Agente: Realizza il controllo dinamico complesso e la pianificazione della memoria attraverso la collaborazione tra agenti
- Dataset D4: Dataset di dialogo orientato alla diagnosi della depressione in cinese
- Dataset DAIC-WOZ: Dataset di dialogo sulla salute mentale in inglese
- Annotazione dei dati eseguita con GPT-4o, con revisione di 3 esperti di psicologia per i dati della catena di reclami
- Grado di Antropomorfismo: Utilizza BERT-score per valutare la coerenza tra il discorso del simulatore e quello dei richiedenti aiuto reali
- Fedeltà della Personalità: Progetta domande di intervista, utilizza la valutazione G-Eval per valutare il grado di corrispondenza della configurazione
- Accuratezza della Consapevolezza della Sessione Precedente: Valuta l'efficacia della memoria a lungo termine
Seleziona tre metodi di base:
- Chen et al. (2023a)
- Duro et al. (2024)
- Qiu and Lan (2024)
- Modello Backbone: Qwen2.5-7B-Instruct
- Modelli di Consulente: PsycoLLM, EmoLLM, SoulChat
- Classificazione Emotiva: Basata sulle categorie emotive di GoEmotions
- Strumenti di Scale: SCL-90, BDI, SAAS e altre scale di auto-segnalazione
Confronto del Grado di Antropomorfismo:
Sui dataset D4 e DAIC, AnnaAgent ha ottenuto le migliori o seconde migliori prestazioni quando interagisce con diversi modelli di consulente:
| Dataset | Consulente | Chen et al. | Duro et al. | Qiu & Lan | AnnaAgent |
|---|
| D4 | PsycoLLM | 0.6293 | 0.6455 | 0.6866 | 0.6691 |
| D4 | EmoLLM | 0.6529 | 0.6469 | 0.6449 | 0.6649 |
| DAIC | PsycoLLM | 0.3458 | 0.4864 | 0.3426 | 0.4910 |
Fedeltà della Personalità: AnnaAgent ha superato complessivamente i metodi di base nella valutazione G-Eval.
- Ablazione dell'Evoluzione Dinamica: Dopo la rimozione del componente di evoluzione dinamica, il punteggio F1 è diminuito da 0.6691 a 0.6144 (dataset D4)
- Ablazione della Memoria a Lungo Termine: La rimozione della memoria a lungo termine ha ridotto significativamente l'accuratezza della consapevolezza del richiedente aiuto virtuale riguardo alla sessione precedente
Gli esperimenti su GPT-4o-mini e Llama-3.1-8B-Instruct dimostrano che AnnaAgent ha una buona stabilità tra modelli, con deviazioni standard relative inferiori al 10%.
- Sistemi Conversazionali: ChatCounselor, Serena e altri forniscono supporto di consulenza sulla salute mentale
- Diagnosi e Trattamento: Miglioramento dell'accuratezza diagnostica, dell'efficacia del trattamento e dell'accessibilità dei servizi
- Pazienti Standardizzati: Interpretati da attori reali, più realistici ma costosi
- Richiedenti Aiuto Virtuali: Meno costosi ma con realismo insufficiente
- Costruzione della Conoscenza del Ruolo: Attraverso informazioni di ruolo a grana fine e annotazioni emotive
- Addestramento Personalizzato: Ottimizzazione delle istruzioni condizionate combinate con informazioni sui tratti di personalità
- AnnaAgent ha affrontato con successo le sfide dell'evoluzione dinamica e della memoria multi-sessione nella simulazione dei richiedenti aiuto
- I modelli di evoluzione emotiva e dei reclami addestrati su dati reali possono migliorare efficacemente il realismo della simulazione
- Il meccanismo di memoria a tre livelli mostra prestazioni eccellenti nel trattamento delle informazioni tra le sessioni
- Semplificazione Formale: Per la convenienza dell'implementazione tecnica, il processo di evoluzione dinamica è stato formalizzato con un certo grado di semplificazione
- Sistema di Memoria Grezzo: Il meccanismo di coordinamento del sistema di memoria a tre livelli è ancora relativamente primitivo
- Dipendenza dai Dati: Altamente dipendente dalla qualità e dalla quantità dei dati di consulenza reali
- Modellazione dell'evoluzione dinamica a grana più fine
- Meccanismi di coordinamento della memoria multi-sessione più complessi
- Estensione a più scenari di salute mentale e lingue
- Identificazione Accurata del Problema: Prima identificazione esplicita delle due sfide critiche di evoluzione dinamica e memoria multi-sessione
- Progettazione Metodologica Ragionevole: Architettura del sistema multi-agente chiara, funzioni dei moduli ben definite
- Esperimenti Completi: Include risultati principali, esperimenti di ablazione e verifica della generalizzazione
- Alto Valore Pratico: Fornisce uno strumento importante per la ricerca sull'IA nella salute mentale
- Profondità Teorica Limitata: Manca l'analisi teorica psicologica profonda dei meccanismi di evoluzione dinamica
- Metriche di Valutazione Singolari: Dipende principalmente da metriche automatizzate, manca la valutazione umana da parte di psicologi professionisti
- Considerazioni Etiche Insufficienti: Sebbene menzioni la revisione etica, la discussione sui rischi di abuso potenziale non è sufficientemente approfondita
- Contributo Accademico: Fornisce nuove direzioni di ricerca e benchmark per il campo dell'IA nella salute mentale
- Valore Pratico: Può essere utilizzato nella formazione e valutazione dei consulenti, ricerca psicologica e altri scenari
- Riproducibilità: Fornisce codice open source, facilitando la riproduzione e l'estensione della ricerca
- Formazione e valutazione dei consulenti psicologici
- Sviluppo di sistemi di dialogo sulla salute mentale
- Ricerca e sperimentazione psicologica
- Aumento dei dati sulla salute mentale
L'articolo cita una ricca letteratura di lavori correlati, inclusi:
- Lavori di revisione sulle applicazioni dell'IA nella salute mentale
- Ricerca sull'interpretazione di ruoli con LLM e sistemi multi-agente
- Ricerca sulla consulenza psicologica e pazienti standardizzati
- Letteratura sulla teoria della memoria e tecnologie RAG
Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo dell'IA nella salute mentale, che affronta sistematicamente per la prima volta le sfide tecniche critiche nella simulazione dei richiedenti aiuto. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nella valutazione, il suo metodo innovativo e il suo valore pratico lo rendono un progresso importante in questo campo.