2025-11-25T10:34:17.502250

From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models

Dong, Jin, Yang et al.
Purpose: Emotion is a fundamental component of human communication, shaping understanding, trust, and engagement across domains such as education, healthcare, and mental health. While large language models (LLMs) exhibit strong reasoning and knowledge generation capabilities, they still struggle to express emotions in a consistent, controllable, and contextually appropriate manner. This limitation restricts their potential for authentic human-AI interaction. Methods: We propose a controllable emotion generation framework based on Emotion Vectors (EVs) - latent representations derived from internal activation shifts between neutral and emotion-conditioned responses. By injecting these vectors into the hidden states of pretrained LLMs during inference, our method enables fine-grained, continuous modulation of emotional tone without any additional training or architectural modification. We further provide theoretical analysis proving that EV steering enhances emotional expressivity while maintaining semantic fidelity and linguistic fluency. Results: Extensive experiments across multiple LLM families show that the proposed approach achieves consistent emotional alignment, stable topic adherence, and controllable affect intensity. Compared with existing prompt-based and fine-tuning-based baselines, our method demonstrates superior flexibility and generalizability. Conclusion: Emotion Vector (EV) steering provides an efficient and interpretable means of bridging rational reasoning and affective understanding in large language models, offering a promising direction for building emotionally resonant AI systems capable of more natural human-machine interaction.
academic

Des Réponses Rationnelles à la Résonance Émotionnelle : Le Rôle de la Génération d'Émotions Contrôlable dans les Modèles de Langage

Informations Fondamentales

  • Identifiant de l'article : 2502.04075
  • Titre : From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models
  • Auteurs : Yurui Dong, Luozhijie Jin, Yao Yang, Bingjie Lu, Jiaxi Yang, Zhi Liu
  • Classification : cs.CL (Calcul et Langage)
  • Date de publication : Février 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2502.04075

Résumé

Cet article aborde les insuffisances des grands modèles de langage (LLMs) en matière d'expression émotionnelle en proposant un cadre de génération d'émotions contrôlable basé sur des vecteurs émotionnels (Emotion Vectors, EVs). Cette méthode extrait les différences d'activation interne entre les réponses neutres et celles conditionnées par l'émotion, construit des représentations latentes, et injecte ces vecteurs dans les états cachés des LLMs préentraînés lors de l'inférence, réalisant une modulation fine et continue du ton émotionnel sans nécessiter d'entraînement supplémentaire ni de modification architecturale. L'analyse théorique démontre que l'orientation par EV renforce l'expressivité émotionnelle tout en préservant la fidélité sémantique et la fluidité linguistique.

Contexte et Motivation de la Recherche

Définition du Problème

Bien que les grands modèles de langage actuels excellent dans le raisonnement et la génération de connaissances, ils présentent des lacunes significatives en matière d'expression émotionnelle :

  1. Incohérence de l'expression émotionnelle : Le contenu généré par le modèle est soit émotionnellement neutre, soit présente un ton incohérent ou une orientation émotionnelle incontrôlable
  2. Manque d'intelligence émotionnelle : Dans les domaines de l'éducation, de la santé et de la santé mentale, les réponses purement factuelles mais émotionnellement froides ne répondent souvent pas aux attentes des utilisateurs
  3. Champ d'application limité : L'absence de capacité d'expression émotionnelle restreint l'application des systèmes d'IA dans les scénarios d'interaction humain-machine nécessitant une résonance émotionnelle

Importance de la Recherche

L'émotion est un élément fondamental de la communication humaine, jouant un rôle crucial dans plusieurs domaines clés :

  • Domaine éducatif : L'encouragement et la patience des enseignants influencent significativement la motivation et la persévérance des étudiants
  • Soins de santé : L'engagement émotionnel et la communication empathique des médecins améliorent l'observance thérapeutique, la satisfaction et même la trajectoire de rétablissement clinique des patients
  • Santé mentale : La capacité de résonance émotionnelle est une condition préalable à la fourniture d'un soutien significatif

Limitations des Approches Existantes

  1. Méthodes d'ajustement par instruction : Manquent souvent de flexibilité et s'adaptent difficilement à un large éventail d'applications et d'architectures de modèles
  2. Stratégies d'incitation : Dépendent de modèles soigneusement conçus et de modules d'évaluation externes
  3. Édition de vecteurs au moment de l'inférence : Se concentrent principalement sur la position du dernier token, manquent de signification globale et s'appliquent difficilement aux tâches comme l'émotion nécessitant une haute généralisation

Contributions Principales

  1. Proposition d'un cadre de génération d'émotions contrôlable basé sur les vecteurs émotionnels (EV) : Extraction de vecteurs émotionnels réutilisables et efficaces par comparaison des réponses du modèle sous incitations induisant l'émotion et neutres
  2. Réalisation d'un contrôle émotionnel non supervisé et hautement robuste : Sans nécessiter d'entraînement ou de modification architecturale, avec cohérence globale
  3. Fourniture d'une analyse théorique rigoureuse : Démonstration que l'orientation par EV renforce l'expression émotionnelle tout en préservant la fidélité sémantique
  4. Construction d'ensembles de données d'évaluation spécialisés : Ensembles de données EmotionQuery et EmotionQuery+ pour l'évaluation de la génération émotionnelle
  5. Réalisation d'un contrôle fin et continu : Fourniture d'un contrôle fin et continu de l'intensité émotionnelle par mise à l'échelle scalaire, soutenant une large applicabilité entre familles de modèles

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle de langage préentraîné M et un état émotionnel cible e∈{joy, anger, disgust, fear, sadness}, l'objectif de la tâche est de contrôler le ton émotionnel du texte généré en modifiant les représentations internes du modèle au moment de l'inférence, tout en préservant le contenu sémantique et la fluidité linguistique.

Architecture du Modèle

Construction des Vecteurs Émotionnels

  1. Construction de l'ensemble de données : Création de l'ensemble de données EmotionQuery contenant 500 requêtes, 100 requêtes par état émotionnel
  2. Capture des sorties internes : Pour chaque requête, le modèle génère des représentations internes dans les paramètres neutres et émotionnels
    Ōl = (1/T) Σ(t=1 to T) Ol[t]
    
  3. Mesure du décalage émotionnel : Calcul de la différence de sortie entre les paramètres émotionnels et neutres
    ΔO^(ek)_l = Ō^(emotion(ek))_l - Ō^(neutral)_l
    
  4. Construction du vecteur émotionnel : Moyenne des décalages émotionnels sur l'ensemble de données
    EV^(ek)_l = (1/N) Σ(i=1 to N) ΔO^(i,ek)_l
    

Orientation par Vecteur Émotionnel

Au moment de l'inférence, l'application du vecteur émotionnel se fait en modifiant les états cachés de chaque couche :

Ĥl = Hl + αEV^(ek)_l

où α est le facteur d'échelle contrôlant l'intensité émotionnelle.

Points d'Innovation Technique

  1. Cohérence globale : Contrairement aux méthodes antérieures se concentrant principalement sur le contrôle au niveau des phrases, cette méthode réalise un contrôle émotionnel global
  2. Sans entraînement : Fonctionne entièrement au moment de l'inférence, sans nécessiter de modification des paramètres du modèle
  3. Contrôle continu : Réalise l'ajustement continu de l'intensité émotionnelle par le scalaire α
  4. Additivité : Plusieurs émotions peuvent être combinées linéairement : Σk αk EV^(ek)_l

Configuration Expérimentale

Ensembles de Données

  1. EmotionQuery : 500 requêtes couvrant 5 émotions fondamentales, 100 par émotion
  2. EmotionQuery+ (EQ+) : Version étendue de 400 requêtes, incluant 250 requêtes émotionnelles et 150 requêtes neutres

Métriques d'Évaluation

  1. Fluidité des phrases : Calcul de la perplexité (Perplexity) utilisant Llama 3.1
  2. Cohérence thématique : Évaluation par GPT-4o-mini de l'alignement thématique entre la réponse générée et la requête de l'utilisateur
  3. Score de probabilité émotionnelle (EPS) : Mesure de la probabilité d'expression émotionnelle utilisant un classificateur bart-large-mnli
  4. Score absolu d'émotion (EAS) : Évaluation par GPT-4o-mini des cinq émotions fondamentales sur une échelle 0-100
  5. Confiance en l'émotion cible (TEC) : Mesure de la confiance du classificateur envers l'émotion cible

Méthodes de Comparaison

  • Modèle original (sans EV)
  • Application d'EV à différentes intensités (-1×EV, 1×EV, 2×EV, 4×EV)
  • Méthodes de base basées sur l'incitation et l'ajustement fin

Détails d'Implémentation

  • Test sur 11 modèles de langage représentatifs, incluant les séries Llama, Qwen, Baichuan2, etc.
  • Utilisation du vecteur émotionnel de base EVbase (moyenne de tous les vecteurs émotionnels) pour l'ajustement émotionnel universel

Résultats Expérimentaux

Résultats Principaux

Fluidité et Cohérence Thématique

  • Résultats de perplexité : L'application d'EV a un impact négligeable sur la fluidité des phrases, s'améliorant même dans certains cas
  • Cohérence thématique : La plupart des modèles maintiennent une cohérence thématique élevée comparable aux réponses originales après application d'EV

Capacité d'Expression Émotionnelle

  • Score de probabilité émotionnelle : Après application de 2×EV, le score de probabilité émotionnelle de la plupart des modèles augmente significativement, comme Llama3.1, Qwen2, MiniCPM atteignant 1.000, 0.9825, 0.9950
  • Score absolu d'émotion : Après application de 1×EV, l'EAS de la plupart des modèles augmente d'au moins 400%, tandis que -1×EV réduit l'EAS de près de 90%

Expériences d'Ablation

Effet de Différentes Intensités d'EV

Modèle
Llama2-7B (anger)21.40%45.93%98.07%90.71%
Qwen2.5-7B (anger)14.01%33.36%94.89%95.68%

Les résultats montrent que 1× et 2×EV renforcent significativement l'alignement émotionnel, tandis qu'une intensité de 4× entraîne des rendements décroissants voire une légère dégradation.

Analyse de Cas

L'article fournit de nombreux exemples montrant les variations de sortie sous différentes conditions émotionnelles :

  • Condition colère : Le modèle passe d'une réponse neutre à "I'm so angry and frustrated! I've been busting my butt..."
  • Condition joie : Génération de "I was absolutely over the moon! My heart was bursting with love!"

Découvertes Expérimentales

  1. Contrôlabilité linéaire : La relation entre l'intensité émotionnelle et le facteur d'échelle α est approximativement linéaire
  2. Généralisation entre modèles : La méthode est efficace sur différentes architectures et tailles de modèles
  3. Spécificité émotionnelle : Différents vecteurs émotionnels peuvent orienter de manière fiable le modèle pour produire l'expression émotionnelle correspondante

Analyse Théorique

Fondements Mathématiques

L'article fournit une démonstration théorique rigoureuse basée sur l'expansion de Taylor au premier ordre :

  1. Gain émotionnel monotone : Si la direction de discrimination de Fisher s'aligne avec EV au sens moyen, alors un petit α positif augmente monotoniquement le score d'émotion cible
  2. Préservation sémantique : Puisque EV est construit à partir de paires d'incitations sémantiquement identiques mais émotionnellement différentes, sa projection sur le gradient sémantique est approximativement nulle
  3. Contrôlabilité linéaire : Dépendance linéaire de l'intensité émotionnelle à α, composabilité additive multi-émotions

Optimalité Approximative

Au sens de l'analyse discriminante linéaire de Fisher, la construction d'EV est proche de l'optimum statistique : sous l'approximation de blanchiment, la direction de Fisher optimale est parallèle au vecteur de différence moyenne.

Travaux Connexes

Représentation Émotionnelle et Systèmes de Dialogue

  • Approches par classification (émotions discrètes comme joy, sadness, anger)
  • Approches dimensionnelles (échelle valence-arousal)
  • Les méthodes existantes sont trop complexes ou nécessitent un entraînement supplémentaire

Ajustement par Instruction et Contrôle Émotionnel Basé sur l'Incitation

  • Les méthodes d'ajustement fin manquent souvent de flexibilité et s'adaptent difficilement à un large éventail d'applications
  • Les stratégies d'incitation dépendent de modèles soigneusement conçus

Édition de Vecteurs au Moment de l'Inférence

  • Les méthodes existantes se concentrent principalement sur la position du dernier token, manquant de signification globale
  • La plupart des travaux sur les vecteurs de contrôle réalisent un contrôle au niveau des phrases, nécessitant un entraînement

Conclusion et Discussion

Conclusions Principales

  1. L'orientation par EV fournit une méthode efficace et interprétable : Comblant le fossé entre le raisonnement rationnel et la compréhension émotionnelle dans les grands modèles de langage
  2. Réalisation d'un contrôle émotionnel fin : Permettant un ajustement émotionnel continu et contrôlable sans entraînement supplémentaire
  3. Préservation de la fidélité sémantique : La théorie et les expériences démontrent que la méthode renforce l'expression émotionnelle tout en maintenant la cohérence sémantique

Limitations

  1. Effet de saturation des EV à haute intensité : Une intensité de 4× peut entraîner des sorties répétitives et une dégradation des performances
  2. Dépendance du modèle pour l'amplitude d'EV : Certains modèles (comme Llama-3.1) extraient des EV d'amplitude plus grande, pouvant affecter le décodage ultérieur
  3. Limitation aux émotions fondamentales : Actuellement axé sur cinq émotions fondamentales, le traitement des émotions complexes reste à explorer

Directions Futures

  1. Extension à des états émotionnels plus complexes
  2. Optimisation des stratégies d'extraction et d'application d'EV
  3. Exploration du contrôle émotionnel multimodal
  4. Étude de l'intégration entre émotion et personnalisation

Évaluation Approfondie

Points Forts

  1. Innovation méthodologique forte : Première proposition d'une méthode d'orientation par vecteur émotionnel globalement cohérente, réalisant un contrôle émotionnel fin sans entraînement
  2. Fondements théoriques solides : Fourniture de démonstrations mathématiques rigoureuses, expliquant l'optimalité approximative de la méthode du point de vue de l'analyse discriminante de Fisher
  3. Expérimentation complète et approfondie : Expériences étendues sur 11 modèles différents, métriques d'évaluation variées et raisonnables
  4. Valeur pratique élevée : Méthode simple à implémenter avec bonne capacité de généralisation entre modèles

Insuffisances

  1. Variété émotionnelle limitée : Considération de seulement cinq émotions fondamentales, capacité de traitement des états émotionnels complexes inconnue
  2. Adaptation culturelle : Absence de considération des différences dans l'expression émotionnelle selon les contextes culturels
  3. Cohérence sur textes longs : L'effet de maintien de la cohérence émotionnelle pour les dialogues longs ou au niveau des documents nécessite une vérification ultérieure
  4. Analyse des frais de calcul : Manque d'analyse détaillée de la complexité de calcul et de l'impact sur la vitesse d'inférence de la méthode

Impact

  1. Contribution académique : Fournit un nouveau paradigme de recherche pour le domaine du calcul émotionnel et de la génération de texte contrôlable
  2. Valeur pratique : Perspectives d'application larges dans les domaines de l'éducation, de la santé et de la santé mentale
  3. Reproductibilité : Les auteurs s'engagent à ouvrir le code et les ensembles de données, favorisant les recherches ultérieures

Scénarios d'Application

  1. Assistants éducatifs IA : Fourniture d'un soutien pédagogique personnalisé et émotionnellement approprié
  2. Systèmes de dialogue médical : Renforcement de la résonance émotionnelle dans la communication médecin-patient
  3. Support de santé mentale : Construction de conseillers IA plus empathiques
  4. Robots de service client : Amélioration de l'expérience utilisateur et de la satisfaction

Références Bibliographiques

L'article cite de nombreuses recherches connexes, incluant principalement :

  • Fondements théoriques émotionnels : Modèle d'émotions fondamentales d'Ekman
  • Grands modèles de langage : Séries Llama, Qwen et autres modèles dominants
  • Calcul émotionnel : Modèle MNLI pour la classification émotionnelle
  • Édition de vecteurs : Méthodes d'intervention au moment de l'inférence connexes

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une méthode innovante d'orientation par vecteur émotionnel, avec des fondements théoriques solides et une vérification expérimentale complète. Ce travail fournit un chemin technique efficace pour la construction de systèmes d'IA possédant une plus grande intelligence émotionnelle, possédant une importance académique et pratique significative.