Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
Évaluation de l'Alignement des Représentations Humain-LLM : Une Étude de Cas sur la Génération de Phrases Affectives pour la Communication Augmentative et Alternative
- ID de l'article : 2503.11881
- Titre : Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- Auteurs : Shadab Choudhury, Asha Kumar, Lara J. Martin (Université du Maryland, Comté de Baltimore)
- Classification : cs.CL (Linguistique Computationnelle)
- Date de publication : 2025
- Lien de l'article : https://arxiv.org/abs/2503.11881
Cette recherche aborde le problème de l'écart entre l'utilisation des concepts par les grands modèles de langage (LLMs) et les attentes humaines, en particulier dans les applications d'outils de communication augmentative et alternative (CAA). L'étude introduit la notion d'« alignement des représentations » (Representation Alignment) comme tâche d'évaluation, mesurant cet écart par le jugement humain. L'étude examine quatre modes de représentation affective : le vocabulaire anglais, les dimensions VAD lexicalisées, les dimensions VAD numériques et les emojis, en évaluant l'exactitude et l'authenticité des phrases générées. Les résultats montrent que les humains approuvent davantage les résultats générés par les LLMs sous conditions de vocabulaire anglais par rapport aux échelles VAD, cette différence étant particulièrement marquée dans la comparaison VAD numérique versus lexical.
- Problème central : Les LLMs présentent un écart dans l'utilisation des concepts par rapport aux attentes humaines, particulièrement critique dans les applications d'outils CAA
- Scénarios d'application : Les outils CAA aident les personnes incapables de communiquer normalement, mais la vitesse de communication constitue le principal goulot d'étranglement
- Défis technologiques : Comment garantir que le texte généré par les LLMs reflète fidèlement l'intention affective et le mode d'expression de l'utilisateur
- Les utilisateurs de CAA sont souvent ignorés ou interrompus en raison des délais de communication
- Les technologies NLP actuelles promettent d'améliorer la vitesse de communication des outils CAA
- Les préoccupations des utilisateurs concernant le contrôle des LLMs, la précision et l'adaptation contextuelle
- Absence d'évaluation systématique du degré d'alignement entre les LLMs et les humains dans la compréhension des concepts
- Manque de fondement empirique pour le choix des modes de représentation affective
- Considération insuffisante de l'impact de différents modes de représentation sur l'expérience utilisateur
- Proposition d'un paradigme d'évaluation de l'alignement des représentations : Introduction d'une méthode d'évaluation mesurant par le jugement humain le degré d'alignement entre l'utilisation des concepts par les LLMs et les modèles mentaux humains
- Comparaison systématique de quatre modes de représentation affective : Évaluation complète de l'efficacité des quatre modes : Words (Mots), Lexical VAD, Numeric VAD et Emojis
- Découverte empirique du mode de représentation optimal : Démonstration que le vocabulaire anglais et le VAD lexicalisé offrent les meilleures performances en termes d'alignement des représentations, de précision et d'authenticité
- Orientations pour les applications CAA : Fourniture d'une base empirique pour le choix de la représentation affective dans les futures applications CAA
- Entrée : Trois mots-clés + un mode de représentation affective
- Sortie : Une phrase complète contenant les mots-clés et exprimant l'affect spécifié
- Contraintes : La phrase générée doit être naturelle, exprimer fidèlement l'affect et éviter l'utilisation directe de mots affectifs
Utilisation directe de vocabulaire affectif anglais (par exemple, « angry », « happy »)
Utilisation de descriptions lexicales à cinq niveaux des dimensions VAD :
- Valence : Very High/High/Moderate/Low/Very Low
- Arousal : Degré d'activation affective
- Dominance : Degré de contrôle sur l'affect
Utilisation d'une échelle numérique de -5,0 à +5,0 pour représenter les dimensions VAD
Utilisation de symboles Unicode pour représenter les affects
- GPT-4-Turbo-2024-04-09 : Appel via API commerciale
- LLaMA-3.3-70B : Version quantifiée en 8 bits, déploiement local
- Words/Emojis : Prompting few-shot
- Représentations VAD : Prompting avec chaîne de pensée par retrait d'étape (Step-back chain-of-thought)
- Conditions de contrainte : Interdiction d'utiliser directement des mots affectifs, exigence de « montrer plutôt que dire »
- Total de 360 phrases par modèle (90 par mode de représentation)
- Couverture de 18 affects différents, issus de la classification de Demszky et al. (2020)
- Sélection aléatoire de 2 phrases par affect pour l'évaluation
- Sélection d'affects : Basée sur la classification de Demszky et al. (2020), sélection de 18 affects représentatifs
- Combinaisons de mots-clés : Utilisation de combinaisons de vocabulaire courant, telles que Place, Great, Korean, Finals, Semester, Math
- Valeurs VAD : Basées sur les valeurs de Guo et Choi (2021), normalisées à la plage -5,0 à +5,0
- Plateforme : Plateforme de crowdsourcing Prolific
- Nombre : 200 participants (100 par modèle)
- Critères : 18 ans ou plus, résidant aux États-Unis, anglophone courant
- Rémunération : 14 $/heure, tâche d'environ 15 minutes
1. Évaluation de l'Alignement des Représentations
- Présentation d'un mode de représentation affective et de quatre phrases générées
- Les participants sélectionnent la phrase qui correspond le mieux à cet affect
- Chaque participant répond à 10 questions, assignées aléatoirement
2. Évaluation de la Précision et de l'Authenticité
- Échelle de Likert à 5 points pour évaluer :
- « Convey » : Degré auquel la phrase transmet l'affect
- « You'd say » : Ressemble à ce que le participant dirait
- « Someone Else'd say » : Ressemble à ce que quelqu'un d'autre dirait
- Taux de sélection : Pourcentage de sélection d'un mode de représentation spécifique
- Entropie de Shannon : Mesure du degré de cohérence des sélections
- Auto-alignement : Degré de correspondance entre la génération et l'évaluation du même mode de représentation
- Score moyen de Likert sur les trois dimensions
- Test de significativité statistique ANOVA
- Test t apparié pour l'analyse post-hoc
| Mode de Représentation | Taux de Sélection GPT-4 | Taux de Sélection LLaMA-3 | Entropie GPT-4 | Entropie LLaMA-3 |
|---|
| Words | 61,9 % | 57,5 % | 0,32 | 0,42 |
| Lexical VAD | 52,0 % | - | 0,61 | 0,72 |
| Numeric VAD | - | - | 0,70 | 0,63 |
| Emojis | - | - | 0,67 | 0,52 |
- Optimalité du mode Words : Affiche le taux d'auto-alignement le plus élevé et la valeur d'entropie la plus faible sur les deux modèles
- Lexical VAD en second lieu : Bonne performance sur GPT-4, mais moins efficace sur LLaMA-3
- Performance la plus faible du Numeric VAD : Valeur d'entropie la plus élevée, indiquant une difficulté des participants à atteindre un consensus
- Alignement inter-représentations : Les Emojis et le Lexical VAD affichent un alignement sur LLaMA-3
- GPT-4 : Le mode de représentation affective a un effet significatif sur « Convey » et « You'd say » (p < 0,01)
- LLaMA-3 : Le mode de représentation affective a un effet significatif sur « Convey » et « Someone Else'd say » (p < 0,05)
- Words surpasse significativement Numeric VAD sur la dimension « Convey » (GPT-4, p = 0,002)
- Lexical VAD surpasse significativement Numeric VAD sur la dimension « Convey » (LLaMA-3, p = 0,018)
- Words surpasse significativement Emojis (p = 0,005) et Numeric VAD (p = 0,044) sur la dimension « You'd say »
- GPT-4 surpasse clairement LLaMA-3 dans la génération de phrases exprimant l'affect « grateful »
- Variations significatives de performance pour différents affects selon les modes de représentation
- Certains affects (par exemple, « excited », « proud ») montrent une performance inférieure dans des conditions spécifiques
- Les affects positifs affichent généralement de meilleures performances en mode Words
- Les états affectifs complexes sont mieux adaptés au mode Lexical VAD
- Le Numeric VAD rencontre des difficultés dans la distinction fine des affects
| Modèle | 1 Mot-Clé Inclus | 2 Mots-Clés Inclus | 3 Mots-Clés Inclus | Taux de Précision Moyen |
|---|
| GPT-4, 1x | 1,00 | 1,00 | 0,936 | 0,978 |
| LLaMA-3, 1x | 0,908 | 0,897 | 0,781 | 0,862 |
| LLaMA-3, 3x | 0,969 | 0,969 | 0,850 | 0,930 |
La fourniture aux participants d'explications sur le concept VAD et de questions d'entraînement a amélioré la précision de la compréhension, mais des problèmes de charge cognitive persistent.
- Approches précoces basées sur des systèmes grammaticaux (Kasper, 1989 ; Uchimoto et al., 2002)
- Modèles de séquence et méthodes de correction itérative (Mou et al., 2016 ; He et Li, 2021)
- Techniques de génération contrôlée à l'ère des Transformers (Kumar et al., 2021 ; Krause et al., 2021)
- Systèmes précoces basés sur des règles (Polzin et Waibel, 2000)
- Génération conditionnée par RNN (Ghosh et al., 2017 ; Song et al., 2019)
- Méthodes de génération affective à l'ère des LLMs (Li et al., 2024 ; Mishra et al., 2023)
- Apprentissage du comportement normatif dans les histoires pour enfants (Nahian et al., 2020)
- Intégration des valeurs dans l'apprentissage par renforcement à partir des retours humains (Arzberger et al., 2024)
- Mesure de l'alignement des valeurs des modèles existants (Norhashim et Hahn, 2024)
- Importance de l'alignement des représentations : Le degré d'alignement entre les humains et les LLMs dans la compréhension des concepts affecte directement l'efficacité de l'application
- Supériorité du mode Words : Le vocabulaire anglais offre l'effet d'alignement le plus fort dans la représentation affective
- Complexité de la représentation VAD : Le VAD lexicalisé surpasse le VAD numérique, mais reste inférieur à la représentation directe par mots
- Différences entre modèles : Des variations significatives existent entre différents LLMs dans la compréhension et la génération d'affects
- Choix de modèles : Utilisation de seulement deux LLMs, avec LLaMA-3 en version quantifiée 8 bits
- Restriction linguistique : Limitation à l'anglais, d'autres langues pouvant présenter des résultats différents
- Représentativité des participants : Absence de la population réelle d'utilisateurs de CAA
- Charge de compréhension du VAD : Les participants doivent apprendre le concept VAD, ce qui peut affecter les résultats d'évaluation
- Subjectivité des emojis : Variations de compréhension des emojis selon les contextes culturels
- Complexité affective : Les 18 affects peuvent ne pas couvrir l'ensemble du spectre affectif
- Extension de la gamme de modèles : Test de modèles LLM plus récents
- Validation multilingue : Vérification des conclusions dans d'autres environnements linguistiques
- Personnalisation utilisateur : Apprentissage de représentations personnalisées pour des groupes d'utilisateurs CAA spécifiques
- Application en temps réel : Déploiement et évaluation dans des environnements CAA réels
- Paradigme d'alignement des représentations novateur : Fourniture d'une nouvelle méthode d'évaluation systématique de la compréhension des concepts par les LLMs
- Conception d'évaluation multidimensionnelle : Cadre d'évaluation intégrant l'alignement, la précision et l'authenticité
- Recherche orientée vers l'application pratique : Réponse directe aux besoins réels des applications CAA
- Évaluation humaine à grande échelle : Évaluation par crowdsourcing de 200 participants garantissant la fiabilité des résultats
- Rigueur statistique : Utilisation d'ANOVA et de tests t appariés pour assurer la significativité des résultats
- Analyse multidimensionnelle : Évaluation complète sous les angles de l'alignement des représentations, de la précision et de l'authenticité
- Cohérence des découvertes : Tendances des résultats fondamentalement cohérentes sur les deux modèles
- Significativité statistique : Conclusions principales validées par des tests de significativité statistique
- Valeur d'orientation pratique : Recommandations de conception claires pour les applications CAA
- Subjectivité de l'évaluation : Dépendance au jugement humain subjectif, susceptible de biais
- Simplification de la tâche : La génération de phrases à partir de mots-clés est relativement simple, les scénarios CAA réels étant plus complexes
- Évaluation statique : Absence de considération de la dépendance contextuelle dans les dialogues dynamiques
- Formation insuffisante des participants : La formation rapide au concept VAD peut être inadéquate
- Limitation de la taille d'échantillon : Nombre relativement faible de répondants par question (3-9 personnes)
- Variations de version de modèle : Les versions de modèles utilisées peuvent affecter l'actualité des résultats
- Travail novateur : Première étude systématique du problème d'alignement des représentations des LLMs
- Contribution méthodologique : Le paradigme d'évaluation de l'alignement des représentations peut s'étendre à d'autres domaines conceptuels
- Valeur interdisciplinaire : Connexion entre la recherche en NLP, psychologie et technologie d'assistance
- Amélioration des outils CAA : Orientation pour la conception de la représentation affective dans les applications CAA
- Directions d'optimisation des LLMs : Perspectives pour améliorer l'alignement des concepts entre LLMs et humains
- Établissement de normes d'évaluation : Établissement d'un benchmark d'évaluation pour les applications similaires
- Description méthodologique détaillée : Fourniture complète de la configuration expérimentale et des paramètres
- Engagement de partage de données : Promesse de publication des données et du code expérimentaux
- Processus standardisé : Établissement d'un processus d'évaluation reproductible
- Développement d'outils CAA : Conception et optimisation des fonctionnalités d'expression affective
- Systèmes de dialogue : Amélioration de la compréhension et de l'expression affective
- Évaluation de la génération de texte : Établissement de normes d'évaluation pour l'alignement humain-machine
- Alignement d'autres concepts : Extension à des domaines tels que les valeurs et les concepts culturels
- Alignement multimodal : Intégration d'informations visuelles, audio et autres modalités
- Adaptation personnalisée : Personnalisation pour des groupes d'utilisateurs spécifiques
Cette recherche cite de nombreux travaux connexes, incluant principalement :
- Demszky et al. (2020) : Ensemble de données GoEmotions
- Guo et Choi (2021) : Apprentissage de la représentation affective VAD
- Valencia et al. (2023) : Application des modèles de langage IA dans la CAA
- Chen et Wan (2024) : Évaluation de la capacité de génération avec contraintes lexicales des LLMs
Évaluation Globale : Il s'agit d'un travail de recherche de haute qualité qui apporte une contribution novatrice à la question importante de l'alignement des concepts entre les LLMs et les humains. La méthodologie est scientifiquement rigoureuse, la conception expérimentale est raisonnable, et les résultats possèdent une valeur théorique et pratique significative. Bien que certaines limitations existent, cette recherche établit une base solide pour les travaux futurs connexes.