2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin

Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.

academic

Évaluation de l'Alignement des Représentations Humain-LLM : Une Étude de Cas sur la Génération de Phrases Affectives pour la Communication Augmentative et Alternative

Informations Fondamentales

ID de l'article : 2503.11881
Titre : Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
Auteurs : Shadab Choudhury, Asha Kumar, Lara J. Martin (Université du Maryland, Comté de Baltimore)
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : 2025
Lien de l'article : https://arxiv.org/abs/2503.11881

Résumé

Cette recherche aborde le problème de l'écart entre l'utilisation des concepts par les grands modèles de langage (LLMs) et les attentes humaines, en particulier dans les applications d'outils de communication augmentative et alternative (CAA). L'étude introduit la notion d'« alignement des représentations » (Representation Alignment) comme tâche d'évaluation, mesurant cet écart par le jugement humain. L'étude examine quatre modes de représentation affective : le vocabulaire anglais, les dimensions VAD lexicalisées, les dimensions VAD numériques et les emojis, en évaluant l'exactitude et l'authenticité des phrases générées. Les résultats montrent que les humains approuvent davantage les résultats générés par les LLMs sous conditions de vocabulaire anglais par rapport aux échelles VAD, cette différence étant particulièrement marquée dans la comparaison VAD numérique versus lexical.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central : Les LLMs présentent un écart dans l'utilisation des concepts par rapport aux attentes humaines, particulièrement critique dans les applications d'outils CAA
Scénarios d'application : Les outils CAA aident les personnes incapables de communiquer normalement, mais la vitesse de communication constitue le principal goulot d'étranglement
Défis technologiques : Comment garantir que le texte généré par les LLMs reflète fidèlement l'intention affective et le mode d'expression de l'utilisateur

Importance de la Recherche

Les utilisateurs de CAA sont souvent ignorés ou interrompus en raison des délais de communication
Les technologies NLP actuelles promettent d'améliorer la vitesse de communication des outils CAA
Les préoccupations des utilisateurs concernant le contrôle des LLMs, la précision et l'adaptation contextuelle

Limitations des Approches Existantes

Absence d'évaluation systématique du degré d'alignement entre les LLMs et les humains dans la compréhension des concepts
Manque de fondement empirique pour le choix des modes de représentation affective
Considération insuffisante de l'impact de différents modes de représentation sur l'expérience utilisateur

Contributions Principales

Proposition d'un paradigme d'évaluation de l'alignement des représentations : Introduction d'une méthode d'évaluation mesurant par le jugement humain le degré d'alignement entre l'utilisation des concepts par les LLMs et les modèles mentaux humains
Comparaison systématique de quatre modes de représentation affective : Évaluation complète de l'efficacité des quatre modes : Words (Mots), Lexical VAD, Numeric VAD et Emojis
Découverte empirique du mode de représentation optimal : Démonstration que le vocabulaire anglais et le VAD lexicalisé offrent les meilleures performances en termes d'alignement des représentations, de précision et d'authenticité
Orientations pour les applications CAA : Fourniture d'une base empirique pour le choix de la représentation affective dans les futures applications CAA

Détails de la Méthodologie

Définition de la Tâche

Entrée : Trois mots-clés + un mode de représentation affective
Sortie : Une phrase complète contenant les mots-clés et exprimant l'affect spécifié
Contraintes : La phrase générée doit être naturelle, exprimer fidèlement l'affect et éviter l'utilisation directe de mots affectifs

Modes de Représentation Affective

1. Représentation Words (Mots)

Utilisation directe de vocabulaire affectif anglais (par exemple, « angry », « happy »)

2. Représentation Lexical VAD

Utilisation de descriptions lexicales à cinq niveaux des dimensions VAD :

Valence : Very High/High/Moderate/Low/Very Low
Arousal : Degré d'activation affective
Dominance : Degré de contrôle sur l'affect

3. Représentation Numeric VAD

Utilisation d'une échelle numérique de -5,0 à +5,0 pour représenter les dimensions VAD

4. Représentation Emojis

Utilisation de symboles Unicode pour représenter les affects

Architecture du Modèle et Stratégie de Génération

Modèles Utilisés

GPT-4-Turbo-2024-04-09 : Appel via API commerciale
LLaMA-3.3-70B : Version quantifiée en 8 bits, déploiement local

Stratégies de Prompting

Words/Emojis : Prompting few-shot
Représentations VAD : Prompting avec chaîne de pensée par retrait d'étape (Step-back chain-of-thought)
Conditions de contrainte : Interdiction d'utiliser directement des mots affectifs, exigence de « montrer plutôt que dire »

Génération de Données

Total de 360 phrases par modèle (90 par mode de représentation)
Couverture de 18 affects différents, issus de la classification de Demszky et al. (2020)
Sélection aléatoire de 2 phrases par affect pour l'évaluation

Configuration Expérimentale

Construction du Jeu de Données

Sélection d'affects : Basée sur la classification de Demszky et al. (2020), sélection de 18 affects représentatifs
Combinaisons de mots-clés : Utilisation de combinaisons de vocabulaire courant, telles que Place, Great, Korean, Finals, Semester, Math
Valeurs VAD : Basées sur les valeurs de Guo et Choi (2021), normalisées à la plage -5,0 à +5,0

Conception de l'Évaluation Humaine

Recrutement des Participants

Plateforme : Plateforme de crowdsourcing Prolific
Nombre : 200 participants (100 par modèle)
Critères : 18 ans ou plus, résidant aux États-Unis, anglophone courant
Rémunération : 14 $/heure, tâche d'environ 15 minutes

Tâches d'Évaluation

1. Évaluation de l'Alignement des Représentations

Présentation d'un mode de représentation affective et de quatre phrases générées
Les participants sélectionnent la phrase qui correspond le mieux à cet affect
Chaque participant répond à 10 questions, assignées aléatoirement

2. Évaluation de la Précision et de l'Authenticité

Échelle de Likert à 5 points pour évaluer :
- « Convey » : Degré auquel la phrase transmet l'affect
- « You'd say » : Ressemble à ce que le participant dirait
- « Someone Else'd say » : Ressemble à ce que quelqu'un d'autre dirait

Métriques d'Évaluation

Métriques d'Alignement des Représentations

Taux de sélection : Pourcentage de sélection d'un mode de représentation spécifique
Entropie de Shannon : Mesure du degré de cohérence des sélections
Auto-alignement : Degré de correspondance entre la génération et l'évaluation du même mode de représentation

Métriques de Précision et d'Authenticité

Score moyen de Likert sur les trois dimensions
Test de significativité statistique ANOVA
Test t apparié pour l'analyse post-hoc

Résultats Expérimentaux

Résultats Principaux

Performance de l'Alignement des Représentations

Mode de Représentation	Taux de Sélection GPT-4	Taux de Sélection LLaMA-3	Entropie GPT-4	Entropie LLaMA-3
Words	61,9 %	57,5 %	0,32	0,42
Lexical VAD	52,0 %	-	0,61	0,72
Numeric VAD	-	-	0,70	0,63
Emojis	-	-	0,67	0,52

Découvertes Clés

Optimalité du mode Words : Affiche le taux d'auto-alignement le plus élevé et la valeur d'entropie la plus faible sur les deux modèles
Lexical VAD en second lieu : Bonne performance sur GPT-4, mais moins efficace sur LLaMA-3
Performance la plus faible du Numeric VAD : Valeur d'entropie la plus élevée, indiquant une difficulté des participants à atteindre un consensus
Alignement inter-représentations : Les Emojis et le Lexical VAD affichent un alignement sur LLaMA-3

Résultats de Précision et d'Authenticité

Significativité Statistique

GPT-4 : Le mode de représentation affective a un effet significatif sur « Convey » et « You'd say » (p < 0,01)
LLaMA-3 : Le mode de représentation affective a un effet significatif sur « Convey » et « Someone Else'd say » (p < 0,05)

Comparaisons Appariées

Words surpasse significativement Numeric VAD sur la dimension « Convey » (GPT-4, p = 0,002)
Lexical VAD surpasse significativement Numeric VAD sur la dimension « Convey » (LLaMA-3, p = 0,018)
Words surpasse significativement Emojis (p = 0,005) et Numeric VAD (p = 0,044) sur la dimension « You'd say »

Analyse Spécifique aux Affects

Différences entre Modèles

GPT-4 surpasse clairement LLaMA-3 dans la génération de phrases exprimant l'affect « grateful »
Variations significatives de performance pour différents affects selon les modes de représentation
Certains affects (par exemple, « excited », « proud ») montrent une performance inférieure dans des conditions spécifiques

Adaptabilité des Représentations

Les affects positifs affichent généralement de meilleures performances en mode Words
Les états affectifs complexes sont mieux adaptés au mode Lexical VAD
Le Numeric VAD rencontre des difficultés dans la distinction fine des affects

Expériences d'Ablation

Analyse du Respect des Mots-Clés

Modèle	1 Mot-Clé Inclus	2 Mots-Clés Inclus	3 Mots-Clés Inclus	Taux de Précision Moyen
GPT-4, 1x	1,00	1,00	0,936	0,978
LLaMA-3, 1x	0,908	0,897	0,781	0,862
LLaMA-3, 3x	0,969	0,969	0,850	0,930

Effet de l'Entraînement VAD

La fourniture aux participants d'explications sur le concept VAD et de questions d'entraînement a amélioré la précision de la compréhension, mais des problèmes de charge cognitive persistent.

Travaux Connexes

Génération avec Contraintes de Mots-Clés

Approches précoces basées sur des systèmes grammaticaux (Kasper, 1989 ; Uchimoto et al., 2002)
Modèles de séquence et méthodes de correction itérative (Mou et al., 2016 ; He et Li, 2021)
Techniques de génération contrôlée à l'ère des Transformers (Kumar et al., 2021 ; Krause et al., 2021)

Génération de Phrases Conditionnées par l'Affect

Systèmes précoces basés sur des règles (Polzin et Waibel, 2000)
Génération conditionnée par RNN (Ghosh et al., 2017 ; Song et al., 2019)
Méthodes de génération affective à l'ère des LLMs (Li et al., 2024 ; Mishra et al., 2023)

Recherche sur l'Alignement des Valeurs

Apprentissage du comportement normatif dans les histoires pour enfants (Nahian et al., 2020)
Intégration des valeurs dans l'apprentissage par renforcement à partir des retours humains (Arzberger et al., 2024)
Mesure de l'alignement des valeurs des modèles existants (Norhashim et Hahn, 2024)

Conclusions et Discussion

Conclusions Principales

Importance de l'alignement des représentations : Le degré d'alignement entre les humains et les LLMs dans la compréhension des concepts affecte directement l'efficacité de l'application
Supériorité du mode Words : Le vocabulaire anglais offre l'effet d'alignement le plus fort dans la représentation affective
Complexité de la représentation VAD : Le VAD lexicalisé surpasse le VAD numérique, mais reste inférieur à la représentation directe par mots
Différences entre modèles : Des variations significatives existent entre différents LLMs dans la compréhension et la génération d'affects

Limitations

Limitations Techniques

Choix de modèles : Utilisation de seulement deux LLMs, avec LLaMA-3 en version quantifiée 8 bits
Restriction linguistique : Limitation à l'anglais, d'autres langues pouvant présenter des résultats différents
Représentativité des participants : Absence de la population réelle d'utilisateurs de CAA

Limitations Méthodologiques

Charge de compréhension du VAD : Les participants doivent apprendre le concept VAD, ce qui peut affecter les résultats d'évaluation
Subjectivité des emojis : Variations de compréhension des emojis selon les contextes culturels
Complexité affective : Les 18 affects peuvent ne pas couvrir l'ensemble du spectre affectif

Directions Futures

Extension de la gamme de modèles : Test de modèles LLM plus récents
Validation multilingue : Vérification des conclusions dans d'autres environnements linguistiques
Personnalisation utilisateur : Apprentissage de représentations personnalisées pour des groupes d'utilisateurs CAA spécifiques
Application en temps réel : Déploiement et évaluation dans des environnements CAA réels

Évaluation Approfondie

Points Forts

Innovativité Méthodologique

Paradigme d'alignement des représentations novateur : Fourniture d'une nouvelle méthode d'évaluation systématique de la compréhension des concepts par les LLMs
Conception d'évaluation multidimensionnelle : Cadre d'évaluation intégrant l'alignement, la précision et l'authenticité
Recherche orientée vers l'application pratique : Réponse directe aux besoins réels des applications CAA

Suffisance Expérimentale

Évaluation humaine à grande échelle : Évaluation par crowdsourcing de 200 participants garantissant la fiabilité des résultats
Rigueur statistique : Utilisation d'ANOVA et de tests t appariés pour assurer la significativité des résultats
Analyse multidimensionnelle : Évaluation complète sous les angles de l'alignement des représentations, de la précision et de l'authenticité

Force de Persuasion des Résultats

Cohérence des découvertes : Tendances des résultats fondamentalement cohérentes sur les deux modèles
Significativité statistique : Conclusions principales validées par des tests de significativité statistique
Valeur d'orientation pratique : Recommandations de conception claires pour les applications CAA

Insuffisances

Limitations Méthodologiques

Subjectivité de l'évaluation : Dépendance au jugement humain subjectif, susceptible de biais
Simplification de la tâche : La génération de phrases à partir de mots-clés est relativement simple, les scénarios CAA réels étant plus complexes
Évaluation statique : Absence de considération de la dépendance contextuelle dans les dialogues dynamiques

Défauts de Configuration Expérimentale

Formation insuffisante des participants : La formation rapide au concept VAD peut être inadéquate
Limitation de la taille d'échantillon : Nombre relativement faible de répondants par question (3-9 personnes)
Variations de version de modèle : Les versions de modèles utilisées peuvent affecter l'actualité des résultats

Évaluation de l'Impact

Contributions Académiques

Travail novateur : Première étude systématique du problème d'alignement des représentations des LLMs
Contribution méthodologique : Le paradigme d'évaluation de l'alignement des représentations peut s'étendre à d'autres domaines conceptuels
Valeur interdisciplinaire : Connexion entre la recherche en NLP, psychologie et technologie d'assistance

Valeur Pratique

Amélioration des outils CAA : Orientation pour la conception de la représentation affective dans les applications CAA
Directions d'optimisation des LLMs : Perspectives pour améliorer l'alignement des concepts entre LLMs et humains
Établissement de normes d'évaluation : Établissement d'un benchmark d'évaluation pour les applications similaires

Reproductibilité

Description méthodologique détaillée : Fourniture complète de la configuration expérimentale et des paramètres
Engagement de partage de données : Promesse de publication des données et du code expérimentaux
Processus standardisé : Établissement d'un processus d'évaluation reproductible

Scénarios d'Application

Applications Directes

Développement d'outils CAA : Conception et optimisation des fonctionnalités d'expression affective
Systèmes de dialogue : Amélioration de la compréhension et de l'expression affective
Évaluation de la génération de texte : Établissement de normes d'évaluation pour l'alignement humain-machine

Applications Étendues

Alignement d'autres concepts : Extension à des domaines tels que les valeurs et les concepts culturels
Alignement multimodal : Intégration d'informations visuelles, audio et autres modalités
Adaptation personnalisée : Personnalisation pour des groupes d'utilisateurs spécifiques

Références

Cette recherche cite de nombreux travaux connexes, incluant principalement :

Demszky et al. (2020) : Ensemble de données GoEmotions
Guo et Choi (2021) : Apprentissage de la représentation affective VAD
Valencia et al. (2023) : Application des modèles de langage IA dans la CAA
Chen et Wan (2024) : Évaluation de la capacité de génération avec contraintes lexicales des LLMs

Évaluation Globale : Il s'agit d'un travail de recherche de haute qualité qui apporte une contribution novatrice à la question importante de l'alignement des concepts entre les LLMs et les humains. La méthodologie est scientifiquement rigoureuse, la conception expérimentale est raisonnable, et les résultats possèdent une valeur théorique et pratique significative. Bien que certaines limitations existent, cette recherche établit une base solide pour les travaux futurs connexes.