2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin
Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
academic

Évaluation de l'Alignement des Représentations Humain-LLM : Une Étude de Cas sur la Génération de Phrases Affectives pour la Communication Augmentative et Alternative

Informations Fondamentales

  • ID de l'article : 2503.11881
  • Titre : Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
  • Auteurs : Shadab Choudhury, Asha Kumar, Lara J. Martin (Université du Maryland, Comté de Baltimore)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : 2025
  • Lien de l'article : https://arxiv.org/abs/2503.11881

Résumé

Cette recherche aborde le problème de l'écart entre l'utilisation des concepts par les grands modèles de langage (LLMs) et les attentes humaines, en particulier dans les applications d'outils de communication augmentative et alternative (CAA). L'étude introduit la notion d'« alignement des représentations » (Representation Alignment) comme tâche d'évaluation, mesurant cet écart par le jugement humain. L'étude examine quatre modes de représentation affective : le vocabulaire anglais, les dimensions VAD lexicalisées, les dimensions VAD numériques et les emojis, en évaluant l'exactitude et l'authenticité des phrases générées. Les résultats montrent que les humains approuvent davantage les résultats générés par les LLMs sous conditions de vocabulaire anglais par rapport aux échelles VAD, cette différence étant particulièrement marquée dans la comparaison VAD numérique versus lexical.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central : Les LLMs présentent un écart dans l'utilisation des concepts par rapport aux attentes humaines, particulièrement critique dans les applications d'outils CAA
  2. Scénarios d'application : Les outils CAA aident les personnes incapables de communiquer normalement, mais la vitesse de communication constitue le principal goulot d'étranglement
  3. Défis technologiques : Comment garantir que le texte généré par les LLMs reflète fidèlement l'intention affective et le mode d'expression de l'utilisateur

Importance de la Recherche

  • Les utilisateurs de CAA sont souvent ignorés ou interrompus en raison des délais de communication
  • Les technologies NLP actuelles promettent d'améliorer la vitesse de communication des outils CAA
  • Les préoccupations des utilisateurs concernant le contrôle des LLMs, la précision et l'adaptation contextuelle

Limitations des Approches Existantes

  • Absence d'évaluation systématique du degré d'alignement entre les LLMs et les humains dans la compréhension des concepts
  • Manque de fondement empirique pour le choix des modes de représentation affective
  • Considération insuffisante de l'impact de différents modes de représentation sur l'expérience utilisateur

Contributions Principales

  1. Proposition d'un paradigme d'évaluation de l'alignement des représentations : Introduction d'une méthode d'évaluation mesurant par le jugement humain le degré d'alignement entre l'utilisation des concepts par les LLMs et les modèles mentaux humains
  2. Comparaison systématique de quatre modes de représentation affective : Évaluation complète de l'efficacité des quatre modes : Words (Mots), Lexical VAD, Numeric VAD et Emojis
  3. Découverte empirique du mode de représentation optimal : Démonstration que le vocabulaire anglais et le VAD lexicalisé offrent les meilleures performances en termes d'alignement des représentations, de précision et d'authenticité
  4. Orientations pour les applications CAA : Fourniture d'une base empirique pour le choix de la représentation affective dans les futures applications CAA

Détails de la Méthodologie

Définition de la Tâche

  • Entrée : Trois mots-clés + un mode de représentation affective
  • Sortie : Une phrase complète contenant les mots-clés et exprimant l'affect spécifié
  • Contraintes : La phrase générée doit être naturelle, exprimer fidèlement l'affect et éviter l'utilisation directe de mots affectifs

Modes de Représentation Affective

1. Représentation Words (Mots)

Utilisation directe de vocabulaire affectif anglais (par exemple, « angry », « happy »)

2. Représentation Lexical VAD

Utilisation de descriptions lexicales à cinq niveaux des dimensions VAD :

  • Valence : Very High/High/Moderate/Low/Very Low
  • Arousal : Degré d'activation affective
  • Dominance : Degré de contrôle sur l'affect

3. Représentation Numeric VAD

Utilisation d'une échelle numérique de -5,0 à +5,0 pour représenter les dimensions VAD

4. Représentation Emojis

Utilisation de symboles Unicode pour représenter les affects

Architecture du Modèle et Stratégie de Génération

Modèles Utilisés

  • GPT-4-Turbo-2024-04-09 : Appel via API commerciale
  • LLaMA-3.3-70B : Version quantifiée en 8 bits, déploiement local

Stratégies de Prompting

  • Words/Emojis : Prompting few-shot
  • Représentations VAD : Prompting avec chaîne de pensée par retrait d'étape (Step-back chain-of-thought)
  • Conditions de contrainte : Interdiction d'utiliser directement des mots affectifs, exigence de « montrer plutôt que dire »

Génération de Données

  • Total de 360 phrases par modèle (90 par mode de représentation)
  • Couverture de 18 affects différents, issus de la classification de Demszky et al. (2020)
  • Sélection aléatoire de 2 phrases par affect pour l'évaluation

Configuration Expérimentale

Construction du Jeu de Données

  • Sélection d'affects : Basée sur la classification de Demszky et al. (2020), sélection de 18 affects représentatifs
  • Combinaisons de mots-clés : Utilisation de combinaisons de vocabulaire courant, telles que Place, Great, Korean, Finals, Semester, Math
  • Valeurs VAD : Basées sur les valeurs de Guo et Choi (2021), normalisées à la plage -5,0 à +5,0

Conception de l'Évaluation Humaine

Recrutement des Participants

  • Plateforme : Plateforme de crowdsourcing Prolific
  • Nombre : 200 participants (100 par modèle)
  • Critères : 18 ans ou plus, résidant aux États-Unis, anglophone courant
  • Rémunération : 14 $/heure, tâche d'environ 15 minutes

Tâches d'Évaluation

1. Évaluation de l'Alignement des Représentations
  • Présentation d'un mode de représentation affective et de quatre phrases générées
  • Les participants sélectionnent la phrase qui correspond le mieux à cet affect
  • Chaque participant répond à 10 questions, assignées aléatoirement
2. Évaluation de la Précision et de l'Authenticité
  • Échelle de Likert à 5 points pour évaluer :
    • « Convey » : Degré auquel la phrase transmet l'affect
    • « You'd say » : Ressemble à ce que le participant dirait
    • « Someone Else'd say » : Ressemble à ce que quelqu'un d'autre dirait

Métriques d'Évaluation

Métriques d'Alignement des Représentations

  • Taux de sélection : Pourcentage de sélection d'un mode de représentation spécifique
  • Entropie de Shannon : Mesure du degré de cohérence des sélections
  • Auto-alignement : Degré de correspondance entre la génération et l'évaluation du même mode de représentation

Métriques de Précision et d'Authenticité

  • Score moyen de Likert sur les trois dimensions
  • Test de significativité statistique ANOVA
  • Test t apparié pour l'analyse post-hoc

Résultats Expérimentaux

Résultats Principaux

Performance de l'Alignement des Représentations

Mode de ReprésentationTaux de Sélection GPT-4Taux de Sélection LLaMA-3Entropie GPT-4Entropie LLaMA-3
Words61,9 %57,5 %0,320,42
Lexical VAD52,0 %-0,610,72
Numeric VAD--0,700,63
Emojis--0,670,52

Découvertes Clés

  1. Optimalité du mode Words : Affiche le taux d'auto-alignement le plus élevé et la valeur d'entropie la plus faible sur les deux modèles
  2. Lexical VAD en second lieu : Bonne performance sur GPT-4, mais moins efficace sur LLaMA-3
  3. Performance la plus faible du Numeric VAD : Valeur d'entropie la plus élevée, indiquant une difficulté des participants à atteindre un consensus
  4. Alignement inter-représentations : Les Emojis et le Lexical VAD affichent un alignement sur LLaMA-3

Résultats de Précision et d'Authenticité

Significativité Statistique

  • GPT-4 : Le mode de représentation affective a un effet significatif sur « Convey » et « You'd say » (p < 0,01)
  • LLaMA-3 : Le mode de représentation affective a un effet significatif sur « Convey » et « Someone Else'd say » (p < 0,05)

Comparaisons Appariées

  • Words surpasse significativement Numeric VAD sur la dimension « Convey » (GPT-4, p = 0,002)
  • Lexical VAD surpasse significativement Numeric VAD sur la dimension « Convey » (LLaMA-3, p = 0,018)
  • Words surpasse significativement Emojis (p = 0,005) et Numeric VAD (p = 0,044) sur la dimension « You'd say »

Analyse Spécifique aux Affects

Différences entre Modèles

  • GPT-4 surpasse clairement LLaMA-3 dans la génération de phrases exprimant l'affect « grateful »
  • Variations significatives de performance pour différents affects selon les modes de représentation
  • Certains affects (par exemple, « excited », « proud ») montrent une performance inférieure dans des conditions spécifiques

Adaptabilité des Représentations

  • Les affects positifs affichent généralement de meilleures performances en mode Words
  • Les états affectifs complexes sont mieux adaptés au mode Lexical VAD
  • Le Numeric VAD rencontre des difficultés dans la distinction fine des affects

Expériences d'Ablation

Analyse du Respect des Mots-Clés

Modèle1 Mot-Clé Inclus2 Mots-Clés Inclus3 Mots-Clés InclusTaux de Précision Moyen
GPT-4, 1x1,001,000,9360,978
LLaMA-3, 1x0,9080,8970,7810,862
LLaMA-3, 3x0,9690,9690,8500,930

Effet de l'Entraînement VAD

La fourniture aux participants d'explications sur le concept VAD et de questions d'entraînement a amélioré la précision de la compréhension, mais des problèmes de charge cognitive persistent.

Travaux Connexes

Génération avec Contraintes de Mots-Clés

  • Approches précoces basées sur des systèmes grammaticaux (Kasper, 1989 ; Uchimoto et al., 2002)
  • Modèles de séquence et méthodes de correction itérative (Mou et al., 2016 ; He et Li, 2021)
  • Techniques de génération contrôlée à l'ère des Transformers (Kumar et al., 2021 ; Krause et al., 2021)

Génération de Phrases Conditionnées par l'Affect

  • Systèmes précoces basés sur des règles (Polzin et Waibel, 2000)
  • Génération conditionnée par RNN (Ghosh et al., 2017 ; Song et al., 2019)
  • Méthodes de génération affective à l'ère des LLMs (Li et al., 2024 ; Mishra et al., 2023)

Recherche sur l'Alignement des Valeurs

  • Apprentissage du comportement normatif dans les histoires pour enfants (Nahian et al., 2020)
  • Intégration des valeurs dans l'apprentissage par renforcement à partir des retours humains (Arzberger et al., 2024)
  • Mesure de l'alignement des valeurs des modèles existants (Norhashim et Hahn, 2024)

Conclusions et Discussion

Conclusions Principales

  1. Importance de l'alignement des représentations : Le degré d'alignement entre les humains et les LLMs dans la compréhension des concepts affecte directement l'efficacité de l'application
  2. Supériorité du mode Words : Le vocabulaire anglais offre l'effet d'alignement le plus fort dans la représentation affective
  3. Complexité de la représentation VAD : Le VAD lexicalisé surpasse le VAD numérique, mais reste inférieur à la représentation directe par mots
  4. Différences entre modèles : Des variations significatives existent entre différents LLMs dans la compréhension et la génération d'affects

Limitations

Limitations Techniques

  1. Choix de modèles : Utilisation de seulement deux LLMs, avec LLaMA-3 en version quantifiée 8 bits
  2. Restriction linguistique : Limitation à l'anglais, d'autres langues pouvant présenter des résultats différents
  3. Représentativité des participants : Absence de la population réelle d'utilisateurs de CAA

Limitations Méthodologiques

  1. Charge de compréhension du VAD : Les participants doivent apprendre le concept VAD, ce qui peut affecter les résultats d'évaluation
  2. Subjectivité des emojis : Variations de compréhension des emojis selon les contextes culturels
  3. Complexité affective : Les 18 affects peuvent ne pas couvrir l'ensemble du spectre affectif

Directions Futures

  1. Extension de la gamme de modèles : Test de modèles LLM plus récents
  2. Validation multilingue : Vérification des conclusions dans d'autres environnements linguistiques
  3. Personnalisation utilisateur : Apprentissage de représentations personnalisées pour des groupes d'utilisateurs CAA spécifiques
  4. Application en temps réel : Déploiement et évaluation dans des environnements CAA réels

Évaluation Approfondie

Points Forts

Innovativité Méthodologique

  1. Paradigme d'alignement des représentations novateur : Fourniture d'une nouvelle méthode d'évaluation systématique de la compréhension des concepts par les LLMs
  2. Conception d'évaluation multidimensionnelle : Cadre d'évaluation intégrant l'alignement, la précision et l'authenticité
  3. Recherche orientée vers l'application pratique : Réponse directe aux besoins réels des applications CAA

Suffisance Expérimentale

  1. Évaluation humaine à grande échelle : Évaluation par crowdsourcing de 200 participants garantissant la fiabilité des résultats
  2. Rigueur statistique : Utilisation d'ANOVA et de tests t appariés pour assurer la significativité des résultats
  3. Analyse multidimensionnelle : Évaluation complète sous les angles de l'alignement des représentations, de la précision et de l'authenticité

Force de Persuasion des Résultats

  1. Cohérence des découvertes : Tendances des résultats fondamentalement cohérentes sur les deux modèles
  2. Significativité statistique : Conclusions principales validées par des tests de significativité statistique
  3. Valeur d'orientation pratique : Recommandations de conception claires pour les applications CAA

Insuffisances

Limitations Méthodologiques

  1. Subjectivité de l'évaluation : Dépendance au jugement humain subjectif, susceptible de biais
  2. Simplification de la tâche : La génération de phrases à partir de mots-clés est relativement simple, les scénarios CAA réels étant plus complexes
  3. Évaluation statique : Absence de considération de la dépendance contextuelle dans les dialogues dynamiques

Défauts de Configuration Expérimentale

  1. Formation insuffisante des participants : La formation rapide au concept VAD peut être inadéquate
  2. Limitation de la taille d'échantillon : Nombre relativement faible de répondants par question (3-9 personnes)
  3. Variations de version de modèle : Les versions de modèles utilisées peuvent affecter l'actualité des résultats

Évaluation de l'Impact

Contributions Académiques

  1. Travail novateur : Première étude systématique du problème d'alignement des représentations des LLMs
  2. Contribution méthodologique : Le paradigme d'évaluation de l'alignement des représentations peut s'étendre à d'autres domaines conceptuels
  3. Valeur interdisciplinaire : Connexion entre la recherche en NLP, psychologie et technologie d'assistance

Valeur Pratique

  1. Amélioration des outils CAA : Orientation pour la conception de la représentation affective dans les applications CAA
  2. Directions d'optimisation des LLMs : Perspectives pour améliorer l'alignement des concepts entre LLMs et humains
  3. Établissement de normes d'évaluation : Établissement d'un benchmark d'évaluation pour les applications similaires

Reproductibilité

  1. Description méthodologique détaillée : Fourniture complète de la configuration expérimentale et des paramètres
  2. Engagement de partage de données : Promesse de publication des données et du code expérimentaux
  3. Processus standardisé : Établissement d'un processus d'évaluation reproductible

Scénarios d'Application

Applications Directes

  1. Développement d'outils CAA : Conception et optimisation des fonctionnalités d'expression affective
  2. Systèmes de dialogue : Amélioration de la compréhension et de l'expression affective
  3. Évaluation de la génération de texte : Établissement de normes d'évaluation pour l'alignement humain-machine

Applications Étendues

  1. Alignement d'autres concepts : Extension à des domaines tels que les valeurs et les concepts culturels
  2. Alignement multimodal : Intégration d'informations visuelles, audio et autres modalités
  3. Adaptation personnalisée : Personnalisation pour des groupes d'utilisateurs spécifiques

Références

Cette recherche cite de nombreux travaux connexes, incluant principalement :

  • Demszky et al. (2020) : Ensemble de données GoEmotions
  • Guo et Choi (2021) : Apprentissage de la représentation affective VAD
  • Valencia et al. (2023) : Application des modèles de langage IA dans la CAA
  • Chen et Wan (2024) : Évaluation de la capacité de génération avec contraintes lexicales des LLMs

Évaluation Globale : Il s'agit d'un travail de recherche de haute qualité qui apporte une contribution novatrice à la question importante de l'alignement des concepts entre les LLMs et les humains. La méthodologie est scientifiquement rigoureuse, la conception expérimentale est raisonnable, et les résultats possèdent une valeur théorique et pratique significative. Bien que certaines limitations existent, cette recherche établit une base solide pour les travaux futurs connexes.