Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic
Impressions Artificielles : Évaluation du Comportement des Grands Modèles de Langage à Travers le Prisme des Impressions de Traits
Cet article introduit et étudie le concept d'« impressions artificielles » (artificial impressions) — des motifs dans les représentations internes des grands modèles de langage (LLMs) qui ressemblent aux impressions et aux stéréotypes que les humains forment à partir du langage. Les chercheurs entraînent des sondes linéaires sur des invites générées pour prédire les impressions selon le modèle bidimensionnel du contenu des stéréotypes (Stereotype Content Model, SCM). Par le biais de ces sondes, ils ont étudié les relations entre les impressions et le comportement du modèle en aval, ainsi que les caractéristiques des invites susceptibles d'influencer ces impressions. L'étude révèle que les LLMs rapportent des impressions incohérentes lorsqu'ils y sont invités, mais que les impressions peuvent être décodées de manière plus cohérente à partir de leurs représentations cachées. De plus, les impressions artificielles des invites peuvent prédire la qualité des réponses du modèle et l'utilisation du langage de couverture.
Les humains forment rapidement des impressions initiales sur les autres lors des interactions, et ces impressions ont un impact durable sur les attitudes et les comportements. De même, les grands modèles de langage sont exposés lors de l'entraînement à de vastes quantités de textes provenant d'auteurs différents, et pourraient également former des « impressions » similaires basées sur les caractéristiques linguistiques.
Biais et équité : Comprendre comment les LLMs forment des impressions basées sur les caractéristiques linguistiques est crucial pour identifier et atténuer les biais
Prédiction du comportement du modèle : Les impressions artificielles peuvent influencer les performances en aval du modèle, telles que la qualité des réponses et l'utilisation du langage
Impacts sociolinguistiques : Différents dialectes et variantes linguistiques peuvent déclencher des impressions différentes, affectant l'expérience d'utilisation des groupes marginalisés
Proposition du concept d'« impressions artificielles » : Première étude systématique des impressions intrinsèques que les LLMs forment à partir des invites
Développement de la méthode des sondes linéaires : Utilisation du cadre SCM pour entraîner des sondes à décoder les impressions à partir des états cachés
Établissement des associations impression-comportement : Démonstration que les impressions artificielles peuvent prédire la qualité des réponses et l'utilisation du langage de couverture
Identification des facteurs d'influence : Analyse de l'impact des caractéristiques de contenu, de style et de dialecte sur les impressions des LLMs
Révélation des biais dialectaux : Découverte que les LLMs entretiennent des impressions plus négatives envers la langue afro-américaine (AAL)
Étape 1 : Vocabulaire de caractéristiques → Spécifications d'impression (par exemple, « amical et minutieux »)
Étape 2 : Génération d'invites utilisateur synthétiques basées sur les spécifications d'impression
Étape 3 : Extraction des représentations cachées du LLM
Étape 4 : Construction de données d'entraînement des sondes (paires représentation-étiquette)
Les impressions rapportées par les LLMs sont généralement biaisées vers les caractéristiques positives (chaleur/compétence), particulièrement dans les contextes à la première personne :
Auto-cohérence de chaleur à la première personne de Llama-3.1 (8B) : seulement 51,67%
Amélioration dans les contextes à la troisième personne mais toujours limitée (maximum 80,77%)
Cet article s'appuie sur des travaux importants provenant de plusieurs domaines, notamment la psychologie, la sociolinguistique et la linguistique computationnelle, en particulier :
Le modèle du contenu des stéréotypes de Fiske et al. (2002)
L'ensemble de données d'études dialectales de Blodgett et al. (2016)
Les recherches récentes sur les biais et l'équité des LLMs
Évaluation Globale : Il s'agit d'un article de recherche de haute qualité avec des contributions importantes en termes d'innovation méthodologique, de conception expérimentale et de signification sociale. En introduisant le concept d'« impressions artificielles », il offre une nouvelle perspective pour comprendre le comportement des LLMs et a une valeur importante pour faire progresser la recherche sur l'équité en IA.