2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic

Impressions Artificielles : Évaluation du Comportement des Grands Modèles de Langage à Travers le Prisme des Impressions de Traits

Informations Fondamentales

  • ID de l'article : 2510.08915
  • Titre : Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
  • Auteurs : Nicholas Deas, Kathleen McKeown (Université Columbia)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : 10 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.08915

Résumé

Cet article introduit et étudie le concept d'« impressions artificielles » (artificial impressions) — des motifs dans les représentations internes des grands modèles de langage (LLMs) qui ressemblent aux impressions et aux stéréotypes que les humains forment à partir du langage. Les chercheurs entraînent des sondes linéaires sur des invites générées pour prédire les impressions selon le modèle bidimensionnel du contenu des stéréotypes (Stereotype Content Model, SCM). Par le biais de ces sondes, ils ont étudié les relations entre les impressions et le comportement du modèle en aval, ainsi que les caractéristiques des invites susceptibles d'influencer ces impressions. L'étude révèle que les LLMs rapportent des impressions incohérentes lorsqu'ils y sont invités, mais que les impressions peuvent être décodées de manière plus cohérente à partir de leurs représentations cachées. De plus, les impressions artificielles des invites peuvent prédire la qualité des réponses du modèle et l'utilisation du langage de couverture.

Contexte et Motivation de la Recherche

Définition du Problème

Les humains forment rapidement des impressions initiales sur les autres lors des interactions, et ces impressions ont un impact durable sur les attitudes et les comportements. De même, les grands modèles de langage sont exposés lors de l'entraînement à de vastes quantités de textes provenant d'auteurs différents, et pourraient également former des « impressions » similaires basées sur les caractéristiques linguistiques.

Importance de la Recherche

  1. Biais et équité : Comprendre comment les LLMs forment des impressions basées sur les caractéristiques linguistiques est crucial pour identifier et atténuer les biais
  2. Prédiction du comportement du modèle : Les impressions artificielles peuvent influencer les performances en aval du modèle, telles que la qualité des réponses et l'utilisation du langage
  3. Impacts sociolinguistiques : Différents dialectes et variantes linguistiques peuvent déclencher des impressions différentes, affectant l'expérience d'utilisation des groupes marginalisés

Limitations des Approches Existantes

  • L'interrogation directe des LLMs pour rapporter les impressions présente des incohérences et des biais positifs
  • Absence de méthode systématique pour quantifier et analyser les impressions intrinsèques des LLMs
  • Compréhension limitée de la façon dont les impressions influencent le comportement en aval

Contributions Principales

  1. Proposition du concept d'« impressions artificielles » : Première étude systématique des impressions intrinsèques que les LLMs forment à partir des invites
  2. Développement de la méthode des sondes linéaires : Utilisation du cadre SCM pour entraîner des sondes à décoder les impressions à partir des états cachés
  3. Établissement des associations impression-comportement : Démonstration que les impressions artificielles peuvent prédire la qualité des réponses et l'utilisation du langage de couverture
  4. Identification des facteurs d'influence : Analyse de l'impact des caractéristiques de contenu, de style et de dialecte sur les impressions des LLMs
  5. Révélation des biais dialectaux : Découverte que les LLMs entretiennent des impressions plus négatives envers la langue afro-américaine (AAL)

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une invite utilisateur, l'objectif est :

  1. D'extraire les scores d'impression basés sur le SCM à partir des représentations cachées du LLM
  2. D'analyser les relations entre les impressions et le comportement du modèle
  3. D'identifier les caractéristiques des invites qui influencent la formation des impressions

Modèle du Contenu des Stéréotypes (SCM)

Le SCM comprend deux dimensions :

  • Chaleur (Warmth) : Perception des intentions de la cible (par exemple, amabilité, combativité)
  • Compétence (Competence) : Capacité de la cible à exécuter ses intentions avec succès (par exemple, intelligence, pouvoir)

Processus de Génération des Données

1. Génération de Données Synthétiques

Étape 1 : Vocabulaire de caractéristiques → Spécifications d'impression (par exemple, « amical et minutieux »)
Étape 2 : Génération d'invites utilisateur synthétiques basées sur les spécifications d'impression
Étape 3 : Extraction des représentations cachées du LLM
Étape 4 : Construction de données d'entraînement des sondes (paires représentation-étiquette)

2. Entraînement des Sondes

  • Utilisation des activations du perceptron multicouche (MLP) comme caractéristiques d'entrée
  • Entraînement de sondes indépendantes pour la chaleur et la compétence
  • Adoption de la validation croisée à 5 plis pour l'évaluation des performances
  • Utilisation de différentes proportions de données d'entraînement (100%, 10%, 1%)

Points d'Innovation Technique

  1. Orientation par la théorie psychologique : Application du cadre SCM de la psychologie à l'analyse des LLMs
  2. Comparaison sonde vs invite : Comparaison systématique de la fiabilité de la méthode des sondes par rapport à l'interrogation directe
  3. Analyse multicouche : Analyse de la distribution des informations d'impression dans différentes couches du modèle
  4. Validation par prédiction comportementale : Vérification de l'efficacité des impressions par le biais de tâches en aval

Configuration Expérimentale

Modèles

  • Llama-3.1 (8B) : 32 couches, dimension cachée de 4096
  • Llama-3.2 (1B) : 16 couches, dimension cachée de 2048
  • OLMo-2 (7B) : 32 couches, dimension cachée de 4096

Ensembles de Données

Données Synthétiques

  • Basées sur 131 caractéristiques de chaleur et 104 caractéristiques de compétence
  • 10 échantillons générés pour chaque spécification d'impression (température=0,9)
  • Total de 274 830 invites/modèles

Données Réelles

  • LMSysChat : 2000 invites du premier tour échantillonnées à partir d'un million de conversations réelles
  • TwitterAAE : 400 tweets (200 AAL, 200 WME)
  • Ensemble de données Counterparts : Corpus parallèle avec variables contrôlées

Métriques d'Évaluation

  • Performance des sondes : Score F1, précision
  • Auto-cohérence : Correspondance entre les impressions rapportées et les caractéristiques fournies
  • Évaluation humaine : Échelle de Likert à 4 points, α de Krippendorff = 0,71

Résultats Expérimentaux

Principales Découvertes

Découverte 1 : Limitations de la Méthode d'Interrogation

Les impressions rapportées par les LLMs sont généralement biaisées vers les caractéristiques positives (chaleur/compétence), particulièrement dans les contextes à la première personne :

  • Auto-cohérence de chaleur à la première personne de Llama-3.1 (8B) : seulement 51,67%
  • Amélioration dans les contextes à la troisième personne mais toujours limitée (maximum 80,77%)

Découverte 2 : Cohérence des Impressions Humain-Modèle

Cohérence entre les annotations humaines et les caractéristiques originales :

  • κ de Cohen global = 0,68, r de Spearman = 0,68
  • Validation de l'efficacité du vocabulaire de caractéristiques et des étiquettes SCM

Découverte 3 : Efficacité de la Méthode des Sondes

Les sondes linéaires décodent avec succès les impressions à partir des représentations cachées :

  • Score F1 des sondes de chaleur : 75-90%
  • Score F1 des sondes de compétence : 75-85%
  • Les performances atteignent un pic dans les couches intermédiaires du modèle

Découverte 4 : Effet de Supériorité de la Chaleur

Le modèle fonctionne mieux sur la dimension de chaleur :

  • Les performances des sondes de chaleur sont systématiquement supérieures aux sondes de compétence
  • Imitation de l'« effet de priorité à la chaleur » dans la formation des impressions humaines

Expériences d'Association Impression-Comportement

Prédiction de la Qualité des Réponses

Analyse par régression logistique ordinale de l'impact des impressions sur la qualité des réponses :

ModèleCoefficient de ChaleurCoefficient de Compétence
Llama-3.2-1B1,07**0,90**
Llama-3.1-8B0,49*0,39*
OLMo-2-7B0,76**0,35*

Découverte 5 : Les impressions de chaleur et de compétence prédisent significativement la qualité des réponses

Analyse du Langage de Couverture

Analyse par régression binomiale négative de l'impact des impressions sur l'utilisation du langage de couverture :

ModèleCoefficient de ChaleurCoefficient de Compétence
Llama-3.2-1B-0,46*-1,06**
Llama-3.1-8B-0,14-1,18**
OLMo-2-7B0,40**-0,69**

Découverte 6 : Les impressions de faible compétence prédisent significativement une utilisation plus importante du langage de couverture

Analyse des Facteurs d'Influence

Caractéristiques de Contenu et de Style

L'analyse utilisant LIWC et IDP révèle :

Caractéristiques de haute chaleur :

  • Vocabulaire exploratoire (« wondering », « might », « seem »)
  • Vocabulaire de différence (« would », « could », « hope »)
  • Incarnant la politesse et la distance psychologique

Caractéristiques de basse chaleur :

  • Mots interrogatifs (« what », « how »)
  • Vocabulaire causal (« because », « effect »)

Caractéristiques de haute compétence :

  • Vocabulaire perspicace (« rethink », « know », « informed »)
  • Structures linguistiques formelles

Caractéristiques de basse compétence :

  • Marqueurs informels (« yeah », « sure », émoticônes)
  • Langage internet (« aight », « gonna »)

Analyse des Biais Dialectaux

Découverte 8 : Les modèles entretiennent des impressions plus négatives envers les textes AAL

  • Corrélation chaleur AAL vs WME : r = -0,32 (p ≤ 0,001)
  • Corrélation compétence AAL vs WME : r = -0,52 (p ≤ 0,001)
  • Le corpus parallèle valide les tendances similaires

Travaux Connexes

Caractéristiques des Invites et Comportement des LLMs

  • Caractéristiques pragmatiques : Impact de la politesse et de la stimulation émotionnelle sur les performances
  • Caractéristiques sociolinguistiques : Impact des variantes linguistiques sur l'alignement culturel et les émotions
  • Études dialectales : Biais et différences de performance des dialectes tels que l'AAL dans les LLMs

Stéréotypes et LLMs

  • Biais génératifs : Stéréotypes et biais sociaux dans les résultats des modèles
  • Contenu stéréotypé : Analyse des stéréotypes des LLMs utilisant des cadres tels que le SCM
  • Réflexion des attitudes sociales : Les LLMs comme reflet des biais sociaux

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de la méthode : Les sondes linéaires extraient les impressions des LLMs de manière plus fiable que l'interrogation directe
  2. Pouvoir prédictif : Les impressions artificielles peuvent prédire la qualité des réponses et les modèles d'utilisation du langage
  3. Identification des biais : Découverte systématique de biais envers certains dialectes et groupes spécifiques
  4. Effet de priorité à la chaleur : Les LLMs présentent un effet de priorité à la chaleur similaire à celui des humains

Limitations

  1. Limitation de portée : Concentration sur les messages du premier tour dans les conversations en anglais
  2. Taille des modèles : Limitation aux modèles open-source de moins de 8 milliards de paramètres
  3. Cadre théorique : Utilisation uniquement du SCM, sans exploration d'autres modèles de stéréotypes
  4. Différences culturelles : Non-prise en compte des différences transculturelles dans la formation des impressions

Considérations Éthiques

  1. Risque d'anthropomorphisation : Nécessité de prudence pour éviter l'anthropomorphisation excessive des LLMs
  2. Amplification des biais : Les biais identifiés pourraient causer du tort aux groupes marginalisés
  3. Limites d'application : Nécessité de clarifier les contextes où les comportements différenciés sont justifiés

Directions Futures

  1. Conversations multitours : Étude de l'évolution des impressions au cours d'une conversation
  2. Recherche transculturelle : Exploration de la formation des impressions dans différents contextes culturels
  3. Stratégies d'atténuation : Développement de méthodes techniques pour réduire les biais nuisibles
  4. Extension théorique : Application de modèles de formation d'impressions plus complexes

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première application systématique de la théorie psychologique des impressions à l'analyse des LLMs
  2. Méthodologie rigoureuse : Combinaison de génération de données synthétiques, de technologie des sondes et d'évaluation humaine
  3. Valeur pratique élevée : Fourniture de nouveaux outils pour comprendre et atténuer les biais des LLMs
  4. Expérimentation complète : Validation complète sur plusieurs modèles et tâches
  5. Signification sociale : Révélation de problèmes importants d'équité

Insuffisances

  1. Limitations théoriques : Le SCM peut ne pas capturer toutes les dimensions d'impression pertinentes
  2. Biais des données : Les données synthétiques peuvent ne pas refléter complètement les scénarios d'utilisation réels
  3. Relations causales : La relation entre les impressions et le comportement peut être confuse par des variables de confusion
  4. Généralisation : La généralisation des résultats aux modèles plus grands et aux paradigmes d'entraînement différents reste inconnue

Impact

  1. Contribution académique : Fourniture d'un nouveau cadre théorique et de méthodes pour la recherche sur les biais des LLMs
  2. Valeur pratique : Utilisation possible pour l'évaluation des modèles et la détection des biais
  3. Signification politique : Fourniture de preuves scientifiques pour l'élaboration de politiques d'équité en IA
  4. Impact interdisciplinaire : Connexion des domaines de la psychologie, de la sociolinguistique et de la sécurité de l'IA

Scénarios d'Application

  1. Évaluation des modèles : Détection des biais potentiels au cours du processus de développement des modèles
  2. Audit des applications : Évaluation des performances d'équité des modèles déployés
  3. Outil de recherche : Fourniture d'un cadre d'analyse pour les recherches connexes
  4. Utilisation pédagogique : Aide à la compréhension de l'impact social des systèmes d'IA

Références

Cet article s'appuie sur des travaux importants provenant de plusieurs domaines, notamment la psychologie, la sociolinguistique et la linguistique computationnelle, en particulier :

  • Le modèle du contenu des stéréotypes de Fiske et al. (2002)
  • L'ensemble de données d'études dialectales de Blodgett et al. (2016)
  • Les recherches récentes sur les biais et l'équité des LLMs

Évaluation Globale : Il s'agit d'un article de recherche de haute qualité avec des contributions importantes en termes d'innovation méthodologique, de conception expérimentale et de signification sociale. En introduisant le concept d'« impressions artificielles », il offre une nouvelle perspective pour comprendre le comportement des LLMs et a une valeur importante pour faire progresser la recherche sur l'équité en IA.