Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic
Impressioni Artificiali: Valutazione del Comportamento dei Modelli Linguistici di Grandi Dimensioni Attraverso la Lente delle Impressioni di Tratti
Questo articolo introduce e studia il concetto di "impressioni artificiali" (artificial impressions) — modelli nelle rappresentazioni interne dei modelli linguistici di grandi dimensioni (LLM) che sono analoghi alle impressioni e agli stereotipi che gli umani formano sulla base del linguaggio. I ricercatori hanno addestrato sonde lineari su prompt generati per prevedere le impressioni secondo il modello bidimensionale del contenuto degli stereotipi (Stereotype Content Model, SCM). Attraverso queste sonde, hanno studiato le relazioni tra le impressioni e il comportamento del modello a valle, nonché le caratteristiche dei prompt che potrebbero influenzare queste impressioni. Lo studio rivela che gli LLM mostrano incoerenza quando viene loro richiesto di riferire le impressioni, ma le impressioni possono essere decodificate più coerentemente dalle loro rappresentazioni nascoste tramite decodifica lineare. Inoltre, le impressioni artificiali dei prompt sono in grado di prevedere la qualità della risposta del modello e l'uso del linguaggio di attenuazione.
Gli umani formano rapidamente impressioni iniziali sugli altri durante le interazioni, e queste impressioni hanno effetti duraturi su atteggiamenti e comportamenti. Analogamente, i modelli linguistici di grandi dimensioni sono stati esposti durante l'addestramento a enormi quantità di testo di autori diversi, e potrebbero formare "impressioni" simili sulla base di caratteristiche linguistiche.
Pregiudizio e Equità: Comprendere come gli LLM formano impressioni sulla base di caratteristiche linguistiche è cruciale per identificare e mitigare i pregiudizi
Previsione del Comportamento del Modello: Le impressioni artificiali potrebbero influenzare le prestazioni a valle del modello, come la qualità della risposta e l'uso del linguaggio
Impatto Sociolinguistico: Diversi dialetti e varianti linguistiche potrebbero attivare diverse impressioni, influenzando l'esperienza d'uso per i gruppi emarginati
Proposta del Concetto di "Impressioni Artificiali": Primo studio sistematico delle impressioni intrinseche formate dagli LLM sulla base dei prompt
Sviluppo del Metodo delle Sonde Lineari: Utilizzo del framework SCM per addestrare sonde che decodifichino le impressioni dagli stati nascosti
Stabilimento dell'Associazione Impressione-Comportamento: Dimostrazione che le impressioni artificiali possono prevedere la qualità della risposta e l'uso del linguaggio di attenuazione
Identificazione dei Fattori di Influenza: Analisi dell'impatto delle caratteristiche di contenuto, stile e dialetto sulle impressioni degli LLM
Rivelazione dei Pregiudizi Dialettali: Scoperta che gli LLM mantengono impressioni più negative nei confronti del linguaggio afroamericano (AAL)
Passaggio 1: Vocabolario di caratteristiche → Specifiche di impressione (ad esempio, "amichevole e attento")
Passaggio 2: Generazione di prompt utente sintetici basati sulle specifiche di impressione
Passaggio 3: Estrazione delle rappresentazioni nascoste dell'LLM
Passaggio 4: Costruzione dei dati di addestramento della sonda (coppie rappresentazione-etichetta)
Le impressioni riferite dagli LLM tendono generalmente verso caratteristiche positive (calore/competenza), in particolare in contesti in prima persona:
Autoconsistenza del calore in prima persona di Llama-3.1 (8B) solo 51,67%
Miglioramento in contesti in terza persona ma ancora limitato (massimo 80,77%)
Questo articolo fa riferimento a importanti lavori da molteplici discipline, incluse psicologia, sociolinguistica e linguistica computazionale, in particolare:
Fiske et al. (2002) sul modello del contenuto degli stereotipi
Blodgett et al. (2016) sui dataset di ricerca dialettale
Ricerche recenti su pregiudizi e equità degli LLM
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi in termini di innovazione metodologica, progettazione sperimentale e significato sociale. Attraverso l'introduzione del concetto di "impressioni artificiali", fornisce una nuova prospettiva per comprendere il comportamento degli LLM e ha un valore significativo nel promuovere la ricerca sull'equità dell'IA.