2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic

Impressioni Artificiali: Valutazione del Comportamento dei Modelli Linguistici di Grandi Dimensioni Attraverso la Lente delle Impressioni di Tratti

Informazioni Fondamentali

  • ID Articolo: 2510.08915
  • Titolo: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
  • Autori: Nicholas Deas, Kathleen McKeown (Columbia University)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.08915

Riassunto

Questo articolo introduce e studia il concetto di "impressioni artificiali" (artificial impressions) — modelli nelle rappresentazioni interne dei modelli linguistici di grandi dimensioni (LLM) che sono analoghi alle impressioni e agli stereotipi che gli umani formano sulla base del linguaggio. I ricercatori hanno addestrato sonde lineari su prompt generati per prevedere le impressioni secondo il modello bidimensionale del contenuto degli stereotipi (Stereotype Content Model, SCM). Attraverso queste sonde, hanno studiato le relazioni tra le impressioni e il comportamento del modello a valle, nonché le caratteristiche dei prompt che potrebbero influenzare queste impressioni. Lo studio rivela che gli LLM mostrano incoerenza quando viene loro richiesto di riferire le impressioni, ma le impressioni possono essere decodificate più coerentemente dalle loro rappresentazioni nascoste tramite decodifica lineare. Inoltre, le impressioni artificiali dei prompt sono in grado di prevedere la qualità della risposta del modello e l'uso del linguaggio di attenuazione.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli umani formano rapidamente impressioni iniziali sugli altri durante le interazioni, e queste impressioni hanno effetti duraturi su atteggiamenti e comportamenti. Analogamente, i modelli linguistici di grandi dimensioni sono stati esposti durante l'addestramento a enormi quantità di testo di autori diversi, e potrebbero formare "impressioni" simili sulla base di caratteristiche linguistiche.

Importanza della Ricerca

  1. Pregiudizio e Equità: Comprendere come gli LLM formano impressioni sulla base di caratteristiche linguistiche è cruciale per identificare e mitigare i pregiudizi
  2. Previsione del Comportamento del Modello: Le impressioni artificiali potrebbero influenzare le prestazioni a valle del modello, come la qualità della risposta e l'uso del linguaggio
  3. Impatto Sociolinguistico: Diversi dialetti e varianti linguistiche potrebbero attivare diverse impressioni, influenzando l'esperienza d'uso per i gruppi emarginati

Limitazioni degli Approcci Esistenti

  • L'interrogazione diretta degli LLM per riferire impressioni presenta incoerenze e distorsioni positive
  • Mancanza di un metodo sistematico per quantificare e analizzare le impressioni intrinseche degli LLM
  • Comprensione limitata di come le impressioni influenzano il comportamento a valle

Contributi Principali

  1. Proposta del Concetto di "Impressioni Artificiali": Primo studio sistematico delle impressioni intrinseche formate dagli LLM sulla base dei prompt
  2. Sviluppo del Metodo delle Sonde Lineari: Utilizzo del framework SCM per addestrare sonde che decodifichino le impressioni dagli stati nascosti
  3. Stabilimento dell'Associazione Impressione-Comportamento: Dimostrazione che le impressioni artificiali possono prevedere la qualità della risposta e l'uso del linguaggio di attenuazione
  4. Identificazione dei Fattori di Influenza: Analisi dell'impatto delle caratteristiche di contenuto, stile e dialetto sulle impressioni degli LLM
  5. Rivelazione dei Pregiudizi Dialettali: Scoperta che gli LLM mantengono impressioni più negative nei confronti del linguaggio afroamericano (AAL)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un prompt dell'utente, l'obiettivo è:

  1. Estrarre i punteggi di impressione basati su SCM dalle rappresentazioni nascoste dell'LLM
  2. Analizzare la relazione tra le impressioni e il comportamento del modello
  3. Identificare le caratteristiche del prompt che influenzano la formazione delle impressioni

Modello del Contenuto degli Stereotipi (SCM)

L'SCM contiene due dimensioni:

  • Calore (Warmth): Percezione delle intenzioni del target (ad esempio, cordialità, aggressività)
  • Competenza (Competence): Capacità del target di eseguire le proprie intenzioni (ad esempio, intelligenza, potere)

Flusso di Generazione dei Dati

1. Generazione di Dati Sintetici

Passaggio 1: Vocabolario di caratteristiche → Specifiche di impressione (ad esempio, "amichevole e attento")
Passaggio 2: Generazione di prompt utente sintetici basati sulle specifiche di impressione
Passaggio 3: Estrazione delle rappresentazioni nascoste dell'LLM
Passaggio 4: Costruzione dei dati di addestramento della sonda (coppie rappresentazione-etichetta)

2. Addestramento della Sonda

  • Utilizzo delle attivazioni del percettrone multistrato (MLP) come caratteristiche di input
  • Addestramento di sonde indipendenti per calore e competenza
  • Impiego della convalida incrociata a 5 fold per la valutazione delle prestazioni
  • Utilizzo di diverse proporzioni di dati di addestramento (100%, 10%, 1%)

Punti di Innovazione Tecnica

  1. Guida dalla Teoria Psicologica: Applicazione del framework SCM della psicologia all'analisi degli LLM
  2. Confronto Sonda vs Prompt: Confronto sistematico tra il metodo della sonda e l'interrogazione diretta in termini di affidabilità
  3. Analisi Multilivello: Analisi della distribuzione delle informazioni di impressione in diversi strati del modello
  4. Validazione della Previsione del Comportamento: Verifica dell'efficacia delle impressioni attraverso compiti a valle

Configurazione Sperimentale

Modelli

  • Llama-3.1 (8B): 32 strati, dimensione nascosta 4096
  • Llama-3.2 (1B): 16 strati, dimensione nascosta 2048
  • OLMo-2 (7B): 32 strati, dimensione nascosta 4096

Dataset

Dati Sintetici

  • Basati su 131 caratteristiche di calore e 104 caratteristiche di competenza
  • 10 campioni generati per ogni specifica di impressione (temperatura=0,9)
  • Totale di 274.830 prompt/modelli

Dati Reali

  • LMSysChat: 2000 prompt del primo turno campionati da 1 milione di conversazioni reali
  • TwitterAAE: 400 tweet (200 AAL, 200 WME)
  • Dataset Counterparts: Corpus parallelo con variabili controllate

Metriche di Valutazione

  • Prestazioni della Sonda: Punteggio F1, accuratezza
  • Autoconsistenza: Corrispondenza tra impressioni riferite e caratteristiche fornite
  • Valutazione Umana: Scala Likert a 4 punti, α di Krippendorff = 0,71

Risultati Sperimentali

Scoperte Principali

Scoperta 1: Limitazioni del Metodo di Interrogazione

Le impressioni riferite dagli LLM tendono generalmente verso caratteristiche positive (calore/competenza), in particolare in contesti in prima persona:

  • Autoconsistenza del calore in prima persona di Llama-3.1 (8B) solo 51,67%
  • Miglioramento in contesti in terza persona ma ancora limitato (massimo 80,77%)

Scoperta 2: Coerenza delle Impressioni Umano-Modello

Coerenza tra annotazioni umane e caratteristiche originali:

  • Cohen's κ complessivo = 0,68, Spearman r = 0,68
  • Validazione dell'efficacia del vocabolario di caratteristiche e delle etichette SCM

Scoperta 3: Efficacia del Metodo della Sonda

Le sonde lineari decodificano con successo le impressioni dalle rappresentazioni nascoste:

  • Punteggio F1 della sonda di calore: 75-90%
  • Punteggio F1 della sonda di competenza: 75-85%
  • Le prestazioni raggiungono il picco negli strati intermedi del modello

Scoperta 4: Effetto di Priorità del Calore

Il modello mostra prestazioni migliori nella dimensione del calore:

  • Le prestazioni della sonda di calore sono costantemente superiori a quelle della sonda di competenza
  • Imitazione dell'"effetto di priorità del calore" nella formazione delle impressioni umane

Esperimenti di Associazione Impressione-Comportamento

Previsione della Qualità della Risposta

Analisi mediante regressione logistica ordinale dell'impatto delle impressioni sulla qualità della risposta:

ModelloCoefficiente CaloreCoefficiente Competenza
Llama-3.2-1B1,07**0,90**
Llama-3.1-8B0,49*0,39*
OLMo-2-7B0,76**0,35*

Scoperta 5: Le impressioni di calore e competenza prevedono significativamente la qualità della risposta

Analisi del Linguaggio di Attenuazione

Analisi mediante regressione binomiale negativa dell'impatto delle impressioni sull'uso del linguaggio di attenuazione:

ModelloCoefficiente CaloreCoefficiente Competenza
Llama-3.2-1B-0,46*-1,06**
Llama-3.1-8B-0,14-1,18**
OLMo-2-7B0,40**-0,69**

Scoperta 6: L'impressione di bassa competenza predice significativamente un maggiore uso del linguaggio di attenuazione

Analisi dei Fattori di Influenza

Caratteristiche di Contenuto e Stile

L'analisi mediante LIWC e IDP rivela:

Caratteristiche di Alto Calore:

  • Vocabolario esplorativo ("wondering", "might", "seem")
  • Vocabolario di differenza ("would", "could", "hope")
  • Incarnazione di cortesia e distanza psicologica

Caratteristiche di Basso Calore:

  • Parole interrogative ("what", "how")
  • Vocabolario causale ("because", "effect")

Caratteristiche di Alta Competenza:

  • Vocabolario di intuizione ("rethink", "know", "informed")
  • Strutture linguistiche formali

Caratteristiche di Bassa Competenza:

  • Marcatori informali ("yeah", "sure", emoticon)
  • Linguaggio di internet ("aight", "gonna")

Analisi dei Pregiudizi Dialettali

Scoperta 8: I modelli mantengono impressioni più negative nei confronti dei testi AAL

  • Correlazione calore AAL vs WME: r = -0,32 (p ≤ 0,001)
  • Correlazione competenza AAL vs WME: r = -0,52 (p ≤ 0,001)
  • Il corpus parallelo convalida tendenze simili

Lavori Correlati

Caratteristiche del Prompt e Comportamento degli LLM

  • Caratteristiche Pragmatiche: Impatto della cortesia e dello stimolo emotivo sulle prestazioni
  • Caratteristiche Sociolinguistiche: Impatto delle varianti linguistiche sull'allineamento culturale e sulle emozioni
  • Ricerca Dialettale: Pregiudizi e differenze di prestazioni dei dialetti come AAL negli LLM

Stereotipi e LLM

  • Pregiudizio Generativo: Stereotipi e pregiudizi sociali negli output del modello
  • Contenuto Stereotipato: Analisi degli stereotipi degli LLM utilizzando framework come SCM
  • Riflessione degli Atteggiamenti Sociali: Gli LLM come riflessione dei pregiudizi sociali

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: Le sonde lineari estraggono le impressioni degli LLM in modo più affidabile rispetto all'interrogazione diretta
  2. Potere Predittivo: Le impressioni artificiali possono prevedere la qualità della risposta e i modelli di uso del linguaggio
  3. Identificazione dei Pregiudizi: Scoperta sistematica di pregiudizi nei confronti di dialetti e gruppi specifici
  4. Effetto di Priorità del Calore: Gli LLM mostrano un effetto di priorità del calore simile agli umani

Limitazioni

  1. Limitazioni di Portata: Focalizzazione solo sui messaggi del primo turno in conversazioni in inglese
  2. Scala del Modello: Limitazione ai modelli open-source con meno di 8 miliardi di parametri
  3. Framework Teorico: Utilizzo solo di SCM, senza esplorazione di altri modelli di stereotipi
  4. Differenze Culturali: Mancata considerazione delle differenze transculturali nella formazione delle impressioni

Considerazioni Etiche

  1. Rischio di Antropomorfizzazione: Necessità di evitare attentamente l'eccessiva antropomorfizzazione degli LLM
  2. Amplificazione dei Pregiudizi: I pregiudizi identificati potrebbero causare danni ai gruppi emarginati
  3. Confini di Applicazione: Necessità di chiarire in quali contesti il comportamento differenziato è ragionevole

Direzioni Future

  1. Conversazioni Multiturn: Studio dell'evoluzione delle impressioni durante il corso della conversazione
  2. Ricerca Transculturale: Esplorazione della formazione delle impressioni in diversi contesti culturali
  3. Strategie di Mitigazione: Sviluppo di metodi tecnici per ridurre i pregiudizi dannosi
  4. Estensione Teorica: Applicazione di modelli di formazione delle impressioni più complessi

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo studio sistematico dell'applicazione della teoria psicologica delle impressioni all'analisi degli LLM
  2. Metodologia Rigorosa: Combinazione di generazione di dati sintetici, tecnologia delle sonde e valutazione umana
  3. Alto Valore Pratico: Fornisce nuovi strumenti per comprendere e mitigare i pregiudizi degli LLM
  4. Sperimentazione Completa: Validazione completa su più modelli e compiti
  5. Significato Sociale: Rivelazione di importanti questioni di equità

Insufficienze

  1. Limitazioni Teoriche: SCM potrebbe non catturare tutte le dimensioni di impressione rilevanti
  2. Distorsione dei Dati: I dati sintetici potrebbero non riflettere completamente gli scenari di utilizzo reali
  3. Relazioni Causali: La relazione tra impressioni e comportamento potrebbe presentare variabili confondenti
  4. Generalizzabilità: La generalizzabilità dei risultati in modelli più grandi e diversi paradigmi di addestramento rimane sconosciuta

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework teorico e metodi per la ricerca sui pregiudizi degli LLM
  2. Valore Pratico: Può essere utilizzato per la valutazione del modello e il rilevamento dei pregiudizi
  3. Significato Politico: Fornisce basi scientifiche per la formulazione di politiche sull'equità dell'IA
  4. Impatto Interdisciplinare: Connessione tra psicologia, sociolinguistica e sicurezza dell'IA

Scenari Applicabili

  1. Valutazione del Modello: Rilevamento di potenziali pregiudizi durante lo sviluppo del modello
  2. Audit dell'Applicazione: Valutazione delle prestazioni di equità dei modelli distribuiti
  3. Strumento di Ricerca: Fornimento di un framework di analisi per la ricerca correlata
  4. Scopi Educativi: Aiuto nella comprensione dell'impatto sociale dei sistemi di IA

Bibliografia

Questo articolo fa riferimento a importanti lavori da molteplici discipline, incluse psicologia, sociolinguistica e linguistica computazionale, in particolare:

  • Fiske et al. (2002) sul modello del contenuto degli stereotipi
  • Blodgett et al. (2016) sui dataset di ricerca dialettale
  • Ricerche recenti su pregiudizi e equità degli LLM

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi in termini di innovazione metodologica, progettazione sperimentale e significato sociale. Attraverso l'introduzione del concetto di "impressioni artificiali", fornisce una nuova prospettiva per comprendere il comportamento degli LLM e ha un valore significativo nel promuovere la ricerca sull'equità dell'IA.