Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic
Künstliche Eindrücke: Bewertung des Verhaltens großer Sprachmodelle durch die Linse von Merkmaleindrücken
Dieses Papier führt das Konzept der „künstlichen Eindrücke" (artificial impressions) ein und untersucht es – Muster in den internen Darstellungen großer Sprachmodelle (LLMs), die menschlichen Eindrücken und Stereotypen ähneln, die auf Grundlage von Sprache gebildet werden. Die Forscher trainieren lineare Sonden auf generierten Eingabeaufforderungen, um Eindrücke nach dem zweidimensionalen Stereotype Content Model (SCM) vorherzusagen. Durch diese Sonden wurde die Beziehung zwischen Eindrücken und nachgelagertem Modellverhalten sowie möglichen Eingabeaufforderungsmerkmalen untersucht, die diese Eindrücke beeinflussen. Die Forschung zeigt, dass LLMs bei direkter Abfrage inkonsistente Eindrücke berichten, aber Eindrücke können konsistenter aus ihren verborgenen Darstellungen linear dekodiert werden. Darüber hinaus können künstliche Eindrücke von Eingabeaufforderungen die Qualität von Modellreaktionen und die Verwendung von Abschwächungssprache vorhersagen.
Menschen bilden während Interaktionen schnell erste Eindrücke von anderen, die einen bleibenden Einfluss auf Einstellungen und Verhalten haben. Ähnlich könnten große Sprachmodelle während des Trainings, in dem sie Texten von vielen verschiedenen Autoren ausgesetzt sind, auch ähnliche „Eindrücke" auf Grundlage von Sprachmerkmalen bilden.
Voreingenommenheit und Fairness: Das Verständnis, wie LLMs Eindrücke auf Grundlage von Sprachmerkmalen bilden, ist entscheidend für die Identifizierung und Minderung von Voreingenommenheit
Vorhersage von Modellverhalten: Künstliche Eindrücke können die nachgelagerte Leistung des Modells beeinflussen, wie z. B. Reaktionsqualität und Sprachverwendung
Soziolinguistische Auswirkungen: Verschiedene Dialekte und Sprachvarianten können unterschiedliche Eindrücke auslösen und die Nutzungserfahrung marginalisierter Gruppen beeinflussen
Einführung des Konzepts „Künstliche Eindrücke": Erste systematische Untersuchung innerer Eindrücke, die von LLMs auf Grundlage von Eingabeaufforderungen gebildet werden
Entwicklung einer linearen Sondenmethode: Verwendung des SCM-Rahmens zum Trainieren von Sonden zur Dekodierung von Eindrücken aus verborgenen Zuständen
Etablierung von Eindruck-Verhaltens-Assoziationen: Nachweis, dass künstliche Eindrücke Reaktionsqualität und Abschwächungsspracheverwendung vorhersagen können
Identifizierung von Einflussfaktoren: Analyse, wie Inhalts-, Stil- und Dialektmerkmale LLM-Eindrücke beeinflussen
Offenlegung von Dialektvoreingenommenheit: Entdeckung, dass LLMs negativere Eindrücke von afroamerikanischer Sprache (AAL) haben
Dieses Papier bezieht sich auf wichtige Arbeiten aus mehreren Bereichen, einschließlich Psychologie, Soziolinguistik und Computerlinguistik, insbesondere:
Fiske et al. (2002) Stereotype Content Model
Blodgett et al. (2016) Dialekt-Forschungsdatensätze
Neuere Forschung zu LLM-Voreingenommenheit und Fairness
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen in methodischer Innovation, experimentellem Design und gesellschaftlicher Bedeutung. Durch die Einführung des Konzepts „künstliche Eindrücke" bietet es eine neue Perspektive zum Verständnis von LLM-Verhalten und hat wichtigen Wert für die Förderung der KI-Fairness-Forschung.