2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic

Künstliche Eindrücke: Bewertung des Verhaltens großer Sprachmodelle durch die Linse von Merkmaleindrücken

Grundinformationen

  • Papier-ID: 2510.08915
  • Titel: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
  • Autoren: Nicholas Deas, Kathleen McKeown (Columbia University)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.08915

Zusammenfassung

Dieses Papier führt das Konzept der „künstlichen Eindrücke" (artificial impressions) ein und untersucht es – Muster in den internen Darstellungen großer Sprachmodelle (LLMs), die menschlichen Eindrücken und Stereotypen ähneln, die auf Grundlage von Sprache gebildet werden. Die Forscher trainieren lineare Sonden auf generierten Eingabeaufforderungen, um Eindrücke nach dem zweidimensionalen Stereotype Content Model (SCM) vorherzusagen. Durch diese Sonden wurde die Beziehung zwischen Eindrücken und nachgelagertem Modellverhalten sowie möglichen Eingabeaufforderungsmerkmalen untersucht, die diese Eindrücke beeinflussen. Die Forschung zeigt, dass LLMs bei direkter Abfrage inkonsistente Eindrücke berichten, aber Eindrücke können konsistenter aus ihren verborgenen Darstellungen linear dekodiert werden. Darüber hinaus können künstliche Eindrücke von Eingabeaufforderungen die Qualität von Modellreaktionen und die Verwendung von Abschwächungssprache vorhersagen.

Forschungshintergrund und Motivation

Problemdefinition

Menschen bilden während Interaktionen schnell erste Eindrücke von anderen, die einen bleibenden Einfluss auf Einstellungen und Verhalten haben. Ähnlich könnten große Sprachmodelle während des Trainings, in dem sie Texten von vielen verschiedenen Autoren ausgesetzt sind, auch ähnliche „Eindrücke" auf Grundlage von Sprachmerkmalen bilden.

Forschungsbedeutung

  1. Voreingenommenheit und Fairness: Das Verständnis, wie LLMs Eindrücke auf Grundlage von Sprachmerkmalen bilden, ist entscheidend für die Identifizierung und Minderung von Voreingenommenheit
  2. Vorhersage von Modellverhalten: Künstliche Eindrücke können die nachgelagerte Leistung des Modells beeinflussen, wie z. B. Reaktionsqualität und Sprachverwendung
  3. Soziolinguistische Auswirkungen: Verschiedene Dialekte und Sprachvarianten können unterschiedliche Eindrücke auslösen und die Nutzungserfahrung marginalisierter Gruppen beeinflussen

Einschränkungen bestehender Ansätze

  • Direkte Abfrage von LLMs zur Berichterstattung über Eindrücke weist Inkonsistenzen und positive Verzerrungen auf
  • Mangel an systematischen Methoden zur Quantifizierung und Analyse innerer Eindrücke von LLMs
  • Begrenzte Verständnis dafür, wie Eindrücke nachgelagertes Verhalten beeinflussen

Kernbeiträge

  1. Einführung des Konzepts „Künstliche Eindrücke": Erste systematische Untersuchung innerer Eindrücke, die von LLMs auf Grundlage von Eingabeaufforderungen gebildet werden
  2. Entwicklung einer linearen Sondenmethode: Verwendung des SCM-Rahmens zum Trainieren von Sonden zur Dekodierung von Eindrücken aus verborgenen Zuständen
  3. Etablierung von Eindruck-Verhaltens-Assoziationen: Nachweis, dass künstliche Eindrücke Reaktionsqualität und Abschwächungsspracheverwendung vorhersagen können
  4. Identifizierung von Einflussfaktoren: Analyse, wie Inhalts-, Stil- und Dialektmerkmale LLM-Eindrücke beeinflussen
  5. Offenlegung von Dialektvoreingenommenheit: Entdeckung, dass LLMs negativere Eindrücke von afroamerikanischer Sprache (AAL) haben

Methodische Details

Aufgabendefinition

Gegeben eine Benutzer-Eingabeaufforderung besteht das Ziel darin:

  1. SCM-basierte Eindrucksbewertungen aus LLM-Darstellungen zu extrahieren
  2. Die Beziehung zwischen Eindrücken und Modellverhalten zu analysieren
  3. Eingabeaufforderungsmerkmale zu identifizieren, die die Eindrucksbildung beeinflussen

Stereotype Content Model (SCM)

Das SCM enthält zwei Dimensionen:

  • Wärmung (Warmth): Wahrgenommene Absichten des Ziels (z. B. Freundlichkeit, Aggressivität)
  • Kompetenz (Competence): Fähigkeit des Ziels, seine Absichten erfolgreich auszuführen (z. B. Intelligenz, Macht)

Datengenerierungsprozess

1. Synthese-Datengenerierung

Schritt 1: Merkmalsvokabular → Eindrucksspezifikationen (z. B. „freundlich und gewissenhaft")
Schritt 2: Generierung synthetischer Benutzer-Eingabeaufforderungen basierend auf Eindrucksspezifikationen
Schritt 3: Extraktion von LLM-Darstellungen
Schritt 4: Konstruktion von Sonden-Trainingsdaten (Darstellungs-Etiketten-Paare)

2. Sonden-Training

  • Verwendung von mehrschichtigen Perceptron (MLP)-Aktivierungen als Eingabemerkmale
  • Training unabhängiger Wärmungs- und Kompetenzsonden
  • Anwendung von 5-facher Kreuzvalidierung zur Leistungsbewertung
  • Verwendung verschiedener Trainings-Datenquoten (100%, 10%, 1%)

Technische Innovationen

  1. Psychologische Theorie-Führung: Anwendung des psychologischen SCM-Rahmens auf LLM-Analyse
  2. Sonden- vs. Eingabeaufforderungs-Vergleich: Systematischer Vergleich der Zuverlässigkeit von Sondenmethoden mit direkter Abfrage
  3. Mehrschichtanalyse: Analyse der Verteilung von Eindrucksinformationen in verschiedenen Modellschichten
  4. Verhaltensvorhersage-Validierung: Validierung der Wirksamkeit von Eindrücken durch nachgelagerte Aufgaben

Experimentelle Einrichtung

Modelle

  • Llama-3.1 (8B): 32 Schichten, 4096 verborgene Dimensionen
  • Llama-3.2 (1B): 16 Schichten, 2048 verborgene Dimensionen
  • OLMo-2 (7B): 32 Schichten, 4096 verborgene Dimensionen

Datensätze

Synthetische Daten

  • Basierend auf 131 Wärmungsmerkmalen und 104 Kompetenzmerkmalen
  • 10 Proben pro Eindrucksspezifikation generiert (Temperatur = 0,9)
  • Insgesamt 274.830 Eingabeaufforderungen/Modelle

Echte Daten

  • LMSysChat: 2000 erste Eingabeaufforderungen aus 1 Million echten Gesprächen
  • TwitterAAE: 400 Tweets (200 AAL, 200 WME)
  • Counterparts-Datensatz: Parallele Korpora mit kontrollierten anderen Variablen

Bewertungsmetriken

  • Sonden-Leistung: F1-Score, Genauigkeit
  • Selbstkonsistenz: Übereinstimmung zwischen berichteten Eindrücken und bereitgestellten Merkmalen
  • Menschliche Bewertung: 4-Punkte-Likert-Skala, Krippendorff's α = 0,71

Experimentelle Ergebnisse

Hauptergebnisse

Befund 1: Einschränkungen der Eingabeaufforderungsmethode

Von LLMs berichtete Eindrücke neigen zu positiven Merkmalen (Wärmung/Kompetenz), besonders in Ich-Perspektive-Szenarien:

  • Llama-3.1 (8B) Ich-Perspektive Wärmungs-Selbstkonsistenz nur 51,67%
  • Dritte-Person-Szenarien zeigen Verbesserungen, aber bleiben begrenzt (maximal 80,77%)

Befund 2: Mensch-Modell-Eindrucks-Konsistenz

Konsistenz zwischen menschlichen Anmerkungen und ursprünglichen Merkmalen:

  • Gesamt Cohen's κ = 0,68, Spearman r = 0,68
  • Validiert die Wirksamkeit von Merkmalsvokabular und SCM-Etiketten

Befund 3: Wirksamkeit der Sondenmethode

Lineare Sonden dekodieren erfolgreich Eindrücke aus verborgenen Darstellungen:

  • Wärmungs-Sonden F1-Score: 75–90%
  • Kompetenzsonden F1-Score: 75–85%
  • Leistung erreicht Spitzenwert in mittleren Modellschichten

Befund 4: Wärmungs-Überlegenheitseffekt

Das Modell zeigt bessere Leistung in der Wärmungsdimension:

  • Wärmungs-Sonden-Leistung durchgehend höher als Kompetenzsonden
  • Imitiert den „Wärmungs-First-Effekt" der menschlichen Eindrucksbildung

Eindruck-Verhaltens-Assoziations-Experimente

Vorhersage der Reaktionsqualität

Verwendung ordinaler logistischer Regression zur Analyse des Einflusses von Eindrücken auf Reaktionsqualität:

ModellWärmungs-KoeffizientKompetentz-Koeffizient
Llama-3.2-1B1,07**0,90**
Llama-3.1-8B0,49*0,39*
OLMo-2-7B0,76**0,35*

Befund 5: Wärmungs- und Kompetenzeindrücke sagen Reaktionsqualität signifikant voraus

Abschwächungssprachanalyse

Verwendung negativer Binomialregression zur Analyse des Einflusses von Eindrücken auf Abschwächungsspracheverwendung:

ModellWärmungs-KoeffizientKompetentz-Koeffizient
Llama-3.2-1B-0,46*-1,06**
Llama-3.1-8B-0,14-1,18**
OLMo-2-7B0,40**-0,69**

Befund 6: Niedrige Kompetenzeindrücke sagen signifikant mehr Abschwächungsspracheverwendung voraus

Analyse von Einflussfaktoren

Inhalts- und Stilmerkmale

Analyse mit LIWC und IDP zeigt:

Hochtemperatur-Merkmale:

  • Sondierungsvokabular („wondering", „might", „seem")
  • Differenzvokabular („would", „could", „hope")
  • Verkörperung von Höflichkeit und psychologischer Distanz

Niedrig-Wärmungs-Merkmale:

  • Fragwörter („what", „how")
  • Kausalvokabular („because", „effect")

Hochkompetenz-Merkmale:

  • Einsichtsvokabular („rethink", „know", „informed")
  • Formale Sprachstrukturen

Niedrig-Kompetenz-Merkmale:

  • Informelle Markierungen („yeah", „sure", Emojis)
  • Internetsprache („aight", „gonna")

Dialekt-Voreingenommenheits-Analyse

Befund 8: Modelle haben negativere Eindrücke von AAL-Texten

  • AAL vs. WME Wärmungs-Korrelation: r = -0,32 (p ≤ 0,001)
  • AAL vs. WME Kompetenz-Korrelation: r = -0,52 (p ≤ 0,001)
  • Parallele Korpora validieren ähnliche Trends

Verwandte Arbeiten

Eingabeaufforderungsmerkmale und LLM-Verhalten

  • Pragmatische Merkmale: Auswirkungen von Höflichkeit und emotionaler Stimulation auf Leistung
  • Soziolinguistische Merkmale: Auswirkungen von Sprachvarianten auf kulturelle Ausrichtung und Stimmung
  • Dialektforschung: Voreingenommenheit und Leistungsunterschiede von Dialekten wie AAL in LLMs

Stereotype und LLMs

  • Generierungsvoreingenommenheit: Stereotype und soziale Voreingenommenheit in Modellausgaben
  • Stereotypinhalte: Analyse von LLM-Stereotypen mit Rahmenwerken wie SCM
  • Reflexion sozialer Einstellungen: LLMs als Reflexion sozialer Voreingenommenheit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodische Wirksamkeit: Lineare Sonden extrahieren LLM-Eindrücke zuverlässiger als direkte Abfrage
  2. Vorhersagekraft: Künstliche Eindrücke können Reaktionsqualität und Sprachmuster vorhersagen
  3. Voreingenommenheits-Identifikation: Systematische Entdeckung von Voreingenommenheit gegenüber bestimmten Dialekten und Gruppen
  4. Wärmungs-Überlegenheit: LLMs zeigen einen ähnlichen Wärmungs-First-Effekt wie Menschen

Einschränkungen

  1. Umfangseinschränkung: Konzentriert sich nur auf erste Nachrichten englischsprachiger Gespräche
  2. Modellgröße: Begrenzt auf Open-Source-Modelle mit weniger als 8B Parametern
  3. Theoretischer Rahmen: Verwendet nur SCM, erforscht keine anderen Stereotyp-Modelle
  4. Kulturelle Unterschiede: Berücksichtigt keine kulturübergreifenden Unterschiede in der Eindrucksbildung

Ethische Überlegungen

  1. Anthropomorphisierungs-Risiko: Notwendigkeit, Überanthropomorphisierung von LLMs zu vermeiden
  2. Voreingenommenheits-Verstärkung: Identifizierte Voreingenommenheit kann marginalisierte Gruppen schädigen
  3. Anwendungsgrenzen: Notwendigkeit, klarzustellen, in welchen Szenarien Differenzierungsverhalten angemessen ist

Zukünftige Richtungen

  1. Mehrrunden-Dialoge: Untersuchung der Entwicklung von Eindrücken während des Gesprächsverlaufs
  2. Kulturübergreifende Forschung: Erforschung der Eindrucksbildung in verschiedenen kulturellen Kontexten
  3. Minderungsstrategien: Entwicklung technischer Methoden zur Verringerung schädlicher Voreingenommenheit
  4. Theoretische Erweiterung: Anwendung komplexerer Eindrucksbildungsmodelle

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste systematische Anwendung psychologischer Eindruckstheorie auf LLM-Analyse
  2. Methodische Strenge: Kombination von Synthese-Datengenerierung, Sondentechnik und menschlicher Bewertung
  3. Hoher praktischer Wert: Bietet neue Werkzeuge zum Verständnis und zur Minderung von LLM-Voreingenommenheit
  4. Umfassende Experimente: Vollständige Validierung über mehrere Modelle und Aufgaben
  5. Gesellschaftliche Bedeutung: Offenlegung wichtiger Fairness-Probleme

Mängel

  1. Theoretische Einschränkungen: SCM kann möglicherweise nicht alle relevanten Eindrucksdimensionen erfassen
  2. Datenbias: Synthetische Daten können echte Nutzungsszenarien möglicherweise nicht vollständig widerspiegeln
  3. Kausalbeziehungen: Die Beziehung zwischen Eindrücken und Verhalten kann Verwechslungsvariablen aufweisen
  4. Verallgemeinerbarkeit: Unbekannte Verallgemeinerbarkeit von Ergebnissen auf größere Modelle und unterschiedliche Trainingsparadigmen

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen theoretischen Rahmen und Methoden für LLM-Voreingenommenheitsforschung
  2. Praktischer Wert: Kann zur Modellbewertung und Voreingenommenheitserkennung verwendet werden
  3. Politische Bedeutung: Bietet wissenschaftliche Grundlagen für die Formulierung von KI-Fairness-Richtlinien
  4. Bereichsübergreifende Auswirkungen: Verbindet Psychologie, Soziolinguistik und KI-Sicherheit

Anwendungsszenarien

  1. Modellbewertung: Erkennung potenzieller Voreingenommenheit während der Modellentwicklung
  2. Anwendungs-Audit: Bewertung der Fairness-Leistung bereitgestellter Modelle
  3. Forschungswerkzeug: Bereitstellung eines Analyse-Rahmens für verwandte Forschung
  4. Bildungszwecke: Unterstützung beim Verständnis der gesellschaftlichen Auswirkungen von KI-Systemen

Referenzen

Dieses Papier bezieht sich auf wichtige Arbeiten aus mehreren Bereichen, einschließlich Psychologie, Soziolinguistik und Computerlinguistik, insbesondere:

  • Fiske et al. (2002) Stereotype Content Model
  • Blodgett et al. (2016) Dialekt-Forschungsdatensätze
  • Neuere Forschung zu LLM-Voreingenommenheit und Fairness

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen in methodischer Innovation, experimentellem Design und gesellschaftlicher Bedeutung. Durch die Einführung des Konzepts „künstliche Eindrücke" bietet es eine neue Perspektive zum Verständnis von LLM-Verhalten und hat wichtigen Wert für die Förderung der KI-Fairness-Forschung.