Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic
Impresiones Artificiales: Evaluación del Comportamiento de Modelos de Lenguaje Grande a Través de la Lente de Impresiones de Rasgos
Este artículo introduce e investiga el concepto de "impresiones artificiales" (artificial impressions) —patrones en las representaciones internas de modelos de lenguaje grande (LLMs) que son análogos a las impresiones y estereotipos que los humanos forman basándose en el lenguaje. Los investigadores entrenan sondas lineales en indicaciones generadas para predecir impresiones según el Modelo de Contenido de Estereotipos bidimensional (Stereotype Content Model, SCM). A través de estas sondas, se investigó la relación entre impresiones y el comportamiento del modelo descendente, así como las características de los indicadores que podrían afectar estas impresiones. El estudio encontró que los LLMs reportan impresiones inconsistentes cuando se les solicita, pero las impresiones pueden decodificarse de manera más consistente linealmente desde sus representaciones ocultas. Además, las impresiones artificiales de los indicadores pueden predecir la calidad de las respuestas del modelo y el uso de lenguaje de cobertura.
Los humanos forman rápidamente impresiones iniciales sobre otros durante las interacciones, y estas impresiones tienen efectos duraderos en las actitudes y comportamientos. De manera similar, los modelos de lenguaje grande, durante su entrenamiento, se exponen a grandes cantidades de texto de diversos autores y pueden formar "impresiones" análogas basadas en características lingüísticas.
Sesgo y Equidad: Comprender cómo los LLMs forman impresiones basadas en características lingüísticas es crucial para identificar y mitigar sesgos
Predicción del Comportamiento del Modelo: Las impresiones artificiales pueden afectar el desempeño descendente del modelo, como la calidad de las respuestas y el uso del lenguaje
Impacto Sociolingüístico: Los diferentes dialectos y variantes lingüísticas pueden desencadenar diferentes impresiones, afectando la experiencia de uso de grupos marginalizados
Propuesta del Concepto de "Impresiones Artificiales": Primer estudio sistemático de las impresiones intrínsecas que forman los LLMs basadas en indicaciones
Desarrollo del Método de Sonda Lineal: Uso del marco SCM para entrenar sondas que decodifiquen impresiones desde estados ocultos
Establecimiento de Asociaciones Impresión-Comportamiento: Demostración de que las impresiones artificiales pueden predecir la calidad de las respuestas y el uso de lenguaje de cobertura
Identificación de Factores Influyentes: Análisis de cómo las características de contenido, estilo y dialecto afectan las impresiones de los LLMs
Revelación de Sesgos Dialectales: Descubrimiento de que los LLMs mantienen impresiones más negativas sobre el lenguaje afroamericano (AAL)
Paso 1: Vocabulario de características → Especificaciones de impresión (ej. "amable y minucioso")
Paso 2: Generar indicadores de usuario sintéticos basados en especificaciones de impresión
Paso 3: Extraer representaciones ocultas del LLM
Paso 4: Construir datos de entrenamiento de sonda (pares representación-etiqueta)
Las impresiones reportadas por LLMs tienden a sesgarse hacia características positivas (calidez/competencia), especialmente en contextos de primera persona:
Autoconsistencia de calidez de primera persona de Llama-3.1 (8B) solo 51.67%
Mejora en contextos de tercera persona pero sigue siendo limitada (máximo 80.77%)
Este artículo hace referencia a trabajos importantes de múltiples disciplinas incluyendo psicología, sociolingüística y lingüística computacional, particularmente:
Modelo de Contenido de Estereotipos de Fiske et al. (2002)
Conjunto de Datos de Investigación de Dialectos de Blodgett et al. (2016)
Investigación reciente sobre sesgo y equidad de LLMs
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes en innovación metodológica, diseño experimental y significancia social. Al introducir el concepto de "impresiones artificiales", proporciona una nueva perspectiva para comprender el comportamiento de LLMs, con valor importante para avanzar la investigación en equidad de IA.