2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic

Impresiones Artificiales: Evaluación del Comportamiento de Modelos de Lenguaje Grande a Través de la Lente de Impresiones de Rasgos

Información Básica

  • ID del Artículo: 2510.08915
  • Título: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
  • Autores: Nicholas Deas, Kathleen McKeown (Universidad de Columbia)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08915

Resumen

Este artículo introduce e investiga el concepto de "impresiones artificiales" (artificial impressions) —patrones en las representaciones internas de modelos de lenguaje grande (LLMs) que son análogos a las impresiones y estereotipos que los humanos forman basándose en el lenguaje. Los investigadores entrenan sondas lineales en indicaciones generadas para predecir impresiones según el Modelo de Contenido de Estereotipos bidimensional (Stereotype Content Model, SCM). A través de estas sondas, se investigó la relación entre impresiones y el comportamiento del modelo descendente, así como las características de los indicadores que podrían afectar estas impresiones. El estudio encontró que los LLMs reportan impresiones inconsistentes cuando se les solicita, pero las impresiones pueden decodificarse de manera más consistente linealmente desde sus representaciones ocultas. Además, las impresiones artificiales de los indicadores pueden predecir la calidad de las respuestas del modelo y el uso de lenguaje de cobertura.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los humanos forman rápidamente impresiones iniciales sobre otros durante las interacciones, y estas impresiones tienen efectos duraderos en las actitudes y comportamientos. De manera similar, los modelos de lenguaje grande, durante su entrenamiento, se exponen a grandes cantidades de texto de diversos autores y pueden formar "impresiones" análogas basadas en características lingüísticas.

Importancia de la Investigación

  1. Sesgo y Equidad: Comprender cómo los LLMs forman impresiones basadas en características lingüísticas es crucial para identificar y mitigar sesgos
  2. Predicción del Comportamiento del Modelo: Las impresiones artificiales pueden afectar el desempeño descendente del modelo, como la calidad de las respuestas y el uso del lenguaje
  3. Impacto Sociolingüístico: Los diferentes dialectos y variantes lingüísticas pueden desencadenar diferentes impresiones, afectando la experiencia de uso de grupos marginalizados

Limitaciones de los Métodos Existentes

  • La solicitud directa a los LLMs para reportar impresiones presenta inconsistencias y sesgos positivos
  • Falta de un método sistemático para cuantificar y analizar las impresiones intrínsecas de los LLMs
  • Comprensión limitada de cómo las impresiones afectan el comportamiento descendente

Contribuciones Principales

  1. Propuesta del Concepto de "Impresiones Artificiales": Primer estudio sistemático de las impresiones intrínsecas que forman los LLMs basadas en indicaciones
  2. Desarrollo del Método de Sonda Lineal: Uso del marco SCM para entrenar sondas que decodifiquen impresiones desde estados ocultos
  3. Establecimiento de Asociaciones Impresión-Comportamiento: Demostración de que las impresiones artificiales pueden predecir la calidad de las respuestas y el uso de lenguaje de cobertura
  4. Identificación de Factores Influyentes: Análisis de cómo las características de contenido, estilo y dialecto afectan las impresiones de los LLMs
  5. Revelación de Sesgos Dialectales: Descubrimiento de que los LLMs mantienen impresiones más negativas sobre el lenguaje afroamericano (AAL)

Explicación Detallada de la Metodología

Definición de la Tarea

Dado un indicador del usuario, el objetivo es:

  1. Extraer puntuaciones de impresión basadas en SCM de las representaciones ocultas del LLM
  2. Analizar la relación entre impresiones y el comportamiento del modelo
  3. Identificar características del indicador que influyen en la formación de impresiones

Modelo de Contenido de Estereotipos (SCM)

El SCM contiene dos dimensiones:

  • Calidez (Warmth): Percepción de las intenciones del objetivo (como amabilidad, combatividad)
  • Competencia (Competence): Capacidad del objetivo para ejecutar exitosamente sus intenciones (como inteligencia, poder)

Flujo de Generación de Datos

1. Generación de Datos Sintéticos

Paso 1: Vocabulario de características → Especificaciones de impresión (ej. "amable y minucioso")
Paso 2: Generar indicadores de usuario sintéticos basados en especificaciones de impresión
Paso 3: Extraer representaciones ocultas del LLM
Paso 4: Construir datos de entrenamiento de sonda (pares representación-etiqueta)

2. Entrenamiento de Sonda

  • Uso de activaciones de perceptrón multicapa (MLP) como características de entrada
  • Entrenamiento de sondas independientes de calidez y competencia
  • Adopción de validación cruzada de 5 pliegues para evaluación del desempeño
  • Uso de diferentes proporciones de datos de entrenamiento (100%, 10%, 1%)

Puntos de Innovación Técnica

  1. Guía de Teoría Psicológica: Aplicación del marco SCM de la psicología al análisis de LLMs
  2. Comparación Sonda vs Indicación: Comparación sistemática de la confiabilidad del método de sonda versus indicación directa
  3. Análisis Multicapa: Análisis de la distribución de información de impresión en diferentes capas del modelo
  4. Validación de Predicción de Comportamiento: Verificación de la efectividad de las impresiones a través de tareas descendentes

Configuración Experimental

Modelos

  • Llama-3.1 (8B): 32 capas, dimensión oculta de 4096
  • Llama-3.2 (1B): 16 capas, dimensión oculta de 2048
  • OLMo-2 (7B): 32 capas, dimensión oculta de 4096

Conjuntos de Datos

Datos Sintéticos

  • Basados en 131 características de calidez y 104 características de competencia
  • 10 muestras generadas por especificación de impresión (temperatura=0.9)
  • Total de 274,830 indicadores/modelo

Datos Reales

  • LMSysChat: 2000 indicadores de primera ronda muestreados de 1 millón de conversaciones reales
  • TwitterAAE: 400 tweets (200 AAL, 200 WME)
  • Conjunto de Datos Counterparts: Corpus paralelo con variables controladas

Métricas de Evaluación

  • Desempeño de Sonda: Puntuación F1, precisión
  • Autoconsistencia: Coincidencia entre impresiones reportadas y características proporcionadas
  • Evaluación Humana: Escala Likert de 4 puntos, α de Krippendorff = 0.71

Resultados Experimentales

Hallazgos Principales

Hallazgo 1: Limitaciones del Método de Indicación

Las impresiones reportadas por LLMs tienden a sesgarse hacia características positivas (calidez/competencia), especialmente en contextos de primera persona:

  • Autoconsistencia de calidez de primera persona de Llama-3.1 (8B) solo 51.67%
  • Mejora en contextos de tercera persona pero sigue siendo limitada (máximo 80.77%)

Hallazgo 2: Consistencia de Impresiones Humano-Modelo

Consistencia entre anotaciones humanas y características originales:

  • κ de Cohen general = 0.68, r de Spearman = 0.68
  • Validación de la efectividad del vocabulario de características y etiquetas SCM

Hallazgo 3: Efectividad del Método de Sonda

Las sondas lineales decodifican exitosamente impresiones desde representaciones ocultas:

  • Puntuación F1 de sonda de calidez: 75-90%
  • Puntuación F1 de sonda de competencia: 75-85%
  • El desempeño alcanza su pico en capas intermedias del modelo

Hallazgo 4: Efecto de Ventaja de Calidez

El modelo muestra mejor desempeño en la dimensión de calidez:

  • El desempeño de la sonda de calidez es consistentemente superior al de la sonda de competencia
  • Imita el "efecto de prioridad de calidez" en la formación de impresiones humanas

Experimentos de Asociación Impresión-Comportamiento

Predicción de Calidad de Respuesta

Análisis de regresión logística ordinal de la influencia de impresiones en la calidad de respuesta:

ModeloCoeficiente de CalidezCoeficiente de Competencia
Llama-3.2-1B1.07**0.90**
Llama-3.1-8B0.49*0.39*
OLMo-2-7B0.76**0.35*

Hallazgo 5: Las impresiones de calidez y competencia predicen significativamente la calidad de respuesta

Análisis de Lenguaje de Cobertura

Análisis de regresión binomial negativa de la influencia de impresiones en el uso de lenguaje de cobertura:

ModeloCoeficiente de CalidezCoeficiente de Competencia
Llama-3.2-1B-0.46*-1.06**
Llama-3.1-8B-0.14-1.18**
OLMo-2-7B0.40**-0.69**

Hallazgo 6: Las impresiones de baja competencia predicen significativamente más uso de lenguaje de cobertura

Análisis de Factores Influyentes

Características de Contenido y Estilo

Análisis usando LIWC e IDP revela:

Características de Alta Calidez:

  • Vocabulario exploratorio ("wondering", "might", "seem")
  • Vocabulario diferencial ("would", "could", "hope")
  • Encarnación de cortesía y distancia psicológica

Características de Baja Calidez:

  • Palabras interrogativas ("what", "how")
  • Vocabulario causal ("because", "effect")

Características de Alta Competencia:

  • Vocabulario de perspicacia ("rethink", "know", "informed")
  • Estructura lingüística formal

Características de Baja Competencia:

  • Marcadores informales ("yeah", "sure", emojis)
  • Lenguaje de internet ("aight", "gonna")

Análisis de Sesgo Dialectal

Hallazgo 8: Los modelos mantienen impresiones más negativas sobre textos AAL

  • Correlación AAL vs WME de calidez: r = -0.32 (p ≤ 0.001)
  • Correlación AAL vs WME de competencia: r = -0.52 (p ≤ 0.001)
  • Corpus paralelo valida tendencias similares

Trabajo Relacionado

Características de Indicación y Comportamiento de LLMs

  • Características Pragmáticas: Impacto de la cortesía y estimulación emocional en el desempeño
  • Características Sociolingüísticas: Impacto de variantes lingüísticas en alineación cultural y sentimiento
  • Investigación de Dialectos: Sesgos y diferencias de desempeño de dialectos como AAL en LLMs

Estereotipos y LLMs

  • Sesgo Generativo: Estereotipos y sesgos sociales en la salida del modelo
  • Contenido de Estereotipos: Análisis de estereotipos de LLMs usando marcos como SCM
  • Reflejo de Actitudes Sociales: LLMs como reflejo de sesgos sociales

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Método: Las sondas lineales extraen impresiones de LLMs de manera más confiable que la indicación directa
  2. Poder Predictivo: Las impresiones artificiales pueden predecir la calidad de respuesta y patrones de uso del lenguaje
  3. Identificación de Sesgos: Descubrimiento sistemático de sesgos contra dialectos y grupos específicos
  4. Efecto de Prioridad de Calidez: Los LLMs exhiben un efecto de prioridad de calidez similar al humano

Limitaciones

  1. Restricción de Alcance: Enfoque solo en mensajes de primera ronda de conversaciones en inglés
  2. Escala del Modelo: Limitado a modelos de código abierto con menos de 8B parámetros
  3. Marco Teórico: Solo uso de SCM, sin exploración de otros modelos de estereotipos
  4. Diferencias Culturales: Sin consideración de diferencias transculturales en la formación de impresiones

Consideraciones Éticas

  1. Riesgo de Antropomorfización: Necesidad de evitar cuidadosamente la antropomorfización excesiva de LLMs
  2. Amplificación de Sesgo: Los sesgos identificados pueden causar daño a grupos marginalizados
  3. Límites de Aplicación: Necesidad de aclarar en qué contextos el comportamiento diferenciado es justificable

Direcciones Futuras

  1. Conversaciones Multironda: Investigación de la evolución de impresiones durante el diálogo
  2. Investigación Transcultural: Exploración de la formación de impresiones en diferentes contextos culturales
  3. Estrategias de Mitigación: Desarrollo de métodos técnicos para reducir sesgos dañinos
  4. Extensión Teórica: Aplicación de modelos más complejos de formación de impresiones

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación sistemática de teoría psicológica de impresiones al análisis de LLMs
  2. Metodología Rigurosa: Combinación de generación de datos sintéticos, tecnología de sondas y evaluación humana
  3. Alto Valor Práctico: Proporciona nuevas herramientas para comprender y mitigar sesgos de LLMs
  4. Experimentación Completa: Validación integral con múltiples modelos y tareas
  5. Significancia Social: Revelación de cuestiones importantes de equidad

Deficiencias

  1. Limitaciones Teóricas: SCM puede no capturar todas las dimensiones de impresión relevantes
  2. Sesgo de Datos: Los datos sintéticos pueden no reflejar completamente escenarios de uso real
  3. Relaciones Causales: La relación entre impresiones y comportamiento puede tener variables de confusión
  4. Generalización: La generalización de resultados en modelos más grandes y diferentes paradigmas de entrenamiento es desconocida

Impacto

  1. Contribución Académica: Proporciona nuevo marco teórico y metodología para investigación de sesgo de LLMs
  2. Valor Práctico: Puede usarse para evaluación de modelos y detección de sesgos
  3. Significancia Política: Proporciona base científica para formulación de políticas de equidad de IA
  4. Impacto Interdisciplinario: Conecta campos de psicología, sociolingüística y seguridad de IA

Escenarios Aplicables

  1. Evaluación de Modelos: Detección de sesgos potenciales durante el desarrollo de modelos
  2. Auditoría de Aplicaciones: Evaluación del desempeño de equidad de modelos desplegados
  3. Herramienta de Investigación: Proporciona marco de análisis para investigación en campos relacionados
  4. Propósitos Educativos: Ayuda a comprender el impacto social de sistemas de IA

Referencias

Este artículo hace referencia a trabajos importantes de múltiples disciplinas incluyendo psicología, sociolingüística y lingüística computacional, particularmente:

  • Modelo de Contenido de Estereotipos de Fiske et al. (2002)
  • Conjunto de Datos de Investigación de Dialectos de Blodgett et al. (2016)
  • Investigación reciente sobre sesgo y equidad de LLMs

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes en innovación metodológica, diseño experimental y significancia social. Al introducir el concepto de "impresiones artificiales", proporciona una nueva perspectiva para comprender el comportamiento de LLMs, con valor importante para avanzar la investigación en equidad de IA.