2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown

We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.

academic

Impresiones Artificiales: Evaluación del Comportamiento de Modelos de Lenguaje Grande a Través de la Lente de Impresiones de Rasgos

Información Básica

ID del Artículo: 2510.08915
Título: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
Autores: Nicholas Deas, Kathleen McKeown (Universidad de Columbia)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.08915

Resumen

Este artículo introduce e investiga el concepto de "impresiones artificiales" (artificial impressions) —patrones en las representaciones internas de modelos de lenguaje grande (LLMs) que son análogos a las impresiones y estereotipos que los humanos forman basándose en el lenguaje. Los investigadores entrenan sondas lineales en indicaciones generadas para predecir impresiones según el Modelo de Contenido de Estereotipos bidimensional (Stereotype Content Model, SCM). A través de estas sondas, se investigó la relación entre impresiones y el comportamiento del modelo descendente, así como las características de los indicadores que podrían afectar estas impresiones. El estudio encontró que los LLMs reportan impresiones inconsistentes cuando se les solicita, pero las impresiones pueden decodificarse de manera más consistente linealmente desde sus representaciones ocultas. Además, las impresiones artificiales de los indicadores pueden predecir la calidad de las respuestas del modelo y el uso de lenguaje de cobertura.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los humanos forman rápidamente impresiones iniciales sobre otros durante las interacciones, y estas impresiones tienen efectos duraderos en las actitudes y comportamientos. De manera similar, los modelos de lenguaje grande, durante su entrenamiento, se exponen a grandes cantidades de texto de diversos autores y pueden formar "impresiones" análogas basadas en características lingüísticas.

Importancia de la Investigación

Sesgo y Equidad: Comprender cómo los LLMs forman impresiones basadas en características lingüísticas es crucial para identificar y mitigar sesgos
Predicción del Comportamiento del Modelo: Las impresiones artificiales pueden afectar el desempeño descendente del modelo, como la calidad de las respuestas y el uso del lenguaje
Impacto Sociolingüístico: Los diferentes dialectos y variantes lingüísticas pueden desencadenar diferentes impresiones, afectando la experiencia de uso de grupos marginalizados

Limitaciones de los Métodos Existentes

La solicitud directa a los LLMs para reportar impresiones presenta inconsistencias y sesgos positivos
Falta de un método sistemático para cuantificar y analizar las impresiones intrínsecas de los LLMs
Comprensión limitada de cómo las impresiones afectan el comportamiento descendente

Contribuciones Principales

Propuesta del Concepto de "Impresiones Artificiales": Primer estudio sistemático de las impresiones intrínsecas que forman los LLMs basadas en indicaciones
Desarrollo del Método de Sonda Lineal: Uso del marco SCM para entrenar sondas que decodifiquen impresiones desde estados ocultos
Establecimiento de Asociaciones Impresión-Comportamiento: Demostración de que las impresiones artificiales pueden predecir la calidad de las respuestas y el uso de lenguaje de cobertura
Identificación de Factores Influyentes: Análisis de cómo las características de contenido, estilo y dialecto afectan las impresiones de los LLMs
Revelación de Sesgos Dialectales: Descubrimiento de que los LLMs mantienen impresiones más negativas sobre el lenguaje afroamericano (AAL)

Explicación Detallada de la Metodología

Definición de la Tarea

Dado un indicador del usuario, el objetivo es:

Extraer puntuaciones de impresión basadas en SCM de las representaciones ocultas del LLM
Analizar la relación entre impresiones y el comportamiento del modelo
Identificar características del indicador que influyen en la formación de impresiones

Modelo de Contenido de Estereotipos (SCM)

El SCM contiene dos dimensiones:

Calidez (Warmth): Percepción de las intenciones del objetivo (como amabilidad, combatividad)
Competencia (Competence): Capacidad del objetivo para ejecutar exitosamente sus intenciones (como inteligencia, poder)

Flujo de Generación de Datos

1. Generación de Datos Sintéticos

Paso 1: Vocabulario de características → Especificaciones de impresión (ej. "amable y minucioso")
Paso 2: Generar indicadores de usuario sintéticos basados en especificaciones de impresión
Paso 3: Extraer representaciones ocultas del LLM
Paso 4: Construir datos de entrenamiento de sonda (pares representación-etiqueta)

2. Entrenamiento de Sonda

Uso de activaciones de perceptrón multicapa (MLP) como características de entrada
Entrenamiento de sondas independientes de calidez y competencia
Adopción de validación cruzada de 5 pliegues para evaluación del desempeño
Uso de diferentes proporciones de datos de entrenamiento (100%, 10%, 1%)

Puntos de Innovación Técnica

Guía de Teoría Psicológica: Aplicación del marco SCM de la psicología al análisis de LLMs
Comparación Sonda vs Indicación: Comparación sistemática de la confiabilidad del método de sonda versus indicación directa
Análisis Multicapa: Análisis de la distribución de información de impresión en diferentes capas del modelo
Validación de Predicción de Comportamiento: Verificación de la efectividad de las impresiones a través de tareas descendentes

Configuración Experimental

Modelos

Llama-3.1 (8B): 32 capas, dimensión oculta de 4096
Llama-3.2 (1B): 16 capas, dimensión oculta de 2048
OLMo-2 (7B): 32 capas, dimensión oculta de 4096

Conjuntos de Datos

Datos Sintéticos

Basados en 131 características de calidez y 104 características de competencia
10 muestras generadas por especificación de impresión (temperatura=0.9)
Total de 274,830 indicadores/modelo

Datos Reales

LMSysChat: 2000 indicadores de primera ronda muestreados de 1 millón de conversaciones reales
TwitterAAE: 400 tweets (200 AAL, 200 WME)
Conjunto de Datos Counterparts: Corpus paralelo con variables controladas

Métricas de Evaluación

Desempeño de Sonda: Puntuación F1, precisión
Autoconsistencia: Coincidencia entre impresiones reportadas y características proporcionadas
Evaluación Humana: Escala Likert de 4 puntos, α de Krippendorff = 0.71

Resultados Experimentales

Hallazgos Principales

Hallazgo 1: Limitaciones del Método de Indicación

Las impresiones reportadas por LLMs tienden a sesgarse hacia características positivas (calidez/competencia), especialmente en contextos de primera persona:

Autoconsistencia de calidez de primera persona de Llama-3.1 (8B) solo 51.67%
Mejora en contextos de tercera persona pero sigue siendo limitada (máximo 80.77%)

Hallazgo 2: Consistencia de Impresiones Humano-Modelo

Consistencia entre anotaciones humanas y características originales:

κ de Cohen general = 0.68, r de Spearman = 0.68
Validación de la efectividad del vocabulario de características y etiquetas SCM

Hallazgo 3: Efectividad del Método de Sonda

Las sondas lineales decodifican exitosamente impresiones desde representaciones ocultas:

Puntuación F1 de sonda de calidez: 75-90%
Puntuación F1 de sonda de competencia: 75-85%
El desempeño alcanza su pico en capas intermedias del modelo

Hallazgo 4: Efecto de Ventaja de Calidez

El modelo muestra mejor desempeño en la dimensión de calidez:

El desempeño de la sonda de calidez es consistentemente superior al de la sonda de competencia
Imita el "efecto de prioridad de calidez" en la formación de impresiones humanas

Experimentos de Asociación Impresión-Comportamiento

Predicción de Calidad de Respuesta

Análisis de regresión logística ordinal de la influencia de impresiones en la calidad de respuesta:

Modelo	Coeficiente de Calidez	Coeficiente de Competencia
Llama-3.2-1B	1.07**	0.90**
Llama-3.1-8B	0.49*	0.39*
OLMo-2-7B	0.76**	0.35*

Hallazgo 5: Las impresiones de calidez y competencia predicen significativamente la calidad de respuesta

Análisis de Lenguaje de Cobertura

Análisis de regresión binomial negativa de la influencia de impresiones en el uso de lenguaje de cobertura:

Modelo	Coeficiente de Calidez	Coeficiente de Competencia
Llama-3.2-1B	-0.46*	-1.06**
Llama-3.1-8B	-0.14	-1.18**
OLMo-2-7B	0.40**	-0.69**

Hallazgo 6: Las impresiones de baja competencia predicen significativamente más uso de lenguaje de cobertura

Análisis de Factores Influyentes

Características de Contenido y Estilo

Análisis usando LIWC e IDP revela:

Características de Alta Calidez:

Vocabulario exploratorio ("wondering", "might", "seem")
Vocabulario diferencial ("would", "could", "hope")
Encarnación de cortesía y distancia psicológica

Características de Baja Calidez:

Palabras interrogativas ("what", "how")
Vocabulario causal ("because", "effect")

Características de Alta Competencia:

Vocabulario de perspicacia ("rethink", "know", "informed")
Estructura lingüística formal

Características de Baja Competencia:

Marcadores informales ("yeah", "sure", emojis)
Lenguaje de internet ("aight", "gonna")

Análisis de Sesgo Dialectal

Hallazgo 8: Los modelos mantienen impresiones más negativas sobre textos AAL

Correlación AAL vs WME de calidez: r = -0.32 (p ≤ 0.001)
Correlación AAL vs WME de competencia: r = -0.52 (p ≤ 0.001)
Corpus paralelo valida tendencias similares

Trabajo Relacionado

Características de Indicación y Comportamiento de LLMs

Características Pragmáticas: Impacto de la cortesía y estimulación emocional en el desempeño
Características Sociolingüísticas: Impacto de variantes lingüísticas en alineación cultural y sentimiento
Investigación de Dialectos: Sesgos y diferencias de desempeño de dialectos como AAL en LLMs

Estereotipos y LLMs

Sesgo Generativo: Estereotipos y sesgos sociales en la salida del modelo
Contenido de Estereotipos: Análisis de estereotipos de LLMs usando marcos como SCM
Reflejo de Actitudes Sociales: LLMs como reflejo de sesgos sociales

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: Las sondas lineales extraen impresiones de LLMs de manera más confiable que la indicación directa
Poder Predictivo: Las impresiones artificiales pueden predecir la calidad de respuesta y patrones de uso del lenguaje
Identificación de Sesgos: Descubrimiento sistemático de sesgos contra dialectos y grupos específicos
Efecto de Prioridad de Calidez: Los LLMs exhiben un efecto de prioridad de calidez similar al humano

Limitaciones

Restricción de Alcance: Enfoque solo en mensajes de primera ronda de conversaciones en inglés
Escala del Modelo: Limitado a modelos de código abierto con menos de 8B parámetros
Marco Teórico: Solo uso de SCM, sin exploración de otros modelos de estereotipos
Diferencias Culturales: Sin consideración de diferencias transculturales en la formación de impresiones

Consideraciones Éticas

Riesgo de Antropomorfización: Necesidad de evitar cuidadosamente la antropomorfización excesiva de LLMs
Amplificación de Sesgo: Los sesgos identificados pueden causar daño a grupos marginalizados
Límites de Aplicación: Necesidad de aclarar en qué contextos el comportamiento diferenciado es justificable

Direcciones Futuras

Conversaciones Multironda: Investigación de la evolución de impresiones durante el diálogo
Investigación Transcultural: Exploración de la formación de impresiones en diferentes contextos culturales
Estrategias de Mitigación: Desarrollo de métodos técnicos para reducir sesgos dañinos
Extensión Teórica: Aplicación de modelos más complejos de formación de impresiones

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación sistemática de teoría psicológica de impresiones al análisis de LLMs
Metodología Rigurosa: Combinación de generación de datos sintéticos, tecnología de sondas y evaluación humana
Alto Valor Práctico: Proporciona nuevas herramientas para comprender y mitigar sesgos de LLMs
Experimentación Completa: Validación integral con múltiples modelos y tareas
Significancia Social: Revelación de cuestiones importantes de equidad

Deficiencias

Limitaciones Teóricas: SCM puede no capturar todas las dimensiones de impresión relevantes
Sesgo de Datos: Los datos sintéticos pueden no reflejar completamente escenarios de uso real
Relaciones Causales: La relación entre impresiones y comportamiento puede tener variables de confusión
Generalización: La generalización de resultados en modelos más grandes y diferentes paradigmas de entrenamiento es desconocida

Impacto

Contribución Académica: Proporciona nuevo marco teórico y metodología para investigación de sesgo de LLMs
Valor Práctico: Puede usarse para evaluación de modelos y detección de sesgos
Significancia Política: Proporciona base científica para formulación de políticas de equidad de IA
Impacto Interdisciplinario: Conecta campos de psicología, sociolingüística y seguridad de IA

Escenarios Aplicables

Evaluación de Modelos: Detección de sesgos potenciales durante el desarrollo de modelos
Auditoría de Aplicaciones: Evaluación del desempeño de equidad de modelos desplegados
Herramienta de Investigación: Proporciona marco de análisis para investigación en campos relacionados
Propósitos Educativos: Ayuda a comprender el impacto social de sistemas de IA

Referencias

Este artículo hace referencia a trabajos importantes de múltiples disciplinas incluyendo psicología, sociolingüística y lingüística computacional, particularmente:

Modelo de Contenido de Estereotipos de Fiske et al. (2002)
Conjunto de Datos de Investigación de Dialectos de Blodgett et al. (2016)
Investigación reciente sobre sesgo y equidad de LLMs

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes en innovación metodológica, diseño experimental y significancia social. Al introducir el concepto de "impresiones artificiales", proporciona una nueva perspectiva para comprender el comportamiento de LLMs, con valor importante para avanzar la investigación en equidad de IA.