2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin

Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.

academic

Evaluación de la Alineación de Representación Humano-LLM: Un Estudio de Caso sobre Generación de Oraciones Afectivas para Comunicación Aumentativa y Alternativa

Información Básica

ID del Artículo: 2503.11881
Título: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
Autores: Shadab Choudhury, Asha Kumar, Lara J. Martin (Universidad de Maryland, Condado de Baltimore)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 2025
Enlace del Artículo: https://arxiv.org/abs/2503.11881

Resumen

Este estudio aborda la brecha existente entre los modelos de lenguaje de gran escala (LLMs) en el uso de conceptos y las expectativas humanas, particularmente en aplicaciones de herramientas de comunicación aumentativa y alternativa (CAA). La investigación introduce la tarea de evaluación de "alineación de representación" (Representation Alignment), midiendo esta brecha mediante juicios humanos. El estudio examina cuatro formas de representación afectiva: vocabulario inglés, dimensiones VAD lexicalizadas, dimensiones VAD numéricas y emojis, evaluando la precisión y autenticidad de las oraciones generadas. Los resultados muestran que los humanos respaldan más los resultados generados por LLM bajo condiciones de vocabulario inglés en comparación con las escalas VAD, siendo esta diferencia particularmente evidente en la comparación entre VAD numérico y léxico.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Los LLMs presentan una brecha en el uso de conceptos respecto a las expectativas humanas, siendo esto especialmente crítico en aplicaciones de herramientas CAA
Escenarios de Aplicación: Las herramientas CAA ayudan a personas con discapacidades del habla a comunicarse, pero la velocidad de comunicación es el principal punto débil
Desafíos Tecnológicos: Cómo garantizar que el texto generado por LLM refleje con precisión la intención afectiva y el estilo de expresión del usuario

Importancia de la Investigación

Los usuarios de CAA frecuentemente son ignorados o interrumpidos debido a retrasos en la comunicación
La tecnología NLP actual promete mejorar la velocidad de comunicación de las herramientas CAA
Existen preocupaciones sobre el control del usuario sobre los LLMs, precisión y adaptabilidad contextual

Limitaciones de Métodos Existentes

Falta de evaluación sistemática del grado de alineación entre LLMs y humanos en la comprensión de conceptos
Ausencia de evidencia empírica en la selección de formas de representación afectiva
Consideración insuficiente del impacto de diferentes formas de representación en la experiencia del usuario

Contribuciones Principales

Propuesta de Paradigma de Evaluación de Alineación de Representación: Introducción de un método de evaluación que mide el grado de alineación entre el uso de conceptos por LLM y los modelos mentales humanos mediante juicios humanos
Comparación Sistemática de Cuatro Formas de Representación Afectiva: Evaluación integral de la efectividad de Words, VAD Léxico, VAD Numérico y Emojis
Hallazgos Empíricos sobre la Forma de Representación Óptima: Demostración de que el vocabulario inglés y el VAD lexicalizado muestran el mejor desempeño en alineación de representación, precisión y autenticidad
Orientación para Aplicaciones CAA: Proporciona evidencia empírica para la selección de representación afectiva en futuras aplicaciones CAA

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Tres palabras clave + una forma de representación afectiva
Salida: Una oración completa que contiene las palabras clave y expresa el afecto especificado
Restricciones: La oración generada debe ser natural, expresar con precisión el afecto y evitar el uso directo de palabras afectivas

Formas de Representación Afectiva

1. Representación Words

Uso directo de vocabulario afectivo inglés (como "angry", "happy")

2. Representación VAD Léxica

Uso de descripciones léxicas de cinco niveles de las dimensiones VAD:

Valence: Muy Alto/Alto/Moderado/Bajo/Muy Bajo
Arousal: Grado de activación afectiva
Dominance: Grado de control sobre el afecto

3. Representación VAD Numérica

Uso de escalas numéricas de -5.0 a +5.0 para representar las dimensiones VAD

4. Representación Emojis

Uso de símbolos Unicode de emojis para representar afectos

Arquitectura del Modelo y Estrategia de Generación

Modelos Utilizados

GPT-4-Turbo-2024-04-09: Invocación de API comercial
LLaMA-3.3-70B: Versión cuantizada de 8 bits, implementación local

Estrategias de Prompting

Words/Emojis: Prompting de pocos ejemplos (Few-shot prompting)
Representación VAD: Prompting de cadena de pensamiento con retroceso de pasos (Step-back chain-of-thought)
Condiciones de Restricción: Prohibición del uso directo de palabras afectivas, requisito de "mostrar en lugar de contar"

Generación de Datos

Total de 360 oraciones/modelo (90/forma de representación)
Cobertura de 18 afectos diferentes, originarios de la clasificación de Demszky et al. (2020)
Selección aleatoria de 2 oraciones por afecto para evaluación

Configuración Experimental

Construcción del Conjunto de Datos

Selección de Afectos: Basada en la clasificación de Demszky et al. (2020), seleccionando 18 afectos representativos
Combinaciones de Palabras Clave: Uso de combinaciones de vocabulario común, como Place, Great, Korean, Finals, Semester, Math
Valores VAD: Basados en Guo y Choi (2021), normalizados al rango de -5.0 a +5.0

Diseño de Evaluación Humana

Reclutamiento de Participantes

Plataforma: Plataforma de crowdsourcing Prolific
Número de Participantes: 200 participantes (100 por modelo)
Criterios: Mayor de 18 años, residente en Estados Unidos, fluidez en inglés
Compensación: $14/hora, aproximadamente 15 minutos de tarea

Tareas de Evaluación

1. Evaluación de Alineación de Representación

Presentación de una forma de representación afectiva y cuatro oraciones generadas
Los participantes seleccionan la oración que mejor se ajusta a ese afecto
Cada participante responde 10 preguntas, asignadas aleatoriamente

2. Evaluación de Precisión y Autenticidad

Escala de Likert de 5 puntos para evaluar:
- "Convey": Grado en que la oración transmite el afecto
- "You'd say": Suena como algo que el participante diría
- "Someone Else'd say": Suena como algo que otra persona diría

Métricas de Evaluación

Métricas de Alineación de Representación

Tasa de Selección: Porcentaje de veces que se selecciona una representación específica
Entropía de Shannon: Medida de la consistencia de las selecciones
Autoalineación: Grado de coincidencia entre generación y evaluación de la misma representación

Métricas de Precisión y Autenticidad

Puntuación promedio de Likert en tres dimensiones
Prueba ANOVA para significancia estadística
Prueba t pareada para análisis post-hoc

Resultados Experimentales

Resultados Principales

Desempeño de Alineación de Representación

Forma de Representación	Tasa de Selección GPT-4	Tasa de Selección LLaMA-3	Valor de Entropía GPT-4	Valor de Entropía LLaMA-3
Words	61.9%	57.5%	0.32	0.42
VAD Léxico	52.0%	-	0.61	0.72
VAD Numérico	-	-	0.70	0.63
Emojis	-	-	0.67	0.52

Hallazgos Clave

Representación Words Óptima: Muestra las tasas de autoalineación más altas y valores de entropía más bajos en ambos modelos
VAD Léxico Secundario: Desempeño bueno en GPT-4, pero efectividad reducida en LLaMA-3
VAD Numérico con Peor Desempeño: Valores de entropía más altos, indicando dificultad de los participantes para alcanzar consenso
Alineación Transversal: Los Emojis y VAD Léxico muestran alineación en LLaMA-3

Resultados de Precisión y Autenticidad

Significancia Estadística

GPT-4: La representación afectiva tiene un impacto significativo en "Convey" y "You'd say" (p < 0.01)
LLaMA-3: La representación afectiva tiene un impacto significativo en "Convey" y "Someone Else'd say" (p < 0.05)

Comparaciones Pareadas

Words es significativamente superior a VAD Numérico en la dimensión "Convey" (GPT-4, p = 0.002)
VAD Léxico es significativamente superior a VAD Numérico en la dimensión "Convey" (LLaMA-3, p = 0.018)
Words es significativamente superior a Emojis (p = 0.005) y VAD Numérico (p = 0.044) en la dimensión "You'd say"

Análisis de Especificidad de Afectos

Diferencias entre Modelos

GPT-4 es notablemente superior a LLaMA-3 en la generación de oraciones con afecto "grateful"
Existen diferencias significativas en el desempeño de diferentes afectos bajo diferentes representaciones
Ciertos afectos (como "excited", "proud") muestran desempeño deficiente bajo condiciones específicas

Adaptabilidad de Representación

Los afectos positivos generalmente muestran mejor desempeño bajo representación Words
Los estados afectivos complejos son más adecuados para la representación VAD Léxica
VAD Numérico presenta dificultades en la discriminación de afectos de grano fino

Experimentos de Ablación

Análisis de Adherencia a Palabras Clave

Modelo	Contiene 1 Palabra Clave	Contiene 2 Palabras Clave	Contiene 3 Palabras Clave	Precisión Promedio
GPT-4, 1x	1.00	1.00	0.936	0.978
LLaMA-3, 1x	0.908	0.897	0.781	0.862
LLaMA-3, 3x	0.969	0.969	0.850	0.930

Efectividad del Entrenamiento VAD

Proporcionar a los participantes explicaciones de conceptos VAD y preguntas de práctica mejoró la precisión de comprensión, pero persisten problemas de carga cognitiva.

Trabajo Relacionado

Generación Restringida por Palabras Clave

Métodos tempranos basados en sistemas gramaticales (Kasper, 1989; Uchimoto et al., 2002)
Modelos de secuencia y métodos de corrección iterativa (Mou et al., 2016; He and Li, 2021)
Técnicas de generación controlada en la era Transformer (Kumar et al., 2021; Krause et al., 2021)

Generación de Oraciones Condicionadas por Afecto

Sistemas tempranos basados en reglas (Polzin and Waibel, 2000)
Generación condicional RNN (Ghosh et al., 2017; Song et al., 2019)
Métodos de generación afectiva en la era LLM (Li et al., 2024; Mishra et al., 2023)

Investigación de Alineación de Valores

Aprendizaje de comportamiento normativo en historias infantiles (Nahian et al., 2020)
Integración de valores en aprendizaje por refuerzo con retroalimentación humana (Arzberger et al., 2024)
Medición de alineación de valores en modelos existentes (Norhashim and Hahn, 2024)

Conclusiones y Discusión

Conclusiones Principales

Importancia de la Alineación de Representación: El grado de alineación en la comprensión de conceptos entre humanos y LLMs impacta directamente la efectividad de la aplicación
Superioridad de la Representación Words: El vocabulario inglés proporciona el efecto de alineación más fuerte en la representación afectiva
Complejidad de la Representación VAD: VAD Léxico es superior a VAD Numérico, pero aún inferior a la representación de vocabulario directo
Diferencias entre Modelos: Existen diferencias significativas entre diferentes LLMs en la comprensión y generación de afectos

Limitaciones

Limitaciones Técnicas

Selección de Modelos: Uso de solo dos LLMs, con LLaMA-3 usando versión cuantizada de 8 bits
Restricción de Idioma: Limitado al inglés, otros idiomas pueden presentar resultados diferentes
Representatividad de Participantes: No incluye la población real de usuarios de CAA

Limitaciones Metodológicas

Carga de Comprensión VAD: Los participantes necesitan aprender conceptos VAD adicionales, lo que puede afectar los resultados de evaluación
Subjetividad de Emojis: Existen diferencias en la comprensión de emojis según antecedentes culturales
Complejidad Afectiva: 18 afectos pueden no cubrir el espectro afectivo completo

Direcciones Futuras

Expansión del Rango de Modelos: Prueba de más modelos LLM recientes
Validación Multilingüe: Verificación de conclusiones en otros entornos lingüísticos
Personalización del Usuario: Aprendizaje de representación personalizada para grupos específicos de usuarios de CAA
Aplicación en Tiempo Real: Implementación y evaluación en entornos CAA reales

Evaluación Profunda

Fortalezas

Innovación Metodológica

Paradigma de Alineación de Representación Pionero: Proporciona un nuevo método para evaluar sistemáticamente la comprensión de conceptos por LLM
Diseño de Evaluación Multidimensional: Marco de evaluación integral que combina alineación, precisión y autenticidad
Investigación Orientada a la Práctica: Directamente enfocada en las necesidades reales de aplicaciones CAA

Suficiencia Experimental

Evaluación Humana a Gran Escala: Evaluación de crowdsourcing con 200 participantes asegura confiabilidad de resultados
Rigor Estadístico: Uso de ANOVA y pruebas t pareadas para asegurar significancia estadística de resultados
Análisis Multifacético: Evaluación integral desde múltiples dimensiones de alineación de representación, precisión y autenticidad

Poder Persuasivo de Resultados

Hallazgos Consistentes: Las tendencias de resultados en ambos modelos son básicamente consistentes
Significancia Estadística: Las conclusiones principales han pasado pruebas de significancia estadística
Significado Práctico Directo: Proporciona recomendaciones de diseño claras para aplicaciones CAA

Deficiencias

Limitaciones Metodológicas

Subjetividad de Evaluación: Dependencia de juicios humanos subjetivos, que pueden contener sesgos
Simplificación de Tareas: La tarea de generación de palabras clave a oración es relativamente simple, los escenarios CAA reales son más complejos
Evaluación Estática: No considera la dependencia contextual en diálogos dinámicos

Defectos en la Configuración Experimental

Entrenamiento Insuficiente de Participantes: El entrenamiento rápido de conceptos VAD puede ser insuficiente
Limitación de Tamaño de Muestra: El número de respondientes por pregunta es relativamente pequeño (3-9 personas)
Diferencias de Versión de Modelo: Las versiones de modelo utilizadas pueden afectar la actualidad de los resultados

Evaluación de Impacto

Contribución Académica

Trabajo Pionero: Primer estudio sistemático del problema de alineación de representación de LLM
Contribución Metodológica: El paradigma de evaluación de alineación de representación es extensible a otros dominios de conceptos
Valor Interdisciplinario: Conecta investigación en NLP, psicología y tecnología de asistencia

Valor Práctico

Mejora de Herramientas CAA: Proporciona orientación para el diseño de representación afectiva en aplicaciones CAA
Dirección de Optimización de LLM: Proporciona ideas para mejorar la alineación de conceptos entre LLM y humanos
Establecimiento de Estándares de Evaluación: Establece puntos de referencia de evaluación para aplicaciones similares

Reproducibilidad

Descripción Detallada de Métodos: Proporciona configuración experimental completa y configuración de parámetros
Compromiso de Datos Abiertos: Promesa de publicar datos y código experimentales
Proceso Estandarizado: Establece un proceso de evaluación reproducible

Escenarios de Aplicación

Aplicación Directa

Desarrollo de Herramientas CAA: Diseño y optimización de funcionalidades de expresión afectiva
Sistemas de Diálogo: Mejora de capacidades de comprensión y expresión afectiva
Evaluación de Generación de Texto: Establecimiento de estándares de evaluación de alineación humano-máquina

Aplicación Extendida

Alineación de Otros Conceptos: Extensión a dominios de valores, conceptos culturales, etc.
Alineación Multimodal: Integración de información visual, de audio y otras modalidades
Adaptación Personalizada: Personalización de alineación para grupos específicos de usuarios

Referencias

Esta investigación cita numerosos trabajos relacionados, incluyendo principalmente:

Demszky et al. (2020): Conjunto de datos de emociones GoEmotions
Guo y Choi (2021): Aprendizaje de representación de emociones VAD
Valencia et al. (2023): Aplicación de modelos de lenguaje AI en CAA
Chen y Wan (2024): Evaluación de capacidades de generación restringida por vocabulario de LLM

Evaluación General: Este es un trabajo de investigación de alta calidad que realiza contribuciones pioneras en el importante problema de la alineación de conceptos entre LLM y humanos. La metodología de investigación es científicamente rigurosa, el diseño experimental es razonable, y los resultados tienen valor teórico y práctico significativo. Aunque existen algunas limitaciones, el trabajo sienta una base sólida para investigación futura relacionada.