Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
- ID del Artículo: 2503.11881
- Título: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- Autores: Shadab Choudhury, Asha Kumar, Lara J. Martin (Universidad de Maryland, Condado de Baltimore)
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 2025
- Enlace del Artículo: https://arxiv.org/abs/2503.11881
Este estudio aborda la brecha existente entre los modelos de lenguaje de gran escala (LLMs) en el uso de conceptos y las expectativas humanas, particularmente en aplicaciones de herramientas de comunicación aumentativa y alternativa (CAA). La investigación introduce la tarea de evaluación de "alineación de representación" (Representation Alignment), midiendo esta brecha mediante juicios humanos. El estudio examina cuatro formas de representación afectiva: vocabulario inglés, dimensiones VAD lexicalizadas, dimensiones VAD numéricas y emojis, evaluando la precisión y autenticidad de las oraciones generadas. Los resultados muestran que los humanos respaldan más los resultados generados por LLM bajo condiciones de vocabulario inglés en comparación con las escalas VAD, siendo esta diferencia particularmente evidente en la comparación entre VAD numérico y léxico.
- Problema Central: Los LLMs presentan una brecha en el uso de conceptos respecto a las expectativas humanas, siendo esto especialmente crítico en aplicaciones de herramientas CAA
- Escenarios de Aplicación: Las herramientas CAA ayudan a personas con discapacidades del habla a comunicarse, pero la velocidad de comunicación es el principal punto débil
- Desafíos Tecnológicos: Cómo garantizar que el texto generado por LLM refleje con precisión la intención afectiva y el estilo de expresión del usuario
- Los usuarios de CAA frecuentemente son ignorados o interrumpidos debido a retrasos en la comunicación
- La tecnología NLP actual promete mejorar la velocidad de comunicación de las herramientas CAA
- Existen preocupaciones sobre el control del usuario sobre los LLMs, precisión y adaptabilidad contextual
- Falta de evaluación sistemática del grado de alineación entre LLMs y humanos en la comprensión de conceptos
- Ausencia de evidencia empírica en la selección de formas de representación afectiva
- Consideración insuficiente del impacto de diferentes formas de representación en la experiencia del usuario
- Propuesta de Paradigma de Evaluación de Alineación de Representación: Introducción de un método de evaluación que mide el grado de alineación entre el uso de conceptos por LLM y los modelos mentales humanos mediante juicios humanos
- Comparación Sistemática de Cuatro Formas de Representación Afectiva: Evaluación integral de la efectividad de Words, VAD Léxico, VAD Numérico y Emojis
- Hallazgos Empíricos sobre la Forma de Representación Óptima: Demostración de que el vocabulario inglés y el VAD lexicalizado muestran el mejor desempeño en alineación de representación, precisión y autenticidad
- Orientación para Aplicaciones CAA: Proporciona evidencia empírica para la selección de representación afectiva en futuras aplicaciones CAA
- Entrada: Tres palabras clave + una forma de representación afectiva
- Salida: Una oración completa que contiene las palabras clave y expresa el afecto especificado
- Restricciones: La oración generada debe ser natural, expresar con precisión el afecto y evitar el uso directo de palabras afectivas
Uso directo de vocabulario afectivo inglés (como "angry", "happy")
Uso de descripciones léxicas de cinco niveles de las dimensiones VAD:
- Valence: Muy Alto/Alto/Moderado/Bajo/Muy Bajo
- Arousal: Grado de activación afectiva
- Dominance: Grado de control sobre el afecto
Uso de escalas numéricas de -5.0 a +5.0 para representar las dimensiones VAD
Uso de símbolos Unicode de emojis para representar afectos
- GPT-4-Turbo-2024-04-09: Invocación de API comercial
- LLaMA-3.3-70B: Versión cuantizada de 8 bits, implementación local
- Words/Emojis: Prompting de pocos ejemplos (Few-shot prompting)
- Representación VAD: Prompting de cadena de pensamiento con retroceso de pasos (Step-back chain-of-thought)
- Condiciones de Restricción: Prohibición del uso directo de palabras afectivas, requisito de "mostrar en lugar de contar"
- Total de 360 oraciones/modelo (90/forma de representación)
- Cobertura de 18 afectos diferentes, originarios de la clasificación de Demszky et al. (2020)
- Selección aleatoria de 2 oraciones por afecto para evaluación
- Selección de Afectos: Basada en la clasificación de Demszky et al. (2020), seleccionando 18 afectos representativos
- Combinaciones de Palabras Clave: Uso de combinaciones de vocabulario común, como Place, Great, Korean, Finals, Semester, Math
- Valores VAD: Basados en Guo y Choi (2021), normalizados al rango de -5.0 a +5.0
- Plataforma: Plataforma de crowdsourcing Prolific
- Número de Participantes: 200 participantes (100 por modelo)
- Criterios: Mayor de 18 años, residente en Estados Unidos, fluidez en inglés
- Compensación: $14/hora, aproximadamente 15 minutos de tarea
1. Evaluación de Alineación de Representación
- Presentación de una forma de representación afectiva y cuatro oraciones generadas
- Los participantes seleccionan la oración que mejor se ajusta a ese afecto
- Cada participante responde 10 preguntas, asignadas aleatoriamente
2. Evaluación de Precisión y Autenticidad
- Escala de Likert de 5 puntos para evaluar:
- "Convey": Grado en que la oración transmite el afecto
- "You'd say": Suena como algo que el participante diría
- "Someone Else'd say": Suena como algo que otra persona diría
- Tasa de Selección: Porcentaje de veces que se selecciona una representación específica
- Entropía de Shannon: Medida de la consistencia de las selecciones
- Autoalineación: Grado de coincidencia entre generación y evaluación de la misma representación
- Puntuación promedio de Likert en tres dimensiones
- Prueba ANOVA para significancia estadística
- Prueba t pareada para análisis post-hoc
| Forma de Representación | Tasa de Selección GPT-4 | Tasa de Selección LLaMA-3 | Valor de Entropía GPT-4 | Valor de Entropía LLaMA-3 |
|---|
| Words | 61.9% | 57.5% | 0.32 | 0.42 |
| VAD Léxico | 52.0% | - | 0.61 | 0.72 |
| VAD Numérico | - | - | 0.70 | 0.63 |
| Emojis | - | - | 0.67 | 0.52 |
- Representación Words Óptima: Muestra las tasas de autoalineación más altas y valores de entropía más bajos en ambos modelos
- VAD Léxico Secundario: Desempeño bueno en GPT-4, pero efectividad reducida en LLaMA-3
- VAD Numérico con Peor Desempeño: Valores de entropía más altos, indicando dificultad de los participantes para alcanzar consenso
- Alineación Transversal: Los Emojis y VAD Léxico muestran alineación en LLaMA-3
- GPT-4: La representación afectiva tiene un impacto significativo en "Convey" y "You'd say" (p < 0.01)
- LLaMA-3: La representación afectiva tiene un impacto significativo en "Convey" y "Someone Else'd say" (p < 0.05)
- Words es significativamente superior a VAD Numérico en la dimensión "Convey" (GPT-4, p = 0.002)
- VAD Léxico es significativamente superior a VAD Numérico en la dimensión "Convey" (LLaMA-3, p = 0.018)
- Words es significativamente superior a Emojis (p = 0.005) y VAD Numérico (p = 0.044) en la dimensión "You'd say"
- GPT-4 es notablemente superior a LLaMA-3 en la generación de oraciones con afecto "grateful"
- Existen diferencias significativas en el desempeño de diferentes afectos bajo diferentes representaciones
- Ciertos afectos (como "excited", "proud") muestran desempeño deficiente bajo condiciones específicas
- Los afectos positivos generalmente muestran mejor desempeño bajo representación Words
- Los estados afectivos complejos son más adecuados para la representación VAD Léxica
- VAD Numérico presenta dificultades en la discriminación de afectos de grano fino
| Modelo | Contiene 1 Palabra Clave | Contiene 2 Palabras Clave | Contiene 3 Palabras Clave | Precisión Promedio |
|---|
| GPT-4, 1x | 1.00 | 1.00 | 0.936 | 0.978 |
| LLaMA-3, 1x | 0.908 | 0.897 | 0.781 | 0.862 |
| LLaMA-3, 3x | 0.969 | 0.969 | 0.850 | 0.930 |
Proporcionar a los participantes explicaciones de conceptos VAD y preguntas de práctica mejoró la precisión de comprensión, pero persisten problemas de carga cognitiva.
- Métodos tempranos basados en sistemas gramaticales (Kasper, 1989; Uchimoto et al., 2002)
- Modelos de secuencia y métodos de corrección iterativa (Mou et al., 2016; He and Li, 2021)
- Técnicas de generación controlada en la era Transformer (Kumar et al., 2021; Krause et al., 2021)
- Sistemas tempranos basados en reglas (Polzin and Waibel, 2000)
- Generación condicional RNN (Ghosh et al., 2017; Song et al., 2019)
- Métodos de generación afectiva en la era LLM (Li et al., 2024; Mishra et al., 2023)
- Aprendizaje de comportamiento normativo en historias infantiles (Nahian et al., 2020)
- Integración de valores en aprendizaje por refuerzo con retroalimentación humana (Arzberger et al., 2024)
- Medición de alineación de valores en modelos existentes (Norhashim and Hahn, 2024)
- Importancia de la Alineación de Representación: El grado de alineación en la comprensión de conceptos entre humanos y LLMs impacta directamente la efectividad de la aplicación
- Superioridad de la Representación Words: El vocabulario inglés proporciona el efecto de alineación más fuerte en la representación afectiva
- Complejidad de la Representación VAD: VAD Léxico es superior a VAD Numérico, pero aún inferior a la representación de vocabulario directo
- Diferencias entre Modelos: Existen diferencias significativas entre diferentes LLMs en la comprensión y generación de afectos
- Selección de Modelos: Uso de solo dos LLMs, con LLaMA-3 usando versión cuantizada de 8 bits
- Restricción de Idioma: Limitado al inglés, otros idiomas pueden presentar resultados diferentes
- Representatividad de Participantes: No incluye la población real de usuarios de CAA
- Carga de Comprensión VAD: Los participantes necesitan aprender conceptos VAD adicionales, lo que puede afectar los resultados de evaluación
- Subjetividad de Emojis: Existen diferencias en la comprensión de emojis según antecedentes culturales
- Complejidad Afectiva: 18 afectos pueden no cubrir el espectro afectivo completo
- Expansión del Rango de Modelos: Prueba de más modelos LLM recientes
- Validación Multilingüe: Verificación de conclusiones en otros entornos lingüísticos
- Personalización del Usuario: Aprendizaje de representación personalizada para grupos específicos de usuarios de CAA
- Aplicación en Tiempo Real: Implementación y evaluación en entornos CAA reales
- Paradigma de Alineación de Representación Pionero: Proporciona un nuevo método para evaluar sistemáticamente la comprensión de conceptos por LLM
- Diseño de Evaluación Multidimensional: Marco de evaluación integral que combina alineación, precisión y autenticidad
- Investigación Orientada a la Práctica: Directamente enfocada en las necesidades reales de aplicaciones CAA
- Evaluación Humana a Gran Escala: Evaluación de crowdsourcing con 200 participantes asegura confiabilidad de resultados
- Rigor Estadístico: Uso de ANOVA y pruebas t pareadas para asegurar significancia estadística de resultados
- Análisis Multifacético: Evaluación integral desde múltiples dimensiones de alineación de representación, precisión y autenticidad
- Hallazgos Consistentes: Las tendencias de resultados en ambos modelos son básicamente consistentes
- Significancia Estadística: Las conclusiones principales han pasado pruebas de significancia estadística
- Significado Práctico Directo: Proporciona recomendaciones de diseño claras para aplicaciones CAA
- Subjetividad de Evaluación: Dependencia de juicios humanos subjetivos, que pueden contener sesgos
- Simplificación de Tareas: La tarea de generación de palabras clave a oración es relativamente simple, los escenarios CAA reales son más complejos
- Evaluación Estática: No considera la dependencia contextual en diálogos dinámicos
- Entrenamiento Insuficiente de Participantes: El entrenamiento rápido de conceptos VAD puede ser insuficiente
- Limitación de Tamaño de Muestra: El número de respondientes por pregunta es relativamente pequeño (3-9 personas)
- Diferencias de Versión de Modelo: Las versiones de modelo utilizadas pueden afectar la actualidad de los resultados
- Trabajo Pionero: Primer estudio sistemático del problema de alineación de representación de LLM
- Contribución Metodológica: El paradigma de evaluación de alineación de representación es extensible a otros dominios de conceptos
- Valor Interdisciplinario: Conecta investigación en NLP, psicología y tecnología de asistencia
- Mejora de Herramientas CAA: Proporciona orientación para el diseño de representación afectiva en aplicaciones CAA
- Dirección de Optimización de LLM: Proporciona ideas para mejorar la alineación de conceptos entre LLM y humanos
- Establecimiento de Estándares de Evaluación: Establece puntos de referencia de evaluación para aplicaciones similares
- Descripción Detallada de Métodos: Proporciona configuración experimental completa y configuración de parámetros
- Compromiso de Datos Abiertos: Promesa de publicar datos y código experimentales
- Proceso Estandarizado: Establece un proceso de evaluación reproducible
- Desarrollo de Herramientas CAA: Diseño y optimización de funcionalidades de expresión afectiva
- Sistemas de Diálogo: Mejora de capacidades de comprensión y expresión afectiva
- Evaluación de Generación de Texto: Establecimiento de estándares de evaluación de alineación humano-máquina
- Alineación de Otros Conceptos: Extensión a dominios de valores, conceptos culturales, etc.
- Alineación Multimodal: Integración de información visual, de audio y otras modalidades
- Adaptación Personalizada: Personalización de alineación para grupos específicos de usuarios
Esta investigación cita numerosos trabajos relacionados, incluyendo principalmente:
- Demszky et al. (2020): Conjunto de datos de emociones GoEmotions
- Guo y Choi (2021): Aprendizaje de representación de emociones VAD
- Valencia et al. (2023): Aplicación de modelos de lenguaje AI en CAA
- Chen y Wan (2024): Evaluación de capacidades de generación restringida por vocabulario de LLM
Evaluación General: Este es un trabajo de investigación de alta calidad que realiza contribuciones pioneras en el importante problema de la alineación de conceptos entre LLM y humanos. La metodología de investigación es científicamente rigurosa, el diseño experimental es razonable, y los resultados tienen valor teórico y práctico significativo. Aunque existen algunas limitaciones, el trabajo sienta una base sólida para investigación futura relacionada.