2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin
Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
academic

Evaluación de la Alineación de Representación Humano-LLM: Un Estudio de Caso sobre Generación de Oraciones Afectivas para Comunicación Aumentativa y Alternativa

Información Básica

  • ID del Artículo: 2503.11881
  • Título: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
  • Autores: Shadab Choudhury, Asha Kumar, Lara J. Martin (Universidad de Maryland, Condado de Baltimore)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 2025
  • Enlace del Artículo: https://arxiv.org/abs/2503.11881

Resumen

Este estudio aborda la brecha existente entre los modelos de lenguaje de gran escala (LLMs) en el uso de conceptos y las expectativas humanas, particularmente en aplicaciones de herramientas de comunicación aumentativa y alternativa (CAA). La investigación introduce la tarea de evaluación de "alineación de representación" (Representation Alignment), midiendo esta brecha mediante juicios humanos. El estudio examina cuatro formas de representación afectiva: vocabulario inglés, dimensiones VAD lexicalizadas, dimensiones VAD numéricas y emojis, evaluando la precisión y autenticidad de las oraciones generadas. Los resultados muestran que los humanos respaldan más los resultados generados por LLM bajo condiciones de vocabulario inglés en comparación con las escalas VAD, siendo esta diferencia particularmente evidente en la comparación entre VAD numérico y léxico.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los LLMs presentan una brecha en el uso de conceptos respecto a las expectativas humanas, siendo esto especialmente crítico en aplicaciones de herramientas CAA
  2. Escenarios de Aplicación: Las herramientas CAA ayudan a personas con discapacidades del habla a comunicarse, pero la velocidad de comunicación es el principal punto débil
  3. Desafíos Tecnológicos: Cómo garantizar que el texto generado por LLM refleje con precisión la intención afectiva y el estilo de expresión del usuario

Importancia de la Investigación

  • Los usuarios de CAA frecuentemente son ignorados o interrumpidos debido a retrasos en la comunicación
  • La tecnología NLP actual promete mejorar la velocidad de comunicación de las herramientas CAA
  • Existen preocupaciones sobre el control del usuario sobre los LLMs, precisión y adaptabilidad contextual

Limitaciones de Métodos Existentes

  • Falta de evaluación sistemática del grado de alineación entre LLMs y humanos en la comprensión de conceptos
  • Ausencia de evidencia empírica en la selección de formas de representación afectiva
  • Consideración insuficiente del impacto de diferentes formas de representación en la experiencia del usuario

Contribuciones Principales

  1. Propuesta de Paradigma de Evaluación de Alineación de Representación: Introducción de un método de evaluación que mide el grado de alineación entre el uso de conceptos por LLM y los modelos mentales humanos mediante juicios humanos
  2. Comparación Sistemática de Cuatro Formas de Representación Afectiva: Evaluación integral de la efectividad de Words, VAD Léxico, VAD Numérico y Emojis
  3. Hallazgos Empíricos sobre la Forma de Representación Óptima: Demostración de que el vocabulario inglés y el VAD lexicalizado muestran el mejor desempeño en alineación de representación, precisión y autenticidad
  4. Orientación para Aplicaciones CAA: Proporciona evidencia empírica para la selección de representación afectiva en futuras aplicaciones CAA

Explicación Detallada de la Metodología

Definición de la Tarea

  • Entrada: Tres palabras clave + una forma de representación afectiva
  • Salida: Una oración completa que contiene las palabras clave y expresa el afecto especificado
  • Restricciones: La oración generada debe ser natural, expresar con precisión el afecto y evitar el uso directo de palabras afectivas

Formas de Representación Afectiva

1. Representación Words

Uso directo de vocabulario afectivo inglés (como "angry", "happy")

2. Representación VAD Léxica

Uso de descripciones léxicas de cinco niveles de las dimensiones VAD:

  • Valence: Muy Alto/Alto/Moderado/Bajo/Muy Bajo
  • Arousal: Grado de activación afectiva
  • Dominance: Grado de control sobre el afecto

3. Representación VAD Numérica

Uso de escalas numéricas de -5.0 a +5.0 para representar las dimensiones VAD

4. Representación Emojis

Uso de símbolos Unicode de emojis para representar afectos

Arquitectura del Modelo y Estrategia de Generación

Modelos Utilizados

  • GPT-4-Turbo-2024-04-09: Invocación de API comercial
  • LLaMA-3.3-70B: Versión cuantizada de 8 bits, implementación local

Estrategias de Prompting

  • Words/Emojis: Prompting de pocos ejemplos (Few-shot prompting)
  • Representación VAD: Prompting de cadena de pensamiento con retroceso de pasos (Step-back chain-of-thought)
  • Condiciones de Restricción: Prohibición del uso directo de palabras afectivas, requisito de "mostrar en lugar de contar"

Generación de Datos

  • Total de 360 oraciones/modelo (90/forma de representación)
  • Cobertura de 18 afectos diferentes, originarios de la clasificación de Demszky et al. (2020)
  • Selección aleatoria de 2 oraciones por afecto para evaluación

Configuración Experimental

Construcción del Conjunto de Datos

  • Selección de Afectos: Basada en la clasificación de Demszky et al. (2020), seleccionando 18 afectos representativos
  • Combinaciones de Palabras Clave: Uso de combinaciones de vocabulario común, como Place, Great, Korean, Finals, Semester, Math
  • Valores VAD: Basados en Guo y Choi (2021), normalizados al rango de -5.0 a +5.0

Diseño de Evaluación Humana

Reclutamiento de Participantes

  • Plataforma: Plataforma de crowdsourcing Prolific
  • Número de Participantes: 200 participantes (100 por modelo)
  • Criterios: Mayor de 18 años, residente en Estados Unidos, fluidez en inglés
  • Compensación: $14/hora, aproximadamente 15 minutos de tarea

Tareas de Evaluación

1. Evaluación de Alineación de Representación
  • Presentación de una forma de representación afectiva y cuatro oraciones generadas
  • Los participantes seleccionan la oración que mejor se ajusta a ese afecto
  • Cada participante responde 10 preguntas, asignadas aleatoriamente
2. Evaluación de Precisión y Autenticidad
  • Escala de Likert de 5 puntos para evaluar:
    • "Convey": Grado en que la oración transmite el afecto
    • "You'd say": Suena como algo que el participante diría
    • "Someone Else'd say": Suena como algo que otra persona diría

Métricas de Evaluación

Métricas de Alineación de Representación

  • Tasa de Selección: Porcentaje de veces que se selecciona una representación específica
  • Entropía de Shannon: Medida de la consistencia de las selecciones
  • Autoalineación: Grado de coincidencia entre generación y evaluación de la misma representación

Métricas de Precisión y Autenticidad

  • Puntuación promedio de Likert en tres dimensiones
  • Prueba ANOVA para significancia estadística
  • Prueba t pareada para análisis post-hoc

Resultados Experimentales

Resultados Principales

Desempeño de Alineación de Representación

Forma de RepresentaciónTasa de Selección GPT-4Tasa de Selección LLaMA-3Valor de Entropía GPT-4Valor de Entropía LLaMA-3
Words61.9%57.5%0.320.42
VAD Léxico52.0%-0.610.72
VAD Numérico--0.700.63
Emojis--0.670.52

Hallazgos Clave

  1. Representación Words Óptima: Muestra las tasas de autoalineación más altas y valores de entropía más bajos en ambos modelos
  2. VAD Léxico Secundario: Desempeño bueno en GPT-4, pero efectividad reducida en LLaMA-3
  3. VAD Numérico con Peor Desempeño: Valores de entropía más altos, indicando dificultad de los participantes para alcanzar consenso
  4. Alineación Transversal: Los Emojis y VAD Léxico muestran alineación en LLaMA-3

Resultados de Precisión y Autenticidad

Significancia Estadística

  • GPT-4: La representación afectiva tiene un impacto significativo en "Convey" y "You'd say" (p < 0.01)
  • LLaMA-3: La representación afectiva tiene un impacto significativo en "Convey" y "Someone Else'd say" (p < 0.05)

Comparaciones Pareadas

  • Words es significativamente superior a VAD Numérico en la dimensión "Convey" (GPT-4, p = 0.002)
  • VAD Léxico es significativamente superior a VAD Numérico en la dimensión "Convey" (LLaMA-3, p = 0.018)
  • Words es significativamente superior a Emojis (p = 0.005) y VAD Numérico (p = 0.044) en la dimensión "You'd say"

Análisis de Especificidad de Afectos

Diferencias entre Modelos

  • GPT-4 es notablemente superior a LLaMA-3 en la generación de oraciones con afecto "grateful"
  • Existen diferencias significativas en el desempeño de diferentes afectos bajo diferentes representaciones
  • Ciertos afectos (como "excited", "proud") muestran desempeño deficiente bajo condiciones específicas

Adaptabilidad de Representación

  • Los afectos positivos generalmente muestran mejor desempeño bajo representación Words
  • Los estados afectivos complejos son más adecuados para la representación VAD Léxica
  • VAD Numérico presenta dificultades en la discriminación de afectos de grano fino

Experimentos de Ablación

Análisis de Adherencia a Palabras Clave

ModeloContiene 1 Palabra ClaveContiene 2 Palabras ClaveContiene 3 Palabras ClavePrecisión Promedio
GPT-4, 1x1.001.000.9360.978
LLaMA-3, 1x0.9080.8970.7810.862
LLaMA-3, 3x0.9690.9690.8500.930

Efectividad del Entrenamiento VAD

Proporcionar a los participantes explicaciones de conceptos VAD y preguntas de práctica mejoró la precisión de comprensión, pero persisten problemas de carga cognitiva.

Trabajo Relacionado

Generación Restringida por Palabras Clave

  • Métodos tempranos basados en sistemas gramaticales (Kasper, 1989; Uchimoto et al., 2002)
  • Modelos de secuencia y métodos de corrección iterativa (Mou et al., 2016; He and Li, 2021)
  • Técnicas de generación controlada en la era Transformer (Kumar et al., 2021; Krause et al., 2021)

Generación de Oraciones Condicionadas por Afecto

  • Sistemas tempranos basados en reglas (Polzin and Waibel, 2000)
  • Generación condicional RNN (Ghosh et al., 2017; Song et al., 2019)
  • Métodos de generación afectiva en la era LLM (Li et al., 2024; Mishra et al., 2023)

Investigación de Alineación de Valores

  • Aprendizaje de comportamiento normativo en historias infantiles (Nahian et al., 2020)
  • Integración de valores en aprendizaje por refuerzo con retroalimentación humana (Arzberger et al., 2024)
  • Medición de alineación de valores en modelos existentes (Norhashim and Hahn, 2024)

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia de la Alineación de Representación: El grado de alineación en la comprensión de conceptos entre humanos y LLMs impacta directamente la efectividad de la aplicación
  2. Superioridad de la Representación Words: El vocabulario inglés proporciona el efecto de alineación más fuerte en la representación afectiva
  3. Complejidad de la Representación VAD: VAD Léxico es superior a VAD Numérico, pero aún inferior a la representación de vocabulario directo
  4. Diferencias entre Modelos: Existen diferencias significativas entre diferentes LLMs en la comprensión y generación de afectos

Limitaciones

Limitaciones Técnicas

  1. Selección de Modelos: Uso de solo dos LLMs, con LLaMA-3 usando versión cuantizada de 8 bits
  2. Restricción de Idioma: Limitado al inglés, otros idiomas pueden presentar resultados diferentes
  3. Representatividad de Participantes: No incluye la población real de usuarios de CAA

Limitaciones Metodológicas

  1. Carga de Comprensión VAD: Los participantes necesitan aprender conceptos VAD adicionales, lo que puede afectar los resultados de evaluación
  2. Subjetividad de Emojis: Existen diferencias en la comprensión de emojis según antecedentes culturales
  3. Complejidad Afectiva: 18 afectos pueden no cubrir el espectro afectivo completo

Direcciones Futuras

  1. Expansión del Rango de Modelos: Prueba de más modelos LLM recientes
  2. Validación Multilingüe: Verificación de conclusiones en otros entornos lingüísticos
  3. Personalización del Usuario: Aprendizaje de representación personalizada para grupos específicos de usuarios de CAA
  4. Aplicación en Tiempo Real: Implementación y evaluación en entornos CAA reales

Evaluación Profunda

Fortalezas

Innovación Metodológica

  1. Paradigma de Alineación de Representación Pionero: Proporciona un nuevo método para evaluar sistemáticamente la comprensión de conceptos por LLM
  2. Diseño de Evaluación Multidimensional: Marco de evaluación integral que combina alineación, precisión y autenticidad
  3. Investigación Orientada a la Práctica: Directamente enfocada en las necesidades reales de aplicaciones CAA

Suficiencia Experimental

  1. Evaluación Humana a Gran Escala: Evaluación de crowdsourcing con 200 participantes asegura confiabilidad de resultados
  2. Rigor Estadístico: Uso de ANOVA y pruebas t pareadas para asegurar significancia estadística de resultados
  3. Análisis Multifacético: Evaluación integral desde múltiples dimensiones de alineación de representación, precisión y autenticidad

Poder Persuasivo de Resultados

  1. Hallazgos Consistentes: Las tendencias de resultados en ambos modelos son básicamente consistentes
  2. Significancia Estadística: Las conclusiones principales han pasado pruebas de significancia estadística
  3. Significado Práctico Directo: Proporciona recomendaciones de diseño claras para aplicaciones CAA

Deficiencias

Limitaciones Metodológicas

  1. Subjetividad de Evaluación: Dependencia de juicios humanos subjetivos, que pueden contener sesgos
  2. Simplificación de Tareas: La tarea de generación de palabras clave a oración es relativamente simple, los escenarios CAA reales son más complejos
  3. Evaluación Estática: No considera la dependencia contextual en diálogos dinámicos

Defectos en la Configuración Experimental

  1. Entrenamiento Insuficiente de Participantes: El entrenamiento rápido de conceptos VAD puede ser insuficiente
  2. Limitación de Tamaño de Muestra: El número de respondientes por pregunta es relativamente pequeño (3-9 personas)
  3. Diferencias de Versión de Modelo: Las versiones de modelo utilizadas pueden afectar la actualidad de los resultados

Evaluación de Impacto

Contribución Académica

  1. Trabajo Pionero: Primer estudio sistemático del problema de alineación de representación de LLM
  2. Contribución Metodológica: El paradigma de evaluación de alineación de representación es extensible a otros dominios de conceptos
  3. Valor Interdisciplinario: Conecta investigación en NLP, psicología y tecnología de asistencia

Valor Práctico

  1. Mejora de Herramientas CAA: Proporciona orientación para el diseño de representación afectiva en aplicaciones CAA
  2. Dirección de Optimización de LLM: Proporciona ideas para mejorar la alineación de conceptos entre LLM y humanos
  3. Establecimiento de Estándares de Evaluación: Establece puntos de referencia de evaluación para aplicaciones similares

Reproducibilidad

  1. Descripción Detallada de Métodos: Proporciona configuración experimental completa y configuración de parámetros
  2. Compromiso de Datos Abiertos: Promesa de publicar datos y código experimentales
  3. Proceso Estandarizado: Establece un proceso de evaluación reproducible

Escenarios de Aplicación

Aplicación Directa

  1. Desarrollo de Herramientas CAA: Diseño y optimización de funcionalidades de expresión afectiva
  2. Sistemas de Diálogo: Mejora de capacidades de comprensión y expresión afectiva
  3. Evaluación de Generación de Texto: Establecimiento de estándares de evaluación de alineación humano-máquina

Aplicación Extendida

  1. Alineación de Otros Conceptos: Extensión a dominios de valores, conceptos culturales, etc.
  2. Alineación Multimodal: Integración de información visual, de audio y otras modalidades
  3. Adaptación Personalizada: Personalización de alineación para grupos específicos de usuarios

Referencias

Esta investigación cita numerosos trabajos relacionados, incluyendo principalmente:

  • Demszky et al. (2020): Conjunto de datos de emociones GoEmotions
  • Guo y Choi (2021): Aprendizaje de representación de emociones VAD
  • Valencia et al. (2023): Aplicación de modelos de lenguaje AI en CAA
  • Chen y Wan (2024): Evaluación de capacidades de generación restringida por vocabulario de LLM

Evaluación General: Este es un trabajo de investigación de alta calidad que realiza contribuciones pioneras en el importante problema de la alineación de conceptos entre LLM y humanos. La metodología de investigación es científicamente rigurosa, el diseño experimental es razonable, y los resultados tienen valor teórico y práctico significativo. Aunque existen algunas limitaciones, el trabajo sienta una base sólida para investigación futura relacionada.