2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin

Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.

academic

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

基本信息

论文ID: 2503.11881
标题: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
作者: Shadab Choudhury, Asha Kumar, Lara J. Martin (University of Maryland, Baltimore County)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年
论文链接: https://arxiv.org/abs/2503.11881

摘要

本研究针对大型语言模型(LLMs)在概念使用上与人类期望之间存在的差距问题，特别是在辅助和替代沟通(AAC)工具中的应用场景。研究引入了"表征对齐"(Representation Alignment)这一评估任务，通过人类判断来衡量这种差距。研究选择了四种情感表征方式：英语词汇、词汇化VAD维度、数值化VAD维度和表情符号，并评估了生成句子的准确性和真实性。结果显示，相比VAD量表，人类更认同基于英语词汇条件下的LLM生成结果，这种差异在数值VAD与词汇比较中尤为明显。

研究背景与动机

问题定义

核心问题：LLMs在概念使用上与人类期望存在差距，这在AAC工具应用中尤为关键
应用场景：AAC工具帮助无法正常言语交流的人群进行沟通，但交流速度是主要痛点
技术挑战：如何确保LLM生成的文本能准确反映用户的情感意图和表达方式

研究重要性

AAC用户经常因交流延迟而被忽视或打断
现有NLP技术有望提升AAC工具的交流速度
用户对LLM的控制程度、准确性和上下文适应性存在担忧

现有方法局限性

缺乏系统性评估LLM与人类在概念理解上的对齐程度
情感表征方式的选择缺乏实证依据
未充分考虑不同表征方式对用户体验的影响

核心贡献

提出表征对齐评估范式：引入通过人类判断测量LLM概念使用与人类心理模型对齐程度的评估方法
系统比较四种情感表征：全面评估Words、Lexical VAD、Numeric VAD和Emojis四种表征方式的效果
实证发现最优表征方式：证明英语词汇和词汇化VAD在表征对齐、准确性和真实性方面表现最佳
AAC应用指导：为未来AAC应用中的情感表征选择提供实证依据

方法详解

任务定义

输入：三个关键词 + 一种情感表征
输出：包含关键词并表达指定情感的完整句子
约束：生成句子应自然、准确表达情感，避免直接使用情感词汇

情感表征方式

1. Words表征

直接使用英语情感词汇（如"angry"、"happy"）

2. Lexical VAD表征

使用五级词汇描述VAD维度：

Valence：Very High/High/Moderate/Low/Very Low
Arousal：情感激活程度
Dominance：对情感的控制程度

3. Numeric VAD表征

使用-5.0到+5.0的数值量表表示VAD维度

4. Emojis表征

使用Unicode表情符号表示情感

模型架构与生成策略

使用模型

GPT-4-Turbo-2024-04-09：商业API调用
LLaMA-3.3-70B：8位量化版本，本地部署

提示策略

Words/Emojis：少样本提示(Few-shot prompting)
VAD表征：步骤回退思维链提示(Step-back chain-of-thought)
约束条件：禁止直接使用情感词汇，要求"展示而非告知"

数据生成

总计360个句子/模型（90个/表征方式）
覆盖18种不同情感，来源于Demszky等人(2020)的分类
每种情感随机选择2个句子用于评估

实验设置

数据集构建

情感选择：基于Demszky等人(2020)的情感分类，选择18种具有代表性的情感
关键词组合：使用常见词汇组合，如Place, Great, Korean、Finals, Semester, Math
VAD数值：基于Guo和Choi(2021)的数值，归一化到-5.0至+5.0范围

人类评估设计

参与者招募

平台：Prolific众包平台
人数：200名参与者（每个模型100名）
条件：18岁以上，美国居住，英语流利
报酬：$14/小时，约15分钟任务

评估任务

1. 表征对齐评估

展示一种情感表征和四个生成句子
参与者选择最符合该情感的句子
每人回答10个问题，随机分配

2. 准确性与真实性评估

5点李克特量表评估：
- "Convey"：句子传达情感的程度
- "You'd say"：听起来像参与者会说的话
- "Someone Else'd say"：听起来像他人会说的话

评价指标

表征对齐指标

选择率：特定表征被选择的百分比
Shannon熵：衡量选择的一致性程度
自对齐：同种表征生成和评估的匹配度

准确性与真实性指标

三个维度的平均李克特评分
ANOVA统计显著性检验
配对t检验进行事后分析

实验结果

主要结果

表征对齐表现

表征方式	GPT-4选择率	LLaMA-3选择率	GPT-4熵值	LLaMA-3熵值
Words	61.9%	57.5%	0.32	0.42
Lexical VAD	52.0%	-	0.61	0.72
Numeric VAD	-	-	0.70	0.63
Emojis	-	-	0.67	0.52

关键发现

Words表征最优：在两个模型上都显示出最高的自对齐率和最低的熵值
Lexical VAD次优：GPT-4上表现良好，但LLaMA-3上效果较差
Numeric VAD表现最差：熵值最高，表明参与者难以达成一致
跨表征对齐：Emojis与Lexical VAD在LLaMA-3上显示出对齐性

准确性与真实性结果

统计显著性

GPT-4：情感表征对"Convey"和"You'd say"有显著影响(p < 0.01)
LLaMA-3：情感表征对"Convey"和"Someone Else'd say"有显著影响(p < 0.05)

配对比较

Words在"Convey"维度显著优于Numeric VAD (GPT-4, p = 0.002)
Lexical VAD在"Convey"维度显著优于Numeric VAD (LLaMA-3, p = 0.018)
Words在"You'd say"维度显著优于Emojis (p = 0.005)和Numeric VAD (p = 0.044)

情感特异性分析

模型差异

GPT-4在生成"grateful"情感句子方面明显优于LLaMA-3
不同情感在不同表征下的表现存在显著差异
某些情感（如"excited"、"proud"）在特定条件下表现较差

表征适应性

积极情感在Words表征下通常表现更好
复杂情感状态更适合使用Lexical VAD表征
Numeric VAD在处理细粒度情感区分时存在困难

消融实验

关键词遵循度分析

模型	包含1个关键词	包含2个关键词	包含3个关键词	平均准确率
GPT-4, 1x	1.00	1.00	0.936	0.978
LLaMA-3, 1x	0.908	0.897	0.781	0.862
LLaMA-3, 3x	0.969	0.969	0.850	0.930

VAD训练效果

通过为参与者提供VAD概念解释和练习题，提高了理解准确性，但仍存在认知负荷问题。

相关工作

关键词约束生成

早期基于语法系统的方法(Kasper, 1989; Uchimoto et al., 2002)
序列模型和迭代修正方法(Mou et al., 2016; He and Li, 2021)
Transformer时代的控制生成技术(Kumar et al., 2021; Krause et al., 2021)

情感条件句子生成

基于规则的早期系统(Polzin and Waibel, 2000)
RNN条件生成(Ghosh et al., 2017; Song et al., 2019)
LLM时代的情感生成方法(Li et al., 2024; Mishra et al., 2023)

价值对齐研究

儿童故事中的规范行为学习(Nahian et al., 2020)
强化学习人类反馈中的价值整合(Arzberger et al., 2024)
现有模型的价值对齐测量(Norhashim and Hahn, 2024)

结论与讨论

主要结论

表征对齐的重要性：人类与LLM在概念理解上的对齐程度直接影响应用效果
Words表征的优越性：英语词汇在情感表征中提供最强的对齐效果
VAD表征的复杂性：词汇化VAD优于数值化VAD，但仍不及直接词汇表征
模型间差异：不同LLM在情感理解和生成上存在显著差异

局限性

技术局限

模型选择：仅使用两个LLM，且LLaMA-3使用8位量化版本
语言限制：仅限英语，其他语言可能呈现不同结果
参与者代表性：未包含实际AAC用户群体

方法局限

VAD理解负担：参与者需要额外学习VAD概念，可能影响评估结果
表情符号主观性：不同文化背景对表情符号理解存在差异
情感复杂性：18种情感可能无法覆盖完整的情感谱系

未来方向

扩展模型范围：测试更多最新LLM模型
多语言验证：在其他语言环境下验证结论
用户个性化：针对特定AAC用户群体的个性化表征学习
实时应用：在真实AAC环境中的部署和评估

深度评价

优点

方法创新性

首创表征对齐范式：提供了系统性评估LLM概念理解的新方法
多维度评估设计：结合对齐性、准确性和真实性的综合评估框架
实用导向研究：直接面向AAC应用场景的实际需求

实验充分性

大规模人类评估：200名参与者的众包评估保证了结果可靠性
统计严谨性：使用ANOVA和配对t检验确保结果显著性
多角度分析：从表征对齐、准确性、真实性多个维度全面评估

结果说服力

一致性发现：两个模型上的结果趋势基本一致
统计显著性：主要结论都通过了统计显著性检验
实际指导意义：为AAC应用提供了明确的设计建议

不足

方法局限性

评估主观性：依赖人类主观判断，可能存在偏差
任务简化：关键词到句子的生成任务相对简单，实际AAC场景更复杂
静态评估：未考虑动态对话中的上下文依赖性

实验设置缺陷

参与者培训不足：VAD概念的快速培训可能不充分
样本量限制：每个问题的回答者数量相对较少（3-9人）
模型版本差异：使用的模型版本可能影响结果的时效性

影响力评估

学术贡献

开创性工作：首次系统研究LLM表征对齐问题
方法论贡献：表征对齐评估范式可扩展到其他概念领域
跨学科价值：连接了NLP、心理学和辅助技术研究

实用价值

AAC工具改进：为AAC应用的情感表征设计提供指导
LLM优化方向：为提升LLM与人类概念对齐提供思路
评估标准建立：为类似应用建立了评估基准

可复现性

详细方法描述：提供了完整的实验设置和参数配置
开放数据承诺：承诺发布实验数据和代码
标准化流程：建立了可重复的评估流程

适用场景

直接应用

AAC工具开发：情感表达功能的设计和优化
对话系统：提升情感理解和表达能力
文本生成评估：建立人机对齐的评估标准

扩展应用

其他概念对齐：扩展到价值观、文化概念等领域
多模态对齐：结合视觉、音频等多模态信息
个性化适应：针对特定用户群体的定制化对齐

参考文献

本研究引用了大量相关工作，主要包括：

Demszky et al. (2020): GoEmotions情感数据集
Guo and Choi (2021): VAD情感表征学习
Valencia et al. (2023): AAC中的AI语言模型应用
Chen and Wan (2024): LLM的词汇约束生成能力评估

总体评价：这是一项高质量的研究工作，在LLM与人类概念对齐这一重要问题上做出了开创性贡献。研究方法科学严谨，实验设计合理，结果具有重要的理论和实践价值。虽然存在一些局限性，但为未来相关研究奠定了坚实基础。