Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
academicEvaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- 论文ID: 2503.11881
- 标题: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- 作者: Shadab Choudhury, Asha Kumar, Lara J. Martin (University of Maryland, Baltimore County)
- 分类: cs.CL (Computational Linguistics)
- 发表时间: 2025年
- 论文链接: https://arxiv.org/abs/2503.11881
本研究针对大型语言模型(LLMs)在概念使用上与人类期望之间存在的差距问题,特别是在辅助和替代沟通(AAC)工具中的应用场景。研究引入了"表征对齐"(Representation Alignment)这一评估任务,通过人类判断来衡量这种差距。研究选择了四种情感表征方式:英语词汇、词汇化VAD维度、数值化VAD维度和表情符号,并评估了生成句子的准确性和真实性。结果显示,相比VAD量表,人类更认同基于英语词汇条件下的LLM生成结果,这种差异在数值VAD与词汇比较中尤为明显。
- 核心问题:LLMs在概念使用上与人类期望存在差距,这在AAC工具应用中尤为关键
- 应用场景:AAC工具帮助无法正常言语交流的人群进行沟通,但交流速度是主要痛点
- 技术挑战:如何确保LLM生成的文本能准确反映用户的情感意图和表达方式
- AAC用户经常因交流延迟而被忽视或打断
- 现有NLP技术有望提升AAC工具的交流速度
- 用户对LLM的控制程度、准确性和上下文适应性存在担忧
- 缺乏系统性评估LLM与人类在概念理解上的对齐程度
- 情感表征方式的选择缺乏实证依据
- 未充分考虑不同表征方式对用户体验的影响
- 提出表征对齐评估范式:引入通过人类判断测量LLM概念使用与人类心理模型对齐程度的评估方法
- 系统比较四种情感表征:全面评估Words、Lexical VAD、Numeric VAD和Emojis四种表征方式的效果
- 实证发现最优表征方式:证明英语词汇和词汇化VAD在表征对齐、准确性和真实性方面表现最佳
- AAC应用指导:为未来AAC应用中的情感表征选择提供实证依据
- 输入:三个关键词 + 一种情感表征
- 输出:包含关键词并表达指定情感的完整句子
- 约束:生成句子应自然、准确表达情感,避免直接使用情感词汇
直接使用英语情感词汇(如"angry"、"happy")
使用五级词汇描述VAD维度:
- Valence:Very High/High/Moderate/Low/Very Low
- Arousal:情感激活程度
- Dominance:对情感的控制程度
使用-5.0到+5.0的数值量表表示VAD维度
使用Unicode表情符号表示情感
- GPT-4-Turbo-2024-04-09:商业API调用
- LLaMA-3.3-70B:8位量化版本,本地部署
- Words/Emojis:少样本提示(Few-shot prompting)
- VAD表征:步骤回退思维链提示(Step-back chain-of-thought)
- 约束条件:禁止直接使用情感词汇,要求"展示而非告知"
- 总计360个句子/模型(90个/表征方式)
- 覆盖18种不同情感,来源于Demszky等人(2020)的分类
- 每种情感随机选择2个句子用于评估
- 情感选择:基于Demszky等人(2020)的情感分类,选择18种具有代表性的情感
- 关键词组合:使用常见词汇组合,如Place, Great, Korean、Finals, Semester, Math
- VAD数值:基于Guo和Choi(2021)的数值,归一化到-5.0至+5.0范围
- 平台:Prolific众包平台
- 人数:200名参与者(每个模型100名)
- 条件:18岁以上,美国居住,英语流利
- 报酬:$14/小时,约15分钟任务
1. 表征对齐评估
- 展示一种情感表征和四个生成句子
- 参与者选择最符合该情感的句子
- 每人回答10个问题,随机分配
2. 准确性与真实性评估
- 5点李克特量表评估:
- "Convey":句子传达情感的程度
- "You'd say":听起来像参与者会说的话
- "Someone Else'd say":听起来像他人会说的话
- 选择率:特定表征被选择的百分比
- Shannon熵:衡量选择的一致性程度
- 自对齐:同种表征生成和评估的匹配度
- 三个维度的平均李克特评分
- ANOVA统计显著性检验
- 配对t检验进行事后分析
| 表征方式 | GPT-4选择率 | LLaMA-3选择率 | GPT-4熵值 | LLaMA-3熵值 |
|---|
| Words | 61.9% | 57.5% | 0.32 | 0.42 |
| Lexical VAD | 52.0% | - | 0.61 | 0.72 |
| Numeric VAD | - | - | 0.70 | 0.63 |
| Emojis | - | - | 0.67 | 0.52 |
- Words表征最优:在两个模型上都显示出最高的自对齐率和最低的熵值
- Lexical VAD次优:GPT-4上表现良好,但LLaMA-3上效果较差
- Numeric VAD表现最差:熵值最高,表明参与者难以达成一致
- 跨表征对齐:Emojis与Lexical VAD在LLaMA-3上显示出对齐性
- GPT-4:情感表征对"Convey"和"You'd say"有显著影响(p < 0.01)
- LLaMA-3:情感表征对"Convey"和"Someone Else'd say"有显著影响(p < 0.05)
- Words在"Convey"维度显著优于Numeric VAD (GPT-4, p = 0.002)
- Lexical VAD在"Convey"维度显著优于Numeric VAD (LLaMA-3, p = 0.018)
- Words在"You'd say"维度显著优于Emojis (p = 0.005)和Numeric VAD (p = 0.044)
- GPT-4在生成"grateful"情感句子方面明显优于LLaMA-3
- 不同情感在不同表征下的表现存在显著差异
- 某些情感(如"excited"、"proud")在特定条件下表现较差
- 积极情感在Words表征下通常表现更好
- 复杂情感状态更适合使用Lexical VAD表征
- Numeric VAD在处理细粒度情感区分时存在困难
| 模型 | 包含1个关键词 | 包含2个关键词 | 包含3个关键词 | 平均准确率 |
|---|
| GPT-4, 1x | 1.00 | 1.00 | 0.936 | 0.978 |
| LLaMA-3, 1x | 0.908 | 0.897 | 0.781 | 0.862 |
| LLaMA-3, 3x | 0.969 | 0.969 | 0.850 | 0.930 |
通过为参与者提供VAD概念解释和练习题,提高了理解准确性,但仍存在认知负荷问题。
- 早期基于语法系统的方法(Kasper, 1989; Uchimoto et al., 2002)
- 序列模型和迭代修正方法(Mou et al., 2016; He and Li, 2021)
- Transformer时代的控制生成技术(Kumar et al., 2021; Krause et al., 2021)
- 基于规则的早期系统(Polzin and Waibel, 2000)
- RNN条件生成(Ghosh et al., 2017; Song et al., 2019)
- LLM时代的情感生成方法(Li et al., 2024; Mishra et al., 2023)
- 儿童故事中的规范行为学习(Nahian et al., 2020)
- 强化学习人类反馈中的价值整合(Arzberger et al., 2024)
- 现有模型的价值对齐测量(Norhashim and Hahn, 2024)
- 表征对齐的重要性:人类与LLM在概念理解上的对齐程度直接影响应用效果
- Words表征的优越性:英语词汇在情感表征中提供最强的对齐效果
- VAD表征的复杂性:词汇化VAD优于数值化VAD,但仍不及直接词汇表征
- 模型间差异:不同LLM在情感理解和生成上存在显著差异
- 模型选择:仅使用两个LLM,且LLaMA-3使用8位量化版本
- 语言限制:仅限英语,其他语言可能呈现不同结果
- 参与者代表性:未包含实际AAC用户群体
- VAD理解负担:参与者需要额外学习VAD概念,可能影响评估结果
- 表情符号主观性:不同文化背景对表情符号理解存在差异
- 情感复杂性:18种情感可能无法覆盖完整的情感谱系
- 扩展模型范围:测试更多最新LLM模型
- 多语言验证:在其他语言环境下验证结论
- 用户个性化:针对特定AAC用户群体的个性化表征学习
- 实时应用:在真实AAC环境中的部署和评估
- 首创表征对齐范式:提供了系统性评估LLM概念理解的新方法
- 多维度评估设计:结合对齐性、准确性和真实性的综合评估框架
- 实用导向研究:直接面向AAC应用场景的实际需求
- 大规模人类评估:200名参与者的众包评估保证了结果可靠性
- 统计严谨性:使用ANOVA和配对t检验确保结果显著性
- 多角度分析:从表征对齐、准确性、真实性多个维度全面评估
- 一致性发现:两个模型上的结果趋势基本一致
- 统计显著性:主要结论都通过了统计显著性检验
- 实际指导意义:为AAC应用提供了明确的设计建议
- 评估主观性:依赖人类主观判断,可能存在偏差
- 任务简化:关键词到句子的生成任务相对简单,实际AAC场景更复杂
- 静态评估:未考虑动态对话中的上下文依赖性
- 参与者培训不足:VAD概念的快速培训可能不充分
- 样本量限制:每个问题的回答者数量相对较少(3-9人)
- 模型版本差异:使用的模型版本可能影响结果的时效性
- 开创性工作:首次系统研究LLM表征对齐问题
- 方法论贡献:表征对齐评估范式可扩展到其他概念领域
- 跨学科价值:连接了NLP、心理学和辅助技术研究
- AAC工具改进:为AAC应用的情感表征设计提供指导
- LLM优化方向:为提升LLM与人类概念对齐提供思路
- 评估标准建立:为类似应用建立了评估基准
- 详细方法描述:提供了完整的实验设置和参数配置
- 开放数据承诺:承诺发布实验数据和代码
- 标准化流程:建立了可重复的评估流程
- AAC工具开发:情感表达功能的设计和优化
- 对话系统:提升情感理解和表达能力
- 文本生成评估:建立人机对齐的评估标准
- 其他概念对齐:扩展到价值观、文化概念等领域
- 多模态对齐:结合视觉、音频等多模态信息
- 个性化适应:针对特定用户群体的定制化对齐
本研究引用了大量相关工作,主要包括:
- Demszky et al. (2020): GoEmotions情感数据集
- Guo and Choi (2021): VAD情感表征学习
- Valencia et al. (2023): AAC中的AI语言模型应用
- Chen and Wan (2024): LLM的词汇约束生成能力评估
总体评价:这是一项高质量的研究工作,在LLM与人类概念对齐这一重要问题上做出了开创性贡献。研究方法科学严谨,实验设计合理,结果具有重要的理论和实践价值。虽然存在一些局限性,但为未来相关研究奠定了坚实基础。