As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.
academic- 论文ID: 2510.09080
- 标题: Training Models to Detect Successive Robot Errors from Human Reactions
- 作者: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
- 分类: cs.RO (机器人学), cs.AI (人工智能), cs.HC (人机交互)
- 发表时间: 2024年10月10日提交至arXiv
- 论文链接: https://arxiv.org/abs/2510.09080
随着机器人越来越多地融入社会,检测机器人错误对于有效的人机交互(HRI)至关重要。当机器人反复失败时,它如何知道何时改变行为?人类通过言语和非言语线索自然地响应机器人错误,这些线索在连续失败中会加剧——从困惑和微妙的语音变化到明显的挫败感和不耐烦。虽然先前的工作表明人类反应可以指示机器人失败,但很少有研究检查这些演变的响应如何揭示连续失败。本研究使用机器学习从人类反应中识别机器人失败的阶段。在一项包含26名参与者与犯重复对话错误的机器人交互的研究中,从视频数据中提取行为特征来为个体用户训练模型。最佳模型在检测错误方面达到93.5%的准确率,在分类连续失败方面达到84.1%的准确率。
本研究要解决的核心问题是:如何利用人类对机器人连续错误的反应来自动检测和分类机器人的失败阶段?具体包括:
- 检测机器人是否发生了错误
- 识别机器人连续失败的不同阶段
- 理解人类反应在连续失败过程中的演变模式
- 实际需求:随着机器人在社会中的广泛应用,需要有效的错误检测机制来改善人机交互质量
- 行为理解:人类对机器人错误的反应具有渐进性特征,从初始的困惑和语言调整升级到明显的挫败感
- 系统改进:理解连续失败模式有助于机器人系统及时调整行为策略
- 现有研究主要关注单次机器人错误的检测
- 缺乏对人类反应在连续失败过程中演变模式的深入研究
- 对于如何利用这种演变来识别失败阶段的研究有限
- 首次系统研究:首次系统性地研究了人类对机器人连续失败的反应演变模式
- 多模态特征融合:提出了结合面部表情、身体姿态、音频和文本特征的多模态机器学习方法
- 多种分类策略:设计了四种不同的数据分割和分类策略来处理不同类型的错误检测任务
- 高性能模型:在个体用户模型上实现了93.5%的错误检测准确率和84.1%的连续错误分类准确率
- 深入分析:提供了对人机交互中重复交互中断动态的深入洞察
本研究定义了两个主要的分类任务:
- 错误检测(二分类):区分无错误状态(NoError=0)和任何错误状态(AnyError=1)
- 连续错误检测(多分类):区分无错误(NoError=0)、第一次错误(Error1=1)、第二次错误(Error2=2)和第三次错误(Error3=3)
研究基于先前工作中的用户研究,包含26名参与者与机器人的交互数据。特征提取包括:
- 面部特征:使用OpenFace提取面部动作单元(AU)和凝视信息
- 身体姿态:使用OpenPose提取上半身关键点
- 音频特征:使用openSMILE提取音频特征
- 文本特征:使用CLIP和BERT提取文本特征
设计了四种数据分割方法来评估不同的分类能力:
- 错误检测:包含所有二分类标签的训练和测试
- 多重错误检测:包含所有多分类标签的训练和测试
- 首次错误到连续错误泛化:仅用无错误和第一次错误数据训练,用后续错误数据测试
- 连续错误区分:仅使用错误反应标签进行训练和测试
探索了两种神经网络架构:
- LSTM网络:捕获序列数据中的长期依赖关系
- GRU网络:作为更轻量级的替代方案
测试了三种特征表示方法:
- 原始特征:使用未标准化的原始特征
- 标准化:确保特征尺度一致性
- PCA降维:减少特征维度
探索了三种融合方法:
- 早期融合:在模型输入前连接特征
- 中间融合:分别处理模态后合并
- 后期融合:分别训练模态后组合预测结果
- 参与者数量:26名参与者
- 交互场景:参与者与出现连续对话失败的机器人交互
- 标注方式:视频帧根据机器人错误发生情况进行标注
- 交叉验证:采用26折交叉验证,每个参与者作为一折
- 准确率 (Accuracy)
- 精确率 (Precision)
- 召回率 (Recall)
- F1分数 (F1-Score)
- 训练轮数:每折训练50个epoch
- 数据分割:80/20训练-测试分割,训练集的10%用于验证
- 数据处理:训练前随机打乱数据
根据表I的结果,各任务的最佳性能如下:
| 任务类型 | 模型 | 准确率 | 精确率 | 召回率 | F1分数 |
|---|
| 错误检测 | LSTM | 93.5±3.2% | 93.0±3.9% | 92.3±4.1% | 92.4±3.9% |
| 多重错误检测 | GRU | 84.1±4.5% | 82.4±5.9% | 79.5±6.8% | 80.0±6.4% |
| 首次错误泛化 | LSTM | 74.0±14.7% | 75.9±15.1% | 74.4±13.8% | 72.6±16.3% |
| 连续错误区分 | LSTM | 90.0±5.0% | 89.9±5.6% | 85.4±8.2% | 85.8±8.1% |
- 错误检测性能最优:二分类错误检测任务达到了最高的93.5%准确率,为检测机器人错误提供了强基线
- 连续错误区分优于多重错误检测:连续错误区分(90%准确率)略高于多重错误检测(84.1%准确率)
- 泛化能力有限:首次错误到连续错误的泛化性能较低(74%准确率),表明连续错误后的反应变化较为微妙
- 个体化学习有效:单参与者模型能够学习每个个体独特的错误信号表达方式
最佳配置分析:
- 面部特征在多数任务中表现突出,特别是在错误检测任务中
- PCA降维在面部特征处理中效果显著
- 多模态组合(姿态+音频+面部)在复杂分类任务中表现更好
- 后期融合和早期融合策略在不同任务中各有优势
现有研究主要集中在:
- 利用人类反应检测单次机器人失败
- 多模态人机交互中的错误识别
- 面部表情和语音特征在HRI中的应用
相比现有工作,本研究:
- 首次关注连续失败的检测和分类
- 系统性地研究了人类反应的演变模式
- 提供了个体化错误检测的解决方案
- 机器学习可行性:机器学习模型能够基于人类反应准确检测机器人错误
- 个体化建模优势:针对个体参与者的模型训练能够学习每个人独特的行为模式
- 任务复杂度影响:二分类策略在错误检测中表现可靠,多分类和混合策略能够捕获连续错误的进展
- 多模态特征价值:不同模态特征的组合提高了复杂分类任务的性能
- 泛化能力不足:模型未在完全未见过的参与者上进行评估,跨参与者泛化能力未知
- 场景限制:实验仅在特定的对话失败场景中进行,其他类型的机器人错误未涉及
- 样本规模:26名参与者的样本规模相对有限
- 实时性考虑:未评估模型在实时交互中的性能
- 跨参与者泛化:评估模型在完全未见参与者上的泛化性能
- 实时系统开发:开发能够实时检测和响应的HRI系统
- 多样化错误类型:扩展到其他类型的机器人错误和失败场景
- 自适应学习:开发能够在线适应新用户行为模式的模型
- 问题创新性:首次系统性地研究连续机器人错误检测,填补了重要研究空白
- 方法全面性:系统性地探索了不同的数据分割、特征表示、模型架构和融合策略
- 实验严谨性:采用了合适的交叉验证策略,提供了详细的性能指标
- 实用价值:研究结果对改善人机交互系统具有直接应用价值
- 多模态融合:有效整合了面部、姿态、音频和文本等多种模态信息
- 泛化性限制:缺乏跨参与者的泛化性评估,实际部署时的鲁棒性存疑
- 场景单一:仅在对话失败场景中验证,其他机器人任务的适用性未知
- 实时性缺失:未考虑实时检测的延迟和计算复杂度问题
- 理论分析不足:对为什么某些特征组合效果更好缺乏深入的理论分析
- 数据规模限制:相对较小的数据集可能影响模型的泛化能力
- 学术贡献:为HRI领域的错误检测研究开辟了新方向
- 实用价值:为开发更智能的机器人交互系统提供了技术基础
- 方法论贡献:提供了系统性的多模态特征融合和评估框架
- 跨学科价值:结合了机器学习、人机交互和机器人学的研究方法
- 服务机器人:餐厅、酒店等服务场景中的机器人错误检测
- 教育机器人:课堂教学中的机器人行为监控和调整
- 医疗辅助机器人:医疗环境中的人机协作质量监控
- 家庭机器人:家庭环境中的个性化交互优化
论文引用了多个重要的技术工具和相关研究:
- 技术工具:OpenFace (面部特征提取)、OpenPose (姿态估计)、openSMILE (音频特征)、CLIP和BERT (文本特征)
- 相关研究:包括HRI错误检测的先前工作和多模态交互研究
- 基础研究:作者团队在连续机器人失败方面的前期工作
总结:这篇论文在人机交互领域提出了一个新颖且重要的研究问题,通过系统性的实验设计和多模态机器学习方法,为连续机器人错误检测提供了有效的解决方案。尽管存在泛化性和场景限制等局限性,但其研究成果为改善机器人交互系统提供了有价值的技术基础和研究方向。