2025-11-14T14:28:11.744632

Training Models to Detect Successive Robot Errors from Human Reactions

Liu, Parreira, Ju

As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.

academic

Training Models to Detect Successive Robot Errors from Human Reactions

基本信息

论文ID: 2510.09080
标题: Training Models to Detect Successive Robot Errors from Human Reactions
作者: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
分类: cs.RO (机器人学), cs.AI (人工智能), cs.HC (人机交互)
发表时间: 2024年10月10日提交至arXiv
论文链接: https://arxiv.org/abs/2510.09080

摘要

随着机器人越来越多地融入社会，检测机器人错误对于有效的人机交互(HRI)至关重要。当机器人反复失败时，它如何知道何时改变行为？人类通过言语和非言语线索自然地响应机器人错误，这些线索在连续失败中会加剧——从困惑和微妙的语音变化到明显的挫败感和不耐烦。虽然先前的工作表明人类反应可以指示机器人失败，但很少有研究检查这些演变的响应如何揭示连续失败。本研究使用机器学习从人类反应中识别机器人失败的阶段。在一项包含26名参与者与犯重复对话错误的机器人交互的研究中，从视频数据中提取行为特征来为个体用户训练模型。最佳模型在检测错误方面达到93.5%的准确率，在分类连续失败方面达到84.1%的准确率。

研究背景与动机

问题定义

本研究要解决的核心问题是：如何利用人类对机器人连续错误的反应来自动检测和分类机器人的失败阶段？具体包括：

检测机器人是否发生了错误
识别机器人连续失败的不同阶段
理解人类反应在连续失败过程中的演变模式

问题重要性

实际需求：随着机器人在社会中的广泛应用，需要有效的错误检测机制来改善人机交互质量
行为理解：人类对机器人错误的反应具有渐进性特征，从初始的困惑和语言调整升级到明显的挫败感
系统改进：理解连续失败模式有助于机器人系统及时调整行为策略

现有方法局限性

现有研究主要关注单次机器人错误的检测
缺乏对人类反应在连续失败过程中演变模式的深入研究
对于如何利用这种演变来识别失败阶段的研究有限

核心贡献

首次系统研究：首次系统性地研究了人类对机器人连续失败的反应演变模式
多模态特征融合：提出了结合面部表情、身体姿态、音频和文本特征的多模态机器学习方法
多种分类策略：设计了四种不同的数据分割和分类策略来处理不同类型的错误检测任务
高性能模型：在个体用户模型上实现了93.5%的错误检测准确率和84.1%的连续错误分类准确率
深入分析：提供了对人机交互中重复交互中断动态的深入洞察

方法详解

任务定义

本研究定义了两个主要的分类任务：

错误检测（二分类）：区分无错误状态(NoError=0)和任何错误状态(AnyError=1)
连续错误检测（多分类）：区分无错误(NoError=0)、第一次错误(Error1=1)、第二次错误(Error2=2)和第三次错误(Error3=3)

数据收集与特征提取

研究基于先前工作中的用户研究，包含26名参与者与机器人的交互数据。特征提取包括：

面部特征：使用OpenFace提取面部动作单元(AU)和凝视信息
身体姿态：使用OpenPose提取上半身关键点
音频特征：使用openSMILE提取音频特征
文本特征：使用CLIP和BERT提取文本特征

数据分割策略

设计了四种数据分割方法来评估不同的分类能力：

错误检测：包含所有二分类标签的训练和测试
多重错误检测：包含所有多分类标签的训练和测试
首次错误到连续错误泛化：仅用无错误和第一次错误数据训练，用后续错误数据测试
连续错误区分：仅使用错误反应标签进行训练和测试

模型架构

探索了两种神经网络架构：

LSTM网络：捕获序列数据中的长期依赖关系
GRU网络：作为更轻量级的替代方案

特征表示方法

测试了三种特征表示方法：

原始特征：使用未标准化的原始特征
标准化：确保特征尺度一致性
PCA降维：减少特征维度

融合策略

探索了三种融合方法：

早期融合：在模型输入前连接特征
中间融合：分别处理模态后合并
后期融合：分别训练模态后组合预测结果

实验设置

数据集特征

参与者数量：26名参与者
交互场景：参与者与出现连续对话失败的机器人交互
标注方式：视频帧根据机器人错误发生情况进行标注
交叉验证：采用26折交叉验证，每个参与者作为一折

评价指标

准确率 (Accuracy)
精确率 (Precision)
召回率 (Recall)
F1分数 (F1-Score)

训练设置

训练轮数：每折训练50个epoch
数据分割：80/20训练-测试分割，训练集的10%用于验证
数据处理：训练前随机打乱数据

实验结果

主要结果

根据表I的结果，各任务的最佳性能如下：

任务类型	模型	准确率	精确率	召回率	F1分数
错误检测	LSTM	93.5±3.2%	93.0±3.9%	92.3±4.1%	92.4±3.9%
多重错误检测	GRU	84.1±4.5%	82.4±5.9%	79.5±6.8%	80.0±6.4%
首次错误泛化	LSTM	74.0±14.7%	75.9±15.1%	74.4±13.8%	72.6±16.3%
连续错误区分	LSTM	90.0±5.0%	89.9±5.6%	85.4±8.2%	85.8±8.1%