As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.
- 논문 ID: 2510.09080
- 제목: Training Models to Detect Successive Robot Errors from Human Reactions
- 저자: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
- 분류: cs.RO (로봇공학), cs.AI (인공지능), cs.HC (인간-컴퓨터 상호작용)
- 제출 시간: 2024년 10월 10일 arXiv 제출
- 논문 링크: https://arxiv.org/abs/2510.09080
로봇이 사회에 점점 더 많이 통합됨에 따라 로봇 오류 감지는 효과적인 인간-로봇 상호작용(HRI)을 위해 필수적이다. 로봇이 반복적으로 실패할 때, 행동을 변경해야 할 시점을 어떻게 알 수 있을까? 인간은 언어적 및 비언어적 신호를 통해 자연스럽게 로봇 오류에 반응하며, 이러한 신호는 연속 실패 과정에서 심화된다—혼란과 미묘한 음성 변화에서부터 명백한 좌절감과 불인내에 이르기까지. 선행 연구에서는 인간 반응이 로봇 실패를 나타낼 수 있음을 보였지만, 이러한 진화하는 반응이 연속 실패를 어떻게 드러내는지 검토한 연구는 거의 없다. 본 연구는 기계학습을 사용하여 인간 반응으로부터 로봇 실패의 단계를 식별한다. 반복적인 대화 오류를 범하는 로봇과 상호작용하는 26명의 참여자를 포함한 연구에서, 비디오 데이터로부터 추출한 행동 특징을 사용하여 개별 사용자에 대한 모델을 훈련했다. 최적 모델은 오류 감지에서 93.5%의 정확도, 연속 실패 분류에서 84.1%의 정확도를 달성했다.
본 연구가 해결하고자 하는 핵심 문제는 다음과 같다: 로봇의 연속 오류에 대한 인간 반응을 어떻게 활용하여 로봇의 실패 단계를 자동으로 감지하고 분류할 수 있을까? 구체적으로는 다음을 포함한다:
- 로봇 오류 발생 여부 감지
- 로봇 연속 실패의 서로 다른 단계 식별
- 연속 실패 과정에서 인간 반응의 진화 패턴 이해
- 실제적 필요성: 사회에서 로봇의 광범위한 응용에 따라 인간-로봇 상호작용 품질을 개선하기 위한 효과적인 오류 감지 메커니즘이 필요하다
- 행동 이해: 로봇 오류에 대한 인간 반응은 초기의 혼란과 언어 조정에서 명백한 좌절감으로 진행되는 점진적 특성을 가진다
- 시스템 개선: 연속 실패 패턴을 이해하면 로봇 시스템이 행동 전략을 적시에 조정하는 데 도움이 된다
- 기존 연구는 주로 단일 로봇 오류 감지에 초점을 맞춤
- 연속 실패 과정에서 인간 반응의 진화 패턴에 대한 심층 연구 부족
- 이러한 진화를 활용하여 실패 단계를 식별하는 방법에 대한 연구 제한적
- 최초 체계적 연구: 로봇 연속 실패에 대한 인간 반응의 진화 패턴을 최초로 체계적으로 연구
- 다중모달 특징 융합: 얼굴 표정, 신체 자세, 음성 및 텍스트 특징을 결합한 다중모달 기계학습 방법 제안
- 다양한 분류 전략: 다양한 오류 감지 작업을 처리하기 위한 4가지 데이터 분할 및 분류 전략 설계
- 고성능 모델: 개별 사용자 모델에서 93.5%의 오류 감지 정확도 및 84.1%의 연속 오류 분류 정확도 달성
- 심층 분석: 반복적인 상호작용 중단의 역학에 대한 인간-로봇 상호작용의 심층적 통찰 제공
본 연구는 두 가지 주요 분류 작업을 정의한다:
- 오류 감지(이진 분류): 오류 없음(NoError=0)과 모든 오류 상태(AnyError=1) 구분
- 연속 오류 감지(다중 분류): 오류 없음(NoError=0), 첫 번째 오류(Error1=1), 두 번째 오류(Error2=2), 세 번째 오류(Error3=3) 구분
연구는 로봇과의 상호작용 데이터를 포함하는 26명의 참여자를 기반으로 한다. 특징 추출은 다음을 포함한다:
- 얼굴 특징: OpenFace를 사용하여 얼굴 동작 단위(AU) 및 시선 정보 추출
- 신체 자세: OpenPose를 사용하여 상반신 주요점 추출
- 음성 특징: openSMILE을 사용하여 음성 특징 추출
- 텍스트 특징: CLIP 및 BERT를 사용하여 텍스트 특징 추출
다양한 분류 능력을 평가하기 위해 4가지 데이터 분할 방법을 설계했다:
- 오류 감지: 모든 이진 분류 레이블을 포함한 훈련 및 테스트
- 다중 오류 감지: 모든 다중 분류 레이블을 포함한 훈련 및 테스트
- 첫 번째 오류에서 연속 오류로의 일반화: 오류 없음 및 첫 번째 오류 데이터만으로 훈련하고 후속 오류 데이터로 테스트
- 연속 오류 구분: 오류 반응 레이블만 사용하여 훈련 및 테스트
두 가지 신경망 아키텍처를 탐색했다:
- LSTM 네트워크: 순차 데이터의 장기 의존성 포착
- GRU 네트워크: 더 가벼운 대안
3가지 특징 표현 방법을 테스트했다:
- 원본 특징: 표준화되지 않은 원본 특징 사용
- 표준화: 특징 스케일 일관성 보장
- PCA 차원 축소: 특징 차원 감소
3가지 융합 방법을 탐색했다:
- 조기 융합: 모델 입력 전에 특징 연결
- 중간 융합: 모달리티를 별도로 처리한 후 병합
- 후기 융합: 모달리티를 별도로 훈련한 후 예측 결과 결합
- 참여자 수: 26명
- 상호작용 시나리오: 참여자가 연속 대화 실패를 보이는 로봇과 상호작용
- 주석 방식: 로봇 오류 발생 상황에 따라 비디오 프레임 주석 처리
- 교차 검증: 26-폴드 교차 검증, 각 참여자가 1폴드
- 정확도 (Accuracy)
- 정밀도 (Precision)
- 재현율 (Recall)
- F1 점수 (F1-Score)
- 훈련 에포크: 각 폴드당 50 에포크 훈련
- 데이터 분할: 80/20 훈련-테스트 분할, 훈련 세트의 10%는 검증용
- 데이터 처리: 훈련 전 데이터 무작위 섞기
표 I의 결과에 따르면 각 작업의 최적 성능은 다음과 같다:
| 작업 유형 | 모델 | 정확도 | 정밀도 | 재현율 | F1 점수 |
|---|
| 오류 감지 | LSTM | 93.5±3.2% | 93.0±3.9% | 92.3±4.1% | 92.4±3.9% |
| 다중 오류 감지 | GRU | 84.1±4.5% | 82.4±5.9% | 79.5±6.8% | 80.0±6.4% |
| 첫 번째 오류 일반화 | LSTM | 74.0±14.7% | 75.9±15.1% | 74.4±13.8% | 72.6±16.3% |
| 연속 오류 구분 | LSTM | 90.0±5.0% | 89.9±5.6% | 85.4±8.2% | 85.8±8.1% |
- 오류 감지 성능 최적: 이진 분류 오류 감지 작업이 93.5%의 정확도로 최고 성능을 달성하여 로봇 오류 감지를 위한 강력한 기준선 제공
- 연속 오류 구분이 다중 오류 감지 우수: 연속 오류 구분(90% 정확도)이 다중 오류 감지(84.1% 정확도)보다 약간 높음
- 제한된 일반화 능력: 첫 번째 오류에서 연속 오류로의 일반화 성능이 낮음(74% 정확도)으로, 연속 오류 후 반응 변화가 미묘함을 나타냄
- 개별화 학습 효과: 단일 참여자 모델이 각 개인의 독특한 오류 신호 표현 방식을 학습할 수 있음
최적 구성 분석:
- 얼굴 특징은 대부분의 작업에서 우수한 성능을 보이며, 특히 오류 감지 작업에서 두드러짐
- PCA 차원 축소는 얼굴 특징 처리에서 현저한 효과 발휘
- 다중모달 조합(자세+음성+얼굴)은 복잡한 분류 작업에서 더 나은 성능 발휘
- 후기 융합과 조기 융합 전략은 다양한 작업에서 각각의 장점 보유
기존 연구는 주로 다음에 집중되어 있다:
- 인간 반응을 활용한 단일 로봇 실패 감지
- 다중모달 인간-로봇 상호작용에서의 오류 식별
- HRI에서의 얼굴 표정 및 음성 특징 응용
기존 연구와 비교하여 본 연구는:
- 연속 실패 감지 및 분류에 최초로 초점
- 인간 반응의 진화 패턴을 체계적으로 연구
- 개별화된 오류 감지 솔루션 제공
- 기계학습 가능성: 기계학습 모델은 인간 반응을 기반으로 로봇 오류를 정확하게 감지할 수 있다
- 개별화 모델링의 장점: 개별 참여자에 대한 모델 훈련은 각 사람의 독특한 행동 패턴을 학습할 수 있다
- 작업 복잡도의 영향: 이진 분류 전략은 오류 감지에서 신뢰할 수 있는 성능을 보이며, 다중 분류 및 혼합 전략은 연속 오류의 진행을 포착할 수 있다
- 다중모달 특징의 가치: 다양한 모달리티 특징의 조합은 복잡한 분류 작업의 성능을 향상시킨다
- 부족한 일반화 능력: 모델이 완전히 미지의 참여자에 대해 평가되지 않았으며, 참여자 간 일반화 능력이 불명확함
- 시나리오 제한: 실험은 특정 대화 실패 시나리오에서만 수행되었으며, 다른 유형의 로봇 오류는 다루지 않음
- 샘플 규모: 26명의 참여자 샘플 규모가 상대적으로 제한적
- 실시간성 고려: 실시간 상호작용에서의 모델 성능이 평가되지 않음
- 참여자 간 일반화: 완전히 미지의 참여자에 대한 모델 일반화 성능 평가
- 실시간 시스템 개발: 실시간 감지 및 응답이 가능한 HRI 시스템 개발
- 다양한 오류 유형: 다른 유형의 로봇 오류 및 실패 시나리오로 확대
- 적응형 학습: 새로운 사용자 행동 패턴에 온라인으로 적응할 수 있는 모델 개발
- 문제의 혁신성: 연속 로봇 오류 감지를 최초로 체계적으로 연구하여 중요한 연구 공백 채움
- 방법론의 포괄성: 다양한 데이터 분할, 특징 표현, 모델 아키텍처 및 융합 전략을 체계적으로 탐색
- 실험의 엄밀성: 적절한 교차 검증 전략을 채택하고 상세한 성능 지표 제공
- 실용적 가치: 연구 결과는 인간-로봇 상호작용 시스템 개선에 직접적인 응용 가치 보유
- 다중모달 융합: 얼굴, 자세, 음성 및 텍스트 등 다양한 모달리티 정보를 효과적으로 통합
- 일반화 제한: 참여자 간 일반화 성능 평가 부족으로 실제 배포 시 견고성 의문
- 단일 시나리오: 대화 실패 시나리오에서만 검증되어 다른 로봇 작업의 적용 가능성 불명확
- 실시간성 부재: 실시간 감지의 지연 및 계산 복잡도 문제 미고려
- 이론적 분석 부족: 특정 특징 조합이 더 나은 성능을 보이는 이유에 대한 심층적 이론 분석 부족
- 데이터 규모 제한: 상대적으로 작은 데이터셋이 모델의 일반화 능력에 영향을 미칠 수 있음
- 학술적 기여: HRI 분야의 오류 감지 연구에 새로운 방향 개척
- 실용적 가치: 더 지능형 로봇 상호작용 시스템 개발을 위한 기술 기초 제공
- 방법론적 기여: 체계적인 다중모달 특징 융합 및 평가 프레임워크 제공
- 학제 간 가치: 기계학습, 인간-컴퓨터 상호작용 및 로봇공학 연구 방법 결합
- 서비스 로봇: 레스토랑, 호텔 등 서비스 환경에서의 로봇 오류 감지
- 교육 로봇: 교실 교육에서의 로봇 행동 모니터링 및 조정
- 의료 보조 로봇: 의료 환경에서의 인간-로봇 협력 품질 모니터링
- 가정용 로봇: 가정 환경에서의 개인화된 상호작용 최적화
논문은 여러 중요한 기술 도구 및 관련 연구를 인용한다:
- 기술 도구: OpenFace (얼굴 특징 추출), OpenPose (자세 추정), openSMILE (음성 특징), CLIP 및 BERT (텍스트 특징)
- 관련 연구: HRI 오류 감지의 선행 연구 및 다중모달 상호작용 연구 포함
- 기초 연구: 저자 팀의 연속 로봇 실패에 관한 선행 연구
요약: 본 논문은 인간-로봇 상호작용 분야에서 새롭고 중요한 연구 문제를 제시하며, 체계적인 실험 설계와 다중모달 기계학습 방법을 통해 연속 로봇 오류 감지에 대한 효과적인 솔루션을 제공한다. 일반화 능력 및 시나리오 제한 등의 한계가 있지만, 연구 성과는 로봇 상호작용 시스템 개선을 위한 가치 있는 기술 기초 및 연구 방향을 제공한다.