2025-11-14T14:28:11.744632

Training Models to Detect Successive Robot Errors from Human Reactions

Liu, Parreira, Ju

As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.

academic

Обучение моделей для обнаружения последовательных ошибок роботов по реакциям людей

Основная информация

ID статьи: 2510.09080
Заголовок: Training Models to Detect Successive Robot Errors from Human Reactions
Авторы: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
Классификация: cs.RO (Робототехника), cs.AI (Искусственный интеллект), cs.HC (Человеко-компьютерное взаимодействие)
Дата публикации: 10 октября 2024 года, представлено в arXiv
Ссылка на статью: https://arxiv.org/abs/2510.09080

Аннотация

По мере интеграции роботов в общество обнаружение ошибок роботов становится критически важным для эффективного взаимодействия человека и робота (HRI). Как робот узнает, когда изменить поведение при повторных неудачах? Люди естественным образом реагируют на ошибки роботов с помощью вербальных и невербальных сигналов, которые усиливаются при последовательных неудачах — от недоумения и тонких изменений в голосе до явного разочарования и нетерпения. Хотя предыдущие работы показали, что реакции людей могут указывать на неудачи роботов, мало исследований изучали, как эти эволюционирующие реакции указывают на последовательные неудачи. В этом исследовании используется машинное обучение для идентификации стадий неудач роботов по реакциям людей. В исследовании с участием 26 участников, взаимодействующих с роботом, совершающим повторные диалоговые ошибки, из видеоданных извлекаются поведенческие признаки для обучения моделей для индивидуальных пользователей. Лучшая модель достигает точности 93,5% в обнаружении ошибок и точности 84,1% в классификации последовательных неудач.

Обоснование и мотивация исследования

Определение проблемы

Основная проблема, которую решает это исследование: как использовать реакции людей на последовательные ошибки роботов для автоматического обнаружения и классификации стадий неудач роботов? В частности:

Обнаружение ошибки робота
Идентификация различных стадий последовательных неудач робота
Понимание моделей эволюции реакций людей в процессе последовательных неудач

Важность проблемы

Практическая потребность: с широким применением роботов в обществе необходимы эффективные механизмы обнаружения ошибок для улучшения качества HRI
Понимание поведения: реакции людей на ошибки роботов имеют прогрессивный характер, от начального недоумения и языковой корректировки до явного разочарования
Улучшение системы: понимание моделей последовательных неудач помогает системам роботов своевременно корректировать стратегии поведения

Ограничения существующих методов

Существующие исследования в основном сосредоточены на обнаружении единичных ошибок роботов
Недостаточно глубоких исследований моделей эволюции реакций людей в процессе последовательных неудач
Ограниченные исследования о том, как использовать эту эволюцию для идентификации стадий неудач

Основные вклады

Первое систематическое исследование: впервые систематически исследованы модели эволюции реакций людей на последовательные неудачи роботов
Мультимодальное слияние признаков: предложен мультимодальный метод машинного обучения, объединяющий признаки мимики, позы тела, аудио и текста
Различные стратегии классификации: разработаны четыре различные стратегии разделения данных и классификации для обработки различных типов задач обнаружения ошибок
Высокопроизводительные модели: достигнута точность обнаружения ошибок 93,5% и точность классификации последовательных ошибок 84,1% на моделях индивидуальных пользователей
Глубокий анализ: предоставлены глубокие прозрения в динамику повторных прерываний взаимодействия в HRI

Подробности метода

Определение задачи

В этом исследовании определены две основные задачи классификации:

Обнаружение ошибок (бинарная классификация): различение состояния без ошибок (NoError=0) и любого состояния с ошибкой (AnyError=1)
Обнаружение последовательных ошибок (многоклассовая классификация): различение без ошибок (NoError=0), первой ошибки (Error1=1), второй ошибки (Error2=2) и третьей ошибки (Error3=3)

Сбор данных и извлечение признаков

Исследование основано на предыдущем исследовании пользователей, включающем данные взаимодействия 26 участников с роботом. Извлечение признаков включает:

Признаки лица: использование OpenFace для извлечения единиц действия лица (AU) и информации о взгляде
Поза тела: использование OpenPose для извлечения ключевых точек верхней части тела
Аудиопризнаки: использование openSMILE для извлечения аудиопризнаков
Текстовые признаки: использование CLIP и BERT для извлечения текстовых признаков

Стратегии разделения данных

Разработаны четыре метода разделения данных для оценки различных возможностей классификации:

Обнаружение ошибок: включает обучение и тестирование со всеми бинарными метками
Обнаружение множественных ошибок: включает обучение и тестирование со всеми многоклассовыми метками
Обобщение от первой ошибки к последовательным ошибкам: обучение только на данных без ошибок и первой ошибки, тестирование на данных последующих ошибок
Разделение последовательных ошибок: обучение и тестирование только с метками реакций на ошибки

Архитектура модели

Исследованы две архитектуры нейронных сетей:

Сеть LSTM: для захвата долгосрочных зависимостей в последовательных данных
Сеть GRU: как более легкая альтернатива

Методы представления признаков

Протестированы три метода представления признаков:

Исходные признаки: использование нестандартизированных исходных признаков
Стандартизация: обеспечение согласованности масштабов признаков
PCA-редукция: уменьшение размерности признаков

Стратегии слияния

Исследованы три метода слияния:

Раннее слияние: объединение признаков до входа в модель
Промежуточное слияние: обработка модальностей отдельно, затем объединение
Позднее слияние: обучение модальностей отдельно, затем комбинирование результатов предсказаний

Экспериментальная установка

Характеристики набора данных

Количество участников: 26 участников
Сценарий взаимодействия: взаимодействие участников с роботом, совершающим последовательные диалоговые неудачи
Метод аннотации: кадры видео аннотированы в соответствии с возникновением ошибок робота
Перекрестная проверка: использована 26-кратная перекрестная проверка, каждый участник как одна складка

Оценочные показатели

Точность (Accuracy)
Прецизионность (Precision)
Полнота (Recall)
F1-мера (F1-Score)

Настройки обучения

Количество эпох: 50 эпох обучения на каждую складку
Разделение данных: 80/20 обучающая-тестовая разбивка, 10% обучающего набора используется для проверки
Обработка данных: случайное перемешивание данных перед обучением

Результаты экспериментов

Основные результаты

Согласно результатам таблицы I, лучшая производительность для каждой задачи следующая:

Тип задачи	Модель	Точность	Прецизионность	Полнота	F1-мера
Обнаружение ошибок	LSTM	93,5±3,2%	93,0±3,9%	92,3±4,1%	92,4±3,9%
Обнаружение множественных ошибок	GRU	84,1±4,5%	82,4±5,9%	79,5±6,8%	80,0±6,4%
Обобщение первой ошибки	LSTM	74,0±14,7%	75,9±15,1%	74,4±13,8%	72,6±16,3%
Разделение последовательных ошибок	LSTM	90,0±5,0%	89,9±5,6%	85,4±8,2%	85,8±8,1%

Ключевые находки

Лучшая производительность обнаружения ошибок: задача бинарного обнаружения ошибок достигла наивысшей точности 93,5%, обеспечивая сильную базовую линию для обнаружения ошибок роботов
Разделение последовательных ошибок лучше, чем обнаружение множественных ошибок: разделение последовательных ошибок (точность 90%) немного выше, чем обнаружение множественных ошибок (точность 84,1%)
Ограниченная способность обобщения: производительность обобщения от первой ошибки к последовательным ошибкам низкая (точность 74%), указывая на тонкие изменения в реакциях после последовательных ошибок
Эффективность индивидуального обучения: модели одного участника могут изучать уникальные способы выражения сигналов ошибок каждого индивида

Анализ модальностей и признаков

Анализ лучшей конфигурации:

Признаки лица выделяются в большинстве задач, особенно в задачах обнаружения ошибок
PCA-редукция показывает значительный эффект при обработке признаков лица
Мультимодальная комбинация (поза+аудио+лицо) лучше работает в сложных задачах классификации
Позднее слияние и раннее слияние имеют свои преимущества в разных задачах

Связанные работы

Область обнаружения ошибок роботов

Существующие исследования в основном сосредоточены на:

Использовании реакций людей для обнаружения единичных неудач роботов
Распознавании ошибок в мультимодальном HRI
Применении признаков мимики и голоса в HRI

Инновации данной работы

По сравнению с существующими работами, это исследование:

Впервые сосредоточено на обнаружении и классификации последовательных неудач
Систематически исследует модели эволюции реакций людей
Предоставляет решения для индивидуального обнаружения ошибок

Заключение и обсуждение

Основные выводы

Возможность машинного обучения: модели машинного обучения могут точно обнаруживать ошибки роботов на основе реакций людей
Преимущества индивидуального моделирования: обучение моделей для отдельных участников может изучать уникальные модели поведения каждого человека
Влияние сложности задачи: бинарные стратегии надежно работают при обнаружении ошибок, многоклассовые и смешанные стратегии могут захватывать прогресс последовательных ошибок
Ценность мультимодальных признаков: комбинация различных модальных признаков повышает производительность сложных задач классификации

Ограничения

Недостаточная способность обобщения: модели не оценивались на полностью невиданных участниках, способность обобщения между участниками неизвестна
Ограничения сценария: эксперименты проводились только в конкретном сценарии диалоговых неудач, другие типы ошибок роботов не рассматривались
Размер выборки: размер выборки из 26 участников относительно ограничен
Рассмотрение реального времени: производительность моделей в реальном взаимодействии не оценивалась

Будущие направления

Обобщение между участниками: оценка способности моделей к обобщению на полностью невиданных участниках
Разработка систем реального времени: разработка систем HRI, способных обнаруживать и реагировать в реальном времени
Разнообразные типы ошибок: расширение на другие типы ошибок роботов и сценарии неудач
Адаптивное обучение: разработка моделей, способных адаптироваться к новым моделям поведения пользователей онлайн

Глубокая оценка

Преимущества

Инновационность проблемы: впервые систематически исследовано обнаружение последовательных ошибок роботов, заполнена важная исследовательская лакуна
Методологическая всесторонность: систематически исследованы различные стратегии разделения данных, представления признаков, архитектуры моделей и стратегии слияния
Строгость экспериментов: использованы подходящие стратегии перекрестной проверки, предоставлены подробные показатели производительности
Практическая ценность: результаты исследования имеют прямое применение для улучшения систем HRI
Мультимодальное слияние: эффективная интеграция различных модальных данных, таких как мимика, поза, аудио и текст

Недостатки

Ограничения обобщаемости: отсутствие оценки обобщаемости между участниками, сомнительная надежность при реальном развертывании
Единичность сценария: проверено только в сценарии диалоговых неудач, применимость к другим задачам роботов неизвестна
Отсутствие реального времени: не рассмотрены проблемы задержки и вычислительной сложности при обнаружении в реальном времени
Недостаточный теоретический анализ: отсутствует глубокий теоретический анализ, почему некоторые комбинации признаков работают лучше
Ограничения размера данных: относительно небольшой набор данных может влиять на способность модели к обобщению

Влияние

Академический вклад: открыто новое направление для исследований обнаружения ошибок в области HRI
Практическая ценность: предоставлена техническая основа для разработки более интеллектуальных систем взаимодействия с роботами
Методологический вклад: предоставлен систематический фреймворк для мультимодального слияния признаков и оценки
Междисциплинарная ценность: объединены методы исследования из машинного обучения, HRI и робототехники

Подходящие сценарии

Сервисные роботы: обнаружение ошибок роботов в сервисных сценариях, таких как рестораны и отели
Образовательные роботы: мониторинг и корректировка поведения роботов в классных условиях
Медицинские вспомогательные роботы: мониторинг качества взаимодействия человека и робота в медицинских условиях
Домашние роботы: оптимизация персонализированного взаимодействия в домашних условиях

Список литературы

В статье цитируются несколько важных технических инструментов и связанных исследований:

Технические инструменты: OpenFace (извлечение признаков лица), OpenPose (оценка позы), openSMILE (аудиопризнаки), CLIP и BERT (текстовые признаки)
Связанные исследования: включая предыдущие работы по обнаружению ошибок HRI и исследования мультимодального взаимодействия
Фундаментальные исследования: предыдущие работы авторской группы по последовательным неудачам роботов

Резюме: Эта статья предлагает новую и важную исследовательскую проблему в области HRI, предоставляя эффективное решение для обнаружения последовательных ошибок роботов через систематический экспериментальный дизайн и мультимодальные методы машинного обучения. Несмотря на такие ограничения, как обобщаемость и ограничения сценария, результаты исследования предоставляют ценную техническую основу и исследовательские направления для улучшения систем взаимодействия с роботами.