As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.
- ID статьи: 2510.09080
- Заголовок: Training Models to Detect Successive Robot Errors from Human Reactions
- Авторы: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
- Классификация: cs.RO (Робототехника), cs.AI (Искусственный интеллект), cs.HC (Человеко-компьютерное взаимодействие)
- Дата публикации: 10 октября 2024 года, представлено в arXiv
- Ссылка на статью: https://arxiv.org/abs/2510.09080
По мере интеграции роботов в общество обнаружение ошибок роботов становится критически важным для эффективного взаимодействия человека и робота (HRI). Как робот узнает, когда изменить поведение при повторных неудачах? Люди естественным образом реагируют на ошибки роботов с помощью вербальных и невербальных сигналов, которые усиливаются при последовательных неудачах — от недоумения и тонких изменений в голосе до явного разочарования и нетерпения. Хотя предыдущие работы показали, что реакции людей могут указывать на неудачи роботов, мало исследований изучали, как эти эволюционирующие реакции указывают на последовательные неудачи. В этом исследовании используется машинное обучение для идентификации стадий неудач роботов по реакциям людей. В исследовании с участием 26 участников, взаимодействующих с роботом, совершающим повторные диалоговые ошибки, из видеоданных извлекаются поведенческие признаки для обучения моделей для индивидуальных пользователей. Лучшая модель достигает точности 93,5% в обнаружении ошибок и точности 84,1% в классификации последовательных неудач.
Основная проблема, которую решает это исследование: как использовать реакции людей на последовательные ошибки роботов для автоматического обнаружения и классификации стадий неудач роботов? В частности:
- Обнаружение ошибки робота
- Идентификация различных стадий последовательных неудач робота
- Понимание моделей эволюции реакций людей в процессе последовательных неудач
- Практическая потребность: с широким применением роботов в обществе необходимы эффективные механизмы обнаружения ошибок для улучшения качества HRI
- Понимание поведения: реакции людей на ошибки роботов имеют прогрессивный характер, от начального недоумения и языковой корректировки до явного разочарования
- Улучшение системы: понимание моделей последовательных неудач помогает системам роботов своевременно корректировать стратегии поведения
- Существующие исследования в основном сосредоточены на обнаружении единичных ошибок роботов
- Недостаточно глубоких исследований моделей эволюции реакций людей в процессе последовательных неудач
- Ограниченные исследования о том, как использовать эту эволюцию для идентификации стадий неудач
- Первое систематическое исследование: впервые систематически исследованы модели эволюции реакций людей на последовательные неудачи роботов
- Мультимодальное слияние признаков: предложен мультимодальный метод машинного обучения, объединяющий признаки мимики, позы тела, аудио и текста
- Различные стратегии классификации: разработаны четыре различные стратегии разделения данных и классификации для обработки различных типов задач обнаружения ошибок
- Высокопроизводительные модели: достигнута точность обнаружения ошибок 93,5% и точность классификации последовательных ошибок 84,1% на моделях индивидуальных пользователей
- Глубокий анализ: предоставлены глубокие прозрения в динамику повторных прерываний взаимодействия в HRI
В этом исследовании определены две основные задачи классификации:
- Обнаружение ошибок (бинарная классификация): различение состояния без ошибок (NoError=0) и любого состояния с ошибкой (AnyError=1)
- Обнаружение последовательных ошибок (многоклассовая классификация): различение без ошибок (NoError=0), первой ошибки (Error1=1), второй ошибки (Error2=2) и третьей ошибки (Error3=3)
Исследование основано на предыдущем исследовании пользователей, включающем данные взаимодействия 26 участников с роботом. Извлечение признаков включает:
- Признаки лица: использование OpenFace для извлечения единиц действия лица (AU) и информации о взгляде
- Поза тела: использование OpenPose для извлечения ключевых точек верхней части тела
- Аудиопризнаки: использование openSMILE для извлечения аудиопризнаков
- Текстовые признаки: использование CLIP и BERT для извлечения текстовых признаков
Разработаны четыре метода разделения данных для оценки различных возможностей классификации:
- Обнаружение ошибок: включает обучение и тестирование со всеми бинарными метками
- Обнаружение множественных ошибок: включает обучение и тестирование со всеми многоклассовыми метками
- Обобщение от первой ошибки к последовательным ошибкам: обучение только на данных без ошибок и первой ошибки, тестирование на данных последующих ошибок
- Разделение последовательных ошибок: обучение и тестирование только с метками реакций на ошибки
Исследованы две архитектуры нейронных сетей:
- Сеть LSTM: для захвата долгосрочных зависимостей в последовательных данных
- Сеть GRU: как более легкая альтернатива
Протестированы три метода представления признаков:
- Исходные признаки: использование нестандартизированных исходных признаков
- Стандартизация: обеспечение согласованности масштабов признаков
- PCA-редукция: уменьшение размерности признаков
Исследованы три метода слияния:
- Раннее слияние: объединение признаков до входа в модель
- Промежуточное слияние: обработка модальностей отдельно, затем объединение
- Позднее слияние: обучение модальностей отдельно, затем комбинирование результатов предсказаний
- Количество участников: 26 участников
- Сценарий взаимодействия: взаимодействие участников с роботом, совершающим последовательные диалоговые неудачи
- Метод аннотации: кадры видео аннотированы в соответствии с возникновением ошибок робота
- Перекрестная проверка: использована 26-кратная перекрестная проверка, каждый участник как одна складка
- Точность (Accuracy)
- Прецизионность (Precision)
- Полнота (Recall)
- F1-мера (F1-Score)
- Количество эпох: 50 эпох обучения на каждую складку
- Разделение данных: 80/20 обучающая-тестовая разбивка, 10% обучающего набора используется для проверки
- Обработка данных: случайное перемешивание данных перед обучением
Согласно результатам таблицы I, лучшая производительность для каждой задачи следующая:
| Тип задачи | Модель | Точность | Прецизионность | Полнота | F1-мера |
|---|
| Обнаружение ошибок | LSTM | 93,5±3,2% | 93,0±3,9% | 92,3±4,1% | 92,4±3,9% |
| Обнаружение множественных ошибок | GRU | 84,1±4,5% | 82,4±5,9% | 79,5±6,8% | 80,0±6,4% |
| Обобщение первой ошибки | LSTM | 74,0±14,7% | 75,9±15,1% | 74,4±13,8% | 72,6±16,3% |
| Разделение последовательных ошибок | LSTM | 90,0±5,0% | 89,9±5,6% | 85,4±8,2% | 85,8±8,1% |
- Лучшая производительность обнаружения ошибок: задача бинарного обнаружения ошибок достигла наивысшей точности 93,5%, обеспечивая сильную базовую линию для обнаружения ошибок роботов
- Разделение последовательных ошибок лучше, чем обнаружение множественных ошибок: разделение последовательных ошибок (точность 90%) немного выше, чем обнаружение множественных ошибок (точность 84,1%)
- Ограниченная способность обобщения: производительность обобщения от первой ошибки к последовательным ошибкам низкая (точность 74%), указывая на тонкие изменения в реакциях после последовательных ошибок
- Эффективность индивидуального обучения: модели одного участника могут изучать уникальные способы выражения сигналов ошибок каждого индивида
Анализ лучшей конфигурации:
- Признаки лица выделяются в большинстве задач, особенно в задачах обнаружения ошибок
- PCA-редукция показывает значительный эффект при обработке признаков лица
- Мультимодальная комбинация (поза+аудио+лицо) лучше работает в сложных задачах классификации
- Позднее слияние и раннее слияние имеют свои преимущества в разных задачах
Существующие исследования в основном сосредоточены на:
- Использовании реакций людей для обнаружения единичных неудач роботов
- Распознавании ошибок в мультимодальном HRI
- Применении признаков мимики и голоса в HRI
По сравнению с существующими работами, это исследование:
- Впервые сосредоточено на обнаружении и классификации последовательных неудач
- Систематически исследует модели эволюции реакций людей
- Предоставляет решения для индивидуального обнаружения ошибок
- Возможность машинного обучения: модели машинного обучения могут точно обнаруживать ошибки роботов на основе реакций людей
- Преимущества индивидуального моделирования: обучение моделей для отдельных участников может изучать уникальные модели поведения каждого человека
- Влияние сложности задачи: бинарные стратегии надежно работают при обнаружении ошибок, многоклассовые и смешанные стратегии могут захватывать прогресс последовательных ошибок
- Ценность мультимодальных признаков: комбинация различных модальных признаков повышает производительность сложных задач классификации
- Недостаточная способность обобщения: модели не оценивались на полностью невиданных участниках, способность обобщения между участниками неизвестна
- Ограничения сценария: эксперименты проводились только в конкретном сценарии диалоговых неудач, другие типы ошибок роботов не рассматривались
- Размер выборки: размер выборки из 26 участников относительно ограничен
- Рассмотрение реального времени: производительность моделей в реальном взаимодействии не оценивалась
- Обобщение между участниками: оценка способности моделей к обобщению на полностью невиданных участниках
- Разработка систем реального времени: разработка систем HRI, способных обнаруживать и реагировать в реальном времени
- Разнообразные типы ошибок: расширение на другие типы ошибок роботов и сценарии неудач
- Адаптивное обучение: разработка моделей, способных адаптироваться к новым моделям поведения пользователей онлайн
- Инновационность проблемы: впервые систематически исследовано обнаружение последовательных ошибок роботов, заполнена важная исследовательская лакуна
- Методологическая всесторонность: систематически исследованы различные стратегии разделения данных, представления признаков, архитектуры моделей и стратегии слияния
- Строгость экспериментов: использованы подходящие стратегии перекрестной проверки, предоставлены подробные показатели производительности
- Практическая ценность: результаты исследования имеют прямое применение для улучшения систем HRI
- Мультимодальное слияние: эффективная интеграция различных модальных данных, таких как мимика, поза, аудио и текст
- Ограничения обобщаемости: отсутствие оценки обобщаемости между участниками, сомнительная надежность при реальном развертывании
- Единичность сценария: проверено только в сценарии диалоговых неудач, применимость к другим задачам роботов неизвестна
- Отсутствие реального времени: не рассмотрены проблемы задержки и вычислительной сложности при обнаружении в реальном времени
- Недостаточный теоретический анализ: отсутствует глубокий теоретический анализ, почему некоторые комбинации признаков работают лучше
- Ограничения размера данных: относительно небольшой набор данных может влиять на способность модели к обобщению
- Академический вклад: открыто новое направление для исследований обнаружения ошибок в области HRI
- Практическая ценность: предоставлена техническая основа для разработки более интеллектуальных систем взаимодействия с роботами
- Методологический вклад: предоставлен систематический фреймворк для мультимодального слияния признаков и оценки
- Междисциплинарная ценность: объединены методы исследования из машинного обучения, HRI и робототехники
- Сервисные роботы: обнаружение ошибок роботов в сервисных сценариях, таких как рестораны и отели
- Образовательные роботы: мониторинг и корректировка поведения роботов в классных условиях
- Медицинские вспомогательные роботы: мониторинг качества взаимодействия человека и робота в медицинских условиях
- Домашние роботы: оптимизация персонализированного взаимодействия в домашних условиях
В статье цитируются несколько важных технических инструментов и связанных исследований:
- Технические инструменты: OpenFace (извлечение признаков лица), OpenPose (оценка позы), openSMILE (аудиопризнаки), CLIP и BERT (текстовые признаки)
- Связанные исследования: включая предыдущие работы по обнаружению ошибок HRI и исследования мультимодального взаимодействия
- Фундаментальные исследования: предыдущие работы авторской группы по последовательным неудачам роботов
Резюме: Эта статья предлагает новую и важную исследовательскую проблему в области HRI, предоставляя эффективное решение для обнаружения последовательных ошибок роботов через систематический экспериментальный дизайн и мультимодальные методы машинного обучения. Несмотря на такие ограничения, как обобщаемость и ограничения сценария, результаты исследования предоставляют ценную техническую основу и исследовательские направления для улучшения систем взаимодействия с роботами.