As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.
Entraînement de modèles pour détecter les erreurs successives des robots à partir des réactions humaines
- ID de l'article : 2510.09080
- Titre : Training Models to Detect Successive Robot Errors from Human Reactions
- Auteurs : Shannon Liu (Université Cornell), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
- Classification : cs.RO (Robotique), cs.AI (Intelligence artificielle), cs.HC (Interaction homme-machine)
- Date de soumission : 10 octobre 2024 sur arXiv
- Lien de l'article : https://arxiv.org/abs/2510.09080
À mesure que les robots s'intègrent davantage dans la société, la détection des erreurs des robots est cruciale pour une interaction homme-robot (IHR) efficace. Lorsqu'un robot échoue à plusieurs reprises, comment sait-il quand modifier son comportement ? Les humains réagissent naturellement aux erreurs des robots par des indices verbaux et non-verbaux, qui s'intensifient lors d'échecs successifs — allant de la confusion et des changements subtils de ton à une frustration et une impatience évidentes. Bien que des travaux antérieurs aient montré que les réactions humaines peuvent indiquer les défaillances des robots, peu d'études examinent comment ces réponses évolutives révèlent les défaillances successives. Cette recherche utilise l'apprentissage automatique pour identifier les phases d'erreur des robots à partir des réactions humaines. Dans une étude impliquant 26 participants interagissant avec un robot commettant des erreurs de dialogue répétées, des caractéristiques comportementales ont été extraites de données vidéo pour entraîner des modèles pour chaque utilisateur individuel. Le meilleur modèle a atteint une précision de 93,5 % dans la détection d'erreurs et une précision de 84,1 % dans la classification des défaillances successives.
La question centrale que cette recherche vise à résoudre est : comment exploiter les réactions humaines aux erreurs successives des robots pour détecter et classer automatiquement les phases de défaillance des robots ? Cela comprend spécifiquement :
- Détecter si une erreur du robot s'est produite
- Identifier les différentes phases d'échecs successifs du robot
- Comprendre les modèles d'évolution des réactions humaines au cours des défaillances successives
- Besoin pratique : Avec l'application généralisée des robots dans la société, des mécanismes de détection d'erreurs efficaces sont nécessaires pour améliorer la qualité de l'interaction homme-robot
- Compréhension du comportement : Les réactions humaines aux erreurs des robots présentent des caractéristiques progressives, évoluant de la confusion initiale et des ajustements linguistiques à une frustration et une impatience manifestes
- Amélioration du système : Comprendre les modèles d'échecs successifs aide les systèmes robotiques à ajuster les stratégies de comportement en temps opportun
- Les recherches existantes se concentrent principalement sur la détection d'erreurs uniques des robots
- Il existe un manque d'études approfondies sur les modèles d'évolution des réactions humaines lors d'échecs successifs
- La recherche sur la façon d'exploiter cette évolution pour identifier les phases de défaillance est limitée
- Première étude systématique : Première étude systématique des modèles d'évolution des réactions humaines aux défaillances successives des robots
- Fusion de caractéristiques multimodales : Proposition d'une approche d'apprentissage automatique multimodal combinant les expressions faciales, la posture corporelle, les caractéristiques audio et textuelles
- Stratégies de classification multiples : Conception de quatre stratégies différentes de partitionnement et de classification des données pour traiter différents types de tâches de détection d'erreurs
- Modèles haute performance : Réalisation d'une précision de détection d'erreurs de 93,5 % et d'une précision de classification d'erreurs successives de 84,1 % sur des modèles utilisateur individuels
- Analyse approfondie : Fourniture d'informations approfondies sur la dynamique des interruptions d'interaction répétées dans l'interaction homme-robot
Cette recherche définit deux tâches de classification principales :
- Détection d'erreurs (classification binaire) : Distinction entre l'état sans erreur (NoError=0) et tout état d'erreur (AnyError=1)
- Détection d'erreurs successives (classification multi-classe) : Distinction entre sans erreur (NoError=0), première erreur (Error1=1), deuxième erreur (Error2=2) et troisième erreur (Error3=3)
La recherche est basée sur une étude utilisateur dans des travaux antérieurs, contenant des données d'interaction de 26 participants avec un robot. L'extraction de caractéristiques comprend :
- Caractéristiques faciales : Extraction des unités d'action faciale (AU) et des informations de regard à l'aide d'OpenFace
- Posture corporelle : Extraction des points clés du haut du corps à l'aide d'OpenPose
- Caractéristiques audio : Extraction des caractéristiques audio à l'aide d'openSMILE
- Caractéristiques textuelles : Extraction des caractéristiques textuelles à l'aide de CLIP et BERT
Quatre méthodes de partitionnement des données ont été conçues pour évaluer différentes capacités de classification :
- Détection d'erreurs : Entraînement et test contenant tous les labels de classification binaire
- Détection d'erreurs multiples : Entraînement et test contenant tous les labels de classification multi-classe
- Généralisation de la première erreur aux erreurs successives : Entraînement uniquement avec les données sans erreur et première erreur, test avec les données d'erreurs ultérieures
- Distinction des erreurs successives : Entraînement et test utilisant uniquement les labels de réponse d'erreur
Deux architectures de réseau de neurones ont été explorées :
- Réseau LSTM : Capture les dépendances à long terme dans les données séquentielles
- Réseau GRU : Alternative plus légère
Trois méthodes de représentation des caractéristiques ont été testées :
- Caractéristiques brutes : Utilisation de caractéristiques brutes non normalisées
- Normalisation : Assurance de la cohérence de l'échelle des caractéristiques
- Réduction de dimensionnalité par PCA : Réduction de la dimensionnalité des caractéristiques
Trois approches de fusion ont été explorées :
- Fusion précoce : Concaténation des caractéristiques avant l'entrée du modèle
- Fusion intermédiaire : Traitement séparé des modalités puis fusion
- Fusion tardive : Entraînement séparé des modalités puis combinaison des prédictions
- Nombre de participants : 26 participants
- Scénario d'interaction : Les participants interagissent avec un robot présentant des défaillances de dialogue successives
- Méthode d'annotation : Les images vidéo sont annotées en fonction de l'occurrence d'erreurs du robot
- Validation croisée : Validation croisée 26-fold, chaque participant constituant un fold
- Précision (Accuracy)
- Exactitude (Precision)
- Rappel (Recall)
- Score F1 (F1-Score)
- Nombre d'epochs : 50 epochs par fold
- Partitionnement des données : Partitionnement entraînement-test 80/20, 10 % de l'ensemble d'entraînement utilisé pour la validation
- Traitement des données : Mélange aléatoire des données avant l'entraînement
Selon les résultats du tableau I, les meilleures performances pour chaque tâche sont les suivantes :
| Type de tâche | Modèle | Précision | Exactitude | Rappel | Score F1 |
|---|
| Détection d'erreurs | LSTM | 93,5±3,2% | 93,0±3,9% | 92,3±4,1% | 92,4±3,9% |
| Détection d'erreurs multiples | GRU | 84,1±4,5% | 82,4±5,9% | 79,5±6,8% | 80,0±6,4% |
| Généralisation première erreur | LSTM | 74,0±14,7% | 75,9±15,1% | 74,4±13,8% | 72,6±16,3% |
| Distinction erreurs successives | LSTM | 90,0±5,0% | 89,9±5,6% | 85,4±8,2% | 85,8±8,1% |
- Performance optimale en détection d'erreurs : La tâche de classification binaire de détection d'erreurs a atteint la plus haute précision de 93,5 %, fournissant une base solide pour la détection d'erreurs des robots
- Distinction des erreurs successives supérieure à la détection multi-erreurs : La distinction des erreurs successives (90 % de précision) est légèrement supérieure à la détection multi-erreurs (84,1 % de précision)
- Capacité de généralisation limitée : La performance de généralisation de la première erreur aux erreurs successives est plus faible (74 % de précision), indiquant que les changements de réaction après les erreurs successives sont plus subtils
- Apprentissage individualisé efficace : Les modèles pour un seul participant peuvent apprendre les modes d'expression uniques des signaux d'erreur de chaque individu
Analyse de la meilleure configuration :
- Les caractéristiques faciales se distinguent dans la plupart des tâches, en particulier dans les tâches de détection d'erreurs
- La réduction de dimensionnalité par PCA est particulièrement efficace dans le traitement des caractéristiques faciales
- La combinaison multimodale (posture + audio + facial) fonctionne mieux dans les tâches de classification complexes
- Les stratégies de fusion tardive et fusion précoce présentent chacune des avantages dans différentes tâches
La recherche existante se concentre principalement sur :
- L'utilisation des réactions humaines pour détecter les défaillances uniques des robots
- La reconnaissance d'erreurs dans l'interaction homme-robot multimodale
- L'application des expressions faciales et des caractéristiques vocales dans l'IHR
Par rapport aux travaux existants, cette recherche :
- Se concentre pour la première fois sur la détection et la classification des défaillances successives
- Étudie systématiquement les modèles d'évolution des réactions humaines
- Fournit une solution de détection d'erreurs individualisée
- Faisabilité de l'apprentissage automatique : Les modèles d'apprentissage automatique peuvent détecter avec précision les erreurs des robots en fonction des réactions humaines
- Avantages de la modélisation individualisée : L'entraînement de modèles pour des participants individuels peut apprendre les modèles de comportement uniques de chaque personne
- Impact de la complexité des tâches : Les stratégies de classification binaire sont fiables pour la détection d'erreurs, tandis que les stratégies multi-classe et mixtes peuvent capturer la progression des erreurs successives
- Valeur des caractéristiques multimodales : La combinaison de différentes caractéristiques modales améliore les performances des tâches de classification complexes
- Capacité de généralisation insuffisante : Le modèle n'a pas été évalué sur des participants complètement nouveaux, la capacité de généralisation entre participants est inconnue
- Restriction de scénario : L'expérience n'a été menée que dans des scénarios spécifiques de défaillance de dialogue, d'autres types d'erreurs de robots n'ont pas été couverts
- Taille d'échantillon limitée : La taille d'échantillon de 26 participants est relativement limitée
- Considérations en temps réel : Les performances du modèle dans l'interaction en temps réel n'ont pas été évaluées
- Généralisation entre participants : Évaluer les performances du modèle sur des participants complètement nouveaux
- Développement de systèmes en temps réel : Développer des systèmes IHR capables de détecter et réagir en temps réel
- Diversification des types d'erreurs : Étendre à d'autres types d'erreurs de robots et de scénarios de défaillance
- Apprentissage adaptatif : Développer des modèles capables de s'adapter en ligne aux modèles de comportement des nouveaux utilisateurs
- Originalité du problème : Première étude systématique de la détection d'erreurs successives des robots, comblant une lacune de recherche importante
- Exhaustivité de la méthode : Exploration systématique de différentes stratégies de partitionnement des données, de représentation des caractéristiques, d'architectures de modèles et de stratégies de fusion
- Rigueur expérimentale : Utilisation de stratégies de validation croisée appropriées, fourniture de métriques de performance détaillées
- Valeur pratique : Les résultats de la recherche ont une valeur d'application directe pour améliorer les systèmes d'interaction homme-robot
- Fusion multimodale : Intégration efficace d'informations provenant de multiples modalités (facial, posture, audio et texte)
- Limitations de généralisation : Absence d'évaluation de la généralisation entre participants, la robustesse lors du déploiement réel est douteuse
- Scénario unique : Validation uniquement dans des scénarios de défaillance de dialogue, l'applicabilité à d'autres tâches robotiques est inconnue
- Absence de considération en temps réel : Pas de prise en compte des problèmes de latence et de complexité de calcul pour la détection en temps réel
- Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons pour lesquelles certaines combinaisons de caractéristiques fonctionnent mieux
- Limitation de la taille des données : L'ensemble de données relativement petit peut affecter la capacité de généralisation du modèle
- Contribution académique : Ouverture d'une nouvelle direction de recherche pour la détection d'erreurs dans le domaine de l'IHR
- Valeur pratique : Fourniture d'une base technologique pour le développement de systèmes d'interaction robotique plus intelligents
- Contribution méthodologique : Fourniture d'un cadre systématique de fusion et d'évaluation de caractéristiques multimodales
- Valeur interdisciplinaire : Combinaison de méthodes de recherche en apprentissage automatique, interaction homme-machine et robotique
- Robots de service : Détection d'erreurs des robots dans les restaurants, hôtels et autres environnements de service
- Robots éducatifs : Surveillance et ajustement du comportement des robots en classe
- Robots d'assistance médicale : Surveillance de la qualité de la collaboration homme-machine dans les environnements médicaux
- Robots domestiques : Optimisation de l'interaction personnalisée dans les environnements domestiques
L'article cite plusieurs outils techniques importants et recherches connexes :
- Outils techniques : OpenFace (extraction de caractéristiques faciales), OpenPose (estimation de posture), openSMILE (caractéristiques audio), CLIP et BERT (caractéristiques textuelles)
- Recherches connexes : Travaux antérieurs sur la détection d'erreurs en IHR et recherche sur l'interaction multimodale
- Recherche fondamentale : Travaux antérieurs de l'équipe d'auteurs sur les défaillances successives des robots
Résumé : Cet article propose une question de recherche nouvelle et importante dans le domaine de l'interaction homme-machine. Grâce à une conception expérimentale systématique et à une approche d'apprentissage automatique multimodale, il fournit une solution efficace pour la détection d'erreurs successives des robots. Bien qu'il présente des limitations en termes de généralisation et de restriction de scénario, ses résultats de recherche fournissent une base technologique précieuse et une direction de recherche pour améliorer les systèmes d'interaction robotique.