As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.
Trainieren von Modellen zur Erkennung aufeinanderfolgender Roboterfehler aus menschlichen Reaktionen
- Papier-ID: 2510.09080
- Titel: Training Models to Detect Successive Robot Errors from Human Reactions
- Autoren: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
- Klassifizierung: cs.RO (Robotik), cs.AI (Künstliche Intelligenz), cs.HC (Mensch-Computer-Interaktion)
- Einreichungsdatum: 10. Oktober 2024 bei arXiv eingereicht
- Papierlink: https://arxiv.org/abs/2510.09080
Mit der zunehmenden Integration von Robotern in die Gesellschaft ist die Erkennung von Roboterfehlern für eine effektive Mensch-Roboter-Interaktion (HRI) von entscheidender Bedeutung. Wie kann ein Roboter wissen, wann er sein Verhalten ändern soll, wenn er wiederholt fehlschlägt? Menschen reagieren auf Roboterfehler auf natürliche Weise durch verbale und nonverbale Signale, die sich bei wiederholten Fehlschlägen verschärfen – von Verwirrung und subtilen Stimmveränderungen bis hin zu offensichtlicher Frustration und Ungeduld. Obwohl frühere Arbeiten zeigen, dass menschliche Reaktionen auf Roboterfehler hindeuten können, gibt es nur wenige Studien, die untersuchen, wie diese sich entwickelnden Reaktionen aufeinanderfolgende Fehler offenbaren. Diese Studie nutzt maschinelles Lernen, um Phasen von Roboterfehlern aus menschlichen Reaktionen zu identifizieren. In einer Studie mit 26 Teilnehmern, die mit einem Roboter mit wiederholten Gesprächsfehlern interagierten, wurden Verhaltensmerkmale aus Videodaten extrahiert, um Modelle für einzelne Benutzer zu trainieren. Das beste Modell erreichte eine Genauigkeit von 93,5% bei der Fehlererkennung und 84,1% bei der Klassifizierung aufeinanderfolgender Fehler.
Die Kernfrage dieser Studie lautet: Wie können automatisch Roboterfehler und deren Fehlerphasen erkannt und klassifiziert werden, indem menschliche Reaktionen auf aufeinanderfolgende Roboterfehler genutzt werden? Dies umfasst konkret:
- Erkennung, ob ein Roboterfehler aufgetreten ist
- Identifizierung verschiedener Phasen aufeinanderfolgender Roboterfehler
- Verständnis der Entwicklungsmuster menschlicher Reaktionen während aufeinanderfolgender Fehler
- Praktische Anforderung: Mit der weit verbreiteten Anwendung von Robotern in der Gesellschaft ist ein effektiver Fehlererkennungsmechanismus erforderlich, um die Qualität der Mensch-Roboter-Interaktion zu verbessern
- Verhaltensverständnis: Menschliche Reaktionen auf Roboterfehler weisen progressive Merkmale auf, die sich von anfänglicher Verwirrung und sprachlichen Anpassungen bis zu offensichtlicher Frustration entwickeln
- Systemverbesserung: Das Verständnis aufeinanderfolgender Fehlermuster hilft Robotersystemen, ihre Verhaltensstrategien zeitnah anzupassen
- Bestehende Forschung konzentriert sich hauptsächlich auf die Erkennung einzelner Roboterfehler
- Es mangelt an tiefgehenden Untersuchungen der Entwicklungsmuster menschlicher Reaktionen während aufeinanderfolgender Fehler
- Begrenzte Forschung zur Nutzung dieser Entwicklung zur Identifizierung von Fehlerphasen
- Erste systematische Studie: Erste systematische Untersuchung der Entwicklungsmuster menschlicher Reaktionen auf aufeinanderfolgende Roboterfehler
- Multimodale Merkmalsfusion: Vorschlag eines multimodalen maschinellen Lernverfahrens, das Gesichtsausdrücke, Körperhaltung, Audio- und Textmerkmale kombiniert
- Mehrere Klassifizierungsstrategien: Entwurf von vier verschiedenen Datenaufteilungs- und Klassifizierungsstrategien für verschiedene Fehlererkennungsaufgaben
- Hochleistungsmodelle: Erreichung von 93,5% Genauigkeit bei der Fehlererkennung und 84,1% Genauigkeit bei der Klassifizierung aufeinanderfolgender Fehler in benutzerindividuellen Modellen
- Tiefgehende Analyse: Bereitstellung tiefgehender Einblicke in die Dynamik wiederholter Interaktionsunterbrechungen in der Mensch-Roboter-Interaktion
Diese Studie definiert zwei Hauptklassifizierungsaufgaben:
- Fehlererkennung (Binärklassifizierung): Unterscheidung zwischen fehlerfreiem Zustand (NoError=0) und beliebigem Fehlerzustand (AnyError=1)
- Erkennung aufeinanderfolgender Fehler (Mehrklassen-Klassifizierung): Unterscheidung zwischen fehlerfreiem Zustand (NoError=0), erstem Fehler (Error1=1), zweitem Fehler (Error2=2) und drittem Fehler (Error3=3)
Die Studie basiert auf Benutzerstudien aus früheren Arbeiten und umfasst Interaktionsdaten von 26 Teilnehmern mit einem Roboter. Die Merkmalextraktion umfasst:
- Gesichtsmerkmale: Verwendung von OpenFace zur Extraktion von Gesichtsaktionseinheiten (AU) und Blickinformationen
- Körperhaltung: Verwendung von OpenPose zur Extraktion von Schlüsselpunkten des Oberkörpers
- Audiomerkmale: Verwendung von openSMILE zur Extraktion von Audiomerkmalen
- Textmerkmale: Verwendung von CLIP und BERT zur Extraktion von Textmerkmalen
Es wurden vier Datenaufteilungsmethoden entwickelt, um verschiedene Klassifizierungsfähigkeiten zu bewerten:
- Fehlererkennung: Trainieren und Testen mit allen binären Klassifizierungsetiketten
- Mehrfache Fehlererkennung: Trainieren und Testen mit allen Mehrklassen-Etiketten
- Verallgemeinerung vom ersten Fehler zu aufeinanderfolgenden Fehlern: Trainieren nur mit fehlerfreien und ersten Fehler-Daten, Testen mit nachfolgenden Fehler-Daten
- Unterscheidung aufeinanderfolgender Fehler: Trainieren und Testen nur mit Fehlerreaktions-Etiketten
Es wurden zwei neuronale Netzwerk-Architekturen untersucht:
- LSTM-Netzwerk: Erfassung langfristiger Abhängigkeiten in Sequenzdaten
- GRU-Netzwerk: Leichtere Alternative
Es wurden drei Merkmaldarstellungsmethoden getestet:
- Rohe Merkmale: Verwendung nicht standardisierter Rohmerkmale
- Standardisierung: Gewährleistung konsistenter Merkmalsskalierung
- PCA-Dimensionsreduktion: Reduzierung der Merkmalsdimension
Es wurden drei Fusionsmethoden untersucht:
- Frühe Fusion: Verkettung von Merkmalen vor der Modelleingabe
- Mittlere Fusion: Separate Verarbeitung von Modalitäten mit anschließender Zusammenführung
- Späte Fusion: Separate Schulung von Modalitäten mit anschließender Kombinierung von Vorhersagen
- Anzahl der Teilnehmer: 26 Teilnehmer
- Interaktionsszenario: Teilnehmer interagieren mit einem Roboter, der aufeinanderfolgende Gesprächsfehler aufweist
- Annotationsmethode: Videoframes werden je nach Auftreten von Roboterfehlern annotiert
- Kreuzvalidierung: 26-fache Kreuzvalidierung, wobei jeder Teilnehmer eine Falte darstellt
- Genauigkeit (Accuracy)
- Präzision (Precision)
- Recall (Recall)
- F1-Score (F1-Score)
- Trainings-Epochen: 50 Epochen pro Falte
- Datenaufteilung: 80/20 Trainings-Test-Aufteilung, 10% des Trainingssatzes für Validierung
- Datenverarbeitung: Zufälliges Mischen von Daten vor dem Training
Gemäß den Ergebnissen in Tabelle I sind die besten Leistungen für jede Aufgabe wie folgt:
| Aufgabentyp | Modell | Genauigkeit | Präzision | Recall | F1-Score |
|---|
| Fehlererkennung | LSTM | 93,5±3,2% | 93,0±3,9% | 92,3±4,1% | 92,4±3,9% |
| Mehrfache Fehlererkennung | GRU | 84,1±4,5% | 82,4±5,9% | 79,5±6,8% | 80,0±6,4% |
| Verallgemeinerung vom ersten Fehler | LSTM | 74,0±14,7% | 75,9±15,1% | 74,4±13,8% | 72,6±16,3% |
| Unterscheidung aufeinanderfolgender Fehler | LSTM | 90,0±5,0% | 89,9±5,6% | 85,4±8,2% | 85,8±8,1% |
- Optimale Fehlererkennung: Die binäre Klassifizierungsaufgabe zur Fehlererkennung erreichte die höchste Genauigkeit von 93,5% und bietet eine starke Grundlage für die Erkennung von Roboterfehlern
- Unterscheidung aufeinanderfolgender Fehler übertrifft mehrfache Fehlererkennung: Die Unterscheidung aufeinanderfolgender Fehler (90% Genauigkeit) ist leicht höher als die mehrfache Fehlererkennung (84,1% Genauigkeit)
- Begrenzte Verallgemeinerungsfähigkeit: Die Verallgemeinerungsleistung vom ersten Fehler zu aufeinanderfolgenden Fehlern ist niedriger (74% Genauigkeit), was darauf hindeutet, dass Reaktionsänderungen nach aufeinanderfolgenden Fehlern subtiler sind
- Effektives individualisiertes Lernen: Benutzerindividuelle Modelle können die einzigartigen Fehler-Signalausdrucksweisen jedes Einzelnen erlernen
Analyse der besten Konfiguration:
- Gesichtsmerkmale zeigen in den meisten Aufgaben hervorragende Leistungen, besonders bei der Fehlererkennung
- PCA-Dimensionsreduktion ist bei der Verarbeitung von Gesichtsmerkmalen sehr effektiv
- Multimodale Kombinationen (Haltung + Audio + Gesicht) zeigen bessere Leistungen bei komplexen Klassifizierungsaufgaben
- Späte Fusion und frühe Fusion Strategien haben in verschiedenen Aufgaben unterschiedliche Vorteile
Bestehende Forschung konzentriert sich hauptsächlich auf:
- Nutzung menschlicher Reaktionen zur Erkennung einzelner Roboterfehler
- Fehlererkennung in multimodaler Mensch-Roboter-Interaktion
- Anwendung von Gesichtsausdrücken und Sprachmerkmalen in HRI
Im Vergleich zu bestehenden Arbeiten:
- Erste Fokussierung auf die Erkennung und Klassifizierung aufeinanderfolgender Fehler
- Systematische Untersuchung der Entwicklungsmuster menschlicher Reaktionen
- Bereitstellung von Lösungen für benutzerindividuelle Fehlererkennung
- Machbarkeit maschinellen Lernens: Modelle des maschinellen Lernens können Roboterfehler basierend auf menschlichen Reaktionen genau erkennen
- Vorteile benutzerindividueller Modellierung: Das Modelltraining für einzelne Teilnehmer kann die einzigartigen Verhaltensmuster jeder Person erlernen
- Auswirkung der Aufgabenkomplexität: Binäre Klassifizierungsstrategien zeigen zuverlässige Leistungen bei der Fehlererkennung, während Mehrklassen- und Hybrid-Strategien die Entwicklung aufeinanderfolgender Fehler erfassen können
- Wert multimodaler Merkmale: Die Kombination verschiedener Modalitätsmerkmale verbessert die Leistung komplexer Klassifizierungsaufgaben
- Unzureichende Verallgemeinerungsfähigkeit: Das Modell wurde nicht auf völlig unbekannten Teilnehmern bewertet, die Verallgemeinerungsfähigkeit zwischen Teilnehmern ist unbekannt
- Szenariobeschränkung: Experimente wurden nur in spezifischen Gesprächsfehler-Szenarien durchgeführt, andere Arten von Roboterfehlern wurden nicht berücksichtigt
- Begrenzte Stichprobengröße: Die Stichprobengröße von 26 Teilnehmern ist relativ begrenzt
- Echtzeitüberlegungen: Die Leistung des Modells in Echtzeit-Interaktionen wurde nicht bewertet
- Verallgemeinerung zwischen Teilnehmern: Bewertung der Verallgemeinerungsleistung des Modells auf völlig unbekannten Teilnehmern
- Entwicklung von Echtzeitsystemen: Entwicklung von HRI-Systemen, die Fehler in Echtzeit erkennen und darauf reagieren können
- Vielfältigere Fehlertypen: Erweiterung auf andere Arten von Roboterfehlern und Fehlszenarien
- Adaptives Lernen: Entwicklung von Modellen, die sich online an neue Benutzerverhaltensmuster anpassen können
- Problemnovität: Erste systematische Untersuchung der Erkennung aufeinanderfolgender Roboterfehler, füllt eine wichtige Forschungslücke
- Methodische Umfassendheit: Systematische Erkundung verschiedener Datenaufteilungen, Merkmaldarstellungen, Modellarchitekturen und Fusionsstrategien
- Experimentelle Strenge: Verwendung geeigneter Kreuzvalidierungsstrategien mit detaillierten Leistungsmetriken
- Praktischer Wert: Forschungsergebnisse haben direkte Anwendungswerte zur Verbesserung von Mensch-Roboter-Interaktionssystemen
- Multimodale Fusion: Effektive Integration von Gesichts-, Haltungs-, Audio- und Textmodalitäten
- Verallgemeinerungsbeschränkung: Mangel an Verallgemeinerungsbewertung zwischen Teilnehmern, Robustheit bei tatsächlicher Bereitstellung fraglich
- Einzelnes Szenario: Validierung nur in Gesprächsfehler-Szenarien, Anwendbarkeit auf andere Roboteraufgaben unbekannt
- Fehlende Echtzeitaspekte: Keine Berücksichtigung von Verzögerungen und Rechenkomplexität bei Echtzeiterkennung
- Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum bestimmte Merkmalskombinationen besser funktionieren
- Datensatzgröße-Einschränkung: Relativ kleiner Datensatz könnte die Verallgemeinerungsfähigkeit des Modells beeinträchtigen
- Akademischer Beitrag: Eröffnet neue Forschungsrichtungen in der Fehlererkennung im HRI-Bereich
- Praktischer Wert: Bietet technische Grundlagen für die Entwicklung intelligenterer Roboter-Interaktionssysteme
- Methodologischer Beitrag: Bereitstellung eines systematischen Rahmens für multimodale Merkmalsfusion und Bewertung
- Interdisziplinärer Wert: Kombiniert Forschungsmethoden aus maschinellem Lernen, Mensch-Computer-Interaktion und Robotik
- Serviceroboter: Roboterfehlererkennung in Restaurants, Hotels und anderen Servicebereichen
- Bildungsroboter: Überwachung und Anpassung des Roboterverhaltens im Klassenzimmer
- Medizinische Hilfsroboter: Qualitätsüberwachung der Mensch-Roboter-Zusammenarbeit in medizinischen Umgebungen
- Haushaltsroboter: Optimierung personalisierter Interaktionen in Haushaltsumgebungen
Das Papier zitiert mehrere wichtige technische Werkzeuge und verwandte Forschungen:
- Technische Werkzeuge: OpenFace (Gesichtsmerkmalextraktion), OpenPose (Haltungsschätzung), openSMILE (Audiomerkmale), CLIP und BERT (Textmerkmale)
- Verwandte Forschung: Frühere Arbeiten zur HRI-Fehlererkennung und multimodale Interaktionsforschung
- Grundlagenforschung: Frühere Arbeiten des Autorenteams zu aufeinanderfolgenden Roboterfehlern
Zusammenfassung: Dieses Papier stellt eine neuartige und wichtige Forschungsfrage im Bereich der Mensch-Roboter-Interaktion dar und bietet durch systematisches Experimentdesign und multimodale maschinelle Lernmethoden eine effektive Lösung für die Erkennung aufeinanderfolgender Roboterfehler. Trotz Einschränkungen bei der Verallgemeinerung und Szenariobeschränkungen bieten die Forschungsergebnisse eine wertvolle technische Grundlage und Forschungsrichtung zur Verbesserung von Roboter-Interaktionssystemen.