2025-11-14T14:28:11.744632

Training Models to Detect Successive Robot Errors from Human Reactions

Liu, Parreira, Ju

As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.

academic

मानव प्रतिक्रियाओं से क्रमिक रोबोट त्रुटियों का पता लगाने के लिए मॉडल प्रशिक्षण

मूल जानकारी

पेपर ID: 2510.09080
शीर्षक: Training Models to Detect Successive Robot Errors from Human Reactions
लेखक: Shannon Liu (कॉर्नेल विश्वविद्यालय), Maria Teresa Parreira (कॉर्नेल टेक), Wendy Ju (कॉर्नेल टेक)
वर्गीकरण: cs.RO (रोबोटिक्स), cs.AI (कृत्रिम बुद्धिमत्ता), cs.HC (मानव-कंप्यूटर इंटरैक्शन)
प्रकाशन समय: 2024 अक्टूबर 10 को arXiv पर प्रस्तुत
पेपर लिंक: https://arxiv.org/abs/2510.09080

सारांश

जैसे-जैसे रोबोट समाज में अधिक एकीकृत हो रहे हैं, प्रभावी मानव-रोबोट इंटरैक्शन (HRI) के लिए रोबोट त्रुटियों का पता लगाना महत्वपूर्ण है। जब रोबोट बार-बार विफल होता है, तो वह कब व्यवहार बदलना है यह कैसे जानता है? मनुष्य रोबोट त्रुटियों के लिए स्वाभाविक रूप से मौखिक और अमौखिक संकेतों के माध्यम से प्रतिक्रिया करते हैं, जो क्रमिक विफलताओं में तीव्र होते हैं—भ्रम और सूक्ष्म वाक् परिवर्तन से लेकर स्पष्ट निराशा और अधीरता तक। यद्यपि पूर्व कार्य से संकेत मिलता है कि मानव प्रतिक्रियाएं रोबोट विफलता का संकेत दे सकती हैं, लेकिन कुछ अध्ययन इस बात की जांच करते हैं कि ये विकसित प्रतिक्रियाएं क्रमिक विफलताओं को कैसे प्रकट करती हैं। यह अनुसंधान मानव प्रतिक्रियाओं से रोबोट विफलता के चरणों की पहचान करने के लिए मशीन लर्निंग का उपयोग करता है। 26 प्रतिभागियों के साथ एक अध्ययन में जो दोहराई गई बातचीत त्रुटियों वाले रोबोट के साथ इंटरैक्ट करते हैं, व्यक्तिगत उपयोगकर्ताओं के लिए मॉडल प्रशिक्षित करने के लिए वीडियो डेटा से व्यवहार संबंधी विशेषताएं निकाली जाती हैं। सर्वोत्तम मॉडल त्रुटि का पता लगाने में 93.5% सटीकता और क्रमिक विफलताओं को वर्गीकृत करने में 84.1% सटीकता प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: क्रमिक रोबोट त्रुटियों के प्रति मानव प्रतिक्रियाओं का उपयोग करके रोबोट की विफलता के चरणों को स्वचालित रूप से कैसे पहचाना और वर्गीकृत किया जाए? विशेष रूप से इसमें शामिल हैं:

यह पहचानना कि क्या रोबोट को त्रुटि हुई है
रोबोट की क्रमिक विफलता के विभिन्न चरणों की पहचान करना
क्रमिक विफलता प्रक्रिया में मानव प्रतिक्रिया के विकसित होने वाले पैटर्न को समझना

समस्या की महत्ता

व्यावहारिक आवश्यकता: समाज में रोबोट के व्यापक अनुप्रयोग के साथ, मानव-रोबोट इंटरैक्शन की गुणवत्ता में सुधार के लिए प्रभावी त्रुटि पहचान तंत्र की आवश्यकता है
व्यवहार समझ: रोबोट त्रुटियों के प्रति मानव प्रतिक्रिया में प्रगतिशील विशेषताएं हैं, जो प्रारंभिक भ्रम और भाषाई समायोजन से स्पष्ट निराशा तक बढ़ती हैं
प्रणाली सुधार: क्रमिक विफलता पैटर्न को समझने से रोबोट सिस्टम को समय पर व्यवहार रणनीति को समायोजित करने में मदद मिलती है

मौजूदा विधियों की सीमाएं

मौजूदा अनुसंधान मुख्य रूप से एकल रोबोट त्रुटि की पहचान पर केंद्रित है
क्रमिक विफलता प्रक्रिया में मानव प्रतिक्रिया के विकसित होने वाले पैटर्न पर गहन अनुसंधान की कमी है
इस विकास का उपयोग करके विफलता के चरणों की पहचान करने के तरीके पर सीमित अनुसंधान है

मुख्य योगदान

प्रथम व्यवस्थित अनुसंधान: रोबोट की क्रमिक विफलताओं के प्रति मानव प्रतिक्रिया के विकसित होने वाले पैटर्न का प्रथम व्यवस्थित अनुसंधान
बहु-मोडल विशेषता संलयन: चेहरे की अभिव्यक्ति, शरीर की मुद्रा, ऑडियो और पाठ विशेषताओं को जोड़ने वाली बहु-मोडल मशीन लर्निंग विधि प्रस्तावित की गई
कई वर्गीकरण रणनीतियां: विभिन्न प्रकार की त्रुटि पहचान कार्यों को संभालने के लिए चार अलग-अलग डेटा विभाजन और वर्गीकरण रणनीतियां डिज़ाइन की गईं
उच्च-प्रदर्शन मॉडल: व्यक्तिगत उपयोगकर्ता मॉडल पर 93.5% त्रुटि पहचान सटीकता और 84.1% क्रमिक त्रुटि वर्गीकरण सटीकता प्राप्त की गई
गहन विश्लेषण: मानव-रोबोट इंटरैक्शन में दोहराई गई इंटरैक्शन व्यवधान गतिशीलता पर गहन अंतर्दृष्टि प्रदान की गई

विधि विवरण

कार्य परिभाषा

इस अनुसंधान में दो मुख्य वर्गीकरण कार्य परिभाषित किए गए हैं:

त्रुटि पहचान (द्विआधारी वर्गीकरण): त्रुटि-रहित स्थिति (NoError=0) और किसी भी त्रुटि स्थिति (AnyError=1) के बीच अंतर करना
क्रमिक त्रुटि पहचान (बहु-वर्गीकरण): त्रुटि-रहित (NoError=0), पहली त्रुटि (Error1=1), दूसरी त्रुटि (Error2=2) और तीसरी त्रुटि (Error3=3) के बीच अंतर करना

डेटा संग्रह और विशेषता निष्कर्षण

अनुसंधान पूर्व कार्य में उपयोगकर्ता अध्ययन पर आधारित है, जिसमें 26 प्रतिभागियों के साथ रोबोट इंटरैक्शन डेटा शामिल है। विशेषता निष्कर्षण में शामिल हैं:

चेहरे की विशेषताएं: OpenFace का उपयोग करके चेहरे की कार्य इकाइयों (AU) और दृष्टि जानकारी निकाली जाती है
शरीर की मुद्रा: OpenPose का उपयोग करके ऊपरी शरीर के मुख्य बिंदु निकाले जाते हैं
ऑडियो विशेषताएं: openSMILE का उपयोग करके ऑडियो विशेषताएं निकाली जाती हैं
पाठ विशेषताएं: CLIP और BERT का उपयोग करके पाठ विशेषताएं निकाली जाती हैं

डेटा विभाजन रणनीति

विभिन्न वर्गीकरण क्षमताओं का मूल्यांकन करने के लिए चार डेटा विभाजन विधियां डिज़ाइन की गईं:

त्रुटि पहचान: सभी द्विआधारी वर्गीकरण लेबल के साथ प्रशिक्षण और परीक्षण
बहु-त्रुटि पहचान: सभी बहु-वर्गीकरण लेबल के साथ प्रशिक्षण और परीक्षण
पहली त्रुटि से क्रमिक त्रुटि सामान्यीकरण: केवल त्रुटि-रहित और पहली त्रुटि डेटा के साथ प्रशिक्षण, बाद की त्रुटि डेटा के साथ परीक्षण
क्रमिक त्रुटि भेदभाव: केवल त्रुटि प्रतिक्रिया लेबल का उपयोग करके प्रशिक्षण और परीक्षण

मॉडल आर्किटेक्चर

दो तंत्रिका नेटवर्क आर्किटेक्चर की खोज की गई:

LSTM नेटवर्क: अनुक्रम डेटा में दीर्घकालीन निर्भरता को कैप्चर करता है
GRU नेटवर्क: अधिक हल्के विकल्प के रूप में कार्य करता है

विशेषता प्रतिनिधित्व विधियां

तीन विशेषता प्रतिनिधित्व विधियों का परीक्षण किया गया:

कच्ची विशेषताएं: अमानकीकृत कच्ची विशेषताओं का उपयोग करना
मानकीकरण: विशेषता पैमाने की सामंजस्य सुनिश्चित करना
PCA आयाम में कमी: विशेषता आयाम को कम करना

संलयन रणनीति

तीन संलयन विधियों की खोज की गई:

प्रारंभिक संलयन: मॉडल इनपुट से पहले विशेषताओं को जोड़ना
मध्य संलयन: मोडल को अलग से संसाधित करके विलय करना
देर से संलयन: मोडल को अलग से प्रशिक्षित करके भविष्यवाणियों को संयोजित करना

प्रायोगिक सेटअप

डेटासेट विशेषताएं

प्रतिभागियों की संख्या: 26 प्रतिभागी
इंटरैक्शन परिदृश्य: प्रतिभागी क्रमिक बातचीत विफलताओं वाले रोबोट के साथ इंटरैक्ट करते हैं
एनोटेशन विधि: वीडियो फ्रेम को रोबोट त्रुटि की घटना के अनुसार एनोटेट किया जाता है
क्रॉस-सत्यापन: 26-गुना क्रॉस-सत्यापन का उपयोग किया जाता है, प्रत्येक प्रतिभागी एक गुना है

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy)
परिशुद्धता (Precision)
पुनः प्राप्ति (Recall)
F1 स्कोर (F1-Score)

प्रशिक्षण सेटअप

प्रशिक्षण युग: प्रत्येक गुना के लिए 50 युग का प्रशिक्षण
डेटा विभाजन: 80/20 प्रशिक्षण-परीक्षण विभाजन, प्रशिक्षण सेट का 10% सत्यापन के लिए उपयोग किया जाता है
डेटा प्रसंस्करण: प्रशिक्षण से पहले डेटा को यादृच्छिक रूप से मिलाया जाता है

प्रायोगिक परिणाम

मुख्य परिणाम

तालिका I के परिणामों के अनुसार, विभिन्न कार्यों का सर्वोत्तम प्रदर्शन इस प्रकार है:

कार्य प्रकार	मॉडल	सटीकता	परिशुद्धता	पुनः प्राप्ति	F1 स्कोर
त्रुटि पहचान	LSTM	93.5±3.2%	93.0±3.9%	92.3±4.1%	92.4±3.9%
बहु-त्रुटि पहचान	GRU	84.1±4.5%	82.4±5.9%	79.5±6.8%	80.0±6.4%
पहली त्रुटि सामान्यीकरण	LSTM	74.0±14.7%	75.9±15.1%	74.4±13.8%	72.6±16.3%
क्रमिक त्रुटि भेदभाव	LSTM	90.0±5.0%	89.9±5.6%	85.4±8.2%	85.8±8.1%

मुख्य निष्कर्ष

त्रुटि पहचान प्रदर्शन सर्वोत्तम है: द्विआधारी वर्गीकरण त्रुटि पहचान कार्य सर्वोच्च 93.5% सटीकता प्राप्त करता है, जो रोबोट त्रुटि का पता लगाने के लिए एक मजबूत आधार प्रदान करता है
क्रमिक त्रुटि भेदभाव बहु-त्रुटि पहचान से बेहतर है: क्रमिक त्रुटि भेदभाव (90% सटीकता) बहु-त्रुटि पहचान (84.1% सटीकता) से थोड़ा अधिक है
सीमित सामान्यीकरण क्षमता: पहली त्रुटि से क्रमिक त्रुटि सामान्यीकरण प्रदर्शन कम है (74% सटीकता), जो दर्शाता है कि क्रमिक त्रुटि के बाद की प्रतिक्रिया परिवर्तन सूक्ष्म हैं
व्यक्तिगत शिक्षा प्रभावी है: एकल प्रतिभागी मॉडल प्रत्येक व्यक्ति के अद्वितीय त्रुटि संकेत अभिव्यक्ति तरीके को सीखने में सक्षम है

मोडल और विशेषता विश्लेषण

सर्वोत्तम कॉन्फ़िगरेशन विश्लेषण:

चेहरे की विशेषताएं अधिकांश कार्यों में उत्कृष्ट प्रदर्शन करती हैं, विशेष रूप से त्रुटि पहचान कार्य में
PCA आयाम में कमी चेहरे की विशेषता प्रसंस्करण में महत्वपूर्ण प्रभाव दिखाती है
बहु-मोडल संयोजन (मुद्रा + ऑडियो + चेहरा) जटिल वर्गीकरण कार्यों में बेहतर प्रदर्शन करता है
देर से संलयन और प्रारंभिक संलयन रणनीति विभिन्न कार्यों में अलग-अलग लाभ प्रदान करती हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मशीन लर्निंग व्यवहार्यता: मशीन लर्निंग मॉडल मानव प्रतिक्रियाओं के आधार पर रोबोट त्रुटियों को सटीकता से पहचान सकते हैं
व्यक्तिगत मॉडलिंग लाभ: व्यक्तिगत प्रतिभागियों के लिए मॉडल प्रशिक्षण प्रत्येक व्यक्ति के अद्वितीय व्यवहार पैटर्न को सीखने में सक्षम है
कार्य जटिलता प्रभाव: द्विआधारी वर्गीकरण रणनीति त्रुटि पहचान में विश्वसनीय प्रदर्शन करती है, बहु-वर्गीकरण और मिश्रित रणनीति क्रमिक त्रुटि की प्रगति को कैप्चर कर सकती हैं
बहु-मोडल विशेषता मूल्य: विभिन्न मोडल विशेषताओं का संयोजन जटिल वर्गीकरण कार्यों के प्रदर्शन को बढ़ाता है

सीमाएं

अपर्याप्त सामान्यीकरण क्षमता: मॉडल को पूरी तरह से अदेखे प्रतिभागियों पर मूल्यांकन नहीं किया गया है, प्रतिभागियों के बीच सामान्यीकरण क्षमता अज्ञात है
परिदृश्य सीमा: प्रयोग केवल विशिष्ट बातचीत विफलता परिदृश्य में किए गए हैं, अन्य प्रकार की रोबोट त्रुटियां शामिल नहीं हैं
नमूना आकार: 26 प्रतिभागियों का नमूना आकार अपेक्षाकृत सीमित है
वास्तविक समय विचार: वास्तविक इंटरैक्शन में मॉडल के प्रदर्शन का मूल्यांकन नहीं किया गया है

भविष्य की दिशाएं

प्रतिभागियों के बीच सामान्यीकरण: पूरी तरह से अदेखे प्रतिभागियों पर मॉडल की सामान्यीकरण क्षमता का मूल्यांकन करना
वास्तविक समय प्रणाली विकास: वास्तविक समय में पहचान और प्रतिक्रिया करने में सक्षम HRI प्रणाली विकसित करना
विविध त्रुटि प्रकार: अन्य प्रकार की रोबोट त्रुटियों और विफलता परिदृश्यों तक विस्तार करना
अनुकूली शिक्षा: नए उपयोगकर्ता व्यवहार पैटर्न के अनुकूल होने में सक्षम ऑनलाइन मॉडल विकसित करना

गहन मूल्यांकन

शक्तियां

समस्या नवाचार: क्रमिक रोबोट त्रुटि पहचान का प्रथम व्यवस्थित अनुसंधान, महत्वपूर्ण अनुसंधान अंतराल को भरता है
विधि व्यापकता: विभिन्न डेटा विभाजन, विशेषता प्रतिनिधित्व, मॉडल आर्किटेक्चर और संलयन रणनीतियों का व्यवस्थित अन्वेषण
प्रयोग कठोरता: उपयुक्त क्रॉस-सत्यापन रणनीति का उपयोग, विस्तृत प्रदर्शन मेट्रिक्स प्रदान करता है
व्यावहारिक मूल्य: अनुसंधान परिणाम मानव-रोबोट इंटरैक्शन प्रणाली में सुधार के लिए सीधे अनुप्रयोग मूल्य रखते हैं
बहु-मोडल संलयन: चेहरे, मुद्रा, ऑडियो और पाठ जैसी कई मोडल जानकारी को प्रभावी रूप से एकीकृत करता है

कमियां

सामान्यीकरण सीमा: प्रतिभागियों के बीच सामान्यीकरण का मूल्यांकन नहीं किया गया है, वास्तविक तैनाती में मजबूती संदिग्ध है
एकल परिदृश्य: केवल बातचीत विफलता परिदृश्य में सत्यापित, अन्य रोबोट कार्यों की प्रयोज्यता अज्ञात है
वास्तविक समय अनुपस्थिति: वास्तविक समय पहचान में देरी और कम्प्यूटेशनल जटिलता पर विचार नहीं किया गया है
सैद्धांतिक विश्लेषण अपर्याप्त: कुछ विशेषता संयोजन बेहतर क्यों काम करते हैं इसके बारे में गहन सैद्धांतिक विश्लेषण की कमी है
डेटा आकार सीमा: अपेक्षाकृत छोटा डेटासेट मॉडल की सामान्यीकरण क्षमता को प्रभावित कर सकता है

प्रभाव

शैक्षणिक योगदान: HRI क्षेत्र में त्रुटि पहचान अनुसंधान के लिए नई दिशा खोलता है
व्यावहारिक मूल्य: अधिक बुद्धिमान रोबोट इंटरैक्शन प्रणाली विकसित करने के लिए तकनीकी आधार प्रदान करता है
पद्धति योगदान: व्यवस्थित बहु-मोडल विशेषता संलयन और मूल्यांकन ढांचा प्रदान करता है
अंतःविषय मूल्य: मशीन लर्निंग, मानव-कंप्यूटर इंटरैक्शन और रोबोटिक्स के अनुसंधान विधियों को जोड़ता है

लागू परिदृश्य

सेवा रोबोट: रेस्तरां, होटल आदि सेवा परिदृश्यों में रोबोट त्रुटि पहचान
शिक्षा रोबोट: कक्षा शिक्षण में रोबोट व्यवहार निगरानी और समायोजन
चिकित्सा सहायक रोबोट: चिकित्सा वातावरण में मानव-रोबोट सहयोग गुणवत्ता निगरानी
घरेलू रोबोट: घरेलू वातावरण में व्यक्तिगत इंटरैक्शन अनुकूलन

संदर्भ

पेपर कई महत्वपूर्ण तकनीकी उपकरणों और संबंधित अनुसंधान का हवाला देता है:

तकनीकी उपकरण: OpenFace (चेहरे की विशेषता निष्कर्षण), OpenPose (मुद्रा अनुमान), openSMILE (ऑडियो विशेषता), CLIP और BERT (पाठ विशेषता)
संबंधित अनुसंधान: HRI त्रुटि पहचान के पूर्व कार्य और बहु-मोडल इंटरैक्शन अनुसंधान शामिल हैं
मूल अनुसंधान: लेखक टीम द्वारा क्रमिक रोबोट विफलता पर पूर्व कार्य

सारांश: यह पेपर मानव-कंप्यूटर इंटरैक्शन क्षेत्र में एक नवीन और महत्वपूर्ण अनुसंधान समस्या प्रस्तुत करता है, व्यवस्थित प्रयोगात्मक डिजाइन और बहु-मोडल मशीन लर्निंग विधि के माध्यम से, क्रमिक रोबोट त्रुटि पहचान के लिए प्रभावी समाधान प्रदान करता है। यद्यपि सामान्यीकरण और परिदृश्य सीमा जैसी सीमाएं हैं, लेकिन इसके अनुसंधान परिणाम रोबोट इंटरैक्शन प्रणाली में सुधार के लिए मूल्यवान तकनीकी आधार और अनुसंधान दिशा प्रदान करते हैं।

Training Models to Detect Successive Robot Errors from Human Reactions

मानव प्रतिक्रियाओं से क्रमिक रोबोट त्रुटियों का पता लगाने के लिए मॉडल प्रशिक्षण

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

समस्या की महत्ता

मौजूदा विधियों की सीमाएं

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

डेटा संग्रह और विशेषता निष्कर्षण

डेटा विभाजन रणनीति

मॉडल आर्किटेक्चर

विशेषता प्रतिनिधित्व विधियां

संलयन रणनीति

प्रायोगिक सेटअप

डेटासेट विशेषताएं

मूल्यांकन मेट्रिक्स

प्रशिक्षण सेटअप

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

मोडल और विशेषता विश्लेषण

संबंधित कार्य

रोबोट त्रुटि पहचान क्षेत्र

इस पेपर के नवाचार बिंदु

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ