2025-11-14T14:28:11.744632

Training Models to Detect Successive Robot Errors from Human Reactions

Liu, Parreira, Ju

As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.

academic

Entrenamiento de Modelos para Detectar Errores Sucesivos de Robots a partir de Reacciones Humanas

Información Básica

ID del Artículo: 2510.09080
Título: Training Models to Detect Successive Robot Errors from Human Reactions
Autores: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
Clasificación: cs.RO (Robótica), cs.AI (Inteligencia Artificial), cs.HC (Interacción Humano-Computadora)
Fecha de Publicación: Enviado a arXiv el 10 de octubre de 2024
Enlace del Artículo: https://arxiv.org/abs/2510.09080

Resumen

A medida que los robots se integran cada vez más en la sociedad, la detección de errores de robots es crucial para una interacción humano-robot (HRI) efectiva. ¿Cómo sabe un robot cuándo cambiar de comportamiento cuando falla repetidamente? Los humanos responden naturalmente a los errores de los robots mediante señales verbales y no verbales, que se intensifican en fallos sucesivos, desde confusión y cambios sutiles en la voz hasta frustración e impaciencia evidentes. Aunque trabajos previos han demostrado que las reacciones humanas pueden indicar fallos de robots, pocos estudios examinan cómo estas respuestas evolutivas revelan fallos sucesivos. Este estudio utiliza aprendizaje automático para identificar etapas de fallos de robots a partir de reacciones humanas. En un estudio que incluye 26 participantes interactuando con un robot que comete errores de diálogo repetidos, se extraen características de comportamiento de datos de video para entrenar modelos para usuarios individuales. El mejor modelo alcanza una precisión del 93.5% en la detección de errores y del 84.1% en la clasificación de fallos sucesivos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda este estudio es: ¿Cómo se pueden utilizar las reacciones humanas a errores sucesivos de robots para detectar y clasificar automáticamente las etapas de fallo de un robot? Específicamente incluye:

Detectar si ha ocurrido un error de robot
Identificar diferentes etapas de fallos sucesivos de robots
Comprender los patrones de evolución en las reacciones humanas durante fallos sucesivos

Importancia del Problema

Necesidad Práctica: Con la aplicación generalizada de robots en la sociedad, se requieren mecanismos efectivos de detección de errores para mejorar la calidad de la interacción humano-robot
Comprensión del Comportamiento: Las reacciones humanas a errores de robots tienen características progresivas, escalando desde confusión inicial y ajustes lingüísticos hasta frustración e impaciencia evidentes
Mejora del Sistema: Comprender patrones de fallos sucesivos ayuda a los sistemas de robots a ajustar estrategias de comportamiento oportunamente

Limitaciones de Métodos Existentes

La investigación existente se enfoca principalmente en la detección de errores únicos de robots
Falta investigación profunda sobre patrones de evolución en reacciones humanas durante fallos sucesivos
Investigación limitada sobre cómo utilizar esta evolución para identificar etapas de fallo

Contribuciones Principales

Primer Estudio Sistemático: Primer estudio sistemático de patrones de evolución en reacciones humanas a fallos sucesivos de robots
Fusión de Características Multimodales: Propone un método de aprendizaje automático multimodal que combina expresiones faciales, postura corporal, características de audio y texto
Múltiples Estrategias de Clasificación: Diseña cuatro estrategias diferentes de partición de datos y clasificación para manejar diferentes tipos de tareas de detección de errores
Modelos de Alto Rendimiento: Logra una precisión del 93.5% en detección de errores y del 84.1% en clasificación de errores sucesivos en modelos de usuarios individuales
Análisis Profundo: Proporciona información profunda sobre la dinámica de interrupciones de interacción repetidas en interacción humano-robot

Explicación Detallada del Método

Definición de Tareas

Este estudio define dos tareas de clasificación principales:

Detección de Errores (clasificación binaria): Distinguir entre estado sin error (NoError=0) y cualquier estado de error (AnyError=1)
Detección de Errores Sucesivos (clasificación multiclase): Distinguir entre sin error (NoError=0), primer error (Error1=1), segundo error (Error2=2) y tercer error (Error3=3)

Recopilación de Datos y Extracción de Características

El estudio se basa en investigación de usuarios de trabajos previos, que incluye datos de interacción de 26 participantes con un robot. La extracción de características incluye:

Características Faciales: Extracción de unidades de acción facial (AU) e información de mirada usando OpenFace
Postura Corporal: Extracción de puntos clave de la parte superior del cuerpo usando OpenPose
Características de Audio: Extracción de características de audio usando openSMILE
Características de Texto: Extracción de características de texto usando CLIP y BERT

Estrategias de Partición de Datos

Se diseñaron cuatro métodos de partición de datos para evaluar diferentes capacidades de clasificación:

Detección de Errores: Entrenamiento y prueba con todas las etiquetas de clasificación binaria
Detección de Múltiples Errores: Entrenamiento y prueba con todas las etiquetas de clasificación multiclase
Generalización de Primer Error a Error Sucesivo: Entrenamiento solo con datos sin error y primer error, prueba con datos de errores posteriores
Distinción de Errores Sucesivos: Entrenamiento y prueba utilizando solo etiquetas de respuesta de error

Arquitectura del Modelo

Se exploraron dos arquitecturas de redes neuronales:

Red LSTM: Captura relaciones de dependencia a largo plazo en datos secuenciales
Red GRU: Alternativa más ligera

Métodos de Representación de Características

Se probaron tres métodos de representación de características:

Características Brutas: Uso de características brutas sin normalizar
Normalización: Asegurar consistencia en la escala de características
Reducción de Dimensionalidad PCA: Reducir la dimensión de características

Estrategias de Fusión

Se exploraron tres métodos de fusión:

Fusión Temprana: Concatenación de características antes de la entrada del modelo
Fusión Intermedia: Procesamiento separado de modalidades seguido de fusión
Fusión Tardía: Entrenamiento separado de modalidades seguido de combinación de predicciones

Configuración Experimental

Características del Conjunto de Datos

Número de Participantes: 26 participantes
Escenario de Interacción: Participantes interactuando con un robot que presenta fallos de diálogo sucesivos
Método de Anotación: Fotogramas de video anotados según la ocurrencia de errores de robot
Validación Cruzada: Validación cruzada de 26 pliegues, con cada participante como un pliegue

Métricas de Evaluación

Precisión (Accuracy)
Exactitud (Precision)
Sensibilidad (Recall)
Puntuación F1 (F1-Score)

Configuración de Entrenamiento

Épocas de Entrenamiento: 50 épocas por pliegue
Partición de Datos: División 80/20 entrenamiento-prueba, 10% del conjunto de entrenamiento para validación
Procesamiento de Datos: Mezcla aleatoria de datos antes del entrenamiento

Resultados Experimentales

Resultados Principales

Según los resultados de la Tabla I, el mejor rendimiento para cada tarea es el siguiente:

Tipo de Tarea	Modelo	Precisión	Exactitud	Sensibilidad	Puntuación F1
Detección de Errores	LSTM	93.5±3.2%	93.0±3.9%	92.3±4.1%	92.4±3.9%
Detección de Múltiples Errores	GRU	84.1±4.5%	82.4±5.9%	79.5±6.8%	80.0±6.4%
Generalización de Primer Error	LSTM	74.0±14.7%	75.9±15.1%	74.4±13.8%	72.6±16.3%
Distinción de Errores Sucesivos	LSTM	90.0±5.0%	89.9±5.6%	85.4±8.2%	85.8±8.1%

Hallazgos Clave

Rendimiento Óptimo en Detección de Errores: La tarea de detección de errores de clasificación binaria alcanza la precisión más alta del 93.5%, proporcionando una línea base sólida para detectar errores de robots
Distinción de Errores Sucesivos Superior a Detección de Múltiples Errores: La distinción de errores sucesivos (precisión del 90%) es ligeramente superior a la detección de múltiples errores (precisión del 84.1%)
Capacidad de Generalización Limitada: El rendimiento de generalización de primer error a error sucesivo es más bajo (precisión del 74%), indicando que los cambios de respuesta después de errores sucesivos son más sutiles
Aprendizaje Individualizado Efectivo: Los modelos de participantes individuales pueden aprender formas únicas de expresar señales de error para cada individuo

Análisis de Modalidades y Características

Análisis de la configuración óptima:

Características Faciales destacan en la mayoría de tareas, particularmente en tareas de detección de errores
Reducción de Dimensionalidad PCA es significativa en el procesamiento de características faciales
Combinación Multimodal (postura + audio + facial) muestra mejor rendimiento en tareas de clasificación complejas
Las estrategias de Fusión Tardía y Fusión Temprana tienen ventajas en diferentes tareas

Trabajo Relacionado

Campo de Detección de Errores de Robots

La investigación existente se concentra principalmente en:

Utilización de reacciones humanas para detectar fallos únicos de robots
Reconocimiento de errores en interacción humano-robot multimodal
Aplicación de expresiones faciales y características de voz en HRI

Puntos de Innovación de Este Artículo

En comparación con trabajos existentes, este estudio:

Se enfoca por primera vez en la detección y clasificación de fallos sucesivos
Estudia sistemáticamente patrones de evolución en reacciones humanas
Proporciona soluciones de detección de errores individualizada

Conclusiones y Discusión

Conclusiones Principales

Viabilidad del Aprendizaje Automático: Los modelos de aprendizaje automático pueden detectar con precisión errores de robots basándose en reacciones humanas
Ventajas del Modelado Individualizado: El entrenamiento de modelos para participantes individuales puede aprender patrones de comportamiento únicos de cada persona
Impacto de la Complejidad de Tareas: Las estrategias de clasificación binaria muestran rendimiento confiable en detección de errores, mientras que estrategias multiclase e híbridas pueden capturar la progresión de errores sucesivos
Valor de Características Multimodales: La combinación de diferentes características de modalidad mejora el rendimiento en tareas de clasificación complejas

Limitaciones

Capacidad de Generalización Insuficiente: Los modelos no se han evaluado en participantes completamente nuevos, la capacidad de generalización entre participantes es desconocida
Restricción de Escenarios: Los experimentos se realizan solo en escenarios específicos de fallo de diálogo, otros tipos de errores de robots no se abordan
Escala de Muestra: La escala de muestra de 26 participantes es relativamente limitada
Consideraciones de Tiempo Real: No se evalúa el rendimiento del modelo en interacción en tiempo real

Direcciones Futuras

Generalización Entre Participantes: Evaluar el rendimiento de generalización del modelo en participantes completamente nuevos
Desarrollo de Sistemas en Tiempo Real: Desarrollar sistemas HRI que puedan detectar y responder a errores en tiempo real
Diversificación de Tipos de Errores: Extender a otros tipos de errores de robots y escenarios de fallo
Aprendizaje Adaptativo: Desarrollar modelos que puedan adaptarse en línea a patrones de comportamiento de nuevos usuarios

Evaluación Profunda

Fortalezas

Innovación del Problema: Primer estudio sistemático de detección de errores sucesivos de robots, llena un vacío de investigación importante
Exhaustividad del Método: Exploración sistemática de diferentes particiones de datos, representaciones de características, arquitecturas de modelos y estrategias de fusión
Rigor Experimental: Adopción de estrategia de validación cruzada apropiada, proporciona métricas de rendimiento detalladas
Valor Práctico: Los resultados de la investigación tienen valor de aplicación directa para mejorar sistemas de interacción humano-robot
Fusión Multimodal Efectiva: Integración efectiva de información de múltiples modalidades incluyendo facial, postura, audio y texto

Insuficiencias

Limitaciones de Generalización: Falta evaluación de generalización entre participantes, la robustez en despliegue real es cuestionable
Escenarios Únicos: Validación solo en escenarios de fallo de diálogo, la aplicabilidad a otras tareas de robots es desconocida
Ausencia de Tiempo Real: No considera problemas de latencia y complejidad computacional en detección en tiempo real
Análisis Teórico Insuficiente: Falta análisis teórico profundo sobre por qué ciertas combinaciones de características funcionan mejor
Limitación de Escala de Datos: El conjunto de datos relativamente pequeño puede afectar la capacidad de generalización del modelo

Impacto

Contribución Académica: Abre nuevas direcciones de investigación en detección de errores en el campo HRI
Valor Práctico: Proporciona base técnica para desarrollar sistemas de interacción de robots más inteligentes
Contribución Metodológica: Proporciona marco sistemático de fusión y evaluación de características multimodales
Valor Interdisciplinario: Combina métodos de investigación de aprendizaje automático, interacción humano-computadora y robótica

Escenarios Aplicables

Robots de Servicio: Detección de errores de robots en escenarios de servicio como restaurantes y hoteles
Robots Educativos: Monitoreo y ajuste del comportamiento de robots en entornos de enseñanza en aula
Robots de Asistencia Médica: Monitoreo de calidad de colaboración humano-robot en entornos médicos
Robots Domésticos: Optimización de interacción personalizada en entornos domésticos

Referencias

El artículo cita múltiples herramientas técnicas y investigaciones relacionadas importantes:

Herramientas Técnicas: OpenFace (extracción de características faciales), OpenPose (estimación de postura), openSMILE (características de audio), CLIP y BERT (características de texto)
Investigación Relacionada: Incluye trabajos previos en detección de errores HRI e investigación de interacción multimodal
Investigación Fundamental: Trabajos previos del equipo de autores en fallos sucesivos de robots

Resumen: Este artículo propone un problema de investigación novedoso e importante en el campo de la interacción humano-robot, proporcionando una solución efectiva para la detección de errores sucesivos de robots mediante diseño experimental sistemático y métodos de aprendizaje automático multimodal. A pesar de limitaciones como restricciones de generalización y escenarios, sus resultados de investigación proporcionan una base técnica valiosa y dirección de investigación para mejorar sistemas de interacción de robots.