2025-11-14T14:28:11.744632

Training Models to Detect Successive Robot Errors from Human Reactions

Liu, Parreira, Ju
As robots become more integrated into society, detecting robot errors is essential for effective human-robot interaction (HRI). When a robot fails repeatedly, how can it know when to change its behavior? Humans naturally respond to robot errors through verbal and nonverbal cues that intensify over successive failures-from confusion and subtle speech changes to visible frustration and impatience. While prior work shows that human reactions can indicate robot failures, few studies examine how these evolving responses reveal successive failures. This research uses machine learning to recognize stages of robot failure from human reactions. In a study with 26 participants interacting with a robot that made repeated conversational errors, behavioral features were extracted from video data to train models for individual users. The best model achieved 93.5% accuracy for detecting errors and 84.1% for classifying successive failures. Modeling the progression of human reactions enhances error detection and understanding of repeated interaction breakdowns in HRI.
academic

Entrenamiento de Modelos para Detectar Errores Sucesivos de Robots a partir de Reacciones Humanas

Información Básica

  • ID del Artículo: 2510.09080
  • Título: Training Models to Detect Successive Robot Errors from Human Reactions
  • Autores: Shannon Liu (Cornell University), Maria Teresa Parreira (Cornell Tech), Wendy Ju (Cornell Tech)
  • Clasificación: cs.RO (Robótica), cs.AI (Inteligencia Artificial), cs.HC (Interacción Humano-Computadora)
  • Fecha de Publicación: Enviado a arXiv el 10 de octubre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2510.09080

Resumen

A medida que los robots se integran cada vez más en la sociedad, la detección de errores de robots es crucial para una interacción humano-robot (HRI) efectiva. ¿Cómo sabe un robot cuándo cambiar de comportamiento cuando falla repetidamente? Los humanos responden naturalmente a los errores de los robots mediante señales verbales y no verbales, que se intensifican en fallos sucesivos, desde confusión y cambios sutiles en la voz hasta frustración e impaciencia evidentes. Aunque trabajos previos han demostrado que las reacciones humanas pueden indicar fallos de robots, pocos estudios examinan cómo estas respuestas evolutivas revelan fallos sucesivos. Este estudio utiliza aprendizaje automático para identificar etapas de fallos de robots a partir de reacciones humanas. En un estudio que incluye 26 participantes interactuando con un robot que comete errores de diálogo repetidos, se extraen características de comportamiento de datos de video para entrenar modelos para usuarios individuales. El mejor modelo alcanza una precisión del 93.5% en la detección de errores y del 84.1% en la clasificación de fallos sucesivos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda este estudio es: ¿Cómo se pueden utilizar las reacciones humanas a errores sucesivos de robots para detectar y clasificar automáticamente las etapas de fallo de un robot? Específicamente incluye:

  1. Detectar si ha ocurrido un error de robot
  2. Identificar diferentes etapas de fallos sucesivos de robots
  3. Comprender los patrones de evolución en las reacciones humanas durante fallos sucesivos

Importancia del Problema

  1. Necesidad Práctica: Con la aplicación generalizada de robots en la sociedad, se requieren mecanismos efectivos de detección de errores para mejorar la calidad de la interacción humano-robot
  2. Comprensión del Comportamiento: Las reacciones humanas a errores de robots tienen características progresivas, escalando desde confusión inicial y ajustes lingüísticos hasta frustración e impaciencia evidentes
  3. Mejora del Sistema: Comprender patrones de fallos sucesivos ayuda a los sistemas de robots a ajustar estrategias de comportamiento oportunamente

Limitaciones de Métodos Existentes

  1. La investigación existente se enfoca principalmente en la detección de errores únicos de robots
  2. Falta investigación profunda sobre patrones de evolución en reacciones humanas durante fallos sucesivos
  3. Investigación limitada sobre cómo utilizar esta evolución para identificar etapas de fallo

Contribuciones Principales

  1. Primer Estudio Sistemático: Primer estudio sistemático de patrones de evolución en reacciones humanas a fallos sucesivos de robots
  2. Fusión de Características Multimodales: Propone un método de aprendizaje automático multimodal que combina expresiones faciales, postura corporal, características de audio y texto
  3. Múltiples Estrategias de Clasificación: Diseña cuatro estrategias diferentes de partición de datos y clasificación para manejar diferentes tipos de tareas de detección de errores
  4. Modelos de Alto Rendimiento: Logra una precisión del 93.5% en detección de errores y del 84.1% en clasificación de errores sucesivos en modelos de usuarios individuales
  5. Análisis Profundo: Proporciona información profunda sobre la dinámica de interrupciones de interacción repetidas en interacción humano-robot

Explicación Detallada del Método

Definición de Tareas

Este estudio define dos tareas de clasificación principales:

  1. Detección de Errores (clasificación binaria): Distinguir entre estado sin error (NoError=0) y cualquier estado de error (AnyError=1)
  2. Detección de Errores Sucesivos (clasificación multiclase): Distinguir entre sin error (NoError=0), primer error (Error1=1), segundo error (Error2=2) y tercer error (Error3=3)

Recopilación de Datos y Extracción de Características

El estudio se basa en investigación de usuarios de trabajos previos, que incluye datos de interacción de 26 participantes con un robot. La extracción de características incluye:

  1. Características Faciales: Extracción de unidades de acción facial (AU) e información de mirada usando OpenFace
  2. Postura Corporal: Extracción de puntos clave de la parte superior del cuerpo usando OpenPose
  3. Características de Audio: Extracción de características de audio usando openSMILE
  4. Características de Texto: Extracción de características de texto usando CLIP y BERT

Estrategias de Partición de Datos

Se diseñaron cuatro métodos de partición de datos para evaluar diferentes capacidades de clasificación:

  1. Detección de Errores: Entrenamiento y prueba con todas las etiquetas de clasificación binaria
  2. Detección de Múltiples Errores: Entrenamiento y prueba con todas las etiquetas de clasificación multiclase
  3. Generalización de Primer Error a Error Sucesivo: Entrenamiento solo con datos sin error y primer error, prueba con datos de errores posteriores
  4. Distinción de Errores Sucesivos: Entrenamiento y prueba utilizando solo etiquetas de respuesta de error

Arquitectura del Modelo

Se exploraron dos arquitecturas de redes neuronales:

  1. Red LSTM: Captura relaciones de dependencia a largo plazo en datos secuenciales
  2. Red GRU: Alternativa más ligera

Métodos de Representación de Características

Se probaron tres métodos de representación de características:

  1. Características Brutas: Uso de características brutas sin normalizar
  2. Normalización: Asegurar consistencia en la escala de características
  3. Reducción de Dimensionalidad PCA: Reducir la dimensión de características

Estrategias de Fusión

Se exploraron tres métodos de fusión:

  1. Fusión Temprana: Concatenación de características antes de la entrada del modelo
  2. Fusión Intermedia: Procesamiento separado de modalidades seguido de fusión
  3. Fusión Tardía: Entrenamiento separado de modalidades seguido de combinación de predicciones

Configuración Experimental

Características del Conjunto de Datos

  • Número de Participantes: 26 participantes
  • Escenario de Interacción: Participantes interactuando con un robot que presenta fallos de diálogo sucesivos
  • Método de Anotación: Fotogramas de video anotados según la ocurrencia de errores de robot
  • Validación Cruzada: Validación cruzada de 26 pliegues, con cada participante como un pliegue

Métricas de Evaluación

  • Precisión (Accuracy)
  • Exactitud (Precision)
  • Sensibilidad (Recall)
  • Puntuación F1 (F1-Score)

Configuración de Entrenamiento

  • Épocas de Entrenamiento: 50 épocas por pliegue
  • Partición de Datos: División 80/20 entrenamiento-prueba, 10% del conjunto de entrenamiento para validación
  • Procesamiento de Datos: Mezcla aleatoria de datos antes del entrenamiento

Resultados Experimentales

Resultados Principales

Según los resultados de la Tabla I, el mejor rendimiento para cada tarea es el siguiente:

Tipo de TareaModeloPrecisiónExactitudSensibilidadPuntuación F1
Detección de ErroresLSTM93.5±3.2%93.0±3.9%92.3±4.1%92.4±3.9%
Detección de Múltiples ErroresGRU84.1±4.5%82.4±5.9%79.5±6.8%80.0±6.4%
Generalización de Primer ErrorLSTM74.0±14.7%75.9±15.1%74.4±13.8%72.6±16.3%
Distinción de Errores SucesivosLSTM90.0±5.0%89.9±5.6%85.4±8.2%85.8±8.1%

Hallazgos Clave

  1. Rendimiento Óptimo en Detección de Errores: La tarea de detección de errores de clasificación binaria alcanza la precisión más alta del 93.5%, proporcionando una línea base sólida para detectar errores de robots
  2. Distinción de Errores Sucesivos Superior a Detección de Múltiples Errores: La distinción de errores sucesivos (precisión del 90%) es ligeramente superior a la detección de múltiples errores (precisión del 84.1%)
  3. Capacidad de Generalización Limitada: El rendimiento de generalización de primer error a error sucesivo es más bajo (precisión del 74%), indicando que los cambios de respuesta después de errores sucesivos son más sutiles
  4. Aprendizaje Individualizado Efectivo: Los modelos de participantes individuales pueden aprender formas únicas de expresar señales de error para cada individuo

Análisis de Modalidades y Características

Análisis de la configuración óptima:

  • Características Faciales destacan en la mayoría de tareas, particularmente en tareas de detección de errores
  • Reducción de Dimensionalidad PCA es significativa en el procesamiento de características faciales
  • Combinación Multimodal (postura + audio + facial) muestra mejor rendimiento en tareas de clasificación complejas
  • Las estrategias de Fusión Tardía y Fusión Temprana tienen ventajas en diferentes tareas

Trabajo Relacionado

Campo de Detección de Errores de Robots

La investigación existente se concentra principalmente en:

  1. Utilización de reacciones humanas para detectar fallos únicos de robots
  2. Reconocimiento de errores en interacción humano-robot multimodal
  3. Aplicación de expresiones faciales y características de voz en HRI

Puntos de Innovación de Este Artículo

En comparación con trabajos existentes, este estudio:

  1. Se enfoca por primera vez en la detección y clasificación de fallos sucesivos
  2. Estudia sistemáticamente patrones de evolución en reacciones humanas
  3. Proporciona soluciones de detección de errores individualizada

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad del Aprendizaje Automático: Los modelos de aprendizaje automático pueden detectar con precisión errores de robots basándose en reacciones humanas
  2. Ventajas del Modelado Individualizado: El entrenamiento de modelos para participantes individuales puede aprender patrones de comportamiento únicos de cada persona
  3. Impacto de la Complejidad de Tareas: Las estrategias de clasificación binaria muestran rendimiento confiable en detección de errores, mientras que estrategias multiclase e híbridas pueden capturar la progresión de errores sucesivos
  4. Valor de Características Multimodales: La combinación de diferentes características de modalidad mejora el rendimiento en tareas de clasificación complejas

Limitaciones

  1. Capacidad de Generalización Insuficiente: Los modelos no se han evaluado en participantes completamente nuevos, la capacidad de generalización entre participantes es desconocida
  2. Restricción de Escenarios: Los experimentos se realizan solo en escenarios específicos de fallo de diálogo, otros tipos de errores de robots no se abordan
  3. Escala de Muestra: La escala de muestra de 26 participantes es relativamente limitada
  4. Consideraciones de Tiempo Real: No se evalúa el rendimiento del modelo en interacción en tiempo real

Direcciones Futuras

  1. Generalización Entre Participantes: Evaluar el rendimiento de generalización del modelo en participantes completamente nuevos
  2. Desarrollo de Sistemas en Tiempo Real: Desarrollar sistemas HRI que puedan detectar y responder a errores en tiempo real
  3. Diversificación de Tipos de Errores: Extender a otros tipos de errores de robots y escenarios de fallo
  4. Aprendizaje Adaptativo: Desarrollar modelos que puedan adaptarse en línea a patrones de comportamiento de nuevos usuarios

Evaluación Profunda

Fortalezas

  1. Innovación del Problema: Primer estudio sistemático de detección de errores sucesivos de robots, llena un vacío de investigación importante
  2. Exhaustividad del Método: Exploración sistemática de diferentes particiones de datos, representaciones de características, arquitecturas de modelos y estrategias de fusión
  3. Rigor Experimental: Adopción de estrategia de validación cruzada apropiada, proporciona métricas de rendimiento detalladas
  4. Valor Práctico: Los resultados de la investigación tienen valor de aplicación directa para mejorar sistemas de interacción humano-robot
  5. Fusión Multimodal Efectiva: Integración efectiva de información de múltiples modalidades incluyendo facial, postura, audio y texto

Insuficiencias

  1. Limitaciones de Generalización: Falta evaluación de generalización entre participantes, la robustez en despliegue real es cuestionable
  2. Escenarios Únicos: Validación solo en escenarios de fallo de diálogo, la aplicabilidad a otras tareas de robots es desconocida
  3. Ausencia de Tiempo Real: No considera problemas de latencia y complejidad computacional en detección en tiempo real
  4. Análisis Teórico Insuficiente: Falta análisis teórico profundo sobre por qué ciertas combinaciones de características funcionan mejor
  5. Limitación de Escala de Datos: El conjunto de datos relativamente pequeño puede afectar la capacidad de generalización del modelo

Impacto

  1. Contribución Académica: Abre nuevas direcciones de investigación en detección de errores en el campo HRI
  2. Valor Práctico: Proporciona base técnica para desarrollar sistemas de interacción de robots más inteligentes
  3. Contribución Metodológica: Proporciona marco sistemático de fusión y evaluación de características multimodales
  4. Valor Interdisciplinario: Combina métodos de investigación de aprendizaje automático, interacción humano-computadora y robótica

Escenarios Aplicables

  1. Robots de Servicio: Detección de errores de robots en escenarios de servicio como restaurantes y hoteles
  2. Robots Educativos: Monitoreo y ajuste del comportamiento de robots en entornos de enseñanza en aula
  3. Robots de Asistencia Médica: Monitoreo de calidad de colaboración humano-robot en entornos médicos
  4. Robots Domésticos: Optimización de interacción personalizada en entornos domésticos

Referencias

El artículo cita múltiples herramientas técnicas y investigaciones relacionadas importantes:

  1. Herramientas Técnicas: OpenFace (extracción de características faciales), OpenPose (estimación de postura), openSMILE (características de audio), CLIP y BERT (características de texto)
  2. Investigación Relacionada: Incluye trabajos previos en detección de errores HRI e investigación de interacción multimodal
  3. Investigación Fundamental: Trabajos previos del equipo de autores en fallos sucesivos de robots

Resumen: Este artículo propone un problema de investigación novedoso e importante en el campo de la interacción humano-robot, proporcionando una solución efectiva para la detección de errores sucesivos de robots mediante diseño experimental sistemático y métodos de aprendizaje automático multimodal. A pesar de limitaciones como restricciones de generalización y escenarios, sus resultados de investigación proporcionan una base técnica valiosa y dirección de investigación para mejorar sistemas de interacción de robots.