2025-11-14T03:58:11.705982

LLM-HBT: Dynamic Behavior Tree Construction for Adaptive Coordination in Heterogeneous Robots

Wang, Sun, Zhang et al.

We introduce a novel framework for automatic behavior tree (BT) construction in heterogeneous multi-robot systems, designed to address the challenges of adaptability and robustness in dynamic environments. Traditional robots are limited by fixed functional attributes and cannot efficiently reconfigure their strategies in response to task failures or environmental changes. To overcome this limitation, we leverage large language models (LLMs) to generate and extend BTs dynamically, combining the reasoning and generalization power of LLMs with the modularity and recovery capability of BTs. The proposed framework consists of four interconnected modules task initialization, task assignment, BT update, and failure node detection which operate in a closed loop. Robots tick their BTs during execution, and upon encountering a failure node, they can either extend the tree locally or invoke a centralized virtual coordinator (Alex) to reassign subtasks and synchronize BTs across peers. This design enables long-term cooperative execution in heterogeneous teams. We validate the framework on 60 tasks across three simulated scenarios and in a real-world cafe environment with a robotic arm and a wheeled-legged robot. Results show that our method consistently outperforms baseline approaches in task success rate, robustness, and scalability, demonstrating its effectiveness for multi-robot collaboration in complex scenarios.

academic

LLM-HBT: Construcción Dinámica de Árboles de Comportamiento para Coordinación Adaptativa en Robots Heterogéneos

Información Básica

ID del Artículo: 2510.09963
Título: LLM-HBT: Dynamic Behavior Tree Construction for Adaptive Coordination in Heterogeneous Robots
Autores: Chao-ran Wang, Jingyuan Sun*, Yan-hui Zhang, Mingyu Zhang, Chang-ju Wu*
Clasificación: cs.RO (Robótica)
Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09963

Resumen

Este artículo propone un nuevo marco para la construcción automática de árboles de comportamiento (BT) en sistemas multi-robot heterogéneos, con el objetivo de abordar los desafíos de adaptabilidad y robustez en entornos dinámicos. Los robots tradicionales están limitados por atributos funcionales fijos, lo que impide la reconfiguración eficiente de estrategias ante fallos de tareas o cambios ambientales. Para superar esta limitación, los autores aprovechan los modelos de lenguaje grande (LLM) para generar y expandir dinámicamente árboles de comportamiento, combinando las capacidades de razonamiento y generalización del LLM con la modularidad y capacidad de recuperación del BT. El marco contiene cuatro módulos interconectados —inicialización de tareas, asignación de tareas, actualización de BT y detección de nodos de fallo— que forman un ciclo cerrado de operación. Los robots ejecutan su BT durante la ejecución, y cuando encuentran nodos de fallo, pueden expandir localmente el árbol o invocar un coordinador virtual central (Alex) para reasignar subtareas y sincronizar los BT de los compañeros.

Antecedentes de Investigación y Motivación

Problemas Centrales

Adaptabilidad Insuficiente: Los sistemas multi-robot tradicionales tienen dificultades para generalizar en entornos dinámicos y no estructurados, dependiendo fuertemente de priors predefinidos y datos de entrenamiento limitados
Rigidez del Marco de Decisión: Los marcos de decisión existentes son demasiado rígidos para soportar reconfiguración en línea, o demasiado frágiles para garantizar robustez a largo plazo
Desafíos de Coordinación Heterogénea: Los robots heterogéneos poseen capacidades diferentes, y cómo reconstruir y compartir colaborativamente árboles de comportamiento en tiempo de ejecución aún no se ha abordado adecuadamente

Importancia de la Investigación

Los sistemas multi-robot tienen un enorme potencial para mejorar la eficiencia operativa, pero deben adaptarse a fallos, cambios ambientales y situaciones inesperadas en entornos dinámicos. Esto es crítico en aplicaciones prácticas como búsqueda y rescate, automatización de almacenes y robots de servicio.

Limitaciones de Métodos Existentes

Métodos Basados en LLM: Aunque demuestran fuertes capacidades de razonamiento, típicamente generan planes de tareas de una sola vez, careciendo de mecanismos de corrección en línea después de que comienza la ejecución
Métodos Basados en Árboles de Comportamiento: Proporcionan modularidad y mecanismos de recuperación, pero dependen fuertemente del diseño manual de nodos de acción y estructuras de tareas predefinidas
Falta de Marco Unificado: La investigación existente no ha integrado adecuadamente las capacidades de razonamiento semántico del LLM con la robustez estructural del BT

Contribuciones Principales

Marco Dinámico: Propone un marco dinámico que integra razonamiento de modelos de lenguaje grande con árboles de comportamiento para coordinación de robots heterogéneos
Mecanismo Híbrido: Diseña un mecanismo híbrido centralizado-distribuido que logra adaptación en tiempo de ejecución mediante expansión local de BT y reasignación centralizada de tareas
Nuevo Punto de Referencia: Construye un nuevo punto de referencia que abarca tareas de simulación diversas y entornos del mundo real, validando la robustez y escalabilidad del método
Ejecución de Ciclo Cerrado: Implementa un ciclo de retroalimentación cerrada de detección de fallos, razonamiento y adaptación de árboles, permitiendo que robots heterogéneos optimicen continuamente estrategias de ejecución

Explicación Detallada del Método

Definición de Tareas

Considere un sistema multi-robot heterogéneo (HMRS) R = {r₁, ..., rₙ}, donde cada robot rᵢ posee un espacio de acciones:

$A_i = \{a_i^1, ..., a_i^{m_i}\}$

La heterogeneidad se refleja en Aᵢ ≠ Aⱼ (i ≠ j), reflejando diferencias morfológicas y de capacidades. Una tarea τ se representa por el conjunto de acciones requeridas Aτ ⊆ ⋃ᵢ Aᵢ.

Arquitectura del Modelo

1. Diseño del Marco General

El marco contiene cuatro módulos interconectados:

Inicialización de Tareas (Task Initialization): Convierte instrucciones humanas en un BT inicial
Asignación de Tareas (Task Assignment): Los nodos de fallo desencadenan el reasignador central para reasignar tareas
Actualización de BT (Behavior Tree Update): Inserta nuevos subárboles o sincroniza BT entre robots
Detección de Nodos de Fallo (Failure Node Detection): Monitorea continuamente la ejecución de BT e identifica cuellos de botella

2. Formalización del Árbol de Comportamiento

Árbol de comportamiento T = (V, E, r), donde V es el conjunto de nodos, E define aristas padre-hijo, y r es el nodo raíz. Cada nodo devuelve estados Success, Failure o Running.

Lógica de ejecución del nodo de secuencia: $Seq(c_1, ..., c_n) = \begin{cases} Failure, & \exists i: c_i = Failure \\ Running, & \exists i: c_i = Running \\ Success, & \forall i: c_i = Success \end{cases}$

3. Coordinador Virtual Alex

Alex actúa como asignador central, manteniendo una vista compartida del estado de robots y ambiente. Cuando se reporta un nodo de fallo fᵢ, Alex recopila información de contexto e identifica robots y acciones apropiados para resolver el fallo.

Puntos de Innovación Técnica

1. Expansión Dinámica de BT

Expansión Independiente: Los robots utilizan su propio conjunto de acciones para resolver condiciones de fallo
Expansión Delegada: Cuando el fallo no puede resolverse localmente, Alex asigna a un robot compañero con capacidades apropiadas

2. Precondiciones y Postcondiciones

Cada nodo de acción a se asocia con:

Precondiciones Pre(a) = {c₁ᵖʳᵉ, ..., cₘᵖʳᵉ}: Condiciones que deben satisfacerse antes de la ejecución
Postcondiciones Post(a) = {c₁ᵖᵒˢᵗ, ..., cₘᵖᵒˢᵗ}: Condiciones de resultado después de la ejecución exitosa

3. Mecanismo de Recuperación de Fallos

El sistema almacena nodos de fallo en una cola dedicada Fₙₒ𝒹ₑₛ, en lugar de simplemente propagarlos hacia arriba y terminar la ejecución. Esto proporciona la capacidad de identificar sistemáticamente cuellos de botella de ejecución y desencadenar procesos de expansión.

Configuración Experimental

Conjunto de Datos

Conjunto de Datos Behavior-1K: Contiene descripciones de tareas diversas incluyendo navegación, manipulación de objetos y tareas colaborativas
Estrategia de Muestreo: 20 tareas por grupo, abarcando secuencias de acciones de 2 a 20 pasos
Tres Escenarios:
1. Un robot cuadrúpedo
2. Robot cuadrúpedo + dron
3. Robot cuadrúpedo + dron + brazo robótico

Métricas de Evaluación

Tasa de Éxito (SR): $SR = \frac{1}{N}\sum_{i=1}^N s_i$ , donde sᵢ ∈ {0,1} indica si la tarea i se completó exitosamente
Promedio de Pasos (AS): $AS = \frac{1}{N}\sum_{i=1}^N k_i$ , donde kᵢ representa el número de pasos de ejecución de BT necesarios para completar la tarea i

Métodos de Comparación

MCTS: Planificación de acciones utilizando solo búsqueda de árbol de Monte Carlo
LLM-MCTS: MCTS mejorado con modelo del mundo generado por LLM

Detalles de Implementación

MCTS y LLM-MCTS configurados con el mismo presupuesto de 500 simulaciones y profundidad máxima de búsqueda de 20
20 tareas por escenario ejecutadas 5 veces en ensayos independientes con posiciones iniciales aleatorizadas
Experimentos del mundo real realizados en ambiente de cafetería con 10 ensayos repetidos

Resultados Experimentales

Resultados Principales

Método	Escenario 1	Escenario 2	Escenario 3
	SR(%) AS	SR(%) AS	SR(%) AS
MCTS	95 3.95	55 4.91	35 8.80
LLM-MCTS	90 4.11	55 5.18	35 9.00
LLM-HBT	100 4.05	100 5.05	100 8.4

Hallazgos Clave

Tasa de Éxito Perfecta: LLM-HBT logra una tasa de éxito del 100% en todos los escenarios, mientras que los métodos de base disminuyen significativamente con la heterogeneidad y complejidad de tareas
Mejora de Eficiencia: En el escenario más desafiante (escenario 3), el promedio de pasos de LLM-HBT (8.4) es menor que MCTS (8.80) y LLM-MCTS (9.00)
Verificación de Robustez: En el escenario 3, los métodos de base completaron exitosamente solo el 40% de tareas, mientras que LLM-HBT mantuvo una tasa de éxito del 100%

Experimentos del Mundo Real

En ambiente de cafetería, un brazo robótico y un robot con ruedas colaboraron para colocar una botella en el mostrador:

Flujo de Tareas: El brazo robótico establece precondiciones para que la botella esté en el espacio de trabajo alcanzable → el robot con ruedas navega para obtener la botella → el brazo robótico completa la captura y colocación
Resultados: Los 10 ensayos fueron completamente exitosos, validando la efectividad del marco en entornos reales

Análisis de Ablación

Resultados detallados de 20 tareas × 3 métodos muestran:

Grupo 1: LLM-HBT completa todas las tareas, métodos de base fallan en T12, T16, etc.
Grupo 2: LLM-HBT completa exitosamente tareas donde los métodos de base fallan (T3, T4, T20, etc.)
Grupo 3: Los métodos de base fallan en la mayoría de tareas (marcadas como "x"), LLM-HBT tiene éxito en casi todas

Trabajo Relacionado

Diseño Automático de Árboles de Comportamiento

Los métodos existentes típicamente requieren diseño manual de funciones de costo o operan bajo supuestos simplificados
Este artículo elimina la necesidad de funciones de costo manuales mediante razonamiento de LLM, expandiendo dinámicamente la estructura de BT

Planificación Multi-Robot Basada en LLM

La investigación existente se enfoca principalmente en sistemas de robots homogéneos, careciendo de marcos de ejecución estructurados
La coordinación de robots heterogéneos aún no ha sido suficientemente explorada

Diferenciación Técnica

Esta investigación es la primera en integrar razonamiento de LLM con construcción dinámica de BT para sistemas multi-robot heterogéneos, llenando un vacío en el campo.

Conclusiones y Discusión

Conclusiones Principales

Validación de Efectividad: LLM-HBT mejora significativamente la tasa de éxito de tareas y eficiencia de ejecución
Mejora de Adaptabilidad: El mecanismo de ciclo cerrado permite que los robots optimicen continuamente estrategias de ejecución
Coordinación Heterogénea: Logra exitosamente reasignación dinámica de tareas entre robots con diferentes capacidades

Limitaciones

Latencia de Razonamiento de LLM: Puede afectar aplicaciones con requisitos de tiempo real estrictos
Alcance de Validación del Mundo Real: Actualmente validado solo en ambiente de cafetería
Dependencia de Comunicación: Requiere comunicación confiable entre robots

Direcciones Futuras

Diseño Consciente de Latencia: Desarrollar mecanismos de optimización que consideren latencia de razonamiento
Descentralización Eficiente en Comunicación: Reducir dependencia del coordinador central
Robustez ante Incertidumbre Perceptual: Mecanismos de recuperación robustos bajo ruido y observación incompleta

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera integración sistemática de razonamiento de LLM y construcción dinámica de BT, con enfoque técnico novedoso
Suficiencia Experimental: Abarca simulación y entornos reales, validación multi-escenario exhaustiva
Convincencia de Resultados: Tasa de éxito del 100% y mejora de eficiencia altamente convincentes
Fundamento Teórico: Definiciones formalizadas claras, expresión matemática rigurosa

Insuficiencias

Cuestionamiento de Tasa de Éxito Perfecta: La tasa de éxito del 100% puede sugerir tareas relativamente simples o posible sobreajuste
Análisis de Costo Computacional Faltante: Costo computacional y sobrecarga de tiempo del razonamiento de LLM no analizados en detalle
Validación de Escalabilidad Insuficiente: Solo probado con máximo 3 robots, escalabilidad de sistemas grandes no verificada
Análisis de Modos de Fallo Deficiente: Análisis insuficiente de modos de fallo en condiciones extremas

Impacto

Contribución Académica: Proporciona nuevo paradigma técnico para coordinación multi-robot
Valor Práctico: Aplicable a robots de servicio, automatización industrial y otros campos
Reproducibilidad: Descripción de método detallada, pero disponibilidad de código y conjunto de datos no clarificada

Escenarios Aplicables

Robots de Servicio: Escenarios de servicio en restaurantes, hoteles que requieren colaboración multi-robot
Automatización Industrial: Tareas de ensamblaje complejo que requieren coordinación de robots heterogéneos
Tareas de Búsqueda y Rescate: Coordinación de diferentes tipos de robots en entornos dinámicos
Logística de Almacenes: Programación inteligente y asignación de tareas de múltiples tipos de robots

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

Aplicaciones de árboles de comportamiento en robótica 6,7,9
Planificación multi-robot basada en LLM 14,15,16
Asignación de tareas en sistemas multi-robot heterogéneos 2,12,13
Avances recientes en diseño automático de árboles de comportamiento 10,11

Evaluación General: Este artículo propone un marco de coordinación multi-robot heterogéneo con fuerte innovación técnica y validación experimental exhaustiva. La combinación de LLM y BT proporciona nuevas perspectivas de solución para el campo, poseyendo importante valor académico y potencial práctico. A pesar de algunas limitaciones, la calidad general es alta, sentando una base sólida para investigación futura relacionada.