2025-11-14T03:58:11.705982

LLM-HBT: Dynamic Behavior Tree Construction for Adaptive Coordination in Heterogeneous Robots

Wang, Sun, Zhang et al.

We introduce a novel framework for automatic behavior tree (BT) construction in heterogeneous multi-robot systems, designed to address the challenges of adaptability and robustness in dynamic environments. Traditional robots are limited by fixed functional attributes and cannot efficiently reconfigure their strategies in response to task failures or environmental changes. To overcome this limitation, we leverage large language models (LLMs) to generate and extend BTs dynamically, combining the reasoning and generalization power of LLMs with the modularity and recovery capability of BTs. The proposed framework consists of four interconnected modules task initialization, task assignment, BT update, and failure node detection which operate in a closed loop. Robots tick their BTs during execution, and upon encountering a failure node, they can either extend the tree locally or invoke a centralized virtual coordinator (Alex) to reassign subtasks and synchronize BTs across peers. This design enables long-term cooperative execution in heterogeneous teams. We validate the framework on 60 tasks across three simulated scenarios and in a real-world cafe environment with a robotic arm and a wheeled-legged robot. Results show that our method consistently outperforms baseline approaches in task success rate, robustness, and scalability, demonstrating its effectiveness for multi-robot collaboration in complex scenarios.

academic

LLM-HBT : Construction dynamique d'arbres de comportement pour la coordination adaptative de robots hétérogènes

Informations de base

ID de l'article : 2510.09963
Titre : LLM-HBT: Dynamic Behavior Tree Construction for Adaptive Coordination in Heterogeneous Robots
Auteurs : Chao-ran Wang, Jingyuan Sun*, Yan-hui Zhang, Mingyu Zhang, Chang-ju Wu*
Classification : cs.RO (Robotique)
Date de publication : 11 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.09963

Résumé

Cet article propose un nouveau cadre pour la construction automatique d'arbres de comportement (AB) dans les systèmes multi-robots hétérogènes, visant à résoudre les défis d'adaptabilité et de robustesse dans les environnements dynamiques. Les robots traditionnels sont limités par des attributs fonctionnels fixes et ne peuvent pas reconfigurer efficacement les stratégies en cas d'échec de tâche ou de changement environnemental. Pour surmonter cette limitation, les auteurs exploitent les modèles de langage de grande taille (LLM) pour générer et étendre dynamiquement les arbres de comportement, combinant les capacités de raisonnement et de généralisation des LLM avec la modularité et la capacité de récupération des AB. Le cadre comprend quatre modules interconnectés — initialisation des tâches, allocation des tâches, mise à jour de l'AB et détection des nœuds défaillants — formant une boucle fermée d'exécution. Les robots exécutent leur AB pendant l'exécution et, lorsqu'ils rencontrent des nœuds défaillants, peuvent étendre localement l'arbre ou appeler le coordinateur virtuel central (Alex) pour réaffecter les sous-tâches et synchroniser les AB des compagnons.

Contexte de recherche et motivation

Problèmes fondamentaux

Adaptabilité insuffisante : Les systèmes multi-robots traditionnels ont du mal à généraliser dans les environnements dynamiques et non structurés, dépendant fortement des priors prédéfinis et des données d'entraînement limitées
Rigidité du cadre décisionnel : Les cadres décisionnels existants sont soit trop rigides pour supporter la reconfiguration en ligne, soit trop fragiles pour assurer une robustesse à long terme
Défis de coordination hétérogène : Les robots hétérogènes possèdent des capacités différentes, et la manière de reconstruire et partager les arbres de comportement à l'exécution reste insuffisamment résolue

Importance de la recherche

Les systèmes multi-robots offrent un potentiel énorme pour améliorer l'efficacité opérationnelle, mais doivent s'adapter aux défaillances, aux changements environnementaux et aux situations inattendues dans les environnements dynamiques. Ceci est crucial dans les applications pratiques telles que la recherche et le sauvetage, l'automatisation d'entrepôts, les robots de service, etc.

Limitations des approches existantes

Approches basées sur les LLM : Bien qu'elles démontrent de fortes capacités de raisonnement, elles génèrent généralement les plans de tâches de manière unique, manquant de mécanismes de correction en ligne après le début de l'exécution
Approches basées sur les arbres de comportement : Elles offrent la modularité et les mécanismes de récupération, mais dépendent fortement des nœuds d'action conçus manuellement et des structures de tâches prédéfinies
Absence de cadre unifié : Les recherches existantes n'intègrent pas suffisamment les capacités de raisonnement sémantique des LLM et la robustesse structurelle des AB

Contributions principales

Cadre dynamique : Propose un cadre dynamique intégrant le raisonnement des modèles de langage de grande taille et les arbres de comportement pour la coordination de robots multi-hétérogènes
Mécanisme hybride : Conçoit un mécanisme hybride centralisé-distribué réalisant l'adaptation à l'exécution par extension locale de l'AB et réaffectation centralisée des tâches
Nouveau benchmark : Construit un nouveau benchmark couvrant des tâches de simulation diversifiées et des environnements du monde réel, validant la robustesse et l'extensibilité de la méthode
Exécution en boucle fermée : Réalise une boucle fermée de détection des défaillances, raisonnement et adaptation de l'arbre, permettant aux robots hétérogènes d'optimiser continuellement les stratégies d'exécution

Détails de la méthode

Définition des tâches

Considérez un système multi-robots hétérogènes (SMRH) R = {r₁, ..., rₙ}, où chaque robot rᵢ possède un espace d'actions :

$A_i = \{a_i^1, ..., a_i^{m_i}\}$

L'hétérogénéité se manifeste par Aᵢ ≠ Aⱼ (i ≠ j), reflétant les différences morphologiques et de capacités. Une tâche τ est représentée par l'ensemble d'actions requises Aτ ⊆ ⋃ᵢ Aᵢ.

Architecture du modèle

1. Conception du cadre global

Le cadre comprend quatre modules interconnectés :

Initialisation des tâches (Task Initialization) : Convertit les instructions humaines en AB initial
Allocation des tâches (Task Assignment) : Les nœuds défaillants déclenchent le réaffectation par l'allocateur central
Mise à jour de l'AB (Behavior Tree Update) : Insère de nouveaux sous-arbres ou synchronise les AB entre robots
Détection des nœuds défaillants (Failure Node Detection) : Surveille continuellement l'exécution de l'AB et identifie les goulots d'étranglement

2. Formalisation de l'arbre de comportement

Arbre de comportement T = (V, E, r), où V est l'ensemble des nœuds, E définit les arêtes parent-enfant, et r est le nœud racine. Chaque nœud retourne un état Succès, Échec ou Exécution.

Logique d'exécution du nœud séquence : $Seq(c_1, ..., c_n) = \begin{cases} Échec, & \exists i: c_i = Échec \\ Exécution, & \exists i: c_i = Exécution \\ Succès, & \forall i: c_i = Succès \end{cases}$

3. Coordinateur virtuel Alex

Alex agit comme allocateur central, maintenant une vue partagée des états des robots et de l'environnement. Lorsqu'un nœud défaillant fᵢ est signalé, Alex collecte les informations contextuelles et identifie les robots et actions appropriés pour résoudre la défaillance.

Points d'innovation technique

1. Extension dynamique de l'AB

Extension indépendante : Les robots utilisent leur propre ensemble d'actions pour résoudre les conditions d'échec
Extension déléguée : Lorsque l'échec ne peut pas être résolu localement, Alex l'assigne à un robot compagnon possédant les capacités appropriées

2. Conditions préalables et postconditions

Chaque nœud d'action a est associé à :

Conditions préalables Pre(a) = {c₁ᵖʳᵉ, ..., cₘᵖʳᵉ} : Conditions qui doivent être satisfaites avant l'exécution
Conditions postconditions Post(a) = {c₁ᵖᵒˢᵗ, ..., cₘᵖᵒˢᵗ} : Conditions résultantes après exécution réussie

3. Mécanisme de récupération des défaillances

Le système stocke les nœuds défaillants dans une file d'attente dédiée Fₙₒ𝒹ₑₛ, plutôt que de simplement propager l'arrêt vers le haut. Cela fournit la capacité d'identifier systématiquement les goulots d'étranglement d'exécution et de déclencher le processus d'extension.

Configuration expérimentale

Ensemble de données

Ensemble de données Behavior-1K : Contient des descriptions de tâches diversifiées incluant navigation, manipulation d'objets et tâches collaboratives
Stratégie d'échantillonnage : 20 tâches par groupe, couvrant des séquences d'actions de 2 à 20 étapes
Trois scénarios :
1. Un seul robot quadrupède
2. Robot quadrupède + drone
3. Robot quadrupède + drone + bras mécanique

Métriques d'évaluation

Taux de succès (TS) : $TS = \frac{1}{N}\sum_{i=1}^N s_i$ , où sᵢ ∈ {0,1} indique si la tâche i est complétée avec succès
Nombre moyen d'étapes (NME) : $NME = \frac{1}{N}\sum_{i=1}^N k_i$ , où kᵢ représente le nombre d'étapes d'exécution de l'AB requises pour compléter la tâche i

Méthodes de comparaison

MCTS : Utilise uniquement la recherche par arbre de Monte-Carlo pour la planification d'actions
LLM-MCTS : Améliore MCTS avec un modèle du monde généré par LLM

Détails d'implémentation

MCTS et LLM-MCTS configurés avec le même budget de 500 simulations et profondeur de recherche maximale de 20
20 tâches par scénario exécutées 5 fois en essais indépendants, avec positions initiales aléatoires
Les expériences du monde réel sont menées dans un environnement de café avec 10 essais répétés

Résultats expérimentaux

Résultats principaux

Méthode	Scénario 1	Scénario 2	Scénario 3
	TS(%) NME	TS(%) NME	TS(%) NME
MCTS	95 3,95	55 4,91	35 8,80
LLM-MCTS	90 4,11	55 5,18	35 9,00
LLM-HBT	100 4,05	100 5,05	100 8,4

Conclusions clés

Taux de succès parfait : LLM-HBT atteint un taux de succès de 100% dans tous les scénarios, tandis que les méthodes de base diminuent significativement avec l'augmentation de l'hétérogénéité et de la complexité des tâches
Amélioration de l'efficacité : Dans le scénario 3 le plus difficile, le nombre moyen d'étapes de LLM-HBT (8,4) est inférieur à MCTS (8,80) et LLM-MCTS (9,00)
Vérification de la robustesse : Dans le scénario 3, les méthodes de base ne complètent que 40% des tâches avec succès, tandis que LLM-HBT maintient un taux de succès de 100%

Expériences du monde réel

Dans un environnement de café, un bras mécanique et un robot à roues-pattes collaborent pour placer une bouteille sur un comptoir :

Flux de tâches : Le bras mécanique établit les conditions préalables pour que la bouteille soit dans l'espace de travail saisissable → le robot à roues navigue pour récupérer la bouteille → le bras mécanique complète la saisie et le placement
Résultats : Les 10 essais sont tous réussis, validant l'efficacité du cadre dans les environnements réels

Analyse d'ablation

Les résultats détaillés de 20 tâches × 3 méthodes indiquent :

Groupe 1 : LLM-HBT complète toutes les tâches, les méthodes de base échouent sur T12, T16, etc.
Groupe 2 : LLM-HBT complète avec succès les tâches T3, T4, T20, etc. où les méthodes de base échouent
Groupe 3 : Les méthodes de base échouent sur la plupart des tâches (marquées par "x"), LLM-HBT réussit presque toutes les tâches

Travaux connexes

Conception automatique d'arbres de comportement

Les approches existantes nécessitent généralement une conception manuelle de fonctions de coût ou fonctionnent sous des hypothèses simplifiées
Cet article élimine le besoin de fonctions de coût manuelles par le raisonnement des LLM, étendant dynamiquement la structure de l'AB

Planification multi-robots basée sur les LLM

Les recherches existantes se concentrent principalement sur les systèmes de robots homogènes, manquant d'un cadre d'exécution structuré
La coordination de robots hétérogènes reste insuffisamment explorée

Différenciation technique

Cette recherche intègre pour la première fois le raisonnement des LLM et la construction dynamique d'AB pour les systèmes multi-robots hétérogènes, comblant un vide dans ce domaine.

Conclusion et discussion

Conclusions principales

Validation de l'efficacité : LLM-HBT améliore significativement le taux de succès des tâches et l'efficacité d'exécution
Amélioration de l'adaptabilité : Le mécanisme en boucle fermée permet aux robots d'optimiser continuellement les stratégies d'exécution
Coordination hétérogène : Réalise avec succès la réaffectation dynamique des tâches entre robots de capacités différentes

Limitations

Latence de raisonnement des LLM : Peut affecter les applications nécessitant une réactivité en temps réel
Portée de la validation du monde réel : Actuellement validée uniquement dans un environnement de café
Dépendance à la communication : Nécessite une communication fiable entre les robots

Directions futures

Conception tenant compte de la latence : Développer des mécanismes d'optimisation considérant la latence de raisonnement
Décentralisation efficace en communication : Réduire la dépendance au coordinateur central
Robustesse face à l'incertitude perceptuelle : Mécanismes de récupération robustes sous bruit et observation incomplète

Évaluation approfondie

Points forts

Innovativité de la méthode : Première intégration systématique du raisonnement des LLM et de la construction dynamique d'AB, approche technique novatrice
Suffisance expérimentale : Couvre simulations et environnements réels, validation multi-scénarios complète
Pouvoir de conviction des résultats : Taux de succès de 100% et amélioration d'efficacité hautement convaincants
Fondation théorique : Définitions formalisées claires, expression mathématique rigoureuse

Insuffisances

Questionnement sur le taux de succès parfait : Un taux de succès de 100% peut suggérer des tâches relativement simples ou un surapprentissage potentiel
Analyse des coûts de calcul manquante : Les coûts de calcul et les surcharges temporelles du raisonnement des LLM ne sont pas analysés en détail
Vérification d'extensibilité insuffisante : Testé avec au maximum 3 robots, l'extensibilité du système à grande échelle n'est pas vérifiée
Analyse des modes de défaillance insuffisante : Analyse insuffisante des modes de défaillance dans les cas extrêmes

Impact

Contribution académique : Fournit un nouveau paradigme technologique pour la coordination multi-robots
Valeur pratique : Applicable aux robots de service, automatisation industrielle et autres domaines
Reproductibilité : Description détaillée de la méthode, mais disponibilité du code et des ensembles de données non clarifiée

Scénarios applicables

Robots de service : Scénarios de service nécessitant la collaboration multi-robots dans les restaurants, hôtels, etc.
Automatisation industrielle : Tâches d'assemblage complexes nécessitant la coordination de robots hétérogènes
Tâches de recherche et sauvetage : Coordination de différents types de robots dans les environnements dynamiques
Logistique d'entrepôt : Planification intelligente et allocation de tâches pour robots multi-types

Références

L'article cite les travaux importants des domaines connexes, notamment :

Applications des arbres de comportement en robotique 6,7,9
Planification multi-robots basée sur les LLM 14,15,16
Allocation de tâches pour systèmes multi-robots hétérogènes 2,12,13
Progrès récents en conception automatique d'arbres de comportement 10,11

Évaluation globale : Cet article propose un cadre de coordination multi-robots hétérogènes avec une forte innovativité technique et une validation expérimentale suffisante. La combinaison des LLM et des AB fournit une nouvelle approche de résolution pour ce domaine, possédant une valeur académique importante et un potentiel pratique considérable. Malgré certaines limitations, la qualité globale est élevée et établit une bonne base pour les recherches futures connexes.