2025-11-14T03:58:11.705982

LLM-HBT: Dynamic Behavior Tree Construction for Adaptive Coordination in Heterogeneous Robots

Wang, Sun, Zhang et al.

We introduce a novel framework for automatic behavior tree (BT) construction in heterogeneous multi-robot systems, designed to address the challenges of adaptability and robustness in dynamic environments. Traditional robots are limited by fixed functional attributes and cannot efficiently reconfigure their strategies in response to task failures or environmental changes. To overcome this limitation, we leverage large language models (LLMs) to generate and extend BTs dynamically, combining the reasoning and generalization power of LLMs with the modularity and recovery capability of BTs. The proposed framework consists of four interconnected modules task initialization, task assignment, BT update, and failure node detection which operate in a closed loop. Robots tick their BTs during execution, and upon encountering a failure node, they can either extend the tree locally or invoke a centralized virtual coordinator (Alex) to reassign subtasks and synchronize BTs across peers. This design enables long-term cooperative execution in heterogeneous teams. We validate the framework on 60 tasks across three simulated scenarios and in a real-world cafe environment with a robotic arm and a wheeled-legged robot. Results show that our method consistently outperforms baseline approaches in task success rate, robustness, and scalability, demonstrating its effectiveness for multi-robot collaboration in complex scenarios.

academic

LLM-HBT: विषमांगी रोबोट में अनुकूली समन्वय के लिए गतिशील व्यवहार वृक्ष निर्माण

मूल जानकारी

पेपर ID: 2510.09963
शीर्षक: LLM-HBT: Dynamic Behavior Tree Construction for Adaptive Coordination in Heterogeneous Robots
लेखक: Chao-ran Wang, Jingyuan Sun*, Yan-hui Zhang, Mingyu Zhang, Chang-ju Wu*
वर्गीकरण: cs.RO (रोबोटिक्स)
प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09963

सारांश

यह पेपर विषमांगी बहु-रोबोट प्रणालियों में स्वचालित व्यवहार वृक्ष (BT) निर्माण के लिए एक नई रूपरेखा प्रस्तावित करता है, जिसका उद्देश्य गतिशील वातावरण में अनुकूलनशीलता और मजबूती की चुनौतियों को हल करना है। पारंपरिक रोबोट निश्चित कार्यात्मक गुणों तक सीमित हैं और कार्य विफलता या पर्यावरणीय परिवर्तन के समय नीति को कुशलतापूर्वक पुनः कॉन्फ़िगर नहीं कर सकते। इस सीमा को दूर करने के लिए, लेखक बड़े भाषा मॉडल (LLM) का उपयोग करके गतिशील रूप से व्यवहार वृक्ष उत्पन्न और विस्तारित करते हैं, LLM की तर्क और सामान्यीकरण क्षमता को BT की मॉड्यूलरिटी और पुनर्प्राप्ति क्षमता के साथ जोड़ते हैं। यह रूपरेखा चार परस्पर जुड़े मॉड्यूल - कार्य आरंभीकरण, कार्य आवंटन, BT अपडेट और विफलता नोड पहचान - को शामिल करती है जो एक बंद लूप संचालन बनाते हैं। रोबोट निष्पादन के दौरान अपने BT को चलाते हैं, विफलता नोड का सामना करने पर स्थानीय रूप से वृक्ष को विस्तारित कर सकते हैं या केंद्रीय आभासी समन्वयक (Alex) को कॉल कर सकते हैं जो उप-कार्यों को पुनः आवंटित करता है और साथियों के BT को सिंक्रोनाइज़ करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

अपर्याप्त अनुकूलनशीलता: पारंपरिक बहु-रोबोट प्रणालियां गतिशील और असंरचित वातावरण में सामान्यीकरण करने में कठिनाई का सामना करती हैं, पूर्वनिर्धारित पूर्वधारणाओं और सीमित प्रशिक्षण डेटा पर गंभीर रूप से निर्भर हैं
निर्णय ढांचे की कठोरता: मौजूदा निर्णय ढांचे या तो ऑनलाइन पुनः कॉन्फ़िगरेशन का समर्थन करने के लिए बहुत कठोर हैं, या दीर्घकालिक मजबूती सुनिश्चित करने के लिए बहुत नाजुक हैं
विषमांगी समन्वय चुनौती: विषमांगी रोबोट में विभिन्न क्षमताएं होती हैं, रनटाइम पर सहयोगी पुनर्निर्माण और व्यवहार वृक्ष साझा करना अभी तक पूरी तरह से समाधान नहीं हुआ है

अनुसंधान का महत्व

बहु-रोबोट प्रणालियां परिचालन दक्षता बढ़ाने में विशाल संभावना रखती हैं, लेकिन गतिशील वातावरण में विफलताओं, पर्यावरणीय परिवर्तनों और अप्रत्याशित परिस्थितियों के अनुकूल होना चाहिए। यह खोज और बचाव, गोदाम स्वचालन, सेवा रोबोट आदि जैसे व्यावहारिक अनुप्रयोगों में महत्वपूर्ण है।

मौजूदा विधियों की सीमाएं

LLM-आधारित विधियां: हालांकि मजबूत तर्क क्षमता प्रदर्शित करती हैं, लेकिन आमतौर पर एकल-पास तरीके से कार्य योजना उत्पन्न करती हैं, निष्पादन शुरू होने के बाद ऑनलाइन सुधार तंत्र की कमी है
व्यवहार वृक्ष-आधारित विधियां: मॉड्यूलरिटी और पुनर्प्राप्ति तंत्र प्रदान करती हैं, लेकिन मैन्युअल रूप से डिज़ाइन किए गए क्रिया नोड्स और पूर्वनिर्धारित कार्य संरचना पर गंभीर रूप से निर्भर हैं
एकीकृत रूपरेखा की कमी: मौजूदा अनुसंधान LLM की शब्दार्थ तर्क क्षमता और BT की संरचनात्मक मजबूती को पूरी तरह से एकीकृत करने में विफल रहा है

मुख्य योगदान

गतिशील रूपरेखा: बड़े भाषा मॉडल तर्क और व्यवहार वृक्ष को एकीकृत करने वाली गतिशील रूपरेखा प्रस्तावित करता है, विषमांगी बहु-रोबोट समन्वय के लिए
हाइब्रिड तंत्र: केंद्रीकृत-वितरित हाइब्रिड तंत्र डिज़ाइन करता है, स्थानीय BT विस्तार और केंद्रीकृत कार्य पुनः आवंटन के माध्यम से रनटाइम अनुकूलन प्राप्त करता है
नया बेंचमार्क: विविध सिमुलेशन कार्यों और वास्तविक-विश्व वातावरण को शामिल करने वाला नया बेंचमार्क बनाता है, विधि की मजबूती और स्केलेबिलिटी को सत्यापित करता है
बंद लूप निष्पादन: विफलता पहचान, तर्क और वृक्ष अनुकूलन का बंद लूप चक्र लागू करता है, विषमांगी रोबोट को निष्पादन रणनीति को निरंतर अनुकूलित करने में सक्षम बनाता है

विधि विवरण

कार्य परिभाषा

विषमांगी बहु-रोबोट प्रणाली (HMRS) R = {r₁, ..., rₙ} पर विचार करें, जहां प्रत्येक रोबोट rᵢ में क्रिया स्थान है:

$A_i = \{a_i^1, ..., a_i^{m_i}\}$

विषमांगीता Aᵢ ≠ Aⱼ (i ≠ j) में परिलक्षित होती है, जो आकृति विज्ञान और क्षमता अंतर को दर्शाती है। कार्य τ आवश्यक क्रियाओं के समुच्चय Aτ ⊆ ⋃ᵢ Aᵢ द्वारा प्रतिनिधित्व किया जाता है।

मॉडल आर्किटेक्चर

1. समग्र रूपरेखा डिजाइन

रूपरेखा चार परस्पर जुड़े मॉड्यूल को शामिल करती है:

कार्य आरंभीकरण (Task Initialization): मानव निर्देशों को प्रारंभिक BT में परिवर्तित करता है
कार्य आवंटन (Task Assignment): विफलता नोड केंद्रीय आवंटक को ट्रिगर करता है कार्य पुनः आवंटित करने के लिए
BT अपडेट (Behavior Tree Update): नए उप-वृक्ष डालता है या रोबोट के बीच BT को सिंक्रोनाइज़ करता है
विफलता नोड पहचान (Failure Node Detection): BT निष्पादन की निरंतर निगरानी करता है और बाधाओं की पहचान करता है

2. व्यवहार वृक्ष औपचारिकीकरण

व्यवहार वृक्ष T = (V, E, r), जहां V नोड्स का समुच्चय है, E माता-पिता-बच्चे के किनारों को परिभाषित करता है, r मूल नोड है। प्रत्येक नोड Success, Failure या Running स्थिति लौटाता है।

अनुक्रम नोड निष्पादन तर्क: $Seq(c_1, ..., c_n) = \begin{cases} Failure, & \exists i: c_i = Failure \\ Running, & \exists i: c_i = Running \\ Success, & \forall i: c_i = Success \end{cases}$

3. आभासी समन्वयक Alex

Alex केंद्रीय आवंटक के रूप में कार्य करता है, रोबोट और पर्यावरणीय स्थिति का साझा दृश्य बनाए रखता है। जब विफलता नोड fᵢ की रिपोर्ट की जाती है, तो Alex संदर्भ जानकारी एकत्र करता है और विफलता को हल करने के लिए उपयुक्त रोबोट और क्रियाओं की पहचान करता है।

तकनीकी नवाचार

1. गतिशील BT विस्तार

स्वतंत्र विस्तार: रोबोट अपने क्रिया समुच्चय का उपयोग करके विफलता स्थितियों को हल करता है
प्रतिनिधिमंडन विस्तार: जब विफलता स्थानीय रूप से हल नहीं की जा सकती, तो Alex उपयुक्त क्षमता वाले साथी रोबोट को आवंटित करता है

2. पूर्व और पश्च शर्तें

प्रत्येक क्रिया नोड a से संबद्ध:

पूर्व शर्त Pre(a) = {c₁ᵖʳᵉ, ..., cₘᵖʳᵉ}: निष्पादन से पहले पूरी की जानी चाहिए
पश्च शर्त Post(a) = {c₁ᵖᵒˢᵗ, ..., cₘᵖᵒˢᵗ}: सफल निष्पादन के बाद परिणाम शर्तें

3. विफलता पुनर्प्राप्ति तंत्र

प्रणाली विफलता नोड्स को समर्पित कतार Fₙₒ𝒹ₑₛ में संग्रहीत करती है, बजाय सरल ऊपर की ओर प्रसार के। यह निष्पादन बाधाओं की व्यवस्थित पहचान और विस्तार प्रक्रिया को ट्रिगर करने की क्षमता प्रदान करता है।

प्रायोगिक सेटअप

डेटासेट

Behavior-1K डेटासेट: नेविगेशन, वस्तु हेरफेर और सहयोगी कार्यों के विविध कार्य विवरण शामिल हैं
नमूनाकरण रणनीति: प्रत्येक समूह में 20 कार्य, 2-20 चरणों तक की क्रिया अनुक्रम को कवर करते हैं
तीन परिदृश्य:
1. एकल चतुष्पद रोबोट
2. चतुष्पद रोबोट + ड्रोन
3. चतुष्पद रोबोट + ड्रोन + रोबोटिक आर्म

मूल्यांकन मेट्रिक्स

सफलता दर (SR): $SR = \frac{1}{N}\sum_{i=1}^N s_i$ , जहां sᵢ ∈ {0,1} दर्शाता है कि कार्य i सफलतापूर्वक पूरा हुआ या नहीं
औसत चरण (AS): $AS = \frac{1}{N}\sum_{i=1}^N k_i$ , जहां kᵢ कार्य i को पूरा करने के लिए आवश्यक BT निष्पादन चरणों को दर्शाता है

तुलनात्मक विधियां

MCTS: क्रिया योजना के लिए केवल मोंटे कार्लो वृक्ष खोज का उपयोग
LLM-MCTS: LLM द्वारा उत्पन्न विश्व मॉडल द्वारा वर्धित MCTS

कार्यान्वयन विवरण

MCTS और LLM-MCTS को 500 सिमुलेशन बजट और अधिकतम खोज गहराई 20 के साथ कॉन्फ़िगर किया गया है
प्रत्येक परिदृश्य के 20 कार्य 5 स्वतंत्र परीक्षणों में निष्पादित किए गए हैं, प्रारंभिक स्थिति यादृच्छिकीकृत है
वास्तविक-विश्व प्रयोग कैफे वातावरण में 10 दोहराए गए परीक्षणों में किए गए हैं

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	परिदृश्य 1	परिदृश्य 2	परिदृश्य 3
	SR(%) AS	SR(%) AS	SR(%) AS
MCTS	95 3.95	55 4.91	35 8.80
LLM-MCTS	90 4.11	55 5.18	35 9.00
LLM-HBT	100 4.05	100 5.05	100 8.4

मुख्य निष्कर्ष

पूर्ण सफलता दर: LLM-HBT सभी परिदृश्यों में 100% सफलता दर प्राप्त करता है, जबकि आधारभूत विधियां विषमांगीता और कार्य जटिलता के साथ महत्वपूर्ण रूप से गिरती हैं
दक्षता में सुधार: सबसे चुनौतीपूर्ण परिदृश्य 3 में, LLM-HBT की औसत चरण (8.4) MCTS (8.80) और LLM-MCTS (9.00) से कम है
मजबूती सत्यापन: परिदृश्य 3 में, आधारभूत विधियां केवल 40% कार्य सफलतापूर्वक पूरा करती हैं, जबकि LLM-HBT 100% सफलता दर बनाए रखता है

वास्तविक-विश्व प्रयोग

कैफे वातावरण में, रोबोटिक आर्म और पहिएदार पैरों वाला रोबोट बोतल को काउंटर पर रखने के लिए सहयोग करते हैं:

कार्य प्रवाह: रोबोटिक आर्म बोतल के लिए पकड़ने योग्य कार्य स्थान में पूर्व शर्त स्थापित करता है → पहिएदार रोबोट बोतल प्राप्त करने के लिए नेविगेट करता है → रोबोटिक आर्म पकड़ना और रखना पूरा करता है
परिणाम: सभी 10 परीक्षण सफल, वास्तविक वातावरण में रूपरेखा की प्रभावशीलता को सत्यापित करता है

विलोपन विश्लेषण

20 कार्य × 3 विधि के विस्तृत परिणाम दर्शाते हैं:

समूह 1: LLM-HBT सभी कार्य पूरा करता है, आधारभूत T12, T16 आदि कार्यों में विफल होते हैं
समूह 2: LLM-HBT आधारभूत द्वारा विफल T3, T4, T20 आदि कार्यों को सफलतापूर्वक पूरा करता है
समूह 3: आधारभूत अधिकांश कार्यों में विफल होते हैं ("x" चिह्नित), LLM-HBT लगभग सभी कार्यों में सफल होता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: LLM-HBT कार्य सफलता दर और निष्पादन दक्षता में महत्वपूर्ण सुधार करता है
अनुकूलनशीलता वृद्धि: बंद लूप तंत्र रोबोट को निष्पादन रणनीति को निरंतर अनुकूलित करने में सक्षम बनाता है
विषमांगी समन्वय: विभिन्न क्षमता वाले रोबोट के बीच गतिशील कार्य पुनः आवंटन को सफलतापूर्वक लागू करता है

सीमाएं

LLM तर्क विलंब: वास्तविक समय आवश्यकताओं वाले अनुप्रयोगों को प्रभावित कर सकता है
वास्तविक-विश्व सत्यापन सीमा: वर्तमान में केवल कैफे वातावरण में सत्यापित है
संचार निर्भरता: रोबोट के बीच विश्वसनीय संचार की आवश्यकता है

भविष्य की दिशाएं

विलंब-जागरूक डिजाइन: तर्क विलंब को ध्यान में रखने वाली अनुकूलन तंत्र विकसित करता है
संचार-कुशल विकेंद्रीकरण: केंद्रीय समन्वयक पर निर्भरता को कम करता है
संवेदन अनिश्चितता मजबूती: शोर और अधूरे अवलोकन के तहत मजबूत पुनर्प्राप्ति तंत्र

गहन मूल्यांकन

शक्तियां

विधि नवाचार: पहली बार LLM तर्क और BT गतिशील निर्माण को व्यवस्थित रूप से एकीकृत करता है, तकनीकी मार्ग नवीन है
प्रायोगिक पूर्णता: सिमुलेशन और वास्तविक वातावरण को शामिल करता है, बहु-परिदृश्य सत्यापन व्यापक है
परिणाम प्रेरक: 100% सफलता दर और दक्षता सुधार अत्यधिक प्रेरक है
सैद्धांतिक आधार: औपचारिक परिभाषा स्पष्ट है, गणितीय अभिव्यक्ति कठोर है

कमियां

पूर्ण सफलता दर संदेह: 100% सफलता दर संकेत दे सकती है कि कार्य अपेक्षाकृत सरल हैं या अतिसज्जन मौजूद है
कम्प्यूटेशनल ओवरहेड विश्लेषण की कमी: LLM तर्क की कम्प्यूटेशनल लागत और समय ओवरहेड विस्तार से विश्लेषण नहीं किया गया है
स्केलेबिलिटी सत्यापन अपर्याप्त: केवल अधिकतम 3 रोबोट परीक्षण किए गए हैं, बड़े पैमाने की प्रणाली स्केलेबिलिटी सत्यापित नहीं है
विफलता मोड विश्लेषण की कमी: चरम परिस्थितियों में विफलता मोड का पूरी तरह विश्लेषण नहीं किया गया है

प्रभाव

शैक्षणिक योगदान: बहु-रोबोट समन्वय के लिए नई तकनीकी प्रतिमा प्रदान करता है
व्यावहारिक मूल्य: सेवा रोबोट, औद्योगिक स्वचालन आदि क्षेत्रों में लागू किया जा सकता है
पुनरुत्पादनशीलता: विधि विवरण विस्तृत है, लेकिन कोड और डेटासेट उपलब्धता स्पष्ट नहीं है

लागू परिदृश्य

सेवा रोबोट: रेस्तरां, होटल आदि जहां बहु-रोबोट सहयोग की आवश्यकता है
औद्योगिक स्वचालन: जटिल असेंबली कार्यों को पूरा करने के लिए विषमांगी रोबोट सहयोग की आवश्यकता है
खोज और बचाव कार्य: गतिशील वातावरण में विभिन्न प्रकार के रोबोट समन्वय
गोदाम और लॉजिस्टिक्स: बहु-प्रकार रोबोट की बुद्धिमान शेड्यूलिंग और कार्य आवंटन

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

रोबोटिक्स में व्यवहार वृक्ष का अनुप्रयोग 6,7,9
LLM-आधारित बहु-रोबोट योजना 14,15,16
विषमांगी बहु-रोबोट प्रणालियों का कार्य आवंटन 2,12,13
व्यवहार वृक्ष स्वचालित डिजाइन की नवीनतम प्रगति 10,11

समग्र मूल्यांकन: यह पेपर एक तकनीकी रूप से नवीन और प्रायोगिक रूप से सत्यापित विषमांगी बहु-रोबोट समन्वय रूपरेखा प्रस्तावित करता है। LLM और BT का संयोजन इस क्षेत्र के लिए नई समस्या-समाधान सोच प्रदान करता है, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक संभावना रखता है। कुछ सीमाओं के बावजूद, समग्र गुणवत्ता उच्च है और भविष्य के संबंधित अनुसंधान के लिए एक अच्छा आधार प्रदान करता है।