2025-11-19T18:28:14.904030

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Judge, Duchateau, Judge et al.

Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.

academic

समय-स्थान इकोकार्डियोग्राफी विभाजन में अनुपर्यवेक्षित डोमेन अनुकूलन के लिए सुदृढीकरण शिक्षण

मूल जानकारी

पेपर ID: 2510.14244
शीर्षक: समय-स्थान इकोकार्डियोग्राफी विभाजन में अनुपर्यवेक्षित डोमेन अनुकूलन के लिए सुदृढीकरण शिक्षण
लेखक: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
वर्गीकरण: eess.IV cs.AI cs.CV
प्रकाशित पत्रिका: IEEE Transactions on Medical Imaging (2025)
पेपर लिंक: https://arxiv.org/abs/2510.14244
कोड लिंक: https://github.com/arnaudjudge/RL4Seg3D

सारांश

यह पेपर RL4Seg3D प्रस्तावित करता है, जो 2D+समय अल्ट्रासाउंड हृदय विभाजन के लिए एक अनुपर्यवेक्षित डोमेन अनुकूलन ढांचा है। यह विधि सुदृढीकरण शिक्षण के माध्यम से समय-स्थान डेटा में डोमेन अनुकूलन समस्या को हल करती है, विशेष रूप से अल्ट्रासाउंड हृदय में कलाकृतियों और शोर के कारण विभाजन प्रदर्शन में गिरावट के साथ। RL4Seg3D नवीन पुरस्कार कार्य और संलयन तंत्र को एकीकृत करता है, जबकि पूर्ण आकार के इनपुट वीडियो को संभालते हुए महत्वपूर्ण शारीरिक स्थलों की सटीकता को बढ़ाता है। यह विधि न केवल सटीकता, शारीरिक वैधता और समय संगति में सुधार करती है, बल्कि मजबूत अनिश्चितता अनुमानक भी प्रदान करती है जो परीक्षण समय पर विभाजन प्रदर्शन को और बढ़ा सकते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

डोमेन अनुकूलन चुनौतियाँ: पारंपरिक डोमेन अनुकूलन विधियाँ लक्ष्य डोमेन में अपर्याप्त विश्वसनीयता प्रदान करती हैं, जो चिकित्सा छवि विभाजन में विशेष रूप से महत्वपूर्ण है क्योंकि सटीकता और शारीरिक वैधता अत्यावश्यक है
समय-स्थान डेटा जटिलता: समय-स्थान डेटा में, समय संगति की कमी विभाजन गुणवत्ता को महत्वपूर्ण रूप से कम करती है
अल्ट्रासाउंड हृदय विशेषता: अल्ट्रासाउंड हृदय में कलाकृतियाँ और शोर विभाजन प्रदर्शन को और अधिक बाधित करते हैं

अनुसंधान महत्व

चिकित्सा छवि विभाजन को बड़ी मात्रा में विशेषज्ञ एनोटेशन की आवश्यकता होती है, जिसकी प्राप्ति लागत अधिक है और समय लेने वाली है
2D+समय अनुक्रम का एनोटेशन स्थिर 2D छवियों की तुलना में अधिक कठिन है
नैदानिक अनुप्रयोग उच्च सटीकता और शारीरिक वैधता की मांग करते हैं

मौजूदा विधियों की सीमाएँ

2D विधियों की समय असंगति: प्रत्येक फ्रेम को स्वतंत्र रूप से संसाधित करने से समय असंगति उत्पन्न होती है
डाउनसैंपलिंग सूचना हानि: मौजूदा विधियाँ आमतौर पर कम रिज़ॉल्यूशन इनपुट पर काम करती हैं
शारीरिक बाधाओं की कमी: पारंपरिक विधियाँ शारीरिक वैधता सुनिश्चित करने में कठिनाई का सामना करती हैं
आधार मॉडल की सीमाएँ: SAM जैसे मॉडल वीडियो विभाजन में समय असंगति समस्या से ग्रस्त हैं

मुख्य योगदान

सुदृढीकरण शिक्षण विभाजन ढांचे का विस्तार: RL4Seg को 3D समय-स्थान विभाजन तक विस्तारित करना, कई समवर्ती पुरस्कार तंत्र का समर्थन करना
पूर्ण आकार वीडियो प्रसंस्करण: संपूर्ण आकार के इनपुट वीडियो के सुसंगत प्रसंस्करण को लागू करना, नए समय संगति और महत्वपूर्ण स्थल सटीकता पुरस्कार टेम्पलेट डिजाइन करना
बढ़ी हुई अनिश्चितता अनुमान: पुरस्कार नेटवर्क की अनिश्चितता अनुमान क्षमता का विस्तार करना, पिक्सेल-स्तर समय-स्थान विभाजन के लिए आत्मविश्वास मूल्यांकन को लागू करना
परीक्षण समय अनुकूलन तंत्र: अनिश्चितता अनुमान का उपयोग करके चुनौतीपूर्ण वीडियो प्रदर्शन में सुधार करने के लिए परीक्षण समय अनुकूलन तंत्र का परिचय
बड़े पैमाने पर सत्यापन: 30,000 से अधिक अल्ट्रासाउंड हृदय वीडियो पर विधि की प्रभावशीलता और स्केलेबिलिटी को सत्यापित करना

विधि विवरण

कार्य परिभाषा

इनपुट: स्रोत डोमेन एनोटेटेड डेटा $D_S = \{(x_S^{(i)}, y_S^{(i)})\}_{i=1}^n$ और लक्ष्य डोमेन अनएनोटेटेड डेटा $D_T = \{x_T^{(j)}\}_{j=1}^m$
आउटपुट: लक्ष्य डोमेन पर सटीक, शारीरिक रूप से वैध और समय संगत विभाजन परिणाम
बाधाएँ: लक्ष्य डोमेन एनोटेशन की आवश्यकता नहीं, शारीरिक वैधता और समय सुसंगतता बनाए रखना

मॉडल आर्किटेक्चर

3D विभाजन सुदृढीकरण शिक्षण ढांचा

स्थिति परिभाषा: $s$ 2D+समय छवि का समय स्लाइस है, जिसमें क्रमागत पूर्ण आकार के फ्रेम हैं
क्रिया परिभाषा: $a$ संबंधित निरंतर विभाजन मानचित्र है
नीति नेटवर्क: $\pi: \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{K \times H \times W \times T}$ , 3D U-Net पर आधारित
पुरस्कार कार्य: $r(s,a): \mathbb{R}^{2 \times H \times W \times T} \rightarrow [0,1]^{H \times W \times T}$
मूल्य कार्य: $V^\pi(s): \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{H \times W \times T}$

पुरस्कार संलयन तंत्र

लाभ कार्य को इस प्रकार परिभाषित किया गया है: $A(s,a)_{i,j,t} = \left(\min_{r_{i,j,t} \in R_{i,j,t}} r_{i,j,t} - C_{KL_{i,j,t}}\right) - V^\pi(s)_{i,j,t}$

जहाँ न्यूनतम ऑपरेशन यह सुनिश्चित करता है कि नीति प्रत्येक पिक्सल की सबसे गंभीर त्रुटि के अनुसार सुधार करे।

तकनीकी नवाचार

1. बहु-पुरस्कार तंत्र

शारीरिक पुरस्कार ( $r_{ANAT}$ ): स्व-अनुकूली नेटवर्क, शारीरिक संकेतकों के आधार पर डोमेन अनुकूलन का मार्गदर्शन करता है
स्थल पुरस्कार ( $r_{LM}$ ): द्विपत्री कमिसुरे जैसे महत्वपूर्ण शारीरिक स्थलों के संरेखण के लिए पुरस्कार
समय दंड ( $P_{Temporal}$ ): स्थिर पुरस्कार तंत्र, 8 समय संकेतकों के माध्यम से समय संगति का मूल्यांकन करता है

2. समय स्लाइडिंग विंडो

4 क्रमागत पूर्ण आकार के फ्रेम को समय स्लाइस के रूप में उपयोग करना
प्रशिक्षण के दौरान यादृच्छिक रूप से स्लाइस निकालना, अनुमान के दौरान क्रमिक रूप से गणना करना और गाऊसी औसत संलयन करना

3. अनिश्चितता अनुमान और परीक्षण समय अनुकूलन

शारीरिक पुरस्कार नेटवर्क का उपयोग करके पिक्सेल-स्तर अनिश्चितता अनुमान प्रदान करना
तापमान स्केलिंग द्वारा मॉडल आत्मविश्वास को कैलिब्रेट करना
चुनौतीपूर्ण वीडियो के लिए अनुक्रम-विशिष्ट अनुकूलन

प्रायोगिक सेटअप

डेटासेट

स्रोत डोमेन ( $D_S$ $D_{S}$ ): 579 पूरी तरह एनोटेटेड अल्ट्रासाउंड हृदय वीडियो, फ्रांस के लियोन विश्वविद्यालय अस्पताल से
- शीर्ष चार कक्ष (A4C) और दो कक्ष (A2C) दृश्य शामिल हैं
- अच्छी छवि गुणवत्ता, अधिकांश शारीरिक संरचनाएँ दृश्यमान हैं
लक्ष्य डोमेन ( $D_T$ $D_{T}$ ): 31,053 अनएनोटेटेड विषम वीडियो
- संयुक्त राज्य अमेरिका के 22 राज्यों के 357 आउट पेशेंट केंद्रों से
- A4C और A2C दृश्य शामिल हैं
- परीक्षण सेट: 128 विशेषज्ञ-सत्यापित पूर्ण वीडियो

मूल्यांकन मेट्रिक्स

विभाजन गुणवत्ता: डाइस गुणांक, हॉसडॉर्फ दूरी (एंडोकार्डियम, एपिकार्डियम)
शारीरिक वैधता: 10 शारीरिक मानदंडों के आधार पर वैधता प्रतिशत
समय वैधता: 8 समय विशेषताओं की चिकनाई के आधार पर संगति प्रतिशत
स्थल सटीकता: द्विपत्री कमिसुरे स्थल के लिए "प्रति चक्र त्रुटि संख्या (MpC)" मेट्रिक

तुलनात्मक विधियाँ

आधार विधियाँ: 3D U-Net, nnU-Net
आधार मॉडल: MedSAM, SAMUS, MemSAM
अनुपर्यवेक्षित डोमेन अनुकूलन: MaskedSSL, UA-MT, RL4Seg(2D)

कार्यान्वयन विवरण

प्रशिक्षण पर्यावरण: लगभग 32 NVIDIA A100 GPU
प्रशिक्षण समय: लगभग 2 दिन, 2-3 RL चक्र पुनरावृत्तियों सहित
बैच आकार: 1 (परिवर्तनशील छवि आकार के कारण)
वितरित समानांतर प्रशिक्षण दक्षता में सुधार करता है

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	डाइस(%) ↑	हॉसडॉर्फ(मिमी) ↓	शारीरिक वैधता(%) ↑	समय वैधता(%) ↑	MVC स्थल त्रुटि↓
विशेषज्ञ अंतर-परिवर्तनशीलता	94.9	4.6	100	-	-
nnU-Net	93.8	7.8	48.4	46.9	0.6
MemSAM	91.6	7.7	48.4	39.8	6.0
MaskedSSL	93.3	6.3	64.1	56.3	3.1
RL4Seg3D	94.2	4.9	96.9	85.9	1.1
RL4Seg3D(TTO)	94.2	4.7	99.2	93.0	1.0

विलोपन प्रयोग

केवल शारीरिक पुरस्कार: डाइस 93.5%, शारीरिक वैधता 98.4%
शारीरिक + स्थल पुरस्कार: डाइस 94.2%, स्थल त्रुटि 1.1 तक महत्वपूर्ण रूप से कम हुई
समय दंड जोड़ना: समय वैधता 88.3% तक सुधार
परीक्षण समय अनुकूलन: समय वैधता में 93.0% तक और सुधार

केस विश्लेषण

समय संगति: RL4Seg3D 2D विधियों की तुलना में समय असंगत फ्रेम की संख्या में महत्वपूर्ण रूप से कमी करता है (2.7 फ्रेम से 0.4 फ्रेम तक)
अनिश्चितता अनुमान: 3D शारीरिक पुरस्कार नेटवर्क की अपेक्षित कैलिब्रेशन त्रुटि (ECE) 0.054 है, जो पारंपरिक अनिश्चितता विधियों से बेहतर है
परीक्षण समय अनुकूलन: 22 प्रारंभिक अमान्य वीडियो में से सफलतापूर्वक त्रुटियों को सुधारता है, कई मेट्रिक्स में सुधार करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RL4Seg3D कई मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करता है, विशेषज्ञ अंतर-परिवर्तनशीलता की ऊपरी सीमा के करीब
बहु-पुरस्कार संलयन तंत्र विभिन्न प्रकार की विभाजन त्रुटियों में प्रभावी रूप से सुधार करता है
3D कनवल्शन और समय बाधाएँ समय संगति में महत्वपूर्ण रूप से सुधार करती हैं
अनिश्चितता अनुमान और परीक्षण समय अनुकूलन विधि की व्यावहारिकता को और बढ़ाते हैं

सीमाएँ

कम्प्यूटेशनल संसाधन आवश्यकता: वितरित प्रशिक्षण के लिए बड़ी मात्रा में GPU की आवश्यकता होती है
बैच आकार सीमा: परिवर्तनशील छवि आकार के कारण, बैच आकार 1 तक सीमित है
समय जटिलता: अंत-से-अंत प्रशिक्षण में लगभग 2 दिन का समय लगता है
शेष त्रुटियाँ: मुख्य रूप से तेज़ हृदय गति के कारण हल्की समय असंगति

भविष्य की दिशाएँ

अधिक व्यापक समय पुरस्कार तंत्र: तेज़ हृदय गति को संभालना
वॉल्यूमेट्रिक डेटा तक विस्तार: 3D चिकित्सा छवि विभाजन
बहु-मोडल संलयन: अन्य चिकित्सा इमेजिंग मोडल के साथ संयोजन
वास्तविक समय अनुप्रयोग: नैदानिक वास्तविक समय अनुप्रयोग का समर्थन करने के लिए अनुमान गति को अनुकूलित करना

गहन मूल्यांकन

शक्तियाँ

विधि नवाचार: पहली बार सुदृढीकरण शिक्षण को 3D समय-स्थान चिकित्सा छवि विभाजन तक विस्तारित करना, चतुर पुरस्कार संलयन तंत्र डिजाइन करना
प्रायोगिक पूर्णता: 30,000 से अधिक वीडियो पर सत्यापन, कई तुलनात्मक विधियाँ और विस्तृत विलोपन प्रयोग
नैदानिक प्रासंगिकता: शारीरिक वैधता, समय संगति जैसे नैदानिक महत्वपूर्ण मेट्रिक्स पर ध्यान केंद्रित करना
तकनीकी पूर्णता: अनिश्चितता अनुमान और परीक्षण समय अनुकूलन जैसी व्यावहारिक कार्यक्षमता प्रदान करना

कमियाँ

उच्च कम्प्यूटेशनल जटिलता: बड़ी मात्रा में कम्प्यूटेशनल संसाधनों की आवश्यकता, जो व्यावहारिक अनुप्रयोग को सीमित कर सकती है
डेटा निर्भरता: हालाँकि अनुपर्यवेक्षित डोमेन अनुकूलन है, फिर भी स्रोत डोमेन के उच्च-गुणवत्ता एनोटेशन की आवश्यकता है
मूल्यांकन सीमाएँ: परीक्षण सेट अपेक्षाकृत छोटा है (128 वीडियो), जो परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
विधि जटिलता: कई घटकों का समन्वय पैरामीटर ट्यूनिंग कठिनाई को बढ़ा सकता है

प्रभाव

शैक्षणिक योगदान: चिकित्सा छवि डोमेन अनुकूलन के लिए नया सुदृढीकरण शिक्षण प्रतिमान प्रदान करना
व्यावहारिक मूल्य: नैदानिक अल्ट्रासाउंड हृदय विश्लेषण में सीधे अनुप्रयोग के लिए
पुनरुत्पादनीयता: पूर्ण कोड कार्यान्वयन प्रदान करना
प्रेरणा: अन्य समय-स्थान चिकित्सा छवि कार्यों के लिए संदर्भ ढांचा प्रदान करना

लागू परिदृश्य

चिकित्सा छवि विभाजन: विशेष रूप से समय संगति की आवश्यकता वाली गतिशील चिकित्सा छवियाँ
डोमेन अनुकूलन कार्य: अस्पताल, उपकरण के बीच चिकित्सा छवि विश्लेषण
गुणवत्ता नियंत्रण: स्वचालित गुणवत्ता मूल्यांकन के लिए अनिश्चितता अनुमान का उपयोग करना
नैदानिक सहायक निदान: नैदानिक निर्णय लेने का समर्थन करने के लिए विश्वसनीय विभाजन परिणाम प्रदान करना

संदर्भ

Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
Kirillov et al. "Segment anything." ICCV 2023.
Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.

सारांश: इस पेपर द्वारा प्रस्तावित RL4Seg3D चिकित्सा छवि विभाजन क्षेत्र में एक महत्वपूर्ण योगदान है, जो सुदृढीकरण शिक्षण ढांचे के माध्यम से समय-स्थान चिकित्सा छवियों की डोमेन अनुकूलन समस्या को चतुराई से हल करता है। विधि तकनीकी रूप से नवीन है, प्रायोगिक सत्यापन व्यापक है, और परिणाम विश्वसनीय हैं। हालाँकि कम्प्यूटेशनल जटिलता जैसी सीमाएँ हैं, लेकिन नैदानिक अनुप्रयोग में इसकी संभावना और क्षेत्र के विकास को आगे बढ़ाने में इसकी भूमिका अनदेखी नहीं की जा सकती।