2025-11-25T00:34:17.070097

A Unified Approach Towards Active Learning and Out-of-Distribution Detection

Schmidt, Schenk, Schwinn et al.
When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks
academic

نهج موحد نحو التعلم النشط والكشف عن البيانات خارج التوزيع

المعلومات الأساسية

  • معرّف الورقة: 2405.11337
  • العنوان: نهج موحد نحو التعلم النشط والكشف عن البيانات خارج التوزيع
  • المؤلفون: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
  • التصنيف: cs.CV
  • تاريخ النشر: مايو 2024 (arXiv v3: 12 أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2405.11337

الملخص

عند تطبيق نماذج التعلم العميق في سيناريوهات العالم المفتوح، تعتبر استراتيجيات التعلم النشط (AL) حاسمة لتحديد مرشحي التسميات من كميات كبيرة من البيانات غير المسماة. في هذا السياق، تعتبر آليات الكشف القوية عن البيانات خارج التوزيع (OOD) ضرورية للتعامل مع البيانات التي تقع خارج التوزيع المستهدف للتطبيق. ومع ذلك، تدرس الأعمال الحالية هاتين المشكلتين بشكل منفصل. تقدم هذه الورقة SISOM كأول حل موحد لـ AL والكشف عن OOD. من خلال الاستفادة من مقاييس المسافة في فضاء الميزات، يجمع SISOM بين مزايا المهام المستقلة الحالية لحل كلا المشكلتين بفعالية. في معيار OpenOOD، حقق SISOM مركزاً أولاً ومركزين ضمن الثلاثة الأوائل على بيانات OOD القريبة، وحقق أيضاً أداءً متقدماً في مهام التعلم النشط.

الخلفية البحثية والدافع

تعريف المشكلة

  1. تحديات التعلم النشط: تتطلب نماذج التعلم العميق واسعة النطاق كميات كبيرة من البيانات المسماة، لكن تكاليف التسمية عالية جداً، مما يتطلب اختياراً ذكياً للعينات الأكثر قيمة للتسمية
  2. الحاجة إلى الكشف عن OOD: عند نشر النموذج عملياً، سيواجه بيانات خارج توزيع التدريب، مما يتطلب آلية كشف OOD موثوقة
  3. قيود المعالجة المستقلة: تعتبر الطرق الحالية AL والكشف عن OOD كمهام مستقلة، مما يؤدي إلى تضارب أهداف التصميم وتعقيد النظام

الدافع البحثي

  • متطلبات التطبيق العملي: تتطلب الروبوتات المحمولة والقيادة الذاتية والتطبيقات العملية الأخرى التعامل المتزامن مع كفاءة التسمية ومشاكل البيانات خارج التوزيع
  • اكتشاف ارتباط المهام: لاحظ المؤلفون وجود تداخل وغموض بين بيانات OOD القريبة والبيانات غير المسماة في الفضاء الكامن
  • مزايا النهج الموحد: يمكن للمعالجة الموحدة أن تلغي تكاليف مراحل التصميم المستقلة وتتجنب أهداف التصميم المتضاربة

الرؤية الأساسية

تكتشف الورقة من خلال تصور UMAP أن بيانات OOD القريبة ومرشحي AL غير المسماة يقعان بالقرب من بعضهما في فضاء الميزات، وكلاهما يميل إلى الوقوع بين المجموعات الموجودة أو بالقرب من حدود القرار، مما يوفر أساساً نظرياً للنهج الموحد.

المساهمات الأساسية

  1. أول نهج موحد: تقديم SISOM كأول طريقة مصممة خصيصاً لحل AL والكشف عن OOD بشكل متزامن
  2. تقنيات تحليل فضاء الميزات: إدخال تحليل الفضاء الكامن لتحقيق حلقة تحسين تحسين فضاء الميزات بعد التدريب
  3. آلية الدمج ذاتي التوازن: اقتراح طريقة دمج ذاتي التوازن لمقاييس عدم اليقين والتنوع
  4. أداء تجريبي متفوق: تحقيق أداء متفوقة ضد الطرق المتقدمة المتخصصة للغاية في معايير AL والكشف عن OOD الشائعة

شرح الطريقة

تعريف المهام

التعلم النشط: بدءاً من مجموعة التسمية الأولية L ومجموعة البيانات غير المسماة U، يختار النموذج f عينات جديدة A للتسمية من خلال استراتيجية الاستعلام Q(x,f)، والهدف هو الحصول على أفضل أداء بأقل عدد من التسميات.

الكشف عن OOD: بالنظر إلى نموذج f مدرب على التوزيع Ω، يحدد ما إذا كانت عينة الاختبار x̃ تأتي من التوزيع الداخلي (InD) أم من التوزيع الخارجي (OOD):

G(x,f)={InDif S(x;f)λOODif S(x;f)<λG(x, f) = \begin{cases} \text{InD} & \text{if } S(x; f) \geq \lambda \\ \text{OOD} & \text{if } S(x; f) < \lambda \end{cases}

معمارية طريقة SISOM

يتضمن SISOM خمسة مكونات أساسية:

1. التغطية (Coverage)

بناء تمثيل فضاء ميزات غني بالمعلومات، يربط طبقات شبكة متعددة: z=h1(x)hj(x)hn(x)z = h_1(x) \oplus \cdots \oplus h_j(x) \oplus \cdots \oplus h_n(x)

2. تحسين الميزات (Feature Enhancement)

استخدام ميزات مرجحة بتدرج KL: g=DKL(uf(x))zg = \frac{\partial D_{KL}(u||f(x))}{\partial z}z~=σ(zg)\tilde{z} = \sigma(z \odot g)

حيث u هو التوزيع المنتظم، و⊙ يمثل الضرب الهادامار.

3. نسبة المسافة (Distance Ratio)

تعريف المسافة داخل الفئة والمسافة خارج الفئة: din(z~)=minzZL(c=c)z~z~2d_{in}(\tilde{z}) = \min_{z' \in Z_L(c'=c)} ||\tilde{z} - \tilde{z}'||_2dout(z~)=minzZL(cc)z~z~2d_{out}(\tilde{z}) = \min_{z' \in Z_L(c' \neq c)} ||\tilde{z} - \tilde{z}'||_2

درجة SISOM: r(x)=dindoutr(x) = \frac{d_{in}}{d_{out}}

4. تحليل فضاء الميزات (Feature Space Analysis)

حساب متوسط نسبة المسافة كوكيل لقابلية الفصل في فضاء الميزات: ravg=1LzLdin(σ(zg))dout(σ(zg))r_{avg} = \frac{1}{|L|} \sum_{z \in L} \frac{d_{in}(\sigma(z \odot g))}{d_{out}(\sigma(z \odot g))}

دمج تكيفي لعدم اليقين والتنوع: r^i=min(ravg,1)Ei+max(1ravg,0)ri\hat{r}_i = \min(r_{avg}, 1) \cdot E_i + \max(1 - r_{avg}, 0) \cdot r_i

5. انحدار Sigmoid (Sigmoid Steepness)

تحسين معامل انحدار دالة sigmoid لكل طبقة α لتحسين قابلية الفصل في فضاء الميزات: αopt=argminαravg(α)\alpha_{opt} = \arg\min_\alpha r_{avg}(\alpha)

نقاط الابتكار التقني

  1. تصميم مقياس موحد: يلتقط تصميم نسبة المسافة متطلبات AL والكشف عن OOD في نفس الوقت
  2. الدمج التكيفي: يوازن تلقائياً بين عدم اليقين والتنوع بناءً على جودة فضاء الميزات
  3. تكامل الميزات متعددة الطبقات: الاستفادة من معلومات الشبكة متعددة الطبقات لتعزيز قدرة التمثيل
  4. الترجيح بالتدرج: تسليط الضوء على الخلايا العصبية المهمة من خلال تدرج KL

إعداد التجارب

مجموعات البيانات

التعلم النشط:

  • CIFAR-10/100: حجم الاستعلام q=1000/2000
  • SVHN: حجم الاستعلام q=500
  • استخدام معمارية ResNet18/34

الكشف عن OOD:

  • اتباع إعدادات معيار OpenOOD
  • CIFAR-10: OOD قريب (CIFAR-100, Tiny ImageNet)، OOD بعيد (MNIST, SVHN وغيرها)
  • CIFAR-100: OOD قريب (CIFAR-10, Tiny ImageNet)، OOD بعيد (MNIST, SVHN وغيرها)
  • ImageNet-1k: OOD قريب (SSB-hard, NINCO)، OOD بعيد (iNaturalist وغيرها)

مقاييس التقييم

  • التعلم النشط: دقة التصنيف مع تغير نسبة البيانات المسماة
  • الكشف عن OOD: AUROC (المساحة تحت منحنى ROC)

طرق المقارنة

خطوط أساس التعلم النشط:

  • CoreSet, Badge, Learning Loss, CoreGCN
  • الإعدادات شبه الموجهة: TypiClust, ProbCover, PT4AL

خطوط أساس الكشف عن OOD:

  • NAC, KNN, MSP, Energy, ReAct, SCALE وغيرها (17 طريقة)

نتائج التجارب

النتائج الرئيسية

أداء التعلم النشط

  • CIFAR-10: يتفوق SISOM و SISOMe على الطرق الأخرى في جميع دورات الاختيار
  • CIFAR-100: يحقق أعلى أداء في خطوات الاختيار اللاحقة
  • الإعدادات شبه الموجهة: يستفيد SISOM بشكل كبير من التدريب المسبق، متفوقاً على PT4AL

أداء الكشف عن OOD

مجموعة البياناتSISOMeSISOMأفضل خط أساس
CIFAR-10 (OOD قريب)91.7691.4091.13
CIFAR-100 (OOD قريب)81.1079.4281.31
ImageNet (OOD قريب)78.5977.3395.22

الترتيب الإجمالي: حصل SISOMe على مركز ضمن الثلاثة الأوائل في جميع المعايير الثلاثة، مع ترتيب إجمالي أول.

تجارب الاستئصال

  1. انحدار Sigmoid الأمثل: تحسين الأداء على CIFAR-100 و ImageNet
  2. تقليل اختيار المجموعة الفرعية: تحسين كبير في سرعة الاستدلال، مع تحسن طفيف في الأداء
  3. تأثير تحسين الميزات: يحسن ترجيح تدرج KL بشكل كبير قابلية الفصل في فضاء الميزات

تحليل وقت التشغيل

الطريقةSISOMSISOMeBadgeCoreSet
الوقت (ثانية)1477±896954±12633664±66822604±1572

من خلال اختيار مجموعة فرعية بنسبة 5%، ينخفض وقت تشغيل SISOMe إلى 266 ثانية، مع تحسن طفيف في الأداء.

تجارب دورة الحياة الكاملة

باستخدام نقاط تفتيش التدريب AL للكشف عن OOD، يحقق SISOMe أفضل أداء على OOD القريب والبعيد، مما يثبت فعالية النهج الموحد.

الأعمال ذات الصلة

التعلم النشط

  • طرق عدم اليقين: Monte Carlo Dropout، طرق المجموعات
  • طرق التنوع: CoreSet, Badge وطرق أخرى قائمة على التدرج
  • الطرق المختلطة: طرق تجمع بين عدم اليقين والتنوع

الكشف عن OOD

  • طرق المعالجة المسبقة: تعزيز البيانات، التدريب المختلط
  • طرق المعالجة اللاحقة: تصفية الخلايا العصبية، عمليات الأوزان
  • القائمة على logits: تحجيم درجة الحرارة، درجات الطاقة
  • طرق فضاء الميزات: مسافة ماهالانوبيس، k-الجيران الأقربين

التعلم النشط في المجموعات المفتوحة

تستخدم الطرق الموجودة بشكل أساسي وحدات مستقلة للتعامل مع AL و OOD، وتستكشف هذه الورقة للمرة الأولى الارتباط الداخلي بين المهمتين.

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

  1. جدوى النهج الموحد: إثبات أول مرة أن AL والكشف عن OOD يمكن حلهما بفعالية من خلال طريقة واحدة
  2. تفوق الأداء: تحقيق أداء متقدمة أو قريبة من الأداء المتقدمة في كلا المهمتين
  3. القيمة العملية: تبسيط تعقيد النشر في التطبيقات العملية

القيود

  1. التعقيد الحسابي: تحسب المسافة تكاليف إضافية، على الرغم من أنه يمكن تخفيفها من خلال اختيار المجموعة الفرعية
  2. الاعتماد على فضاء الميزات: تعتمد أداء الطريقة على قابلية الفصل في فضاء الميزات
  3. حساسية المعاملات الفائقة: يتطلب معامل انحدار sigmoid تحسيناً لمجموعات بيانات مختلفة

الاتجاهات المستقبلية

  1. التعلم النشط في المجموعات المفتوحة: توسيع النهج الموحد إلى سيناريوهات AL المفتوحة
  2. المهام المعقدة: التوسع إلى مهام أكثر تعقيداً مثل كشف الأجسام والتقسيم الدلالي
  3. تنويع الدفعات: دراسة تأثير تقنيات تنويع الدفعات على طرق المهام المزدوجة

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول اقتراح لنهج موحد لـ AL والكشف عن OOD، بقيمة نظرية وعملية مهمة
  2. تصميم طريقة ذكي: يعكس تصميم نسبة المسافة البساطة والفعالية، وآلية الدمج التكيفي تعكس رؤية عميقة
  3. تجارب شاملة: تغطي مجموعات بيانات وخطوط أساس متعددة، مع تضمين تجارب الاستئصال وتحليل وقت التشغيل
  4. أساس نظري متين: يكشف الارتباط الداخلي بين المهمتين من خلال تحليل التصور

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى ضمانات نظرية لتقارب الطريقة وقدرتها على التعميم
  2. تقييد نطاق التطبيق: التحقق بشكل أساسي على مهام تصنيف الصور، مع عدم معرفة قابلية التطبيق في مجالات أخرى
  3. تعقيد ضبط المعاملات: تتطلب معاملات متعددة ضبطاً لمجموعات بيانات مختلفة، مما قد يؤثر على الجدوى العملية

التأثير

  1. المساهمة الأكاديمية: فتح اتجاه جديد للبحث الموحد في AL والكشف عن OOD
  2. القيمة العملية: ذات أهمية كبيرة للروبوتات المحمولة والقيادة الذاتية والتطبيقات العملية الأخرى
  3. قابلية التكرار: توفير تفاصيل تنفيذ شاملة وأكواد لتسهيل التكرار والتوسع

السيناريوهات المطبقة

  1. البيئات ذات الموارد المحدودة: تطبيقات تتطلب النظر المتزامن في كفاءة التسمية والكشف عن البيانات خارج التوزيع
  2. الأنظمة في الوقت الفعلي: يمكن تحسين الكفاءة مع الحفاظ على الأداء من خلال اختيار المجموعة الفرعية
  3. تطبيقات العالم المفتوح: القيادة الذاتية وملاحة الروبوتات والسيناريوهات الأخرى التي تواجه تغييرات التوزيع

المراجع

تستشهد الورقة بكمية كبيرة من الأعمال ذات الصلة، وتشمل بشكل أساسي:

  • التعلم النشط: Settles (2010), Sener & Savarese (2018), Ash et al. (2020)
  • الكشف عن OOD: Yang et al. (2022), Liu et al. (2020), Sun et al. (2022)
  • معيار OpenOOD: Yang et al. (2022), Zhang et al. (2023)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح نهجاً موحداً مبتكراً لحل مشكلتين مهمتين، مع تحقق تجريبي شامل وتأثير مهم على المجالات ذات الصلة. على الرغم من وجود بعض أوجه القصور في الجوانب النظرية والعملية، فإن مساهماتها الرائدة والأداء المتفوقة تجعلها عملاً مهماً في هذا المجال.