Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic
نظرية القرار البايزية قصيرة النظر للتعلم النشط الدفعي مع أخذ العينات الجزئية للتسميات الدفعية
على مدى العقود الماضية، تم اقتراح العديد من دوال الاستحصال للتعلم النشط، لكن الممارسين يواجهون صعوبة في اختيار الطريقة المناسبة. توفر نظرية القرار البايزية (BDT) مبادئ عامة لتوجيه القرارات. تشتق هذه الورقة نظرية القرار البايزية للتعلم النشط (البايزي) في إطار قصير النظر، بافتراض الحاجة إلى تسمية نقطة بيانات إضافية واحدة فقط. ينتج عن هذا الاشتقاق خوارزميات فعالة مثل تقليل الخطأ المتوقع (EER) والمكسب المعلوماتي المتوقع للتنبؤ (EPIG) وغيرها. علاوة على ذلك، يثبت المؤلفون أن BAIT يمكن اشتقاقه من خلال نظرية القرار البايزية والتقريبات المقاربة. التحدي الرئيسي لهذه الفئة من الطرق هو صعوبة التوسع إلى أحجام دفعات كبيرة، مما يؤدي إلى تحديات حسابية (BatchBALD) أو انخفاض حاد في الأداء (اختيار أفضل-B). تشتق هذه الورقة طريقة أخذ العينات الجزئية للتسميات الدفعية (ParBaLS) لخوارزمية EPIG من خلال صيغة عملية قرار محددة. تظهر التجارب أن ParBaLS EPIG يحقق أداءً متفوقة على عدة مجموعات بيانات في إطار الانحدار اللوجستي البايزي على التضمينات العصبية مع ميزانية ثابتة.
يهدف التعلم النشط إلى اختيار البيانات الأكثر إفادة من كمية كبيرة من البيانات غير المسماة للتسمية، بهدف تعظيم أداء النموذج ضمن ميزانية تسمية محدودة. تشمل الطرق الموجودة الطرق الاستكشافية والطرق الاحتمالية، لكنها تفتقر إلى مبادئ توجيهية واضحة للاختيار.
بالنظر إلى مجال الإدخال X، مجال الإخراج Y، ومجموعة بيانات الحوض غير المسماة D⊂X، الهدف هو اختيار T دفعة بشكل متكرر S⊂D، حيث يكون حجم كل دفعة |S|=B للتسمية، بحيث يتم تقليل خسارة الاختبار بعد التدريب على مجموعة التسميات.
ParBaLS مقابل ParBaLS-MAP: عادة ما يتفوق ParBaLS الكامل على النسخة التي تستخدم تسميات MAP فقط
تأثير حجم الدفعة: تكون ميزة ParBaLS أكثر وضوحاً مع دفعات أكبر (B=20)
نقطة واحدة مقابل دفعة: تظهر التجارب في الملحق أنه على الرغم من أن اختيار النقطة الواحدة (B=1) له أداء أفضل، فإن اختيار الدفعة أكثر كفاءة في التطبيقات العملية
يركز EER مباشرة على مقاييس الأداء مثل خسارة الصفر والواحد واللوغاريتم السالب للاحتمالية، مما يوفر قابلية تفسير أفضل. تشمل الأعمال ذات الصلة متغيرات تجمع بين الطرق الاستكشافية والطرق التكيفية لسيناريوهات الميزانية المنخفضة.
تستشهد هذه الورقة بالأدبيات المهمة في مجال التعلم النشط، بما في ذلك:
طرق أخذ العينات الكلاسيكية بناءً على عدم اليقين (Lewis, 1995)
طرق التعلم النشط البايزي (Houlsby et al., 2011; Gal et al., 2017)
طرق التعلم النشط الدفعي (Kirsch et al., 2019, 2023)
طرق تقليل الخطأ المتوقع (Roy and McCallum, 2001; Mussmann et al., 2022)
التقييم الإجمالي: هذه ورقة ذات قيمة نظرية وعملية مهمة في مجال التعلم النشط. من خلال توحيد الخوارزميات الموجودة بـ MBDT واقتراح ParBaLS لحل مشكلة اختيار الدفعة، توفر اتجاهاً بحثياً جديداً للمجال. على الرغم من وجود مجال للتحسين في الكفاءة الحسابية والصرامة النظرية، فإن مساهماتها كبيرة.