शीर्षक: Active Learning of General Halfspaces: Label Queries vs Membership Queries
लेखक: Ilias Diakonikolas (विस्कॉन्सिन-मैडिसन विश्वविद्यालय), Daniel M. Kane (कैलिफोर्निया विश्वविद्यालय, सैन डिएगो), Mingchen Ma (विस्कॉन्सिन-मैडिसन विश्वविद्यालय)
यह पेपर गॉसियन वितरण Rd पर सामान्य (गैर-सजातीय) हाफस्पेस सीखने की समस्या का अध्ययन करता है, दो प्रकार की प्रश्न पहुंच विधियों पर विचार करता है। शास्त्रीय पूल-आधारित सक्रिय शिक्षा मॉडल में, एल्गोरिदम पूर्व-नमूना किए गए बिंदुओं पर अनुकूली लेबल प्रश्न कर सकता है। लेखकों ने मजबूत सूचना-सैद्धांतिक निचली सीमाएं स्थापित की हैं, जो निष्क्रिय सेटिंग के सापेक्ष गैर-तुच्छ सुधार को बाहर करती हैं। विशेष रूप से, किसी भी सक्रिय शिक्षार्थी को Ω~(d/(log(m)ϵ)) की लेबल जटिलता की आवश्यकता होती है, जहां m अनलेबल किए गए नमूनों की संख्या है। निष्क्रिय शिक्षा की O~(d/ϵ) लेबल जटिलता से आगे बढ़ने के लिए, सक्रिय शिक्षार्थी को 2poly(d) अनलेबल किए गए नमूनों की आवश्यकता होती है। सकारात्मक पक्ष पर, लेखकों ने साबित किया है कि सदस्यता प्रश्न पहुंच के माध्यम से इस निचली सीमा को दरकिनार किया जा सकता है, यहां तक कि अज्ञेयवादी मॉडल में भी। विशेष रूप से, वे O~(min{1/p,1/ϵ}+d⋅polylog(1/ϵ)) की प्रश्न जटिलता के साथ एक कम्प्यूटेशनल रूप से कुशल शिक्षार्थी प्रदान करते हैं, जो O(opt)+ϵ की त्रुटि गारंटी प्राप्त करता है।
यह पेपर गॉसियन वितरण के तहत सामान्य हाफस्पेस सीखने की समस्या का अध्ययन करता है। हाफस्पेस (या रैखिक थ्रेसहोल्ड फ़ंक्शन LTF) h(x)=sign(w⋅x+t) के रूप के फ़ंक्शन हैं, जहां w∈Sd−1 भार वेक्टर है और t थ्रेसहोल्ड है। जब t=0 हो तो इसे सजातीय हाफस्पेस कहा जाता है।
सैद्धांतिक अंतराल: सजातीय हाफस्पेस के लिए, यह ज्ञात है कि सक्रिय शिक्षा O(dlog(1/ϵ)) की लेबल जटिलता प्राप्त कर सकती है, लेकिन सामान्य हाफस्पेस के लिए, क्या समान सुधार मौजूद है यह एक खुला प्रश्न है।
व्यावहारिक महत्व: हाफस्पेस शिक्षा मशीन लर्निंग की एक शास्त्रीय समस्या है, जो पर्सेप्ट्रॉन एल्गोरिदम से लेकर SVM और AdaBoost तक महत्वपूर्ण प्रभाव डालती है।
प्रश्न मॉडल तुलना: सक्रिय शिक्षा (लेबल प्रश्न) और सदस्यता प्रश्नों की क्षमता में अंतर को गहराई से समझने की आवश्यकता है।
मजबूत सूचना-सैद्धांतिक निचली सीमा: साबित किया कि किसी भी सक्रिय शिक्षा एल्गोरिदम को Ω~(d/(log(m)ϵ)) की लेबल जटिलता की आवश्यकता होती है, जहां m अनलेबल किए गए नमूनों की संख्या है
सदस्यता प्रश्न ऊपरी सीमा: O~(min{1/p,1/ϵ}+d⋅polylog(1/ϵ)) की प्रश्न जटिलता के साथ एक कम्प्यूटेशनल रूप से कुशल एल्गोरिदम प्रदान करता है
मॉडल पृथक्करण: सक्रिय शिक्षा और सदस्यता प्रश्न मॉडल के बीच एक मजबूत पृथक्करण स्थापित करता है
जटिलता लक्षण वर्णन: गॉसियन सीमांत वितरण के तहत सामान्य हाफस्पेस सीखने की जटिलता को पूरी तरह से लक्षणित करता है
इनपुट: लेबल किए गए फ़ंक्शन y(x):Rd→{±1} तक पहुंच, लक्ष्य वितरण N(0,I) है
आउटपुट: हाफस्पेस h^(x)=sign(w^⋅x+t^)लक्ष्य: त्रुटि दर को कम करना err(h^)=Prx∼N(0,I)(h^(x)=y(x))
यदि कम प्रश्नों के साथ त्रुटि दर p/2 का हाफस्पेस सीखा जा सकता है, तो नमूना सेट को यादृच्छिक रूप से विभाजित करके, पहले भाग से हाफस्पेस सीखकर, दूसरे भाग से O(d) अपेक्षित प्रश्नों में d नकारात्मक नमूने खोजे जा सकते हैं।
लेम्मा 2.1: यदि कोई सक्रिय शिक्षा एल्गोरिदम r लेबल प्रश्नों के साथ पूर्वाग्रह p के हाफस्पेस को त्रुटि दर p/2 तक सीख सकता है, तो एक एल्गोरिदम मौजूद है जो r+O(d) प्रश्नों के साथ 2m नमूनों से d नकारात्मक नमूने खोज सकता है।
लेम्मा 2.2: मैट्रिक्स A∈Rk×d के लिए, यदि ∥AAT−dI∥2≤O(d/(t∗)2), तो एक यादृच्छिक हाफस्पेस सभी k नमूनों को नकारात्मक के रूप में चिह्नित करने की संभावना अधिकतम O(plog(1/p))k है।
प्रमेय 1.1: किसी भी सक्रिय शिक्षा एल्गोरिदम A के लिए, पूर्वाग्रह p का एक हाफस्पेस h∗ मौजूद है, यदि Am i.i.d. गॉसियन नमूनों पर Ω~(d/(plog(m))) से कम लेबल प्रश्न करता है, तो कम से कम 2/3 की संभावना के साथ त्रुटि दर p/2 से अधिक की परिकल्पना आउटपुट करता है।
निष्कर्ष: निष्क्रिय शिक्षा की O~(d/ϵ) जटिलता से आगे बढ़ने के लिए, 2poly(d) अनलेबल किए गए नमूनों की आवश्यकता होती है।
प्रमेय 1.2: एक एल्गोरिदम मौजूद है जो O~(min{1/p,1/ϵ}+d⋅polylog(1/ϵ)) सदस्यता प्रश्नों का उपयोग करता है, रनटाइम poly(d,M) है, और त्रुटि दर अधिकतम O(opt)+ϵ की परिकल्पना आउटपुट करता है।
यह पेपर सक्रिय शिक्षा सिद्धांत का एक महत्वपूर्ण योगदान है, जो कठोर गणितीय विश्लेषण के माध्यम से विभिन्न प्रश्न मॉडल के सार अंतर को प्रकट करता है, और इस क्षेत्र के सैद्धांतिक विकास के लिए एक दृढ़ आधार प्रदान करता है।