2025-11-13T21:49:11.069891

SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness

Kodge, Ravikumar, Saha et al.

Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.

academic

SAP: लेबल शोर मजबूती के लिए स्केल्ड एक्टिवेशन प्रोजेक्शन के साथ सुधारात्मक मशीन अनलर्निंग

मूल जानकारी

पेपर ID: 2403.08618
शीर्षक: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
लेखक: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
वर्गीकरण: cs.LG cs.AI stat.ML
प्रकाशन तिथि: 2 जनवरी 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2403.08618
कोड लिंक: https://github.com/sangamesh-kodge/SAP.git

सारांश

लेबल भ्रष्टता गहन शिक्षा में एक महत्वपूर्ण समस्या है, जहां गैर-पेशेवर एनोटेशन या विरोधी हमलों के कारण प्रशिक्षण नमूनों का गलत लेबलिंग मॉडल के प्रदर्शन को महत्वपूर्ण रूप से कम करता है। बड़े पैमाने पर पूर्ण रूप से लेबल किए गए डेटासेट प्राप्त करना महंगा है, और शुरुआत से मॉडल को पुनः प्रशिक्षित करना कम्प्यूटेशनल रूप से महंगा है। इसके लिए, यह पेपर स्केल्ड एक्टिवेशन प्रोजेक्शन (SAP) प्रस्तावित करता है, जो एकवचन मान अपघटन (SVD) पर आधारित एक सुधारात्मक मशीन अनलर्निंग एल्गोरिदम है। SAP क्रॉस-एंट्रॉपी हानि का उपयोग करके कुछ विश्वसनीय नमूनों की पहचान करता है और मॉडल वजन को इन विश्वसनीय नमूनों का उपयोग करके SVD द्वारा अनुमानित स्वच्छ सक्रियण स्थान में प्रक्षेपित करता है। प्रयोग दर्शाते हैं कि SAP CIFAR डेटासेट पर 25% सिंथेटिक भ्रष्टता के साथ 6% तक सामान्यीकरण सुधार प्राप्त कर सकता है, शोर-मजबूत प्रशिक्षण विधियों के आधार पर औसतन लगभग 3.2% सुधार करता है, और प्राकृतिक भ्रष्ट Clothing1M डेटासेट पर Vision Transformer मॉडल के लिए 2.31% सामान्यीकरण सुधार प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

लेबल शोर समस्या: बड़े पैमाने पर डेटासेट में लेबल त्रुटियां व्यापक रूप से मौजूद हैं, ये त्रुटियां निम्न से उत्पन्न हो सकती हैं:
- मानव एनोटेशन त्रुटियां
- स्वचालित एनोटेशन सिस्टम (जैसे बड़े भाषा मॉडल) की गलत भविष्यवाणियां
- दुर्भावनापूर्ण डेटा जहर हमले
मौजूदा समाधानों की सीमाएं:
- डेटा सफाई विधियां: मॉडल को पुनः प्रशिक्षित करने की आवश्यकता है, उच्च कम्प्यूटेशनल लागत
- शोर-मजबूत प्रशिक्षण: हालांकि मजबूती में सुधार कर सकता है, लेकिन प्रदर्शन अंतर को पूरी तरह से समाप्त नहीं कर सकता
- पारंपरिक मशीन अनलर्निंग: गलत लेबल किए गए और कठिन-सीखने वाले नमूनों को स्पष्ट रूप से अलग करने की आवश्यकता है, व्यावहारिक अनुप्रयोग कठिन है
अनुसंधान प्रेरणा:
- शुरुआत से पुनः प्रशिक्षण की उच्च कम्प्यूटेशनल लागत से बचें
- गलत लेबल किए गए नमूनों की स्पष्ट पहचान की आवश्यकता नहीं है
- एकल वजन अपडेट के माध्यम से कुशल शोर शमन प्राप्त करें

मुख्य योगदान

SAP एल्गोरिदम प्रस्तावित करें: SVD पर आधारित सुधारात्मक मशीन अनलर्निंग एल्गोरिदम, सक्रियण प्रक्षेपण के माध्यम से लेबल शोर प्रभाव को कम करता है
स्वचालित विश्वसनीय नमूना चयन: क्रॉस-एंट्रॉपी हानि का उपयोग करके स्वचालित रूप से विश्वसनीय नमूनों की पहचान करें, मानव एनोटेशन से बचें
एकल-चरण वजन अपडेट: एक SVD गणना और वजन प्रक्षेपण के माध्यम से कुशल मॉडल सुधार प्राप्त करें
व्यापक प्रायोगिक सत्यापन: सिंथेटिक और वास्तविक-विश्व शोर परिदृश्यों में प्रभावशीलता सत्यापित करें, कई मॉडल आर्किटेक्चर का समर्थन करें

विधि विवरण

कार्य परिभाषा

लेबल शोर युक्त प्रशिक्षण डेटासेट $D_{Tr}$ दिया गया है, लक्ष्य प्रशिक्षित मॉडल पैरामीटर $θ^*$ को सुधारना है, ताकि इसका परीक्षण सेट पर सामान्यीकरण प्रदर्शन स्वच्छ डेटा पर प्रशिक्षित मॉडल के करीब हो, बिना पुनः प्रशिक्षण के।

मॉडल आर्किटेक्चर

1. वजन अपडेट तंत्र

रैखिक परत $a_{out} = a_{in}W^T$ के लिए, SAP सक्रियण संरेखण मैट्रिक्स $W_p$ के माध्यम से इनपुट सक्रियण को प्रक्षेपित करता है:

$\hat{a}_{out} = (a_{in}W_p)W^T = a_{in}(WW_p^T)^T = a_{in}\hat{W}^T$

वजन अपडेट नियम: $\hat{W} = WW_p^T$

2. विश्वसनीय डेटा अनुमान

क्रॉस-एंट्रॉपी हानि का उपयोग करके $N_{Trust}$ सबसे कम हानि वाले नमूनों को विश्वसनीय सेट के रूप में चुनें:

$D_{Trust} = \arg\min_S \sum_{(x_i,y_i) \in S} L(θ^*, x_i, y_i)$

जहां $S = \{S_i \subseteq D_{Tr} | |S_i| = N_{Trust}\}$

3. प्रतिनिधित्व मैट्रिक्स निर्माण

रैखिक परत: $R_{linear} = [(a_i^{in})_{i=1}^{N_{Trust}}]$
कनवोल्यूशन परत: unfold ऑपरेशन के माध्यम से कनवोल्यूशन को मैट्रिक्स गुणन में परिवर्तित करें, $R_{conv} = [(unfold(a_i^{in})^T)_{i=1}^{N_{Trust}}]$

4. SVD अपघटन और महत्व स्केलिंग

प्रतिनिधित्व मैट्रिक्स पर SVD अपघटन करें: $R^l = U^l Σ^l V^{lT}$

महत्व वजन की गणना करें: $λ_i = \frac{α\tilde{σ}_i}{(α-1)\tilde{σ}_i + 1}$

जहां $\tilde{σ}_i = σ_i^2 / \sum_{j=1}^d σ_j^2$ सामान्यीकृत एकवचन मान है, $α$ स्केलिंग गुणांक है।

5. सक्रियण संरेखण मैट्रिक्स

प्रक्षेपण मैट्रिक्स का निर्माण करें: $W_p = UΛU^T$ , जहां $Λ = diag(λ_1, λ_2, ..., λ_d)$

तकनीकी नवाचार

स्वचालित प्रसंस्करण: गलत नमूनों की मैनुअल पहचान की आवश्यकता नहीं है, हानि फ़ंक्शन के माध्यम से स्वचालित रूप से विश्वसनीय नमूनों का चयन करें
कुशल अपडेट: एकल SVD गणना और मैट्रिक्स गुणन वजन अपडेट पूरा करते हैं, पुनरावृत्तिमूलक अनुकूलन से बचें
सक्रियण स्थान प्रक्षेपण: स्वच्छ सक्रियण स्थान में प्रक्षेपण के माध्यम से शोर सक्रियण के प्रभाव को दबाएं
आर्किटेक्चर-अज्ञेयवादी: रैखिक और कनवोल्यूशन परतों पर लागू होता है, कई नेटवर्क आर्किटेक्चर का समर्थन करता है

प्रायोगिक सेटअप

डेटासेट

सिंथेटिक शोर डेटासेट:
- CIFAR-10/CIFAR-100
- तीन शोर प्रकार: सममित शोर, असममित शोर, पदानुक्रमित शोर
- शोर तीव्रता: 10% और 25%
वास्तविक-विश्व शोर डेटासेट:
- Mini-WebVision
- Clothing1M

मूल्यांकन मेट्रिक्स

परीक्षण सेट सटीकता
आधारभूत विधियों के साथ प्रदर्शन तुलना
सामान्यीकरण सुधार परिमाण

तुलना विधियां

Retrain: स्वच्छ डेटा पर पुनः प्रशिक्षित आदर्श मॉडल
Vanilla: शोर डेटा पर प्रशिक्षित आधार मॉडल
Finetune: कुछ स्वच्छ डेटा पर सूक्ष्म-ट्यूनिंग
SSD: चयनात्मक सिनेप्टिक दमन पर आधारित अनलर्निंग एल्गोरिदम
SCRUB: अत्याधुनिक मशीन अनलर्निंग एल्गोरिदम

कार्यान्वयन विवरण

विश्वसनीय नमूनों की संख्या: 1000
स्केलिंग गुणांक α की खोज श्रेणी: 2000, 300000
मॉडल आर्किटेक्चर: VGG11, ResNet18, ResNet50, ViT-B/16
अनुकूलक: SGD, सीखने की दर 0.01, वजन क्षय 5×10^-4

प्रायोगिक परिणाम

मुख्य परिणाम

सिंथेटिक शोर प्रयोग

CIFAR-10 और CIFAR-100 डेटासेट पर परिणाम दर्शाते हैं:

डेटासेट	शोर तीव्रता	Vanilla	SAP	सुधार परिमाण
CIFAR-10	25%	76.68±0.48	82.27±0.15	+5.59%
CIFAR-100	25%	50.64±0.60	53.31±0.78	+2.67%

SAP सभी शोर सेटिंग्स के तहत अन्य अनलर्निंग विधियों से बेहतर है, औसत सुधार 1.36% (CIFAR-10) और 0.39% (CIFAR-100)।

शोर-मजबूत प्रशिक्षण वृद्धि

SAP मौजूदा शोर-मजबूत विधियों के प्रदर्शन को और बढ़ा सकता है:

विधि	CIFAR-10 आधार	SAP वृद्धि	सुधार परिमाण
MixUp	83.12±0.44	86.45±0.52	+3.33%
SAM	83.29±0.28	87.29±0.08	+4.0%
औसत	83.69	87.14	+3.45%

वास्तविक-विश्व शोर

वास्तविक शोर डेटासेट पर परिणाम:

डेटासेट	मॉडल	Vanilla	SAP	सुधार परिमाण
Clothing1M	ResNet50	67.48±0.64	69.64±0.57	+2.16%
Clothing1M	ViT-B/16	69.12±0.45	71.43±0.60	+2.31%

विलोपन प्रयोग

विश्वसनीय नमूना संख्या प्रभाव

प्रयोग दर्शाते हैं कि विश्वसनीय नमूनों की संख्या 1000 तक बढ़ाने के बाद लाभ में कमी आती है, इसलिए प्रदर्शन और कम्प्यूटेशनल दक्षता को संतुलित करने के लिए 1000 नमूने चुने जाते हैं।

स्केलिंग गुणांक α का प्रभाव

α=30000 कई सिंथेटिक शोर सेटिंग्स के तहत सर्वोत्तम प्रदर्शन करता है, बहुत बड़े या बहुत छोटे α मान प्रदर्शन को कम करते हैं।

प्रायोगिक निष्कर्ष

कम्प्यूटेशनल दक्षता: SAP को केवल 16 हाइपरपैरामीटर खोजों की आवश्यकता है, जबकि SCRUB को 675 की आवश्यकता है
मजबूती: विभिन्न शोर प्रकार और तीव्रता के तहत स्थिर प्रदर्शन
स्केलेबिलिटी: बड़े पैमाने पर डेटासेट और Transformer मॉडल पर सफलतापूर्वक लागू
निर्णय सीमा अनुकूलन: दृश्य प्रयोग दर्शाते हैं कि SAP निर्णय सीमा को सुचारू कर सकता है, अतिफिटिंग को कम करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: SAP सिंथेटिक और वास्तविक-विश्व शोर परिदृश्यों में मॉडल सामान्यीकरण प्रदर्शन को महत्वपूर्ण रूप से सुधारता है
दक्षता लाभ: एकल वजन अपडेट और सरल हाइपरपैरामीटर समायोजन SAP को महत्वपूर्ण कम्प्यूटेशनल लाभ प्रदान करते हैं
व्यापक प्रयोज्यता: कई नेटवर्क आर्किटेक्चर और डेटासेट स्केल का समर्थन करता है
व्यावहारिक मूल्य: मौजूदा शोर-मजबूत विधियों के साथ संयोजित किया जा सकता है, प्रदर्शन को और बढ़ाता है

सीमाएं

विश्वसनीय नमूना धारणा: कम हानि वाले नमूने वास्तव में सही ढंग से लेबल किए गए हैं, इस धारणा पर निर्भर है
हाइपरपैरामीटर संवेदनशीलता: स्केलिंग गुणांक α की पसंद प्रदर्शन पर महत्वपूर्ण प्रभाव डालती है
शोर प्रकार सीमा: मुख्य रूप से लेबल शोर के लिए, अन्य प्रकार के शोर को संभालने की क्षमता सीमित है
अपर्याप्त सैद्धांतिक विश्लेषण: विधि की प्रभावशीलता के लिए सैद्धांतिक गारंटी की कमी

भविष्य की दिशाएं

सैद्धांतिक विश्लेषण: SAP प्रभावशीलता के लिए सैद्धांतिक आधार स्थापित करें
स्वचालित पैरामीटर चयन: इष्टतम α को स्वचालित रूप से चुनने के लिए विधि विकसित करें
विस्तारित अनुप्रयोग: अन्य प्रकार के शोर और कार्यों में अनुप्रयोग की खोज करें
अन्य तकनीकों के साथ संयोजन: डेटा वृद्धि, विरोधी प्रशिक्षण आदि तकनीकों के साथ संयोजन का अनुसंधान करें

गहन मूल्यांकन

शक्तियां

विधि नवाचार:
- सुधारात्मक मशीन अनलर्निंग के लिए SVD का पहला अनुप्रयोग
- सक्रियण प्रक्षेपण का विचार नया और प्रभावी है
- स्वचालित विश्वसनीय नमूना चयन मानव हस्तक्षेप से बचता है
प्रायोगिक पूर्णता:
- कई शोर प्रकार और डेटासेट को कवर करता है
- कई आधारभूत विधियों के साथ तुलना करता है
- विलोपन प्रयोग और पैरामीटर संवेदनशीलता विश्लेषण शामिल है
व्यावहारिक मूल्य:
- उच्च कम्प्यूटेशनल दक्षता, तैनाती में आसान
- मौजूदा विधियों के साथ संयोजित किया जा सकता है
- कई नेटवर्क आर्किटेक्चर का समर्थन करता है
परिणाम विश्वसनीयता:
- सुसंगत प्रदर्शन सुधार
- सांख्यिकीय महत्व सत्यापन
- दृश्य विश्लेषण समझ को बढ़ाता है

कमियां

कमजोर सैद्धांतिक आधार:
- विधि प्रभावशीलता का सैद्धांतिक विश्लेषण की कमी
- यह समझाया नहीं गया कि SVD प्रक्षेपण शोर को प्रभावी ढंग से क्यों दबाता है
धारणा सीमाएं:
- कम हानि वाले नमूने सही ढंग से लेबल किए गए हैं, यह धारणा हमेशा सत्य नहीं हो सकती
- शोर वितरण पर मजबूत धारणाएं
पैरामीटर समायोजन:
- α की पसंद के लिए सैद्धांतिक मार्गदर्शन की कमी
- विभिन्न डेटासेट के लिए विभिन्न α मान की आवश्यकता हो सकती है
तुलना सीमाएं:
- नवीनतम शोर-मजबूत विधियों के साथ तुलना अपर्याप्त है
- डेटा सफाई विधियों के साथ सीधी तुलना की कमी

प्रभाव

शैक्षणिक योगदान:
- मशीन अनलर्निंग क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
- सक्रियण प्रक्षेपण विचार अन्य अनुप्रयोगों को प्रेरित कर सकता है
व्यावहारिक अनुप्रयोग:
- वास्तविक-विश्व लेबल शोर को संभालने के लिए व्यावहारिक उपकरण प्रदान करता है
- मौजूदा प्रशिक्षण प्रवाह में एकीकृत किया जा सकता है
पुनरुत्पादनीयता:
- पूर्ण कोड कार्यान्वयन प्रदान करता है
- प्रायोगिक सेटअप विस्तार से वर्णित है

लागू परिदृश्य

डेटासेट लेबल गुणवत्ता खराब होने के परिदृश्य
डेटा को पुनः लेबल नहीं कर सकने की स्थिति
प्रशिक्षित मॉडल को तेजी से सुधारने की आवश्यकता वाले अनुप्रयोग
कम्प्यूटेशनल संसाधन सीमित वातावरण

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

मशीन अनलर्निंग: SCRUB, SSD आदि विधियां
लेबल शोर प्रसंस्करण: MixUp, MentorMix, SAM आदि
डेटा सफाई: Confident Learning आदि
मूल सिद्धांत: SVD अपघटन, सक्रियण विश्लेषण आदि

समग्र मूल्यांकन: इस पेपर द्वारा प्रस्तावित SAP विधि लेबल शोर प्रसंस्करण में महत्वपूर्ण मूल्य रखती है, सक्रियण प्रक्षेपण के चतुर डिजाइन के माध्यम से कुशल मॉडल सुधार को प्राप्त करती है। हालांकि सैद्धांतिक विश्लेषण में कुछ कमी है, लेकिन प्रायोगिक सत्यापन पर्याप्त है, व्यावहारिक मूल्य महत्वपूर्ण है, और संबंधित क्षेत्र के लिए मूल्यवान योगदान प्रदान करता है।