Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning
Lee, Lee, Kwak
We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
academic
Deep Edge Filter: Deep Learning में मानव-निर्मित परत की वापसी
यह पेपर Deep Edge Filter प्रस्तावित करता है, जो गहन तंत्रिका नेटवर्क विशेषताओं पर उच्च-पास फ़िल्टरिंग लागू करके मॉडल सामान्यीकरण क्षमता में सुधार करने की एक नई विधि है। यह विधि एक परिकल्पना पर आधारित है: तंत्रिका नेटवर्क गहन विशेषताओं के उच्च-आवृत्ति घटकों में कार्य-संबंधित शब्दार्थ जानकारी को एन्कोड करते हैं, जबकि निम्न-आवृत्ति घटकों में डोमेन-विशिष्ट पूर्वाग्रह संग्रहीत करते हैं। मूल विशेषताओं से निम्न-पास फ़िल्टरिंग आउटपुट को घटाकर, यह विधि सामान्यीकरण योग्य प्रतिनिधित्व को अलग कर सकती है, जबकि आर्किटेक्चर अखंडता बनाए रखती है। दृश्य, पाठ, 3D और ऑडियो सहित कई डोमेन में प्रयोगात्मक परिणाम दर्शाते हैं कि मॉडल आर्किटेक्चर और डेटा मोडेलिटी की परवाह किए बिना, यह विधि सुसंगत प्रदर्शन सुधार लाती है। विश्लेषण से पता चलता है कि यह विधि विशेषता विरलता को प्रेरित कर सकती है और उच्च-आवृत्ति घटकों को प्रभावी ढंग से अलग कर सकती है, जो मूल परिकल्पना के लिए अनुभवजन्य सत्यापन प्रदान करता है।
गहन शिक्षण मॉडल का एक मूल चुनौती व्यवधान और डोमेन बदलाव के प्रति कमजोरी है। आधुनिक गहन शिक्षण मॉडल प्रशिक्षण प्रक्रिया के दौरान प्राप्त सतही निम्न-स्तरीय बनावट निर्भरता व्यवधान के प्रति उनकी कमजोरी को और बढ़ाती है, जो विरोधी हमलों और डोमेन अनुकूलन जैसे क्षेत्रों में विशेष रूप से स्पष्ट है।
लेखकों ने देखा कि पारंपरिक किनारे फ़िल्टर को छवि प्रसंस्करण में प्रासंगिक जानकारी को प्रभावी ढंग से कैप्चर करने के लिए एक शास्त्रीय तकनीक के रूप में लंबे समय तक उपयोग किया गया है, जो विभिन्न प्रकार के शोर के लिए मजबूत पूर्वानुमान प्रदान करता है, जबकि शब्दार्थ जानकारी को प्रभावी ढंग से निकालता है। हालांकि, आधुनिक गहन शिक्षण में यह ज्ञान भूल गया प्रतीत होता है।
किनारे का पता लगाने की तकनीकों को गहन शिक्षण डोमेन में एकीकृत करने के पिछले प्रयास विफल होने के मुख्य कारणों में शामिल हैं:
छवियों पर किनारे फ़िल्टर लागू करना व्यवधान के लिए मजबूती प्रदान करता है, लेकिन सूक्ष्म-दानेदार छवि विवरण के नुकसान का कारण बनता है
शास्त्रीय किनारे का पता लगाना केवल छवि डोमेन तक सीमित है, विविध डेटा मोडेलिटी को संभालने वाली आधुनिक गहन शिक्षण में सार्वभौमिक रूप से लागू करना मुश्किल है
यह पेपर किनारे फ़िल्टर की अवधारणा को गहन विशेषताओं तक सामान्यीकृत करता है, जिसे इनपुट परत के बजाय गहरी परतों पर सीधे लागू किया जा सकता है, जो पारंपरिक किनारे फ़िल्टर और गहन शिक्षण के लाभों को जोड़ता है, व्यवधान और डोमेन बदलाव के लिए मजबूत मॉडल का निर्माण करता है।
Deep Edge Filter प्रस्तावित किया: एक मानव अंतर्ज्ञान पर आधारित फ़िल्टर, जिसे मोडेलिटी-अज्ञेयवादी तरीके से तंत्रिका नेटवर्क की विशेषताओं पर लागू किया जा सकता है, सामान्यीकरण योग्य विशेषताओं के निष्कर्षण को बढ़ावा देता है
क्रॉस-आर्किटेक्चर और क्रॉस-मोडेलिटी सत्यापन: CNN और ViT आर्किटेक्चर के लिए Edge Filter प्रस्तावित किया, और छवि, पाठ, 3D और ऑडियो सहित कई मोडेलिटी पर सामान्यीकरण महत्वपूर्ण कार्यों पर फ़िल्टर की प्रभावशीलता को अनुभवजन्य रूप से प्रदर्शित किया
सैद्धांतिक विश्लेषण और अनुभवजन्य सत्यापन: परत विरलता और आवृत्ति अपघटन के दृष्टिकोण से प्रयोगात्मक परिणामों का विश्लेषण, और गहन विशेषताओं Edge Filter पर व्यापक ablation अध्ययन प्रदान किया
लेखकों ने एक महत्वपूर्ण परिकल्पना प्रस्तावित की: गहन नेटवर्क उच्च-आवृत्ति घटकों में कार्य-संबंधित शब्दार्थ विशेषताओं को एन्कोड करते हैं, निम्न-आवृत्ति घटकों में डोमेन-विशिष्ट पूर्वाग्रह को एन्कोड करते हैं। यदि यह परिकल्पना सही है, तो Edge Filter को सामान्यीकृत करना (अनिवार्य रूप से उच्च-पास फ़िल्टर के रूप में) सामान्यीकरण योग्य विशेषताओं को अलग करने में मदद करना चाहिए।
प्रस्तावित विशेषता अपघटन और आवृत्ति परिकल्पना के तहत:
LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem
आवृत्ति फ़िल्टरिंग के माध्यम से विशेषताओं को परिष्कृत करने की यह विधि विरल कोडिंग के सिद्धांतों के साथ दृढ़ता से गूंजती है, किनारे फ़िल्टरिंग के माध्यम से h में निम्न-आवृत्ति, डोमेन-विशिष्ट अतिरेक को हटाकर, अनिवार्य रूप से प्रतिनिधित्व करने के लिए आवश्यक संकेत को सरल बनाता है।
CIFAR10-C/100-C और ImageNet200-C पर परिणाम दिखाते हैं:
CIFAR10-C: 1.2%p से 8.5%p तक प्रदर्शन सुधार
CIFAR100-C: 0.4%p से 10.2%p तक प्रदर्शन सुधार
ImageNet200-C: 0.1%p से 1.9%p तक प्रदर्शन सुधार
यह ध्यान देने योग्य है कि स्रोत डेटासेट पर प्रदर्शन में मामूली गिरावट के बावजूद, भ्रष्ट डेटासेट पर प्रदर्शन में उल्लेखनीय सुधार होता है, जो दर्शाता है कि Edge Filter ओवरफिटिंग को प्रभावी ढंग से रोकता है।
प्रशिक्षण प्रक्रिया के दौरान परत आउटपुट की घनत्व को मापकर, पाया गया कि Edge Filter ने बाद की परतों के आउटपुट घनत्व को महत्वपूर्ण रूप से कम किया, उच्च-पास फ़िल्टरिंग के कारण विशेषता विरल कोडिंग के सिद्धांत को सत्यापित किया।
FFT विश्लेषण से पता चलता है कि Edge Filter ने गहन विशेषताओं के निम्न-आवृत्ति क्षेत्र में आयाम को प्रभावी ढंग से कम किया, इसके उच्च-पास ऑपरेटर के रूप में अपेक्षित कार्य की पुष्टि की।
Deep Edge Filter कई मोडेलिटी और आर्किटेक्चर पर सुसंगत प्रदर्शन सुधार दिखाते हुए, अधिक सामान्यीकरण योग्य विशेषताओं को प्रभावी ढंग से निकाल सकता है
सैद्धांतिक परिकल्पना को अनुभवजन्य रूप से सत्यापित किया गया: शब्दार्थ जानकारी मुख्य रूप से उच्च-आवृत्ति घटकों में मौजूद है, डोमेन-विशिष्ट जानकारी निम्न-आवृत्ति घटकों में है
यह विधि आर्किटेक्चर-अज्ञेयवादी और मोडेलिटी-अज्ञेयवादी है
मजबूत सैद्धांतिक नवीनता: शास्त्रीय छवि प्रसंस्करण में किनारे फ़िल्टरिंग की अवधारणा को गहन विशेषताओं तक सफलतापूर्वक सामान्यीकृत किया, नई सैद्धांतिक दृष्टि प्रदान की
व्यापक क्रॉस-मोडेलिटी सत्यापन: दृश्य, पाठ, 3D, ऑडियो चार विभिन्न मोडेलिटी पर सत्यापित, विधि की सार्वभौमिकता को प्रदर्शित किया
सिद्धांत और अभ्यास का संयोजन: न केवल विधि प्रस्तावित की, बल्कि विरल कोडिंग सिद्धांत और आवृत्ति विश्लेषण के माध्यम से सैद्धांतिक व्याख्या भी प्रदान की
कठोर प्रयोगात्मक डिजाइन: समृद्ध ablation प्रयोग, सांख्यिकीय महत्व परीक्षण और दृश्य विश्लेषण शामिल हैं
कम्प्यूटेशनल ओवरहेड विश्लेषण अपर्याप्त: हालांकि परिशिष्ट F में कम्प्यूटेशनल ओवरहेड तुलना प्रदान की गई है, लेकिन व्यावहारिक अनुप्रयोग में दक्षता प्रभाव का विश्लेषण पर्याप्त नहीं है
सीमित बड़े मॉडल सत्यापन: मुख्य रूप से अपेक्षाकृत छोटे मॉडल पर सत्यापित, वर्तमान मुख्यधारा के बड़े मॉडल पर प्रयोज्यता सत्यापन की आवश्यकता है
सैद्धांतिक व्याख्या की सीमा: हालांकि आवृत्ति डोमेन की व्याख्या प्रदान की गई है, लेकिन शब्दार्थ जानकारी मुख्य रूप से उच्च-आवृत्ति घटकों में क्यों मौजूद है, इसके गहरे तंत्र की व्याख्या पर्याप्त नहीं है
अनुप्रयोग परिदृश्य सीमा: मॉडल को फिर से प्रशिक्षित करने की आवश्यकता पूर्व-प्रशिक्षित मॉडल पर इसके प्रत्यक्ष अनुप्रयोग को सीमित करती है
पेपर में 53 संबंधित साहित्य का हवाला दिया गया है, मुख्य रूप से शामिल हैं:
गहन शिक्षण में आवृत्ति विश्लेषण संबंधित कार्य
डोमेन अनुकूलन और परीक्षण समय अनुकूलन विधियां
सक्रियण फ़िल्टरिंग और नेटवर्क विरलता अनुसंधान
विभिन्न मोडेलिटी के बेंचमार्क डेटासेट और मूल्यांकन विधियां
समग्र मूल्यांकन: यह एक उत्कृष्ट पेपर है जो सैद्धांतिक नवीनता और व्यावहारिक सत्यापन दोनों को जोड़ता है, शास्त्रीय संकेत प्रसंस्करण की अवधारणा को आधुनिक गहन शिक्षण में सफलतापूर्वक पेश करता है, और कई क्षेत्रों में इसकी प्रभावशीलता को सत्यापित करता है। हालांकि कुछ सीमाएं हैं, लेकिन प्रदान की गई नई दृष्टि और सुसंगत प्रयोगात्मक परिणाम इसे महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व देते हैं।