2025-11-22T06:43:16.272980

Deep Edge Filter: Return of the Human-Crafted Layer in Deep Learning

Lee, Lee, Kwak
We introduce the Deep Edge Filter, a novel approach that applies high-pass filtering to deep neural network features to improve model generalizability. Our method is motivated by our hypothesis that neural networks encode task-relevant semantic information in high-frequency components while storing domain-specific biases in low-frequency components of deep features. By subtracting low-pass filtered outputs from original features, our approach isolates generalizable representations while preserving architectural integrity. Experimental results across diverse domains such as Vision, Text, 3D, and Audio demonstrate consistent performance improvements regardless of model architecture and data modality. Analysis reveals that our method induces feature sparsification and effectively isolates high-frequency components, providing empirical validation of our core hypothesis. The code is available at https://github.com/dongkwani/DeepEdgeFilter.
academic

Deep Edge Filter: Deep Learning में मानव-निर्मित परत की वापसी

मूल जानकारी

  • पेपर ID: 2510.13865
  • शीर्षक: Deep Edge Filter: Deep Learning में मानव-निर्मित परत की वापसी
  • लेखक: Dongkwan Lee, Junhoo Lee, Nojun Kwak (Seoul National University)
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन समय/सम्मेलन: 39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन (NeurIPS 2025)
  • पेपर लिंक: https://arxiv.org/abs/2510.13865
  • कोड लिंक: https://github.com/dongkwani/DeepEdgeFilter

सारांश

यह पेपर Deep Edge Filter प्रस्तावित करता है, जो गहन तंत्रिका नेटवर्क विशेषताओं पर उच्च-पास फ़िल्टरिंग लागू करके मॉडल सामान्यीकरण क्षमता में सुधार करने की एक नई विधि है। यह विधि एक परिकल्पना पर आधारित है: तंत्रिका नेटवर्क गहन विशेषताओं के उच्च-आवृत्ति घटकों में कार्य-संबंधित शब्दार्थ जानकारी को एन्कोड करते हैं, जबकि निम्न-आवृत्ति घटकों में डोमेन-विशिष्ट पूर्वाग्रह संग्रहीत करते हैं। मूल विशेषताओं से निम्न-पास फ़िल्टरिंग आउटपुट को घटाकर, यह विधि सामान्यीकरण योग्य प्रतिनिधित्व को अलग कर सकती है, जबकि आर्किटेक्चर अखंडता बनाए रखती है। दृश्य, पाठ, 3D और ऑडियो सहित कई डोमेन में प्रयोगात्मक परिणाम दर्शाते हैं कि मॉडल आर्किटेक्चर और डेटा मोडेलिटी की परवाह किए बिना, यह विधि सुसंगत प्रदर्शन सुधार लाती है। विश्लेषण से पता चलता है कि यह विधि विशेषता विरलता को प्रेरित कर सकती है और उच्च-आवृत्ति घटकों को प्रभावी ढंग से अलग कर सकती है, जो मूल परिकल्पना के लिए अनुभवजन्य सत्यापन प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

गहन शिक्षण मॉडल का एक मूल चुनौती व्यवधान और डोमेन बदलाव के प्रति कमजोरी है। आधुनिक गहन शिक्षण मॉडल प्रशिक्षण प्रक्रिया के दौरान प्राप्त सतही निम्न-स्तरीय बनावट निर्भरता व्यवधान के प्रति उनकी कमजोरी को और बढ़ाती है, जो विरोधी हमलों और डोमेन अनुकूलन जैसे क्षेत्रों में विशेष रूप से स्पष्ट है।

अनुसंधान प्रेरणा

लेखकों ने देखा कि पारंपरिक किनारे फ़िल्टर को छवि प्रसंस्करण में प्रासंगिक जानकारी को प्रभावी ढंग से कैप्चर करने के लिए एक शास्त्रीय तकनीक के रूप में लंबे समय तक उपयोग किया गया है, जो विभिन्न प्रकार के शोर के लिए मजबूत पूर्वानुमान प्रदान करता है, जबकि शब्दार्थ जानकारी को प्रभावी ढंग से निकालता है। हालांकि, आधुनिक गहन शिक्षण में यह ज्ञान भूल गया प्रतीत होता है।

मौजूदा विधियों की सीमाएं

किनारे का पता लगाने की तकनीकों को गहन शिक्षण डोमेन में एकीकृत करने के पिछले प्रयास विफल होने के मुख्य कारणों में शामिल हैं:

  1. छवियों पर किनारे फ़िल्टर लागू करना व्यवधान के लिए मजबूती प्रदान करता है, लेकिन सूक्ष्म-दानेदार छवि विवरण के नुकसान का कारण बनता है
  2. शास्त्रीय किनारे का पता लगाना केवल छवि डोमेन तक सीमित है, विविध डेटा मोडेलिटी को संभालने वाली आधुनिक गहन शिक्षण में सार्वभौमिक रूप से लागू करना मुश्किल है

इस पेपर का योगदान

यह पेपर किनारे फ़िल्टर की अवधारणा को गहन विशेषताओं तक सामान्यीकृत करता है, जिसे इनपुट परत के बजाय गहरी परतों पर सीधे लागू किया जा सकता है, जो पारंपरिक किनारे फ़िल्टर और गहन शिक्षण के लाभों को जोड़ता है, व्यवधान और डोमेन बदलाव के लिए मजबूत मॉडल का निर्माण करता है।

मूल योगदान

  1. Deep Edge Filter प्रस्तावित किया: एक मानव अंतर्ज्ञान पर आधारित फ़िल्टर, जिसे मोडेलिटी-अज्ञेयवादी तरीके से तंत्रिका नेटवर्क की विशेषताओं पर लागू किया जा सकता है, सामान्यीकरण योग्य विशेषताओं के निष्कर्षण को बढ़ावा देता है
  2. क्रॉस-आर्किटेक्चर और क्रॉस-मोडेलिटी सत्यापन: CNN और ViT आर्किटेक्चर के लिए Edge Filter प्रस्तावित किया, और छवि, पाठ, 3D और ऑडियो सहित कई मोडेलिटी पर सामान्यीकरण महत्वपूर्ण कार्यों पर फ़िल्टर की प्रभावशीलता को अनुभवजन्य रूप से प्रदर्शित किया
  3. सैद्धांतिक विश्लेषण और अनुभवजन्य सत्यापन: परत विरलता और आवृत्ति अपघटन के दृष्टिकोण से प्रयोगात्मक परिणामों का विश्लेषण, और गहन विशेषताओं Edge Filter पर व्यापक ablation अध्ययन प्रदान किया

विधि विवरण

मूल परिकल्पना

लेखकों ने एक महत्वपूर्ण परिकल्पना प्रस्तावित की: गहन नेटवर्क उच्च-आवृत्ति घटकों में कार्य-संबंधित शब्दार्थ विशेषताओं को एन्कोड करते हैं, निम्न-आवृत्ति घटकों में डोमेन-विशिष्ट पूर्वाग्रह को एन्कोड करते हैं। यदि यह परिकल्पना सही है, तो Edge Filter को सामान्यीकृत करना (अनिवार्य रूप से उच्च-पास फ़िल्टर के रूप में) सामान्यीकरण योग्य विशेषताओं को अलग करने में मदद करना चाहिए।

Deep Edge Filter परिभाषा

Edge Filter को मूल गहन विशेषता h से निम्न-पास फ़िल्टरिंग (LPF) परिणाम को घटाकर प्राप्त अवशेष के रूप में परिभाषित किया गया है:

F_edge(h) = h - LPF(h)

जहां LPF, h पर लागू निम्न-पास फ़िल्टर को दर्शाता है, जैसे माध्य, माध्यिका या गॉसियन कर्नेल।

विशेषता अपघटन सिद्धांत

मान लीजिए h ∈ R^d गहन नेटवर्क की छिपी परत की विशेषता वेक्टर है, मान लीजिए कि विशेषता को योगात्मक रूप से अपघटित किया जा सकता है:

h = h_sem + h_dom

जहां:

  • h_sem सामान्यीकरण योग्य, कार्य-संबंधित शब्दार्थ विशेषताओं को एन्कोड करता है
  • h_dom डोमेन-विशिष्ट पूर्वाग्रह का प्रतिनिधित्व करता है, जैसे प्रकाश व्यवस्था, संकल्प या पृष्ठभूमि बनावट

विरल कोडिंग दृष्टिकोण

प्रस्तावित विशेषता अपघटन और आवृत्ति परिकल्पना के तहत:

LPF(h) ≈ h_dom ⇒ F_edge(h) ≈ h_sem

आवृत्ति फ़िल्टरिंग के माध्यम से विशेषताओं को परिष्कृत करने की यह विधि विरल कोडिंग के सिद्धांतों के साथ दृढ़ता से गूंजती है, किनारे फ़िल्टरिंग के माध्यम से h में निम्न-आवृत्ति, डोमेन-विशिष्ट अतिरेक को हटाकर, अनिवार्य रूप से प्रतिनिधित्व करने के लिए आवश्यक संकेत को सरल बनाता है।

आर्किटेक्चर अनुकूलन

  • CNN आर्किटेक्चर: 2D Edge Filter का उपयोग करते हैं, क्योंकि CNN स्वाभाविक रूप से पिक्सल के बीच ऊर्ध्वाधर और क्षैतिज स्थानिक संबंधों को संभालते हैं
  • MLP और Transformer आर्किटेक्चर: 1D Edge Filter का उपयोग करते हैं, क्योंकि ये आर्किटेक्चर स्वाभाविक रूप से स्थानिक संबंधों को नहीं संभालते हैं

प्रयोगात्मक सेटअप

डेटासेट और कार्य चयन

लेखकों ने प्रयोगों के लिए विभिन्न विशेषताओं वाली चार मोडेलिटी का चयन किया:

  1. दृश्य डोमेन: परीक्षण समय अनुकूलन (TTA) कार्य
    • CIFAR10-C/100-C और ImageNet200-C बेंचमार्क
    • WRN28-10, ResNet18 और ViT-B/32 आर्किटेक्चर का उपयोग
  2. भाषा डोमेन: भावना विश्लेषण कार्य
    • GLUE बेंचमार्क के उप-कार्य: SST-2, QQP, QNLI
    • 12-परत Transformer (BERT आर्किटेक्चर) का उपयोग
  3. 3D डोमेन: कम-नमूना तंत्रिका विकिरण क्षेत्र
    • Blender डेटासेट, 8-दृश्य कम-नमूना सेटिंग
    • मूल्यांकन मेट्रिक्स: PSNR, SSIM, LPIPS, MAE
  4. ऑडियो डोमेन: ऑडियो वर्गीकरण
    • UrbanSound8K डेटासेट
    • तीन कनवोल्यूशनल ब्लॉक की CNN आर्किटेक्चर

कार्यान्वयन विवरण

  • Edge Filter मॉडल प्रशिक्षण प्रक्रिया में LPF घटक को अलग किया जाता है, ताकि ग्रेडिएंट बैकप्रोपेगेशन को दबाया जा सके
  • प्रत्येक मॉडल में केवल एक परत में Edge Filter लागू किया जाता है, कई फ़िल्टर के कारण होने वाली जानकारी के नुकसान से बचने के लिए
  • इनपुट आउटपुट आयाम को सुसंगत रखने के लिए प्रतिबिंब पैडिंग का उपयोग किया जाता है

प्रयोगात्मक परिणाम

मुख्य परिणाम

दृश्य डोमेन (TTA)

CIFAR10-C/100-C और ImageNet200-C पर परिणाम दिखाते हैं:

  • CIFAR10-C: 1.2%p से 8.5%p तक प्रदर्शन सुधार
  • CIFAR100-C: 0.4%p से 10.2%p तक प्रदर्शन सुधार
  • ImageNet200-C: 0.1%p से 1.9%p तक प्रदर्शन सुधार

यह ध्यान देने योग्य है कि स्रोत डेटासेट पर प्रदर्शन में मामूली गिरावट के बावजूद, भ्रष्ट डेटासेट पर प्रदर्शन में उल्लेखनीय सुधार होता है, जो दर्शाता है कि Edge Filter ओवरफिटिंग को प्रभावी ढंग से रोकता है।

भाषा डोमेन

GLUE बेंचमार्क परीक्षण में:

  • SST-2: 79.36% → 80.85% (+1.49%p)
  • QQP: 83.42% → 83.46% (+0.04%p)
  • QNLI: 62.40% → 63.30% (+0.90%p)

3D डोमेन

NeRF कम-नमूना रेंडरिंग में:

  • औसत PSNR सुधार: 22.95 → 23.39 (+0.44)
  • औसत SSIM सुधार: 0.856 → 0.862 (+0.006)
  • LPIPS में 11% की उल्लेखनीय कमी, दृश्य गुणवत्ता में स्पष्ट सुधार का संकेत देती है

ऑडियो डोमेन

UrbanSound8K वर्गीकरण कार्य: 77.42% → 81.72% (+4.3%p)

विश्लेषणात्मक प्रयोग

विशेषता विरलता विश्लेषण

प्रशिक्षण प्रक्रिया के दौरान परत आउटपुट की घनत्व को मापकर, पाया गया कि Edge Filter ने बाद की परतों के आउटपुट घनत्व को महत्वपूर्ण रूप से कम किया, उच्च-पास फ़िल्टरिंग के कारण विशेषता विरल कोडिंग के सिद्धांत को सत्यापित किया।

आवृत्ति डोमेन विश्लेषण

FFT विश्लेषण से पता चलता है कि Edge Filter ने गहन विशेषताओं के निम्न-आवृत्ति क्षेत्र में आयाम को प्रभावी ढंग से कम किया, इसके उच्च-पास ऑपरेटर के रूप में अपेक्षित कार्य की पुष्टि की।

Ablation प्रयोग

फ़िल्टर प्रकार तुलना

विभिन्न LPF प्रकारों (माध्य, माध्यिका, गॉसियन) के प्रभाव का परीक्षण किया:

  • माध्य और माध्यिका फ़िल्टर सभी कार्यों पर सुसंगत प्रदर्शन सुधार दिखाते हैं
  • LPF को सीधे लागू करने से प्रदर्शन में उल्लेखनीय गिरावट आती है, जो निम्न-आवृत्ति घटकों में डोमेन-विशिष्ट जानकारी होने की परिकल्पना को सत्यापित करता है

स्थिति और कर्नेल आकार प्रभाव

  • WRN मॉडल: Edge Filter आवेदन सार्वभौमिक रूप से प्रदर्शन सुधार लाता है, अधिकतम सुधार 9.6%p
  • ViT मॉडल: बाद की परतों पर फ़िल्टर लागू करना अधिक प्रभावी है
  • भाषा कार्य: स्थिति और कर्नेल आकार की परवाह किए बिना, प्रदर्शन अपरिवर्तित रहता है या सुधार होता है

संबंधित कार्य

गहन शिक्षण में आवृत्ति दृष्टिकोण

मौजूदा अनुसंधान मुख्य रूप से छवि डेटा और CNN पर केंद्रित है, निम्नलिखित खोजें:

  • CNN को बनावट के लिए आकार के बजाय मजबूत पूर्वाग्रह है
  • गहन तंत्रिका नेटवर्क "आवृत्ति सिद्धांत" का पालन करते हैं, प्रशिक्षण के दौरान पहले निम्न-आवृत्ति घटकों को सीखते हैं

सक्रियण फ़िल्टरिंग और विरलता

संबंधित कार्य में शामिल हैं:

  • Filter Response Normalization (FRN)
  • Deep Frequency Filtering
  • ProSparse और अन्य विधियां

इस पेपर की नवीनता विभिन्न गहन शिक्षण अनुप्रयोगों के लिए लागू एक सार्वभौमिक फ़िल्टरिंग परत प्रस्तावित करने में निहित है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. Deep Edge Filter कई मोडेलिटी और आर्किटेक्चर पर सुसंगत प्रदर्शन सुधार दिखाते हुए, अधिक सामान्यीकरण योग्य विशेषताओं को प्रभावी ढंग से निकाल सकता है
  2. सैद्धांतिक परिकल्पना को अनुभवजन्य रूप से सत्यापित किया गया: शब्दार्थ जानकारी मुख्य रूप से उच्च-आवृत्ति घटकों में मौजूद है, डोमेन-विशिष्ट जानकारी निम्न-आवृत्ति घटकों में है
  3. यह विधि आर्किटेक्चर-अज्ञेयवादी और मोडेलिटी-अज्ञेयवादी है

सीमाएं

  1. कम्प्यूटेशनल लागत: मॉडल को शुरुआत से फिर से प्रशिक्षित करने की आवश्यकता है, जो बड़े मॉडल पर व्यापक प्रयोगों को सीमित करती है
  2. बड़े मॉडल सत्यापन अपर्याप्त: कम्प्यूटेशनल लागत बाधा के कारण, अत्याधुनिक मॉडल या व्यापक कार्यों पर सत्यापन नहीं कर सके
  3. भाषा डोमेन सीमा: LLM पर प्रयोग सत्यापन नहीं कर सके

भविष्य की दिशाएं

  1. विधि को बड़ी भाषा मॉडल (LLM) पर लागू करना
  2. बहु-मोडेलिटी मॉडल में अनुप्रयोग की खोज करना
  3. अधिक कुशल कार्यान्वयन तरीकों की जांच करना, पुनः प्रशिक्षण की आवश्यकता को कम करना

गहन मूल्यांकन

लाभ

  1. मजबूत सैद्धांतिक नवीनता: शास्त्रीय छवि प्रसंस्करण में किनारे फ़िल्टरिंग की अवधारणा को गहन विशेषताओं तक सफलतापूर्वक सामान्यीकृत किया, नई सैद्धांतिक दृष्टि प्रदान की
  2. व्यापक क्रॉस-मोडेलिटी सत्यापन: दृश्य, पाठ, 3D, ऑडियो चार विभिन्न मोडेलिटी पर सत्यापित, विधि की सार्वभौमिकता को प्रदर्शित किया
  3. सिद्धांत और अभ्यास का संयोजन: न केवल विधि प्रस्तावित की, बल्कि विरल कोडिंग सिद्धांत और आवृत्ति विश्लेषण के माध्यम से सैद्धांतिक व्याख्या भी प्रदान की
  4. कठोर प्रयोगात्मक डिजाइन: समृद्ध ablation प्रयोग, सांख्यिकीय महत्व परीक्षण और दृश्य विश्लेषण शामिल हैं

कमियां

  1. कम्प्यूटेशनल ओवरहेड विश्लेषण अपर्याप्त: हालांकि परिशिष्ट F में कम्प्यूटेशनल ओवरहेड तुलना प्रदान की गई है, लेकिन व्यावहारिक अनुप्रयोग में दक्षता प्रभाव का विश्लेषण पर्याप्त नहीं है
  2. सीमित बड़े मॉडल सत्यापन: मुख्य रूप से अपेक्षाकृत छोटे मॉडल पर सत्यापित, वर्तमान मुख्यधारा के बड़े मॉडल पर प्रयोज्यता सत्यापन की आवश्यकता है
  3. सैद्धांतिक व्याख्या की सीमा: हालांकि आवृत्ति डोमेन की व्याख्या प्रदान की गई है, लेकिन शब्दार्थ जानकारी मुख्य रूप से उच्च-आवृत्ति घटकों में क्यों मौजूद है, इसके गहरे तंत्र की व्याख्या पर्याप्त नहीं है
  4. अनुप्रयोग परिदृश्य सीमा: मॉडल को फिर से प्रशिक्षित करने की आवश्यकता पूर्व-प्रशिक्षित मॉडल पर इसके प्रत्यक्ष अनुप्रयोग को सीमित करती है

प्रभाव

  1. शैक्षणिक मूल्य: गहन शिक्षण में विशेषता प्रतिनिधित्व सीखने के लिए नई दृष्टि प्रदान करता है, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है
  2. व्यावहारिक मूल्य: विधि सरल और कार्यान्वयन में आसान है, सामान्यीकरण क्षमता में सुधार की आवश्यकता वाले कार्यों में व्यावहारिक अनुप्रयोग मूल्य है
  3. पुनरुत्पादनीयता: लेखकों ने पूर्ण कोड कार्यान्वयन प्रदान किया, प्रयोगात्मक विवरण पर्याप्त रूप से वर्णित हैं

लागू परिदृश्य

  1. डोमेन अनुकूलन कार्य: विशेष रूप से क्रॉस-डोमेन सामान्यीकरण की आवश्यकता वाले परिदृश्यों के लिए उपयुक्त
  2. कम-नमूना शिक्षण: डेटा सीमित परिस्थितियों में मॉडल सामान्यीकरण क्षमता में सुधार
  3. उच्च मजबूती आवश्यकता वाले अनुप्रयोग: शोर और व्यवधान के प्रति संवेदनशील अनुप्रयोग परिदृश्य
  4. बहु-मोडेलिटी शिक्षण: विभिन्न मोडेलिटी की विशेषताओं को एकीकृत रूप से संसाधित करने के लिए लागू किया जा सकता है

संदर्भ

पेपर में 53 संबंधित साहित्य का हवाला दिया गया है, मुख्य रूप से शामिल हैं:

  • गहन शिक्षण में आवृत्ति विश्लेषण संबंधित कार्य
  • डोमेन अनुकूलन और परीक्षण समय अनुकूलन विधियां
  • सक्रियण फ़िल्टरिंग और नेटवर्क विरलता अनुसंधान
  • विभिन्न मोडेलिटी के बेंचमार्क डेटासेट और मूल्यांकन विधियां

समग्र मूल्यांकन: यह एक उत्कृष्ट पेपर है जो सैद्धांतिक नवीनता और व्यावहारिक सत्यापन दोनों को जोड़ता है, शास्त्रीय संकेत प्रसंस्करण की अवधारणा को आधुनिक गहन शिक्षण में सफलतापूर्वक पेश करता है, और कई क्षेत्रों में इसकी प्रभावशीलता को सत्यापित करता है। हालांकि कुछ सीमाएं हैं, लेकिन प्रदान की गई नई दृष्टि और सुसंगत प्रयोगात्मक परिणाम इसे महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व देते हैं।