2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.
Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic

Eingeschränkte Rezeptive Felder für Gesichtsverifizierung

Grundinformationen

  • Paper-ID: 2510.10753
  • Titel: Restricted Receptive Fields for Face Verification
  • Autoren: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (University of Notre Dame)
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.10753

Zusammenfassung

In diesem Artikel wird eine Methode zur Gesichtsverifizierung basierend auf eingeschränkten rezeptiven Feldern vorgestellt, die darauf abzielt, das Problem der Uninterpretierbarkeit von Entscheidungsprozessen in tiefen neuronalen Netzen zu lösen. Während traditionelle Methoden ein einzelnes globales Merkmalsvektor zur Darstellung des gesamten Gesichtsbildes verwenden, zerlegt dieser Artikel die globale Ähnlichkeit in lokale Beiträge aus eingeschränkten rezeptiven Feldern. Die Methode definiert die Ähnlichkeit zwischen zwei Gesichtsbildern als Summe von Ähnlichkeitswerten auf Blockebene und bietet eine lokal additive Interpretation ohne Abhängigkeit von nachträglicher Analyse. Experimente zeigen, dass die Methode selbst bei Verwendung von 28×28-Blöcken in 112×112-Gesichtsbildern wettbewerbsfähige Verifizierungsleistung erreicht, während die Verwendung von 56×56-Blöcken sogar aktuelle hochmoderne Methoden übertrifft.

Forschungshintergrund und Motivation

Kernproblem

Tiefe neuronale Netze haben hervorragende Leistungen bei Gesichtserkennungsaufgaben erzielt, aber ihre Entscheidungsprozesse mangelt es an Interpretierbarkeit, was in hochriskanten Anwendungsszenarien ein ernstes Problem darstellt.

Bedeutung des Problems

  1. Sicherheitsanforderungen: Gesichtserkennungssysteme werden häufig in sicherheits- und medizinischen Hochrisikobereichen eingesetzt und erfordern vertrauenswürdige Entscheidungsprozesse
  2. Fehlerdiagnose: Das Verständnis der Entscheidungsmechanismen des Modells ist entscheidend für die Analyse des Modellverhaltens und die Diagnose von Ausfallszenarien
  3. Behördliche Compliance: Viele Anwendungsszenarien erfordern, dass KI-Systeme interpretierbar sind

Einschränkungen bestehender Methoden

  1. Nachträgliche Erklärungsmethoden: Bestehende Methoden der erklärbaren KI beruhen hauptsächlich auf nachträglicher Analyse zur Erzeugung von Wärmekarten, ermangeln aber zuverlässiger Bewertungsmetriken
  2. Glaubwürdigkeit von Erklärungen: Dieselbe Wärmekarte kann sowohl für korrekte als auch für fehlerhafte Vorhersagen erzeugt werden, was die Zuverlässigkeit der Erklärung schwächt
  3. Rechenaufwand: Nachträgliche Methoden erfordern zusätzliche Rechenressourcen zur Erstellung von Erklärungen

Forschungsmotivation

Dieser Artikel schlägt eine intrinsisch interpretierbare Alternative vor, indem Modelle entworfen werden, deren Entscheidungsprozesse selbst interpretierbar sind, anstatt sich auf nachträgliche Analysemethoden zu verlassen.

Kernbeiträge

  1. Vorschlag einer Gesichtsähnlichkeitsmessungsmethode basierend auf eingeschränkten rezeptiven Feldern: Zerlegung der globalen Ähnlichkeit in eine gewichtete Summe von Ähnlichkeitswerten auf Blockebene
  2. Entwurf der RRFNet-Architektur: Realisierung einer interpretierbaren Verifizierung basierend auf Blockvergleich durch geringfügige Änderungen an ResNet
  3. Validierung der Methodeneffektivität: Demonstration wettbewerbsfähiger oder sogar überlegener SOTA-Leistung auf sieben Benchmark-Datensätzen
  4. Bereitstellung intrinsischer Interpretierbarkeit: Bereitstellung lokaler Erklärungen des Entscheidungsprozesses ohne zusätzliche Berechnung

Methodendetails

Aufgabendefinition

Eingabe: Zwei 112×112-Gesichtsbilder A und B Ausgabe: Binäre Verifizierungsentscheidung (gleiche/unterschiedliche Identität) Einschränkung: Der Entscheidungsprozess muss als Kombination von Beiträgen lokaler Regionen interpretierbar sein

Modellarchitektur

Methode 1: Regionenbasierte Ähnlichkeitsmessung

  1. Bildblockierung: Gleichmäßige Aufteilung jedes Gesichtsbildes in k lokale Blöcke der Größe w×h
  2. Unabhängiges Merkmalslernen: Training unabhängiger CNNs für jeden Block zur Extraktion von N-dimensionalen Merkmalsvektoren
  3. Berechnung lokaler Ähnlichkeit: Verwendung von Kosinusähnlichkeit zur Berechnung der Ähnlichkeit zwischen entsprechenden Blöcken:
    S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
    
  4. Aggregation globaler Ähnlichkeit: Erreichung globaler Ähnlichkeit durch gewichtete Summe:
    S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
    

Methode 2: Netzwerk mit eingeschränktem rezeptivem Feld (RRFNet)

  1. Architekturmodifikation: Geringfügige Änderung von ResNet durch Änderung des Schritts des ersten Blocks von 2 auf 1
  2. Merkmalsextraktion auf Blockebene: Extraktion von 512-dimensionalen Merkmalen aus 28×28 (RRFNet-28) oder 56×56 (RRFNet-56) Bildblöcken
  3. Globale Darstellung: Definition der globalen Darstellung als Mittelwert von Blockmerkmalen:
    F^A = (1/K) Σ(i=1 to K) f^A_i
    
  4. Ähnlichkeitsberechnung: Globale Ähnlichkeit kann als Kombination von Blockmerkmalprodukten ausgedrückt werden

Technische Innovationen

  1. Intrinsische Interpretierbarkeit: Im Gegensatz zu nachträglichen Erklärungsmethoden ist die Erklärung dieser Methode ein inhärenter Bestandteil des Entscheidungsprozesses
  2. Leistungserhaltung: Durch geschicktes Architekturdesign wird wettbewerbsfähige Leistung bei verbesserter Interpretierbarkeit beibehalten
  3. Flexible Blockgröße: Unterstützung verschiedener Größen eingeschränkter rezeptiver Felder mit Ausgleich zwischen Leistung und Interpretierbarkeit
  4. Einheitlicher Rahmen: Bereitstellung eines mathematischen Rahmens zur Zerlegung globaler Ähnlichkeit in lokale Beiträge

Experimentelle Einrichtung

Datensätze

  • Trainingsdaten: WebFace4M und CASIA-WebFace
  • Testdaten: Sieben Benchmark-Datensätze
    • LFW: Standard-Gesichtsverifizierungs-Benchmark
    • CFP-FP, CPLFW: Bewertung von Haltungsänderungen
    • AGEDB, CALFW: Bewertung von Altersänderungen
    • Eclipse (ECL): Bewertung von Beleuchtungsänderungen
    • Hadrian (HAD): Bewertung von Gesichtsbehaarungsänderungen

Bewertungsmetriken

  • Verifizierungsgenauigkeit (10-fache Kreuzvalidierung)
  • Durchschnittliche Genauigkeit über verschiedene Datensätze

Vergleichsmethoden

  • ArcFace (ResNet50/100)
  • AdaFace (ResNet50/100)
  • UniFace (ResNet50)
  • KP-RPE (ViT)

Implementierungsdetails

  • Trainingsepochen: 20-30
  • Datenerweiterung: Horizontale Spiegelung, ±5 Pixel vertikale und horizontale Versätze
  • Maskenverbesserung: Blockmaskenquoten von 20% und 40%
  • Architektur: ResNet50/100-Backbone

Experimentelle Ergebnisse

Hauptergebnisse

RRFNet-56-Leistung:

  • Durchschnittliche Genauigkeit von 95,69% über sieben Datensätze unter WebFace4M+ResNet100-Einstellung
  • Übertrifft SOTA-Methoden wie ArcFace (95,09%) und AdaFace (95,28%)
  • Erreicht beste Leistung auf den meisten Datensätzen

RRFNet-28-Leistung:

  • Durchschnittliche Genauigkeit von 95,20%, wettbewerbsfähig mit SOTA-Methoden
  • Demonstriert, dass selbst kleine 28×28-Blöcke gute Leistung beibehalten können

Ablationsstudien

Einzelne Blockleistungsanalyse:

  • Zentraler Bereichsblock (Position 28,28) zeigt beste Leistung mit 94,41% Genauigkeit für einzelne Blöcke
  • Untere Gesichtshälfte übertrifft typischerweise die obere Hälfte
  • Im Hadrian-Datensatz zeigt die obere Hälfte bessere Leistung aufgrund von Bartveränderungen

Blockkombinatonsstrategien:

  • Nur 28×28-Blöcke: Durchschnitt 93,12%
  • Nur 56×56-Blöcke: Durchschnitt 95,18%
  • Kombination beider Blockgrößen: Durchschnitt 95,51%

Maskenverbesserungseffekte:

  • 20% Maske: Beste Leistung in den meisten Einstellungen
  • 40% Maske: Leichte Leistungsabnahme, aber weiterhin wettbewerbsfähig
  • Keine Maske: Baseline-Leistung

Fallstudien

Der Artikel zeigt Visualisierungsergebnisse von RRFNet-28:

  • Ähnlichkeitswerte für jeden Blockpaar werden intuitiv angezeigt
  • Wärmekarten zeigen räumliche Verteilung von Blockähnlichkeiten
  • Positive Stichprobenpaare zeigen hohe Ähnlichkeitsbereiche konzentriert auf kritische Gesichtsmerkmale
  • Negative Stichprobenpaare zeigen niedrigere und verstreute Ähnlichkeitsverteilung

Experimentelle Erkenntnisse

  1. Lokal vs. Global: Eingeschränkte rezeptive Felder schädigen die Leistung nicht notwendigerweise, sondern können in einigen Fällen vorteilhaft sein
  2. Blockgrößenauswirkung: 56×56-Blöcke erreichen das beste Gleichgewicht zwischen Leistung und Interpretierbarkeit
  3. Positionsbedeutung: Zentrale Gesichtsbereiche sind für Verifizierungsentscheidungen am kritischsten
  4. Herausforderungen über Haltungen hinweg: 28×28-Blöcke zeigen größere Leistungsabnahmen bei Datensätzen mit großen Haltungsänderungen

Verwandte Arbeiten

Klassifizierung von Methoden der erklärbaren KI

  1. Nachträgliche Erklärungsmethoden: LIME, SHAP, Grad-CAM usw. generieren Pixel-Wichtigkeitswerte
  2. Intrinsisch erklärbare Methoden: Entwurf von Modellarchitekturen, die selbst interpretierbar sind

Interpretierbarkeit der Gesichtserkennung

  • Bestehende Arbeiten verwenden hauptsächlich nachträgliche Erklärungsmethoden
  • Mangel an zuverlässigen Metriken zur quantitativen Bewertung der Erklärungsqualität
  • Dieser Artikel bietet eine intrinsisch erklärbare Alternative

Verwandte Architekturen

  • ProtoPNet: Prototypbasierte erklärbare Klassifizierung, aber begrenzt auf geschlossene Erkennungsaufgaben
  • BagNet: Einschränkung des CNN-rezeptiven Feldes für lokale Erklärungen, aber mit Genauigkeitsopfern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die vorgeschlagene Methode basierend auf eingeschränkten rezeptiven Feldern realisiert intrinsisch erklärbare Gesichtsverifizierung
  2. RRFNet-56 übertrifft SOTA-Methoden bei Beibehaltung der Interpretierbarkeit
  3. Selbst kleine 28×28-Blöcke erreichen wettbewerbsfähige Leistung
  4. Die Methode bietet Entscheidungserklärungen ohne zusätzliche Rechenkosten

Einschränkungen

  1. Rechenaufwand: Trainingszeit nimmt um das 3-7-fache gegenüber Baseline-Methoden zu
  2. Blockauswahl: Aktuelle Verwendung von festen, gleichmäßig verteilten Blöcken ist möglicherweise nicht optimal
  3. Leistung über Haltungen hinweg: Kleine Blöcke zeigen Leistungsabnahmen bei großen Haltungsänderungen
  4. Architektur-Einschränkungen: Hauptsächlich auf ResNet validiert, Anwendbarkeit auf andere Architekturen bleibt zu erforschen

Zukünftige Richtungen

  1. Adaptive Blockauswahl: Automatische Auswahl von Blockgröße und Position basierend auf Bildinhalt
  2. Architekturoptimierung: Erforschung der Anwendbarkeit anderer CNN- oder ViT-Architekturen
  3. Dynamische Blockstrategie: Anpassung der Blockauswahl basierend auf verglichenen Bildpaaren
  4. Theoretische Analyse: Tiefere Analyse der theoretischen Grundlagen der Beziehung zwischen eingeschränktem rezeptivem Feld und Leistung

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Vorschlag eines neuen Paradigmas für intrinsisch erklärbare Gesichtsverifizierung
  2. Hervorragende Leistung: Erreicht oder übertrifft SOTA bei Gewährleistung der Interpretierbarkeit
  3. Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmark-Datensätzen
  4. Einfache Methode: Erreicht komplexe Ziele durch einfache Architekturmodifikationen
  5. Praktischer Wert: Bietet vertrauenswürdige Lösungen für hochriskante Anwendungen

Mängel

  1. Recheneffizienz: Signifikante Zunahme der Trainingszeit kann praktische Anwendungen einschränken
  2. Theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum eingeschränkte rezeptive Felder die Leistung verbessern
  3. Generalisierbarkeit: Hauptsächlich auf Gesichtsverifizierungsaufgaben validiert, Anwendbarkeit auf andere Sehaufgaben unbekannt
  4. Blockstrategie: Feste Blockaufteilung ist möglicherweise nicht für alle Szenarien geeignet

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für das Feld der erklärbaren KI
  2. Praktischer Wert: Wichtige Anwendungsaussichten in sicherheits- und medizinischen Hochrisikobereichen
  3. Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht einfache Reproduktion und Erweiterung
  4. Inspirationswert: Kann mehr Forschung zu intrinsisch erklärbaren Modellen inspirieren

Anwendungsszenarien

  1. Hochriskante Anwendungen: Sicherheitssysteme, die Erklärungen von Entscheidungsprozessen erfordern
  2. Behördliche Umgebung: Kommerzielle Anwendungen, die Interpretierbarkeitsanforderungen erfüllen müssen
  3. Forschungswerkzeuge: Zur Analyse des Verhaltens von Gesichtserkennungsmodellen
  4. Bildungsszenarien: Hilft beim Verständnis der Funktionsweise von Deep-Learning-Modellen

Referenzen

Der Artikel zitiert 68 verwandte Referenzen, die hauptsächlich folgende Bereiche abdecken:

  • Methoden der erklärbaren KI (Rudin 2019, Chen et al. 2019)
  • Gesichtserkennungstechnologie (Deng et al. 2019, Kim et al. 2022)
  • Deep-Learning-Architekturen (He et al. 2016)
  • Bewertungs-Benchmark-Datensätze (Huang et al. 2007, Wu et al. 2024)

Zusammenfassung: Dieser Artikel schlägt eine innovative Methode zur Gesichtsverifizierung basierend auf eingeschränkten rezeptiven Feldern vor, die erfolgreich hohe Leistung bei gleichzeitiger Realisierung intrinsischer Interpretierbarkeit beibehält. Diese Arbeit bietet wertvolle neue Perspektiven für das Feld der erklärbaren KI und ist besonders für hochriskante Anwendungsszenarien geeignet, die Entscheidungstransparenz erfordern. Trotz Einschränkungen wie Rechenaufwand und unzureichender theoretischer Analyse machen ihre Innovation und praktischer Wert sie zu einem wichtigen Beitrag in diesem Bereich.