2025-11-13T00:16:11.561915

Restricted Receptive Fields for Face Verification

Ozturk, Bhatta, Wu et al.

Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.

academic

Eingeschränkte Rezeptive Felder für Gesichtsverifizierung

Grundinformationen

Paper-ID: 2510.10753
Titel: Restricted Receptive Fields for Face Verification
Autoren: Kagan Ozturk, Aman Bhatta, Haiyu Wu, Patrick Flynn, Kevin W. Bowyer (University of Notre Dame)
Klassifizierung: cs.CV (Computervision)
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.10753

Zusammenfassung

In diesem Artikel wird eine Methode zur Gesichtsverifizierung basierend auf eingeschränkten rezeptiven Feldern vorgestellt, die darauf abzielt, das Problem der Uninterpretierbarkeit von Entscheidungsprozessen in tiefen neuronalen Netzen zu lösen. Während traditionelle Methoden ein einzelnes globales Merkmalsvektor zur Darstellung des gesamten Gesichtsbildes verwenden, zerlegt dieser Artikel die globale Ähnlichkeit in lokale Beiträge aus eingeschränkten rezeptiven Feldern. Die Methode definiert die Ähnlichkeit zwischen zwei Gesichtsbildern als Summe von Ähnlichkeitswerten auf Blockebene und bietet eine lokal additive Interpretation ohne Abhängigkeit von nachträglicher Analyse. Experimente zeigen, dass die Methode selbst bei Verwendung von 28×28-Blöcken in 112×112-Gesichtsbildern wettbewerbsfähige Verifizierungsleistung erreicht, während die Verwendung von 56×56-Blöcken sogar aktuelle hochmoderne Methoden übertrifft.

Forschungshintergrund und Motivation

Kernproblem

Tiefe neuronale Netze haben hervorragende Leistungen bei Gesichtserkennungsaufgaben erzielt, aber ihre Entscheidungsprozesse mangelt es an Interpretierbarkeit, was in hochriskanten Anwendungsszenarien ein ernstes Problem darstellt.

Bedeutung des Problems

Sicherheitsanforderungen: Gesichtserkennungssysteme werden häufig in sicherheits- und medizinischen Hochrisikobereichen eingesetzt und erfordern vertrauenswürdige Entscheidungsprozesse
Fehlerdiagnose: Das Verständnis der Entscheidungsmechanismen des Modells ist entscheidend für die Analyse des Modellverhaltens und die Diagnose von Ausfallszenarien
Behördliche Compliance: Viele Anwendungsszenarien erfordern, dass KI-Systeme interpretierbar sind

Einschränkungen bestehender Methoden

Nachträgliche Erklärungsmethoden: Bestehende Methoden der erklärbaren KI beruhen hauptsächlich auf nachträglicher Analyse zur Erzeugung von Wärmekarten, ermangeln aber zuverlässiger Bewertungsmetriken
Glaubwürdigkeit von Erklärungen: Dieselbe Wärmekarte kann sowohl für korrekte als auch für fehlerhafte Vorhersagen erzeugt werden, was die Zuverlässigkeit der Erklärung schwächt
Rechenaufwand: Nachträgliche Methoden erfordern zusätzliche Rechenressourcen zur Erstellung von Erklärungen

Forschungsmotivation

Dieser Artikel schlägt eine intrinsisch interpretierbare Alternative vor, indem Modelle entworfen werden, deren Entscheidungsprozesse selbst interpretierbar sind, anstatt sich auf nachträgliche Analysemethoden zu verlassen.

Kernbeiträge

Vorschlag einer Gesichtsähnlichkeitsmessungsmethode basierend auf eingeschränkten rezeptiven Feldern: Zerlegung der globalen Ähnlichkeit in eine gewichtete Summe von Ähnlichkeitswerten auf Blockebene
Entwurf der RRFNet-Architektur: Realisierung einer interpretierbaren Verifizierung basierend auf Blockvergleich durch geringfügige Änderungen an ResNet
Validierung der Methodeneffektivität: Demonstration wettbewerbsfähiger oder sogar überlegener SOTA-Leistung auf sieben Benchmark-Datensätzen
Bereitstellung intrinsischer Interpretierbarkeit: Bereitstellung lokaler Erklärungen des Entscheidungsprozesses ohne zusätzliche Berechnung

Methodendetails

Aufgabendefinition

Eingabe: Zwei 112×112-Gesichtsbilder A und B Ausgabe: Binäre Verifizierungsentscheidung (gleiche/unterschiedliche Identität) Einschränkung: Der Entscheidungsprozess muss als Kombination von Beiträgen lokaler Regionen interpretierbar sein

Modellarchitektur

Methode 1: Regionenbasierte Ähnlichkeitsmessung

Bildblockierung: Gleichmäßige Aufteilung jedes Gesichtsbildes in k lokale Blöcke der Größe w×h
Unabhängiges Merkmalslernen: Training unabhängiger CNNs für jeden Block zur Extraktion von N-dimensionalen Merkmalsvektoren
Berechnung lokaler Ähnlichkeit: Verwendung von Kosinusähnlichkeit zur Berechnung der Ähnlichkeit zwischen entsprechenden Blöcken:
```
S_local(P^A_i, P^B_i) = (f^A_i · f^B_i) / (||f^A_i|| ||f^B_i||)
```
Aggregation globaler Ähnlichkeit: Erreichung globaler Ähnlichkeit durch gewichtete Summe:
```
S_global(A,B) = Σ(i=1 to k) w_i · S_local(P^A_i, P^B_i)
```

Methode 2: Netzwerk mit eingeschränktem rezeptivem Feld (RRFNet)

Architekturmodifikation: Geringfügige Änderung von ResNet durch Änderung des Schritts des ersten Blocks von 2 auf 1
Merkmalsextraktion auf Blockebene: Extraktion von 512-dimensionalen Merkmalen aus 28×28 (RRFNet-28) oder 56×56 (RRFNet-56) Bildblöcken
Globale Darstellung: Definition der globalen Darstellung als Mittelwert von Blockmerkmalen:
```
F^A = (1/K) Σ(i=1 to K) f^A_i
```
Ähnlichkeitsberechnung: Globale Ähnlichkeit kann als Kombination von Blockmerkmalprodukten ausgedrückt werden

Technische Innovationen

Intrinsische Interpretierbarkeit: Im Gegensatz zu nachträglichen Erklärungsmethoden ist die Erklärung dieser Methode ein inhärenter Bestandteil des Entscheidungsprozesses
Leistungserhaltung: Durch geschicktes Architekturdesign wird wettbewerbsfähige Leistung bei verbesserter Interpretierbarkeit beibehalten
Flexible Blockgröße: Unterstützung verschiedener Größen eingeschränkter rezeptiver Felder mit Ausgleich zwischen Leistung und Interpretierbarkeit
Einheitlicher Rahmen: Bereitstellung eines mathematischen Rahmens zur Zerlegung globaler Ähnlichkeit in lokale Beiträge

Experimentelle Einrichtung

Datensätze

Trainingsdaten: WebFace4M und CASIA-WebFace
Testdaten: Sieben Benchmark-Datensätze
- LFW: Standard-Gesichtsverifizierungs-Benchmark
- CFP-FP, CPLFW: Bewertung von Haltungsänderungen
- AGEDB, CALFW: Bewertung von Altersänderungen
- Eclipse (ECL): Bewertung von Beleuchtungsänderungen
- Hadrian (HAD): Bewertung von Gesichtsbehaarungsänderungen

Bewertungsmetriken

Verifizierungsgenauigkeit (10-fache Kreuzvalidierung)
Durchschnittliche Genauigkeit über verschiedene Datensätze

Vergleichsmethoden

ArcFace (ResNet50/100)
AdaFace (ResNet50/100)
UniFace (ResNet50)
KP-RPE (ViT)

Implementierungsdetails

Trainingsepochen: 20-30
Datenerweiterung: Horizontale Spiegelung, ±5 Pixel vertikale und horizontale Versätze
Maskenverbesserung: Blockmaskenquoten von 20% und 40%
Architektur: ResNet50/100-Backbone

Experimentelle Ergebnisse

Hauptergebnisse

RRFNet-56-Leistung:

Durchschnittliche Genauigkeit von 95,69% über sieben Datensätze unter WebFace4M+ResNet100-Einstellung
Übertrifft SOTA-Methoden wie ArcFace (95,09%) und AdaFace (95,28%)
Erreicht beste Leistung auf den meisten Datensätzen

RRFNet-28-Leistung:

Durchschnittliche Genauigkeit von 95,20%, wettbewerbsfähig mit SOTA-Methoden
Demonstriert, dass selbst kleine 28×28-Blöcke gute Leistung beibehalten können

Ablationsstudien

Einzelne Blockleistungsanalyse:

Zentraler Bereichsblock (Position 28,28) zeigt beste Leistung mit 94,41% Genauigkeit für einzelne Blöcke
Untere Gesichtshälfte übertrifft typischerweise die obere Hälfte
Im Hadrian-Datensatz zeigt die obere Hälfte bessere Leistung aufgrund von Bartveränderungen

Blockkombinatonsstrategien:

Nur 28×28-Blöcke: Durchschnitt 93,12%
Nur 56×56-Blöcke: Durchschnitt 95,18%
Kombination beider Blockgrößen: Durchschnitt 95,51%

Maskenverbesserungseffekte:

20% Maske: Beste Leistung in den meisten Einstellungen
40% Maske: Leichte Leistungsabnahme, aber weiterhin wettbewerbsfähig
Keine Maske: Baseline-Leistung

Fallstudien

Der Artikel zeigt Visualisierungsergebnisse von RRFNet-28:

Ähnlichkeitswerte für jeden Blockpaar werden intuitiv angezeigt
Wärmekarten zeigen räumliche Verteilung von Blockähnlichkeiten
Positive Stichprobenpaare zeigen hohe Ähnlichkeitsbereiche konzentriert auf kritische Gesichtsmerkmale
Negative Stichprobenpaare zeigen niedrigere und verstreute Ähnlichkeitsverteilung

Experimentelle Erkenntnisse

Lokal vs. Global: Eingeschränkte rezeptive Felder schädigen die Leistung nicht notwendigerweise, sondern können in einigen Fällen vorteilhaft sein
Blockgrößenauswirkung: 56×56-Blöcke erreichen das beste Gleichgewicht zwischen Leistung und Interpretierbarkeit
Positionsbedeutung: Zentrale Gesichtsbereiche sind für Verifizierungsentscheidungen am kritischsten
Herausforderungen über Haltungen hinweg: 28×28-Blöcke zeigen größere Leistungsabnahmen bei Datensätzen mit großen Haltungsänderungen

Die vorgeschlagene Methode basierend auf eingeschränkten rezeptiven Feldern realisiert intrinsisch erklärbare Gesichtsverifizierung
RRFNet-56 übertrifft SOTA-Methoden bei Beibehaltung der Interpretierbarkeit
Selbst kleine 28×28-Blöcke erreichen wettbewerbsfähige Leistung
Die Methode bietet Entscheidungserklärungen ohne zusätzliche Rechenkosten

Einschränkungen

Rechenaufwand: Trainingszeit nimmt um das 3-7-fache gegenüber Baseline-Methoden zu
Blockauswahl: Aktuelle Verwendung von festen, gleichmäßig verteilten Blöcken ist möglicherweise nicht optimal
Leistung über Haltungen hinweg: Kleine Blöcke zeigen Leistungsabnahmen bei großen Haltungsänderungen
Architektur-Einschränkungen: Hauptsächlich auf ResNet validiert, Anwendbarkeit auf andere Architekturen bleibt zu erforschen

Zukünftige Richtungen

Adaptive Blockauswahl: Automatische Auswahl von Blockgröße und Position basierend auf Bildinhalt
Architekturoptimierung: Erforschung der Anwendbarkeit anderer CNN- oder ViT-Architekturen
Dynamische Blockstrategie: Anpassung der Blockauswahl basierend auf verglichenen Bildpaaren
Theoretische Analyse: Tiefere Analyse der theoretischen Grundlagen der Beziehung zwischen eingeschränktem rezeptivem Feld und Leistung

Tiefgreifende Bewertung

Stärken

Starke Innovation: Vorschlag eines neuen Paradigmas für intrinsisch erklärbare Gesichtsverifizierung
Hervorragende Leistung: Erreicht oder übertrifft SOTA bei Gewährleistung der Interpretierbarkeit
Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmark-Datensätzen
Einfache Methode: Erreicht komplexe Ziele durch einfache Architekturmodifikationen
Praktischer Wert: Bietet vertrauenswürdige Lösungen für hochriskante Anwendungen

Mängel

Recheneffizienz: Signifikante Zunahme der Trainingszeit kann praktische Anwendungen einschränken
Theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum eingeschränkte rezeptive Felder die Leistung verbessern
Generalisierbarkeit: Hauptsächlich auf Gesichtsverifizierungsaufgaben validiert, Anwendbarkeit auf andere Sehaufgaben unbekannt
Blockstrategie: Feste Blockaufteilung ist möglicherweise nicht für alle Szenarien geeignet

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für das Feld der erklärbaren KI
Praktischer Wert: Wichtige Anwendungsaussichten in sicherheits- und medizinischen Hochrisikobereichen
Reproduzierbarkeit: Klare Methodenbeschreibung ermöglicht einfache Reproduktion und Erweiterung
Inspirationswert: Kann mehr Forschung zu intrinsisch erklärbaren Modellen inspirieren

Anwendungsszenarien

Hochriskante Anwendungen: Sicherheitssysteme, die Erklärungen von Entscheidungsprozessen erfordern
Behördliche Umgebung: Kommerzielle Anwendungen, die Interpretierbarkeitsanforderungen erfüllen müssen
Forschungswerkzeuge: Zur Analyse des Verhaltens von Gesichtserkennungsmodellen
Bildungsszenarien: Hilft beim Verständnis der Funktionsweise von Deep-Learning-Modellen

Referenzen

Der Artikel zitiert 68 verwandte Referenzen, die hauptsächlich folgende Bereiche abdecken:

Methoden der erklärbaren KI (Rudin 2019, Chen et al. 2019)
Gesichtserkennungstechnologie (Deng et al. 2019, Kim et al. 2022)
Deep-Learning-Architekturen (He et al. 2016)
Bewertungs-Benchmark-Datensätze (Huang et al. 2007, Wu et al. 2024)

Zusammenfassung: Dieser Artikel schlägt eine innovative Methode zur Gesichtsverifizierung basierend auf eingeschränkten rezeptiven Feldern vor, die erfolgreich hohe Leistung bei gleichzeitiger Realisierung intrinsischer Interpretierbarkeit beibehält. Diese Arbeit bietet wertvolle neue Perspektiven für das Feld der erklärbaren KI und ist besonders für hochriskante Anwendungsszenarien geeignet, die Entscheidungstransparenz erfordern. Trotz Einschränkungen wie Rechenaufwand und unzureichender theoretischer Analyse machen ihre Innovation und praktischer Wert sie zu einem wichtigen Beitrag in diesem Bereich.