Understanding how deep neural networks make decisions is crucial for analyzing their behavior and diagnosing failure cases. In computer vision, a common approach to improve interpretability is to assign importance to individual pixels using post-hoc methods. Although they are widely used to explain black-box models, their fidelity to the model's actual reasoning is uncertain due to the lack of reliable evaluation metrics. This limitation motivates an alternative approach, which is to design models whose decision processes are inherently interpretable. To this end, we propose a face similarity metric that breaks down global similarity into contributions from restricted receptive fields. Our method defines the similarity between two face images as the sum of patch-level similarity scores, providing a locally additive explanation without relying on post-hoc analysis. We show that the proposed approach achieves competitive verification performance even with patches as small as 28x28 within 112x112 face images, and surpasses state-of-the-art methods when using 56x56 patches.
academic
Eingeschränkte Rezeptive Felder für Gesichtsverifizierung
In diesem Artikel wird eine Methode zur Gesichtsverifizierung basierend auf eingeschränkten rezeptiven Feldern vorgestellt, die darauf abzielt, das Problem der Uninterpretierbarkeit von Entscheidungsprozessen in tiefen neuronalen Netzen zu lösen. Während traditionelle Methoden ein einzelnes globales Merkmalsvektor zur Darstellung des gesamten Gesichtsbildes verwenden, zerlegt dieser Artikel die globale Ähnlichkeit in lokale Beiträge aus eingeschränkten rezeptiven Feldern. Die Methode definiert die Ähnlichkeit zwischen zwei Gesichtsbildern als Summe von Ähnlichkeitswerten auf Blockebene und bietet eine lokal additive Interpretation ohne Abhängigkeit von nachträglicher Analyse. Experimente zeigen, dass die Methode selbst bei Verwendung von 28×28-Blöcken in 112×112-Gesichtsbildern wettbewerbsfähige Verifizierungsleistung erreicht, während die Verwendung von 56×56-Blöcken sogar aktuelle hochmoderne Methoden übertrifft.
Tiefe neuronale Netze haben hervorragende Leistungen bei Gesichtserkennungsaufgaben erzielt, aber ihre Entscheidungsprozesse mangelt es an Interpretierbarkeit, was in hochriskanten Anwendungsszenarien ein ernstes Problem darstellt.
Sicherheitsanforderungen: Gesichtserkennungssysteme werden häufig in sicherheits- und medizinischen Hochrisikobereichen eingesetzt und erfordern vertrauenswürdige Entscheidungsprozesse
Fehlerdiagnose: Das Verständnis der Entscheidungsmechanismen des Modells ist entscheidend für die Analyse des Modellverhaltens und die Diagnose von Ausfallszenarien
Behördliche Compliance: Viele Anwendungsszenarien erfordern, dass KI-Systeme interpretierbar sind
Nachträgliche Erklärungsmethoden: Bestehende Methoden der erklärbaren KI beruhen hauptsächlich auf nachträglicher Analyse zur Erzeugung von Wärmekarten, ermangeln aber zuverlässiger Bewertungsmetriken
Glaubwürdigkeit von Erklärungen: Dieselbe Wärmekarte kann sowohl für korrekte als auch für fehlerhafte Vorhersagen erzeugt werden, was die Zuverlässigkeit der Erklärung schwächt
Rechenaufwand: Nachträgliche Methoden erfordern zusätzliche Rechenressourcen zur Erstellung von Erklärungen
Dieser Artikel schlägt eine intrinsisch interpretierbare Alternative vor, indem Modelle entworfen werden, deren Entscheidungsprozesse selbst interpretierbar sind, anstatt sich auf nachträgliche Analysemethoden zu verlassen.
Vorschlag einer Gesichtsähnlichkeitsmessungsmethode basierend auf eingeschränkten rezeptiven Feldern: Zerlegung der globalen Ähnlichkeit in eine gewichtete Summe von Ähnlichkeitswerten auf Blockebene
Entwurf der RRFNet-Architektur: Realisierung einer interpretierbaren Verifizierung basierend auf Blockvergleich durch geringfügige Änderungen an ResNet
Validierung der Methodeneffektivität: Demonstration wettbewerbsfähiger oder sogar überlegener SOTA-Leistung auf sieben Benchmark-Datensätzen
Bereitstellung intrinsischer Interpretierbarkeit: Bereitstellung lokaler Erklärungen des Entscheidungsprozesses ohne zusätzliche Berechnung
Eingabe: Zwei 112×112-Gesichtsbilder A und B
Ausgabe: Binäre Verifizierungsentscheidung (gleiche/unterschiedliche Identität)
Einschränkung: Der Entscheidungsprozess muss als Kombination von Beiträgen lokaler Regionen interpretierbar sein
Intrinsische Interpretierbarkeit: Im Gegensatz zu nachträglichen Erklärungsmethoden ist die Erklärung dieser Methode ein inhärenter Bestandteil des Entscheidungsprozesses
Leistungserhaltung: Durch geschicktes Architekturdesign wird wettbewerbsfähige Leistung bei verbesserter Interpretierbarkeit beibehalten
Flexible Blockgröße: Unterstützung verschiedener Größen eingeschränkter rezeptiver Felder mit Ausgleich zwischen Leistung und Interpretierbarkeit
Einheitlicher Rahmen: Bereitstellung eines mathematischen Rahmens zur Zerlegung globaler Ähnlichkeit in lokale Beiträge
Der Artikel zitiert 68 verwandte Referenzen, die hauptsächlich folgende Bereiche abdecken:
Methoden der erklärbaren KI (Rudin 2019, Chen et al. 2019)
Gesichtserkennungstechnologie (Deng et al. 2019, Kim et al. 2022)
Deep-Learning-Architekturen (He et al. 2016)
Bewertungs-Benchmark-Datensätze (Huang et al. 2007, Wu et al. 2024)
Zusammenfassung: Dieser Artikel schlägt eine innovative Methode zur Gesichtsverifizierung basierend auf eingeschränkten rezeptiven Feldern vor, die erfolgreich hohe Leistung bei gleichzeitiger Realisierung intrinsischer Interpretierbarkeit beibehält. Diese Arbeit bietet wertvolle neue Perspektiven für das Feld der erklärbaren KI und ist besonders für hochriskante Anwendungsszenarien geeignet, die Entscheidungstransparenz erfordern. Trotz Einschränkungen wie Rechenaufwand und unzureichender theoretischer Analyse machen ihre Innovation und praktischer Wert sie zu einem wichtigen Beitrag in diesem Bereich.