2025-11-23T18:13:16.980826

Unraveling the Black Box of Neural Networks: A Dynamic Extremum Mapper

Chen

We point out that neural networks are not black boxes, and their generalization stems from the ability to dynamically map a dataset to the extrema of the model function. We further prove that the number of extrema in a neural network is positively correlated with the number of its parameters. We then propose a new algorithm that is significantly different from back-propagation algorithm, which mainly obtains the values of parameters by solving a system of linear equations. Some difficult situations, such as gradient vanishing and overfitting, can be simply explained and dealt with in this framework.

academic

Die Black Box der Neuronalen Netze enthüllen: Ein dynamischer Extremwertmapper

Grundinformationen

Paper-ID: 2507.03885
Titel: Unraveling the Black Box of Neural Networks: A Dynamic Extremum Mapper
Autor: Shengjian Chen (Intelligent Robotics Center, Jihua Laboratory)
Klassifizierung: cs.LG (Machine Learning)
Veröffentlichungsdatum: arXiv-Preprint (Version vom 10. Oktober 2025)
Paper-Link: https://arxiv.org/abs/2507.03885v3

Zusammenfassung

Das vorliegende Paper argumentiert, dass neuronale Netze keine Black Boxes sind, sondern ihre Generalisierungsfähigkeit aus der Fähigkeit resultiert, Datensätze dynamisch auf Extremwertpunkte der Modellfunktion abzubilden. Der Autor beweist, dass die Anzahl der Extremwertpunkte in neuronalen Netzen positiv mit der Anzahl der Parameter korreliert, und schlägt einen neuen Algorithmus vor, der sich erheblich vom Backpropagation-Algorithmus unterscheidet und hauptsächlich durch die Lösung linearer Gleichungssysteme Parameterwerte ermittelt. In diesem Rahmen können schwierige Fälle wie das Vanishing-Gradient-Problem und Overfitting einfach erklärt und behandelt werden.

Forschungshintergrund und Motivation

Problemdefinition

Obwohl auf neuronalen Netzen basierende KI-Modelle in Bereichen wie Bilderkennung und Verarbeitung natürlicher Sprache eine Vorhersagegenauigkeit erreicht haben, die traditionelle Machine-Learning-Algorithmen übertrifft, fehlt es an Forschung zu den zugrunde liegenden Prinzipien. Sie werden weiterhin allgemein als Black Boxes betrachtet.

Bedeutung

Sicherheitsanforderungen: In Bereichen wie autonomes Fahren, die hohe Anforderungen an Echtzeit und Sicherheit stellen, ist es notwendig, die Funktionsweise neuronaler Netze zu verstehen
Fehlerdiagnose: Wenn Modelle fehlerhaft funktionieren, können die Problemursachen nicht schnell identifiziert und sofort behoben werden
Theoretische Vervollständigung: Es ist erforderlich, die Funktionsmechanismen neuronaler Netze aus mathematischer Perspektive und nicht nur aus ingenieurwissenschaftlichen Methoden zu erklären

Einschränkungen bestehender Methoden

Interpretationsmethoden: Konzentrieren sich hauptsächlich auf die Analyse von Input-Output-Verbindungen zur Erklärung neuronaler Netze, haben aber noch einen langen Weg vor sich
Information-Bottleneck-Theorie: Bietet zwar nützliche Referenzen, ermangelt aber konkreter Methoden zur Parameterbestimmung
Universelles Approximationstheorem: Cybenko und Hornik et al. haben bewiesen, dass Feedforward-Netze beliebige stetige Funktionen approximieren können, geben aber keine Methode an, wie man eine spezifische Funktion findet

Kernbeiträge

Charakteristiken idealer Machine-Learning-Modelle: Präsentation der Hauptmerkmale idealer Machine-Learning-Modelle und Bereitstellung allgemeiner Modelltrainingsschritte auf dieser Grundlage
Extremwertabbildungstheorie: Mathematischer Beweis, dass neuronale Netze Generalisierung durch die Abbildung von Datensätzen auf lokale Extremwertpunkte von Funktionen erreichen; Vorschlag des Extremum-Increment (EI)-Algorithmus
Problemerklärungsrahmen: Basierend auf dem EI-Algorithmus können die Ursachen häufiger Probleme wie Vanishing/Exploding Gradients und Overfitting relativ leicht identifiziert und entsprechende Lösungen bereitgestellt werden

Methodische Erläuterung

Allgemeine Charakteristiken des idealen Modells

Exakte Abbildung

Der Autor definiert zunächst die Charakteristiken des idealen Modells: Für einen Datensatz D = {(x^(i), y^(i))|i ∈ 1, 3} besteht das Ziel darin, eine Funktion F zu finden, sodass y^(i) = F(x^(i)). Wenn ähnliche Stichproben vorhanden sind, muss die Funktionskurve ihre Form ändern, um neue Stichproben aufzunehmen, wodurch mehrere lokale Extremwertpunkte entstehen.

Abgeschwächte Abbildung

Wenn die Funktionsparameter begrenzt sind, ist der Grad der Kurvenformänderung begrenzt, und die Anzahl der Extremwertpunkte kann nicht beliebig erhöht werden. Die Lösung besteht darin, die Essenz von einem einzelnen Punkt auf ein Intervall zu erweitern, sodass Stichprobenmengen mit leicht unterschiedlichen Oberflächen, aber gleicher Essenz in diesem Intervall konzentriert sind.

Umwandlung von N-Klassifizierung zu Binärklassifizierung

Umwandlung der N-Klassifizierungsfunktion F in N Binärklassifizierungsfunktionen {F_j|j ∈ 1,N}, wobei die j-te Binärklassifizierungsfunktion F_j nur bestimmt, ob eine Eingabestichprobe zur j-ten Essenzklasse gehört:

F_j(x^(i)) = {OG, y^(i) = j
              {UG, y^(i) ≠ j

Extremwertpunktanalyse neuronaler Netze

Modellzerlegung

Der Autor zerlegt das neuronale Netz in eine Menge von ln zusammengesetzten Funktionen {h_v^n|v ∈ 1,ln}, wobei jede zusammengesetzte Funktion tatsächlich ein Binärklassifizierungsproblem darstellt.

Mathematische Herleitung von Extremwertpunkten

Für die Funktion h_v^u lautet der Ausdruck:

h_v^[u](x) = S(∑_{k=1}^{l_{u-1}} w_{v,k}^[u] * h_k^[u-1](x))

Durch Bilden der partiellen Ableitungen und Gleichsetzen mit Null erhält man ein homogenes lineares Gleichungssystem:

L(n,v) = {∑_{k=1}^{l_{n-1}} w_{v,k}^[n] * ∂h_k^[n-1](x)/∂x_t = 0 | t ∈ [1,m]}

Wenn l_ > m, hat das Gleichungssystem unendlich viele Lösungen, was der Hauptgrund für die starke Generalisierungsfähigkeit neuronaler Netze ist.

EI-Algorithmus-Rahmen

Kernidee des Algorithmus

Die Hauptschritte des EI-Algorithmus unterscheiden sich erheblich vom BP-Algorithmus:

Der BP-Algorithmus verwendet Gradientenaktualisierung zur Approximation idealer Parameterwerte; der EI-Algorithmus erhält Parameterwerte direkt durch Lösung von Gleichungssystemen
Der BP-Algorithmus muss alle Parameter bei jeder Iteration aktualisieren; der EI-Algorithmus muss nur teilweise Parameter aktualisieren

Algorithmus-Ablauf

Initialisierung: Manuelle Markierung des Datensatzes, Initialisierung des Parametersatzes W als von Null verschiedene reelle Zahlen
Schichtweise Lösung: Schichtweise Ausführung der Parameteraktualisierung von der letzten verborgenen Schicht zur ersten verborgenen Schicht
Polarisierungsoperation: Auswahl einer speziellen Lösung aus der allgemeinen Lösung W^u:n, die die Abbruchbedingungen erfüllt
Parameteraktualisierung: Wenn eine spezielle Lösung gefunden wird, werden Parameter aktualisiert; andernfalls werden mehr Parameter eingeführt

Optimierung der Rechenkomplexität

Reduzierung der Rechenkomplexität durch Lockerung der Abbruchbedingungen und Einführung des Konzepts der Oberflächennachbarschaft:

Verwendung gelockerte Abbruchbedingungen, wobei nur erforderlich ist, dass die Klassifizierungsfunktionswerte der Stichprobe deutlich größer als andere Klassifizierungsfunktionswerte sind
Nutzung der Oberflächennachbarschaft, wobei strenge Bedingungen nur auf repräsentative Stichproben angewendet werden

Theoretische Analyse und Problemerklärung

Vanishing/Exploding Gradients

Vanishing Gradient: Im EI-Algorithmus-Rahmen können, wenn eine spezielle Lösung aus der allgemeinen Lösung W^u:n gefunden werden kann, die Parameter früherer verborgener Schichten ihre Initialwerte behalten, und das Vanishing-Gradient-Problem ist eine notwendige Folge
Exploding Gradient: Entspricht dem Fall, in dem das Gleichungssystem keine Lösung hat. Die Lösungsmethode besteht darin, mehr verborgene Schichten oder Parameter pro Schicht hinzuzufügen

Overfitting

Overfitting ist im Wesentlichen eine inhärente Eigenschaft der begrenzten Anzahl von Extremwertpunkten unter Bedingungen begrenzter Parameter. Lösungsansätze:

Erhöhung der Anzahl verborgener Schichten oder Parameter pro Schicht
Ermöglichung, dass ein neuronales Netz mit fester Struktur durch Clusteroperationen mehr Stichproben aufnimmt

Rauscheinfluss

Der Einfluss von Rauschstichproben wird durch das Konzept der Oberflächennachbarschaft erklärt: Rauschstichproben können erheblich von der ursprünglichen Stichprobennachbarschaft abweichen, was dazu führt, dass das neuronale Netz sie nicht korrekt verarbeiten kann.

Flache/tiefe Netze

Die Anzahl der Stichproben, die ein neuronales Netz exakt anpassen kann, korreliert hauptsächlich positiv mit der Gesamtanzahl der Netzwerkparameter und hat keine notwendige Beziehung zur Netzwerktiefe. Eine "schräge trapezförmige" Netzwerkstruktur wird empfohlen.

Diskussion und Einschränkungen

Ungelöste Probleme

Polarisierungsalgorithmus: Außer Enumeration wurde noch kein effizienter Algorithmus zur Findung spezieller Lösungen aus der allgemeinen Lösung vorgeschlagen
Ausgabeschicht-Analyse: Vollständige partielle Differentialanalyse der Softmax-Funktion erforderlich
Aktivierungsfunktionen: Wie man nicht-differenzierbare Funktionen wie ReLU analysiert
Sattelpunkt-Problem: Punkte, an denen die erste partielle Ableitung Null ist, können Sattelpunkte statt Extremwertpunkte sein

Erkundung alternativer Funktionen

Andere Funktionen mit ähnlicher dynamischer Variabilität (wie Sinusfunktionen, Polynome) könnten ähnlich starke Generalisierungsfähigkeiten besitzen.

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Enthüllung des Wesens der Generalisierungsfähigkeit neuronaler Netze aus mathematischer Perspektive, Ergänzung des universellen Approximationstheorems
Einheitliche Problemerklärung: Erklärung mehrerer klassischer Probleme wie Vanishing Gradients und Overfitting in einem einheitlichen Rahmen
Algorithmus-Innovation: Vorschlag des EI-Algorithmus, der sich erheblich vom BP-Algorithmus unterscheidet und neue Perspektiven für das Training neuronaler Netze bietet
Mathematische Strenge: Basierend auf rigoroser mathematischer Herleitung, Umwandlung von Problemen neuronaler Netze in die Lösung homogener linearer Gleichungssysteme

Schwächen

Praktische Einschränkungen: Mangel an effizienten Polarisierungsalgorithmen, praktische Anwendung des EI-Algorithmus ist begrenzt
Unzureichende experimentelle Validierung: Das Paper konzentriert sich hauptsächlich auf theoretische Analyse, experimentelle Validierung ist unzureichend
Begrenzte Anwendbarkeit: Analyse basiert hauptsächlich auf vollständig verbundenen Netzen und Sigmoid-Aktivierungsfunktionen
Rechenkomplexität: Obwohl Optimierungsansätze vorgeschlagen werden, muss die Rechenkomplexität für großflächige Anwendungen noch validiert werden

Auswirkungen

Theoretischer Beitrag: Bereitstellung eines neuen mathematischen Rahmens für die Interpretierbarkeitsforschung neuronaler Netze
Praktische Anleitung: Theoretische Anleitung für Netzwerkstrukturdesign und Parameterinitialisierung
Forschungsrichtung: Eröffnung einer neuen Forschungsrichtung zur Untersuchung neuronaler Netze aus der Perspektive der Extremwertabbildung

Anwendungsszenarien

Theoretische Forschung: Geeignet für Interpretierbarkeits- und theoretische Analyseforschung neuronaler Netze
Parameterinitialisierung: Kann als Initialisierungsmodul des BP-Algorithmus dienen
Netzwerkdesign: Bietet Anleitung für das Netzwerkstrukturdesign mit spezifischen Genauigkeitsanforderungen

Fazit

Das vorliegende Paper enthüllt die Funktionsweise neuronaler Netze aus mathematischer Perspektive und schlägt einen EI-Algorithmus-Rahmen basierend auf Extremwertabbildung vor. Obwohl weitere Verbesserungen in praktischen Anwendungen erforderlich sind (insbesondere beim Polarisierungsalgorithmus), trägt es wesentlich zum theoretischen Verständnis und zur Interpretierbarkeitsforschung neuronaler Netze bei. Diese Arbeit könnte eine wichtige Brücke zwischen der Black-Box-Natur neuronaler Netze und mathematischer Interpretierbarkeit werden.

Literaturverzeichnis

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function
Hornik, K., et al. (1989). Multilayer feedforward networks are universal approximators
Tishby, N. & Zaslavsky, N. (2015). Deep learning and the information bottleneck principle