Unraveling the Black Box of Neural Networks: A Dynamic Extremum Mapper
Chen
We point out that neural networks are not black boxes, and their generalization stems from the ability to dynamically map a dataset to the extrema of the model function. We further prove that the number of extrema in a neural network is positively correlated with the number of its parameters. We then propose a new algorithm that is significantly different from back-propagation algorithm, which mainly obtains the values of parameters by solving a system of linear equations. Some difficult situations, such as gradient vanishing and overfitting, can be simply explained and dealt with in this framework.
В данной работе утверждается, что нейронные сети не являются "чёрным ящиком", а их способность к обобщению обусловлена динамическим отображением набора данных на точки экстремума функции модели. Автор доказывает, что количество экстремальных точек в нейронной сети положительно коррелирует с количеством параметров и предлагает новый алгоритм, существенно отличающийся от алгоритма обратного распространения ошибки, основанный главным образом на решении систем линейных уравнений. В рамках этого подхода можно просто объяснить и решить такие сложные проблемы, как исчезновение градиента и переобучение.
Несмотря на то, что модели искусственного интеллекта на основе нейронных сетей достигли превосходящей точности прогнозирования по сравнению с традиционными алгоритмами машинного обучения в таких областях, как распознавание изображений и обработка естественного языка, механизмы их работы остаются недостаточно изученными и широко рассматриваются как "чёрный ящик".
Требования безопасности: в областях, требующих высокой надёжности и безопасности в реальном времени, таких как автономное вождение, необходимо понимание принципов работы нейронных сетей
Диагностика неисправностей: при возникновении проблем в модели невозможно быстро выявить источник ошибки и немедленно её устранить
Совершенствование теории: требуется математическое объяснение механизмов работы нейронных сетей, а не только инженерные подходы
Методы интерпретации: в основном анализируют связи между входом и выходом, но остаётся ещё много нерешённых вопросов
Теория информационного узкого места: хотя и предоставляет полезные ориентиры, но не предлагает конкретных методов решения параметров
Теорема универсальной аппроксимации: Кибенко и Хорник доказали, что прямые нейронные сети могут аппроксимировать произвольные непрерывные функции, но не предоставили методов нахождения конкретной функции
Характеристики идеальной модели машинного обучения: предложены основные характеристики идеальной модели машинного обучения и на их основе предоставлены универсальные этапы обучения модели
Теория экстремального отображения: математически доказано, что нейронные сети достигают обобщения путём отображения набора данных на локальные экстремумы функции; предложен алгоритм приращения экстремума (EI)
Унифицированная схема объяснения проблем: на основе алгоритма EI можно относительно легко объяснить причины исчезновения/взрыва градиента, переобучения и других классических проблем, а также предложить соответствующие решения
Автор сначала определяет характеристики идеальной модели: для набора данных D = {(x^(i), y^(i))|i ∈ 1, 3} целью является нахождение функции F такой, что y^(i) = F(x^(i)). При наличии образцов одного типа кривая функции должна изменять форму для включения новых образцов, образуя несколько локальных экстремальных точек.
Когда параметры функции ограничены, степень изменения формы кривой ограничена, и количество экстремальных точек не может увеличиваться произвольно. Решение заключается в расширении сущности от одной точки к интервалу, концентрируя образцы с немного отличающейся поверхностью, но одинаковой сущностью в этом интервале.
Преобразование функции N-классификации F в N функций бинарной классификации {F_j|j ∈ 1,N}, где j-я функция бинарной классификации F_j определяет, принадлежит ли входной образец j-й сущности класса:
Автор разлагает нейронную сеть на множество составных функций {h_v^n|v ∈ 1,ln}, где каждая составная функция фактически представляет задачу бинарной классификации.
Основные этапы алгоритма EI существенно отличаются от алгоритма обратного распространения:
Алгоритм BP использует обновление градиента для приближения к идеальным значениям параметров; алгоритм EI напрямую получает значения параметров путём решения систем уравнений
Алгоритм BP требует обновления всех параметров на каждой итерации; алгоритм EI требует обновления только части параметров
Снижение вычислительной сложности путём ослабления условий завершения и введения концепции окрестности поверхности:
Использование ослабленных условий завершения, требующих только, чтобы значение функции классификации образца было значительно больше значений других функций классификации
Использование окрестности поверхности, применяя строгие условия только к репрезентативным образцам
Исчезновение градиента: в рамках алгоритма EI, если можно найти частное решение из общего решения W^u:n, параметры более ранних скрытых слоёв могут сохранять начальные значения, поэтому исчезновение градиента является неизбежным результатом
Взрыв градиента: соответствует случаю, когда система уравнений не имеет решения; решение заключается в увеличении количества скрытых слоёв или параметров в каждом слое
Концепция окрестности поверхности объясняет, как образцы с шумом могут значительно отклоняться от окрестности исходных образцов, что приводит к неправильной обработке нейронной сетью.
Количество образцов, которые нейронная сеть может точно аппроксимировать, в основном положительно коррелирует с общим количеством параметров сети и не имеет необходимой связи с глубиной сети. Рекомендуется использовать сетевую архитектуру "наклонной трапеции".
Другие функции с аналогичной динамической вариативностью (такие как синусоидальные функции, полиномы) могут обладать аналогичной сильной способностью к обобщению.
Теоретическая инновация: раскрывает сущность способности нейронных сетей к обобщению с математической точки зрения, дополняя теорему универсальной аппроксимации
Унифицированное объяснение проблем: объясняет исчезновение градиента, переобучение и другие классические проблемы в единой схеме
Инновация алгоритма: предлагает алгоритм EI, существенно отличающийся от алгоритма BP, предоставляя новые идеи для обучения нейронных сетей
Математическая строгость: основан на строгих математических выводах, преобразуя проблемы нейронных сетей в решение однородных систем линейных уравнений
Ограничения практического применения: отсутствие эффективного алгоритма поляризации ограничивает практическое применение алгоритма EI
Недостаточная экспериментальная верификация: статья в основном содержит теоретический анализ, не хватает достаточной экспериментальной верификации
Ограничения области применения: анализ в основном основан на полносвязных сетях и функциях активации сигмоида
Вычислительная сложность: хотя предложены оптимизационные решения, вычислительная сложность для крупномасштабного применения всё ещё требует верификации
В данной работе раскрыты принципы работы нейронных сетей с математической точки зрения, предложена схема алгоритма EI на основе экстремального отображения. Хотя требуется дальнейшее совершенствование в практическом применении (в частности, алгоритм поляризации), работа предоставляет важный вклад в теоретическое понимание и исследование интерпретируемости нейронных сетей. Данное исследование имеет потенциал стать важным мостом, соединяющим "чёрный ящик" нейронных сетей с математической интерпретируемостью.