Machine Learning (ML) is applicable to scientific problems, i.e. to those which have a well defined answer, only if this answer can be brought to a peculiar form ${\cal G}: X\longrightarrow Z$ with ${\cal G}(\vec x)$ expressed as a combination of iterated Heaviside functions. At present it is far from obvious, if and when such representations exist, what are the obstacles and, if they are absent, what are the ways to convert the known formulas into this form. This gives rise to a program of reformulation of ordinary science in such terms -- which sounds like a strong enhancement of the constructive mathematics approach, only this time it concerns all natural sciences. We describe the first steps on this long way.
논문 ID : 2205.07377제목 : Heavisidisation의 영광과 비극저자 : V. Dolotin, A. Morozov기관 : MIPT, ITEP & IITP, 모스크바, 러시아분류 : hep-th (고에너지 물리 이론), cs.LG (기계학습)발표 시간 : 2022년 5월 15일논문 링크 : https://arxiv.org/abs/2205.07377 기계학습(ML)은 과학 문제가 명확한 답을 가지고 있으며, 그 답이 G : X → Z G: X \rightarrow Z G : X → Z 형태로 표현될 수 있을 때만 과학 문제에 적용될 수 있습니다. 여기서 G ( x ⃗ ) G(\vec{x}) G ( x ) 는 반복적인 Heaviside 함수의 조합으로 표현 가능해야 합니다. 현재로서는 이러한 표현이 언제 존재하는지, 어떤 장애물이 있는지, 그리고 장애물이 없을 때 알려진 공식을 이러한 형태로 변환하는 방법이 명확하지 않습니다. 이는 일반적인 과학을 이러한 용어로 재구성하는 절차를 제시합니다. 이는 구성주의 수학 방법의 강화된 버전처럼 들리지만, 이번에는 모든 자연과학을 포함합니다. 본 논문은 이 긴 여정의 첫 번째 단계를 설명합니다.
본 논문이 해결하고자 하는 핵심 문제는 명확한 답을 가진 과학 문제에 기계학습 방법을 효과적으로 적용하는 방법 입니다. 저자들은 전통적인 기계학습이 주로 분류 문제(예: 이미지 인식, 의사결정 문제)에 사용되지만, 이를 진정한 과학 문제로 확장하는 데는 근본적인 장애물이 있음을 지적합니다.
이 문제의 중요성은 다음과 같습니다:
과학 계산의 혁명적 필요성 : 기계학습을 빅데이터 분석 및 계산 실험에서 진정한 과학 발견으로 확장구성주의 수학의 강화 : 모든 자연과학을 구성적 방식으로 재구성하는 프레임워크 제공인공지능과 과학의 다리 : 기계가 과학 법칙을 발견하고 이해할 수 있는지 탐구경사 하강법의 제한 : 현재 ML 방법론의 경사 하강법은 특정 형태의 함수 표현에만 적용 가능과학 문제의 특수성 : 과학 문제는 "객관적인" 답을 가지며, 일반적인 패턴 인식 문제와 다름표현 형태의 제약 : 과학 공식을 Heaviside 함수 반복의 형태로 변환해야 함"Heavisidisation" 개념 제시 : 과학 문제의 답을 반복적인 Heaviside 함수 조합으로 표현하는 체계적 방법기본 연산의 Heaviside 표현 확립 : 논리 연산, 산술 연산, 영점 검출 등 기초 구성 요소 포함대수적 수의 Heavisidisation 탐구 : 이차 방정식 풀이 등의 문제를 Heaviside 함수 표현으로 변환 시도경사 하강법의 적용성 분석 : Heaviside 표현 하에서 기계학습 알고리즘의 수렴성 연구게이지 불변성 문제 규명 : Heavisidisation 과정에서의 규범 자유도 문제 발견 및 분석입력 : 명확한 답을 가진 과학 문제, 매핑 G : X → Z G: X \rightarrow Z G : X → Z 로 표현출력 : 해당 매핑의 Heaviside 함수 반복 표현제약 조건 : 경사 하강법으로 최적화할 수 있는 매개변수화 형태를 사용해야 함
저자들은 Heaviside 함수를 다음과 같이 정의합니다:
θ ( x ) = { 1 if x > 0 0 if x ≤ 0 \theta(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases} θ ( x ) = { 1 0 if x > 0 if x ≤ 0
주요 성질:
멱등성 : θ ( θ ( x ) ) = θ ( x ) \theta(\theta(x)) = \theta(x) θ ( θ ( x )) = θ ( x ) 논리 연산 구현 :
AND: ∧ ( a , b ) : = θ ( θ ( a ) + θ ( b ) − 1 ) \wedge(a,b) := \theta(\theta(a) + \theta(b) - 1) ∧ ( a , b ) := θ ( θ ( a ) + θ ( b ) − 1 ) OR: ∨ ( a , b ) : = θ ( θ ( a ) + θ ( b ) ) \vee(a,b) := \theta(\theta(a) + \theta(b)) ∨ ( a , b ) := θ ( θ ( a ) + θ ( b )) 정수 x x x 에 대해:
x = I ( x ) : = ∑ i = 0 ∞ θ ( x − i ) − ∑ i = 0 ∞ θ ( − x − i ) x = I(x) := \sum_{i=0}^{\infty} \theta(x-i) - \sum_{i=0}^{\infty} \theta(-x-i) x = I ( x ) := ∑ i = 0 ∞ θ ( x − i ) − ∑ i = 0 ∞ θ ( − x − i )
x + y = I ( x ) + I ( y ) = ∑ i = 0 ∞ θ ( x − i ) + ∑ j = 0 ∞ θ ( y − j ) x + y = I(x) + I(y) = \sum_{i=0}^{\infty} \theta(x-i) + \sum_{j=0}^{\infty} \theta(y-j) x + y = I ( x ) + I ( y ) = ∑ i = 0 ∞ θ ( x − i ) + ∑ j = 0 ∞ θ ( y − j )
x ⋅ y = ∑ i , j θ ( θ ( x − i ) + θ ( y − j ) − 1 ) = ∑ i , j ∧ ( x − i , y − j ) x \cdot y = \sum_{i,j} \theta(\theta(x-i) + \theta(y-j) - 1) = \sum_{i,j} \wedge(x-i, y-j) x ⋅ y = ∑ i , j θ ( θ ( x − i ) + θ ( y − j ) − 1 ) = ∑ i , j ∧ ( x − i , y − j )
x 1 / n = ∑ i = 0 ∞ θ ( x − i n ) x^{1/n} = \sum_{i=0}^{\infty} \theta(x - i^n) x 1/ n = ∑ i = 0 ∞ θ ( x − i n )
함수 f ( x ) f(x) f ( x ) 의 격자점 i i i 와 i + 1 i+1 i + 1 사이의 영점 검출:
δ i ( f ) : = ∨ ( θ ( f i + 1 ) − θ ( f i ) , θ ( f i ) − θ ( f i + 1 ) ) \delta_i(f) := \vee(\theta(f_{i+1}) - \theta(f_i), \theta(f_i) - \theta(f_{i+1})) δ i ( f ) := ∨ ( θ ( f i + 1 ) − θ ( f i ) , θ ( f i ) − θ ( f i + 1 ))
함수 f , g f,g f , g 의 정사각형 영역 내 공통 영점 검출:
δ i , j ( f , g ) = ∧ ( δ i j ( f ) , δ i j ( g ) ) \delta_{i,j}(f,g) = \wedge(\delta_{ij}(f), \delta_{ij}(g)) δ i , j ( f , g ) = ∧ ( δ ij ( f ) , δ ij ( g ))
영점 위치 근사:
( ∑ i j i N δ i , j ( f , g ) , ∑ i j j N δ i , j ( f , g ) ) \left(\sum_{ij} \frac{i}{N}\delta_{i,j}(f,g), \sum_{ij} \frac{j}{N}\delta_{i,j}(f,g)\right) ( ∑ ij N i δ i , j ( f , g ) , ∑ ij N j δ i , j ( f , g ) )
구간 [ 2 , 3 ] [2,3] [ 2 , 3 ] 의 특성 함수:
G ( x ) = θ ( x − 2 ) − θ ( x − 3 ) G(x) = \theta(x-2) - \theta(x-3) G ( x ) = θ ( x − 2 ) − θ ( x − 3 )
제1사분면의 특성 함수:
G ( x 1 , x 2 ) = − θ ( θ ( − x 1 ) + θ ( − x 2 ) − 1 ) + 1 G(x_1,x_2) = -\theta(\theta(-x_1) + \theta(-x_2) - 1) + 1 G ( x 1 , x 2 ) = − θ ( θ ( − x 1 ) + θ ( − x 2 ) − 1 ) + 1
G ( x ) = θ ( ∑ i = 0 n θ ( x i ) − n ) G(x) = \theta\left(\sum_{i=0}^n \theta(x_i) - n\right) G ( x ) = θ ( ∑ i = 0 n θ ( x i ) − n )
저자들은 TensorFlow를 사용하여 실제 계산을 수행했지만, 이론과 실제 간의 차이를 지적합니다:
활성화 함수 선택 : Sigmoid 함수 1 1 + exp ( − 20 x ) \frac{1}{1+\exp(-20x)} 1 + e x p ( − 20 x ) 1 를 사용하여 Heaviside 함수 근사훈련 전략 : 확률적 경사 하강법 사용, 각 단계에서 하나의 훈련 샘플만 사용네트워크 구조 : 1층 및 2층 네트워크 구조 테스트네트워크 노드 수 : 10개 노드의 단층 네트워크훈련 에포크 : 2000 에포크최적화기 : Adam 최적화기손실 함수 : 평균 절대 백분율 오차실험은 네트워크가 항등 함수의 Heaviside 표현을 학습할 수 있음을 검증했습니다. 그림 1은 편향값이 초기 상태(파란 점)에서 예상되는 선형 배열(주황 점)로 수렴함을 보여줍니다.
f ( b , c ) = b 2 + c f(b,c) = b^2 + c f ( b , c ) = b 2 + c 매핑 학습에서:
2층 네트워크(3개 및 30개 노드) 40개 훈련 샘플, 정의역 [ 0 , 2 ] × [ 0 , 2 ] [0,2] \times [0,2] [ 0 , 2 ] × [ 0 , 2 ] 4000 에포크 훈련 후 양호한 일치 달성 실험은 평활한 sigmoid 함수로 훈련한 후, 매개변수를 진정한 Heaviside 함수에 적용해도 결과에 현저한 차이가 있음을 발견했으며, 특히 2층 네트워크에서 두드러집니다.
논문은 다음의 관련 연구 분야를 인용합니다:
구성주의 수학 : Heavisidisation을 구성주의 수학 방법의 강화로 간주계산 물리학 : 빅데이터 분석 및 계산 실험과의 구별결식 이론 : 대수적 수 및 판별식 계산과의 연결기계학습 이론 : 경사 하강법의 수학적 기초Heavisidisation의 실행 가능성 : 많은 기본 수학 연산이 Heaviside 함수의 반복으로 표현될 수 있음을 증명세 가지 핵심 문제 :
A) 다양한 문제의 Heavisidisation (구성적) B) 대수 공식의 발견 (개념적) C) 합리적 답과 부합리적 답의 구별 (개념적) 게이지 불변성 문제 : 여러 등가의 Heaviside 표현이 존재하며, 적절한 규범 선택 필요수렴성 문제 : 경사 하강법이 Heaviside 표현이 존재하더라도 올바른 답을 찾지 못할 수 있음인적 개입 필요 : 실제 적용에서 여전히 많은 인적 경험과 기술 필요평활화의 영향 : 수치 계산에서의 함수 평활화가 결과의 정확성에 영향고차 방정식의 Heavisidisation : 3차, 4차 및 더 높은 차수의 방정식으로 확장더 복잡한 대수 구조 : 판별식, 결식 등의 Heaviside 표현 탐구과학적 취향의 기계화 : 기계가 인간과 유사한 과학적 미감을 개발할 수 있는지 연구개념의 창의성 : 새로운 "Heavisidisation" 개념을 제시하여 기계학습의 과학 적용에 새로운 길 개척이론적 깊이 : 수학적 기초에서 출발하여 Heaviside 함수의 연산 체계를 체계적으로 구축학제 간 관점 : 기계학습, 수학 물리학 및 구성주의 수학을 유기적으로 결합실제 검증 : TensorFlow 실험을 통해 이론의 실행 가능성 검증적용 범위의 제한 : 현재로서는 상대적으로 단순한 수학 문제만 처리 가능하며, 진정한 과학 발견까지는 거리가 멈계산 복잡성 : Heaviside 표현은 종종 무한 급수를 필요로 하며, 실제 계산에서 절단 필요수렴 보증 부재 : 경사 하강법이 올바른 해로 수렴하는 이론적 보증 부재인기계 경계 모호 : 실험에서 여전히 많은 인적 개입 필요하며, 진정한 자동화 미달성이론적 기여 : 기계학습의 수학적 기초에 새로운 관점 제공방법론적 가치 : Heavisidisation 방법이 다른 과학 계산 문제 해결에 영감을 줄 수 있음철학적 의의 : 인공지능이 과학적 창의력을 가질 수 있는지에 대한 심층 문제 제기기호 계산 : 정확한 기호 표현이 필요한 수학 문제에 적합구성적 증명 : 구성적 방법이 필요한 수학 증명에 활용 가능과학 교육 : 기계학습의 수학적 기초를 이해하기 위한 교육 도구로 활용 가능반복적 Heaviside 표현 : 복잡한 함수를 단순한 계단 함수의 조합으로 분해연산의 네트워크화 : 전통적인 수학 연산을 신경망이 처리할 수 있는 형태로 변환영점 검출 알고리즘 : 이산 격자에서 함수 영점을 검출하는 체계적 방법 제공게이지 이론의 적용 : 물리학의 규범 불변성 개념을 기계학습에 도입논문은 기본 Heaviside 함수에서 복잡한 수학 연산까지의 완전한 계층 구조를 확립합니다:
Heaviside → 논리 연산 → 산술 연산 → 대수 연산 → 과학 문제 \text{Heaviside} \rightarrow \text{논리 연산} \rightarrow \text{산술 연산} \rightarrow \text{대수 연산} \rightarrow \text{과학 문제} Heaviside → 논리 연산 → 산술 연산 → 대수 연산 → 과학 문제
이러한 계층적 구성은 기계학습이 과학 문제를 처리하기 위한 체계적인 수학적 기초를 제공합니다.
논문은 다음의 중요한 문헌을 인용합니다:
Gelfand, Kapranov, Zelevinsky: "Discriminants, Resultants, and Multidimensional Determinants" Dolotin, Morozov: "Introduction to Non-Linear Algebra" Morozov, Shakirov: "New and Old Results in Resultant Theory" Ruelle: "Post-human Mathematics" 종합 평가 : 이는 기계학습의 과학 적용을 위한 새로운 수학적 기초를 확립하려는 매우 독창적이고 이론적 깊이가 있는 논문입니다. 현재의 결과는 아직 초보적이지만, 제시된 Heavisidisation 개념과 방법론은 중요한 이론적 가치와 영감을 제공합니다. 논문의 학제 간 특성과 인공지능 철학 문제에 대한 사고는 기술적 수준을 초월한 학술적 가치를 부여합니다.