Machine Learning (ML) is applicable to scientific problems, i.e. to those which have a well defined answer, only if this answer can be brought to a peculiar form ${\cal G}: X\longrightarrow Z$ with ${\cal G}(\vec x)$ expressed as a combination of iterated Heaviside functions. At present it is far from obvious, if and when such representations exist, what are the obstacles and, if they are absent, what are the ways to convert the known formulas into this form. This gives rise to a program of reformulation of ordinary science in such terms -- which sounds like a strong enhancement of the constructive mathematics approach, only this time it concerns all natural sciences. We describe the first steps on this long way.
The Splendors and Miseries of Heavisidisation 论文ID : 2205.07377标题 : The Splendors and Miseries of Heavisidisation作者 : V. Dolotin, A. Morozov机构 : MIPT, ITEP & IITP, Moscow, Russia分类 : hep-th (高能物理理论), cs.LG (机器学习)发表时间 : 2022年5月15日论文链接 : https://arxiv.org/abs/2205.07377 机器学习(ML)只有在科学问题具有明确答案,且该答案能够表示为 G : X → Z G: X \rightarrow Z G : X → Z 形式(其中 G ( x ⃗ ) G(\vec{x}) G ( x ) 可表达为迭代Heaviside函数的组合)时,才能应用于科学问题。目前尚不清楚这种表示何时存在、存在哪些障碍,以及在没有障碍时如何将已知公式转换为这种形式。这引出了用这种术语重新表述普通科学的程序——这听起来像是构造数学方法的强化版本,但这次涉及所有自然科学。本文描述了这条漫长道路上的第一步。
本文要解决的核心问题是:如何将机器学习方法有效应用于具有明确答案的科学问题 。作者指出,传统的机器学习主要用于分类问题(如图像识别、决策问题),但要将其扩展到真正的科学问题存在根本性障碍。
这个问题的重要性在于:
科学计算的革命性需求 :将机器学习从大数据分析和计算实验扩展到真正的科学发现构造数学的增强 :提供一种将所有自然科学用构造性方式重新表述的框架人工智能与科学的桥梁 :探索机器是否能够发现和理解科学定律梯度下降方法的限制 :当前ML方法论中的梯度下降法只适用于特定形式的函数表示科学问题的特殊性 :科学问题有"客观"答案,与一般的模式识别问题不同表示形式的约束 :需要将科学公式转换为Heaviside函数迭代的形式提出了"Heavisidisation"概念 :将科学问题的答案表示为迭代Heaviside函数组合的系统性方法建立了基本运算的Heaviside表示 :包括逻辑运算、算术运算、零点检测等基础构建块探索了代数数的Heavisidisation :尝试将二次方程求解等问题转换为Heaviside函数表示分析了梯度下降方法的适用性 :研究了在Heaviside表示下机器学习算法的收敛性问题揭示了gauge不变性问题 :发现并分析了Heavisidisation过程中的规范自由度问题输入 :具有明确答案的科学问题,表示为映射 G : X → Z G: X \rightarrow Z G : X → Z 输出 :该映射的Heaviside函数迭代表示约束条件 :必须使用梯度下降方法可以优化的参数化形式
作者定义Heaviside函数为:
θ ( x ) = { 1 if x > 0 0 if x ≤ 0 \theta(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases} θ ( x ) = { 1 0 if x > 0 if x ≤ 0
关键性质:
幂等性 :θ ( θ ( x ) ) = θ ( x ) \theta(\theta(x)) = \theta(x) θ ( θ ( x )) = θ ( x ) 逻辑运算实现 :
AND: ∧ ( a , b ) : = θ ( θ ( a ) + θ ( b ) − 1 ) \wedge(a,b) := \theta(\theta(a) + \theta(b) - 1) ∧ ( a , b ) := θ ( θ ( a ) + θ ( b ) − 1 ) OR: ∨ ( a , b ) : = θ ( θ ( a ) + θ ( b ) ) \vee(a,b) := \theta(\theta(a) + \theta(b)) ∨ ( a , b ) := θ ( θ ( a ) + θ ( b )) 对于整数 x x x :
x = I ( x ) : = ∑ i = 0 ∞ θ ( x − i ) − ∑ i = 0 ∞ θ ( − x − i ) x = I(x) := \sum_{i=0}^{\infty} \theta(x-i) - \sum_{i=0}^{\infty} \theta(-x-i) x = I ( x ) := ∑ i = 0 ∞ θ ( x − i ) − ∑ i = 0 ∞ θ ( − x − i )
x + y = I ( x ) + I ( y ) = ∑ i = 0 ∞ θ ( x − i ) + ∑ j = 0 ∞ θ ( y − j ) x + y = I(x) + I(y) = \sum_{i=0}^{\infty} \theta(x-i) + \sum_{j=0}^{\infty} \theta(y-j) x + y = I ( x ) + I ( y ) = ∑ i = 0 ∞ θ ( x − i ) + ∑ j = 0 ∞ θ ( y − j )
x ⋅ y = ∑ i , j θ ( θ ( x − i ) + θ ( y − j ) − 1 ) = ∑ i , j ∧ ( x − i , y − j ) x \cdot y = \sum_{i,j} \theta(\theta(x-i) + \theta(y-j) - 1) = \sum_{i,j} \wedge(x-i, y-j) x ⋅ y = ∑ i , j θ ( θ ( x − i ) + θ ( y − j ) − 1 ) = ∑ i , j ∧ ( x − i , y − j )
x 1 / n = ∑ i = 0 ∞ θ ( x − i n ) x^{1/n} = \sum_{i=0}^{\infty} \theta(x - i^n) x 1/ n = ∑ i = 0 ∞ θ ( x − i n )
对于函数 f ( x ) f(x) f ( x ) 在格点 i i i 和 i + 1 i+1 i + 1 之间的零点检测:
δ i ( f ) : = ∨ ( θ ( f i + 1 ) − θ ( f i ) , θ ( f i ) − θ ( f i + 1 ) ) \delta_i(f) := \vee(\theta(f_{i+1}) - \theta(f_i), \theta(f_i) - \theta(f_{i+1})) δ i ( f ) := ∨ ( θ ( f i + 1 ) − θ ( f i ) , θ ( f i ) − θ ( f i + 1 ))
检测函数 f , g f,g f , g 在正方形区域内的公共零点:
δ i , j ( f , g ) = ∧ ( δ i j ( f ) , δ i j ( g ) ) \delta_{i,j}(f,g) = \wedge(\delta_{ij}(f), \delta_{ij}(g)) δ i , j ( f , g ) = ∧ ( δ ij ( f ) , δ ij ( g ))
零点位置近似:
( ∑ i j i N δ i , j ( f , g ) , ∑ i j j N δ i , j ( f , g ) ) \left(\sum_{ij} \frac{i}{N}\delta_{i,j}(f,g), \sum_{ij} \frac{j}{N}\delta_{i,j}(f,g)\right) ( ∑ ij N i δ i , j ( f , g ) , ∑ ij N j δ i , j ( f , g ) )
区间 [ 2 , 3 ] [2,3] [ 2 , 3 ] 的特征函数:
G ( x ) = θ ( x − 2 ) − θ ( x − 3 ) G(x) = \theta(x-2) - \theta(x-3) G ( x ) = θ ( x − 2 ) − θ ( x − 3 )
第一象限的特征函数:
G ( x 1 , x 2 ) = − θ ( θ ( − x 1 ) + θ ( − x 2 ) − 1 ) + 1 G(x_1,x_2) = -\theta(\theta(-x_1) + \theta(-x_2) - 1) + 1 G ( x 1 , x 2 ) = − θ ( θ ( − x 1 ) + θ ( − x 2 ) − 1 ) + 1
G ( x ) = θ ( ∑ i = 0 n θ ( x i ) − n ) G(x) = \theta\left(\sum_{i=0}^n \theta(x_i) - n\right) G ( x ) = θ ( ∑ i = 0 n θ ( x i ) − n )
作者使用TensorFlow进行实际计算,但指出了理论与实践的差距:
激活函数选择 :使用sigmoid函数 1 1 + exp ( − 20 x ) \frac{1}{1+\exp(-20x)} 1 + e x p ( − 20 x ) 1 近似Heaviside函数训练策略 :采用随机梯度下降,每步只使用一个训练样本网络架构 :测试了1层和2层网络结构网络节点数 :10个节点的单层网络训练轮数 :2000 epochs优化器 :Adam优化器损失函数 :平均绝对百分比误差实验验证了网络能够学习恒等函数的Heaviside表示。图1显示了偏置值从初始状态(蓝点)收敛到期望的线性排列(橙点)。
在 f ( b , c ) = b 2 + c f(b,c) = b^2 + c f ( b , c ) = b 2 + c 的映射学习中:
2层网络(3个和30个节点) 40个训练样本,定义域 [ 0 , 2 ] × [ 0 , 2 ] [0,2] \times [0,2] [ 0 , 2 ] × [ 0 , 2 ] 4000轮训练后达到良好匹配 实验发现使用平滑的sigmoid函数训练后,即使将参数应用到真正的Heaviside函数上,结果也会有显著差异,特别是在第二层网络中。
论文引用了以下相关研究领域:
构造数学 :将Heavisidisation视为构造数学方法的增强计算物理 :与大数据分析和计算实验的区别结式理论 :与代数数和判别式计算的联系机器学习理论 :梯度下降方法的数学基础Heavisidisation的可行性 :证明了许多基本数学运算都可以表示为Heaviside函数的迭代三类核心问题 :
A) 各种问题的Heavisidisation(构造性) B) 代数公式的发现(概念性) C) 合理答案与不合理答案的区分(概念性) Gauge不变性问题 :存在多种等价的Heaviside表示,需要选择合适的规范收敛性问题 :梯度下降不一定能找到正确答案,即使存在Heaviside表示人工干预需求 :实际应用中仍需要大量人工经验和技巧平滑化影响 :数值计算中的函数平滑化会影响结果的准确性高次方程的Heavisidisation :扩展到三次、四次及更高次方程更复杂的代数结构 :探索判别式、结式等的Heaviside表示科学品味的机器化 :研究机器是否能发展出类似人类的科学审美概念创新性 :提出了全新的"Heavisidisation"概念,为机器学习在科学中的应用开辟了新思路理论深度 :从数学基础出发,系统性地构建了Heaviside函数的运算体系跨学科视角 :将机器学习、数学物理和构造数学有机结合实践验证 :通过TensorFlow实验验证了理论的可行性应用范围限制 :目前只能处理相对简单的数学问题,距离真正的科学发现还很远计算复杂性 :Heaviside表示往往需要无穷级数,实际计算中需要截断收敛保证缺失 :没有提供梯度下降收敛到正确解的理论保证人机界限模糊 :实验中仍需要大量人工干预,未能实现真正的自动化理论贡献 :为机器学习的数学基础提供了新的视角方法论价值 :Heavisidisation方法可能启发其他科学计算问题的解决哲学意义 :触及了人工智能能否具备科学创造力的深层问题符号计算 :适合需要精确符号表示的数学问题构造性证明 :可用于需要构造性方法的数学证明科学教育 :可作为理解机器学习数学基础的教学工具迭代Heaviside表示 :将复杂函数分解为简单阶跃函数的组合运算网络化 :将传统数学运算转换为神经网络可处理的形式零点检测算法 :提供了在离散网格上检测函数零点的系统方法Gauge理论应用 :将物理学中的规范不变性概念引入机器学习论文建立了从基本Heaviside函数到复杂数学运算的完整层次结构:
Heaviside → 逻辑运算 → 算术运算 → 代数运算 → 科学问题 \text{Heaviside} \rightarrow \text{逻辑运算} \rightarrow \text{算术运算} \rightarrow \text{代数运算} \rightarrow \text{科学问题} Heaviside → 逻辑运算 → 算术运算 → 代数运算 → 科学问题
这种分层构造为机器学习处理科学问题提供了系统性的数学基础。
论文引用了以下重要文献:
Gelfand, Kapranov, Zelevinsky: "Discriminants, Resultants, and Multidimensional Determinants" Dolotin, Morozov: "Introduction to Non-Linear Algebra" Morozov, Shakirov: "New and Old Results in Resultant Theory" Ruelle: "Post-human Mathematics" 总体评价 :这是一篇具有高度原创性和理论深度的论文,尝试为机器学习在科学中的应用建立新的数学基础。虽然目前的结果还比较初步,但其提出的Heavisidisation概念和方法论具有重要的理论价值和启发意义。论文的跨学科特性和对人工智能哲学问题的思考使其具有超越技术层面的学术价值。