2025-11-11T12:52:09.463911

The Splendors and Miseries of Heavisidisation

Dolotin, Morozov

Machine Learning (ML) is applicable to scientific problems, i.e. to those which have a well defined answer, only if this answer can be brought to a peculiar form ${\cal G}: X\longrightarrow Z$ with ${\cal G}(\vec x)$ expressed as a combination of iterated Heaviside functions. At present it is far from obvious, if and when such representations exist, what are the obstacles and, if they are absent, what are the ways to convert the known formulas into this form. This gives rise to a program of reformulation of ordinary science in such terms -- which sounds like a strong enhancement of the constructive mathematics approach, only this time it concerns all natural sciences. We describe the first steps on this long way.

academic

The Splendors and Miseries of Heavisidisation

基本信息

论文ID: 2205.07377
标题: The Splendors and Miseries of Heavisidisation
作者: V. Dolotin, A. Morozov
机构: MIPT, ITEP & IITP, Moscow, Russia
分类: hep-th (高能物理理论), cs.LG (机器学习)
发表时间: 2022年5月15日
论文链接: https://arxiv.org/abs/2205.07377

摘要

机器学习(ML)只有在科学问题具有明确答案，且该答案能够表示为 $G: X \rightarrow Z$ 形式（其中 $G(\vec{x})$ 可表达为迭代Heaviside函数的组合）时，才能应用于科学问题。目前尚不清楚这种表示何时存在、存在哪些障碍，以及在没有障碍时如何将已知公式转换为这种形式。这引出了用这种术语重新表述普通科学的程序——这听起来像是构造数学方法的强化版本，但这次涉及所有自然科学。本文描述了这条漫长道路上的第一步。

研究背景与动机

问题提出

本文要解决的核心问题是：如何将机器学习方法有效应用于具有明确答案的科学问题。作者指出，传统的机器学习主要用于分类问题（如图像识别、决策问题），但要将其扩展到真正的科学问题存在根本性障碍。

问题重要性

这个问题的重要性在于：

科学计算的革命性需求：将机器学习从大数据分析和计算实验扩展到真正的科学发现
构造数学的增强：提供一种将所有自然科学用构造性方式重新表述的框架
人工智能与科学的桥梁：探索机器是否能够发现和理解科学定律

现有方法局限性

梯度下降方法的限制：当前ML方法论中的梯度下降法只适用于特定形式的函数表示
科学问题的特殊性：科学问题有"客观"答案，与一般的模式识别问题不同
表示形式的约束：需要将科学公式转换为Heaviside函数迭代的形式

核心贡献

提出了"Heavisidisation"概念：将科学问题的答案表示为迭代Heaviside函数组合的系统性方法
建立了基本运算的Heaviside表示：包括逻辑运算、算术运算、零点检测等基础构建块
探索了代数数的Heavisidisation：尝试将二次方程求解等问题转换为Heaviside函数表示
分析了梯度下降方法的适用性：研究了在Heaviside表示下机器学习算法的收敛性问题
揭示了gauge不变性问题：发现并分析了Heavisidisation过程中的规范自由度问题

方法详解

任务定义

输入：具有明确答案的科学问题，表示为映射 $G: X \rightarrow Z$
输出：该映射的Heaviside函数迭代表示
约束条件：必须使用梯度下降方法可以优化的参数化形式

Heaviside函数的基本性质

作者定义Heaviside函数为： $\theta(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}$

关键性质：

幂等性： $\theta(\theta(x)) = \theta(x)$
逻辑运算实现：
- AND: $\wedge(a,b) := \theta(\theta(a) + \theta(b) - 1)$
- OR: $\vee(a,b) := \theta(\theta(a) + \theta(b))$

基本运算的Heavisidisation

1. 恒等函数

对于整数 $x$ ： $x = I(x) := \sum_{i=0}^{\infty} \theta(x-i) - \sum_{i=0}^{\infty} \theta(-x-i)$

2. 加法

$x + y = I(x) + I(y) = \sum_{i=0}^{\infty} \theta(x-i) + \sum_{j=0}^{\infty} \theta(y-j)$

3. 乘法

$x \cdot y = \sum_{i,j} \theta(\theta(x-i) + \theta(y-j) - 1) = \sum_{i,j} \wedge(x-i, y-j)$

4. 开方

$x^{1/n} = \sum_{i=0}^{\infty} \theta(x - i^n)$

零点检测方法

一维情况

对于函数 $f(x)$ 在格点 $i$ 和 $i+1$ 之间的零点检测： $\delta_i(f) := \vee(\theta(f_{i+1}) - \theta(f_i), \theta(f_i) - \theta(f_{i+1}))$

二维情况

检测函数 $f,g$ 在正方形区域内的公共零点： $\delta_{i,j}(f,g) = \wedge(\delta_{ij}(f), \delta_{ij}(g))$

零点位置近似： $\left(\sum_{ij} \frac{i}{N}\delta_{i,j}(f,g), \sum_{ij} \frac{j}{N}\delta_{i,j}(f,g)\right)$

扇形函数和分类问题

一维扇形

区间 $[2,3]$ 的特征函数： $G(x) = \theta(x-2) - \theta(x-3)$

二维扇形

第一象限的特征函数： $G(x_1,x_2) = -\theta(\theta(-x_1) + \theta(-x_2) - 1) + 1$

一般 $(n+1)$ 维扇形

$G(x) = \theta\left(\sum_{i=0}^n \theta(x_i) - n\right)$

实验设置

TensorFlow实现

作者使用TensorFlow进行实际计算，但指出了理论与实践的差距：

激活函数选择：使用sigmoid函数 $\frac{1}{1+\exp(-20x)}$ 近似Heaviside函数
训练策略：采用随机梯度下降，每步只使用一个训练样本
网络架构：测试了1层和2层网络结构

实验配置

网络节点数：10个节点的单层网络
训练轮数：2000 epochs
优化器：Adam优化器
损失函数：平均绝对百分比误差

实验结果

恒等函数学习

实验验证了网络能够学习恒等函数的Heaviside表示。图1显示了偏置值从初始状态（蓝点）收敛到期望的线性排列（橙点）。

二次函数映射

在 $f(b,c) = b^2 + c$ 的映射学习中：

2层网络（3个和30个节点）
40个训练样本，定义域 $[0,2] \times [0,2]$
4000轮训练后达到良好匹配

Heaviside vs 平滑函数的差异

实验发现使用平滑的sigmoid函数训练后，即使将参数应用到真正的Heaviside函数上，结果也会有显著差异，特别是在第二层网络中。

结论与讨论

主要结论

Heavisidisation的可行性：证明了许多基本数学运算都可以表示为Heaviside函数的迭代
三类核心问题：
- A) 各种问题的Heavisidisation（构造性）
- B) 代数公式的发现（概念性）
- C) 合理答案与不合理答案的区分（概念性）

局限性

Gauge不变性问题：存在多种等价的Heaviside表示，需要选择合适的规范
收敛性问题：梯度下降不一定能找到正确答案，即使存在Heaviside表示
人工干预需求：实际应用中仍需要大量人工经验和技巧
平滑化影响：数值计算中的函数平滑化会影响结果的准确性

未来方向

高次方程的Heavisidisation：扩展到三次、四次及更高次方程
更复杂的代数结构：探索判别式、结式等的Heaviside表示
科学品味的机器化：研究机器是否能发展出类似人类的科学审美

深度评价

优点

概念创新性：提出了全新的"Heavisidisation"概念，为机器学习在科学中的应用开辟了新思路
理论深度：从数学基础出发，系统性地构建了Heaviside函数的运算体系
跨学科视角：将机器学习、数学物理和构造数学有机结合
实践验证：通过TensorFlow实验验证了理论的可行性

不足

应用范围限制：目前只能处理相对简单的数学问题，距离真正的科学发现还很远
计算复杂性：Heaviside表示往往需要无穷级数，实际计算中需要截断
收敛保证缺失：没有提供梯度下降收敛到正确解的理论保证
人机界限模糊：实验中仍需要大量人工干预，未能实现真正的自动化

影响力

理论贡献：为机器学习的数学基础提供了新的视角
方法论价值：Heavisidisation方法可能启发其他科学计算问题的解决
哲学意义：触及了人工智能能否具备科学创造力的深层问题

适用场景

符号计算：适合需要精确符号表示的数学问题
构造性证明：可用于需要构造性方法的数学证明
科学教育：可作为理解机器学习数学基础的教学工具

技术创新点

关键创新

迭代Heaviside表示：将复杂函数分解为简单阶跃函数的组合
运算网络化：将传统数学运算转换为神经网络可处理的形式
零点检测算法：提供了在离散网格上检测函数零点的系统方法
Gauge理论应用：将物理学中的规范不变性概念引入机器学习

数学框架

论文建立了从基本Heaviside函数到复杂数学运算的完整层次结构： $\text{Heaviside} \rightarrow \text{逻辑运算} \rightarrow \text{算术运算} \rightarrow \text{代数运算} \rightarrow \text{科学问题}$

这种分层构造为机器学习处理科学问题提供了系统性的数学基础。

参考文献

论文引用了以下重要文献：

Gelfand, Kapranov, Zelevinsky: "Discriminants, Resultants, and Multidimensional Determinants"
Dolotin, Morozov: "Introduction to Non-Linear Algebra"
Morozov, Shakirov: "New and Old Results in Resultant Theory"
Ruelle: "Post-human Mathematics"

总体评价：这是一篇具有高度原创性和理论深度的论文，尝试为机器学习在科学中的应用建立新的数学基础。虽然目前的结果还比较初步，但其提出的Heavisidisation概念和方法论具有重要的理论价值和启发意义。论文的跨学科特性和对人工智能哲学问题的思考使其具有超越技术层面的学术价值。