In this paper we will give a characterization of the learnability of forgiving 0-1 loss functions in the finite label multiclass setting. To do this, we create a new combinatorial dimension that is based off of the Natarajan Dimension and we show that a hypothesis class is learnable in our setting if and only if this Generalized Natarajan Dimension is finite. We also show a connection to learning with set-valued feedback. Through our results we show that the learnability of a set learning problem is characterized by the Natarajan Dimension.
- 论文ID: 2510.08382
- 标题: Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions
- 作者: Jacob Trauger (University of Michigan), Tyson Trauger (The Ohio State University), Ambuj Tewari (University of Michigan)
- 分类: cs.LG (Machine Learning), stat.ML (Statistics - Machine Learning)
- 发表时间: 2025年10月 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.08382
本文在有限标签多类分类设置中给出了宽容0-1损失函数可学习性的刻画。为此,作者基于Natarajan维度创建了一个新的组合维度,并证明了假设类在该设置下可学习当且仅当这个广义Natarajan维度是有限的。文章还展示了与集合值反馈学习的联系,通过结果表明集合学习问题的可学习性由Natarajan维度刻画。
在机器学习理论中,分类任务的可学习性刻画是一个核心问题。对于二分类,VC维度完全刻画了PAC可学习性;对于多类分类,在有限标签情况下Natarajan维度起到了类似作用。然而,这些理论都基于标准0-1损失函数,该函数具有"恒等不可分辨性"(Identity of Indiscernibles)性质,即当且仅当两个标签相等时损失为0。
在实际应用中,经常需要更加"宽容"的损失函数,例如:
- 句子重述任务:多个不同的句子可能都是正确的重述
- 基于阈值的度量:在某个阈值范围内的输出都可以接受
- 集合值反馈学习:预测结果只需要在给定集合中即可
这些场景下,多个不同的输出可能对同一个真实标签都产生0损失,打破了传统理论的基础假设。
现有的可学习性理论(VC维度、Natarajan维度等)都隐含地将标签相等性与损失值联系在一起。当损失函数不满足恒等不可分辨性时,这些理论不再适用,需要新的理论框架来刻画可学习性。
- 提出广义Natarajan维度:基于Natarajan维度创建了新的组合维度,适用于宽容0-1损失函数
- 完整的可学习性刻画:证明了假设类在宽容0-1损失下PAC可学习当且仅当广义Natarajan维度有限
- 集合学习问题的解决:首次在批处理设置下刻画了集合值反馈学习的可学习性
- 理论框架的建立:为不满足恒等不可分辨性的损失函数建立了系统的学习理论
输入空间:X(任意输入空间)
输出空间:Y=[k](有限标签集合,∣Y∣=k)
假设类:H⊂YX损失函数:ℓ:Y×Y→{0,1},满足以下约束:
- 二值性:∀y1,y2∈Y,ℓ(y1,y2)∈{0,1}
- 对称性:∀y1,y2∈Y,ℓ(y1,y2)=ℓ(y2,y1)
- 非包含性:∀y1,y2∈Y,σ(y1)⊂σ(y2)
- 自反性:∀y∈Y,ℓ(y,y)=0
其中σ(y)={y′∣ℓ(y,y′)=0}表示与y产生0损失的所有标签集合。
定义4(广义Natarajan维度):
假设类H和损失函数ℓ广义Natarajan粉碎集合S={s1,...,sn},如果存在h1,h2∈H使得:
- 分离条件:∀si∈S,σ(h1(si))=σ(h2(si))
- 实现条件:∀S′⊆S,存在h∈H使得:
- ∀s∈S′:σ(h(s))=σ(h1(s))
- ∀s∈S∖S′:σ(h(s))=σ(h2(s))
广义Natarajan维度GNdim(H,ℓ)是能被H广义Natarajan粉碎的最大集合的基数。
关键洞察:通过σ函数定义等价关系y∼y′⇔σ(y)=σ(y′),将原问题转化为商空间YC=Y/∼上的标准多类学习问题。
引理1:损失函数尊重等价关系,即如果y1∼y1′且y2∼y2′,则ℓ(y1,y2)=ℓ(y1′,y2′)。
推论1:原学习问题(X,Y,H,ℓ)等价于商空间学习问题(X,YC,HC,ℓC)。
推论2:GNdim(H,ℓ)=Ndim(HC)
定理1(主要结果):学习问题(X,Y,H,ℓ)是PAC可学习的当且仅当GNdim(H,ℓ)<∞。
必要性(引理2):
- 采用反证法,假设GNdim(H,ℓ)=∞
- 构造对抗性分布族,使得任何学习算法在某个分布上表现不佳
- 利用粉碎性质构造2m个点上的复杂函数族
- 通过概率论证明存在实现分布使得任何算法的损失至少为2k1
充分性(引理3):
- 利用等价学习问题的构造
- 将原损失分解为k个标准0-1损失的线性组合:1−LD(h)=∑i=1k(1−LDi(h))
- 由于HC具有有限Natarajan维度,具有一致收敛性质
- 通过联合界证明ERM算法的有效性
本文是纯理论工作,主要通过数学证明来验证理论结果,没有传统意义上的实验设置。理论验证通过以下方式进行:
- 构造性证明:通过构造具体的对抗性分布来证明必要性
- 归约证明:将复杂问题归约到已知的标准多类学习问题
- 维度分析:通过组合维度的有限性来刻画可学习性
文章通过集合学习问题验证了理论的有效性,构造了具体的损失矩阵来说明理论适用性。
定理1的证明完成:成功证明了广义Natarajan维度完全刻画宽容0-1损失函数的PAC可学习性。
集合学习的刻画(推论3):
对于集合学习问题,其中损失函数定义为:
ℓ(y,v)={01y∈votherwise
证明了该问题的可学习性由标准Natarajan维度刻画,即GNdim(H,ℓ)=Ndim(H)。
- 维度保持性质:在许多情况下,即使损失函数变得更加宽容,学习复杂度(以维度衡量)可能保持不变
- 对抗性分布的存在:PAC学习的严格性要求意味着即使损失函数大部分为0,仍可能存在使学习困难的分布
- 商空间的重要性:通过适当的等价关系,复杂的学习问题可以归约为标准问题
- VC理论:Vapnik & Chervonenkis (1974) 建立了二分类的可学习性理论
- Natarajan维度:Natarajan (1989) 将理论扩展到多类分类
- DS维度:Daniely & Shalev-Shwartz (2014) 处理无限标签情况
- 部分概念类:Alon et al. (2022) 研究了部分定义的概念类
- 多输出学习:Raman et al. (2024) 刻画了多输出学习问题
- 在线集合学习:Raman et al. (2024) 在在线设置下研究了集合值反馈
本文填补了批处理设置下宽容损失函数理论的空白,特别是首次系统性地处理了不满足恒等不可分辨性的损失函数。
- 完整刻画:广义Natarajan维度完全刻画了宽容0-1损失函数的PAC可学习性
- 集合学习解决:首次在批处理设置下完整刻画了集合学习的可学习性
- 理论统一:为不满足恒等不可分辨性的损失函数建立了统一的理论框架
- 对称性假设:当前理论要求损失函数对称,这个假设可能过于严格
- 有限标签限制:理论仅适用于有限标签情况,无限标签的扩展仍待研究
- 学习速率:虽然刻画了可学习性,但没有分析学习速率如何随损失函数的宽容程度变化
- 移除对称性假设:研究非对称损失函数的可学习性
- 无限标签扩展:类似于DS维度对Natarajan维度的扩展
- 学习速率分析:研究样本复杂度如何依赖于损失函数的宽容程度
- 算法设计:设计专门针对宽容损失函数的高效学习算法
- 理论创新性强:首次系统性地处理了不满足恒等不可分辨性的损失函数,填补了重要的理论空白
- 数学严谨性:证明完整严谨,特别是通过商空间构造将复杂问题归约为已知问题的技巧很巧妙
- 实用价值高:解决了集合学习等实际问题的理论基础,具有重要应用价值
- 写作清晰:论文结构清晰,数学表述准确,易于理解和验证
- 假设限制性:对称性和有限标签的假设限制了理论的适用范围
- 缺乏算法分析:虽然证明了ERM的有效性,但没有深入分析具体的算法设计和优化
- 实验验证不足:作为纯理论工作,缺乏实际数据集上的验证和应用案例
- 复杂度分析不完整:没有提供具体的样本复杂度界限
- 理论贡献重大:为学习理论开辟了新的研究方向,预期会引发后续大量研究
- 实用价值显著:为集合学习、多标签学习等实际问题提供了理论基础
- 可复现性好:理论结果完全基于数学证明,具有完美的可复现性
- 启发性强:提出的技术方法(商空间构造、等价关系等)可能适用于其他学习理论问题
- 集合值预测:推荐系统、信息检索等需要返回候选集合的场景
- 多标签学习:文本分类、图像标注等允许多个正确答案的任务
- 鲁棒学习:需要对标签噪声具有容忍性的学习场景
- 近似学习:允许一定程度近似的预测任务
论文引用了学习理论领域的重要文献,包括:
- Vapnik & Chervonenkis (1974): VC理论的奠基工作
- Natarajan (1989): 多类学习理论的重要贡献
- Shalev-Shwartz & Ben-David (2014): 现代学习理论教科书
- 近期相关工作如Daniely et al., Brukhim et al., Raman et al.等
总体评价:这是一篇高质量的理论论文,在学习理论领域做出了重要贡献。虽然存在一些假设限制,但开辟了新的研究方向,具有重要的理论价值和实用意义。