We study the problem of learning general (i.e., not necessarily homogeneous) halfspaces under the Gaussian distribution on $R^d$ in the presence of some form of query access. In the classical pool-based active learning model, where the algorithm is allowed to make adaptive label queries to previously sampled points, we establish a strong information-theoretic lower bound ruling out non-trivial improvements over the passive setting. Specifically, we show that any active learner requires label complexity of $\tildeΩ(d/(\log(m)ε))$, where $m$ is the number of unlabeled examples. Specifically, to beat the passive label complexity of $\tilde{O} (d/ε)$, an active learner requires a pool of $2^{poly(d)}$ unlabeled samples. On the positive side, we show that this lower bound can be circumvented with membership query access, even in the agnostic model. Specifically, we give a computationally efficient learner with query complexity of $\tilde{O}(\min\{1/p, 1/ε\} + d\cdot polylog(1/ε))$ achieving error guarantee of $O(opt)+ε$. Here $p \in [0, 1/2]$ is the bias and $opt$ is the 0-1 loss of the optimal halfspace. As a corollary, we obtain a strong separation between the active and membership query models. Taken together, our results characterize the complexity of learning general halfspaces under Gaussian marginals in these models.
论文ID : 2501.00508标题 : Active Learning of General Halfspaces: Label Queries vs Membership Queries作者 : Ilias Diakonikolas (University of Wisconsin-Madison), Daniel M. Kane (University of California, San Diego), Mingchen Ma (University of Wisconsin-Madison)分类 : cs.LG (Machine Learning)提交时间 : 2024年12月31日论文链接 : https://arxiv.org/abs/2501.00508 本文研究在高斯分布R d \mathbb{R}^d R d 上学习一般(非齐次)半空间的问题,考虑了两种查询访问模式。在经典的基于池的主动学习模型中,算法可以对预先采样的点进行自适应标签查询,作者建立了强信息论下界,排除了相对于被动设置的非平凡改进。具体地,任何主动学习器都需要Ω ~ ( d / ( log ( m ) ϵ ) ) \tilde{\Omega}(d/(\log(m)\epsilon)) Ω ~ ( d / ( log ( m ) ϵ )) 的标签复杂度,其中m m m 是未标记样本数量。要超越被动学习的O ~ ( d / ϵ ) \tilde{O}(d/\epsilon) O ~ ( d / ϵ ) 标签复杂度,主动学习器需要2 poly ( d ) 2^{\text{poly}(d)} 2 poly ( d ) 个未标记样本。在积极方面,作者证明了通过成员查询访问可以规避这一下界,即使在不可知模型中也是如此。具体地,给出了查询复杂度为O ~ ( min { 1 / p , 1 / ϵ } + d ⋅ polylog ( 1 / ϵ ) ) \tilde{O}(\min\{1/p, 1/\epsilon\} + d \cdot \text{polylog}(1/\epsilon)) O ~ ( min { 1/ p , 1/ ϵ } + d ⋅ polylog ( 1/ ϵ )) 的计算高效学习器,实现了O ( opt ) + ϵ O(\text{opt})+\epsilon O ( opt ) + ϵ 的错误保证。
本文研究在高斯分布下学习一般半空间的问题。半空间(或线性阈值函数LTF)是形如h ( x ) = sign ( w ⋅ x + t ) h(x) = \text{sign}(w \cdot x + t) h ( x ) = sign ( w ⋅ x + t ) 的函数,其中w ∈ S d − 1 w \in S^{d-1} w ∈ S d − 1 是权重向量,t t t 是阈值。当t = 0 t=0 t = 0 时称为齐次半空间。
理论差距 :对于齐次半空间,已知主动学习可以实现O ( d log ( 1 / ϵ ) ) O(d\log(1/\epsilon)) O ( d log ( 1/ ϵ )) 的标签复杂度,但对于一般半空间,是否存在类似的改进仍是开放问题。实际重要性 :半空间学习是机器学习的经典问题,从感知机算法到SVM和AdaBoost都有重要影响。查询模型比较 :主动学习(标签查询)与成员查询的能力差异需要深入理解。对于有偏差p p p 的一般半空间,需要至少1 / p 1/p 1/ p 个标记样本才能看到小类的第一个点 现有信息论下界为Ω ( min { 1 / p , 1 / ϵ } + d log ( 1 / ϵ ) ) \Omega(\min\{1/p, 1/\epsilon\} + d\log(1/\epsilon)) Ω ( min { 1/ p , 1/ ϵ } + d log ( 1/ ϵ )) 缺乏对主动学习与成员查询模型差异的严格刻画 强信息论下界 :证明了任何主动学习算法都需要Ω ~ ( d / ( log ( m ) ϵ ) ) \tilde{\Omega}(d/(\log(m)\epsilon)) Ω ~ ( d / ( log ( m ) ϵ )) 的标签复杂度,其中m m m 是未标记样本数成员查询上界 :提供了查询复杂度为O ~ ( min { 1 / p , 1 / ϵ } + d ⋅ polylog ( 1 / ϵ ) ) \tilde{O}(\min\{1/p, 1/\epsilon\} + d \cdot \text{polylog}(1/\epsilon)) O ~ ( min { 1/ p , 1/ ϵ } + d ⋅ polylog ( 1/ ϵ )) 的计算高效算法模型分离 :建立了主动学习与成员查询模型之间的强分离复杂度刻画 :完全刻画了在高斯边际分布下学习一般半空间的复杂度输入 :访问标记函数y ( x ) : R d → { ± 1 } y(x): \mathbb{R}^d \to \{\pm 1\} y ( x ) : R d → { ± 1 } ,目标分布为N ( 0 , I ) \mathcal{N}(0,I) N ( 0 , I ) 输出 :半空间h ^ ( x ) = sign ( w ^ ⋅ x + t ^ ) \hat{h}(x) = \text{sign}(\hat{w} \cdot x + \hat{t}) h ^ ( x ) = sign ( w ^ ⋅ x + t ^ ) 目标 :最小化错误率err ( h ^ ) = Pr x ∼ N ( 0 , I ) ( h ^ ( x ) ≠ y ( x ) ) \text{err}(\hat{h}) = \Pr_{x \sim \mathcal{N}(0,I)}(\hat{h}(x) \neq y(x)) err ( h ^ ) = Pr x ∼ N ( 0 , I ) ( h ^ ( x ) = y ( x ))
如果能用少量查询学习到错误率p / 2 p/2 p /2 的半空间,那么可以通过随机划分样本集合,用第一部分学习半空间,用第二部分以O ( d ) O(d) O ( d ) 期望查询找到d d d 个负样本。
引理2.1 :如果存在主动学习算法能用r r r 次标签查询学习偏差p p p 的半空间至错误率p / 2 p/2 p /2 ,那么存在算法用r + O ( d ) r+O(d) r + O ( d ) 次查询从2 m 2m 2 m 个样本中找到d d d 个负样本。
引理2.2 :对于矩阵A ∈ R k × d A \in \mathbb{R}^{k \times d} A ∈ R k × d ,如果∥ A A T − d I ∥ 2 ≤ O ( d / ( t ∗ ) 2 ) \|AA^T - dI\|_2 \leq O(d/(t^*)^2) ∥ A A T − d I ∥ 2 ≤ O ( d / ( t ∗ ) 2 ) ,那么随机半空间将所有k k k 个样本标记为负的概率至多为O ( p log ( 1 / p ) ) k O(p\log(1/p))^k O ( p log ( 1/ p ) ) k 。
偏差估计 :用O ~ ( min { 1 / p , 1 / ϵ } ) \tilde{O}(\min\{1/p, 1/\epsilon\}) O ~ ( min { 1/ p , 1/ ϵ }) 次查询估计偏差p p p 阈值网格 :构建阈值网格{ t 0 , t 1 , … , t ψ } \{t_0, t_1, \ldots, t_\psi\} { t 0 , t 1 , … , t ψ } ,间隔为1 / ( 2 log ( 1 / ϵ ) ) 1/(2\log(1/\epsilon)) 1/ ( 2 log ( 1/ ϵ )) 初始化与精化 :对每个网格点运行初始化和精化算法候选选择 :用锦标赛方法从候选假设中选择最佳使用投影梯度下降方法:
梯度构造 :G i : = proj w i ⊥ z y ( A i 1 / 2 z − t ~ w i ) G_i := \text{proj}_{w_i^{\perp}} zy(A_i^{1/2}z - \tilde{t}w_i) G i := proj w i ⊥ zy ( A i 1/2 z − t ~ w i ) 更新规则 :w i + 1 = proj S d − 1 ( w i + μ i g ^ i ) w_{i+1} = \text{proj}_{S^{d-1}}(w_i + \mu_i\hat{g}_i) w i + 1 = proj S d − 1 ( w i + μ i g ^ i ) 定位技术 :通过二分搜索找到正确的t ~ \tilde{t} t ~ 关键引理3.1 :如果梯度估计满足一定条件,则sin ( θ i + 1 / 2 ) ≤ ( 1 − 1 / C 2 ) σ i \sin(\theta_{i+1}/2) \leq (1-1/C_2)\sigma_i sin ( θ i + 1 /2 ) ≤ ( 1 − 1/ C 2 ) σ i
使用标签平滑技术:
平滑标签 :y ~ ( x ) : = y ( 1 − ρ 2 x + ρ z ) \tilde{y}(x) := y(\sqrt{1-\rho^2}x + \rho z) y ~ ( x ) := y ( 1 − ρ 2 x + ρ z ) ,其中z ∼ N ( 0 , I ) z \sim \mathcal{N}(0,I) z ∼ N ( 0 , I ) Chow参数估计 :估计E [ z y ~ ( x 0 ) ] \mathbb{E}[z\tilde{y}(x_0)] E [ z y ~ ( x 0 )] 来获得w ∗ w^* w ∗ 的方向本文主要是理论工作,通过数学证明建立复杂度界限,而非实证实验。
信息论方法 :Yao极小极大原理几何分析 :高维球面上的集中现象概率工具 :高斯分布的尾部界限和集中不等式定理1.1 :对任何主动学习算法A A A ,存在偏差p p p 的半空间h ∗ h^* h ∗ ,如果A A A 在m m m 个i.i.d.高斯样本上进行少于Ω ~ ( d / ( p log ( m ) ) ) \tilde{\Omega}(d/(p\log(m))) Ω ~ ( d / ( p log ( m ))) 次标签查询,则以概率至少2/3输出错误率超过p / 2 p/2 p /2 的假设。
推论 :要超越被动学习的O ~ ( d / ϵ ) \tilde{O}(d/\epsilon) O ~ ( d / ϵ ) 复杂度,需要2 poly ( d ) 2^{\text{poly}(d)} 2 poly ( d ) 个未标记样本。
定理1.2 :存在算法使用O ~ ( min { 1 / p , 1 / ϵ } + d ⋅ polylog ( 1 / ϵ ) ) \tilde{O}(\min\{1/p, 1/\epsilon\} + d \cdot \text{polylog}(1/\epsilon)) O ~ ( min { 1/ p , 1/ ϵ } + d ⋅ polylog ( 1/ ϵ )) 次成员查询,运行时间为poly ( d , M ) \text{poly}(d,M) poly ( d , M ) ,输出错误率至多O ( opt ) + ϵ O(\text{opt}) + \epsilon O ( opt ) + ϵ 的假设。
初始化 :O ~ ( 1 / p + d log ( 1 / ϵ ) ) \tilde{O}(1/p + d\log(1/\epsilon)) O ~ ( 1/ p + d log ( 1/ ϵ )) 次查询精化 :O ~ ( d ⋅ polylog ( 1 / ϵ ) ) \tilde{O}(d \cdot \text{polylog}(1/\epsilon)) O ~ ( d ⋅ polylog ( 1/ ϵ )) 次查询总复杂度 :O ~ ( min { 1 / p , 1 / ϵ } + d ⋅ polylog ( 1 / ϵ ) ) \tilde{O}(\min\{1/p, 1/\epsilon\} + d \cdot \text{polylog}(1/\epsilon)) O ~ ( min { 1/ p , 1/ ϵ } + d ⋅ polylog ( 1/ ϵ )) Dasgupta等人的早期工作建立了齐次半空间的O ( d log ( 1 / ϵ ) ) O(d\log(1/\epsilon)) O ( d log ( 1/ ϵ )) 复杂度 Balcan-Hanneke-Vaughan给出了一般半空间的O ~ ( ( 1 / p ) d 3 / 2 log ( 1 / ϵ ) ) \tilde{O}((1/p)d^{3/2}\log(1/\epsilon)) O ~ (( 1/ p ) d 3/2 log ( 1/ ϵ )) 上界 Angluin引入成员查询模型 在噪声存在下的鲁棒学习算法设计 从感知机到现代SVM的发展历程 在对抗噪声下的学习算法 决策树分析 :将查询算法建模为二叉决策树几何条件 :建立矩阵条件∥ A A T − d I ∥ 2 ≤ O ( d / ( t ∗ ) 2 ) \|AA^T - dI\|_2 \leq O(d/(t^*)^2) ∥ A A T − d I ∥ 2 ≤ O ( d / ( t ∗ ) 2 ) 概率分析 :利用Beta分布的尾部界限定位技术 :通过偏差检查找到正确阈值标签平滑 :克服小偏差下Chow参数估计困难鲁棒性分析 :在噪声存在下保持算法性能主动学习对一般半空间没有显著优势(除非有指数级未标记样本) 成员查询可以实现近似最优的查询复杂度 两种查询模型之间存在指数级分离 仅考虑高斯分布,其他分布下的结果未知 算法实现需要精确的数值计算 常数因子可能较大 扩展到其他分布族 改进算法的实际效率 研究其他几何概念类的查询复杂度 理论贡献重大 :首次建立了主动学习与成员查询的严格分离技术手段先进 :结合了多种数学工具,证明技巧精妙结果完整 :同时给出了上界和下界,完全刻画了问题复杂度写作清晰 :技术细节组织良好,论证逻辑严密实用性有限 :算法复杂度中的多对数因子可能较大分布限制 :仅考虑高斯分布,实际应用中分布可能不同实验缺失 :缺乏实证验证理论结果的实验理论意义 :为主动学习理论提供了重要的负面结果方法价值 :证明技术可应用于其他学习问题实践指导 :为实际系统设计提供了理论指导理论机器学习研究 查询复杂度分析 在线学习系统设计 半空间相关的实际应用 本文是主动学习理论的重要贡献,通过严格的数学分析揭示了不同查询模型的本质差异,为该领域的理论发展奠定了坚实基础。