In this paper we will give a characterization of the learnability of forgiving 0-1 loss functions in the finite label multiclass setting. To do this, we create a new combinatorial dimension that is based off of the Natarajan Dimension and we show that a hypothesis class is learnable in our setting if and only if this Generalized Natarajan Dimension is finite. We also show a connection to learning with set-valued feedback. Through our results we show that the learnability of a set learning problem is characterized by the Natarajan Dimension.
- ID de l'article: 2510.08382
- Titre: Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions
- Auteurs: Jacob Trauger (University of Michigan), Tyson Trauger (The Ohio State University), Ambuj Tewari (University of Michigan)
- Classification: cs.LG (Apprentissage Automatique), stat.ML (Statistiques - Apprentissage Automatique)
- Date de publication: Octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.08382
Cet article fournit une caractérisation de l'apprentissabilité des fonctions de perte 0-1 indulgentes dans un cadre de classification multiclasse avec étiquettes finies. À cette fin, les auteurs créent une nouvelle dimension combinatoire basée sur la dimension de Natarajan et démontrent qu'une classe d'hypothèses est apprentissable dans ce cadre si et seulement si cette dimension de Natarajan généralisée est finie. L'article établit également des connexions avec l'apprentissage par rétroaction à valeurs d'ensemble, montrant que l'apprentissabilité des problèmes d'apprentissage d'ensemble est caractérisée par la dimension de Natarajan.
En théorie de l'apprentissage automatique, la caractérisation de l'apprentissabilité pour les tâches de classification est un problème central. Pour la classification binaire, la dimension VC caractérise complètement l'apprentissabilité PAC ; pour la classification multiclasse avec étiquettes finies, la dimension de Natarajan joue un rôle analogue. Cependant, ces théories reposent toutes sur la fonction de perte 0-1 standard, qui possède la propriété d'« identité des indiscernables », c'est-à-dire que la perte est nulle si et seulement si les deux étiquettes sont égales.
Dans les applications pratiques, il est souvent nécessaire d'utiliser des fonctions de perte plus « indulgentes », par exemple :
- Tâches de paraphrase de phrases: Plusieurs phrases différentes peuvent être des paraphrases correctes
- Métriques basées sur des seuils: Les sorties dans une certaine plage de seuil peuvent être acceptables
- Apprentissage par rétroaction à valeurs d'ensemble: Le résultat prédit doit simplement se trouver dans un ensemble donné
Dans ces scénarios, plusieurs sorties différentes peuvent produire une perte nulle pour une même étiquette vraie, ce qui viole les hypothèses fondamentales de la théorie traditionnelle.
Les théories d'apprentissabilité existantes (dimension VC, dimension de Natarajan, etc.) lient implicitement l'égalité des étiquettes à la valeur de perte. Lorsque la fonction de perte ne satisfait pas l'identité des indiscernables, ces théories ne s'appliquent plus et un nouveau cadre théorique est nécessaire pour caractériser l'apprentissabilité.
- Proposition d'une dimension de Natarajan généralisée: Création d'une nouvelle dimension combinatoire basée sur la dimension de Natarajan, applicable aux fonctions de perte 0-1 indulgentes
- Caractérisation complète de l'apprentissabilité: Démonstration que la classe d'hypothèses est PAC-apprentissable sous perte 0-1 indulgente si et seulement si la dimension de Natarajan généralisée est finie
- Résolution des problèmes d'apprentissage d'ensemble: Première caractérisation de l'apprentissabilité de l'apprentissage par rétroaction à valeurs d'ensemble en cadre par lots
- Établissement d'un cadre théorique: Création d'une théorie d'apprentissage systématique pour les fonctions de perte ne satisfaisant pas l'identité des indiscernables
Espace d'entrée: X (espace d'entrée arbitraire)
Espace de sortie: Y=[k] (ensemble d'étiquettes finies, ∣Y∣=k)
Classe d'hypothèses: H⊂YXFonction de perte: ℓ:Y×Y→{0,1}, satisfaisant les contraintes suivantes :
- Bivalence: ∀y1,y2∈Y,ℓ(y1,y2)∈{0,1}
- Symétrie: ∀y1,y2∈Y,ℓ(y1,y2)=ℓ(y2,y1)
- Non-inclusion: ∀y1,y2∈Y,σ(y1)⊂σ(y2)
- Réflexivité: ∀y∈Y,ℓ(y,y)=0
où σ(y)={y′∣ℓ(y,y′)=0} représente l'ensemble de toutes les étiquettes produisant une perte nulle avec y.
Définition 4 (Dimension de Natarajan Généralisée):
La classe d'hypothèses H et la fonction de perte ℓ pulvérisent généralisée l'ensemble S={s1,...,sn}, s'il existe h1,h2∈H tels que :
- Condition de séparation: ∀si∈S,σ(h1(si))=σ(h2(si))
- Condition de réalisation: ∀S′⊆S, il existe h∈H tel que :
- ∀s∈S′:σ(h(s))=σ(h1(s))
- ∀s∈S∖S′:σ(h(s))=σ(h2(s))
La dimension de Natarajan généralisée GNdim(H,ℓ) est la cardinalité maximale d'un ensemble pulvérisé généralisé par H.
Intuition clé: En définissant la relation d'équivalence y∼y′⇔σ(y)=σ(y′) via la fonction σ, le problème original est transformé en un problème d'apprentissage multiclasse standard sur l'espace quotient YC=Y/∼.
Lemme 1: La fonction de perte respecte la relation d'équivalence, c'est-à-dire que si y1∼y1′ et y2∼y2′, alors ℓ(y1,y2)=ℓ(y1′,y2′).
Corollaire 1: Le problème d'apprentissage original (X,Y,H,ℓ) est équivalent au problème d'apprentissage sur l'espace quotient (X,YC,HC,ℓC).
Corollaire 2: GNdim(H,ℓ)=Ndim(HC)
Théorème 1 (Résultat Principal): Le problème d'apprentissage (X,Y,H,ℓ) est PAC-apprentissable si et seulement si GNdim(H,ℓ)<∞.
Nécessité (Lemme 2):
- Utilisation d'une preuve par contradiction, en supposant que GNdim(H,ℓ)=∞
- Construction d'une famille de distributions adversariales telle que tout algorithme d'apprentissage fonctionne mal sur une certaine distribution
- Utilisation de la propriété de pulvérisation pour construire une famille de fonctions complexes sur 2m points
- Démonstration par argument probabiliste qu'il existe une distribution réalisée telle que la perte de tout algorithme soit au moins 2k1
Suffisance (Lemme 3):
- Utilisation de la construction du problème d'apprentissage équivalent
- Décomposition de la perte originale en combinaison linéaire de k pertes 0-1 standard : 1−LD(h)=∑i=1k(1−LDi(h))
- Puisque HC possède une dimension de Natarajan finie, elle possède la propriété de convergence uniforme
- Démonstration par union bornée de l'efficacité de l'algorithme ERM
Cet article est un travail purement théorique, utilisant principalement des preuves mathématiques pour vérifier les résultats théoriques, sans configuration expérimentale au sens traditionnel. La vérification théorique s'effectue selon les méthodes suivantes :
- Preuves constructives: Construction de distributions adversariales spécifiques pour démontrer la nécessité
- Preuves par réduction: Réduction de problèmes complexes à des problèmes d'apprentissage multiclasse standard bien connus
- Analyse dimensionnelle: Caractérisation de l'apprentissabilité par la finitude de la dimension combinatoire
L'article valide l'efficacité de la théorie par des problèmes d'apprentissage d'ensemble, construisant des matrices de perte concrètes pour illustrer l'applicabilité de la théorie.
Achèvement de la preuve du Théorème 1: Démonstration réussie que la dimension de Natarajan généralisée caractérise complètement l'apprentissabilité PAC des fonctions de perte 0-1 indulgentes.
Caractérisation de l'apprentissage d'ensemble (Corollaire 3):
Pour les problèmes d'apprentissage d'ensemble, où la fonction de perte est définie comme :
ℓ(y,v)={01y∈vsinon
Il est démontré que l'apprentissabilité de ce problème est caractérisée par la dimension de Natarajan standard, c'est-à-dire GNdim(H,ℓ)=Ndim(H).
- Propriété de préservation dimensionnelle: Dans de nombreux cas, même si la fonction de perte devient plus indulgente, la complexité d'apprentissage (mesurée en dimension) peut rester inchangée
- Existence de distributions adversariales: La rigueur de l'apprentissage PAC implique que même si la fonction de perte est principalement nulle, il peut exister des distributions rendant l'apprentissage difficile
- Importance de l'espace quotient: Par des relations d'équivalence appropriées, les problèmes d'apprentissage complexes peuvent être réduits à des problèmes standard
- Théorie VC: Vapnik & Chervonenkis (1974) établissent la théorie d'apprentissabilité pour la classification binaire
- Dimension de Natarajan: Natarajan (1989) étend la théorie à la classification multiclasse
- Dimension DS: Daniely & Shalev-Shwartz (2014) traitent le cas d'étiquettes infinies
- Classes de concepts partiels: Alon et al. (2022) étudient les classes de concepts partiellement définies
- Apprentissage multi-sorties: Raman et al. (2024) caractérisent les problèmes d'apprentissage multi-sorties
- Apprentissage d'ensemble en ligne: Raman et al. (2024) étudient la rétroaction à valeurs d'ensemble en cadre en ligne
Cet article comble le vide théorique pour les fonctions de perte indulgentes en cadre par lots, traitant systématiquement pour la première fois les fonctions de perte ne satisfaisant pas l'identité des indiscernables.
- Caractérisation complète: La dimension de Natarajan généralisée caractérise complètement l'apprentissabilité PAC des fonctions de perte 0-1 indulgentes
- Résolution de l'apprentissage d'ensemble: Première caractérisation complète de l'apprentissabilité de l'apprentissage d'ensemble en cadre par lots
- Unification théorique: Établissement d'un cadre théorique unifié pour les fonctions de perte ne satisfaisant pas l'identité des indiscernables
- Hypothèse de symétrie: La théorie actuelle exige que la fonction de perte soit symétrique, une hypothèse potentiellement trop stricte
- Restriction aux étiquettes finies: La théorie s'applique uniquement au cas d'étiquettes finies, l'extension aux étiquettes infinies reste à étudier
- Analyse de taux d'apprentissage: Bien que l'apprentissabilité soit caractérisée, l'analyse de comment le taux d'apprentissage varie avec le degré d'indulgence de la fonction de perte n'est pas fournie
- Suppression de l'hypothèse de symétrie: Étude de l'apprentissabilité des fonctions de perte asymétriques
- Extension aux étiquettes infinies: Similaire à l'extension de la dimension DS par rapport à la dimension de Natarajan
- Analyse du taux d'apprentissage: Étude de la dépendance de la complexité d'échantillon au degré d'indulgence de la fonction de perte
- Conception d'algorithmes: Conception d'algorithmes d'apprentissage efficaces spécialisés pour les fonctions de perte indulgentes
- Innovation théorique forte: Première approche systématique des fonctions de perte ne satisfaisant pas l'identité des indiscernables, comblant un vide théorique important
- Rigueur mathématique: Preuves complètes et rigoureuses, particulièrement ingénieuse la technique de réduction par espace quotient transformant les problèmes complexes en problèmes connus
- Valeur pratique élevée: Résolution des fondations théoriques de problèmes pratiques tels que l'apprentissage d'ensemble, avec une valeur applicative importante
- Rédaction claire: Structure d'article claire, expression mathématique précise, facile à comprendre et vérifier
- Restrictions des hypothèses: Les hypothèses de symétrie et d'étiquettes finies limitent l'applicabilité de la théorie
- Analyse d'algorithmes insuffisante: Bien que l'efficacité d'ERM soit prouvée, il n'y a pas d'analyse approfondie de la conception et l'optimisation d'algorithmes spécifiques
- Vérification expérimentale insuffisante: En tant que travail purement théorique, il manque la validation sur des ensembles de données réelles et des cas d'application
- Analyse de complexité incomplète: Pas de limites explicites de complexité d'échantillon fournies
- Contribution théorique majeure: Ouvre une nouvelle direction de recherche en théorie d'apprentissage, devrait susciter de nombreuses recherches ultérieures
- Valeur pratique significative: Fournit des fondations théoriques pour les problèmes pratiques tels que l'apprentissage d'ensemble et l'apprentissage multi-étiquettes
- Bonne reproductibilité: Les résultats théoriques reposent entièrement sur des preuves mathématiques, possédant une reproductibilité parfaite
- Forte capacité inspiratrice: Les techniques proposées (construction d'espace quotient, relations d'équivalence, etc.) pourraient s'appliquer à d'autres problèmes de théorie d'apprentissage
- Prédiction à valeurs d'ensemble: Systèmes de recommandation, récupération d'information et autres scénarios nécessitant de retourner un ensemble de candidats
- Apprentissage multi-étiquettes: Classification de texte, annotation d'images et autres tâches permettant plusieurs réponses correctes
- Apprentissage robuste: Scénarios d'apprentissage nécessitant une tolérance au bruit d'étiquettes
- Apprentissage approximatif: Tâches de prédiction permettant un certain degré d'approximation
L'article cite des travaux importants du domaine de la théorie d'apprentissage, notamment :
- Vapnik & Chervonenkis (1974): Travail fondateur de la théorie VC
- Natarajan (1989): Contribution importante à la théorie d'apprentissage multiclasse
- Shalev-Shwartz & Ben-David (2014): Manuel de théorie d'apprentissage moderne
- Travaux récents connexes tels que Daniely et al., Brukhim et al., Raman et al.
Évaluation Globale: Cet article est un travail théorique de haute qualité apportant des contributions importantes au domaine de la théorie d'apprentissage. Bien que présentant certaines restrictions d'hypothèses, il ouvre une nouvelle direction de recherche avec une valeur théorique et pratique importante.