Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic
Théorie de la Décision Bayésienne Myope pour l'Apprentissage Actif par Lots avec Échantillonnage Partiel des Étiquettes de Lot
Au cours des dernières décennies, de nombreuses fonctions d'acquisition pour l'apprentissage actif ont été proposées, mais les praticiens éprouvent souvent des difficultés à sélectionner la méthode appropriée. La théorie de la décision bayésienne (TDB) fournit des principes généraux pour guider la prise de décision. Cet article dérive la TDB pour l'apprentissage actif (bayésien) dans un cadre myope, en supposant que seul un point de données supplémentaire doit être étiqueté. Cette dérivation produit des algorithmes efficaces, tels que la réduction d'erreur attendue (REA), le gain d'information prédictive attendu (GIPA), etc. De plus, les auteurs démontrent que BAIT peut être dérivé via la TDB et des approximations asymptotiques. Le défi clé de cette classe de méthodes est la difficulté à s'adapter à des tailles de lots importantes, ce qui entraîne des défis computationnels (BatchBALD) ou une dégradation drastique des performances (sélection top-B). Cet article dérive la méthode d'échantillonnage partiel des étiquettes de lot (ParBaLS) pour l'algorithme GIPA par le biais d'une formulation de processus décisionnel spécifique. Les expériences montrent que, dans un cadre de régression logistique bayésienne avec budget fixe et plongements neuraux, ParBaLS GIPA présente des performances supérieures sur plusieurs ensembles de données.
L'apprentissage actif vise à sélectionner les données les plus informatives parmi un grand ensemble de données non étiquetées pour annotation, afin de maximiser les performances du modèle sous un budget d'annotation limité. Les méthodes existantes incluent des approches heuristiques et probabilistes, mais manquent de principes directeurs explicites pour la sélection.
Besoins pratiques : Dans l'apprentissage automatique moderne, les données sont généralement annotées par lots plutôt qu'individuellement
Difficulté de sélection des méthodes : Les algorithmes existants manquent d'interprétabilité, ce qui rend difficile pour les praticiens de déterminer quand et quel algorithme est efficace
Défis d'extensibilité : Les méthodes existantes font face à des problèmes computationnels ou de performance à grande échelle de lots
Sélection top-B : Ignore les dépendances entre les étiquettes de lot, ce qui peut sélectionner des échantillons redondants
Diversité heuristique : Nécessite l'ajustement d'hyperparamètres spécifiques aux ensembles de données, ce qui n'est pas réalisable en apprentissage actif
Acquisition de lots gourmande : Les méthodes telles que BatchBALD présentent une complexité computationnelle qui croît exponentiellement avec la taille du lot
Fournir un cadre théorique unifié via la théorie de la décision bayésienne, expliquer le fonctionnement des algorithmes existants et proposer une nouvelle méthode capable de traiter efficacement la sélection de lots.
Unification théorique : Unifie plusieurs algorithmes (REA, GIPA, BAIT, etc.) en tant que résultats de dérivation de la théorie de la décision bayésienne myope (TDBM)
Proposition de nouvelle méthode : Introduit l'échantillonnage partiel des étiquettes de lot (ParBaLS) pour résoudre les défis de l'apprentissage actif par lots
Analyse théorique : Démontre que l'erreur d'approximation Monte-Carlo de ParBaLS est O(1/√m), indépendante de la taille du lot
Vérification expérimentale : Valide les performances supérieures de ParBaLS GIPA dans 10 configurations différentes
Étant donné un domaine d'entrée X, un domaine de sortie Y et un ensemble de données de pool non étiqueté D⊂X, l'objectif est de sélectionner itérativement T lots S⊂D, chacun de taille |S|=B pour annotation, de manière à minimiser la perte de test après entraînement sur l'ensemble étiqueté.
La figure 2 montre que sur les ensembles de données tabulaires, la méthode ParBaLS maintient un avantage constant tout au long du processus d'apprentissage, avec des performances particulièrement remarquables dans les configurations à budget limité.
ParBaLS vs ParBaLS-MAP : ParBaLS complet surpasse généralement la version utilisant uniquement les étiquettes MAP
Impact de la taille du lot : L'avantage de ParBaLS est plus prononcé avec des lots plus importants (B=20)
Sélection unique vs lot : Les expériences en annexe montrent que bien que la sélection unique (B=1) offre de meilleures performances, la sélection par lots est plus efficace dans les applications pratiques
La REA se concentre directement sur les métriques de performance telles que la perte zéro-un et la perte de log-vraisemblance, offrant une meilleure interprétabilité. Les travaux connexes incluent des variantes combinant des méthodes heuristiques et des méthodes adaptatives pour les scénarios à budget limité.
Contrairement à l'apprentissage semi-supervisé, les étiquettes pseudo en apprentissage actif sont principalement utilisées pour :
Augmentation d'entraînement : Entraînement combinant étiquettes réelles et pseudo-étiquettes
Construction de lot : L'innovation de ParBaLS réside dans l'utilisation d'étiquettes pseudo uniquement pour construire temporairement le lot, sans contaminer les données d'annotation finales
Unification théorique : La TDBM fournit une base théorique unifiée pour plusieurs algorithmes d'apprentissage actif
Solution pour les lots : ParBaLS résout efficacement le problème d'extensibilité de l'apprentissage actif par lots
Vérification expérimentale : ParBaLS GIPA présente des performances supérieures dans diverses configurations, particulièrement adaptée aux scénarios avec incertitude élevée
Complexité computationnelle : La complexité temporelle de ParBaLS est O(TBm), les m modèles parallèles augmentant la charge computationnelle
Applicabilité de la méthode : Principalement validée sur la régression logistique bayésienne, l'extension aux réseaux profonds nécessite des recherches supplémentaires
Analyse théorique : La dérivation de BAIT repose sur une approximation asymptotique non formelle, la rigueur théorique mérite d'être renforcée
Efficacité computationnelle : Découvrir des méthodes d'approximation computationnellement efficaces, s'étendre à des ensembles de données et modèles plus importants
Intégration d'apprentissage profond : Étudier comment étendre ParBaLS à l'entraînement complet de réseaux de neurones profonds
Perfectionnement théorique : Fournir une analyse théorique plus rigoureuse et des garanties de convergence
Cet article cite des travaux importants dans le domaine de l'apprentissage actif, notamment :
Méthodes classiques d'échantillonnage par incertitude (Lewis, 1995)
Méthodes d'apprentissage actif bayésien (Houlsby et al., 2011 ; Gal et al., 2017)
Méthodes d'apprentissage actif par lots (Kirsch et al., 2019, 2023)
Méthodes de réduction d'erreur attendue (Roy and McCallum, 2001 ; Mussmann et al., 2022)
Évaluation Générale : Cet article est une contribution importante avec une valeur théorique et pratique significative dans le domaine de l'apprentissage actif. En unifiant les algorithmes existants via la TDBM et en proposant ParBaLS pour résoudre le problème de sélection de lot, il ouvre de nouvelles directions de recherche dans ce domaine. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et de rigueur théorique, ses contributions sont remarquables.