2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic

Théorie de la Décision Bayésienne Myope pour l'Apprentissage Actif par Lots avec Échantillonnage Partiel des Étiquettes de Lot

Informations Fondamentales

  • ID de l'article : 2510.09877
  • Titre : Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
  • Auteurs : Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
  • Classification : cs.LG cs.AI stat.ML
  • Date de publication : 10 octobre 2025 (Prépublication)
  • Lien de l'article : https://arxiv.org/abs/2510.09877v1

Résumé

Au cours des dernières décennies, de nombreuses fonctions d'acquisition pour l'apprentissage actif ont été proposées, mais les praticiens éprouvent souvent des difficultés à sélectionner la méthode appropriée. La théorie de la décision bayésienne (TDB) fournit des principes généraux pour guider la prise de décision. Cet article dérive la TDB pour l'apprentissage actif (bayésien) dans un cadre myope, en supposant que seul un point de données supplémentaire doit être étiqueté. Cette dérivation produit des algorithmes efficaces, tels que la réduction d'erreur attendue (REA), le gain d'information prédictive attendu (GIPA), etc. De plus, les auteurs démontrent que BAIT peut être dérivé via la TDB et des approximations asymptotiques. Le défi clé de cette classe de méthodes est la difficulté à s'adapter à des tailles de lots importantes, ce qui entraîne des défis computationnels (BatchBALD) ou une dégradation drastique des performances (sélection top-B). Cet article dérive la méthode d'échantillonnage partiel des étiquettes de lot (ParBaLS) pour l'algorithme GIPA par le biais d'une formulation de processus décisionnel spécifique. Les expériences montrent que, dans un cadre de régression logistique bayésienne avec budget fixe et plongements neuraux, ParBaLS GIPA présente des performances supérieures sur plusieurs ensembles de données.

Contexte de Recherche et Motivation

Définition du Problème

L'apprentissage actif vise à sélectionner les données les plus informatives parmi un grand ensemble de données non étiquetées pour annotation, afin de maximiser les performances du modèle sous un budget d'annotation limité. Les méthodes existantes incluent des approches heuristiques et probabilistes, mais manquent de principes directeurs explicites pour la sélection.

Importance du Problème

  1. Besoins pratiques : Dans l'apprentissage automatique moderne, les données sont généralement annotées par lots plutôt qu'individuellement
  2. Difficulté de sélection des méthodes : Les algorithmes existants manquent d'interprétabilité, ce qui rend difficile pour les praticiens de déterminer quand et quel algorithme est efficace
  3. Défis d'extensibilité : Les méthodes existantes font face à des problèmes computationnels ou de performance à grande échelle de lots

Limitations des Méthodes Existantes

  1. Sélection top-B : Ignore les dépendances entre les étiquettes de lot, ce qui peut sélectionner des échantillons redondants
  2. Diversité heuristique : Nécessite l'ajustement d'hyperparamètres spécifiques aux ensembles de données, ce qui n'est pas réalisable en apprentissage actif
  3. Acquisition de lots gourmande : Les méthodes telles que BatchBALD présentent une complexité computationnelle qui croît exponentiellement avec la taille du lot

Motivation de la Recherche

Fournir un cadre théorique unifié via la théorie de la décision bayésienne, expliquer le fonctionnement des algorithmes existants et proposer une nouvelle méthode capable de traiter efficacement la sélection de lots.

Contributions Principales

  1. Unification théorique : Unifie plusieurs algorithmes (REA, GIPA, BAIT, etc.) en tant que résultats de dérivation de la théorie de la décision bayésienne myope (TDBM)
  2. Proposition de nouvelle méthode : Introduit l'échantillonnage partiel des étiquettes de lot (ParBaLS) pour résoudre les défis de l'apprentissage actif par lots
  3. Analyse théorique : Démontre que l'erreur d'approximation Monte-Carlo de ParBaLS est O(1/√m), indépendante de la taille du lot
  4. Vérification expérimentale : Valide les performances supérieures de ParBaLS GIPA dans 10 configurations différentes

Détails de la Méthode

Définition de la Tâche

Étant donné un domaine d'entrée X, un domaine de sortie Y et un ensemble de données de pool non étiqueté D⊂X, l'objectif est de sélectionner itérativement T lots S⊂D, chacun de taille |S|=B pour annotation, de manière à minimiser la perte de test après entraînement sur l'ensemble étiqueté.

Théorie de la Décision Bayésienne Myope (TDBM)

Dérivation de Sélection Unique

Dans le cadre myope, en supposant qu'un seul point de données supplémentaire x̂ est sélectionné, le prochain point à annoter est :

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

Pour la perte de log-vraisemblance négative, la prédiction optimale est la distribution postérieure, et la perte attendue se simplifie en entropie :

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

Ceci est équivalent aux algorithmes GIPA et REA.

Défi de Sélection de Lot

Les stratégies de lot existantes se divisent en trois catégories :

  1. Top-B : Sélectionne les B points avec les scores les plus élevés, ignorant les dépendances
  2. Diversité heuristique : Ajoute de l'aléatoire ou de la diversité, nécessitant un ajustement d'hyperparamètres
  3. Acquisition de lot gourmande : Optimise le lot entier, avec une complexité computationnelle élevée

Méthode ParBaLS

Idée Centrale

Introduit un lot partiellement engagé S dont les étiquettes ne sont pas observées, le prochain point optimal étant :

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

Estimation Monte-Carlo

Utilise l'estimation Monte-Carlo pour traiter les sommes de niveau exponentiel :

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

Flux d'Algorithme

L'algorithme ParBaLS construit le lot étape par étape :

  1. Initialise un lot vide S=∅
  2. Entraîne le modèle bayésien M_L
  3. Échantillonne m versions d'étiquettes pseudo y^{(i)}~Y_D|L
  4. Pour chaque position de lot :
    • Calcule le score GIPA pour chaque point candidat
    • Sélectionne le point avec le score le plus élevé et l'ajoute au lot
    • Met à jour m modèles parallèles avec les étiquettes pseudo
  5. Retourne le lot complet

Dérivation de BAIT

Via une approximation asymptotique non formelle, BAIT peut également être dérivé des principes TDBM :

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

Configuration Expérimentale

Ensembles de Données

Les expériences couvrent 6 catégories d'ensembles de données :

  1. Données tabulaires : Airline Passenger Satisfaction, Credit Card Fraud
  2. Données d'images standard : CIFAR-10, CIFAR-100
  3. Données d'images du monde réel : iWildCam, fMoW (provenant de l'indice de référence WILDS)
  4. Données d'images un-à-plusieurs : Conversion de multi-classe en scénarios binaires déséquilibrés
  5. Données d'images avec décalage de sous-groupe : Configuration à trois classes, testée uniquement sur les deux premières classes

Configuration du Modèle

  • Données d'images : Utilise des modèles d'plongement fixes (CLIP-ViT-B/32 pour WILDS, DINOv2-ViT-S/14 pour CIFAR)
  • Données tabulaires : Applique directement la régression logistique bayésienne
  • Configuration bayésienne : k=400 échantillons de paramètres postérieurs, utilisant l'échantillonneur NUTS

Métriques d'Évaluation

Utilise la précision de test comme métrique d'évaluation principale

Méthodes de Comparaison

  • Méthodes bayésiennes : GIPA, BALD (avec top-B ou bruit de Gumbel)
  • Méthodes de base : Random, Confidence, BatchBALD
  • Méthodes proposées : ParBaLS-MAP GIPA, ParBaLS GIPA

Paramètres Expérimentaux

  • T=10 itérations, budget de B=10 échantillons par itération
  • Échantillonnage aléatoire initial de 500 échantillons
  • Pour certaines configurations, utilise B=20, échantillonnage initial de 100 pour augmenter la discrimination
  • Chaque configuration exécutée 5 fois avec différentes graines

Résultats Expérimentaux

Résultats Principaux

Selon les résultats expérimentaux complets du tableau 1, ParBaLS GIPA présente les meilleures performances dans 9 des 10 configurations :

AlgorithmeMoyenne la Plus ÉlevéeEntrée dans le Top
ParBaLS GIPA49
ParBaLS-MAP GIPA27
SoftRankGIPA04
GIPA04
Confidence35

Performances Spécifiques

Ensembles de données tabulaires (performances les plus remarquables) :

  • Airline Passenger Satisfaction : ParBaLS GIPA atteint 89,42±0,41%
  • Credit Card Fraud : ParBaLS GIPA atteint 93,55±0,23%

Configuration avec décalage de sous-groupe (la plus difficile) :

  • fMoW : ParBaLS GIPA atteint 31,37±6,60%, significativement supérieur aux autres méthodes
  • iWildCam : ParBaLS GIPA atteint 84,72±1,98%

Analyse des Courbes d'Apprentissage

La figure 2 montre que sur les ensembles de données tabulaires, la méthode ParBaLS maintient un avantage constant tout au long du processus d'apprentissage, avec des performances particulièrement remarquables dans les configurations à budget limité.

Expériences d'Ablation

  • ParBaLS vs ParBaLS-MAP : ParBaLS complet surpasse généralement la version utilisant uniquement les étiquettes MAP
  • Impact de la taille du lot : L'avantage de ParBaLS est plus prononcé avec des lots plus importants (B=20)
  • Sélection unique vs lot : Les expériences en annexe montrent que bien que la sélection unique (B=1) offre de meilleures performances, la sélection par lots est plus efficace dans les applications pratiques

Travaux Connexes

Classification des Méthodes d'Apprentissage Actif

  1. Méthodes heuristiques : Basées sur l'incertitude (Confidence, Margin, Entropy), la diversité (CORESET) ou les deux (BADGE, GALAXY)
  2. Méthodes probabilistes : BALD, BatchBALD, BAIT, etc., basées sur la théorie de l'information ou les principes bayésiens

Réduction d'Erreur Attendue (REA)

La REA se concentre directement sur les métriques de performance telles que la perte zéro-un et la perte de log-vraisemblance, offrant une meilleure interprétabilité. Les travaux connexes incluent des variantes combinant des méthodes heuristiques et des méthodes adaptatives pour les scénarios à budget limité.

Étiquettes Pseudo en Apprentissage Actif

Contrairement à l'apprentissage semi-supervisé, les étiquettes pseudo en apprentissage actif sont principalement utilisées pour :

  1. Augmentation d'entraînement : Entraînement combinant étiquettes réelles et pseudo-étiquettes
  2. Construction de lot : L'innovation de ParBaLS réside dans l'utilisation d'étiquettes pseudo uniquement pour construire temporairement le lot, sans contaminer les données d'annotation finales

Conclusion et Discussion

Conclusions Principales

  1. Unification théorique : La TDBM fournit une base théorique unifiée pour plusieurs algorithmes d'apprentissage actif
  2. Solution pour les lots : ParBaLS résout efficacement le problème d'extensibilité de l'apprentissage actif par lots
  3. Vérification expérimentale : ParBaLS GIPA présente des performances supérieures dans diverses configurations, particulièrement adaptée aux scénarios avec incertitude élevée

Limitations

  1. Complexité computationnelle : La complexité temporelle de ParBaLS est O(TBm), les m modèles parallèles augmentant la charge computationnelle
  2. Applicabilité de la méthode : Principalement validée sur la régression logistique bayésienne, l'extension aux réseaux profonds nécessite des recherches supplémentaires
  3. Analyse théorique : La dérivation de BAIT repose sur une approximation asymptotique non formelle, la rigueur théorique mérite d'être renforcée

Directions Futures

  1. Efficacité computationnelle : Découvrir des méthodes d'approximation computationnellement efficaces, s'étendre à des ensembles de données et modèles plus importants
  2. Intégration d'apprentissage profond : Étudier comment étendre ParBaLS à l'entraînement complet de réseaux de neurones profonds
  3. Perfectionnement théorique : Fournir une analyse théorique plus rigoureuse et des garanties de convergence

Évaluation Approfondie

Avantages

  1. Contribution théorique : Fournit un cadre théorique unifié pour les algorithmes d'apprentissage actif, améliorant l'interprétabilité
  2. Valeur pratique : ParBaLS résout le problème de sélection de lot dans les applications réelles
  3. Expériences complètes : Couvre plusieurs types de données et configurations difficiles, résultats convaincants
  4. Innovation méthodologique : L'application d'étiquettes pseudo dans la construction de lots est novatrice

Insuffisances

  1. Surcharge computationnelle : La maintenance de m modèles parallèles augmente les coûts computationnels
  2. Rigueur théorique : Certaines dérivations (comme BAIT) reposent sur des approximations non formelles
  3. Limitations expérimentales : Principalement validées sur des modèles relativement simples (régression logistique)
  4. Sensibilité aux hyperparamètres : L'analyse du compromis entre le choix de m et les performances/calcul n'est pas suffisamment approfondie

Impact

  1. Impact théorique : Fournit une nouvelle perspective théorique pour l'apprentissage actif, pouvant inspirer des recherches ultérieures
  2. Valeur pratique : La méthode ParBaLS a une valeur d'application directe, particulièrement dans les scénarios d'annotation par lots
  3. Reproductibilité : Fournit du code open-source, facilitant la reproduction et l'extension

Scénarios Applicables

  1. Tâches à incertitude élevée : Données tabulaires et décalage de sous-groupe et autres scénarios avec incertitude irréductible
  2. Besoins d'annotation par lots : Applications pratiques nécessitant une annotation en masse plutôt qu'individuelle
  3. Configuration bayésienne : Modèles et tâches capables d'effectuer une inférence bayésienne

Références

Cet article cite des travaux importants dans le domaine de l'apprentissage actif, notamment :

  • Méthodes classiques d'échantillonnage par incertitude (Lewis, 1995)
  • Méthodes d'apprentissage actif bayésien (Houlsby et al., 2011 ; Gal et al., 2017)
  • Méthodes d'apprentissage actif par lots (Kirsch et al., 2019, 2023)
  • Méthodes de réduction d'erreur attendue (Roy and McCallum, 2001 ; Mussmann et al., 2022)

Évaluation Générale : Cet article est une contribution importante avec une valeur théorique et pratique significative dans le domaine de l'apprentissage actif. En unifiant les algorithmes existants via la TDBM et en proposant ParBaLS pour résoudre le problème de sélection de lot, il ouvre de nouvelles directions de recherche dans ce domaine. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et de rigueur théorique, ses contributions sont remarquables.