2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann

Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.

academic

Théorie de la Décision Bayésienne Myope pour l'Apprentissage Actif par Lots avec Échantillonnage Partiel des Étiquettes de Lot

Informations Fondamentales

ID de l'article : 2510.09877
Titre : Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Auteurs : Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
Classification : cs.LG cs.AI stat.ML
Date de publication : 10 octobre 2025 (Prépublication)
Lien de l'article : https://arxiv.org/abs/2510.09877v1

Résumé

Au cours des dernières décennies, de nombreuses fonctions d'acquisition pour l'apprentissage actif ont été proposées, mais les praticiens éprouvent souvent des difficultés à sélectionner la méthode appropriée. La théorie de la décision bayésienne (TDB) fournit des principes généraux pour guider la prise de décision. Cet article dérive la TDB pour l'apprentissage actif (bayésien) dans un cadre myope, en supposant que seul un point de données supplémentaire doit être étiqueté. Cette dérivation produit des algorithmes efficaces, tels que la réduction d'erreur attendue (REA), le gain d'information prédictive attendu (GIPA), etc. De plus, les auteurs démontrent que BAIT peut être dérivé via la TDB et des approximations asymptotiques. Le défi clé de cette classe de méthodes est la difficulté à s'adapter à des tailles de lots importantes, ce qui entraîne des défis computationnels (BatchBALD) ou une dégradation drastique des performances (sélection top-B). Cet article dérive la méthode d'échantillonnage partiel des étiquettes de lot (ParBaLS) pour l'algorithme GIPA par le biais d'une formulation de processus décisionnel spécifique. Les expériences montrent que, dans un cadre de régression logistique bayésienne avec budget fixe et plongements neuraux, ParBaLS GIPA présente des performances supérieures sur plusieurs ensembles de données.

Contexte de Recherche et Motivation

Définition du Problème

L'apprentissage actif vise à sélectionner les données les plus informatives parmi un grand ensemble de données non étiquetées pour annotation, afin de maximiser les performances du modèle sous un budget d'annotation limité. Les méthodes existantes incluent des approches heuristiques et probabilistes, mais manquent de principes directeurs explicites pour la sélection.

Importance du Problème

Besoins pratiques : Dans l'apprentissage automatique moderne, les données sont généralement annotées par lots plutôt qu'individuellement
Difficulté de sélection des méthodes : Les algorithmes existants manquent d'interprétabilité, ce qui rend difficile pour les praticiens de déterminer quand et quel algorithme est efficace
Défis d'extensibilité : Les méthodes existantes font face à des problèmes computationnels ou de performance à grande échelle de lots

Limitations des Méthodes Existantes

Sélection top-B : Ignore les dépendances entre les étiquettes de lot, ce qui peut sélectionner des échantillons redondants
Diversité heuristique : Nécessite l'ajustement d'hyperparamètres spécifiques aux ensembles de données, ce qui n'est pas réalisable en apprentissage actif
Acquisition de lots gourmande : Les méthodes telles que BatchBALD présentent une complexité computationnelle qui croît exponentiellement avec la taille du lot

Motivation de la Recherche

Fournir un cadre théorique unifié via la théorie de la décision bayésienne, expliquer le fonctionnement des algorithmes existants et proposer une nouvelle méthode capable de traiter efficacement la sélection de lots.

Contributions Principales

Unification théorique : Unifie plusieurs algorithmes (REA, GIPA, BAIT, etc.) en tant que résultats de dérivation de la théorie de la décision bayésienne myope (TDBM)
Proposition de nouvelle méthode : Introduit l'échantillonnage partiel des étiquettes de lot (ParBaLS) pour résoudre les défis de l'apprentissage actif par lots
Analyse théorique : Démontre que l'erreur d'approximation Monte-Carlo de ParBaLS est O(1/√m), indépendante de la taille du lot
Vérification expérimentale : Valide les performances supérieures de ParBaLS GIPA dans 10 configurations différentes

Détails de la Méthode

Définition de la Tâche

Étant donné un domaine d'entrée X, un domaine de sortie Y et un ensemble de données de pool non étiqueté D⊂X, l'objectif est de sélectionner itérativement T lots S⊂D, chacun de taille |S|=B pour annotation, de manière à minimiser la perte de test après entraînement sur l'ensemble étiqueté.

Théorie de la Décision Bayésienne Myope (TDBM)

Dérivation de Sélection Unique

Dans le cadre myope, en supposant qu'un seul point de données supplémentaire x̂ est sélectionné, le prochain point à annoter est :

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

Pour la perte de log-vraisemblance négative, la prédiction optimale est la distribution postérieure, et la perte attendue se simplifie en entropie :

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

Ceci est équivalent aux algorithmes GIPA et REA.

Défi de Sélection de Lot

Les stratégies de lot existantes se divisent en trois catégories :

Top-B : Sélectionne les B points avec les scores les plus élevés, ignorant les dépendances
Diversité heuristique : Ajoute de l'aléatoire ou de la diversité, nécessitant un ajustement d'hyperparamètres
Acquisition de lot gourmande : Optimise le lot entier, avec une complexité computationnelle élevée

Méthode ParBaLS

Idée Centrale

Introduit un lot partiellement engagé S dont les étiquettes ne sont pas observées, le prochain point optimal étant :

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

Estimation Monte-Carlo

Utilise l'estimation Monte-Carlo pour traiter les sommes de niveau exponentiel :

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

Flux d'Algorithme

L'algorithme ParBaLS construit le lot étape par étape :

Initialise un lot vide S=∅
Entraîne le modèle bayésien M_L
Échantillonne m versions d'étiquettes pseudo y^{(i)}~Y_D|L
Pour chaque position de lot :
- Calcule le score GIPA pour chaque point candidat
- Sélectionne le point avec le score le plus élevé et l'ajoute au lot
- Met à jour m modèles parallèles avec les étiquettes pseudo
Retourne le lot complet

Dérivation de BAIT

Via une approximation asymptotique non formelle, BAIT peut également être dérivé des principes TDBM :

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

Configuration Expérimentale

Ensembles de Données

Les expériences couvrent 6 catégories d'ensembles de données :

Données tabulaires : Airline Passenger Satisfaction, Credit Card Fraud
Données d'images standard : CIFAR-10, CIFAR-100
Données d'images du monde réel : iWildCam, fMoW (provenant de l'indice de référence WILDS)
Données d'images un-à-plusieurs : Conversion de multi-classe en scénarios binaires déséquilibrés
Données d'images avec décalage de sous-groupe : Configuration à trois classes, testée uniquement sur les deux premières classes

Configuration du Modèle

Données d'images : Utilise des modèles d'plongement fixes (CLIP-ViT-B/32 pour WILDS, DINOv2-ViT-S/14 pour CIFAR)
Données tabulaires : Applique directement la régression logistique bayésienne
Configuration bayésienne : k=400 échantillons de paramètres postérieurs, utilisant l'échantillonneur NUTS

Métriques d'Évaluation

Utilise la précision de test comme métrique d'évaluation principale

Méthodes de Comparaison

Méthodes bayésiennes : GIPA, BALD (avec top-B ou bruit de Gumbel)
Méthodes de base : Random, Confidence, BatchBALD
Méthodes proposées : ParBaLS-MAP GIPA, ParBaLS GIPA

Paramètres Expérimentaux

T=10 itérations, budget de B=10 échantillons par itération
Échantillonnage aléatoire initial de 500 échantillons
Pour certaines configurations, utilise B=20, échantillonnage initial de 100 pour augmenter la discrimination
Chaque configuration exécutée 5 fois avec différentes graines

Résultats Expérimentaux

Résultats Principaux

Selon les résultats expérimentaux complets du tableau 1, ParBaLS GIPA présente les meilleures performances dans 9 des 10 configurations :

Algorithme	Moyenne la Plus Élevée	Entrée dans le Top
ParBaLS GIPA	4	9
ParBaLS-MAP GIPA	2	7
SoftRankGIPA	0	4
GIPA	0	4
Confidence	3	5

Performances Spécifiques

Ensembles de données tabulaires (performances les plus remarquables) :

Airline Passenger Satisfaction : ParBaLS GIPA atteint 89,42±0,41%
Credit Card Fraud : ParBaLS GIPA atteint 93,55±0,23%

Configuration avec décalage de sous-groupe (la plus difficile) :

fMoW : ParBaLS GIPA atteint 31,37±6,60%, significativement supérieur aux autres méthodes
iWildCam : ParBaLS GIPA atteint 84,72±1,98%

Analyse des Courbes d'Apprentissage

La figure 2 montre que sur les ensembles de données tabulaires, la méthode ParBaLS maintient un avantage constant tout au long du processus d'apprentissage, avec des performances particulièrement remarquables dans les configurations à budget limité.

Expériences d'Ablation

ParBaLS vs ParBaLS-MAP : ParBaLS complet surpasse généralement la version utilisant uniquement les étiquettes MAP
Impact de la taille du lot : L'avantage de ParBaLS est plus prononcé avec des lots plus importants (B=20)
Sélection unique vs lot : Les expériences en annexe montrent que bien que la sélection unique (B=1) offre de meilleures performances, la sélection par lots est plus efficace dans les applications pratiques

Travaux Connexes

Classification des Méthodes d'Apprentissage Actif

Méthodes heuristiques : Basées sur l'incertitude (Confidence, Margin, Entropy), la diversité (CORESET) ou les deux (BADGE, GALAXY)
Méthodes probabilistes : BALD, BatchBALD, BAIT, etc., basées sur la théorie de l'information ou les principes bayésiens

Réduction d'Erreur Attendue (REA)

La REA se concentre directement sur les métriques de performance telles que la perte zéro-un et la perte de log-vraisemblance, offrant une meilleure interprétabilité. Les travaux connexes incluent des variantes combinant des méthodes heuristiques et des méthodes adaptatives pour les scénarios à budget limité.

Étiquettes Pseudo en Apprentissage Actif

Contrairement à l'apprentissage semi-supervisé, les étiquettes pseudo en apprentissage actif sont principalement utilisées pour :

Augmentation d'entraînement : Entraînement combinant étiquettes réelles et pseudo-étiquettes
Construction de lot : L'innovation de ParBaLS réside dans l'utilisation d'étiquettes pseudo uniquement pour construire temporairement le lot, sans contaminer les données d'annotation finales

Conclusion et Discussion

Conclusions Principales

Unification théorique : La TDBM fournit une base théorique unifiée pour plusieurs algorithmes d'apprentissage actif
Solution pour les lots : ParBaLS résout efficacement le problème d'extensibilité de l'apprentissage actif par lots
Vérification expérimentale : ParBaLS GIPA présente des performances supérieures dans diverses configurations, particulièrement adaptée aux scénarios avec incertitude élevée

Limitations

Complexité computationnelle : La complexité temporelle de ParBaLS est O(TBm), les m modèles parallèles augmentant la charge computationnelle
Applicabilité de la méthode : Principalement validée sur la régression logistique bayésienne, l'extension aux réseaux profonds nécessite des recherches supplémentaires
Analyse théorique : La dérivation de BAIT repose sur une approximation asymptotique non formelle, la rigueur théorique mérite d'être renforcée

Directions Futures

Efficacité computationnelle : Découvrir des méthodes d'approximation computationnellement efficaces, s'étendre à des ensembles de données et modèles plus importants
Intégration d'apprentissage profond : Étudier comment étendre ParBaLS à l'entraînement complet de réseaux de neurones profonds
Perfectionnement théorique : Fournir une analyse théorique plus rigoureuse et des garanties de convergence

Évaluation Approfondie

Avantages

Contribution théorique : Fournit un cadre théorique unifié pour les algorithmes d'apprentissage actif, améliorant l'interprétabilité
Valeur pratique : ParBaLS résout le problème de sélection de lot dans les applications réelles
Expériences complètes : Couvre plusieurs types de données et configurations difficiles, résultats convaincants
Innovation méthodologique : L'application d'étiquettes pseudo dans la construction de lots est novatrice

Insuffisances

Surcharge computationnelle : La maintenance de m modèles parallèles augmente les coûts computationnels
Rigueur théorique : Certaines dérivations (comme BAIT) reposent sur des approximations non formelles
Limitations expérimentales : Principalement validées sur des modèles relativement simples (régression logistique)
Sensibilité aux hyperparamètres : L'analyse du compromis entre le choix de m et les performances/calcul n'est pas suffisamment approfondie

Impact

Impact théorique : Fournit une nouvelle perspective théorique pour l'apprentissage actif, pouvant inspirer des recherches ultérieures
Valeur pratique : La méthode ParBaLS a une valeur d'application directe, particulièrement dans les scénarios d'annotation par lots
Reproductibilité : Fournit du code open-source, facilitant la reproduction et l'extension

Scénarios Applicables

Tâches à incertitude élevée : Données tabulaires et décalage de sous-groupe et autres scénarios avec incertitude irréductible
Besoins d'annotation par lots : Applications pratiques nécessitant une annotation en masse plutôt qu'individuelle
Configuration bayésienne : Modèles et tâches capables d'effectuer une inférence bayésienne

Références

Cet article cite des travaux importants dans le domaine de l'apprentissage actif, notamment :

Méthodes classiques d'échantillonnage par incertitude (Lewis, 1995)
Méthodes d'apprentissage actif bayésien (Houlsby et al., 2011 ; Gal et al., 2017)
Méthodes d'apprentissage actif par lots (Kirsch et al., 2019, 2023)
Méthodes de réduction d'erreur attendue (Roy and McCallum, 2001 ; Mussmann et al., 2022)

Évaluation Générale : Cet article est une contribution importante avec une valeur théorique et pratique significative dans le domaine de l'apprentissage actif. En unifiant les algorithmes existants via la TDBM et en proposant ParBaLS pour résoudre le problème de sélection de lot, il ouvre de nouvelles directions de recherche dans ce domaine. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et de rigueur théorique, ses contributions sont remarquables.