Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic
Teoría de Decisión Bayesiana Miope para Aprendizaje Activo por Lotes con Muestreo Parcial de Etiquetas de Lote
En las últimas décadas, se han propuesto numerosas funciones de adquisición para aprendizaje activo, pero los profesionales a menudo encuentran dificultades para seleccionar el método apropiado. La teoría de decisión bayesiana (TDB) proporciona principios generales para guiar la toma de decisiones. Este artículo deriva la TDB para aprendizaje activo (bayesiano) bajo un marco miope, asumiendo que solo se necesita anotar un punto de datos adicional. Esta derivación produce algoritmos efectivos como la reducción de error esperada (REE), la ganancia de información predictiva esperada (GIPE), entre otros. Además, los autores demuestran que BAIT puede derivarse mediante TDB y aproximaciones asintóticas. El desafío clave de estos métodos es la dificultad de escalar a tamaños de lote grandes, lo que genera desafíos computacionales (BatchBALD) o caídas drásticas de rendimiento (selección top-B). Este artículo deriva el método de muestreo parcial de etiquetas de lote (ParBaLS) para el algoritmo GIPE mediante una formulación específica del proceso de decisión. Los experimentos demuestran que ParBaLS GIPE presenta un rendimiento superior en múltiples conjuntos de datos bajo presupuestos fijos y regresión logística bayesiana en incrustaciones neuronales.
El aprendizaje activo tiene como objetivo seleccionar los datos más informativos de un gran conjunto de datos sin etiquetar para su anotación, maximizando el rendimiento del modelo bajo un presupuesto de anotación limitado. Los métodos existentes incluyen enfoques heurísticos y probabilísticos, pero carecen de principios de selección explícitos.
Necesidad Práctica: En el aprendizaje automático moderno, los datos típicamente se anotan en lotes en lugar de individualmente
Dificultad en la Selección de Métodos: Los algoritmos existentes carecen de interpretabilidad, dificultando que los profesionales determinen cuándo y qué algoritmo es efectivo
Desafíos de Escalabilidad: Los métodos existentes enfrentan problemas computacionales o de rendimiento con tamaños de lote grandes
Proporcionar un marco teórico unificado mediante teoría de decisión bayesiana, explicar el funcionamiento de algoritmos existentes y proponer nuevos métodos que manejen efectivamente la selección de lotes.
Dado un dominio de entrada X, un dominio de salida Y y un conjunto de datos sin etiquetar D⊂X, el objetivo es seleccionar iterativamente T lotes S⊂D, cada uno con tamaño |S|=B para anotación, minimizando la pérdida de prueba después del entrenamiento en el conjunto anotado.
La Figura 2 muestra que en conjuntos de datos tabulares, el método ParBaLS mantiene ventaja consistente durante todo el proceso de aprendizaje, con rendimiento particularmente destacado en configuraciones de presupuesto bajo.
ParBaLS vs ParBaLS-MAP: ParBaLS completo generalmente supera la versión que utiliza solo etiquetas MAP
Impacto del Tamaño de Lote: La ventaja de ParBaLS es más evidente con lotes más grandes (B=20)
Punto Único vs Lote: Los experimentos en apéndice muestran que aunque la selección de punto único (B=1) tiene mejor rendimiento, la selección de lote es más eficiente en aplicaciones prácticas
REE se enfoca directamente en métricas de rendimiento como pérdida cero-uno y log-verosimilitud, proporcionando mejor interpretabilidad. El trabajo relacionado incluye variantes que combinan métodos heurísticos y métodos adaptativos para escenarios de presupuesto bajo.
A diferencia del aprendizaje semisupervisado, las pseudoetiquetas en aprendizaje activo se utilizan principalmente para:
Aumento de Entrenamiento: Entrenamiento combinando etiquetas reales y pseudoetiquetas
Construcción de Lotes: La innovación de ParBaLS radica en utilizar pseudoetiquetas solo temporalmente para construir lotes, sin contaminar los datos anotados finales
Unificación Teórica: TDBM proporciona base teórica unificada para múltiples algoritmos de aprendizaje activo
Solución de Lotes: ParBaLS resuelve efectivamente el problema de escalabilidad del aprendizaje activo por lotes
Verificación Experimental: ParBaLS GIPE presenta rendimiento superior en múltiples configuraciones, particularmente adecuado para escenarios de alta incertidumbre
Complejidad Computacional: La complejidad temporal de ParBaLS es O(TBm), donde m modelos paralelos aumentan la carga computacional
Aplicabilidad del Método: Principalmente verificado en regresión logística bayesiana, requiriendo investigación adicional para extensión a redes neuronales profundas
Análisis Teórico: La derivación de BAIT depende de aproximaciones asintóticas informales, requiriendo mayor rigor teórico
Este artículo cita literatura importante en el campo del aprendizaje activo, incluyendo:
Métodos clásicos de muestreo por incertidumbre (Lewis, 1995)
Métodos de aprendizaje activo bayesiano (Houlsby et al., 2011; Gal et al., 2017)
Métodos de aprendizaje activo por lotes (Kirsch et al., 2019, 2023)
Métodos de reducción de error esperada (Roy and McCallum, 2001; Mussmann et al., 2022)
Evaluación General: Este es un artículo con valor teórico y práctico importante en el campo del aprendizaje activo. Al unificar algoritmos existentes mediante TDBM y proponer ParBaLS para resolver problemas de selección de lotes, proporciona nuevas direcciones de investigación para el campo. Aunque existen espacios de mejora en eficiencia computacional y rigor teórico, sus contribuciones son significativas.