Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.
Aprender a aplazar predicciones inciertas a expertos costosos es una estrategia poderosa para mejorar la precisión y eficiencia de los sistemas de aprendizaje automático. Sin embargo, los procedimientos estándar de entrenamiento de algoritmos de aplazamiento típicamente requieren consultar a todos los expertos para cada instancia de entrenamiento, lo que se vuelve extremadamente costoso cuando las consultas a expertos generan costos computacionales o de recursos significativos, contradiciendo el objetivo central del aplazamiento: limitar el uso innecesario de expertos. Para superar este desafío, este artículo introduce el marco de aplazamiento presupuestado, diseñado para entrenar algoritmos de aplazamiento efectivos mientras se minimiza el costo de consultas a expertos durante el entrenamiento.
El aprendizaje tradicional de aplazamiento con múltiples expertos (Learning to Defer) enfrenta una contradicción fundamental:
Objetivo Central: Reducir costos aplazando selectivamente tareas de predicción a expertos
Realidad del Entrenamiento: Los procedimientos estándar de entrenamiento requieren consultar a todos los expertos para cada muestra de entrenamiento, con costo total neT (número de expertos × número de muestras de entrenamiento)
Paradoja de Costos: El proceso de entrenamiento en sí mismo viola la intención del control de costos
Necesidades de Aplicaciones Prácticas: En escenarios que involucran modelos de lenguaje grande, expertos humanos y otros recursos costosos, el costo de entrenamiento puede ser extremadamente alto
Problemas de Escalabilidad: A medida que aumenta el número de expertos, el costo de entrenamiento crece linealmente, limitando la practicidad del método
Entornos con Recursos Limitados: En entornos con recursos computacionales restringidos, los métodos existentes son difíciles de implementar
Suposición de Consulta Completa: Los métodos existentes asumen que se pueden obtener sin costo las predicciones y la información de costos de todos los expertos
Desconexión entre Teoría y Práctica: El análisis teórico ignora los costos de consulta en la fase de entrenamiento
Pobre Escalabilidad: No pueden manejar efectivamente conjuntos de expertos a gran escala
Propuesta del Marco de Aplazamiento Presupuestado: Primer estudio sistemático del control de costos de consultas a expertos durante el entrenamiento
Diseño de Algoritmos de Dos Etapas:
Algoritmo de aplazamiento presupuestado de dos etapas (Secciones 3-5)
Algoritmo de aplazamiento presupuestado de una etapa (Apéndice E)
Garantías Teóricas:
Límites de Generalización: Garantías de rendimiento comparables a métodos estándar
Complejidad de Etiquetas: Reducción de O(T) a Õ(√T) en casos realizables, alcanzando O(log T) adicionales
Verificación Experimental: Logra tasas de consulta a expertos por debajo del 40% en múltiples conjuntos de datos mientras mantiene la precisión de predicción
Innovación Clave: Descomposición de decisiones en dos partes
Selección de Experto: Selecciona experto k con probabilidad qₜ,ₖ
Decisión de Consulta: Consulta el costo del experto seleccionado con probabilidad pₜ,ₖ
Flujo del Algoritmo:
para t = 1 hasta T:
Recibir (xₜ, yₜ)
Calcular vector de probabilidad de consulta pₜ ← SAMPLING-PROBS(...)
Seleccionar experto kₜ ~ q_t
Consultar costo cₜ,ₖₜ con probabilidad pₜ,ₖₜ
Actualizar conjunto de entrenamiento Sₜ (con pesos de importancia 1/(qₜ,ₖₜpₜ,ₖₜ))
Actualizar función de enrutamiento rₜ
Configuración de Expertos: La configuración de expertos en experimentos es relativamente simplificada; en aplicaciones reales los expertos pueden ser más complejos
Función de Costo: Principalmente considera pérdida 0-1; otras estructuras de costo requieren verificación adicional
Limitación de Clase de Hipótesis: El análisis teórico se basa en clases de hipótesis finitas; clases infinitas requieren análisis de números de cobertura
Limitaciones de Configuración Experimental: La configuración de expertos es relativamente artificial y puede diferir de escenarios de aplicación real
Líneas Base de Comparación Únicas: Principalmente compara con métodos estándar de aplazamiento, carece de comparación con otros métodos de restricción presupuestaria
Análisis Insuficiente de Complejidad Computacional: No analiza detalladamente la sobrecarga computacional del algoritmo
Este artículo cita literatura importante de los campos de aprendizaje de aplazamiento, aprendizaje activo y bandidos multiarmados, en particular:
Mao et al. (2023a, 2024a): Fundamentos teóricos del aplazamiento con múltiples expertos
Beygelzimer et al. (2009): Ideas de ponderación por importancia del algoritmo IWAL
Reid et al. (2024): Trabajo pionero en aplazamiento con restricción presupuestaria
Evaluación General: Este es un artículo de alta calidad en teoría del aprendizaje automático que resuelve un problema práctico importante en el aprendizaje de aplazamiento, proporcionando análisis teórico riguroso y verificación experimental convincente. La contribución principal del artículo radica en el primer estudio sistemático del control de costos de consultas a expertos durante la fase de entrenamiento, sentando una base importante para aplicaciones prácticas en este campo.