Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.
Apprendre à reporter les prédictions incertaines à des experts coûteux est une stratégie puissante pour améliorer la précision et l'efficacité des systèmes d'apprentissage automatique. Cependant, les procédures d'entraînement des algorithmes de report standard nécessitent généralement d'interroger tous les experts pour chaque instance d'entraînement, ce qui devient extrêmement coûteux lorsque les requêtes d'experts génèrent des coûts computationnels ou de ressources significatifs, contredisant l'objectif fondamental du report : limiter l'utilisation inutile d'experts. Pour surmonter ce défi, cet article introduit le cadre de report avec budget, conçu pour entraîner des algorithmes de report efficaces tout en minimisant le coût des requêtes d'experts pendant l'entraînement.
L'apprentissage traditionnel du report multi-expert (Learning to Defer) fait face à une contradiction fondamentale :
Objectif fondamental : réduire les coûts en reportant sélectivement les tâches de prédiction à des experts
Réalité de l'entraînement : la procédure d'entraînement standard nécessite d'interroger tous les experts pour chaque échantillon d'entraînement, avec un coût total de neT (nombre d'experts × nombre d'échantillons d'entraînement)
Paradoxe des coûts : le processus d'entraînement lui-même contredit l'intention de contrôle des coûts
Besoins d'applications pratiques : dans les scénarios impliquant des ressources coûteuses telles que les grands modèles de langage ou les experts humains, les coûts d'entraînement peuvent être extrêmement élevés
Problèmes d'évolutivité : à mesure que le nombre d'experts augmente, le coût d'entraînement croît linéairement, limitant l'utilité pratique de la méthode
Environnements avec ressources limitées : dans les environnements où les ressources informatiques sont limitées, les méthodes existantes sont difficiles à déployer
Hypothèse de requête complète : les méthodes existantes supposent que les prédictions et les informations de coût de tous les experts peuvent être obtenues sans frais
Déconnexion entre théorie et pratique : l'analyse théorique ignore les coûts de requête pendant la phase d'entraînement
Mauvaise extensibilité : incapacité à traiter efficacement les grands ensembles d'experts
Proposition du cadre de report avec budget : première étude systématique du contrôle des coûts de requête d'experts pendant l'entraînement
Conception d'algorithmes en deux étapes :
Algorithme de report avec budget en deux étapes (Sections 3-5)
Algorithme de report avec budget en une étape (Appendice E)
Garanties théoriques :
Bornes de généralisation : garanties de performance comparables aux méthodes standard
Complexité d'étiquetage : réduction de O(T) à Õ(√T) dans le cas réalisable, pouvant atteindre O(log T)
Validation expérimentale : réalisation d'un taux de requête d'expert inférieur à 40% sur plusieurs ensembles de données, tout en maintenant la précision des prédictions
Innovation clé : décomposition de la décision en deux parties
Sélection d'expert : sélection de l'expert k avec probabilité qₜ,ₖ
Décision de requête : interrogation du coût de l'expert sélectionné avec probabilité pₜ,ₖ
Flux de l'algorithme :
pour t = 1 à T:
recevoir (xₜ, yₜ)
calculer le vecteur de probabilité de requête pₜ ← SAMPLING-PROBS(...)
sélectionner l'expert kₜ ~ q_t
interroger le coût cₜ,ₖₜ avec probabilité pₜ,ₖₜ
mettre à jour l'ensemble d'entraînement Sₜ (avec poids d'importance 1/(qₜ,ₖₜpₜ,ₖₜ))
mettre à jour la fonction de routage rₜ
Ensembles de données de classification binaire : taux de requête réduit à 35-40%
Ensembles de données de classification multi-classe : taux de requête réduit à moins de 30%
Effet du nombre d'experts : plus le nombre d'experts est élevé, plus l'amélioration d'efficacité est significative (meilleur résultat sur l'ensemble de données letter avec 26 experts)
Maintien de la précision :
Précision du système comparable à la méthode standard sur tous les ensembles de données
Barres d'erreur extrêmement petites sur les ensembles de données de classification binaire, indiquant une stabilité des résultats
Certaines fluctuations sur les ensembles de données multi-classe, mais tendance générale cohérente
Vérification de l'évolutivité : l'avantage de la méthode avec budget devient plus apparent à mesure que le nombre d'experts augmente
Analyse de stabilité : les « oscillations » dans le processus d'apprentissage en ligne sont une manifestation normale du caractère aléatoire de l'algorithme
Vérification théorique : les résultats expérimentaux soutiennent que les composants clés de l'analyse théorique (θ, Kℓ, E*) ont un impact limité
Preuve de faisabilité : il est possible de réduire considérablement les coûts d'entraînement tout en maintenant les performances des algorithmes de report
Percée théorique : première fourniture de garanties théoriques rigoureuses pour le problème du report avec budget
Valeur pratique : rend les stratégies de report plus viables dans les environnements aux ressources limitées
Configuration des experts : la configuration des experts dans les expériences est relativement simplifiée ; dans les applications réelles, les experts peuvent être plus complexes
Fonction de coût : considération principale de la perte 0-1 ; d'autres structures de coûts nécessitent une vérification supplémentaire
Limitation de la classe d'hypothèse : l'analyse théorique est basée sur une classe d'hypothèse finie ; les classes d'hypothèse infinies nécessitent une analyse par nombre de couverture
Limitations de la configuration expérimentale : la configuration des experts est relativement artificielle et peut différer des scénarios d'application réels
Baselines de comparaison uniques : comparaison principalement avec les méthodes de report standard, manque de comparaison avec d'autres méthodes avec contraintes de budget
Analyse insuffisante de la complexité computationnelle : analyse insuffisante des frais de calcul de l'algorithme
Cet article cite des travaux importants dans les domaines du report d'apprentissage, de l'apprentissage actif et des machines à bras multi-armés, notamment :
Mao et al. (2023a, 2024a) : fondements théoriques du report multi-expert
Beygelzimer et al. (2009) : idée de pondération par importance de l'algorithme IWAL
Reid et al. (2024) : travaux pionniers sur le report avec contraintes de budget
Évaluation Générale : Ceci est un article de haute qualité en théorie de l'apprentissage automatique qui résout un problème pratique important dans le report d'apprentissage, fournissant une analyse théorique rigoureuse et une validation expérimentale convaincante. La principale contribution de l'article réside dans l'étude systématique pour la première fois du contrôle des coûts de requête d'experts pendant la phase d'entraînement, jetant les bases importantes pour les applications pratiques dans ce domaine.