Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.
Imparare a rinviare le previsioni incerte a esperti costosi è una strategia potente per migliorare l'accuratezza e l'efficienza dei sistemi di apprendimento automatico. Tuttavia, le procedure standard di addestramento degli algoritmi di rinvio richiedono tipicamente di interrogare tutti gli esperti per ogni istanza di addestramento, il che diventa estremamente costoso quando le interrogazioni degli esperti comportano costi computazionali o di risorse significativi, vanificando l'obiettivo fondamentale del rinvio: limitare l'uso non necessario degli esperti. Per superare questa sfida, il presente articolo introduce il framework di rinvio con budget, progettato per addestrare algoritmi di rinvio efficaci minimizzando contemporaneamente il costo delle interrogazioni degli esperti durante l'addestramento.
L'apprendimento tradizionale del rinvio multiplo (Learning to Defer) affronta una contraddizione fondamentale:
Obiettivo Principale: ridurre i costi rinviando selettivamente i compiti di previsione agli esperti
Realtà dell'Addestramento: le procedure standard richiedono il costo di interrogare tutti gli esperti per ogni campione di addestramento, con costo totale neT (numero di esperti × numero di campioni di addestramento)
Paradosso dei Costi: il processo di addestramento stesso contraddice l'intento del controllo dei costi
Esigenze Applicative Pratiche: in scenari che coinvolgono risorse costose come modelli linguistici di grandi dimensioni ed esperti umani, i costi di addestramento possono essere estremamente elevati
Problemi di Scalabilità: con l'aumento del numero di esperti, il costo di addestramento cresce linearmente, limitando l'applicabilità pratica del metodo
Ambienti con Risorse Vincolate: in ambienti con risorse computazionali limitate, i metodi esistenti sono difficili da implementare
Assunzione di Interrogazione Completa: i metodi esistenti presuppongono di poter ottenere senza costi le previsioni e le informazioni di costo di tutti gli esperti
Divario tra Teoria e Pratica: l'analisi teorica trascura i costi di interrogazione nella fase di addestramento
Scarsa Estensibilità: non riescono a gestire efficacemente insiemi di esperti su larga scala
Proposta del Framework di Rinvio con Budget: primo studio sistematico del controllo dei costi di interrogazione degli esperti durante l'addestramento
Progettazione di Algoritmi a Due Stadi:
Algoritmo di rinvio con budget a due stadi (Sezioni 3-5)
Algoritmo di rinvio con budget a uno stadio (Appendice E)
Garanzie Teoriche:
Limiti di Generalizzazione: garanzie di prestazione comparabili ai metodi standard
Complessità di Etichettatura: ridotta da O(T) a Õ(√T) nel caso realizzabile, ulteriormente a O(log T)
Verifica Sperimentale: raggiungimento di tassi di interrogazione degli esperti inferiori al 40% su più set di dati, mantenendo l'accuratezza predittiva
Innovazione Chiave: decomposizione della decisione in due parti
Selezione dell'Esperto: selezione dell'esperto k con probabilità qₜ,ₖ
Decisione di Interrogazione: interrogazione del costo dell'esperto selezionato con probabilità pₜ,ₖ
Flusso dell'Algoritmo:
per t = 1 a T:
ricevi (xₜ, yₜ)
calcola il vettore di probabilità di interrogazione pₜ ← SAMPLING-PROBS(...)
seleziona l'esperto kₜ ~ q_t
interroga il costo cₜ,ₖₜ con probabilità pₜ,ₖₜ
aggiorna l'insieme di addestramento Sₜ (con pesi di importanza 1/(qₜ,ₖₜpₜ,ₖₜ))
aggiorna la funzione di routing rₜ
Filosofia di Progettazione: dare priorità all'interrogazione delle coppie esperto-istanza con il massimo disaccordo nello spazio delle versioni corrente
Set di Dati Binari: tasso di interrogazione ridotto al 35-40%
Set di Dati Multiclasse: tasso di interrogazione ridotto al di sotto del 30%
Effetto del Numero di Esperti: maggiore è il numero di esperti, più evidente è il miglioramento dell'efficienza (migliori risultati nel set di dati letter con 26 esperti)
Mantenimento dell'Accuratezza:
Accuratezza del sistema comparabile ai metodi standard su tutti i set di dati
Intervalli di errore estremamente ridotti nei set di dati binari, indicando risultati stabili
Alcune fluttuazioni nei set di dati multiclasse, ma tendenza complessiva coerente
Configurazione degli Esperti: la configurazione degli esperti negli esperimenti è relativamente semplificata; gli esperti nelle applicazioni reali potrebbero essere più complessi
Funzione di Costo: principalmente considerata la perdita 0-1; altre strutture di costo richiedono ulteriore verifica
Limitazioni della Classe di Ipotesi: l'analisi teorica si basa su classi di ipotesi finite; le classi di ipotesi infinite richiedono analisi del numero di copertura
Limitazioni della Configurazione Sperimentale: la configurazione degli esperti è relativamente artificiale e potrebbe differire dagli scenari di applicazione reale
Singolarità delle Linee di Base di Confronto: principalmente confronto con metodi standard di rinvio, mancanza di confronto con altri metodi con vincoli di budget
Analisi Insufficiente della Complessità Computazionale: mancanza di analisi dettagliata dei costi computazionali dell'algoritmo
Il presente articolo cita importanti letteratura nei campi dell'apprendimento del rinvio, dell'apprendimento attivo e dei giochi d'azzardo multi-braccio, in particolare:
Mao et al. (2023a, 2024a): fondamenti teorici del rinvio multiplo
Beygelzimer et al. (2009): idea della ponderazione di importanza nell'algoritmo IWAL
Reid et al. (2024): lavoro pionieristico nel rinvio con vincoli di budget
Valutazione Complessiva: questo è un articolo di alta qualità nel campo dell'apprendimento automatico teorico che risolve un importante problema pratico nell'apprendimento del rinvio, fornendo analisi teorica rigorosa e verifica sperimentale convincente. Il principale contributo dell'articolo risiede nel primo studio sistematico del controllo dei costi di interrogazione degli esperti nella fase di addestramento, gettando una base importante per le applicazioni pratiche in questo campo.