2025-11-11T14:19:08.761279

Budgeted Multiple-Expert Deferral

DeSalvo, Mohri, Mohri et al.

Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.

academic

Aplazamiento de Múltiples Expertos Presupuestado

Información Básica

ID del Artículo: 2510.26706
Título: Budgeted Multiple-Expert Deferral
Autores: Giulia DeSalvo (Google DeepMind), Clara Mohri (Harvard University), Mehryar Mohri (Google Research & Courant Institute), Yutao Zhong (Google Research)
Clasificación: cs.LG, stat.ML
Fecha de Publicación: 30 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.26706

Resumen

Aprender a aplazar predicciones inciertas a expertos costosos es una estrategia poderosa para mejorar la precisión y eficiencia de los sistemas de aprendizaje automático. Sin embargo, los procedimientos estándar de entrenamiento de algoritmos de aplazamiento típicamente requieren consultar a todos los expertos para cada instancia de entrenamiento, lo que se vuelve extremadamente costoso cuando las consultas a expertos generan costos computacionales o de recursos significativos, contradiciendo el objetivo central del aplazamiento: limitar el uso innecesario de expertos. Para superar este desafío, este artículo introduce el marco de aplazamiento presupuestado, diseñado para entrenar algoritmos de aplazamiento efectivos mientras se minimiza el costo de consultas a expertos durante el entrenamiento.

Contexto de Investigación y Motivación

Definición del Problema

El aprendizaje tradicional de aplazamiento con múltiples expertos (Learning to Defer) enfrenta una contradicción fundamental:

Objetivo Central: Reducir costos aplazando selectivamente tareas de predicción a expertos
Realidad del Entrenamiento: Los procedimientos estándar de entrenamiento requieren consultar a todos los expertos para cada muestra de entrenamiento, con costo total neT (número de expertos × número de muestras de entrenamiento)
Paradoja de Costos: El proceso de entrenamiento en sí mismo viola la intención del control de costos

Importancia de la Investigación

Necesidades de Aplicaciones Prácticas: En escenarios que involucran modelos de lenguaje grande, expertos humanos y otros recursos costosos, el costo de entrenamiento puede ser extremadamente alto
Problemas de Escalabilidad: A medida que aumenta el número de expertos, el costo de entrenamiento crece linealmente, limitando la practicidad del método
Entornos con Recursos Limitados: En entornos con recursos computacionales restringidos, los métodos existentes son difíciles de implementar

Limitaciones de Métodos Existentes

Suposición de Consulta Completa: Los métodos existentes asumen que se pueden obtener sin costo las predicciones y la información de costos de todos los expertos
Desconexión entre Teoría y Práctica: El análisis teórico ignora los costos de consulta en la fase de entrenamiento
Pobre Escalabilidad: No pueden manejar efectivamente conjuntos de expertos a gran escala

Contribuciones Principales

Propuesta del Marco de Aplazamiento Presupuestado: Primer estudio sistemático del control de costos de consultas a expertos durante el entrenamiento
Diseño de Algoritmos de Dos Etapas:
- Algoritmo de aplazamiento presupuestado de dos etapas (Secciones 3-5)
- Algoritmo de aplazamiento presupuestado de una etapa (Apéndice E)
Garantías Teóricas:
- Límites de Generalización: Garantías de rendimiento comparables a métodos estándar
- Complejidad de Etiquetas: Reducción de O(T) a Õ(√T) en casos realizables, alcanzando O(log T) adicionales
Verificación Experimental: Logra tasas de consulta a expertos por debajo del 40% en múltiples conjuntos de datos mientras mantiene la precisión de predicción

Explicación Detallada del Método

Definición de la Tarea

Configuración de Dos Etapas:

Espacio de Entrada: X, Espacio de Etiquetas: Y = n
Conjunto de Expertos: {g₁, ..., gₙₑ}, donde cada experto gⱼ: X × Y → ℝ
Función de Enrutamiento: r ∈ R, selecciona experto r(x) = argmax_k r(x,k)
Función de Costo: cₖ(x,y), típicamente pérdida 0-1

Objetivo: Minimizar la pérdida de aplazamiento de dos etapas

L_def(r,x,y,c) = Σₖ cₖ(x,y)𝟙_{r(x)=k}

Arquitectura del Algoritmo Principal

Algoritmo 1: Algoritmo de Aplazamiento Presupuestado de Dos Etapas

Innovación Clave: Descomposición de decisiones en dos partes

Selección de Experto: Selecciona experto k con probabilidad qₜ,ₖ
Decisión de Consulta: Consulta el costo del experto seleccionado con probabilidad pₜ,ₖ

Flujo del Algoritmo:

para t = 1 hasta T:
    Recibir (xₜ, yₜ)
    Calcular vector de probabilidad de consulta pₜ ← SAMPLING-PROBS(...)
    Seleccionar experto kₜ ~ q_t
    Consultar costo cₜ,ₖₜ con probabilidad pₜ,ₖₜ
    Actualizar conjunto de entrenamiento Sₜ (con pesos de importancia 1/(qₜ,ₖₜpₜ,ₖₜ))
    Actualizar función de enrutamiento rₜ

Algoritmo 2: Subprograma SAMPLING-PROBS

Mantenimiento del Espacio de Versiones:

Rₜ₊₁ = {r ∈ Rₜ : Eₜ(r) ≤ E*ₜ + Δₜ}

Cálculo de Probabilidad de Consulta:

pₜ,ₖ = max_{r,r'∈Rₜ} {ℓ(r,xₜ,k) - ℓ(r',xₜ,k)}

Filosofía de Diseño: Prioriza la consulta de pares experto-instancia con máxima discrepancia en el espacio de versiones actual

Puntos de Innovación Técnica

Estrategia de Consulta Adaptativa: Ajusta dinámicamente las probabilidades de consulta basadas en la discrepancia de hipótesis
Estimación Ponderada por Importancia: Garantiza estimación insesgada mediante peso 1/(qₜ,ₖpₜ,ₖ)
Poda del Espacio de Versiones: Elimina progresivamente hipótesis subóptimas, enfocándose en regiones de alta incertidumbre
Extensión de Herramientas Teóricas:
- Asimetría de Pendiente (Slope Asymmetry)
- Métrica de Distancia de Hipótesis
- Coeficiente de Discrepancia Generalizado

Análisis Teórico

Garantías de Generalización

Teorema 1 (Límite de Generalización de Dos Etapas): Con probabilidad al menos 1-δ, la hipótesis aprendida rₜ satisface:

E(rₜ) - E(r*) ≤ 2Δₜ₋₁

donde Δₜ = √(q²·8/t·log(2t(t+1)|R|²/δ)), q = 1/q_min + 1

Complejidad de Etiquetas

Teorema 6 (Límite de Complejidad de Etiquetas): El límite superior del número esperado de consultas es:

4θ·Kℓ·(E*ₜ + O((1/q_min + 1)√T log(|R|T/δ)))

Mejoras Clave:

Caso realizable: Reducción de O(neT) a Õ(√T)
Utilizando la desigualdad de Freedman se puede alcanzar O(log T)

Configuración Experimental

Conjuntos de Datos

Se utilizan 10 conjuntos de datos de referencia:

Clasificación Binaria: cod-rna, covtype, HIGGS, phishing, shuttle, skin
Clasificación Multiclase: connect, dna, letter, pendigits

Configuración de Expertos

Número de Expertos: Igual al número de clases n
Definición de Experto: El experto gₖ es completamente correcto en la clase k, predice aleatoriamente en otras clases
Función de Costo: Pérdida 0-1 cₖ(x,y) = 𝟙_{gₖ(x)≠y}

Métricas de Evaluación

Precisión del Sistema: Valor promedio de 1 - L_def(h,x,y) en el conjunto de prueba
Eficiencia de Consulta: Número acumulado de consultas a expertos vs. número de consultas disponibles

Detalles de Implementación

Clase de Hipótesis: Modelo de regresión logística (regularización L2)
Función de Pérdida: Pérdida logística multinomial
Repeticiones de Experimentos: 5 divisiones aleatorias para cada conjunto de datos

Resultados Experimentales

Resultados Principales

Eficiencia de Consulta:

Conjuntos de Datos Binarios: Tasa de consulta reducida al 35-40%
Conjuntos de Datos Multiclase: Tasa de consulta reducida a menos del 30%
Efecto del Número de Expertos: Cuanto más expertos, mayor la mejora de eficiencia (mejor rendimiento en el conjunto de datos letter con 26 expertos)

Mantenimiento de Precisión:

Precisión del sistema comparable a métodos estándar en todos los conjuntos de datos
Barras de error extremadamente pequeñas en conjuntos de datos binarios, indicando resultados estables
Cierta fluctuación en conjuntos de datos multiclase, pero tendencia general consistente

Hallazgos Clave

Verificación de Escalabilidad: Las ventajas del método presupuestado se hacen más evidentes a medida que aumenta el número de expertos
Análisis de Estabilidad: El "temblor" en el proceso de aprendizaje en línea es una manifestación normal de la aleatoriedad del algoritmo
Verificación Teórica: Los resultados experimentales respaldan que los componentes clave en el análisis teórico (θ, Kℓ, E*) tienen impacto limitado

Trabajo Relacionado

Campo de Aprendizaje de Aplazamiento

Métodos de Una Etapa: Mozannar & Sontag (2020), Verma & Nalisnick (2022)
Métodos de Múltiples Etapas: Mao et al. (2023a), investigación de garantías de consistencia
Desarrollo Teórico: Límites de H-consistencia, investigación de consistencia Bayesiana

Aprendizaje Activo

Algoritmo IWAL: Aprendizaje activo ponderado por importancia de Beygelzimer et al. (2009)
Aprendizaje Activo Regional: Cortes et al. (2019a,b, 2020)

Aprendizaje con Restricciones Presupuestarias

Reid et al. (2024): Enfoque de bandido contextual para caso de un único experto
Limitaciones: Difícil de extender a múltiples expertos, suposiciones demasiado estrictas

Conclusiones y Discusión

Conclusiones Principales

Prueba de Viabilidad: Es posible mantener el rendimiento de algoritmos de aplazamiento mientras se reduce significativamente el costo de entrenamiento
Avance Teórico: Primera garantía teórica rigurosa para el problema de aplazamiento presupuestado
Valor Práctico: Hace que las estrategias de aplazamiento sean más viables en entornos con recursos limitados

Limitaciones

Configuración de Expertos: La configuración de expertos en experimentos es relativamente simplificada; en aplicaciones reales los expertos pueden ser más complejos
Función de Costo: Principalmente considera pérdida 0-1; otras estructuras de costo requieren verificación adicional
Limitación de Clase de Hipótesis: El análisis teórico se basa en clases de hipótesis finitas; clases infinitas requieren análisis de números de cobertura

Direcciones Futuras

Estrategias de Consulta Adaptativa: Aprovecha la información estructural entre muestras de entrenamiento
Disponibilidad Dinámica de Expertos: Maneja escenarios donde los expertos cambian dinámicamente
Integración de Aprendizaje Reforzado: Para escenarios de decisión secuencial o interactiva

Evaluación Profunda

Fortalezas

Importancia del Problema: Resuelve un problema práctico fundamental en el aprendizaje de aplazamiento
Rigor Teórico: Proporciona un marco de análisis teórico completo, incluyendo límites de generalización y complejidad de etiquetas
Innovación Algorítmica: Adapta ingeniosamente ideas del aprendizaje activo al escenario de aplazamiento
Suficiencia Experimental: Verifica la efectividad del método en múltiples conjuntos de datos

Insuficiencias

Limitaciones de Configuración Experimental: La configuración de expertos es relativamente artificial y puede diferir de escenarios de aplicación real
Líneas Base de Comparación Únicas: Principalmente compara con métodos estándar de aplazamiento, carece de comparación con otros métodos de restricción presupuestaria
Análisis Insuficiente de Complejidad Computacional: No analiza detalladamente la sobrecarga computacional del algoritmo

Impacto

Contribución Académica: Abre una nueva dirección de investigación en el campo del aprendizaje de aplazamiento
Valor Práctico: Tiene importancia significativa para aplicaciones prácticas que involucran expertos costosos
Valor Teórico: Extiende la teoría del aprendizaje activo a nuevos escenarios de aplicación

Escenarios Aplicables

Aplazamiento de Modelos de Lenguaje Grande: Toma decisiones de aplazamiento sensibles al costo entre LLMs de diferentes escalas
Sistemas de Diagnóstico Médico: Asigna tareas de diagnóstico entre diferentes especialistas médicos
Redes de Sensores: Toma decisiones de recopilación de datos entre sensores con diferentes capacidades

Referencias

Este artículo cita literatura importante de los campos de aprendizaje de aplazamiento, aprendizaje activo y bandidos multiarmados, en particular:

Mao et al. (2023a, 2024a): Fundamentos teóricos del aplazamiento con múltiples expertos
Beygelzimer et al. (2009): Ideas de ponderación por importancia del algoritmo IWAL
Reid et al. (2024): Trabajo pionero en aplazamiento con restricción presupuestaria

Evaluación General: Este es un artículo de alta calidad en teoría del aprendizaje automático que resuelve un problema práctico importante en el aprendizaje de aplazamiento, proporcionando análisis teórico riguroso y verificación experimental convincente. La contribución principal del artículo radica en el primer estudio sistemático del control de costos de consultas a expertos durante la fase de entrenamiento, sentando una base importante para aplicaciones prácticas en este campo.