2025-11-11T14:19:08.761279

Budgeted Multiple-Expert Deferral

DeSalvo, Mohri, Mohri et al.
Learning to defer uncertain predictions to costly experts offers a powerful strategy for improving the accuracy and efficiency of machine learning systems. However, standard training procedures for deferral algorithms typically require querying all experts for every training instance, an approach that becomes prohibitively expensive when expert queries incur significant computational or resource costs. This undermines the core goal of deferral: to limit unnecessary expert usage. To overcome this challenge, we introduce the budgeted deferral framework, which aims to train effective deferral algorithms while minimizing expert query costs during training. We propose new algorithms for both two-stage and single-stage multiple-expert deferral settings that selectively query only a subset of experts per training example. While inspired by active learning, our setting is fundamentally different: labels are already known, and the core challenge is to decide which experts to query in order to balance cost and predictive performance. We establish theoretical guarantees for both of our algorithms, including generalization bounds and label complexity analyses. Empirical results across several domains show that our algorithms substantially reduce training costs without sacrificing prediction accuracy, demonstrating the practical value of our budget-aware deferral algorithms.
academic

Aplazamiento de Múltiples Expertos Presupuestado

Información Básica

  • ID del Artículo: 2510.26706
  • Título: Budgeted Multiple-Expert Deferral
  • Autores: Giulia DeSalvo (Google DeepMind), Clara Mohri (Harvard University), Mehryar Mohri (Google Research & Courant Institute), Yutao Zhong (Google Research)
  • Clasificación: cs.LG, stat.ML
  • Fecha de Publicación: 30 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.26706

Resumen

Aprender a aplazar predicciones inciertas a expertos costosos es una estrategia poderosa para mejorar la precisión y eficiencia de los sistemas de aprendizaje automático. Sin embargo, los procedimientos estándar de entrenamiento de algoritmos de aplazamiento típicamente requieren consultar a todos los expertos para cada instancia de entrenamiento, lo que se vuelve extremadamente costoso cuando las consultas a expertos generan costos computacionales o de recursos significativos, contradiciendo el objetivo central del aplazamiento: limitar el uso innecesario de expertos. Para superar este desafío, este artículo introduce el marco de aplazamiento presupuestado, diseñado para entrenar algoritmos de aplazamiento efectivos mientras se minimiza el costo de consultas a expertos durante el entrenamiento.

Contexto de Investigación y Motivación

Definición del Problema

El aprendizaje tradicional de aplazamiento con múltiples expertos (Learning to Defer) enfrenta una contradicción fundamental:

  1. Objetivo Central: Reducir costos aplazando selectivamente tareas de predicción a expertos
  2. Realidad del Entrenamiento: Los procedimientos estándar de entrenamiento requieren consultar a todos los expertos para cada muestra de entrenamiento, con costo total neT (número de expertos × número de muestras de entrenamiento)
  3. Paradoja de Costos: El proceso de entrenamiento en sí mismo viola la intención del control de costos

Importancia de la Investigación

  • Necesidades de Aplicaciones Prácticas: En escenarios que involucran modelos de lenguaje grande, expertos humanos y otros recursos costosos, el costo de entrenamiento puede ser extremadamente alto
  • Problemas de Escalabilidad: A medida que aumenta el número de expertos, el costo de entrenamiento crece linealmente, limitando la practicidad del método
  • Entornos con Recursos Limitados: En entornos con recursos computacionales restringidos, los métodos existentes son difíciles de implementar

Limitaciones de Métodos Existentes

  1. Suposición de Consulta Completa: Los métodos existentes asumen que se pueden obtener sin costo las predicciones y la información de costos de todos los expertos
  2. Desconexión entre Teoría y Práctica: El análisis teórico ignora los costos de consulta en la fase de entrenamiento
  3. Pobre Escalabilidad: No pueden manejar efectivamente conjuntos de expertos a gran escala

Contribuciones Principales

  1. Propuesta del Marco de Aplazamiento Presupuestado: Primer estudio sistemático del control de costos de consultas a expertos durante el entrenamiento
  2. Diseño de Algoritmos de Dos Etapas:
    • Algoritmo de aplazamiento presupuestado de dos etapas (Secciones 3-5)
    • Algoritmo de aplazamiento presupuestado de una etapa (Apéndice E)
  3. Garantías Teóricas:
    • Límites de Generalización: Garantías de rendimiento comparables a métodos estándar
    • Complejidad de Etiquetas: Reducción de O(T) a Õ(√T) en casos realizables, alcanzando O(log T) adicionales
  4. Verificación Experimental: Logra tasas de consulta a expertos por debajo del 40% en múltiples conjuntos de datos mientras mantiene la precisión de predicción

Explicación Detallada del Método

Definición de la Tarea

Configuración de Dos Etapas:

  • Espacio de Entrada: X, Espacio de Etiquetas: Y = n
  • Conjunto de Expertos: {g₁, ..., gₙₑ}, donde cada experto gⱼ: X × Y → ℝ
  • Función de Enrutamiento: r ∈ R, selecciona experto r(x) = argmax_k r(x,k)
  • Función de Costo: cₖ(x,y), típicamente pérdida 0-1

Objetivo: Minimizar la pérdida de aplazamiento de dos etapas

L_def(r,x,y,c) = Σₖ cₖ(x,y)𝟙_{r(x)=k}

Arquitectura del Algoritmo Principal

Algoritmo 1: Algoritmo de Aplazamiento Presupuestado de Dos Etapas

Innovación Clave: Descomposición de decisiones en dos partes

  1. Selección de Experto: Selecciona experto k con probabilidad qₜ,ₖ
  2. Decisión de Consulta: Consulta el costo del experto seleccionado con probabilidad pₜ,ₖ

Flujo del Algoritmo:

para t = 1 hasta T:
    Recibir (xₜ, yₜ)
    Calcular vector de probabilidad de consulta pₜ ← SAMPLING-PROBS(...)
    Seleccionar experto kₜ ~ q_t
    Consultar costo cₜ,ₖₜ con probabilidad pₜ,ₖₜ
    Actualizar conjunto de entrenamiento Sₜ (con pesos de importancia 1/(qₜ,ₖₜpₜ,ₖₜ))
    Actualizar función de enrutamiento rₜ

Algoritmo 2: Subprograma SAMPLING-PROBS

Mantenimiento del Espacio de Versiones:

Rₜ₊₁ = {r ∈ Rₜ : Eₜ(r) ≤ E*ₜ + Δₜ}

Cálculo de Probabilidad de Consulta:

pₜ,ₖ = max_{r,r'∈Rₜ} {ℓ(r,xₜ,k) - ℓ(r',xₜ,k)}

Filosofía de Diseño: Prioriza la consulta de pares experto-instancia con máxima discrepancia en el espacio de versiones actual

Puntos de Innovación Técnica

  1. Estrategia de Consulta Adaptativa: Ajusta dinámicamente las probabilidades de consulta basadas en la discrepancia de hipótesis
  2. Estimación Ponderada por Importancia: Garantiza estimación insesgada mediante peso 1/(qₜ,ₖpₜ,ₖ)
  3. Poda del Espacio de Versiones: Elimina progresivamente hipótesis subóptimas, enfocándose en regiones de alta incertidumbre
  4. Extensión de Herramientas Teóricas:
    • Asimetría de Pendiente (Slope Asymmetry)
    • Métrica de Distancia de Hipótesis
    • Coeficiente de Discrepancia Generalizado

Análisis Teórico

Garantías de Generalización

Teorema 1 (Límite de Generalización de Dos Etapas): Con probabilidad al menos 1-δ, la hipótesis aprendida rₜ satisface:

E(rₜ) - E(r*) ≤ 2Δₜ₋₁

donde Δₜ = √(q²·8/t·log(2t(t+1)|R|²/δ)), q = 1/q_min + 1

Complejidad de Etiquetas

Teorema 6 (Límite de Complejidad de Etiquetas): El límite superior del número esperado de consultas es:

4θ·Kℓ·(E*ₜ + O((1/q_min + 1)√T log(|R|T/δ)))

Mejoras Clave:

  • Caso realizable: Reducción de O(neT) a Õ(√T)
  • Utilizando la desigualdad de Freedman se puede alcanzar O(log T)

Configuración Experimental

Conjuntos de Datos

Se utilizan 10 conjuntos de datos de referencia:

  • Clasificación Binaria: cod-rna, covtype, HIGGS, phishing, shuttle, skin
  • Clasificación Multiclase: connect, dna, letter, pendigits

Configuración de Expertos

  • Número de Expertos: Igual al número de clases n
  • Definición de Experto: El experto gₖ es completamente correcto en la clase k, predice aleatoriamente en otras clases
  • Función de Costo: Pérdida 0-1 cₖ(x,y) = 𝟙_{gₖ(x)≠y}

Métricas de Evaluación

  • Precisión del Sistema: Valor promedio de 1 - L_def(h,x,y) en el conjunto de prueba
  • Eficiencia de Consulta: Número acumulado de consultas a expertos vs. número de consultas disponibles

Detalles de Implementación

  • Clase de Hipótesis: Modelo de regresión logística (regularización L2)
  • Función de Pérdida: Pérdida logística multinomial
  • Repeticiones de Experimentos: 5 divisiones aleatorias para cada conjunto de datos

Resultados Experimentales

Resultados Principales

Eficiencia de Consulta:

  • Conjuntos de Datos Binarios: Tasa de consulta reducida al 35-40%
  • Conjuntos de Datos Multiclase: Tasa de consulta reducida a menos del 30%
  • Efecto del Número de Expertos: Cuanto más expertos, mayor la mejora de eficiencia (mejor rendimiento en el conjunto de datos letter con 26 expertos)

Mantenimiento de Precisión:

  • Precisión del sistema comparable a métodos estándar en todos los conjuntos de datos
  • Barras de error extremadamente pequeñas en conjuntos de datos binarios, indicando resultados estables
  • Cierta fluctuación en conjuntos de datos multiclase, pero tendencia general consistente

Hallazgos Clave

  1. Verificación de Escalabilidad: Las ventajas del método presupuestado se hacen más evidentes a medida que aumenta el número de expertos
  2. Análisis de Estabilidad: El "temblor" en el proceso de aprendizaje en línea es una manifestación normal de la aleatoriedad del algoritmo
  3. Verificación Teórica: Los resultados experimentales respaldan que los componentes clave en el análisis teórico (θ, Kℓ, E*) tienen impacto limitado

Trabajo Relacionado

Campo de Aprendizaje de Aplazamiento

  • Métodos de Una Etapa: Mozannar & Sontag (2020), Verma & Nalisnick (2022)
  • Métodos de Múltiples Etapas: Mao et al. (2023a), investigación de garantías de consistencia
  • Desarrollo Teórico: Límites de H-consistencia, investigación de consistencia Bayesiana

Aprendizaje Activo

  • Algoritmo IWAL: Aprendizaje activo ponderado por importancia de Beygelzimer et al. (2009)
  • Aprendizaje Activo Regional: Cortes et al. (2019a,b, 2020)

Aprendizaje con Restricciones Presupuestarias

  • Reid et al. (2024): Enfoque de bandido contextual para caso de un único experto
  • Limitaciones: Difícil de extender a múltiples expertos, suposiciones demasiado estrictas

Conclusiones y Discusión

Conclusiones Principales

  1. Prueba de Viabilidad: Es posible mantener el rendimiento de algoritmos de aplazamiento mientras se reduce significativamente el costo de entrenamiento
  2. Avance Teórico: Primera garantía teórica rigurosa para el problema de aplazamiento presupuestado
  3. Valor Práctico: Hace que las estrategias de aplazamiento sean más viables en entornos con recursos limitados

Limitaciones

  1. Configuración de Expertos: La configuración de expertos en experimentos es relativamente simplificada; en aplicaciones reales los expertos pueden ser más complejos
  2. Función de Costo: Principalmente considera pérdida 0-1; otras estructuras de costo requieren verificación adicional
  3. Limitación de Clase de Hipótesis: El análisis teórico se basa en clases de hipótesis finitas; clases infinitas requieren análisis de números de cobertura

Direcciones Futuras

  1. Estrategias de Consulta Adaptativa: Aprovecha la información estructural entre muestras de entrenamiento
  2. Disponibilidad Dinámica de Expertos: Maneja escenarios donde los expertos cambian dinámicamente
  3. Integración de Aprendizaje Reforzado: Para escenarios de decisión secuencial o interactiva

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Resuelve un problema práctico fundamental en el aprendizaje de aplazamiento
  2. Rigor Teórico: Proporciona un marco de análisis teórico completo, incluyendo límites de generalización y complejidad de etiquetas
  3. Innovación Algorítmica: Adapta ingeniosamente ideas del aprendizaje activo al escenario de aplazamiento
  4. Suficiencia Experimental: Verifica la efectividad del método en múltiples conjuntos de datos

Insuficiencias

  1. Limitaciones de Configuración Experimental: La configuración de expertos es relativamente artificial y puede diferir de escenarios de aplicación real
  2. Líneas Base de Comparación Únicas: Principalmente compara con métodos estándar de aplazamiento, carece de comparación con otros métodos de restricción presupuestaria
  3. Análisis Insuficiente de Complejidad Computacional: No analiza detalladamente la sobrecarga computacional del algoritmo

Impacto

  1. Contribución Académica: Abre una nueva dirección de investigación en el campo del aprendizaje de aplazamiento
  2. Valor Práctico: Tiene importancia significativa para aplicaciones prácticas que involucran expertos costosos
  3. Valor Teórico: Extiende la teoría del aprendizaje activo a nuevos escenarios de aplicación

Escenarios Aplicables

  1. Aplazamiento de Modelos de Lenguaje Grande: Toma decisiones de aplazamiento sensibles al costo entre LLMs de diferentes escalas
  2. Sistemas de Diagnóstico Médico: Asigna tareas de diagnóstico entre diferentes especialistas médicos
  3. Redes de Sensores: Toma decisiones de recopilación de datos entre sensores con diferentes capacidades

Referencias

Este artículo cita literatura importante de los campos de aprendizaje de aplazamiento, aprendizaje activo y bandidos multiarmados, en particular:

  • Mao et al. (2023a, 2024a): Fundamentos teóricos del aplazamiento con múltiples expertos
  • Beygelzimer et al. (2009): Ideas de ponderación por importancia del algoritmo IWAL
  • Reid et al. (2024): Trabajo pionero en aplazamiento con restricción presupuestaria

Evaluación General: Este es un artículo de alta calidad en teoría del aprendizaje automático que resuelve un problema práctico importante en el aprendizaje de aplazamiento, proporcionando análisis teórico riguroso y verificación experimental convincente. La contribución principal del artículo radica en el primer estudio sistemático del control de costos de consultas a expertos durante la fase de entrenamiento, sentando una base importante para aplicaciones prácticas en este campo.