2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim
Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic

ADVICE: Estimación de Confianza Verbalizada Dependiente de la Respuesta

Información Básica

  • ID del Artículo: 2510.10913
  • Título: ADVICE: Answer-Dependent Verbalized Confidence Estimation
  • Autores: Ki Jung Seo, Sehun Lim, Taeuk Kim (Universidad de Hanyang)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10913

Resumen

Los modelos de lenguaje grandes (LLMs) han logrado avances significativos en la expresión de confianza mediante lenguaje natural, mejorando la transparencia y confiabilidad. Sin embargo, sus estimaciones de confianza frecuentemente exhiben problemas de exceso de confianza, cuyas causas fundamentales aún no se comprenden completamente. Este estudio realiza un análisis detallado de la dinámica intrínseca de la confianza verbalizada, identificando la "independencia de la respuesta" como un factor clave, es decir, la incapacidad del modelo para modular la confianza basándose en sus propias respuestas. Para abordar este problema, los autores proponen ADVICE (Estimación de Confianza Verbalizada Dependiente de la Respuesta), un marco de ajuste fino que promueve la estimación de confianza basada en respuestas. Experimentos extensos demuestran que ADVICE mejora significativamente la calibración de confianza mientras mantiene el rendimiento de la tarea. El análisis adicional confirma que ADVICE mejora la dependencia de la respuesta, produciendo distribuciones de confianza más equilibradas y bien calibradas.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los modelos de lenguaje grandes presentan un grave problema de exceso de confianza al generar confianza verbalizada, tendiendo a expresar alta confianza independientemente de si la respuesta es correcta o incorrecta
  2. Importancia: Al desplegar LLMs en dominios de alto riesgo como derecho y medicina, las estimaciones de confianza confiables son críticas para gestionar las limitaciones inherentes del modelo
  3. Limitaciones de Métodos Existentes:
    • La investigación existente se enfoca principalmente en "cómo" mitigar el exceso de confianza, no en "por qué" ocurre
    • Falta comprensión profunda de los mecanismos internos de la confianza verbalizada
    • Aunque los métodos de indicaciones, muestreo y ajuste fino muestran mejoras, las causas fundamentales permanecen sin aclarar

Motivación de la Investigación

Los autores se inspiran en teorías de estimación de confianza de la neurociencia, enmarcando la estimación de confianza como un proceso de acumulación de evidencia posterior a la decisión, descubriendo que los LLMs frecuentemente ignoran la información de respuesta que generan al estimar confianza, lo cual contradice la definición de confianza.

Contribuciones Principales

  1. Hallazgo Teórico: Primera identificación y análisis sistemático de la "independencia de la respuesta" como causa fundamental del exceso de confianza en LLMs
  2. Método de Análisis: Propone un método de doble verificación basado en comparación de distribuciones de probabilidad y análisis de atribución para cuantificar la dependencia de la respuesta
  3. Solución Propuesta: Diseña el marco de ajuste fino ADVICE que explícitamente alienta al modelo a enfocarse en sus respuestas generadas al reportar confianza
  4. Verificación Empírica: Valida la efectividad del método en múltiples conjuntos de datos y modelos, demostrando la importancia de la información de respuesta en la estimación de confianza
  5. Capacidad de Generalización: Demuestra una fuerte capacidad de generalización del método en tareas fuera de distribución y características de distribución de confianza equilibrada

Explicación Detallada del Método

Definición de la Tarea

Dada una pregunta q y su respuesta correspondiente a, la confianza verbalizada debe aproximar la probabilidad de que la respuesta sea correcta P(correcto|q,a). La estimación ideal de confianza debe:

  • Expresar alta confianza cuando la respuesta es correcta
  • Expresar baja confianza cuando la respuesta es incorrecta
  • Ajustar el nivel de confianza según el contenido de la respuesta

Análisis de Independencia de la Respuesta

1. Método de Comparación de Distribuciones de Probabilidad

Verifica la independencia de la respuesta comparando las siguientes dos distribuciones:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

Donde el lado derecho se expande mediante la fórmula de probabilidad total como:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Utiliza la divergencia Jensen-Shannon (JSD) para cuantificar la diferencia entre las dos distribuciones; valores de JSD cercanos a 0 indican que el modelo es insensible a la información de respuesta.

2. Método de Análisis de Atribución

  • Despliegue de Atención (Attention Rollout): Analiza los pesos de atención de la generación de confianza en los tokens de respuesta
  • Gradientes Integrados (Integrated Gradients): Calcula la contribución de los tokens de respuesta a la predicción de confianza

Diseño del Marco ADVICE

Construcción de Datos de Entrenamiento

  1. Muestreo de 2000 instancias de TriviaQA
  2. Para cada pregunta q, construir tripletas (q, a_correcta, a_incorrecta)
  3. Construir tres variantes de formato verbalizado para mejorar la generalización

Objetivo de Entrenamiento

Define tres funciones de pérdida:

  1. Pérdida de Modelado de Lenguaje:
L_LM = (1/|a_correcta|) Σ_{x_t∈a_correcta} -log P(x_t | x_<t)

Mantiene la capacidad original de QA del modelo

  1. Pérdida de Distribución Contrastiva:
L_JSD = max(0, δ_JSD - D_JSD(P_correcta || P_incorrecta))

Impulsa al modelo a aprender a distinguir distribuciones de confianza entre respuestas correctas e incorrectas

  1. Pérdida de Margen:
L_Margen = max(0, δ_Margen - (μ_correcta - μ_incorrecta))

Asegura que las respuestas correctas obtengan mayor confianza esperada

Función de pérdida total:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margen L_Margen

Puntos de Innovación Técnica

  1. Análisis de Causa Raíz: Primera perspectiva de análisis del problema de exceso de confianza desde el ángulo de dependencia de respuesta
  2. Doble Verificación: Combina análisis de probabilidad y métodos de atribución de redes neuronales para verificar hipótesis
  3. Aprendizaje Contrastivo: Utiliza pares de respuestas correctas/incorrectas para entrenamiento contrastivo
  4. Optimización Multiobjetivo: Equilibra el mantenimiento del rendimiento de la tarea con la mejora de calibración de confianza

Configuración Experimental

Conjuntos de Datos

  • Entrenamiento: TriviaQA (2000 instancias)
  • Evaluación: TriviaQA, MMLU, SciQ, LogiQA (prueba de generalización entre dominios)

Modelos

  • LLAMA-3.1-8B-INSTRUCT
  • MISTRAL-7B-INSTRUCT-V0.3
  • GEMMA-2-9B-IT

Tipos de Expresión de Confianza

  • ScoreText: {bajo, medio, alto}
  • ScoreLetter: {E, D, C, B, A}
  • ScoreNumber: {0, 1, ..., 9}
  • ScoreFloat: 0.0, 1.0
  • ScorePercent: {0%, 1%, ..., 100%}

Métricas de Evaluación

  • ECE (Error de Calibración Esperado): Diferencia absoluta promedio entre confianza predicha y precisión real
  • NCE (Error de Calibración Neto): Error de calibración con signo, refleja sesgo
  • BS (Puntuación de Brier): Error cuadrático medio de predicción probabilística
  • AUROC: Capacidad de ordenamiento de confianza

Métodos de Comparación

  • Default: Método de indicación base
  • Self-Consistency: Método basado en muestreo
  • ConfTuner: Método de ajuste fino de última generación

Resultados Experimentales

Resultados Principales

Comparación de rendimiento en TriviaQA (GEMMA-2-9B-IT):

  • ECE: Default (21.9%) → ADVICE (6.5%)
  • NCE: Default (-21.8%) → ADVICE (1.6%)
  • AUROC: Default (52.7%) → ADVICE (78.5%)

Los resultados de generalización entre dominios muestran que ADVICE logra mejoras significativas en MMLU, SciQ y LogiQA, demostrando la robustez del método.

Experimentos de Ablación

Análisis de contribución de funciones de pérdida:

  • L_JSD utilizado solo: ECE disminuye de 19.7% a 4.9%
  • L_Margen utilizado solo: ECE disminuye de 19.7% a 3.9%
  • ADVICE completo: Mejor capacidad de generalización entre conjuntos de datos

Hallazgos Clave

  1. Verificación de Independencia de Respuesta: La distribución JSD exhibe un patrón de ley de potencia, con la mayoría de valores cercanos a 0, confirmando la hipótesis de independencia de respuesta
  2. Patrones de Atención: Los pesos de atención de confianza→respuesta son significativamente más bajos que en otras direcciones
  3. Mejora de Calibración: Los gráficos de confiabilidad muestran que ADVICE produce distribuciones de confianza más granulares y precisas
  4. Mejora de Conciencia de Respuesta: Los experimentos de enmascaramiento muestran que ADVICE expresa incertidumbre apropiadamente cuando falta la respuesta

Análisis de Hiperparámetros

El aumento de δ_JSD reduce continuamente ECE, validando la efectividad del objetivo de aprendizaje contrastivo.

Trabajo Relacionado

Investigación de Confianza Verbalizada

  • Lin et al. (2022) introdujo por primera vez la estimación de confianza verbalizada
  • La investigación posterior se divide principalmente en tres categorías: métodos de indicación, métodos de muestreo y métodos de ajuste fino
  • Este estudio llena el vacío en análisis de mecanismos

Métodos de Sondeo de LLM

  • Análisis de mecanismos de atención: Attention Rollout, Attention Flow, etc.
  • Métodos de atribución de gradientes: Integrated Gradients, etc.
  • Este estudio aplica innovadoramente estos métodos al análisis de confianza

Conclusiones y Discusión

Conclusiones Principales

  1. El exceso de confianza en LLMs proviene principalmente del problema de independencia de respuesta
  2. ADVICE mejora efectivamente la calibración de confianza al mejorar la dependencia de respuesta
  3. El método posee buena capacidad de generalización y valor práctico

Limitaciones

  1. Se enfoca principalmente en tareas de QA de texto corto; la aplicabilidad a tareas de comprensión de texto largo requiere verificación adicional
  2. Requiere costo adicional de construcción de datos para generar pares de respuestas contrastivas
  3. La efectividad en tareas de razonamiento complejo requiere exploración adicional

Direcciones Futuras

  1. Extensión a tareas que requieren comprensión de contexto largo y razonamiento complejo
  2. Exploración de métodos más eficientes de construcción de datos de entrenamiento
  3. Investigación de aplicaciones en otras modalidades (como modelos visión-lenguaje)

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Destacada: Primera identificación y análisis sistemático de la causa fundamental del exceso de confianza, proporcionando perspectivas teóricas importantes
  2. Metodología Rigurosa: Adopta verificación multiangular (análisis probabilístico + análisis de atribución), con alta credibilidad de conclusiones
  3. Diseño Experimental Completo: Evaluación integral entre modelos y conjuntos de datos, con experimentos de ablación suficientes
  4. Valor Práctico Significativo: Mejora significativamente la calibración de confianza mientras mantiene el rendimiento de la tarea
  5. Capacidad de Generalización Fuerte: Buen desempeño en datos fuera de distribución, demostrando robustez del método

Insuficiencias

  1. Rango de Tareas Limitado: Validación principalmente en tareas de QA; la aplicabilidad a otras tareas de PNL no se explora suficientemente
  2. Costo Computacional: Requiere proceso de ajuste fino adicional y construcción de datos contrastivos
  3. Profundidad de Análisis Teórico: Aunque identifica el problema de independencia de respuesta, el análisis de causas profundas subyacentes es insuficiente
  4. Efectos a Largo Plazo: No se evalúa la estabilidad del modelo ajustado en uso prolongado

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas de investigación y marco de análisis para el campo de estimación de confianza
  2. Significado Práctico: Tiene valor importante para mejorar la confiabilidad de LLMs en aplicaciones de alto riesgo
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción y extensión

Escenarios Aplicables

  • Sistemas de preguntas y respuestas que requieren estimación de confianza confiable
  • Sistemas de apoyo a decisiones de alto riesgo
  • Escenarios de colaboración humano-máquina con expresión de incertidumbre
  • Aplicaciones de calibración de modelos e IA confiable

Referencias

El artículo cita 68 referencias relacionadas, cubriendo múltiples campos incluyendo confianza verbalizada, métodos de sondeo de LLM y teoría de calibración, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes tanto en análisis teórico como en métodos prácticos. Los autores no solo identifican la causa fundamental del exceso de confianza en LLMs, sino que también proponen una solución efectiva. El método es simple pero efectivo, el diseño experimental es riguroso y los resultados son convincentes. Tiene importancia significativa para avanzar en IA confiable y mejorar la confiabilidad de LLMs en aplicaciones prácticas.