2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim

Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.

academic

ADVICE: Estimación de Confianza Verbalizada Dependiente de la Respuesta

Información Básica

ID del Artículo: 2510.10913
Título: ADVICE: Answer-Dependent Verbalized Confidence Estimation
Autores: Ki Jung Seo, Sehun Lim, Taeuk Kim (Universidad de Hanyang)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10913

Resumen

Los modelos de lenguaje grandes (LLMs) han logrado avances significativos en la expresión de confianza mediante lenguaje natural, mejorando la transparencia y confiabilidad. Sin embargo, sus estimaciones de confianza frecuentemente exhiben problemas de exceso de confianza, cuyas causas fundamentales aún no se comprenden completamente. Este estudio realiza un análisis detallado de la dinámica intrínseca de la confianza verbalizada, identificando la "independencia de la respuesta" como un factor clave, es decir, la incapacidad del modelo para modular la confianza basándose en sus propias respuestas. Para abordar este problema, los autores proponen ADVICE (Estimación de Confianza Verbalizada Dependiente de la Respuesta), un marco de ajuste fino que promueve la estimación de confianza basada en respuestas. Experimentos extensos demuestran que ADVICE mejora significativamente la calibración de confianza mientras mantiene el rendimiento de la tarea. El análisis adicional confirma que ADVICE mejora la dependencia de la respuesta, produciendo distribuciones de confianza más equilibradas y bien calibradas.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Los modelos de lenguaje grandes presentan un grave problema de exceso de confianza al generar confianza verbalizada, tendiendo a expresar alta confianza independientemente de si la respuesta es correcta o incorrecta
Importancia: Al desplegar LLMs en dominios de alto riesgo como derecho y medicina, las estimaciones de confianza confiables son críticas para gestionar las limitaciones inherentes del modelo
Limitaciones de Métodos Existentes:
- La investigación existente se enfoca principalmente en "cómo" mitigar el exceso de confianza, no en "por qué" ocurre
- Falta comprensión profunda de los mecanismos internos de la confianza verbalizada
- Aunque los métodos de indicaciones, muestreo y ajuste fino muestran mejoras, las causas fundamentales permanecen sin aclarar

Motivación de la Investigación

Los autores se inspiran en teorías de estimación de confianza de la neurociencia, enmarcando la estimación de confianza como un proceso de acumulación de evidencia posterior a la decisión, descubriendo que los LLMs frecuentemente ignoran la información de respuesta que generan al estimar confianza, lo cual contradice la definición de confianza.

Contribuciones Principales

Hallazgo Teórico: Primera identificación y análisis sistemático de la "independencia de la respuesta" como causa fundamental del exceso de confianza en LLMs
Método de Análisis: Propone un método de doble verificación basado en comparación de distribuciones de probabilidad y análisis de atribución para cuantificar la dependencia de la respuesta
Solución Propuesta: Diseña el marco de ajuste fino ADVICE que explícitamente alienta al modelo a enfocarse en sus respuestas generadas al reportar confianza
Verificación Empírica: Valida la efectividad del método en múltiples conjuntos de datos y modelos, demostrando la importancia de la información de respuesta en la estimación de confianza
Capacidad de Generalización: Demuestra una fuerte capacidad de generalización del método en tareas fuera de distribución y características de distribución de confianza equilibrada

Explicación Detallada del Método

Definición de la Tarea

Dada una pregunta q y su respuesta correspondiente a, la confianza verbalizada debe aproximar la probabilidad de que la respuesta sea correcta P(correcto|q,a). La estimación ideal de confianza debe:

Expresar alta confianza cuando la respuesta es correcta
Expresar baja confianza cuando la respuesta es incorrecta
Ajustar el nivel de confianza según el contenido de la respuesta

Análisis de Independencia de la Respuesta

1. Método de Comparación de Distribuciones de Probabilidad

Verifica la independencia de la respuesta comparando las siguientes dos distribuciones:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

Donde el lado derecho se expande mediante la fórmula de probabilidad total como:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Utiliza la divergencia Jensen-Shannon (JSD) para cuantificar la diferencia entre las dos distribuciones; valores de JSD cercanos a 0 indican que el modelo es insensible a la información de respuesta.

2. Método de Análisis de Atribución

Despliegue de Atención (Attention Rollout): Analiza los pesos de atención de la generación de confianza en los tokens de respuesta
Gradientes Integrados (Integrated Gradients): Calcula la contribución de los tokens de respuesta a la predicción de confianza

Diseño del Marco ADVICE

Construcción de Datos de Entrenamiento

Muestreo de 2000 instancias de TriviaQA
Para cada pregunta q, construir tripletas (q, a_correcta, a_incorrecta)
Construir tres variantes de formato verbalizado para mejorar la generalización

Objetivo de Entrenamiento

Define tres funciones de pérdida:

Pérdida de Modelado de Lenguaje:

L_LM = (1/|a_correcta|) Σ_{x_t∈a_correcta} -log P(x_t | x_<t)

Mantiene la capacidad original de QA del modelo

Pérdida de Distribución Contrastiva:

L_JSD = max(0, δ_JSD - D_JSD(P_correcta || P_incorrecta))

Impulsa al modelo a aprender a distinguir distribuciones de confianza entre respuestas correctas e incorrectas

Pérdida de Margen:

L_Margen = max(0, δ_Margen - (μ_correcta - μ_incorrecta))

Asegura que las respuestas correctas obtengan mayor confianza esperada

Función de pérdida total:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margen L_Margen

Puntos de Innovación Técnica

Análisis de Causa Raíz: Primera perspectiva de análisis del problema de exceso de confianza desde el ángulo de dependencia de respuesta
Doble Verificación: Combina análisis de probabilidad y métodos de atribución de redes neuronales para verificar hipótesis
Aprendizaje Contrastivo: Utiliza pares de respuestas correctas/incorrectas para entrenamiento contrastivo
Optimización Multiobjetivo: Equilibra el mantenimiento del rendimiento de la tarea con la mejora de calibración de confianza

Configuración Experimental

Conjuntos de Datos

Entrenamiento: TriviaQA (2000 instancias)
Evaluación: TriviaQA, MMLU, SciQ, LogiQA (prueba de generalización entre dominios)

Modelos

LLAMA-3.1-8B-INSTRUCT
MISTRAL-7B-INSTRUCT-V0.3
GEMMA-2-9B-IT

Tipos de Expresión de Confianza

ScoreText: {bajo, medio, alto}
ScoreLetter: {E, D, C, B, A}
ScoreNumber: {0, 1, ..., 9}
ScoreFloat: 0.0, 1.0
ScorePercent: {0%, 1%, ..., 100%}

Métricas de Evaluación

ECE (Error de Calibración Esperado): Diferencia absoluta promedio entre confianza predicha y precisión real
NCE (Error de Calibración Neto): Error de calibración con signo, refleja sesgo
BS (Puntuación de Brier): Error cuadrático medio de predicción probabilística
AUROC: Capacidad de ordenamiento de confianza

Métodos de Comparación

Default: Método de indicación base
Self-Consistency: Método basado en muestreo
ConfTuner: Método de ajuste fino de última generación

Resultados Experimentales

Resultados Principales

Comparación de rendimiento en TriviaQA (GEMMA-2-9B-IT):

ECE: Default (21.9%) → ADVICE (6.5%)
NCE: Default (-21.8%) → ADVICE (1.6%)
AUROC: Default (52.7%) → ADVICE (78.5%)

Los resultados de generalización entre dominios muestran que ADVICE logra mejoras significativas en MMLU, SciQ y LogiQA, demostrando la robustez del método.

Experimentos de Ablación

Análisis de contribución de funciones de pérdida:

L_JSD utilizado solo: ECE disminuye de 19.7% a 4.9%
L_Margen utilizado solo: ECE disminuye de 19.7% a 3.9%
ADVICE completo: Mejor capacidad de generalización entre conjuntos de datos

Hallazgos Clave

Verificación de Independencia de Respuesta: La distribución JSD exhibe un patrón de ley de potencia, con la mayoría de valores cercanos a 0, confirmando la hipótesis de independencia de respuesta
Patrones de Atención: Los pesos de atención de confianza→respuesta son significativamente más bajos que en otras direcciones
Mejora de Calibración: Los gráficos de confiabilidad muestran que ADVICE produce distribuciones de confianza más granulares y precisas
Mejora de Conciencia de Respuesta: Los experimentos de enmascaramiento muestran que ADVICE expresa incertidumbre apropiadamente cuando falta la respuesta

Análisis de Hiperparámetros

El aumento de δ_JSD reduce continuamente ECE, validando la efectividad del objetivo de aprendizaje contrastivo.

Trabajo Relacionado

Investigación de Confianza Verbalizada

Lin et al. (2022) introdujo por primera vez la estimación de confianza verbalizada
La investigación posterior se divide principalmente en tres categorías: métodos de indicación, métodos de muestreo y métodos de ajuste fino
Este estudio llena el vacío en análisis de mecanismos

Métodos de Sondeo de LLM

Análisis de mecanismos de atención: Attention Rollout, Attention Flow, etc.
Métodos de atribución de gradientes: Integrated Gradients, etc.
Este estudio aplica innovadoramente estos métodos al análisis de confianza

Conclusiones y Discusión

Conclusiones Principales

El exceso de confianza en LLMs proviene principalmente del problema de independencia de respuesta
ADVICE mejora efectivamente la calibración de confianza al mejorar la dependencia de respuesta
El método posee buena capacidad de generalización y valor práctico

Limitaciones

Se enfoca principalmente en tareas de QA de texto corto; la aplicabilidad a tareas de comprensión de texto largo requiere verificación adicional
Requiere costo adicional de construcción de datos para generar pares de respuestas contrastivas
La efectividad en tareas de razonamiento complejo requiere exploración adicional

Direcciones Futuras

Extensión a tareas que requieren comprensión de contexto largo y razonamiento complejo
Exploración de métodos más eficientes de construcción de datos de entrenamiento
Investigación de aplicaciones en otras modalidades (como modelos visión-lenguaje)

Evaluación Profunda

Fortalezas

Contribución Teórica Destacada: Primera identificación y análisis sistemático de la causa fundamental del exceso de confianza, proporcionando perspectivas teóricas importantes
Metodología Rigurosa: Adopta verificación multiangular (análisis probabilístico + análisis de atribución), con alta credibilidad de conclusiones
Diseño Experimental Completo: Evaluación integral entre modelos y conjuntos de datos, con experimentos de ablación suficientes
Valor Práctico Significativo: Mejora significativamente la calibración de confianza mientras mantiene el rendimiento de la tarea
Capacidad de Generalización Fuerte: Buen desempeño en datos fuera de distribución, demostrando robustez del método

Insuficiencias

Rango de Tareas Limitado: Validación principalmente en tareas de QA; la aplicabilidad a otras tareas de PNL no se explora suficientemente
Costo Computacional: Requiere proceso de ajuste fino adicional y construcción de datos contrastivos
Profundidad de Análisis Teórico: Aunque identifica el problema de independencia de respuesta, el análisis de causas profundas subyacentes es insuficiente
Efectos a Largo Plazo: No se evalúa la estabilidad del modelo ajustado en uso prolongado

Impacto

Valor Académico: Proporciona nuevas perspectivas de investigación y marco de análisis para el campo de estimación de confianza
Significado Práctico: Tiene valor importante para mejorar la confiabilidad de LLMs en aplicaciones de alto riesgo
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción y extensión

Escenarios Aplicables

Sistemas de preguntas y respuestas que requieren estimación de confianza confiable
Sistemas de apoyo a decisiones de alto riesgo
Escenarios de colaboración humano-máquina con expresión de incertidumbre
Aplicaciones de calibración de modelos e IA confiable

Referencias

El artículo cita 68 referencias relacionadas, cubriendo múltiples campos incluyendo confianza verbalizada, métodos de sondeo de LLM y teoría de calibración, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes tanto en análisis teórico como en métodos prácticos. Los autores no solo identifican la causa fundamental del exceso de confianza en LLMs, sino que también proponen una solución efectiva. El método es simple pero efectivo, el diseño experimental es riguroso y los resultados son convincentes. Tiene importancia significativa para avanzar en IA confiable y mejorar la confiabilidad de LLMs en aplicaciones prácticas.