Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic
ADVICE: Estimación de Confianza Verbalizada Dependiente de la Respuesta
Los modelos de lenguaje grandes (LLMs) han logrado avances significativos en la expresión de confianza mediante lenguaje natural, mejorando la transparencia y confiabilidad. Sin embargo, sus estimaciones de confianza frecuentemente exhiben problemas de exceso de confianza, cuyas causas fundamentales aún no se comprenden completamente. Este estudio realiza un análisis detallado de la dinámica intrínseca de la confianza verbalizada, identificando la "independencia de la respuesta" como un factor clave, es decir, la incapacidad del modelo para modular la confianza basándose en sus propias respuestas. Para abordar este problema, los autores proponen ADVICE (Estimación de Confianza Verbalizada Dependiente de la Respuesta), un marco de ajuste fino que promueve la estimación de confianza basada en respuestas. Experimentos extensos demuestran que ADVICE mejora significativamente la calibración de confianza mientras mantiene el rendimiento de la tarea. El análisis adicional confirma que ADVICE mejora la dependencia de la respuesta, produciendo distribuciones de confianza más equilibradas y bien calibradas.
Problema Central: Los modelos de lenguaje grandes presentan un grave problema de exceso de confianza al generar confianza verbalizada, tendiendo a expresar alta confianza independientemente de si la respuesta es correcta o incorrecta
Importancia: Al desplegar LLMs en dominios de alto riesgo como derecho y medicina, las estimaciones de confianza confiables son críticas para gestionar las limitaciones inherentes del modelo
Limitaciones de Métodos Existentes:
La investigación existente se enfoca principalmente en "cómo" mitigar el exceso de confianza, no en "por qué" ocurre
Falta comprensión profunda de los mecanismos internos de la confianza verbalizada
Aunque los métodos de indicaciones, muestreo y ajuste fino muestran mejoras, las causas fundamentales permanecen sin aclarar
Los autores se inspiran en teorías de estimación de confianza de la neurociencia, enmarcando la estimación de confianza como un proceso de acumulación de evidencia posterior a la decisión, descubriendo que los LLMs frecuentemente ignoran la información de respuesta que generan al estimar confianza, lo cual contradice la definición de confianza.
Hallazgo Teórico: Primera identificación y análisis sistemático de la "independencia de la respuesta" como causa fundamental del exceso de confianza en LLMs
Método de Análisis: Propone un método de doble verificación basado en comparación de distribuciones de probabilidad y análisis de atribución para cuantificar la dependencia de la respuesta
Solución Propuesta: Diseña el marco de ajuste fino ADVICE que explícitamente alienta al modelo a enfocarse en sus respuestas generadas al reportar confianza
Verificación Empírica: Valida la efectividad del método en múltiples conjuntos de datos y modelos, demostrando la importancia de la información de respuesta en la estimación de confianza
Capacidad de Generalización: Demuestra una fuerte capacidad de generalización del método en tareas fuera de distribución y características de distribución de confianza equilibrada
Dada una pregunta q y su respuesta correspondiente a, la confianza verbalizada debe aproximar la probabilidad de que la respuesta sea correcta P(correcto|q,a). La estimación ideal de confianza debe:
Expresar alta confianza cuando la respuesta es correcta
Expresar baja confianza cuando la respuesta es incorrecta
Ajustar el nivel de confianza según el contenido de la respuesta
Utiliza la divergencia Jensen-Shannon (JSD) para cuantificar la diferencia entre las dos distribuciones; valores de JSD cercanos a 0 indican que el modelo es insensible a la información de respuesta.
Comparación de rendimiento en TriviaQA (GEMMA-2-9B-IT):
ECE: Default (21.9%) → ADVICE (6.5%)
NCE: Default (-21.8%) → ADVICE (1.6%)
AUROC: Default (52.7%) → ADVICE (78.5%)
Los resultados de generalización entre dominios muestran que ADVICE logra mejoras significativas en MMLU, SciQ y LogiQA, demostrando la robustez del método.
Verificación de Independencia de Respuesta: La distribución JSD exhibe un patrón de ley de potencia, con la mayoría de valores cercanos a 0, confirmando la hipótesis de independencia de respuesta
Patrones de Atención: Los pesos de atención de confianza→respuesta son significativamente más bajos que en otras direcciones
Mejora de Calibración: Los gráficos de confiabilidad muestran que ADVICE produce distribuciones de confianza más granulares y precisas
Mejora de Conciencia de Respuesta: Los experimentos de enmascaramiento muestran que ADVICE expresa incertidumbre apropiadamente cuando falta la respuesta
Contribución Teórica Destacada: Primera identificación y análisis sistemático de la causa fundamental del exceso de confianza, proporcionando perspectivas teóricas importantes
Metodología Rigurosa: Adopta verificación multiangular (análisis probabilístico + análisis de atribución), con alta credibilidad de conclusiones
Diseño Experimental Completo: Evaluación integral entre modelos y conjuntos de datos, con experimentos de ablación suficientes
Valor Práctico Significativo: Mejora significativamente la calibración de confianza mientras mantiene el rendimiento de la tarea
Capacidad de Generalización Fuerte: Buen desempeño en datos fuera de distribución, demostrando robustez del método
Rango de Tareas Limitado: Validación principalmente en tareas de QA; la aplicabilidad a otras tareas de PNL no se explora suficientemente
Costo Computacional: Requiere proceso de ajuste fino adicional y construcción de datos contrastivos
Profundidad de Análisis Teórico: Aunque identifica el problema de independencia de respuesta, el análisis de causas profundas subyacentes es insuficiente
Efectos a Largo Plazo: No se evalúa la estabilidad del modelo ajustado en uso prolongado
El artículo cita 68 referencias relacionadas, cubriendo múltiples campos incluyendo confianza verbalizada, métodos de sondeo de LLM y teoría de calibración, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes tanto en análisis teórico como en métodos prácticos. Los autores no solo identifican la causa fundamental del exceso de confianza en LLMs, sino que también proponen una solución efectiva. El método es simple pero efectivo, el diseño experimental es riguroso y los resultados son convincentes. Tiene importancia significativa para avanzar en IA confiable y mejorar la confiabilidad de LLMs en aplicaciones prácticas.