2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.

With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.

academic

Abrir la Ostra: Evaluación Empírica y Mejora de la Confianza en el Razonamiento de Código en LLMs

Información Básica

ID del Artículo: 2511.02197
Título: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Autores: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
Clasificación: cs.SE (Ingeniería de Software), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 4 de noviembre de 2025
Enlace del Artículo: https://arxiv.org/abs/2511.02197

Resumen

Con la aplicación generalizada de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código, la confiabilidad y controlabilidad de sus resultados en tareas de razonamiento de código han recibido una atención creciente. La estimación de confianza, como método efectivo y conveniente para evaluar estos aspectos, es de gran importancia. Este artículo propone un marco de análisis y mejora de confianza de LLMs para tareas de razonamiento de código. El estudio realiza una investigación empírica exhaustiva sobre la confiabilidad de la confianza de los LLMs principales en diferentes tareas, y evalúa además la efectividad de técnicas como la optimización de estrategias de indicaciones y la calibración matemática (como Platt Scaling) en la mejora de la confiabilidad de la confianza.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda principalmente el problema de la confiabilidad de la confianza de los LLMs en tareas de razonamiento de código. Específicamente incluye:

Problema de Calibración de Confianza: Los LLMs actuales pueden exhibir comportamientos de exceso de confianza o falta de confianza en el razonamiento de código
Dificultad en la Evaluación de Confiabilidad: Los desarrolladores tienen dificultades para determinar el grado de confiabilidad de los resultados del modelo, afectando la toma de decisiones
Sesgos Sistemáticos: Existen diferencias significativas en el desempeño de la confianza entre diferentes modelos en diferentes tareas

Importancia de la Investigación

Valor Práctico: En la práctica de la ingeniería de software, los desarrolladores necesitan comprender la confiabilidad de los resultados del modelo para tomar decisiones informadas
Consideraciones de Seguridad: Las predicciones de alta confianza incorrectas pueden conducir a defectos graves en el software
Mejora de Eficiencia: La estimación confiable de confianza puede ayudar a los desarrolladores a optimizar los procesos de verificación

Limitaciones de los Métodos Existentes

Investigación Escasa: La investigación sistemática sobre la confiabilidad de la confianza en tareas de razonamiento de código es relativamente limitada
Evaluación Insuficiente: La mayoría de los trabajos existentes dependen de métricas objetivas como la precisión, ignorando la cuantificación de la autopercepción del modelo
Técnicas de Mejora Limitadas: Faltan métodos técnicos efectivos para mejorar la confiabilidad de la confianza de los LLMs en el razonamiento de código

Contribuciones Principales

Proponer un Marco de Análisis Sistemático: Construir un marco de análisis de confiabilidad de confianza de LLMs para tareas de razonamiento de código, realizando una investigación empírica cuantitativa exhaustiva
Evaluar Técnicas de Mejora: Evaluar sistemáticamente la efectividad de la optimización de estrategias de indicaciones y métodos de calibración matemática, revelando su aplicabilidad y limitaciones en diferentes modelos y tareas
Análisis Profundo de Factores Influyentes: Proporcionar un análisis profundo del impacto de la confiabilidad de la confianza en aplicaciones prácticas de ingeniería de software, y ofrecer recomendaciones viables para la optimización de mecanismos de confianza de LLMs y despliegue en ingeniería
Hallazgos Empíricos: Descubrir que los modelos con capacidades de razonamiento muestran mejor desempeño en confiabilidad de confianza, y que las estrategias mixtas son más efectivas en la mejora de la confiabilidad de confianza en varios modelos

Explicación Detallada de Métodos

Definición de Tareas

Las tareas de razonamiento de código requieren que el modelo infiera el comportamiento del código a través del análisis en niveles sintáctico, semántico y lógico sin ejecutar el programa, incluyendo entrada/salida, comportamiento en tiempo de ejecución, rutas de rama o valores de variables.

La confianza se define como la evaluación de probabilidad subjetiva del modelo sobre la corrección de su resultado. Para un modelo M, dado una entrada x y el conjunto de todos los resultados correctos Y, el modelo produce un resultado y y asigna una confianza p(y|x) ∈ 0,1.

Arquitectura del Modelo

Marco de Método de Cuatro Pasos

Investigación Empírica: Indicar a los LLMs que generen respuestas de casos de prueba y puntuaciones de confianza correspondientes
Ajuste de Estrategia de Indicaciones: Adoptar diferentes estrategias de indicaciones para regenerar puntuaciones de confianza
Calibración Matemática: Aplicar métodos matemáticos para procesar las puntuaciones de confianza generadas por los LLMs
Cálculo de Métricas: Calcular varias métricas para evaluar la confiabilidad de diferentes tipos de puntuaciones de confianza

Estrategias de Generación de Confianza

Confianza Intrínseca (Intrinsic Confidence): Puntuaciones de confianza generadas directamente por el modelo
Estrategia de Reevaluación (Reassess Strategy): Reevaluar la confianza a través de indicaciones de auto-duda
Estrategia Reflexiva (Reflective Strategy): Utilizar un modelo de reflexión independiente para evaluar la confianza en las respuestas del modelo principal

Métodos de Calibración Matemática

Adoptar Platt Scaling para calibración:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

donde A y B son parámetros optimizados minimizando la probabilidad logarítmica negativa en datos de calibración.

Puntos de Innovación Técnica

Sistema de Evaluación Multidimensional: Combinar ECE, Brier Score y Performance Score para evaluar integralmente la confiabilidad de la confianza
Estrategia de Optimización Mixta: Integrar optimización de estrategias de indicaciones con calibración matemática para lograr mejora sinérgica
Análisis Específico de Tareas: Realizar análisis de grano fino para tareas de razonamiento de código de diferentes complejidades
Calibración de Validación Cruzada: Adoptar validación cruzada de 5 pliegues para prevenir sobreajuste, asegurando validez estadística

Configuración Experimental

Conjuntos de Datos

REval: Contiene 3,152 puntos de prueba, cubriendo 4 subtareas
- Predicción de Cobertura de Código (CCP)
- Predicción de Estado del Programa (PSP)
- Predicción de Ruta de Ejecución (EPP)
- Predicción de Salida (OP)
CRUXEval: Contiene 800 funciones Python independientes, cubriendo 2 subtareas
- Predicción de Entrada (CRUXEval-I)
- Predicción de Salida (CRUXEval-O)

Métricas de Evaluación

Error de Calibración Esperado (ECE):

Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|

Puntuación de Brier (BS):

Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²

Puntuación de Desempeño (PS):
```
Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
```

Métodos de Comparación

Se seleccionaron LLMs principales representativos:

Razonamiento vs No-Razonamiento: DeepSeek-V3 vs DeepSeek-R1
Diferentes Escalas: Serie Qwen3 (1.7B, 14B, 32B)
Código Abierto vs Código Cerrado: DeepSeek/Qwen3 vs GPT-3.5-Turbo

Detalles de Implementación

Parámetro de temperatura establecido en 0 para asegurar estabilidad de resultados
Adoptar plantillas de indicaciones estandarizadas uniformes
Usar validación cruzada de 5 pliegues para calibración de Platt Scaling

Resultados Experimentales

Resultados Principales

Comparación Entre Modelos

DeepSeek-Reasoner Muestra Desempeño Óptimo: ECE de solo 0.066 en la tarea CCP, significativamente mejor que DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) y GPT-3.5-Turbo (0.338)
Ventaja Evidente de Capacidad de Razonamiento: DeepSeek-Reasoner supera a DeepSeek-Chat en todas las métricas, particularmente en tareas CRUXEval
Modelos de Código Abierto Superan Código Cerrado: Los modelos de código abierto principales ya han superado a GPT-3.5-Turbo en confiabilidad de confianza

Impacto de Complejidad de Tareas

Mejor Desempeño en Tareas Simples: Las tareas CCP y OP generalmente muestran mejor confiabilidad de confianza que PSP y EPP
Predicción de Entrada Más Desafiante: CRUXEval-I típicamente es más difícil que CRUXEval-O

Experimentos de Ablación

Efectos de Optimización de Estrategia de Indicaciones

Mejora Limitada: Las estrategias de reevaluación y reflexión no proporcionaron mejoras sistemáticas para la mayoría de modelos y tareas
Modelos de Alto Desempeño Beneficiados Más: DeepSeek-Reasoner y Qwen3-32B muestran mejoras evidentes en tareas específicas
Mitigación de Exceso de Confianza: La estrategia de reevaluación ayuda a mitigar el exceso de confianza del modelo en algunos casos

Efectos de Calibración Matemática

Mejora Significativa y Universal: Platt Scaling proporciona mejoras significativas en todos los modelos y tareas
Eliminación de Sesgos Sistemáticos: Elimina efectivamente las diferencias de distribución producidas por diferentes métodos de generación de confianza
Conversión de Negativo a Positivo: Múltiples modelos convierten Performance Score de valores negativos a positivos

Análisis de Casos

Tomando como ejemplo el desempeño de GPT-3.5-Turbo en la tarea OP:

Antes de Calibración: Distribución de confianza severamente sesgada, curva de calibración desviada de la línea ideal
Después de Estrategia de Reevaluación: Curva de calibración cercana a la línea de referencia ideal
Después de Platt Scaling: Distribución de probabilidad y curva de calibración altamente consistentes con la curva ideal

Hallazgos Experimentales

Capacidad de Razonamiento es Clave: Los modelos con capacidades de razonamiento explícito tienen ventajas evidentes en confiabilidad de confianza
Estrategia Mixta Más Efectiva: La estrategia mixta que combina indicaciones de reevaluación y Platt Scaling logra la mejor mejora
Efecto de Escala Limitado: La mejora en confiabilidad de confianza por aumento de tamaño del modelo se estabiliza después de alcanzar cierta escala
Especificidad de Tarea Evidente: La complejidad de diferentes tareas tiene impacto significativo en el desempeño de confianza

Trabajo Relacionado

Investigación de Calibración de Confianza

Métodos Tradicionales: La investigación temprana se concentró en calibración de confianza en modelos neurales pequeños
Aplicación en LLMs: Recientemente se ha extendido a comprensión de lenguaje natural, preguntas sobre hechos, razonamiento aritmético y otros campos
Dominio de Código: Spiess et al. investigaron la confiabilidad de confianza de LLMs en tareas de generación de código

LLMs en Ingeniería de Software

Generación y Reparación de Código: Numerosas investigaciones se concentran en tareas de generación o reparación de código
Razonamiento de Código: Dirección de investigación relativamente nueva, con investigación existente enfocada principalmente en mecanismos operativos y evaluación de desempeño
Pruebas Comparativas: Han surgido múltiples pruebas comparativas de razonamiento de código, como CRUXEval, REval, CodeMind, etc.

Conclusiones y Discusión

Conclusiones Principales

Diferencias de Desempeño Significativas: Existen diferencias significativas en la confiabilidad de confianza de los LLMs principales actuales en tareas de razonamiento de código
Ventaja de Capacidad de Razonamiento: Los modelos con capacidades de razonamiento (como DeepSeek-Reasoner) muestran el mejor desempeño
Calibración Matemática Efectiva: Métodos de calibración matemática como Platt Scaling pueden mejorar sistemáticamente la confiabilidad de confianza
Espacio de Mejora Enorme: La confianza de los LLMs actuales aún no ha alcanzado niveles de confiabilidad ideales, particularmente en tareas de razonamiento complejo

Limitaciones

Diferencia Entre Prueba Comparativa y Realidad: Existen diferencias inevitables entre conjuntos de datos de prueba comparativa y entornos del mundo real
Restricción en Selección de Modelos: No incluye LLMs especializados en código de rápido desarrollo
Diseño de Indicaciones Fijo: Usar diseño de indicaciones estandarizado uniforme puede afectar la generalidad de los resultados
Parámetro de Temperatura Fijo: Fijar el parámetro de temperatura en 0 puede ignorar su impacto potencial en el desempeño

Direcciones Futuras

Mecanismo de Generación de Confianza: Investigación profunda del mecanismo de generación de confianza de LLMs en tareas de razonamiento de código
Estrategias de Calibración Dinámica: Desarrollar métodos de calibración adaptativa y técnicas de partición de intervalos
Integración de Aprendizaje Activo: Integración profunda de confianza con técnicas de aprendizaje activo y control de riesgo
Equilibrio de Practicidad: Mantener el poder discriminativo y la interpretabilidad de la distribución de confianza mientras se mejora la confiabilidad general

Evaluación Profunda

Fortalezas

Significancia de Investigación Importante: Llena el vacío en la investigación de confiabilidad de confianza en el campo del razonamiento de código
Método Sistemático y Completo: Propone un marco de análisis de cuatro pasos sistemático, con metodología rigurosa
Diseño Experimental Suficiente: Cubre múltiples modelos, tareas y estrategias de mejora, con configuración experimental exhaustiva
Resultados Convincentes: Verifica la confiabilidad de las conclusiones a través de múltiples métricas y métodos estadísticos
Alto Valor Práctico: Proporciona orientación técnica directamente utilizable para la práctica de ingeniería de software

Insuficiencias

Método de Calibración Único: Principalmente adopta Platt Scaling, sin explorar la efectividad de otros métodos de calibración
Pérdida de Poder Discriminativo: Aunque la calibración matemática mejora la calibración general, puede reducir el poder discriminativo de la confianza
Falta de Modelos Especializados en Código: No incluye modelos especializados en código como CodeLlama, StarCoder
Insuficiencia de Adaptabilidad Dinámica: Los métodos propuestos son principalmente estáticos, careciendo de adaptabilidad dinámica a diferentes escenarios

Impacto

Contribución Académica: Abre un nuevo campo de aplicación para la investigación de confianza de LLMs
Práctica de Ingeniería: Proporciona la base técnica para evaluación de confiabilidad en desarrollo de software asistido por IA
Establecimiento de Estándares: Puede promover el establecimiento de estándares de evaluación de confianza para tareas de razonamiento de código
Investigación Posterior: Proporciona referencias importantes para investigación profunda en campos relacionados

Escenarios Aplicables

Revisión de Código: Ayudar a los desarrolladores a evaluar la confiabilidad del código generado por IA
Pruebas Automatizadas: Proporcionar orientación de confianza en la generación de casos de prueba
Refactorización de Código: Proporcionar evaluación de confiabilidad para recomendaciones de refactorización
Educación y Capacitación: Ayudar a los estudiantes a comprender la lógica del código en la enseñanza de programación

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

Brier (1950): Trabajo clásico en verificación de predicción de probabilidad
Guo et al. (2017): Investigación importante en calibración de redes neurales modernas
Jiang et al. (2021): Trabajo pionero en calibración de confianza de LLMs
Spiess et al. (2024): Investigación relacionada sobre confianza de LLMs en tareas de código

Resumen: Este es un artículo de investigación empírica de alta calidad que explora sistemáticamente el problema de la confiabilidad de confianza de los LLMs en tareas de razonamiento de código. El artículo tiene metodología rigurosa, experimentos exhaustivos, y conclusiones con importante valor teórico y práctico, proporcionando contribuciones significativas al desarrollo de la ingeniería de software asistida por IA.