Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic
Abrir la Ostra: Evaluación Empírica y Mejora de la Confianza en el Razonamiento de Código en LLMs
Con la aplicación generalizada de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código, la confiabilidad y controlabilidad de sus resultados en tareas de razonamiento de código han recibido una atención creciente. La estimación de confianza, como método efectivo y conveniente para evaluar estos aspectos, es de gran importancia. Este artículo propone un marco de análisis y mejora de confianza de LLMs para tareas de razonamiento de código. El estudio realiza una investigación empírica exhaustiva sobre la confiabilidad de la confianza de los LLMs principales en diferentes tareas, y evalúa además la efectividad de técnicas como la optimización de estrategias de indicaciones y la calibración matemática (como Platt Scaling) en la mejora de la confiabilidad de la confianza.
Esta investigación aborda principalmente el problema de la confiabilidad de la confianza de los LLMs en tareas de razonamiento de código. Específicamente incluye:
Problema de Calibración de Confianza: Los LLMs actuales pueden exhibir comportamientos de exceso de confianza o falta de confianza en el razonamiento de código
Dificultad en la Evaluación de Confiabilidad: Los desarrolladores tienen dificultades para determinar el grado de confiabilidad de los resultados del modelo, afectando la toma de decisiones
Sesgos Sistemáticos: Existen diferencias significativas en el desempeño de la confianza entre diferentes modelos en diferentes tareas
Valor Práctico: En la práctica de la ingeniería de software, los desarrolladores necesitan comprender la confiabilidad de los resultados del modelo para tomar decisiones informadas
Consideraciones de Seguridad: Las predicciones de alta confianza incorrectas pueden conducir a defectos graves en el software
Mejora de Eficiencia: La estimación confiable de confianza puede ayudar a los desarrolladores a optimizar los procesos de verificación
Investigación Escasa: La investigación sistemática sobre la confiabilidad de la confianza en tareas de razonamiento de código es relativamente limitada
Evaluación Insuficiente: La mayoría de los trabajos existentes dependen de métricas objetivas como la precisión, ignorando la cuantificación de la autopercepción del modelo
Técnicas de Mejora Limitadas: Faltan métodos técnicos efectivos para mejorar la confiabilidad de la confianza de los LLMs en el razonamiento de código
Proponer un Marco de Análisis Sistemático: Construir un marco de análisis de confiabilidad de confianza de LLMs para tareas de razonamiento de código, realizando una investigación empírica cuantitativa exhaustiva
Evaluar Técnicas de Mejora: Evaluar sistemáticamente la efectividad de la optimización de estrategias de indicaciones y métodos de calibración matemática, revelando su aplicabilidad y limitaciones en diferentes modelos y tareas
Análisis Profundo de Factores Influyentes: Proporcionar un análisis profundo del impacto de la confiabilidad de la confianza en aplicaciones prácticas de ingeniería de software, y ofrecer recomendaciones viables para la optimización de mecanismos de confianza de LLMs y despliegue en ingeniería
Hallazgos Empíricos: Descubrir que los modelos con capacidades de razonamiento muestran mejor desempeño en confiabilidad de confianza, y que las estrategias mixtas son más efectivas en la mejora de la confiabilidad de confianza en varios modelos
Las tareas de razonamiento de código requieren que el modelo infiera el comportamiento del código a través del análisis en niveles sintáctico, semántico y lógico sin ejecutar el programa, incluyendo entrada/salida, comportamiento en tiempo de ejecución, rutas de rama o valores de variables.
La confianza se define como la evaluación de probabilidad subjetiva del modelo sobre la corrección de su resultado. Para un modelo M, dado una entrada x y el conjunto de todos los resultados correctos Y, el modelo produce un resultado y y asigna una confianza p(y|x) ∈ 0,1.
Confianza Intrínseca (Intrinsic Confidence): Puntuaciones de confianza generadas directamente por el modelo
Estrategia de Reevaluación (Reassess Strategy): Reevaluar la confianza a través de indicaciones de auto-duda
Estrategia Reflexiva (Reflective Strategy): Utilizar un modelo de reflexión independiente para evaluar la confianza en las respuestas del modelo principal
DeepSeek-Reasoner Muestra Desempeño Óptimo: ECE de solo 0.066 en la tarea CCP, significativamente mejor que DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) y GPT-3.5-Turbo (0.338)
Ventaja Evidente de Capacidad de Razonamiento: DeepSeek-Reasoner supera a DeepSeek-Chat en todas las métricas, particularmente en tareas CRUXEval
Modelos de Código Abierto Superan Código Cerrado: Los modelos de código abierto principales ya han superado a GPT-3.5-Turbo en confiabilidad de confianza
Generación y Reparación de Código: Numerosas investigaciones se concentran en tareas de generación o reparación de código
Razonamiento de Código: Dirección de investigación relativamente nueva, con investigación existente enfocada principalmente en mecanismos operativos y evaluación de desempeño
Pruebas Comparativas: Han surgido múltiples pruebas comparativas de razonamiento de código, como CRUXEval, REval, CodeMind, etc.
Diferencias de Desempeño Significativas: Existen diferencias significativas en la confiabilidad de confianza de los LLMs principales actuales en tareas de razonamiento de código
Ventaja de Capacidad de Razonamiento: Los modelos con capacidades de razonamiento (como DeepSeek-Reasoner) muestran el mejor desempeño
Calibración Matemática Efectiva: Métodos de calibración matemática como Platt Scaling pueden mejorar sistemáticamente la confiabilidad de confianza
Espacio de Mejora Enorme: La confianza de los LLMs actuales aún no ha alcanzado niveles de confiabilidad ideales, particularmente en tareas de razonamiento complejo
Diferencia Entre Prueba Comparativa y Realidad: Existen diferencias inevitables entre conjuntos de datos de prueba comparativa y entornos del mundo real
Restricción en Selección de Modelos: No incluye LLMs especializados en código de rápido desarrollo
Diseño de Indicaciones Fijo: Usar diseño de indicaciones estandarizado uniforme puede afectar la generalidad de los resultados
Parámetro de Temperatura Fijo: Fijar el parámetro de temperatura en 0 puede ignorar su impacto potencial en el desempeño
Mecanismo de Generación de Confianza: Investigación profunda del mecanismo de generación de confianza de LLMs en tareas de razonamiento de código
Estrategias de Calibración Dinámica: Desarrollar métodos de calibración adaptativa y técnicas de partición de intervalos
Integración de Aprendizaje Activo: Integración profunda de confianza con técnicas de aprendizaje activo y control de riesgo
Equilibrio de Practicidad: Mantener el poder discriminativo y la interpretabilidad de la distribución de confianza mientras se mejora la confiabilidad general
Método de Calibración Único: Principalmente adopta Platt Scaling, sin explorar la efectividad de otros métodos de calibración
Pérdida de Poder Discriminativo: Aunque la calibración matemática mejora la calibración general, puede reducir el poder discriminativo de la confianza
Falta de Modelos Especializados en Código: No incluye modelos especializados en código como CodeLlama, StarCoder
Insuficiencia de Adaptabilidad Dinámica: Los métodos propuestos son principalmente estáticos, careciendo de adaptabilidad dinámica a diferentes escenarios
El artículo cita trabajos importantes en campos relacionados, incluyendo:
Brier (1950): Trabajo clásico en verificación de predicción de probabilidad
Guo et al. (2017): Investigación importante en calibración de redes neurales modernas
Jiang et al. (2021): Trabajo pionero en calibración de confianza de LLMs
Spiess et al. (2024): Investigación relacionada sobre confianza de LLMs en tareas de código
Resumen: Este es un artículo de investigación empírica de alta calidad que explora sistemáticamente el problema de la confiabilidad de confianza de los LLMs en tareas de razonamiento de código. El artículo tiene metodología rigurosa, experimentos exhaustivos, y conclusiones con importante valor teórico y práctico, proporcionando contribuciones significativas al desarrollo de la ingeniería de software asistida por IA.