2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

Abrir la Ostra: Evaluación Empírica y Mejora de la Confianza en el Razonamiento de Código en LLMs

Información Básica

  • ID del Artículo: 2511.02197
  • Título: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • Autores: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • Clasificación: cs.SE (Ingeniería de Software), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación: 4 de noviembre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2511.02197

Resumen

Con la aplicación generalizada de los modelos de lenguaje grandes (LLMs) en el campo de la inteligencia de código, la confiabilidad y controlabilidad de sus resultados en tareas de razonamiento de código han recibido una atención creciente. La estimación de confianza, como método efectivo y conveniente para evaluar estos aspectos, es de gran importancia. Este artículo propone un marco de análisis y mejora de confianza de LLMs para tareas de razonamiento de código. El estudio realiza una investigación empírica exhaustiva sobre la confiabilidad de la confianza de los LLMs principales en diferentes tareas, y evalúa además la efectividad de técnicas como la optimización de estrategias de indicaciones y la calibración matemática (como Platt Scaling) en la mejora de la confiabilidad de la confianza.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda principalmente el problema de la confiabilidad de la confianza de los LLMs en tareas de razonamiento de código. Específicamente incluye:

  1. Problema de Calibración de Confianza: Los LLMs actuales pueden exhibir comportamientos de exceso de confianza o falta de confianza en el razonamiento de código
  2. Dificultad en la Evaluación de Confiabilidad: Los desarrolladores tienen dificultades para determinar el grado de confiabilidad de los resultados del modelo, afectando la toma de decisiones
  3. Sesgos Sistemáticos: Existen diferencias significativas en el desempeño de la confianza entre diferentes modelos en diferentes tareas

Importancia de la Investigación

  1. Valor Práctico: En la práctica de la ingeniería de software, los desarrolladores necesitan comprender la confiabilidad de los resultados del modelo para tomar decisiones informadas
  2. Consideraciones de Seguridad: Las predicciones de alta confianza incorrectas pueden conducir a defectos graves en el software
  3. Mejora de Eficiencia: La estimación confiable de confianza puede ayudar a los desarrolladores a optimizar los procesos de verificación

Limitaciones de los Métodos Existentes

  1. Investigación Escasa: La investigación sistemática sobre la confiabilidad de la confianza en tareas de razonamiento de código es relativamente limitada
  2. Evaluación Insuficiente: La mayoría de los trabajos existentes dependen de métricas objetivas como la precisión, ignorando la cuantificación de la autopercepción del modelo
  3. Técnicas de Mejora Limitadas: Faltan métodos técnicos efectivos para mejorar la confiabilidad de la confianza de los LLMs en el razonamiento de código

Contribuciones Principales

  1. Proponer un Marco de Análisis Sistemático: Construir un marco de análisis de confiabilidad de confianza de LLMs para tareas de razonamiento de código, realizando una investigación empírica cuantitativa exhaustiva
  2. Evaluar Técnicas de Mejora: Evaluar sistemáticamente la efectividad de la optimización de estrategias de indicaciones y métodos de calibración matemática, revelando su aplicabilidad y limitaciones en diferentes modelos y tareas
  3. Análisis Profundo de Factores Influyentes: Proporcionar un análisis profundo del impacto de la confiabilidad de la confianza en aplicaciones prácticas de ingeniería de software, y ofrecer recomendaciones viables para la optimización de mecanismos de confianza de LLMs y despliegue en ingeniería
  4. Hallazgos Empíricos: Descubrir que los modelos con capacidades de razonamiento muestran mejor desempeño en confiabilidad de confianza, y que las estrategias mixtas son más efectivas en la mejora de la confiabilidad de confianza en varios modelos

Explicación Detallada de Métodos

Definición de Tareas

Las tareas de razonamiento de código requieren que el modelo infiera el comportamiento del código a través del análisis en niveles sintáctico, semántico y lógico sin ejecutar el programa, incluyendo entrada/salida, comportamiento en tiempo de ejecución, rutas de rama o valores de variables.

La confianza se define como la evaluación de probabilidad subjetiva del modelo sobre la corrección de su resultado. Para un modelo M, dado una entrada x y el conjunto de todos los resultados correctos Y, el modelo produce un resultado y y asigna una confianza p(y|x) ∈ 0,1.

Arquitectura del Modelo

Marco de Método de Cuatro Pasos

  1. Investigación Empírica: Indicar a los LLMs que generen respuestas de casos de prueba y puntuaciones de confianza correspondientes
  2. Ajuste de Estrategia de Indicaciones: Adoptar diferentes estrategias de indicaciones para regenerar puntuaciones de confianza
  3. Calibración Matemática: Aplicar métodos matemáticos para procesar las puntuaciones de confianza generadas por los LLMs
  4. Cálculo de Métricas: Calcular varias métricas para evaluar la confiabilidad de diferentes tipos de puntuaciones de confianza

Estrategias de Generación de Confianza

  1. Confianza Intrínseca (Intrinsic Confidence): Puntuaciones de confianza generadas directamente por el modelo
  2. Estrategia de Reevaluación (Reassess Strategy): Reevaluar la confianza a través de indicaciones de auto-duda
  3. Estrategia Reflexiva (Reflective Strategy): Utilizar un modelo de reflexión independiente para evaluar la confianza en las respuestas del modelo principal

Métodos de Calibración Matemática

Adoptar Platt Scaling para calibración:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

donde A y B son parámetros optimizados minimizando la probabilidad logarítmica negativa en datos de calibración.

Puntos de Innovación Técnica

  1. Sistema de Evaluación Multidimensional: Combinar ECE, Brier Score y Performance Score para evaluar integralmente la confiabilidad de la confianza
  2. Estrategia de Optimización Mixta: Integrar optimización de estrategias de indicaciones con calibración matemática para lograr mejora sinérgica
  3. Análisis Específico de Tareas: Realizar análisis de grano fino para tareas de razonamiento de código de diferentes complejidades
  4. Calibración de Validación Cruzada: Adoptar validación cruzada de 5 pliegues para prevenir sobreajuste, asegurando validez estadística

Configuración Experimental

Conjuntos de Datos

  1. REval: Contiene 3,152 puntos de prueba, cubriendo 4 subtareas
    • Predicción de Cobertura de Código (CCP)
    • Predicción de Estado del Programa (PSP)
    • Predicción de Ruta de Ejecución (EPP)
    • Predicción de Salida (OP)
  2. CRUXEval: Contiene 800 funciones Python independientes, cubriendo 2 subtareas
    • Predicción de Entrada (CRUXEval-I)
    • Predicción de Salida (CRUXEval-O)

Métricas de Evaluación

  1. Error de Calibración Esperado (ECE):
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Puntuación de Brier (BS):
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. Puntuación de Desempeño (PS):
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

Métodos de Comparación

Se seleccionaron LLMs principales representativos:

  • Razonamiento vs No-Razonamiento: DeepSeek-V3 vs DeepSeek-R1
  • Diferentes Escalas: Serie Qwen3 (1.7B, 14B, 32B)
  • Código Abierto vs Código Cerrado: DeepSeek/Qwen3 vs GPT-3.5-Turbo

Detalles de Implementación

  • Parámetro de temperatura establecido en 0 para asegurar estabilidad de resultados
  • Adoptar plantillas de indicaciones estandarizadas uniformes
  • Usar validación cruzada de 5 pliegues para calibración de Platt Scaling

Resultados Experimentales

Resultados Principales

Comparación Entre Modelos

  • DeepSeek-Reasoner Muestra Desempeño Óptimo: ECE de solo 0.066 en la tarea CCP, significativamente mejor que DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) y GPT-3.5-Turbo (0.338)
  • Ventaja Evidente de Capacidad de Razonamiento: DeepSeek-Reasoner supera a DeepSeek-Chat en todas las métricas, particularmente en tareas CRUXEval
  • Modelos de Código Abierto Superan Código Cerrado: Los modelos de código abierto principales ya han superado a GPT-3.5-Turbo en confiabilidad de confianza

Impacto de Complejidad de Tareas

  • Mejor Desempeño en Tareas Simples: Las tareas CCP y OP generalmente muestran mejor confiabilidad de confianza que PSP y EPP
  • Predicción de Entrada Más Desafiante: CRUXEval-I típicamente es más difícil que CRUXEval-O

Experimentos de Ablación

Efectos de Optimización de Estrategia de Indicaciones

  • Mejora Limitada: Las estrategias de reevaluación y reflexión no proporcionaron mejoras sistemáticas para la mayoría de modelos y tareas
  • Modelos de Alto Desempeño Beneficiados Más: DeepSeek-Reasoner y Qwen3-32B muestran mejoras evidentes en tareas específicas
  • Mitigación de Exceso de Confianza: La estrategia de reevaluación ayuda a mitigar el exceso de confianza del modelo en algunos casos

Efectos de Calibración Matemática

  • Mejora Significativa y Universal: Platt Scaling proporciona mejoras significativas en todos los modelos y tareas
  • Eliminación de Sesgos Sistemáticos: Elimina efectivamente las diferencias de distribución producidas por diferentes métodos de generación de confianza
  • Conversión de Negativo a Positivo: Múltiples modelos convierten Performance Score de valores negativos a positivos

Análisis de Casos

Tomando como ejemplo el desempeño de GPT-3.5-Turbo en la tarea OP:

  • Antes de Calibración: Distribución de confianza severamente sesgada, curva de calibración desviada de la línea ideal
  • Después de Estrategia de Reevaluación: Curva de calibración cercana a la línea de referencia ideal
  • Después de Platt Scaling: Distribución de probabilidad y curva de calibración altamente consistentes con la curva ideal

Hallazgos Experimentales

  1. Capacidad de Razonamiento es Clave: Los modelos con capacidades de razonamiento explícito tienen ventajas evidentes en confiabilidad de confianza
  2. Estrategia Mixta Más Efectiva: La estrategia mixta que combina indicaciones de reevaluación y Platt Scaling logra la mejor mejora
  3. Efecto de Escala Limitado: La mejora en confiabilidad de confianza por aumento de tamaño del modelo se estabiliza después de alcanzar cierta escala
  4. Especificidad de Tarea Evidente: La complejidad de diferentes tareas tiene impacto significativo en el desempeño de confianza

Trabajo Relacionado

Investigación de Calibración de Confianza

  • Métodos Tradicionales: La investigación temprana se concentró en calibración de confianza en modelos neurales pequeños
  • Aplicación en LLMs: Recientemente se ha extendido a comprensión de lenguaje natural, preguntas sobre hechos, razonamiento aritmético y otros campos
  • Dominio de Código: Spiess et al. investigaron la confiabilidad de confianza de LLMs en tareas de generación de código

LLMs en Ingeniería de Software

  • Generación y Reparación de Código: Numerosas investigaciones se concentran en tareas de generación o reparación de código
  • Razonamiento de Código: Dirección de investigación relativamente nueva, con investigación existente enfocada principalmente en mecanismos operativos y evaluación de desempeño
  • Pruebas Comparativas: Han surgido múltiples pruebas comparativas de razonamiento de código, como CRUXEval, REval, CodeMind, etc.

Conclusiones y Discusión

Conclusiones Principales

  1. Diferencias de Desempeño Significativas: Existen diferencias significativas en la confiabilidad de confianza de los LLMs principales actuales en tareas de razonamiento de código
  2. Ventaja de Capacidad de Razonamiento: Los modelos con capacidades de razonamiento (como DeepSeek-Reasoner) muestran el mejor desempeño
  3. Calibración Matemática Efectiva: Métodos de calibración matemática como Platt Scaling pueden mejorar sistemáticamente la confiabilidad de confianza
  4. Espacio de Mejora Enorme: La confianza de los LLMs actuales aún no ha alcanzado niveles de confiabilidad ideales, particularmente en tareas de razonamiento complejo

Limitaciones

  1. Diferencia Entre Prueba Comparativa y Realidad: Existen diferencias inevitables entre conjuntos de datos de prueba comparativa y entornos del mundo real
  2. Restricción en Selección de Modelos: No incluye LLMs especializados en código de rápido desarrollo
  3. Diseño de Indicaciones Fijo: Usar diseño de indicaciones estandarizado uniforme puede afectar la generalidad de los resultados
  4. Parámetro de Temperatura Fijo: Fijar el parámetro de temperatura en 0 puede ignorar su impacto potencial en el desempeño

Direcciones Futuras

  1. Mecanismo de Generación de Confianza: Investigación profunda del mecanismo de generación de confianza de LLMs en tareas de razonamiento de código
  2. Estrategias de Calibración Dinámica: Desarrollar métodos de calibración adaptativa y técnicas de partición de intervalos
  3. Integración de Aprendizaje Activo: Integración profunda de confianza con técnicas de aprendizaje activo y control de riesgo
  4. Equilibrio de Practicidad: Mantener el poder discriminativo y la interpretabilidad de la distribución de confianza mientras se mejora la confiabilidad general

Evaluación Profunda

Fortalezas

  1. Significancia de Investigación Importante: Llena el vacío en la investigación de confiabilidad de confianza en el campo del razonamiento de código
  2. Método Sistemático y Completo: Propone un marco de análisis de cuatro pasos sistemático, con metodología rigurosa
  3. Diseño Experimental Suficiente: Cubre múltiples modelos, tareas y estrategias de mejora, con configuración experimental exhaustiva
  4. Resultados Convincentes: Verifica la confiabilidad de las conclusiones a través de múltiples métricas y métodos estadísticos
  5. Alto Valor Práctico: Proporciona orientación técnica directamente utilizable para la práctica de ingeniería de software

Insuficiencias

  1. Método de Calibración Único: Principalmente adopta Platt Scaling, sin explorar la efectividad de otros métodos de calibración
  2. Pérdida de Poder Discriminativo: Aunque la calibración matemática mejora la calibración general, puede reducir el poder discriminativo de la confianza
  3. Falta de Modelos Especializados en Código: No incluye modelos especializados en código como CodeLlama, StarCoder
  4. Insuficiencia de Adaptabilidad Dinámica: Los métodos propuestos son principalmente estáticos, careciendo de adaptabilidad dinámica a diferentes escenarios

Impacto

  1. Contribución Académica: Abre un nuevo campo de aplicación para la investigación de confianza de LLMs
  2. Práctica de Ingeniería: Proporciona la base técnica para evaluación de confiabilidad en desarrollo de software asistido por IA
  3. Establecimiento de Estándares: Puede promover el establecimiento de estándares de evaluación de confianza para tareas de razonamiento de código
  4. Investigación Posterior: Proporciona referencias importantes para investigación profunda en campos relacionados

Escenarios Aplicables

  1. Revisión de Código: Ayudar a los desarrolladores a evaluar la confiabilidad del código generado por IA
  2. Pruebas Automatizadas: Proporcionar orientación de confianza en la generación de casos de prueba
  3. Refactorización de Código: Proporcionar evaluación de confiabilidad para recomendaciones de refactorización
  4. Educación y Capacitación: Ayudar a los estudiantes a comprender la lógica del código en la enseñanza de programación

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

  • Brier (1950): Trabajo clásico en verificación de predicción de probabilidad
  • Guo et al. (2017): Investigación importante en calibración de redes neurales modernas
  • Jiang et al. (2021): Trabajo pionero en calibración de confianza de LLMs
  • Spiess et al. (2024): Investigación relacionada sobre confianza de LLMs en tareas de código

Resumen: Este es un artículo de investigación empírica de alta calidad que explora sistemáticamente el problema de la confiabilidad de confianza de los LLMs en tareas de razonamiento de código. El artículo tiene metodología rigurosa, experimentos exhaustivos, y conclusiones con importante valor teórico y práctico, proporcionando contribuciones significativas al desarrollo de la ingeniería de software asistida por IA.