Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic
Открыть устрицу: эмпирическая оценка и улучшение надежности уверенности в рассуждениях о коде в больших языковых моделях
С широким применением больших языковых моделей (LLMs) в области интеллектуального анализа кода растет внимание к надежности и управляемости их выходных данных при выполнении задач рассуждения о коде. Оценка уверенности служит эффективным и удобным методом для оценки этих аспектов и имеет важное значение. В данной статье предлагается структура анализа и улучшения уверенности LLM для задач рассуждения о коде. Исследование проводит комплексное эмпирическое исследование надежности уверенности основных LLM при выполнении различных задач и далее оценивает эффективность таких методов, как оптимизация стратегии подсказок и математическая калибровка (например, масштабирование Платта), в повышении надежности уверенности.
Практическая ценность: в практике программной инженерии разработчики должны понимать надежность выходных данных модели для принятия обоснованных решений
Соображения безопасности: неправильные предсказания с высокой уверенностью могут привести к серьезным дефектам программного обеспечения
Повышение эффективности: надежная оценка уверенности может помочь разработчикам оптимизировать процессы проверки
Редкость исследований: систематические исследования надежности уверенности при выполнении задач рассуждения о коде относительно редки
Недостаточная оценка: большинство существующих работ полагаются на объективные показатели, такие как точность, игнорируя количественную оценку самосознания модели
Ограниченные методы улучшения: отсутствуют эффективные технические средства для повышения надежности уверенности LLM при рассуждении о коде
Предложение систематической структуры анализа: построена структура анализа надежности уверенности LLM для задач рассуждения о коде с проведением комплексного количественного эмпирического исследования
Оценка методов улучшения: систематическая оценка эффективности оптимизации стратегии подсказок и методов математической калибровки, выявление их применимости и ограничений на различных моделях и задачах
Глубокий анализ влияющих факторов: предоставление глубокого анализа влияния надежности уверенности на практические приложения программной инженерии и предложение практических рекомендаций для оптимизации механизма уверенности LLM и инженерного развертывания
Эмпирические находки: обнаружено, что модели с возможностями рассуждения показывают лучшую производительность в надежности уверенности, а смешанные стратегии наиболее эффективны для повышения надежности уверенности различных моделей
Задачи рассуждения о коде требуют от модели вывести поведение кода путем анализа на синтаксическом, семантическом и логическом уровнях без выполнения программы, включая входные/выходные данные, поведение во время выполнения, пути ветвления или значения переменных и т.д.
Уверенность определяется как субъективная оценка вероятности модели в отношении правильности ее выходных данных. Для модели M, учитывая входные данные x и набор всех правильных выходов Y, модель производит выход y и присваивает уверенность p(y|x) ∈ 0,1.
Многомерная система оценки: комплексная оценка надежности уверенности путем объединения трех показателей: ECE, Brier Score и Performance Score
Смешанная стратегия оптимизации: объединение оптимизации стратегии подсказок и математической калибровки для синергетического улучшения
Анализ, специфичный для задачи: детальный анализ задач рассуждения о коде различной сложности
Перекрестная валидация калибровки: использование 5-кратной перекрестной валидации для предотвращения переобучения и обеспечения статистической достоверности
DeepSeek-Reasoner показывает лучшую производительность: ECE составляет всего 0,066 на задаче CCP, значительно превосходя DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) и GPT-3.5-Turbo (0,338)
Явное преимущество возможностей рассуждения: DeepSeek-Reasoner превосходит DeepSeek-Chat по всем показателям, особенно на задачах CRUXEval
Открытые модели превосходят закрытые: основные открытые модели уже превосходят GPT-3.5-Turbo в надежности уверенности
Возможности рассуждения — ключевой фактор: модели с явными возможностями рассуждения имеют явное преимущество в надежности уверенности
Смешанная стратегия наиболее эффективна: объединение стратегии подсказок переоценки и масштабирования Платта достигает лучшего улучшения
Ограниченный эффект масштаба: улучшение надежности уверенности, вызванное увеличением размера модели, имеет тенденцию к выравниванию после достижения определенного размера
Явная специфичность задачи: различная сложность задач оказывает значительное влияние на производительность уверенности
Генерация и исправление кода: большое количество исследований сосредоточено на задачах генерации или исправления кода
Рассуждение о коде: относительно новое направление исследований, существующие работы в основном сосредоточены на механизмах работы и оценке производительности
Эталонные тесты: появилось несколько эталонов рассуждения о коде, таких как CRUXEval, REval, CodeMind и т.д.
Значительные различия в производительности: существуют значительные различия в надежности уверенности основных LLM при выполнении задач рассуждения о коде
Преимущество возможностей рассуждения: модели с возможностями рассуждения (такие как DeepSeek-Reasoner) показывают лучшую производительность
Эффективность математической калибровки: методы математической калибровки, такие как масштабирование Платта, могут систематически улучшать надежность уверенности
Огромное пространство для улучшения: текущая уверенность LLM еще не достигла идеального уровня надежности, особенно при выполнении сложных задач рассуждения
Статья цитирует важные работы в связанных областях, включая:
Brier (1950): классическая работа по проверке вероятностных прогнозов
Guo et al. (2017): важное исследование калибровки современных нейронных сетей
Jiang et al. (2021): новаторская работа по калибровке уверенности LLM
Spiess et al. (2024): связанные исследования уверенности LLM при выполнении задач кода
Резюме: это высококачественная эмпирическая исследовательская статья, которая систематически изучает проблему надежности уверенности LLM при выполнении задач рассуждения о коде. Статья отличается строгой методологией, комплексными экспериментами и выводами, имеющими важное теоретическое и практическое значение, предоставляя значительный вклад в развитие AI-ассистируемой программной инженерии.