2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

Открыть устрицу: эмпирическая оценка и улучшение надежности уверенности в рассуждениях о коде в больших языковых моделях

Основная информация

  • ID статьи: 2511.02197
  • Название: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • Авторы: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • Классификация: cs.SE (Программная инженерия), cs.AI (Искусственный интеллект)
  • Дата публикации: 4 ноября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2511.02197

Аннотация

С широким применением больших языковых моделей (LLMs) в области интеллектуального анализа кода растет внимание к надежности и управляемости их выходных данных при выполнении задач рассуждения о коде. Оценка уверенности служит эффективным и удобным методом для оценки этих аспектов и имеет важное значение. В данной статье предлагается структура анализа и улучшения уверенности LLM для задач рассуждения о коде. Исследование проводит комплексное эмпирическое исследование надежности уверенности основных LLM при выполнении различных задач и далее оценивает эффективность таких методов, как оптимизация стратегии подсказок и математическая калибровка (например, масштабирование Платта), в повышении надежности уверенности.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование в основном решает проблему надежности уверенности LLM при выполнении задач рассуждения о коде. В частности, это включает:

  1. Проблема калибровки уверенности: текущие LLM могут демонстрировать чрезмерную уверенность или недостаточную уверенность при рассуждении о коде
  2. Сложность оценки надежности: разработчикам трудно определить степень надежности выходных данных модели, что влияет на принятие решений
  3. Систематические смещения: существуют значительные различия в производительности уверенности разных моделей при выполнении различных задач

Важность исследования

  1. Практическая ценность: в практике программной инженерии разработчики должны понимать надежность выходных данных модели для принятия обоснованных решений
  2. Соображения безопасности: неправильные предсказания с высокой уверенностью могут привести к серьезным дефектам программного обеспечения
  3. Повышение эффективности: надежная оценка уверенности может помочь разработчикам оптимизировать процессы проверки

Ограничения существующих методов

  1. Редкость исследований: систематические исследования надежности уверенности при выполнении задач рассуждения о коде относительно редки
  2. Недостаточная оценка: большинство существующих работ полагаются на объективные показатели, такие как точность, игнорируя количественную оценку самосознания модели
  3. Ограниченные методы улучшения: отсутствуют эффективные технические средства для повышения надежности уверенности LLM при рассуждении о коде

Основные вклады

  1. Предложение систематической структуры анализа: построена структура анализа надежности уверенности LLM для задач рассуждения о коде с проведением комплексного количественного эмпирического исследования
  2. Оценка методов улучшения: систематическая оценка эффективности оптимизации стратегии подсказок и методов математической калибровки, выявление их применимости и ограничений на различных моделях и задачах
  3. Глубокий анализ влияющих факторов: предоставление глубокого анализа влияния надежности уверенности на практические приложения программной инженерии и предложение практических рекомендаций для оптимизации механизма уверенности LLM и инженерного развертывания
  4. Эмпирические находки: обнаружено, что модели с возможностями рассуждения показывают лучшую производительность в надежности уверенности, а смешанные стратегии наиболее эффективны для повышения надежности уверенности различных моделей

Подробное описание методов

Определение задачи

Задачи рассуждения о коде требуют от модели вывести поведение кода путем анализа на синтаксическом, семантическом и логическом уровнях без выполнения программы, включая входные/выходные данные, поведение во время выполнения, пути ветвления или значения переменных и т.д.

Уверенность определяется как субъективная оценка вероятности модели в отношении правильности ее выходных данных. Для модели M, учитывая входные данные x и набор всех правильных выходов Y, модель производит выход y и присваивает уверенность p(y|x) ∈ 0,1.

Архитектура модели

Четырехэтапная методологическая структура

  1. Эмпирическое исследование: подсказка LLM для генерации ответов тестовых случаев и соответствующих оценок уверенности
  2. Корректировка стратегии подсказок: использование различных стратегий подсказок для повторного создания оценок уверенности
  3. Математическая калибровка: применение математических методов к оценкам уверенности, созданным LLM
  4. Расчет показателей: вычисление различных показателей для оценки надежности различных типов оценок уверенности

Стратегии генерации уверенности

  1. Внутренняя уверенность (Intrinsic Confidence): оценки уверенности, непосредственно создаваемые моделью
  2. Стратегия переоценки (Reassess Strategy): переоценка уверенности модели путем подсказок самосомнения
  3. Рефлективная стратегия (Reflective Strategy): использование независимой рефлективной модели для оценки уверенности в ответах основной модели

Методы математической калибровки

Применяется масштабирование Платта для калибровки:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

где A и B — параметры, оптимизированные путем минимизации отрицательного логарифма правдоподобия на данных калибровки.

Технические инновации

  1. Многомерная система оценки: комплексная оценка надежности уверенности путем объединения трех показателей: ECE, Brier Score и Performance Score
  2. Смешанная стратегия оптимизации: объединение оптимизации стратегии подсказок и математической калибровки для синергетического улучшения
  3. Анализ, специфичный для задачи: детальный анализ задач рассуждения о коде различной сложности
  4. Перекрестная валидация калибровки: использование 5-кратной перекрестной валидации для предотвращения переобучения и обеспечения статистической достоверности

Экспериментальная установка

Наборы данных

  1. REval: содержит 3 152 тестовых точки, охватывающие 4 подзадачи
    • Предсказание покрытия кода (CCP)
    • Предсказание состояния программы (PSP)
    • Предсказание пути выполнения (EPP)
    • Предсказание выходных данных (OP)
  2. CRUXEval: содержит 800 независимых функций Python, охватывающих 2 подзадачи
    • Предсказание входных данных (CRUXEval-I)
    • Предсказание выходных данных (CRUXEval-O)

Показатели оценки

  1. Ожидаемая ошибка калибровки (ECE):
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Оценка Бриера (BS):
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. Оценка производительности (PS):
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

Методы сравнения

Выбраны репрезентативные основные LLM:

  • Рассуждение vs. без рассуждения: DeepSeek-V3 vs DeepSeek-R1
  • Различные размеры: серия Qwen3 (1.7B, 14B, 32B)
  • Открытый исходный код vs. закрытый: DeepSeek/Qwen3 vs GPT-3.5-Turbo

Детали реализации

  • Параметр температуры установлен на 0 для обеспечения стабильности результатов
  • Использованы унифицированные стандартизированные шаблоны подсказок
  • Применена 5-кратная перекрестная валидация для калибровки масштабирования Платта

Результаты экспериментов

Основные результаты

Сравнение между моделями

  • DeepSeek-Reasoner показывает лучшую производительность: ECE составляет всего 0,066 на задаче CCP, значительно превосходя DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) и GPT-3.5-Turbo (0,338)
  • Явное преимущество возможностей рассуждения: DeepSeek-Reasoner превосходит DeepSeek-Chat по всем показателям, особенно на задачах CRUXEval
  • Открытые модели превосходят закрытые: основные открытые модели уже превосходят GPT-3.5-Turbo в надежности уверенности

Влияние сложности задачи

  • Лучшая производительность на простых задачах: надежность уверенности на задачах CCP и OP обычно превосходит PSP и EPP
  • Предсказание входных данных более сложно: CRUXEval-I обычно сложнее, чем CRUXEval-O

Абляционные эксперименты

Эффект оптимизации стратегии подсказок

  • Ограниченное улучшение: стратегии переоценки и рефлексии не привели к систематическому улучшению для большинства моделей и задач
  • Более высокопроизводительные модели получают большую пользу: DeepSeek-Reasoner и Qwen3-32B показывают явное улучшение на конкретных задачах
  • Смягчение чрезмерной уверенности: стратегия переоценки в некоторых случаях помогает смягчить чрезмерную уверенность модели

Эффект математической калибровки

  • Значительное универсальное улучшение: масштабирование Платта приводит к значительному улучшению на всех моделях и задачах
  • Устранение систематических смещений: эффективно устраняет распределительные различия, вызванные различными методами генерации уверенности
  • Преобразование отрицательного в положительное: оценка производительности нескольких моделей преобразуется из отрицательных значений в положительные

Анализ примеров

На примере производительности GPT-3.5-Turbo на задаче OP:

  • До калибровки: распределение уверенности серьезно смещено, кривая калибровки отклоняется от идеальной линии
  • После стратегии переоценки: кривая калибровки приближается к идеальной линии отсчета
  • После масштабирования Платта: распределение вероятностей и кривая калибровки высоко согласуются с идеальной кривой

Экспериментальные находки

  1. Возможности рассуждения — ключевой фактор: модели с явными возможностями рассуждения имеют явное преимущество в надежности уверенности
  2. Смешанная стратегия наиболее эффективна: объединение стратегии подсказок переоценки и масштабирования Платта достигает лучшего улучшения
  3. Ограниченный эффект масштаба: улучшение надежности уверенности, вызванное увеличением размера модели, имеет тенденцию к выравниванию после достижения определенного размера
  4. Явная специфичность задачи: различная сложность задач оказывает значительное влияние на производительность уверенности

Связанные работы

Исследования калибровки уверенности

  • Традиционные методы: ранние исследования сосредоточены на калибровке уверенности небольших нейронных моделей
  • Применение LLM: в последние годы расширено на понимание естественного языка, ответы на вопросы о фактах, арифметические рассуждения и другие области
  • Область кода: Spiess и др. исследовали надежность уверенности LLM при выполнении задач генерации кода

LLM в программной инженерии

  • Генерация и исправление кода: большое количество исследований сосредоточено на задачах генерации или исправления кода
  • Рассуждение о коде: относительно новое направление исследований, существующие работы в основном сосредоточены на механизмах работы и оценке производительности
  • Эталонные тесты: появилось несколько эталонов рассуждения о коде, таких как CRUXEval, REval, CodeMind и т.д.

Выводы и обсуждение

Основные выводы

  1. Значительные различия в производительности: существуют значительные различия в надежности уверенности основных LLM при выполнении задач рассуждения о коде
  2. Преимущество возможностей рассуждения: модели с возможностями рассуждения (такие как DeepSeek-Reasoner) показывают лучшую производительность
  3. Эффективность математической калибровки: методы математической калибровки, такие как масштабирование Платта, могут систематически улучшать надежность уверенности
  4. Огромное пространство для улучшения: текущая уверенность LLM еще не достигла идеального уровня надежности, особенно при выполнении сложных задач рассуждения

Ограничения

  1. Различия между эталоном и реальностью: неизбежны различия между данными эталонного набора и реальной средой
  2. Ограничение выбора модели: не включены быстро развивающиеся специализированные LLM для кода
  3. Фиксированный дизайн подсказок: использование унифицированного стандартизированного дизайна подсказок может повлиять на универсальность результатов
  4. Фиксированный параметр температуры: установка параметра температуры на 0 может игнорировать его потенциальное влияние на производительность

Будущие направления

  1. Механизм генерации уверенности: глубокое исследование механизма генерации уверенности LLM при выполнении задач рассуждения о коде
  2. Динамические стратегии калибровки: разработка адаптивных методов калибровки и методов разделения интервалов
  3. Интеграция активного обучения: глубокая интеграция уверенности с методами активного обучения и контроля рисков
  4. Баланс практичности: сохранение дискриминативности и интерпретируемости распределения уверенности при повышении общей надежности

Глубокая оценка

Преимущества

  1. Значительная исследовательская ценность: заполняет пробел в исследованиях надежности уверенности в области рассуждения о коде
  2. Систематический и полный метод: предложена систематическая четырехэтапная структура анализа с строгой методологией
  3. Достаточный дизайн экспериментов: охватывает несколько моделей, задач и стратегий улучшения с комплексной экспериментальной установкой
  4. Убедительные результаты: выводы проверены несколькими показателями и статистическими методами
  5. Высокая практическая ценность: предоставляет прямые технические рекомендации для практики программной инженерии

Недостатки

  1. Единственный метод калибровки: в основном применяется масштабирование Платта без изучения эффектов других методов калибровки
  2. Потеря дискриминативности: математическая калибровка, хотя и улучшает общую калибровку, может снизить дискриминативность уверенности
  3. Отсутствие специализированных моделей кода: не включены специализированные модели кода, такие как CodeLlama, StarCoder и т.д.
  4. Недостаточная динамическая адаптивность: предложенные методы в основном статичны и не обладают динамической адаптивностью к различным сценариям

Влияние

  1. Академический вклад: открывает новую область применения в исследованиях уверенности LLM
  2. Инженерная практика: предоставляет технологическую основу для оценки надежности в AI-ассистируемой разработке программного обеспечения
  3. Установление стандартов: может способствовать установлению стандартов оценки уверенности для задач рассуждения о коде
  4. Последующие исследования: предоставляет важный справочный материал для дальнейших исследований в связанных областях

Применимые сценарии

  1. Проверка кода: помощь разработчикам в оценке надежности AI-генерируемого кода
  2. Автоматизированное тестирование: предоставление рекомендаций по уверенности при генерации тестовых случаев
  3. Рефакторинг кода: оценка надежности рекомендаций по рефакторингу
  4. Образование и обучение: помощь учащимся в понимании логики кода при обучении программированию

Библиография

Статья цитирует важные работы в связанных областях, включая:

  • Brier (1950): классическая работа по проверке вероятностных прогнозов
  • Guo et al. (2017): важное исследование калибровки современных нейронных сетей
  • Jiang et al. (2021): новаторская работа по калибровке уверенности LLM
  • Spiess et al. (2024): связанные исследования уверенности LLM при выполнении задач кода

Резюме: это высококачественная эмпирическая исследовательская статья, которая систематически изучает проблему надежности уверенности LLM при выполнении задач рассуждения о коде. Статья отличается строгой методологией, комплексными экспериментами и выводами, имеющими важное теоретическое и практическое значение, предоставляя значительный вклад в развитие AI-ассистируемой программной инженерии.