2025-11-16T01:40:12.068255

Cross-Question Method Reuse in Large Language Models: From Word-Level Prediction to Rational Logical-Layer Reasoning

Su
Large language models (LLMs) have been widely applied to assist in finding solutions for diverse questions. Prior work has proposed representing a method as a pair of a question and its corresponding solution, enabling method reuse. However, existing approaches typically require the questions to be highly similar. In this paper, we extend the scope of method reuse to address questions with low similarity or with hidden similarities that are not explicitly observable. For questions that are similar in a general-specific sense (i.e., broader or narrower in scope), we propose to first separate the question and solution, rather than directly feeding the pair to the LLM. The LLM is then guided to adapt the solution to new but related questions, allowing it to focus on solution transfer rather than question recognition. Furthermore, we extend this approach to cases where questions only share partial features or hidden characteristics. This enables cross-question method reuse beyond conventional similarity constraints. Experimental verification shows that our scope-extension approach increases the probability of filtering out reusable solutions, thereby improving the effectiveness of cross-question method reuse.
academic

Переиспользование методов между вопросами в больших языковых моделях: От предсказания на уровне слов к рациональному логическому рассуждению

Основная информация

  • ID статьи: 2509.05660
  • Название: Cross-Question Method Reuse in Large Language Models: From Word-Level Prediction to Rational Logical-Layer Reasoning
  • Автор: Hong Su (Школа компьютерных наук, Чэндуский университет информационных технологий)
  • Категория: cs.CL (Вычислительная лингвистика)
  • Журнал публикации: Journal of LaTeX Class Files, Vol. 14, No. 8, August 2015
  • Ссылка на статью: https://arxiv.org/abs/2509.05660v2

Аннотация

Большие языковые модели (LLMs) широко применяются для решения различных задач. Предыдущие работы предложили представлять методы как пары вопросов и соответствующих решений для достижения переиспользования методов. Однако существующие подходы обычно требуют высокой степени сходства между вопросами. В данной статье расширяется область переиспользования методов для обработки вопросов с низким сходством или скрытым сходством. Для вопросов, сходных в смысле общего-частного, авторы предлагают сначала разделить вопросы и решения, вместо того чтобы напрямую передавать их в LLM. Затем они направляют LLM на адаптацию решения к новой связанной задаче, сосредоточивая внимание на передаче решения, а не на идентификации проблемы. Кроме того, метод расширяется на вопросы, которые имеют только частичные общие черты или скрытые свойства. Экспериментальная проверка показывает, что расширенный метод повышает вероятность выбора переиспользуемых решений, тем самым улучшая эффективность переиспользования методов между вопросами.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные большие языковые модели в основном обучаются на уровне слов, изучая предсказание следующего токена или заполнение пропущенных токенов. Такой способ обучения в основном отражает статистическую сопряженность, а не высокоуровневое логическое рассуждение, больше похож на интуицию или сопоставление шаблонов, чем на рациональное принятие решений.

Исследовательская мотивация

  1. Ограничения словоуровневого рассуждения: Современные трансформер-ориентированные LLMs испытывают трудности с методоуровневым рассуждением и склонны отдавать предпочтение методам, часто встречающимся в обучающих данных, даже если они не оптимальны.
  2. Ограничения переиспользования методов: Существующие фреймворки переиспользования методов требуют высокой степени сходства между вопросами, что ограничивает их применимость.
  3. Необходимость передачи знаний между областями: Люди могут аналогично применять решение одной задачи к новым, казалось бы, не связанным задачам, но существующие LLMs не обладают такой способностью переиспользования методов между вопросами.

Основные вызовы

Как сделать так, чтобы LLMs могли эффективно переиспользовать существующие решения даже когда сходство между вопросами низко или отсутствует явная связь.

Основные вклады

  1. Расширение области переиспользования методов: Расширение переиспользования методов от случаев высокого сходства к отображениям общего-частного и скрытым отношениям на основе признаков.
  2. Предложение модели переиспользования методов между вопросами:
    • Реляционное переиспользование: обработка отношений общего-частного и параллельных отношений
    • Переиспользование на основе признаков: поддержка частичного совпадения признаков и идентификации скрытых свойств
  3. Введение концепции "Метода методов" (Method of Methods, MoM): Предоставление высокоуровневого метода для проверки, улучшения и повышения эффективности текущего применяемого метода.
  4. Теоретический фреймворк: Переход от словоуровневого предсказания к логическому уровню рассуждения, реализация рационального, а не чисто статистического применения решений.

Подробное описание метода

Определение задачи

Для целевого вопроса Qt, в отсутствие прямого решения, найти переиспользуемые решения из существующей библиотеки методов, даже если исходные вопросы этих методов имеют низкое сходство с целевым вопросом или имеют скрытые отношения.

Архитектура модели

1. Реляционное переиспользование методов

Метод общего-частного: Если два метода Ma и Mb решают наборы вопросов Qma и Qmb соответственно, и выполняется условие:

Qma ⊃ Qmb  (1)

то Ma более общий, чем Mb, и может быть выполнено вертикальное переиспользование.

Параллельные методы: Два метода параллельны тогда и только тогда, когда их наборы вопросов являются непересекающимися подмножествами одной более широкой категории:

Qma ∩ Qmb = ∅, Qma ⊂ Qg, Qmb ⊂ Qg  (2)

2. Переиспользование методов на основе признаков

Определение пространства признаков: Для вопроса Q его признаки определяются как:

F(Q) ⊆ F, F(Q) = Fmeas(Q) ∪ Ftext(Q)  (3)

где Fmeas(Q) — явные числовые атрибуты, Ftext(Q) — признаки, извлеченные из текста с помощью кодировщика h(·).

Сходство признаков:

Simfeat(Qa, Qb) = S(F(Qa), F(Qb))  (5)

Условие переиспользования:

Reusefeat(Qb; Sa) = {
    1, if Simfeat(Qa, Qb) ≥ τ and Valid(Sa, Qb) = 1
    0, otherwise
}  (6)

3. Глобальные методы

Глобальные методы Gi = (Qgi, Sgi) имеют широкую применимость и могут служить универсальным программным улучшением для повышения надежности и согласованности выполнения методов.

4. Метод методов (MoM)

MoM организован иерархически по глубине:

  • M(0): прямые методы, Q ↦ S
  • M(1): методы первого порядка, M(0) ↦ M(0)'
  • M(i+1): методы (i+1)-го порядка, M(i) ↦ M(i)'

Технические инновации

  1. Стратегия разделения вопроса и решения: Вместо прямой передачи пары вопрос-решение в LLM сначала разделить их, а затем направить LLM на передачу решения.
  2. Многоуровневая идентификация сходства:
    • Совпадение явных признаков
    • Вывод скрытых свойств
    • Переиспользование общего шаблона метода
  3. Многоуровневый механизм проверки: Функция Valid обеспечивает логическую валидность решения в новом контексте.

Экспериментальная установка

Наборы данных

Эксперименты используют два типа тестовых сценариев:

  1. Тест реляционного переиспользования: Задача определения свежести банана, переиспользование общего метода определения свежести фруктов
  2. Тест переиспользования на основе признаков: Задача сброса времени использования жесткого диска, переиспользование опыта обработки файлов MP3

Метрики оценки

  • Косинусное сходство: Измерение степени выравнивания сгенерированного решения с целевым методом
  • Тест статистической значимости: Использование независимого t-теста для оценки различий между методами

Методы сравнения

  1. RelaMethod vs CompareRela: Оценка эффективности реляционного переиспользования
  2. featureMethd vs compareMP3Method: Оценка эффективности переиспользования на основе признаков

Детали реализации

  • 20 раундов тестирования для каждого метода
  • Использование t-теста Уэлча для статистического анализа
  • Сравнение только текстовых сегментов, связанных с целевым методом, для снижения шума

Результаты экспериментов

Основные результаты

Эксперимент реляционного переиспользования:

  • Среднее сходство RelaMethod: 0,4835 (стандартное отклонение: 0,0801)
  • Среднее сходство CompareRela: 0,2820 (стандартное отклонение: 0,0558)
  • t-значение: 9,23, p-значение: 8,98×10^-11 (p < 0,05)
  • Вывод: RelaMethod значительно превосходит базовый метод

Эксперимент переиспользования на основе признаков:

  • Среднее сходство featureMethd: 0,2945 (стандартное отклонение: 0,0698)
  • Среднее сходство compareMP3Method: 0,3983 (стандартное отклонение: 0,0670)
  • t-значение: -4,80, p-значение: 2,52×10^-5 (p < 0,05)
  • Вывод: Между двумя методами существуют значительные различия

Сравнительный анализ

Сравнение методовСреднее различиеСреднее сходствоОтносительное соотношениеТип переиспользования
RelaMethod vs CompareRela0,20150,351057,4%Зависимое переиспользование
featureMethd vs compareMP3Method0,10380,072614,3%Частичная ассоциация

Экспериментальные находки

  1. Большая стабильность реляционного переиспользования: Реляционное переиспользование, основанное на структурных связях, показывает более стабильные результаты, чем переиспользование на основе признаков, основанное на частичном перекрытии.
  2. Эффект явного разделения: Явное указание LLM генерировать пару вопрос-решение более эффективно, чем прямое предоставление материала.
  3. Статистическая значимость: Статистическое разделение реляционного переиспользования сильнее (t-значение 9,23 vs 4,80), что указывает на более надежные результаты.

Теоретический анализ

Переиспользование на логическом уровне

Традиционные LLMs изучают распределение на уровне токенов P(wt+1|w1,w2,...,wt), в основном захватывая статистические шаблоны сопряженности. Данный фреймворк реализует отображение переиспользования на логическом уровне через представление метода M=(Q,S):

R: (Qa, Sa) → (Qb, Sa)  (15)

Рациональное переиспользование

В отличие от выбора, основанного на вероятности токена, переиспользование методов основано на логической применимости:

Preuse(Ss|Qt) ∝ Simlogic(Qt, Qs) · I[Ss valid]  (19)

Это обеспечивает, что переиспользование основано на логической передаваемости, а не на статистической частоте.

Связанные работы

Исследования рассуждений LLM

  • Цепочка мысли: Улучшение производительности рассуждений путем генерации промежуточных шагов
  • Самосогласованность: Повышение надежности путем многопутевой выборки
  • Дерево/граф мыслей: Расширение на более сложные структуры поиска

Представление и переиспользование методов

  • Символический AI: Разложение знаний на переиспользуемые компоненты
  • Синтез программ: Переиспользование абстрактных операторов для решения новых задач
  • Рассуждение на основе прецедентов (CBR): Решение новых задач путем аналогии

Трансферное обучение и метарассуждение

  • Предварительно обученные модели: Способность передачи задач T5, GPT-4 и др.
  • Подсказки с поиском: Направление рассуждений путем поиска похожих примеров
  • Механизмы рефлексии: Итеративное улучшение путем самообратной связи

Выводы и обсуждение

Основные выводы

  1. Фреймворк переиспользования методов между вопросами успешно расширяет область применения LLM, позволяя ей обрабатывать вопросы с низким сходством.
  2. Реляционное переиспользование показывает большую стабильность при обработке зависимостей общего-частного, в то время как переиспользование на основе признаков предоставляет дополнительный механизм для обработки скрытого перекрытия.
  3. Структурированная стратегия разделения вопроса и решения значительно повышает эффективность переиспользования методов.

Ограничения

  1. Ограниченная эффективность переиспользования на основе признаков: По сравнению с реляционным переиспользованием, улучшение переиспользования на основе признаков относительно небольшое.
  2. Зависимость от механизма проверки: Реализация функции Valid может влиять на эффективность переиспользования.
  3. Вычислительная сложность: Расчет сходства в больших пространствах признаков может быть трудоемким.

Направления будущих исследований

  1. Улучшение методов извлечения признаков и расчета сходства
  2. Разработка более интеллектуальных механизмов проверки
  3. Расширение на более сложные многошаговые сценарии решения задач

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первая систематическая работа, решающая проблему переиспользования методов в LLM для вопросов с низким сходством
  2. Прочная теоретическая база: Предоставляет теоретический фреймворк от словоуровневого предсказания к логическому уровню рассуждения
  3. Разумный дизайн экспериментов: Проверка эффективности метода на конкретных примерах
  4. Высокая практическая ценность: Предоставляет новые идеи для практического применения LLM

Недостатки

  1. Ограниченный масштаб экспериментов: Проверка только в двух конкретных сценариях, отсутствие крупномасштабных экспериментов
  2. Нечеткое определение признаков: Построение пространства признаков не имеет систематического руководства
  3. Неоцененная вычислительная эффективность: Не проведен анализ вычислительных затрат и масштабируемости метода
  4. Единственный метод сравнения: Отсутствие сравнения с другими передовыми методами

Влияние

  1. Теоретический вклад: Предоставляет новую теоретическую перспективу для повышения способности рассуждения LLM
  2. Практическая ценность: Может быть применен в реальных сценариях, требующих передачи знаний между областями
  3. Вдохновляющее значение: Предоставляет ценные направления для последующих исследований

Применимые сценарии

  1. Передача знаний: Применение решения из одной области к другой области
  2. Решение инновационных задач: Поиск аналогичных решений при столкновении с совершенно новыми задачами
  3. Образовательная поддержка: Помощь учащимся в понимании внутренних связей между различными задачами
  4. Экспертные системы: Построение интеллектуальных систем, которые могут гибко применять существующие знания

Библиография

  1. Wei, J. et al. "Chain-of-thought prompting elicits reasoning in large language models." NeurIPS 2022.
  2. Wang, X. et al. "Self-consistency improves chain of thought reasoning in language models." arXiv 2022.
  3. Yao, S. et al. "Tree of thoughts: Deliberate problem solving with large language models." NeurIPS 2023.
  4. Su, H. "Method-based reasoning for large language models: Extraction, reuse, and continuous improvement." arXiv 2025.

Общая оценка: В данной статье предложен инновационный фреймворк переиспользования методов между вопросами, который успешно расширяет способность LLM применяться в сценариях с низким сходством. Хотя в масштабе экспериментов и некоторых технических деталях есть место для улучшения, его теоретический вклад и практическая ценность делают его важной работой в области исследований рассуждений LLM.