2025-11-16T01:40:12.068255

Cross-Question Method Reuse in Large Language Models: From Word-Level Prediction to Rational Logical-Layer Reasoning

Large language models (LLMs) have been widely applied to assist in finding solutions for diverse questions. Prior work has proposed representing a method as a pair of a question and its corresponding solution, enabling method reuse. However, existing approaches typically require the questions to be highly similar. In this paper, we extend the scope of method reuse to address questions with low similarity or with hidden similarities that are not explicitly observable. For questions that are similar in a general-specific sense (i.e., broader or narrower in scope), we propose to first separate the question and solution, rather than directly feeding the pair to the LLM. The LLM is then guided to adapt the solution to new but related questions, allowing it to focus on solution transfer rather than question recognition. Furthermore, we extend this approach to cases where questions only share partial features or hidden characteristics. This enables cross-question method reuse beyond conventional similarity constraints. Experimental verification shows that our scope-extension approach increases the probability of filtering out reusable solutions, thereby improving the effectiveness of cross-question method reuse.

academic

대규모 언어 모델에서의 교차 질문 방법 재사용: 단어 수준 예측에서 합리적 논리층 추론으로

기본 정보

논문 ID: 2509.05660
제목: Cross-Question Method Reuse in Large Language Models: From Word-Level Prediction to Rational Logical-Layer Reasoning
저자: Hong Su (성도정보공학대학교 컴퓨터과학학부)
분류: cs.CL (계산언어학)
게재 저널: Journal of LaTeX Class Files, Vol. 14, No. 8, August 2015
논문 링크: https://arxiv.org/abs/2509.05660v2

초록

대규모 언어 모델(LLMs)은 다양한 문제 해결을 지원하기 위해 광범위하게 적용되어 왔다. 선행 연구에서는 방법을 문제와 그에 해당하는 해결책의 쌍으로 표현하여 방법 재사용을 구현할 것을 제안했다. 그러나 기존 방법들은 일반적으로 문제 간의 높은 유사성을 요구한다. 본 논문은 방법 재사용의 범위를 확장하여 유사성이 낮거나 암묵적 유사성을 가진 문제들을 처리한다. 일반-특수 의미에서 유사한 문제들의 경우, 저자들은 먼저 문제와 해결책을 분리하고 이를 직접 LLM에 입력하지 않을 것을 제안한다. 그 후 LLM을 유도하여 해결책을 새로운 관련 문제에 적응시키고, 문제 식별이 아닌 해결책 전이에 집중하도록 한다. 또한 이 방법은 부분적 특성만 공유하거나 숨겨진 특성을 가진 문제들로도 확장된다. 실험 검증은 이러한 범위 확장 방법이 재사용 가능한 해결책을 선별할 확률을 높여 교차 질문 방법 재사용의 효과성을 개선함을 보여준다.

연구 배경 및 동기

문제 정의

전통적인 대규모 언어 모델은 주로 단어 수준에서 훈련되며, 다음 토큰 예측 또는 누락된 토큰 채우기를 통해 학습한다. 이러한 훈련 방식은 주로 통계적 공출현성을 반영하며, 고수준의 논리 추론이 아니라 직관이나 패턴 매칭에 더 가깝고 합리적 의사결정이 아니다.

연구 동기

단어 수준 추론의 한계: 현재의 트랜스포머 기반 LLM은 방법 수준의 추론에 어려움을 겪으며, 훈련 데이터에서 자주 나타나는 방법을 선호하는 경향이 있다. 이는 이러한 방법들이 최적이 아닐 수도 있음에도 불구하고 그렇다.
방법 재사용의 한계: 기존의 방법 재사용 프레임워크는 문제 간의 높은 유사성을 요구하여 그 적용 범위를 제한한다.
교차 영역 지식 이전의 필요성: 인간은 한 문제의 해결책을 겉보기에 무관한 새로운 문제에 유추적으로 적용할 수 있지만, 현재의 LLM은 이러한 교차 질문 방법 재사용 능력이 부족하다.

핵심 과제

LLM이 문제 간 유사성이 낮거나 명백한 연관성이 없을 때에도 기존의 해결책을 효과적으로 재사용할 수 있도록 하는 방법.

핵심 기여

방법 재사용 범위 확장: 방법 재사용을 높은 유사성 사례에서 일반-특수 매핑 및 특성 기반 숨겨진 관계로 확장.
교차 질문 방법 재사용 모델 제안:
- 관계형 재사용: 일반-특수 관계 및 병렬 관계 처리
- 특성형 재사용: 부분 특성 매칭 및 숨겨진 특성 식별 지원
"방법의 방법"(Method of Methods, MoM) 개념 도입: 현재 적용 방법의 효과성을 검증, 개선 및 향상시키기 위한 고수준 방법 제공.
이론적 프레임워크: 단어 수준 예측에서 논리층 추론으로 상향식 전환, 순수 통계가 아닌 합리적 해결책 적용 실현.

방법 상세 설명

작업 정의

목표 질문 Qt가 주어졌을 때, 직접적인 해결책이 없는 경우 기존의 방법 라이브러리에서 재사용 가능한 해결책을 찾는다. 이는 이러한 방법들의 원래 질문이 목표 질문과 유사성이 낮거나 암묵적 관계를 가지고 있을 수도 있다.

모델 아키텍처

1. 관계형 방법 재사용

일반-특수 방법: 두 방법 Ma와 Mb가 각각 질문 집합 Qma와 Qmb를 해결한다고 하자. 다음을 만족하면:

Qma ⊃ Qmb  (1)

Ma는 Mb보다 더 일반적이며, 수직 재사용이 가능하다.

병렬 방법: 두 방법이 병렬이 되려면 그들의 질문 집합이 동일한 더 광범위한 범주의 분리된 부분집합이어야 한다:

Qma ∩ Qmb = ∅, Qma ⊂ Qg, Qmb ⊂ Qg  (2)

2. 특성형 방법 재사용

특성 공간 정의: 질문 Q에 대해, 그 특성은 다음과 같이 정의된다:

F(Q) ⊆ F, F(Q) = Fmeas(Q) ∪ Ftext(Q)  (3)

여기서 Fmeas(Q)는 명시적 수치 속성이고, Ftext(Q)는 학습 인코더 h(·)를 통해 텍스트에서 추출한 특성이다.

특성 유사성:

Simfeat(Qa, Qb) = S(F(Qa), F(Qb))  (5)

재사용 조건:

Reusefeat(Qb; Sa) = {
    1, if Simfeat(Qa, Qb) ≥ τ and Valid(Sa, Qb) = 1
    0, otherwise
}  (6)

3. 전역 방법

전역 방법 Gi = (Qgi, Sgi)는 광범위한 적용성을 가지며, 방법 실행의 신뢰성과 일관성을 높이기 위한 범용 프로그램 강화로 작용할 수 있다.

4. 방법의 방법(MoM)

MoM은 깊이별로 계층적으로 조직된다:

M(0): 직접 방법, Q ↦ S
M(1): 1차 방법, M(0) ↦ M(0)'
M(i+1): (i+1)차 방법, M(i) ↦ M(i)'

기술 혁신 포인트

질문-해결책 분리 전략: 질문-해결책 쌍을 직접 LLM에 입력하지 않고, 먼저 분리한 후 LLM을 유도하여 해결책 이전을 수행.
다층 유사성 식별:
- 명시적 특성 매칭
- 숨겨진 특성 추론
- 전체 방법 템플릿 재사용
계층적 검증 메커니즘: Valid 함수를 통해 새로운 문맥에서 해결책의 논리적 타당성 보장.

실험 설정

데이터셋

실험은 두 가지 테스트 시나리오를 사용한다:

관계형 재사용 테스트: 바나나 신선도 판단 문제, 과일 신선도의 일반 방법 재사용
특성형 재사용 테스트: 하드 드라이브 사용 시간 재설정 문제, MP3 파일 처리 경험 재사용

평가 지표

코사인 유사도: 생성된 해결책과 목표 방법의 정렬 정도 측정
통계적 유의성 검정: 독립 표본 t 검정을 사용하여 방법 간 차이 평가

비교 방법

RelaMethod vs CompareRela: 관계형 재사용 효과 평가
featureMethd vs compareMP3Method: 특성형 재사용 효과 평가

구현 세부사항

각 방법마다 20회 테스트
Welch의 t 검정을 사용한 통계 분석
노이즈 감소를 위해 목표 방법과 관련된 텍스트 부분만 비교

실험 결과

주요 결과

관계형 재사용 실험:

RelaMethod 평균 유사도: 0.4835 (표준편차: 0.0801)
CompareRela 평균 유사도: 0.2820 (표준편차: 0.0558)
t값: 9.23, p값: 8.98×10^-11 (p < 0.05)
결론: RelaMethod가 기준선 방법을 크게 능가함

특성형 재사용 실험:

featureMethd 평균 유사도: 0.2945 (표준편차: 0.0698)
compareMP3Method 평균 유사도: 0.3983 (표준편차: 0.0670)
t값: -4.80, p값: 2.52×10^-5 (p < 0.05)
결론: 두 방법 간에 유의미한 차이 존재

비교 분석

방법 비교	평균 차이	평균 유사도	상대 비율	재사용 유형
RelaMethod vs CompareRela	0.2015	0.3510	57.4%	의존형 재사용
featureMethd vs compareMP3Method	0.1038	0.0726	14.3%	부분 관련

실험 발견

관계형 재사용이 더 안정적: 구조적 연결에 의존하는 관계형 재사용이 부분적 중복을 기반으로 하는 특성형 재사용보다 더 안정적으로 수행됨.
명시적 분리의 효과: LLM에 질문-해결책 쌍을 직접 제공하는 것보다 명확하게 생성하도록 지시하는 것이 더 효과적.
통계적 유의성: 관계형 재사용의 통계적 분리가 더 강함 (t값 9.23 vs 4.80), 효과가 더 신뢰할 수 있음을 나타냄.

이론적 분석

논리층 재사용

전통적인 LLM은 토큰 수준에서 분포 P(wt+1|w1,w2,...,wt)를 학습하며, 주로 통계적 공출현 패턴을 포착한다. 본 프레임워크는 방법 M=(Q,S)의 표현을 통해 논리층의 재사용 매핑을 실현한다:

R: (Qa, Sa) → (Qb, Sa)  (15)

합리적 재사용

토큰 확률 기반 선택과 달리, 방법 재사용은 논리적 적용성에 기반한다:

Preuse(Ss|Qt) ∝ Simlogic(Qt, Qs) · I[Ss valid]  (19)

재사용이 통계적 빈도가 아닌 논리적 이전성에 기반함을 보장한다.

결론 및 논의

주요 결론

교차 질문 방법 재사용 프레임워크는 LLM의 적용 범위를 성공적으로 확장하여 유사성이 낮은 문제를 처리할 수 있게 함.
관계형 재사용은 일반-특수 의존성 처리 시 더 안정적으로 수행되며, 특성형 재사용은 암묵적 중복 처리를 위한 보완 메커니즘을 제공함.
구조화된 질문-해결책 분리 전략은 방법 재사용의 효과성을 크게 향상시킴.

한계

특성형 재사용 효과 제한: 관계형 재사용과 비교하여 특성형 재사용의 개선 폭이 작음.
검증 메커니즘 의존성: Valid 함수의 구현이 재사용 효과에 영향을 미칠 수 있음.
계산 복잡도: 대규모 특성 공간의 유사도 계산이 시간 소모적일 수 있음.

향후 방향

특성 추출 및 유사도 계산 방법 개선
더 지능형 검증 메커니즘 개발
더 복잡한 다단계 문제 해결 시나리오로 확장

심층 평가

장점

높은 혁신성: LLM에서 낮은 유사성 문제의 방법 재사용을 처음으로 체계적으로 해결
견고한 이론적 기초: 단어 수준 예측에서 논리층 추론으로의 이론적 프레임워크 제공
합리적 실험 설계: 구체적 사례를 통한 방법의 효과성 검증
높은 실용 가치: LLM의 실제 적용을 위한 새로운 사고 제공

부족한 점

제한된 실험 규모: 두 가지 특정 시나리오에서만 검증되었으며, 대규모 실험 부족
모호한 특성 정의: 특성 공간 구축에 대한 체계적 지침 부족
계산 효율성 미평가: 방법의 계산 오버헤드 및 확장성 분석 미실시
단일 비교 방법: 다른 선진 방법과의 비교 부족

영향력

이론적 기여: LLM 추론 능력 향상을 위한 새로운 이론적 관점 제공
실무 가치: 교차 영역 지식 이전이 필요한 실제 시나리오에 적용 가능
영감 제공: 후속 연구를 위한 가치 있는 방향 제시

적용 시나리오

지식 이전: 한 영역의 해결책을 다른 영역에 적용해야 하는 경우
창의적 문제 해결: 새로운 문제에 직면했을 때 유추 해결책 찾기
교육 보조: 학습자가 서로 다른 문제 간의 내재적 연관성을 이해하도록 지원
전문가 시스템: 기존 지식을 유연하게 적용할 수 있는 지능형 시스템 구축

참고문헌

Wei, J. et al. "Chain-of-thought prompting elicits reasoning in large language models." NeurIPS 2022.
Wang, X. et al. "Self-consistency improves chain of thought reasoning in language models." arXiv 2022.
Yao, S. et al. "Tree of thoughts: Deliberate problem solving with large language models." NeurIPS 2023.
Su, H. "Method-based reasoning for large language models: Extraction, reuse, and continuous improvement." arXiv 2025.

종합 평가: 본 논문은 혁신적인 교차 질문 방법 재사용 프레임워크를 제안하여 낮은 유사성 시나리오에서 LLM의 적용 능력을 성공적으로 확장했다. 실험 규모 및 일부 기술적 세부사항에서 개선 여지가 있지만, 그 이론적 기여와 실용적 가치는 LLM 추론 연구 분야의 중요한 작업으로 만든다.