2025-11-16T01:40:12.068255

Cross-Question Method Reuse in Large Language Models: From Word-Level Prediction to Rational Logical-Layer Reasoning

Large language models (LLMs) have been widely applied to assist in finding solutions for diverse questions. Prior work has proposed representing a method as a pair of a question and its corresponding solution, enabling method reuse. However, existing approaches typically require the questions to be highly similar. In this paper, we extend the scope of method reuse to address questions with low similarity or with hidden similarities that are not explicitly observable. For questions that are similar in a general-specific sense (i.e., broader or narrower in scope), we propose to first separate the question and solution, rather than directly feeding the pair to the LLM. The LLM is then guided to adapt the solution to new but related questions, allowing it to focus on solution transfer rather than question recognition. Furthermore, we extend this approach to cases where questions only share partial features or hidden characteristics. This enables cross-question method reuse beyond conventional similarity constraints. Experimental verification shows that our scope-extension approach increases the probability of filtering out reusable solutions, thereby improving the effectiveness of cross-question method reuse.

academic

Wiederverwendung von Methoden über Fragen hinweg in großen Sprachmodellen: Von der Wort-Ebenen-Vorhersage zum rationalen logischen Schicht-Reasoning

Grundlegende Informationen

Paper-ID: 2509.05660
Titel: Cross-Question Method Reuse in Large Language Models: From Word-Level Prediction to Rational Logical-Layer Reasoning
Autor: Hong Su (Fakultät für Informatik, Chengdu University of Information Technology)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichtes Journal: Journal of LaTeX Class Files, Vol. 14, No. 8, August 2015
Paper-Link: https://arxiv.org/abs/2509.05660v2

Zusammenfassung

Große Sprachmodelle (LLMs) werden häufig zur Unterstützung bei der Lösung verschiedener Probleme eingesetzt. Frühere Arbeiten schlugen vor, Methoden als Paare von Fragen und ihren entsprechenden Lösungen darzustellen, um Methodenwiederverwendung zu ermöglichen. Bestehende Methoden erfordern jedoch typischerweise eine hohe Ähnlichkeit zwischen Fragen. Dieses Paper erweitert den Umfang der Methodenwiederverwendung auf Probleme mit geringerer Ähnlichkeit oder impliziter Ähnlichkeit. Für Fragen, die in einem allgemeinen-spezifischen Sinne ähnlich sind, schlagen die Autoren vor, zunächst Fragen und Lösungen zu trennen, anstatt sie direkt als Paare dem LLM zuzuführen. Anschließend wird das LLM angewiesen, die Lösung an die neue verwandte Frage anzupassen, wobei der Fokus auf der Lösungsübertragung statt auf der Fragenerkennung liegt. Darüber hinaus wird die Methode auf Fragen erweitert, die nur teilweise Merkmale oder verborgene Eigenschaften teilen. Experimentelle Validierungen zeigen, dass diese Umfangserweiterung die Wahrscheinlichkeit erhöht, wiederverwendbare Lösungen auszuwählen, und somit die Effektivität der Methodenwiederverwendung über Fragen hinweg verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle große Sprachmodelle werden hauptsächlich auf Wort-Ebene trainiert, indem sie das nächste Token vorhersagen oder fehlende Tokens ausfüllen. Diese Trainingsmethode spiegelt hauptsächlich statistische Kookkurrenz wider, nicht höherstufiges logisches Reasoning – eher Intuition oder Mustererkennung als rationale Entscheidungsfindung.

Forschungsmotivation

Einschränkungen des Wort-Ebenen-Reasoning: Aktuelle Transformer-basierte LLMs haben Schwierigkeiten mit Methoden-Ebenen-Reasoning und bevorzugen tendenziell häufig auftretende Methoden in Trainingsdaten, auch wenn diese nicht optimal sind.
Einschränkungen der Methodenwiederverwendung: Bestehende Methodenwiederverwendungsrahmen erfordern hohe Ähnlichkeit zwischen Fragen, was ihren Anwendungsbereich einschränkt.
Bedarf an domänenübergreifender Wissensübertragung: Menschen können Lösungen eines Problems analog auf scheinbar unabhängige neue Probleme anwenden, aber aktuelle LLMs fehlt diese Fähigkeit zur Methodenwiederverwendung über Fragen hinweg.

Kernherausforderungen

Wie können LLMs Lösungen effektiv wiederverwendet werden, wenn die Ähnlichkeit zwischen Fragen gering ist oder keine offensichtliche Verbindung besteht?

Kernbeiträge

Erweiterung des Methodenwiederverwendungsumfangs: Erweiterung der Methodenwiederverwendung von hochähnlichen Fällen auf allgemein-spezifische Abbildungen und auf Merkmalen basierende verborgene Beziehungen.
Vorschlag eines Modells zur Methodenwiederverwendung über Fragen hinweg:
- Beziehungsbasierte Wiederverwendung: Behandlung allgemeiner-spezifischer und paralleler Beziehungen
- Merkmalsbasierte Wiederverwendung: Unterstützung teilweiser Merkmalsübereinstimmung und Erkennung verborgener Eigenschaften
Einführung des Konzepts "Method of Methods" (MoM): Bereitstellung höherstufiger Methoden zur Validierung, Verbesserung und Verbesserung der Effektivität aktuell angewendeter Methoden.
Theoretischer Rahmen: Aufstieg von Wort-Ebenen-Vorhersage zu logischen Schicht-Reasoning, Realisierung rationaler statt rein statistischer Lösungsanwendung.

Methodische Details

Aufgabendefinition

Gegeben eine Zielfrage Qt: Finden Sie aus einer bestehenden Methodenbibliothek wiederverwendbare Lösungen, auch wenn die ursprünglichen Fragen dieser Methoden eine geringe Ähnlichkeit mit der Zielfrage aufweisen oder implizite Beziehungen bestehen.

Modellarchitektur

1. Beziehungsbasierte Methodenwiederverwendung

Allgemein-Spezifische Methode: Wenn zwei Methoden Ma und Mb die Fragenmengen Qma und Qmb lösen und folgende Bedingung erfüllen:

Qma ⊃ Qmb  (1)

dann ist Ma allgemeiner als Mb und kann für vertikale Wiederverwendung herangezogen werden.

Parallele Methoden: Zwei Methoden sind parallel, wenn und nur wenn ihre Fragenmengen disjunkte Teilmengen einer breiteren Kategorie sind:

Qma ∩ Qmb = ∅, Qma ⊂ Qg, Qmb ⊂ Qg  (2)

2. Merkmalsbasierte Methodenwiederverwendung

Merkmalraum-Definition: Für eine Frage Q werden ihre Merkmale wie folgt definiert:

F(Q) ⊆ F, F(Q) = Fmeas(Q) ∪ Ftext(Q)  (3)

wobei Fmeas(Q) explizite numerische Attribute sind und Ftext(Q) Merkmale sind, die durch einen gelernten Encoder h(·) aus Text extrahiert werden.

Merkmalsähnlichkeit:

Simfeat(Qa, Qb) = S(F(Qa), F(Qb))  (5)

Wiederverwendungsbedingung:

Reusefeat(Qb; Sa) = {
    1, if Simfeat(Qa, Qb) ≥ τ and Valid(Sa, Qb) = 1
    0, otherwise
}  (6)

3. Globale Methoden

Globale Methoden Gi = (Qgi, Sgi) haben breite Anwendbarkeit und können als universelle Programmverbesserungen dienen, um Zuverlässigkeit und Konsistenz der Methodenausführung zu erhöhen.

4. Method of Methods (MoM)

MoM ist hierarchisch nach Tiefe organisiert:

M(0): Direkte Methoden, Q ↦ S
M(1): Methoden erster Ordnung, M(0) ↦ M(0)'
M(i+1): Methoden (i+1)-ter Ordnung, M(i) ↦ M(i)'

Technische Innovationen

Strategie der Frage-Lösungs-Trennung: Anstatt Frage-Lösungs-Paare direkt dem LLM zuzuführen, werden sie zunächst getrennt und dann wird das LLM angewiesen, die Lösungsübertragung durchzuführen.
Mehrstufige Ähnlichkeitserkennung:
- Explizite Merkmalsübereinstimmung
- Inferenz verborgener Eigenschaften
- Wiederverwendung allgemeiner Methodenvorlagen
Hierarchischer Validierungsmechanismus: Durch die Valid-Funktion wird die logische Gültigkeit der Lösung im neuen Kontext sichergestellt.

Experimentelle Einrichtung

Datensätze

Experimente verwenden zwei Arten von Testszenarien:

Beziehungsbasierte Wiederverwendungstests: Beurteilung der Bananenfrischtheit, Wiederverwendung allgemeiner Methoden zur Obstfrischtheit
Merkmalsbasierte Wiederverwendungstests: Zurücksetzen der Festplattenbenutzungszeit, Wiederverwendung von MP3-Dateiverarbeitungserfahrung

Bewertungsmetriken

Kosinus-Ähnlichkeit: Messung der Ausrichtung zwischen generierter Lösung und Zielmethode
Statistische Signifikanztests: Verwendung unabhängiger Stichproben-t-Tests zur Bewertung von Unterschieden zwischen Methoden

Vergleichsmethoden

RelaMethod vs CompareRela: Bewertung der Effektivität beziehungsbasierter Wiederverwendung
featureMethd vs compareMP3Method: Bewertung der Effektivität merkmalsbasierter Wiederverwendung

Implementierungsdetails

20 Durchläufe pro Methode
Verwendung von Welch's t-Test für statistische Analyse
Vergleich nur relevanter Textsegmente mit Zielmethode zur Rauschreduzierung

Experimentelle Ergebnisse

Hauptergebnisse

Beziehungsbasierte Wiederverwendungsexperimente:

RelaMethod durchschnittliche Ähnlichkeit: 0,4835 (Standardabweichung: 0,0801)
CompareRela durchschnittliche Ähnlichkeit: 0,2820 (Standardabweichung: 0,0558)
t-Wert: 9,23, p-Wert: 8,98×10^-11 (p < 0,05)
Schlussfolgerung: RelaMethod ist signifikant besser als Baseline-Methode

Merkmalsbasierte Wiederverwendungsexperimente:

featureMethd durchschnittliche Ähnlichkeit: 0,2945 (Standardabweichung: 0,0698)
compareMP3Method durchschnittliche Ähnlichkeit: 0,3983 (Standardabweichung: 0,0670)
t-Wert: -4,80, p-Wert: 2,52×10^-5 (p < 0,05)
Schlussfolgerung: Signifikante Unterschiede zwischen beiden Methoden

Vergleichende Analyse

Methodenvergleich	Durchschnittlicher Unterschied	Durchschnittliche Ähnlichkeit	Relatives Verhältnis	Wiederverwendungstyp
RelaMethod vs CompareRela	0,2015	0,3510	57,4%	Abhängigkeitsbasierte Wiederverwendung
featureMethd vs compareMP3Method	0,1038	0,0726	14,3%	Teilweise Assoziation

Experimentelle Erkenntnisse

Beziehungsbasierte Wiederverwendung ist stabiler: Auf strukturellen Verbindungen basierende beziehungsbasierte Wiederverwendung zeigt stabilere Leistung als auf teilweiser Überlappung basierende merkmalsbasierte Wiederverwendung.
Effekt expliziter Trennung: Das explizite Anweisen des LJM, Frage-Lösungs-Paare zu generieren, ist effektiver als direktes Bereitstellen von Material.
Statistische Signifikanz: Die statistische Trennung beziehungsbasierter Wiederverwendung ist stärker (t-Wert 9,23 vs 4,80), was auf zuverlässigere Ergebnisse hindeutet.

Theoretische Analyse

Logische Schicht-Wiederverwendung

Traditionelle LLMs lernen auf Token-Ebene die Verteilung P(wt+1|w1,w2,...,wt), die hauptsächlich statistische Kookkurrenzmuster erfasst. Dieser Rahmen realisiert durch die Darstellung von Methoden M=(Q,S) logische Schicht-Wiederverwendungsmapping:

R: (Qa, Sa) → (Qb, Sa)  (15)

Rationale Wiederverwendung

Im Gegensatz zur auf Token-Wahrscheinlichkeit basierenden Auswahl basiert Methodenwiederverwendung auf logischer Anwendbarkeit:

Preuse(Ss|Qt) ∝ Simlogic(Qt, Qs) · I[Ss valid]  (19)

Dies stellt sicher, dass die Wiederverwendung auf logischer Übertragbarkeit statt auf statistischer Häufigkeit basiert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Der Rahmen zur Methodenwiederverwendung über Fragen hinweg erweitert erfolgreich den Anwendungsbereich von LLMs, sodass sie Probleme mit geringerer Ähnlichkeit behandeln können.
Beziehungsbasierte Wiederverwendung zeigt bei der Behandlung allgemeiner-spezifischer Abhängigkeiten stabilere Leistung, während merkmalsbasierte Wiederverwendung einen ergänzenden Mechanismus für die Behandlung impliziter Überlappungen bietet.
Die strukturierte Strategie der Frage-Lösungs-Trennung erhöht die Effektivität der Methodenwiederverwendung erheblich.

Einschränkungen

Begrenzte Effektivität merkmalsbasierter Wiederverwendung: Im Vergleich zu beziehungsbasierter Wiederverwendung ist die Verbesserung merkmalsbasierter Wiederverwendung geringer.
Abhängigkeit vom Validierungsmechanismus: Die Implementierung der Valid-Funktion kann die Wiederverwendungseffektivität beeinflussen.
Rechenkomplexität: Die Ähnlichkeitsberechnung in großen Merkmalräumen kann zeitaufwändig sein.

Zukünftige Richtungen

Verbesserung von Merkmalsextraktions- und Ähnlichkeitsberechnungsmethoden
Entwicklung intelligenterer Validierungsmechanismen
Erweiterung auf komplexere mehrstufige Problemlösungsszenarien

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erste systematische Behandlung des Problems der Methodenwiederverwendung bei LLMs mit geringer Ähnlichkeit
Solide theoretische Grundlagen: Bereitstellung eines theoretischen Rahmens vom Wort-Ebenen-Reasoning zur logischen Schicht-Reasoning
Angemessenes Experimentaldesign: Validierung der Methodeneffektivität durch konkrete Fälle
Hoher praktischer Wert: Neue Perspektiven für praktische Anwendungen von LLMs

Mängel

Begrenzte Experimentskala: Validierung nur in zwei spezifischen Szenarien, Mangel an großflächigen Experimenten
Vage Merkmalsdefinition: Konstruktion des Merkmalraums fehlt systematische Anleitung
Rechneneffizienz nicht bewertet: Keine Analyse des Rechenaufwands und der Skalierbarkeit der Methode
Einzelne Vergleichsmethoden: Mangel an Vergleichen mit anderen fortgeschrittenen Methoden

Auswirkungen

Theoretischer Beitrag: Neue theoretische Perspektive für die Verbesserung der Reasoning-Fähigkeit von LLMs
Praktischer Wert: Anwendbar auf Szenarien, die domänenübergreifende Wissensübertragung erfordern
Inspirativ: Bietet wertvolle Richtungen für nachfolgende Forschung

Anwendungsszenarien

Wissensübertragung: Anwendung von Lösungen aus einem Bereich auf einen anderen
Innovative Problemlösung: Suche nach analogen Lösungen bei neuen Problemen
Bildungsunterstützung: Hilfe für Lernende, innere Verbindungen zwischen verschiedenen Problemen zu verstehen
Expertensysteme: Konstruktion intelligenter Systeme, die bestehendes Wissen flexibel anwenden können

Literaturverzeichnis

Wei, J. et al. "Chain-of-thought prompting elicits reasoning in large language models." NeurIPS 2022.
Wang, X. et al. "Self-consistency improves chain of thought reasoning in language models." arXiv 2022.
Yao, S. et al. "Tree of thoughts: Deliberate problem solving with large language models." NeurIPS 2023.
Su, H. "Method-based reasoning for large language models: Extraction, reuse, and continuous improvement." arXiv 2025.

Gesamtbewertung: Dieses Paper stellt einen innovativen Rahmen zur Methodenwiederverwendung über Fragen hinweg vor und erweitert erfolgreich die Anwendungsfähigkeit von LLMs in Szenarien mit geringer Ähnlichkeit. Obwohl es noch Verbesserungspotenzial in der Experimentskala und einigen technischen Details gibt, machen seine theoretischen Beiträge und praktischen Werte es zu einer wichtigen Arbeit im Bereich der LLM-Reasoning-Forschung.