2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

Grundlegende Informationen

  • Paper-ID: 2510.08800
  • Titel: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
  • Autoren: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: Januar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.08800
  • Institutionen: ByteDance Douyin Content Group, School of Computer Science and Technology, Universität Suzhou

Zusammenfassung

Obwohl große Sprachmodelle (LLMs) fortgeschrittene Reasoning-Fähigkeiten demonstrieren, ist eine umfassende Bewertung im chinesischen Kontext noch unzureichend. Um diese Lücke zu schließen, wird in diesem Papier das Chinese Commonsense Multi-hop Reasoning (CCMOR) Benchmark vorgestellt, das darauf abzielt, die Fähigkeit von LLMs zu bewerten, chinesisches faktisches Wissen mit mehrstufigem logischem Reasoning zu integrieren. Konkret konstruieren die Autoren zunächst einen domänenausgeglichenen Seed-Satz aus bestehenden QA-Datensätzen und entwickeln dann eine LLM-basierte Pipeline zur Generierung von Multi-Hop-Fragen basierend auf Faktenkettenelementen. Um die Datensatzqualität zu gewährleisten, wird ein Mensch-Maschine-Kooperations-Validierungssystem implementiert, bei dem Domänenexperten die generierten Fragen systematisch überprüfen und verfeinern. Die Bewertung der neuesten LLMs mit CCMOR zeigt, dass LLMs bei der Verarbeitung von Long-Tail-Wissen und bei der Durchführung von wissensintensivem Reasoning anhaltende Einschränkungen aufweisen. Bemerkenswert ist, dass Retrieval-Augmented Generation diese Wissenslücken erheblich mindert und zu signifikanten Leistungsverbesserungen führt.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernfrage dieser Forschung ist: Wie kann man die Fähigkeit großer Sprachmodelle beim chinesischen Multi-Hop-Reasoning-Task umfassend bewerten? Dies umfasst konkret:

  1. Mangel an chinesischer Reasoning-Bewertung: Bestehende Multi-Hop-Reasoning-Datensätze konzentrieren sich hauptsächlich auf Englisch und es fehlt eine systematische Bewertungsressource für den chinesischen Kontext
  2. Unzureichende kulturelle Relevanz: Es ist notwendig, ein Bewertungs-Benchmark zu schaffen, das in chinesischem Kulturwissen, Redewendungen und logischen Reasoning-Mustern verwurzelt ist
  3. Reasoning vs. Memorization: Es ist notwendig, echte Reasoning-Fähigkeiten von einfacher Memorization zu unterscheiden

Forschungsbedeutung

  1. Technische Anforderung: Mit dem Aufkommen spezialisierter Reasoning-Modelle wie OpenAI-o1 und DeepSeek-R1 ist eine spezialisierte Bewertung für chinesische Szenarien erforderlich
  2. Anwendungswert: Chinesisch ist eine der meistgesprochenen Sprachen der Welt, und die Bewertung der chinesischen Reasoning-Fähigkeit hat wichtigen praktischen Wert
  3. Akademische Lücke: Schließung der akademischen Lücke in der chinesischen Multi-Hop-Reasoning-Bewertung

Einschränkungen bestehender Methoden

  1. Sprachliche Einschränkungen: HotpotQA, WikiHop, DROP und andere konzentrieren sich hauptsächlich auf Englisch
  2. Schlechte kulturelle Anpassung: Direkt übersetzte Datensätze können chinesische spezifische Kultur und Reasoning-Muster nicht widerspiegeln
  3. Schwierigkeiten bei der Qualitätskontrolle: Der Aufbau hochwertiger chinesischer Multi-Hop-Reasoning-Datensätze steht vor Herausforderungen bei Genauigkeit, Konsistenz und Klarheit

Kernbeiträge

  1. Vorstellung des CCMOR-Benchmarks: Das erste umfassende Bewertungs-Benchmark speziell für chinesisches Multi-Hop-Reasoning
  2. Innovative Datenkonstruktionsmethode: Entwicklung einer automatisierten LLM-basierten Pipeline in Kombination mit einem Mensch-Maschine-Kooperations-Validierungssystem
  3. Umfassende experimentelle Bewertung: Systematische Bewertung der neuesten LLMs, die deren Einschränkungen bei wissensintensivem Reasoning offenbaren
  4. Tiefgreifende analytische Erkenntnisse: Bereitstellung detaillierter Analysen zu verschiedenen Reasoning-Stilen, Prompt-Strategien und RAG-Effekten

Methodische Details

Aufgabendefinition

CCMOR zielt darauf ab, die Fähigkeiten von LLMs in folgenden Bereichen zu bewerten:

  • Eingabe: Chinesische Multi-Hop-Reasoning-Fragen, die die Integration mehrerer Fakten für Reasoning erfordern
  • Ausgabe: Endgültige Antwort sowie optionale Zwischenschritte des Reasoning
  • Einschränkungen: Fragen müssen auf überprüfbaren Faktenketten basieren, Antworten müssen eindeutig und spezifisch sein

Datenkonstruktionsprozess

Schritt 1: Seed-Daten-Sampling

  • Datenquellen: Bestehende chinesische Fakten-QA-Datensätze wie Chinese SimpleQA, CHARM-Memorization
  • Domänenklassifizierung: Verwendung von LLM zur Neuklassifizierung von Fragen in sechs Hauptdomänen: Chinesische Kultur, Geisteswissenschaften und Sozialwissenschaften, Ingenieurwesen und Technologie, Leben und Kunst, Gesellschaft, Naturwissenschaften
  • Qualitätskontrolle: Mehrere LLMs bewerten die Korrektheit und Klarheit jedes QA-Paares

Schritt 2: Rekursive Unterfrage-Generierung

  • Verankertes Faktum: Verwendung der Antwort der vorherigen Ebene als verankertes Faktum zur Generierung nachfolgender Fragen
  • Rekursive Erweiterung: Auf jeder Ebene ℓ ∈ 1,N werden für jedes QA-Paar n neue QA-Paare generiert:
    QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
    
  • Vielfaltssicherung: Abwechselnde Verwendung verschiedener LLMs zur Reduzierung modellspezifischer Verzerrungen

Schritt 3: Multi-Hop-Frage-Kombinierung

  • Pfad-Sampling: Sampling aller gültigen Pfade der Länge L aus der Baumstruktur
  • Frage-Kombinierung: Kombinierung unabhängiger QA-Paare zu kohärenten Multi-Hop-Fragen
  • Qualitätsbewertung: Bewertung der globalen Antwort-Eindeutigkeit, Sequenz-Konsistenz und Harmlosigkeit

Qualitätskontrollmechanismen

LLM-Validierungsstandards

  1. Beantwortbarkeit und Verifizierbarkeit: Fragen müssen konkrete, begrenzte, verifizierbare Antwortsätze haben
  2. Spezifität und Bestimmtheit: Fragen sollten sich klar auf spezifische Fakten oder Beziehungen beziehen
  3. Zeit- und Faktenstabilität: Antworten müssen objektive, zeitinvariante Fakten sein

Mensch-Maschine-Kooperations-Validierung

  • Professionelle Annotatoren: Unabhängige Überprüfung durch Domänenexperten
  • Mehrfach-Validierung: Jede Instanz wird von zwei Annotatoren unabhängig überprüft, Meinungsverschiedenheiten werden durch einen Dritten gelöst
  • Autoritäts-Validierung: Alle Fakten werden gegen autoritative Quellen überprüft

Experimentelle Einrichtung

Datensatzgröße

  • 3-Hop-Fragen: 480 (gefiltert aus 1000 initialen Samples)
  • 6-Hop-Fragen: 166 (gefiltert aus 1000 initialen Samples)
  • Durchschnittliche Länge: 39,19 Zeichen für 3-Hop-Fragen, 68,51 Zeichen für 6-Hop-Fragen
  • Domänenabdeckung: Durchschnittlich 1,65 Domänen (3-Hop) und 2,26 Domänen (6-Hop)

Bewertungsmetriken

  1. ROUGE-L Recall: Messung der Überlappung auf Wortebene
  2. LLM-as-Judge Genauigkeit: Verwendung von drei unabhängigen Urteilsmodellen für semantische Bewertung mit Mehrheitsvotum

Bewertungseinrichtung

  1. Schrittweise Frage-Antwort (SQA): Zerlegung von Multi-Hop-Fragen in Unterfragen mit schrittweiser Beantwortung
  2. Gesamtantwort (OA): Direkte Beantwortung der vollständigen Multi-Hop-Frage

Vergleichsmodelle

  • System-1-Stil: Qwen2.5/3-Serie, LLaMA3, GPT-4-Serie, Gemini-2.5 usw.
  • System-2-Stil: DeepSeek-R1, OpenAI-o1, Qwen-QwQ und andere Modelle mit langkettigem Denken

Experimentelle Ergebnisse

Hauptergebnisse

  1. Gesamtleistung: Selbst Top-Modelle erreichen durchschnittliche Multi-Hop-Genauigkeit unter 75%, was die Herausforderung des Benchmarks zeigt
  2. System-2-Vorteil: Modelle mit tiefem Denkvermögen übertreffen System-1-Modelle in OA-Einrichtungen erheblich
  3. Hop-Effekt: Die Leistung sinkt signifikant mit zunehmender Anzahl von Reasoning-Hops
  4. SQA vs. OA-Lücke: Alle Modelle zeigen anhaltende Leistungslücken zwischen SQA und OA, was darauf hindeutet, dass umfassendes Reasoning weiterhin herausfordernd ist

Spezifische Leistungsdaten

  • Bestes Modell: Gemini-2.5-Pro erreicht 73,61% durchschnittliche Genauigkeit
  • Chinesischer Vorteil: Yi-lightning, GLM-4, Doubao und andere chinesische Community-Modelle zeigen in bestimmten Einrichtungen hervorragende Leistung
  • Closed-Source vs. Open-Source: Closed-Source-Modelle übertreffen durchgehend Open-Source-Modelle

Domänenanalyse

  • Leichteste Domäne: Naturwissenschaften mit durchschnittlich 83,93 Punkten
  • Schwierigste Domäne: Leben und Kunst mit durchschnittlich 66,61 Punkten
  • Chinesische Kultur: Chinesische Community-Modelle zeigen bessere Leistung in der Domäne Chinesische Kultur

RAG-Effekt

  • Signifikante Verbesserung: RAG bringt durchschnittlich 9,5 Prozentpunkte Genauigkeitsverbesserung
  • Modellunterschiede: Doubao zeigt die größte Verbesserung, während Kimi und Wenxin begrenzte Verbesserungen zeigen
  • Multi-Round-Retrieval: Modelle, die Multi-Round-Retrieval unterstützen, haben Vorteile bei Multi-Hop-Reasoning

Verwandte Arbeiten

Multi-Hop-Reasoning-Benchmarks

  • Englische Benchmarks: HotpotQA, 2WikiMultiHopQA, MuSiQue und andere legten den Grundstein
  • Neueste Entwicklungen: MoreHopQA, Multihop-RAG und andere nutzen LLMs zur Konstruktion höherwertiger Fragen
  • Chinesische Lücke: NLPCC-MH, CoreCode, CHARM und andere zeigen erste Bemühungen, aber es fehlt eine systematische verifizierbare mehrstufige Reasoning-Bewertung

Chinesische Commonsense-Benchmarks

  • Entwicklungsverlauf: Von der Übersetzung englischer Benchmarks zu nativen chinesischen Bewertungen
  • Repräsentative Arbeiten: C3, CMQA, Chinese SimpleQA und andere
  • Einschränkungen: Konzentrieren sich hauptsächlich auf Single-Hop-Faktenfragen, fehlt Multi-Hop-Reasoning-Bewertung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Leistungseinschränkungen: Aktuelle State-of-the-Art-LLMs zeigen signifikante Einschränkungen beim chinesischen Multi-Hop-Reasoning
  2. Wichtigkeit des Reasoning-Stils: System-2-Stil mit tiefem Denken ist für Multi-Hop-Reasoning entscheidend
  3. RAG-Effektivität: Retrieval-Augmented Generation kann wissensintensives Reasoning erheblich verbessern
  4. Domänenunterschiede: Faktenzentrierte Domänen sind relativ leicht, prozedurales oder abstraktes Reasoning ist herausfordernder

Einschränkungen

  1. LLM-Abhängigkeit: Der Datenkonstruktionsprozess hängt von der LLM-Generierung ab, was zu Halluzinationen oder Verzerrungen führen kann
  2. Bewertungsmethode: LLM-as-Judge-Bewertung kann durch modellspezifische Vorlieben beeinflusst werden
  3. Abdeckungsbereich: Konzentriert sich auf textbasiertes Commonsense-Wissen, deckt Multimodal-Reasoning nicht ab

Zukünftige Richtungen

  1. Multimodale Erweiterung: Erweiterung des Benchmarks auf Multimodal-Reasoning-Aufgaben
  2. Interaktives Reasoning: Einbeziehung von Szenarien, die mehrfache Interaktionen erfordern
  3. Reasoning-Spezialisierung: Entwicklung spezialisierter Modelle für Reasoning

Tiefgreifende Bewertung

Stärken

  1. Schließung wichtiger Lücke: Erstes systematisches chinesisches Multi-Hop-Reasoning-Benchmark mit wichtigem akademischem und praktischem Wert
  2. Methodische Innovation: LLM-gesteuerte Datenkonstruktions-Pipeline kombiniert mit Mensch-Maschine-Kooperations-Validierung gewährleistet Datenqualität
  3. Umfassende Bewertung: Systematische Bewertung mehrerer Modelltypen, Reasoning-Stile und Verbesserungstechniken
  4. Tiefgreifende Analyse: Bereitstellung reichhaltiger Analysedimensionen einschließlich Domäne, Reasoning-Stil, Prompt-Strategie usw.
  5. Hochwertige Qualitätskontrolle: Strenge Qualitätskontrollstandards und mehrfach-Validierungsmechanismen

Mängel

  1. Größenbeschränkung: Datensatzgröße ist relativ klein (646 Fragen), was die Vollständigkeit der Bewertung beeinträchtigen kann
  2. Konstruktionskosten: Die Mensch-Maschine-Kooperations-Konstruktionsmethode ist kostspielig und schwer zu skalieren
  3. Bewertungsabhängigkeit: Übermäßige Abhängigkeit von LLM-as-Judge, was zu Bewertungsverzerrungen führen kann
  4. Domänenausgleich: Obwohl Domänenausgleich angestrebt wird, können Samples in bestimmten Domänen möglicherweise immer noch unzureichend sein

Auswirkungen

  1. Akademischer Beitrag: Bereitstellung wichtiger Bewertungsressourcen für das chinesische NLP-Feld
  2. Praktischer Wert: Direkte Orientierungshilfe für die Entwicklung und Bewertung chinesischer LLMs
  3. Methodische Inspiration: Datenkonstruktionsmethode bietet Referenzwert für ähnliche Benchmark-Konstruktion in anderen Sprachen
  4. Reproduzierbarkeit: Detaillierte Methodenbeschreibung und versprochene Datenverfügbarkeit gewährleisten Reproduzierbarkeit

Anwendungsszenarien

  1. Modellbewertung: Bewertung der Reasoning-Fähigkeiten chinesischer LLMs
  2. Modellentwicklung: Orientierung für Verbesserung der Reasoning-Fähigkeiten
  3. Anwendungsbereitstellung: Leistungsreferenz für chinesische Anwendungen, die komplexes Reasoning erfordern
  4. Forschungs-Benchmark: Als Standard-Bewertungs-Benchmark für chinesische Reasoning-Forschung

Literaturverzeichnis

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • HotpotQA (Yang et al., 2018): Grundlegende Arbeit zum Multi-Hop-Reasoning
  • Chinese SimpleQA (He et al., 2024): Hochwertiges chinesisches Fakten-QA-Benchmark
  • MoreHopQA (Schnitzler et al., 2024): Teilweise Inspirationsquelle für die Methode dieses Papiers
  • CHARM (Sun et al., 2024): Verwandte Arbeiten zum chinesischen Commonsense-Reasoning

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine wichtige Lücke in der chinesischen Multi-Hop-Reasoning-Bewertung schließt. Die Methodik ist streng, die Experimente sind umfassend, die Analyse ist tiefgreifend und es hat wichtigen Wert für die Förderung der chinesischen NLP- und Reasoning-Forschung. Obwohl es einige Einschränkungen bei der Datengröße und Bewertungsmethode gibt, sind seine Beiträge signifikant und legen eine wichtige Grundlage für die Entwicklung dieses Feldes.