Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
대규모 언어 모델(LLMs)은 고급 추론 능력을 보여주지만, 중국어 맥락에서의 종합적 평가는 여전히 부족하다. 이러한 공백을 메우기 위해 본 논문은 중국어 상식 다중 홉 추론(CCMOR) 벤치마크를 제안하며, 이는 LLMs가 중국어 특정 사실 지식과 다단계 논리 추론을 통합하는 능력을 평가하기 위한 것이다. 구체적으로, 저자들은 먼저 기존 QA 데이터셋에서 영역 균형 시드 세트를 구축한 후, 사실 단위 체인 기반의 다중 홉 질문을 생성하기 위한 LLM 기반 파이프라인을 개발했다. 데이터셋 품질을 보장하기 위해 영역 전문가가 생성된 질문을 체계적으로 검증하고 개선하는 인간-기계 협력 검증 시스템을 구현했다. CCMOR를 사용하여 최첨단 LLMs를 평가한 결과, LLMs는 롱테일 지식 처리 및 지식 집약적 추론 수행에서 지속적인 한계를 보여준다. 주목할 만한 점은 검색 증강 생성이 이러한 지식 격차를 크게 완화하여 현저한 성능 향상을 가져온다는 것이다.
Chinese SimpleQA (He et al., 2024): 고품질 중국어 사실 QA 벤치마크
MoreHopQA (Schnitzler et al., 2024): 본 논문 방법의 부분적 영감 출처
CHARM (Sun et al., 2024): 중국어 상식 추론 관련 연구
종합 평가: 이는 중국어 다중 홉 추론 평가의 중요한 공백을 메우는 고품질 연구 논문이다. 논문의 방법론은 엄밀하고, 실험은 포괄적이며, 분석은 심층적으로, 중국어 NLP 및 추론 연구 발전에 중요한 가치를 가진다. 데이터 규모와 평가 방법에서 일부 한계가 있지만, 그 기여는 현저하며 해당 분야의 발전을 위한 중요한 기초를 마련한다.