2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.

While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.

academic

중국어 상식 추론 벤치마킹: 다중 홉 추론 관점

기본 정보

논문 ID: 2510.08800
제목: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
저자: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
분류: cs.CL cs.AI
발표 시간: 2025년 1월 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2510.08800
기관: ByteDance Douyin 콘텐츠 그룹, 소주대학교 컴퓨터 과학 및 기술 학부

초록

대규모 언어 모델(LLMs)은 고급 추론 능력을 보여주지만, 중국어 맥락에서의 종합적 평가는 여전히 부족하다. 이러한 공백을 메우기 위해 본 논문은 중국어 상식 다중 홉 추론(CCMOR) 벤치마크를 제안하며, 이는 LLMs가 중국어 특정 사실 지식과 다단계 논리 추론을 통합하는 능력을 평가하기 위한 것이다. 구체적으로, 저자들은 먼저 기존 QA 데이터셋에서 영역 균형 시드 세트를 구축한 후, 사실 단위 체인 기반의 다중 홉 질문을 생성하기 위한 LLM 기반 파이프라인을 개발했다. 데이터셋 품질을 보장하기 위해 영역 전문가가 생성된 질문을 체계적으로 검증하고 개선하는 인간-기계 협력 검증 시스템을 구현했다. CCMOR를 사용하여 최첨단 LLMs를 평가한 결과, LLMs는 롱테일 지식 처리 및 지식 집약적 추론 수행에서 지속적인 한계를 보여준다. 주목할 만한 점은 검색 증강 생성이 이러한 지식 격차를 크게 완화하여 현저한 성능 향상을 가져온다는 것이다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 다음과 같다: 중국어 상식 다중 홉 추론 작업에서 대규모 언어 모델의 능력을 어떻게 종합적으로 평가할 것인가? 구체적으로는 다음을 포함한다:

중국어 추론 평가 부재: 기존의 다중 홉 추론 데이터셋은 주로 영어에 초점을 맞추고 있으며, 중국어 맥락에 대한 체계적 평가 자원이 부족하다
문화적 관련성 부족: 중국 문화 지식, 관용구 및 논리 추론 패턴에 기반한 평가 벤치마크가 필요하다
추론 대 기억: 진정한 추론 능력과 단순 기억 능력을 구분할 필요가 있다

연구의 중요성

기술적 필요성: OpenAI-o1, DeepSeek-R1 등 전문 추론 모델의 출현으로 중국어 시나리오에 맞춘 전문 평가가 필요하다
응용 가치: 중국어는 세계에서 가장 많은 사용자를 가진 언어 중 하나이며, 중국어 추론 능력 평가는 중요한 실용적 가치를 가진다
학술적 공백: 중국어 다중 홉 추론 평가의 학술적 공백을 메운다

기존 방법의 한계

언어 제한: HotpotQA, WikiHop, DROP 등은 주로 영어에 초점을 맞춘다
문화 적응성 부족: 직접 번역된 데이터셋은 중국어 특유의 문화와 추론 패턴을 반영할 수 없다
품질 관리 어려움: 고품질 중국어 다중 홉 추론 데이터셋 구축은 정확성, 일관성 및 명확성의 과제에 직면한다

핵심 기여

CCMOR 벤치마크 제안: 중국어 상식 다중 홉 추론을 위한 첫 번째 종합 평가 벤치마크
혁신적 데이터 구축 방법: LLM 기반 자동화 파이프라인과 인간-기계 협력 검증 시스템 개발
종합적 실험 평가: 최첨단 LLMs에 대한 체계적 평가로 지식 집약적 추론의 한계 규명
심층 분석 통찰: 다양한 추론 스타일, 프롬프트 전략 및 RAG 효과에 대한 상세 분석 제공

방법론 상세 설명

작업 정의

CCMOR는 LLMs의 다음 능력을 평가하기 위해 설계되었다:

입력: 여러 사실을 통합하여 추론이 필요한 중국어 다중 홉 추론 질문
출력: 최종 답변 및 선택적 중간 추론 단계
제약: 질문은 검증 가능한 사실 체인을 기반으로 하며, 답변은 유일하고 구체적이어야 한다

데이터 구축 프로세스

1단계: 시드 데이터 샘플링

데이터 소스: Chinese SimpleQA, CHARM-Memorization 등 기존 중국어 사실 QA 데이터셋
영역 분류: LLM을 사용하여 질문을 6개 주요 영역으로 재분류: 중국 문화, 인문 사회과학, 공학 및 기술, 생활 및 예술, 사회, 자연 과학
품질 관리: 각 QA 쌍의 정확성과 명확성을 여러 LLMs로 평가

2단계: 부질문 재귀 생성

고정 사실: 이전 계층의 답변을 고정 사실로 사용하여 후속 질문 생성
재귀 확장: 각 계층 ℓ ∈ 1,N에서 각 QA 쌍에 대해 n개의 새로운 QA 쌍 생성:
```
QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
```
다양성 보장: 서로 다른 LLMs를 교대로 사용하여 모델 특정 편향 감소

3단계: 다중 홉 질문 조합

경로 샘플링: 트리 구조에서 길이 L의 모든 유효한 경로 샘플링
질문 조합: 독립적인 QA 쌍을 일관된 다중 홉 질문으로 조합
품질 평가: 전역 답변 유일성, 시퀀스 일관성 및 무해성 평가

품질 관리 메커니즘

LLM 검증 기준

답변 가능성 및 검증 가능성: 질문은 구체적이고 제한된 검증 가능한 답변 집합을 가져야 한다
특이성 및 결정성: 질문은 특정 사실 또는 관계를 명확하게 대상으로 해야 한다
시간 및 사실 안정성: 답변은 객관적이고 시간 불변의 사실이어야 한다

인간-기계 협력 검증

전문 주석자: 영역 전문가에 의한 독립적 검토
다중 라운드 검증: 각 인스턴스는 두 명의 주석자에 의해 독립적으로 검토되며, 의견 불일치는 제3자가 해결
권위 검증: 모든 사실은 권위 있는 출처와 대조하여 검증

실험 설정

데이터셋 규모

3홉 질문: 480개 (1000개 초기 샘플에서 선별)
6홉 질문: 166개 (1000개 초기 샘플에서 선별)
평균 길이: 3홉 질문 39.19자, 6홉 질문 68.51자
영역 커버리지: 평균 1.65개 영역 (3홉) 및 2.26개 영역 (6홉)

평가 지표

ROUGE-L 재현율: 어휘 수준의 중복도 측정
LLM-as-Judge 정확도: 3개의 독립적 판단 모델을 사용한 의미 수준 평가, 다수결 투표 적용

평가 설정

단계별 질의응답(SQA): 다중 홉 질문을 부질문으로 분해하여 단계적으로 답변
전체 답변(OA): 완전한 다중 홉 질문에 직접 답변

비교 모델

System-1 스타일: Qwen2.5/3 시리즈, LLaMA3, GPT-4 시리즈, Gemini-2.5 등
System-2 스타일: DeepSeek-R1, OpenAI-o1, Qwen-QwQ 등 장시간 사고 체인을 가진 모델

실험 결과

주요 결과

전체 성능: 최상위 모델도 평균 다중 홉 정확도가 75% 미만으로, 벤치마크의 도전성을 보여준다
System-2 우위: 깊은 사고 능력을 가진 모델이 OA 설정에서 System-1 모델을 현저히 능가한다
홉 수 영향: 추론 홉 수 증가에 따라 성능이 현저히 감소한다
SQA 대 OA 격차: 모든 모델이 SQA와 OA 사이에 지속적인 성능 격차를 보이며, 종합 추론이 여전히 도전적임을 나타낸다

구체적 성능 데이터

최고 성능 모델: Gemini-2.5-Pro가 평균 정확도 73.61% 달성
중국어 우위: Yi-lightning, GLM-4, Doubao 등 중국어 커뮤니티 모델이 특정 설정에서 우수한 성능 발휘
폐쇄형 대 오픈소스: 폐쇄형 모델이 일반적으로 오픈소스 모델을 능가한다

영역 분석

가장 쉬운 영역: 자연 과학 평균 점수 83.93
가장 어려운 영역: 생활 및 예술 평균 점수 66.61
중국 문화: 중국어 커뮤니티 모델이 중국 문화 영역에서 더 나은 성능 발휘

RAG 효과

현저한 향상: RAG가 평균 9.5 퍼센트 포인트의 정확도 향상 제공
모델 차이: Doubao가 최대 개선을 보이는 반면, Kimi와 Wenxin은 제한된 개선
다중 라운드 검색: 다중 라운드 검색을 지원하는 모델이 다중 홉 추론에서 더 유리하다

결론 및 논의

주요 결론

성능 한계: 현재 최첨단 LLMs는 중국어 다중 홉 추론에서 여전히 현저한 한계를 보인다
추론 스타일의 중요성: System-2 스타일의 깊은 사고가 다중 홉 추론에 필수적이다
RAG 효과성: 검색 증강 생성이 지식 집약적 추론을 크게 개선할 수 있다
영역 차이: 사실 중심 영역은 상대적으로 쉬운 반면, 절차적 또는 추상적 추론은 더 도전적이다

한계

LLM 의존성: 데이터 구축 프로세스가 LLM 생성에 의존하여 환각 또는 편향을 초래할 수 있다
평가 방법: LLM-as-Judge 평가가 모델 특정 선호도의 영향을 받을 수 있다
커버리지 범위: 텍스트 상식 지식에 초점을 맞추며, 다중모달 추론을 포함하지 않는다

향후 방향

다중모달 확장: 벤치마크를 다중모달 추론 작업으로 확장
상호작용적 추론: 다중 라운드 상호작용이 필요한 추론 시나리오 포함
추론 특화: 추론에 특화된 모델 개발

심층 평가

장점

중요한 공백 해소: 중국어 다중 홉 추론 벤치마크의 첫 번째 체계적 구축으로 학술적, 실용적 가치가 크다
방법론 혁신: LLM 기반 데이터 구축 파이프라인과 인간-기계 협력 검증으로 데이터 품질 보장
종합적 평가: 다양한 모델 유형, 추론 스타일 및 강화 기술을 포함한 체계적 평가
심층 분석: 영역, 추론 스타일, 프롬프트 전략 등 풍부한 분석 차원 제공
높은 품질 관리: 엄격한 품질 관리 기준과 다중 라운드 검증 메커니즘

부족한 점

규모 제한: 데이터셋 규모가 상대적으로 작음 (646개 질문)으로 평가의 포괄성에 영향을 미칠 수 있다
구축 비용: 인간-기계 협력 구축 방식의 높은 비용으로 대규모 확장이 어렵다
평가 의존성: LLM-as-Judge에 과도하게 의존하여 평가 편향이 존재할 수 있다
영역 균형: 영역 균형을 추구하지만, 특정 영역의 샘플이 여전히 부족할 수 있다

영향력

학술 기여: 중국어 NLP 분야에 중요한 평가 자원 제공
실용 가치: 중국어 LLMs 개발 및 평가에 직접적 지도 의미
방법론 영감: 다른 언어의 유사 벤치마크 구축에 참고 가치
재현성: 상세한 방법 설명과 데이터 공개 약속으로 재현성 보장

적용 시나리오

모델 평가: 중국어 LLMs의 추론 능력 평가
모델 개발: 추론 능력 개선 방향 지도
응용 배포: 복잡한 추론이 필요한 중국어 응용의 성능 참고
연구 벤치마크: 중국어 추론 연구의 표준 평가 벤치마크

참고 문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용한다:

HotpotQA (Yang et al., 2018): 다중 홉 추론의 기초 연구
Chinese SimpleQA (He et al., 2024): 고품질 중국어 사실 QA 벤치마크
MoreHopQA (Schnitzler et al., 2024): 본 논문 방법의 부분적 영감 출처
CHARM (Sun et al., 2024): 중국어 상식 추론 관련 연구

종합 평가: 이는 중국어 다중 홉 추론 평가의 중요한 공백을 메우는 고품질 연구 논문이다. 논문의 방법론은 엄밀하고, 실험은 포괄적이며, 분석은 심층적으로, 중국어 NLP 및 추론 연구 발전에 중요한 가치를 가진다. 데이터 규모와 평가 방법에서 일부 한계가 있지만, 그 기여는 현저하며 해당 분야의 발전을 위한 중요한 기초를 마련한다.