Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
- 논문 ID: 2510.13839
- 제목: Meronymic Ontology Extraction via Large Language Models
- 저자: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
- 분류: cs.CL cs.AI
- 발표 시간: 2025년 10월 11일 (arXiv 사전 인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.13839
본 논문은 대규모 언어 모델(LLMs)의 최신 발전을 활용하여 원본 리뷰 텍스트에서 제품 온톨로지(부분-전체 관계 형태)를 추출하는 완전 자동화 방법을 개발했습니다. 연구 결과, 본 방법이 생성한 온톨로지는 LLM을 평가자로 사용하는 평가에서 기존의 BERT 기반 기준 방법을 능가합니다. 이 연구는 온톨로지 추출 작업에서 LLMs의 광범위한 응용을 위한 기초를 마련합니다.
디지털 시대에 대량의 비정형 텍스트 데이터는 온톨로지를 통해 조직화되고 구조화되어야 합니다. 특히 전자상거래 분야에서 수많은 제품 목록은 적절한 제품 조직 구조가 필요합니다. 부분-전체 관계(meronymic relations)는 리뷰 집계, 감정 분석 및 제품 질의응답 등 하위 작업에서 중요한 가치를 가집니다.
- 수작업 구축 비용 높음: 온톨로지를 수동으로 구축하는 것은 시간이 많이 걸리고 비용이 많이 들며 번거로운 과정입니다
- 기존 자동화 방법 부족: 이전 연구는 주로 분류 관계(taxonomic relations)에 집중했으며 부분-전체 관계 추출은 미흡합니다
- 평가 어려움: 표준 벤치마크 데이터셋 부족으로 부분-전체 온톨로지의 품질을 효과적으로 평가하기 어렵습니다
- 인간 주석 의존: Oksanen 등(2021)의 BERT 방법과 같은 기존 방법은 여전히 일정 수준의 인간 주석이 필요합니다
본 논문은 LLMs의 강력한 능력을 활용하여 완전 자동화된 부분-전체 온톨로지 추출 방법을 개발하고, 방법의 유효성을 검증하기 위한 새로운 평가 프레임워크를 제안하는 것을 목표로 합니다.
- 완전 자동화 LLM 방법 제안: LLMs를 사용하여 부분-전체 온톨로지 추출을 수행하는 완전 자동화 방법을 개발했으며, 다양한 제품 범주에 걸쳐 일반화할 수 있습니다
- 혁신적 평가 프레임워크: LLM을 평가자로 사용(LLM-as-a-judge)하여 부분-전체 온톨로지 추출의 각 작업에 대한 실증적 평가를 수행하는 새로운 방법을 제안합니다
- 성능 향상 검증: 실험을 통해 LLM 방법이 관련성 측면에서 BERT 기반 기준 방법을 크게 능가함을 증명했습니다
- 오픈소스 코드 제공: 완전한 구현 코드를 제공하여 연구의 재현성을 촉진합니다
입력: 제품 리뷰 텍스트
출력: 부분-전체 온톨로지 그래프(개념 노드 및 그들 간의 "부분-전체" 관계 포함)
제약: 관계는 의미 있는 부분-전체 관계여야 하며, 개념은 제품과 관련되어야 합니다
본 논문이 제안한 방법은 네 가지 주요 단계의 파이프라인으로 구성됩니다:
- 방법: Mistral-7B-Instruct-v0.2을 미세 조정하여 사용
- 훈련 데이터: SemEval-2014 Task 4 데이터셋(1,600개 샘플)
- 후처리: POS 태깅을 사용한 필터링으로 리뷰에 실제로 나타나는 명사만 보존
- 출력 제어: 가장 일반적인 50개 양상 선택
- 임베딩 모델: 미세 조정된 FastText 모델(철자 오류 및 약자 처리)
- 클러스터링 알고리즘: 코사인 유사도 기반 등거리 노드 클러스터링(ENC)
- 장점: K-means에 비해 더 정확한 클러스터링 결과 생성
- 대표 선택: 각 동의어 집합에서 가장 자주 나타나는 용어를 대표로 선택
- 관련성 판단: LLM 프롬프트를 사용하여 용어를 온톨로지에 포함할지 여부 판단
- 필터링 기준: 관련성, 특이성, 계층성
- 입력 처리: 서로 다른 동의어 집합의 두 양상을 포함하는 문장 추출
- 작업 설계: 다중 선택 문제(양상 A는 양상 B의 일부/양상 B는 양상 A의 일부/무관)
- 모델 훈련: 1,000개의 합성 샘플에서 Mistral 모델을 증류를 통해 미세 조정
- 엔드-투-엔드 LLM 파이프라인: BERT 방법에 비해 더 높은 수준의 자동화 달성
- 구조화된 출력 제약: JSON 문법 제약을 사용하여 출력 형식 일관성 보장
- 다단계 최적화: 각 단계는 특정 작업에 최적화되어 전체 성능 향상
- 환각 완화: POS 태깅 필터링 및 미세 조정을 통해 LLM 환각 문제 감소
- 출처: Amazon Reviews 2023 데이터셋
- 제품 범주: 5개 범주(비디오 게임, TV, 목걸이/시계, 스탠드 믹서)
- 데이터 규모: 각 제품당 10만 개 리뷰(믹서는 26,464개)
- 처리 제한: LLM 작업은 1,000개 리뷰 사용(처리 시간 고려)
용어 평가 기준:
- 관련성: 용어가 제품의 부분 또는 구성 요소를 정확히 나타내는지 여부
- 특이성: 용어가 적절한 특이성 수준을 가지는지 여부
- 명확성: 용어가 의도를 명확하게 전달하고 모호함을 피하는지 여부
- 제품 일치도: 용어가 논리적으로 주어진 제품에 적합한지 여부
관계 평가 기준:
- 논리적 계층: 자식 노드가 부모 노드의 논리적 부분 또는 특징을 나타내는지 여부
- 문맥 일치: 관계가 Amazon 제품 범주에서 합리적인지 여부
- 명확성 및 특이성: 관계가 모호함을 피하고 부분-전체 관계를 명확하게 정의하는지 여부
- 기준 방법: Oksanen 등(2021)의 BERT 기반 방법
- 평가 방법: Gemini 1.5 Flash를 LLM 평가자로 사용
- 비교 버전: 전체 버전 및 축약 버전(기준 용어 수와 동일)
- 하드웨어: NVIDIA GeForce RTX 4090 GPU
- 최적화기: Adam (학습률 10^-4)
- 미세 조정 기법: LoRA (r=4, α=16)
- 훈련 에포크: 3 에포크, 배치 크기 16
| 제품 범주 | 본 논문 방법(전체) | 본 논문 방법(축약) | BERT 기준 |
|---|
| 비디오 게임 | 4.00 | 4.18 | 3.92 |
| TV | 4.06 | 4.05 | 3.95 |
| 목걸이 | 4.50 | 4.57 | 3.86 |
| 시계 | 4.13 | 4.37 | 4.10 |
| 스탠드 믹서 | 4.36 | 4.40 | 3.31 |
| 제품 범주 | 본 논문 방법(전체) | 본 논문 방법(축약) | BERT 기준 |
|---|
| 비디오 게임 | 3.89 | 3.82 | 3.43 |
| TV | 3.99 | 4.56 | 3.21 |
| 목걸이 | 3.65 | 3.79 | 3.29 |
| 시계 | 3.75 | 4.06 | 2.68 |
| 스탠드 믹서 | 3.30 | 3.40 | 2.47 |
| 방법 | 평균 점수 |
|---|
| 방법 A1(프롬프트만) | 1.960 ± 0.006 |
| 방법 A2(프롬프트+감정) | 2.259 ± 0.002 |
| 방법 A3(미세 조정) | 2.662 ± 0.006 |
| 방법 | 비디오 게임 | TV | 목걸이 | 시계 | 믹서 |
|---|
| 전체 리뷰 | 3.811 | 4.155 | 3.397 | 3.570 | 3.080 |
| 발췌문 | 3.727 | 3.726 | 3.481 | 3.398 | 2.493 |
| 발췌문+미세 조정 | 3.893 | 3.987 | 3.646 | 3.747 | 3.303 |
| 단계 | 평균 시간(분) |
|---|
| 양상 추출 | 32.05 |
| 동의어 집합 추출 | 0.78 |
| 개념 추출 | 1.52 |
| 관계 추출 | 4.53 |
| 합계 | 38.89 |
| 단계 | 평균 시간(분) |
|---|
| 엔티티 추출 | 1.66 |
| 양상 추출 | 2.79 |
| 동의어 추출 | 0.82 |
| 온톨로지 추출 | 1.36 |
| 합계 | 6.62 |
- 품질 향상: LLM 방법은 용어 및 관계 품질 모두에서 BERT 기준을 크게 능가합니다
- 미세 조정의 중요성: 미세 조정은 순수 프롬프트 방법에 비해 현저한 성능 향상을 가져옵니다
- 계산 비용: LLM 방법은 품질이 더 높지만 계산 비용은 BERT 방법의 약 6배입니다
- 클러스터링 알고리즘 선택: ENC는 K-means에 비해 더 정확한 동의어 집합을 생성합니다
전통적인 온톨로지 학습은 주로 심층 학습 방법에 의존하지만, 대부분 분류 관계에 집중하며 부분-전체 관계 추출은 미흡합니다.
최근 연구는 용어 및 관계 추출 등 주요 온톨로지 학습 작업에서 LLMs의 응용을 탐색하기 시작했지만, 주로 분류 관계에 초점을 맞춥니다.
표준 벤치마크 부족으로 인해 온톨로지 품질 평가는 항상 도전 과제였습니다. 본 논문이 제안한 LLM-as-a-judge 방법은 이 문제에 새로운 해결책을 제공합니다.
- LLM 방법은 부분-전체 온톨로지 추출 작업에서 기존 BERT 방법을 크게 능가합니다
- 미세 조정 및 구조화된 출력 제약은 성능 향상의 핵심 요소입니다
- LLM-as-a-judge는 온톨로지 품질 평가를 위한 실행 가능한 솔루션을 제공합니다
- 평가 의존성: 주로 LLM-as-a-judge에 의존하며 사용자 연구 검증이 부족합니다
- 계산 비용: BERT 방법에 비해 계산 비용이 크게 증가합니다
- 환각 문제: LLM은 여전히 무관한 양상을 생성하는 환각 문제가 있습니다
- 벤치마크 부재: 제품 온톨로지 분야에 표준 벤치마크 데이터셋이 부족합니다
- 표준 벤치마크 구축: 이 작업에 대한 표준 벤치마크 데이터셋 구축
- 사용자 연구 검증: 사용자 연구를 통해 온톨로지의 실용성 검증
- 방법 일반화: 다른 유형의 온톨로지(예: 분류 온톨로지)에서 방법의 응용 탐색
- 환각 완화: 단일 모델의 환각을 줄이기 위해 여러 LLM을 통합하는 방법 연구
- 높은 창의성: 부분-전체 온톨로지 추출에 LLMs를 체계적으로 적용한 첫 사례
- 완전한 방법: 엔드-투-엔드 완전 파이프라인 솔루션 제공
- 평가 혁신: LLM-as-a-judge 평가 프레임워크 제안
- 충분한 실험: 상세한 절제 실험 및 효율성 분석 포함
- 오픈소스 기여: 완전한 오픈소스 구현 제공
- 평가 한계: LLM 평가에 과도하게 의존하며 인간 평가 검증 부족
- 비용 고려: 계산 비용 증가가 크지만 비용-효과 균형에 대한 충분한 논의 부족
- 일반화성: 5개 제품 범주에서만 검증되어 일반화성 추가 검증 필요
- 벤치마크 비교: 더 많은 기존 방법과의 비교 부족
- 학술적 가치: 온톨로지 구축에서 LLMs의 응용에 중요한 참고 자료 제공
- 실용적 가치: 전자상거래 등 분야에 직접 응용 가능성
- 방법론적 기여: LLM-as-a-judge 평가 프레임워크의 광범위한 적용 가능성
- 재현성: 상세한 구현 세부 사항 및 오픈소스 코드 제공
- 전자상거래 플랫폼: 제품 분류 및 추천 시스템
- 지식 그래프 구축: 자동화된 온톨로지 구축
- 정보 추출: 비정형 텍스트에서 구조화된 관계 추출
- 리뷰 분석: 제품 특징 및 구성 요소 식별
본 논문은 관련 분야의 중요한 연구를 인용했습니다:
- Oksanen et al. (2021): BERT 기반 제품 온톨로지 추출 방법
- Devlin et al. (2019): BERT 모델
- Jiang et al. (2023): Mistral 모델
- Pontiki et al. (2014): SemEval-2014 Task 4 데이터셋
종합 평가: 이것은 부분-전체 온톨로지 추출 분야에서 중요한 기여를 하는 논문입니다. 방법의 창의성이 높고 실험 설계가 합리적이며 결과가 설득력 있습니다. 평가 방법 및 계산 비용 측면에서 일부 한계가 있지만, 이 분야의 발전에 가치 있는 통찰력과 도구를 제공합니다.