2025-11-21T03:40:14.666813

Investigating Large Language Models' Linguistic Abilities for Text Preprocessing

Braga, Milanese, Pasi

Text preprocessing is a fundamental component of Natural Language Processing, involving techniques such as stopword removal, stemming, and lemmatization to prepare text as input for further processing and analysis. Despite the context-dependent nature of the above techniques, traditional methods usually ignore contextual information. In this paper, we investigate the idea of using Large Language Models (LLMs) to perform various preprocessing tasks, due to their ability to take context into account without requiring extensive language-specific annotated resources. Through a comprehensive evaluation on web-sourced data, we compare LLM-based preprocessing (specifically stopword removal, lemmatization and stemming) to traditional algorithms across multiple text classification tasks in six European languages. Our analysis indicates that LLMs are capable of replicating traditional stopword removal, lemmatization, and stemming methods with accuracies reaching 97%, 82%, and 74%, respectively. Additionally, we show that ML algorithms trained on texts preprocessed by LLMs achieve an improvement of up to 6% with respect to the $F_1$ measure compared to traditional techniques. Our code, prompts, and results are publicly available at https://github.com/GianCarloMilanese/llm_pipeline_wi-iat.

academic

대규모 언어 모델의 텍스트 전처리 언어 능력 조사

기본 정보

논문 ID: 2510.11482
제목: Investigating Large Language Models' Linguistic Abilities for Text Preprocessing
저자: Marco Braga (University of Milano-Bicocca), Gian Carlo Milanese (University of Milano-Bicocca), Gabriella Pasi (University of Milano-Bicocca)
분류: cs.CL (계산 언어학), cs.AI (인공지능)
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11482

초록

텍스트 전처리는 자연언어처리의 기초 구성 요소로, 불용어 제거, 어간 추출 및 표제어 추출 등의 기법을 포함하며, 후속 처리 및 분석을 위해 텍스트 입력을 준비하는 데 사용됩니다. 이러한 기법들이 문맥 의존적임에도 불구하고, 전통적 방법들은 일반적으로 문맥 정보를 무시합니다. 본 논문은 대규모 언어 모델(LLMs)을 사용하여 다양한 전처리 작업을 수행하는 아이디어를 연구합니다. LLMs는 광범위한 언어별 주석 자원 없이도 문맥을 고려할 수 있기 때문입니다. 웹 데이터에 대한 포괄적인 평가를 통해, 6개 유럽 언어의 여러 텍스트 분류 작업에서 LLM 기반 전처리와 전통적 알고리즘을 비교했습니다. 분석 결과, LLMs는 전통적 불용어 제거, 표제어 추출 및 어간 추출 방법을 각각 97%, 82%, 74%의 정확도로 복제할 수 있음을 보여줍니다. 더욱이, LLM 전처리 텍스트로 훈련된 기계학습 알고리즘은 전통적 기법 대비 F1 지표에서 최대 6% 향상을 달성했습니다.

연구 배경 및 동기

문제 정의

텍스트 전처리는 NLP 파이프라인의 핵심 단계로, 불용어 제거, 어간 추출 및 표제어 추출 등의 작업을 포함합니다. 이러한 작업의 목적은 텍스트를 표준화하고, 계산 비용을 감소시키며, 노이즈와 무관한 정보를 줄이는 것입니다.

기존 방법의 한계

문맥 인식 부족: 전통적 전처리 방법은 주로 미리 정의된 불용어 목록과 고정된 어간/표제어 추출 규칙에 의존하며, 도메인 특정 정보와 문맥을 무시합니다.
품사 모호성 문제: 예를 들어, "saw"라는 단어는 동사일 때 "see"로 추출되어야 하고, 명사일 때는 "saw"로 유지되어야 합니다.
도메인 민감성: 동일한 단어가 서로 다른 도메인에서 다르게 처리될 수 있습니다. 예를 들어, "leaves"는 식물학 문서에서는 "leaf"로 추출되어야 하고, 직원 휴가 문서에서는 "leave"로 추출되어야 합니다.

연구 동기

LLMs는 강력한 언어 이해 능력을 가지고 있으며, 광범위한 언어별 주석 자원 없이도 언어 문맥을 고려할 수 있습니다. 본 연구는 LLMs가 입력 문서, 문맥 및 작업에 기반하여 불용어, 표제어 및 어간을 동적으로 감지할 수 있다고 가정합니다.

핵심 기여

최초 체계적 평가: 텍스트 전처리 작업(불용어 제거, 표제어 추출, 어간 추출)에서 LLMs의 능력에 대한 포괄적 평가
다국어 분석: 6개 유럽 언어(영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어)에서 방법의 유효성 검증
하위 작업 평가: LLM 전처리가 텍스트 분류 작업에서 전통적 방법 대비 성능 향상을 입증
오픈소스 기여: 코드, 프롬프트 및 실험 결과를 공개하여 재현 가능한 연구 촉진

방법론 상세 설명

작업 정의

본 연구는 3가지 핵심 전처리 작업을 정의합니다:

불용어 제거: 특정 작업에 중요하지 않은 어휘 식별 및 제거
표제어 추출: 어휘를 사전 형태(표제어)로 복원
어간 추출: 어휘를 어근 형태로 단순화

LLM 전처리 방법

연구는 문맥 내 학습(in-context learning) 방법을 채택하여 LLMs에 다음을 제공합니다:

작업 설명: 전처리 작업의 정식 정의
예시: 소수의 전처리 예시
입력 텍스트: 처리할 텍스트
언어 정보: 텍스트의 언어 식별자
작업 문맥: 하위 작업의 구체적 정보

프롬프트 엔지니어링

서로 다른 전처리 작업을 위해 전문화된 프롬프트 템플릿을 설계했습니다:

불용어 제거 예시:

You specialize in removing stopwords from text. Stopwords are words that are not relevant for processing a text. [...] In this case, the relevant task is detecting the sentiment of a tweet (positive, negative or neutral). In this task, the word 'not' is often not considered a stopword, and it should be kept in the text.

표제어 추출 예시:

You specialize in text lemmatization. [...] Lemmatization depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence.

다국어 처리 전략

영어가 아닌 언어의 경우, 영어 프롬프트와 목표 언어 프롬프트 두 가지 방식 사용
언어별 프롬프트가 추가 문맥 이점을 제공하는지 평가

실험 설정

데이터셋

영어 데이터셋

SemEval 시리즈: 이모지 예측, 풍자 감지, 혐오 표현 감지, 공격적 언어 식별 및 감정 분석 포함
뉴스 분류: Reuters 및 AG News 데이터셋
중점 관심: 비공식 언어와 높은 노이즈 수준으로 인한 Twitter 등 소셜 미디어 데이터

다국어 데이터셋

Tweet Sentiment Multilingual corpus: 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어 포함
샘플링 전략: 계산 비용으로 인해 최대 3,000개의 훈련 문서와 3,000개의 테스트 문서를 무작위 샘플링

모델 선택

5개의 오픈소스 SOTA LLMs를 평가했습니다:

Gemma-2-9B 및 Gemma-3-4B: 주로 영어 데이터로 훈련
LLama-3.1-8B: 기본 다국어 모델
Phi-4-mini (3.8B): 주로 영어 훈련
Qwen-2.5-7B: 기본 다국어 모델

기준선 방법

불용어 제거: NLTK에서 제공하는 불용어 목록
어간 추출: Porter, Lancaster 및 Snowball 알고리즘
표제어 추출: spaCy에서 제공하는 규칙 기반 또는 편집 트리 기반 표제어 추출기

평가 지표

RQ1 평가

SW: LLM이 제거한 어휘 중 NLTK 불용어 목록과 일치하는 백분율
NSW: LLM이 제거한 비불용어 백분율
L: LLM 표제어 추출 결과와 전통적 방법의 일치 백분율
S: LLM 어간 추출 결과와 전통적 방법의 일치 백분율

RQ2 평가

미시 평균 F1 점수를 사용하여 분류 성능 평가
3가지 기계학습 알고리즘에서 평균: 의사결정 트리, 로지스틱 회귀, 나이브 베이즈

실험 결과

전처리 능력 평가(RQ1)

영어 결과

불용어 제거: Gemma-2가 최고 성능, 84.29% 정확도 달성
표제어 추출: 모든 모델이 77% 이상의 정확도 초과, Gemma-2는 82.61% 달성
어간 추출: 상대적으로 낮은 성능, Gemma-2는 75.65% 달성(전통적 알고리즘 중 하나와 일치)

다국어 결과

불용어 제거: Gemma-2가 프랑스어에서 97% 정확도 달성, 다른 언어는 최소 79%
표제어 추출: Qwen-2.5가 프랑스어, 이탈리아어 및 스페인어에서 최고 성능
언어별 프롬프트: 목표 언어 프롬프트 사용이 더 나은 결과를 제공한다는 일관된 증거 없음

하위 작업 성능(RQ2)

영어 텍스트 분류

전체 성능: LLMs이 35개 데이터셋-전처리 작업 조합 중 25개에서 전통적 방법 초과
최고 결과: Gemma-2가 AG News 데이터셋의 불용어 제거 + 표제어 추출 작업에서 전통적 방법 대비 6.16% 향상
어간 추출 한계: LLM 어간 추출은 7개 데이터셋 중 3개에서만 전통적 방법 초과

다국어 텍스트 분류

평균 성능: LLMs이 평가 사례의 절반에서 전통적 기법과 동등하거나 더 나은 성능 달성
표제어 추출 이점: 5개 데이터셋 중 4개에서 최고 성능 달성
언어별 패턴: Llama-3.1이 언어별 프롬프트 사용 시 80%의 작업에서 성능 향상

주요 발견

문맥 민감성: LLMs는 전통적으로 불용어로 간주되지 않는 단어를 자주 제거하며, 이는 문맥 이해가 불용어 선택에 영향을 미친다는 가설을 지지합니다.
어간 추출 불일치: LLMs는 서로 다른 문서에서 동일한 단어에 대해 다른 어간을 생성할 수 있으며, 이는 비표준화된 텍스트 표현을 초래합니다.
모델 규모 효과: Gemma-3은 다른 대규모 모델의 약 절반의 매개변수를 가지고 있음에도 불구하고, 성능이 종종 비교 가능하거나 더 큰 모델을 초과합니다.

결론 및 논의

주요 결론

복제 능력: LLMs는 전통적 전처리 방법을 효과적으로 복제할 수 있으며, 불용어 제거, 표제어 추출 및 어간 추출의 정확도는 각각 97%, 82%, 74%입니다.
성능 향상: LLM 전처리 기반 기계학습 알고리즘은 F1 지표에서 최대 6% 향상을 달성합니다.
다국어 유효성: 방법은 여러 유럽 언어에서 유효성을 보여줍니다.

한계

평가 한계: LLM이 전통적 라이브러리보다 우수하지만 평가 지표로 포착되지 않는 경우가 있을 수 있습니다.
계산 비용: LLM 전처리의 계산 비용은 전통적 방법보다 훨씬 높습니다.
프롬프트 엔지니어링: 광범위한 프롬프트 엔지니어링이 수행되지 않았으며, 이는 결과에 영향을 미칠 수 있습니다.
어간 추출 일관성: LLMs는 어간 추출에서 일관성이 부족하여 하위 작업 성능에 영향을 미칩니다.

향후 방향

저자원 언어의 어간 추출 및 표제어 추출 도구로서 LLMs 탐색
더 효과적인 프롬프트 전략 및 문맥 내 학습 방법 연구
계산 효율이 더 높은 LLM 전처리 방안 개발

심층 평가

장점

연구 참신성: LLMs의 텍스트 전처리 작업 능력에 대한 최초 체계적 평가
실험 포괄성: 여러 언어, 다양한 작업 및 여러 모델을 포함한 포괄적 평가
실용적 가치: 저자원 언어의 텍스트 전처리를 위한 새로운 솔루션 제공
오픈소스 기여: 완전한 코드 및 데이터 제공으로 재현 가능한 연구 촉진

부족한 점

이론적 분석 부족: LLM 전처리 메커니즘에 대한 심층적 이론적 분석 부족
계산 효율 문제: 계산 비용과 성능 향상 간의 절충이 충분히 논의되지 않음
프롬프트 민감성: 서로 다른 프롬프트 전략이 결과에 미치는 영향에 대한 심층 탐색 부족
오류 분석 누락: LLM 전처리 오류 유형에 대한 상세 분석 부족

영향력

학술적 기여: NLP 전처리 분야에 새로운 연구 방향 제공
실용적 가치: 특히 완성된 전처리 도구가 부족한 저자원 언어에 적합
방법론적 영감: 전통적 NLP 작업에서 LLMs의 잠재력 시연

적용 시나리오

저자원 언어 처리: 고품질 표제어 추출기 및 어간 추출기가 부족한 언어
도메인 특정 응용: 문맥 민감 전처리가 필요한 특정 도메인 작업
다국어 시스템: 통일된 전처리 방안이 필요한 교차 언어 응용

참고문헌

논문은 37개의 관련 문헌을 인용하며, LLMs, 텍스트 전처리, 정보 검색 및 다국어 NLP 등 주요 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.

요약: 본 논문은 텍스트 전처리에서 LLMs의 응용을 개척적으로 탐색하며, 포괄적인 다국어 실험을 통해 문맥 인식 전처리에서 LLMs의 이점을 입증합니다. 높은 계산 비용 등의 한계가 있음에도 불구하고, 저자원 언어 및 문맥 민감 전처리 작업을 위한 가치 있는 솔루션을 제공합니다.