2025-11-17T04:37:13.070704

PAGE: Prompt Augmentation for text Generation Enhancement

Pacchiotti, Ballejos, Ale

In recent years, natural language generative models have shown outstanding performance in text generation tasks. However, when facing specific tasks or particular requirements, they may exhibit poor performance or require adjustments that demand large amounts of additional data. This work introduces PAGE (Prompt Augmentation for text Generation Enhancement), a framework designed to assist these models through the use of simple auxiliary modules. These modules, lightweight models such as classifiers or extractors, provide inferences from the input text. The output of these auxiliaries is then used to construct an enriched input that improves the quality and controllability of the generation. Unlike other generation-assistance approaches, PAGE does not require auxiliary generative models; instead, it proposes a simpler, modular architecture that is easy to adapt to different tasks. This paper presents the proposal, its components and architecture, and reports a proof of concept in the domain of requirements engineering, where an auxiliary module with a classifier is used to improve the quality of software requirements generation.

academic

PAGE: 텍스트 생성 향상을 위한 프롬프트 증강

기본 정보

논문 ID: 2510.13880
제목: PAGE: Prompt Augmentation for text Generation Enhancement
저자: Mauro José Pacchiotti, Luciana Ballejos, Mariel Ale (Universidad Tecnológica Nacional, Argentina)
분류: cs.CL cs.AI
기관: Universidad Tecnológica Nacional, Centro de I+D de Ing. en Sistemas de Información, Santa Fe, Argentina
논문 링크: https://arxiv.org/abs/2510.13880

초록

최근 자연언어생성 모델은 텍스트 생성 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 특정 작업이나 특수한 요구사항에 직면했을 때, 이러한 모델들은 성능이 저하되거나 대량의 추가 데이터를 필요로 합니다. 본 연구는 PAGE(Prompt Augmentation for text Generation Enhancement)를 제안하며, 이는 간단한 보조 모듈을 사용하여 이러한 모델들을 지원하는 프레임워크입니다. 이러한 보조 모듈들은 분류기나 추출기와 같은 경량 모델로, 입력 텍스트에서 추론 정보를 제공할 수 있습니다. 보조 모듈의 출력은 풍부한 입력을 구성하는 데 사용되어 생성된 텍스트의 품질과 제어 가능성을 향상시킵니다. 다른 생성 보조 방법과 달리, PAGE는 보조 생성 모델을 필요로 하지 않으며, 더 간단하고 모듈화되며 다양한 작업에 쉽게 적응할 수 있는 아키텍처를 제안합니다.

연구 배경 및 동기

핵심 문제

특정 작업 성능 부족: 대규모 언어 모델(LLM)은 일반적인 텍스트 생성 작업에서는 우수하지만, 특정 도메인이나 특수한 요구사항이 있는 작업에서는 종종 성능이 저하됩니다
미세 조정 비용 높음: 전통적인 해결책은 모델을 재훈련하거나 미세 조정하는 것이지만, 이는 대량의 고품질 데이터와 계산 자원을 필요로 합니다
자원 제약 문제: 많은 응용 시나리오에서 충분한 훈련 데이터와 계산 능력을 확보할 수 없습니다

연구 동기

자원 요구사항 감소: 대규모 재훈련 없이 생성 품질을 개선하는 방법 제공
제어 가능성 향상: 구조화된 정보를 통해 입력을 강화하여 생성을 더욱 제어 가능하고 정확하게 만듦
모듈화 설계: 다양한 작업에 쉽게 적응할 수 있는 유연한 아키텍처 구축
해석 가능성: 간단하고 해석 가능한 보조 모듈을 사용하여 이해와 디버깅을 용이하게 함

핵심 기여

PAGE 프레임워크 제안: 간단한 보조 모듈을 통해 텍스트 생성 품질을 개선하는 혁신적인 프롬프트 증강 아키텍처
모듈화 설계: 다른 방법과 달리 PAGE는 보조 생성 모델에 의존하지 않으며, 경량 분류기, 추출기 등을 사용
자원 친화적: 훈련 데이터와 계산 자원에 대한 요구사항을 크게 감소
실제 검증: 소프트웨어 요구사항 공학 분야에서 개념 증명 수행, EARS 문법을 사용한 구조화된 요구사항 생성
성능 향상: ROUGE 지표에서 기준 방법 대비 상당한 개선 달성 (ROUGE-1 65.41% 향상, ROUGE-2 205.62% 향상)

방법론 상세 설명

작업 정의

입력: 원본 텍스트 설명 (예: 자연언어 요구사항 설명) 출력: 구조화되고 고품질의 텍스트 (예: 특정 문법 규범을 준수하는 요구사항 표현) 목표: 보조 정보를 통해 입력 프롬프트를 강화하여 주 모델의 재훈련 없이 생성 품질 개선

모델 아키텍처

PAGE 프레임워크는 세 가지 핵심 구성 요소로 이루어져 있습니다:

1. 보조 모듈(Auxiliary Module)

기능: 입력 텍스트에 대한 추론을 수행하고 구조화된 정보 추출
유형:
- 분류기: 입력 텍스트에 관련 레이블 할당
- 개체 추출기: 텍스트에서 핵심 개체 식별 및 분류
- 감정 분석기: 텍스트의 감정 경향 또는 의도 감지
특징: 경량, 높은 해석 가능성, 낮은 훈련 비용

2. 프롬프트 구성기(Prompt Composer)

기능: 보조 모듈의 출력을 원본 텍스트와 결합하여 증강된 프롬프트 구성
구현: 구조화된 정보를 입력에 통합하기 위해 구성 가능한 템플릿 사용
출력: 생성 모델에 더 많은 지도 정보를 제공하는 풍부한 컨텍스트 프롬프트

3. 생성 모델(Generative Model)

기능: 증강된 프롬프트를 기반으로 최종 텍스트 생성
특징: 기존의 모든 LLM 사용 가능, 수정이나 재훈련 불필요
기술: zero-shot, one-shot, few-shot 등 다양한 프롬프팅 기법 지원

작업 흐름

원본 텍스트 → 보조 모듈 → 구조화된 정보
    ↓           ↓
    └→ 프롬프트 구성기 ←┘
           ↓
    증강된 프롬프트 → 생성 모델 → 최종 출력

사용자가 원본 텍스트 입력 제공
보조 모듈이 입력을 병렬 처리하여 구조화된 추론 정보 생성
프롬프트 구성기가 원본 텍스트와 보조 정보 결합
생성 모델이 증강된 프롬프트를 기반으로 최종 출력 생성

기술 혁신점

경량 보조: 큰 보조 생성 모델 사용 대신 간단한 분류기 등의 경량 구성 요소 채택
모듈화 아키텍처: 각 구성 요소를 독립적으로 최적화 및 교체 가능하며 높은 적응성 제공
재훈련 불필요: 주 생성 모델은 변경되지 않으며, 프롬프트 증강만으로 성능 개선
높은 해석 가능성: 보조 모듈 출력이 명확한 텍스트 구조로 이해와 디버깅 용이

실험 설정

데이터셋

출처: 다중 데이터셋 통합
- PURE 데이터셋: 공개 요구사항 문서 모음
- Software Functional Requirements 데이터셋
- 공개 규격 문서의 요구사항
규모: 253개 인스턴스
구조:
- 원본 요구사항 표현 (특정 문법 구조 없음)
- EARS 카테고리 레이블
- 수작업으로 작성된 EARS 문법 요구사항 표현
카테고리 분포: EARS의 5가지 카테고리 포함 (Ubiquitous, Event-driven, State-driven, Unwanted, Optional)

평가 지표

ROUGE 지표 계열을 사용하여 생성 품질 평가:

ROUGE-1: 단어 수준의 중복도
ROUGE-2: 이중 단어 조합의 일치도
ROUGE-L: 최장 공통 부분수열로 구조 보존도 측정

각 지표는 Precision, Recall, F1-Score의 세 가지 차원에서 계산됩니다.

비교 방법

세 가지 실험 그룹 설계:

Zero-shot 기준: 증강 없이 LLM 직접 사용
이상적 상한선: 데이터셋의 정확한 레이블을 보조 정보로 사용
PAGE 완전 구현: 훈련된 분류기를 보조 모듈로 사용

구현 세부사항

보조 분류기: Random Forest 모델
- 최대 깊이: 10
- 최소 분할 샘플 수: 5
- 추정기 수: 100
- 정확도: 82.35%
생성 모델: Llama 3.1-8B, Ollama를 통한 로컬 배포
데이터 분할: 80% 훈련, 20% 테스트, 5-fold 교차 검증

실험 결과

주요 결과

방법	지표	Precision	Recall	F1-Score
Zero-Shot	ROUGE-1	0.509	0.489	0.485
	ROUGE-2	0.206	0.204	0.199
	ROUGE-L	0.413	0.395	0.392
Dataset-samples	ROUGE-1	0.852	0.815	0.827
	ROUGE-2	0.653	0.630	0.636
	ROUGE-L	0.803	0.770	0.781
PAGE	ROUGE-1	0.849	0.809	0.822
	ROUGE-2	0.648	0.622	0.630
	ROUGE-L	0.796	0.761	0.772

성능 향상 분석

기준 방법 대비 개선 폭:

ROUGE-1: 65.41% 향상
ROUGE-2: 205.62% 향상
ROUGE-L: 92.79% 향상

PAGE는 이상적 상한선에 가까운 성능을 달성하며, 단 2-4 백분 포인트 뒤처져 방법의 효과성을 입증합니다.

사례 분석

예시 1 (Ubiquitous 카테고리):

원본 입력: "The system shall allow a customer to place an order online"
Zero-shot 출력: 복잡한 구조화된 설명 (Actor, Event, Role 등)
PAGE 출력: "The system shall always allow a customer to place an order online"
예상 출력: "The system shall allow a customer to place an order online"

예시 2 (Event-driven 카테고리):

원본 입력: "When a driver completes a ride, the system shall allow the driver to leave a review"
Zero-shot 출력: "The Driver shall be enabled to submit a review after successfully completing a ride"
PAGE 출력: "When a ride is completed, the Application shall enable the driver to leave a review"

실험 발견

보조 모듈의 핵심 역할: 분류 정확도가 최종 생성 품질에 직접 영향
Few-shot 학습의 현저한 효과: 관련 예시 제공이 생성 구조를 크게 개선
모듈화의 장점: 각 구성 요소의 기여도를 독립적으로 평가 및 최적화 가능
자원 효율성: 대형 모델 재훈련의 높은 비용 회피

결론 및 논의

주요 결론

효과성 검증: PAGE는 소프트웨어 요구사항 생성 작업에서 기준 방법을 크게 초과
자원 친화적: 간단한 보조 모듈을 통해 성능 향상 달성, 재훈련 비용 회피
아키텍처 장점: 모듈화 설계로 우수한 해석 가능성과 적응성 제공
실용적 가치: 자원 제약 환경에서의 텍스트 생성 최적화를 위한 실행 가능한 솔루션 제공

한계점

보조 모듈 의존성: 생성 품질이 보조 모듈의 정확도에 제약됨
도메인 특화: 현재 검증은 요구사항 공학 분야에만 제한됨
데이터셋 규모: 실험에 사용된 데이터셋이 상대적으로 작음 (253개 인스턴스)
평가 지표 한계: 주로 ROUGE 지표에 의존하며 인간 평가 부재

향후 방향

프레임워크 구현: 재사용 가능한 PAGE 구현을 제공하는 Python 소프트웨어 프레임워크 개발
다중 도메인 검증: 더 많은 응용 분야에서 프레임워크 효과성 테스트
보조 모듈 최적화: 더 효율적인 보조 모듈 설계 전략 연구
평가 체계 개선: 더 포괄적인 평가 지표 및 인간 평가 도입

심층 평가

장점

높은 혁신성: 독특한 경량 보조 증강 솔루션 제안
높은 실용적 가치: 실제 응용의 자원 제약 문제 해결
합리적 설계: 모듈화 아키텍처로 이해, 구현, 확장 용이
충분한 실험: 이상적 상한선 분석을 포함한 합리적인 비교 실험 설계
현저한 결과: 다양한 지표에서 큰 성능 향상 달성

부족한 점

제한된 검증 범위: 특정 분야(요구사항 공학)에서만 검증
작은 데이터셋: 253개 인스턴스의 데이터셋이 방법의 일반화 능력을 충분히 검증하기에 부족할 수 있음
불충분한 기준 비교: 다른 프롬프트 증강 방법과의 직접 비교 부재
이론적 분석 부족: 방법이 효과적인 이유에 대한 심층적 이론적 설명 부재
인간 평가 부재: 자동 지표에만 의존하며 전문가 평가 부재

영향력

학술적 기여: 텍스트 생성 증강을 위한 새로운 연구 방향 제시
실용적 가치: 자원 제약 시나리오에서의 생성 최적화를 위한 실용적 솔루션 제공
재현 가능성: 방법 설명이 명확하고 구현이 상대적으로 간단
확장성: 프레임워크 설계가 우수한 확장성 보유

적용 시나리오

전문 분야 텍스트 생성: 기술 문서, 법률 조항 등 특정 형식이 필요한 텍스트
자원 제약 환경: 대형 모델 미세 조정이 불가능한 응용 시나리오
빠른 프로토타입 개발: 새로운 작업에 빠르게 적응이 필요한 응용
높은 해석 가능성 요구: 생성 과정 이해가 필요한 응용 시나리오

참고문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

Transformer 아키텍처의 기초 연구 (Vaswani et al., 2017)
주요 대규모 언어 모델 (GPT, BERT, T5, Llama 등)
EARS 요구사항 문법 규범 (Mavin et al., 2009)
ROUGE 평가 지표 (Lin, 2004)
관련 생성 증강 방법 등

종합 평가: 이는 혁신적인 방법을 제안하는 연구 논문입니다. PAGE 프레임워크는 텍스트 생성 증강을 위한 새로운 사고 방식을 제공합니다. 검증 범위와 이론적 분석 측면에서 개선의 여지가 있지만, 실용적 가치와 기술 혁신성은 주목할 만합니다. 이 방법은 특히 특정 작업에 빠르게 적응해야 하면서 자원이 제한된 응용 시나리오에 적합합니다.