2025-11-17T04:37:13.070704

PAGE: Prompt Augmentation for text Generation Enhancement

Pacchiotti, Ballejos, Ale

In recent years, natural language generative models have shown outstanding performance in text generation tasks. However, when facing specific tasks or particular requirements, they may exhibit poor performance or require adjustments that demand large amounts of additional data. This work introduces PAGE (Prompt Augmentation for text Generation Enhancement), a framework designed to assist these models through the use of simple auxiliary modules. These modules, lightweight models such as classifiers or extractors, provide inferences from the input text. The output of these auxiliaries is then used to construct an enriched input that improves the quality and controllability of the generation. Unlike other generation-assistance approaches, PAGE does not require auxiliary generative models; instead, it proposes a simpler, modular architecture that is easy to adapt to different tasks. This paper presents the proposal, its components and architecture, and reports a proof of concept in the domain of requirements engineering, where an auxiliary module with a classifier is used to improve the quality of software requirements generation.

academic

PAGE: पाठ निर्माण वृद्धि के लिए संकेत वर्धन

बुनियादी जानकारी

पेपर ID: 2510.13880
शीर्षक: PAGE: Prompt Augmentation for text Generation Enhancement
लेखक: Mauro José Pacchiotti, Luciana Ballejos, Mariel Ale (Universidad Tecnológica Nacional, Argentina)
वर्गीकरण: cs.CL cs.AI
संस्थान: Universidad Tecnológica Nacional, Centro de I+D de Ing. en Sistemas de Información, Santa Fe, Argentina
पेपर लिंक: https://arxiv.org/abs/2510.13880

सारांश

हाल के वर्षों में, प्राकृतिक भाषा निर्माण मॉडल पाठ निर्माण कार्यों में उत्कृष्ट प्रदर्शन प्रदर्शित कर रहे हैं। हालांकि, विशिष्ट कार्यों या विशेष आवश्यकताओं का सामना करते समय, ये मॉडल खराब प्रदर्शन कर सकते हैं या समायोजन के लिए बड़ी मात्रा में अतिरिक्त डेटा की आवश्यकता हो सकती है। यह अनुसंधान PAGE (Prompt Augmentation for text Generation Enhancement) प्रस्तावित करता है, जो सरल सहायक मॉड्यूल का उपयोग करके इन मॉडलों को सहायता देने के लिए एक ढांचा है। ये सहायक मॉड्यूल हल्के वजन वाले मॉडल हैं, जैसे वर्गीकरण या निष्कर्षण, जो इनपुट पाठ से तर्क संबंधी जानकारी प्रदान कर सकते हैं। सहायक मॉड्यूल के आउटपुट का उपयोग समृद्ध इनपुट बनाने के लिए किया जाता है, जिससे निर्मित पाठ की गुणवत्ता और नियंत्रणीयता में सुधार होता है। अन्य निर्माण सहायता विधियों के विपरीत, PAGE को सहायक निर्माण मॉडल की आवश्यकता नहीं है, बल्कि एक सरल, मॉड्यूलर और विभिन्न कार्यों के अनुकूल आसान वास्तुकला प्रस्तावित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

विशिष्ट कार्य प्रदर्शन अपर्याप्त: बड़े भाषा मॉडल (LLM) सामान्य पाठ निर्माण कार्यों में उत्कृष्ट हैं, लेकिन विशिष्ट डोमेन या विशेष आवश्यकताओं वाले कार्यों का सामना करते समय अक्सर खराब प्रदर्शन करते हैं
सूक्ष्म-समायोजन की उच्च लागत: पारंपरिक समाधान मॉडल को पुनः प्रशिक्षित या सूक्ष्म-समायोजित करना है, लेकिन इसके लिए बड़ी मात्रा में उच्च-गुणवत्ता वाले डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता है
संसाधन सीमा समस्या: कई अनुप्रयोग परिदृश्य पर्याप्त प्रशिक्षण डेटा और कम्प्यूटेशनल क्षमता प्राप्त नहीं कर सकते हैं

अनुसंधान प्रेरणा

संसाधन आवश्यकताओं को कम करना: बड़े पैमाने पर पुनः प्रशिक्षण के बिना निर्माण गुणवत्ता में सुधार करने का एक तरीका प्रदान करना
नियंत्रणीयता में सुधार: संरचित जानकारी के साथ इनपुट को बढ़ाकर, निर्माण को अधिक नियंत्रणीय और सटीक बनाना
मॉड्यूलर डिजाइन: विभिन्न कार्यों के लिए अनुकूल करने में आसान लचीली वास्तुकला बनाना
व्याख्यात्मकता: सरल, व्याख्यात्मक सहायक मॉड्यूल का उपयोग करके समझ और डिबगिंग को सुविधाजनक बनाना

मुख्य योगदान

PAGE ढांचा प्रस्तावित करना: एक नवीन संकेत वर्धन वास्तुकला जो सरल सहायक मॉड्यूल के माध्यम से पाठ निर्माण गुणवत्ता में सुधार करती है
मॉड्यूलर डिजाइन: अन्य विधियों की तुलना में, PAGE सहायक निर्माण मॉडल पर निर्भर नहीं है, बल्कि हल्के वजन वाले वर्गीकरण, निष्कर्षण आदि का उपयोग करता है
संसाधन-अनुकूल: प्रशिक्षण डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता में उल्लेखनीय कमी
व्यावहारिक सत्यापन: सॉफ्टवेयर आवश्यकता इंजीनियरिंग डोमेन में अवधारणा का प्रमाण, EARS व्याकरण का उपयोग करके संरचित आवश्यकताएं उत्पन्न करना
प्रदर्शन में सुधार: ROUGE मेट्रिक्स पर आधारभूत विधि की तुलना में महत्वपूर्ण सुधार (ROUGE-1 में 65.41% वृद्धि, ROUGE-2 में 205.62% वृद्धि)

विधि विवरण

कार्य परिभाषा

इनपुट: मूल पाठ विवरण (जैसे प्राकृतिक भाषा आवश्यकता विवरण) आउटपुट: संरचित, उच्च-गुणवत्ता वाला पाठ (जैसे विशिष्ट व्याकरण मानदंडों के अनुरूप आवश्यकता अभिव्यक्ति) लक्ष्य: मुख्य मॉडल को पुनः प्रशिक्षित किए बिना सहायक जानकारी के साथ इनपुट संकेत को बढ़ाकर निर्माण गुणवत्ता में सुधार करना

मॉडल आर्किटेक्चर

PAGE ढांचे में तीन मुख्य घटक शामिल हैं:

1. सहायक मॉड्यूल (Auxiliary Module)

कार्य: इनपुट पाठ पर तर्क करना, संरचित जानकारी निकालना
प्रकार:
- वर्गीकरण: इनपुट पाठ को प्रासंगिक लेबल असाइन करना
- इकाई निष्कर्षण: पाठ में मुख्य इकाइयों की पहचान और वर्गीकरण करना
- भावना विश्लेषण: पाठ की भावना प्रवृत्ति या इरादे का पता लगाना
विशेषताएं: हल्के वजन वाला, उच्च व्याख्यात्मकता, कम प्रशिक्षण लागत

2. संकेत संयोजक (Prompt Composer)

कार्य: सहायक मॉड्यूल के आउटपुट को मूल पाठ के साथ जोड़ना, वर्धित संकेत बनाना
कार्यान्वयन: कॉन्फ़िगर करने योग्य टेम्पलेट का उपयोग करके, संरचित जानकारी को इनपुट में एकीकृत करना
आउटपुट: समृद्ध संदर्भ संकेत, निर्माण मॉडल को अधिक मार्गदर्शन जानकारी प्रदान करना

3. निर्माण मॉडल (Generative Model)

कार्य: वर्धित संकेत के आधार पर अंतिम पाठ उत्पन्न करना
विशेषताएं: किसी भी मौजूदा LLM का उपयोग कर सकते हैं, संशोधन या पुनः प्रशिक्षण की आवश्यकता नहीं है
तकनीक: zero-shot, one-shot, few-shot आदि संकेत तकनीकों का समर्थन करता है

कार्य प्रवाह

मूल पाठ → सहायक मॉड्यूल → संरचित जानकारी
    ↓           ↓
    └→ संकेत संयोजक ←┘
           ↓
    वर्धित संकेत → निर्माण मॉडल → अंतिम आउटपुट

उपयोगकर्ता मूल पाठ इनपुट प्रदान करता है
सहायक मॉड्यूल समानांतर में इनपुट को संसाधित करता है, संरचित तर्क जानकारी उत्पन्न करता है
संकेत संयोजक मूल पाठ को सहायक जानकारी के साथ जोड़ता है
निर्माण मॉडल वर्धित संकेत के आधार पर अंतिम आउटपुट उत्पन्न करता है

तकनीकी नवाचार बिंदु

हल्के वजन वाली सहायता: बड़े सहायक निर्माण मॉडल का उपयोग करने की तुलना में, PAGE सरल वर्गीकरण आदि हल्के वजन वाले घटकों को अपनाता है
मॉड्यूलर आर्किटेक्चर: प्रत्येक घटक को स्वतंत्र रूप से अनुकूलित और प्रतिस्थापित किया जा सकता है, मजबूत अनुकूलन क्षमता
पुनः प्रशिक्षण की आवश्यकता नहीं: मुख्य निर्माण मॉडल अपरिवर्तित रहता है, केवल संकेत वर्धन के माध्यम से प्रदर्शन में सुधार
उच्च व्याख्यात्मकता: सहायक मॉड्यूल आउटपुट स्पष्ट पाठ संरचना है, समझ और डिबगिंग के लिए सुविधाजनक

प्रयोग सेटअप

डेटासेट

स्रोत: कई डेटासेट को एकीकृत करना
- PURE डेटासेट: सार्वजनिक आवश्यकता दस्तावेज संग्रह
- Software Functional Requirements डेटासेट
- सार्वजनिक विनिर्देश दस्तावेजों में आवश्यकताएं
आकार: 253 उदाहरण
संरचना:
- मूल आवश्यकता अभिव्यक्ति (कोई विशिष्ट व्याकरण संरचना नहीं)
- EARS श्रेणी लेबल
- हाथ से लिखी गई EARS व्याकरण आवश्यकता अभिव्यक्ति
श्रेणी वितरण: EARS की पांच श्रेणियों को कवर करना (Ubiquitous, Event-driven, State-driven, Unwanted, Optional)

मूल्यांकन मेट्रिक्स

निर्माण गुणवत्ता का मूल्यांकन करने के लिए ROUGE मेट्रिक्स परिवार का उपयोग करना:

ROUGE-1: शब्द स्तर पर ओवरलैप
ROUGE-2: दो-शब्द संयोजन का मिलान
ROUGE-L: सबसे लंबा सामान्य अनुक्रम, संरचना संरक्षण को मापना

प्रत्येक मेट्रिक Precision, Recall और F1-Score के तीन आयामों की गणना करता है।

तुलना विधियां

तुलना के लिए तीन समूह प्रयोग डिजाइन करना:

Zero-shot आधारभूत: LLM का सीधे उपयोग, कोई वर्धन नहीं
आदर्श ऊपरी सीमा: डेटासेट में सही लेबल को सहायक जानकारी के रूप में उपयोग करना
PAGE पूर्ण कार्यान्वयन: प्रशिक्षित वर्गीकरण को सहायक मॉड्यूल के रूप में उपयोग करना

कार्यान्वयन विवरण

सहायक वर्गीकरण: Random Forest मॉडल
- अधिकतम गहराई: 10
- न्यूनतम विभाजन नमूना संख्या: 5
- अनुमानक संख्या: 100
- सटीकता: 82.35%
निर्माण मॉडल: Llama 3.1-8B, Ollama के माध्यम से स्थानीय तैनाती
डेटा विभाजन: 80% प्रशिक्षण, 20% परीक्षण, 5-गुना क्रॉस-सत्यापन

प्रयोग परिणाम

मुख्य परिणाम

विधि	मेट्रिक	Precision	Recall	F1-Score
Zero-Shot	ROUGE-1	0.509	0.489	0.485
	ROUGE-2	0.206	0.204	0.199
	ROUGE-L	0.413	0.395	0.392
Dataset-samples	ROUGE-1	0.852	0.815	0.827
	ROUGE-2	0.653	0.630	0.636
	ROUGE-L	0.803	0.770	0.781
PAGE	ROUGE-1	0.849	0.809	0.822
	ROUGE-2	0.648	0.622	0.630
	ROUGE-L	0.796	0.761	0.772

प्रदर्शन सुधार विश्लेषण

आधारभूत विधि की तुलना में सुधार की मात्रा:

ROUGE-1: 65.41% सुधार
ROUGE-2: 205.62% सुधार
ROUGE-L: 92.79% सुधार

PAGE आदर्श ऊपरी सीमा के करीब कार्यान्वयन करता है, केवल 2-4 प्रतिशत अंक पीछे है, जो विधि की प्रभावशीलता को साबित करता है।

केस विश्लेषण

उदाहरण 1 (Ubiquitous श्रेणी):

मूल इनपुट: "The system shall allow a customer to place an order online"
Zero-shot आउटपुट: जटिल संरचित विवरण (Actor, Event, Role आदि)
PAGE आउटपुट: "The system shall always allow a customer to place an order online"
अपेक्षित आउटपुट: "The system shall allow a customer to place an order online"

उदाहरण 2 (Event-driven श्रेणी):

मूल इनपुट: "When a driver completes a ride, the system shall allow the driver to leave a review"
Zero-shot आउटपुट: "The Driver shall be enabled to submit a review after successfully completing a ride"
PAGE आउटपुट: "When a ride is completed, the Application shall enable the driver to leave a review"

प्रयोग निष्कर्ष

सहायक मॉड्यूल की महत्वपूर्ण भूमिका: वर्गीकरण सटीकता अंतिम निर्माण गुणवत्ता को सीधे प्रभावित करती है
Few-shot शिक्षण प्रभाव महत्वपूर्ण: प्रासंगिक उदाहरण प्रदान करने से निर्माण संरचना में बड़ा सुधार होता है
मॉड्यूलर लाभ: प्रत्येक घटक के योगदान का स्वतंत्र रूप से मूल्यांकन और अनुकूलन किया जा सकता है
संसाधन दक्षता: बड़े मॉडल पुनः प्रशिक्षण की उच्च लागत से बचा गया

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: PAGE सॉफ्टवेयर आवश्यकता निर्माण कार्य में आधारभूत विधि को महत्वपूर्ण रूप से पार करता है
संसाधन-अनुकूल: सरल सहायक मॉड्यूल के माध्यम से प्रदर्शन में सुधार, पुनः प्रशिक्षण लागत से बचा गया
आर्किटेक्चर लाभ: मॉड्यूलर डिजाइन अच्छी व्याख्यात्मकता और अनुकूलन क्षमता प्रदान करता है
व्यावहारिक मूल्य: संसाधन-सीमित वातावरण में पाठ निर्माण अनुकूलन के लिए व्यावहार्य समाधान प्रदान करता है

सीमाएं

सहायक मॉड्यूल निर्भरता: निर्माण गुणवत्ता सहायक मॉड्यूल सटीकता द्वारा सीमित है
डोमेन विशेषज्ञता: वर्तमान सत्यापन केवल आवश्यकता इंजीनियरिंग डोमेन तक सीमित है
डेटासेट आकार: प्रयोग में उपयोग किया गया डेटासेट अपेक्षाकृत छोटा है (253 उदाहरण)
मूल्यांकन मेट्रिक्स सीमा: मुख्य रूप से ROUGE मेट्रिक्स पर निर्भर, मानव मूल्यांकन की कमी

भविष्य की दिशाएं

ढांचा कार्यान्वयन: Python सॉफ्टवेयर ढांचा विकसित करना, पुनः उपयोग योग्य PAGE कार्यान्वयन प्रदान करना
बहु-डोमेन सत्यापन: अधिक अनुप्रयोग डोमेन में ढांचे की प्रभावशीलता का परीक्षण करना
सहायक मॉड्यूल अनुकूलन: अधिक कुशल सहायक मॉड्यूल डिजाइन रणनीति का अनुसंधान करना
मूल्यांकन प्रणाली सुधार: अधिक व्यापक मूल्यांकन मेट्रिक्स और मानव मूल्यांकन का परिचय देना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: एक अद्वितीय हल्के वजन वाली सहायक वर्धन समाधान प्रस्तावित करता है
उच्च व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोग में संसाधन सीमा समस्या को हल करता है
उचित डिजाइन: मॉड्यूलर आर्किटेक्चर समझ, कार्यान्वयन और विस्तार के लिए सुविधाजनक है
पर्याप्त प्रयोग: उचित तुलना प्रयोग डिजाइन किया गया, आदर्श ऊपरी सीमा विश्लेषण सहित
महत्वपूर्ण परिणाम: कई मेट्रिक्स पर बड़ी प्रदर्शन वृद्धि प्राप्त की

कमियां

सीमित सत्यापन सीमा: केवल एक विशिष्ट डोमेन (आवश्यकता इंजीनियरिंग) में सत्यापन
छोटा डेटासेट: 253 उदाहरणों का डेटासेट विधि की सामान्यीकरण क्षमता को पूरी तरह से सत्यापित करने के लिए अपर्याप्त हो सकता है
अपर्याप्त आधारभूत तुलना: अन्य संकेत वर्धन विधियों के साथ प्रत्यक्ष तुलना की कमी
सैद्धांतिक विश्लेषण की कमी: विधि प्रभावी क्यों है इसके गहन सैद्धांतिक व्याख्या की कमी
मानव मूल्यांकन की कमी: पूरी तरह से स्वचालित मेट्रिक्स पर निर्भर, विशेषज्ञ मूल्यांकन की कमी

प्रभाव

शैक्षणिक योगदान: पाठ निर्माण वर्धन के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: संसाधन-सीमित परिदृश्य में निर्माण अनुकूलन के लिए व्यावहार्य समाधान प्रदान करता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, कार्यान्वयन अपेक्षाकृत सरल है
विस्तारशीलता: ढांचा डिजाइन अच्छी विस्तारशीलता रखता है

लागू परिदृश्य

पेशेवर डोमेन पाठ निर्माण: जैसे तकनीकी दस्तावेज, कानूनी पाठ आदि जिन्हें विशिष्ट प्रारूप की आवश्यकता होती है
संसाधन-सीमित वातावरण: ऐसे अनुप्रयोग परिदृश्य जहां बड़े मॉडल सूक्ष्म-समायोजन नहीं किया जा सकता है
तीव्र प्रोटोटाइप विकास: नए कार्यों के लिए तीव्र अनुकूलन की आवश्यकता वाले अनुप्रयोग
उच्च व्याख्यात्मकता आवश्यकता: ऐसे अनुप्रयोग परिदृश्य जहां निर्माण प्रक्रिया को समझने की आवश्यकता होती है

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

Transformer आर्किटेक्चर के मूल कार्य (Vaswani et al., 2017)
प्रमुख बड़े भाषा मॉडल (GPT, BERT, T5, Llama आदि)
EARS आवश्यकता व्याकरण विनिर्देश (Mavin et al., 2009)
ROUGE मूल्यांकन मेट्रिक्स (Lin, 2004)
संबंधित निर्माण वर्धन विधियां आदि

समग्र मूल्यांकन: यह एक नवीन विधि प्रस्तावित करने वाला एक अनुसंधान पेपर है, PAGE ढांचा पाठ निर्माण वर्धन के लिए नई सोच प्रदान करता है। हालांकि सत्यापन सीमा और सैद्धांतिक विश्लेषण के संदर्भ में सुधार की गुंजाइश है, लेकिन इसकी व्यावहारिक मूल्य और तकनीकी नवाचार की सराहना की जाती है। यह विधि विशेष रूप से विशिष्ट कार्यों के लिए तीव्र अनुकूलन और संसाधन-सीमित अनुप्रयोग परिदृश्यों की आवश्यकता वाले अनुप्रयोगों के लिए उपयुक्त है।