টেক্সট-টু-এসকিউএল কাজটি প্রাকৃতিক ভাষার প্রশ্নকে এসকিউএল কোয়েরিতে রূপান্তরিত করে, যা অ-বিশেষজ্ঞ ব্যবহারকারীদের জন্য স্বজ্ঞাত ডাটাবেস ইন্টারঅ্যাকশন প্রদান করে। যদিও বড় ভাষা মডেল (এলএলএম) ভিত্তিক পদ্ধতিগুলি চমৎকার কর্মক্ষমতা প্রদর্শন করে, তবে মালিকানাধীন মডেলের উপর নির্ভরতা স্থাপনার সম্ভাব্যতা এবং ডেটা গোপনীয়তা সম্পর্কে উদ্বেগ উত্থাপন করে। এই পেপারটি LitE-SQL প্রস্তাব করে, একটি হালকা এবং দক্ষ ফ্রেমওয়ার্ক যাতে দুটি মূল উপাদান রয়েছে: (i) স্কিমা রিট্রিভার, যা পূর্ব-গণনাকৃত স্কিমা এমবেডিং এর ভেক্টর ডাটাবেস ব্যবহার করে দক্ষ স্কিমা লিংকিং সম্পাদন করে; (ii) এসকিউএল জেনারেটর, দুই-পর্যায়ের সূক্ষ্ম সমন্বয় (তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয় + এক্সিকিউশন-গাইডেড শক্তিশালী শিক্ষা) এর মাধ্যমে স্ব-সংশোধন বাস্তবায়ন করে, ব্যয়বহুল বহু-প্রার্থী প্রজন্ম ছাড়াই। BIRD ডেটাসেটে, LitE-SQL ৭২.১০% এক্সিকিউশন নির্ভুলতা অর্জন করে, Spider ১.০ এ ৮৮.৪৫%, যদিও প্যারামিটার সংখ্যা এলএলএম পদ্ধতির মাত্র ১/২ থেকে ১/৩০, তবুও কর্মক্ষমতা তুলনীয় বা উন্নত।
টেক্সট-টু-এসকিউএল কাজটির লক্ষ্য হল প্রাকৃতিক ভাষার প্রশ্নকে সংশ্লিষ্ট এসকিউএল কোয়েরিতে রূপান্তরিত করা, যা অ-পেশাদার ব্যবহারকারীদের জন্য কাঠামোগত ডাটাবেসে অ্যাক্সেস করার দোরগোড়া কমায়। এই কাজটি বাস্তব প্রয়োগে গুরুত্বপূর্ণ মূল্য রাখে, তবে ক্রস-ডোমেইন সাধারণীকরণ এবং জটিল কোয়েরি প্রজন্মের চ্যালেঞ্জের সম্মুখীন হয়।
১. এলএলএম নির্ভরতা সমস্যা: বর্তমান মূলধারার পদ্ধতিগুলি GPT-4, Gemini এর মতো মালিকানাধীন বড় মডেলের উপর নির্ভর করে, ডেটা গোপনীয়তা ফাঁস ঝুঁকি বিদ্যমান, স্থাপনার খরচ অত্যন্ত বেশি २. গণনা সম্পদ খরচ: সম্পূর্ণ স্কিমা তথ্য ইনপুট প্রসঙ্গ দৈর্ঘ্য বৃদ্ধি ঘটায়, স্ব-মনোযোগ প্রক্রিয়াকরণের দ্বিঘাত জটিলতা বিশাল মেমরি খরচ সৃষ্টি করে ३. বহু-প্রার্থী প্রজন্ম ওভারহেড: বিদ্যমান পদ্ধতিগুলি একাধিক প্রার্থী কোয়েরি প্রজন্ম এবং সর্বোত্তম সমাধান নির্বাচনের মাধ্যমে, গণনা খরচ উল্লেখযোগ্যভাবে বৃদ্ধি পায়
উপরোক্ত সমস্যাগুলির সমাধানের জন্য, এই পেপারটি একটি হালকা, দক্ষ টেক্সট-টু-এসকিউএল ফ্রেমওয়ার্ক উন্নয়নের লক্ষ্য রাখে, প্রতিযোগিতামূলক কর্মক্ষমতা বজায় রেখে প্যারামিটার সংখ্যা এবং গণনা খরচ উল্লেখযোগ্যভাবে হ্রাস করে, যা গোপনীয়তা-সংবেদনশীল এবং সম্পদ-সীমিত পরিস্থিতিতে প্রযোজ্য।
१. LitE-SQL ফ্রেমওয়ার্ক প্রস্তাব: প্রথম সম্পূর্ণভাবে ভেক্টর ডাটাবেস-চালিত স্কিমা লিংকিং পদ্ধতি, হালকা এসকিউএল জেনারেটরের সাথে সংমিশ্রিত २. উদ্ভাবনী HN-SupCon ক্ষতি ফাংশন: কঠিন নেতিবাচক নমুনা ফিল্টারিং এর মাধ্যমে তত্ত্বাবধানকৃত বৈপরীত্য শিক্ষা এমবেডিং স্থান অপ্টিমাইজ করে ३. দুই-পর্যায়ের প্রশিক্ষণ কৌশল: তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয় + এক্সিকিউশন-গাইডেড শক্তিশালী শিক্ষা, দক্ষ স্ব-ত্রুটি সংশোধন বাস্তবায়ন করে ४. উল্লেখযোগ্য দক্ষতা উন্নতি: BIRD এবং Spider ১.০ ডেটাসেটে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করে, প্যারামিটার সংখ্যা বর্তমান পদ্ধতির মাত্র ১/२ থেকে १/३०
প্রাকৃতিক ভাষার প্রশ্ন Q এবং ডাটাবেস স্কিমা S দেওয়া, টেক্সট-টু-এসকিউএল কাজটি এসকিউএল কোয়েরি প্রজন্ম প্রয়োজন করে, যাতে এটি লক্ষ্য ডাটাবেসে এক্সিকিউশন ফলাফল সোনার মান কোয়েরির সাথে সামঞ্জস্যপূর্ণ হয়।
মূল ডিজাইন:
HN-SupCon ক্ষতি ফাংশন:
L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)
mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}
যেখানে s(·,·) কোসাইন সাদৃশ্য নির্দেশ করে, τ তাপমাত্রা প্যারামিটার, mij মাস্ক ফাংশন, সহজ নেতিবাচক নমুনা ফিল্টার করতে ব্যবহৃত হয়, শব্দার্থগতভাবে সমান কিন্তু কার্যকরভাবে অসম্পর্কিত কঠিন নেতিবাচক নমুনায় ফোকাস করে।
দুই-পর্যায়ের প্রশিক্ষণ কৌশল:
পর্যায় १: তত্ত্বাবধানকৃত সূক্ষ্ম সমন্বয় (SFT)
L_SFT(θ) = -log P(SQL | Q, S; θ)
পর্যায় २: শক্তিশালী সূক্ষ্ম সমন্বয় (RFT) সরাসরি পছন্দ অপ্টিমাইজেশন (DPO) ব্যবহার করে:
L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
१. ভেক্টর ডাটাবেস-চালিত স্কিমা লিংকিং: বিদ্যমান পদ্ধতির তুলনায় প্রতিটি বার স্কিমা পুনরায় এনকোড করার পরিবর্তে, এই পদ্ধতি শুধুমাত্র প্রশ্ন এনকোড করে, দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে २. কঠিন নেতিবাচক নমুনা ফিল্টারিং প্রক্রিয়া: HN-SupCon ক্ষতি শব্দার্থগতভাবে সমান কিন্তু কার্যকরভাবে অসম্পর্কিত কলাম পার্থক্য করতে ফোকাস করে, পুনরুদ্ধার গুণমান উন্নত করে ३. এক্সিকিউশন-গাইডেড স্ব-সংশোধন: এসকিউএল এক্সিকিউশন প্রতিক্রিয়া শক্তিশালী শিক্ষার জন্য ব্যবহার করে, বহু-প্রার্থী প্রজন্মের গণনা ওভারহেড এড়ায়
१. এক্সিকিউশন নির্ভুলতা (EX): পূর্বাভাসিত এসকিউএল এবং সোনার মান এসকিউএল এক্সিকিউশন ফলাফলের সামঞ্জস্য २. সত্য ধনাত্মক হার (TPR): পুনরুদ্ধৃত সম্পর্কিত কলাম সোনার মান সম্পর্কিত কলামের অনুপাত ३. মিথ্যা ধনাত্মক হার (FPR): পুনরুদ্ধৃত অসম্পর্কিত কলাম মোট পুনরুদ্ধৃত কলামের অনুপাত ४. স্কিমা লিংকিং রিকল রেট (SLR): সমস্ত সম্পর্কিত কলাম সম্পূর্ণভাবে পুনরুদ্ধার করা কোয়েরির অনুপাত
| পদ্ধতি বিভাগ | মডেল | প্যারামিটার | BIRD(Dev) EX | Spider १.०(Test) EX |
|---|---|---|---|---|
| প্রসঙ্গ শিক্ষা | ||||
| CHASE-SQL | Gemini १.५ | २००B | ७३.०१ | ८७.६० |
| MCS-SQL | GPT-४ | १७५B | ६३.३६ | ८९.६० |
| সূক্ষ্ম সমন্বয় পদ্ধতি | ||||
| Reasoning-SQL | Qwen२.५-Coder-१४B | १४B | ७२.२९ | ८१.४३ |
| LitE-SQL | Qwen२.५-Coder-७B | ७B | ७२.१० | ८८.४५ |
१. প্যারামিটার দক্ষতা: ७B মডেল বেশিরভাগ १७५B-२००B প্যারামিটার এলএলএম পদ্ধতি অতিক্রম করে २. ক্রস-ডোমেইন সাধারণীকরণ: BIRD এ MCS-SQL ८.७४% অতিক্রম করে, Spider এ মাত্র १.१५% পিছিয়ে ३. সামঞ্জস্যপূর্ণ কর্মক্ষমতা: একই আকারের সূক্ষ্ম সমন্বয় পদ্ধতির তুলনায়, গড় উন্নতি १०.८७%(BIRD) এবং ७.२१%(Spider)
| উপাদান কনফিগারেশন | BIRD EX | Spider EX | উন্নতি মাত্রা |
|---|---|---|---|
| ভিত্তিরেখা (কোন রিট্রিভার + জেনারেটর) | ३९.३१ | ६१.६१ | - |
| +স্কিমা রিট্রিভার | ४३.१६ | ६४.२८ | +३.८५/+२.६७ |
| +SFT | ५८.२१ | ८३.५६ | +१८.९०/+२१.९५ |
| +RFT | ६०.५६ | ८४.३५ | +२१.२५/+२२.७४ |
ভিত্তিরেখা পদ্ধতির সাথে তুলনা (BIRD ডেটাসেট উপ-নমুনা):
উচ্চ FPR সত্ত্বেও, SLR এর সুবিধা মিথ্যা ধনাত্মকের প্রভাব ক্ষতিপূরণ করে, এবং মাত্র ०.६B প্যারামিটার ব্যবহার করে २००B মডেলের সমতুল্য কর্মক্ষমতা অর্জন করে।
१. প্রাথমিক পদ্ধতি: শ্রেণীবিভাজক-ভিত্তিক কলাম র্যাঙ্কিং २. এলএলএম পদ্ধতি: বহু-পদক্ষেপ প্রম্পটিং, বহু-এজেন্ট ফ্রেমওয়ার্ক (CHESS) ३. এই পেপারের উদ্ভাবন: প্রথম সম্পূর্ণভাবে ভেক্টর ডাটাবেস-ভিত্তিক স্কিমা লিংকিং পদ্ধতি
१. প্রসঙ্গ শিক্ষা: কাঠামোগত প্রম্পটিং, কম-নমুনা শিক্ষা, স্ব-সামঞ্জস্য २. সূক্ষ্ম সমন্বয় পদ্ধতি: ডোমেইন অভিযোজন, ডেটা বর্ধন, কাজ বিভাজন ३. এই পেপারের অবদান: এক্সিকিউশন-গাইডেড শক্তিশালী শিক্ষা স্ব-সংশোধন প্রক্রিয়া
१. হালকা মডেলের সম্ভাব্যতা: উচ্চ-মানের টেক্সট-টু-এসকিউএল প্রজন্ম হালকা মডেলের মাধ্যমে বাস্তবায়িত হতে পারে প্রমাণ করে २. দক্ষতা এবং কর্মক্ষমতা ভারসাম্য: প্যারামিটার সংখ্যা উল্লেখযোগ্যভাবে হ্রাস করার সময় প্রতিযোগিতামূলক কর্মক্ষমতা বজায় রাখে ३. ব্যবহারিক মূল্য: গোপনীয়তা-সংবেদনশীল এবং সম্পদ-সীমিত পরিস্থিতিতে ব্যবহারিক সমাধান প্রদান করে
१. স্থির k মান সমস্যা: স্থির সংখ্যক কলাম পুনরুদ্ধার অনিবার্যভাবে মিথ্যা ধনাত্মক প্রবর্তন করে २. শব্দার্থগত ত্রুটি সনাক্তকরণ: বর্তমান স্ব-সংশোধন প্রক্রিয়া প্রধানত বাক্যতাত্ত্বিক ত্রুটি পরিচালনা করে, শব্দার্থগতভাবে সঠিক কিন্তু যুক্তিগতভাবে ত্রুটিপূর্ণ কোয়েরিতে সীমিত প্রভাব
१. গতিশীল পুনরুদ্ধার কৌশল: প্রশ্ন জটিলতার উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে পুনরুদ্ধৃত কলাম সংখ্যা সামঞ্জস্য করে २. শব্দার্থগত ত্রুটি সনাক্তকরণ: শব্দার্থগত ত্রুটি ক্যাপচার করার প্রক্রিয়া উন্নয়ন ३. বহু-মোডাল সম্প্রসারণ: টেবিল সামগ্রী এবং স্কিমা তথ্য সংমিশ্রণ
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সিস্টেমেটিকভাবে ভেক্টর ডাটাবেস টেক্সট-টু-এসকিউএল স্কিমা লিংকিংয়ে প্রয়োগ করে २. উচ্চ ব্যবহারিক মূল্য: এলএলএম পদ্ধতির গোপনীয়তা এবং স্থাপনা সমস্যা সমাধান করে ३. ব্যাপক পরীক্ষা: সম্পূর্ণ বিলোপন পরীক্ষা এবং ত্রুটি বিশ্লেষণ ४. দৃঢ় প্রযুক্তি: HN-SupCon ক্ষতি এবং দুই-পর্যায়ের প্রশিক্ষণ কৌশল যুক্তিসঙ্গত ডিজাইন
१. সহজ পুনরুদ্ধার কৌশল: স্থির k মান পুনরুদ্ধার সর্বোত্তম কৌশল নাও হতে পারে २. ত্রুটি প্রকার সীমাবদ্ধতা: স্ব-সংশোধন প্রধানত এক্সিকিউটযোগ্য-সনাক্তকরণযোগ্য ত্রুটি পরিচালনা করে ३. ডেটাসেট সীমাবদ্ধতা: প্রধানত ইংরেজি ডেটাসেটে যাচাইকৃত, বহুভাষিক সাধারণীকরণ ক্ষমতা অজানা
१. একাডেমিক মূল্য: হালকা টেক্সট-টু-এসকিউএল গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করে २. ব্যবহারিক মূল্য: এজ কম্পিউটিং এবং গোপনীয়তা সুরক্ষা পরিস্থিতিতে প্রযোজ্য ३. পুনরুৎপাদনযোগ্যতা: খোলা উৎস মডেল ভিত্তিক, সহজে পুনরুৎপাদন এবং সম্প্রসারণযোগ্য
१. সম্পদ-সীমিত পরিবেশ: এজ ডিভাইস, মোবাইল অ্যাপ্লিকেশন २. গোপনীয়তা-সংবেদনশীল পরিস্থিতি: এন্টারপ্রাইজ অভ্যন্তরীণ ডাটাবেস, চিকিৎসা আর্থিক ক্ষেত্র ३. রিয়েল-টাইম অ্যাপ্লিকেশন: দ্রুত প্রতিক্রিয়া প্রয়োজনীয় ইন্টারঅ্যাক্টিভ কোয়েরি সিস্টেম
পেপারটি টেক্সট-টু-এসকিউএল ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে: