2025-11-23T09:49:16.774551

Readability and Understandability of Snippets Recommended by General-purpose Web Search Engines: a Comparative Study

Dantas, Maia

Developers often search for reusable code snippets on general-purpose web search engines like Google, Yahoo! or Microsoft Bing. But some of these code snippets may have poor quality in terms of readability or understandability. In this paper, we propose an empirical analysis to analyze the readability and understandability score from snippets extracted from the web using three independent variables: ranking, general-purpose web search engine, and recommended site. We collected the top-5 recommended sites and their respective code snippet recommendations using Google, Yahoo!, and Bing for 9,480 queries, and evaluate their readability and understandability scores. We found that some recommended sites have significantly better readability and understandability scores than others. The better-ranked code snippet is not necessarily more readable or understandable than a lower-ranked code snippet for all general-purpose web search engines. Moreover, considering the readability score, Google has better-ranked code snippets compared to Yahoo! or Microsoft Bing

academic

সাধারণ-উদ্দেশ্যমূলক ওয়েব সার্চ ইঞ্জিন দ্বারা সুপারিশকৃত স্নিপেটগুলির পাঠযোগ্যতা এবং বোধগম্যতা: একটি তুলনামূলক অধ্যয়ন

মৌলিক তথ্য

পেপার আইডি: 2110.07087
শিরোনাম: Readability and Understandability of Snippets Recommended by General-purpose Web Search Engines: a Comparative Study
লেখক: Carlos Eduardo C. Dantas, Marcelo A. Maia
শ্রেণীবিভাগ: cs.SE (সফটওয়্যার ইঞ্জিনিয়ারিং)
প্রকাশনার সময়/সম্মেলন: AeSIR '21, নভেম্বর 15–11, 2021
পেপার লিঙ্ক: https://arxiv.org/abs/2110.07087

সারসংক্ষেপ

ডেভেলপাররা প্রায়শই Google, Yahoo! বা Microsoft Bing-এর মতো সাধারণ সার্চ ইঞ্জিনে পুনর্ব্যবহারযোগ্য কোড স্নিপেট খোঁজেন। তবে এই কোড স্নিপেটগুলি পাঠযোগ্যতা বা বোধগম্যতার দিক থেকে নিম্নমানের হতে পারে। এই পেপারটি একটি অভিজ্ঞতামূলক বিশ্লেষণ উপস্থাপন করে যা তিনটি স্বাধীন চলক (র্যাঙ্কিং, সাধারণ সার্চ ইঞ্জিন এবং সুপারিশকৃত ওয়েবসাইট) ব্যবহার করে ওয়েব থেকে আহরিত কোড স্নিপেটের পাঠযোগ্যতা এবং বোধগম্যতা স্কোর বিশ্লেষণ করে। গবেষণা Google, Yahoo! এবং Bing থেকে 9,480টি প্রশ্নের শীর্ষ 5টি সুপারিশকৃত ওয়েবসাইট এবং তাদের সংশ্লিষ্ট কোড স্নিপেট সুপারিশ সংগ্রহ করেছে এবং তাদের পাঠযোগ্যতা এবং বোধগম্যতা স্কোর মূল্যায়ন করেছে। গবেষণা দেখায় যে নির্দিষ্ট সুপারিশকৃত ওয়েবসাইটগুলি পাঠযোগ্যতা এবং বোধগম্যতা স্কোরের ক্ষেত্রে অন্যদের চেয়ে উল্লেখযোগ্যভাবে ভাল। উচ্চতর র্যাঙ্কিং সহ কোড স্নিপেটগুলি সমস্ত সাধারণ সার্চ ইঞ্জিনে অগত্যা নিম্ন র্যাঙ্কিং সহ স্নিপেটগুলির চেয়ে বেশি পাঠযোগ্য বা বোধগম্য নয়। অধিকন্তু, পাঠযোগ্যতা স্কোরের ক্ষেত্রে, Google Yahoo! বা Microsoft Bing-এর চেয়ে আরও ভাল কোড স্নিপেট র্যাঙ্কিং করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

মূল সমস্যা: সাধারণ সার্চ ইঞ্জিন দ্বারা সুপারিশকৃত কোড স্নিপেটগুলি পাঠযোগ্যতা এবং বোধগম্যতার ক্ষেত্রে গুণমানের পার্থক্য প্রদর্শন করে, এবং উচ্চতর র্যাঙ্কিং সহ কোড স্নিপেটগুলি অগত্যা উচ্চতর মানের নয়
বাস্তব চাহিদা: ডেভেলপাররা ব্যাপকভাবে কোড উদাহরণ খুঁজতে সাধারণ সার্চ ইঞ্জিন ব্যবহার করে, তবে এই কোড স্নিপেটগুলির গুণমানের সিস্টেমেটিক মূল্যায়নের অভাব রয়েছে
সার্চ ইঞ্জিনের সীমাবদ্ধতা: Google-এর 200-এরও বেশি র্যাঙ্কিং ফ্যাক্টর থাকলেও, উচ্চতর র্যাঙ্কিং সহ পৃষ্ঠাগুলি নিম্নমানের কোড উদাহরণ অন্তর্ভুক্ত করতে পারে

গবেষণার গুরুত্ব

কোড স্নিপেট পুনর্ব্যবহার প্রোগ্রামিং কাজের সময় হ্রাস করতে এবং উন্নয়ন প্রক্রিয়া ত্বরান্বিত করতে পারে
Google সার্চ ইঞ্জিন বাজারের 90% এরও বেশি দখল করে, তবে অন্যান্য সার্চ ইঞ্জিনের কোড গুণমান র্যাঙ্কিং পরিস্থিতি অজানা
পাঠযোগ্যতা এবং বোধগম্যতার মধ্যে পারস্পরিক সম্পর্ক বোঝার প্রয়োজন: পাঠযোগ্যতা সিনট্যাক্স বোঝার সাথে সম্পর্কিত, বোধগম্যতা শব্দার্থিক দিকের সাথে সম্পর্কিত

প্রেরণা উদাহরণ

পেপারটি Hora-এর গবেষণা কেস উদ্ধৃত করে: Google-এ "File.mkdirs examples" অনুসন্ধান করার সময়, Tutorialspoint-এর কোড স্নিপেট যদিও পাঠযোগ্যতা এবং পুনর্ব্যবহারযোগ্যতা সূচকে দুর্বল, তবে প্রশ্নের সাথে সমান প্রাকৃতিক ভাষা ব্যাখ্যা অন্তর্ভুক্ত করার কারণে উচ্চতর র্যাঙ্কিং পায়।

মূল অবদান

প্রথম সিস্টেমেটিক তুলনামূলক গবেষণা: Google, Yahoo! এবং Microsoft Bing তিনটি প্রধান সার্চ ইঞ্জিন দ্বারা সুপারিশকৃত কোড স্নিপেটের পাঠযোগ্যতা এবং বোধগম্যতার বৃহৎ-স্কেল তুলনামূলক বিশ্লেষণ
বৃহৎ-স্কেল ডেটাসেট নির্মাণ: 9,480টি প্রশ্নের 47,400টি ওয়েব লিঙ্ক সংগ্রহ করেছে, 5,355টি ভিন্ন ওয়েবসাইট কভার করে
বহু-মাত্রিক বিশ্লেষণ কাঠামো: র্যাঙ্কিং, সার্চ ইঞ্জিন এবং সুপারিশকৃত ওয়েবসাইট তিনটি স্বাধীন চলকের উপর ভিত্তি করে একটি বিশ্লেষণ পদ্ধতি প্রস্তাব করেছে
অভিজ্ঞতামূলক আবিষ্কার: দুটি গুরুত্বপূর্ণ অনুমান প্রমাণ করেছে: উচ্চতর র্যাঙ্কিং সহ কোড স্নিপেটগুলি অগত্যা উচ্চতর পাঠযোগ্যতা/বোধগম্যতা নেই; বিভিন্ন সুপারিশকৃত ওয়েবসাইটের কোড গুণমানে উল্লেখযোগ্য পার্থক্য রয়েছে
বোধগম্যতা পরিমাপ মানদণ্ডকরণ: জ্ঞানীয় জটিলতাকে 0,1 ব্যবধানে রূপান্তরের জন্য একটি মানদণ্ডকৃত পদ্ধতি প্রস্তাব করেছে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: প্রোগ্রামিং সম্পর্কিত প্রশ্ন বিবৃতি আউটপুট: কোড স্নিপেটের পাঠযোগ্যতা এবং বোধগম্যতা স্কোর সীমাবদ্ধতা: শুধুমাত্র Java ভাষার কোড স্নিপেট বিশ্লেষণ করুন, শীর্ষ 5টি অনুসন্ধান ফলাফল বিবেচনা করুন

গবেষণা ডিজাইন স্থাপত্য

গবেষণা পাঁচ-ধাপ পদ্ধতি অনুসরণ করে:

ইনপুট প্রশ্ন নির্বাচন: CROKAGE সরঞ্জাম থেকে 10,000টি ব্যবহারকারী প্রশ্ন সংগ্রহ করুন
শীর্ষ n ওয়েব পৃষ্ঠা সংগ্রহ করুন: Google, Yahoo! এবং Bing-এর শীর্ষ 5টি সুপারিশকৃত ওয়েব পৃষ্ঠা পান
কোড স্নিপেট আহরণ: নির্বাচিত ওয়েবসাইট থেকে Java কোড স্নিপেট আহরণ করুন
সূচক গণনা করুন: পাঠযোগ্যতা এবং বোধগম্যতা স্কোর গণনা করুন
বিশ্লেষণ পদ্ধতি: পরিসংখ্যানগত বিশ্লেষণের জন্য ANOVA এবং Tukey পরীক্ষা ব্যবহার করুন

মূল প্রযুক্তি বাস্তবায়ন

ডেটা সংগ্রহ কৌশল

প্রশ্ন সংশোধন: Java কোড উদাহরণ পেতে "example in java" ট্যাগ যোগ করুন
ওয়েবসাইট নির্বাচন: 5টি সবচেয়ে জনপ্রিয় ওয়েবসাইটে ফোকাস করুন
- stackoverflow.com
- www.geeksforgeeks.org
- www.javatpoint.com
- www.tutorialspoint.com
- www.codegrepper.com

কোড আহরণ পদ্ধতি

StackOverflow: গৃহীত উত্তর থেকে Java কোড স্নিপেট আহরণ করুন
অন্যান্য ওয়েবসাইট: HTML ট্যাগে "example" এবং "Java" সহ উৎস কোড খোঁজার জন্য নিয়মিত অভিব্যক্তি ব্যবহার করুন

মূল্যায়ন সূচক

পাঠযোগ্যতা পরিমাপ:

Scalabrino এবং অন্যদের দ্বারা প্রস্তাবিত পূর্বাভাস মডেল ব্যবহার করুন
মন্তব্য, সনাক্তকারী সামঞ্জস্য, পাঠ্য সংযোগ, অর্থ সংখ্যা এবং ধারণা অন্তর্ভুক্ত করুন
আউটপুট পরিসীমা: 0,1, 0 নিম্ন পাঠযোগ্যতা নির্দেশ করে, 1 উচ্চ পাঠযোগ্যতা নির্দেশ করে

বোধগম্যতা পরিমাপ:

Campbell দ্বারা প্রস্তাবিত জ্ঞানীয় জটিলতার উপর ভিত্তি করে
মানদণ্ডকরণ সূত্র:

understandability(cs_i) = {
    1 - #cc/#mcc  if #cc < 15
    0.0           otherwise
}

যেখানে #cc হল জ্ঞানীয় জটিলতা মান, #mcc=15 হল সর্বোচ্চ সুপারিশকৃত মান

পরীক্ষামূলক সেটআপ

ডেটাসেট বিবরণ

প্রশ্ন উৎস: CROKAGE সরঞ্জামের ব্যবহারকারী প্রশ্ন, 80টিরও বেশি দেশ থেকে
ডেটা স্কেল: 9,480টি বৈধ প্রশ্ন, 47,400টি ওয়েব লিঙ্ক
ওয়েবসাইট কভারেজ: 5,355টি ভিন্ন ওয়েবসাইট
ভাষা সীমাবদ্ধতা: শুধুমাত্র Java প্রোগ্রামিং ভাষা

মূল্যায়ন পদ্ধতি

পরিসংখ্যানগত বিশ্লেষণ: প্রসরণ বিশ্লেষণ (ANOVA) ব্যবহার করুন, আত্মবিশ্বাসের স্তর 5% (p-value<0.05)
একাধিক তুলনা: Tukey পরীক্ষা ব্যবহার করে গোষ্ঠীর মধ্যে উল্লেখযোগ্য পার্থক্য চিহ্নিত করুন
গ্রুপিং ডিজাইন:
- সার্চ ইঞ্জিন: 3টি গোষ্ঠী (Google, Bing, Yahoo!)
- র্যাঙ্কিং: 5টি গোষ্ঠী (top-1 থেকে top-5)
- ওয়েবসাইট: 5টি গোষ্ঠী (নির্বাচিত 5টি ওয়েবসাইট)

ডেটা প্রাক-প্রক্রিয়াকরণ

সদৃশ প্রশ্ন এবং ম্যানুয়ালি অপ্রযোজ্য হিসাবে চিহ্নিত প্রশ্ন সরান
5টিরও কম ওয়েব সুপারিশ সহ প্রশ্ন ফিল্টার করুন
HTML ট্যাগ থেকে লিঙ্ক আহরণের জন্য নিয়মিত অভিব্যক্তি ব্যবহার করুন

পরীক্ষামূলক ফলাফল

প্রধান আবিষ্কার

RQ1: সার্চ ইঞ্জিন র্যাঙ্কিং এবং কোড গুণমান সম্পর্ক

ANOVA ফলাফল: পাঠযোগ্যতা p-value=0.0034, বোধগম্যতা p-value=0.0003
মূল আবিষ্কার: Top-2 কোড স্নিপেটগুলি পাঠযোগ্যতা এবং বোধগম্যতার ক্ষেত্রে সামগ্রিকভাবে Top-1, Top-4 এবং Top-5-এর চেয়ে উন্নত
প্রভাব আকার: ছোট (-0.02 থেকে 0.01 পাঠযোগ্যতা, -0.01 থেকে 0.02 বোধগম্যতা)
সিদ্ধান্ত: অনুমান H1 প্রমাণ করে, উচ্চতর র্যাঙ্কিং সহ কোড স্নিপেটগুলি অগত্যা আরও পাঠযোগ্য বা বোধগম্য নয়

RQ2: সার্চ ইঞ্জিনের মধ্যে তুলনা

ANOVA ফলাফল: পাঠযোগ্যতা p-value=1.207e-12, বোধগম্যতা p-value=0.0364
পাঠযোগ্যতা ক্রম: Google > Microsoft Bing > Yahoo!
বোধগম্যতা: Google Microsoft Bing-এর চেয়ে সামান্য উন্নত
প্রভাব আকার: ছোট প্রভাব (-0.02 থেকে 0.02 পাঠযোগ্যতা, -0.01 থেকে 0.005 বোধগম্যতা)

RQ3: সুপারিশকৃত ওয়েবসাইটের মধ্যে তুলনা

ANOVA ফলাফল: পাঠযোগ্যতা এবং বোধগম্যতা p-value উভয়ই <2.2e-16
সর্বোত্তম পাঠযোগ্যতা: geeksforgeeks
সর্বোত্তম বোধগম্যতা: tutorialspoint
প্রভাব আকার: পাঠযোগ্যতা মধ্যম প্রভাব (-0.15 থেকে 0.10), বোধগম্যতা ছোট প্রভাব (-0.04 থেকে 0.08)

বিস্তারিত বিশ্লেষণ ফলাফল

পাঠযোগ্যতা বিশ্লেষণ

GeeksforGeeks সর্বোত্তম পারফরম্যান্সের কারণ:

প্রতিটি কোড লাইনে একটি মন্তব্য রয়েছে
উচ্চ সংযোগ, প্রতিটি ধারণা স্বাধীন
উদাহরণ: প্রশ্ন "How to append to a string?"
- GeeksforGeeks: পাঠযোগ্যতা স্কোর 0.94
- Tutorialspoint: পাঠযোগ্যতা স্কোর 0.44

বোধগম্যতা বিশ্লেষণ সীমাবদ্ধতা

58.3% কোড স্নিপেট সর্বোচ্চ বোধগম্যতা স্কোর অর্জন করে
বেশিরভাগ কোড স্নিপেট সহজ API কল, জটিল নিয়ন্ত্রণ কাঠামোর অভাব
এই সূচকটি সম্পূর্ণ Git সংগ্রহস্থল শ্রেণীর ফাইলের জন্য আরও উপযুক্ত সুপারিশ করুন

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

র্যাঙ্কিং প্যারাডক্স: সার্চ ইঞ্জিন র্যাঙ্কিং কোড গুণমানের সাথে সম্পূর্ণভাবে সম্পর্কিত নয়, Top-2 এবং Top-3 কোড স্নিপেটগুলি উচ্চতর মানের হতে পারে
সার্চ ইঞ্জিন পার্থক্য: Google পাঠযোগ্যতার ক্ষেত্রে সর্বোত্তম পারফরম্যান্স করে, তবে সুবিধা সীমিত
ওয়েবসাইট গুণমান পার্থক্য: সুপারিশকৃত ওয়েবসাইটগুলির মধ্যে উল্লেখযোগ্য গুণমান পার্থক্য রয়েছে, টিউটোরিয়াল ওয়েবসাইটগুলি (GeeksforGeeks) আরও পাঠযোগ্য
বোধগম্যতা সীমাবদ্ধতা: বর্তমান বোধগম্যতা সূচক সহজ কোড স্নিপেটের জন্য বিভেদ সীমিত

ব্যবহারিক তাৎপর্য

ডেভেলপার নির্দেশনা: GeeksforGeeks-এর মতো টিউটোরিয়াল ওয়েবসাইটের কোড স্নিপেটকে অগ্রাধিকার দেওয়ার সুপারিশ করুন
অনুসন্ধান কৌশল: কোড স্নিপেট নির্বাচনের জন্য শুধুমাত্র র্যাঙ্কিং নির্ভর করবেন না, গুণমান সূচক বিবেচনা করুন
সরঞ্জাম উন্নতি: কোড সার্চ ইঞ্জিনের জন্য গুণমান মূল্যায়নের জন্য রেফারেন্স মান প্রদান করুন

সীমাবদ্ধতা

ওয়েবসাইট কভারেজ সীমিত: শুধুমাত্র 5টি ওয়েবসাইট বিশ্লেষণ করেছে, সুপারিশকৃত ওয়েবসাইটের 34%-38.1% দখল করে
আহরণ কৌশল: প্রতিটি ওয়েব পৃষ্ঠা থেকে শুধুমাত্র প্রথম কোড স্নিপেট আহরণ করুন
প্রশ্ন সংশোধন প্রভাব: "example in java" যোগ করা অনুসন্ধান ফলাফল প্রভাবিত করতে পারে
সূচক নির্ভুলতা: পাঠযোগ্যতা এবং বোধগম্যতা সরঞ্জামে ত্রুটি থাকতে পারে

ভবিষ্যত দিকনির্দেশনা

গুণগত গবেষণা: পাঠযোগ্যতা এবং বোধগম্যতা স্কোর পার্থক্যের কারণ গভীরভাবে বুঝুন
সম্প্রসারিত গবেষণা: আরও ওয়েবসাইট অন্তর্ভুক্ত করুন বা সর্বজনীন কোড আহরণ পদ্ধতি বিকাশ করুন
বহুভাষিক সমর্থন: অন্যান্য প্রোগ্রামিং ভাষায় সম্প্রসারণ করুন
একাধিক কোড স্নিপেট প্রক্রিয়াকরণ: একক পৃষ্ঠায় একাধিক কোড স্নিপেট পরিচালনার জন্য হিউরিস্টিক বিকাশ করুন

গভীর মূল্যায়ন

শক্তি

গবেষণা নতুনত্ব: প্রধান সার্চ ইঞ্জিনের কোড স্নিপেট গুণমানের প্রথম সিস্টেমেটিক তুলনা
ডেটা স্কেল: বৃহৎ-স্কেল অভিজ্ঞতামূলক গবেষণা, পর্যাপ্ত ডেটা পরিমাণ, উচ্চ সিদ্ধান্তের বিশ্বাসযোগ্যতা
পদ্ধতি কঠোরতা: পরিপক্ক পরিসংখ্যানগত বিশ্লেষণ পদ্ধতি ব্যবহার করে, ফলাফল পরিসংখ্যানগতভাবে উল্লেখযোগ্য
ব্যবহারিক মূল্য: ডেভেলপারদের কোড স্নিপেট নির্বাচনের জন্য অভিজ্ঞতামূলক নির্দেশনা প্রদান করে
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ পুনরুৎপাদন প্যাকেজ এবং বিস্তারিত পদ্ধতি বর্ণনা প্রদান করে

অসুবিধা

সূচক সীমাবদ্ধতা: বোধগম্যতা সূচক সহজ কোড স্নিপেটের জন্য বিভেদ অপর্যাপ্ত
ওয়েবসাইট নির্বাচন পক্ষপাত: শুধুমাত্র 5টি প্রধান ওয়েবসাইট বিশ্লেষণ করেছে, নির্বাচন পক্ষপাত থাকতে পারে
ভাষা সীমাবদ্ধতা: শুধুমাত্র Java ভাষা বিবেচনা করেছে, সাধারণীকরণ সীমিত
সময়োপযোগীতা: অনুসন্ধান ফলাফল সময়-সংবেদনশীল, সিদ্ধান্ত সময়ের সাথে পরিবর্তিত হতে পারে

প্রভাব

একাডেমিক অবদান: কোড অনুসন্ধান এবং সফটওয়্যার ইঞ্জিনিয়ারিং গবেষণায় নতুন দৃষ্টিভঙ্গি প্রদান করে
ব্যবহারিক নির্দেশনা: ডেভেলপারদের কোড অনুসন্ধান আচরণকে সরাসরি প্রভাবিত করে
সরঞ্জাম উন্নতি: সার্চ ইঞ্জিন এবং কোড সুপারিশ সিস্টেম অপ্টিমাইজেশনের জন্য ভিত্তি প্রদান করে
পরবর্তী গবেষণা: সম্পর্কিত ক্ষেত্রের গবেষণার ভিত্তি স্থাপন করে

প্রযোজ্য পরিস্থিতি

সফটওয়্যার ডেভেলপারদের কোড অনুসন্ধানের সময় গুণমান মূল্যায়ন
কোড সার্চ ইঞ্জিনের র্যাঙ্কিং অ্যালগরিদম অপ্টিমাইজেশন
প্রোগ্রামিং শিক্ষায় কোড উদাহরণ গুণমান নিয়ন্ত্রণ
সফটওয়্যার ইঞ্জিনিয়ারিং গবেষণায় কোড গুণমান বিশ্লেষণ

সংদর্ভ

পেপারটি 23টি সম্পর্কিত সাহিত্য উদ্ধৃত করেছে, প্রধানত অন্তর্ভুক্ত:

কোড পাঠযোগ্যতা এবং বোধগম্যতা পরিমাপ পদ্ধতি
কোড অনুসন্ধান এবং সুপারিশ সিস্টেম গবেষণা
StackOverflow কোড গুণমান বিশ্লেষণ
সার্চ ইঞ্জিন র্যাঙ্কিং মেকানিজম গবেষণা

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের অভিজ্ঞতামূলক সফটওয়্যার ইঞ্জিনিয়ারিং গবেষণা পেপার যা কোড অনুসন্ধান গুণমান মূল্যায়নের গবেষণা শূন্যতা পূরণ করে, উল্লেখযোগ্য তাত্ত্বিক মূল্য এবং ব্যবহারিক তাৎপর্য রয়েছে। গবেষণা পদ্ধতি বৈজ্ঞানিকভাবে কঠোর, ডেটা স্কেল পর্যাপ্ত, সিদ্ধান্তের বিশ্বাসযোগ্যতা উচ্চ, ডেভেলপার এবং গবেষকদের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে।