2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

বিবৃতিমূলক সার্কিট: ভাষা মডেলগুলি কীভাবে বিবৃতিমূলক সম্পর্ক বোঝে?

মৌলিক তথ্য

  • পেপার আইডি: 2510.11210
  • শিরোনাম: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • লেখক: Yisong Miao, Min-Yen Kan (জাতীয় সিঙ্গাপুর বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL (গণনামূলক ভাষাবিজ্ঞান), cs.LG (যন্ত্র শিক্ষা)
  • প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.11210

সারসংক্ষেপ

এই পেপারটি ট্রান্সফর্মার ভাষা মডেলের কোন উপাদানগুলি বিবৃতিমূলক বোঝাপড়ার জন্য দায়ী তা অন্বেষণ করে। লেখকরা অনুমান করেন যে বিরল গণনা গ্রাফ (বিবৃতিমূলক সার্কিট নামে পরিচিত) মডেলটি বিবৃতিমূলক সম্পর্ক প্রক্রিয়া করার পদ্ধতি নিয়ন্ত্রণ করে। সাধারণ কাজের বিপরীতে, বিবৃতিমূলক সম্পর্ক দীর্ঘতর পাঠ্য বিস্তৃতি এবং জটিল যুক্তি জড়িত। সার্কিট আবিষ্কার সম্ভব করতে, লেখকরা "বিবৃতিমূলক সম্পর্কের অধীনে সমাপ্তি" (CUDR) কাজ প্রবর্তন করেছেন, যা মডেলটিকে নির্দিষ্ট সম্পর্কের অধীনে বিবৃতিমূলক সম্পূর্ণ করতে দেয়। পরীক্ষাগুলি দেখায় যে বিরল সার্কিট (GPT-2 মডেলের প্রায় ০.২%) PDTB-ভিত্তিক CUDR কাজে বিবৃতিমূলক বোঝাপড়ার ক্ষমতা পুনরুদ্ধার করতে পারে এবং RST এবং SDRT-এর মতো অদেখা বিবৃতিমূলক কাঠামোতে ভালভাবে সাধারণীকরণ করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিবৃতিমূলক কাঠামো ভাষা মডেলের নিরাপত্তা এবং নৈতিক আচরণ নিশ্চিত করার জন্য অত্যন্ত গুরুত্বপূর্ণ, তবে ভাষা মডেলগুলি অভ্যন্তরীণভাবে বিবৃতিমূলক কীভাবে প্রক্রিয়া করে তা সম্পর্কে খুব কম জানা যায়, যা মডেলের নির্ভরযোগ্যতা এবং ক্ষতিহীন আউটপুট নিশ্চিত করার আমাদের ক্ষমতা সীমিত করে।

গবেষণার গুরুত্ব

  1. নিরাপত্তার প্রয়োজনীয়তা: বিবৃতিমূলক বোঝাপড়া মডেলের নিরাপত্তা এবং নৈতিক আচরণের জন্য অত্যাবশ্যক
  2. ব্যাখ্যাযোগ্যতার অভাব: বিদ্যমান পদ্ধতিগুলি বিবৃতিমূলক প্রক্রিয়াকরণ প্রক্রিয়ার গভীর বোঝাপড়ার অভাব রাখে
  3. জটিলতার চ্যালেঞ্জ: বিবৃতিমূলক সম্পর্ক সাধারণ কাজের তুলনায় দীর্ঘতর প্রসঙ্গ এবং জটিল যুক্তি জড়িত

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. মনোযোগ ভিজ্যুয়ালাইজেশন এবং যুক্তি উৎপাদন ইত্যাদি পদ্ধতিগুলি প্রক্রিয়াগত ব্যাখ্যার অভাব রাখে
  2. বিদ্যমান সার্কিট আবিষ্কার পদ্ধতিগুলি প্রধানত সাধারণ কাজের উপর দৃষ্টি নিবদ্ধ করে (যেমন সংখ্যাগত তুলনা), বিবৃতিমূলক সম্পর্কের সাথে সরাসরি খাপ খাওয়ানো কঠিন
  3. ক্রস-ফ্রেমওয়ার্ক একীভূত বোঝাপড়ার অভাব: বিভিন্ন বিবৃতিমূলক কাঠামোর মধ্যে প্রক্রিয়াগত স্তরে তুলনার অভাব

গবেষণা প্রেরণা

বিবৃতিমূলকের ভাষাগত কাঠামো এবং সার্কিট আবিষ্কারের প্রয়োজনীয়তার মধ্যে সেতু তৈরি করে, জটিল ভাষা কাজের প্রক্রিয়া বোঝার জন্য নতুন পথ খোলা।

মূল অবদান

  1. CUDR কাজ প্রস্তাব: সার্কিট আবিষ্কারের জন্য উপযুক্ত বিবৃতিমূলক সম্পর্ক সমাপ্তি কাজ ডিজাইন করা
  2. বহু-কাঠামো ডেটাসেট নির্মাণ: PDTB, RST, SDRT ইত্যাদি প্রধান বিবৃতিমূলক কাঠামো অন্তর্ভুক্ত করে, মোট ২৭,৭৫৪ উদাহরণ
  3. বিবৃতিমূলক সার্কিট আবিষ্কার: মডেলের সংযোগের মাত্র ০.২% দখল করে কিন্তু ৯০% আনুগত্য অর্জন করে এমন বিরল সার্কিট চিহ্নিত করা
  4. ক্রস-ফ্রেমওয়ার্ক সাধারণীকরণ: PDTB থেকে শেখা সার্কিটগুলি অন্যান্য বিবৃতিমূলক কাঠামোতে ভালভাবে সাধারণীকরণ করতে পারে তা প্রমাণ করা
  5. সার্কিট শ্রেণিবিন্যাস নির্মাণ: প্রথমবারের মতো স্নায়ু সার্কিট উপাদানের উপর ভিত্তি করে বিবৃতিমূলক শ্রেণিবিন্যাস নির্মাণ করা
  6. ভাষাগত বৈশিষ্ট্য বিশ্লেষণ: বিভিন্ন স্তরে ক্যাপচার করা ভাষাগত বৈশিষ্ট্য এবং তাদের ক্রস-ফ্রেমওয়ার্ক সামঞ্জস্য প্রকাশ করা

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা: CUDR (বিবৃতিমূলক সম্পর্কের অধীনে সমাপ্তি)

CUDR কাজ মডেলের বিবৃতিমূলক আচরণ পরীক্ষা করার জন্য একটি নিয়ন্ত্রিত পরিবেশ তৈরি করে:

ইনপুট ফর্ম্যাট:

  • মূল বিবৃতিমূলক: dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • পাল্টা-বাস্তব বিবৃতিমূলক: dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

কাজ সেটআপ:

নিম্নলিখিত দুটি বিকল্পের একটি নির্বাচন করুন বিবৃতিমূলক সম্পূর্ণ করতে:
বিকল্প 1: "তিনি ক্যান্টিনে যান"
বিকল্প 2: "ক্যান্টিন বন্ধ আছে"

সম্পূর্ণ করার জন্য: [বব ক্ষুধার্ত]_{Arg1} [তাই]_{Conn} → [তিনি ক্যান্টিনে যান]_{Arg2}

বিবৃতিমূলক সংযোগকারী পরিবর্তন করে ("তাই" থেকে "কিন্তু"), মডেলের পূর্বাভাস সেই অনুযায়ী পরিবর্তিত হওয়া উচিত।

সার্কিট আবিষ্কার পদ্ধতি

সক্রিয়করণ প্যাচিং

প্রান্ত ee এর প্রভাব সংজ্ঞায়িত করুন: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

যেখানে LL মূল্যায়ন মেট্রিক, xcfx_{cf} পাল্টা-বাস্তব ইনপুট, eorie_{ori} মূল চালনায় সক্রিয়করণ।

প্রান্ত অ্যাট্রিবিউশন প্যাচিং

প্রথম-অর্ডার টেলর আনুমানিক ব্যবহার করে গণনা ত্বরান্বিত করুন: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

যেখানে zuoriz^{ori}_u এবং zucfz^{cf}_u যথাক্রমে মূল এবং পাল্টা-বাস্তব চালনায় নোড uu এর সক্রিয়করণ, vL(xcf)\nabla_v L(x_{cf}) নোড vv এ গ্রেডিয়েন্ট।

বিবৃতিমূলক সার্কিট নির্মাণ

  1. প্রদত্ত বিবৃতিমূলক সম্পর্কের নমুনা সেটে অ্যাট্রিবিউশন প্যাচিং প্রয়োগ করুন
  2. প্রতিটি প্রান্তের গড় g(e)g(e) মূল্য গণনা করুন
  3. সর্বোচ্চ পরম মূল্যের শীর্ষ ১০০০ প্রান্ত নির্বাচন করে সার্কিট গঠন করুন

ডেটাসেট নির্মাণ

বহু-কাঠামো কভারেজ

বিবৃতিমূলক কাঠামোসম্পর্ক সংখ্যাCUDR ডেটা
PDTB1311,843
GDTB125,253
GUM-RST176,805
SDRT103,853
মোট5227,754

পাল্টা-বাস্তব উৎপাদন কৌশল

GPT-4o-mini ব্যবহার করে পাল্টা-বাস্তব Arg2Arg'_2 উৎপাদন করুন, নিশ্চিত করুন:

  1. মূল Arg1Arg1 এবং পাল্টা-বাস্তব সংযোগকারী ConnConn' এর সাথে সামঞ্জস্যপূর্ণ
  2. দৈর্ঘ্য মূল Arg2Arg2 এর সাথে মিলে যায়
  3. সম্পর্ক স্পষ্টভাবে প্রকাশিত হয়

পরীক্ষামূলক সেটআপ

মডেল নির্বাচন

  • প্রধান মডেল: GPT-2 মাঝারি (বিদ্যমান সার্কিট আবিষ্কার গবেষণার মান পছন্দ অনুসরণ করে)
  • সম্প্রসারিত যাচাইকরণ: GPT-2 বড়

মূল্যায়ন মেট্রিক্স

  • আনুগত্য স্কোর: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (স্বাভাবিকৃত আনুগত্য)
  • যুক্তিগত পার্থক্য: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

বেসলাইন পদ্ধতি

  1. র্যান্ডম সার্কিট: র্যান্ডমভাবে নমুনা করা ট্রান্সফর্মার প্রান্ত
  2. IOI সার্কিট: পরোক্ষ বস্তু সনাক্তকরণ সার্কিট (সাধারণ ভাষা মডেলিং ক্ষমতা প্রতিনিধিত্ব করে)

সার্কিট শ্রেণিবিন্যাস

PDTB শৈলীর সার্কিট শ্রেণিবিন্যাস নির্মাণ করুন:

  • L3: লিফ নোড সম্পর্ক (১০০০ প্রান্ত)
  • L2: একাধিক L3 সার্কিট একত্রিত করুন (৫০০+ প্রান্ত)
  • L1: শীর্ষ স্তর বিভাগ সার্কিট (২০০-৫০০ প্রান্ত)
  • L0: মেটা-সার্কিট (১৩৭ প্রান্ত)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

RQ1: বিবৃতিমূলক সার্কিটের আনুগত্য

  • শক্তিশালী আনুগত্য: L3 এবং L1 সার্কিট মাত্র প্রায় ২০০ প্রান্ত দিয়ে ৯০% আনুগত্য অর্জন করে
  • বেসলাইনকে ছাড়িয়ে যায়: র্যান্ডম বেসলাইন এবং IOI বেসলাইনকে উল্লেখযোগ্যভাবে অতিক্রম করে
  • শ্রেণিবিন্যাস প্রভাব: সূক্ষ্ম-দানাদার সার্কিট (L3) প্রাথমিক পর্যায়ে আরও কার্যকর কিন্তু আরও বৈচিত্র্যময়

RQ2: ক্রস-ফ্রেমওয়ার্ক সাধারণীকরণ ক্ষমতা

  • ভাল সাধারণীকরণ: PDTB সার্কিট GDTB, RST, SDRT-এ কার্যকরভাবে সাধারণীকরণ করতে পারে
  • কর্মক্ষমতা র‍্যাঙ্কিং: Own > L3 > L1 ≈ L0 > IOI > Random (সামঞ্জস্যপূর্ণ প্রবণতা)
  • সার্কিট ওভারল্যাপ: কাঠামো জুড়ে সার্কিট ওভারল্যাপ কর্মক্ষমতার সাথে ইতিবাচক সম্পর্ক (যেমন PDTB→GDTB: r=0.44)

RQ3: ভাষাগত বৈশিষ্ট্য বিশ্লেষণ

পাঁচটি মূল ভাষাগত বৈশিষ্ট্যের ব্যবহার প্যাটার্ন আবিষ্কার করা:

  1. মোডালিটি (modality): সবচেয়ে ব্যাপকভাবে ব্যবহৃত
  2. সমার্থকতা (synonymy): বিপরীতার্থকতার চেয়ে বেশি ব্যবহৃত
  3. নেতিবাচনতা (negation): ক্রস-ফ্রেমওয়ার্ক সামঞ্জস্যপূর্ণ ব্যবহার
  4. বিপরীতার্থকতা (antonymy): কারণ এবং সময় সম্পর্কে দুর্বল
  5. সহ-রেফারেন্স (coreference): সম্প্রসারিত শ্রেণী সম্পর্কে সবচেয়ে সক্রিয়

শ্রেণিবিন্যাস বিশ্লেষণ

  • নিম্ন স্তর: ভাষাগত বৈশিষ্ট্য ক্যাপচার করে (শব্দভাণ্ডার শব্দার্থ, সহ-রেফারেন্স)
  • উচ্চ স্তর: বিবৃতিমূলক-স্তরের বিমূর্ততা এনকোড করে
  • বিবৃতিমূলক-নির্দিষ্ট অঞ্চল: উৎস স্তর ৮-১৬, লক্ষ্য স্তর ১০-২০ বিবৃতিমূলক-নির্দিষ্ট প্রান্ত ধারণ করে

কেস স্টাডি বিশ্লেষণ

ত্রুটি কেস বিশ্লেষণ PDTB সার্কিটের বিস্ময়সূচক শব্দ ("yay!!") এবং বিষয় বাদ দেওয়ার মতো ঘটনা পরিচালনা করার অপর্যাপ্ততা প্রকাশ করে, যখন SDRT সার্কিট এই পরিস্থিতিগুলি আরও ভালভাবে পরিচালনা করতে পারে।

সম্পর্কিত কাজ

বিবৃতিমূলক মডেলিং

  • কাঠামো উন্নয়ন: PDTB, RST, SDRT তিনটি প্রধান কাঠামো
  • একীভূত প্রচেষ্টা: DISRPT বেঞ্চমার্ক, স্বয়ংক্রিয় কাঠামো রূপান্তর ইত্যাদি
  • মূল্যায়ন পদ্ধতি: প্রশ্ন-উত্তর মূল্যায়ন, সিন্থেটিক ডেটা উৎপাদন

প্রক্রিয়া ব্যাখ্যাযোগ্যতা

  • সার্কিট আবিষ্কার: প্রধানত সাধারণ কাজে প্রয়োগ করা হয় (IOI, সংখ্যাগত তুলনা, বিষয়-ক্রিয়া সামঞ্জস্য ইত্যাদি)
  • পদ্ধতি সীমাবদ্ধতা: বিদ্যমান পদ্ধতি জটিল বিবৃতিমূলক ঘটনা পরিচালনা করা কঠিন
  • এই পেপারের অবদান: প্রথমবারের মতো বিবৃতিমূলক বোঝাপড়ায় সার্কিট আবিষ্কার প্রয়োগ করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. বিরল কার্যকারিতা: মডেল সংযোগের মাত্র ০.২% বিবৃতিমূলক বোঝাপড়া বাস্তবায়ন করতে পারে
  2. ক্রস-ফ্রেমওয়ার্ক সামঞ্জস্য: ভাষা মডেলগুলি সম্ভবত ভাগ করা বিবৃতিমূলক সম্পর্ক প্রতিনিধিত্ব এনকোড করে
  3. শ্রেণিবিন্যাস প্রক্রিয়াকরণ: নিম্ন স্তর ভাষাগত বৈশিষ্ট্য প্রক্রিয়া করে, উচ্চ স্তর বিবৃতিমূলক বিমূর্ততা প্রক্রিয়া করে
  4. বৈশিষ্ট্য সামঞ্জস্য: ভাষাগত বৈশিষ্ট্য ইউটিলিটি ক্রস-ফ্রেমওয়ার্ক সামঞ্জস্যপূর্ণ থাকে

সীমাবদ্ধতা

  1. ভাষা সীমাবদ্ধতা: শুধুমাত্র ইংরেজি কর্পাস অধ্যয়ন করা হয়েছে
  2. মডেল পরিসীমা: প্রধানত একক ট্রান্সফর্মার মডেলে ফোকাস করা
  3. মানব মস্তিষ্ক তুলনা: মানব বিবৃতিমূলক প্রক্রিয়াকরণ প্রক্রিয়ার সাথে তুলনা করা হয়নি
  4. ডেটা গুণমান: উৎপাদিত পাল্টা-বাস্তব ডেটা তুলনামূলকভাবে সহজ এবং সরাসরি

ভবিষ্যত দিকনির্দেশনা

  1. বহুভাষিক সম্প্রসারণ: ক্রস-ভাষা বিবৃতিমূলক সার্কিটের সামঞ্জস্য অন্বেষণ করা
  2. জটিল পরিস্থিতি: আরও জটিল বিবৃতিমূলক শৈলী এবং অস্পষ্ট পরিস্থিতিতে সম্প্রসারণ করা
  3. প্রয়োগ-ভিত্তিক: পক্ষপাত সনাক্তকরণ এবং মডেল গাইডেন্সের জন্য ব্যবহার করা
  4. আর্কিটেকচার সম্প্রসারণ: বৃহত্তর স্কেল ভাষা মডেলের সাথে খাপ খাওয়ানো

গভীর মূল্যায়ন

শক্তি

  1. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো জটিল বিবৃতিমূলক বোঝাপড়া কাজে সার্কিট আবিষ্কার প্রয়োগ করা
  2. পদ্ধতি কঠোর: CUDR কাজ ডিজাইন চতুর, সক্রিয়করণ প্যাচিং কার্যকরভাবে সমর্থন করতে পারে
  3. ব্যাপক কভারেজ: একাধিক প্রধান বিবৃতিমূলক কাঠামো অন্তর্ভুক্ত করে, উল্লেখযোগ্য ডেটাসেট আকার
  4. গভীর বিশ্লেষণ: সার্কিট শ্রেণিবিন্যাস থেকে ভাষাগত বৈশিষ্ট্যের বহুমাত্রিক বিশ্লেষণ
  5. ভাল সাধারণীকরণ: ক্রস-ফ্রেমওয়ার্ক সাধারণীকরণ ফলাফল প্রভাবশালী

অপূর্ণতা

  1. গণনা জটিলতা: সার্কিট আবিষ্কার প্রক্রিয়া গণনা-নিবিড়, বৃহত্তর মডেলে সম্প্রসারণ করা কঠিন
  2. ডেটা নির্ভরতা: LLM-উৎপাদিত পাল্টা-বাস্তব ডেটার উপর নির্ভর করে, সম্ভাব্য পক্ষপাত প্রবর্তন করতে পারে
  3. মূল্যায়ন সীমাবদ্ধতা: প্রধানত একক মডেল আর্কিটেকচারের উপর ভিত্তি করে, সাধারণীকরণ যাচাই করা প্রয়োজন
  4. তাত্ত্বিক গভীরতা: এই সার্কিটগুলি কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যার অভাব

প্রভাব

  1. একাডেমিক মূল্য: বিবৃতিমূলক বোঝাপড়ার প্রক্রিয়া গবেষণার জন্য নতুন দিকনির্দেশনা খোলে
  2. ব্যবহারিক সম্ভাবনা: মডেল ডিবাগিং, পক্ষপাত সনাক্তকরণ ইত্যাদিতে ব্যবহার করা যেতে পারে
  3. পদ্ধতিগত অবদান: CUDR প্যারাডাইম অন্যান্য জটিল NLP কাজে সাধারণীকরণ করা যেতে পারে
  4. আন্তঃ-শৃঙ্খলা তাৎপর্য: গণনামূলক ভাষাবিজ্ঞান এবং প্রক্রিয়া ব্যাখ্যাযোগ্যতা গবেষণা সংযুক্ত করে

প্রযোজ্য পরিস্থিতি

  1. মডেল বিশ্লেষণ: বৃহৎ ভাষা মডেলের বিবৃতিমূলক প্রক্রিয়াকরণ প্রক্রিয়া বোঝা
  2. নিরাপত্তা সনাক্তকরণ: বিবৃতিমূলক বোঝাপড়ায় মডেলের সম্ভাব্য পক্ষপাত চিহ্নিত করা
  3. মডেল উন্নতি: বিবৃতিমূলক বোঝাপড়া ক্ষমতার লক্ষ্যবস্তু উন্নতি নির্দেশনা দেওয়া
  4. শিক্ষা গবেষণা: বিবৃতিমূলক তত্ত্বের জন্য গণনামূলক দৃষ্টিকোণ যাচাইকরণ প্রদান করা

সংদর্ভ

পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • বিবৃতিমূলক তত্ত্ব ক্লাসিক সাহিত্য: Mann & Thompson (1987), Asher & Lascarides (2003)
  • সার্কিট আবিষ্কার পদ্ধতি: Wang et al. (2023), Conmy et al. (2023)
  • বিবৃতিমূলক ডেটাসেট: Webber et al. (2019), Liu et al. (2024b)
  • প্রক্রিয়া ব্যাখ্যাযোগ্যতা: Zhang & Nanda (2024), Miller et al. (2024)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা পদ্ধতি উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং বিশ্লেষণ গভীরতার ক্ষেত্রে চমৎকার কর্মক্ষমতা প্রদর্শন করে। চতুর CUDR কাজ ডিজাইনের মাধ্যমে, এটি সফলভাবে জটিল বিবৃতিমূলক বোঝাপড়া কাজে সার্কিট আবিষ্কার প্রযুক্তি প্রয়োগ করেছে, ভাষা মডেলের অভ্যন্তরীণ প্রক্রিয়া বোঝার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করেছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর অগ্রগামী কাজ এবং সমৃদ্ধ আবিষ্কার এটিকে উল্লেখযোগ্য একাডেমিক মূল্য এবং ব্যবহারিক সম্ভাবনা প্রদান করে।