2025-11-18T14:37:13.937958

Systematic Diagnosis of Brittle Reasoning in Large Language Models

Parupudi

A central question in artificial intelligence is the extent to which machine learning models comprehend mathematics. To address this, we propose a novel framework for measuring mathematical reasoning that moves beyond standard benchmarks to diagnose specific failure points. Our method first generates structured, step-by-step reasoning from gpt-3.5-turbo on the GSM8K dataset. We then use a more capable analyst model, gpt-4o-mini, to categorize errors and, crucially, perform an unsupervised clustering of every reasoning sentence to identify emergent "reasoning modes." This analysis reveals a cognitive profile with a stark, nonhuman-like brittleness: while the model achieves near-perfect accuracy on procedural modes like sequential calculation, its performance on modes requiring combinatorial reasoning with restrictions plummets. By identifying and quantifying the reliability of these distinct reasoning skills, our work provides a more granular method to evaluate mathematical comprehension and offers a precise roadmap for developing new capabilities and more reliable future applications.

academic

বৃহৎ ভাষা মডেলগুলিতে ভঙ্গুর যুক্তির পদ্ধতিগত নির্ণয়

মৌলিক তথ্য

পেপার আইডি: 2510.08595
শিরোনাম: বৃহৎ ভাষা মডেলগুলিতে ভঙ্গুর যুক্তির পদ্ধতিগত নির্ণয়
লেখক: ভি. এস. রাঘু পারুপুডি (ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, সান ডিয়েগো)
শ্রেণীবিভাগ: cs.CL (গণনা এবং ভাষা)
প্রকাশনা সম্মেলন: নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের ৩৯তম সম্মেলন (NeurIPS 2025) কর্মশালা: MATH-AI
পেপার লিঙ্ক: https://arxiv.org/abs/2510.08595v1

সারসংক্ষেপ

কৃত্রিম বুদ্ধিমত্তা ক্ষেত্রের মূল প্রশ্নগুলির একটি হল মেশিন লার্নিং মডেলগুলি গণিতকে কতটা ভালভাবে বোঝে। এই সমস্যার সমাধানের জন্য, এই পেপারটি গাণিতিক যুক্তি ক্ষমতা পরিমাপের জন্য একটি উদ্ভাবনী কাঠামো প্রস্তাব করে, যা মানক বেঞ্চমার্ক অতিক্রম করে এবং নির্দিষ্ট ব্যর্থতার পয়েন্টগুলি নির্ণয় করতে পারে। পদ্ধতিটি প্রথমে GPT-3.5-turbo থেকে GSM8K ডেটাসেটে কাঠামোবদ্ধ ধাপে ধাপে যুক্তি তৈরি করে, তারপর আরও শক্তিশালী বিশ্লেষণ মডেল GPT-4o-mini ব্যবহার করে ত্রুটিগুলি শ্রেণীবদ্ধ করে এবং প্রতিটি যুক্তি বাক্যে অপর্যবেক্ষিত ক্লাস্টারিং সম্পাদন করে উদীয়মান "যুক্তি প্যাটার্ন" চিহ্নিত করে। বিশ্লেষণ একটি স্পষ্ট অ-মানবিক ভঙ্গুরতা সহ একটি জ্ঞানীয় প্রোফাইল প্রকাশ করে: যদিও মডেলটি ক্রমিক গণনার মতো পদ্ধতিগত প্যাটার্নগুলিতে প্রায় নিখুঁত নির্ভুলতা অর্জন করে, তবে সংমিশ্রণমূলক যুক্তি এবং সীমাবদ্ধতার প্রয়োজন এমন প্যাটার্নগুলিতে কর্মক্ষমতা তীব্রভাবে হ্রাস পায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যা মূল সমস্যা সমাধান করতে চায় তা হল: বৃহৎ ভাষা মডেলগুলিতে গাণিতিক যুক্তির নির্দিষ্ট ব্যর্থতার ধরণগুলি কীভাবে পদ্ধতিগতভাবে নির্ণয় করা যায়। যদিও LLM গুলি গাণিতিক যুক্তি কাজে উল্লেখযোগ্য অগ্রগতি করেছে, বর্তমান মূল্যায়ন পদ্ধতিগুলি প্রধানত চূড়ান্ত উত্তরের সঠিকতার উপর দৃষ্টি নিবদ্ধ করে, যুক্তি প্রক্রিয়ায় নির্দিষ্ট ব্যর্থতার পয়েন্টগুলির গভীর বিশ্লেষণের অভাব রয়েছে।

সমস্যার গুরুত্ব

যুক্তির নির্ভরযোগ্যতা: এমনকি প্রক্রিয়া তত্ত্ববধানে প্রশিক্ষিত অত্যাধুনিক মডেলগুলিও নিয়মিত যুক্তিগত ত্রুটি উৎপন্ন করে
নির্ণয়ের অভাব: ক্ষেত্রে স্থায়ী ব্যর্থতার ধরণগুলি নির্ণয় করার জন্য পদ্ধতিগত, স্কেলেবল কাঠামোর অভাব রয়েছে
প্রয়োগের প্রয়োজন: বাস্তব প্রয়োগের জন্য মডেলটি কখন এবং কোথায় ব্যর্থ হবে এবং কেন ব্যর্থ হবে তা বোঝার প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

মোটা-দানাদার মূল্যায়ন: বিদ্যমান বেঞ্চমার্কগুলি প্রধানত কাজ-স্তরের নির্ভুলতার উপর দৃষ্টি নিবদ্ধ করে, সূক্ষ্ম-দানাদার জ্ঞানীয় নির্ণয় প্রদান করতে পারে না
পদ্ধতিগত অভাব: স্বয়ংক্রিয়, পূর্বাভাসমূলক যুক্তি ব্যর্থতা নির্ণয় পদ্ধতির অভাব রয়েছে
প্যাটার্ন স্বীকৃতির অপর্যাপ্ততা: বিভিন্ন যুক্তি দক্ষতার নির্ভরযোগ্যতা চিহ্নিত এবং পরিমাপ করতে পারে না

মূল অবদান

উদ্ভাবনী নির্ণয় কাঠামো প্রস্তাব: স্বয়ংক্রিয়, পূর্বাভাসমূলক যুক্তি ব্যর্থতা নির্ণয় ব্যবস্থা বিকশিত করেছে
যুক্তি প্যাটার্ন আবিষ্কার: অপর্যবেক্ষিত ক্লাস্টারিং এর মাধ্যমে বিভিন্ন "যুক্তি প্যাটার্ন" চিহ্নিত করেছে এবং তাদের নির্ভরযোগ্যতা পরিমাপ করেছে
জ্ঞানীয় ভঙ্গুরতা প্রকাশ: LLM যুক্তিতে অ-মানবিক ভঙ্গুরতা বৈশিষ্ট্য আবিষ্কার করেছে—সম্পর্কিত গাণিতিক ধারণাগুলিতে চরম দ্বিমুখী (১০০% সাফল্য বনাম ০% ব্যর্থতা) প্রদর্শন করে
নির্ভুল উন্নতি রোডম্যাপ প্রদান: আরও নির্ভরযোগ্য মডেল বিকাশের জন্য ডেটা-চালিত কর্মসূচি প্রদান করেছে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: GSM8K গাণিতিক সমস্যা আউটপুট: কাঠামোবদ্ধ যুক্তি ট্র্যাজেক্টরির নির্ণয়মূলক বিশ্লেষণ, যার মধ্যে ব্যর্থতা শ্রেণীবিভাগ এবং যুক্তি প্যাটার্ন নির্ভরযোগ্যতা মূল্যায়ন রয়েছে লক্ষ্য: LLM গাণিতিক যুক্তিতে নির্দিষ্ট ব্যর্থতার ধরণগুলি চিহ্নিত এবং পরিমাপ করা

মডেল আর্কিটেকচার

তিন-স্তরের বিশ্লেষণ পাইপলাইন

জেনারেটর মডেল: GPT-3.5-turbo-1106 কাঠামোবদ্ধ যুক্তি ট্র্যাজেক্টরি তৈরি করে
এমবেডিং মডেল: text-embedding-3-large বাক্য এমবেডিং তৈরি করে
বিশ্লেষক মডেল: GPT-4o-mini ত্রুটি শ্রেণীবিভাগ এবং ক্লাস্টার লেবেলিং সম্পাদন করে

মূল পদ্ধতির প্রবাহ

ধাপ ১: কাঠামোবদ্ধ যুক্তি প্রজন্ম

JSON ফর্ম্যাট ব্যবহার করে মডেলকে ধাপে ধাপে যুক্তি এবং চূড়ান্ত উত্তর আউটপুট করতে বাধ্য করে
নিশ্চিতকরণ আউটপুটের জন্য তাপমাত্রা ০.০ এ সেট করে

ধাপ ২: স্বয়ংক্রিয় নির্ণয়

বিশ্লেষক মডেল প্রোগ্রামগতভাবে প্রতিটি ব্যর্থ ট্র্যাজেক্টরি পরীক্ষা করে
প্রথম ব্যর্থতার পয়েন্ট চিহ্নিত এবং শ্রেণীবদ্ধ করে

ধাপ ৩: যুক্তি প্যাটার্ন ক্লাস্টারিং বিশ্লেষণ

সমস্ত যুক্তি বাক্যকে উচ্চ-মাত্রার ভেক্টরে রূপান্তরিত করে (text-embedding-3-large)
এমবেডিং ভেক্টরগুলিতে L2 স্বাভাবিকীকরণ প্রক্রিয়াকরণ প্রয়োগ করে
অপর্যবেক্ষিত ক্লাস্টারিংয়ের জন্য HDBSCAN অ্যালগরিদম ব্যবহার করে
GPT-4o-mini স্বয়ংক্রিয়ভাবে ক্লাস্টার লেবেল তৈরি করে

ধাপ ৪: নির্ভরযোগ্যতা পরিমাপ

ট্র্যাজেক্টরি-স্তরের বাইনারি লেবেলিং এর উপর ভিত্তি করে (সঠিক/ভুল)
প্রতিটি ক্লাস্টারের "সঠিকতার হার" গণনা করে (সফল যুক্তি ট্র্যাজেক্টরিতে অন্তর্ভুক্ত বাক্যের শতাংশ)
পরিসংখ্যানগত তাৎপর্য যাচাই করতে Fisher নির্ভুল পরীক্ষা ব্যবহার করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ট্র্যাজেক্টরি-স্তরের শাস্তি প্রক্রিয়া: যেকোনো একক ত্রুটি সম্পূর্ণ যুক্তি ট্র্যাজেক্টরিকে অবৈধ করে, স্পষ্ট বাইনারি পরিসংখ্যানগত সংকেত প্রদান করে
অপর্যবেক্ষিত প্যাটার্ন আবিষ্কার: পূর্বনির্ধারিত বিভাগের পরিবর্তে ক্লাস্টারিং এর মাধ্যমে স্বয়ংক্রিয়ভাবে উদীয়মান যুক্তি প্যাটার্ন আবিষ্কার করে
বহু-মডেল সহযোগিতা: বিভিন্ন ক্ষমতার মডেলগুলি কাজ ভাগ করে নিতে ব্যবহার করে (প্রজন্ম, এমবেডিং, বিশ্লেষণ)
পরিসংখ্যানগত যাচাইকরণ: আবিষ্কৃত প্যাটার্নগুলি পরিসংখ্যানগতভাবে উল্লেখযোগ্য তা নিশ্চিত করতে Fisher নির্ভুল পরীক্ষা ব্যবহার করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

ডেটা উৎস: GSM8K প্রশিক্ষণ সেটের র্যান্ডম নমুনা
নমুনা আকার: ১,০০০ সমস্যা
নমুনা পদ্ধতি: পুনরুৎপাদনযোগ্যতা নিশ্চিত করতে নির্দিষ্ট র্যান্ডম বীজ

মূল্যায়ন মেট্রিক্স

কাজ-স্তরের নির্ভুলতা: চূড়ান্ত উত্তরের সঠিকতা
ক্লাস্টার সঠিকতা: প্রতিটি যুক্তি প্যাটার্ন ক্লাস্টারে সফল ট্র্যাজেক্টরিতে অন্তর্ভুক্ত বাক্যের অনুপাত
পরিসংখ্যানগত তাৎপর্য: Fisher নির্ভুল পরীক্ষা (p < 0.05)

বাস্তবায়ন বিবরণ

মডেল কনফিগারেশন: সমস্ত মডেল তাপমাত্রা ০.০ এ সেট করা
ক্লাস্টারিং অ্যালগরিদম: উচ্চ-মাত্রার স্বাভাবিক এমবেডিংয়ে সরাসরি HDBSCAN প্রয়োগ করা
বেসলাইন তুলনা: সামগ্রিক ৮৪.৯% সমস্যা-স্তরের নির্ভুলতা বাক্য-স্তরের সঠিকতার বেসলাইন হিসাবে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সামগ্রিক কর্মক্ষমতা

মোট নির্ভুলতা: ৮৪.৯% (৮৪৯/১০০০)
ব্যর্থতার ক্ষেত্রে: বিস্তারিত বিশ্লেষণের জন্য ১৫১টি ত্রুটিপূর্ণ প্রতিক্রিয়া

উচ্চ-স্তরের ব্যর্থতা শ্রেণীবিভাগ

ত্রুটি বিভাগ	সংখ্যা	শতাংশ
যুক্তি ত্রুটি	75	49.7%
গণনা ত্রুটি	50	33.1%
ভুল বোঝা ত্রুটি	17	11.3%
অশ্রেণীবদ্ধ	5	3.3%
তথ্য উদ্ভাবন	4	2.6%

যুক্তি প্যাটার্ন নির্ভরযোগ্যতা বিশ্লেষণ

উচ্চ নির্ভরযোগ্যতা প্যাটার্ন (প্রায় নিখুঁত):

ক্লাস্টার ১৭২: আইটেমের মোট খরচ গণনা - ১০০.০% সঠিকতা
ক্লাস্টার ৪৭: ক্রমিক গণনা পদক্ষেপ - ১০০.০% সঠিকতা
ক্লাস্টার ১৭১: মোট খরচ বা লাভ গণনা - ৯৫.১% সঠিকতা

দুর্বল যুক্তি প্যাটার্ন (উল্লেখযোগ্য ব্যর্থতা):

ক্লাস্টার ১১: সীমাবদ্ধতা সহ সংমিশ্রণ গণনা - ০.০% সঠিকতা
ক্লাস্টার ৯৩: সমীকরণে প্রতিস্থাপন এবং সরলীকরণ - ২৭.৩% সঠিকতা
ক্লাস্টার ৬০: সময় বা পরিমাণ গণনা এবং রাউন্ডিং - ২৭.৩% সঠিকতা

মূল আবিষ্কার

জ্ঞানীয় ভঙ্গুরতা বৈশিষ্ট্য

চরম দ্বিমুখীকরণ: সম্পর্কিত গাণিতিক ধারণাগুলিতে ১০০% সাফল্য এবং ০% ব্যর্থতার চরম বৈসাদৃশ্য প্রদর্শন করে
পদ্ধতিগত বনাম সংমিশ্রণমূলক: পদ্ধতিগত কাজগুলি (যেমন ক্রমিক গণনা) প্রায় নিখুঁত, সংমিশ্রণমূলক যুক্তি সম্পূর্ণভাবে ব্যর্থ
অ-মানবিক জ্ঞানীয় প্যাটার্ন: এই চরম সাফল্য-ব্যর্থতা দ্বিবিভাজন মানব শেখার প্যাটার্ন থেকে উল্লেখযোগ্যভাবে আলাদা

পরিসংখ্যানগত যাচাইকরণ

সমস্ত হাইলাইট করা ক্লাস্টার Fisher নির্ভুল পরীক্ষা পাস করেছে (p < 0.05), নিশ্চিত করে যে পর্যবেক্ষিত কর্মক্ষমতা র্যান্ডম সুযোগের ফলাফল নয়।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

পদ্ধতিগত ভঙ্গুরতা আবিষ্কার: LLM গাণিতিক যুক্তিতে অ-মানবিক জ্ঞানীয় ভঙ্গুরতা প্রদর্শন করে
মূল ব্যর্থতার ধরণ চিহ্নিত করা: সংমিশ্রণমূলক যুক্তি এবং সীমাবদ্ধতা পরিচালনা প্রধান দুর্বল পয়েন্ট
নির্ণয় সরঞ্জাম প্রদান: স্কেলেবল যুক্তি ব্যর্থতা নির্ণয় কাঠামো বিকশিত করেছে

সীমাবদ্ধতা

একক মডেল সীমাবদ্ধতা: বিশ্লেষণ শুধুমাত্র GPT-3.5-turbo একটি জেনারেটর মডেলের উপর ভিত্তি করে
ডেটাসেট পরিসীমা: শুধুমাত্র GSM8K ডেটাসেট ব্যবহার করা, সাধারণীকরণ সীমিত করতে পারে
বিশ্লেষক নির্ভরতা: নির্ণয় LLM বিশ্লেষকের উপর নির্ভর করে, যার বিচার নির্ভুলতা আরও যাচাইকরণের প্রয়োজন
সম্পদ সীমাবদ্ধতা: সম্পদ সীমাবদ্ধতার কারণে বৃহত্তর ক্রস-মডেল বিশ্লেষণ সম্পাদন করতে পারেনি

ভবিষ্যত দিকনির্দেশনা

ক্রস-মডেল বিশ্লেষণ: পাইপলাইনটি একাধিক অত্যাধুনিক মডেলে প্রয়োগ করা (GPT-4, Claude 3, Gemini 1.5)
ডোমেইন সম্প্রসারণ: আরও জটিল যুক্তি ডোমেইনে সম্প্রসারণ করা
বন্ধ-লুপ উন্নতি: চিহ্নিত দুর্বল ক্লাস্টারগুলি ব্যবহার করে লক্ষ্যযুক্ত সূক্ষ্ম-সুর করা, যাচাই করা যে নির্দিষ্ট যুক্তি ত্রুটিগুলি সংশোধন করা যায় কিনা

গভীর মূল্যায়ন

শক্তি

পদ্ধতি উদ্ভাবন শক্তিশালী: যুক্তি প্যাটার্ন নির্ণয়ের জন্য প্রথম পদ্ধতিগত কাঠামো প্রস্তাব করেছে
আবিষ্কার অন্তর্দৃষ্টিপূর্ণ: LLM জ্ঞানের অ-মানবিক ভঙ্গুরতা বৈশিষ্ট্য প্রকাশ করেছে
পরীক্ষামূলক ডিজাইন কঠোর: পরিসংখ্যানগত পরীক্ষা ব্যবহার করে আবিষ্কারের তাৎপর্য যাচাই করেছে
ব্যবহারিক মূল্য উচ্চ: মডেল উন্নতির জন্য নির্ভুল ডেটা-চালিত নির্দেশনা প্রদান করেছে

অপূর্ণতা

সীমিত নমুনা আকার: ১০০০ নমুনা সমস্ত যুক্তি প্যাটার্ন পর্যাপ্তভাবে প্রতিনিধিত্ব করতে অপর্যাপ্ত হতে পারে
মডেল নির্ভরতা: নির্দিষ্ট OpenAI মডেলের উপর অত্যধিক নির্ভরতা, ফলাফলের সাধারণীকরণকে প্রভাবিত করতে পারে
ক্লাস্টার ব্যাখ্যাযোগ্যতা: HDBSCAN ক্লাস্টারিং ফলাফলের ব্যাখ্যাযোগ্যতা এবং স্থিতিশীলতা আরও যাচাইকরণের প্রয়োজন
মানব তুলনার অভাব: মানব যুক্তি প্যাটার্নের সাথে সরাসরি তুলনামূলক যাচাইকরণের অভাব

প্রভাব

তাত্ত্বিক অবদান: LLM গাণিতিক যুক্তি ক্ষমতা বোঝার জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করেছে
ব্যবহারিক নির্দেশনা: মডেল প্রশিক্ষণ এবং উন্নতির জন্য নির্দিষ্ট লক্ষ্য দিকনির্দেশনা প্রদান করেছে
পদ্ধতিগত মূল্য: নির্ণয় কাঠামো অন্যান্য যুক্তি কাজ এবং মডেলে প্রয়োগ করা যেতে পারে

প্রযোজ্য পরিস্থিতি

মডেল মূল্যায়ন: LLM গাণিতিক যুক্তি ক্ষমতার সূক্ষ্ম-দানাদার মূল্যায়ন প্রদান করে
প্রশিক্ষণ অপ্টিমাইজেশন: লক্ষ্যযুক্ত মডেল প্রশিক্ষণ এবং ডেটা বৃদ্ধি নির্দেশনা দেয়
প্রয়োগ স্থাপনা: নির্দিষ্ট যুক্তি পরিস্থিতিতে মডেল নির্ভরযোগ্যতা চিহ্নিত করতে সহায়তা করে
গবেষণা সরঞ্জাম: যুক্তি ক্ষমতা গবেষণার জন্য মানক নির্ণয় সরঞ্জাম প্রদান করে

তথ্যসূত্র

Campello, R. J. G. B., Moulavi, D., & Sander, J. (2013). ঘনত্ব-ভিত্তিক ক্লাস্টারিং শ্রেণিবদ্ধ ঘনত্ব অনুমানের উপর ভিত্তি করে।
Cobbe, K., এবং অন্যরা (2021). গাণিতিক শব্দ সমস্যা সমাধানের জন্য যাচাইকারী প্রশিক্ষণ।
Lightman, H., এবং অন্যরা (2023). আসুন ধাপে ধাপে যাচাই করি।
Wei, J., এবং অন্যরা (2022). চিন্তার শৃঙ্খল প্রম্পটিং বৃহৎ ভাষা মডেলগুলিতে যুক্তি উদ্ভাবন করে।
Yao, S., এবং অন্যরা (2023). চিন্তার গাছ: বৃহৎ ভাষা মডেলগুলির সাথে ইচ্ছাকৃত সমস্যা সমাধান।

সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্যের পেপার, যা প্রথমবারের মতো LLM গাণিতিক যুক্তিতে ভঙ্গুর প্যাটার্নগুলি পদ্ধতিগতভাবে নির্ণয় করেছে। যদিও পরীক্ষামূলক স্কেল এবং মডেল কভারেজে সীমাবদ্ধতা রয়েছে, তবে এর প্রস্তাবিত নির্ণয় কাঠামো এবং আবিষ্কৃত জ্ঞানীয় ভঙ্গুরতা বৈশিষ্ট্য LLM যুক্তি ক্ষমতা বোঝা এবং উন্নত করার জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করে। পেপারের পদ্ধতিগত উদ্ভাবন এবং ব্যবহারিক মূল্য এটিকে AI যুক্তি গবেষণা ক্ষেত্রে গুরুত্বপূর্ণ প্রভাব প্রদান করে।