2025-11-11T11:58:09.609989

Rademacher Meets Colors: More Expressivity, but at What Cost ?

Carrasco, Netto, Martirosyan et al.

The expressive power of graph neural networks (GNNs) is typically understood through their correspondence with graph isomorphism tests such as the Weisfeiler-Leman (WL) hierarchy. While more expressive GNNs can distinguish a richer set of graphs, they are also observed to suffer from higher generalization error. This work provides a theoretical explanation for this trade-off by linking expressivity and generalization through the lens of coloring algorithms. Specifically, we show that the number of equivalence classes induced by WL colorings directly bounds the GNNs Rademacher complexity -- a key data-dependent measure of generalization. Our analysis reveals that greater expressivity leads to higher complexity and thus weaker generalization guarantees. Furthermore, we prove that the Rademacher complexity is stable under perturbations in the color counts across different samples, ensuring robustness to sampling variability across datasets. Importantly, our framework is not restricted to message-passing GNNs or 1-WL, but extends to arbitrary GNN architectures and expressivity measures that partition graphs into equivalence classes. These results unify the study of expressivity and generalization in GNNs, providing a principled understanding of why increasing expressive power often comes at the cost of generalization.

academic

Rademacher Meets Colors: More Expressivity, but at What Cost?

মৌলিক তথ্য

পেপার আইডি: 2510.10101
শিরোনাম: Rademacher Meets Colors: More Expressivity, but at What Cost?
লেখক: Martin Carrasco, Caio Deberaldini Netto, Vahan A. Martirosyan, Aneeqa Mehrab, Ehimare Okoyomon, Caterina Graziani
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনা সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10101

সংক্ষিপ্তসার

গ্রাফ নিউরাল নেটওয়ার্ক (GNN) এর প্রকাশনীয় ক্ষমতা সাধারণত গ্রাফ আইসোমরফিজম পরীক্ষা (যেমন Weisfeiler-Leman শ্রেণিবিন্যাস) এর সাথে এর সংযোগের মাধ্যমে বোঝা যায়। যদিও আরও প্রকাশনীয় GNN গুলি গ্রাফের সমৃদ্ধ সেট আলাদা করতে পারে, তারা উচ্চতর সাধারণীকরণ ত্রুটিও প্রদর্শন করে। এই কাজটি রঙিন করার অ্যালগরিদমের দৃষ্টিভঙ্গি থেকে প্রকাশনীয়তাকে সাধারণীকরণ ক্ষমতার সাথে সংযুক্ত করে এই ট্রেড-অফের জন্য একটি তাত্ত্বিক ব্যাখ্যা প্রদান করে। নির্দিষ্টভাবে, লেখকরা প্রমাণ করেছেন যে WL রঙিন করার দ্বারা প্ররোচিত সমতুল্য শ্রেণীর সংখ্যা সরাসরি GNN এর Rademacher জটিলতা সীমাবদ্ধ করে—একটি গুরুত্বপূর্ণ ডেটা-নির্ভর সাধারণীকরণ পরিমাপ। বিশ্লেষণ প্রকাশ করে যে শক্তিশালী প্রকাশনীয়তা উচ্চতর জটিলতার দিকে পরিচালিত করে, যার ফলে দুর্বল সাধারণীকরণ নিশ্চয়তা আসে। অধিকন্তু, লেখকরা প্রমাণ করেছেন যে Rademacher জটিলতা বিভিন্ন নমুনা জুড়ে রঙ গণনা বিঘ্নের অধীনে স্থিতিশীল। গুরুত্বপূর্ণভাবে, এই কাঠামোটি শুধুমাত্র বার্তা-পাসিং GNN বা 1-WL এর মধ্যে সীমাবদ্ধ নয়, বরং যেকোনো GNN স্থাপত্য এবং গ্রাফগুলিকে সমতুল্য শ্রেণীতে বিভক্ত করার প্রকাশনীয়তা পরিমাপে প্রসারিত হয়।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই গবেষণাটি GNN ক্ষেত্রে একটি মৌলিক তাত্ত্বিক সমস্যা সমাধানের লক্ষ্য রাখে: প্রকাশনীয়তা এবং সাধারণীকরণ ক্ষমতার মধ্যে ট্রেড-অফ। যদিও অভিজ্ঞতামূলক পর্যবেক্ষণ নির্দেশ করে যে আরও প্রকাশনীয় GNN গুলি প্রায়শই খারাপ সাধারণীকরণ কর্মক্ষমতা প্রদর্শন করে, কঠোর তাত্ত্বিক ব্যাখ্যার অভাব রয়েছে।

সমস্যার গুরুত্ব

তাত্ত্বিক ভিত্তির অভাব: বিদ্যমান গবেষণা প্রধানত GNN এর প্রকাশনীয়তা বিশ্লেষণে ফোকাস করে, কিন্তু এর সাধারণীকরণ ক্ষমতার সাথে সম্পর্কের তাত্ত্বিক বোঝাপড়া অপর্যাপ্ত
ব্যবহারিক নির্দেশনা মূল্য: এই ট্রেড-অফ বোঝা এমন GNN স্থাপত্য ডিজাইন করার জন্য গুরুত্বপূর্ণ যা পর্যাপ্ত প্রকাশনীয়তা এবং ভাল সাধারণীকরণ উভয়ই রয়েছে
একীভূত কাঠামোর প্রয়োজন: বিভিন্ন GNN স্থাপত্যের সাধারণীকরণ আচরণ ব্যাখ্যা করার জন্য একটি একীভূত তাত্ত্বিক কাঠামো প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

Morris এবং অন্যদের VC মাত্রা বিশ্লেষণ: শুধুমাত্র নির্দিষ্ট সক্রিয়করণ ফাংশন এবং সীমাবদ্ধ গ্রাফের জন্য প্রযোজ্য, এবং পরামিতি সংখ্যার উপর নির্ভর করে কাঠামোগত বৈশিষ্ট্যের পরিবর্তে
Garg এবং অন্যদের Rademacher জটিলতা: আরও কঠোর সীমানা প্রদান করলেও, WL রঙিন করার বিতরণের সাথে সংযোগ অন্বেষণ করেনি
সর্বজনীনতার অভাব: বিদ্যমান বিশ্লেষণ প্রায়শই নির্দিষ্ট GNN স্থাপত্য বা 1-WL পরীক্ষার মধ্যে সীমাবদ্ধ

মূল অবদান

প্রকাশনীয়তা-সাধারণীকরণ তাত্ত্বিক সংযোগ প্রতিষ্ঠা: প্রথমবারের মতো রঙিন করার অ্যালগরিদমের মাধ্যমে GNN এর প্রকাশনীয়তাকে Rademacher জটিলতার সাথে সরাসরি সংযুক্ত করা
নির্ভুল জটিলতা সীমানা প্রদান: প্রমাণ করেছেন যে Rademacher জটিলতা উপরের সীমা $\sqrt{p/m}$ , যেখানে $p$ সমতুল্য শ্রেণীর সংখ্যা
স্থিতিশীলতা নিশ্চয়তা প্রমাণ: রঙ গণনা বিঘ্নের অধীনে Rademacher জটিলতার Lipschitz ধারাবাহিকতা প্রতিষ্ঠা করা
সর্বজনীন কাঠামো ডিজাইন: যেকোনো GNN স্থাপত্য এবং সংশ্লিষ্ট রঙিন করার অ্যালগরিদমে প্রসারিত, বার্তা-পাসিং GNN বা 1-WL এর মধ্যে সীমাবদ্ধ নয়
উন্নত Dudley অবিচ্ছেদ্য সীমানা: $p$ মাত্রার কাঠামো ব্যবহার করে আরও কঠোর কভারেজ সংখ্যা সীমানা প্রদান করা

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

গ্রাফ-স্তরের দ্বিমুখী শ্রেণীবিভাগ কাজ অধ্যয়ন করা হয়েছে, যেখানে:

ইনপুট: গ্রাফ ডেটাসেট $S = \{(G_i, y_i)\}_{i=1}^m$ , $G_i \in \mathcal{G}$ , $y_i \in \{-1, +1\}$
আউটপুট: ফাংশন শ্রেণী $\mathcal{F} = \{f: \mathcal{G} \to [-1,1]\}$ এর Rademacher জটিলতা সীমানা
উদ্দেশ্য: প্রকাশনীয়তা পরিমাপ এবং সাধারণীকরণ ক্ষমতার মধ্যে পরিমাণগত সম্পর্ক প্রতিষ্ঠা করা

তাত্ত্বিক কাঠামো

মূল ধারণা

রঙিন করার অ্যালগরিদম নমুনা $S$ কে $p$ টি বিচ্ছিন্ন সেটে বিভক্ত করে $I_1, \ldots, I_p$ , প্রতিটি $I_j$ একই রঙ $c_j$ সহ সমস্ত গ্রাফ ধারণ করে। এই বিভাজন ফাংশন শ্রেণীতে কাঠামোগত সীমাবদ্ধতা আরোপ করে: স্থাপত্য দ্বারা বাস্তবায়িত যেকোনো ফাংশন সমতুল্য শ্রেণীতে ধ্রুবক থাকতে হবে।

প্রধান তাত্ত্বিক ফলাফল

প্রস্তাব 3.1 (মূল সীমানা): ফাংশন শ্রেণী $\mathcal{F}$ এর জন্য, যদি প্রতিটি $f \in \mathcal{F}$ এর জন্য, একই 1-WL রঙের গ্রাফগুলির একই আউটপুট থাকে, তাহলে অভিজ্ঞতামূলক Rademacher জটিলতা সীমানা হল:

$R_S(\mathcal{F}) \leq \frac{\sup_\Theta L(\Theta)\sqrt{p}}{\sqrt{m}}$

যেখানে $L(\Theta) = \sqrt{\sum_{i=1}^m f(G_i;\Theta)^2}$ ফাংশন আউটপুটের $\ell_2$ নর্ম।

অনুসিদ্ধান্ত 3.2 (সীমাবদ্ধ আউটপুট ক্ষেত্রে): যখন $f: \mathcal{G} \to [-1,1]$ হয়:

$R_S(\mathcal{F}) \leq \sqrt{\frac{p}{m}}$

প্রমাণের মূল চিন্তাভাবনা

যোগফল পুনর্গঠন: Rademacher জটিলতা সংজ্ঞায়নে গ্রাফ রঙ অনুযায়ী যোগফল পুনর্সংগঠিত করা
Cauchy-Schwarz অসমতা: ফাংশন সম্পর্কিত নর্ম এবং Rademacher ভেরিয়েবল আলাদা করা
Jensen অসমতা: বর্গমূল ফাংশনের অবতলতা ব্যবহার করা
প্রত্যাশা গণনা: Rademacher ভেরিয়েবলের স্বাধীনতা এবং শূন্য গড় বৈশিষ্ট্য ব্যবহার করা

স্থিতিশীলতা বিশ্লেষণ

প্রস্তাব 3.4 (স্থিতিশীলতা নিশ্চয়তা): দুটি আকার $m$ এর নমুনা $S$ এবং $S'$ এর জন্য, যদি প্রতিটি রঙ $c_j$ এর গণনা দুই নমুনায় সর্বাধিক $\epsilon_j$ দ্বারা পৃথক হয়:

$|R_S(\mathcal{F}) - R_{S'}(\mathcal{F})| \leq \frac{\sum_{c_j \in GC} \epsilon_j}{m}$

এটি নিশ্চিত করে যে সীমানা নমুনা পরিবর্তনশীলতার অধীনে শক্তিশালী।

সর্বজনীন সম্প্রসারণ

কাঠামো যেকোনো $(A, T)$ জোড়ায় প্রসারিত হয়, যেখানে $A$ একটি GNN স্থাপত্য, এবং $T$ এর প্রকাশনীয়তা সীমাবদ্ধ করার একটি রঙিন করার অ্যালগরিদম। যদি $T \sqsubseteq S$ ( $T$ এর প্রকাশনীয়তা $S$ অতিক্রম করে না), তাহলে $p_T \leq p_S$ , যার অর্থ আরও প্রকাশনীয় স্থাপত্যের বৃহত্তর Rademacher জটিলতা সীমানা রয়েছে।

পরীক্ষামূলক সেটআপ

তাত্ত্বিক যাচাইকরণ

এই কাজটি প্রধানত একটি তাত্ত্বিক কাজ, গাণিতিক প্রমাণের মাধ্যমে প্রস্তাবিত সীমানা যাচাই করা হয়েছে। লেখকরা চিত্র 1 এ একটি ভিজ্যুয়ালাইজেশন উদাহরণ প্রদান করেছেন, যা দেখায় যে কীভাবে বিভিন্ন প্রকাশনীয়তার ফাংশন শ্রেণী বিভিন্ন নমুনা বিভাজন প্ররোচিত করে।

প্রযোজ্যতার পরিধি

GNN স্থাপত্য: বার্তা-পাসিং GNN, k-GNN, CW নেটওয়ার্ক, সাবগ্রাফ GNN, পথ GNN ইত্যাদি
রঙিন করার অ্যালগরিদম: 1-WL, k-WL, সেলুলার WL ইত্যাদি
ক্ষতি ফাংশন: লজিস্টিক ক্ষতি, ক্রস-এন্ট্রপি ক্ষতি, মার্জিন ক্ষতি (Lipschitz শর্ত পূরণ করতে হবে)

পরীক্ষামূলক ফলাফল

তাত্ত্বিক ফলাফল যাচাইকরণ

কঠোর গাণিতিক প্রমাণের মাধ্যমে সমস্ত তাত্ত্বিক ফলাফল যাচাই করা হয়েছে:

প্রধান সীমানা: প্রমাণ করেছেন যে $R_S(\mathcal{F}) \leq \sqrt{p/m}$ সীমাবদ্ধ আউটপুট ফাংশনের জন্য বৈধ
উন্নত Dudley সীমানা: ক্লাসিক্যাল $4\alpha/\sqrt{m}$ পদকে $4\alpha\sqrt{p}/\sqrt{m}$ এ উন্নত করা
স্থিতিশীলতা: Rademacher জটিলতার রৈখিক স্থিতিশীলতা প্রমাণ করা

মূল অন্তর্দৃষ্টি

প্রকাশনীয়তার খরচ: শক্তিশালী প্রকাশনীয়তা সরাসরি বৃহত্তর $p$ মূল্যের দিকে পরিচালিত করে, যার ফলে সাধারণীকরণ ত্রুটি উপরের সীমা বৃদ্ধি পায়
কাঠামোগত সীমাবদ্ধতা: রঙিন করার দ্বারা প্ররোচিত সমতুল্য শ্রেণী ফাংশনের অতিফিটিং ক্ষমতা সীমাবদ্ধ করে
স্থাপত্য তুলনা: বিভিন্ন GNN স্থাপত্যের সাধারণীকরণ ক্ষমতা তুলনা করার জন্য তাত্ত্বিক সরঞ্জাম প্রদান করে

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

ট্রেড-অফ পরিমাণ: প্রথমবারের মতো GNN প্রকাশনীয়তা এবং সাধারণীকরণ ক্ষমতার ট্রেড-অফ সম্পর্ক পরিমাণ করা
তাত্ত্বিক একীকরণ: রঙিন করার অ্যালগরিদমের মাধ্যমে প্রকাশনীয়তা এবং সাধারণীকরণ গবেষণা একীভূত করা
ব্যবহারিক নির্দেশনা: GNN স্থাপত্য ডিজাইনের জন্য তাত্ত্বিক নির্দেশনা নীতি প্রদান করা

সীমাবদ্ধতা

কাজের সীমাবদ্ধতা: বর্তমান বিশ্লেষণ গ্রাফ-স্তরের দ্বিমুখী শ্রেণীবিভাগ কাজে সীমাবদ্ধ
বিচ্ছিন্ন বিভাজন: বিচ্ছিন্ন সমতুল্য শ্রেণী ব্যবহার করে ক্রমাগত সাদৃশ্য পরিমাপের পরিবর্তে
বিতরণ অনুমান: নির্দিষ্ট গ্রাফ বিতরণের অধীনে আচরণ বিবেচনা করেনি

ভবিষ্যত দিকনির্দেশনা

কাজ সম্প্রসারণ: বহু-শ্রেণীবিভাগ, রিগ্রেশন এবং নোড-স্তরের কাজে প্রসারিত করা
সিউডোমেট্রিক পদ্ধতি: বিচ্ছিন্ন বিভাজনের পরিবর্তে সিউডোমেট্রিক-ভিত্তিক কাঠামোগত সাদৃশ্য ব্যবহার করা
সম্ভাব্যতা মডেল: র্যান্ডম গ্রাফ মডেল এবং graphon এর অধীনে অ্যাসিম্পটোটিক আচরণ অধ্যয়ন করা
অভিজ্ঞতামূলক যাচাইকরণ: তাত্ত্বিক সীমানার ব্যবহারিকতা যাচাই করার জন্য পদ্ধতিগত অভিজ্ঞতামূলক গবেষণা

গভীর মূল্যায়ন

শক্তি

তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো প্রকাশনীয়তা এবং সাধারণীকরণের মধ্যে সরাসরি তাত্ত্বিক সংযোগ প্রতিষ্ঠা করা, গুরুত্বপূর্ণ তাত্ত্বিক শূন্যতা পূরণ করা
গাণিতিক কঠোরতা: সম্পূর্ণ এবং কঠোর প্রমাণ, ফলাফল সাধারণ প্রকৃতির
ব্যবহারিক মূল্য: GNN স্থাপত্য নির্বাচনের জন্য পরিমাণগত নির্দেশনা প্রদান করা
কাঠামো সর্বজনীনতা: বিস্তৃত GNN স্থাপত্য এবং প্রকাশনীয়তা পরিমাপে প্রযোজ্য
স্থিতিশীলতা নিশ্চয়তা: সীমানার শক্তিশালীতা প্রমাণ করা

অপূর্ণতা

অভিজ্ঞতামূলক যাচাইকরণের অভাব: তাত্ত্বিক সীমানার কঠোরতা যাচাই করার পরীক্ষামূলক প্রমাণের অভাব
কাজের সীমাবদ্ধতা: শুধুমাত্র দ্বিমুখী শ্রেণীবিভাগ বিবেচনা করা, প্রযোজ্যতার পরিধি সীমাবদ্ধ করা
সীমানা কঠোরতা অজানা: প্রদত্ত সীমানার কঠোরতা বিশ্লেষণ করা হয়নি
গণনা জটিলতা: রঙ সংখ্যা গণনার জটিলতা আলোচনা করা হয়নি

প্রভাব

তাত্ত্বিক অবদান: GNN তত্ত্বের জন্য গুরুত্বপূর্ণ ভিত্তি প্রদান করা, পরবর্তী গবেষণা উদ্দীপিত করার প্রত্যাশা
স্থাপত্য ডিজাইন: ব্যবহারিক GNN স্থাপত্য নির্বাচন এবং ডিজাইনে নির্দেশনা প্রদান করা
গবেষণা দিকনির্দেশনা: প্রকাশনীয়তা-সাধারণীকরণ ট্রেড-অফের নতুন গবেষণা দিক উন্মোচন করা

প্রযোজ্য পরিস্থিতি

তাত্ত্বিক গবেষণা: GNN প্রকাশনীয়তা এবং সাধারণীকরণ তত্ত্ব বিশ্লেষণ
স্থাপত্য ডিজাইন: প্রকাশনীয়তা এবং সাধারণীকরণ ভারসাম্য প্রয়োজন এমন প্রয়োগ পরিস্থিতি
মডেল নির্বাচন: নির্দিষ্ট কাজের জন্য উপযুক্ত প্রকাশনীয়তার GNN স্থাপত্য নির্বাচন করা

রেফারেন্স

এই কাজটি 28 টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা GNN প্রকাশনীয়তা, সাধারণীকরণ তত্ত্ব, Rademacher জটিলতা ইত্যাদি মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, যা তাত্ত্বিক বিশ্লেষণের জন্য একটি দৃঢ় ভিত্তি প্রদান করে।

সারসংক্ষেপ: এই কাজটি রঙিন করার অ্যালগরিদমের দৃষ্টিভঙ্গি থেকে, প্রথমবারের মতো GNN প্রকাশনীয়তা এবং সাধারণীকরণ ক্ষমতার মধ্যে একটি পরিমাণগত তাত্ত্বিক সংযোগ প্রতিষ্ঠা করে, GNN বোঝা এবং ডিজাইনের জন্য গুরুত্বপূর্ণ তাত্ত্বিক সরঞ্জাম প্রদান করে। কিছু সীমাবদ্ধতা থাকলেও, এর তাত্ত্বিক অবদান উল্লেখযোগ্য মূল্য রাখে এবং GNN তত্ত্ব গবেষণার উন্নয়ন চালিত করার প্রত্যাশা করা হয়।