2025-11-11T11:58:09.609989

Rademacher Meets Colors: More Expressivity, but at What Cost ?

Carrasco, Netto, Martirosyan et al.
The expressive power of graph neural networks (GNNs) is typically understood through their correspondence with graph isomorphism tests such as the Weisfeiler-Leman (WL) hierarchy. While more expressive GNNs can distinguish a richer set of graphs, they are also observed to suffer from higher generalization error. This work provides a theoretical explanation for this trade-off by linking expressivity and generalization through the lens of coloring algorithms. Specifically, we show that the number of equivalence classes induced by WL colorings directly bounds the GNNs Rademacher complexity -- a key data-dependent measure of generalization. Our analysis reveals that greater expressivity leads to higher complexity and thus weaker generalization guarantees. Furthermore, we prove that the Rademacher complexity is stable under perturbations in the color counts across different samples, ensuring robustness to sampling variability across datasets. Importantly, our framework is not restricted to message-passing GNNs or 1-WL, but extends to arbitrary GNN architectures and expressivity measures that partition graphs into equivalence classes. These results unify the study of expressivity and generalization in GNNs, providing a principled understanding of why increasing expressive power often comes at the cost of generalization.
academic

Rademacher Встречает Colors: Большая Выразительность, но Какова Цена?

Основная информация

  • ID статьи: 2510.10101
  • Название: Rademacher Meets Colors: More Expressivity, but at What Cost?
  • Авторы: Martin Carrasco, Caio Deberaldini Netto, Vahan A. Martirosyan, Aneeqa Mehrab, Ehimare Okoyomon, Caterina Graziani
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: 11 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10101

Аннотация

Выразительность графовых нейронных сетей (GNN) обычно понимается через её соответствие тестам изоморфизма графов, таким как иерархия Weisfeiler-Leman. Хотя более выразительные GNN способны различать более богатые наборы графов, они также демонстрируют более высокую ошибку обобщения. В данной работе авторы связывают выразительность с способностью обобщения через призму алгоритмов раскраски, предоставляя теоретическое объяснение этому компромиссу. Конкретно, авторы доказывают, что количество эквивалентных классов, индуцированных WL-раскраской, прямо ограничивает сложность Rademacher GNN — ключевую зависящую от данных меру обобщения. Анализ показывает, что более сильная выразительность приводит к более высокой сложности, что влечёт более слабые гарантии обобщения. Кроме того, авторы доказывают устойчивость сложности Rademacher к возмущениям подсчёта цветов между различными выборками. Важно отметить, что данная структура не ограничивается передающими сообщения GNN или 1-WL, а распространяется на произвольные архитектуры GNN и меры выразительности, разбивающие графы на эквивалентные классы.

Исследовательский контекст и мотивация

Основная проблема

Данное исследование направлено на решение фундаментального теоретического вопроса в области GNN: компромисс между выразительностью и способностью к обобщению. Хотя эмпирические наблюдения указывают на то, что более выразительные GNN часто обладают худшей производительностью обобщения, отсутствует строгое теоретическое объяснение.

Значимость проблемы

  1. Отсутствие теоретической базы: Существующие исследования в основном сосредоточены на анализе выразительности GNN, но теоретическое понимание её связи со способностью обобщения недостаточно
  2. Практическая ценность: Понимание этого компромисса критично для проектирования архитектур GNN, обладающих достаточной выразительностью и хорошим обобщением
  3. Необходимость унифицированной структуры: Требуется единая теоретическая структура для объяснения поведения обобщения различных архитектур GNN

Ограничения существующих методов

  1. VC-анализ размерности Morris и др.: Применим только к специфическим функциям активации и ограниченным графам, зависит от количества параметров, а не от структурных свойств
  2. Сложность Rademacher Garg и др.: Хотя обеспечивает более точные границы, не исследует связь с распределением WL-раскраски
  3. Отсутствие универсальности: Существующий анализ в основном ограничен специфическими архитектурами GNN или тестом 1-WL

Основные вклады

  1. Установление теоретической связи выразительность-обобщение: Впервые прямо связывают выразительность GNN со сложностью Rademacher через алгоритмы раскраски
  2. Предоставление точных границ сложности: Доказано, что верхняя граница сложности Rademacher составляет p/m\sqrt{p/m}, где pp — количество эквивалентных классов
  3. Доказательство гарантий устойчивости: Установлена липшицева непрерывность сложности Rademacher при возмущениях подсчёта цветов
  4. Проектирование универсальной структуры: Расширение на произвольные архитектуры GNN и соответствующие алгоритмы раскраски, не ограничиваясь передающими сообщения GNN или 1-WL
  5. Улучшение интегральных границ Dudley: Использование pp-мерной структуры для предоставления более точных границ чисел покрытия

Подробное описание методов

Определение задачи

Исследуется задача бинарной классификации на уровне графа, где:

  • Входные данные: Набор данных графов S={(Gi,yi)}i=1mS = \{(G_i, y_i)\}_{i=1}^m, GiGG_i \in \mathcal{G}, yi{1,+1}y_i \in \{-1, +1\}
  • Выходные данные: Границы сложности Rademacher для класса функций F={f:G[1,1]}\mathcal{F} = \{f: \mathcal{G} \to [-1,1]\}
  • Цель: Установление количественного соотношения между мерой выразительности и способностью обобщения

Теоретическая структура

Основная идея

Алгоритм раскраски разбивает выборку SS на pp непересекающихся множеств I1,,IpI_1, \ldots, I_p, где каждое IjI_j содержит все графы с одинаковым цветом cjc_j. Такое разбиение накладывает структурные ограничения на класс функций: любая функция, реализуемая архитектурой, должна оставаться постоянной на эквивалентных классах.

Основные теоретические результаты

Предложение 3.1 (Центральная граница): Для класса функций F\mathcal{F}, если для каждого fFf \in \mathcal{F} графы с одинаковой раскраской 1-WL имеют одинаковый выход, то эмпирическая граница сложности Rademacher составляет:

RS(F)supΘL(Θ)pmR_S(\mathcal{F}) \leq \frac{\sup_\Theta L(\Theta)\sqrt{p}}{\sqrt{m}}

где L(Θ)=i=1mf(Gi;Θ)2L(\Theta) = \sqrt{\sum_{i=1}^m f(G_i;\Theta)^2} — норма 2\ell_2 выходов функции.

Следствие 3.2 (Случай ограниченного выхода): Когда f:G[1,1]f: \mathcal{G} \to [-1,1]:

RS(F)pmR_S(\mathcal{F}) \leq \sqrt{\frac{p}{m}}

Основная идея доказательства

  1. Переупорядочение суммирования: Переорганизация суммирования в определении сложности Rademacher по цветам графов
  2. Неравенство Коши-Шварца: Разделение норм, связанных с функциями, и переменных Rademacher
  3. Неравенство Йенсена: Использование вогнутости функции квадратного корня
  4. Вычисление математического ожидания: Использование независимости и нулевого среднего переменных Rademacher

Анализ устойчивости

Предложение 3.4 (Гарантия устойчивости): Для двух выборок размера mmSS и SS', если подсчёт каждого цвета cjc_j в двух выборках отличается не более чем на ϵj\epsilon_j:

RS(F)RS(F)cjGCϵjm|R_S(\mathcal{F}) - R_{S'}(\mathcal{F})| \leq \frac{\sum_{c_j \in GC} \epsilon_j}{m}

Это обеспечивает робастность границ при вариативности выборки.

Универсальное расширение

Структура расширяется на произвольные пары (A,T)(A, T), где AA — архитектура GNN, а TT — алгоритм раскраски, определяющий её выразительность. Если TST \sqsubseteq S (выразительность TT не превышает SS), то pTpSp_T \leq p_S, что означает, что более выразительные архитектуры имеют большие границы сложности Rademacher.

Экспериментальная установка

Теоретическая верификация

Данная работа является в основном теоретической, с верификацией предложенных границ через математические доказательства. Авторы предоставляют визуализацию на рисунке 1, демонстрирующую, как классы функций различной выразительности индуцируют различные разбиения выборок.

Область применения

  • Архитектуры GNN: Передающие сообщения GNN, k-GNN, сети CW, GNN на основе подграфов, GNN на основе путей и др.
  • Алгоритмы раскраски: 1-WL, k-WL, клеточный WL и др.
  • Функции потерь: Логистическая потеря, кросс-энтропия, маржинальная потеря (при условии выполнения условия Липшица)

Экспериментальные результаты

Верификация теоретических результатов

Все теоретические результаты верифицированы через строгие математические доказательства:

  1. Основная граница: Доказано, что RS(F)p/mR_S(\mathcal{F}) \leq \sqrt{p/m} справедлива для функций с ограниченным выходом
  2. Улучшенная граница Dudley: Классический член 4α/m4\alpha/\sqrt{m} улучшен до 4αp/m4\alpha\sqrt{p}/\sqrt{m}
  3. Устойчивость: Доказана линейная устойчивость сложности Rademacher

Ключевые выводы

  1. Стоимость выразительности: Более сильная выразительность прямо приводит к большему значению pp, что увеличивает верхнюю границу ошибки обобщения
  2. Структурные ограничения: Эквивалентные классы, индуцированные раскраской, ограничивают способность функции к переобучению
  3. Сравнение архитектур: Предоставляет теоретический инструмент для сравнения способности обобщения различных архитектур GNN

Связанные работы

Исследования выразительности

  • Xu и др., Morris и др.: Установление соответствия между MPGNN и 1-WL
  • Последующие работы: Расширение на более выразительные варианты GNN (k-GNN, сети CW и др.)

Теория обобщения

  • Morris и др. (VC-размерность): Первое соединение выразительности GNN с VC-размерностью, но ограничено специфическими условиями
  • D'Inverno и др.: Расширение VC-анализа размерности на функции активации Пфаффиана
  • Garg и др.: Предоставление первой границы сложности Rademacher для MPGNN

Преимущества данной работы

  1. Прямое соединение: Впервые прямо соединяют меру выразительности (количество цветов) с мерой обобщения
  2. Универсальность: Применимо к произвольным архитектурам GNN и алгоритмам раскраски
  3. Зависимость от данных: Предоставляет более тонкие границы, зависящие от данных

Заключение и обсуждение

Основные выводы

  1. Количественное определение компромисса: Впервые количественно определён компромисс между выразительностью и способностью обобщения GNN
  2. Теоретическое объединение: Объединение исследований выразительности и обобщения через алгоритмы раскраски
  3. Практическое руководство: Предоставление теоретических принципов для проектирования архитектур GNN

Ограничения

  1. Ограничение задачи: Текущий анализ ограничен задачами бинарной классификации на уровне графа
  2. Дискретное разбиение: Использование дискретных эквивалентных классов вместо мер непрерывного сходства
  3. Предположения о распределении: Не рассматривается поведение при специфических распределениях графов

Направления будущих исследований

  1. Расширение задач: Расширение на многоклассовую классификацию, регрессию и задачи на уровне узлов
  2. Методы псевдометрик: Замена дискретных разбиений структурным сходством на основе псевдометрик
  3. Вероятностные модели: Исследование асимптотического поведения при случайных графах и graphon
  4. Эмпирическая верификация: Систематическое эмпирическое исследование практичности теоретических границ

Глубокая оценка

Преимущества

  1. Теоретическая инновация: Впервые устанавливают прямую теоретическую связь между выразительностью и обобщением, заполняя важный теоретический пробел
  2. Математическая строгость: Полные и строгие доказательства с общими результатами
  3. Практическая ценность: Предоставляют количественное руководство для выбора архитектур GNN
  4. Универсальность структуры: Применимо к широкому спектру архитектур GNN и мер выразительности
  5. Гарантии устойчивости: Доказана робастность границ

Недостатки

  1. Отсутствие эмпирической верификации: Недостаток экспериментов для верификации точности теоретических границ
  2. Ограничение задачи: Рассмотрение только бинарной классификации ограничивает применимость
  3. Неизвестная точность границ: Не проведён анализ точности предоставленных границ
  4. Сложность вычислений: Не обсуждена сложность вычисления количества цветов

Влияние

  1. Теоретический вклад: Предоставляет важную основу для теории GNN, ожидается стимулирование последующих исследований
  2. Проектирование архитектур: Руководство практическим выбором и проектированием архитектур GNN
  3. Направление исследований: Открывает новое направление исследований компромисса выразительность-обобщение

Применимые сценарии

  1. Теоретические исследования: Анализ теории выразительности и обобщения GNN
  2. Проектирование архитектур: Сценарии приложений, требующие баланса между выразительностью и обобщением
  3. Выбор модели: Выбор архитектуры GNN с подходящей выразительностью для конкретной задачи

Библиография

Данная работа цитирует 28 связанных источников, охватывающих важные работы в ключевых областях выразительности GNN, теории обобщения и сложности Rademacher, предоставляя прочную основу для теоретического анализа.


Резюме: Данная работа через призму алгоритмов раскраски впервые устанавливает количественную теоретическую связь между выразительностью GNN и способностью обобщения, предоставляя важный теоретический инструмент для понимания и проектирования GNN. Несмотря на некоторые ограничения, её теоретический вклад имеет значительную ценность и ожидается, что будет способствовать развитию теоретических исследований GNN.