2025-11-30T21:13:19.526508

Preparation of Fractal-Inspired Computational Architectures for Advanced Large Language Model Analysis

Mittal, Ignatov, Timofte
It introduces FractalNet, a fractal-inspired computational architectures for advanced large language model analysis that mainly challenges model diversity on a large scale in an efficient manner. The new set-up involves a template-driven generator, runner, and evaluation framework that, through systematic permutations of convolutional, normalization, activation, and dropout layers, can create more than 1,200 variants of neural networks. Fractal templates allow for structural recursion and multi-column pathways, thus, models become deeper and wider in a balanced way. Training utilizes PyTorch, Automatic Mixed Precision (AMP), and gradient checkpointing and is carried out on the CIFAR-10 dataset for five epochs. The outcomes show that fractal-based architectures are capable of strong performance and are computationally efficient. The paper positions fractal design as a feasible and resource-efficient method of automated architecture exploration.
academic

Подготовка фрактально-вдохновленных вычислительных архитектур для продвинутого анализа больших языковых моделей

Основная информация

  • ID статьи: 2511.07329
  • Название: Preparation of Fractal-Inspired Computational Architectures for Advanced Large Language Model Analysis
  • Авторы: Yash Mittal, Dmitry Ignatov, Radu Timofte
  • Учреждение: Computer Vision Lab, CAIDAS, University of Würzburg, Germany
  • Классификация: cs.LG (Машинное обучение), cs.CV (Компьютерное зрение)
  • Дата публикации: 2025
  • Ссылка на статью: https://arxiv.org/abs/2511.07329

Аннотация

В данной работе представлена FractalNet — вычислительная архитектура, вдохновленная фракталами, предназначенная для эффективного исследования многообразия моделей нейронных сетей в большом масштабе. Система включает генератор, управляемый шаблонами, исполнитель и оценочную базу, которые посредством систематического комбинирования сверточных слоев, слоев нормализации, функций активации и слоев dropout могут создавать более 1200 вариантов нейронных сетей. Фрактальные шаблоны поддерживают рекурсивную структуру и многоколоночные пути, позволяя моделям углубляться и расширяться сбалансированным образом. Обучение проводится с использованием PyTorch, автоматической смешанной точности (AMP) и техники контрольных точек градиентов на наборе данных CIFAR-10 в течение 5 эпох. Экспериментальные результаты демонстрируют, что архитектуры на основе фракталов достигают сильной производительности и вычислительной эффективности, позиционируя фрактальный дизайн как жизнеспособный и ресурсоэффективный метод автоматизированного поиска архитектур.

Исследовательский контекст и мотивация

1. Основная проблема, которую необходимо решить

Прорывы в глубоком обучении во многом зависят от инноваций в проектировании архитектур сетей, однако процесс ручного проектирования архитектур чрезвычайно медленный и требует значительных вычислительных ресурсов. Существующие методы автоматизированной генерации нейронных архитектур (такие как NAS и AutoML), хотя и обладают хорошими возможностями оптимизации, обычно имеют следующие проблемы:

  • Экстремально высокие вычислительные затраты
  • Низкая интерпретируемость
  • Сложность развертывания на оборудовании с ограниченными ресурсами

2. Значимость проблемы

С увеличением сложности моделей глубокого обучения ручное исследование пространства архитектур становится непрактичным. Автоматизированный поиск архитектур имеет важное значение для:

  • Ускорения цикла разработки моделей
  • Обнаружения инновационных архитектур, которые могут быть упущены человеческими разработчиками
  • Реализации эффективного проектирования моделей в среде с ограниченными ресурсами

3. Ограничения существующих методов

  • Методы NAS и AutoML: хотя и способны оптимизировать топологию сети, имеют высокие вычислительные затраты и ограниченную интерпретируемость
  • Конвейеры AutoML с поддержкой LLM: полагаются на текстовое рассуждение, а не на структурированную рекурсию, что ограничивает систематичность исследования архитектур
  • Традиционное проектирование архитектур: лишено автоматизации и масштабируемости

4. Исследовательская мотивация

FractalNet использует самоподобие фракталов и концепции иерархической рекурсии, предоставляя интерпретируемый, вычислительно эффективный и масштабируемый метод генерации архитектур, заполняя пробел между эффективностью и интерпретируемостью существующих методов.

Основные вклады

  1. Предложение фреймворка FractalNet: полная система автоматизированной генерации и оценки нейронных архитектур, управляемая шаблонами, способная систематически генерировать более 1200 вариантов сетей
  2. Принципы фрактального дизайна: введение рекурсивной структуры фракталов и многоколоночных путей в проектирование нейронных архитектур, реализующее сбалансированное расширение в глубину и ширину
  3. Эффективные стратегии обучения: интеграция автоматической смешанной точности (AMP) и техники контрольных точек градиентов, обеспечивающие крупномасштабное исследование архитектур при ограниченных аппаратных ресурсах
  4. Систематизированная оценочная база: установление стандартизированного процесса генерация-обучение-оценка, обеспечивающего воспроизводимые крупномасштабные архитектурные эксперименты
  5. Эмпирическая верификация: проверка эффективности фреймворка на наборе данных CIFAR-10, при этом лучшая модель показывает улучшение на 8 процентных пункта по сравнению с базовой линией (с 72,2% до 80,18%)
  6. Интеграция LLM: интеграция большой языковой модели (DeepSeek-R1-Distill-Qwen-7B) в процесс генерации архитектур, обеспечивающая интеллектуальное автоматизированное проектирование

Подробное описание методов

Определение задачи

Входные данные: параметры конфигурации архитектуры (фрактальная глубина N, ширина колонок num_columns, комбинации типов слоев) Выходные данные: полная обучаемая архитектура нейронной сети и ее показатели производительности Ограничения: генерация и оценка большого количества вариантов архитектур в пределах ограниченной памяти GPU и времени вычисления

Архитектура модели

Фреймворк FractalNet состоит из трех основных компонентов:

1. Generator (Генератор)

  • Расположение: ab/gpt/brute/fract/AlterNNFN.py
  • Функция: автоматическая генерация кандидатных архитектур
  • Механизм:
    • Систематическое комбинирование конфигураций сверточных блоков
    • Варьируемые измерения: глубина, тип нормализации, функция активации, коэффициент dropout
    • Генерация кода Python через параметризованные шаблоны

2. Template (Шаблон)

  • Расположение: ab/gpt/brute/fract/fractal_template.py
  • Функция: определение основных паттернов проектирования фрактальной структуры
  • Характеристики:
    • Рекурсивность: структура самоподобна в различных масштабах
    • Многоколоночная конфигурация: поддержка параллельных путей извлечения признаков
    • Комбинация слоев: сверточный слой + пакетная нормализация + функция активации + Dropout
    • Конфигурируемость: поддержка вариаций структуры различной степени детализации

3. Runner (Исполнитель)

  • Расположение: ab/gpt/brute/fract/NNAlterFractalNet.py
  • Функция: управление всем процессом обучения и оценки
  • Ответственность:
    • Загрузка и предварительная обработка данных
    • Управление конфигурацией
    • Логирование производительности
    • Сравнение моделей и сохранение контрольных точек

4. Модуль интеграции LLM

  • Конфигурация: conf/llm - модель DeepSeek-R1-Distill-Qwen-7B
  • Подсказки: conf/prompt - инициализация подсказок
  • Оценка: ab/gpt/NNEval.py - скрипты обучения и оценки

5. Хранилище результатов

  • Директория: new_lemur/ - сохранение всех моделей и статистических данных
  • Соглашение об именовании: img-classification_cifar-10_acc_FractalNet-[конфигурация]

Технические инновационные моменты

1. Фрактальная рекурсивная структура

В отличие от традиционных линейных или остаточных соединений, FractalNet использует фрактальный рекурсивный паттерн:

  • Самоподобие: подструктуры повторяются на различных уровнях
  • Повторное использование признаков: эффективная агрегация признаков через рекурсивные пути
  • Оптимизация потока градиентов: многопутевой дизайн улучшает распространение градиентов

2. Генерация, управляемая шаблонами

В отличие от выборки пространства поиска в NAS, FractalNet использует управляемый шаблонами подход:

  • Систематизированное исследование: охват пространства архитектур через параметризованные шаблоны
  • Интерпретируемость: каждая сгенерированная архитектура имеет четкую структурную логику
  • Воспроизводимость: одинаковые параметры производят одинаковую архитектуру

3. Оптимизация эффективного обучения

  • Автоматическая смешанная точность (AMP): снижение использования памяти и времени обучения
  • Контрольные точки градиентов: компромисс между памятью и вычислениями, поддержка более глубоких сетей
  • Краткосрочное обучение: быстрая оценка за 5 эпох, подходящая для крупномасштабного исследования

4. Гибридная автоматизация

Комбинирование способности текстового рассуждения LLM и структурированного дизайна фракталов:

  • Помощь LLM в выборе параметров и стратегиях оптимизации
  • Фрактальные шаблоны гарантируют разумность структуры
  • Полностью автоматизированный сквозной процесс

Рабочий процесс

Начало → Generator генерирует конфигурацию архитектуры 
    → Template применяет принципы фрактального дизайна 
    → Runner выполняет обучение и валидацию 
    → Логирование производительности и сохранение модели 
    → Анализ и сравнение результатов → Конец

Весь процесс формирует плотно интегрированный цикл автоматизации, минимизирующий ручное вмешательство.

Экспериментальная установка

Набор данных

Набор данных CIFAR-10:

  • Масштаб: 60 000 RGB-изображений размером 32×32 пикселя
  • Классы: 10 классов (самолет, автомобиль, птица, кот, олень, собака, лягушка, лошадь, корабль, грузовик)
  • Разделение:
    • Обучающий набор: 50 000 изображений
    • Тестовый набор: 10 000 изображений
  • Причины выбора:
    • Сбалансированное распределение данных
    • Стандартный эталонный тест
    • Эффективное измерение способности к обобщению и масштабируемости

Метрики оценки

  1. Точность валидации: основной показатель производительности
  2. Потери при обучении: мониторинг поведения сходимости
  3. Потребление памяти GPU: оценка эффективности ресурсов
  4. Время обучения: среднее время на эпоху
  5. Коэффициент успешного обучения: доля моделей, завершивших обучение

Методы сравнения

  1. Базовая CNN: стандартная сверточная нейронная сеть
  2. Модели, сгенерированные NAS: представительный метод поиска нейронных архитектур
  3. Простые сети: обычные сети различной глубины (5, 10, 20, 40 слоев)
  4. Базовая FractalNet: начальная версия (точность валидации 72,2%)

Детали реализации

Конфигурация обучения

ГиперпараметрЗначение
Скорость обучения0.01
Размер пакета16
Dropout0.2
Момент0.9
Увеличение данныхНормализация + случайный поворот
Количество эпох5

Стратегии оптимизации

  • Оптимизатор: стохастический градиентный спуск (SGD)
  • Автоматическая смешанная точность (AMP): включена
  • Контрольные точки градиентов: включены
  • Фреймворк: PyTorch

Протокол оценки

  1. Валидация модели: автоматический импорт и инстанцирование сгенерированных архитектур
  2. Обучение и контрольные точки: использование SGD для оптимизации, включение AMP и контрольных точек градиентов
  3. Логирование производительности: запись точности валидации, потерь, памяти GPU и времени обучения для каждой эпохи

Экспериментальные результаты

Основные результаты

Общая статистика производительности (Таблица 2):

МетрикаЗначение
Средняя точность валидации~83%
Максимальная точность валидации~89-90%
Среднее время обучения на эпоху~5 минут
Среднее потребление памяти GPU4-5 ГБ
Коэффициент успешного обучения~97%

Ключевые находки:

  1. Значительное улучшение: лучшая конфигурация достигает 80,18%, что на 8 процентных пункта выше базовой линии 72,2%
  2. Стабильная сходимость: 97% моделей успешно завершили обучение
  3. Эффективность ресурсов: среднее потребление памяти GPU составляет всего 4-5 ГБ
  4. Быстрое обучение: примерно 5 минут на эпоху

Анализ конфигурации архитектуры

Оптимальная конфигурация:

  • Фрактальная глубина (N): 3-4 слоя
  • Ширина колонок (num_columns): 3-4 колонки
  • Характеристики: конфигурации средней глубины и ширины постоянно достигают наивысших оценок

Закономерности производительности:

  • Рекурсивный дизайн структуры поддерживает эффективное повторное использование признаков
  • Стабильное распространение градиентов
  • Баланс между глубиной и шириной имеет решающее значение

Анализ поведения сходимости

Распределение точности валидации, показанное на Рисунке 3:

  • Эпоха 1: демонстрирует тенденцию сходимости на начальном этапе
  • Эпоха 5: показывает окончательную стабильную производительность
  • Наблюдения:
    • Большинство моделей показывают хорошую динамику обучения на ранних этапах
    • Постоянное улучшение точности указывает на высокую эффективность обучения
    • Автоматически сгенерированные архитектуры демонстрируют стабильность

Сравнение потерь при обучении

Ключевые находки на Рисунке 4 (FractalNet vs Простые сети):

  1. Более стабильное снижение: FractalNet показывает более последовательное снижение потерь при обучении
  2. Более быстрая сходимость: достигает более низких потерь на ранних этапах обучения
  3. Эффект интеграции: полная FractalNet (фиолетовая кривая) превосходит отдельные колонки
  4. Преимущество оптимизации: фрактальные соединения способствуют повторному использованию признаков и потоку градиентов

Абляционные исследования

Хотя в статье нет явного раздела абляционных исследований, систематическое исследование 1200 вариантов неявно проводит крупномасштабную абляцию:

Влияние глубины:

  • N=3-4: оптимальная производительность
  • N≥5: исчерпание памяти и нестабильность градиентов

Влияние ширины:

  • num_columns=3-4: лучший баланс
  • num_columns≥7: чрезмерное потребление ресурсов

Влияние последовательности слоев:

  • Различные комбинации слоев дают различную производительность
  • Некоторые несовместимые последовательности слоев приводят к отказу обучения (точность ≈0,1)

Экспериментальные находки

  1. Ценность многообразия архитектур: исследование 1200 вариантов выявило конфигурации, превосходящие ручное проектирование
  2. Преимущества фрактального дизайна:
    • Рекурсивные пути способствуют агрегации признаков
    • Многоколоночная структура повышает робастность
    • Самоподобие поддерживает масштабируемость
  3. Баланс между эффективностью и производительностью: конфигурации средней сложности достигают оптимального баланса между производительностью и потреблением ресурсов
  4. Осуществимость автоматизации: коэффициент успеха 97% доказывает стабильность управляемого шаблонами метода
  5. Эффективность быстрой оценки: 5 эпох достаточно для различения потенциала различных архитектур

Связанные работы

1. Поиск нейронных архитектур (NAS)

Представительные работы:

  • DARTS: дифференцируемый поиск архитектур
  • ENAS: эффективный поиск нейронных архитектур

Характеристики:

  • Оптимизация топологии сети
  • Высокие вычислительные затраты
  • Ограниченная интерпретируемость

Улучшения в данной работе: использование фрактальных шаблонов для снижения вычислительных затрат и повышения интерпретируемости

2. AutoML с поддержкой LLM

Связанные исследования (Goodarzi et al., Kochnev et al.):

  • Использование языковых моделей для настройки гиперпараметров
  • Исследование архитектур, управляемое LLM
  • Повышение степени автоматизации

Ограничения: полагаются на текстовое рассуждение, а не на структурированную рекурсию

Вклад данной работы: комбинирование способности рассуждения LLM со структурированным фрактальным дизайном

3. Фрактальные архитектуры

Оригинальная FractalNet (Larsson et al., 2017):

  • Введение концепции фрактального дизайна
  • Сверхглубокие сети без остаточных соединений
  • Самоподобие и иерархическая рекурсия

Расширение в данной работе:

  • Фреймворк автоматизированной генерации
  • Крупномасштабное исследование вариантов
  • Интеграция с LLM

4. Автоматизированное машинное обучение

Фреймворки AutoML:

  • Автоматический выбор модели и оптимизация гиперпараметров
  • Обычно требуют значительных вычислительных ресурсов

Различие данной работы:

  • Сосредоточение на многообразии архитектур
  • Использование фрактальных шаблонов для гарантии разумности структуры
  • Повышенная вычислительная эффективность

Заключение и обсуждение

Основные выводы

  1. Эффективность фреймворка: FractalNet успешно сгенерировала и обучила более 1200 уникальных сверточных моделей, доказав осуществимость управляемого шаблонами конвейера синтеза
  2. Улучшение производительности: лучшая конфигурация достигает 80,18% точности валидации на CIFAR-10, что на 8 процентных пункта выше базовой линии
  3. Вычислительная эффективность: благодаря технологиям AMP и контрольных точек градиентов реализовано крупномасштабное исследование архитектур на ограниченном оборудовании
  4. Стабильная сходимость: 97% моделей успешно завершили обучение, средняя точность валидации превышает 83%
  5. Принципы проектирования: рекурсивная структура фракталов способствует быстрому обучению и обобщению, конфигурации средней глубины и ширины достигают оптимальной производительности

Ограничения

Статья явно указывает на следующие ограничения:

1. Ограничения глубины и ширины

  • Проблема: экстремальные конфигурации (N≥5, num_columns≥7) в большинстве случаев прерываются из-за исчерпания памяти и нестабильности градиентов
  • Влияние: ограничивает исследуемое пространство архитектур

2. Аномалии точности

  • Проблема: некоторые модели показывают минимальное обучение (точность ≈0,1)
  • Причина: возможно неправильная инициализация или несовместимые последовательности слоев
  • Доля: примерно 3% коэффициент отказа

3. Ограничение периода обучения

  • Проблема: каждая модель обучается только 5 эпох
  • Влияние: невозможно наблюдать долгосрочное поведение сходимости
  • Компромисс: жертвование глубиной обучения ради крупномасштабного исследования

4. Единственность набора данных

  • Проблема: оценка проводится только на CIFAR-10
  • Влияние: способность к обобщению не проверена на более сложных наборах данных

5. Ограничение типов архитектур

  • Проблема: основное внимание уделяется сверточным сетям
  • Влияние: применимость к другим типам архитектур (например, Transformer) неизвестна

Направления будущих исследований

Предложенные в статье направления расширения:

  1. Наборы данных большего масштаба:
    • Верификация на больших наборах данных, таких как ImageNet
    • Оценка производительности на более сложных задачах
  2. Генерация с подкреплением:
    • Введение адаптивных стратегий обучения
    • Оптимизация процесса генерации на основе обратной связи производительности
  3. Интеграция в экосистему LEMUR:
    • Бенчмаркинг в экосистеме нейронных сетей LEMUR
    • Расширение на задачи распознавания изображений и многомодальный AI
  4. Более длительные периоды обучения:
    • Углубленное исследование долгосрочного поведения сходимости
    • Оптимизация стратегий обучения
  5. Расширение типов архитектур:
    • Применение фрактального дизайна к Transformer
    • Исследование гибридных архитектур

Глубокая оценка

Преимущества

1. Инновационность метода

  • Комбинирование фракталов и автоматизации: инновационное применение принципов фрактального дизайна к автоматизированной генерации архитектур
  • Управляемый шаблонами метод: по сравнению со случайным поиском обеспечивает более систематизированный и интерпретируемый способ исследования
  • Интеграция LLM: перспективное введение больших языковых моделей в процесс проектирования архитектур

2. Достаточность экспериментов

  • Крупномасштабная верификация: 1200 вариантов обеспечивают достаточные эмпирические доказательства
  • Систематизированная оценка: стандартизированный протокол оценки гарантирует справедливое сравнение
  • Многомерный анализ: оценка с точек зрения точности, сходимости, потребления ресурсов и других аспектов

3. Практическая ценность инженерной реализации

  • Эффективная реализация: применение технологий AMP и контрольных точек градиентов демонстрирует инженерные навыки оптимизации
  • Воспроизводимость: детальные конфигурации и стандартизированные соглашения об именовании облегчают воспроизведение
  • Практичность: реализация крупномасштабного исследования при ограниченных ресурсах имеет практическую ценность применения

4. Ясность изложения

  • Интуитивные диаграммы: Рисунок 1 четко представляет архитектуру системы
  • Эффективная визуализация результатов: Рисунки 3 и 4 эффективно передают экспериментальные находки
  • Логичная структура: организация статьи логична и легка для понимания

Недостатки

1. Ограничения метода

  • Ограниченное пространство архитектур: исследование только сверточных сетей, без охвата современных архитектур, таких как Transformer
  • Ограничение глубины: неспособность эффективно обрабатывать очень глубокие сети (N≥5)
  • Зависимость от ручного шаблона: хотя и автоматизирована, все еще требует ручного проектирования фрактальных шаблонов

2. Недостатки экспериментального дизайна

  • Недостаточное обучение: 5 эпох могут быть недостаточны для полной оценки потенциала модели
  • Единственность набора данных: верификация только на CIFAR-10 вызывает вопросы о способности к обобщению
  • Отсутствие статистических тестов: не сообщаются дисперсия, доверительные интервалы и другие статистические показатели
  • Неполное сравнение: сравнение с методами NAS лишено конкретных числовых значений

3. Недостаточная глубина анализа

  • Анализ случаев отказа: анализ 3% отказавших моделей недостаточно глубок
  • Отсутствие теоретического объяснения: недостает теоретического анализа причин эффективности фрактального дизайна
  • Чувствительность гиперпараметров: систематическое исследование влияния скорости обучения, размера пакета и других гиперпараметров отсутствует
  • Анализ вычислительных затрат: отсутствует детальное сравнение общих вычислительных затрат с методами NAS

4. Несоответствие названия и содержания

  • Проблема названия: упоминание "Advanced Large Language Model Analysis" в названии, однако LLM используется только для вспомогательной генерации, а не для основного анализа
  • Неясное позиционирование: ядро статьи — поиск архитектур сверточных сетей, связь с анализом LLM слаба

5. Отсутствие технических деталей

  • Детали фрактального шаблона: математическое определение фрактального шаблона не описано подробно
  • Механизм интеграции LLM: детали того, как LLM участвует в генерации архитектур, неясны
  • Механизм обработки отказов: способ обработки отказавших при обучении моделей не указан

Оценка влияния

1. Вклад в область

  • Средняя инновационность: комбинирование существующих фрактальных дизайнов с автоматизированной генерацией, но не является фундаментальным прорывом
  • Методологический вклад: предоставление жизнеспособной парадигмы исследования архитектур, управляемой шаблонами
  • Эмпирическая ценность: эксперименты с 1200 вариантами предоставляют ценные данные

2. Практическая ценность

  • Высокая эффективность ресурсов: подходит для исследовательских сред с ограниченными ресурсами
  • Хорошая масштабируемость: дизайн фреймворка поддерживает расширение на другие задачи
  • Дружественность к инженерам: стандартизированный процесс облегчает практическое применение

3. Воспроизводимость

  • Преимущества:
    • Детальные настройки гиперпараметров
    • Стандартизированные соглашения об именовании
    • Четкая архитектура системы
  • Недостатки:
    • Код не опубликован (упоминается репозиторий GitHub, но ссылка не предоставлена)
    • Некоторые детали реализации недостаточно подробны

4. Ограничения

  • Узкая область применения: в основном применима к сверточным сетям и классификации изображений малого масштаба
  • Слабая теоретическая база: отсутствуют теоретические гарантии и анализ
  • Ограниченная степень инноваций: в основном инженерная реализация, а не алгоритмическая инновация

Применимые сценарии

Подходящие сценарии применения

  1. Среды с ограниченными ресурсами: необходимость исследования архитектур при ограниченных ресурсах GPU
  2. Быстрая разработка прототипов: необходимость быстрой генерации и оценки нескольких вариантов архитектур
  3. Образование и исследования: понимание принципов проектирования архитектур и методов автоматизации
  4. Классификация изображений малого масштаба: задачи, подобные CIFAR-10

Неподходящие сценарии

  1. Наборы данных большого масштаба: задачи, требующие длительного обучения, такие как ImageNet
  2. Архитектуры, отличные от сверточных: типы архитектур, такие как Transformer и GNN
  3. Требование SOTA производительности: текущая максимальная точность 90% недостаточна для конкуренции
  4. Производственная среда: стабильность и надежность требуют дальнейшей верификации

Общая оценка

Оценка: 6,5/10

Обоснование:

  • Статья предлагает инженерно осуществимый фреймворк исследования архитектур с определенным вкладом в эффективность ресурсов и систематизированное исследование
  • Крупномасштабные эксперименты с 1200 вариантами предоставляют ценные эмпирические данные
  • Однако инновационность метода ограничена, в основном это комбинирование существующих технологий
  • Глубина экспериментов недостаточна, обучение проводится только на одном наборе данных в течение короткого периода
  • Название и содержание не полностью соответствуют, что может ввести читателей в заблуждение
  • Отсутствует теоретический анализ и углубленное исследование случаев отказа

Рекомендуемая аудитория:

  • Исследователи, интересующиеся автоматизированным поиском архитектур
  • Студенты, нуждающиеся в проведении экспериментов в среде с ограниченными ресурсами
  • Читатели, желающие понять применение фрактального дизайна в нейронных сетях

Библиография

Ключевые работы, цитируемые в статье:

  1. Kochnev et al. (2025): "NNGPT: Rethinking AutoML with Large Language Models" — связанные работы по AutoML с поддержкой LLM
  2. Goodarzi et al. (2025): "LEMUR Neural Network Dataset: Towards Seamless AutoML" — набор данных LEMUR и экосистема
  3. Larsson et al. (2017): "FractalNet: Ultra-Deep Neural Networks without Residuals" — оригинальный дизайн фрактальных сетей
  4. Krizhevsky et al. (2012): "ImageNet classification with deep convolutional neural networks" — AlexNet, основы глубокого обучения
  5. Huang et al. (2017): "Densely connected convolutional networks" — DenseNet, связанный дизайн архитектур
  6. Kaggle CIFAR-10: источник набора данных и эталонные тесты

Резюме: FractalNet предоставляет практический метод автоматизированного исследования архитектур, особенно подходящий для исследовательских сред с ограниченными ресурсами. Хотя инновационность метода ограничена, инженерная реализация совершенна, а крупномасштабные эксперименты предоставляют ценные эмпирические данные. Основная ценность статьи заключается в демонстрации осуществимости комбинирования фрактального дизайна с автоматизированной генерацией, предоставляя масштабируемую основу для последующих исследований.