2025-11-13T14:10:10.974227

Computational Grids

Foster, Kesselman
In this introductory chapter, we lay the groundwork for the rest of the book by providing a more detailed picture of the expected purpose, shape, and architecture of future grid systems. We structure the chapter in terms of six questions that we believe are central to this discussion: Why do we need computational grids? What types of applications will grids be used for? Who will use grids? How will grids be used? What is involved in building a grid? And, what problems must be solved to make grids commonplace? We provide an overview of each of these issues here, referring to subsequent chapters for more detailed discussion.
academic

Вычислительные сетки

Основная информация

  • ID статьи: 2501.01316
  • Название: Computational Grids
  • Авторы: Ян Фостер (Argonne National Laboratory), Карл Кессельман (University of Southern California)
  • Классификация: cs.DC (Распределённые, параллельные и кластерные вычисления)
  • Дата публикации/конференция: 1998 год, Morgan Kaufmann Publishers《The Grid: Blueprint for a Future Computing Infrastructure》
  • Ссылка на статью: https://arxiv.org/abs/2501.01316

Аннотация

Данная глава закладывает основу для всей книги, предоставляя детальное описание ожидаемых целей, характеристик и архитектуры будущих систем сеток. Раздел организован вокруг шести ключевых вопросов: почему необходимы вычислительные сетки? Какие типы приложений будут использовать сетки? Кто будет использовать сетки? Как использовать сетки? Что включает в себя построение сеток? И какие проблемы необходимо решить для массового распространения сеток?

Исследовательский контекст и мотивация

Проблемный контекст

  1. Растущие требования к вычислительным ресурсам: Несмотря на доказанную ценность вычислительных методов во всех областях, использование компьютеров далеко не достигло своего потенциала. Например, университетские исследователи активно используют компьютеры при изучении влияния землепользования на биоразнообразие, однако городские планировщики не используют их при выборе маршрутов новых дорог или разработке новых норм зонирования.
  2. Недостаточность существующей вычислительной среды: Хотя современные персональные компьютеры быстрее суперкомпьютеров Cray десятилетней давности, они всё ещё недостаточны для вычислительно интенсивных задач, таких как прогнозирование результатов сложных действий или выбор из множества вариантов.
  3. Низкий коэффициент использования ресурсов: Большинство маломощных компьютеров (персональные компьютеры и рабочие станции) часто находятся в режиме простоя; исследования показывают, что коэффициент использования в академической и коммерческой среде составляет примерно 30%.

Исследовательская мотивация

Авторы полагают, что существует возможность предоставить пользователям значительное увеличение вычислительной мощности: увеличение на три порядка в течение пяти лет и на пять порядков в течение десяти лет. Такой драматический рост будет достигнут благодаря следующим инновациям:

  1. Технологические улучшения: Эволюция технологии VLSI и архитектуры микропроцессоров
  2. Доступ к вычислительной мощности по требованию: Надёжный, немедленный и прозрачный доступ к высокопроизводительным ресурсам для периодических потребностей
  3. Повышение использования неиспользуемой ёмкости: Лучшее использование простаивающих вычислительных ресурсов
  4. Большее совместное использование вычислительных результатов: Эффективное совместное использование результатов, таких как прогнозы погоды
  5. Новые методы и инструменты решения проблем: Сетевые улучшенные решатели, технологии удалённой иммерсии и т.д.

Основные вклады

  1. Предложено определение концепции вычислительной сетки: Вычислительная сетка определяется как «аппаратное и программное обеспечение, обеспечивающее надёжный, согласованный, универсальный и экономичный доступ к высокопроизводительным вычислительным возможностям»
  2. Установлена система классификации приложений сеток: Выявлены пять основных категорий приложений сеток (распределённые суперкомпьютерные вычисления, высокопроизводительные вычисления, вычисления по требованию, вычисления, интенсивные по данным, совместные вычисления)
  3. Построена иерархическая модель пользователей сеток: Определены пять категорий пользователей (конечные пользователи, разработчики приложений, разработчики инструментов, разработчики сеток, системные администраторы)
  4. Предложена иерархическая архитектурная структура: Четырёхуровневая архитектурная модель от конечных систем, кластеров, интранетов к интернету
  5. Выявлены ключевые исследовательские вызовы: Систематический анализ технических и нетехнических вызовов, стоящих перед развитием сеток

Подробное описание методологии

Определение задачи

Основная задача данной работы — предоставить комплексную концептуальную структуру и технический план для новой парадигмы вычислений — вычислительных сеток, включая:

  • Входные данные: распределённые, гетерогенные вычислительные и запоминающие ресурсы
  • Выходные данные: унифицированные, высокопроизводительные вычислительные услуги
  • Ограничения: требования надёжности, согласованности, универсальности и экономичности

Проектирование архитектуры

1. Четыре ключевые характеристики определения сетки

  • Надёжность: Пользователи нуждаются в предсказуемых, постоянных и обычно высокоуровневых гарантиях производительности от различных компонентов сетки
  • Согласованность: Требуются стандартные услуги, стандартные интерфейсы и стандартные параметры
  • Универсальность: Услуги постоянно доступны в ожидаемой среде
  • Экономичность: Должен обеспечиваться относительно доходов экономичный доступ

2. Классификация приложений сеток

КатегорияПримерыХарактеристики
Распределённые суперкомпьютерные вычисленияDIS, звёздная динамика, квантово-химические расчётыТребуют огромные задачи с большим объёмом CPU, памяти и т.д.
Высокопроизводительные вычисленияПроектирование микросхем, параметрические исследования, криптографические задачиИспользование неиспользуемых ресурсов для повышения общей пропускной способности
Вычисления по требованиюМедицинские приборы, сетевые решатели, обнаружение облаковИнтеграция удалённых ресурсов с локальными вычислениями
Вычисления, интенсивные по даннымОбзоры неба, физические данные, ассимиляция данныхСинтез новой информации из нескольких или больших источников данных
Совместные вычисленияСовместное проектирование, исследование данных, образованиеПоддержка коммуникации или сотрудничества между несколькими участниками

3. Иерархическая архитектурная модель

Интернет (отсутствие централизованного управления, географическое распределение, международные проблемы)
    ↓
Интранет (гетерогенность, независимое управление, отсутствие глобального знания)
    ↓
Кластер (увеличение масштаба, снижение степени интеграции)
    ↓
Конечная система (многопоточность, автоматическая параллелизация, локальный ввод-вывод)

Технические инновационные моменты

  1. Аналогия с электросетью: Первый систематический анализ совместного использования вычислительных ресурсов по аналогии с электросетью, предоставляющий интуитивную концептуальную модель
  2. Иерархическая архитектура услуг: Предложена полная иерархическая архитектура от базовых услуг к приложениям
  3. Управление ресурсами в кросс-доменной среде: Решение проблемы совместного использования и управления ресурсами через границы организаций
  4. Механизмы гарантии производительности: Обеспечение сквозных гарантий производительности в динамичной, гетерогенной среде

Экспериментальная установка

Эмпирическая основа

Хотя это концептуальная статья, авторы основываются на обширном опыте реальных систем и экспериментов:

  1. Опыт работы с гигабитными тестовыми платформами: Основано на опыте работы с экспериментальными системами, такими как gigabit testbeds и сеть I-WAY
  2. Примеры существующих систем:
    • Система Condor: управление сотнями рабочих станций
    • NEOS и NetSolve: сетевые улучшенные численные решатели
    • Распределённое интерактивное моделирование (DIS): военное обучение и планирование
  3. Данные производительности: Ссылки на конкретные данные об использовании рабочих станций (примерно 30%), повышении производительности параллельных программ и т.д.

Критерии оценки

  • Масштабируемость: возможность обработки тысяч узлов
  • Производительность: возможность предоставления гарантий высокой производительности
  • Надёжность: стабильность в динамичной среде
  • Удобство использования: дружелюбность для различных типов пользователей

Результаты экспериментов

Основные выводы

  1. Разнообразие приложений: Даже при отсутствии зрелой инфраструктуры сеток уже появилось множество успешных примеров приложений
  2. Огромные требования к ресурсам: Почти все приложения демонстрируют огромные потребности в вычислительных ресурсах (CPU, памяти, дисковом пространстве и т.д.)
  3. Требования к интерактивности: Многие приложения являются интерактивными или зависят от тесной синхронизации с вычислительными компонентами
  4. Чувствительность к производительности: Требуется инфраструктура сеток, способная обеспечивать надёжные гарантии производительности

Анализ примеров

  1. Проектирование микропроцессоров AMD: Platform Computing Corporation сообщила, что AMD использовала более 1000 компьютеров для верификации проектирования микропроцессоров K6 и K7 на пиковом этапе разработки
  2. Совместное использование прогнозов погоды: Ежедневный прогноз погоды включает примерно 10^14 численных операций; если предположить, что прогноз полезен для 10^7 человек, то это составляет 10^21 эффективных операций, что эквивалентно объёму вычислений, выполняемых всеми персональными компьютерами в мире за день
  3. Улучшение медицинской визуализации: Компьютерные улучшенные МРТ-машины и сканирующие туннельные микроскопы, разработанные в NCSA, используют суперкомпьютеры для обработки изображений в реальном времени

Связанные работы

Историческая линия развития

  1. Концепция Metacomputing: Оригинальные статьи Кэтлетта и Смарра предоставили раннее видение высокопроизводительных распределённых вычислений
  2. Эволюция сетевых вычислений: За 40 лет сетевые вычисления претерпели повторяющиеся преобразования, каждое из которых приносило революционные приложения благодаря порядковому улучшению базовых технологий
  3. Технологии распределённых систем: DCE, CORBA, DCOM и другие технологии распределённых вычислений заложили основу для развития сеток

Исследования связанной инфраструктуры

  • Исследования электросетей: серия публикаций Corporation for National Research Initiatives
  • Телекоммуникационные сети: опыт развития инфраструктуры телефонии и телеграфии
  • Банковские системы: опыт управления крупномасштабной инфраструктурой

Заключение и обсуждение

Основные выводы

  1. Необходимость сеток: Вычислительная сетка является ключевым технологическим путём для достижения значительного увеличения вычислительной мощности
  2. Разнообразные требования: Различные сообщества нуждаются в различных типах сеток; не будет единой универсальной сетки
  3. Техническая осуществимость: На основе тенденций развития существующих технологий описанное видение сеток технически осуществимо
  4. Сложность вызовов: Реализация сеток требует решения технических, экономических, политических и социальных проблем

Ограничения

  1. Неопределённость технологических прогнозов: Прогнозы развития будущих технологий могут содержать отклонения
  2. Отсутствие экономических моделей: Экономические факторы, влияющие на вычислительные сетки, ещё недостаточно изучены
  3. Политические и институциональные факторы: Политические и институциональные вызовы кросс-организационного сотрудничества могут быть недооценены
  4. Проблемы безопасности и конфиденциальности: Проблемы безопасности, возникающие при крупномасштабном совместном использовании ресурсов, требуют более глубокого исследования

Направления будущих исследований

  1. Исследование приложений: Изучение границ применения технологии сеток в науке, инженерии, коммерции, искусстве и развлечениях
  2. Инновации в моделях программирования: Разработка новых моделей программирования и инструментов, подходящих для сетевой среды
  3. Оптимизация системной архитектуры: Проектирование масштабируемой системной архитектуры, удовлетворяющей сложным требованиям производительности
  4. Инновации в алгоритмах и методах: Разработка новых алгоритмов и методов решения проблем, адаптированных к характеристикам сетевой среды

Глубокая оценка

Преимущества

  1. Дальновидное видение: Точное предвидение тенденций развития распределённых вычислений; многие прогнозы подтверждены в наши дни
  2. Систематическая структура: Предоставляет комплексную концептуальную структуру с систематическим анализом от требований приложений до технической архитектуры
  3. Практическая ориентация: Не только теоретический анализ, но и основано на обширном опыте реальных систем с высокой практической ценностью
  4. Междисциплинарная перспектива: Объединяет компьютерные науки с электротехникой, экономикой, политологией и другими дисциплинами; уникальная перспектива

Недостатки

  1. Недостаток технических деталей: Как концептуальная статья, ей не хватает конкретных деталей технической реализации
  2. Отсутствие анализа производительности: Не предоставляет детальное моделирование и анализ производительности
  3. Недостаточное рассмотрение безопасности: Обсуждение проблем безопасности крупномасштабных распределённых систем относительно поверхностно
  4. Проблемы стандартизации: Недостаточно глубокое обсуждение конкретных решений по стандартизации сетевых услуг

Влияние

  1. Роль основания для области: Эта статья заложила теоретические основы области сетевых вычислений и повлияла на направления исследований более чем десяти лет
  2. Продвижение в промышленности: Способствовала развитию важных проектов сетевого промежуточного программного обеспечения, таких как Globus и Legion
  3. Распространение концепций: Концепция «вычислительной сетки» получила широкое признание и стала важной парадигмой распределённых вычислений
  4. Последующее развитие: Предоставила идеологическую основу для последующего развития технологий облачных вычислений, граничных вычислений и т.д.

Применимые сценарии

  1. Научные вычисления: Крупномасштабное научное моделирование и анализ данных
  2. Корпоративные вычисления: Совместное использование ресурсов и сотрудничество между организациями
  3. Образовательные исследования: Предоставление доступа к вычислительным ресурсам для исследовательских учреждений
  4. Коммерческие услуги: Коммерциализация вычислительных услуг

Библиография

Статья цитирует богатую литературу, основные категории которой включают:

  1. Исследования инфраструктуры: Серия исследований Эми Фридлендер о развитии железных дорог, телекоммуникаций, электроэнергии, банковской системы и другой инфраструктуры
  2. Metacomputing: Пионерские работы К. Кэтлетта и Л. Смарра
  3. Распределённые системы: Соответствующие технологии DCE, CORBA, распределённой общей памяти и т.д.
  4. Сетевые вычисления: Важные работы в области интернет-протоколов, высокопроизводительных сетей, параллельных вычислений и т.д.
  5. Технологии безопасности: Kerberos, цифровые сертификаты, безопасность мобильного кода и т.д.

Резюме: Как основополагающая работа в области сетевых вычислений, эта статья не только точно предвидела тенденции развития распределённых вычислений, но, что более важно, предоставила систематическую концептуальную структуру и технический план. Хотя в технических деталях имеются некоторые недостатки, её дальновидное видение и междисциплинарный подход делают её одной из наиболее влиятельных статей в этой области. Многие концепции и вызовы, предложенные в статье, остаются актуальными и имеют важное руководящее значение в эпоху облачных вычислений и граничных вычислений.