In this introductory chapter, we lay the groundwork for the rest of the book by providing a more detailed picture of the expected purpose, shape, and architecture of future grid systems. We structure the chapter in terms of six questions that we believe are central to this discussion: Why do we need computational grids? What types of applications will grids be used for? Who will use grids? How will grids be used? What is involved in building a grid? And, what problems must be solved to make grids commonplace? We provide an overview of each of these issues here, referring to subsequent chapters for more detailed discussion.
academic 论文ID : 2501.01316标题 : Computational Grids作者 : Ian Foster (Argonne National Laboratory), Carl Kesselman (University of Southern California)分类 : cs.DC (Distributed, Parallel, and Cluster Computing)发表时间/会议 : 1998年,Morgan Kaufmann Publishers《The Grid: Blueprint for a Future Computing Infrastructure》论文链接 : https://arxiv.org/abs/2501.01316 本章为整本书奠定基础,通过提供未来网格系统预期目标、形态和架构的详细图景。章节围绕六个核心问题展开讨论:为什么需要计算网格?网格将用于哪些类型的应用?谁将使用网格?如何使用网格?构建网格涉及什么?以及使网格普及需要解决哪些问题?
计算资源需求增长 :尽管计算方法在各个领域都证明了其价值,但计算机的使用远未达到其潜力。例如,大学研究人员在研究土地利用对生物多样性影响时大量使用计算机,但城市规划者在选择新道路路线或制定新分区条例时却不使用。现有计算环境不足 :虽然今天的PC比10年前的Cray超级计算机更快,但对于预测复杂行动结果或从众多选择中进行选择等计算密集型任务仍远远不够。资源利用率低 :大多数低端计算机(PC和工作站)经常处于空闲状态,研究表明学术和商业环境中的利用率约为30%。作者认为存在为用户提供大幅增加计算能力的机会:在五年内增加三个数量级,在十年内增加五个数量级。这种戏剧性的增长将通过以下创新实现:
技术改进 :VLSI技术和微处理器架构的演进按需访问计算能力 :为间歇性需求提供高端资源的可靠、即时、透明访问提高空闲容量利用率 :更好地利用闲置的计算资源计算结果的更大共享 :如天气预报等的有效共享新的问题解决技术和工具 :网络增强求解器、远程沉浸技术等提出了计算网格的概念定义 :将计算网格定义为"提供可靠、一致、普遍且廉价地访问高端计算能力的硬件和软件基础设施"建立了网格应用分类体系 :识别出五大类网格应用(分布式超级计算、高吞吐量计算、按需计算、数据密集型计算、协作计算)构建了网格用户分层模型 :定义了五类用户(最终用户、应用开发者、工具开发者、网格开发者、系统管理员)提出了分层架构框架 :从端系统、集群、内联网到互联网的四层架构模型识别了关键研究挑战 :系统性地分析了网格发展面临的技术和非技术挑战本文的核心任务是为计算网格这一新兴计算范式提供全面的概念框架和技术蓝图,包括:
输入:分布式、异构的计算和存储资源 输出:统一、高性能的计算服务 约束:可靠性、一致性、普遍性和经济性要求 可靠性 :用户需要从网格的各种组件获得可预测、持续且通常是高水平的性能保证一致性 :需要标准服务、标准接口和标准参数普遍性 :服务在预期环境中始终可用经济性 :必须提供相对于收入而言廉价的访问类别 示例 特征 分布式超级计算 DIS、恒星动力学、从头算化学 需要大量CPU、内存等的超大问题 高吞吐量计算 芯片设计、参数研究、密码学问题 利用空闲资源提高总体吞吐量 按需计算 医疗仪器、网络求解器、云检测 远程资源与本地计算集成 数据密集型计算 天空调查、物理数据、数据同化 从多个或大型数据源合成新信息 协作计算 协作设计、数据探索、教育 支持多参与者之间的通信或协作
Internet (缺乏集中控制、地理分布、国际问题)
↓
Intranet (异构性、独立管理、缺乏全局知识)
↓
Cluster (增加规模、降低集成度)
↓
End System (多线程、自动并行化、本地I/O)
类比电力网格 :首次系统性地将计算资源共享类比于电力网格,提供了直观的概念模型分层服务架构 :提出了从基础服务到应用的完整分层架构跨域资源管理 :解决了跨组织边界的资源共享和管理问题性能保证机制 :在动态、异构环境中提供端到端性能保证虽然这是一篇概念性论文,但作者基于大量实际系统和实验:
千兆位测试平台经验 :基于gigabit testbeds、I-WAY网络等实验系统的经验现有系统案例 :
Condor系统:管理数百台工作站 NEOS和NetSolve:网络增强数值求解器 分布式交互仿真(DIS):军事训练和规划 性能数据 :引用了关于工作站利用率(约30%)、并行程序性能提升等具体数据可扩展性:能否处理成千上万个节点 性能:是否能提供高性能保证 可靠性:在动态环境中的稳定性 易用性:对不同类型用户的友好程度 应用多样性 :即使在缺乏成熟网格基础设施的情况下,已经出现了丰富的成功应用案例资源需求巨大 :几乎所有应用都表现出对计算资源(CPU、内存、磁盘等)的巨大需求交互性要求 :许多应用是交互式的或依赖于与计算组件的紧密同步性能敏感性 :需要能够提供强健性能保证的网格基础设施AMD微处理器设计 :Platform Computing Corporation报告AMD在K6和K7微处理器设计的峰值阶段使用了超过1000台计算机进行设计验证天气预报共享 :每日天气预报涉及约10^14次数值运算,如果假设预报对10^7人有益,则有10^21次有效运算,相当于世界上所有PC每天执行的计算量医疗成像增强 :NCSA开发的计算机增强MRI机器和扫描隧道显微镜使用超级计算机实现实时图像处理Metacomputing概念 :Catlett和Smarr的原创论文提供了高性能分布式计算的早期愿景网络计算演进 :40年来网络计算经历了反复变革,每次底层技术的数量级改进都带来革命性应用分布式系统技术 :DCE、CORBA、DCOM等分布式计算技术为网格发展奠定基础电力网格研究:Corporation for National Research Initiatives的系列丛书 电信网络:电话和电报基础设施发展经验 银行系统:大规模基础设施的管理经验 网格的必要性 :计算网格是实现计算能力大幅提升的关键技术路径多样化需求 :不同社区需要不同类型的网格,不会出现单一的通用网格技术可行性 :基于现有技术发展趋势,所描述的网格愿景在技术上是可行的挑战的复杂性 :实现网格需要解决技术、经济、政治和社会等多方面挑战技术预测的不确定性 :对未来技术发展的预测可能存在偏差经济模型缺乏 :计算网格的经济因素影响尚未得到充分理解政治和制度因素 :跨组织合作的政治和制度挑战可能被低估安全和隐私问题 :大规模资源共享带来的安全挑战需要更深入研究应用探索 :探索网格技术在科学、工程、商业、艺术和娱乐等领域的应用边界编程模型创新 :开发适合网格环境的新编程模型和工具系统架构优化 :设计满足复杂性能要求的可扩展系统架构算法和方法创新 :开发适应网格环境特征的新算法和问题解决方法前瞻性视野 :准确预见了分布式计算的发展趋势,许多预测在今天看来都得到了验证系统性框架 :提供了完整的概念框架,从应用需求到技术架构都有系统性分析实用导向 :不仅有理论分析,还基于大量实际系统经验,具有很强的实用价值跨学科视角 :将计算机科学与电力工程、经济学、政治学等结合,视角独特技术细节不足 :作为概念性论文,缺乏具体的技术实现细节性能分析缺乏 :没有提供详细的性能建模和分析安全考虑不够 :对大规模分布式系统的安全挑战讨论相对简单标准化问题 :对如何实现网格服务标准化的具体方案讨论不够深入领域奠基作用 :这篇论文为网格计算领域奠定了理论基础,影响了后续十多年的研究方向产业推动 :推动了Globus、Legion等重要网格中间件项目的发展概念传播 :"计算网格"概念被广泛接受,成为分布式计算的重要范式后续发展 :为云计算、边缘计算等后续技术发展提供了思想基础科学计算 :大规模科学仿真和数据分析企业计算 :跨组织的资源共享和协作教育研究 :为研究机构提供计算资源访问商业服务 :计算服务的商业化运营论文引用了丰富的相关文献,主要包括:
基础设施研究 :Amy Friedlander关于铁路、电信、电力、银行等基础设施发展的系列研究Metacomputing :C. Catlett和L. Smarr的开创性工作分布式系统 :DCE、CORBA、分布式共享内存等相关技术网络计算 :Internet协议、高性能网络、并行计算等领域的重要工作安全技术 :Kerberos、数字证书、移动代码安全等总结 :这篇论文作为网格计算领域的奠基性工作,不仅准确预见了分布式计算的发展趋势,更重要的是提供了系统性的概念框架和技术蓝图。虽然在技术细节上有所不足,但其前瞻性视野和跨学科方法使其成为该领域最具影响力的论文之一。论文提出的许多概念和挑战在今天的云计算、边缘计算时代仍然具有重要的指导意义。