|||
协同高性能计算、网格和云
客座编辑导言 • Art Sedighi • 2013年5月
英文原文请见:http://www.computer.org/portal/web/computingnow/archive/may2013
与把网格、云和高性能计算(HPC)这三种方法相互割裂开来的做法不同,今日计算本月主题的焦点是这些方法的互操作以及前进道路上可能会出现的问题。
高性能计算、网格和云的协作
本期主题首篇文章是来自Stelios Sotiriadis及其同事的《从元计算到互操作的基础设施》,这篇文章高屋建瓴,探讨了这些技术的适用对象:
· HPC的特点是应用和底层的同质基础设施之间紧密耦合,重点集中在客户自有环境的速度和性能。
· 网格计算的应用和基础设施之间的耦合度低。由于虚拟组织允许节点异质且分散在不同地理位置,因此应用对位置不敏感。重点是并行和分布式计算,对共享基础设施的访问受限。
· 云计算的应用和下层基础设施之间几乎没有耦合性可言。重点聚焦对可公开访问基础设施的按使用计费及随时随地的计算资源动态配置,较低的服务水平协议(SLA)一般是可接受的。
没啥新鲜,对不对?差不多是这样。最近几年,协调和整合这些看似不同的环境一直令人纠结。 Sotiriadis和同事提出了元调度器(meta-scheduler)的概念,能够将工作负载在这三种环境之间迁移。他们的文章着眼于本领域的当前研究点,特别是三种方法之间的鸿沟。
元调度协助整合
元调度器可以是集中的,也可以是无中心的,但最终目标都是在一个管理层下把多个环境整合在一起。Thomas Rings和Jens Grabowski在《云计算与网格计算基础设施整合实战》中展示了这种方法。他们认为元调度器必须能应对以下挑战:
· 异构资源,
· 跨本地和远程地点和环境的管理和调度,
· 资源可能来来去去的动态环境;
· 分散的地理位置,
· 多资源类型和多地点下的负载平衡,
· 故障和重新调度,以及
· 安全约束。
这方面的研究虽然已经很多,但实际上才刚刚开始触及问题表面。
Rings和Grabowski采取了非常务实的方法,专注于把一个网格内环境和亚马逊Web服务(AWS)的公共云计算基础设施整合起来。在他们所谓的“云服务中的网格(grid-in-cloud-services)”中,作者使用“计算资源的统一接口(Uniform Interface to ComputingResources,Unicore)”把私有IaaS云(基础设施作为服务,infrastructure-as-a-service)”在亚马逊公共IaaS云中进行实例化。这里的Unicore网关(或元调度器)控制内部网格和“云服务中的网格”基础设施之间的负载均衡。这是迈向互操作性的重大一步,特别是勾勒展示了这一领域仍然存在的挑战。
SLA管理
假若我们解决了整合外部云和内部网格或高性能计算环境的总体体系结构这个挑战,下一个进入舞台中央的就是定价问题,一个特别原因是它涉及到SLA、SLA管理和服务选择。也就是说,一旦我们弄清楚如何动态地转移负载,我们是否就能创造一个现货市场,即用户可以根据当前SLA和目标价格选择服务提供商,而资源可以立即购买和交付。例如,下午他们用便宜价格从一家供应商获得较低的SLA,而上午则向另一供应商付出高价,以满足更高的服务级别需求。
我们的目标是把灵活性提高到一个新的水平,这样我们就能根据SLA和价格在多个云供应商之间进行迁移和负载平衡。考虑到这一点,Christoph Redl和他的同事撰写的《网格和云计算市场中SLA自动匹配和供应商选择》讨论了一种SLA模板的实现,这种模板可用于谈判(SLA匹配)和法律合同签订(实时提供商选择)。通过Web服务标准——例如WS-协议或WSLA——进行实现,他们提出的SLA模板包含了机器学习算法进行合同谈判和达成所需要的数据(例如SLA指标、参数和服务水平的目标)。机器学习算法采用了MAPE风格的控制回路:1)监视(Monitor)学习进度与建议,2)分析(Analyze)添加到数据库中的新知识,3)规划(Plan)训练和修订,4)执行(Execute)训练。
负载平衡和博弈论
最后一篇主题文章是Qin Zheng和Bharadwaj Veeravalli的《论云计算系统中相互了解情况下最优定价和负载均衡策略的设计》,给出了解决Redl及其同事所提问题的策略。作者从博弈论角度对负载平衡进行深入研究(这是我特别感兴趣的一个话题,因为和我博士论文的研究工作密切相关,见http://phd.artsedighi.com)。底层系统的“博弈”——例如为了防止他人获取访问权而对基础设施进行压倒性的请求——会对其他用户的SLA造成不利影响。与此相反,资源预约系统不能被“博弈”,因为它对资源的划分并不根据用户的需要或要求而变化。其他方法也可以防止或至少减少“博弈”系统的能力。Redl和他的同事考察了提供商如何使用价格差异来防止“饥饿时间”,即因为系统被“博弈”而造成用户的服务请求被延迟,这与当前模型相左,当前模型寻求并发用户之间平均(或封顶)地使用,从而防止任何用户有机会“饿死”别人。网格环境中的竞争不如公共云中那样激烈,因为在公共云中用户相互合作对自己没有益处。在云计算环境中,两个用户可能代表相互竞争的不同公司,因此没有兴趣与对方合作。
提供各种定价模型也可以帮助运营商最大限度地提高收入和增加使用量。作者的研究表明,服务提供商(内部的或外部的)简单地变化使用价格比强加限制或其它类似政策更容易影响用户行为。这似乎是显而易见的,但在充满不合作用户的云环境中,价格设置错误会导致收入下降,因为这样云就可能不再代表最有吸引力的选择。最终,这里的目标是建立体现了纳什均衡点的市场,在那个点上,没有一个单一服务提供商能够期望在改变价格的同时能指望利润增加。
结论
除非可以完全脱离当前环境(例如当旧服务器都寿终正寝时),在云计算向业已投资高性能计算和网格计算的领域渗透过程中,把高性能计算、网格计算和云环境进行高效的无缝集成和互操作都是一个重要挑战。从应用角度来看,最终用户关心的主要是他们的SLA和相关费用。把云的动态配置和适应能力引入到高性能计算和网格计算环境,可以使用户在满足服务水平需要方面进行权衡决策,本月主题的文章探索了能够实现互操作性的一些方法。
Art Sedighi是在纽约市工作的一名自由顾问,专注于基础设施设计和实施。他拥有伦斯勒大学的计算机科学硕士学位和约翰斯·霍普金斯大学的生物技术和生物信息学硕士学位。Sedighi目前正在攻读纽约州立大学石溪分校的应用数学博士学位。请在http://phd.artsedighi.com访问他的博客和博士学位状态。他的联系电邮是sediga@alum.rpi.edu。
(黄铁军译)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-1 06:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社