Platform:如何构建高性能计算云?

2019-02-26    来源:多智时代

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

如今,“云计算”已经成为IT业界的热门词汇,无论是专业人士还是厂商,都希望数据中心能发生翻天地覆的变化,很多人高性能计算(HPC)用户也在评估HPC负载是否适合于部署在云环境中。导致这种争论的原因之一是人们不清楚“究竟什么是云计算?”以及“什么样的应用算得上是HPC应用?

HPC应用是无法“一刀切”的,我们很难简单地把某类应用归为HPC应用, 2000年初,计算机应用从集中控制的大型主机转向分布式的计算集群就清楚地说明了这一事实。这种做法不仅将普通的商用硬件带入了HPC领域,也给客户提供了更多的选择。 HPC用户可以按照最低需求来构建HPC,从而节省投资成本。你会发现,有些 HPC系统的节点数较少,但每个处理器配备的内存较大,带宽较窄或节点之间的延时较长;而另一些 HPC系统则可能按照不同的参数要求来设计,所有这些都是针对应用需求量身定做的。

然而,对大多数企业或IT部门来说,降低成本的压力都在与日俱增,因此“按用量付费”的云计算模式也就应运而生。问题的关键是,并非所有的计算类型都适合于云架构。

Rackspace、亚马逊、Savvis以及其他一些 IaaS提供商都采用不同的虚拟化技术来管理其底层的硬件资源,遗憾的是每家厂商采用的虚拟化技术是不同的,而且有时是保密的,比如AWS EC2。因此,对HPC应用来说,究竟是采用虚拟机还是物理机就成为构建HPC云之前需要特别讨论的一个问题。

高性能计算(HPC)架构师迟迟没有采用虚拟化技术的主要原因有两个:其一是人们通常认为的虚拟化会严重影响应用程序的性能,虚拟化提升灵活性的优点被其降低了应用程序吞吐量的缺点所压倒;其二是传统的HPC基础架构的利用率已经非常高了(通常为80%~95%),因此,通常推动企业采用虚拟化的动因(提高硬件利用率、整合服务器或提高许可证利用率)不足以抵消使用虚拟化资源运行工作负载带来的复杂性和费用增加的缺点。

然而在很多情况下,HPC架构师又愿意牺牲5%的应用程序性能来获得虚拟化带来的灵活性和弹性。HPC用户愿意这样做的主要原因有以下几个:

安全性——虚拟机可以作为实例添加到虚拟局域网中,或者从虚拟局域网中删除。一些HPC环境要求多组用户之间,甚至用户本身之间实现数据和宿主相互隔离。传统的虚拟局域网通常与物理服务器结合使用,结果造成了资源孤岛,在变化的负载环境中,孤岛将导致孤岛内资源利用率低下。虚拟机和虚拟局域网可以配合使用,把用户彼此隔离开来,并将数据隔离起来,有权访问的用户才可以访问。

应用程序堆栈控制——很多应用程序需要特定的操作系统版本、更新版、代码库和配置等。在混合应用环境下,多个应用共享同一物理硬件,这种情况下,就很难满足所有应用对特定堆栈的要求。采用虚拟化技术,这个难题就迎刃而解了,因为,在虚拟化环境下整个堆栈可以作为应用程序的一部分来部署。

充分利用高价值资产——在异构的HPC系统中,最新(因而最快)的机器常常需求量最大。为了满足这个需求,一些企业采用预留系统以尽量减小用户之间的冲突。但遗憾的是,这种预留系统常常没有得到充分的利用。相比之下,使用虚拟机处理计算作业时,大多数虚拟机管理程序内部的迁移工具允许机会性工作负载使用高价值资产,甚至为一个不同的用户打开了预留窗口后也可以使用。如果提出预留要求的用户最终提交工作负载,要求处理负载,机会性工作负载随后可以迁移到价值较低的资产,以便继续处理,而不浪费任何处理器周期。

处理执行时间长的作业——几种HPC应用程序不提供检查点重启功能。然而,虚拟机技术可以获取和检查虚拟机的整个状态,以便检查以前无法检查的应用程序设置。如果作业运行时间足够长,对于整个解决方案来说有一样的平均无故障时间(MTBF),那么虚拟机内部的检查点工具可能非常吸引人。此外,如果服务器维护是经常进行或具有可预测性,那么虚拟机内部的检查点迁移或暂停运行时间长的作业,可以防止计算时间流失,同时消除执行常规服务器维护工作所面临的任何障碍。

在不久的将来,云计算一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏云计算,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

标签: 安全 大数据 代码 服务器 什么是云计算 云计算

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:傲游CEO陈明杰:云计算改变浏览器未来

下一篇:金山KingCloud私有云安全平台官网正式上线