专为深度学习设计的人工思维云
2020-01-15 来源:多智时代
如今,人们大多听说过人工智能系统,如IBM的沃森系统。六年前,谷歌公司的阿尔法狗(alphago)击败了围棋世界冠军;卡耐基-梅隆大学的libratus不久前击败一位世界顶级扑克选手。而全球各地的许多计算机科学家正在研究人工智能系统,但这些将不会出现在新闻中。
在过去五年左右的时间里,机器学习作为人工智能(AI)技术的一种得到了快速发展,如今已经开始渗透到技术的每一个角落。从自驾车到网络广播,网络安全和视频监控,企业正在培训电脑替代人类做许多事情,并且做的更好,或者成本更低。
神经网络是一种旨在模拟神经元在人类大脑中相互联系的方式的计算机系统,被训练为通过观察,重复,试验和错误,通过计算机科学家辅助来实现这些任务,这与父母培育婴儿方式相似,虽然婴儿要比其好得多。神经网络学习和了解口语,例如通过听很多录音,比如电影对话等,还通过查看大量图像来学习识别对象。当它发生错误时,该数据被反馈到网络,这使得每个周期的错误越来越少。
培训是机器学习开发过程中耗费资源最多的计算工作量。深度学习软件开发(深度学习是最广泛的机器学习技术)的爆炸式增长正在推动对专业计算基础设施的日益增长的需求,面向训练神经网络所需的工作负载类型。这些计算机类似于科学家使用的高性能计算(HPC)系统,因此需要来自托管它们的数据中心的大量电力和制冷能力。
人工思维需要大量的电力
Cirrascale公司是美国加利福尼亚州的一家高性能硬件供应商和云服务提供商。该公司希望以这个趋势为契机,其业务将转向设计和托管深度学习计算基础设施的厂商。除了销售高性能的硬件之外,该公司还将其数据中心用于圣地亚哥以外的其他数据中心。
Cirrascale公司提供这种基础架构即服务与亚马逊网络服务提供云服务器的方式有些类似,但有一些关键的差异。
该公司首席执行官兼创始人David Driggers在接受行业媒体采访时说:“这些类型的盒子非常强大。因为他们有很多的计算硬件资源,并且非常耗电。这与提供虚拟服务器实例的AWS不同,Cirrascale的深度学习云是一种裸机云服务,用户会获得一个专门的高性能盒子(或几个)来运行所需要的任何软件。”
Driggers说,他的许多客户从事的机器学习的开发工作是高性能计算世界的新手。设置,管理和清理HPC群集并不是一件小事,他们希望将这个问题让理解它的工作人员解决。
Cirrascale公司的数据中心旨在提供每机架30kW以上的功率密度(普通的企业数据中心的功率密度为每机架3至5kW,很少超过10kW)。“这需要更多的电能,”Driggers说,“而这样做很困难,我们没有不会为此付出更大的代价。”
Cirrascale公司位于圣地亚哥数据中心的的裸机云平台机柜
为了降低这种功率密度产生的热量,数据中心采用Scale Matrix公司开发的专有液体冷却系统进行冷却,Scale Matrix公司拥有并经营Cirrascale数据中心。大多数数据中心冷却IT系统的空气都是从前面到后面流动,而在这个数据中心的冷却,是从设备部到顶部以极高的速度推送空气,排出服务器机柜顶部的暖空气。每个柜子都是封闭的环境,拥有自己的供水和空气循环系统,并确保相邻的机柜不会影响彼此的温度。
Cirrascale公司有着多年建设高性能计算系统的经验,该公司的前身是Verari系统公司,该公司是2009年破产的一家HPC硬件和数据中心集装箱供应商,Cirrascale公司两年前进入的深度学习领域。Driggers说,“我们十多年前就已经做到每机柜功率达到30千瓦,所以我们希望推出更高性能的计算机。”
链接虚拟神经元
超级计算机系统和用于训练深层神经网络的系统构建的架构非常相似。Driggers认为,随着后者成熟并开始规模化,其架构将越来越像前者。
这种架构中的主力是GPU,或者更准确地说,将一组GPU并联在一起并行计算。用于深度学习的单个Cirrascale服务器由NVIDIA(目前是深度学习中的GPU行业领导者)最多部署8个TeslaGPU,并与英特尔至强CPU协同工作。其最强大的云计算系统有8个双GPU加速器,实际上是一个16GPU服务器,用户可以每月约7,500美元租用。
Cirrascale公司GX8/99系列服务器采用Nvidia公司8个Tesla GPU
Cirrascale公司的最重要的创新,也是其技术皇冠上的宝石,是在单一系统中互连GPU的特殊方式,称之为PCIe Switch Riser,它使任何一个GPU能够以最大的带宽与主板上的任何其他GPU直接通话,从而有助于提高性能和可扩展性。
Driggers说,DGX-1是NVIDIA公司自己专门为了深度学习而设计的超级计算机,以类似的方式进行了配置。NVIDIA的GPU互连技术称之为NVLink。他承认,如果用户需要“绝对的尖端”技术,那么用户应该采用NVIDIA公司的产品。但是,如果用户可以忍受降低15%的性能,则可以支付的一半价格。Cirrascale公司也具有与同样的NVIDI AP100 GPU性能相当的系统。而该公司也销售NVIDIA公司的DGX-1产品。
NVIDIA公司用于深度学习的DGX-1超级计算机
启动常识解决问题
虽然关于深度学习的知识越来越广泛传播,但很少有企业实际上在生产中使用该技术。像Google和Facebook这样的超级云计算运营商正在将其应用于许多面向用户的功能,但大多数在该领域工作的公司仍处于开发阶段,对于大多数Cirrascale公司的云客户来说,这些用户正在编写算法,学习扩展其深度学习应用程序来处理更大的数据集。
如今,一些客户中在采用少量的节点,Driggers认为这些客户将成为最终需要的一小部分。随着他们的成长和应用的成熟,他预计首选的基础架构是混合模式,将会是私有云和公共云的结合。
Twentybn是已经使用混合设备的一人客户,该公司是一家总部在多伦多的研究实验室在柏林创立的创业公司。他们认为,一些最有希望的应用程序(如自驾车)的显性神经网络训练技术有缺陷,可能在成熟阶段中断。
代替使用静态图像来训练神经网络来识别对象,其主导方法是使用视频。该公司首席科学家和联合创始人之一罗兰·梅西维奇在接受采访时说:“我们的任务是教会机器来感知和理解世界。”梅西维奇是有一定影响力的蒙特利尔学习算法研究所的教授,也是人们所知道的深度学习发展的关键人物杰弗里·亨顿所教的博士生。
世界是三维的,重力,具有永久性特征的对象,A点只能通过移动到B点,人类在达到三点之前就要牢牢把握,这对于是机器来说,是非常困难的事情。Memisevic解释说,但人们有强大的科学理由相信,通过视频是获得这种理解的唯一途径。
Twentybn公司采用了一大批互联网用户为自己拍摄6万多个视频短片,这些视频很简单,例如就像投掷物体,丢弃物体或拾起物体,产生视频,以反映人们想要网络学习的东西。该公司正在使用这些和合成的视频来训练其神经网络,目的是为自主车辆和视频监控销售自定义人工智能解决方案。
Twentybn公司使用Cirrascale公司的GPU封装的裸机云服务器来训练其神经网络,但也在其多伦多实验室内部保留自己的计算集群,以处理大量的合成视频。
后GPU的未来?
Memisevic认为,随着神经网络的应用越来越广泛,如云计算提供商Switch Riser公司需要改进GPU之间的通信的技术,这在未来将是不可或缺的。然而,目前尚不清楚利用大量GPU的最佳方法将是多久?以下有几种方法。
因为人们正在目睹的只是预期推动下一次技术革命的开始,关于计算和数据中心基础设施机器学习或其他类型的人工智能将最终需要的类型,仍然存在很多未知数。Memisevic说:“我们周围的每一家公司,都必须找到一种利用GPU来训练网络的方法,而且我们一直在寻求使用这些GPU探索多个方向。”
使用混合云是一项战略决策,是由于未来计算需求的不确定性而造成的。Memisevic说,即使GPU本身也可能最终被更好更有效地模拟神经网络的东西所取代。通过部署更多GPU来使这些网络更强大的方法并不是最理想的状态。
事实上,他相信会有更好的选择。毕竟,人脑比GPU集群强大得多,同时只使用了一小部分的能量,并只是集群的一小部分空间。“现在我们需要不断缩小体积和电力消耗,这样应用才会增长。”他说。“GPU的大功率计算的需求会不断增长。与大脑相比,GPU耗电太多,以后今后可能会有更好的技术,可以使用更少的电能。”
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。
上一篇:更人性化的会议直播
下一篇:云计算容器技术评估标准要来了!