融核一出GPGPU可以扔了?
2018-06-11 来源:
Intel最近发布的至强融核协处理器可谓是赚足了眼球,在Top500上也尽显它强大的实力。Top500作为全球高性能计算的行业风向标,我们在以前看到的一般都是新一代的CPU,GPGPU的系统在排行榜上占据多少多少比例之类的信息,但在今年Intel的这一枚重磅炸弹可以说是直接命中要害。
Intel在07年就已经有了这一计划,当时在竞争对手AMD、NVIDIA竞相推出GPGPU的时候,Intel就准备拿出一种可以编程的多核心芯片“Larrabee”进行抗衡。但由于种种原因一直未能实现,不过这么多年的跳票还是积攒出了一些成果,Xeon Phi一经推出就达到了当今GPGPU计算能力的主流水平。
产品对比
Xeon Phi:
英特尔至强融核Xeon Phi
首先Xeon Phi是基于集成众核(MIC)架构的也就是Intel Larrabee GPU。 Xeon Phi的制造工艺采用了Intel当前最先进的22nm 3-D栅极晶体管。对于Linux操作系统,Xeon Phi是可以不依赖传统Xeon CPU直接运行的,但BIOS等方面还需要做一些小的改动,为了兼容大量传统x86应用,目前还没有推出这样的平台。
NVIDIA Tesla K20X:
NVIDIA GPGPU Tesla K20X
今年TOP500的冠军泰坦所使用的GPU加速器就是Tesla K20X,Tesla K20系列是基于NVIDIA的 Kepler计算架构。采用SMX流式多处理器。除此之外通过增加四倍数量的CUDA架构核心来实现SMX的节能效果,同时还降低了每个核心以及GPU电源门控零件在闲置时的时钟频率,最大限度增大了专门用于并行处理核心而非控制逻辑的GPU区域。
优势对比
性能方面
NVIDIA Tesla K20X:
Tesla K20X屏蔽了1组SMX单元,剩下14组SMX,CUDA计算核心相应的减少为2688个,不过保存了384bit完整的显存位宽,配备的是6GB GDDR5显存,显存频率为5200MHz。由于要面对大核心功耗、良率、发热的问题,Tesla K20X核心频率预设并不太高,为732MHz,单精度和双精度浮点计算性能分别达到了3.95 TFlops和1.31TFlops,比例为1:3。
Xeon Phi:
在Xeon Phi coprocessor 5110P身上我们更多的看到的还是x86的影子,产品虽然使用了多达60个计算核心,当然架构和流水级数的大幅削减,产品的核心频率并不会像桌面产品那 样动辄3GHz以上,只有区区1.053GHz,但是和桌面产品相比却有着更高的执行效率,双精度计算性能也突破了1TFlops,为 1.053TFlops。
编程方面
Xeon Phi最大优势就是在使用x86架构的并行计算时不需要对代码进行大规模改写,只需要对编译器和Runtime等进行调整即可顺利使用Xeon Phi进行加速。Intel指出相对NVIDIA的CUDA或者OpenCL等异构计算道路,一些研究机构可以不用重写它们的x86应用。
NICS的MIC架构初步试验结果
Xeon Phi的推出无疑是对NVIDIA GPGPU代表的异构计算构成了威胁,那么有了Xeon Phi之后我们真的不再需要GPGPU了么?
回答是否定的,Intel在Xeon Phi中加入了新的512bit宽度ZMM寄存器指令集,使得Xeon Phi的矢量单元(vector unit)和其他所有Intel处理器产品都不相同,这意味着Xeon Phi系列产品和其他Intel CPU在二进制代码上实际是不兼容的。为 Xeon Phi所编写、编译的代码不能在其余CPU上运行,反之亦然:为SIMD大量优化的代码对Xeon Phi同样没有意义。此外Intel还重申Xeon Phi是一款协处理器,需要CPU的辅助才能发挥应有的作用,从模式上来说已经和NVIDIA的Tesla加速卡类似,偏离了原有的设想。
总结
以上解释与说明只指向一个事实:在MIC架构上编写应用并不比走CUDA/OpenCL GPGPU的道路工作量小。即使是号称通用性最强的OpenCL,代码也必须根据硬件的架构特征所大量的优化与改动,否则得到的性能数据毫无实际意义。联 系到目前的实际情况,毫无疑问NVIDIA的CUDA无论性能还是走在了市场的最先端,而OpenCL和Intel要稍微落后一些。
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。