Nvidia 的新 GPU 来了,FPGA 和 ASIC 要扔掉吗?



美国时间 5 月 10 日,Nvidia CEO 黄仁勋在开发者大会 GTC2017 上发表 新一代 GPU 架构 Volta,首款核心为 GV100,採用台积电 12nm 製程,最大亮点是成倍提升了推理性能,意欲在目前称霸机器学习训练场景的基础上,在推理场景也成为最佳商用选择。

GV100 GPU

据了解,Volta 架构 GV100 GPU 採用台积电(TSMC)12nm FFN 製程,具有 5,120 个 CUDA 核心。相比上一代 16nm 製程的 Pascal 架构 GPU GP100,晶体管数目增加了 38%,达到了惊人的 211 亿个;核心面积也继续增加 33%,达到令人生畏的 815mm 2,约等于一个 Apple Watch 的面积,据黄仁勋称,这样的面积已经达到了製程极限。随着核心的增大,GV100 的单、双精度浮点性能也大幅提升了 41%。然而这还不是重点,为了满足 GPU 在机器学习中的性能需求,Volta 架构中引入了新的张量运算指令 Tensor Core,让机器学习中训练速度提升约 3 倍、推理性能提升约 10 倍(相比上一代自家 GPU GP100)。

GV100 搭载在 TESLA V100 开发板上亮相,配合来自三星的 16GB HBM2 显存,显存频宽也达到了 900GB/s 之高。

根据现场演讲 PPT,推理场景下,V100 比上一代搭载 GP100 CPU 的 P100 板卡,图像处理能力提升了约 10 倍,延迟也下降了约 30%。在这样的性能提升之下,GPU 已经可以让 FPGA 和 ASIC 几乎没有用武之地,在商用场景中几乎满足全部计算需求。

DGX-1V、DGX Station

随着 GV100 GPU 发表,Nvidia 的深度学习超级电脑也进行了升级。旧款 DGX-1 把原有 Pascal GPU 升级为 Volta GPU,名字也更新为 DGX-1V。它内建 8 块 Tesla V100 开发板,合计显存 128G、运算能力为 960 Tensor TFLOPS,即将迈入下一个时代。黄仁勋表示,过去 Titan X 需花费 8 天训练的神经网路,用 DGX-1V 只需 8 个小时。它相当于是"把 400 个伺服器装进一个盒子里"。

DGX Station 则是缩小版的 DGX-1V,黄仁勋称其为"Personal DGX",堪称是终极个人深度学习电脑,各方面指标均为 DGX-1V 的一半,但仍然已经非常强大。Nvidia 内部使用 DGX Station 已经很久,每个工程师要嘛有 DGX-1V,要嘛有 DGX Station,再要嘛两个都有。既然它确实能够满足工程师的需求,Nvidia 决定把这款产品推广到大众市场。

Nvidia 意图透过 GV100 完全称霸机器学习硬体市场

据了解,机器学习中需要用到高计算性能的场景有两种,一种是训练,透过反覆计算来调整神经网路架构内的参数;另一种是推理,用已经确定的参数批量化解决预定任务。而在这两种场景中,共有 3 种硬体在进行竞争,GPU、FPGA 和 ASIC。

GPU(以前是 Graphics Processing Unit 图形计算单元,如今已经是 General Processing Unit 通用计算单元)具有高的计算能力、高级开发环境、不影响机器学习演算法切换的优点,虽然同等计算能力下能耗最高,但仍然在演算法开发和机器学习训练场景中佔据绝对的市场地位。

FPGA(Field-Programmable Gate Array,现场可程式逻辑门阵列)是一种半成型的硬体,需要透过程式语言定义其中的单元配置和链接架构才能进行计算,相当于也具有很高的通用性,功耗也较低,但开发成本很高、不便于随时修改,训练场景下的性能不如 GPU。

ASIC(Application Specific Integrated Circuits,特殊应用积体电路)是根据确定的演算法设计製造的专用电路,看起来就是一块普通的晶片。由于是专用电路,可以高效低能耗地完成设计任务,但是由于是专用设计的,所以只能执行本来设计的任务,在做出来以后想要改变演算法是不可能的。Google 的 TPU(Tensor Processing Unit 张量处理单元)就是一种介于 ASIC 和 FPGA 之间的晶片,只有部分的可定制性,目的是对确定演算法的高效执行。

所以目前的状况是,虽然 GPU 在演算法开发和机器学习训练场景中佔有绝对地位;但是由于 FPGA 和 ASIC 在任务和演算法确定的情况下,在长期稳定大规模执行(推理)方面有很大优势,所以 GPU 跟 FPGA 和 ASIC 之间还算互有进退,尤其 GPU 相同性能下功耗很高,对大规模计算中心来说电费都是很高的负担。但随着 GV100 对推理计算能力的约 10 倍提升,商用场景下已经没有必要为了推理场景更换硬体了,同一套 GPU 可以在训练场景的计算能力和推理场景的计算能力,同时达到同功耗下最佳,还具有最好的拓展和修改能力,简直别无所求。

面对提升如此明显的 GPU,一众投身机器学习硬体的 FGPA 和 ASIC 厂商前景令人担忧。也许现在唯一能让他们鬆口气的就是 GV100 GPU 的量产出货时间要到 2017 年第三、四季。等 2018 年,希望大规模部署后的 GV100 能用成倍提升后的性能给我们带来新的惊喜。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章