Nvidia 的新 GPU 来了，FPGA 和 ASIC 要扔掉吗？-58码农网

美国时间 5 月 10 日，Nvidia CEO 黄仁勋在开发者大会 GTC2017 上发表新一代 GPU 架构 Volta，首款核心为 GV100，採用台积电 12nm 製程，最大亮点是成倍提升了推理性能，意欲在目前称霸机器学习训练场景的基础上，在推理场景也成为最佳商用选择。

GV100 GPU

据了解，Volta 架构 GV100 GPU 採用台积电（TSMC）12nm FFN 製程，具有 5,120 个 CUDA 核心。相比上一代 16nm 製程的 Pascal 架构 GPU GP100，晶体管数目增加了 38%，达到了惊人的 211 亿个；核心面积也继续增加 33%，达到令人生畏的 815mm 2，约等于一个 Apple Watch 的面积，据黄仁勋称，这样的面积已经达到了製程极限。随着核心的增大，GV100 的单、双精度浮点性能也大幅提升了 41%。然而这还不是重点，为了满足 GPU 在机器学习中的性能需求，Volta 架构中引入了新的张量运算指令 Tensor Core，让机器学习中训练速度提升约 3 倍、推理性能提升约 10 倍（相比上一代自家 GPU GP100）。

GV100 搭载在 TESLA V100 开发板上亮相，配合来自三星的 16GB HBM2 显存，显存频宽也达到了 900GB/s 之高。

根据现场演讲 PPT，推理场景下，V100 比上一代搭载 GP100 CPU 的 P100 板卡，图像处理能力提升了约 10 倍，延迟也下降了约 30%。在这样的性能提升之下，GPU 已经可以让 FPGA 和 ASIC 几乎没有用武之地，在商用场景中几乎满足全部计算需求。

DGX-1V、DGX Station

随着 GV100 GPU 发表，Nvidia 的深度学习超级电脑也进行了升级。旧款 DGX-1 把原有 Pascal GPU 升级为 Volta GPU，名字也更新为 DGX-1V。它内建 8 块 Tesla V100 开发板，合计显存 128G、运算能力为 960 Tensor TFLOPS，即将迈入下一个时代。黄仁勋表示，过去 Titan X 需花费 8 天训练的神经网路，用 DGX-1V 只需 8 个小时。它相当于是"把 400 个伺服器装进一个盒子里"。

DGX Station 则是缩小版的 DGX-1V，黄仁勋称其为"Personal DGX"，堪称是终极个人深度学习电脑，各方面指标均为 DGX-1V 的一半，但仍然已经非常强大。Nvidia 内部使用 DGX Station 已经很久，每个工程师要嘛有 DGX-1V，要嘛有 DGX Station，再要嘛两个都有。既然它确实能够满足工程师的需求，Nvidia 决定把这款产品推广到大众市场。

Nvidia 意图透过 GV100 完全称霸机器学习硬体市场

据了解，机器学习中需要用到高计算性能的场景有两种，一种是训练，透过反覆计算来调整神经网路架构内的参数；另一种是推理，用已经确定的参数批量化解决预定任务。而在这两种场景中，共有 3 种硬体在进行竞争，GPU、FPGA 和 ASIC。

GPU（以前是 Graphics Processing Unit 图形计算单元，如今已经是 General Processing Unit 通用计算单元）具有高的计算能力、高级开发环境、不影响机器学习演算法切换的优点，虽然同等计算能力下能耗最高，但仍然在演算法开发和机器学习训练场景中佔据绝对的市场地位。

FPGA（Field－Programmable Gate Array，现场可程式逻辑门阵列）是一种半成型的硬体，需要透过程式语言定义其中的单元配置和链接架构才能进行计算，相当于也具有很高的通用性，功耗也较低，但开发成本很高、不便于随时修改，训练场景下的性能不如 GPU。

ASIC（Application Specific Integrated Circuits，特殊应用积体电路）是根据确定的演算法设计製造的专用电路，看起来就是一块普通的晶片。由于是专用电路，可以高效低能耗地完成设计任务，但是由于是专用设计的，所以只能执行本来设计的任务，在做出来以后想要改变演算法是不可能的。Google 的 TPU（Tensor Processing Unit 张量处理单元）就是一种介于 ASIC 和 FPGA 之间的晶片，只有部分的可定制性，目的是对确定演算法的高效执行。

所以目前的状况是，虽然 GPU 在演算法开发和机器学习训练场景中佔有绝对地位；但是由于 FPGA 和 ASIC 在任务和演算法确定的情况下，在长期稳定大规模执行（推理）方面有很大优势，所以 GPU 跟 FPGA 和 ASIC 之间还算互有进退，尤其 GPU 相同性能下功耗很高，对大规模计算中心来说电费都是很高的负担。但随着 GV100 对推理计算能力的约 10 倍提升，商用场景下已经没有必要为了推理场景更换硬体了，同一套 GPU 可以在训练场景的计算能力和推理场景的计算能力，同时达到同功耗下最佳，还具有最好的拓展和修改能力，简直别无所求。

面对提升如此明显的 GPU，一众投身机器学习硬体的 FGPA 和 ASIC 厂商前景令人担忧。也许现在唯一能让他们鬆口气的就是 GV100 GPU 的量产出货时间要到 2017 年第三、四季。等 2018 年，希望大规模部署后的 GV100 能用成倍提升后的性能给我们带来新的惊喜。

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

京东加码虚拟运营,170手机号流量大赠送，预存话费享利息优惠

“失控”的170号段,非实名卡线上线下随意购，监管难题待解

“充话费竟成洗钱工具？揭秘“刷流水”骗局背后的惊人套路！”

热门文章

1“充话费成洗钱工具？揭秘“刷流水”骗局背后的惊心套路！”

2斯里兰卡Airtel、BSNL、Jio、Vi等主流运营商SIM卡话费流量充值攻略全解析

3“充话费竟成洗钱工具？揭秘“刷流水”骗局背后的惊人套路！”

4充话费竟成洗钱工具？揭秘“刷流水”骗局背后的惊心套路

5揭秘虚拟运营商600万用户之谜,600万用户水分大，重蹈养卡老路问题严重