主板sm总线控制器 sm总线控制器 联想sm总线控制器

英伟达每代显卡架构均以顶级物理学家(或其他科学家)命名,这在行业里早已不是什么新鲜事 。
这不,在美东时间5月14日凌晨6时(北京时间5月14日晚9时)公布的英伟达GTC 2020录播视频中,英伟达 CEO黄仁勋正式推出了新一代GPU架构——Ampere安培,这位被麦克斯韦誉为“电学中的牛顿”的伟大物理学家,继麦克斯韦、帕斯卡、图灵之后成为了英伟达全新的“形象代言人” 。
尽管英伟达并未公布安培架构的具体架构细节,但从首款采用该架构的GPU芯片英伟达 Tesla A100公布的性能提升来看,这又是英伟达芯片史上的一次里程碑式更新,是继2017年推出V100计算卡之后针对AI领域的一枚全新核弹,而其威力是后者的20倍 。
作为伏特(Volta)架构V100 GPU的接力者,A100定位依旧非常清晰,主要针对AI领域,说白了就是新一代助力端到端(数据分析-训练-推理)机器学习的加速器,其最大的亮点便是首次在单一平台同时实现训练和推理,极大的降低了繁琐程度和运营成本 。当然,除了AI领域,A100在数据分析、科学计算、和云端映像等领域也将得到广泛应用 。

主板sm总线控制器 sm总线控制器 联想sm总线控制器

文章插图
“这是英伟达八代GPU史上最大的一次性能飞跃”,黄仁勋在GTC 2020的视频中如是说道 。
作为首款搭载安培架构的GPU芯片,英伟达 Tesla A100拥有五大技术创新,这是该全新计算卡AI性能较提升20倍的基础 。
首先,A100内部包含超过540亿个晶体管,是上一代V100的2.57倍,芯片面积为826平方毫米,成为全球最大的7nm处理器 。
其次,A100采用第三代Tensor Core AI核心,支持全新的TF32运算(新数学格式),无需更改任何代码便可以实现20倍于FP32单精度的AI性能,同时支持FP64双精度运算,在HPC应用上算力相比上代提升2.5倍 。
第三,Multi-instance GPU(多实例GPU),这是一项新技术,其可以将一个A100 GPU分割为7个单独的GPU,从而为不同大小的任务提供不同的算力,以提升利用率和投资回报 。
第四,第三代NVLink互联技术,使GPU之间的高速连接数量翻倍,可将最多12个A100 GPU连为一个巨型GPU,从而为服务器提供更高效的性能拓展,其中GPU到GPU之间的带宽为600G/s,相比上代也是翻倍的 。
最后,则是结构稀疏性,新的效率技术利用了AI数学固有的稀疏性,优化之后性能提升了一倍 。
基于以上五大技术特性,英伟达Tesla A100便自然而然地成为了全新的地表最强计算卡,或者说是地表最强AI芯片 。目前,这块计算卡已经在全面生产并向全球客户发货 。据了解,A100的第一批客户便是微软,后者将利用A100来训练图灵自然语言生成(NLG) 。
接下来我们通过外媒Anandtech整理的参数对比来具体看下这块AI芯片相比上一代V100的实际改变 。
主板sm总线控制器 sm总线控制器 联想sm总线控制器

文章插图
A100采用台积电7N制造工艺(7nm工艺),而三年前的V100采用的是台积电的12nm FFN制造工艺的,这是本质上的区别 。
晶体管数量方面,A100的542亿也比上一代的211亿提升了2.57倍,而得益于更精巧的7nm工艺,其芯片面积基本保持不变,仅提升1平方毫米 。
A100核心拥有108组SM单元(总线控制器),采用SXM4架构,拥有6912个CDA核心;而上一代V100仅拥有80组M单元,采用SXM2/3架构,拥有5120个CUDA核心 。
不过从英伟达官方给出的结构来看,A100的完整核心应该为128组SM单元,理论上为8192个CUDA核心,因此目前A100似乎为阉割版,未来英伟达会推出更高性能版本,当然这是英伟达的惯用手段 。
而从整体的参数对比来看,A100唯一的“倒退”或许便是降低的Boost频率,其频率为1.41GHz,而V100则是1530MHz,但值得注意的其TDP功耗却反而增加,这也从侧面说明这代GPU性能的强大 。
A100最大的性能提升便是AI,这在参数上也是有体现的 。尽管常规的FP32单精度和FP64双精度性能提升不大,但是A100全新的TF32运算却带来了巨大的性能提升,TF32浮点性能156 TFLOPS,而INT8浮点性能624 TOPS,FP16浮点性能312 TFLOPS,是上一代的2.5倍 。
在实际应用方面,英伟达给出的数据显示,A100在运行谷歌自然语言处理模型BERT时,其训练性能相比上一代提升6倍,推理性能则提升7倍 。
【主板sm总线控制器 sm总线控制器 联想sm总线控制器】此外,英伟达推出了全新的超大型数据中心加速器HGX A100、第三代AI系统DGX A100、以及以太网智能网卡Mellanox ConnectX-6 Lx SmartNIC等众多To B产品,其中DGX A100内部将八颗Tesla A100连在了一起 。值得一提的是,首批DGX A100订单采购方为美国能源部阿贡国家实验室,该实验室将用其来对抗新冠疫情 。