AI超级计算机DGX系统详解

目前DGX产品主要包含DGX工作站（DGX Station）、DGX-1服务器以及今年刚发布的DGX-2服务器三款产品。它们都是NVIDIA推出的软硬一体机产品，主要包括操作系统、相关软件以及配套的硬件。以往我们买服务器或工作站时，通常需要自己在服务器中安装操作系统并部署应用软件，而在DGX一体机上就不需要这个过程了，所有的软件出厂时就已经完成了安装配置，开机就可以使用，非常适合开发人员做深度学习或高性能计算的应用。

在介绍DGX超级计算机之前，先了解一下超级计算机的计算核心V100 GPU。在DGX中使用的是NVLink GPU，包含5120个CUDA核心，640个TensorCore，双精度的计算能力达到7.8万亿次，深度学习的计算能力达到125万亿次。GPU之间可以通过NVLink进行互相访问，带宽可以达到300GB/s。而PCI-e的GPU只能通过PCI-e总线进行GPU之间的互相访问，带宽为32GB。因此相比较而言，NVLink版V100是目前性能最强的GPU。

与上一代GPU相比，V100 GPU采用最新的Volta架构，采用SM流多处理器架构，首次引进了Tensor Core计算核心，这也是以前Pascal架构所没有的，大大增强了GPU的深度学习计算性能。V100采用了新一代的NVLink 2.0技术，双向总带宽可以达到300GB/s，并且采用了新的HBM2显存，可以达到900GB/s的IO带宽。V100引入了新的MPS多进程服务技术，以提高GPU的利用率，还改进了SMIT的计算模型。

Tensor Core是V100非常重要的特性，支持混合精度计算，如上图所示的D=A*B+ C的混合矩阵乘加计算。在矩阵中，矩阵A和矩阵B要求是半精度的FP16类型，而加法矩阵C可以是半精度FP16或者是单精度FP32类型，左边的计算结果也可以是FP16或FP32类型。

DGX-1服务器主要用于数据中心的深度学习或者高性能计算应用，整机的计算峰值可以达到1000万亿次。我们都知道，深圳超算中心的计算能力大约是1200万亿次，也就是一台DGX-1的计算能力和一个超算中心的计算能力相当，之所以说适合于数据中心，是因为DGX-1服务器需要安装在机柜中，功耗达到3200瓦，噪音也比较大，因此只能放在数据中心的机房。

DGX-1配置了8块最新的NVLink V100 GPU，每块GPU是32GB显存，配置了大容量的内存，一共是512GB，可以将大量的数据读入内存。配置了7TB的SSD作为本地缓存，SSD配置的是RAID 0模式，仅仅作为本地的缓存，可以实现高速存储的IO性能。另外，DGX-1配置了4个100Gb的网卡，并且可以选择InfiniBand或以太网模式，是为了配置GPU集群预留的网络接口，可以作为节点间通讯的计算网络或存储网络。

DGX-1服务器的内部网络拓朴架构中有8个GPU服务器，这8个GPU互联成一个立方体的拓朴架构，每一个顶点是一块GPU。另外，从图中可以看到还有NVLink、PCI-E、QPI 三种互联通道，绿色的粗线条代表NVLink，紫色的细线条代表PCI-E总线，黑色的线条代表QPI线。在做GPU并行计算时，GPU之间的通信可以选择两种方案：

第一、 GPU通过PCI-E总线进行通信，这种通讯的方效率比较低的。

第二、通过NVLink实现GPU之间直接通信，很显然这种方式的通讯效率会很高。

接下来为大家介绍下DGX-1服务器中GPU的计算速度和扩展性。图中柱状图表示计算速度，曲线代表扩展性，灰色的柱状图表示PCIe的GPU计算性能，绿色的柱状图表示NVLink GPU的性能。上图展示的数据是以神经网络翻译训练为例，从计算速度的角度看，与PCIe的GPU卡相比，GPU越多，NVLink GPU速度的优势越明显，8块NVLink GPU有20%的性能提升。从扩展性的角度看，8块NVLink GPU的加速比PCIe GPU高20%左右。从图中可以看出，8块DGX-1的服务器和普通的PCIe GPU服务器相比还是有比较大的性能优势，尤其是在深度学习框架或模型算法不支持集群计算的时候，使用DGX-1服务器会有比较大的优势。

NVIDIA DGX STATION是一个非常强大的工作站，可以达到480万亿次的计算能力，采用了最新的32GB V100 GPU。另一个特点是超静音设计，因为采用的是水冷模式而不是通常采用的风扇冷却方式，因此不需要机房，在办公室环境也可以使用，是特别为研发人员设计的个人超级计算机。

上图展示了DGX工作站的详细配置，包括GPU内存、SSD详细的配置情况等。可以看到，它的配置还是非常高的，完全满足开发研究人员做深度学习和高性能计算的需求。

最新发布的DGX-2服务器的计算能力是2000万亿次，是目前世界上性能最强的深度学习单机系统。

DGX-2的内部架构与DGX-1相比，在配置有比较大的提升，其中包括2个GPU主板，每个主板包括8块32GB V100 GPU和6个NVSwitch，采用全线速互联的方式，任意两块GPU之间通信总带宽可以达到300GB每秒，系统配置最新的Intel Xeon CPU，配置1.5TB的主机内存，8个100Gb的网卡，可以支持InfiniBand和以太网模式互相切换。这8个网卡主要用于做计算网络，另外还配置两个100Gb的网络接口作为存储网络，也可以支持InfiniBand和以太网的切换模式。DGX-2配置30TB NVME SSDs，和DGX-1一样，也是作为本地缓存使用。

从这张图我们可以看到DGX-2的内部结构，包括GPU主板以及其他配置。先来看下DGX-2中GPU互联的网络拓朴结构，DGX-2有两个GPU主板，每个主板包含8块GPU，6个NVSwitch，这是因为每个GPU有六个NVLink通道，每个通道连接一个NVSwitch。对于NVSwitch，我们可以把它理解成18端口的NVLink交换机，因为每个NVSwitch和八个GPU相连，一个GPU主板上所有NVSwitch通过背板和另外一个主板上的GPU互联，这样就能实现所有GPU都达到全互联状态，任意两个GPU之间的带宽都可以达到300GB/s。每个NVSwitch和8个GPU相连，有8个GPU NVLink接入，然后会有8个端口连出到背板上，因此一共占用了16个端口，还有两个端口剩余。

一台DGX-2服务器和两台DGX-1服务器相比，在相同数量GPU卡的情况下，在高性能计算深度学习应用中， DGX-2服务器相较DGX-1会有两倍以上的性能加速，之所以能超过两倍，是因为GPU数量增加两倍，而性能超过两倍是因为DGX-2 GPU之间的通讯效率比DGX-1要高，因此它的并行效率会更高。

上一篇DGX系统快速上手的最佳攻略下一篇不同类型AI服务器之比较分析

AI超级计算机DGX系统详解

实子集群（武汉）科技有限公司

底部导航

联系我们

在线咨询

扫码关注

版权所有：实子集群（武汉）科技有限公司备案号：鄂ICP备16015436号-2

技术支持：武汉网站优化

扫码加微信

AI超级计算机DGX系统详解

实子集群（武汉）科技有限公司

底部导航

联系我们

在线咨询

扫码关注

版权所有：实子集群（武汉）科技有限公司 备案号：鄂ICP备16015436号-2

技术支持：武汉网站优化

扫码加微信

版权所有：实子集群（武汉）科技有限公司备案号：鄂ICP备16015436号-2