arm服务器(英伟达A100再霸榜MLPerf)

芯东西(公众号:aichip001)作者 | 高歌编辑 | Panken芯东西9月23日报道,今天,MLPerf发布了最新的1.1基准测试结果,英伟达的AI平台在计算机视觉、医学成像、自然语言处理、推荐系统、目标检测等全部的七种推理性能测试中取得了第一名,这也是其首次在基于Arm的系统上进行的数据中心测试。MLPerf是当前全球最具影响力的AI计算基准评测组织,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等单位共同成立,每年组织全球AI训练和AI推理性能测试并发榜。本次基准测试共有7家OEM厂商参与,共提交了22个GPU加速平台,大部分都经过了英伟达认证。参与了本次测试的英伟达合作伙伴有戴尔、富士通、惠普、慧与、浪潮、联想、宁畅、Supermicro和阿里巴巴等。芯东西等媒体参与了本次英伟达测试结果的发布,就测试结果、对比和相应技术进行了探讨。▲英伟达合作伙伴一、A100离线处理速度超A30 2倍,Arm服务器推理性能接近x86英伟达称,数据中心每天要查询寻数十亿的图像、声音和视频,GPU对推理的快速响应可以最大化数据中心的吞吐量。在本次的MLPerf测试中,用于测试AI推理性能的工作负载有深度学习推荐模型DLRM、自然语言处理网络BERT、会议识别RNN-T、医学图像划分3D U-Net、图像分类的ResNet-50和用于高/低分辨率目标检测的MobileNet-v1、ResNet-34。而测试的场景和环境分别为数据中心/边缘和服务器/单数据流。▲MLPerf 1.1测试的工作负载、环境和场景相比于MLPerf 0.7,本次测试中英伟达A100 GPU在各类工作负载上的得分均有提升。其中医学图像划分3D U-Net的涨幅最高,其上涨了150%,其余的涨幅则在101%-130%之间。如果以A30 GPU作为标准,无论是基于x86还是基于Arm系统的A100处理速度均有所提升。在离线环境下,A100在大多数工作负载下的处理速度都是A30的2倍左右;在服务器环境下,基于x86的A100对会议识别RNN-T的处理速度接近A30的3倍。▲英伟达A100、A30等设备在不同工作负载下的测试结果本次,A100也同时在基于Ampere Altra CPU的Arm服务器和英特尔x86服务器上进行了测试。测试中,基于Arm系统的A100在3D U-Net工作负载中得分超过了基于英特尔x86服务器的,但在其他负载测试中性能略占下风。▲A100在Arm服务器和英特尔x86上的测试结果对比Arm高性能计算和工具高级主管David Lecomber说:“最新的推理测试结果表明,基于Arm CPU和英伟达GPU的系统已经做好了准备,可以应对数据中心各种AI工作负载。”二、完整软件堆栈立大功,4个月提升20%性能参与本次基准测试的共有7家OEM厂商,这些厂商共提交了22个GPU加速平台,其中大部分都通过了英伟达认证,很多服务器都支持上个月发布的NVIDIA AI Enterprise软件。据英伟达分享,其完整的AI软件堆栈也是成功的一个重要因素:NVIDIA TAO工具套件可以简化迁移学习过程,让用户在熟悉的环境中优化模型,而不需学习DL框架;NVIDIA TensorRT软件可以在确保精度的前提下降低模型部分权重,提升模型运行速度;NVIDIA Triton推理服务器则能够简化在云端、本地数据中心或边缘的服务器部署,支持不同应用中欺诈检测、包裹分析、图像分割、语法检查等各类任务。▲英伟达Triton推理服务器特点此外,多实例(MIG)技术也进一步提升了英伟达A100的GPU实际性能。A100最多可支持7个实例,每个实例互相隔离,可提供95%的单GPU性能。这也就意味着,英伟达A100通过MIG技术提升了将近7倍的GPU资源,可在一块GPU上运行7种工作负载。相比之下,A30仅支持4个实例。因为英伟达AI软件堆栈的改进,英伟达AI平台的性能和能效比4个月前分别提升了20%和15%。▲A100采用的多实例(MIG)技术结语:英伟达、Arm合作成果亮相MLPerf在英伟达宣布收购Arm后,双方的合作也越发密切。英伟达可以借助Arm生态布局CPU,Arm也可以通过英伟达的技术进一步打入数据中心等领域。本次英伟达A100在Arm系统上的测试不仅体现了双方的合作成果,也侧面展示了两家厂商在AI推理方面的合作潜力和前景。

本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://www.175ku.com/26575.html