Orin是英伟达花费4年时间投入数十亿美元打造,性能比最新一代Xavier提升7倍,算力最高可达200TOPS。作者 | 包永刚 郭利荣编辑 | 唐里 今年三月的英伟达 GTC(GPU Technology Conference)上,最低售价仅99美元可运行所有AI模型的Jetson Nano成为关注的焦点。今天,英伟达首席执行官黄仁勋(Jensen Huang)在参会人数创新高的GTC China 2019上再次发布重磅新品——下一代SoC Orin。作者了解到,Orin是英伟达花费4年时间投入数十亿美元打造,性能比最新一代Xavier提升7倍,算力最高可达200TOPS。目前,英伟达已经售出15亿块GPU,它们都有相同的架构CUDA。黄仁勋表示,通过全栈优化,GPU可以实现摩尔定律的加速。英伟达想要做的不仅是加速摩尔定律,也要推动显示技术的创新。RTX的新进展去年,英伟达发布了RTX新一代GPU架构——Turing(图灵),以及一系列基于图灵架构的RTX GPU。黄仁勋表示图灵架构为英伟达十多年来在计算机图形领域最重要的创新,将光线追踪技术引入英伟达的GPU中。发布之后,已经有多款游戏支持RTX,并且采用RTX技术的开发者输俩个迅速增长。黄仁勋今天宣布了6款支持RTX的,还展示了仅由一个人使用RTX技术制作的视频。除此之外,英伟达还创造出了Max-Q设计,它将超高的GPU能效和总体系统优化集于一身,可以用于轻薄的高性能笔记本电脑。高性能的笔记本是游戏必须可少的,但随着云计算的普及,云游戏也将越来越普及。黄仁勋在GTC China 2019上也宣,英伟达与腾讯游戏合作推出START云游戏服务,该服务已从今年初开始进入测试阶段。START使游戏玩家可以随时随地,即使是在配置不足的设备上也能玩AAA游戏。光线追踪引GPU是英伟达去年最重磅的发布,英伟达也正在推动这项技术更多的应用。今年,“核弹”产品无疑是面向下一代汽车和机器人的Orin的发布。“核弹”产品——下一代的汽车和机器人技术Orin黄仁勋在演讲当中提到, 该芯片由170亿个晶体管组成,凝聚着英伟达团队为期四年的努力。Orin系统级芯片集成了英伟达新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算(200TOPS),几乎是英伟达上一代Xavier系统级芯片性能的7倍。Orin计划2022年投产。Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,达到了ISO 26262 ASIL-D等系统安全标准。作为一个软件定义平台,DRIVE AGX Orin能够赋力从L2级到L5级完全自动驾驶汽车开发的兼容架构平台,助力OEM开发大型复杂的软件产品系列。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。Orin也已经获得了合作伙伴的支持,滴滴与英伟达一起共同推进自动驾驶和云计算领域的发展和合作。据悉,滴滴已经选择英伟达DRIVE作为他们的L4级的AV平台和云计算平台。另外,滴滴会采用英伟达的AI技术应用,用在它们的自动驾驶车辆当中,并且也支持“滴滴云”。5年以前很多人就说:“2020年就能够看到自动驾驶的车辆了。”如今马上进入2020年了,但是到现在还没有实现这个目标,技术还在向前推进,整个业界也意识到这个事情的复杂度远比我们想像的要高。转移学习和联邦学习进一步降低AI门槛面对自动驾驶最核心的需求“安全”,英伟达开发了 “端到端平台”,即:在数据中心中的AI。也就是说,真正技术在道路上使用之前,首先是要在数据中心进行验证。对于自动驾驶来说,第一步就是海量的数据收集工作。在有人驾驶的车辆上,需要安装很多的传感器。包括些摄象头、雷达,它们的作用就是收集大量的数据。一般情况下,一辆车一天在外面开6小时-8小时,每周就会收集到PB级的数据。意味着这些扯有海量的信息需要进行处理、标记、存储、训练,从而更好的了解周围的环境,并且识别其它的车辆、车道信息等。其实,早前基于英伟达的DRIVE结构,汽车厂商已经可以构建和部署具有功能安全性、并符合诸如ISO 26262等国际安全标准的自动驾驶乘用车和卡车。此外,英伟达也开发了一个开放的软件平台,包括驾驶的操作系统等。除此之外,英伟达也开发了很多“深度神经网络”来识别各种各样的东西。也就是迁移学习,预训练的模型可以进行调整以适应原始的设备制造商,包括主机厂、传感器和具体的地区要求,当然调整的自由度是有限制的。例如:检测路上的一些物体、路标,以及处理雷达、激光雷达。按照英伟达的说法,目前整个的这一系列软件,现在都可以给业界开放使用。这些都是基于英伟达自主知识产权的“预训练”模型,也是在他们的“云”上来进行训练的。英伟达的策略是“深度开放”,无论是乘用车还是卡车,他们都可以对这些进行定制化。也就是说,客户可以把自己的数据放到这些模型当中,然后基于这些模型不断的进行优化。不过,这些都是基于TensorRT来实现的,这也能够进一步加速这些自动驾驶公司研发的进程。英伟达推出的另外一个技术,就叫“联邦学习”。这项技术是极其重要的,它不仅仅是在汽车行业,在很多行业都能够充分利用,尤其是那些对于数据隐私非常看重的行业,例如医疗。在医疗行业,很多的数据是不能够跟其他人共享的。所以它可以利用我们的这项技术,基于他们的数据来创建各种各样的AI模型。“联邦学习”最主要的功能就是能够保证数据隐私不被侵犯。按照官方说法,无论是医院、实验室、汽车公司,大家都可以去开发并且训练这些神经网络,数据还可以保存在本地。黄仁勋举例道,目前很多公司都在美国和中国有往来业务,数据在传输方面其实是有一些限制的。运用“联邦学习”,他们就可以保证数据还存在本地,但是可以把一些训练和处理后的结果上传到一些全球的服务器上。所以 联邦学习其实对于公司之间的合作,包括各品牌之间的合作、各地区之间的合作是非常有用的,因为它能够保证数据隐私不被侵犯。更重要的是,这些工具让汽车客户能够去针对他们自己的车型来定制化自己的软件,这个是之前做不到的。英伟达全新版本Isaac软件开发套件(SDK),为机器人提供更新的AI感知和仿真功能。黄仁勋提到,在建立统一的机器人开发平台以实现AI、仿真和操控功能方面,Isaac SDK迈出了重要的里程碑。Isaac SDK包括Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网络模型、算法、库、驱动程序和API),用于室内物流的参考应用程序以及Isaac Sim的第一个版本(提供导航功能)。值得注意的是,新版本引入了一项重要功能——使用Isaac Sim训练机器人,并将所生成的软件部署到在现实世界中运行的真实机器人中。这有望大大加快机器人的开发速度,从而实现综合数据的训练。GPU替换CPU,成本仅1/10,性能提升百倍自动驾驶、机器人是AI落地的代表应用,AI技术如今在数据分析和挖掘、高性能计算中发挥着更加重要的作用,英伟达已经推出了面向训练、云端、终端、自动驾驶的AI平台。AI对于拥有大量数据的科技公司尤为重要,比如推荐系统,如果没有推荐系统,人们无法从上万亿次网页检索、几十亿淘宝商品、几十亿抖音视频、各种新闻中找到自己需要的内容。因此,一个能够要深度理解每一个用户,在正确时间给出正确的推荐的推荐系统极为关键。百度AIBox推荐系统采用英伟达AI,100多个推荐模型被使用在百度的众多应用中。作者了解到,这个系统基于英伟达Telsa v100 GPU,利用这些TB级的数据集去创建一个模型、在GPU上训练这些数据,然后把它放到GPU的内存当中去训练这种TB级别的数据,GPU训练成本只有CPU的十分之一,并且支持更大规模的模型训练。还有线上购物,今年淘宝双十一成交额达到了2684亿元,较 2018 年的 2135 亿同比增长了 25.7%,这需要强大的云计算平台来支撑。同样关键的是,双十一5亿的淘宝的用户要从20亿商品中挑选最合适的产品是一件非常困难的事情,如果一个用户每一秒看1个商品,需要花费32年时间才能浏览完20亿个商品。阿里巴巴搭建的推荐系统采用了英伟达的T4 GPU,推荐系统的吞吐量得到了大幅提升。面对每秒几十亿次的推荐请求,CPU速度只有3 QPS,英伟达GPU则提升到了780 QPS,提升百倍。虽然拥有自研云端AI芯片,但为了解决推荐系统面临的两大挑战,阿里和百度都选择使用英伟达的GPU构建推荐系统,这其中很重要的原因是系统的构建面临两大挑战。一个是推荐模型及其复杂,需要处理的参数非常多,这就意味着需要非常强的计算能力,另一大挑战是推荐系统需要进行实时计算并给出反馈。从结果来看,使用擅长并行计算的GPU构建推荐系统比使用CPU构建推荐系统成本大幅降低或性能实现了百倍提升。。当然,AI功能的实现并非单纯来自硬件,软件和模型的优化也非常重要,这也是实现会话式AI的关键。软件优化是实现会话式AI的关键业界越来越意识到,即便AI芯片算力再强,不能充分使用其算力并不能实现很好的AI功能,因此AI芯片的有效算力正成为衡量AI芯片的关键指标。软硬件结合以及软件优化意义重大,比如在高性能计算的应用中,要使用CUDA进行全基因组测序,或用于研究畜牧业、农业和导致疾病的微生物。英伟达今年6月也宣布CUDA年底前支持Arm生态系统,让基于Arm的芯片可以更多地应用于超算系统中进行更多地深度学习计算。根据黄仁勋给出的数据,GPU+Arm的硬件,加上CUDA以及TensorFlow的优化,Arm进行深度学习的性能是x86处理器性能的96%。一个更为关键的软件平台是此前推出的计算图优化编译器TensorRT,去年英伟达发布了 TensorRT5,通过优化PyTorch和TensorFlow等框架中训练出来的AI模型,减少计算和内润访问,让模型在GPU上运行的效率大幅提升。GTC China 2019上,黄仁勋宣布推出TensorRT 7,它支持各种类型的RNN、Transformer和CNN。TensorRT 7能够融合水平和垂直方向的运算,可以为开发者设计的大量RNN配置自动生成代码,逐步融合LSTM单元,甚至可跨多个时间步长今日那个融合。相比TensorRT5只支持30中变换,TensorRT 7能支持1000多种不同的计算变换和优化。Transformer一个典型的例子就是BERT,它有很多非常先进的自然语言理解的功能。RNN一多用于语音识别或者是将文本转化成语音。这些模型和算法对于会话式AI非常关键,也正是TensorRT 7可以发挥作用的典型应用。因为想要实现会话式AI,首先需要把语音转化为文字,然后通过AI语音算法模型获得需要的语音,并理理解其含义,再将回应合成为语音进行回复。对话式AI需要可编程性、丰富的软件堆栈以及低GPU延迟,基于TensorRT 7这一系列复杂的在300毫秒(0.3秒)内就能完成。有意思的是,去年的GTC China上,黄仁勋因为现场观众没能实时理解他的演讲,他表示希望未来借助AI能够把他的英文演讲实时翻译成中文。今年的GTC China刚开场,黄仁勋就表示他今天的演讲依旧会使用英文,希望未来某一天他用英文演讲,但AI可以把它翻译成任何一种听众需要的语言。看来,距离这一天的到来又近了一步。无论是云端、终端还是高性能计算,英伟达都已经推出了对应的硬件平台和产品,软件优化的重要性也正在突显,软件定义也能大大提高AI的效率。小结AI的竞争正变得越来越激烈,对于AI芯片公司而言,提供更高有效算力、更易用的软件平台无疑是吸引用户的关键,因此英伟达花费数十亿美金打造了下一代SoC,算力高达200TOPS。同时也推出的新一代推理优化软件平台Tensor RT,转移学习、联邦学习的方式,能更好地推动AI落地,这也是英伟达发布更多软件产品的原因。同时也要看到,对于任何一家想要使用AI技术保持领先的公司而言,他们愿意尝试任何一种能够实现最好效果,总体拥有成本最低的软硬件方案,这是英伟达能够说服阿里和百度使用GPU构建推荐系统的原因。GPU的通用性搭配上更好的软件优化显然能够继续在AI的应用中发挥重要作用,而软件定义硬件能够让硬件拥有更长的生命周期,但正如GTC China 2019开场视频中所提到的AI的应用涉及工业、医疗、物流等等,黄仁勋也表示GPU不是要替代CPU,而是AI负载一个更好的选择。随着算法的演进以及众多AI软硬件解决方案的推出,未来谁将主导市场仍然未知。老黄的演讲一直是一年一度 GTC CHINA 最不容错过的精彩环节,今年的分享,他对 AI 领域的未来提出自己独到见解与预测。AI研习社作为AI向的开发者和学生群体的聚集地,依旧对本次演讲进行完整直播。