十次方首页 | 在线客服 |

租服务器,请致电:0755-26922157

| 帮助中心 | 关于我们
首页 IT新闻 行业动态 针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片

针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片

在2016年8月,处理器大厂英特尔并购AI技术新创公司Nervana Systems之后,各界都在关注后续将推出的AI运算芯片。

2017年10月,英特尔宣布年底将会推出第一颗针对神经网络处理的矽芯片,称为Intel Nervana Neural Network Processor(NNP),其研发代号为Lake Crest。当时他们也规划多个世代Nervana NNP的发展流程,希望能针对AI模型的处理提供更高的效能,以及更强大的扩展性,预计在2020年将AI效能提升至现行产品的100倍。

这款芯片有哪些不凡之处?根据英特尔所言,NNP是该公司根据AI应用需求所全部重新设计的深度学习ASIC芯片,透过这套专门针对深度学习所建构的运算架构,它能支援所有深度学习指令集,具有各种需要的使用弹性,能让核心硬件元件提供最大运算效率。

针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


在2018年5月举行的Intel AI DevCon大会上,英特尔宣布即将推出第一套商业化的NNP产品,称为Nervana NNP-L1000(研发代号为Spring Crest),上市时间会是2019年,根据他们的预期,Nervana NNP-L1000比起第一代NNP(Lake Crest),能提供3到4倍的机器学习训练效能。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


到了今年1月,英特尔在美国消费电子展(CES)期间,宣布推出另一颗用于AI推论处理的NNP芯片,称为Nervana Neural Network Processor for Inference(NNP-I),在这套产品的研发上,英特尔也和Facebook合作。


3月召开的OCP Global Summit大会上,我们也看到英特尔透露NNP的近况,预告今年将会推出分别用于训练与推论的产品,并提及NNP-L1000将推出遵循OAM(OCP Accelerator Module)外形设计的规格,采用夹层模组(Mezzanine Module)的型态。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


同时,他们也在OCP大会上,介绍了NNP-L1000用于单机箱、多机箱,以及多机箱多机柜的高可用性机箱管理架构(HCM)。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


下一个相关的消息是在7月揭晓,他们在中国北京举行的百度AI开发者大会期间,宣布与百度公司合作研发用于AI训练的NNP芯片,称为Neural Network Processor for Training(NNP-T)。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


隔月举行的Hot Chips 2019大会上,英特尔对于即将推出的NNP芯片揭露更多细节,他们明确列出Nervana神经网络处理器的两条主要产品线:NNP-T和NNP-I,前者用于深度学习的模型训练,后者则是用于资料中心工作负载的深度学习推论处理,里面采用了英特尔的10奈米制程技术,以及Ice Lake微架构的运算核心。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


而NNP-T和NNP-I相关产品正式亮相的时间,则是在11月12日于美国旧金山举行的2019 Intel AI Summit大会,英特尔公开展示这两款特制的ASIC芯片,机型名称分别为NNP-T1000与NNP-I1000,而且,他们宣布Facebook和百度均已采用这两款产品。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


以NNP-T而言,最多可内建24个张量处理丛集(Tensor Processing Clusters,TPC),以便执行深度学习训练的作业。每个TPC会运用一种特别的计数格式,当中会结合16位元脑浮点(bfloat16)与32位元浮点(FP32)。而这种基于张量的bfloat16架构,可以支援多种深度学习指令,以便更有效率地运用硬件元件。


同时,每个NNP-T处理器,还拥有16个双向高速的芯片对芯片连结信道(Inter-Chip Links,ICLs),能在安装多张运算加速卡时,不论是在单一系统、单一机柜(跨多台服务器),或是跨多个机柜组成单个Pod时,均可获得近乎线性扩展的处理规模。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


在架构上,用户可以在单台服务器上,使用8张加速卡,支援多个深度学习训练系统,建构一组AI训练用的Pod。它能支援多种连接方式,环状拓朴、混合式立方网状网络拓朴(Hybrid Cube Mesh),以及完全连结,以便对应不同的资料吞吐量与延迟度要求。


根据英特尔的内部测试,在一座安装32张NNP-T加速卡的机柜当中,执行ResNet-50和BERT的深度学习训练时,所获得的规模扩展可达到95%(竞争厂商的产品只有73%,但英特尔并未写明与何种产品相比)。此外,不论是使用8张加速卡或32张加速卡,资料传输率均可维持相同速度,不因搭配数量更多的加速卡而影响效能。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


在产品形式上,NNP-T提供2种外形,分别是PCIe接口卡NNP-T 1300,以及OAM夹层卡NNP-T 1400,可安装在服务器当中,也能支援跨服务器之间的运算流量处理,英特尔也提供跨机柜的Pod参考设计,以支援云端服务规模的应用需求,而这样的作法,能让用户以芯片对芯片、机箱对机箱、机柜对机柜的串连方式,建置超大型深度学习训练系统,而且当中不需要交换器来衔接。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


英特尔也在Intel AI Summit大会现场,实机展示以10座机柜组合而成的服务器系统。巧的是,Supermicro也在本周举行的SC大会发布了新闻稿,里面也秀出10柜NNP-T Pod的产品照片,或许英特尔在自家活动当中所展示的设备,就是出自Supermicro之手。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


另一款NNP-I,则是专为执行密集、多模态的推论处理所设计,具有高效能的运算效能、支援可程序化控制等特色,并且诉求具有较低耗电与建置成本。这里面采用了完全整合电压调节技术(FIVR),能让系统单芯片(SoC)运用不同的功率包络(power envelopes)实现动态电源管理,达到能源效率最佳化。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


在这颗处理器的裸晶当中,也配置了英特尔架构的运算核心,包含AVX与VNNI指令集,能支援高阶可程序化应用,让从事AI工作的人员面对新一代的资料模型时,也能因为采用NNP-I而具有足够的最佳化效能。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


架构上,英特尔目前推出的NNP-I处理器是第一代产品,称为NNP I-1000(代号为Spring Hill),里面采用12个推论运算引擎(Inference Compute Engines,ICE),以及2颗英特尔CPU核心(IA Core),兼具可程序化能力与最佳化吞吐效能,具有支援不同计数方式的弹性,提供混合精度的计算力,可执行低精度的应用,达到近乎即时的运算效能,并能因应不同应用下的程序码快速移植需求。


NNP-I的裸晶当中也配置了大量的SRAM内存,以及1颗同调(coherent)的网络单芯片(NoC)。基于这样的设计而成的Cache Coherency Fabric,可善用多个内存阶层架构,支援资料快速共享与重复使用,减少不必要的内存存取作业,而能提供低延迟的操作模式,如此一来,也促使NNP I-1000在执行深度学习推论处理时,具有更好的每瓦效能(根据英特尔在Hot Chips大会发布的资料来看,可达到每瓦4.8 TOPS)。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


在产品的应用形式上,NNP-I可部署在资料中心或是网络边际的位置,英特尔提供相当多种外形,以支援大规模的推论运算部署,目前有M.2、PCIe接口卡。不过,值得注意的是,英特尔也在Intel AI Summit大会主题演讲的简报,秀出有EDSFF的外形,而在大会现场,我们的记者翁芊儒则拍摄到M.2、E1.L、E1.S等3种外观。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


NNP I-1000的另一大卖点是其运算效能,英特尔也公布他们效能测试的比较结果,若以搭载Nvidia T4的服务器(Supermicro 6049GP-TRT,4U机箱、安装20张Nvidia T4)为基准,搭载32台EDSFF形式的NNP I-1000的1U服务器(英特尔并未公布设备厂牌与机型),可提供更高的运算密度(3.7倍)。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


若要将NNP- I用于云端原生的环境,英特尔表示,他们将提供一套完整的解决方案软件堆叠架构,透过他们释出的Kubernetes装置外挂与管理接口,使其能够支援Docker容器、Kubernetes调度指挥系统,以及无服务器架构,能用于容器即服务(CaaS)与功能即服务(FaaS)的云端服务模式。


针对AI训练与推论需求,英特尔推出分别对应的加速ASIC芯片


产品资讯

Intel Nervana NNP系列

●原厂:Intel(02)6622-0000

●建议售价:厂商未提供

●机型系列与用途:NNP-T系列用于深度学习训练,NNP-I系列用于深度学习推论

●外形与细部机型:NNP-T 1300为双槽PCIe接口卡,NNP-T 1400为OAM夹层卡,NNP I-1100为M.2模组,NNP I-1300为PCIe接口卡

●功耗:NNP-T 1300为300瓦,NNP-T 1400为375瓦,NNP I-1100为12瓦,NNP I-1300为75瓦


【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】


  关于十次方:十次方作为专业的IT硬件在线租赁平台,专注于企业级服务器租赁业务,为企业提供数据中心IT硬件全生命周期解决方案,支持戴尔服务器惠普服务器浪潮服务器等各大主流服务器品牌。租服务器,在线咨询服务器租用价格,咨询算力银行项目,就找在线IT租赁平台十次方。


  十次方热门文章阅读排行:


  什么是算力银行:https://www.10cifang.com/news/3591.html

  租服务器一年多少钱:https://www.10cifang.com/news/3507.html

  租服务器的价格:https://www.10cifang.com/news/3529.html

  租服务器如何选配置:https://www.10cifang.com/news/3531.html

  在哪里可以租用服务器:https://www.10cifang.com/news/3509.html

  租服务器哪家好:https://www.10cifang.com/news/3511.html

  怎样租服务器:https://www.10cifang.com/news/3505.html

  服务器租用价格表:https://www.10cifang.com/news/3523.html

  机房服务器租用价格:https://www.10cifang.com/news/3513.html

  机房服务器租用价格是多少:https://www.10cifang.com/news/3513.html

  区块链服务器搭建:www.10cifang.com/news/3579.html

  区块链服务器配置:https://www.10cifang.com/tags/25

  区块链服务器租用:https://www.10cifang.com/tags/25

  区块链服务器租用价格:https://www.10cifang.com/news/3593.html

  区块链服务器成本:https://www.10cifang.com/news/3579.html

  区块链服务器多少钱:https://www.10cifang.com/news/3579.html

  独立服务器租用:https://www.10cifang.com/tags/18

  独立服务器租用哪家好:https://www.10cifang.com/news/3601.html

  独立服务器租用价格:https://www.10cifang.com/news/3575.html


本文链接: https://www.10cifang.com/news/3461.html
第7代光纤信道网络来了!博通率先推出支援PCIe 4.0的HBA卡

0评论

文章点评

相关文章

最新文章

热门文章

热门标签

Copyright©靖信科技(深圳)有限公司版权所有 All Rights Reserved 粤ICP备18009168号-5 租服务器服务器租用价格在线咨询就找十次方

评论回复