AI/ML促使FPGA和ASIC走到了一起

2020-03-25来源: EEworld关键字:FPGA  ASIC

翻译自——Semiwiki

 

万豪国际_[官网首页]随着人工智能、机器学习等应用场景快速发展演进,对芯片的算力、安全性等性能也提出了更高的诉求。据市场调研公司Semico Research数据显示,2018年FPGA市值约为10亿美元,在未来4年内,人工智能应用中FPGA的市场规模将增长3倍,达到52亿美元。要知道,这个增长是非常惊人的,毕竟过去多年,FPGA市场的年均增长率也才8%-9%。目前人工智能、机器学习等应用场景的FPGA市场约为25%,预计两年后将达到72%。如此庞大的市场空间,则需要性能更高、更加灵活的AI 算法解决方案。

 

 

See the source image

 

关于块浮点数(BFP)已经出现一段时间了,但是现在才开始被看作是执行机器学习操作的一种非常有用的技术。值得指出的是,这与bfloat不是一回事。万豪国际_[官网首页]BFP结合了定点运算的效率,并提供了全浮点运算的动态范围。在研究BFP中使用的方法时,我想起了几个用于简化数学问题的“技巧”。首先想到的是所谓的日本乘法,它使用简单的图形方法来确定产品。万豪国际_[官网首页]另一个,当然,是曾经流行但现在几乎被遗忘的计算尺。

 

在即将到来的网络研讨会上,Achronix的战略和规划高级总监Mike Fitton解释了关于在人工智能/ML工作负载的FPGA中使用BFP的相关问题,BFP依赖于标准化的不动点随机数,因此计算中使用的“块”数字都具有相同的指数值。在乘法的情况下,只需要对尾数进行定点乘法,对指数进行简单的加法。令人惊讶的是,与传统的浮点运算相比,BFP提供了更快的速度和更低的功耗。当然,整数运算更精确,使用的功耗也更低,但是它们缺乏BFP的动态范围。万豪国际_[官网首页]根据Mike BFP的说法,他为人工智能/ML工作负载提供了一个最佳位置,而网络研讨会将为他的结论提供支持数据。

 

 

AI/ML训练和推理的需求与dsp中信号处理通常需要的需求大不相同。它适用于内存访问,也适用于数学单元实现。万豪国际_[官网首页]Mike详细讨论了这一点,并展示他们构建到Speedster7t中的新机器学习处理器(MLP)单元如何对BFP提供本机支持,还支持广泛的完全可配置的整数和浮点精度。实际上,它们的MLP非常适合传统的工作负载,并且在AI/ML方面也很出色,没有任何区域损失。每个MAC块最多有32个倍增器。

 

Achronix MLP具有紧密耦合的内存,方便了AI/ML工作负载。每个MLP有一个本地72K位块RAM和一个2K位寄存器文件。MLP的数学块可以配置为级联内存和操作数,而无需使用FPGA路由资源。

 

Achronix公司推出了创新性的、全新的FPGA系列产品——Speedster 7t系列。Achronix称,Speedster 7t系列是基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。

 

Speedster7t也非常有趣,因为芯片上的高数据速率网络(NoC)可以用来移动数据之间的MLP和/或其他块或芯片上的数据接口。NoC可以在不消耗宝贵的FPGA资源的情况下移动数据,并且避免了FPGA结构内部的瓶颈。NoC有多个管道,256位宽,2GHz运行,数据速率为512G。它们可以直接将数据从外围设备(如400G以太网)移动到GDDR6内存中,而不需要使用任何FPGA资源。

 

Achronix将提出一个令人信服的理由,说明为什么在他们的架构中本地实现BFP(包括许多开创性的特性)对于AI/ML和其他更传统的FPGA应用程序(如数据聚合、IO桥接、压缩、加密、网络加速等)来说是非常有吸引力的选择。

 

为何要研发Speedster7t FPGA?——ML和AI需要全新架构的支撑

 

对于AI加速来说,相较于我们常见的CPU、GPU等通用型芯片以及可编程的FPGA来说,ASIC芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,它可以实现体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。所以,在其所针对的特定的应用领域,ASIC芯片的能效表现要远超CPU、GPU等通用型芯片以及可编程的FPGA。

 

但是,目前AI算法仍然处在一个不断的快速更新迭代的阶段,数值精度的可选择性也越来越多。同时随着AI的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。而AISC是针对特定的算法加速所设计的,这也使得其在灵活性上远不如可通过编程快速适应新的软件算法的FPGA。但是,FPGA在体积、能效、成本上却又不如AISC。那么是否能够有这样一款产品,能够很好的将FPGA和ASIC的优点结合在一起呢?Achronix的Speedster 7t系列或许就是这样一款产品。

 

Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。

 

该产品的诞生也极具有创新性和针对性,Achronix CEO 罗伯特·布莱克先生在接受芯师爷的采访时表示,在研发该芯片时,主要考虑三方面问题:

 

其一,如何拥有高效的计算力;

 

其二,如何将数据更快速、高效地传输到计算单元中;

 

其三,如何实现高效,丰富存储缓存能力。而这也是目前数据加速所需架构的三大要素。

 

Achronix CEO Robert Blake认为Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。

Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。

 

7nm制程工艺,集结五大优势

 

Speedster7t FPGA系列产品经历3年研发,将采用台积电7nm FinFET工艺,是专为接收来自多个高速来源的大量数据而设计。整体来看,该产品主要有五大优势:

 

1、较高的计算性能

 

AI、ML需要矢量矩阵乘法,而传统的带DSP模块的FPGA性能有限,需要消耗额外逻辑和Memory资源,而新的MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。它可提供业界最高的、基于FPGA的计算密度。

 

 

2、支持超高存储带宽

 

值得一提的是,Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。

 

 

3、高速接口

 

除了这种超高的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。

 

 

4、超高效率的数据移动

 

Speedster7t高速I/O和存储器端口的产生的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。

 

它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。

 

值得注意的是,NOC的外围(如下图的大黄框)是购买的IP,但是内部的构造是Achronix自己设计的。

 

 

通过在Speedster中实现专用二维NoC,极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。

 

最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。

 

5、高安全性

 

Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。

 

密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。

 

此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。

 

 

据悉,Achronix是目前唯一一家既提供独立FPGA芯片又提供Speedcore嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。也就是说,芯片设计厂商可以通过购买授权的形式,将Achronix的Speedcore嵌入式FPGA(eFPGA)的IP整合到自己的芯片设计当中,设计出符合自身需求的芯片。


而Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。这也意味着芯片设计厂商通过与Achronix合作,也可以获得最新的Speedster7t FPGA系列的技术,并可将其转换为ASIC。Achronix CEORobert Blake表示,该技术有望帮助客户节省高达50%的功耗并降低90%的成本。


关键字:FPGA  ASIC 编辑:muyan 引用地址:http://news.ivhd.cn/FPGA/ic492508.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇: Xilinx Versal™ Premium,为灵活应变的云加速而设计
下一篇:Zebra软件平台让FPGA深度学习推理不再复杂

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

FPGA+CPU可让数据中心的图像处理性能大幅提升
图片逐渐成为互联网主要的内容构成,相应的图片处理需求也在高速成长,移动应用与用户生产内容(UGC)正在驱动数据中心图像处理的业务负载快速增加。本文深维科技联合创始人兼CEO樊平详细剖析了图片加速的必要性、当前实际的图片解决方案与部署方式以及如何通过FPGA+CPU异构计算的方案维护用户体验与服务成本新平衡。 1.为什么需要图片加速?  目前,图片处理的需求正在快速成长,即源于用户生成内容,视频图片抓取等方式的图片缩略图生成,像素处理,图片转码、智能分析处理需求不断增加。众多应用迫切需要高性能,高性价比的图片处理解决方案。  在这种情况下,数据中心面临着一个核心的考验--即用
发表于 2020-03-06
FPGA+CPU可让数据中心的图像处理性能大幅提升
基于FPGA的多通道频率测量系统设计方案介绍
设计了一种多通道频率测量系统。系统由模拟开关、信号调理电路、FPGA、总线驱动电路构成,实现对频率信号的分压、放大、滤波、比较、测量,具备回路自测试功能,可与主设备进行数据交互,具有精度高、可扩展、易维护的特点,有一定的工程应用价值。频率测量电路是很多检测与控制系统的重要组成部分,在航空机载计算机领域具有广泛的应用环境。随着检测与控制系统复杂程度的提高,频率测量电路也被提出了新的要求,例如多通道实时采集、高精度测量等。FPGA的特点是完全由用户通过软件进行配置和编程,从而完成某种特定的功能,且可以反复擦写,因此,以FPGA为核心进行电路搭建已成为当前数字系统设计的主流方法。本文利用FPGA设计了一种多通道频率测量系统,易于扩展
发表于 2020-03-04
基于FPGA的多通道频率测量系统设计方案介绍
技术创新—FPGA运算单元可支持高算力浮点
随着机器学习(Machine Learning)领域越来越多地使用现场可编程门阵列(FPGA)来进行推理(inference)加速,而传统FPGA只支持定点运算的瓶颈越发凸显。 Achronix为了解决这一大困境,创新地设计了机器学习处理器(MLP)单元,不仅支持浮点的乘加运算,还可以支持对多种定浮点数格式进行拆分。 MLP全称Machine Learning Processing单元,是由一组至多32个乘法器的阵列,以及一个加法树、累加器、还有四舍五入rounding/饱和saturation/归一化normalize功能块。同时还包括2个缓存,分别是一个BRAM72k和LRAM2k,用于独立或结合
发表于 2020-03-03
技术创新—FPGA运算单元可支持高算力浮点
基于FPGA的伽玛能谱的峰值测量
在石油测井行业中伽玛能谱的测量是一种很重要的测井方式,本文结合脉冲中子能谱测量,对伽玛脉冲峰值检测做了研究,利用微分、延时电路及FPGA器件,能很好地检测到伽玛信号的峰值,由实验结果可知,峰值检测的线性度基本满足能谱测量的需求。0引言石油作为一种战略资源,越来越受到世界各国的重视;但石油又是一种不可再生的能源,随着世界经济的不断发展,对石油的需求量也越来越大。因此为了科学合理地开采有限的石油资源,人们发明各种各样的测井方法,其中非弹、俘获及活化等能谱测量已成为测井的一个重要分支,这些参数能反映油田剩余油和残余油饱和度等指标,要想得到好的能谱,首先必须要有好的峰值检测及保持电路,本文主要针对能谱数据测量过程中的峰值检测及保持部分
发表于 2020-03-03
基于FPGA的伽玛能谱的峰值测量
MathWorks HDL Verifier 已通过UVM支持, FPGA、ASIC验证将提速
 MathWorks 宣布,HDL Verifier 从现已上市的 Release 2019b 开始提供对 Universal Verification Methodology (UVM) 的支持。HDL Verifier 能够让开发 FPGA 和 ASIC 设计的设计验证工程师直接从 Simulink 模型生成 UVM 组件和测试平台,并在支持 UVM 的仿真器(比如来自 Synopsys、Cadence 和 Mentor 的仿真器)中使用这些组件和测试平台。 Wilson Research Group 的一项最近研究发现,48% 的 FPGA 设计项目和 71% 的 ASIC 设计项目依赖 UVM 进行
发表于 2020-03-02
MathWorks HDL Verifier 已通过UVM支持, FPGA、ASIC验证将提速
技术文章—2D NoC可实现FPGA内部超高带宽逻辑互连
Achronix 最新基于台积电(TSMC)的7nm FinFET工艺的Speedster7t FPGA器件包含了革命性的新型二维片上网络(2D NoC)。2D NoC如同在FPGA可编程逻辑结构上运行的高速公路网络一样,为FPGA外部高速接口和内部可编程逻辑的数据传输提供了超高带宽(~27Tbps)。  图1  Speedster 7t FPGA结构图 NoC使用一系列高速的行和列网络通路在整个FPGA内部分发数据,从而在整个FPGA结构中以水平和垂直方式分发数据流量。NoC中的每一行或每一列都有两个256位的、单向的、行业标准的AXI通道,可以在
发表于 2020-02-27
技术文章—2D NoC可实现FPGA内部超高带宽逻辑互连
夏宇闻老师专栏

你问我答FPGA设计

北京航空航天大学教授,国内最早从事复杂数字逻辑和嵌入式系统设计的专家。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 ivhd.cn, Inc. All rights reserved

页面底部区域 foot.htm