?
北京赛车pk10开奖记录,网上投注开户,北京赛车pk10计划,在线彩票平台 凤凰彩票

加快卷积神经收集(CNN)?码王心水论坛若何用FP

时间:2017-11-01 04:01来源:未知 作者:admin 点击:
天津时时彩剩下的就是集成进你的系统(microblaze, nios仍是arm,配好dma,写好灌数据的驱动,这些就是各有各的道儿了)。保举脱手码rtl前先写好文档,商定好端口,寄放器和软件api,不然

  天津时时彩剩下的就是集成进你的系统(microblaze, nios仍是arm,配好dma,写好灌数据的驱动,这些就是各有各的道儿了)。保举脱手码rtl前先写好文档,商定好端口,寄放器和软件api,不然边写边改容易乱。

  接下来拿profiler(好比perf)去阐发下软件算法,找找热点和机能瓶颈。正在cnn里面次要耗时的就是conv二维卷积了。机能瓶颈也次要正在于卷积时需要大量乘加运算,参取计较的大量weight参数会带来的良多访存请求。

  以下次要援用自西安邮电大学李涛教员关于毗连智能和符号智能的演讲,以及fpl2016上ASU的 Yufei Ma的文章和slide,保举大师去读下原文。

  雷锋网 AI科技评论按,本文来历于王天祺正在知乎问题【若何用FPGA加快卷积神经收集(CNN)?】下的回覆,雷锋网 AI科技评论获其授权转发。

  能够看到cnn算法次要由conv ,pooling,norm等几个部门构成。工做时将image跟weight灌进去,最终获得预测成果。

  典型的fpga实现能够参考Yufei Ma的文章,码王心水论坛非论是conv,仍是pooling,依葫芦画瓢设想data path,切好流水,码王心水论坛再想好形态机加上节制信号。这些就看大师撸rtl的根基功了。

  接下来调查下前人的工做和当前的灌水热点。按理说这种大量的乘加运算用dsp该当不错,可是正在cnn中大师并不需要这么大的位宽,有时候8位就够了。dsp动辄32/64位的乘加器实正在是华侈。于是乎大师就起头减位宽,多堆几个运算单位。面临大量的访存请求,大师就起头设想各类tricky的缓存了。

  好比Conv模块如下图,次要拿一堆乘法器以及加法器树搭好data path,cnn切好流水,接着加上节制信号。

  我做过一些计较加快的工做,小我感受要入手先要想好几个问题: 要加快的是什么使用,使用的瓶颈是什么,再针对这个瓶颈,参考前人工做选择合适的方案。

  过早地固执于fpga的手艺细节(用hdl仍是hls,用啥芯片,用啥接口)容易只见树木不见丛林。现正在software define network/flash/xxx,已然大势所趋。之前开组会时跟同志们聊过,算法是纲,纲举目张;软件是妈,?码王心水论坛若何用FPGA软件是爹,cnn软件比基金委都亲。所以保举先把cnn的算法看一下,拿一些开源代码跑一下典范的例子(lenet, alexnet, etc)看好输入输出,摸清理法。

  全体来说,cnn这种使用流水线节制相对cpu简单,没有写cpu的那一堆hazard让人烦心,也不消写汇编器啥的。太大的cnn放正在fpga里挺费劲,做出立异很难,可是fpga上写个能用的lenet这种级此外cnn仍是挺容易的。最初还能够按照老例跟cpu比机能,加快卷积神经收集(CNN)跟gpu比功耗。

  所有的工作到了硬件层面现实上能用的手段也就无限了。不过乎堆资本和切流水两招。再否则就是做一些bit level的小技巧,好比乘法器变查表之类的,这些技巧正在良多二十年前的dsp教材里面都描述得很详尽了,拿来用就好。好比这本书亲测无效。

(责任编辑:admin)
顶一?
(0)
0%
踩一?
(0)
0%
------分隔?----------------------------
?