• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向CNN 加速器的一種建模與優(yōu)化設(shè)計(jì)方法研究①

    2022-11-06 06:06:06祁玉瓊張明喆吳海彬葉笑春
    高技術(shù)通訊 2022年8期
    關(guān)鍵詞:下層數(shù)據(jù)量加速器

    祁玉瓊 張明喆 吳海彬 葉笑春③

    (*中國(guó)科學(xué)院計(jì)算技術(shù)研究所計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京100190)

    (**中國(guó)科學(xué)院大學(xué) 北京100049)

    0 引言

    目前已有多種用于解決各類識(shí)別與分類相關(guān)問(wèn)題的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)被提出,例如AlexNet[1]、VGG[2]及ResNet[3]等。同時(shí),針對(duì)一些特定領(lǐng)域也演化出了很多CNN相關(guān)的神經(jīng)網(wǎng)絡(luò)。例如用于生成圖像數(shù)據(jù)集、實(shí)現(xiàn)文字到圖像轉(zhuǎn)換的生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN),用于物體識(shí)別、人臉識(shí)別的深度遷移學(xué)習(xí)算法(transfer learning),用于自動(dòng)駕駛和安防監(jiān)控的目標(biāo)檢測(cè)算法(YOLO 等)以及用于機(jī)器人、游戲自動(dòng)化的強(qiáng)化學(xué)習(xí)算法(DQN 等)。因此可以看到,由于CNN 可以有效地處理各類復(fù)雜問(wèn)題,其在現(xiàn)實(shí)生活中被各行各業(yè)所廣泛使用。

    為了能夠有效地處理各種基于CNN 的算法,越來(lái)越多的CNN 加速器被提出,例如Eyeriss[4]、DaDianNao[5]、ShiDianNao[6]等。大部分CNN 加速器的存儲(chǔ)結(jié)構(gòu)分為3 層,即片外存儲(chǔ)(DRAM)、片上存儲(chǔ)(SRAM)以及計(jì)算單元(processing element,PE)中的寄存器(Register),且不同加速器中相同存儲(chǔ)結(jié)構(gòu)的大小、容量都各不相同。此外不同加速器的PE陣列(PE array)大小和對(duì)應(yīng)的計(jì)算能力也均不同。由此可見(jiàn)CNN 加速器的設(shè)計(jì)包括很多方面,是一個(gè)相對(duì)復(fù)雜的工作。

    當(dāng)CNN 加速器設(shè)計(jì)完成后,硬件工程師需要使用硬件描述語(yǔ)言(Verilog 或VHDL)對(duì)其進(jìn)行基于寄存器傳輸級(jí)的抽象和實(shí)現(xiàn)。這一步的工程量巨大,需要耗費(fèi)大量的時(shí)間以及人力。此后通過(guò)仿真工具和邏輯綜合器對(duì)寄存器傳輸級(jí)的設(shè)計(jì)進(jìn)行仿真和綜合,可以得到該加速器的性能、能耗以及面積的評(píng)估。

    不同應(yīng)用場(chǎng)景對(duì)性能以及能耗的要求都不同,例如數(shù)據(jù)中心主要用于處理大量后端應(yīng)用,因此其更關(guān)心處理器的性能功耗比[7];邊緣物端如IoT,則對(duì)處理器功耗的要求更為嚴(yán)格[8];而在高實(shí)時(shí)性要求的智能駕駛場(chǎng)景下,處理器的性能則是重點(diǎn)關(guān)注指標(biāo)。因此針對(duì)特定領(lǐng)域,若設(shè)計(jì)出的加速器其仿真綜合后得到的性能和能耗指標(biāo)不符合應(yīng)用需要,硬件工程師則需要重新設(shè)計(jì)CNN 加速器的結(jié)構(gòu),再用硬件描述語(yǔ)言修改相應(yīng)的寄存器傳輸級(jí)設(shè)計(jì)。

    加速器的執(zhí)行時(shí)間或能耗可以通過(guò)多種策略進(jìn)行優(yōu)化。若選擇增加靜態(tài)隨機(jī)存儲(chǔ)器(static random access memory,SRAM)的帶寬來(lái)減少能耗,則不僅要修改SRAM 的結(jié)構(gòu),同時(shí)還需要增加PE 陣列中的寄存器大小。若選擇增加PE 陣列大小來(lái)減少執(zhí)行時(shí)間,則需要修改片上NoC 以及SRAM 的帶寬。所以當(dāng)CNN 加速器某個(gè)結(jié)構(gòu)設(shè)計(jì)發(fā)生改變后,加速器中其他部分的結(jié)構(gòu)設(shè)計(jì)也會(huì)有相應(yīng)的改變。因此,為了符合應(yīng)用的性能與能耗需求,在探索CNN加速器結(jié)構(gòu)設(shè)計(jì)方案時(shí),每一次方案的調(diào)整都會(huì)造成硬件工程師大量修改多個(gè)部件、不同部件間連線以及相關(guān)信號(hào)的寄存器傳輸級(jí)實(shí)現(xiàn)。

    為了能夠盡可能地減少或避免上述調(diào)整與修改,本文提出了一種CNN 加速器性能與能耗通用評(píng)估模型(general performance and energy consumption model for CNN accelerator,CNNGModel)。CNNGModel 通過(guò)CNN 加速器中不同結(jié)構(gòu)的具體設(shè)計(jì),可以估計(jì)該加速器處理不同任務(wù)時(shí)所需的時(shí)間與能耗。從而在硬件工程師使用硬件描述語(yǔ)言實(shí)現(xiàn)該加速器前,提前判斷當(dāng)前CNN 加速器的設(shè)計(jì)是否符合應(yīng)用需求,減少后續(xù)不必要的時(shí)間與人力的浪費(fèi)。最后依據(jù)CNNGModel,本文還給出了CNN 加速器優(yōu)化策略,以此幫助硬件架構(gòu)師對(duì)加速器架構(gòu)的調(diào)整。

    本文的主要貢獻(xiàn)包括以下5 個(gè)方面。

    (1)基于CNN 加速器的通用硬件結(jié)構(gòu),提出加速器中數(shù)據(jù)傳播路徑的概念。

    (2)提出了CNN 加速器性能與能耗通用評(píng)估模型(CNNGModel),并實(shí)現(xiàn)了其中的核心部分——通用模型庫(kù),同時(shí)規(guī)定了模型的輸入與多層輸出。

    (3)定義了CNN 加速器中的3 種數(shù)據(jù)傳播方式,用于CNNGModel 的輸入。

    (4)實(shí)驗(yàn)部分首先設(shè)計(jì)實(shí)現(xiàn)了3 個(gè)CNN 加速器,其次分析對(duì)比了通過(guò)CNNGModel、模擬器VTA以及仿真綜合3 種方式得到的每個(gè)加速器在處理不同CNN 時(shí)的多項(xiàng)結(jié)果。

    (5)依據(jù)CNNGModel,給出了對(duì)于CNN 加速器優(yōu)化的多項(xiàng)策略。

    1 相關(guān)工作

    本節(jié)首先介紹目前被廣泛關(guān)注的一些CNN 加速器,其次給出目前已有的CNN 加速器性能評(píng)估模型,并對(duì)這些模型進(jìn)行分析與總結(jié)。

    DaDianNao[5]主要用于處理大型的CNN,具有伸縮性。當(dāng)單層CNN 的參數(shù)量超過(guò)DaDianNao 單片存儲(chǔ)極限時(shí),DaDianNao 通過(guò)其伸縮性,可以將單層CNN 劃分到多個(gè)芯片上執(zhí)行。ShiDianNao[6]則更傾向于物端場(chǎng)景,它直接與視頻圖像傳感器相連接,直接以傳感器采集到的數(shù)據(jù)作為加速器的輸入。因此ShiDianNao 中輸入訪存的數(shù)據(jù)量更少,片上配置的SRAM 更加精巧,常被用來(lái)處理較小規(guī)模的CNN 傳輸。Eyeriss[4]則是一個(gè)高能效、可重配的神經(jīng)網(wǎng)絡(luò)加速器。其核心設(shè)計(jì)是RowStationary 數(shù)據(jù)流,可以有效減少數(shù)據(jù)搬運(yùn)帶來(lái)的大量時(shí)間和能耗。Origami[9]利用其提出的一種新型卷積網(wǎng)絡(luò)架構(gòu),使加速器的性能達(dá)到TOP/s 量級(jí)的同時(shí),保持較高的面積和能耗效率。NeuFlow[10]是一種運(yùn)行時(shí)可重配置的數(shù)據(jù)流結(jié)構(gòu),一般用于嵌入式系統(tǒng),可以處理人臉識(shí)別、場(chǎng)景分割等。

    當(dāng)使用分塊技術(shù)和量化技術(shù)對(duì)CNN 加速器進(jìn)行優(yōu)化時(shí),可以對(duì)加速器的性能進(jìn)行模擬,同時(shí)只針對(duì)低位寬的CNN 加速器[11]。SCALE-Sim[12]是對(duì)基于Systolic 架構(gòu)的CNN 加速器進(jìn)行建模。其中規(guī)定,在PE 陣列中數(shù)據(jù)只能在同一行或同一列中傳播。因此對(duì)于一些基于RowStationary 等數(shù)據(jù)流的加速器(這些加速器中的數(shù)據(jù)需要在不同行(列)間傳播),SCALE-Sim 無(wú)法對(duì)其性能進(jìn)行建模。文獻(xiàn)[4]主要估計(jì)了CNN 加速器內(nèi)的傳輸能耗。首先該工作面向的是不同數(shù)據(jù)流,而不是不同的加速器。其次在進(jìn)行能耗估計(jì)前,需要提前假設(shè)CNN 中3 種類型數(shù)據(jù)在加速器中的傳輸路徑。文獻(xiàn)[13]提出了一種針對(duì)CNN 加速器中數(shù)據(jù)劃分和調(diào)度的分析模型,因此并不能用來(lái)估計(jì)所有CNN 加速器的性能、能耗等。本文提出的CNNGModel 是依據(jù)不同加速器處理CNN 的真實(shí)過(guò)程設(shè)計(jì)的,主要考慮了以下3點(diǎn):(1)CNN 3 種類型數(shù)據(jù)在加速器中的傳輸路徑;(2)路徑中上下層存儲(chǔ)的大小;(3)加速器對(duì)于某一路徑的數(shù)據(jù)處理模式。因?yàn)镃NNGModel 可以給出不同加速器在處理不同CNN 時(shí)消耗的時(shí)間與能耗,所以可用于每個(gè)真實(shí)的CNN 加速器。

    2 CNN 加速器的數(shù)據(jù)傳播路徑

    本節(jié)首先對(duì)CNN 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行介紹,其次給出CNN 加速器的通用硬件結(jié)構(gòu),最后介紹CNN加速器中的數(shù)據(jù)傳播路徑。

    2.1 CNN 網(wǎng)絡(luò)參數(shù)

    CNN 網(wǎng)絡(luò)主要由卷積層(CONV)、池化層(POOL)以及全連接層(FC)構(gòu)成。這些層均包含2種數(shù)據(jù)類型,即輸入特征圖(input feature map,ifmaps)及輸出特征圖(output feature map,ofmaps)。其中ofmaps 是通過(guò)累加中間結(jié)果(partial sums,psums)得到的。此外卷積層和全連接層還包含第3種數(shù)據(jù)類型濾波器(filters)。圖1 給出卷積層示例,其ifmaps 的大小是I×I×C,個(gè)數(shù)為N;ofmaps 的大小是O×O×M,個(gè)數(shù)為N;filters 的大小是F×F×C,個(gè)數(shù)為M。表1 給出了圖1 中各個(gè)參數(shù)的定義。

    圖1 CNN 卷積層

    表1 CNN 的參數(shù)

    2.2 CNN 加速器的通用結(jié)構(gòu)

    對(duì)于大多數(shù)CNN,卷積層和全連接層的計(jì)算量在整個(gè)網(wǎng)絡(luò)中占比很大(超過(guò)90%),所以本文只對(duì)CNN 中的卷積層進(jìn)行分析(全連接層與卷積層的計(jì)算過(guò)程相同)。本節(jié)首先介紹CNN 加速器的2 種常見(jiàn)數(shù)據(jù)處理方式,其次給出每種數(shù)據(jù)處理方式對(duì)應(yīng)的CNN 加速器通用結(jié)構(gòu)。

    圖2 給出了目前比較常見(jiàn)的2 種CNN 加速器數(shù)據(jù)處理方式。其中單卷積(single convolution,Sconv)指加速器執(zhí)行過(guò)程中,每次循環(huán)包含的數(shù)據(jù)為一個(gè)二維卷積;多卷積(multiple convolution,Mconv)指每次循環(huán)包含的數(shù)據(jù)為多個(gè)二維卷積(Tm表示每次處理的filters 的個(gè)數(shù),Tc表示每次處理ifmaps 或filters 中的通道數(shù))。本文將處理器每次循環(huán)包含的數(shù)據(jù)稱為一個(gè)基本處理單元(BasicUnit)。圖2 中,對(duì)于Sconv 的一個(gè)BasicUnit,filters 大小為F×F,ifmaps 的大小為I×I,ofmaps 大小為O×O;對(duì)于Mconv 的一個(gè)BasicUnit,filters 的大小為F×F×Tm×Tc,ifmaps 的大小為I×I×Tc,ofmaps大小為O×O×Tm(對(duì)于Sconv,其BasicUnit 中包含的數(shù)據(jù)量可能會(huì)更小,但只會(huì)涉及ifmaps 中一個(gè)通道的相關(guān)數(shù)據(jù))。

    基于圖2 的2 種數(shù)據(jù)處理方式,圖3 給出了相應(yīng)的加速器通用結(jié)構(gòu)。圖3(a)為Sconv 類型加速器的通用結(jié)構(gòu),其中包含加速器片上結(jié)構(gòu)(accelerator chip)和外部存儲(chǔ)(external memory chip,EXMC)。在accelerator chip 中,處理PE array 中的每個(gè)PE 只有一個(gè)乘加計(jì)算部件(multiply-accumulate unit,MAC)。對(duì)于PE 中的存儲(chǔ)部件寄存器(Register),一共有2種結(jié)構(gòu),一種是分散式存儲(chǔ)(dispersive register,DR),即每個(gè)PE 中都有寄存器;另一種是集中式存儲(chǔ)(concentratedregister,CR),即將每個(gè)PE中的寄存器集中起來(lái),統(tǒng)一放到PE array 外部。需要說(shuō)明的是,不同加速器的寄存器大小以及片上網(wǎng)絡(luò)(network on chip,NoC)結(jié)構(gòu)都不同。

    圖2 2 種數(shù)據(jù)處理方式

    圖3 CNN 加速器通用結(jié)構(gòu)

    圖3(b)為Mconv 類型加速器的通用結(jié)構(gòu)圖。其與Sconv 的不同處為:(1)每個(gè)PE 不只有一個(gè)MAC;(2)片上存儲(chǔ)結(jié)構(gòu)一共有2 層,一層為片上緩存(on-chip buffer,OCB),用來(lái)緩存ifmaps、ofmaps以及filters;另一層為寄存器。表2 給出了一些典型的CNN 加速器的數(shù)據(jù)處理方式和寄存器類型。

    表2 典型CNN 加速器分類

    2.3 數(shù)據(jù)傳播路徑

    根據(jù)圖3 中加速器的存儲(chǔ)結(jié)構(gòu),表3 給出了數(shù)據(jù)在這些存儲(chǔ)結(jié)構(gòu)中的傳播路徑。這里需要說(shuō)明的是:(1)當(dāng)加速器片上結(jié)構(gòu)中有寄存器時(shí),路徑中的“→PE”表示數(shù)據(jù)傳輸?shù)郊拇嫫髦?CR 或DR),否則表示數(shù)據(jù)直接傳輸?shù)絇E 中的計(jì)算單元(MAC);(2)“←PE”表示計(jì)算結(jié)果從DR 或者M(jìn)AC 中送出;(3)對(duì)于傳播路徑④“Among PEs”,當(dāng)加速器中的寄存器類型為DR 時(shí),其表示數(shù)據(jù)在PE 間的寄存器中傳播。當(dāng)加速器中的寄存器類型為CR 時(shí),其表示PE 陣列對(duì)CR 的訪問(wèn);(4)本文忽略數(shù)據(jù)在DR 和MAC 之間傳播所需要的時(shí)間和能耗;(5)對(duì)于EXMC→PE 和EXMC←PE,上層存儲(chǔ)均是EXMC,下層存儲(chǔ)均是PE。

    表3 數(shù)據(jù)傳播路徑

    傳播路徑④“Among PEs”共有3 種類型,ofmaps傳播(ofmaps propagation,OP)、ifmaps 傳播(ifmaps propagation,IP)和多類型數(shù)據(jù)傳播(multiple propagation,MP)。每個(gè)加速器中只能存在其中一個(gè)類型。在OP 類型加速器中,對(duì)于一個(gè)BasicUnit 中的數(shù)據(jù),常見(jiàn)的情況為ifmaps 被直接送到對(duì)應(yīng)PE;filters 被提前固定在PE 中;ofmaps 的中間結(jié)果在PE間傳播累加,最終結(jié)果在其遍歷完所有PE 后生成。NeuFlow[10]、CNP[14]均屬于OP。

    在IP 類型加速器中,對(duì)于一個(gè)BasicUnit 中的數(shù)據(jù),常見(jiàn)的情況為filter 被直接送到對(duì)應(yīng)PE,ofmaps 固定在PE 中直到得到最終結(jié)果,ifmaps 在PE間傳播。ShiDianNao[6]即屬于IP。MP 類型加速器指同時(shí)會(huì)有多種類型的數(shù)據(jù)在PE 間傳播。CE[15]、Origami[9]、Eyeriss[4]均屬于MP。表4 給出了一些CNN 加速器的結(jié)構(gòu)以及其中的數(shù)據(jù)傳播路徑。

    表4 一些典型加速器的結(jié)構(gòu)與數(shù)據(jù)路徑

    3 CNN 加速器通用評(píng)估模型

    圖4 為本文所提出的CNN 加速器評(píng)估模型(CNNGModel)。當(dāng)加速器在處理每層CNN 網(wǎng)絡(luò)時(shí),評(píng)估模型需要做以下工作:(1)加速器相關(guān)參數(shù)和數(shù)據(jù)傳播路徑會(huì)作為模型的輸入,其中每條數(shù)據(jù)傳播路徑為模型的處理單元。(2)通過(guò)調(diào)用模型庫(kù)中的估算模型,得到每條數(shù)據(jù)傳播路徑的中間輸出。(3)合并統(tǒng)計(jì)數(shù)據(jù)傳播路徑的中間輸出,得到最終輸出。

    圖4 CNN 加速器通用評(píng)估模型

    3.1 評(píng)估模型輸入

    本文評(píng)估模型的輸入包括4 部分:(1)CNN 加速器參數(shù)(表5和表6);(2)CNN加速器內(nèi)部數(shù)據(jù)傳播類型,分為IP、OP 和MP3 類(詳細(xì)介紹見(jiàn)2.3節(jié));(3)CNN 加速器中3 種數(shù)據(jù)類型的傳播路徑(詳細(xì)介紹見(jiàn)2.3 節(jié));(4)NoC 估計(jì)模型[17]用于估計(jì)“Among PEs”路徑帶來(lái)的時(shí)間與能耗開(kāi)銷。

    表5 CNN 加速器中的一些硬件參數(shù)(I)

    表6 CNN 加速器中的一些硬件參數(shù)(II)

    表5 中的參數(shù)為加速器設(shè)計(jì)時(shí)需要考慮的參數(shù),主要用于在評(píng)估模型中得到中間輸出。其可以分為兩類:加速器結(jié)構(gòu)參數(shù)以及數(shù)據(jù)處理方式參數(shù)。其中第1 類包括3 部分:加速器存儲(chǔ)結(jié)構(gòu)、計(jì)算部件以及片上網(wǎng)絡(luò)的相關(guān)參數(shù)。第2 類包括加速器中BasicUnit 以及psums 處理方式的相關(guān)參數(shù)。表6 中的參數(shù)為加速器中不同部件的實(shí)際參數(shù),例如頻率、不同存儲(chǔ)結(jié)構(gòu)的單次訪問(wèn)能耗等。這些參數(shù)主要用于在評(píng)估模型中得到最終輸出,使用Parameters.Variable來(lái)表示這些參數(shù)(例如IOCB.size)。

    3.2 評(píng)估模型輸出

    基于3.1 節(jié)的輸入,如圖5 所示,本文的評(píng)估模型將首先給出中間輸出ATimes、AVolume 以及Pro-Times;其次依據(jù)中間輸出最終得到目標(biāo)CNN 加速器的性能以及能耗。

    圖5 CNN 加速器評(píng)估模型輸出

    首先對(duì)于中間輸出給出以下定義:當(dāng)加速器在處理一個(gè)BasicUnit 時(shí),數(shù)據(jù)在每條傳播路徑中對(duì)上層存儲(chǔ)的訪問(wèn)次數(shù)被定義為ATimes;在每條傳播路徑中,下層存儲(chǔ)在初始化時(shí)獲得的數(shù)據(jù)量被定義為AVolume;當(dāng)路徑為“Among PEs”時(shí),PE 間傳播的數(shù)據(jù)量被定義為ProTimes。其次對(duì)于最終輸出給出以下定義:Ttransfer 為由數(shù)據(jù)傳輸帶來(lái)的時(shí)間;Etransfer 為數(shù)據(jù)傳輸所帶來(lái)的能耗;Tcompute 為由計(jì)算帶來(lái)的時(shí)間;Ecompute 為由計(jì)算帶來(lái)的能耗。

    因?yàn)榇蠖鄶?shù)CNN 的輸入輸出數(shù)據(jù)量都很大,如AlexNet 過(guò)濾器的數(shù)據(jù)量為61 MB、Overfeatfast 為146 MB、VGG16 為138 MB,所以當(dāng)加速器在處理這些CNN 時(shí),無(wú)論是從片外到片上,還是只在片上,都會(huì)存在大量的數(shù)據(jù)搬移。從表7 可以看到,大部分CNN 加速器的存儲(chǔ)結(jié)構(gòu)面積均超過(guò)總面積的一半,其中Eyeriss 甚至高達(dá)81.1%。所以CNN 加速器工作時(shí),存儲(chǔ)間的數(shù)據(jù)傳輸將消耗大量的時(shí)間與能耗。因此本文將重點(diǎn)分析CNNGModel 中的Ttransfer 與Etransfer。

    表7 CNN 加速器存儲(chǔ)結(jié)構(gòu)面積

    Ttransfer 通過(guò)AVolume 計(jì)算得到。因?yàn)橹恍枰紤]數(shù)據(jù)在不同存儲(chǔ)結(jié)構(gòu)之間傳輸所需的時(shí)間中不能被計(jì)算時(shí)間所覆蓋的部分,而造成這部分不能被覆蓋的時(shí)間的數(shù)據(jù)量為AVolume。對(duì)于Etransfer,通過(guò)CACTI-6.5 可以得到單次訪問(wèn)DRAM 的能耗,同時(shí)可以獲取不同工藝下,單次訪問(wèn)不同存儲(chǔ)結(jié)構(gòu)(DRAM、SRAM、Register 等)產(chǎn)生的能耗之間的相對(duì)比值。因此進(jìn)一步分別統(tǒng)計(jì)3 種數(shù)據(jù)類型(ifmaps、filters、ofmaps) 對(duì)于不同存儲(chǔ)結(jié)構(gòu)的訪存次數(shù)(ATimes),就可以計(jì)算出Etransfer。Tcompute 可以根據(jù)硬件的峰值性能得到,Ecompute 將通過(guò)任務(wù)的計(jì)算量以及硬件工藝參數(shù)得到。

    3.3 CNN 加速器通用模型庫(kù)

    CNNGModel 的基本處理單元為目標(biāo)加速器中的每條數(shù)據(jù)傳播路徑。因此當(dāng)加速器在處理每層CNN 網(wǎng)絡(luò)時(shí),CNNGModel 將會(huì)依據(jù)如下步驟工作:首先針對(duì)每一條數(shù)據(jù)傳播路徑選擇通用模型庫(kù)中對(duì)應(yīng)的估算模型;其次依據(jù)輸入的CNN 加速器各項(xiàng)參數(shù)(表5),通過(guò)估算模型得到每條路徑的ATimes、ProTimes 以及AVolume;最后整合所有路徑的計(jì)算結(jié)果,依據(jù)表6 中的參數(shù)得到Ttransfer 與Etransfer。

    3.3.1 ATimes、ProTimes 以及AVolume

    根據(jù)2.3 節(jié),目標(biāo)加速器中一共會(huì)存在12 種路徑。將其分為3 類:(1) IFTransfer(6 條):ifmaps 和filters 的路徑EXMC→PE、EXMC→OCB 和OCB→PE;(2)OTransfer(3 條):ofmaps 中間結(jié)果(psums)的路徑EXMC←PE、EXMC←OCB 和OCB←PE;(3)PETransfer(3 條):ifmaps、ofmaps 以及filters 的路徑AmongPEs。接下來(lái)將分別介紹上述3 類路徑的ATimes、AVolume 和ProTimes 估算模型。圖6 給出了通用模型庫(kù)中所有路徑的子路徑以及對(duì)應(yīng)的估算模型。

    圖6 CNNGModel 通用模型庫(kù)的內(nèi)部結(jié)構(gòu)

    3.3.1.1 IFTransfer

    在這類路徑中,當(dāng)EXMC→PE 和OCB→PE 的下層存儲(chǔ)結(jié)構(gòu)為DR 時(shí),本文規(guī)定所有PE 中寄存器的總大小為下層存儲(chǔ)大小。IF_Transfer 的ATimes以及AVolume 估算模型可以依據(jù)以下3 類子路徑討論。

    (1) 下層存儲(chǔ)充足(EnoughS)

    該類子路徑下層存儲(chǔ)的大小大于或等于一個(gè)BasicUnit 中ifmaps 或filters 的數(shù)據(jù)量(依據(jù)路徑中的數(shù)據(jù)類型來(lái)判斷是ifmaps 還是filters)。對(duì)于該路徑,只有當(dāng)一個(gè)BasicUnit 中的數(shù)據(jù)都存儲(chǔ)到其下層存儲(chǔ)后,加速器才會(huì)開(kāi)始工作。所以該路徑的AVolume 等于BasicUnit 中對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)量。對(duì)于ATimes,若路徑下層存儲(chǔ)為DR,則與NoC 的吞吐量有關(guān);若為CR 或OCB,ATimes 與上層存儲(chǔ)帶寬相關(guān),因此:

    (2)下層存儲(chǔ)不足但數(shù)據(jù)可重復(fù)使用(UEnoughS_Re)

    該類子路徑下層存儲(chǔ)的大小小于一個(gè)BasicUnit 中的數(shù)據(jù)量,但每個(gè)數(shù)據(jù)只需要從上層存儲(chǔ)中讀取一次。這里將分為兩大類對(duì)該子路徑的估算模型進(jìn)行討論,一類為路徑的下層存儲(chǔ)是DR,另一類為下層存儲(chǔ)是CR 或OCB。

    首先對(duì)下層存儲(chǔ)為DR 的路徑進(jìn)行討論。這里對(duì)下層存儲(chǔ)為DR 的路徑歸納了3 類數(shù)據(jù)存取模式,并給出了對(duì)應(yīng)的估算模型(未來(lái)若有新的模式,也可以依據(jù)本文的評(píng)估模型得到對(duì)應(yīng)的估算模型)。

    不同PE 每次從上層存儲(chǔ)得到完全相同的數(shù)據(jù),且每次存取的數(shù)據(jù)量也相同,一般存在于OP 類型加速器。對(duì)于屬于這種數(shù)據(jù)存取模式的路徑,對(duì)應(yīng)加速器中的PE 一般沒(méi)有存儲(chǔ)相應(yīng)數(shù)據(jù)的寄存器,因此數(shù)據(jù)只能送到PE 中的計(jì)算單元。所以AVolume 與每個(gè)PE 中計(jì)算單元的個(gè)數(shù)相關(guān)。ATimes 則與一個(gè)BasicUnit 中對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)量以及PE 每次得到的數(shù)據(jù)量AVolume 相關(guān)。綜上,對(duì)于該類數(shù)據(jù)存取模式的路徑:

    不同PE 每次從上層存儲(chǔ)得到完全不同的數(shù)據(jù),且每個(gè)PE 每次得到的數(shù)據(jù)量不一定相同,一般存在于IP 類型加速器。對(duì)于擁有這種數(shù)據(jù)存取模式路徑的加速器,其中PE 間會(huì)互相傳輸數(shù)據(jù),以此實(shí)現(xiàn)數(shù)據(jù)的重復(fù)利用。因?yàn)檫@類加速器在工作時(shí),每個(gè)周期都有新數(shù)據(jù)讀入,所以這里的ATimes 等于完成一個(gè)BasicUnit 的周期數(shù)。而AVolume 與每個(gè)PE 初始化時(shí)需要的數(shù)據(jù)量以及加速器中PE 的個(gè)數(shù)有關(guān)。綜上,對(duì)于該類路徑,有:

    同組PE 每次從上層存儲(chǔ)得到相同的數(shù)據(jù),且每次得到的數(shù)據(jù)量不同,一般存在于MP 類型加速器。這種數(shù)據(jù)存取模式的ATimes 一般與PE 的組數(shù)GROUP.num以及每組得到數(shù)據(jù)的次數(shù)GROUP.cycle相關(guān)。其中GROUP.cycle與每個(gè)PE 中相關(guān)數(shù)據(jù)的寄存器大小以及該數(shù)據(jù)本身的大小相關(guān)(根據(jù)NoC結(jié)構(gòu)的設(shè)計(jì),這里假設(shè)不同組的PE 不會(huì)同時(shí)取數(shù)據(jù))。所以

    而AVolume 與PE 中相關(guān)數(shù)據(jù)的寄存儲(chǔ)大小相關(guān),則

    接下來(lái)本文討論UEnoughS_Re 類型路徑中,下層存儲(chǔ)為CR 或OCB 的情況。因?yàn)閷儆赨EnoughS_Re 的路徑的下層存儲(chǔ)大小小于一個(gè)BasicUnit中的數(shù)據(jù)量,所以CR 或OCB 中的數(shù)據(jù)會(huì)被多次替換,因此ATimes 等于替換次數(shù)。這里令替換次數(shù)為T(mén)imeRelpace1,該參數(shù)與加速器的設(shè)計(jì)相關(guān)。例如對(duì)于Origami 中ifmaps 的路徑EXMC→OCB,每次滑動(dòng)窗口在ifmaps 上滑動(dòng)時(shí),OCB 中部分ifmaps 的值將被替換,因此該路徑的TimeRelpace1=O×O,AVolume 為初始化時(shí)送入下層存儲(chǔ)的數(shù)據(jù)量即下層存儲(chǔ)的大小。綜上,對(duì)于該類數(shù)據(jù)存取模式的路徑:

    (3)下層存儲(chǔ)不足且數(shù)據(jù)不重復(fù)使用(UEnoughS_URe)

    該類子路徑下層存儲(chǔ)的大小小于一個(gè)BasicUnit 中的數(shù)據(jù)量,且每個(gè)數(shù)據(jù)需要從上層存儲(chǔ)中讀取多次。該類型路徑的下層存儲(chǔ)一般為CR 或OCB,因此其中的數(shù)據(jù)會(huì)被多次替換,這里設(shè)替換次數(shù)為T(mén)imeRelpace2,與TimeRelpace1 相同,其與加速器內(nèi)部設(shè)計(jì)相關(guān)。因此:

    3.3.1.2 OTransfer

    本節(jié)將討論OTransfer 類型路徑中ATimes 以及AVolume 的估算模型。因?yàn)镺Transfer 路徑中的數(shù)據(jù)為ofmaps 的中間結(jié)果psums,而在初始化時(shí)OTransfer 類型的路徑不會(huì)有psums 產(chǎn)生,所以:

    其次,對(duì)于ATimes,若該類型路徑的下層存儲(chǔ)是PE,則

    因?yàn)榇藭r(shí)psums 是從DR 或MAC 送出,所以ATimes與BasicUnit 中psums 的大小以及NoC 有關(guān)。

    對(duì)于ATimes,若該類型路徑的下層存儲(chǔ)是OCB,則

    這是因?yàn)镺CB 是用來(lái)存儲(chǔ)中間結(jié)果的,即只有最終結(jié)果才會(huì)被從OCB 送出到EXCM,而一個(gè)BasicUnit產(chǎn)生的結(jié)果為psums。

    3.3.1.3 PETransfer

    在本節(jié)中,將討論P(yáng)ETransfer 類型路徑中Pro-Times 的估算模型。

    首先對(duì)于ifmaps 和filters,依據(jù)加速器中寄存器的類型,ProTimes 的計(jì)算方式一共可以分為2 類。若加速器中的寄存器為DR,根據(jù)3.2.1 節(jié)的分析,因?yàn)樵谙聦哟鎯?chǔ)為DR 的路徑中每個(gè)數(shù)據(jù)只需要從上層存儲(chǔ)讀取一次,所以PE 間被重復(fù)利用的數(shù)據(jù)都是通過(guò)PE 間傳播得到的。同時(shí)由于計(jì)算1 個(gè)MAC 需要1 個(gè)ifmap 和1 個(gè)filter,因此通過(guò)將計(jì)算1 個(gè)BasicUnit 所需的MAC 數(shù)量與1 個(gè)BasicUnit 中ifmaps 或filters 的數(shù)據(jù)量相減,可以得到此處的Pro-Times。綜上,有:

    若加速器中寄存器的類型為CR,則意味著PE里沒(méi)有存儲(chǔ),所以PE 在每次計(jì)算時(shí)都需要訪問(wèn)CR。因此ProTimes 可以通過(guò)PE 陣列單次計(jì)算能力以及計(jì)算1 個(gè)BasicUnit 需要的能力得到(PE 陣列的非充分利用將在后續(xù)的工作中討論)。綜上,有:

    對(duì)于psums,ProTimes 主要與2 個(gè)參數(shù)相關(guān)。一個(gè)是單個(gè)PE 計(jì)算1 個(gè)psum 時(shí)提供的MAC 數(shù)量,可以通過(guò)得到。另一個(gè)為1 個(gè)psum從在PE 陣列中的初始狀態(tài)轉(zhuǎn)變?yōu)樗统龅缴蠈哟鎯?chǔ)時(shí)的狀態(tài)需要的總MAC 量,用PSUMS.macs表示。因此:

    3.3.2 Ttransfer 與Etransfer

    CNNGModel 將通過(guò)中間輸出ATimes、ProTimes以及AVolume 得到Ttransfer 以及Etransfer。

    ProTimes 為“Among PEs”路徑在一個(gè)BasicUnit中產(chǎn)生的在PE 間傳播的數(shù)據(jù)總量,其中每一個(gè)數(shù)據(jù)均需要通過(guò)NoC 從某個(gè)PE 傳播到相應(yīng)的目的PE。因?yàn)槊總€(gè)數(shù)據(jù)在PE 間傳播的路線都不同,所以傳播每個(gè)數(shù)據(jù)所帶來(lái)的能耗與時(shí)間都不同。依據(jù)大多數(shù)NoCs 使用的健忘路由算法[19],可以得到每個(gè)PE 陣列中存在的所有數(shù)據(jù)傳播路線。本文將考慮最差的情況,因此假設(shè)所有數(shù)據(jù)在PE 間的傳播路線均是PE 間最長(zhǎng)的數(shù)據(jù)傳播路線,即一共經(jīng)過(guò)K個(gè)PE,則每個(gè)數(shù)據(jù)在PE 間傳播所消耗的能耗均為K×I(F/O)REG.accessE,所消耗的時(shí)間均為K個(gè)cycle。此外考慮到NoC 中會(huì)出現(xiàn)擁塞情況,根據(jù)文獻(xiàn)[17]中給出的擁塞最差情況模型,本文為每條傳播路線增加了因擁塞造成的額外時(shí)間與能耗。

    ATimes 為每條傳播路徑在1 個(gè)BasicUnit 中對(duì)上層存儲(chǔ)的訪問(wèn)次數(shù),因此通過(guò)將ATimes 與對(duì)應(yīng)路徑上層存儲(chǔ)結(jié)構(gòu)的單次訪存能耗相乘,可以得到每條路徑因訪問(wèn)上層存儲(chǔ)而消耗的能量。

    AVolume 為每條傳播路徑在1 個(gè)BasicUnit 中,下層存儲(chǔ)在初始化時(shí)獲得的數(shù)據(jù)量。如果路徑中的下層存儲(chǔ)有雙緩存,則加速器初始化時(shí),由傳輸ifmaps 和filters 所造成的時(shí)間只與第一個(gè)BasicUnit中的AVolume 相關(guān),否則與所有BasicUnit 相關(guān)。

    算法1 給出了計(jì)算Etransfer 的詳細(xì)步驟。(1)需要獲得通用評(píng)估模型輸入中所有的數(shù)據(jù)傳播路徑;(2)通過(guò)上一節(jié)的估算模型,可以得到對(duì)于一個(gè)BasicUnit,每條路徑的ATimes 和ProTimes;(3)根據(jù)1 個(gè)卷積層中BasicUnit 的總量,可以獲得每條路徑ATimes 和ProTimes 的總量;(4) 根據(jù)對(duì)應(yīng)路徑ATimes 或ProTimes 的總量,獲得每條路徑消耗的能量;(5)通過(guò)將每條路徑因訪存消耗的能量相加,獲得加速器在處理當(dāng)前卷積層的Etransfer。

    算法2 給出了計(jì)算Ttransfer 的詳細(xì)步驟。與計(jì)算Etransfer 相同,這里也需要獲得每個(gè)卷積層所有的傳播路徑以及累加每條路徑所造成的傳輸時(shí)間。此外由于加速器中大多數(shù)傳輸時(shí)間可以被計(jì)算時(shí)間所覆蓋,因此Ttransfer 只考慮不能被計(jì)算時(shí)間所覆蓋的部分,其主要與AVolume 相關(guān)。

    4 實(shí)驗(yàn)

    本節(jié)設(shè)計(jì)了3 個(gè)CNN 加速器——Sconv-DR-OP、Sconv-CR-IP 和Mconv-CR-MP 用于驗(yàn)證CNNGModel的有效性。3 個(gè)加速器基于的原型分別為Neu-Flow[10]、ShiDianNao[6]以及Origami[9]。實(shí)驗(yàn)中,首先使用開(kāi)源模擬器VTA[20]實(shí)現(xiàn)了上述3 個(gè)加速器;其次基于TSMC 16 nm 技術(shù),使用硬件描述語(yǔ)言Verilog 和Synopsys 設(shè)計(jì)編譯器(DC)對(duì)上述3 個(gè)加速器進(jìn)行仿真與綜合;最后使用CNNGModel 對(duì)3 個(gè)加速器的性能與功率進(jìn)行估計(jì)。

    4.1 Sconv-DR-OP、Sconv-CR-IP 及Mconv-CRMP

    如圖7(a)所示,Sconv-DR-OP 的數(shù)據(jù)傳播方式為OP,寄存器類型為DR 且數(shù)據(jù)處理方式為Sconv。其中的數(shù)據(jù)傳播路徑有:(1)ifmaps 的EXMC→PE;(2)filters 的EXMC→PE;(3)ofmaps 的PEAmong;(4)ofmaps 的EXMC←PE。對(duì)于每個(gè)ifmaps 神經(jīng)元,Sconv-DR-OP 只需要從EXMC 讀取一次,且每個(gè)時(shí)鐘周期只讀取一個(gè)并送到所有PE。對(duì)于filters權(quán)重,其會(huì)被提前固定在不同的PE 中。而對(duì)于ofmaps,當(dāng)其中間結(jié)果遍歷完所有的PE 與FIFO 后,會(huì)從最后一個(gè)PE 輸出。

    如圖7(b)所示,Sconv-CR-IP 的數(shù)據(jù)傳播方式為IP,寄存器類型為CR 且數(shù)據(jù)處理方式為Sconv。其中的數(shù)據(jù)傳播路徑與Sconv-DR-OP 相比,只有傳播路徑(3)不同,為ifmaps 的PEAmong。在Sconv-CR-IP 中,首先相同的1 個(gè)filters 權(quán)重會(huì)送到所有的PE。其次對(duì)于ifmaps 神經(jīng)元,其在每個(gè)時(shí)鐘周期會(huì)送到不同的PE。而對(duì)于ofmaps,每個(gè)PE 一次只負(fù)責(zé)計(jì)算1 個(gè)ofmaps。

    圖7 3 個(gè)CNN 加速器

    如圖7(c)所示,Mconv-CR-MP 的數(shù)據(jù)傳播方式為MP,寄存器類型為CR 且數(shù)據(jù)處理方式為Mconv。其中的數(shù)據(jù)傳播路徑有:(1)ifmaps 的EXMC →OCB;(2) ifmaps 的 OCB →PE;(3) ifmaps 的PEAmong;(4)filters 的EXMC →PE;(5) filters 的PEAmong;(6) ofmaps 的EXMC←PE。對(duì)于該加速器,多個(gè)filters 權(quán)重和ifmaps 神經(jīng)元會(huì)被同時(shí)送到每個(gè)PE,每個(gè)PE 一次負(fù)責(zé)計(jì)算1 個(gè)ofmaps。為了保證流水線,其中每個(gè)PE 只負(fù)責(zé)乘法,剩余的加法操作會(huì)在PE 外執(zhí)行。

    表8 給出了3 個(gè)加速器的參數(shù)。

    表8 3 個(gè)加速器的參數(shù)

    4.2 實(shí)驗(yàn)結(jié)果分析

    如表9 所示,選擇AlexNet、VGG 以及ResNet 中的部分卷積層作為實(shí)驗(yàn)數(shù)據(jù)集。

    表9 用于實(shí)驗(yàn)的卷積層參數(shù)

    4.2.1 性能結(jié)果對(duì)比

    對(duì)于加速器的性能,本節(jié)將重點(diǎn)分析PE 陣列的工作時(shí)間(CAL-cycle)以及加速器工作總時(shí)間(Time)。

    圖8(a)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)PE 陣列的工作時(shí)間(CAL-cycle),其中CNNGModel 的結(jié)果與仿真結(jié)果的差距分別為5.2%、5.4%、4.6%、4.0%、4.9%和5.4%??梢钥吹竭@里的CNNGModel 結(jié)果始終比仿真結(jié)果小。這是因?yàn)殡m然CNNGModel 考慮了由NoC 傳播以及擁塞所造成的時(shí)間,但其使用了加速器的峰值性能。另一方面,CNNGModel 與模擬器VTA 的差距分別為0.5%、1.4%、0.7%、0.3%、1.5%、1.2%,說(shuō)明在不浪費(fèi)大量人力和時(shí)間的情況下,CNNGModel 可以提供與模擬器VTA 相近的性能。

    圖8(b)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)的總時(shí)間(Time),其中CNNGModel 的結(jié)果與仿真結(jié)果的差距分別為6.7%、7.0%、6.1%、5.4%、5.2% 和6.4%。造成上述現(xiàn)象的原因有:(1)CNNGModel 對(duì)于CAL-cycle 的估計(jì)值小于仿真結(jié)果;(2) CNNGModel 沒(méi)有考慮加速器的配置時(shí)間、BasicUnit 間有效信號(hào)、狀態(tài)信號(hào)等的傳輸時(shí)間以及數(shù)據(jù)在FIFO 中的傳播時(shí)間。與CAL-cycle 類似,對(duì)于工作總時(shí)間Time,CNNGModel 結(jié)果與模擬器VTA結(jié)果十分接近,差距分別為1.8%、2.3%、0.9%、1.3%、0.7%、1.7%.

    圖8 Sconv-DR-OP 的CAL-Cycle 以及Time

    圖9 和圖10 給出了其他2 個(gè)加速器在處理6個(gè)卷積層時(shí)的CAL-Cycle 以及Time。與Sconv-DROP 中的結(jié)果相似,CNNGModel 的估計(jì)值始終比仿真結(jié)果小,但與模擬器VTA 的結(jié)果十分接近。

    圖9 Sconv-CR-IP 的CAL-Cycle 以及Time

    圖10 Mconv-CR-MP 的CAL-Cycle 以及Time

    4.2.2 功率結(jié)果對(duì)比

    加速器的能耗主要由傳輸能耗和計(jì)算能耗組成。由于模擬器VTA 只能給出加速器的工作時(shí)間,所以本節(jié)將只比較CNNGModel 與仿真綜合的結(jié)果。首先將分析加速器工作時(shí)對(duì)不同存儲(chǔ)的訪問(wèn)次數(shù),這些次數(shù)可用于得到傳輸能耗為模型的中間輸出。

    圖11(a)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)對(duì)EXMC 的讀次數(shù)(EXMCR-ATimes),其中CNNGModel 的誤差率分別為0.13%、0.32%、0.56%、0.51%,0.13%和0.47%,與仿真結(jié)果十分接近。圖11(b)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)的PE 間傳播次數(shù)(ProTimes),其中CNNGModel 的誤差率分別為0.57%、1.31%、1.03%、0.37%、2.98% 和0.54%??梢钥吹紺NNGModel比仿真結(jié)果稍小,而造成該現(xiàn)象的原因是CNNGModel 沒(méi)有考慮在PE 間傳播的一些額外控制信號(hào)(如當(dāng)stride 不為1 時(shí),會(huì)有一些額外的控制信號(hào)送到PE 中)。圖11(c)中給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)對(duì) EXMC 的寫(xiě)次數(shù)(EXMCWATimes),其中CNNGModel 的誤差率分別為2.84%、4.20%、6.98%、1.25%、7.44%和8.04%。可以看到這里的建模結(jié)果比仿真結(jié)果稍小,而造成該現(xiàn)象的原因是由于Sconv-DR-OP 在仿真時(shí)寫(xiě)回的位寬是固定的,所以當(dāng)有效結(jié)果的總位寬低于寫(xiě)回位寬時(shí),也會(huì)按寫(xiě)回的固定位寬來(lái)統(tǒng)計(jì)從而增加了額外的寫(xiě)回次數(shù)。圖12、圖13 給出了Sconv-CR-IP、Mconv-CRMP 在處理6 個(gè)卷積層時(shí)各個(gè)參數(shù)的CNNGModel 值和仿真值。可以看到這些參數(shù)的CNNGModel 結(jié)果和仿真結(jié)果基本相同。

    圖11 Sconv-DR-OP 的中間輸出

    圖12 Sconv-CR-IP 的中間輸出

    圖13 Mconv-CR-MP 的中間輸出

    圖14 給出了3 個(gè)加速器在處理6 個(gè)卷積層時(shí)的功率。可以看到CNNGModel 的結(jié)果與仿真綜合結(jié)果相近,但始終比其小。造成該現(xiàn)象的原因是CNNGModel 只考慮了傳輸、計(jì)算以及NoC 消耗的動(dòng)態(tài)功率,而RTL 級(jí)的綜合還考慮了靜態(tài)功率等。

    圖14 3 個(gè)加速器處理每個(gè)任務(wù)的功率

    5 CNN 加速器優(yōu)化策略

    依據(jù)CNNGModel,本節(jié)從能耗和性能兩方面給出了多項(xiàng)CNN 加速器優(yōu)化策略。

    5.1 能耗優(yōu)化策略

    在CNNGModel 中,CNN 加速器傳輸能耗的計(jì)算方式如式(20)所示。其中DRAM_E、SRAM_E以及Register_E代表單次訪問(wèn)每種存儲(chǔ)結(jié)構(gòu)時(shí)需要的能耗,ATimesDRAM、ATimesSRAM以及ProTimesRegister代表每種存儲(chǔ)結(jié)被訪問(wèn)的總次數(shù)。

    文獻(xiàn)[4]給出了單次訪問(wèn)DRAM、SRAM 和Register 的能耗比為200 ∶6 ∶1。因此為了減少傳輸能耗,根據(jù)式(20),常用的方法為增加SRAM 以及Register 大小從而減少對(duì)DRAM 的訪問(wèn)次數(shù)。除此之外,根據(jù)式(20),通過(guò)減少ATimesDRAM、ATimesSRAM以及ProTimesRegister,CNNGModel 還可以從更多的角度對(duì)減少傳輸能耗提出相應(yīng)的策略。

    當(dāng)ATimesDRAM通過(guò)式 (3)ATimes=計(jì)算時(shí),可以選擇增加相應(yīng)存儲(chǔ)的帶寬從而減少ATimes,最終達(dá)到減少傳輸能耗的目的。例如選擇使用多塊DRAM 而不是一整塊大面積DRAM,因?yàn)槎鄩KDRAM 可以被同時(shí)訪問(wèn),通過(guò)增加channel 提高并行度的方式來(lái)增加帶寬。

    當(dāng)ATimesSRAM通過(guò)式(2)ATimes=計(jì)算時(shí),此時(shí)若想使ATimes 減半,可以將PE 陣列每次從SRAM 讀取ifmaps 的位寬增加1 倍。例如可以將PE 陣列中Register 的個(gè)數(shù)增加1 倍,或用SRAM 代替Register 并將SRAM 寫(xiě)位寬按要求設(shè)置。當(dāng)ATimesSRAM通過(guò)式 (5)ATimes=計(jì)算時(shí),此時(shí)若想使ATimes 降低,可以通過(guò)增加每個(gè)PE 中計(jì)算單元MAC 的個(gè)數(shù)來(lái)達(dá)到需求。

    在CNNGModel 中,CNN 加速器計(jì)算能耗的計(jì)算方式如式(21)所示。其中ComputeA為當(dāng)前應(yīng)用的計(jì)算量,Technology為加速器的工藝。因此根據(jù)式(21),可以通過(guò)提升加速器的工藝來(lái)減少因?yàn)橛?jì)算產(chǎn)生的能耗。

    5.2 性能優(yōu)化策略

    CNN 加速器的執(zhí)行時(shí)間是由傳輸時(shí)間和計(jì)算時(shí)間兩部分組成的。因?yàn)榱魉€的存在,加速器內(nèi)部大部分由于數(shù)據(jù)傳輸所帶來(lái)的時(shí)間可以被計(jì)算時(shí)間所覆蓋。為了減少CNN 加速器的總執(zhí)行時(shí)間,需要盡量減少不能被計(jì)算時(shí)間覆蓋的數(shù)據(jù)傳輸時(shí)間。因此CNN 加速器在設(shè)計(jì)時(shí)需要盡量將片上的存儲(chǔ)結(jié)構(gòu)做雙緩存處理,添加ifmaps 和filters 數(shù)據(jù)的預(yù)取機(jī)制。這樣能減少流水線阻斷情況的發(fā)生,保證每個(gè)卷積核的計(jì)算過(guò)程能夠無(wú)縫迭代執(zhí)行。

    6 結(jié)論

    本文首先基于CNN 加速器的通用硬件結(jié)構(gòu),提出了加速器中數(shù)據(jù)傳播路徑的概念。其次提出了CNN 加速器性能與能耗通用評(píng)估模型(CNNGModel)。CNNGModel 的輸入包括4 部分:CNN 加速器參數(shù)、CNN 加速器數(shù)據(jù)傳播方式、CNN 加速器的數(shù)據(jù)傳播路徑以及NoC 評(píng)估模型。輸出包括中間輸出和最終輸出兩部分。CNNGModel 的核心部分為通用模型庫(kù)。

    實(shí)驗(yàn)結(jié)果證明,CNNGModel 的結(jié)果與真實(shí)的仿真值是十分接近的。最后本文從能耗和性能兩方面給出了多項(xiàng)CNN 加速器優(yōu)化策略。

    猜你喜歡
    下層數(shù)據(jù)量加速器
    輪滑加速器
    化學(xué)工業(yè)的“加速器”
    全民小康路上的“加速器”
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
    寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    一類多個(gè)下層的雙層規(guī)劃問(wèn)題
    積雪
    陜西橫山羅圪臺(tái)村元代壁畫(huà)墓發(fā)掘簡(jiǎn)報(bào)
    考古與文物(2016年5期)2016-12-21 06:28:48
    男女边吃奶边做爰视频| 国产成人精品在线电影| 婷婷色麻豆天堂久久| 99久久中文字幕三级久久日本| 少妇猛男粗大的猛烈进出视频| 99热全是精品| 欧美激情 高清一区二区三区| 亚洲经典国产精华液单| 色婷婷av一区二区三区视频| 欧美日韩国产mv在线观看视频| 久久久久久人人人人人| 亚洲成av片中文字幕在线观看 | 免费av不卡在线播放| 国产精品国产三级专区第一集| 亚洲内射少妇av| 高清欧美精品videossex| 九九爱精品视频在线观看| 亚洲成av片中文字幕在线观看 | 亚洲欧美成人综合另类久久久| 免费大片18禁| 晚上一个人看的免费电影| a级片在线免费高清观看视频| a级毛片在线看网站| 亚洲av福利一区| 欧美人与性动交α欧美软件 | 国产激情久久老熟女| 婷婷色综合www| 99久久人妻综合| av有码第一页| 一级毛片 在线播放| 美女内射精品一级片tv| 丝袜喷水一区| 纵有疾风起免费观看全集完整版| 高清av免费在线| 久久午夜福利片| 丝瓜视频免费看黄片| 国产白丝娇喘喷水9色精品| 久久99蜜桃精品久久| 青春草亚洲视频在线观看| 九色亚洲精品在线播放| 国产又色又爽无遮挡免| 91aial.com中文字幕在线观看| 国产精品一区二区在线不卡| 婷婷色av中文字幕| 岛国毛片在线播放| av片东京热男人的天堂| 在现免费观看毛片| 欧美变态另类bdsm刘玥| 成人手机av| 中国国产av一级| 侵犯人妻中文字幕一二三四区| 精品视频人人做人人爽| 22中文网久久字幕| 两个人看的免费小视频| 欧美亚洲日本最大视频资源| 国产免费现黄频在线看| 国产精品人妻久久久影院| 亚洲欧美清纯卡通| 亚洲丝袜综合中文字幕| 日本-黄色视频高清免费观看| 成人国语在线视频| 免费日韩欧美在线观看| 亚洲丝袜综合中文字幕| 国产精品成人在线| 天美传媒精品一区二区| 欧美亚洲日本最大视频资源| 女人久久www免费人成看片| 如日韩欧美国产精品一区二区三区| 丰满乱子伦码专区| 国产精品久久久久久精品古装| 欧美+日韩+精品| 成人黄色视频免费在线看| 午夜免费鲁丝| 国产日韩欧美亚洲二区| 男女下面插进去视频免费观看 | 亚洲,欧美精品.| 一区二区三区精品91| 中国国产av一级| 久久精品久久久久久久性| 久久久久久久久久成人| 街头女战士在线观看网站| 国产日韩一区二区三区精品不卡| 如何舔出高潮| 国产av码专区亚洲av| 成人国语在线视频| 麻豆乱淫一区二区| 女人久久www免费人成看片| 成人国产麻豆网| 丝袜美足系列| 新久久久久国产一级毛片| 狠狠婷婷综合久久久久久88av| 国产一区亚洲一区在线观看| 最近的中文字幕免费完整| 久热这里只有精品99| 亚洲精品乱码久久久久久按摩| 久久久久人妻精品一区果冻| 国产精品一二三区在线看| 欧美激情 高清一区二区三区| 如日韩欧美国产精品一区二区三区| 看免费av毛片| 精品人妻一区二区三区麻豆| 男的添女的下面高潮视频| 男女高潮啪啪啪动态图| 天天躁夜夜躁狠狠躁躁| 亚洲精品aⅴ在线观看| 免费av中文字幕在线| 侵犯人妻中文字幕一二三四区| 久久亚洲国产成人精品v| 亚洲熟女精品中文字幕| 亚洲综合精品二区| 久久久欧美国产精品| 91国产中文字幕| 久久精品久久精品一区二区三区| 老女人水多毛片| 大话2 男鬼变身卡| 美女xxoo啪啪120秒动态图| 国产一级毛片在线| 你懂的网址亚洲精品在线观看| 国产精品国产三级国产av玫瑰| 色婷婷久久久亚洲欧美| 亚洲国产毛片av蜜桃av| 亚洲,欧美精品.| 欧美日韩一区二区视频在线观看视频在线| 国精品久久久久久国模美| 青春草国产在线视频| 高清视频免费观看一区二区| 99香蕉大伊视频| av国产久精品久网站免费入址| 十八禁高潮呻吟视频| 制服丝袜香蕉在线| 中国国产av一级| 免费日韩欧美在线观看| 97在线视频观看| 少妇精品久久久久久久| 欧美日韩亚洲高清精品| 亚洲精品久久成人aⅴ小说| 免费黄频网站在线观看国产| 尾随美女入室| 最近最新中文字幕大全免费视频 | 我的女老师完整版在线观看| 免费观看性生交大片5| 亚洲精品成人av观看孕妇| 成人综合一区亚洲| 美女中出高潮动态图| 国产高清国产精品国产三级| 夫妻午夜视频| 五月天丁香电影| 在线亚洲精品国产二区图片欧美| 伊人久久国产一区二区| 国产毛片在线视频| 亚洲一码二码三码区别大吗| 国产麻豆69| 黄色毛片三级朝国网站| 黄色 视频免费看| 国产午夜精品一二区理论片| 边亲边吃奶的免费视频| 日韩中文字幕视频在线看片| 99久久综合免费| 狠狠精品人妻久久久久久综合| 99re6热这里在线精品视频| 日韩av不卡免费在线播放| 亚洲精品色激情综合| 丰满少妇做爰视频| 老熟女久久久| videosex国产| 美女主播在线视频| 日韩 亚洲 欧美在线| 亚洲精品美女久久av网站| av片东京热男人的天堂| 99热这里只有是精品在线观看| 成人亚洲精品一区在线观看| 高清av免费在线| 999精品在线视频| 国产av码专区亚洲av| 丰满乱子伦码专区| 丁香六月天网| 国产一区二区三区av在线| 精品国产国语对白av| 秋霞伦理黄片| 国产欧美日韩综合在线一区二区| 亚洲欧美日韩另类电影网站| 人人妻人人澡人人爽人人夜夜| 少妇的逼好多水| 亚洲av综合色区一区| 国产一区二区在线观看av| 精品少妇久久久久久888优播| 美国免费a级毛片| 国产深夜福利视频在线观看| 中文天堂在线官网| 亚洲内射少妇av| 国产又爽黄色视频| 日韩伦理黄色片| 在线 av 中文字幕| 性高湖久久久久久久久免费观看| 桃花免费在线播放| 国产精品一二三区在线看| 人人妻人人澡人人爽人人夜夜| 男女边吃奶边做爰视频| 一个人免费看片子| 国产熟女午夜一区二区三区| 国产黄色视频一区二区在线观看| 成人亚洲精品一区在线观看| 亚洲av中文av极速乱| 看免费成人av毛片| 久久这里有精品视频免费| 大话2 男鬼变身卡| 欧美国产精品一级二级三级| 五月天丁香电影| 国产亚洲精品第一综合不卡 | 午夜视频国产福利| av.在线天堂| 日韩三级伦理在线观看| 一二三四中文在线观看免费高清| 国产精品久久久久久久久免| 久久久久精品人妻al黑| 极品人妻少妇av视频| 午夜福利影视在线免费观看| 亚洲欧美日韩另类电影网站| 久久久欧美国产精品| 国产成人精品无人区| 成人国产av品久久久| 亚洲人与动物交配视频| 久久久久久人人人人人| 国产精品不卡视频一区二区| 欧美人与性动交α欧美精品济南到 | 国产免费又黄又爽又色| 男的添女的下面高潮视频| 免费大片18禁| 伊人久久国产一区二区| 大话2 男鬼变身卡| 国产亚洲午夜精品一区二区久久| 99热全是精品| 少妇人妻久久综合中文| 亚洲国产精品成人久久小说| 国产精品不卡视频一区二区| 最黄视频免费看| 成人无遮挡网站| 另类精品久久| 欧美最新免费一区二区三区| 最近最新中文字幕免费大全7| 精品一区二区三区视频在线| 亚洲成av片中文字幕在线观看 | 精品酒店卫生间| 色婷婷av一区二区三区视频| 国精品久久久久久国模美| 欧美3d第一页| 大香蕉久久网| 中文精品一卡2卡3卡4更新| 国产片特级美女逼逼视频| 少妇被粗大的猛进出69影院 | 爱豆传媒免费全集在线观看| 亚洲国产精品成人久久小说| 熟女av电影| 99热国产这里只有精品6| 国产亚洲精品久久久com| 免费看不卡的av| 久久99精品国语久久久| 人人妻人人添人人爽欧美一区卜| 乱人伦中国视频| 国产精品 国内视频| 综合色丁香网| 高清在线视频一区二区三区| 成人亚洲欧美一区二区av| 多毛熟女@视频| 女的被弄到高潮叫床怎么办| 久久鲁丝午夜福利片| 日韩中文字幕视频在线看片| 韩国高清视频一区二区三区| 国产不卡av网站在线观看| 欧美精品人与动牲交sv欧美| 黑人欧美特级aaaaaa片| 丝袜在线中文字幕| 国产毛片在线视频| 99精国产麻豆久久婷婷| 日韩伦理黄色片| 亚洲欧美日韩卡通动漫| 最近中文字幕高清免费大全6| 日韩三级伦理在线观看| 午夜老司机福利剧场| 青春草视频在线免费观看| 国产精品偷伦视频观看了| 丰满乱子伦码专区| 999精品在线视频| 在线天堂中文资源库| 中文字幕人妻熟女乱码| 毛片一级片免费看久久久久| av在线老鸭窝| freevideosex欧美| 久久国产亚洲av麻豆专区| 又大又黄又爽视频免费| 女人精品久久久久毛片| 亚洲成人手机| 丝袜脚勾引网站| 国产免费视频播放在线视频| 美女视频免费永久观看网站| 插逼视频在线观看| 亚洲精品国产色婷婷电影| 自线自在国产av| 国产不卡av网站在线观看| 你懂的网址亚洲精品在线观看| www.色视频.com| 久久久久人妻精品一区果冻| 国产欧美日韩一区二区三区在线| 看十八女毛片水多多多| 男女国产视频网站| av线在线观看网站| 香蕉丝袜av| 亚洲av.av天堂| 欧美精品亚洲一区二区| 国产精品不卡视频一区二区| 免费人妻精品一区二区三区视频| 男男h啪啪无遮挡| 成人综合一区亚洲| av免费观看日本| 欧美人与性动交α欧美软件 | 成人亚洲欧美一区二区av| 亚洲伊人久久精品综合| 少妇人妻精品综合一区二区| 午夜视频国产福利| 少妇人妻 视频| 一级毛片我不卡| 免费在线观看完整版高清| 国产精品国产三级国产av玫瑰| 少妇人妻精品综合一区二区| 看免费成人av毛片| 日日撸夜夜添| 一本大道久久a久久精品| 亚洲欧美一区二区三区国产| 女性生殖器流出的白浆| 亚洲精品色激情综合| 国产1区2区3区精品| av线在线观看网站| 香蕉丝袜av| 日韩av免费高清视频| 欧美成人午夜精品| 国产av一区二区精品久久| 久久这里只有精品19| 中文乱码字字幕精品一区二区三区| 亚洲精品久久成人aⅴ小说| 久久99精品国语久久久| 国产成人免费无遮挡视频| 亚洲精品一区蜜桃| 天天操日日干夜夜撸| 中文字幕av电影在线播放| 成年女人在线观看亚洲视频| 波多野结衣一区麻豆| 亚洲av免费高清在线观看| 久久鲁丝午夜福利片| 啦啦啦在线观看免费高清www| 性色av一级| 日本-黄色视频高清免费观看| 国产成人av激情在线播放| 又黄又爽又刺激的免费视频.| 街头女战士在线观看网站| 亚洲四区av| 不卡视频在线观看欧美| av又黄又爽大尺度在线免费看| 欧美亚洲日本最大视频资源| 日本黄大片高清| 91在线精品国自产拍蜜月| 亚洲国产毛片av蜜桃av| 中文欧美无线码| 国产精品嫩草影院av在线观看| 久久鲁丝午夜福利片| 久久久亚洲精品成人影院| 亚洲综合色网址| 一二三四在线观看免费中文在 | 久久人人97超碰香蕉20202| 一级毛片黄色毛片免费观看视频| 亚洲欧洲精品一区二区精品久久久 | 国产片特级美女逼逼视频| 赤兔流量卡办理| 七月丁香在线播放| 99热6这里只有精品| 大陆偷拍与自拍| 人人澡人人妻人| 国产色婷婷99| 国产欧美日韩综合在线一区二区| 欧美精品亚洲一区二区| 国产高清不卡午夜福利| 久久久久人妻精品一区果冻| 一个人免费看片子| 国产熟女午夜一区二区三区| 国产 精品1| 国产av精品麻豆| 综合色丁香网| 精品国产一区二区三区四区第35| 久久精品久久久久久噜噜老黄| 亚洲精品成人av观看孕妇| 少妇高潮的动态图| 少妇人妻久久综合中文| 午夜激情av网站| 久久久久久久久久久免费av| 9色porny在线观看| 日本欧美视频一区| av免费观看日本| 麻豆精品久久久久久蜜桃| 国产精品偷伦视频观看了| 国产69精品久久久久777片| 国产精品无大码| 国产日韩欧美视频二区| 国产 一区精品| 国产精品久久久久久精品古装| 高清黄色对白视频在线免费看| 国产精品无大码| 99re6热这里在线精品视频| av免费观看日本| 日韩 亚洲 欧美在线| 波野结衣二区三区在线| 少妇的丰满在线观看| 亚洲五月色婷婷综合| 女性生殖器流出的白浆| 精品第一国产精品| 亚洲精品久久成人aⅴ小说| 最新中文字幕久久久久| 韩国av在线不卡| 中文天堂在线官网| 啦啦啦在线观看免费高清www| 亚洲国产成人一精品久久久| 全区人妻精品视频| 久久青草综合色| 亚洲久久久国产精品| 久久影院123| 免费在线观看完整版高清| 搡老乐熟女国产| 成年女人在线观看亚洲视频| 爱豆传媒免费全集在线观看| 99热全是精品| 中文字幕人妻丝袜制服| 99九九在线精品视频| 亚洲成av片中文字幕在线观看 | 久久鲁丝午夜福利片| 男女高潮啪啪啪动态图| 丝瓜视频免费看黄片| 亚洲第一区二区三区不卡| 嫩草影院入口| 国产成人一区二区在线| 精品一区在线观看国产| 在线观看免费视频网站a站| 色吧在线观看| 男人舔女人的私密视频| 久久99蜜桃精品久久| 国产成人aa在线观看| 欧美xxⅹ黑人| 咕卡用的链子| 久久久国产精品麻豆| 在线观看美女被高潮喷水网站| 男女午夜视频在线观看 | 久久人人97超碰香蕉20202| 91aial.com中文字幕在线观看| 久久久久国产精品人妻一区二区| 亚洲性久久影院| 久久人人爽av亚洲精品天堂| av有码第一页| 五月天丁香电影| 国产黄色免费在线视频| 天天躁夜夜躁狠狠躁躁| 中文精品一卡2卡3卡4更新| 国产不卡av网站在线观看| 亚洲 欧美一区二区三区| 亚洲成人av在线免费| a级毛片黄视频| 一区二区三区精品91| 男人舔女人的私密视频| 午夜激情久久久久久久| 欧美人与善性xxx| 精品卡一卡二卡四卡免费| 久久99一区二区三区| 亚洲精品第二区| 日本午夜av视频| 伊人久久国产一区二区| 色哟哟·www| 亚洲性久久影院| 精品少妇内射三级| 中文字幕另类日韩欧美亚洲嫩草| 亚洲国产精品成人久久小说| 中文欧美无线码| 丝瓜视频免费看黄片| xxx大片免费视频| 亚洲人成网站在线观看播放| 亚洲,一卡二卡三卡| 熟女电影av网| 狂野欧美激情性bbbbbb| 两性夫妻黄色片 | 欧美日韩成人在线一区二区| 亚洲精品国产av蜜桃| 国产欧美另类精品又又久久亚洲欧美| 97超碰精品成人国产| 亚洲欧美日韩卡通动漫| 精品熟女少妇av免费看| 国产乱来视频区| 99香蕉大伊视频| 一个人免费看片子| 在线观看国产h片| 国产在线免费精品| 久久久久网色| 日本av免费视频播放| 国产在线一区二区三区精| 又粗又硬又长又爽又黄的视频| 亚洲精华国产精华液的使用体验| 制服人妻中文乱码| 宅男免费午夜| 成人18禁高潮啪啪吃奶动态图| 丰满少妇做爰视频| 天天影视国产精品| 亚洲av.av天堂| 久久精品国产亚洲av天美| 婷婷色综合大香蕉| 999精品在线视频| 午夜av观看不卡| 国产一级毛片在线| 男人操女人黄网站| 日本av免费视频播放| 亚洲精品成人av观看孕妇| 国产永久视频网站| 精品一区二区三区视频在线| 中文字幕另类日韩欧美亚洲嫩草| 嫩草影院入口| www.av在线官网国产| 丰满迷人的少妇在线观看| 国产色婷婷99| 少妇人妻久久综合中文| 十八禁高潮呻吟视频| 最新中文字幕久久久久| 亚洲精品中文字幕在线视频| 欧美日韩视频精品一区| 亚洲精品久久久久久婷婷小说| 免费黄色在线免费观看| 亚洲精品视频女| 一二三四在线观看免费中文在 | 七月丁香在线播放| 国产高清三级在线| 欧美精品国产亚洲| 两个人免费观看高清视频| 丰满乱子伦码专区| 97超碰精品成人国产| 国产综合精华液| 欧美激情国产日韩精品一区| 日韩成人av中文字幕在线观看| 亚洲国产日韩一区二区| 少妇熟女欧美另类| av在线观看视频网站免费| 国产69精品久久久久777片| 日本色播在线视频| 久久人人97超碰香蕉20202| 七月丁香在线播放| 成人18禁高潮啪啪吃奶动态图| 一本大道久久a久久精品| 边亲边吃奶的免费视频| 久久人人爽人人片av| 婷婷色麻豆天堂久久| 久久午夜综合久久蜜桃| 深夜精品福利| 国产亚洲最大av| 99国产精品免费福利视频| 中文字幕av电影在线播放| 国产av精品麻豆| 99久国产av精品国产电影| 永久网站在线| 欧美精品亚洲一区二区| 欧美精品人与动牲交sv欧美| 另类精品久久| 日韩制服骚丝袜av| 国产色婷婷99| 青春草亚洲视频在线观看| www.av在线官网国产| 春色校园在线视频观看| 国产黄色免费在线视频| 中文字幕制服av| 成人国语在线视频| 人妻 亚洲 视频| 最近中文字幕高清免费大全6| 久久久久久久久久人人人人人人| 女性被躁到高潮视频| 午夜日本视频在线| 在线亚洲精品国产二区图片欧美| 18禁裸乳无遮挡动漫免费视频| 80岁老熟妇乱子伦牲交| 欧美日韩视频高清一区二区三区二| 国产精品.久久久| 99久国产av精品国产电影| 日产精品乱码卡一卡2卡三| 午夜精品国产一区二区电影| 日日撸夜夜添| 少妇被粗大的猛进出69影院 | 少妇人妻精品综合一区二区| 美女主播在线视频| 久久久a久久爽久久v久久| 一级毛片电影观看| 国产欧美亚洲国产| 婷婷色综合www| 国产极品天堂在线| 亚洲国产成人一精品久久久| 成人国产av品久久久| 99国产综合亚洲精品| 人妻人人澡人人爽人人| av.在线天堂| 春色校园在线视频观看| 久久免费观看电影| 欧美日韩亚洲高清精品| 一本—道久久a久久精品蜜桃钙片| 国产精品久久久av美女十八| 成人影院久久| 女人久久www免费人成看片| 一区二区三区乱码不卡18| 22中文网久久字幕| 如何舔出高潮| 亚洲一级一片aⅴ在线观看| 久久久欧美国产精品| 高清不卡的av网站| 寂寞人妻少妇视频99o| 日韩一区二区三区影片| 亚洲欧洲国产日韩| 久久狼人影院| xxxhd国产人妻xxx|