祁玉瓊 張明喆 吳海彬 葉笑春③
(*中國(guó)科學(xué)院計(jì)算技術(shù)研究所計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京100190)
(**中國(guó)科學(xué)院大學(xué) 北京100049)
目前已有多種用于解決各類識(shí)別與分類相關(guān)問(wèn)題的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)被提出,例如AlexNet[1]、VGG[2]及ResNet[3]等。同時(shí),針對(duì)一些特定領(lǐng)域也演化出了很多CNN相關(guān)的神經(jīng)網(wǎng)絡(luò)。例如用于生成圖像數(shù)據(jù)集、實(shí)現(xiàn)文字到圖像轉(zhuǎn)換的生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN),用于物體識(shí)別、人臉識(shí)別的深度遷移學(xué)習(xí)算法(transfer learning),用于自動(dòng)駕駛和安防監(jiān)控的目標(biāo)檢測(cè)算法(YOLO 等)以及用于機(jī)器人、游戲自動(dòng)化的強(qiáng)化學(xué)習(xí)算法(DQN 等)。因此可以看到,由于CNN 可以有效地處理各類復(fù)雜問(wèn)題,其在現(xiàn)實(shí)生活中被各行各業(yè)所廣泛使用。
為了能夠有效地處理各種基于CNN 的算法,越來(lái)越多的CNN 加速器被提出,例如Eyeriss[4]、DaDianNao[5]、ShiDianNao[6]等。大部分CNN 加速器的存儲(chǔ)結(jié)構(gòu)分為3 層,即片外存儲(chǔ)(DRAM)、片上存儲(chǔ)(SRAM)以及計(jì)算單元(processing element,PE)中的寄存器(Register),且不同加速器中相同存儲(chǔ)結(jié)構(gòu)的大小、容量都各不相同。此外不同加速器的PE陣列(PE array)大小和對(duì)應(yīng)的計(jì)算能力也均不同。由此可見(jiàn)CNN 加速器的設(shè)計(jì)包括很多方面,是一個(gè)相對(duì)復(fù)雜的工作。
當(dāng)CNN 加速器設(shè)計(jì)完成后,硬件工程師需要使用硬件描述語(yǔ)言(Verilog 或VHDL)對(duì)其進(jìn)行基于寄存器傳輸級(jí)的抽象和實(shí)現(xiàn)。這一步的工程量巨大,需要耗費(fèi)大量的時(shí)間以及人力。此后通過(guò)仿真工具和邏輯綜合器對(duì)寄存器傳輸級(jí)的設(shè)計(jì)進(jìn)行仿真和綜合,可以得到該加速器的性能、能耗以及面積的評(píng)估。
不同應(yīng)用場(chǎng)景對(duì)性能以及能耗的要求都不同,例如數(shù)據(jù)中心主要用于處理大量后端應(yīng)用,因此其更關(guān)心處理器的性能功耗比[7];邊緣物端如IoT,則對(duì)處理器功耗的要求更為嚴(yán)格[8];而在高實(shí)時(shí)性要求的智能駕駛場(chǎng)景下,處理器的性能則是重點(diǎn)關(guān)注指標(biāo)。因此針對(duì)特定領(lǐng)域,若設(shè)計(jì)出的加速器其仿真綜合后得到的性能和能耗指標(biāo)不符合應(yīng)用需要,硬件工程師則需要重新設(shè)計(jì)CNN 加速器的結(jié)構(gòu),再用硬件描述語(yǔ)言修改相應(yīng)的寄存器傳輸級(jí)設(shè)計(jì)。
加速器的執(zhí)行時(shí)間或能耗可以通過(guò)多種策略進(jìn)行優(yōu)化。若選擇增加靜態(tài)隨機(jī)存儲(chǔ)器(static random access memory,SRAM)的帶寬來(lái)減少能耗,則不僅要修改SRAM 的結(jié)構(gòu),同時(shí)還需要增加PE 陣列中的寄存器大小。若選擇增加PE 陣列大小來(lái)減少執(zhí)行時(shí)間,則需要修改片上NoC 以及SRAM 的帶寬。所以當(dāng)CNN 加速器某個(gè)結(jié)構(gòu)設(shè)計(jì)發(fā)生改變后,加速器中其他部分的結(jié)構(gòu)設(shè)計(jì)也會(huì)有相應(yīng)的改變。因此,為了符合應(yīng)用的性能與能耗需求,在探索CNN加速器結(jié)構(gòu)設(shè)計(jì)方案時(shí),每一次方案的調(diào)整都會(huì)造成硬件工程師大量修改多個(gè)部件、不同部件間連線以及相關(guān)信號(hào)的寄存器傳輸級(jí)實(shí)現(xiàn)。
為了能夠盡可能地減少或避免上述調(diào)整與修改,本文提出了一種CNN 加速器性能與能耗通用評(píng)估模型(general performance and energy consumption model for CNN accelerator,CNNGModel)。CNNGModel 通過(guò)CNN 加速器中不同結(jié)構(gòu)的具體設(shè)計(jì),可以估計(jì)該加速器處理不同任務(wù)時(shí)所需的時(shí)間與能耗。從而在硬件工程師使用硬件描述語(yǔ)言實(shí)現(xiàn)該加速器前,提前判斷當(dāng)前CNN 加速器的設(shè)計(jì)是否符合應(yīng)用需求,減少后續(xù)不必要的時(shí)間與人力的浪費(fèi)。最后依據(jù)CNNGModel,本文還給出了CNN 加速器優(yōu)化策略,以此幫助硬件架構(gòu)師對(duì)加速器架構(gòu)的調(diào)整。
本文的主要貢獻(xiàn)包括以下5 個(gè)方面。
(1)基于CNN 加速器的通用硬件結(jié)構(gòu),提出加速器中數(shù)據(jù)傳播路徑的概念。
(2)提出了CNN 加速器性能與能耗通用評(píng)估模型(CNNGModel),并實(shí)現(xiàn)了其中的核心部分——通用模型庫(kù),同時(shí)規(guī)定了模型的輸入與多層輸出。
(3)定義了CNN 加速器中的3 種數(shù)據(jù)傳播方式,用于CNNGModel 的輸入。
(4)實(shí)驗(yàn)部分首先設(shè)計(jì)實(shí)現(xiàn)了3 個(gè)CNN 加速器,其次分析對(duì)比了通過(guò)CNNGModel、模擬器VTA以及仿真綜合3 種方式得到的每個(gè)加速器在處理不同CNN 時(shí)的多項(xiàng)結(jié)果。
(5)依據(jù)CNNGModel,給出了對(duì)于CNN 加速器優(yōu)化的多項(xiàng)策略。
本節(jié)首先介紹目前被廣泛關(guān)注的一些CNN 加速器,其次給出目前已有的CNN 加速器性能評(píng)估模型,并對(duì)這些模型進(jìn)行分析與總結(jié)。
DaDianNao[5]主要用于處理大型的CNN,具有伸縮性。當(dāng)單層CNN 的參數(shù)量超過(guò)DaDianNao 單片存儲(chǔ)極限時(shí),DaDianNao 通過(guò)其伸縮性,可以將單層CNN 劃分到多個(gè)芯片上執(zhí)行。ShiDianNao[6]則更傾向于物端場(chǎng)景,它直接與視頻圖像傳感器相連接,直接以傳感器采集到的數(shù)據(jù)作為加速器的輸入。因此ShiDianNao 中輸入訪存的數(shù)據(jù)量更少,片上配置的SRAM 更加精巧,常被用來(lái)處理較小規(guī)模的CNN 傳輸。Eyeriss[4]則是一個(gè)高能效、可重配的神經(jīng)網(wǎng)絡(luò)加速器。其核心設(shè)計(jì)是RowStationary 數(shù)據(jù)流,可以有效減少數(shù)據(jù)搬運(yùn)帶來(lái)的大量時(shí)間和能耗。Origami[9]利用其提出的一種新型卷積網(wǎng)絡(luò)架構(gòu),使加速器的性能達(dá)到TOP/s 量級(jí)的同時(shí),保持較高的面積和能耗效率。NeuFlow[10]是一種運(yùn)行時(shí)可重配置的數(shù)據(jù)流結(jié)構(gòu),一般用于嵌入式系統(tǒng),可以處理人臉識(shí)別、場(chǎng)景分割等。
當(dāng)使用分塊技術(shù)和量化技術(shù)對(duì)CNN 加速器進(jìn)行優(yōu)化時(shí),可以對(duì)加速器的性能進(jìn)行模擬,同時(shí)只針對(duì)低位寬的CNN 加速器[11]。SCALE-Sim[12]是對(duì)基于Systolic 架構(gòu)的CNN 加速器進(jìn)行建模。其中規(guī)定,在PE 陣列中數(shù)據(jù)只能在同一行或同一列中傳播。因此對(duì)于一些基于RowStationary 等數(shù)據(jù)流的加速器(這些加速器中的數(shù)據(jù)需要在不同行(列)間傳播),SCALE-Sim 無(wú)法對(duì)其性能進(jìn)行建模。文獻(xiàn)[4]主要估計(jì)了CNN 加速器內(nèi)的傳輸能耗。首先該工作面向的是不同數(shù)據(jù)流,而不是不同的加速器。其次在進(jìn)行能耗估計(jì)前,需要提前假設(shè)CNN 中3 種類型數(shù)據(jù)在加速器中的傳輸路徑。文獻(xiàn)[13]提出了一種針對(duì)CNN 加速器中數(shù)據(jù)劃分和調(diào)度的分析模型,因此并不能用來(lái)估計(jì)所有CNN 加速器的性能、能耗等。本文提出的CNNGModel 是依據(jù)不同加速器處理CNN 的真實(shí)過(guò)程設(shè)計(jì)的,主要考慮了以下3點(diǎn):(1)CNN 3 種類型數(shù)據(jù)在加速器中的傳輸路徑;(2)路徑中上下層存儲(chǔ)的大小;(3)加速器對(duì)于某一路徑的數(shù)據(jù)處理模式。因?yàn)镃NNGModel 可以給出不同加速器在處理不同CNN 時(shí)消耗的時(shí)間與能耗,所以可用于每個(gè)真實(shí)的CNN 加速器。
本節(jié)首先對(duì)CNN 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行介紹,其次給出CNN 加速器的通用硬件結(jié)構(gòu),最后介紹CNN加速器中的數(shù)據(jù)傳播路徑。
CNN 網(wǎng)絡(luò)主要由卷積層(CONV)、池化層(POOL)以及全連接層(FC)構(gòu)成。這些層均包含2種數(shù)據(jù)類型,即輸入特征圖(input feature map,ifmaps)及輸出特征圖(output feature map,ofmaps)。其中ofmaps 是通過(guò)累加中間結(jié)果(partial sums,psums)得到的。此外卷積層和全連接層還包含第3種數(shù)據(jù)類型濾波器(filters)。圖1 給出卷積層示例,其ifmaps 的大小是I×I×C,個(gè)數(shù)為N;ofmaps 的大小是O×O×M,個(gè)數(shù)為N;filters 的大小是F×F×C,個(gè)數(shù)為M。表1 給出了圖1 中各個(gè)參數(shù)的定義。
圖1 CNN 卷積層
表1 CNN 的參數(shù)
對(duì)于大多數(shù)CNN,卷積層和全連接層的計(jì)算量在整個(gè)網(wǎng)絡(luò)中占比很大(超過(guò)90%),所以本文只對(duì)CNN 中的卷積層進(jìn)行分析(全連接層與卷積層的計(jì)算過(guò)程相同)。本節(jié)首先介紹CNN 加速器的2 種常見(jiàn)數(shù)據(jù)處理方式,其次給出每種數(shù)據(jù)處理方式對(duì)應(yīng)的CNN 加速器通用結(jié)構(gòu)。
圖2 給出了目前比較常見(jiàn)的2 種CNN 加速器數(shù)據(jù)處理方式。其中單卷積(single convolution,Sconv)指加速器執(zhí)行過(guò)程中,每次循環(huán)包含的數(shù)據(jù)為一個(gè)二維卷積;多卷積(multiple convolution,Mconv)指每次循環(huán)包含的數(shù)據(jù)為多個(gè)二維卷積(Tm表示每次處理的filters 的個(gè)數(shù),Tc表示每次處理ifmaps 或filters 中的通道數(shù))。本文將處理器每次循環(huán)包含的數(shù)據(jù)稱為一個(gè)基本處理單元(BasicUnit)。圖2 中,對(duì)于Sconv 的一個(gè)BasicUnit,filters 大小為F×F,ifmaps 的大小為I×I,ofmaps 大小為O×O;對(duì)于Mconv 的一個(gè)BasicUnit,filters 的大小為F×F×Tm×Tc,ifmaps 的大小為I×I×Tc,ofmaps大小為O×O×Tm(對(duì)于Sconv,其BasicUnit 中包含的數(shù)據(jù)量可能會(huì)更小,但只會(huì)涉及ifmaps 中一個(gè)通道的相關(guān)數(shù)據(jù))。
基于圖2 的2 種數(shù)據(jù)處理方式,圖3 給出了相應(yīng)的加速器通用結(jié)構(gòu)。圖3(a)為Sconv 類型加速器的通用結(jié)構(gòu),其中包含加速器片上結(jié)構(gòu)(accelerator chip)和外部存儲(chǔ)(external memory chip,EXMC)。在accelerator chip 中,處理PE array 中的每個(gè)PE 只有一個(gè)乘加計(jì)算部件(multiply-accumulate unit,MAC)。對(duì)于PE 中的存儲(chǔ)部件寄存器(Register),一共有2種結(jié)構(gòu),一種是分散式存儲(chǔ)(dispersive register,DR),即每個(gè)PE 中都有寄存器;另一種是集中式存儲(chǔ)(concentratedregister,CR),即將每個(gè)PE中的寄存器集中起來(lái),統(tǒng)一放到PE array 外部。需要說(shuō)明的是,不同加速器的寄存器大小以及片上網(wǎng)絡(luò)(network on chip,NoC)結(jié)構(gòu)都不同。
圖2 2 種數(shù)據(jù)處理方式
圖3 CNN 加速器通用結(jié)構(gòu)
圖3(b)為Mconv 類型加速器的通用結(jié)構(gòu)圖。其與Sconv 的不同處為:(1)每個(gè)PE 不只有一個(gè)MAC;(2)片上存儲(chǔ)結(jié)構(gòu)一共有2 層,一層為片上緩存(on-chip buffer,OCB),用來(lái)緩存ifmaps、ofmaps以及filters;另一層為寄存器。表2 給出了一些典型的CNN 加速器的數(shù)據(jù)處理方式和寄存器類型。
表2 典型CNN 加速器分類
根據(jù)圖3 中加速器的存儲(chǔ)結(jié)構(gòu),表3 給出了數(shù)據(jù)在這些存儲(chǔ)結(jié)構(gòu)中的傳播路徑。這里需要說(shuō)明的是:(1)當(dāng)加速器片上結(jié)構(gòu)中有寄存器時(shí),路徑中的“→PE”表示數(shù)據(jù)傳輸?shù)郊拇嫫髦?CR 或DR),否則表示數(shù)據(jù)直接傳輸?shù)絇E 中的計(jì)算單元(MAC);(2)“←PE”表示計(jì)算結(jié)果從DR 或者M(jìn)AC 中送出;(3)對(duì)于傳播路徑④“Among PEs”,當(dāng)加速器中的寄存器類型為DR 時(shí),其表示數(shù)據(jù)在PE 間的寄存器中傳播。當(dāng)加速器中的寄存器類型為CR 時(shí),其表示PE 陣列對(duì)CR 的訪問(wèn);(4)本文忽略數(shù)據(jù)在DR 和MAC 之間傳播所需要的時(shí)間和能耗;(5)對(duì)于EXMC→PE 和EXMC←PE,上層存儲(chǔ)均是EXMC,下層存儲(chǔ)均是PE。
表3 數(shù)據(jù)傳播路徑
傳播路徑④“Among PEs”共有3 種類型,ofmaps傳播(ofmaps propagation,OP)、ifmaps 傳播(ifmaps propagation,IP)和多類型數(shù)據(jù)傳播(multiple propagation,MP)。每個(gè)加速器中只能存在其中一個(gè)類型。在OP 類型加速器中,對(duì)于一個(gè)BasicUnit 中的數(shù)據(jù),常見(jiàn)的情況為ifmaps 被直接送到對(duì)應(yīng)PE;filters 被提前固定在PE 中;ofmaps 的中間結(jié)果在PE間傳播累加,最終結(jié)果在其遍歷完所有PE 后生成。NeuFlow[10]、CNP[14]均屬于OP。
在IP 類型加速器中,對(duì)于一個(gè)BasicUnit 中的數(shù)據(jù),常見(jiàn)的情況為filter 被直接送到對(duì)應(yīng)PE,ofmaps 固定在PE 中直到得到最終結(jié)果,ifmaps 在PE間傳播。ShiDianNao[6]即屬于IP。MP 類型加速器指同時(shí)會(huì)有多種類型的數(shù)據(jù)在PE 間傳播。CE[15]、Origami[9]、Eyeriss[4]均屬于MP。表4 給出了一些CNN 加速器的結(jié)構(gòu)以及其中的數(shù)據(jù)傳播路徑。
表4 一些典型加速器的結(jié)構(gòu)與數(shù)據(jù)路徑
圖4 為本文所提出的CNN 加速器評(píng)估模型(CNNGModel)。當(dāng)加速器在處理每層CNN 網(wǎng)絡(luò)時(shí),評(píng)估模型需要做以下工作:(1)加速器相關(guān)參數(shù)和數(shù)據(jù)傳播路徑會(huì)作為模型的輸入,其中每條數(shù)據(jù)傳播路徑為模型的處理單元。(2)通過(guò)調(diào)用模型庫(kù)中的估算模型,得到每條數(shù)據(jù)傳播路徑的中間輸出。(3)合并統(tǒng)計(jì)數(shù)據(jù)傳播路徑的中間輸出,得到最終輸出。
圖4 CNN 加速器通用評(píng)估模型
本文評(píng)估模型的輸入包括4 部分:(1)CNN 加速器參數(shù)(表5和表6);(2)CNN加速器內(nèi)部數(shù)據(jù)傳播類型,分為IP、OP 和MP3 類(詳細(xì)介紹見(jiàn)2.3節(jié));(3)CNN 加速器中3 種數(shù)據(jù)類型的傳播路徑(詳細(xì)介紹見(jiàn)2.3 節(jié));(4)NoC 估計(jì)模型[17]用于估計(jì)“Among PEs”路徑帶來(lái)的時(shí)間與能耗開(kāi)銷。
表5 CNN 加速器中的一些硬件參數(shù)(I)
表6 CNN 加速器中的一些硬件參數(shù)(II)
表5 中的參數(shù)為加速器設(shè)計(jì)時(shí)需要考慮的參數(shù),主要用于在評(píng)估模型中得到中間輸出。其可以分為兩類:加速器結(jié)構(gòu)參數(shù)以及數(shù)據(jù)處理方式參數(shù)。其中第1 類包括3 部分:加速器存儲(chǔ)結(jié)構(gòu)、計(jì)算部件以及片上網(wǎng)絡(luò)的相關(guān)參數(shù)。第2 類包括加速器中BasicUnit 以及psums 處理方式的相關(guān)參數(shù)。表6 中的參數(shù)為加速器中不同部件的實(shí)際參數(shù),例如頻率、不同存儲(chǔ)結(jié)構(gòu)的單次訪問(wèn)能耗等。這些參數(shù)主要用于在評(píng)估模型中得到最終輸出,使用Parameters.Variable來(lái)表示這些參數(shù)(例如IOCB.size)。
基于3.1 節(jié)的輸入,如圖5 所示,本文的評(píng)估模型將首先給出中間輸出ATimes、AVolume 以及Pro-Times;其次依據(jù)中間輸出最終得到目標(biāo)CNN 加速器的性能以及能耗。
圖5 CNN 加速器評(píng)估模型輸出
首先對(duì)于中間輸出給出以下定義:當(dāng)加速器在處理一個(gè)BasicUnit 時(shí),數(shù)據(jù)在每條傳播路徑中對(duì)上層存儲(chǔ)的訪問(wèn)次數(shù)被定義為ATimes;在每條傳播路徑中,下層存儲(chǔ)在初始化時(shí)獲得的數(shù)據(jù)量被定義為AVolume;當(dāng)路徑為“Among PEs”時(shí),PE 間傳播的數(shù)據(jù)量被定義為ProTimes。其次對(duì)于最終輸出給出以下定義:Ttransfer 為由數(shù)據(jù)傳輸帶來(lái)的時(shí)間;Etransfer 為數(shù)據(jù)傳輸所帶來(lái)的能耗;Tcompute 為由計(jì)算帶來(lái)的時(shí)間;Ecompute 為由計(jì)算帶來(lái)的能耗。
因?yàn)榇蠖鄶?shù)CNN 的輸入輸出數(shù)據(jù)量都很大,如AlexNet 過(guò)濾器的數(shù)據(jù)量為61 MB、Overfeatfast 為146 MB、VGG16 為138 MB,所以當(dāng)加速器在處理這些CNN 時(shí),無(wú)論是從片外到片上,還是只在片上,都會(huì)存在大量的數(shù)據(jù)搬移。從表7 可以看到,大部分CNN 加速器的存儲(chǔ)結(jié)構(gòu)面積均超過(guò)總面積的一半,其中Eyeriss 甚至高達(dá)81.1%。所以CNN 加速器工作時(shí),存儲(chǔ)間的數(shù)據(jù)傳輸將消耗大量的時(shí)間與能耗。因此本文將重點(diǎn)分析CNNGModel 中的Ttransfer 與Etransfer。
表7 CNN 加速器存儲(chǔ)結(jié)構(gòu)面積
Ttransfer 通過(guò)AVolume 計(jì)算得到。因?yàn)橹恍枰紤]數(shù)據(jù)在不同存儲(chǔ)結(jié)構(gòu)之間傳輸所需的時(shí)間中不能被計(jì)算時(shí)間所覆蓋的部分,而造成這部分不能被覆蓋的時(shí)間的數(shù)據(jù)量為AVolume。對(duì)于Etransfer,通過(guò)CACTI-6.5 可以得到單次訪問(wèn)DRAM 的能耗,同時(shí)可以獲取不同工藝下,單次訪問(wèn)不同存儲(chǔ)結(jié)構(gòu)(DRAM、SRAM、Register 等)產(chǎn)生的能耗之間的相對(duì)比值。因此進(jìn)一步分別統(tǒng)計(jì)3 種數(shù)據(jù)類型(ifmaps、filters、ofmaps) 對(duì)于不同存儲(chǔ)結(jié)構(gòu)的訪存次數(shù)(ATimes),就可以計(jì)算出Etransfer。Tcompute 可以根據(jù)硬件的峰值性能得到,Ecompute 將通過(guò)任務(wù)的計(jì)算量以及硬件工藝參數(shù)得到。
CNNGModel 的基本處理單元為目標(biāo)加速器中的每條數(shù)據(jù)傳播路徑。因此當(dāng)加速器在處理每層CNN 網(wǎng)絡(luò)時(shí),CNNGModel 將會(huì)依據(jù)如下步驟工作:首先針對(duì)每一條數(shù)據(jù)傳播路徑選擇通用模型庫(kù)中對(duì)應(yīng)的估算模型;其次依據(jù)輸入的CNN 加速器各項(xiàng)參數(shù)(表5),通過(guò)估算模型得到每條路徑的ATimes、ProTimes 以及AVolume;最后整合所有路徑的計(jì)算結(jié)果,依據(jù)表6 中的參數(shù)得到Ttransfer 與Etransfer。
3.3.1 ATimes、ProTimes 以及AVolume
根據(jù)2.3 節(jié),目標(biāo)加速器中一共會(huì)存在12 種路徑。將其分為3 類:(1) IFTransfer(6 條):ifmaps 和filters 的路徑EXMC→PE、EXMC→OCB 和OCB→PE;(2)OTransfer(3 條):ofmaps 中間結(jié)果(psums)的路徑EXMC←PE、EXMC←OCB 和OCB←PE;(3)PETransfer(3 條):ifmaps、ofmaps 以及filters 的路徑AmongPEs。接下來(lái)將分別介紹上述3 類路徑的ATimes、AVolume 和ProTimes 估算模型。圖6 給出了通用模型庫(kù)中所有路徑的子路徑以及對(duì)應(yīng)的估算模型。
圖6 CNNGModel 通用模型庫(kù)的內(nèi)部結(jié)構(gòu)
3.3.1.1 IFTransfer
在這類路徑中,當(dāng)EXMC→PE 和OCB→PE 的下層存儲(chǔ)結(jié)構(gòu)為DR 時(shí),本文規(guī)定所有PE 中寄存器的總大小為下層存儲(chǔ)大小。IF_Transfer 的ATimes以及AVolume 估算模型可以依據(jù)以下3 類子路徑討論。
(1) 下層存儲(chǔ)充足(EnoughS)
該類子路徑下層存儲(chǔ)的大小大于或等于一個(gè)BasicUnit 中ifmaps 或filters 的數(shù)據(jù)量(依據(jù)路徑中的數(shù)據(jù)類型來(lái)判斷是ifmaps 還是filters)。對(duì)于該路徑,只有當(dāng)一個(gè)BasicUnit 中的數(shù)據(jù)都存儲(chǔ)到其下層存儲(chǔ)后,加速器才會(huì)開(kāi)始工作。所以該路徑的AVolume 等于BasicUnit 中對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)量。對(duì)于ATimes,若路徑下層存儲(chǔ)為DR,則與NoC 的吞吐量有關(guān);若為CR 或OCB,ATimes 與上層存儲(chǔ)帶寬相關(guān),因此:
(2)下層存儲(chǔ)不足但數(shù)據(jù)可重復(fù)使用(UEnoughS_Re)
該類子路徑下層存儲(chǔ)的大小小于一個(gè)BasicUnit 中的數(shù)據(jù)量,但每個(gè)數(shù)據(jù)只需要從上層存儲(chǔ)中讀取一次。這里將分為兩大類對(duì)該子路徑的估算模型進(jìn)行討論,一類為路徑的下層存儲(chǔ)是DR,另一類為下層存儲(chǔ)是CR 或OCB。
首先對(duì)下層存儲(chǔ)為DR 的路徑進(jìn)行討論。這里對(duì)下層存儲(chǔ)為DR 的路徑歸納了3 類數(shù)據(jù)存取模式,并給出了對(duì)應(yīng)的估算模型(未來(lái)若有新的模式,也可以依據(jù)本文的評(píng)估模型得到對(duì)應(yīng)的估算模型)。
不同PE 每次從上層存儲(chǔ)得到完全相同的數(shù)據(jù),且每次存取的數(shù)據(jù)量也相同,一般存在于OP 類型加速器。對(duì)于屬于這種數(shù)據(jù)存取模式的路徑,對(duì)應(yīng)加速器中的PE 一般沒(méi)有存儲(chǔ)相應(yīng)數(shù)據(jù)的寄存器,因此數(shù)據(jù)只能送到PE 中的計(jì)算單元。所以AVolume 與每個(gè)PE 中計(jì)算單元的個(gè)數(shù)相關(guān)。ATimes 則與一個(gè)BasicUnit 中對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)量以及PE 每次得到的數(shù)據(jù)量AVolume 相關(guān)。綜上,對(duì)于該類數(shù)據(jù)存取模式的路徑:
不同PE 每次從上層存儲(chǔ)得到完全不同的數(shù)據(jù),且每個(gè)PE 每次得到的數(shù)據(jù)量不一定相同,一般存在于IP 類型加速器。對(duì)于擁有這種數(shù)據(jù)存取模式路徑的加速器,其中PE 間會(huì)互相傳輸數(shù)據(jù),以此實(shí)現(xiàn)數(shù)據(jù)的重復(fù)利用。因?yàn)檫@類加速器在工作時(shí),每個(gè)周期都有新數(shù)據(jù)讀入,所以這里的ATimes 等于完成一個(gè)BasicUnit 的周期數(shù)。而AVolume 與每個(gè)PE 初始化時(shí)需要的數(shù)據(jù)量以及加速器中PE 的個(gè)數(shù)有關(guān)。綜上,對(duì)于該類路徑,有:
同組PE 每次從上層存儲(chǔ)得到相同的數(shù)據(jù),且每次得到的數(shù)據(jù)量不同,一般存在于MP 類型加速器。這種數(shù)據(jù)存取模式的ATimes 一般與PE 的組數(shù)GROUP.num以及每組得到數(shù)據(jù)的次數(shù)GROUP.cycle相關(guān)。其中GROUP.cycle與每個(gè)PE 中相關(guān)數(shù)據(jù)的寄存器大小以及該數(shù)據(jù)本身的大小相關(guān)(根據(jù)NoC結(jié)構(gòu)的設(shè)計(jì),這里假設(shè)不同組的PE 不會(huì)同時(shí)取數(shù)據(jù))。所以
而AVolume 與PE 中相關(guān)數(shù)據(jù)的寄存儲(chǔ)大小相關(guān),則
接下來(lái)本文討論UEnoughS_Re 類型路徑中,下層存儲(chǔ)為CR 或OCB 的情況。因?yàn)閷儆赨EnoughS_Re 的路徑的下層存儲(chǔ)大小小于一個(gè)BasicUnit中的數(shù)據(jù)量,所以CR 或OCB 中的數(shù)據(jù)會(huì)被多次替換,因此ATimes 等于替換次數(shù)。這里令替換次數(shù)為T(mén)imeRelpace1,該參數(shù)與加速器的設(shè)計(jì)相關(guān)。例如對(duì)于Origami 中ifmaps 的路徑EXMC→OCB,每次滑動(dòng)窗口在ifmaps 上滑動(dòng)時(shí),OCB 中部分ifmaps 的值將被替換,因此該路徑的TimeRelpace1=O×O,AVolume 為初始化時(shí)送入下層存儲(chǔ)的數(shù)據(jù)量即下層存儲(chǔ)的大小。綜上,對(duì)于該類數(shù)據(jù)存取模式的路徑:
(3)下層存儲(chǔ)不足且數(shù)據(jù)不重復(fù)使用(UEnoughS_URe)
該類子路徑下層存儲(chǔ)的大小小于一個(gè)BasicUnit 中的數(shù)據(jù)量,且每個(gè)數(shù)據(jù)需要從上層存儲(chǔ)中讀取多次。該類型路徑的下層存儲(chǔ)一般為CR 或OCB,因此其中的數(shù)據(jù)會(huì)被多次替換,這里設(shè)替換次數(shù)為T(mén)imeRelpace2,與TimeRelpace1 相同,其與加速器內(nèi)部設(shè)計(jì)相關(guān)。因此:
3.3.1.2 OTransfer
本節(jié)將討論OTransfer 類型路徑中ATimes 以及AVolume 的估算模型。因?yàn)镺Transfer 路徑中的數(shù)據(jù)為ofmaps 的中間結(jié)果psums,而在初始化時(shí)OTransfer 類型的路徑不會(huì)有psums 產(chǎn)生,所以:
其次,對(duì)于ATimes,若該類型路徑的下層存儲(chǔ)是PE,則
因?yàn)榇藭r(shí)psums 是從DR 或MAC 送出,所以ATimes與BasicUnit 中psums 的大小以及NoC 有關(guān)。
對(duì)于ATimes,若該類型路徑的下層存儲(chǔ)是OCB,則
這是因?yàn)镺CB 是用來(lái)存儲(chǔ)中間結(jié)果的,即只有最終結(jié)果才會(huì)被從OCB 送出到EXCM,而一個(gè)BasicUnit產(chǎn)生的結(jié)果為psums。
3.3.1.3 PETransfer
在本節(jié)中,將討論P(yáng)ETransfer 類型路徑中Pro-Times 的估算模型。
首先對(duì)于ifmaps 和filters,依據(jù)加速器中寄存器的類型,ProTimes 的計(jì)算方式一共可以分為2 類。若加速器中的寄存器為DR,根據(jù)3.2.1 節(jié)的分析,因?yàn)樵谙聦哟鎯?chǔ)為DR 的路徑中每個(gè)數(shù)據(jù)只需要從上層存儲(chǔ)讀取一次,所以PE 間被重復(fù)利用的數(shù)據(jù)都是通過(guò)PE 間傳播得到的。同時(shí)由于計(jì)算1 個(gè)MAC 需要1 個(gè)ifmap 和1 個(gè)filter,因此通過(guò)將計(jì)算1 個(gè)BasicUnit 所需的MAC 數(shù)量與1 個(gè)BasicUnit 中ifmaps 或filters 的數(shù)據(jù)量相減,可以得到此處的Pro-Times。綜上,有:
若加速器中寄存器的類型為CR,則意味著PE里沒(méi)有存儲(chǔ),所以PE 在每次計(jì)算時(shí)都需要訪問(wèn)CR。因此ProTimes 可以通過(guò)PE 陣列單次計(jì)算能力以及計(jì)算1 個(gè)BasicUnit 需要的能力得到(PE 陣列的非充分利用將在后續(xù)的工作中討論)。綜上,有:
對(duì)于psums,ProTimes 主要與2 個(gè)參數(shù)相關(guān)。一個(gè)是單個(gè)PE 計(jì)算1 個(gè)psum 時(shí)提供的MAC 數(shù)量,可以通過(guò)得到。另一個(gè)為1 個(gè)psum從在PE 陣列中的初始狀態(tài)轉(zhuǎn)變?yōu)樗统龅缴蠈哟鎯?chǔ)時(shí)的狀態(tài)需要的總MAC 量,用PSUMS.macs表示。因此:
3.3.2 Ttransfer 與Etransfer
CNNGModel 將通過(guò)中間輸出ATimes、ProTimes以及AVolume 得到Ttransfer 以及Etransfer。
ProTimes 為“Among PEs”路徑在一個(gè)BasicUnit中產(chǎn)生的在PE 間傳播的數(shù)據(jù)總量,其中每一個(gè)數(shù)據(jù)均需要通過(guò)NoC 從某個(gè)PE 傳播到相應(yīng)的目的PE。因?yàn)槊總€(gè)數(shù)據(jù)在PE 間傳播的路線都不同,所以傳播每個(gè)數(shù)據(jù)所帶來(lái)的能耗與時(shí)間都不同。依據(jù)大多數(shù)NoCs 使用的健忘路由算法[19],可以得到每個(gè)PE 陣列中存在的所有數(shù)據(jù)傳播路線。本文將考慮最差的情況,因此假設(shè)所有數(shù)據(jù)在PE 間的傳播路線均是PE 間最長(zhǎng)的數(shù)據(jù)傳播路線,即一共經(jīng)過(guò)K個(gè)PE,則每個(gè)數(shù)據(jù)在PE 間傳播所消耗的能耗均為K×I(F/O)REG.accessE,所消耗的時(shí)間均為K個(gè)cycle。此外考慮到NoC 中會(huì)出現(xiàn)擁塞情況,根據(jù)文獻(xiàn)[17]中給出的擁塞最差情況模型,本文為每條傳播路線增加了因擁塞造成的額外時(shí)間與能耗。
ATimes 為每條傳播路徑在1 個(gè)BasicUnit 中對(duì)上層存儲(chǔ)的訪問(wèn)次數(shù),因此通過(guò)將ATimes 與對(duì)應(yīng)路徑上層存儲(chǔ)結(jié)構(gòu)的單次訪存能耗相乘,可以得到每條路徑因訪問(wèn)上層存儲(chǔ)而消耗的能量。
AVolume 為每條傳播路徑在1 個(gè)BasicUnit 中,下層存儲(chǔ)在初始化時(shí)獲得的數(shù)據(jù)量。如果路徑中的下層存儲(chǔ)有雙緩存,則加速器初始化時(shí),由傳輸ifmaps 和filters 所造成的時(shí)間只與第一個(gè)BasicUnit中的AVolume 相關(guān),否則與所有BasicUnit 相關(guān)。
算法1 給出了計(jì)算Etransfer 的詳細(xì)步驟。(1)需要獲得通用評(píng)估模型輸入中所有的數(shù)據(jù)傳播路徑;(2)通過(guò)上一節(jié)的估算模型,可以得到對(duì)于一個(gè)BasicUnit,每條路徑的ATimes 和ProTimes;(3)根據(jù)1 個(gè)卷積層中BasicUnit 的總量,可以獲得每條路徑ATimes 和ProTimes 的總量;(4) 根據(jù)對(duì)應(yīng)路徑ATimes 或ProTimes 的總量,獲得每條路徑消耗的能量;(5)通過(guò)將每條路徑因訪存消耗的能量相加,獲得加速器在處理當(dāng)前卷積層的Etransfer。
算法2 給出了計(jì)算Ttransfer 的詳細(xì)步驟。與計(jì)算Etransfer 相同,這里也需要獲得每個(gè)卷積層所有的傳播路徑以及累加每條路徑所造成的傳輸時(shí)間。此外由于加速器中大多數(shù)傳輸時(shí)間可以被計(jì)算時(shí)間所覆蓋,因此Ttransfer 只考慮不能被計(jì)算時(shí)間所覆蓋的部分,其主要與AVolume 相關(guān)。
本節(jié)設(shè)計(jì)了3 個(gè)CNN 加速器——Sconv-DR-OP、Sconv-CR-IP 和Mconv-CR-MP 用于驗(yàn)證CNNGModel的有效性。3 個(gè)加速器基于的原型分別為Neu-Flow[10]、ShiDianNao[6]以及Origami[9]。實(shí)驗(yàn)中,首先使用開(kāi)源模擬器VTA[20]實(shí)現(xiàn)了上述3 個(gè)加速器;其次基于TSMC 16 nm 技術(shù),使用硬件描述語(yǔ)言Verilog 和Synopsys 設(shè)計(jì)編譯器(DC)對(duì)上述3 個(gè)加速器進(jìn)行仿真與綜合;最后使用CNNGModel 對(duì)3 個(gè)加速器的性能與功率進(jìn)行估計(jì)。
如圖7(a)所示,Sconv-DR-OP 的數(shù)據(jù)傳播方式為OP,寄存器類型為DR 且數(shù)據(jù)處理方式為Sconv。其中的數(shù)據(jù)傳播路徑有:(1)ifmaps 的EXMC→PE;(2)filters 的EXMC→PE;(3)ofmaps 的PEAmong;(4)ofmaps 的EXMC←PE。對(duì)于每個(gè)ifmaps 神經(jīng)元,Sconv-DR-OP 只需要從EXMC 讀取一次,且每個(gè)時(shí)鐘周期只讀取一個(gè)并送到所有PE。對(duì)于filters權(quán)重,其會(huì)被提前固定在不同的PE 中。而對(duì)于ofmaps,當(dāng)其中間結(jié)果遍歷完所有的PE 與FIFO 后,會(huì)從最后一個(gè)PE 輸出。
如圖7(b)所示,Sconv-CR-IP 的數(shù)據(jù)傳播方式為IP,寄存器類型為CR 且數(shù)據(jù)處理方式為Sconv。其中的數(shù)據(jù)傳播路徑與Sconv-DR-OP 相比,只有傳播路徑(3)不同,為ifmaps 的PEAmong。在Sconv-CR-IP 中,首先相同的1 個(gè)filters 權(quán)重會(huì)送到所有的PE。其次對(duì)于ifmaps 神經(jīng)元,其在每個(gè)時(shí)鐘周期會(huì)送到不同的PE。而對(duì)于ofmaps,每個(gè)PE 一次只負(fù)責(zé)計(jì)算1 個(gè)ofmaps。
圖7 3 個(gè)CNN 加速器
如圖7(c)所示,Mconv-CR-MP 的數(shù)據(jù)傳播方式為MP,寄存器類型為CR 且數(shù)據(jù)處理方式為Mconv。其中的數(shù)據(jù)傳播路徑有:(1)ifmaps 的EXMC →OCB;(2) ifmaps 的 OCB →PE;(3) ifmaps 的PEAmong;(4)filters 的EXMC →PE;(5) filters 的PEAmong;(6) ofmaps 的EXMC←PE。對(duì)于該加速器,多個(gè)filters 權(quán)重和ifmaps 神經(jīng)元會(huì)被同時(shí)送到每個(gè)PE,每個(gè)PE 一次負(fù)責(zé)計(jì)算1 個(gè)ofmaps。為了保證流水線,其中每個(gè)PE 只負(fù)責(zé)乘法,剩余的加法操作會(huì)在PE 外執(zhí)行。
表8 給出了3 個(gè)加速器的參數(shù)。
表8 3 個(gè)加速器的參數(shù)
如表9 所示,選擇AlexNet、VGG 以及ResNet 中的部分卷積層作為實(shí)驗(yàn)數(shù)據(jù)集。
表9 用于實(shí)驗(yàn)的卷積層參數(shù)
4.2.1 性能結(jié)果對(duì)比
對(duì)于加速器的性能,本節(jié)將重點(diǎn)分析PE 陣列的工作時(shí)間(CAL-cycle)以及加速器工作總時(shí)間(Time)。
圖8(a)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)PE 陣列的工作時(shí)間(CAL-cycle),其中CNNGModel 的結(jié)果與仿真結(jié)果的差距分別為5.2%、5.4%、4.6%、4.0%、4.9%和5.4%??梢钥吹竭@里的CNNGModel 結(jié)果始終比仿真結(jié)果小。這是因?yàn)殡m然CNNGModel 考慮了由NoC 傳播以及擁塞所造成的時(shí)間,但其使用了加速器的峰值性能。另一方面,CNNGModel 與模擬器VTA 的差距分別為0.5%、1.4%、0.7%、0.3%、1.5%、1.2%,說(shuō)明在不浪費(fèi)大量人力和時(shí)間的情況下,CNNGModel 可以提供與模擬器VTA 相近的性能。
圖8(b)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)的總時(shí)間(Time),其中CNNGModel 的結(jié)果與仿真結(jié)果的差距分別為6.7%、7.0%、6.1%、5.4%、5.2% 和6.4%。造成上述現(xiàn)象的原因有:(1)CNNGModel 對(duì)于CAL-cycle 的估計(jì)值小于仿真結(jié)果;(2) CNNGModel 沒(méi)有考慮加速器的配置時(shí)間、BasicUnit 間有效信號(hào)、狀態(tài)信號(hào)等的傳輸時(shí)間以及數(shù)據(jù)在FIFO 中的傳播時(shí)間。與CAL-cycle 類似,對(duì)于工作總時(shí)間Time,CNNGModel 結(jié)果與模擬器VTA結(jié)果十分接近,差距分別為1.8%、2.3%、0.9%、1.3%、0.7%、1.7%.
圖8 Sconv-DR-OP 的CAL-Cycle 以及Time
圖9 和圖10 給出了其他2 個(gè)加速器在處理6個(gè)卷積層時(shí)的CAL-Cycle 以及Time。與Sconv-DROP 中的結(jié)果相似,CNNGModel 的估計(jì)值始終比仿真結(jié)果小,但與模擬器VTA 的結(jié)果十分接近。
圖9 Sconv-CR-IP 的CAL-Cycle 以及Time
圖10 Mconv-CR-MP 的CAL-Cycle 以及Time
4.2.2 功率結(jié)果對(duì)比
加速器的能耗主要由傳輸能耗和計(jì)算能耗組成。由于模擬器VTA 只能給出加速器的工作時(shí)間,所以本節(jié)將只比較CNNGModel 與仿真綜合的結(jié)果。首先將分析加速器工作時(shí)對(duì)不同存儲(chǔ)的訪問(wèn)次數(shù),這些次數(shù)可用于得到傳輸能耗為模型的中間輸出。
圖11(a)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)對(duì)EXMC 的讀次數(shù)(EXMCR-ATimes),其中CNNGModel 的誤差率分別為0.13%、0.32%、0.56%、0.51%,0.13%和0.47%,與仿真結(jié)果十分接近。圖11(b)給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)的PE 間傳播次數(shù)(ProTimes),其中CNNGModel 的誤差率分別為0.57%、1.31%、1.03%、0.37%、2.98% 和0.54%??梢钥吹紺NNGModel比仿真結(jié)果稍小,而造成該現(xiàn)象的原因是CNNGModel 沒(méi)有考慮在PE 間傳播的一些額外控制信號(hào)(如當(dāng)stride 不為1 時(shí),會(huì)有一些額外的控制信號(hào)送到PE 中)。圖11(c)中給出了Sconv-DR-OP 在處理6 個(gè)卷積層時(shí)對(duì) EXMC 的寫(xiě)次數(shù)(EXMCWATimes),其中CNNGModel 的誤差率分別為2.84%、4.20%、6.98%、1.25%、7.44%和8.04%。可以看到這里的建模結(jié)果比仿真結(jié)果稍小,而造成該現(xiàn)象的原因是由于Sconv-DR-OP 在仿真時(shí)寫(xiě)回的位寬是固定的,所以當(dāng)有效結(jié)果的總位寬低于寫(xiě)回位寬時(shí),也會(huì)按寫(xiě)回的固定位寬來(lái)統(tǒng)計(jì)從而增加了額外的寫(xiě)回次數(shù)。圖12、圖13 給出了Sconv-CR-IP、Mconv-CRMP 在處理6 個(gè)卷積層時(shí)各個(gè)參數(shù)的CNNGModel 值和仿真值。可以看到這些參數(shù)的CNNGModel 結(jié)果和仿真結(jié)果基本相同。
圖11 Sconv-DR-OP 的中間輸出
圖12 Sconv-CR-IP 的中間輸出
圖13 Mconv-CR-MP 的中間輸出
圖14 給出了3 個(gè)加速器在處理6 個(gè)卷積層時(shí)的功率。可以看到CNNGModel 的結(jié)果與仿真綜合結(jié)果相近,但始終比其小。造成該現(xiàn)象的原因是CNNGModel 只考慮了傳輸、計(jì)算以及NoC 消耗的動(dòng)態(tài)功率,而RTL 級(jí)的綜合還考慮了靜態(tài)功率等。
圖14 3 個(gè)加速器處理每個(gè)任務(wù)的功率
依據(jù)CNNGModel,本節(jié)從能耗和性能兩方面給出了多項(xiàng)CNN 加速器優(yōu)化策略。
在CNNGModel 中,CNN 加速器傳輸能耗的計(jì)算方式如式(20)所示。其中DRAM_E、SRAM_E以及Register_E代表單次訪問(wèn)每種存儲(chǔ)結(jié)構(gòu)時(shí)需要的能耗,ATimesDRAM、ATimesSRAM以及ProTimesRegister代表每種存儲(chǔ)結(jié)被訪問(wèn)的總次數(shù)。
文獻(xiàn)[4]給出了單次訪問(wèn)DRAM、SRAM 和Register 的能耗比為200 ∶6 ∶1。因此為了減少傳輸能耗,根據(jù)式(20),常用的方法為增加SRAM 以及Register 大小從而減少對(duì)DRAM 的訪問(wèn)次數(shù)。除此之外,根據(jù)式(20),通過(guò)減少ATimesDRAM、ATimesSRAM以及ProTimesRegister,CNNGModel 還可以從更多的角度對(duì)減少傳輸能耗提出相應(yīng)的策略。
當(dāng)ATimesDRAM通過(guò)式 (3)ATimes=計(jì)算時(shí),可以選擇增加相應(yīng)存儲(chǔ)的帶寬從而減少ATimes,最終達(dá)到減少傳輸能耗的目的。例如選擇使用多塊DRAM 而不是一整塊大面積DRAM,因?yàn)槎鄩KDRAM 可以被同時(shí)訪問(wèn),通過(guò)增加channel 提高并行度的方式來(lái)增加帶寬。
當(dāng)ATimesSRAM通過(guò)式(2)ATimes=計(jì)算時(shí),此時(shí)若想使ATimes 減半,可以將PE 陣列每次從SRAM 讀取ifmaps 的位寬增加1 倍。例如可以將PE 陣列中Register 的個(gè)數(shù)增加1 倍,或用SRAM 代替Register 并將SRAM 寫(xiě)位寬按要求設(shè)置。當(dāng)ATimesSRAM通過(guò)式 (5)ATimes=計(jì)算時(shí),此時(shí)若想使ATimes 降低,可以通過(guò)增加每個(gè)PE 中計(jì)算單元MAC 的個(gè)數(shù)來(lái)達(dá)到需求。
在CNNGModel 中,CNN 加速器計(jì)算能耗的計(jì)算方式如式(21)所示。其中ComputeA為當(dāng)前應(yīng)用的計(jì)算量,Technology為加速器的工藝。因此根據(jù)式(21),可以通過(guò)提升加速器的工藝來(lái)減少因?yàn)橛?jì)算產(chǎn)生的能耗。
CNN 加速器的執(zhí)行時(shí)間是由傳輸時(shí)間和計(jì)算時(shí)間兩部分組成的。因?yàn)榱魉€的存在,加速器內(nèi)部大部分由于數(shù)據(jù)傳輸所帶來(lái)的時(shí)間可以被計(jì)算時(shí)間所覆蓋。為了減少CNN 加速器的總執(zhí)行時(shí)間,需要盡量減少不能被計(jì)算時(shí)間覆蓋的數(shù)據(jù)傳輸時(shí)間。因此CNN 加速器在設(shè)計(jì)時(shí)需要盡量將片上的存儲(chǔ)結(jié)構(gòu)做雙緩存處理,添加ifmaps 和filters 數(shù)據(jù)的預(yù)取機(jī)制。這樣能減少流水線阻斷情況的發(fā)生,保證每個(gè)卷積核的計(jì)算過(guò)程能夠無(wú)縫迭代執(zhí)行。
本文首先基于CNN 加速器的通用硬件結(jié)構(gòu),提出了加速器中數(shù)據(jù)傳播路徑的概念。其次提出了CNN 加速器性能與能耗通用評(píng)估模型(CNNGModel)。CNNGModel 的輸入包括4 部分:CNN 加速器參數(shù)、CNN 加速器數(shù)據(jù)傳播方式、CNN 加速器的數(shù)據(jù)傳播路徑以及NoC 評(píng)估模型。輸出包括中間輸出和最終輸出兩部分。CNNGModel 的核心部分為通用模型庫(kù)。
實(shí)驗(yàn)結(jié)果證明,CNNGModel 的結(jié)果與真實(shí)的仿真值是十分接近的。最后本文從能耗和性能兩方面給出了多項(xiàng)CNN 加速器優(yōu)化策略。