馮 曉 戴紫彬 李 偉② 蔡路亭
?
基于Amdahl定律的多核密碼處理器性能模型研究
馮 曉①戴紫彬①李 偉*①②蔡路亭①
①(解放軍信息工程大學(xué) 鄭州 450000)②(復(fù)旦大學(xué)專用集成電路與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室 上海 201203)
該文構(gòu)建面向密碼應(yīng)用的多核處理器性能模型,對(duì)多核密碼處理器設(shè)計(jì)提供理論支持和有效建議。通過引入密碼并行處理特征、數(shù)據(jù)傳輸時(shí)間、同步時(shí)間等因素,建立基于Amdahl定律擴(kuò)展的多核密碼處理器性能模型,基于提出的性能模型,對(duì)多核密碼處理器設(shè)計(jì)空間進(jìn)行搜索。
密碼處理器;多核處理器;Amdahl定律;性能模型;通信/計(jì)算比
1 引言
密碼算法作為保證信息安全的重要措施,在整個(gè)信息系統(tǒng)中占有非常重要的地位。密碼處理器具有密碼專用指令及相應(yīng)的密碼專用運(yùn)算單元,能夠高效靈活地實(shí)現(xiàn)密碼處理任務(wù),成為實(shí)現(xiàn)密碼算法的主要方式之一[1]。然而,隨著信息網(wǎng)絡(luò)的飛速發(fā)展,對(duì)密碼處理器性能提出了更高的要求,而受限于功耗、線延時(shí)、設(shè)計(jì)復(fù)雜度等因素,依賴于傳統(tǒng)的單核架構(gòu)提升密碼處理性能變得越來越困難[2]。
相對(duì)于傳統(tǒng)單核處理器,多核處理器可以提供更強(qiáng)的處理能力,成為許多高性能計(jì)算平臺(tái)的首選解決方案。結(jié)合多核處理器設(shè)計(jì)技術(shù)和密碼處理器技術(shù),設(shè)計(jì)面向高速密碼應(yīng)用的多核密碼處理器,不僅能夠有效滿足信息安全領(lǐng)域日益增長(zhǎng)的需求,同時(shí)也具有創(chuàng)新性和理論研究?jī)r(jià)值。然而,目前面向高速密碼應(yīng)用的多核密碼處理器研究尚處于起步階段,理論體系尚不完備。本文擬基于并行系統(tǒng)加速比定律Amdahl定律,結(jié)合密碼并行處理特征、處理器規(guī)模、通信消耗等性能因素對(duì)定律進(jìn)行擴(kuò)展,通過建模及參數(shù)分析,構(gòu)建多核密碼處理器性能模型,為多核密碼處理器結(jié)構(gòu)設(shè)計(jì)提供一定的理論支持和建議。
2 Amdahl定律研究
Amdahl定律由IBM大型機(jī)之父Amdahl博士在1967年首次進(jìn)行描述[6]。Amdahl指出系統(tǒng)采用并行化技術(shù)后所能獲得的性能提升受限于系統(tǒng)中并行化部分所占比例。該論述在并行計(jì)算領(lǐng)域得到充分肯定和廣泛應(yīng)用[7],逐漸成為描述并行系統(tǒng)加速比的基本定律,Amdahl定律可抽象為
國(guó)內(nèi)外提出了許多基于Amdahl定律的多核處理器性能模型。文獻(xiàn)[8]定義了算法中的關(guān)鍵程序段(critical section),充分考慮并行進(jìn)程通過關(guān)鍵程序段的同步問題,并指出同步問題是影響多核系統(tǒng)性能的關(guān)鍵因素之一。文獻(xiàn)[9]將通信開銷引入到Amdahl定律中,提出了關(guān)于層次化片上多核處理器的Amdahl定律擴(kuò)展。文獻(xiàn)[10]將程序的并行度引入到Amdahl定律中,建立了多級(jí)并行計(jì)算(multi- level parallel)的加速比模型,該模型假定了并行度對(duì)通信開銷沒有影響,雖然指出了處理器數(shù)目會(huì)對(duì)算法可執(zhí)行并行度有影響,但是未對(duì)其做進(jìn)一步研究,模型精確度有待提高。文獻(xiàn)[11]建立了面積-性能模型,用于評(píng)估處理器規(guī)模受限時(shí)可達(dá)到的最高性能。文獻(xiàn)[12]將通信開銷引入Amdahl定律,建立了基于面向廣域分布式系統(tǒng)通信特征的多核性能模型。文獻(xiàn)[13]將算法分解為多個(gè)部分,每部分可以以不同比例進(jìn)行加速。文獻(xiàn)[14]充分討論了核間通信時(shí)間及并行串行部分的數(shù)據(jù)同步時(shí)間對(duì)多核系統(tǒng)性能影響并對(duì)Amdahl定律進(jìn)行了修正。文獻(xiàn)[15]基于任務(wù)并行特征建立了進(jìn)程級(jí)封閉式排隊(duì)網(wǎng)絡(luò)模型(thread-level closed-queuing network model),用于評(píng)估多進(jìn)程多核處理器的并行計(jì)算能力
Amdahl定律中有3個(gè)假設(shè):(1)應(yīng)用程序中只存在一種可開發(fā)并行度;(2)無論應(yīng)用程序中的可并行部分并行度多大,系統(tǒng)都能夠?qū)崿F(xiàn);(3)應(yīng)用程序并行化實(shí)現(xiàn)不會(huì)引入額外的通信開銷。然而在實(shí)際應(yīng)用中,這3點(diǎn)假設(shè)是不準(zhǔn)確的。為更精確地評(píng)估系統(tǒng)性能,需將以上3點(diǎn)補(bǔ)充進(jìn)Amdahl定律。目前,尚無綜合考慮以上3種因素的多核處理器性能模型[16]。針對(duì)上述不足,本文將密碼算法并行特征、處理器規(guī)模、數(shù)據(jù)傳輸時(shí)間、同步時(shí)間等因素引入Amdahl定律,建立基于Amdahl定律的多核密碼處理器性能模型。
3 基于Amdahl定律擴(kuò)展的多核密碼處理器性能模型
3.1 多核密碼處理器性能模型
多核處理器一般采用已有的成熟的單核處理器作為計(jì)算核心,本文研究基于成熟的密碼處理器(單核),為簡(jiǎn)化研究復(fù)雜度,計(jì)算核心為相同的密碼處理器,即研究對(duì)象為同構(gòu)多核密碼處理器結(jié)構(gòu)。設(shè)同構(gòu)多核密碼處理器共個(gè)核,借鑒等價(jià)基本核模型,每個(gè)核抽象為等價(jià)的基本核BCE(Base Core Equivalents)[17],BCE通過某種互連方式連接為一個(gè)系統(tǒng)。設(shè)多核處理器BCE數(shù)目為,單個(gè)BCE單位時(shí)間內(nèi)可完成的運(yùn)算量為,下面根據(jù)Amdahl定律,分析多核密碼處理器性能,構(gòu)建多核密碼處理器性能模型。
(1)并行比例及并行度: 密碼算法可分解為串行執(zhí)行部分及多種并行度的并行執(zhí)行部分。如圖1(a)所示為某密碼程序段執(zhí)行順序的分解圖,由圖中可知,該段程序有串行執(zhí)行部分及并行度分別為2, 3, 4, 5的并行執(zhí)行部分。將圖1(a)程序中相同并行度的任務(wù)組合在一起,則該密碼程序段可重新分解為如圖1(b)所示結(jié)構(gòu),分別表示密碼程序中并行度為5, 4, 3, 2和1的部分。
圖1 密碼程序分解圖
密碼處理器主要面向具有某種特征的一類算法,由于密碼算法的差異性,密碼處理器類型呈現(xiàn)多樣化特征。而并行度是一個(gè)相對(duì)量,可消除這些差異性帶來的影響。通過引入并行度參數(shù)不僅能夠提高模型準(zhǔn)確度,還能夠擴(kuò)展性能模型的適用范圍。
(2)可實(shí)現(xiàn)并行度: 多核密碼處理器系統(tǒng)不可能集成無限多個(gè)密碼處理核心,當(dāng)時(shí),多核處理器完成工作量的時(shí)間;當(dāng)時(shí),最快只能以并行度完成。因此,多核處理器完成工作量的時(shí)間為
通信開銷: 并行計(jì)算中BCE間會(huì)有通信開銷,主要包括數(shù)據(jù)傳輸時(shí)間和數(shù)據(jù)同步時(shí)間。
應(yīng)用程序中通信量與計(jì)算量有關(guān)[18],密碼程序中計(jì)算量較為固定,設(shè)密碼程序通信計(jì)算比為,則多核處理器完成計(jì)算量所需通信量為。單位時(shí)間內(nèi)數(shù)據(jù)傳輸量是與多核處理器拓?fù)浣Y(jié)構(gòu)有關(guān)的函數(shù),設(shè)核處理器單位時(shí)間內(nèi)可傳輸數(shù)據(jù)量為,則完成并行度任務(wù)所需數(shù)據(jù)傳輸時(shí)間:
并行計(jì)算中,數(shù)據(jù)同步直接決定了整體計(jì)算結(jié)果的正確與否。設(shè)設(shè)并行度為時(shí)通信次數(shù)為,同步機(jī)制每次通信的同步開銷為,則完成所需的同步時(shí)間為有
基于以上分析,多核密碼處理器完成任務(wù)W所需時(shí)間,可用式(7)表示:
3.2 多核密碼處理器性能模型參數(shù)分析
密碼算法特點(diǎn)是數(shù)據(jù)運(yùn)算比較整齊,算法內(nèi)并行度變化較少,并行度一般為=1, 2, 4, 8,例如AES輪運(yùn)算并行度取值為1或4(S盒可開發(fā)=16并行度),DES輪運(yùn)算并行度取值為1或8, IDEA輪運(yùn)算并行度取值為1或4, MD5輪運(yùn)算并行度取值為1或4, A5算法中移位寄存器次態(tài)信息受其前一狀態(tài)控制,其并行度為1。
以密碼協(xié)議方式處理數(shù)據(jù)分組,各個(gè)密碼算法間可實(shí)現(xiàn)并行,可開發(fā)并行度與協(xié)議所包含的密碼算法數(shù)目相等。如SSL(Secure Sockets Layer)協(xié)議中包括非對(duì)稱加密、對(duì)稱加密、單項(xiàng)雜湊3個(gè)步驟,3個(gè)步驟可通過流水方式并行執(zhí)行,可開發(fā)并行度為3。
操作模式主要有ECB(Electronic CodeBook),CBC(Cipher Block Chaining), CFB(Cipher FeedBack), OFB(Output FeedBack)和CTR (CounTer Mode)等。除ECB工作模式外,其余工作模式中都是反饋工作模式,存在很強(qiáng)的數(shù)據(jù)相關(guān),開發(fā)并行性難度很大。由于安全原因,ECB模式極少使用,因此數(shù)據(jù)包內(nèi)各個(gè)分組間的可開發(fā)并行度有限。
不同數(shù)據(jù)包間一般不存在數(shù)據(jù)相關(guān),理論上存在無限大的可開發(fā)并行度。
以2D-Mesh結(jié)構(gòu)為例,在常規(guī)2D-Mesh結(jié)構(gòu)中,消息的平均跳步數(shù)為[9],消息經(jīng)過每個(gè)互連節(jié)點(diǎn)延遲一個(gè)時(shí)鐘周期。由于吞吐率要求,目前設(shè)計(jì)的密碼處理器中,密碼算法程序執(zhí)行時(shí)間一般控制在102~103數(shù)量級(jí)的運(yùn)算周期,若互連網(wǎng)絡(luò)的位寬為32 bit,一次可傳輸1~32個(gè)數(shù)據(jù),代入式(8)可得
以AES為例,若不采用并行結(jié)構(gòu),即=1,此時(shí)=0,多核密碼處理器BCE間無通信;若采用密鑰生成部分與輪運(yùn)算部分并行的結(jié)構(gòu),即=2,多核密碼處理BCE間有通信,且通信次數(shù)為1,通信量等于密鑰長(zhǎng)度;若輪運(yùn)算部分采用4核并行,即=4,多核BCE間有通信且通信量每輪為128 bit,每輪通信3次,完成輪運(yùn)算需通信36次??梢姡捎谒惴ê陀成浞绞降牟煌?,通信計(jì)算比及通信次數(shù)變化較大,當(dāng)密碼算法及算法映射固定時(shí),通信計(jì)算比及通信次數(shù)固定。在第4節(jié)設(shè)計(jì)空間搜索中,為盡量覆蓋算法映射情況,通信計(jì)算比及通信次數(shù)盡量設(shè)計(jì)變化較大的取值范圍。
4 多核密碼處理器設(shè)計(jì)空間搜索
本節(jié)將基于第3節(jié)多核密碼處理器性能模型參數(shù)的分析結(jié)果,對(duì)多核密碼處理器設(shè)計(jì)空間進(jìn)行搜索,分析其設(shè)計(jì)原則并給出設(shè)計(jì)建議。
設(shè)單個(gè)BCE完成任務(wù)所需時(shí)間為單位1。首先,分析通信性能對(duì)多核密碼處理器性能的影響。將(假設(shè)只存在1, 2, 4, 8, 16并行度,且各部分所占比例相同),(設(shè)為0.01),,(設(shè)為)等參數(shù)固定,模擬不同取值下,多核密碼處理器性能與BCE數(shù)目的關(guān)系。如圖2所示,橫坐標(biāo)表示多核密碼處理器BCE數(shù)目,縱坐標(biāo)表示多核密碼處理器運(yùn)算時(shí)間。
由圖2中可以發(fā)現(xiàn),6條曲線基本重合,可見,對(duì)于多核密碼處理器,BCE互連結(jié)構(gòu)對(duì)多核密碼處理器的性能影響并不大。 同時(shí),由曲線趨勢(shì)可以發(fā)現(xiàn),在BCE數(shù)目為2, 4和8時(shí),多核密碼處理器性能提升幅度較大,而當(dāng)BCE數(shù)目大于8時(shí),處理器性能提升很少??梢姡嗪嗣艽a處理器性能并非隨BCE數(shù)目增加而增加。
圖2 對(duì)多核密碼處理器性能影響 圖3 對(duì)多核密碼處理器性能影響 圖4 對(duì)多核密碼處理器性能影響
圖5 對(duì)多核密碼處理器性能影響
1和4,任務(wù)計(jì)算量比例由1:1遞減到1:6。圖5(c)為密碼應(yīng)用場(chǎng)景3,密碼應(yīng)用中可開發(fā)并行度為1和8,任務(wù)計(jì)算量比例由1:1遞減到1:6。圖5(d)為密碼應(yīng)用場(chǎng)景4,密碼應(yīng)用可開發(fā)并行度為16。
分別觀察圖5(a)~圖5(c),可以看出,多核密碼處理器結(jié)構(gòu)相同時(shí),密碼程序并行部分比例越大,完成密碼運(yùn)算所需時(shí)間越少。如圖5(a)中,BCE數(shù)目相同情況下,密碼程序串行并行部分比例為1:6(比例6)時(shí),多核處理器運(yùn)算時(shí)間明顯小于串行并行比例為1:1(比例1)時(shí)。同時(shí),當(dāng)多核密碼處理器集成的BCE數(shù)目超過密碼程序中的最大并行度后,BCE數(shù)目增加不會(huì)提高密碼處理器性能。如當(dāng)圖5(a)中BCE數(shù)目大于2、圖5(b)中BCE數(shù)目大于4及圖5(c)中BCE數(shù)目大于8時(shí),提高BCE數(shù)目并不能減少多核密碼處理器完成運(yùn)算任務(wù)的時(shí)間。可以得出結(jié)論,多核密碼處理器可達(dá)到的最高性能主要是由密碼算法可開發(fā)并行度及并行部分所占比例決定的。
圖5(d)中密碼應(yīng)用無串行部分,用于模擬密碼算法數(shù)據(jù)包級(jí)并行的情況。由圖中可以看出,雖然多核密碼處理器運(yùn)算時(shí)間隨著BCE數(shù)目增多而逐漸降低,但其下降趨勢(shì)逐漸平緩,圖中虛線為其擬合函數(shù)。可見,即使對(duì)于理論上可以無限并行的密碼算法,多核密碼處理器集成的BCE數(shù)目也并非越多越好。
通過以上設(shè)計(jì)空間搜索可得出多核密碼處理器的基本設(shè)計(jì)原則:根據(jù)并行度及各并行度所占比例,確定集成的處理器數(shù)目(BCE),算法映射中盡量減少核間通信次數(shù)。文獻(xiàn)[8]從軟件設(shè)計(jì)方面提出了關(guān)鍵程序部分對(duì)系統(tǒng)性能的影響,但未將關(guān)鍵程序段與硬件設(shè)計(jì)進(jìn)行對(duì)應(yīng),也未對(duì)關(guān)鍵程序部分進(jìn)行深入研究。本文則對(duì)關(guān)鍵部分進(jìn)行了更深入的分析,指出了通信次數(shù)是影響性能的關(guān)鍵因素之一。文獻(xiàn)[9]深入研究了不同層次片上數(shù)據(jù)通信延遲對(duì)多核處理器性能的影響,提出層次化設(shè)計(jì)的多核處理器具有更好的性能,本文從通信特點(diǎn)角度出發(fā)得出了相同的結(jié)論。文獻(xiàn)[10]主要修訂了應(yīng)用程序具有多級(jí)并行度時(shí)的Amdahl定律,模型中做了大量理想化假設(shè),并略去了通信因素的影響,與實(shí)際情況具有一定偏差。文獻(xiàn)[11]提出的模型中,假設(shè)應(yīng)用程序的并行度隨著處理器核心數(shù)成一定比例關(guān)系(),實(shí)質(zhì)上這是對(duì)通信開銷等的簡(jiǎn)化處理,本文的研究更深入,更有說服力。文獻(xiàn)[13]提出了程序分段加速的思想,將程序分解為多個(gè)獨(dú)立加速的部分,其分段原則較為模糊,本文是按照并行度對(duì)待完成任務(wù)進(jìn)行分解。文獻(xiàn)[14]以FFT等3種典型應(yīng)用為例,深入分析了通信開銷對(duì)多核處理器性能的影響,并未探討密碼類應(yīng)用的通信特點(diǎn)。文獻(xiàn)[15]基于排隊(duì)論建立了多進(jìn)程多核處理器的性能模型,該模型主要用于研究多進(jìn)程多核處理器可實(shí)現(xiàn)的最高加速比,探討了不同同步類型及不同通信特征應(yīng)用下多進(jìn)程多核處理器性能隨處理器數(shù)目的變化特征,該論文對(duì)應(yīng)用特征等參數(shù)的提取并非基于實(shí)際應(yīng)用。 此外,上述論文都忽略了應(yīng)用程序可實(shí)現(xiàn)并行度對(duì)多核密碼處理器設(shè)計(jì)的重要影響。
對(duì)比于其他基于Amdahl 定律的多核處理器性能模型,可以發(fā)現(xiàn),由于引入了更完備的參數(shù),并且在設(shè)計(jì)空間搜索時(shí)參數(shù)選取了更為貼近實(shí)際情況的取值范圍,本文提出的模型對(duì)影響性能的關(guān)鍵因素得出了不同的結(jié)論,能夠?qū)Χ嗪嗣艽a處理器設(shè)計(jì)提供更準(zhǔn)確的指導(dǎo)意見。不同與其他模型偏重于理論性,本文實(shí)現(xiàn)了理論性與應(yīng)用性的統(tǒng)一。
5 結(jié)束語(yǔ)
多核密碼處理器是未來密碼處理器的發(fā)展方向,然而,目前對(duì)多核密碼處理器研究的理論還不完善。在現(xiàn)有Amdahl定律及擴(kuò)展的研究基礎(chǔ)上,本文建立了面向密碼應(yīng)用的多核密碼處理器性能模型,并對(duì)影響多核密碼處理器處理性能的參數(shù)行了詳細(xì)分析。通過對(duì)各個(gè)參數(shù)的模擬得出,多核密碼處理器適用于可開發(fā)并行度高且并行部分比例大的密碼應(yīng)用。對(duì)于多核密碼處理器,互連結(jié)構(gòu)及通信計(jì)算比對(duì)處理器性能的影響較小,通信次數(shù)對(duì)多核密碼處理器性能的影響較大,而多核密碼處理器可到達(dá)的最高性能及對(duì)應(yīng)的BCE數(shù)目主要由密碼算法取值決定。
密碼算法不同并行層次的操作特點(diǎn)不同。算法內(nèi)各操作的數(shù)據(jù)相關(guān)性較大,具有較大的取值;密碼協(xié)議中,各算法間一般僅需傳遞密碼運(yùn)算結(jié)果,取值較?。粩?shù)據(jù)包及任務(wù)間并行,存在并行性的各個(gè)分組/任務(wù)間一般無數(shù)據(jù)相關(guān),取值基本為0。若充分發(fā)揮多核密碼處理器優(yōu)勢(shì),必須充分發(fā)掘密碼應(yīng)用的并行性,減少各運(yùn)算部分的通信次數(shù),依據(jù)不同并行層次的通信特征,優(yōu)化密碼應(yīng)用多核映射方案。
[1] BOSSUET L, GRAND M, GASPAR L,. Architectures of flexible symmetric key crypto engines-a survey: from hardware coprocessor to multi-crypto-processor system on chip[J].(), 2013, 45(4): 1-32. doi: 10.1145/2501654.2501655.
[2] 馮曉靜. 面向服務(wù)的異構(gòu)多核片上系統(tǒng)的關(guān)鍵技術(shù)研究及實(shí)現(xiàn)[D]. [博士論文], 中國(guó)科學(xué)技術(shù)大學(xué), 2013.
FENG Xiaojing. Study and implementation of service oriented heterogeneous multi processor system-on-chip[D]. [Ph.D. dissertation], University of Science and Technology of China, 2013.
[3] 蔣驍辰, 李國(guó)平, 王國(guó)中, 等. 基于AVS+實(shí)時(shí)編碼的多核并行視頻編碼算法[J]. 電子與信息學(xué)報(bào), 2014, 36(4): 810-816. doi: 10.3724/SP.J.1146.2013.00845.
JIANG Xiaochen, LI Guoping, WANG Guozhong,. Multi-core parallel video coding algorithm based on AVS+real-time encoding[J].&, 2014, 36(4): 810-816. doi: 10.3724/ SP.J. 1146.2013.00845.
[4] SHUKLA S K, MURTHY C N S, and Chande P K. A Survey of Approaches used in Parallel Architectures and Multi-core Processors, for Performance Improvement[M]. Switzerland, Springer International Publishing, 2015: 537-545.
[5] SILBERSTEIN M. GPUs: High-performance accelerators for parallel applications: the multicore transformation (ubiquity symposium)[J]., 2014, 2014: 1-13. doi: 10.1145/ 2618401.
[6] AMDAHL G M. Validity of the single processor approach to achieving large scale computing capabilities[C]. Proceedings of Spring Joint Computer Conference, New York, 1967: 483-485.
[7] 劉斌, 趙銀亮, 韓博, 等. 基于性能預(yù)測(cè)的推測(cè)多線程循環(huán)選擇方法[J]. 電子與信息學(xué)報(bào), 2014, 36(11): 2768-2774. doi: 10.3724/SP.J.1146.2013.01879.
LIU Bin, ZHAO Yinliang, HAO Bo,. A loop selection approach based on performance prediction of speculative multithreading[J].&, 2014, 36 (11): 2768-2774. doi: 10.3724/SP.J.1146. 2013.01879.
[8] EYERMAN S and EECKHOUT L. Modeling critical sections in Amdahl's law and its implications for multicore design[C]. ACM SIGARCH Computer Architecture News, New York, 2010: 362-370.
[9] 陳書明, 陳勝剛, 尹亞明. Amdahl 定律在層次化片上多核處理器中的擴(kuò)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012, 49(1): 83-92.
CHEN Shuming, CHEN Shenggang, and YIN Yaming. Revisting Amdahl’s law in the hierarchical chip multicore processors[J]., 2012, 49(1): 83-92.
[10] TANG S, LEE B S, and HE B. Speedup for multi-Level parallel computing[C]. Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), Shanghai, 2012: 537-546.
[11] JUURLINK B H H and MEENDERINCK C H. Amdahl's law for predicting the future of multicores considered harmful[J]., 2012, 40(2): 1-9. doi: 10.1145/2234336.2234338.
[12] KHANYILE N P, TAPAMO J R, and DUBE E. An analytic model for predicting the performance of distributed applications on multicore clusters[J]., 2012, 39(3): 312-320.
[13] CASSIDY A S and ANDEROU A G. Beyond Amdahl's law: an objective function that links multiprocessor performance gains to delay and energy[J]., 2012, 61(8): 1110-1126. doi: 10.1109/TC.2011. 169.
[14] YAVITS L, MORAD A, and GINOSAR R. The effect of communication and synchronization on Amdahl’s law in multicore systems[J]., 2014, 40(1): 1-16. doi: 10.1016/j.parco.2013.11.001.
[15] CHE H and NGUYEN M. Amdahl’s law for multithreaded multicore processors[J]., 2014, 74(10): 3056-3069. doi: 10.1016/j.jpdc. 2014.06.012.
[16] AL-BABTAIN B M, AL-KANDERI F J, Al-Fahad M F,. A survey on Amdahl's law extension in multicore architectures[J].(), 2013, 3(3): 30-46.
[17] HILL M D and MARTY M R. Amdahl's Law in the Multicore Era[J]., 2008, 41(7): 33-38. doi: 10.1109/MC.2008. 209.
[18] ASANOVI′C K, BODIK R, CATANZARO B C,. The landscape of parallel computing research: A view from Berkeley[R]. Technical Report ofComputer Sciences University of California at Berkeley, Berkeley: UC Berkeley, 2006: 8-11.
[19] BUCHTY R, HEINTAE N, and OLIVA D. Cryptonite-A Programmable Crypto Processor Architecture for High- bandwidth Applications[M]. Berlin Heidelberg Springer, 2004: 184-198.
[20] 徐衛(wèi)志, 宋風(fēng)龍, 劉志勇, 等. 眾核處理器片上同步機(jī)制和評(píng)估方法研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(10): 1777-1787. doi: 10.3724/SP.J.1016. 2010.01777.
XU Weizhi, SONG Fenglong, LIU Zhiyong,. On synchronization and evaluation method of chipped many-core processor[J]., 2010, 33(10): 1777-1787. doi: 10.3724/SP.J.1016.2010.01777.
馮 曉: 女,1987年生,博士生,研究方向?yàn)槎嗪颂幚砥?、可重?gòu)芯片等.
戴紫彬: 男,1966年生,博士生導(dǎo)師,研究方向?yàn)閷S眯酒O(shè)計(jì)、可重構(gòu)芯片、可重構(gòu)SoC設(shè)計(jì)等.
李 偉: 男,1983年生,博士生,研究方向?yàn)榇笠?guī)模集成電路設(shè)計(jì)、多核處理器、信息安全等.
蔡路亭: 男,1989年生,碩士生,研究方向?yàn)樾畔踩?、安全通信、SoC設(shè)計(jì)等.
Performance Model of Multicore Crypto Processor Based on Amdahl’s Law
FENG Xiao①DAI Zibin①LI Wei①②CAI Luting①
①(PLA Information Engineering University, Zhengzhou 450000, China)②(State Key Laboratory of Special Integrated Circuit and System, Fudan University, Shanghai 201203, China)
This paper builds a performance model of multicore processor, which applies to the crypto algorithms, and some advisable suggestions and academic supports are given for its design. By introducing parallelism degree, transformation overhead and synchronization time, performance model of multicore crypto processor is built based on the Amdahl’s law and its extension, and accordingly the design space of multicore crypto processors is searched. Simulation analysis shows that the key factors influencing the performance model of multicore crypto processor are the exploitable parallelism of crypto application, the proportion of parallel part and the communication times in the process of operation.
Crypto processor; Multicore processor; Amdahl’s law; Performance model; Communication/computing ratio
National Natural Science Foundation of China (61404175)
TP309.7;TN492
A
1009-5896(2016)04-0827-07
10.11999/JEIT150474
2015-04-27;改回日期:2015-12-25;網(wǎng)絡(luò)出版:2016-02-18
李偉 try-1118@163.com
國(guó)家自然科學(xué)基金項(xiàng)目(61404175)