• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于斯格明子介質(zhì)的高效存內(nèi)計(jì)算框架

    2019-04-18 05:25:52劉必成顧海峰陳銘松谷守珍陳聞杰

    劉必成 顧海峰 陳銘松 谷守珍 陳聞杰

    (上海市高可信計(jì)算重點(diǎn)實(shí)驗(yàn)室(華東師范大學(xué)) 上海 200062)

    當(dāng)今世界已進(jìn)入大數(shù)據(jù)時(shí)代,各種現(xiàn)代應(yīng)用對(duì)數(shù)據(jù)處理速度的要求越來(lái)越高.然而在傳統(tǒng)的馮·諾依曼架構(gòu)中,數(shù)據(jù)的存儲(chǔ)和處理各自分離,同時(shí)數(shù)據(jù)量與處理速度之間的差距也在逐步拉大,嚴(yán)重制約了系統(tǒng)效率的進(jìn)一步提高.為了克服這個(gè)困難,文獻(xiàn)[1-2]提出了新型存內(nèi)計(jì)算(processing in memory, PIM)架構(gòu),并受到廣泛關(guān)注和研究[3-4].在存內(nèi)計(jì)算架構(gòu)中,存儲(chǔ)單元和計(jì)算單元在內(nèi)存中緊密地結(jié)合在一起,使得數(shù)據(jù)可以直接在內(nèi)存中就地進(jìn)行處理,從而極大地減少了數(shù)據(jù)在內(nèi)存和處理器之間的頻繁移動(dòng)且增加了數(shù)據(jù)處理的并行性.

    雖然存內(nèi)計(jì)算架構(gòu)在一定程度上緩解了“數(shù)據(jù)搬運(yùn)”的瓶頸問(wèn)題,然而由于傳統(tǒng)存內(nèi)計(jì)算建立在易失性存儲(chǔ)器介質(zhì)之上,其物理特性限制導(dǎo)致整個(gè)系統(tǒng)泄漏功耗和動(dòng)態(tài)功耗隨著處理數(shù)據(jù)量的增加而急劇增長(zhǎng).近期各種新型非易失性內(nèi)存介質(zhì)(non-volatile memory, NVM)正因其區(qū)別與傳統(tǒng)介質(zhì)的低漏電率、高密度等一系列優(yōu)良的特性而受到廣泛關(guān)注[5-7].典型的包括相變存儲(chǔ)器(phase change memory, PCRAM)、自旋力矩存儲(chǔ)器(spin-transfer torque memory, STT-RAM)、賽道型存儲(chǔ)器(racetrack memory, RM)等.其中RM通過(guò)將多個(gè)比特的數(shù)據(jù)存儲(chǔ)在一條類似磁帶的納米線上,提供了比自旋力矩存儲(chǔ)器更高的存儲(chǔ)密度,比相變存儲(chǔ)器更高的寫(xiě)入壽命,以及接近靜態(tài)隨機(jī)存取存儲(chǔ)器(static random access memory, SRAM)的讀寫(xiě)速度[8-10].

    賽道型存儲(chǔ)的本身物理結(jié)構(gòu)決定了其不但適用于存儲(chǔ)數(shù)據(jù),也非常容易組成各種邏輯結(jié)構(gòu)來(lái)進(jìn)行數(shù)據(jù)處理,因此可以用來(lái)作為存內(nèi)計(jì)算的介質(zhì).第1代賽道型存儲(chǔ)器是基于磁疇壁(domain-wall)介質(zhì)的,文獻(xiàn)[11]在此基礎(chǔ)上提出了一種較為通用的存內(nèi)計(jì)算架構(gòu).然而這種基于磁疇壁介質(zhì)的存內(nèi)架構(gòu)依然需要大量的CMOS(complementary metal oxide semiconductor)外圍電路來(lái)進(jìn)行輔助計(jì)算,導(dǎo)致了計(jì)算單元體積和能耗的增加.

    最近新型的基于斯格明子介質(zhì)的第2代賽道型存儲(chǔ)器被提出[12-15].相比磁疇壁介質(zhì),斯格明子介質(zhì)具有密度更高、能耗更低、穩(wěn)定性更強(qiáng)以及更少受限于材料等一系列優(yōu)良特性,非常適合作為下一代存內(nèi)計(jì)算的介質(zhì).同樣這種介質(zhì)特性也非常適合使用在嵌入式系統(tǒng)中,甚至可以用來(lái)構(gòu)建基于嵌入式系統(tǒng)的移動(dòng)存內(nèi)計(jì)算框架.然而目前對(duì)于斯格明子介質(zhì)的研究主要集中于硬件存儲(chǔ)功能,缺乏關(guān)于計(jì)算功能的研究,系統(tǒng)層次以及具體應(yīng)用實(shí)現(xiàn)也很少涉及[16].另一方面由于斯格明子-賽道型存儲(chǔ)器特有的條帶狀物理結(jié)構(gòu),使其具有特有的順序讀寫(xiě)特性,如何用其替代現(xiàn)有存內(nèi)計(jì)算架構(gòu)下的存儲(chǔ)單元也是亟待解決的問(wèn)題.

    針對(duì)以上問(wèn)題,本文提出了一種基于斯格明子介質(zhì)的存內(nèi)計(jì)算框架,主要貢獻(xiàn)有4點(diǎn):1)結(jié)合斯格明子介質(zhì)本身的物理特性,由斯格明子邏輯門(mén)組成加法器、乘法器等計(jì)算單元并進(jìn)行優(yōu)化,極大地減少了CMOS輔助電路的使用,提高了計(jì)算效率;2)在硬件電路層面上對(duì)于基本存儲(chǔ)單元讀寫(xiě)端口數(shù)等參數(shù)進(jìn)行探討,并通過(guò)實(shí)驗(yàn)優(yōu)化配置;3)在系統(tǒng)層上對(duì)內(nèi)存的地址映射方式進(jìn)行改進(jìn),提高了整個(gè)系統(tǒng)的運(yùn)行效率;4)以通用的圖像銳化程序?yàn)槔敿?xì)說(shuō)明了程序在內(nèi)存框架中的工作流程,同時(shí)將本文提出的基于斯格明子介質(zhì)的內(nèi)存框架與目前最先進(jìn)的基于磁疇壁的存內(nèi)計(jì)算框架進(jìn)行實(shí)驗(yàn)對(duì)比.

    1 基于斯格明子介質(zhì)的存內(nèi)計(jì)算框架

    基于斯格明子介質(zhì)的存內(nèi)計(jì)算主要包含2部分:基于斯格明子介質(zhì)的存儲(chǔ)單元和計(jì)算單元,其中存儲(chǔ)單元即斯格明子-賽道型存儲(chǔ)器,是整個(gè)框架的基礎(chǔ).

    1.1 斯格明子賽道型存儲(chǔ)器件

    斯格明子-賽道型存儲(chǔ)器[12-13],區(qū)別于磁疇壁-賽道型存儲(chǔ)器,是一種基于斯格明子編碼的非易失性存儲(chǔ)器.如圖1所示,數(shù)據(jù)通過(guò)斯格明子編碼之后存儲(chǔ)在一條單一的鐵磁納米線(nanowire)器件上.納米線上的斯格明子由電壓控制的磁各向異性(voltage-controlled magnetic anisotropy, VCMA)門(mén)所隔離,每2個(gè)門(mén)之間存儲(chǔ)一位數(shù)據(jù).如果此區(qū)間內(nèi)存在斯格明子則代表數(shù)據(jù)1,如果不存在斯格明子則代表數(shù)據(jù)0.斯格明子-賽道型存儲(chǔ)器件有3項(xiàng)基本操作:移位、讀和寫(xiě),其中具有移位操作是其最重要的特性.

    Fig. 1 Skyrmion based nanowire device圖1 斯格明子-賽道型存儲(chǔ)器件結(jié)構(gòu)圖

    斯格明子-賽道型存儲(chǔ)器件的移位操作,是指在磁各向異性門(mén)打開(kāi)時(shí)納米線上的斯格明子可以通過(guò)在存儲(chǔ)器兩端移位端口(shift port)施加電流來(lái)進(jìn)行向左或向右移動(dòng).為了保證移位操作之后記錄在納米線上的數(shù)據(jù)不丟失,在納米線兩端應(yīng)當(dāng)有冗余的存儲(chǔ)位供位移操作使用.整體來(lái)說(shuō)所有比特?cái)?shù)據(jù)的移位都類似于磁帶操作,和移位寄存器類似.

    斯格明子-賽道型存儲(chǔ)器件讀、寫(xiě)操作的基本原理類似.在存儲(chǔ)器器件中有讀寫(xiě)端口(write/read port),即沿著納米線方向放置的一個(gè)強(qiáng)磁化鐵磁層,但是其和納米線之間由較薄的絕緣層隔開(kāi).這樣的三明治結(jié)構(gòu)形成了磁隧道結(jié)(magnetic tunnel junctions, MTJs).通過(guò)向?qū)懚丝诘腗TJ結(jié)構(gòu)中注入自旋極化電流(spin-transfer current)就可以在納米線上產(chǎn)生一個(gè)斯格明子.同樣讀端口也是一個(gè)MTJ結(jié)構(gòu),通過(guò)檢測(cè)讀端口MTJ隧穿電導(dǎo)(tunneling conductance)的變化就可以得知納米線上當(dāng)前位置是否存在斯格明子,即數(shù)據(jù)是0還是1.需要注意的是,由于寫(xiě)和讀操作只能在固定的MTJ端口處進(jìn)行,因此納米線上比特位數(shù)據(jù)的操作需要移動(dòng)到與MTJ固定層對(duì)齊的位置才能進(jìn)行,而移位操作的方向和速度取決于控制電流的方向和幅度.

    1.2 基于斯格明子介質(zhì)的存內(nèi)計(jì)算框架

    傳統(tǒng)上所有的數(shù)據(jù)都是保存在和處理器分離的主存中,二者通過(guò)總線相連接.因此在程序執(zhí)行過(guò)程中所有的數(shù)據(jù)都需要遷移到處理器中,并在處理完成之后再次寫(xiě)回.對(duì)于以數(shù)據(jù)為導(dǎo)向的應(yīng)用,這將產(chǎn)生嚴(yán)重的通信堵塞,從而大大降低總體性能.此外在傳統(tǒng)的內(nèi)存中保存大量的數(shù)據(jù)也將產(chǎn)生明顯的待機(jī)能耗.

    為了克服上述2個(gè)問(wèn)題,我們使用基于非易失性內(nèi)存的計(jì)算架構(gòu).首先存內(nèi)計(jì)算架構(gòu)在一定程度上解決了數(shù)據(jù)傳輸瓶頸的問(wèn)題,也減少了數(shù)據(jù)傳輸?shù)哪芎?;其次非易失性?nèi)存在極大地減少待機(jī)功耗的同時(shí)也降低了內(nèi)存的動(dòng)態(tài)功耗.基于斯格明子-賽道型存儲(chǔ)器的存內(nèi)計(jì)算平臺(tái)整體結(jié)構(gòu)如圖2所示,其中存內(nèi)計(jì)算單元與存儲(chǔ)單元以分布式的方式組合成存儲(chǔ)-計(jì)算單元組,這樣許多頻繁處理數(shù)據(jù)的操作可以在內(nèi)存內(nèi)部完成而無(wú)需與外部處理器進(jìn)行通信,從而極大地節(jié)省了時(shí)間與能耗的開(kāi)銷.同時(shí)分布式的內(nèi)存處理單元也可以提供巨大的線程級(jí)并行性,從而極大地提高系統(tǒng)吞吐量.

    Fig. 2 The structure of PIM platform圖2 存內(nèi)計(jì)算架構(gòu)

    在本文提出的基于斯格明子的存內(nèi)計(jì)算框架中,內(nèi)存存儲(chǔ)單元由基于斯格明子的賽道型存儲(chǔ)器構(gòu)成,從而受益于其低漏電功耗、非易失性以及穩(wěn)健性等優(yōu)點(diǎn).同時(shí)存內(nèi)計(jì)算單元純粹由基于斯格明子邏輯門(mén)的加法器、乘法器等組成,只需要極少的CMOS電路輔助,因此總體漏電功耗和處理數(shù)據(jù)所需的動(dòng)態(tài)功耗和時(shí)間消耗都極大地減少.在本文提出的存內(nèi)計(jì)算框架中,存儲(chǔ)-計(jì)算單元組之間通過(guò)H型內(nèi)部數(shù)據(jù)通路相連接,這樣單元組與單元組之間的數(shù)據(jù)可以隨時(shí)根據(jù)需要進(jìn)行傳輸,而外部處理器(即CPU)主要負(fù)責(zé)將控制指令傳輸給內(nèi)存內(nèi)部的控制單元,由內(nèi)部控制單元負(fù)責(zé)內(nèi)存中存儲(chǔ)與計(jì)算單元具體數(shù)據(jù)的調(diào)度處理.由于斯格明子既具有計(jì)算功能又具有存儲(chǔ)功能,因此在本文提出的存內(nèi)計(jì)算框架中,計(jì)算單元得到的結(jié)果將直接寫(xiě)入存儲(chǔ)單元中,即存儲(chǔ)單元本身完成了類似寄存器的時(shí)序邏輯功能.

    2 基于斯格明子介質(zhì)的計(jì)算單元設(shè)計(jì)

    本節(jié)首先從硬件層面考慮,提出基于斯格明子邏輯門(mén)的加法邏輯單元和進(jìn)位邏輯單元設(shè)計(jì),再進(jìn)一步提出整個(gè)全加器的設(shè)計(jì),最后在全加器設(shè)計(jì)的基礎(chǔ)上提出了基于斯格明子邏輯門(mén)乘法器的設(shè)計(jì),并進(jìn)一步對(duì)加法器進(jìn)行了優(yōu)化.

    2.1 基于斯格明子邏輯門(mén)的加法邏輯

    典型的邏輯和運(yùn)算由2個(gè)異或門(mén)組成,然而異或邏輯門(mén)無(wú)法直接使用斯格明子器件實(shí)現(xiàn).這個(gè)問(wèn)題可以通過(guò)斯格明子邏輯門(mén)組合來(lái)實(shí)現(xiàn)[14-15].其中文獻(xiàn)[14]實(shí)現(xiàn)了基于斯格明子的邏輯與門(mén)和邏輯或門(mén),同時(shí)包含基于斯格明子的復(fù)制(duplication)邏輯,而文獻(xiàn)[15]中實(shí)現(xiàn)了基于斯格明子的邏輯與非門(mén)和邏輯或非門(mén).在此基礎(chǔ)上本文構(gòu)建了基于斯格明子的異或邏輯門(mén).如圖3(b)所示,基于斯格明子的異或邏輯門(mén)由1個(gè)或門(mén),1個(gè)與非門(mén)以及1個(gè)與門(mén)組成.需要注意的是,圖3(b)中OR2-Gate是與非門(mén)NAND-Gate的一部分,輸入部分An和Bn分別代表數(shù)據(jù)A和B的第n位.正如圖3(a)所示,A和B是一個(gè)存儲(chǔ)在斯格明子納米線上8 b的數(shù)據(jù).在斯格明子納米線上,如果某個(gè)位置存在有斯格明子,它就代表數(shù)值1;如果沒(méi)有斯格明子,它就表示數(shù)值0.因此圖3(a)以二進(jìn)制形式表示A=10111001,B=10101110.

    Fig. 3 Skyrmion nanowire-based XOR-logic圖3 基于斯格明子的異或邏輯單元

    當(dāng)n=1時(shí)異或邏輯單元工作步驟有3個(gè):

    1) 操作數(shù)A1和B1同時(shí)進(jìn)入邏輯門(mén)OR1和NAND.由于A1=1,B1=0也即有一個(gè)斯格明子進(jìn)入邏輯門(mén)OR1,一個(gè)斯格明子進(jìn)入邏輯門(mén)NAND.

    2) 代表A1的斯格明子分別通過(guò)邏輯門(mén)OR1和NAND并保持不變.

    3) 從邏輯門(mén)OR1和NAND出來(lái)的2個(gè)斯格明子同時(shí)進(jìn)入邏輯門(mén)AND,最終合并成一個(gè)斯格明子,從而可以得到A1⊕B1=1.

    通過(guò)基于斯格明子納米線器件的異或邏輯單元我們可以實(shí)現(xiàn)帶進(jìn)位的加法邏輯單元(SUM=An⊕Bn⊕Cin,其中Cin為進(jìn)位).即通過(guò)組合2個(gè)異或邏輯單元:第1個(gè)異或邏輯單元輸入是An和Bn,輸出是An⊕Bn;第2異或邏輯單元輸入是An⊕Bn和Cin,而輸出是當(dāng)前位的進(jìn)位和SUM.

    2.2 基于斯格明子邏輯門(mén)的進(jìn)位邏輯

    一個(gè)典型的進(jìn)位邏輯由3個(gè)與門(mén)和2個(gè)或門(mén)組成.圖4顯示了基于斯格明子邏輯門(mén)的進(jìn)位邏輯單元具體設(shè)計(jì)細(xì)節(jié).

    Fig. 4 Skyrmion nanowire-based carry-logic圖4 基于斯格明子的進(jìn)位邏輯門(mén)

    如圖4所示,進(jìn)位邏輯單元有3組輸入:An和Bn,An和Cin,Bn和Cin,以及一個(gè)輸出:Cout.其中輸入Cin為第n-1位的進(jìn)位,輸出Cout為第n位的進(jìn)位.進(jìn)位邏輯單元具體實(shí)現(xiàn)細(xì)節(jié)有4點(diǎn):

    1) 代表上述3組輸入第n位數(shù)值的斯格明子粒子分別進(jìn)入了3個(gè)與門(mén),即AND1~AND3.

    2) 第1個(gè)與門(mén)AND1的輸出和第2個(gè)與門(mén)AND2的輸出將同時(shí)進(jìn)入第1個(gè)或門(mén)OR1.第3個(gè)與門(mén)AND3的輸出將在進(jìn)入第2個(gè)或門(mén)OR2之前等待OR1的輸出.

    3) 第1個(gè)或門(mén)OR1的輸出與第3個(gè)與門(mén)AND3的輸出同時(shí)進(jìn)入第2個(gè)或門(mén)OR1.

    4) 第2個(gè)或門(mén)的輸出即進(jìn)位的值Cout.

    2.3 基于斯格明子邏輯門(mén)的全加器

    Fig. 5 Skyrmion nanowire-based full adder圖5 基于斯格明子邏輯門(mén)的全加器

    基于斯格明子邏輯門(mén)的全加器如圖5所示,此全加器由3個(gè)主要部分構(gòu)成:第1部分(PART1)是和運(yùn)算部分,由第1個(gè)異或邏輯組成,它的輸入是An和Bn,輸出是An⊕Bn.同時(shí)第1部分還有一個(gè)復(fù)制邏輯(duplication)以便為第3部分(PART3)提供輸入.第2部分(PART2)是進(jìn)位邏輯,其輸入是An-1,Bn-1,Cn-1,而輸出是Cn即n-1位的進(jìn)位.同時(shí)Cn會(huì)復(fù)制4份,其中2份作為第3部分(PART3)的輸入,另外2份作為下一位加法的輸入.第3部分(PART3)由第2個(gè)異或邏輯構(gòu)成,其輸入是An⊕Bn和Cn,即第1部分和第2部分的輸出,而輸出就是全加器的最終結(jié)果:SUM=An⊕Bn⊕Cn.

    圖5中的針孔形狀部分代表一種能量勢(shì)壘(energy barrier)[15],這種能量勢(shì)壘在電壓為正的時(shí)候可以阻止斯格明子通過(guò),而在電壓為0的時(shí)候允許斯格明子通過(guò),從而起到類似開(kāi)關(guān)的作用.通過(guò)能量勢(shì)壘的開(kāi)關(guān)可以使得斯格明子同步進(jìn)入邏輯門(mén)的2個(gè)輸入端以保證邏輯門(mén)的正常工作.注意,當(dāng)n=1時(shí),An代表數(shù)據(jù)A的第1位,此時(shí)An-1不存在即無(wú)任何輸入,Bn-1與Cn也相同.

    不同斯格明子邏輯門(mén)的傳播時(shí)延已在文獻(xiàn)[14-15]中給出.基于已知的各種邏輯門(mén)的工作時(shí)間,當(dāng)整個(gè)系統(tǒng)的工作頻率為1 000 MHz時(shí),通過(guò)計(jì)算得知全加器進(jìn)行1位的加法需要11個(gè)時(shí)鐘周期.考慮到能量勢(shì)壘開(kāi)關(guān)在使邏輯門(mén)輸入同步的同時(shí)也使得各個(gè)邏輯門(mén)之間相互隔離,因此當(dāng)進(jìn)行多個(gè)位的加法時(shí)可以利用此特性對(duì)全加器的工作流程進(jìn)一步優(yōu)化.受CPU流水線優(yōu)化技術(shù)啟發(fā),我們對(duì)全加器進(jìn)行了優(yōu)化:在1位加法計(jì)算完成之前就允許下一位的數(shù)據(jù)進(jìn)入全加器,從而極大地提高了整體工作效率.

    經(jīng)過(guò)優(yōu)化后的全加器電路時(shí)序圖如圖6所示.其中橫坐標(biāo)的數(shù)字1~19分別代表19個(gè)時(shí)鐘周期,每個(gè)時(shí)鐘周期為1 ns;縱坐標(biāo)的Gate 1~13分別對(duì)應(yīng)圖6所示全加器中對(duì)應(yīng)的13個(gè)邏輯門(mén)的控制電壓,即每個(gè)邏輯門(mén)輸入端口處能量勢(shì)壘開(kāi)關(guān)的電壓.經(jīng)過(guò)優(yōu)化后的全加器主要時(shí)序邏輯為

    Fig. 6 Timing diagram of 8-bit full adder圖6 全加器電壓控制時(shí)序圖

    1) 第1個(gè)時(shí)鐘周期.Gate1~2,Gate5~7對(duì)應(yīng)的控制電壓為低電壓,因此對(duì)應(yīng)輸入 端口的斯格明子(也即An,Bn,An-1,Bn-1,Cn-1)可以進(jìn)入OR-Gate1,NAND-Gate2和AND-Gate5.為了保證輸入同步,Gate3~4,Gate8~9和Gate11對(duì)應(yīng)的控制電壓為高電壓.其他邏輯門(mén)對(duì)應(yīng)的控制電壓均保持低電壓,因?yàn)檫@些邏輯門(mén)還未被使用.

    2) 第2個(gè)時(shí)鐘周期.Gate1~2,Gate5~7對(duì)應(yīng)的控制電壓變?yōu)楦唠妷阂宰柚顾垢衩髯舆M(jìn)入對(duì)應(yīng)邏輯門(mén),同時(shí)Gate3~4,Gate9和Gate11的控制電壓繼續(xù)保持高電壓以完成邏輯門(mén)同步功能.Gate8的控制電壓從高電壓轉(zhuǎn)為低電壓從而使得斯格明子進(jìn)入OR-Gate8,其他邏輯門(mén)的對(duì)應(yīng)控制電壓依然保持不變.

    3) 第3個(gè)時(shí)鐘周期.Gate9的控制電壓轉(zhuǎn)為低電壓以便斯格明子進(jìn)入OR-Gate9,同時(shí)后續(xù)Gate10的控制電壓轉(zhuǎn)變?yōu)楦唠妷阂酝瓿赏焦δ埽渌壿嬮T(mén)的控制電壓保持不變.

    4) 第6個(gè)時(shí)鐘周期.Gate4的控制電壓從高電壓變?yōu)榈碗妷阂员闼垢衩髯舆M(jìn)入AND-Gate4;同時(shí) Gate2的控制電壓變?yōu)榈碗妷阂员阍试S下個(gè)比特的數(shù)據(jù)進(jìn)入NAND-Gate2,后續(xù)Gate3依然保持高電壓.

    5) 第8個(gè)時(shí)鐘周期.Gate10~11的控制電壓轉(zhuǎn)為低電壓從而An⊕Bn和Cn對(duì)應(yīng)的斯格明子可以進(jìn)入 OR-Gate10和NAND-Gate11.Gate12~13的控制電壓為了保持同步應(yīng)變?yōu)楦唠妷籂顟B(tài).同時(shí)Gate5~7的控住電壓轉(zhuǎn)為高電壓,而Gate8的控制電壓轉(zhuǎn)為低電壓.

    6) 第13個(gè)時(shí)鐘周期.Gate5~7的控制電壓轉(zhuǎn)為高電壓以阻止斯格明子進(jìn)入邏輯門(mén),同時(shí)Gate8,Gate10,Gate11,Gate13的控制電壓轉(zhuǎn)為低電壓.

    7) 第14個(gè)時(shí)鐘周期.可以通過(guò)輸出端口是否有斯格明子判斷SUM的值是0還是1,從而得到求和運(yùn)算的第1個(gè)位數(shù)值.

    8) 第15個(gè)時(shí)鐘周期及以后.不斷重復(fù)第10~14個(gè)時(shí)鐘周期的狀態(tài),每隔5個(gè)時(shí)鐘周期就可以讀出和的下一位數(shù)值.

    如圖6所示,經(jīng)過(guò)計(jì)算可以得知第1位的加法需要14個(gè)時(shí)鐘周期(每個(gè)時(shí)鐘周期1 ns),而從第2位開(kāi)始每5個(gè)時(shí)鐘周期全加器就可以完成一個(gè)位的加法.這是由于經(jīng)過(guò)優(yōu)化后全加器內(nèi)部各個(gè)邏輯門(mén)之間相互獨(dú)立運(yùn)行,從而可以獲得類似流水線的優(yōu)化效果,考慮到在進(jìn)行大量數(shù)據(jù)處理時(shí)或者隨著運(yùn)行頻率的進(jìn)一步提高優(yōu)化效果依然可以進(jìn)一步提高.對(duì)于常用的8 b的加法,本文提出的基于斯格明子介質(zhì)的全加器經(jīng)過(guò)優(yōu)化后只需要49個(gè)時(shí)鐘周期即49 ns,相比基于磁疇壁的第1代賽道存儲(chǔ)內(nèi)存加法器 (8位加法需要108 ns)[1]快了2.2倍.

    2.4 基于斯格明子邏輯門(mén)的乘法器

    通常來(lái)說(shuō)乘法可以分解為多次移位操作和加法操作,而本文提出的存內(nèi)計(jì)算框架中全加器可以通過(guò)純粹的基于斯格明子邏輯門(mén)實(shí)現(xiàn),移位操作又是斯格明子納米線器件自帶的能力,因此本文提出如圖7所示基于斯格明子邏輯門(mén)的8位乘法器.

    在圖7中,An代表當(dāng)對(duì)應(yīng)操作數(shù)B的第n位為1時(shí),需要將操作數(shù)A左移n-1位.例如當(dāng)操作數(shù)A和B的二進(jìn)制形式分別為1101和111時(shí),有A0=1101,A1=11010,A2=110100,此時(shí)A乘以B就等于A0+A1+A2.由于操作數(shù)A存儲(chǔ)在斯格明子納米線上,而納米線器件本身就支持移位操作,因此An可以通過(guò)將操作數(shù)A左移n位得到,再直接輸入全加器中得到乘法結(jié)果.因此基于斯格明子的乘法器可以通過(guò)重復(fù)利用已有的斯格明子全加器和本身的移位來(lái)實(shí)現(xiàn),因此大大減少了計(jì)算邏輯單元所需的空間以及時(shí)間,同時(shí)也減少了實(shí)現(xiàn)存內(nèi)計(jì)算框架的復(fù)雜程度.

    Fig. 7 8-bit Skyrmion nanowire-based multiplier圖7 基于斯格明子的8位乘法器

    3 基于斯格明子介質(zhì)的存儲(chǔ)單元設(shè)計(jì)

    在存內(nèi)計(jì)算框架中存儲(chǔ)單元與計(jì)算單元一同對(duì)整個(gè)系統(tǒng)的性能起著至關(guān)重要的作用.而斯格明子-賽道型存儲(chǔ)器本身的物理特性決定其與傳統(tǒng)的DRAM存儲(chǔ)器隨機(jī)讀寫(xiě)的方式并不相同,斯格明子-賽道型存儲(chǔ)器具有順序讀寫(xiě)的特性.因此我們無(wú)法簡(jiǎn)單地用斯格明子存儲(chǔ)單元直接替代DRAM存儲(chǔ)單元.為了進(jìn)一步提高斯格明子存內(nèi)計(jì)算框架的效率,我們需要根據(jù)斯格明子-賽道型存儲(chǔ)器的本身物理特性來(lái)從底層硬件及系統(tǒng)軟件2個(gè)層面考慮存內(nèi)計(jì)算框架中存儲(chǔ)單元的設(shè)計(jì).

    Fig. 8 Skyrmion based memory cell 圖8 基于斯格明子介質(zhì)的存儲(chǔ)單元

    3.1 斯格明子存儲(chǔ)單元底層硬件設(shè)計(jì)

    基于斯格明子的基本存儲(chǔ)單元具體結(jié)構(gòu)如圖8所示.其中存儲(chǔ)部分由RT0到RT3共4條基本賽道組成.每條賽道上可能有n個(gè)讀寫(xiě)端口(圖8中圓形部分),這樣每個(gè)單元可以一次讀寫(xiě)4n(單位為b).典型的賽道型存儲(chǔ)器具有3個(gè)基本操作即讀、寫(xiě)以及移位.由于其中移動(dòng)數(shù)據(jù)的移位操作占據(jù)絕大部分的時(shí)間和能耗,所以如何在不影響系統(tǒng)性能的情況下盡量減少數(shù)據(jù)的移位操作是亟待解決的問(wèn)題.

    在圖8所示結(jié)構(gòu)中,減少移位最直觀有效的方法是增加讀寫(xiě)端口的數(shù)量.但是由于讀寫(xiě)端口本身會(huì)占用大量的空間,因此增加讀寫(xiě)端口會(huì)相應(yīng)降低存儲(chǔ)的密度,同時(shí)會(huì)帶來(lái)讀寫(xiě)延時(shí)、能耗的增加以及實(shí)現(xiàn)工藝的復(fù)雜化,因此需要在增加讀寫(xiě)端口與減少數(shù)據(jù)移位之間尋找一個(gè)平衡點(diǎn).同時(shí)每個(gè)基本存儲(chǔ)單元由幾條賽道組成,以及每條賽道的長(zhǎng)度(即可以存儲(chǔ)的數(shù)據(jù)量)是多少,都對(duì)整個(gè)讀寫(xiě)單元的性能有著至關(guān)重要的影響.文獻(xiàn)[10,13]經(jīng)過(guò)大量實(shí)驗(yàn)分析得知在多數(shù)應(yīng)用中,每個(gè)基本存儲(chǔ)單元中由4個(gè)條帶組成,每個(gè)條帶存儲(chǔ)64 b數(shù)據(jù)能取得較好性能.這時(shí)如果每條賽道的讀寫(xiě)端口大于16,單個(gè)存儲(chǔ)單元占用面積以及讀寫(xiě)時(shí)延以及功耗都會(huì)急劇增加;而當(dāng)讀寫(xiě)端口數(shù)小于16時(shí),單個(gè)存儲(chǔ)單元占用面積隨著端口數(shù)減少反而會(huì)增加,因?yàn)榇藭r(shí)條帶兩端需要為移位操作預(yù)留的空間也越來(lái)越大.同時(shí)在后續(xù)的實(shí)驗(yàn)部分中,本文也分析了在本文提出的基于斯格明子的存內(nèi)計(jì)算框架下讀寫(xiě)端口的數(shù)量與移位操作數(shù)的相應(yīng)變化,綜合考慮我們選擇讀寫(xiě)端口為16.

    3.2 斯格明子存儲(chǔ)單元系統(tǒng)優(yōu)化

    由于斯格明子-賽道型存儲(chǔ)器不同于傳統(tǒng)的DRAM存儲(chǔ)器具有順序讀寫(xiě)的特性,因此傳統(tǒng)的為隨機(jī)讀寫(xiě)存儲(chǔ)器設(shè)計(jì)的系統(tǒng)地址映射方式并不適用于這種新型的非易失性存儲(chǔ)器.圖9(a)所示為傳統(tǒng)的DRAM的地址映射方式RBC(row bank column),這種存儲(chǔ)系統(tǒng)通常使用一種典型的開(kāi)放式頁(yè)面地址映射策略,將所有相鄰列的同一行映射到一個(gè)連續(xù)的區(qū)域,使空間局部性最大化.同時(shí),它通過(guò)行列交織的方式來(lái)管理流水線式的內(nèi)存請(qǐng)求.

    對(duì)于斯格明子-賽道型存儲(chǔ)器來(lái)說(shuō),關(guān)鍵問(wèn)題是傳統(tǒng)地址映射方式將每個(gè)行作為一個(gè)連續(xù)區(qū)域而不考慮移位的問(wèn)題,也不考慮這些行可能橫跨了許多不同內(nèi)存存儲(chǔ)單元,因此可能會(huì)帶來(lái)非常嚴(yán)重的負(fù)面效應(yīng).如圖10所示,256行依次分布在第1存儲(chǔ)單元MC1到第64存儲(chǔ)單元MC64,為了簡(jiǎn)化討論,假設(shè)內(nèi)存中有64個(gè)基本存儲(chǔ)單元,每個(gè)存儲(chǔ)單元只有1條存儲(chǔ)賽道,每條賽道只能存儲(chǔ)4 b數(shù)據(jù)且只有1個(gè)讀寫(xiě)端口.在傳統(tǒng)的地址映射方式下由于內(nèi)存訪問(wèn)都具有很高的空間局部性,導(dǎo)致內(nèi)存訪問(wèn)可能在不同存儲(chǔ)單元之間以及存儲(chǔ)單元內(nèi)部頻繁切換.在圖10的例子中,應(yīng)用程序的內(nèi)存訪問(wèn)序列為R4→R8→R1→R4→R6.這些請(qǐng)求只映射到2個(gè)相關(guān)存儲(chǔ)單元(MC1,MC2),從而導(dǎo)致了多次移位操作(總移位為14次).考慮到基于斯格明子的存儲(chǔ)器存儲(chǔ)密度極大化以及內(nèi)存訪問(wèn)的局部性,再結(jié)合存內(nèi)計(jì)算的具體應(yīng)用場(chǎng)景,本文提出了一種新的地址映射方式,即基于斯格明子介質(zhì)的地址映射方式(address mapping based on Skyrmion, AMBS).

    Fig. 10 An example of using AMBS圖10 使用賽道型地址映射的優(yōu)勢(shì)1例

    我們首先解釋這種地址映射方案如何具體實(shí)現(xiàn).AMBS將地址位(第16 b到第31 b)分為3部分:SN,PN,MN,見(jiàn)圖9(b).其中SN(shift number)表示初始行和其對(duì)應(yīng)訪問(wèn)端口的距離,即初始數(shù)據(jù)需要移位多少次才能夠被訪問(wèn).PN(port number)表示的是訪問(wèn)數(shù)據(jù)對(duì)應(yīng)的端口序列號(hào),即通過(guò)第幾個(gè)端口去訪問(wèn)數(shù)據(jù).MN(memory cell number)表示基本存儲(chǔ)單元的編號(hào).具體地說(shuō),如果每個(gè)x位數(shù)據(jù)共享一個(gè)端口,即要將內(nèi)存中所有的行地址按照SN的數(shù)值劃分為x組,并將地址相鄰的行劃為同一組. AMBS策略優(yōu)先在組內(nèi)進(jìn)行數(shù)據(jù)分配,只有組內(nèi)整個(gè)空間分配完之后,才將后續(xù)數(shù)據(jù)分配給下一組.

    通過(guò)這種賽道型內(nèi)存地址映射方式可以極大地減少移位操作,原因主要有2方面:1)在組間來(lái)說(shuō),假設(shè)內(nèi)存的總?cè)萘繛? GB,每32 b數(shù)據(jù)共享一個(gè)端口,此時(shí)每組的大小為256 MB(8 GB/32),此時(shí)由于內(nèi)存讀取的局部性,內(nèi)存訪問(wèn)序列有極大可能屬于某一組,因此可以減少由于較小區(qū)域的空間局部性導(dǎo)致的頻繁移位操作.2)在組內(nèi)來(lái)說(shuō),由于延遲和能耗主要來(lái)自于移位操作,特別是長(zhǎng)距離的移位操作,因此減少移位的距離也能提高系統(tǒng)性能.而賽道型內(nèi)存地址映射能將大部分內(nèi)存讀寫(xiě)的移位操作距離減少至1,這是因?yàn)橥淮鎯?chǔ)單元中相鄰2行的地址差距非常大(256 MB).

    結(jié)合上述說(shuō)明,我們以圖10為例來(lái)說(shuō)明AMBS是如何工作的.內(nèi)存訪問(wèn)序列為R4→R8→R1→R4→R6,在傳統(tǒng)的內(nèi)存映射方式下,需要14次移位操作才能夠讀取完這些數(shù)據(jù),而在基于賽道內(nèi)存的操作下不需要進(jìn)行任何移位任何操作就能完成內(nèi)存數(shù)據(jù)的讀取,節(jié)省了大量時(shí)間和能耗的開(kāi)銷.而賽道型內(nèi)存地址映射方式的實(shí)現(xiàn)方式,可以通過(guò)在操作系統(tǒng)中使用一個(gè)統(tǒng)一的分系統(tǒng)管理物理頁(yè),并形成了一個(gè)層次結(jié)構(gòu)基于Shift和Port的可用頁(yè)面列表,類似于頁(yè)面著色技術(shù)[17],根據(jù)應(yīng)用程序需要的不同存儲(chǔ)容量,盡可能地分配一個(gè)連續(xù)的區(qū)域.因此最簡(jiǎn)單的方式,可以使用一個(gè)靜態(tài)的物理地址的映射系統(tǒng),在內(nèi)存控制器中或斯格明子-賽道型存儲(chǔ)器芯片內(nèi)部實(shí)現(xiàn).這樣就可以在不改變現(xiàn)有操作系統(tǒng)的存儲(chǔ)器體系接口下實(shí)現(xiàn),因此帶來(lái)的額外開(kāi)銷也基本可以忽略.

    4 實(shí)驗(yàn)與結(jié)果分析

    本節(jié)分別從硬件層和系統(tǒng)層對(duì)基于斯格明子介質(zhì)的存內(nèi)計(jì)算單元進(jìn)行性能評(píng)估.首先對(duì)于硬件層面,探討了基于斯格明子邏輯門(mén)的存內(nèi)計(jì)算單元的性能,其次在系統(tǒng)層面上通過(guò)通用的圖像銳化程序?qū)τ趦?nèi)存存儲(chǔ)單元的讀寫(xiě)端口個(gè)數(shù)與數(shù)據(jù)移位操作數(shù)的關(guān)系,以及整個(gè)存內(nèi)計(jì)算系統(tǒng)的時(shí)間及能耗效率進(jìn)行了評(píng)估.

    4.1 基于斯格明子的計(jì)算單元性能評(píng)估

    斯格明子邏輯門(mén)組成的基本運(yùn)算單元作為存內(nèi)計(jì)算框架的基礎(chǔ),首先我們需要對(duì)其性能進(jìn)行評(píng)估.本實(shí)驗(yàn)中所用的斯格明子器件的讀寫(xiě)時(shí)間與能耗數(shù)據(jù)來(lái)自于文獻(xiàn)[18],同時(shí)移位操作的能耗可以通過(guò)斯格明子納米線的熱耗散數(shù)據(jù)計(jì)算得出,移位操作的時(shí)間可以通過(guò)斯格明子在納米線上的移動(dòng)速度計(jì)算得出.需要注意的是當(dāng)斯格明子邏輯門(mén)的工作狀態(tài)即輸入不同時(shí),納米線上的驅(qū)動(dòng)電流密度也會(huì)隨之變化[14-15].例如當(dāng)邏輯與門(mén)的輸入為0和1時(shí)(即只有一個(gè)斯格明子進(jìn)入與門(mén)),電流密度為7×1012A/m-2;當(dāng)邏輯與門(mén)的輸入為1和1時(shí)(即有2個(gè)斯格明子同時(shí)進(jìn)入與門(mén)),電路密度為4×1012Am-2,因此在計(jì)算整個(gè)計(jì)算單元的功耗時(shí)我們只能取其平均值.在斯格明子邏輯門(mén)中使用的納米線長(zhǎng)約為600 nm,寬度約為100 nm[14],由此我們可以計(jì)算出計(jì)算單元占用的面積.基于斯格明子計(jì)算單元對(duì)比基于磁疇壁計(jì)算單元極大地減少了額外COMS電路的使用,不僅使得性能上有所提高,也極大地減少了實(shí)現(xiàn)工藝所需的復(fù)雜度.

    表1中對(duì)比了基于斯格明子計(jì)算單元和基于磁疇壁計(jì)算單元在時(shí)間、能耗和面積上的區(qū)別.可以看出,本文提出的基于斯格明子的存內(nèi)計(jì)算單元相比目前最先進(jìn)的基于磁疇壁的存內(nèi)計(jì)算單元節(jié)省了54.6%的時(shí)間、42.9%的能耗以及23.1%的占用面積.這主要?dú)w功于斯格明子介質(zhì)優(yōu)異的物理性質(zhì):加法計(jì)算單元進(jìn)行的優(yōu)化,以及乘法計(jì)算單元對(duì)于加法器的復(fù)用.同時(shí)相比基于磁疇壁計(jì)算單元,大大減少了外圍輔助電路的需求,簡(jiǎn)化了電路設(shè)計(jì),使得基于斯格明子計(jì)算單元更容易被實(shí)現(xiàn).

    Table 1 Performance Comparison of TwoComputing Units

    4.2 基于斯格明子的存內(nèi)計(jì)算框架性能評(píng)估

    4.2.1 實(shí)驗(yàn)環(huán)境配置

    為了更準(zhǔn)確評(píng)估基于斯格明子的存內(nèi)計(jì)算框架的總體性能,本文采用調(diào)整過(guò)的基于磁疇壁的存內(nèi)計(jì)算框架[1]來(lái)作為比較對(duì)象.為了模擬應(yīng)用程序在存內(nèi)計(jì)算框架中的具體執(zhí)行過(guò)程,我們修改了體系結(jié)構(gòu)模擬器Gem5[19]中內(nèi)存部分,同時(shí)為了獲得具體時(shí)間和能耗數(shù)據(jù),我們結(jié)合了功耗和時(shí)序建模工具M(jìn)cPAT[20]建立了整個(gè)實(shí)驗(yàn)平臺(tái).

    表2列出了實(shí)驗(yàn)中的主要參數(shù)配置.其中存內(nèi)計(jì)算框架中主存儲(chǔ)單元均被設(shè)置為1 000 MHz,與計(jì)算單元保持同步.對(duì)于基于磁疇壁的存內(nèi)計(jì)算框架,時(shí)間和能耗參數(shù)可以從擴(kuò)展的NVSim[21]中獲取.由于本文提出的內(nèi)存框架具有加法器和乘法器組成的計(jì)算單元,因此理論上任何程序中的加法和乘法操作均可以在此內(nèi)存框架中完成.特別地,本文選取了主要操作均由加法和乘法組成的圖像銳化程序作為實(shí)驗(yàn)測(cè)試程序,并在4.2.2節(jié)中介紹了圖像銳化程序的具體執(zhí)行過(guò)程.

    Table 2 Configuration Parameters of Experiment表2 實(shí)驗(yàn)環(huán)境中關(guān)鍵參數(shù)配置

    4.2.2 基于存內(nèi)計(jì)算框架的圖像銳化程序?qū)嵗?/p>

    為了詳細(xì)說(shuō)明程序是如何在基于斯格明子的存內(nèi)計(jì)算框架中執(zhí)行的,以及存內(nèi)計(jì)算帶來(lái)的優(yōu)勢(shì),本節(jié)以圖像銳化處理為例詳細(xì)描述程序執(zhí)行過(guò)程.

    Fig. 11 The working process of image sharpening in PIM architecture圖11 圖像銳化程序在存內(nèi)計(jì)算框架中具體執(zhí)行過(guò)程

    圖像銳化即加強(qiáng)圖像中重要信息,使得圖像更清晰、更易于處理,在圖像處理識(shí)別等各個(gè)領(lǐng)域都起著非常重要的作用.由于其處理的對(duì)象是以矩陣的形式將對(duì)應(yīng)像素點(diǎn)信息存儲(chǔ)于內(nèi)存中的數(shù)字化圖片,涉及到大量的矩陣操作,特別適合于用PIM進(jìn)行并行處理.其本質(zhì)是利用微分等運(yùn)算加強(qiáng)圖像中包含邊緣信息的高頻部分,代表性算法為拉普拉斯算子.拉普拉斯算子是一種二階微分算子,一個(gè)連續(xù)的二元函數(shù)f(x,y)其拉普拉斯運(yùn)算定義為

    (1)

    對(duì)圖像處理來(lái)說(shuō),可以將拉普拉斯算子簡(jiǎn)化為

    g(i,j)=4f(i,j)-f(i+1,j)-f(i-1,j)-

    f(i,j+1)-f(i,j-1).

    (2)

    在數(shù)字圖像處理中即表示將某個(gè)點(diǎn)對(duì)應(yīng)像素的數(shù)值乘以4再減去其上下左右相鄰像素對(duì)應(yīng)的數(shù)值.在圖像銳化處理的過(guò)程中,拉普拉斯算子可以直接通過(guò)模板操作來(lái)實(shí)現(xiàn),即用拉普拉斯模板與圖像中對(duì)應(yīng)像素?cái)?shù)值矩陣進(jìn)行點(diǎn)乘來(lái)得到銳化后的圖像數(shù)值.如圖11所示,其中常用的模板為

    (3)

    圖11以使用拉普拉斯算子模板進(jìn)行圖像銳化的程序?yàn)槔f(shuō)明通用程序在基于斯格明子介質(zhì)的存內(nèi)計(jì)算框架中執(zhí)行過(guò)程.如圖11所示,基于斯格明子的存內(nèi)計(jì)算框架主要包含存儲(chǔ)單元和計(jì)算單元2部分.

    其中存儲(chǔ)單元部分由斯格明子-賽道型存儲(chǔ)器組成,如圖11上半部分所示,灰色部分表示讀寫(xiě)端口所在位置.在未使用AMBS策略之前讀取2個(gè)矩陣的數(shù)據(jù)需要進(jìn)行多次移位操作,而在使用AMBS策略之后數(shù)據(jù)均存儲(chǔ)在讀寫(xiě)端口的位置,讀取這些數(shù)據(jù)不需要再進(jìn)行任何移位操作.圖11中計(jì)算單元部分由基于斯格明子的乘法器(S-MUL)和加法器(S-ADDER)等邏輯運(yùn)算單元構(gòu)成.同時(shí)存內(nèi)計(jì)算框架不同于傳統(tǒng)的使用外部處理器的計(jì)算框架,在內(nèi)存中還應(yīng)設(shè)有專門(mén)的控制器來(lái)控制程序的執(zhí)行過(guò)程.如圖11下半部分所示,圖像銳化程序的執(zhí)行過(guò)程可被分解為4個(gè)主要步驟:

    步驟1. 指令輸入.此時(shí)控制指令由外部處理器輸入到內(nèi)部的控制器.包含需要處理的數(shù)據(jù)地址、需要進(jìn)行的數(shù)據(jù)處理操作等.在如圖11所示例子中即包含存儲(chǔ)圖片對(duì)應(yīng)像素信息的3×3矩陣的地址、存儲(chǔ)拉普拉斯模板矩陣的地址以及需要進(jìn)行的對(duì)應(yīng)矩陣元素的加分和乘法操作.

    步驟2. 取數(shù)據(jù).內(nèi)部控制器根據(jù)指令從存儲(chǔ)單元對(duì)應(yīng)地址處取出數(shù)據(jù),在圖11中為一個(gè)保存圖像像素信息的3×3矩陣以及一個(gè)存儲(chǔ)拉普拉斯算子模板信息的3×3矩陣.

    步驟3. 數(shù)據(jù)處理.控制器將相應(yīng)數(shù)據(jù)分配至各個(gè)邏輯運(yùn)算單元進(jìn)行數(shù)據(jù)處理,直至得到需要的結(jié)果.圖11中進(jìn)行的是像素與模板的乘法,即2個(gè)矩陣的點(diǎn)乘運(yùn)算.首先將對(duì)應(yīng)矩陣按行、列進(jìn)行分解,如圖11中分解成(5,21,8)與(0,-1,0);再將對(duì)應(yīng)數(shù)值輸入相應(yīng)的基于斯格明子的乘法器分別得到(0,-21,0);最后將結(jié)果通過(guò)基于斯格明子的加法器多次相加得到最終結(jié)果(2).

    步驟4. 數(shù)據(jù)寫(xiě)回.最后將處理的結(jié)果(2)再寫(xiě)回到存儲(chǔ)單元中.

    上述過(guò)程不斷重復(fù),直至將整個(gè)圖像的數(shù)據(jù)進(jìn)行類似的卷積操作之后,就可以得到銳化后的圖像.在這個(gè)過(guò)程中,圖像數(shù)據(jù)均不需要傳輸?shù)酵獠刻幚砥鬟M(jìn)行處理,從而節(jié)省了大量的時(shí)間和能耗.

    4.2.3 實(shí)驗(yàn)結(jié)果

    本實(shí)驗(yàn)主要分為2部分:第1部分主要分析讀寫(xiě)端口數(shù)與移位次數(shù)之間的關(guān)系,以確定在斯格明子-賽道型存儲(chǔ)器中基本存儲(chǔ)單元讀寫(xiě)端口數(shù);第2部分將本文提出的基于斯格明子的存內(nèi)計(jì)算框架與目前最先進(jìn)的基于磁疇壁的存內(nèi)計(jì)算框架進(jìn)行對(duì)比.

    如圖12所示,我們首先研究了存儲(chǔ)單元讀寫(xiě)端口對(duì)程序執(zhí)行過(guò)程中賽道型內(nèi)存總移位數(shù)的影響.為了便于比較,將總移位以Base-16為基準(zhǔn)進(jìn)行規(guī)格化.其中Base-X代表不使用AMBS內(nèi)存映射策略且每個(gè)內(nèi)存單元具有X個(gè)讀寫(xiě)端口的情況,AMBS-X指的是使用AMBS映射策略且每個(gè)內(nèi)存單元具有X個(gè)讀寫(xiě)端口的情況.可以看出,使用AMBS內(nèi)存映射策略之后移位操作次數(shù)極大減少.這主要是由于:1)AMBS映射策略使得同一張圖片的數(shù)據(jù)均被存儲(chǔ)在同一組具有相同SN的內(nèi)存中,因此圖片銳化程序讀取1張圖片數(shù)據(jù)時(shí)就不再需要進(jìn)任何移位操作;2)AMBS映射策略使得相鄰圖片的數(shù)據(jù)存儲(chǔ)在同一組或者相鄰組內(nèi)存中,在這種情況下讀取相鄰圖片數(shù)據(jù)的圖片也最多需要進(jìn)行一次移位操作.同時(shí)我們還可以從圖12中看出,AMBS-16與AMBS-32差距較小,而與AMBS-8差距較大.這是由于AMBS-16位移操作次數(shù)已經(jīng)較少,再增加端口數(shù)也無(wú)法大幅減少位移操作次數(shù),但是減少端口數(shù)會(huì)顯著增減位移操作的次數(shù).綜上所述,結(jié)合占用面積、讀寫(xiě)延時(shí)等情況考慮,單個(gè)基本存儲(chǔ)單元讀寫(xiě)端口為16時(shí)能取得較好性能.

    Fig. 12 The impact of the read/write ports on the shift operation compared with Base-16圖12 與Base-16對(duì)比讀寫(xiě)端口對(duì)移位操作數(shù)影響

    在實(shí)驗(yàn)的第2部分,我們使用通用的圖像銳化程序作為實(shí)驗(yàn)程序,同時(shí)為了使得實(shí)驗(yàn)結(jié)果更具有通用性,我們使用一系列不同分辨率的圖片集作為實(shí)驗(yàn)比較對(duì)象.

    圖13對(duì)比了在不使用AMBS策略(Without AMBS)與使用AMBS策略(With AMBS)的情況下,基于斯格明子的存內(nèi)計(jì)算框架與基準(zhǔn)性能(基于磁疇壁的存內(nèi)計(jì)算框架)的比較.可以計(jì)算得出,使用AMBS策略與不使用AMBS策略相比,存內(nèi)計(jì)算框架平均能節(jié)省4.5%的時(shí)間和8.7%的能耗.容易觀察到,系統(tǒng)整體性能的差距要比圖12中位移次數(shù)的差距小得多.這主要是因?yàn)樵诨谒垢衩髯拥拇鎯?nèi)計(jì)算框架中計(jì)算單元占據(jù)了大部分的時(shí)間和能耗.同時(shí)我們也注意到當(dāng)測(cè)試圖片逐步增大時(shí),時(shí)間和能耗的減少比例也逐步擴(kuò)大并趨近一個(gè)極限值.這是由于隨著數(shù)據(jù)量的不斷增加,斯格明子內(nèi)存框架內(nèi)程序運(yùn)行的并行程度也在不斷提高并接近其極限.因此在一定范圍內(nèi),斯格明子存內(nèi)計(jì)算框架中程序處理的數(shù)據(jù)量越大越能獲得更多優(yōu)勢(shì).

    Fig. 13 Performance evaluation of PIM architecture based on Skyrmion圖13 基于斯格明子的存內(nèi)計(jì)算框架性能評(píng)估

    從總體上來(lái)說(shuō),實(shí)驗(yàn)結(jié)果表明:在不使用AMBS映射策略下,本文提出的基于斯格明子的存內(nèi)計(jì)算框架相比目前最先進(jìn)的基于磁疇壁的存內(nèi)計(jì)算單元在時(shí)間上平均節(jié)省了43.6%,在能耗上平均節(jié)省了34.2%.在使用了AMBS映射策略之后,平均節(jié)約時(shí)間上升至48.1%,同時(shí)平均節(jié)約能耗42.9%.

    5 總 結(jié)

    本文提出了基于斯格明子邏輯門(mén)的加法和乘法計(jì)算單元,探討了斯格明子基本存儲(chǔ)單元的設(shè)計(jì)方式,優(yōu)化了斯格明子存儲(chǔ)單元的地址映射方式,并最終在此基礎(chǔ)上建立了基于斯格明子介質(zhì)的存內(nèi)計(jì)算框架.本文提出的存內(nèi)計(jì)算框架在獲得基于斯格明子-賽道型內(nèi)存的非易失性存儲(chǔ)單元優(yōu)勢(shì)的同時(shí)又獲得了基于斯格明子邏輯計(jì)算單元的優(yōu)勢(shì).在存儲(chǔ)單元方面,本文首先從硬件層面探討了斯格明子-賽道型存儲(chǔ)單元的讀寫(xiě)參數(shù)優(yōu)化等問(wèn)題,再?gòu)南到y(tǒng)層面提出了基于斯格明子-賽道型存儲(chǔ)單元專用內(nèi)存映射策略,從而在總體上改善了存內(nèi)計(jì)算單元的性能.在計(jì)算單元方面,本文提出的基于斯格明子的全加器和乘法器不僅受益于斯格明子本身優(yōu)異的物理特性,同時(shí)計(jì)算單元的并行優(yōu)化設(shè)計(jì)以及電路的復(fù)用也極大地提高了系統(tǒng)整體性能,降低了系統(tǒng)實(shí)現(xiàn)的復(fù)雜度.實(shí)驗(yàn)表明:本文提出的存內(nèi)計(jì)算框架與目前最先進(jìn)的基于磁疇壁的存內(nèi)計(jì)算框架相比,在時(shí)間上平均節(jié)省了48.1%,在能耗上平均節(jié)省了42.9%.

    av在线观看视频网站免费| 国产黄片美女视频| 男人舔奶头视频| 九九久久精品国产亚洲av麻豆| 床上黄色一级片| 日韩欧美精品免费久久| 午夜福利成人在线免费观看| 亚洲最大成人中文| 99国产极品粉嫩在线观看| 国产欧美日韩精品亚洲av| 欧美成人a在线观看| 干丝袜人妻中文字幕| a级一级毛片免费在线观看| 亚洲av二区三区四区| 午夜福利高清视频| 九色成人免费人妻av| 春色校园在线视频观看| 中文在线观看免费www的网站| 免费av观看视频| 日韩中文字幕欧美一区二区| 国产高清激情床上av| 色综合站精品国产| 在线免费观看不下载黄p国产 | 婷婷亚洲欧美| 国产真实伦视频高清在线观看 | 人妻制服诱惑在线中文字幕| www日本黄色视频网| 黄色视频,在线免费观看| 午夜精品久久久久久毛片777| 老师上课跳d突然被开到最大视频| 白带黄色成豆腐渣| 婷婷六月久久综合丁香| 成人无遮挡网站| 特大巨黑吊av在线直播| 久久久久国产精品人妻aⅴ院| 亚洲自拍偷在线| 琪琪午夜伦伦电影理论片6080| 日本欧美国产在线视频| 黄色欧美视频在线观看| 成人av一区二区三区在线看| 久久久久久大精品| 99热这里只有是精品在线观看| 午夜免费男女啪啪视频观看 | 床上黄色一级片| 一本一本综合久久| 窝窝影院91人妻| 国产一区二区三区视频了| 91麻豆精品激情在线观看国产| 亚洲国产精品成人综合色| 性欧美人与动物交配| 欧美日本视频| 搡老岳熟女国产| 免费大片18禁| 91麻豆av在线| 婷婷精品国产亚洲av| 午夜福利高清视频| 精品人妻视频免费看| 听说在线观看完整版免费高清| 一进一出抽搐动态| 国产精品女同一区二区软件 | av天堂中文字幕网| 亚州av有码| 在线观看午夜福利视频| 亚洲天堂国产精品一区在线| 身体一侧抽搐| 亚洲精品国产成人久久av| 国产精品一区www在线观看 | 嫩草影院入口| 精品久久久久久久久久久久久| h日本视频在线播放| 男人舔女人下体高潮全视频| 日韩欧美精品免费久久| 日日夜夜操网爽| 国产免费一级a男人的天堂| 精品午夜福利在线看| 中亚洲国语对白在线视频| 直男gayav资源| 亚洲专区国产一区二区| 欧美精品国产亚洲| 99热6这里只有精品| 亚洲三级黄色毛片| 在线观看av片永久免费下载| 一级毛片久久久久久久久女| 亚洲国产精品久久男人天堂| 日本-黄色视频高清免费观看| 免费不卡的大黄色大毛片视频在线观看 | 国产一区二区亚洲精品在线观看| 日韩 亚洲 欧美在线| 国产激情偷乱视频一区二区| 亚洲美女黄片视频| av视频在线观看入口| 一卡2卡三卡四卡精品乱码亚洲| 又黄又爽又免费观看的视频| 国产精品av视频在线免费观看| 亚洲五月天丁香| 国产在视频线在精品| 亚洲成人免费电影在线观看| 久久久久久大精品| 亚洲久久久久久中文字幕| 国产精品1区2区在线观看.| www.色视频.com| 最后的刺客免费高清国语| 国产大屁股一区二区在线视频| 国产亚洲精品久久久久久毛片| 国产精品国产三级国产av玫瑰| 国内精品宾馆在线| 日日摸夜夜添夜夜添小说| 免费在线观看影片大全网站| 校园人妻丝袜中文字幕| 国产综合懂色| 97碰自拍视频| 丝袜美腿在线中文| 中文字幕久久专区| av在线观看视频网站免费| 观看美女的网站| 一级黄片播放器| 99精品在免费线老司机午夜| 91av网一区二区| 天天躁日日操中文字幕| 免费观看精品视频网站| 精品久久久久久,| 久久久久久大精品| 国产精品伦人一区二区| 欧美区成人在线视频| 丰满人妻一区二区三区视频av| 日本欧美国产在线视频| 欧美人与善性xxx| 午夜福利欧美成人| 真人一进一出gif抽搐免费| 精品久久久久久久人妻蜜臀av| 午夜福利18| 亚洲欧美日韩卡通动漫| 久久久久久久亚洲中文字幕| 午夜影院日韩av| 久久久久久久精品吃奶| 可以在线观看毛片的网站| 久久精品国产99精品国产亚洲性色| 亚洲国产精品合色在线| 免费高清视频大片| 亚洲一区高清亚洲精品| 欧美区成人在线视频| 哪里可以看免费的av片| 老司机福利观看| 国产高清不卡午夜福利| 亚洲av成人av| 国产精品久久久久久久久免| 国产一级毛片七仙女欲春2| 成年女人永久免费观看视频| 老司机福利观看| 欧美日韩综合久久久久久 | 在线播放国产精品三级| 人人妻,人人澡人人爽秒播| 一夜夜www| 别揉我奶头 嗯啊视频| 动漫黄色视频在线观看| 一级毛片久久久久久久久女| 精品人妻一区二区三区麻豆 | 搡老岳熟女国产| 最后的刺客免费高清国语| 国产av麻豆久久久久久久| 亚洲乱码一区二区免费版| 欧美在线一区亚洲| 99久久精品一区二区三区| 欧美一区二区精品小视频在线| 久久久久久国产a免费观看| 成年免费大片在线观看| 国产精品久久久久久久电影| 成人特级av手机在线观看| 国产精品伦人一区二区| 99久久久亚洲精品蜜臀av| 极品教师在线免费播放| av黄色大香蕉| 无遮挡黄片免费观看| 欧美激情在线99| 国产 一区 欧美 日韩| 一进一出抽搐gif免费好疼| 欧美一区二区亚洲| 中文字幕人妻熟人妻熟丝袜美| 成人毛片a级毛片在线播放| 黄色视频,在线免费观看| 别揉我奶头 嗯啊视频| 日韩欧美 国产精品| 日本a在线网址| 老女人水多毛片| 国产精品久久久久久亚洲av鲁大| 性插视频无遮挡在线免费观看| 亚洲欧美日韩高清在线视频| 国产一区二区在线观看日韩| 午夜激情欧美在线| 国产熟女欧美一区二区| 69人妻影院| 久久精品国产鲁丝片午夜精品 | 午夜福利视频1000在线观看| 赤兔流量卡办理| 亚洲成人中文字幕在线播放| 成人性生交大片免费视频hd| 白带黄色成豆腐渣| 99九九线精品视频在线观看视频| 九色国产91popny在线| 日韩一本色道免费dvd| 岛国在线免费视频观看| 色综合婷婷激情| 日本 av在线| 99精品久久久久人妻精品| 91狼人影院| 男女做爰动态图高潮gif福利片| 欧美成人一区二区免费高清观看| 中文字幕久久专区| 日韩欧美一区二区三区在线观看| 国产中年淑女户外野战色| 国产精品一区二区三区四区免费观看 | av天堂在线播放| 乱人视频在线观看| 老司机午夜福利在线观看视频| 永久网站在线| 国产一区二区在线av高清观看| 日本撒尿小便嘘嘘汇集6| 婷婷亚洲欧美| 露出奶头的视频| 日韩欧美在线二视频| 人妻夜夜爽99麻豆av| 日本爱情动作片www.在线观看 | 国产视频一区二区在线看| АⅤ资源中文在线天堂| 亚洲美女搞黄在线观看 | av国产免费在线观看| 久久久久国内视频| 国产伦在线观看视频一区| 一进一出好大好爽视频| 免费看日本二区| 亚洲中文字幕一区二区三区有码在线看| 欧美一区二区亚洲| 精品久久久久久久人妻蜜臀av| 久久精品久久久久久噜噜老黄 | 小说图片视频综合网站| 日本爱情动作片www.在线观看 | 亚洲电影在线观看av| 国内毛片毛片毛片毛片毛片| 可以在线观看毛片的网站| 国产高清激情床上av| 热99re8久久精品国产| 国产白丝娇喘喷水9色精品| 亚洲熟妇熟女久久| 午夜久久久久精精品| 日本与韩国留学比较| 免费观看的影片在线观看| 国产精品不卡视频一区二区| 免费电影在线观看免费观看| 如何舔出高潮| 国产三级在线视频| 成人av在线播放网站| 天天一区二区日本电影三级| 亚洲精品粉嫩美女一区| 日本一本二区三区精品| www.色视频.com| 51国产日韩欧美| 婷婷精品国产亚洲av| 欧美性感艳星| 国产综合懂色| 最新中文字幕久久久久| 成人鲁丝片一二三区免费| 我的老师免费观看完整版| 少妇猛男粗大的猛烈进出视频 | 久久久国产成人精品二区| 动漫黄色视频在线观看| 精品免费久久久久久久清纯| 日韩欧美在线二视频| 亚洲专区中文字幕在线| 午夜精品久久久久久毛片777| 成年版毛片免费区| 亚洲七黄色美女视频| 日本一本二区三区精品| 久久婷婷人人爽人人干人人爱| 日本爱情动作片www.在线观看 | 国产高清视频在线播放一区| 日本一二三区视频观看| h日本视频在线播放| 欧美黑人欧美精品刺激| 乱码一卡2卡4卡精品| 欧美三级亚洲精品| 欧美xxxx黑人xx丫x性爽| 中文资源天堂在线| 狂野欧美激情性xxxx在线观看| 亚洲在线自拍视频| 丰满人妻一区二区三区视频av| 欧美日韩亚洲国产一区二区在线观看| 国产精品无大码| 热99re8久久精品国产| 欧美日韩黄片免| 午夜福利在线观看吧| 国产精品99久久久久久久久| 极品教师在线免费播放| netflix在线观看网站| 免费高清视频大片| 亚洲欧美日韩高清在线视频| 国产精品,欧美在线| 欧美另类亚洲清纯唯美| 色噜噜av男人的天堂激情| 韩国av在线不卡| 日韩欧美 国产精品| 午夜免费激情av| 白带黄色成豆腐渣| 亚洲黑人精品在线| 欧美不卡视频在线免费观看| 日日干狠狠操夜夜爽| 亚洲精华国产精华液的使用体验 | 欧美bdsm另类| 97超级碰碰碰精品色视频在线观看| 99久久久亚洲精品蜜臀av| www.www免费av| 成人国产综合亚洲| 免费观看人在逋| 老师上课跳d突然被开到最大视频| 黄片wwwwww| 啦啦啦啦在线视频资源| 最好的美女福利视频网| 久久99热6这里只有精品| 午夜福利高清视频| 欧美色视频一区免费| 国产精品亚洲一级av第二区| 色播亚洲综合网| 91狼人影院| 国产一区二区三区在线臀色熟女| netflix在线观看网站| 国产一区二区激情短视频| 欧美一级a爱片免费观看看| 精品一区二区免费观看| 直男gayav资源| 久久精品夜夜夜夜夜久久蜜豆| 欧美中文日本在线观看视频| 亚洲成人精品中文字幕电影| 两人在一起打扑克的视频| 日本免费一区二区三区高清不卡| bbb黄色大片| 国产女主播在线喷水免费视频网站 | av女优亚洲男人天堂| 熟女电影av网| 亚洲欧美清纯卡通| 免费av不卡在线播放| 91久久精品国产一区二区成人| 免费看光身美女| 中文字幕熟女人妻在线| 欧美日韩国产亚洲二区| 偷拍熟女少妇极品色| 亚洲国产日韩欧美精品在线观看| 国国产精品蜜臀av免费| 午夜视频国产福利| 久久久久久国产a免费观看| 日日夜夜操网爽| 哪里可以看免费的av片| 看片在线看免费视频| 精品久久国产蜜桃| 天堂av国产一区二区熟女人妻| 九色成人免费人妻av| 精品国内亚洲2022精品成人| 国产国拍精品亚洲av在线观看| 国产在线精品亚洲第一网站| 久久人人爽人人爽人人片va| 联通29元200g的流量卡| 日日撸夜夜添| 尤物成人国产欧美一区二区三区| 亚洲一级一片aⅴ在线观看| 国产aⅴ精品一区二区三区波| 久久99热这里只有精品18| 干丝袜人妻中文字幕| 国产精品无大码| 欧美中文日本在线观看视频| 黄片wwwwww| 精品久久久久久成人av| 日日撸夜夜添| 国内精品久久久久精免费| 88av欧美| 黄色欧美视频在线观看| 免费高清视频大片| 小蜜桃在线观看免费完整版高清| or卡值多少钱| 国产探花极品一区二区| 久久6这里有精品| 日韩精品中文字幕看吧| 午夜福利在线观看吧| 在线观看免费视频日本深夜| 午夜福利在线观看吧| 99视频精品全部免费 在线| 97热精品久久久久久| 变态另类成人亚洲欧美熟女| 99久久精品国产国产毛片| 999久久久精品免费观看国产| 久久久色成人| 嫩草影视91久久| 狂野欧美白嫩少妇大欣赏| 嫩草影视91久久| 久久精品国产亚洲网站| 午夜福利18| 99久国产av精品| 欧美bdsm另类| 国产综合懂色| 亚洲精品粉嫩美女一区| 赤兔流量卡办理| 黄色视频,在线免费观看| 亚洲,欧美,日韩| 日本免费a在线| 久久精品国产亚洲av涩爱 | 综合色av麻豆| 老司机深夜福利视频在线观看| 一夜夜www| 老熟妇乱子伦视频在线观看| 午夜免费激情av| 日本黄大片高清| 久99久视频精品免费| 国产乱人视频| 免费看日本二区| 男女下面进入的视频免费午夜| 久久精品国产鲁丝片午夜精品 | 91在线观看av| 嫩草影院新地址| 看免费成人av毛片| 亚洲精品影视一区二区三区av| 国产亚洲精品久久久久久毛片| 午夜精品在线福利| 久久欧美精品欧美久久欧美| 午夜激情福利司机影院| 亚洲成人中文字幕在线播放| av黄色大香蕉| 亚洲av成人av| 久久久久免费精品人妻一区二区| 亚洲av一区综合| 老熟妇乱子伦视频在线观看| 国产亚洲精品久久久com| 国产女主播在线喷水免费视频网站 | 我要搜黄色片| 国产精品98久久久久久宅男小说| 久久午夜亚洲精品久久| 欧美三级亚洲精品| 少妇人妻精品综合一区二区 | 亚洲国产日韩欧美精品在线观看| 欧美zozozo另类| av天堂中文字幕网| 亚洲国产色片| 国产男靠女视频免费网站| 蜜桃亚洲精品一区二区三区| 一进一出好大好爽视频| 美女被艹到高潮喷水动态| 亚洲性夜色夜夜综合| 看免费成人av毛片| 春色校园在线视频观看| 动漫黄色视频在线观看| 亚洲人成伊人成综合网2020| 少妇丰满av| 尤物成人国产欧美一区二区三区| 久久精品影院6| 亚洲精华国产精华液的使用体验 | 亚洲最大成人av| 不卡视频在线观看欧美| 精品久久久久久久末码| 国产中年淑女户外野战色| 久久久午夜欧美精品| 免费看日本二区| 日韩欧美一区二区三区在线观看| 老女人水多毛片| 亚洲国产欧美人成| 久久久久久久久久成人| 18禁裸乳无遮挡免费网站照片| 国产高潮美女av| 韩国av在线不卡| 男人舔女人下体高潮全视频| 亚洲在线自拍视频| 欧美性感艳星| 日本成人三级电影网站| 欧美xxxx性猛交bbbb| 少妇人妻一区二区三区视频| 精品久久久久久久久久久久久| 99在线人妻在线中文字幕| 国产伦在线观看视频一区| 亚洲精品影视一区二区三区av| 三级国产精品欧美在线观看| 麻豆精品久久久久久蜜桃| 精品国产三级普通话版| 免费人成在线观看视频色| 一级毛片久久久久久久久女| 国产视频一区二区在线看| 久99久视频精品免费| 亚洲国产精品sss在线观看| 日本在线视频免费播放| 少妇的逼好多水| 日韩欧美在线乱码| 久久亚洲真实| 国内少妇人妻偷人精品xxx网站| 国产精品伦人一区二区| 黄色女人牲交| 真人做人爱边吃奶动态| 91久久精品国产一区二区成人| 国产极品精品免费视频能看的| 在线看三级毛片| 国产高清激情床上av| 99热精品在线国产| 狠狠狠狠99中文字幕| 欧美不卡视频在线免费观看| 麻豆成人午夜福利视频| av国产免费在线观看| 日本一本二区三区精品| 免费看美女性在线毛片视频| 国产精品亚洲一级av第二区| 免费在线观看成人毛片| 草草在线视频免费看| 欧美潮喷喷水| 两个人视频免费观看高清| 永久网站在线| 免费看日本二区| 亚洲av美国av| 色5月婷婷丁香| 性色avwww在线观看| 久久热精品热| 欧洲精品卡2卡3卡4卡5卡区| 久久久久久国产a免费观看| 国产精品国产高清国产av| 毛片女人毛片| 人人妻人人澡欧美一区二区| 直男gayav资源| 亚洲无线在线观看| .国产精品久久| 无人区码免费观看不卡| 久久99热这里只有精品18| 精品久久久久久久人妻蜜臀av| 色播亚洲综合网| 午夜福利高清视频| 九九爱精品视频在线观看| 亚洲熟妇熟女久久| 国产精品国产高清国产av| 精品一区二区三区视频在线| eeuss影院久久| 日日夜夜操网爽| 丝袜美腿在线中文| 国产乱人视频| 高清在线国产一区| 亚洲性夜色夜夜综合| 国产精品亚洲一级av第二区| 国产亚洲欧美98| 高清日韩中文字幕在线| netflix在线观看网站| 最后的刺客免费高清国语| 国内少妇人妻偷人精品xxx网站| 精品99又大又爽又粗少妇毛片 | 国产精品国产高清国产av| 麻豆成人午夜福利视频| 国内揄拍国产精品人妻在线| 中文字幕高清在线视频| 色精品久久人妻99蜜桃| 亚洲精品亚洲一区二区| 中文字幕人妻熟人妻熟丝袜美| 欧美性猛交╳xxx乱大交人| 中文资源天堂在线| 国产亚洲精品久久久com| 国产 一区精品| 免费观看精品视频网站| 亚洲黑人精品在线| 此物有八面人人有两片| 高清在线国产一区| 偷拍熟女少妇极品色| 国产午夜福利久久久久久| 极品教师在线视频| 变态另类丝袜制服| 婷婷亚洲欧美| 国产亚洲精品久久久com| 无遮挡黄片免费观看| 黄色欧美视频在线观看| 亚洲国产精品成人综合色| 成人国产一区最新在线观看| 别揉我奶头 嗯啊视频| 舔av片在线| 日本-黄色视频高清免费观看| 男人狂女人下面高潮的视频| 亚洲内射少妇av| 精品福利观看| 午夜激情欧美在线| 国产精品国产三级国产av玫瑰| 伊人久久精品亚洲午夜| 日本 欧美在线| 欧美+亚洲+日韩+国产| 国内久久婷婷六月综合欲色啪| a级毛片a级免费在线| 精品不卡国产一区二区三区| 午夜精品久久久久久毛片777| 一区福利在线观看| 国产亚洲精品av在线| 99久久精品国产国产毛片| 五月伊人婷婷丁香| 亚洲美女搞黄在线观看 | 韩国av在线不卡| 亚洲精品色激情综合| 搡老熟女国产l中国老女人| 精品欧美国产一区二区三| 黄片wwwwww| 亚洲精华国产精华液的使用体验 | 性插视频无遮挡在线免费观看| 婷婷精品国产亚洲av在线| 亚洲在线观看片| 欧美日韩乱码在线| 两个人的视频大全免费| 日本三级黄在线观看| 我要搜黄色片| 国内少妇人妻偷人精品xxx网站| 尤物成人国产欧美一区二区三区| 欧美日韩乱码在线| 午夜福利高清视频| 国产综合懂色| 久久久久久久精品吃奶| 精品人妻1区二区| 亚洲在线自拍视频| 毛片一级片免费看久久久久 | 午夜精品久久久久久毛片777| 国产免费av片在线观看野外av| 伦精品一区二区三区| 国产美女午夜福利| 亚洲av.av天堂| 欧美激情久久久久久爽电影|