• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)據(jù)密集型應(yīng)用在NVIDIA Fermi片內(nèi)存儲(chǔ)結(jié)構(gòu)上的適應(yīng)性分析*

    2014-09-29 08:32:50任秀江張清波陳芳園
    關(guān)鍵詞:存儲(chǔ)空間密集型線程

    舒 兵,任秀江,張清波,陳芳園

    (江南計(jì)算技術(shù)研究所,江蘇 無(wú)錫 214083)

    1 引言

    微處理器的發(fā)展已經(jīng)進(jìn)入了眾核時(shí)代,NVIDIA的通用圖形處理器(GPGPU)是典型的GPU眾核架構(gòu),它在片上集成了大量簡(jiǎn)單的計(jì)算核心,通過簡(jiǎn)單運(yùn)算部件的聚合提供超高計(jì)算性能。NVIDIA的Fermi[1]、Kepler[2,3]架 構(gòu) 的 處 理器等是其中的典型代表。GPGPU大量的計(jì)算核心提供了并行加速的能力,適合數(shù)據(jù)的并行處理。隨著2007年NVIDIA統(tǒng)一軟件并行編程模型CUDA[4,5]的 推 出,在NVIDIA GPU上 的 應(yīng) 用 與研究越來(lái)越多,廣泛涉及生物、物理、天文、信號(hào)、醫(yī)藥、勘探等各個(gè)科學(xué)研究和工程領(lǐng)域。NVIDIA GPU的片上存儲(chǔ)結(jié)構(gòu)比較復(fù)雜,包括Register File和多級(jí)Cache結(jié)構(gòu)以及Shared Memory等,這種復(fù)雜的存儲(chǔ)結(jié)構(gòu)可有效提升GPU對(duì)應(yīng)用的適用性。

    統(tǒng)計(jì)資料表明,眾多科學(xué)領(lǐng)域的數(shù)據(jù)量隨時(shí)間呈指數(shù)增長(zhǎng),且基數(shù)較大。以科學(xué)研究為例,生物醫(yī)學(xué)、天文觀測(cè)、信號(hào)處理、互聯(lián)網(wǎng)絡(luò)等等研究領(lǐng)域每年都會(huì)產(chǎn)生PB甚至ZB量級(jí)的數(shù)據(jù),并且還在以指數(shù)函數(shù)的速度增長(zhǎng)。除了數(shù)據(jù)量大的特點(diǎn),這一類的數(shù)據(jù)一般還具有非結(jié)構(gòu)化、可分性好、復(fù)用率較低、實(shí)時(shí)性要求等等特點(diǎn)。具有上述特點(diǎn)的應(yīng)用可稱之為數(shù)據(jù)密集型應(yīng)用,對(duì)于數(shù)據(jù)密集型應(yīng)用的處理大多集中在檢索、查詢、分析與挖掘這些方面,統(tǒng)稱為數(shù)據(jù)密集型計(jì)算DIC(Data Intensive Computing)。數(shù)據(jù)密集型應(yīng)用的計(jì)算訪存比相對(duì)偏低,存儲(chǔ)器操作成為應(yīng)用性能的瓶頸,處理這類應(yīng)用的重點(diǎn)在于數(shù)據(jù)的存儲(chǔ)和傳輸。未來(lái)是數(shù)據(jù)的時(shí)代,數(shù)據(jù)密集型應(yīng)用將占據(jù)越來(lái)越重要的比例,從處理器存儲(chǔ)架構(gòu)方面提升該類應(yīng)用的性能具有現(xiàn)實(shí)意義。

    本文主要通過分析數(shù)據(jù)密集型典型應(yīng)用自身的數(shù)據(jù)特點(diǎn)及其在GPU上的數(shù)據(jù)映射關(guān)系,通過GPGPU-SIM所模擬的NVIDIA GT200、Fermi這兩種架構(gòu)上的應(yīng)用表現(xiàn)分析GPU存儲(chǔ)結(jié)構(gòu)對(duì)該類應(yīng)用的影響,對(duì)適應(yīng)數(shù)據(jù)密集型應(yīng)用的GPU眾核處理器存儲(chǔ)層次設(shè)計(jì)提出了建議,進(jìn)而為通用眾核處理器存儲(chǔ)層次優(yōu)化提供參考。

    2 Fermi架構(gòu)及GPGPU-SIM介紹

    2.1 Fermi的整體架構(gòu)

    Fermi架構(gòu)的CUDA核心數(shù)高達(dá)512個(gè)。512個(gè)CUDA核心組成16個(gè)流式多核處理器(SM),每個(gè)SM包含32個(gè)CUDA核心。芯片內(nèi)部還包含六個(gè)64位的DRAM通道,每個(gè)通道的訪存帶寬約為32GB/s。GigaThread全局調(diào)度器負(fù)責(zé)分配線程塊給SM。

    2.2 Fermi的SM結(jié)構(gòu)

    SM中的計(jì)算核心分為四組,其中兩組是流處理器陣列,每組包含16個(gè)CUDA Core,另外一組由16個(gè)load/store單元組成,還有一組四個(gè)特殊功能單元。另外,F(xiàn)ermi架構(gòu)添加了對(duì)完整IEEE754-2008標(biāo)準(zhǔn)的支持,多個(gè)核心協(xié)同支持雙精度浮點(diǎn)運(yùn)算。

    SM中,連續(xù)編號(hào)的32個(gè)并行線程組成一個(gè)warp,作為線程調(diào)度單元。每個(gè)SM擁有兩個(gè)warp調(diào)度器和兩個(gè)指令調(diào)度單位,并且兩個(gè)warp可以同時(shí)執(zhí)行和處理。Fermi的雙warp調(diào)度器支持同時(shí)選擇兩個(gè)warp,并從每個(gè)warp向16個(gè)CUDA核心、16個(gè)加載/存儲(chǔ)單元,或四個(gè)SFU發(fā)出操作指令。因?yàn)閣arp是獨(dú)立執(zhí)行的,F(xiàn)ermi的調(diào)度器并不需要檢查指令流內(nèi)的依賴性。使用雙warp調(diào)度模型,F(xiàn)ermi可獲得接近峰值的硬件性能。

    為與SM中計(jì)算單元的數(shù)目增多相適應(yīng),F(xiàn)ermi架構(gòu)中單SM中的寄存器文件規(guī)模也有了相應(yīng)的增加,從GT200中的16 384個(gè)增加到了32 768個(gè)。由于CUDA編譯器通常為每個(gè)線程分配10~20個(gè)寄存器[6],因而更多的寄存器通常意味著SM上可同時(shí)運(yùn)行更多的線程,硬件的利用率也就更加充分。G80和GT200的每個(gè)SM都有16 KB的共享存儲(chǔ)器SMEM(Shared MEMory)。在Fermi架構(gòu)中,每個(gè)SM擁有64KB的片上存儲(chǔ)空間,可以配置成48KB的SMEM和16KB的L1 Cache、或16KB的SMEM和48KB的L1Cache。L1Cache與Shared Memory的可配置關(guān)系增加了編程的靈活性和對(duì)應(yīng)用的適應(yīng)性,是在GT200基礎(chǔ)上的一項(xiàng)重要?jiǎng)?chuàng)新。Fermi的L2Cache大小為768KB,由所有的SM所共享。

    2.3 GPGPU-SIM介紹

    GPGPU-SIM[7]于2007年由Fung W等人研發(fā),它是一款時(shí)序精確的GPU性能模擬器。它模擬了NVIDIA統(tǒng)一架構(gòu)GPU,并且對(duì)G80、GT200、Fermi等都有很高的模擬精度,針對(duì)不同型號(hào)的GPU都有相應(yīng)的配置文件,參數(shù)修改方便。軟件方面,這款模擬器配合CUDA編程模型,很好地支持了PTX(Parallel Thread eXecution)虛擬指令集和OpenGL。

    與硬件結(jié)構(gòu)相對(duì)應(yīng),GPGPU-SIM的功能模塊由三個(gè)部分組成:著色器SC(Shader Core)、互連網(wǎng)絡(luò)(Interconnection Network)以及存控(Memory Controller)。著色器核心通過片上互連網(wǎng)絡(luò)連接到各個(gè)存儲(chǔ)模塊(存控)。

    3 實(shí)驗(yàn)?zāi)M及數(shù)據(jù)分析

    3.1 應(yīng)用選取

    結(jié)合數(shù)據(jù)密集型應(yīng)用的特點(diǎn),本文選取訪存指令占總指令百分比在20%以上的應(yīng)用作為數(shù)據(jù)密集型應(yīng)用的典型代表。為使測(cè)得的訪存指令百分比具有代表性和滿足數(shù)據(jù)密集型應(yīng)用訪存密集的特點(diǎn),本文對(duì)應(yīng)用程序的總指令數(shù)也設(shè)置了一個(gè)標(biāo)準(zhǔn)——1M條以上。

    本文選取的應(yīng)用均來(lái)自于GPGPU-SIM v3.1.1的基準(zhǔn)測(cè)試程序[8]及CUDA SDK3.1[9]的程序。根據(jù)應(yīng)用領(lǐng)域及其計(jì)算訪存比的特點(diǎn),選取如下六個(gè)應(yīng)用程序作為典型算法進(jìn)行分析:

    (1)高級(jí)加密標(biāo)準(zhǔn)AES;(2)離散余弦變換DCT;(3)快速沃爾什變換FWT;(4)拉普拉斯變換LPS;(5)矩陣乘MatrixMul;(6)神經(jīng)網(wǎng)絡(luò)算法NN。

    上面選取的六個(gè)應(yīng)用程序分別涉及密碼、圖像、信號(hào)、數(shù)學(xué)等各個(gè)科學(xué)計(jì)算領(lǐng)域,較全面地涵蓋了數(shù)據(jù)密集型應(yīng)用的范疇,根據(jù)數(shù)據(jù)密集型應(yīng)用的特點(diǎn),本文設(shè)定訪存總指令數(shù)大于1M、訪存百分比為20%以上的應(yīng)用屬于數(shù)據(jù)密集型應(yīng)用,刪選的結(jié)果即如表1所示。

    Table 1 Basic parameters of programs表1 選取的應(yīng)用程序基本參數(shù)

    根據(jù)指令所使用的存儲(chǔ)部件不同,對(duì)應(yīng)用程序的存儲(chǔ)指令進(jìn)行分類統(tǒng)計(jì),如圖1所示。圖中“Param”指的是通過GPU內(nèi)核call傳輸?shù)膮?shù),即所謂的Cache命中。

    Figure 1 Sort instruction in programs圖1 應(yīng)用程序存儲(chǔ)指令分類

    3.2 數(shù)據(jù)密集型應(yīng)用在可配置的L1Cache/SMEM上的適應(yīng)性分析

    可配置的L1Cache和Shared Memory結(jié)構(gòu)是Fermi存儲(chǔ)層次最大的亮點(diǎn),給編程帶來(lái)了較大的靈活性,也增加了Fermi結(jié)構(gòu)對(duì)應(yīng)用的適應(yīng)性和通用性。通過圖1對(duì)應(yīng)用程序存儲(chǔ)指令的分類,可以看出除NN外,另外幾種應(yīng)用都與Shared Memory有密切的關(guān)系。本節(jié)選取了SMEM分別為16KB、32KB、48KB和64KB四種情況,其中SMEM為48KB是基礎(chǔ)情況。測(cè)試結(jié)果進(jìn)行歸一化得到應(yīng)用加速比,如圖2所示。

    測(cè)試結(jié)果顯示,有些應(yīng)用對(duì)共享存儲(chǔ)器(或L1 Cache)大小并不敏感,如FWT和DCT;而有的程序在共享存儲(chǔ)器和L1Cache處于某些配置時(shí)性能最好,其他配置下性能下降,如LPS;還有一些應(yīng)用隨Shared Memory的變化呈現(xiàn)遞增或遞減的變化,如MatrixMul和AES。下面逐一分析這六個(gè)應(yīng)用程序性能變化與硬件存儲(chǔ)架構(gòu)的關(guān)系。

    (1)AES。

    Figure 2 Speedup under different SMEM configurations圖2 不同SMEM配置下應(yīng)用程序加速比

    根據(jù)圖1中AES存儲(chǔ)指令的分類可以看到,AES有80%的存儲(chǔ)指令來(lái)自于SMEM,另外近20%的指令是訪問Constant Memory和Texture Memory,訪問Local Memory和Global Memory的諸如Load、Store等操作幾乎可以忽略,而L1 Cache、L2Cache主要服務(wù)于Load、Store等操作,因此L1Cache、L2Cache對(duì)AES的影響幾乎可以忽略。其次,UByte4所占的字節(jié)數(shù)為4+1×4=8,Shared Memory需要的存儲(chǔ)空間大小為256×8×6=12KB。SMEM大于12KB就可以滿足程序的要求,所以SMEM增大,AES性能變好,但當(dāng)SMEM達(dá)到32KB或以上時(shí),SMEM再增大時(shí)AES性能基本不變。

    對(duì)于AES在SMEM為較小的16KB時(shí),性能也達(dá)到了288.741 9,一方面是因?yàn)?6KB的SMEM已經(jīng)基本滿足12KB的應(yīng)用程序需求;另一方面,本模擬采用的是L1Cache和SMEM總和固定,L1Cache容量也能起到SMEM容量補(bǔ)充的作用。因此,在16KB配置下,性能還是比較高的。

    (2)DCT。

    該應(yīng)用的性能都隨SMEM的增大有輕度的下降。DCT只需要兩個(gè)8×8Blocks的Shared Memory存儲(chǔ)空間,即8×8×2×4=1KB(CUDA中一個(gè)單精度浮點(diǎn)數(shù)據(jù)占四個(gè)字節(jié))。測(cè)試的SMEM配置中SMEM大小對(duì)該應(yīng)用程序是足夠的,所以SMEM的增大對(duì)應(yīng)用程序的影響幾乎可以忽略。但是,SMEM增大的同時(shí)L1Cache隨之減小,這個(gè)應(yīng)用有一定量的Load/Store和Param指令(約12%),這些指令對(duì)L1Cache有一定的依賴性。因此,L1Cache的減小會(huì)導(dǎo)致這兩個(gè)應(yīng)用程序性能的損失,但這種損失被大容量的L2 Cache所彌補(bǔ),因此最后表現(xiàn)出的現(xiàn)象是性能的微幅下降。

    (3)FWT。

    FWT一條線程負(fù)責(zé)四個(gè)數(shù)據(jù)為一組的基-4 FWT計(jì)算(加減運(yùn)算),程序中輸入數(shù)據(jù)的規(guī)模是223個(gè)浮點(diǎn)數(shù)據(jù),共享存儲(chǔ)器中以一個(gè)基-4FWT的四個(gè)輸入數(shù)據(jù)的首地址索引進(jìn)行存儲(chǔ),占一個(gè)單精度浮點(diǎn)的存儲(chǔ)空間。因此,共需要221×4B=8MB的存儲(chǔ)空間才能一次性加載所有輸入數(shù)據(jù)。但是Fermi的SMEM最大為64KB,遠(yuǎn)遠(yuǎn)小于8MB。因此,F(xiàn)ermi采用分塊存取。Fermi一次流水調(diào)度兩個(gè)warp(雙warp調(diào)度),一個(gè)warp有32個(gè)線程,一個(gè)線程需要存儲(chǔ)一個(gè)float數(shù)據(jù)(一組的四個(gè)數(shù)據(jù)的首地址),所以雙warp需要讀取64×4B=256B的數(shù)據(jù),這個(gè)大小遠(yuǎn)小于SMEM最小情況的16KB。每次流水線從全局存儲(chǔ)器拷貝256B的數(shù)據(jù)塊到SMEM,并且通過預(yù)取傳送可以達(dá)到隱藏訪存延遲的目的;另外,存入共享存儲(chǔ)器中的原始數(shù)據(jù)經(jīng)過計(jì)算之后原位存儲(chǔ),這樣達(dá)到了存儲(chǔ)空間的最大化利用,并且大量的Load/Store(40%)操作擁有較高的Cache命中(Param),這也對(duì)FWT的性能起到了積極的作用。上述兩個(gè)因素是FWT性能不隨SMEM明顯變化并且其IPC可以達(dá)到較高水平的根本原因。

    (4)LPS。

    當(dāng)SMEM為32KB或48KB時(shí),LPS性能最好;而SMEM為64KB(沒有L1Cache)或者SMEM為16KB時(shí),LPS性能損失達(dá)到35%~38%。LPS使用SMEM存儲(chǔ)空間,共需(32+2)×(4+2)×3×4≈2.4KB共享存儲(chǔ)器空間。所以,SMEM不是應(yīng)用性能的限制因素,SMEM為64KB時(shí),沒有L1Cache,LPS有35%左右的Load/Store和Param指令,L1Cache的缺失勢(shì)必導(dǎo)致LPS性能的下降,而且下降的幅度恰好接近35%,與存儲(chǔ)指令的分類數(shù)據(jù)完全吻合;SMEM為16KB時(shí),L1Cache大小為48KB,此時(shí)兩個(gè)存儲(chǔ)結(jié)構(gòu)大小完全滿足需求。但是,LPS性能仍然下降,這是因?yàn)長(zhǎng)1Cache較大時(shí),GPU需要花費(fèi)較多的額外周期,以完成管理Cache等操作,而且L1 Cache越大,這種額外開銷越明顯,因此體現(xiàn)在性能上為IPC下降。

    (5)MatrixMul。

    該應(yīng)用的表現(xiàn)與DCT比較類似,性能隨SMEM增大而微幅下降。因?yàn)镸atrixMul需要兩個(gè)16×16的Blocks的存儲(chǔ)空間,用于存儲(chǔ)兩個(gè)相乘矩陣的塊數(shù)據(jù),因此需要的存儲(chǔ)空間為:16×16×2×4=2KB。SMEM大小足夠滿足應(yīng)用程序的需求,但6%的Load/Store以及Param操作使得IPC隨L1Cache減小而下降,同時(shí)大容量L2 Cache會(huì)縮小這種變化,所以性能表現(xiàn)出微幅下降。MatrixMul與DCT不同之處在于MatrixMul的絕對(duì)IPC很低,原因在于該應(yīng)用的CUDA程序是與GT200相適應(yīng)的,當(dāng)在Fermi上運(yùn)行時(shí),F(xiàn)ermi存儲(chǔ)部件結(jié)構(gòu)不同造成對(duì)齊訪問機(jī)制失效,產(chǎn)生了嚴(yán)重的Bank沖突,因此IPC非常低下。

    (6)NN。

    該應(yīng)用比較特殊,它沒有與Shared Memory的交互操作,它的存儲(chǔ)指令有97%屬于Load/Store和Param操作(其中Load指令就占近80%),剩下的3%左右是Constant Memory的訪存操作,所以當(dāng)把L1Cache取消時(shí),NN的IPC性能只有原來(lái)的20%,其他情況下L1Cache都大于或等于16KB,完全滿足要求,因此性能基本不變??梢灶A(yù)見,當(dāng)L1Cache低于某一臨界值時(shí),隨著L1Cache的減小,NN的性能將會(huì)有顯著的損失,這是因?yàn)榇藭r(shí)L1Cache成為其性能的主要限制因素。另外,NN的IPC非常低,只有35左右。與MatrixMul的性能低下原因不同,NN性能較低是因?yàn)榘罅浚?0%)的Load操作,此類操作與片外存儲(chǔ)部件交互,延遲很高,達(dá)到了400~500個(gè)cycles,因此性能非常差。

    3.3 數(shù)據(jù)密集型應(yīng)用在可配置的L2Cache上的適應(yīng)性分析

    L2Cache由所有SM所共享,通過片內(nèi)互連網(wǎng)絡(luò)與DRAM連接,主要用于緩存從Global Memory中獲取的數(shù)據(jù)。當(dāng)SM需要讀取輸入數(shù)據(jù)時(shí),首先從L1Cache中查找,若未命中,則到L2 Cache中查找,L2Cache未命中才會(huì)從Global Memory中讀取。L1Cache和L2Cache的命中率一般都可以達(dá)到80%左右,作為片內(nèi)存儲(chǔ)器,L2 Cache一般采用訪問速度較快的SRAM設(shè)計(jì),訪存速度遠(yuǎn)快于片外存儲(chǔ)器,且容量一般比L1 Cache大得多,彌補(bǔ)了L1Cache容量不足和DRAM訪問速度慢的缺點(diǎn)。為了測(cè)試L2Cache對(duì)數(shù)據(jù)密集型應(yīng)用的影響,實(shí)驗(yàn)中選取了L2容量從0到1 536KB等多個(gè)大小,其中L2Cache為768KB是基礎(chǔ)情況。歸一化后的結(jié)果如圖3所示。

    L2Cache作為連接DRAM和L1Cache的紐帶,補(bǔ)充了DRAM訪問延遲高和L1Cache容量小的缺點(diǎn)。從測(cè)試的結(jié)果來(lái)看,各個(gè)應(yīng)用都對(duì)L2 Cache有一定的性能表現(xiàn),其中DCT、FWT、LPS和NN的曲線相對(duì)比較明顯,AES和MatrixMul則對(duì)L2Cache不太敏感。具體的原因做如下分析:

    (1)AES和MatrixMul。

    Figure 3 Speedup under different L2configurations圖3 不同L2配置下應(yīng)用程序加速比

    從圖3可以看出,這兩個(gè)應(yīng)用對(duì)L2Cache不太敏感。主要是因?yàn)檫@兩種應(yīng)用的存儲(chǔ)指令絕大多數(shù)為Shared Memory的讀寫指令,其中AES的這類指令占到了總存儲(chǔ)指令的80%,而Matrix-Mul則高達(dá)近95%,這兩種應(yīng)用是六個(gè)應(yīng)用中Shared Memory指令所占百分比最高的兩種。這種指令分布決定了它們對(duì)L2Cache乃至L1 Cache都不敏感,但這兩類應(yīng)用畢竟存在少量的Load/Store以及Param指令,所以當(dāng)取消L2 Cache時(shí),它們的性能又會(huì)有所下降,并且下降幅度隨這三類指令所占百分比呈線性遞減。

    (2)DCT和NN。

    DCT和NN的性能隨著L2Cache從無(wú)到有、從小到大在宏觀上呈現(xiàn)出增長(zhǎng)的趨勢(shì)。這與它們的Load/Store、Param指令所占百分比較高有直接關(guān)系。比如,DCT的這類指令占到了23%多,NN的這類指令占到了90%以上,所以這兩種應(yīng)用是六個(gè)應(yīng)用中對(duì)L2最敏感的應(yīng)用。在細(xì)節(jié)方面,DCT的IPC在L2Cache低于192KB時(shí)處于低水平平緩狀態(tài),達(dá)到768KB時(shí)增幅較大,此后L2 Cache增大,其性能依然上升;而NN則隨著L2 Cache增大性能平緩上升,在L2Cache超過768KB后性能保持穩(wěn)定不變。造成這種現(xiàn)象的原因與它們的存儲(chǔ)指令數(shù)量有關(guān),如表2所示。

    Table 2 Load/Store、Param instructions of DCT and NN表2 DCT和NN的Load/Store、Param指令

    DCT的Load/Store、Param指令是NN的三倍多,并且兩者都是對(duì)單精度浮點(diǎn)數(shù)據(jù)進(jìn)行操作。更多的存儲(chǔ)指令需要更大的Cache才能達(dá)到較高的命中率。所以,L2Cache較小時(shí),對(duì)DCT的影響比較小,并且處于一個(gè)較低的水平,而對(duì)NN而言,L2Cache較小時(shí)就可以比較明顯地影響其性能;當(dāng)L2Cache增大到一定程度時(shí),L2Cache對(duì)DCT的影響開始凸顯,隨L2Cache增大其性能也明顯提升,而對(duì)于NN,L2Cache漸漸達(dá)到飽和,所以其性能趨于平緩。

    (3)FWT和LPS。

    這兩種應(yīng)用的性能表現(xiàn)有一定相似性,當(dāng)L2 Cache不存在或者L2Cache較大(大于或等于768KB)時(shí),其性能都是最高的,而當(dāng)L2Cache處于中間值時(shí),兩者的性能都有一定的損失,如L2 Cache為24KB時(shí),F(xiàn)WT相比于基礎(chǔ)情況性能損失了13.4%,LPS損失了7.3%。L2Cache為0時(shí),L1Cache完全可以滿足Load/Store等指令的需求,并且節(jié)省了L2Cache的管理開銷,因而性能沒有降低;當(dāng)L2較小時(shí),如24KB,L1Cache與L2 Cache的大小處于同一個(gè)數(shù)量級(jí),也就是說(shuō),L1 Cache只能部分映射到L2Cache,這樣會(huì)導(dǎo)致大量的MISS,直接影響應(yīng)用的性能,這就是為什么L2 Cache從無(wú)到有時(shí),性能不升反降的原因。

    L2Cache的大小主要與工藝有關(guān),由于L2 Cache結(jié)構(gòu)比DRAM要復(fù)雜得多,因此成本很高,在芯片上所占的面積也很大,因此一般片上二級(jí)Cache容量不能做得很大,F(xiàn)ermi的L2Cache大小為768KB,平均每個(gè)SM可分?jǐn)偧s50KB的L2 Cache;最新的Kepler架構(gòu)擁有1 536KB的統(tǒng)一L2Cache,每個(gè)SM可分?jǐn)偧s100KB的L2Cache,相比于Fermi整整提高了一倍,但是Kepler的核心數(shù)目是Fermi核心數(shù)目的6倍。所以,GPU核心計(jì)算能力的提升和二級(jí)Cache層次的存儲(chǔ)容量提升是不匹配的,存儲(chǔ)不能匹配計(jì)算。另外,F(xiàn)ermi或Kepler每個(gè)SM分?jǐn)偟腖2Cache容量與片上L1Cache與SMEM總體容量相比遠(yuǎn)沒有達(dá)到數(shù)量級(jí)的提升,其二級(jí)存儲(chǔ)容量對(duì)一級(jí)存儲(chǔ)容量的包容不是很明顯,因此本實(shí)驗(yàn)數(shù)據(jù)從總體上看,L2大小從0到1 536KB,六個(gè)應(yīng)用性能變化總體不是很大。

    4 結(jié)束語(yǔ)

    本文通過對(duì)六個(gè)數(shù)據(jù)密集型應(yīng)用在NVIDIA的GT200、Fermi、Kepler三代GPGPU上的大量實(shí)驗(yàn),對(duì)比了不同存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)對(duì)數(shù)據(jù)密集型應(yīng)用性能的影響。通過分析,對(duì)于數(shù)據(jù)密集型應(yīng)用的GPU眾核存儲(chǔ)層次優(yōu)化提出一些建議:

    (1)對(duì)于數(shù)據(jù)密集型應(yīng)用,L1Cache/SMEM、L2Cache和片上存儲(chǔ)器(紋理Cache、常量Cache等)的總?cè)萘渴侵陵P(guān)重要的,隨著集成電路工藝的進(jìn)步,片上存儲(chǔ)的容量需要不斷提升。

    (2)從Fermi到Kepler的體系結(jié)構(gòu)的變化來(lái)看,片內(nèi)存儲(chǔ)容量的擴(kuò)大沒有很好地與片內(nèi)計(jì)算性能的提升相匹配,甚至有若干倍的差異,這種差異達(dá)到一定程度會(huì)對(duì)某些數(shù)據(jù)密集型應(yīng)用的性能產(chǎn)生較大的影響。所以,隨著片上計(jì)算性能的提升,單位計(jì)算所得到的片上存儲(chǔ)容量需要得到進(jìn)一步重視。

    (3)GPU的訪存事務(wù)(合并訪問機(jī)制)就是通過多個(gè)線程同時(shí)訪問存儲(chǔ)空間的同一個(gè)Bank達(dá)到隱藏訪存延遲的目的,對(duì)于數(shù)據(jù)量較大,SMEM不夠滿足一次性加載所有輸入數(shù)據(jù)的數(shù)據(jù)密集型應(yīng)用(例如FWT),分塊存取和預(yù)取技術(shù)可以很好地隱藏訪存延遲并且實(shí)現(xiàn)SMEM的最大化利用。

    (4)應(yīng)用開發(fā)以及性能優(yōu)化與硬件結(jié)構(gòu)是密不可分的,應(yīng)用程序需要契合存儲(chǔ)層次進(jìn)行合理的代碼設(shè)計(jì)。對(duì)于數(shù)據(jù)密集但規(guī)則訪問的一些應(yīng)用,采用片上存儲(chǔ)器模式(SMEM)而不是Cache模式,可以使應(yīng)用開發(fā)者更容易進(jìn)行性能優(yōu)化。

    (5)考慮到眾核或GPU的可編程性,對(duì)于一些數(shù)據(jù)密集但不規(guī)則的應(yīng)用,創(chuàng)新存儲(chǔ)層次與Cache設(shè)計(jì),可以提高其適應(yīng)性。Fermi提出的可配置L1Cache/SMEM是一個(gè)偉大的創(chuàng)新,同時(shí)在Kepler架構(gòu)上進(jìn)一步提高了二級(jí)Cache的容量,這些都對(duì)擴(kuò)展GPU的適應(yīng)性、開放性和可編程性十分有益。

    [1] NVIDIA Corporation.NVIDIA’s next generation CUDA compute architecture:Fermi[Z].Version 1.1.2009.

    [2] NVIDIA Corporation.GeForce GTX 680:The fastest,most efficient GPU ever built[Z].Version 1.0.2012.

    [3] NVIDIA Corporation.NVIDIA’s next generation CUDA compute architecture:Kepler GK110—The fastest,most efficient GPU ever built[Z].Version 1.0.2012.

    [4] NVIDIA Corporation.NVIDIA CUDA reference manual[Z].Version 3.2Beta.2010.

    [5] NVIDIA Corporation.NVIDIA CUDA API reference manual[Z].Version 4.2.2012.

    [6] Cai Jing.GPGPU architecture key technology demonstration and simulator research and extension[D].Changsha:National University of Defense Technology,2009.(in Chinese)

    [7] Aammodt M,Bakhoda A,F(xiàn)ung W.Tutorial on GPGPU-Sim:A performance simulator for massively multithreaded processor research[C]∥Proc of the 42nd Annual IEEE/ACM International Symposium on Microarchitecture,2009:1.

    [8] Che Shuai,Boyer M,Meng Jia-yuan,et al.A benchmark suite for heterogeneous computing[C]∥Proc of IEEE International Symposium on in Workload Characterization,2009:1.

    [9] NVIDIA Corporation.NVIDIA CUDA SDK3.1code samples[EB/OL].[2011-05-16].http://docs.nvidia.com/cuda/cuda-samples/index.html.

    附中文參考文獻(xiàn):

    [6] 蔡晶.GPGPU體系結(jié)構(gòu)關(guān)鍵技術(shù)論證及模擬器研究與擴(kuò)展[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2009.

    猜你喜歡
    存儲(chǔ)空間密集型線程
    基于多種群協(xié)同進(jìn)化算法的數(shù)據(jù)并行聚類算法
    壓痛點(diǎn)密集型銀質(zhì)針溫針灸治療肱骨外上髁炎的臨床觀察
    蘋果訂閱捆綁服務(wù)Apple One正式上線
    用好Windows 10保留的存儲(chǔ)空間
    密集型快速冷卻技術(shù)在熱軋帶鋼生產(chǎn)線的應(yīng)用
    山東冶金(2019年3期)2019-07-10 00:53:56
    密集型自動(dòng)化立體倉(cāng)庫(kù)解析
    淺談linux多線程協(xié)作
    知識(shí)密集型組織的商業(yè)模式創(chuàng)新策略——以網(wǎng)絡(luò)教育組織為例
    Linux線程實(shí)現(xiàn)技術(shù)研究
    么移動(dòng)中間件線程池并發(fā)機(jī)制優(yōu)化改進(jìn)
    一区二区三区国产精品乱码| 一级黄色大片毛片| 午夜福利乱码中文字幕| 国产成人av教育| 香蕉国产在线看| 精品午夜福利视频在线观看一区| 精品午夜福利视频在线观看一区| av电影中文网址| 久久香蕉精品热| 国产男靠女视频免费网站| 久久精品aⅴ一区二区三区四区| 国产精品自产拍在线观看55亚洲 | 久久精品国产99精品国产亚洲性色 | 国产日韩欧美亚洲二区| 亚洲性夜色夜夜综合| 色精品久久人妻99蜜桃| 国产亚洲欧美精品永久| 手机成人av网站| 欧美+亚洲+日韩+国产| 1024香蕉在线观看| 久久久久久久久久久久大奶| 多毛熟女@视频| 欧美国产精品va在线观看不卡| 韩国精品一区二区三区| 国产av精品麻豆| 99热国产这里只有精品6| 两个人看的免费小视频| 亚洲精品在线美女| 精品国产美女av久久久久小说| 久久国产精品大桥未久av| 麻豆国产av国片精品| 国内久久婷婷六月综合欲色啪| 99久久99久久久精品蜜桃| 国产一区二区三区视频了| 国产91精品成人一区二区三区| 免费人成视频x8x8入口观看| 女人被狂操c到高潮| 色综合婷婷激情| 少妇粗大呻吟视频| videosex国产| 夜夜夜夜夜久久久久| av国产精品久久久久影院| 建设人人有责人人尽责人人享有的| 成年动漫av网址| 亚洲av第一区精品v没综合| 亚洲欧美激情综合另类| 一本综合久久免费| 国产xxxxx性猛交| 中文字幕人妻丝袜制服| 自拍欧美九色日韩亚洲蝌蚪91| 久久ye,这里只有精品| 亚洲国产中文字幕在线视频| 9色porny在线观看| 美女福利国产在线| 在线观看舔阴道视频| 91九色精品人成在线观看| 老司机在亚洲福利影院| 久久久精品区二区三区| 不卡一级毛片| 中文字幕高清在线视频| 亚洲综合色网址| 人人妻人人澡人人看| 欧美精品一区二区免费开放| 亚洲免费av在线视频| 91在线观看av| 99re在线观看精品视频| 亚洲精华国产精华精| 欧美另类亚洲清纯唯美| 97人妻天天添夜夜摸| 亚洲片人在线观看| 久久性视频一级片| 国精品久久久久久国模美| 国产成人欧美| 成在线人永久免费视频| 久久久久国产一级毛片高清牌| 欧美人与性动交α欧美软件| 国产精品国产高清国产av | √禁漫天堂资源中文www| 岛国在线观看网站| 亚洲视频免费观看视频| 免费观看a级毛片全部| 91老司机精品| 一进一出抽搐gif免费好疼 | 国产精品亚洲av一区麻豆| 久久精品国产综合久久久| 女人高潮潮喷娇喘18禁视频| 人成视频在线观看免费观看| 久久影院123| 国产亚洲av高清不卡| 热99久久久久精品小说推荐| 免费观看a级毛片全部| 99精品在免费线老司机午夜| 国产日韩欧美亚洲二区| 日韩人妻精品一区2区三区| 欧美中文综合在线视频| 亚洲五月色婷婷综合| 丰满的人妻完整版| 麻豆国产av国片精品| 日日爽夜夜爽网站| 亚洲国产毛片av蜜桃av| 久久精品91无色码中文字幕| 窝窝影院91人妻| 大型黄色视频在线免费观看| а√天堂www在线а√下载 | 国产精品一区二区在线观看99| 国产麻豆69| netflix在线观看网站| 色在线成人网| 久久精品91无色码中文字幕| 中文字幕av电影在线播放| 欧美成人午夜精品| 欧美乱色亚洲激情| 老鸭窝网址在线观看| 日本精品一区二区三区蜜桃| 欧美精品高潮呻吟av久久| 大型黄色视频在线免费观看| 丝袜在线中文字幕| 悠悠久久av| 午夜福利视频在线观看免费| 精品免费久久久久久久清纯 | 精品亚洲成国产av| 国产精品 国内视频| 国产片内射在线| 亚洲成人免费电影在线观看| 日韩熟女老妇一区二区性免费视频| 精品无人区乱码1区二区| 国产亚洲精品一区二区www | 久久久久久久久免费视频了| av线在线观看网站| 精品国产一区二区三区久久久樱花| 18禁裸乳无遮挡动漫免费视频| 热99国产精品久久久久久7| 亚洲精品久久成人aⅴ小说| 十八禁人妻一区二区| 人人妻人人添人人爽欧美一区卜| videos熟女内射| 满18在线观看网站| 国产成人av激情在线播放| 成人av一区二区三区在线看| 亚洲欧美一区二区三区黑人| 黄片播放在线免费| 少妇粗大呻吟视频| 99国产综合亚洲精品| 熟女少妇亚洲综合色aaa.| 侵犯人妻中文字幕一二三四区| 人妻 亚洲 视频| a在线观看视频网站| 人人妻人人添人人爽欧美一区卜| 国产一区有黄有色的免费视频| 男女下面插进去视频免费观看| 伦理电影免费视频| av线在线观看网站| 18在线观看网站| 丁香六月欧美| 国产蜜桃级精品一区二区三区 | 久久久国产欧美日韩av| 一区二区三区精品91| 亚洲中文日韩欧美视频| 日韩欧美一区视频在线观看| 日韩有码中文字幕| 欧美 亚洲 国产 日韩一| 国产av一区二区精品久久| 后天国语完整版免费观看| 精品国产国语对白av| 国产不卡一卡二| 欧美精品一区二区免费开放| 亚洲va日本ⅴa欧美va伊人久久| 另类亚洲欧美激情| 99热网站在线观看| 亚洲成人免费电影在线观看| 久久中文字幕一级| 午夜免费鲁丝| 无遮挡黄片免费观看| 免费人成视频x8x8入口观看| 色播在线永久视频| 精品人妻在线不人妻| 成人黄色视频免费在线看| 欧美乱码精品一区二区三区| av视频免费观看在线观看| 国产欧美日韩综合在线一区二区| 亚洲欧美精品综合一区二区三区| 极品教师在线免费播放| 搡老乐熟女国产| 亚洲av成人不卡在线观看播放网| 又大又爽又粗| 国产成人精品久久二区二区免费| 国产不卡av网站在线观看| 久99久视频精品免费| 欧美激情久久久久久爽电影 | 国产蜜桃级精品一区二区三区 | 成年动漫av网址| 别揉我奶头~嗯~啊~动态视频| 高清欧美精品videossex| 国产不卡av网站在线观看| 日韩一卡2卡3卡4卡2021年| 精品福利观看| 久久中文字幕一级| 看片在线看免费视频| 国产在线观看jvid| 国产欧美日韩综合在线一区二区| 黑人巨大精品欧美一区二区mp4| 午夜福利免费观看在线| 高清在线国产一区| 天天影视国产精品| 亚洲色图 男人天堂 中文字幕| 亚洲一区二区三区不卡视频| 国产一区二区三区综合在线观看| 免费久久久久久久精品成人欧美视频| 亚洲av成人不卡在线观看播放网| 91国产中文字幕| 国产在视频线精品| 国产午夜精品久久久久久| 色综合欧美亚洲国产小说| 亚洲精品国产区一区二| 精品国产一区二区三区久久久樱花| 亚洲人成伊人成综合网2020| av不卡在线播放| 亚洲av美国av| 国产精品久久电影中文字幕 | 99riav亚洲国产免费| 韩国av一区二区三区四区| 丰满的人妻完整版| 亚洲综合色网址| 天天躁夜夜躁狠狠躁躁| 如日韩欧美国产精品一区二区三区| 欧美精品啪啪一区二区三区| 大香蕉久久网| 91大片在线观看| 极品少妇高潮喷水抽搐| 亚洲一卡2卡3卡4卡5卡精品中文| 一级黄色大片毛片| 性色av乱码一区二区三区2| 人人妻人人添人人爽欧美一区卜| 一区二区日韩欧美中文字幕| 国产精品亚洲av一区麻豆| 欧美亚洲日本最大视频资源| 最近最新免费中文字幕在线| 免费一级毛片在线播放高清视频 | 久久精品熟女亚洲av麻豆精品| 精品免费久久久久久久清纯 | 国产亚洲精品第一综合不卡| 叶爱在线成人免费视频播放| 大片电影免费在线观看免费| 国产99白浆流出| 人人妻人人澡人人爽人人夜夜| 久久精品国产99精品国产亚洲性色 | 亚洲国产看品久久| cao死你这个sao货| 法律面前人人平等表现在哪些方面| 女同久久另类99精品国产91| 岛国毛片在线播放| 婷婷丁香在线五月| 国产高清视频在线播放一区| 亚洲精品中文字幕一二三四区| 伦理电影免费视频| 久久人人97超碰香蕉20202| 日韩熟女老妇一区二区性免费视频| 一级片免费观看大全| 免费观看精品视频网站| 午夜免费成人在线视频| 久久精品国产亚洲av高清一级| 最新美女视频免费是黄的| 欧美 日韩 精品 国产| 丝袜美腿诱惑在线| 国产亚洲欧美精品永久| 999精品在线视频| 五月开心婷婷网| 国产精品久久电影中文字幕 | 国产男女超爽视频在线观看| 美女扒开内裤让男人捅视频| 亚洲全国av大片| 黄频高清免费视频| 人人妻人人添人人爽欧美一区卜| 极品少妇高潮喷水抽搐| 久久精品成人免费网站| 中文字幕av电影在线播放| 啦啦啦免费观看视频1| 91国产中文字幕| 亚洲av成人一区二区三| 欧美精品高潮呻吟av久久| 捣出白浆h1v1| 精品久久蜜臀av无| 一进一出抽搐gif免费好疼 | 精品免费久久久久久久清纯 | 日韩熟女老妇一区二区性免费视频| 欧洲精品卡2卡3卡4卡5卡区| 久久久精品区二区三区| 99国产精品免费福利视频| 日韩有码中文字幕| 下体分泌物呈黄色| 国产一区二区三区综合在线观看| 中文字幕色久视频| 精品少妇一区二区三区视频日本电影| 亚洲精品美女久久av网站| 狂野欧美激情性xxxx| 老司机亚洲免费影院| 深夜精品福利| 热99re8久久精品国产| 欧美日韩国产mv在线观看视频| 欧美精品高潮呻吟av久久| 最近最新免费中文字幕在线| 丰满人妻熟妇乱又伦精品不卡| 亚洲熟女毛片儿| 日本黄色日本黄色录像| 日本vs欧美在线观看视频| 欧美乱色亚洲激情| 啦啦啦免费观看视频1| 这个男人来自地球电影免费观看| 欧美最黄视频在线播放免费 | 国产成人av激情在线播放| 亚洲伊人色综图| 国产精品久久久久久人妻精品电影| 国产精品欧美亚洲77777| 一边摸一边做爽爽视频免费| 19禁男女啪啪无遮挡网站| 免费在线观看黄色视频的| 在线观看舔阴道视频| 免费少妇av软件| 亚洲一区二区三区欧美精品| 精品国内亚洲2022精品成人 | 一a级毛片在线观看| 国产真人三级小视频在线观看| 色精品久久人妻99蜜桃| 水蜜桃什么品种好| 一夜夜www| 欧美最黄视频在线播放免费 | 一级a爱视频在线免费观看| 久久久久久久午夜电影 | 天天影视国产精品| 国产精品久久久久久人妻精品电影| 超色免费av| 窝窝影院91人妻| 一区二区日韩欧美中文字幕| 成人黄色视频免费在线看| 在线国产一区二区在线| 99久久人妻综合| 51午夜福利影视在线观看| 人人澡人人妻人| videos熟女内射| 亚洲人成电影观看| 黑人操中国人逼视频| 久久久国产成人免费| 国产aⅴ精品一区二区三区波| 国产精品偷伦视频观看了| 啦啦啦在线免费观看视频4| 久久国产精品男人的天堂亚洲| 一区二区三区精品91| 美国免费a级毛片| 亚洲熟妇中文字幕五十中出 | 狂野欧美激情性xxxx| 女同久久另类99精品国产91| 亚洲人成77777在线视频| 亚洲人成伊人成综合网2020| 黄色成人免费大全| 天天添夜夜摸| svipshipincom国产片| 中文字幕制服av| 色精品久久人妻99蜜桃| netflix在线观看网站| 欧美老熟妇乱子伦牲交| 国产精品亚洲av一区麻豆| 国产一区二区三区视频了| 91国产中文字幕| 建设人人有责人人尽责人人享有的| 国产黄色免费在线视频| 国产99白浆流出| tocl精华| 午夜视频精品福利| 精品国产一区二区久久| av中文乱码字幕在线| 国产成人免费观看mmmm| 搡老岳熟女国产| 午夜老司机福利片| 一二三四在线观看免费中文在| 久热爱精品视频在线9| 久久亚洲精品不卡| 国产欧美日韩综合在线一区二区| 国产成+人综合+亚洲专区| 久久亚洲精品不卡| 成人黄色视频免费在线看| 欧美乱色亚洲激情| 久久精品国产亚洲av香蕉五月 | 亚洲一区二区三区不卡视频| 99热只有精品国产| 欧美日韩亚洲国产一区二区在线观看 | 丰满饥渴人妻一区二区三| 亚洲精品美女久久久久99蜜臀| 国产激情久久老熟女| 少妇粗大呻吟视频| 18禁裸乳无遮挡免费网站照片 | 国产精品久久久久久精品古装| 男女下面插进去视频免费观看| 一级毛片精品| 一区福利在线观看| 久久香蕉激情| 亚洲精品成人av观看孕妇| 免费高清在线观看日韩| 精品少妇久久久久久888优播| 免费黄频网站在线观看国产| 视频在线观看一区二区三区| 色综合婷婷激情| 男女床上黄色一级片免费看| e午夜精品久久久久久久| 亚洲精品国产区一区二| 久久天躁狠狠躁夜夜2o2o| 亚洲国产精品合色在线| 五月开心婷婷网| 成人18禁高潮啪啪吃奶动态图| 精品一区二区三卡| 日本wwww免费看| 一边摸一边做爽爽视频免费| 亚洲人成77777在线视频| 国产精品一区二区在线不卡| 亚洲av成人不卡在线观看播放网| 中文字幕人妻丝袜制服| 国产精品电影一区二区三区 | 欧美丝袜亚洲另类 | 国产区一区二久久| 下体分泌物呈黄色| 精品久久久久久久毛片微露脸| 久久人人爽av亚洲精品天堂| 精品一区二区三卡| 人人妻人人澡人人看| 亚洲中文字幕日韩| 香蕉丝袜av| 一级毛片高清免费大全| 久久精品国产清高在天天线| 国产区一区二久久| 每晚都被弄得嗷嗷叫到高潮| 一级,二级,三级黄色视频| 免费一级毛片在线播放高清视频 | 国产高清videossex| 自线自在国产av| 两性夫妻黄色片| 黄色成人免费大全| а√天堂www在线а√下载 | 午夜福利免费观看在线| 人妻丰满熟妇av一区二区三区 | 欧美精品一区二区免费开放| 国产深夜福利视频在线观看| 狂野欧美激情性xxxx| 精品人妻在线不人妻| 精品久久久久久久久久免费视频 | 满18在线观看网站| 亚洲欧美激情在线| 成人手机av| 欧美日韩亚洲高清精品| 国产区一区二久久| 少妇被粗大的猛进出69影院| 久久青草综合色| 19禁男女啪啪无遮挡网站| 久久精品国产综合久久久| 满18在线观看网站| 久久久久久免费高清国产稀缺| 视频区图区小说| 国产精品久久久av美女十八| 美女高潮到喷水免费观看| av电影中文网址| a级毛片在线看网站| 国产精品久久久久久精品古装| 久久久精品国产亚洲av高清涩受| 亚洲国产看品久久| 精品少妇久久久久久888优播| 老司机影院毛片| 女性被躁到高潮视频| 国产黄色免费在线视频| 好男人电影高清在线观看| 成年女人毛片免费观看观看9 | 中出人妻视频一区二区| 亚洲第一青青草原| 91在线观看av| 母亲3免费完整高清在线观看| 国产99白浆流出| 色婷婷av一区二区三区视频| 80岁老熟妇乱子伦牲交| 啦啦啦视频在线资源免费观看| 黄频高清免费视频| 天堂俺去俺来也www色官网| 日本wwww免费看| 午夜福利欧美成人| 精品国产乱子伦一区二区三区| 极品教师在线免费播放| 亚洲欧美日韩另类电影网站| bbb黄色大片| 国产一区在线观看成人免费| 两个人看的免费小视频| 日韩三级视频一区二区三区| 不卡av一区二区三区| 18在线观看网站| www.自偷自拍.com| 午夜久久久在线观看| 捣出白浆h1v1| 欧美精品啪啪一区二区三区| 国产av又大| 国产日韩欧美亚洲二区| 成人影院久久| 大陆偷拍与自拍| 又紧又爽又黄一区二区| 久久这里只有精品19| 亚洲片人在线观看| 亚洲精品av麻豆狂野| а√天堂www在线а√下载 | 国产成人欧美在线观看 | 在线观看舔阴道视频| a级毛片在线看网站| 久久久久久久国产电影| 亚洲精品乱久久久久久| 美女高潮喷水抽搐中文字幕| 一本大道久久a久久精品| 国产成人影院久久av| 亚洲av成人不卡在线观看播放网| 欧美国产精品一级二级三级| 国产精品九九99| 亚洲午夜精品一区,二区,三区| 亚洲熟女精品中文字幕| 久久国产精品男人的天堂亚洲| 精品一区二区三区av网在线观看| 国产亚洲精品久久久久5区| 黄网站色视频无遮挡免费观看| 国产国语露脸激情在线看| avwww免费| 久久青草综合色| 最近最新中文字幕大全免费视频| 亚洲国产欧美日韩在线播放| 777米奇影视久久| 久久久久精品人妻al黑| 欧美日韩瑟瑟在线播放| 久99久视频精品免费| avwww免费| 久久国产亚洲av麻豆专区| 亚洲黑人精品在线| 好男人电影高清在线观看| √禁漫天堂资源中文www| 日韩熟女老妇一区二区性免费视频| 9热在线视频观看99| 亚洲一卡2卡3卡4卡5卡精品中文| 国产淫语在线视频| 看片在线看免费视频| a级毛片在线看网站| 日韩欧美国产一区二区入口| 中文字幕最新亚洲高清| 国产有黄有色有爽视频| 亚洲精品中文字幕在线视频| 成熟少妇高潮喷水视频| 亚洲中文av在线| 国产精品99久久99久久久不卡| 人人妻人人澡人人看| 久久精品国产亚洲av香蕉五月 | 国产精品 国内视频| 国产深夜福利视频在线观看| 成人影院久久| 国产亚洲精品久久久久5区| 亚洲精品中文字幕在线视频| 久久久国产一区二区| 岛国毛片在线播放| 久热爱精品视频在线9| 99热网站在线观看| 日本精品一区二区三区蜜桃| 女性被躁到高潮视频| 日本一区二区免费在线视频| 久久精品aⅴ一区二区三区四区| 亚洲成人手机| 丝袜人妻中文字幕| 亚洲国产精品sss在线观看 | 欧美人与性动交α欧美软件| 久久久国产成人免费| 亚洲片人在线观看| 9191精品国产免费久久| 亚洲人成电影观看| 极品少妇高潮喷水抽搐| 国产人伦9x9x在线观看| 人人妻人人澡人人爽人人夜夜| 777久久人妻少妇嫩草av网站| 黄色片一级片一级黄色片| 精品一品国产午夜福利视频| 一区二区三区国产精品乱码| 欧美精品人与动牲交sv欧美| 纯流量卡能插随身wifi吗| 熟女少妇亚洲综合色aaa.| 亚洲精品美女久久av网站| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲成人免费av在线播放| 91大片在线观看| 大陆偷拍与自拍| 国产视频一区二区在线看| 精品国产一区二区久久| av视频免费观看在线观看| 99精品在免费线老司机午夜| 满18在线观看网站| 12—13女人毛片做爰片一| 大码成人一级视频| 捣出白浆h1v1| 色老头精品视频在线观看| 视频区图区小说| 一区二区日韩欧美中文字幕| 久久国产亚洲av麻豆专区| 久久亚洲真实| www.自偷自拍.com| 男女高潮啪啪啪动态图| 人人妻人人澡人人爽人人夜夜| 久热爱精品视频在线9| 夜夜夜夜夜久久久久| 欧美老熟妇乱子伦牲交| 日韩免费高清中文字幕av| 成人手机av| 一级a爱片免费观看的视频| 日日爽夜夜爽网站| 一级片免费观看大全| 黑人巨大精品欧美一区二区蜜桃| 色尼玛亚洲综合影院| 五月开心婷婷网| av免费在线观看网站| 精品一区二区三区四区五区乱码| 国产欧美日韩一区二区三| 热re99久久国产66热|