• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    GPGPU性能模型研究*

    2013-06-08 10:07:30杜云飛
    計算機工程與科學 2013年12期
    關(guān)鍵詞:體系結(jié)構(gòu)線程度量

    王 鋒,杜云飛,陳 娟

    (國防科學技術(shù)大學計算機學院,湖南 長沙 410073)

    1 引言

    隨著GPU 性能和可編程性的不斷提高,GPU越來越多地被應用于通用計算,具備這類特點的GPU 被稱為通用GPU,即GPGPU(General Purpose GPU)。使用GPGPU 加速的系統(tǒng)越來越多,這種CPU 和GPGPU 相互配合的異構(gòu)系統(tǒng)在高性能計算領(lǐng)域已經(jīng)受到越來越多的關(guān)注[1]。我國在大規(guī)模異構(gòu)系統(tǒng)體系結(jié)構(gòu)方面取得了重大突破,2010年11月份超級計算機TOP500排名,我國有兩臺異構(gòu)系統(tǒng)的計算機排名前五,其中天河-1 更是排名世界第一[2]。并且異構(gòu)系統(tǒng)在能耗比(FLOPS/W)上也遠遠優(yōu)于同構(gòu)系統(tǒng),例如天河-1的能耗比是同時期同構(gòu)系統(tǒng)美洲虎(排名第二)的2.5倍,是構(gòu)建下一代Exascale級超級計算機系統(tǒng)最有前景的技術(shù)之一。

    但是,異構(gòu)系統(tǒng)上用戶程序的應用開發(fā)和執(zhí)行效率一直是制約其發(fā)展的瓶頸。GPU 的性能發(fā)揮與許多要素密切相關(guān),包括程序本身的特性以及GPU 的特性。其中程序的特性包括并行性、訪存局部性以及占用的寄存器資源等,GPU 本身的特性包括與CPU 的通訊帶寬、訪存帶寬、訪存延遲、支持的線程數(shù)量等。如此眾多的因素造成程序優(yōu)化時搜索空間巨大,單靠經(jīng)驗無法確定最佳優(yōu)化方案,需要對GPU 性能進行建模,在此基礎上輔助編程人員或者自動完成優(yōu)化策略的選擇。除了更好地發(fā)揮GPU 的性能外,CPU 和GPU 之間的任務劃分也是整個系統(tǒng)發(fā)揮性能的關(guān)鍵。在CPU和GPU 協(xié)同工作的過程中,為了發(fā)揮各自的性能,必須考慮負載平衡問題,根據(jù)兩者不同的性能分配不同的任務。因此,也需要對GPU 的性能進行建模。在此基礎上,可以用于指導GPU 的性能優(yōu)化算法以及CPU 和GPU 間的任務負載平衡。同時,這一策略可以與支持異構(gòu)系統(tǒng)的編程框架編程環(huán)境相結(jié)合,為其優(yōu)化算法提供支持。

    因此,GPU 性能模型的研究受到研究者的廣泛關(guān)注,美國喬治亞理工學院的Luk C K 等[3]研發(fā)的異構(gòu)系統(tǒng)并行任務映射框架Qilin 采用了GPU 性能模型在任務訓練階段建立性能數(shù)據(jù)庫。他們還將性能模型應用于GPGPU 的功耗優(yōu)化中,能夠幫助用戶獲得更好的性能功耗比優(yōu)化方法[4]。Sim J[5]基于性能模型開發(fā)了性能優(yōu)化分析框架GPUPerf,能夠提供潛在的性能優(yōu)化方向,指導用戶進行編譯優(yōu)化。Samadi M[6]將性能模型應用于GPGPU 的編譯器中,為編譯優(yōu)化方法提供指導。除了這些通用的性能模型以外,研究人員也建立了大量和具體應用程序相關(guān)的性能模型,Xue J[7]的研究小組針對DOACROSS循環(huán)建立的分塊算法的性能模型,能夠發(fā)現(xiàn)接近最優(yōu)的分塊大小。Choi J W[8]研究了稀疏矩陣-向量乘SpMV(Sparse Matrix-Vector multiply)在GPGPU 上的性能模型,用于指導輸入的矩陣塊大小的自動選擇,代價只有完全搜索算法的15%。

    本文重點針對CPU 和GPU 負載平衡問題,對GPGPU 性能模型進行了研究,主要貢獻在于:(1)對當前GPGPU 性能解析模型的研究進展進行了深入分析,對其優(yōu)缺點進行了描述,指出其在指導負載平衡方面存在的問題;(2)實現(xiàn)了一個基于統(tǒng)計信息的插值擬合性能模型,用于指導CPU 和GPGPU 的負載平衡。接下來的內(nèi)容按照如下順序進行組織:第2節(jié)首先從體系結(jié)構(gòu)和執(zhí)行模型開始,介紹GPGPU 的性能及其影響因素;然后在第3節(jié)詳細分析并評估現(xiàn)有的性能解析模型;第4節(jié)介紹我們實現(xiàn)的基于統(tǒng)計的曲線擬合模型;最后給出了當前研究存在的問題與挑戰(zhàn)。

    2 GPGPU 性能及其影響因素

    2.1 GPGPU 體系結(jié)構(gòu)和執(zhí)行模型

    2004年GPU 開始采用PCIE 總線與主機連接,大大增加了通訊帶寬,并且支持64 位浮點數(shù)據(jù),支持紋理內(nèi)存訪問。隨后,更高級的GPU 編程語言出現(xiàn),例如Brook 和Sh。2006 年GPU 全部開放給程序員控制,包括頂點、像素、多級存儲層次等等,這類產(chǎn)品有NVIDIA 的G80[9]等。大量的軟件編程語言開始出現(xiàn),例如CUDA、Brook+、CTL等等[10]。2009年GPU 開始擴展至高性能計算領(lǐng)域,例如AMD 的Firestream、NVIDIA 的GTX295。在這一年國防科學技術(shù)大學研制的天河-1采用了GPU 作為加速器,在TOP500排名第五[11,12]。2010 年GPU 開始支持ECC、增 加 了Cache大小、支持多內(nèi)核并行,更加適應高性能計算,代表產(chǎn)品有AMD 的HD5870 和NVIDIA 的Fermi。支持異構(gòu)計算的框架開始出現(xiàn),例如Qilin[3]、FLAME[13]、Merge[14]等等。國防科學技術(shù)大學研制的天河-1A 采用Fermi作為加速器,Linpack性能在TOP500排名第一。從2011年開始,GPGPU 在性能、功耗、穩(wěn)定性等方面繼續(xù)優(yōu)化,編程調(diào)試環(huán)境更加豐富,有OpenCL 1.2[15],CUDA 4.2[16]以及OpenACC[17]等。

    目前GPGPU 的典型結(jié)構(gòu)[18]如圖1所示。

    每個GPGPU 設備中包含多個流處理器SM(Streaming Multiprocessors),每個流處理器內(nèi)部又包含多個流處理單元SP(Streaming Processors)和特殊處理單元SFU(Special Functional Unit)。所有的流處理器共享片外全局內(nèi)存和L2 Cache,每個流處理器內(nèi)部有單獨的L1Cache和共享存儲器,每個流處理單元配備獨立的線程運行環(huán)境(主要是寄存器)。運行在GPGPU 上的內(nèi)核程序以SPMD(Single Program Multi Data)的并行方式在流處理器上執(zhí)行,在每一個流處理器上又以SIMD 的方式映射到流處理單元上執(zhí)行。從程序員角度看,內(nèi)核程序以數(shù)據(jù)并行方式運行在GPGPU 設備上,數(shù)據(jù)按照二維或三維方式劃分成線程塊,線程塊被自動調(diào)度到流處理器上執(zhí)行,執(zhí)行過程中以線程的方式調(diào)度到每一個流處理單元上。如果一個線程塊在執(zhí)行時遇到全局內(nèi)存訪存指令,則此線程塊可以被流處理器切換出去,執(zhí)行其他線程塊指令。等數(shù)據(jù)取到寄存器或共享存儲器中后,此線程塊繼續(xù)被調(diào)度執(zhí)行。這種線程塊的調(diào)度在GPGPU 上是零開銷的。這樣,GPGPU 可以通過大量的并發(fā)線程隱藏訪存開銷,從而充分利用強大的計算能力,這是GPGPU 對比傳統(tǒng)處理器的主要優(yōu)勢。

    Figure 1 Architecture of the GPGPU圖1 GPGPU 的體系結(jié)構(gòu)圖

    2.2 GPGPU 性能測量和影響因素

    GPGPU 的這種SPMD 和SIMD 的執(zhí)行方式以及線程調(diào)度方式能夠充分利用其計算部件,但是也為其性能發(fā)揮增加了編程難度。GPGPU 的實際性能與多種因素相關(guān),例如線程塊的大小、線程塊內(nèi)部線程的劃分、線程所占資源多少等等。為了準確預測內(nèi)核程序的性能,為內(nèi)核程序優(yōu)化提供指導,必須研究GPGPU 的性能模型。本文所涉及的性能主要從下面三個方面衡量:一是程序執(zhí)行時間T,單位是秒;二是加速比S;三是單位時間內(nèi)平均執(zhí)行的浮點操作數(shù)F,單位是FLOPS。它們從不同角度反映了程序在GPGPU 上的執(zhí)行情況。執(zhí)行時間T 是指從程序加載到程序結(jié)束這一時間段,是對程序性能最直接的度量,適合所有類型的測試程序,但是在做對比的時候無法直觀反映出性能差異的比例;加速比S 是以某種平臺和軟件配置下程序運行時間為基準,其他配置下運行時間規(guī)格化后的數(shù)據(jù),能夠直觀給出不同配置下程序優(yōu)化提高的比例。在GPGPU 性能測試中一般取同時期主流CPU 平臺上的運行時間TCPU為基準,測量GPGPU 平臺上程序運行時間TGPGPU,獲取加速比S=(TCPU/TGPGPU)。但是,這種度量很難反映出程序繼續(xù)優(yōu)化的潛力,也就是能否繼續(xù)優(yōu)化以獲得程序性能的提升。單位時間內(nèi)平均執(zhí)行的浮點數(shù)能夠準確反映一段時間內(nèi)程序持續(xù)的浮點性能,與設備理論上的浮點性能可以進行比較,從而反映程序優(yōu)化的潛力。這種度量方法特別適合浮點計算密集型程序,例如矩陣乘、LU 分解等等。

    影響GPGPU 程序性能的因素有很多,其優(yōu)化搜索空間非常巨大,如果按照窮舉法遍歷搜索空間找到最優(yōu)值將非常耗時。例如矩陣乘算法中主要的影響因素有塊大小、循環(huán)展開次數(shù)、預取距離和溢出(Spilling)寄存器的個數(shù)等。另外,由于硬件體系結(jié)構(gòu)的限制,程序的配置必須符合一定的約束條件,例如CUDA 中計算能力2.0的設備(Fermi)和3.5的設備(Kepler)限制條件如表1所示。

    Table1 Feature support of CUDA compute capability 2.0and 3.5表1 支持CUDA計算能力2.0和3.5設備的限制條件

    有了這些限制條件,影響性能的因素并不是獨立的,它們之間互相影響。例如循環(huán)展開次數(shù)會影響到線程資源,進而影響到線程塊大小,最終影響到數(shù)據(jù)的局部性,因此對GPGPU 上的程序性能進行建模是個巨大的挑戰(zhàn)。為了對程序優(yōu)化進行指導,縮小搜索空間,從2008年以來大量的研究工作在性能模型上展開,從不同的角度試圖解決這個問題。這些對GPGPU 的性能模型研究大致可以分為兩種方法,一種是基于統(tǒng)計測量的方法進而建立曲線擬合模型,一種是性能解析模型。這兩種方法各有優(yōu)缺點,下面分別進行介紹。

    3 性能解析模型

    性能解析模型綜合硬件的體系結(jié)構(gòu)、軟件編程模型和執(zhí)行模型,對應用程序的執(zhí)行進行細致觀察和分析,從而獲得影響程序性能的因素,最后建立程序性能模型。GPGPU 的性能解析模型從研究方法上可以分為三類:一類不是直接研究各種因素對性能的影響,而是通過觀察建立與性能相關(guān)的度量值,這些度量值能夠間接反映出程序的最終性能;第二類是基于GPGPU 的抽象體系結(jié)構(gòu),從程序的執(zhí)行模型建立性能模型,并且通過程序(真實的應用程序或小的測試程序)運行進行驗證;第三類是設計小的測試程序,通過觀察運行結(jié)果獲取影響性能的各個要素,然后綜合考慮導出性能模型。下面我們將分別介紹這三種典型的性能解析模型。

    3.1 性能度量模型

    在2008年CGO 會議上Ryoo S 教授[19]領(lǐng)導的研究小組提出了將性能度量模型用于裁剪GPGPU 程序的優(yōu)化空間,提出了兩個性能度量值用于指導程序優(yōu)化,這兩個值分別代表了程序特性和GPGPU 的資源利用情況,其中一個度量值Efficiency 的計算如公式(1)所示:

    其中,Instr 是單個線程的動態(tài)指令數(shù),可以從生成的PTX 代碼中得到;Threads 是GPGPU 程 序總的線程數(shù),是由用戶指定的。這個度量值反映了GPGPU 程序本身的效率,完成同樣的問題規(guī)模,指令數(shù)越少,線程數(shù)越少,則效率越高。另一個度量值Utilization 度量的是除了當前正在執(zhí)行的Warp外,GPGPU 平均可供調(diào)用的低延遲指令數(shù),反映了GPGPU 資源利用的大小,如公式(2)所示:

    其中,Regions是線程指令中被長延遲指令分割開的指令塊的個數(shù)。長延遲指令包括全局和紋理內(nèi)存操作、同步指令以及特殊浮點單元SFU 指令。WTB指的是一個線程塊中的Warp數(shù),BSM是分給每個流處理器的線程塊的數(shù)目。公式(2)的括號里面的部分是除了正在執(zhí)行的Warp外,還可供調(diào)用的Warp數(shù)。其中前一部分是同一線程塊內(nèi)的其他Warp數(shù),除以2的目的是如果長延遲指令為同步操作,那么平均有一半的Warp尚未執(zhí)行到同步點。括號內(nèi)后一部分是其他線程塊內(nèi)的Warp數(shù)。

    理想情況下,這兩個度量值越大越好,但在實際情況下無法同時做到這一點。同樣的優(yōu)化方法可以使一個度量值升高,而另一個降低。為了使用這兩個度量值指導優(yōu)化參數(shù)的選擇,作者使用了帕累托優(yōu)化搜索算法,只選擇那些使得效率和利用率同時變化不大的配置來進行測試,從而獲得近似最優(yōu)值,而選擇的這些配置也稱為帕累托子集。實驗表明,使用這種統(tǒng)計學的搜索算法可以減少74%~98%的搜索空間。

    但是,這種模型過于簡單和粗略,是以全局內(nèi)存訪問延遲完全被隱藏為前提的,并且沒有對程序瓶頸進行分析。另外,對于影響性能的其他因素例如Cache、內(nèi)存訪問合并等也沒有進行分析。

    3.2 訪存和計算并行性感知的解析模型

    這類模型首先由美國喬治亞理工學院Kim H[20,2.]領(lǐng)導的研究小組發(fā)表在ISCA 2009 會議上,隨后又對其進行了擴充,用于指導GPGPU 的功耗研究并發(fā)表在ISCA 2010會議上。研究的出發(fā)點在于GPGPU 的特性就是依靠大量的并發(fā)線程以及線程間零開銷的切換機制隱藏程序的訪存延遲,線程級并發(fā)能否完全隱藏訪存延遲決定最終的程序性能。研究者結(jié)合GPGPU 的實際調(diào)度單位Warp,提出了內(nèi)存Warp并行性MWP(Memory Warp Parallelism)和計算Warp 并行性CWP(Computation Warp Parallelism)的概念。MWP和CWP 指的是每個流處理器中在一次內(nèi)存訪問延遲期間可以重疊訪存的最大Warp數(shù)和可以重疊執(zhí)行的最大Warp數(shù)。結(jié)合GPGPU 的內(nèi)存系統(tǒng)模型,由如下因素決定:訪存延遲、帶寬、訪存類型、連續(xù)兩次訪存之間的延遲、GPGPU 設備的流處理器個數(shù)、每個流處理器支持的最大Warp 數(shù)等。其中的訪存類型指的是可合并類型(Coalesced)和非合并類型(Uncoalesced),如果一個Warp中同時包含了這兩種訪存類型,則根據(jù)各自出現(xiàn)的次數(shù)占總的訪存次數(shù)的比例計算一個權(quán)值,綜合考慮這兩種情況。CWP 的計算相對簡單,計算出一個Warp訪存和計算總的指令周期數(shù),然后除以計算所用的指令周期數(shù),得到的結(jié)果與每個流處理器支持的最大Warp 數(shù)相比,最小值就是CWP。

    根據(jù)MWP 和CWP 我們就可以對程序的執(zhí)行進行建模,總共分為三種情況:MWP 小于或等于CWP、MWP 大于CWP 和可供調(diào)度的Warp數(shù)小于MWP 和CWP 的最小值。

    當MWP 小于或等于CWP 時,表明程序是以訪存為主,計算完全被訪存隱藏。假定每個流處理器中活躍的Warp數(shù)為N,那么這N 個Warp執(zhí)行的總指令周期數(shù)如公式(3)所示:

    其中,Mem-cycles 指訪存所用的指令周期數(shù);Comp_p 是每次計算平均所用的指令周期數(shù),其計算公式為Comp_p=Comp_cycles/#Mem_insts,Comp_cycles為計算所用的指令數(shù),#Mem_insts是訪存的指令個數(shù)。

    如果MWP 大于CWP,表明程序受限于計算資源。N 個Warp執(zhí)行的總指令周期數(shù)如公式(4)所示:

    其中,Mem_p 是平均每次訪存的指令周期數(shù),由合并類型和非合并類型的訪存延遲以及它們的權(quán)值計算得到。

    如果可供調(diào)度的Warp 數(shù)不夠,也就是小于MWP 和CWP 的最小值,那么系統(tǒng)就無法充分利用Warp的并行性。N 個Warp執(zhí)行的總指令周期數(shù)如公式(5)所示:

    實驗表明,這種性能模型在微測試程序(Micro-benchmark)上平均誤差為5.4%,實際的GPGPU 程序Merge Benchmark 平均誤差為13.3%。

    將GPGPU 程序的基本調(diào)度單位Warp 的執(zhí)行分別從訪存和計算的并行性來建立性能模型,對于預測程序的執(zhí)行時間有比較好的精度。但是,該模型也存在一些不足:首先,對于分支情況的考慮太過簡單,只是將分支兩邊的指令數(shù)都計算上,這與實際程序的執(zhí)行不相符;其次,沒有考慮Cache失效帶來的影響;最后,與性能度量模型一樣,沒有分階段的性能分析,也就無法定位程序的瓶頸。

    中國科學院軟件研究所的袁良、張云泉等[21]提出的基于延遲隱藏因子的GPU 計算模型,也從計算和訪存重疊的角度對GPGPU 的程序執(zhí)行建立了性能模型,首次提出了延遲隱藏因子的概念,并分為連續(xù)計算延遲隱藏因子以及同步延遲隱藏因子兩種,用以描述算法隱藏延遲的能力。實驗表明該模型能夠較好地預測算法性能。

    3.3 分部件定量分析性能模型

    這類模型是由加州大學戴維斯分校的Zhang Y 和Owens J D[22]在HPCA 2011會議上提出的,其思想是認為GPGPU 性能由以下三個部件的性能決定,一是指令的流水線,二是共享內(nèi)存,三是全局內(nèi)存,認為這三個部件的性能是相互獨立的并且用時最長的部件就是整個性能的瓶頸。這樣分析的原因是因為GPGPU 支持這三個部件的同時執(zhí)行,并且GPGPU 的設計思想就是通過切換不同Warp的上下文隱藏訪存開銷。這樣就把整個程序的性能模型分解為三個部件的性能模型。通過設計小的測試程序能夠得到這三個部件的性能影響因素,從而分別建立模型。實驗表明,這類模型能夠準確定位程序瓶頸,并且能給出是否還有優(yōu)化空間,另外還能夠?qū)PGPU 的體系結(jié)構(gòu)提出可改進的地方。三種典型測試程序表明,這種模型的性能誤差在5%~15%。

    這種性能模型的不足之處在于沒有考慮新的GPGPU 體系結(jié)構(gòu)中的Cache系統(tǒng)的影響,受限于模擬器的限制不能精確分析共享內(nèi)存Bank沖突對性能的影響,對線程塊內(nèi)部Warp之間的同步操作也沒有考慮,另外對于這三種部件無法完全重疊的情況也沒有進行研究。

    3.4 性能解析模型無法解決負載平衡問題

    從上面的分析我們可以得出結(jié)論,目前的性能解析模型無法解決CPU 和GPGPU 間的負載平衡問題。性能度量模型可以作為一種優(yōu)化策略,但是無法預估GPGPU 的性能。訪存和計算并行性感知的解析模型在微測試程序(Micro-benchmark)上的平均誤差為5.4%,實際的GPGPU 程序Merge Benchmark的平均誤差為13.3%,這對于負載分配來說精度太低。分部件定量分析性能模型對于三種典型測試程序的誤差在5%~15%,同樣對負載分配來說無法忍受。

    因為目前GPGPU 雙精度浮點運算峰值速度已經(jīng)超過1TFLOPS,即使5%的誤差也會造成50 GFLOPS的性能損失。對于負載分配,性能解析模型無法提供有效支持。

    4 基于統(tǒng)計的插值和曲線擬合模型

    4.1 模型簡介

    與性能解析模型不同,基于統(tǒng)計的插值和曲線擬合模型不拘泥于GPGPU 的內(nèi)部的執(zhí)行細節(jié),而是從程序的歷史運行信息預測下次的運行情況。由于需要大量的運行信息,一般只適合對一個或少數(shù)幾個因素進行建模。插值是指將相鄰采樣值用線段連接起來,用于預測采樣值以外的性能。實際上相當于一組線性方程。曲線擬合是指用單一函數(shù)描述所有采樣點的趨勢,主要有多項式擬合、指數(shù)擬合、超越函數(shù)擬合等。

    理論上如果我們測量的數(shù)據(jù)足夠多,就可以精確地預測其他問題規(guī)模的性能。由于這種模型直接從應用程序的角度對性能進行測量,而不單單關(guān)注于內(nèi)核程序,測量性能時也考慮了內(nèi)核程序與主機的通訊開銷,因此這種性能模型的準確性是其最大優(yōu)點。

    4.2 實驗

    測試平臺分別為Intel四核Xeon E5540、ATI Radeon HD4870 和AMD HD5870,后兩種為GPGPU。圖2中描述了雙精度方形矩陣乘在不同平臺上隨寬度變化的性能曲線。水平X 軸為矩陣的寬度Q;垂直Y 軸為測量的性能P,采用單位時間內(nèi)完成的浮點計算數(shù),單位為GFLOPS。假設矩陣乘的時間為T,性能計算公式為:

    Figure 2 Performance of double precision floating-point matrix multiplication on CPU and GPGPU圖2 CPU 和GPGPU 雙精度矩陣乘性能

    從圖2中可以看出CPU 性能非常穩(wěn)定,基本處于40GFLOPS左右;而GPGPU 平臺性能波動就比較大,而且在小規(guī)模矩陣情況下,其性能低于CPU,只有在矩陣規(guī)模大到一定值時,GPGPU 的性能才超過CPU,這反映了GPGPU 性能受問題規(guī)模也就是計算量的影響比較大。我們將這些測試的點用線段連接起來,就得到一個性能曲線圖,利用這個圖我們可以使用插值法推測得出其他問題規(guī)模的性能。假設新的矩陣寬度為M,距離M最近的兩個測量點Qi≤M <Qi+1,其對應的性能分別為Pi和Pi+1,則M 對應的性能PM由公式(7)得出。這樣在CPU 和GPGPU 之間進行任務劃分時,可以指導負載平衡。

    但是,這種模型也存在如下不足,首先是需要測量大量數(shù)據(jù),在有的應用中因為代價過高而不可能做到;另外,這種方法針對一種性能影響因素的變化(一維)通常比較有效,但是對于多種因素同時影響性能的情況(多維)常常因為組合爆炸而不可行。

    5 結(jié)束語

    GPGPU 的性能模型已經(jīng)引起了研究者的廣泛關(guān)注,取得了大量的研究成果,使得人們對GPGPU 的體系結(jié)構(gòu)以及程序性能有了更深入的了解。但是,仍然存在許多未解決的問題,這些問題更具挑戰(zhàn)性,例如對GPGPU Cache系統(tǒng)的性能研究,對非規(guī)則訪存應用程序的性能分析。并且GPGPU 體系結(jié)構(gòu)本身也在不斷演化,新型眾核和多核融合的體系結(jié)構(gòu)紛紛出現(xiàn),例如Intel 的MIC、NVIDIA 的Kepler和AMD GCN,這些體系結(jié)構(gòu)之上的程序性能模型需要人們進一步完善。

    [1]NVIDIA.GPUs are only up to 14times faster than CPUs says Intel,2010[EB/OL].[2010-06-01]http:∥blogs.nvidia.com/ntersect/2010/06/gpus-are-only-upto-14-timesfaster-than-cpus-says-intel.html.

    [2]http:∥www.top500.org.

    [3]Luk C-K,Hong S,Kim H.Qilin:Exploiting parallelism on heterogeneous multiprocessors with adaptive mapping[C]∥Proc of the 42nd Annual IEEE/ACM International Symposium on Microarchitecture,2009:45-55.

    [4]Hong S,Kim H.An integrated GPU power and performance model[C]∥Proc of the 37th Annual International Symposium on Computer Architecture,2010:280-289.

    [5]Sim J,Dasgupta A,Kim H,et al.A performance analysis framework for identifying potential benefits in GPGPU applications[C]∥Proc of the 17th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming,2012:11-22.

    [6]Samadi M,Hormati A,Mehrara M,et al.Adaptive input-a-ware compilation for graphics engines[C]∥Proc of the 33rd ACM SIGPLAN Conference on Programming Language Design and Implementation,2012:13-22.

    [7]Peng Di,Xue Jing-ling.Model-driven tile size selection for DOACROSS loops on GPUs[C]∥Proc of the 17th International Conference on Parallel Processing,2011:401-412.

    [8]Choi J W,Singh A,Vuduc R W.Model-driven autotuning of sparse matrix-vector multiply on GPUs[C]∥Proc of the 15th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming,2010:115-126.

    [9]http:∥en.wikipedia.org/wiki/Graphics_processing_unit.

    [10]Owens J D,Luebke D,Govindaraju N,et al.A survey of general-purpose computation on graphics hardware[C]∥Proc of Eurographics 2005,2.05:21-51.

    [11]Wang Feng,Yang Can-qun,Du Yun-fei,et al.Optimizing linpack benchmark on GPU-accelerated petascale supercomputer[J].J Comput Sci Technol,2011,2.(5):854-865.

    [12]Yang Can-qun,Wang Feng,Du Yun-fei,et al.Adaptive optimization for petascale heterogeneous CPU/GPU computing[C]∥Proc of IEEE International Conference on Cluster Computing,2010:19-28.

    [13]Quintana-OrtíG,Igual F D,Quintana-OrtíE S,et al.Solving dense linear systems on platforms with multiple hardware accelerators[C]∥Proc of the 14th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming,2009:121-130.

    [14]Linderman M D,Collins J D,Wang Hong,et al.Merge:A programming model for heterogeneous multi-core systems[C]∥Proc of the 13th International Conference on Architectural Support for Programming Languages and Operating Systems,2008:287-296.

    [15]http:∥www.khronos.org/opencl.

    [16]http:∥developer.nvidia.com/cuda/cuda-toolkit.

    [17]http:∥www.openacc-standard.org.

    [18]Kim Jungwon,Seo Sangmin,Lee Jun,et al.SnuCL:An OpenCL framework for heterogeneous CPU/GPU clusters[C]∥Proc of the 26th ACM International Conference on Supercomputing,2012:341-352.

    [19]Ryoo S,Rodrigues C I,Stone S S,et al.Program optimization space pruning for a multithreaded GPU[C]∥Proc of the 6th Annual IEEE/ACM International Symposium on Code Generation and Optimization,2008:195-204.

    [20]Hong S,Kim H.An analytical model for a GPU architecture with memory-level and thread-level parallelism awareness[C]∥Proc of the 36th Annual International Symposium on Computer Architecture,2009:152-163.

    [21]Yuan Liang,Zhang Yun-quan,Long Guo-ping,et al.A GPU computational model based on latency hidden factor[J].Journal of Software,2010,2.(zk):251-262.(in Chinese)

    [22]Zhang Y,Owens J D.A quantitative performance analysis model for GPU architectures[C]∥Proc of IEEE 17th International Symposium on High Performance Computer Architecture,2011:382-393.

    附中文參考文獻:

    [21]袁良,張云泉,龍國平,等.基于延遲隱藏因子的GPU 計算模型[J].軟件學報,2010,2.(增刊):251-262.

    猜你喜歡
    體系結(jié)構(gòu)線程度量
    有趣的度量
    模糊度量空間的強嵌入
    迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
    淺談linux多線程協(xié)作
    基于粒計算的武器裝備體系結(jié)構(gòu)超網(wǎng)絡模型
    作戰(zhàn)體系結(jié)構(gòu)穩(wěn)定性突變分析
    地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
    基于DODAF的裝備體系結(jié)構(gòu)設計
    基于云計算的航天器控制系統(tǒng)自組織體系結(jié)構(gòu)
    Linux線程實現(xiàn)技術(shù)研究
    插逼视频在线观看| 久久99热6这里只有精品| 黑人巨大精品欧美一区二区蜜桃 | 亚洲av欧美aⅴ国产| 视频区图区小说| 91久久精品国产一区二区三区| 一二三四中文在线观看免费高清| 香蕉精品网在线| 97超碰精品成人国产| 永久免费av网站大全| 七月丁香在线播放| 婷婷色综合www| 九九爱精品视频在线观看| 在线精品无人区一区二区三| 免费人妻精品一区二区三区视频| 日本爱情动作片www.在线观看| 亚洲欧美中文字幕日韩二区| 人妻 亚洲 视频| 亚洲成人av在线免费| 26uuu在线亚洲综合色| 黑人猛操日本美女一级片| av不卡在线播放| 十八禁高潮呻吟视频| 九草在线视频观看| av免费观看日本| 青春草亚洲视频在线观看| 午夜激情av网站| 免费少妇av软件| 插逼视频在线观看| 日韩中文字幕视频在线看片| 性色avwww在线观看| 免费黄网站久久成人精品| 十八禁网站网址无遮挡| 26uuu在线亚洲综合色| av在线播放精品| 亚洲av综合色区一区| 亚洲精品一二三| 22中文网久久字幕| 成人18禁高潮啪啪吃奶动态图 | 夜夜看夜夜爽夜夜摸| 国产成人91sexporn| 91精品伊人久久大香线蕉| 特大巨黑吊av在线直播| 久久久国产精品麻豆| 欧美人与性动交α欧美精品济南到 | 我要看黄色一级片免费的| 亚洲av不卡在线观看| 99国产精品免费福利视频| 亚洲精品久久久久久婷婷小说| 国产精品欧美亚洲77777| 亚洲精品日本国产第一区| 欧美精品高潮呻吟av久久| 国产av精品麻豆| 精品久久久久久电影网| 欧美 亚洲 国产 日韩一| 一个人免费看片子| 亚洲av日韩在线播放| 午夜激情久久久久久久| 成人亚洲精品一区在线观看| 少妇人妻 视频| 一二三四中文在线观看免费高清| 久久久久久久久久久丰满| 性高湖久久久久久久久免费观看| 精品一区二区免费观看| 午夜免费鲁丝| 97精品久久久久久久久久精品| 亚洲精品乱码久久久v下载方式| 国产成人精品一,二区| 肉色欧美久久久久久久蜜桃| 有码 亚洲区| 人妻少妇偷人精品九色| 国产伦理片在线播放av一区| 观看av在线不卡| 国产精品女同一区二区软件| 中文字幕制服av| 九草在线视频观看| 少妇人妻久久综合中文| 一本一本综合久久| 一级毛片aaaaaa免费看小| 成人毛片60女人毛片免费| 午夜激情久久久久久久| 99热全是精品| 成年人免费黄色播放视频| 五月伊人婷婷丁香| 午夜老司机福利剧场| 极品少妇高潮喷水抽搐| 中文天堂在线官网| 9色porny在线观看| 丝瓜视频免费看黄片| 免费av不卡在线播放| 精品一区二区免费观看| 丝袜脚勾引网站| 亚洲人成网站在线观看播放| 欧美日韩视频精品一区| 亚洲婷婷狠狠爱综合网| 青春草视频在线免费观看| 纵有疾风起免费观看全集完整版| 在线观看国产h片| 国产亚洲一区二区精品| 欧美最新免费一区二区三区| 又粗又硬又长又爽又黄的视频| 国产精品久久久久久精品电影小说| 日韩电影二区| 黄片无遮挡物在线观看| 久久午夜福利片| 91成人精品电影| 天堂中文最新版在线下载| 亚洲综合色网址| 欧美日韩av久久| 欧美变态另类bdsm刘玥| 国产国语露脸激情在线看| 美女内射精品一级片tv| 日韩电影二区| 3wmmmm亚洲av在线观看| 中文字幕精品免费在线观看视频 | 国产免费一级a男人的天堂| 大码成人一级视频| 性色av一级| 看免费成人av毛片| 亚洲av.av天堂| 99久国产av精品国产电影| 欧美97在线视频| 日韩av不卡免费在线播放| 制服人妻中文乱码| 国产精品久久久久久久久免| 国产免费现黄频在线看| 欧美精品国产亚洲| 日本黄色片子视频| 熟女电影av网| 国产日韩一区二区三区精品不卡 | 蜜臀久久99精品久久宅男| 欧美日韩视频高清一区二区三区二| 亚洲国产欧美日韩在线播放| 黑丝袜美女国产一区| 国产成人精品婷婷| 18禁动态无遮挡网站| 精品国产露脸久久av麻豆| 高清av免费在线| 久久精品国产亚洲网站| 九九在线视频观看精品| 亚洲精品国产色婷婷电影| 欧美3d第一页| 夜夜看夜夜爽夜夜摸| 欧美国产精品一级二级三级| 99热这里只有精品一区| 天天操日日干夜夜撸| 久久ye,这里只有精品| 亚洲精品中文字幕在线视频| 夫妻性生交免费视频一级片| 国产精品欧美亚洲77777| 国产精品久久久久久久久免| 国产女主播在线喷水免费视频网站| 国产亚洲最大av| 久热久热在线精品观看| 精品熟女少妇av免费看| 国产综合精华液| 九九爱精品视频在线观看| 亚洲欧美一区二区三区黑人 | 自拍欧美九色日韩亚洲蝌蚪91| 最近2019中文字幕mv第一页| 日韩熟女老妇一区二区性免费视频| 色吧在线观看| 另类精品久久| 亚洲欧美一区二区三区黑人 | 九色成人免费人妻av| 国产视频内射| 高清午夜精品一区二区三区| 黄片播放在线免费| 免费少妇av软件| 91国产中文字幕| 欧美日韩国产mv在线观看视频| 美女中出高潮动态图| 只有这里有精品99| 免费日韩欧美在线观看| 欧美日本中文国产一区发布| 日韩精品有码人妻一区| 久久青草综合色| 亚洲欧美清纯卡通| 亚洲欧美精品自产自拍| 亚洲av成人精品一二三区| 国产一区二区在线观看av| 啦啦啦中文免费视频观看日本| 香蕉精品网在线| 99精国产麻豆久久婷婷| 精品久久久久久久久av| 三级国产精品片| 国产欧美亚洲国产| 97超视频在线观看视频| 51国产日韩欧美| 国产精品99久久久久久久久| 国产一区二区在线观看av| 国产片特级美女逼逼视频| 国产不卡av网站在线观看| 亚洲熟女精品中文字幕| 日韩欧美精品免费久久| 国产黄片视频在线免费观看| 亚洲欧美中文字幕日韩二区| 亚洲国产欧美日韩在线播放| 亚洲精品一二三| 欧美精品人与动牲交sv欧美| 国产精品无大码| 精品久久蜜臀av无| 97在线视频观看| 午夜91福利影院| 久久人人爽人人片av| 精品亚洲成a人片在线观看| 日韩精品免费视频一区二区三区 | 国产亚洲一区二区精品| 人妻 亚洲 视频| 国产高清不卡午夜福利| 黑人高潮一二区| 日本黄色片子视频| 精品人妻偷拍中文字幕| av卡一久久| 午夜免费男女啪啪视频观看| 极品人妻少妇av视频| 51国产日韩欧美| 夫妻性生交免费视频一级片| 久久青草综合色| 精品视频人人做人人爽| 最新中文字幕久久久久| 国产精品国产三级国产专区5o| 国产av码专区亚洲av| 国产视频首页在线观看| 国产精品麻豆人妻色哟哟久久| 国产一区二区三区av在线| 一本大道久久a久久精品| 91精品三级在线观看| 爱豆传媒免费全集在线观看| 亚洲图色成人| 亚洲精品日韩在线中文字幕| av电影中文网址| 久久av网站| 十分钟在线观看高清视频www| 三级国产精品片| 免费观看在线日韩| 男男h啪啪无遮挡| 成人午夜精彩视频在线观看| 国产精品国产三级国产av玫瑰| 日本黄色片子视频| 日韩av在线免费看完整版不卡| 亚洲国产最新在线播放| 欧美日本中文国产一区发布| 欧美性感艳星| 一区二区日韩欧美中文字幕 | 亚洲综合色网址| 精品99又大又爽又粗少妇毛片| 伊人亚洲综合成人网| 好男人视频免费观看在线| 亚洲国产精品999| 亚州av有码| 国产精品久久久久久久久免| 男女啪啪激烈高潮av片| 国产亚洲精品久久久com| www.av在线官网国产| 国产亚洲午夜精品一区二区久久| 精品亚洲成国产av| 免费播放大片免费观看视频在线观看| 亚洲精品第二区| 天堂中文最新版在线下载| 啦啦啦视频在线资源免费观看| 少妇被粗大的猛进出69影院 | 亚洲av电影在线观看一区二区三区| 精品人妻一区二区三区麻豆| 精品国产乱码久久久久久小说| 亚洲精品成人av观看孕妇| 亚洲成色77777| 青春草亚洲视频在线观看| 久久国产精品男人的天堂亚洲 | 国语对白做爰xxxⅹ性视频网站| 在线精品无人区一区二区三| 美女xxoo啪啪120秒动态图| 青春草视频在线免费观看| 精品一区二区免费观看| 亚洲美女搞黄在线观看| 日本午夜av视频| 国产成人aa在线观看| 欧美日韩综合久久久久久| 青青草视频在线视频观看| 亚洲三级黄色毛片| 99热网站在线观看| 午夜精品国产一区二区电影| av播播在线观看一区| 国产精品99久久99久久久不卡 | 一边摸一边做爽爽视频免费| 男的添女的下面高潮视频| 国模一区二区三区四区视频| 女性生殖器流出的白浆| 啦啦啦中文免费视频观看日本| 国产午夜精品一二区理论片| 国国产精品蜜臀av免费| 美女中出高潮动态图| 国产成人免费观看mmmm| 丝瓜视频免费看黄片| 亚洲色图 男人天堂 中文字幕 | 亚洲av不卡在线观看| 久久99精品国语久久久| 少妇人妻精品综合一区二区| 久久免费观看电影| 下体分泌物呈黄色| 美女大奶头黄色视频| 一级毛片我不卡| 久久鲁丝午夜福利片| 久久ye,这里只有精品| 男女无遮挡免费网站观看| 国产成人91sexporn| 在线亚洲精品国产二区图片欧美 | 涩涩av久久男人的天堂| 精品国产一区二区久久| 国产欧美日韩一区二区三区在线 | 精品亚洲乱码少妇综合久久| 日韩制服骚丝袜av| 日日啪夜夜爽| 亚洲国产av影院在线观看| 999精品在线视频| 日韩一本色道免费dvd| 亚洲精品日本国产第一区| 国产有黄有色有爽视频| 亚洲国产最新在线播放| 99国产综合亚洲精品| 日日摸夜夜添夜夜爱| 99re6热这里在线精品视频| 欧美另类一区| 两个人免费观看高清视频| 日韩三级伦理在线观看| 国产免费又黄又爽又色| 777米奇影视久久| 乱人伦中国视频| av福利片在线| 中文字幕亚洲精品专区| 久久久久精品久久久久真实原创| 欧美日韩亚洲高清精品| 免费播放大片免费观看视频在线观看| 丝瓜视频免费看黄片| av福利片在线| 欧美成人午夜免费资源| 亚洲av成人精品一二三区| 久久久久久久大尺度免费视频| 大香蕉久久成人网| 欧美丝袜亚洲另类| 欧美精品一区二区免费开放| 妹子高潮喷水视频| 中文欧美无线码| 一级黄片播放器| 亚洲av欧美aⅴ国产| 国产片特级美女逼逼视频| 永久网站在线| 国产精品久久久久久精品电影小说| 亚洲欧美一区二区三区黑人 | 精品卡一卡二卡四卡免费| 成年人免费黄色播放视频| 日韩成人av中文字幕在线观看| 亚洲无线观看免费| 18禁在线播放成人免费| 久久av网站| 欧美性感艳星| 日本黄色日本黄色录像| 国精品久久久久久国模美| 日韩,欧美,国产一区二区三区| 免费大片18禁| 99re6热这里在线精品视频| 人人澡人人妻人| 亚洲精华国产精华液的使用体验| 成人漫画全彩无遮挡| 国产精品人妻久久久久久| 国国产精品蜜臀av免费| 国产精品不卡视频一区二区| 午夜免费鲁丝| 久久久久久久久久久免费av| 大片免费播放器 马上看| 欧美最新免费一区二区三区| videossex国产| 免费大片黄手机在线观看| 天美传媒精品一区二区| 日韩,欧美,国产一区二区三区| 最近中文字幕高清免费大全6| 国产探花极品一区二区| 91精品伊人久久大香线蕉| videosex国产| 夜夜骑夜夜射夜夜干| 熟女电影av网| a级毛片黄视频| av网站免费在线观看视频| 国产成人aa在线观看| 日韩av在线免费看完整版不卡| 久久久久国产精品人妻一区二区| 亚洲精品久久久久久婷婷小说| 99热这里只有是精品在线观看| 午夜日本视频在线| 亚洲精品中文字幕在线视频| 人人妻人人澡人人看| 乱人伦中国视频| 女人精品久久久久毛片| 亚洲av成人精品一区久久| 各种免费的搞黄视频| 成人综合一区亚洲| 黑人猛操日本美女一级片| 蜜桃在线观看..| 黄片播放在线免费| videosex国产| av不卡在线播放| 国产女主播在线喷水免费视频网站| a 毛片基地| 国产黄色免费在线视频| 免费看av在线观看网站| 搡女人真爽免费视频火全软件| 国产爽快片一区二区三区| 亚洲欧洲国产日韩| 国产日韩欧美亚洲二区| 国产男人的电影天堂91| 人妻 亚洲 视频| 青春草亚洲视频在线观看| 91精品三级在线观看| 免费观看无遮挡的男女| 黑丝袜美女国产一区| 2021少妇久久久久久久久久久| 亚洲精品aⅴ在线观看| 黄色视频在线播放观看不卡| 欧美精品一区二区免费开放| 亚洲不卡免费看| 99热网站在线观看| 精品一品国产午夜福利视频| 美女xxoo啪啪120秒动态图| 欧美日本中文国产一区发布| 精品久久久精品久久久| 国产永久视频网站| 天堂俺去俺来也www色官网| 国产午夜精品久久久久久一区二区三区| 欧美 日韩 精品 国产| 日韩制服骚丝袜av| 国产淫语在线视频| 亚洲国产精品一区三区| 久久精品人人爽人人爽视色| 婷婷色综合www| 美女大奶头黄色视频| 久久99热6这里只有精品| 最黄视频免费看| 久久精品国产a三级三级三级| 一本—道久久a久久精品蜜桃钙片| 国产成人精品一,二区| 多毛熟女@视频| 欧美+日韩+精品| 亚洲,一卡二卡三卡| .国产精品久久| 老司机亚洲免费影院| 美女大奶头黄色视频| 在线观看www视频免费| 亚洲欧洲国产日韩| 精品一区二区三卡| 久久人人爽av亚洲精品天堂| 久久国产精品大桥未久av| 中文字幕精品免费在线观看视频 | 中文字幕最新亚洲高清| 欧美激情极品国产一区二区三区 | 91成人精品电影| 亚洲内射少妇av| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 97在线视频观看| 午夜福利视频在线观看免费| 黑人猛操日本美女一级片| 精品少妇黑人巨大在线播放| 一区二区三区免费毛片| 两个人的视频大全免费| 亚洲成人一二三区av| 亚洲国产av新网站| 日韩视频在线欧美| 成人18禁高潮啪啪吃奶动态图 | 欧美性感艳星| 国产高清不卡午夜福利| 午夜激情av网站| 日本色播在线视频| videos熟女内射| 2018国产大陆天天弄谢| 十八禁网站网址无遮挡| 高清欧美精品videossex| 午夜日本视频在线| 自线自在国产av| 亚洲精品色激情综合| 成年女人在线观看亚洲视频| 青青草视频在线视频观看| 免费av不卡在线播放| 曰老女人黄片| 91aial.com中文字幕在线观看| 伊人久久国产一区二区| 有码 亚洲区| 国产在线视频一区二区| 夜夜骑夜夜射夜夜干| freevideosex欧美| 久久精品国产a三级三级三级| 九色成人免费人妻av| 91精品三级在线观看| 一区二区三区乱码不卡18| 亚洲精品亚洲一区二区| 久久久久久久国产电影| 少妇的逼好多水| 国产在线视频一区二区| 亚洲av免费高清在线观看| 18在线观看网站| 亚洲精品国产av蜜桃| 欧美精品国产亚洲| 免费看光身美女| 日本欧美国产在线视频| 国产精品一国产av| 在线观看一区二区三区激情| 国产日韩一区二区三区精品不卡 | 一区二区三区四区激情视频| 在线看a的网站| 天堂俺去俺来也www色官网| 亚洲综合色惰| 国产精品不卡视频一区二区| 亚洲国产最新在线播放| 日产精品乱码卡一卡2卡三| 亚洲人成网站在线播| 精品午夜福利在线看| 欧美人与善性xxx| 亚洲欧美清纯卡通| 91aial.com中文字幕在线观看| 老女人水多毛片| 成人漫画全彩无遮挡| 人体艺术视频欧美日本| 99热6这里只有精品| 国产一区二区在线观看av| av视频免费观看在线观看| 国产成人a∨麻豆精品| 午夜福利网站1000一区二区三区| 亚洲av不卡在线观看| 中文精品一卡2卡3卡4更新| 不卡视频在线观看欧美| 久久久久网色| 26uuu在线亚洲综合色| 久久精品熟女亚洲av麻豆精品| 黄色怎么调成土黄色| 国产免费福利视频在线观看| 飞空精品影院首页| 日本猛色少妇xxxxx猛交久久| 国产精品一区二区三区四区免费观看| 在线 av 中文字幕| 99热国产这里只有精品6| 日韩一区二区视频免费看| 亚洲色图综合在线观看| 久久久久久久久久久久大奶| 亚洲精品乱码久久久v下载方式| 免费av中文字幕在线| 大香蕉久久网| 97精品久久久久久久久久精品| 国产伦精品一区二区三区视频9| 国产午夜精品一二区理论片| 成人无遮挡网站| 亚洲一区二区三区欧美精品| 中文字幕人妻熟人妻熟丝袜美| 一级二级三级毛片免费看| 久久精品人人爽人人爽视色| 桃花免费在线播放| 国产毛片在线视频| 最近手机中文字幕大全| 街头女战士在线观看网站| 一级爰片在线观看| 人人妻人人添人人爽欧美一区卜| 大话2 男鬼变身卡| 纯流量卡能插随身wifi吗| 一级a做视频免费观看| 精品酒店卫生间| 欧美精品亚洲一区二区| 亚洲美女视频黄频| 熟女av电影| 亚洲综合精品二区| 日本色播在线视频| 99久久精品一区二区三区| 国产免费一区二区三区四区乱码| 免费人妻精品一区二区三区视频| 亚洲av成人精品一区久久| 一区二区三区四区激情视频| 国产精品 国内视频| 欧美成人午夜免费资源| 青春草亚洲视频在线观看| 久久人妻熟女aⅴ| 18禁动态无遮挡网站| 男女高潮啪啪啪动态图| 国产熟女欧美一区二区| 久久人人爽人人片av| 亚洲精品色激情综合| 岛国毛片在线播放| 一级黄片播放器| 日韩中文字幕视频在线看片| 尾随美女入室| 丝袜美足系列| 天天操日日干夜夜撸| 热re99久久精品国产66热6| 日韩中文字幕视频在线看片| 国产在线免费精品| 一级毛片我不卡| 日韩人妻高清精品专区| 飞空精品影院首页| 亚洲精品国产色婷婷电影| 精品熟女少妇av免费看| 亚洲人成网站在线播| 亚洲av电影在线观看一区二区三区| 天堂中文最新版在线下载| 成年av动漫网址| 欧美性感艳星| 交换朋友夫妻互换小说| 亚洲少妇的诱惑av| 欧美日韩视频高清一区二区三区二| 欧美精品一区二区大全| 久久精品国产亚洲av天美| 国产综合精华液| 久久热精品热| 国产高清三级在线| 91精品伊人久久大香线蕉| 国产黄频视频在线观看| 亚洲丝袜综合中文字幕| 一区二区三区乱码不卡18| av福利片在线| 中国美白少妇内射xxxbb| 简卡轻食公司|