• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    國(guó)產(chǎn)異構(gòu)系統(tǒng)上的HPCG 并行算法及高效實(shí)現(xiàn)?

    2021-11-09 02:45:20劉芳芳王志軍吳麗鑫馬文靜孫家昶
    軟件學(xué)報(bào) 2021年8期
    關(guān)鍵詞:超級(jí)計(jì)算機(jī)分塊著色

    劉芳芳 ,王志軍 ,汪 荃 ,吳麗鑫 ,馬文靜 ,楊 超 ,孫家昶

    1(中國(guó)科學(xué)院 軟件研究所 并行軟件與計(jì)算科學(xué)實(shí)驗(yàn)室,北京 100190)

    2(中國(guó)科學(xué)院大學(xué),北京 100049)

    3(計(jì)算機(jī)科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院 軟件研究所),北京 100190)

    4(北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100871)

    HPCG(high performance conjugate gradients)基準(zhǔn)測(cè)試程序是一種新的超級(jí)計(jì)算機(jī)排名度量標(biāo)準(zhǔn)[1].該測(cè)試基準(zhǔn)主要用于衡量超級(jí)計(jì)算機(jī)解決大規(guī)模稀疏線性系統(tǒng)的能力,相比于HPL(high performance Linpack)[2],其計(jì)算、訪存與通信模式與當(dāng)前主流高性能計(jì)算機(jī)應(yīng)用程序更為契合,能夠更全面地反映系統(tǒng)的訪存帶寬和延遲的性能.HPL 和HPCG 排名每年發(fā)布兩次,一次在德國(guó)的ISC[3]大會(huì)上,另一次在美國(guó)的SC[4]大會(huì)上.位于世界前列的超級(jí)計(jì)算機(jī)均提交HPL 和HPCG 兩個(gè)基準(zhǔn)測(cè)試程序的結(jié)果,2019 年德國(guó)舉辦的ISC 大會(huì)同時(shí)發(fā)布了HPL和HPCG 結(jié)果.越來(lái)越多的應(yīng)用研究人員開(kāi)始關(guān)注HPCG 的測(cè)試結(jié)果,期望從中可以了解超級(jí)計(jì)算機(jī)訪存、通信等的特點(diǎn),一些HPCG 并行和優(yōu)化方法也可能對(duì)某些應(yīng)用有所啟示.

    目前超級(jí)計(jì)算機(jī)的體系結(jié)構(gòu)日趨復(fù)雜,早已從同構(gòu)轉(zhuǎn)向異構(gòu),且同節(jié)點(diǎn)異構(gòu)部件的運(yùn)算性能差異越來(lái)越大,這對(duì)異構(gòu)并行算法的設(shè)計(jì)將有很大的影響.本文主要面向一類國(guó)產(chǎn)復(fù)雜異構(gòu)系統(tǒng)研究HPCG 并行算法和高效實(shí)現(xiàn)方法.目前Dongarra 教授課題組研究了HPL-AI 混合精度算法[5,6],我們也正在關(guān)注該方向的研究.

    本文工作是在國(guó)產(chǎn)超級(jí)計(jì)算機(jī)研制方大力支持下完成的,在此表示感謝.

    1 HPCG 簡(jiǎn)介

    HPCG 來(lái)源于半結(jié)構(gòu)網(wǎng)格上的三維熱傳導(dǎo)應(yīng)用,其核心是在三維規(guī)則區(qū)域上對(duì)Poisson 方程進(jìn)行有限差分離散化后,轉(zhuǎn)換成一個(gè)稀疏線性方程組的求解問(wèn)題.其方程如式(1)所示.采用如圖1 所示的27 點(diǎn)stencil 格式進(jìn)行離散化.

    其中,每個(gè)網(wǎng)格點(diǎn)的更新都依賴其周圍緊鄰的點(diǎn).由于參與計(jì)算的點(diǎn)只能在三維網(wǎng)格區(qū)域范圍內(nèi),所以每個(gè)網(wǎng)格點(diǎn)最多依賴26 個(gè)鄰點(diǎn),具體的鄰點(diǎn)的個(gè)數(shù),分別為26(內(nèi)部點(diǎn),鄰點(diǎn)都在域內(nèi))、17(邊界面上的點(diǎn),某一鄰面上的9 個(gè)點(diǎn)都在域外)、11(邊界線上的點(diǎn),比邊界面上的點(diǎn)又少了2/3 個(gè)面的點(diǎn),即又少了6 個(gè)點(diǎn))和7(邊界頂點(diǎn),僅有一個(gè)小立方體上的8個(gè)點(diǎn)在域內(nèi),即圖1的1/8,包括其自身).最終得到的稀疏矩陣A是由27 條對(duì)角線組成,并且是一個(gè)對(duì)稱正定矩陣.

    在大規(guī)模并行環(huán)境中,HPCG 使用三維區(qū)域分解策略,也就是按照3 個(gè)維度將整個(gè)計(jì)算區(qū)域劃分成若干個(gè)子區(qū)域,每個(gè)子區(qū)域被分配一個(gè)MPI 進(jìn)程,其規(guī)模由輸入?yún)?shù)指定.每個(gè)MPI 進(jìn)程處理的計(jì)算區(qū)域中的內(nèi)部點(diǎn)所依賴的26 個(gè)鄰點(diǎn),全部來(lái)自于該計(jì)算區(qū)域,而對(duì)于計(jì)算區(qū)域邊界上的點(diǎn),其依賴的鄰點(diǎn)一部分來(lái)自于該計(jì)算區(qū)域內(nèi)部,一部分則來(lái)自于鄰居進(jìn)程所處理的子區(qū)域.不妨稱計(jì)算區(qū)域?yàn)閮?nèi)區(qū),其對(duì)應(yīng)的點(diǎn)為內(nèi)點(diǎn),計(jì)算區(qū)域所依賴的鄰居進(jìn)程的點(diǎn)構(gòu)成的區(qū)域?yàn)橥鈪^(qū),其對(duì)應(yīng)的點(diǎn)為外點(diǎn).由于我們使用的是27 點(diǎn)stencil,所以每個(gè)進(jìn)程最多有26 個(gè)鄰居進(jìn)程.

    Fig.1 3D 27-point stencil in HPCG圖1 HPCG 三維27 點(diǎn)stencil 格式

    在HPCG 中,該線性系統(tǒng)使用預(yù)處理共軛梯度(preconditioned conjugate gradient,簡(jiǎn)稱PCG)法來(lái)求解,計(jì)算流程如圖2 所示.

    CG算法中一次迭代計(jì)算包含3 個(gè)向量點(diǎn)積操作(第4、7、10 行)和3 個(gè)向量更新操作(WAXPBY,第6、8、9 行)以及1 個(gè)稀疏矩陣向量乘操作(SpMV,第7 行).

    HPCG 中使用的預(yù)條件子M–1是基于V-cycle 幾何多重網(wǎng)格,其計(jì)算流程如圖3 所示.多重網(wǎng)格通過(guò)將細(xì)網(wǎng)格上頻率變化較緩慢的低頻分量映射到粗網(wǎng)格上來(lái)處理,以達(dá)到加快收斂速度的目的.作為預(yù)條件子,多重網(wǎng)格的計(jì)算同樣包含4 個(gè)主要操作:前磨光操作(第4 行)和后磨光操作(第8 行)、限制算子(第5 行)、插值算子(第7行)、底部解法器(第2 行).在HPCG 中,多重網(wǎng)格的層數(shù)被固定為4 層,前后磨光操作以及底部解法器都是使用對(duì)稱Gauss-Seidel 迭代法的一次迭代來(lái)實(shí)現(xiàn),并且磨光操作只執(zhí)行一次,不可修改.使用SymGS(x,r)表示一次對(duì)稱Gauss-Seidel 迭代,其中r是右端項(xiàng),x是解向量的初始猜測(cè)值.

    Fig.2 Conjugate gradient algorithm圖2 共軛梯度法

    Fig.3 Multigrid pre-conditioner圖3 多重網(wǎng)格預(yù)條件子

    在HPCG 中主要存在兩種通信類型:全局通信和鄰居通信.

    1.全局通信.主要為MPI_Allreduce 通信,發(fā)生在向量點(diǎn)積操作中.在一次CG 迭代中總共需要計(jì)算3 次向量的點(diǎn)積,因此需要調(diào)用3 次MPI_Allreduce.

    2.鄰居通信.主要發(fā)生在與稀疏矩陣相關(guān)的兩個(gè)核心函數(shù)中:SpMV 和SymGS,使用MPI 點(diǎn)到點(diǎn)的通信實(shí)現(xiàn)halo 區(qū)數(shù)據(jù)交換.HPCG 采用27 點(diǎn)stencil 格式,每個(gè)網(wǎng)格點(diǎn)的計(jì)算依賴周圍緊鄰的26 個(gè)鄰居.在SpMV 和SymGS 計(jì)算開(kāi)始前,需要與周圍的鄰居進(jìn)程交換邊界數(shù)據(jù)(halo),以便將計(jì)算過(guò)程中所需要訪問(wèn)到的鄰居數(shù)據(jù)傳輸?shù)奖镜剡M(jìn)程中.

    3.目前超級(jí)計(jì)算機(jī)的體系結(jié)構(gòu)日趨復(fù)雜,早已從同構(gòu)轉(zhuǎn)向異構(gòu),且同節(jié)點(diǎn)異構(gòu)部件的運(yùn)算性能比差異越來(lái)越大,這對(duì)異構(gòu)并行算法的設(shè)計(jì)將有很大的影響.本文主要面向一類國(guó)產(chǎn)復(fù)雜異構(gòu)超級(jí)計(jì)算機(jī)研究HPCG 異構(gòu)眾核并行算法.首先介紹了國(guó)內(nèi)外進(jìn)展,然后提出兩種適用于該平臺(tái)的HPCG 異構(gòu)眾核并行算法.對(duì)于實(shí)際使用的第2 種算法中,還存在圖著色的問(wèn)題,本文也開(kāi)展了相關(guān)工作,并單獨(dú)使用一節(jié)進(jìn)行介紹.接下來(lái)介紹在該超級(jí)計(jì)算機(jī)上的實(shí)現(xiàn)問(wèn)題,包括CPU 和GPU 之間的任務(wù)劃分、為了隱藏鄰居通信實(shí)現(xiàn)的內(nèi)外區(qū)劃分方法,以及一些稀疏矩陣重排等優(yōu)化方法,最后介紹了實(shí)驗(yàn)結(jié)果.

    2 國(guó)內(nèi)外進(jìn)展介紹

    HPCG 的優(yōu)化工作主要是針對(duì)熱點(diǎn)函數(shù)SpMV 和SymGS 來(lái)開(kāi)展.SpMV 的性能與存儲(chǔ)格式以及計(jì)算方式有關(guān).Bell 等人[7]在GPU 平臺(tái)上實(shí)現(xiàn)了常用的CSR、COO、ELL 等基本格式,提出了一種新的HYB 格式來(lái)提高SpMV 的性能,并分析了不同矩陣適合使用的格式以及并行方法.另外,還有一些其他格式包括ELLPACKR[8]、BRC[9]、BCCOO[10]等被提出.還有一些學(xué)者研究稀疏矩陣的重排技術(shù)[11]及壓縮格式[12],以減少訪存開(kāi)銷.在計(jì)算方式方面,Williams 等人[13]在多種不同架構(gòu)的多核平臺(tái)上使用了線程分塊、緩存分塊、向量化等優(yōu)化手段,并取得了很好的結(jié)果.另外還有學(xué)者研究自動(dòng)調(diào)優(yōu)技術(shù)[14],通過(guò)分析稀疏矩陣的特征來(lái)選擇參數(shù)以提升性能.

    SymGS 的求解過(guò)程類似于稀疏三角解法器,其關(guān)鍵是如何在這種強(qiáng)依賴的限制下獲得并行度.研究人員已經(jīng)提出了很多不同的并行方法,如Park 等人[15]提出了level scheduling 方法,這種方法使用層次遍歷稀疏矩陣對(duì)應(yīng)的有向無(wú)環(huán)圖,保證每一層的節(jié)點(diǎn)間沒(méi)有依賴關(guān)系,從而可以并行更新.但是這種方法獲得的并行度不高,且各層之間的負(fù)載不均衡.Iwashita 等人[16]提出了適合結(jié)構(gòu)化稀疏三角求解器問(wèn)題的分塊圖著色技術(shù),這種方法以塊為單位對(duì)圖進(jìn)行著色,保證一個(gè)塊與其相鄰塊顏色不同,相同顏色的塊一起執(zhí)行.這種方法雖然會(huì)破壞部分依賴,但是可以獲得較大的并行度.

    HPCG 的整體優(yōu)化工作也受到了很多研究者們的關(guān)注.Kumahata 等人[17]在基于CPU 的日本超級(jí)計(jì)算機(jī)K上的HPCG 優(yōu)化工作使用了分塊圖著色排序來(lái)挖掘SymGS 中的并行度,并通過(guò)改變反向更新時(shí)的計(jì)算順序來(lái)提高cache 命中率,在82 944 個(gè)CPU 上取得了0.461 PFLOPS 的成績(jī),達(dá)到整機(jī)峰值性能的4.34%.Phillips 等人[18]在NVIDIA GPU 平臺(tái)上使用圖著色方法對(duì)SymGS 進(jìn)行并行.劉益群等人[19,20]基于天河2 號(hào)超級(jí)計(jì)算機(jī)的特征提出了混合的CPU-MIC 協(xié)作的異構(gòu)計(jì)算方法,通過(guò)區(qū)域劃分充分利用CPU 與MIC 的計(jì)算資源,在整機(jī)16 000 個(gè)節(jié)點(diǎn)上取得了0.623 PFLOPS 的性能,位列2014 年11 月排行榜第一名.敖玉龍等人[21]設(shè)計(jì)了基于申威架構(gòu)的并行算法,該算法使用分塊著色的方式挖掘SymGS 中的并行度,并使用神威特色的片上寄存器通信機(jī)制優(yōu)化了核間的數(shù)據(jù)交換,在163 840 個(gè)節(jié)點(diǎn)上取得了0.481 PFLOPS 的性能.Ruiz 等人[22]基于ARM 平臺(tái)研究了多色重排和分塊多色重排兩個(gè)算法的性能,并從cache miss 等角度進(jìn)行了分析.目前世界排名第一的是IBM 研制的超級(jí)計(jì)算機(jī)Summit,其HPCG 性能達(dá)到了2.92 PFLOPS,是整機(jī)峰值性能的1.5%,但目前還沒(méi)有相關(guān)文獻(xiàn)詳細(xì)介紹其并行算法和優(yōu)化技術(shù).面向一類國(guó)產(chǎn)復(fù)雜異構(gòu)系統(tǒng)研制眾核并行版HPCG 軟件,且峰值性能和整機(jī)效率達(dá)到或超過(guò)Summit 的水平,是一項(xiàng)具有巨大挑戰(zhàn)的工作.

    3 異構(gòu)眾核并行算法設(shè)計(jì)

    GPU 是最近十幾年被廣泛使用的高性能計(jì)算機(jī)加速部件.一個(gè)GPU 由多個(gè)計(jì)算單元(computing unit,簡(jiǎn)稱CU)組成,每個(gè)CU 里有多個(gè)SIMD,可以同時(shí)進(jìn)行多路向量運(yùn)算.CU 內(nèi)部具有高速的軟件可控緩存LDS(local data share).所有CU 共享L2 cache 和設(shè)備內(nèi)存.程序運(yùn)行時(shí)組織成多個(gè)workgroup,每個(gè)workgroup 可包含一個(gè)或若干個(gè)wavefront.每個(gè)workgroup 只能在一個(gè)CU 上運(yùn)行,在我們使用的平臺(tái)上,每個(gè)wavefront 包含64 個(gè)線程,一個(gè)workgroup 內(nèi)所包含的線程數(shù)不能超過(guò)1 024 個(gè).在這種高并行度的復(fù)雜架構(gòu)上并行和優(yōu)化HPCG,是一個(gè)非常大的挑戰(zhàn).在并行算法層面,不僅要求高并行度,還要求整體迭代次數(shù)不能有較大增長(zhǎng).在優(yōu)化方面,不僅要從算法層面盡量減少訪存和通信,并將通信與計(jì)算重疊,還需要充分利用硬件的特性減少訪存開(kāi)銷.

    3.1 分塊著色+level scheduling算法

    3.1.1 基本算法

    如第2 節(jié)所述,HPCG 中SymGS 模塊的經(jīng)典優(yōu)化方法包括點(diǎn)著色方法、按層計(jì)算方法(level scheduling)以及分塊著色算法等.考慮計(jì)算平臺(tái)的特點(diǎn)及收斂速度的需求,我們選擇了分塊著色算法作為程序的基本框架.我們將SymGS 和SpMV 等基本算子在分塊著色算法的基礎(chǔ)上進(jìn)行并行化,并提出了針對(duì)GPU 異構(gòu)平臺(tái)的優(yōu)化方法.

    分塊著色算法的基礎(chǔ)是將三維網(wǎng)格分塊,然后對(duì)每一個(gè)數(shù)據(jù)塊進(jìn)行著色.在預(yù)條件子中使用的四重網(wǎng)格里,每一層網(wǎng)格都需要分塊及著色.參考文獻(xiàn)[21]的工作,我們選取了類似的分塊著色算法,既方便數(shù)據(jù)在GPU 上的分配,又保證了較高的并行度,且不會(huì)大幅度增加迭代次數(shù).如圖4 所示,三維空間中相鄰的8 個(gè)數(shù)據(jù)塊使用8 種不同的顏色,每次SymGS 計(jì)算時(shí),同樣顏色的數(shù)據(jù)塊被同時(shí)處理.

    Fig.4 Block coloring algorithm圖4 分塊著色算法

    3.1.2 數(shù)據(jù)及任務(wù)映射

    塊內(nèi)SymGS 需要嚴(yán)格保持依賴關(guān)系,否則迭代次數(shù)將大幅度上升.因此,本文采用level scheduling算法進(jìn)行并行,方程4x+2y+z=k所定義的平面上的點(diǎn)都可以算作一層(每個(gè)點(diǎn)的坐標(biāo)為(x,y,z)),因?yàn)樗鼈兯蕾嚨臄?shù)據(jù)都已經(jīng)計(jì)算完畢.如圖5 所示,從上到下是時(shí)間軸,第1 個(gè)點(diǎn)的計(jì)算不需要本次迭代的任何數(shù)據(jù),可以在此數(shù)據(jù)塊處理過(guò)程的第1 次迭代進(jìn)行更新;然后,下一個(gè)點(diǎn)僅依賴于第1 個(gè)點(diǎn),而第1 個(gè)點(diǎn)已經(jīng)有最新數(shù)據(jù),因此第2 個(gè)點(diǎn)可以進(jìn)行計(jì)算,此為第2 層;再然后,我們可以分析出第3 層,第4 層,...,直到整塊數(shù)據(jù)被處理完.依照這種排序,每層數(shù)據(jù)的更新可以并行操作.通過(guò)實(shí)驗(yàn)不同的塊大小,我們選出能夠適應(yīng)高速緩存LDS 大小且保證一定的塊間及塊內(nèi)并行度的分塊方案.

    Fig.5 Data dependence and levels inside a block圖5 塊內(nèi)數(shù)據(jù)依賴及分層

    3.1.4 SymGS 內(nèi)核優(yōu)化

    在分塊著色+塊內(nèi)level scheduling算法的基礎(chǔ)上,我們對(duì)SpMV 和SymGS 的內(nèi)核函數(shù)進(jìn)行了優(yōu)化.SpMV函數(shù)的優(yōu)化參考文獻(xiàn)[23]的方法,每線程計(jì)算一個(gè)雙精度乘法,將中間結(jié)果保存在LDS 中,然后將LDS 中的乘積進(jìn)行相加.這種方法保證對(duì)矩陣A的讀取都是連續(xù)訪存(coalesced access),因而能夠充分利用內(nèi)存帶寬.

    對(duì)SymGS函數(shù),我們對(duì)每一level 采用類似的方式在一個(gè)workgroup 內(nèi)運(yùn)行.這就需要對(duì)整個(gè)矩陣進(jìn)行重排,使之在計(jì)算開(kāi)始之前,就按分塊之后所需要的順序排列好.在SymGS 函數(shù)被調(diào)用時(shí),矩陣A也能實(shí)現(xiàn)連續(xù)訪存.由于level 內(nèi)并行度較小,我們將workgroup 大小定為一個(gè)wavefront 的大小,即64 線程.

    在進(jìn)行歸約操作時(shí),我們通過(guò)實(shí)驗(yàn)不同的歸約方法,選出了一種盡量充分利用處理器單元的方式.

    3.2 分塊圖著色算法

    由于HPCG 采用27 點(diǎn)stencil 格式進(jìn)行離散,第3.1 節(jié)分塊方式使得每個(gè)子塊內(nèi)部網(wǎng)格點(diǎn)依賴關(guān)系比較強(qiáng),只有嚴(yán)格保持其依賴關(guān)系整個(gè)問(wèn)題才能收斂.而上一節(jié)提到,塊內(nèi)采用level scheduling 的并行方式不能有效利用硬件資源,所以本節(jié)提出一種新的分塊圖著色算法,如圖6 所示.將網(wǎng)格y方向一條作為一個(gè)塊進(jìn)行處理,這樣塊內(nèi)依賴較少,可以對(duì)其進(jìn)行并行計(jì)算,同時(shí)塊內(nèi)向量x可以進(jìn)行重用,以提升訪存帶寬利用率.將所有子塊進(jìn)行著色,每一個(gè)顏色的子塊并行執(zhí)行.著色方案需要精細(xì)設(shè)計(jì),以確保整個(gè)算法可以以較少的迭代次數(shù)收斂,從而提升整體性能.

    Fig.6 Blocked graph coloring algorithm圖6 分塊圖著色算法

    該方案可以實(shí)現(xiàn)兩級(jí)并行:同色子塊并行執(zhí)行和子塊內(nèi)部網(wǎng)格點(diǎn)并行執(zhí)行.這樣可以更好的利用GPU 的硬件資源,充分發(fā)揮硬件的性能.同時(shí)塊內(nèi)可以利用LDS 對(duì)向量x進(jìn)行重用,從而減少向量x從設(shè)備內(nèi)存訪存的次數(shù),提升訪存帶寬利用率.

    4 圖著色算法研究

    第3.2 節(jié)的方案中需要對(duì)所有子塊進(jìn)行著色,且著色算法對(duì)整個(gè)HPCG 的迭代次數(shù)有很大的影響.本文首先嘗試了國(guó)際上著名的并行圖著色算法JPL[24]、CC[25]等,基于國(guó)產(chǎn)處理器進(jìn)行了并行實(shí)現(xiàn)并將其運(yùn)用于HPCG中.對(duì)JPL算法,本文嘗試了貪心著色策略和隨機(jī)著色策略.對(duì)CC算法,本文也進(jìn)行了多種嘗試,如每輪迭代的遍歷次數(shù)選為1,2,3,13,27 這5 種.對(duì)于256×256×256 的測(cè)試規(guī)模,迭代次數(shù)介于58~67 之間,且最低迭代次數(shù)時(shí)顏色數(shù)為70.這些算法的測(cè)試結(jié)果無(wú)論顏色數(shù)還是迭代次數(shù)都偏高.

    經(jīng)過(guò)分析可知,傳統(tǒng)的JPL 和CC算法只考慮一層依賴,即著色時(shí)每個(gè)網(wǎng)格點(diǎn)只考慮其周圍最臨近網(wǎng)格點(diǎn)的依賴關(guān)系,而實(shí)際上依賴關(guān)系是會(huì)傳遞的,如圖7 中,1 號(hào)點(diǎn)和2 號(hào)點(diǎn)有依賴,2 號(hào)點(diǎn)和3 號(hào)點(diǎn)有依賴,則1 號(hào)點(diǎn)和3 號(hào)點(diǎn)也有依賴.考慮這種依賴傳遞將有可能在并行算法中保持更多的依賴關(guān)系,從而降低迭代次數(shù).為了降低迭代次數(shù)的同時(shí)減少顏色數(shù)(增加并行度),本文還考慮了x,y,z這3 個(gè)方向的差異,設(shè)計(jì)了一些實(shí)驗(yàn),驗(yàn)證了這3 個(gè)方向有一個(gè)為強(qiáng)依賴方向,其他兩個(gè)為弱依賴方向.對(duì)強(qiáng)依賴方向使用較多的顏色,對(duì)弱依賴方向使用較少的顏色,期望整體顏色數(shù)盡量減少.最終本文使用了33 色對(duì)整個(gè)網(wǎng)格進(jìn)行著色.經(jīng)測(cè)試,對(duì)于256×256×256 規(guī)模,單進(jìn)程運(yùn)行時(shí)迭代次數(shù)為55 次,相比于JPL 和CC算法的最少迭代次數(shù)降低了3 次,即整體性能可提升6%.

    Fig.7 Propagation of dependence圖7 依賴傳遞

    5 異構(gòu)部件任務(wù)劃分

    國(guó)產(chǎn)超級(jí)計(jì)算機(jī)每個(gè)節(jié)點(diǎn)包括CPU、GPU 等部件,CPU、GPU 均擁有獨(dú)立的內(nèi)存.HPCG 的數(shù)據(jù)生成部分耗時(shí)較多,本文使用GPU 進(jìn)行矩陣、向量和其他信息生成,并拷貝回CPU 進(jìn)行參考版的計(jì)算.所有優(yōu)化版需要的矩陣、向量等常駐GPU 設(shè)備內(nèi)存.整個(gè)任務(wù)劃分時(shí)需考慮CPU 和GPU 的任務(wù)分工.由于GPU擁有比CPU 更高的訪存帶寬,更多的計(jì)算資源,所以應(yīng)該盡量把任務(wù)放到GPU 上計(jì)算.這樣就有兩種可能的方案:

    1.將所有計(jì)算任務(wù)全部放到GPU 上,CPU 不參與計(jì)算,只負(fù)責(zé)通信.

    2.將大部分計(jì)算任務(wù)放到GPU 上,CPU 并行執(zhí)行小部分計(jì)算任務(wù)同時(shí)負(fù)責(zé)通信.

    第2 種方案實(shí)際執(zhí)行時(shí)需要CPU 和GPU 不斷地傳輸新的計(jì)算數(shù)據(jù),而這種傳輸開(kāi)銷較大,傳輸256×256×256 規(guī)模的向量x約需0.035s,而計(jì)算一次SpMV 的時(shí)間僅為0.008 78s,傳輸開(kāi)銷遠(yuǎn)大于計(jì)算開(kāi)銷,得不償失.本文采用第1 種方案,并且通過(guò)內(nèi)外區(qū)劃分將CPU 通信與GPU 內(nèi)區(qū)的計(jì)算進(jìn)行重疊,如圖8 所示,具體介紹見(jiàn)第7 節(jié).

    Fig.8 Partitioning of inner areas and outer areas圖8 內(nèi)外區(qū)劃分

    6 HPCG 優(yōu)化方法

    6.1 稀疏矩陣存儲(chǔ)格式

    HPCG 參考版本里矩陣存儲(chǔ)采用的是CSR 格式,如圖9 所示,矩陣的非零元素和其對(duì)應(yīng)的列索引分別存放在各自的數(shù)組里,并用一個(gè)指針數(shù)組記錄每一行的起始位置.這樣數(shù)據(jù)的內(nèi)存分配比較離散,局部性不高.為了解決這個(gè)問(wèn)題,我們采用了如圖10 所示的ELL 格式,按照矩陣中非零元最多的行對(duì)其他行進(jìn)行填充,使每行的長(zhǎng)度一樣,這樣數(shù)據(jù)在內(nèi)存中占據(jù)了一塊連續(xù)的空間,在知道這個(gè)長(zhǎng)度和矩陣起始地址的情況下可以算出每一行的起始位置,節(jié)省了CSR 格式中每行起始位置的索引數(shù)組.

    Fig.9 Storage format used by the reference version of HPCG圖9 HPCG 參考版使用的存儲(chǔ)格式

    Fig.10 Optimized ELL format圖10 優(yōu)化ELL 格式

    對(duì)規(guī)模為256×256×256 的矩陣而言,總非零元個(gè)數(shù)為450 629 374,CSR 格式總存儲(chǔ)量為5.20 GB,ELL 格式總存儲(chǔ)量為5.06 GB,減少了3%.

    6.2 稀疏矩陣重排

    由于使用了分塊圖著色算法,相同顏色塊一起計(jì)算,而在原存儲(chǔ)空間中,相同顏色的塊都是不相鄰的,這樣無(wú)法充分利用L2 Cache,因此,我們根據(jù)分塊著色的結(jié)果對(duì)矩陣進(jìn)行了重排,如圖11 所示,我們將相同顏色的塊放在一起,進(jìn)一步提高數(shù)據(jù)局部性.相應(yīng)的,我們對(duì)解向量x和右端項(xiàng)y也做了同樣的重排.

    Fig.11 Blocked graph coloring and reordering圖11 分塊圖著色以及重排

    6.3 其他優(yōu)化

    分塊后,塊內(nèi)的數(shù)據(jù)存在可能的復(fù)用,本文可以通過(guò)GPU 卡上的程序員可控高速緩存LDS 來(lái)完成這部分的復(fù)用,從而進(jìn)一步提高訪存的效率.

    除此之外,本文還運(yùn)用了多種優(yōu)化手段,如分支消除、循環(huán)展開(kāi)、數(shù)據(jù)預(yù)取、數(shù)據(jù)管理優(yōu)化等.在分支消除方面,考慮到GPU 的分支執(zhí)行特性,本文通過(guò)邏輯計(jì)算來(lái)消除了一些分支指令.在循環(huán)展開(kāi)方面,綜合考慮寄存器的數(shù)量與性能,本文展開(kāi)了一些熱點(diǎn)函數(shù)中的循環(huán).在數(shù)據(jù)預(yù)取方面,本文在計(jì)算時(shí)先統(tǒng)一預(yù)取不規(guī)則的內(nèi)存區(qū)域中的數(shù)據(jù).數(shù)據(jù)管理方面,本文采用了內(nèi)存池的方式對(duì)內(nèi)存進(jìn)行管理,避免了很多不必要的內(nèi)存申請(qǐng)與釋放,并且在主存分配空間時(shí)都聲明為pinned memory 以加速數(shù)據(jù)拷貝.

    7 多進(jìn)程實(shí)現(xiàn)與優(yōu)化

    在多進(jìn)程的實(shí)現(xiàn)中,本文采用了內(nèi)外區(qū)劃分的方式,將整個(gè)計(jì)算網(wǎng)格分成內(nèi)區(qū)和外區(qū)兩個(gè)部分,外區(qū)寬度為1,如圖8 所示.將內(nèi)區(qū)按照第4 節(jié)中算法進(jìn)行著色,將外區(qū)看成最后一個(gè)顏色.當(dāng)內(nèi)區(qū)部分所有的計(jì)算和外區(qū)所需的halo 區(qū)數(shù)據(jù)通信都完成后開(kāi)始進(jìn)行外區(qū)的計(jì)算.具體流程如圖12 所示.這樣整個(gè)HPCG 中核心函數(shù)SpMV、SymGS 中的鄰居通信均可被內(nèi)區(qū)計(jì)算掩蓋,從而減少了整體運(yùn)行時(shí)間.

    由于矩陣、向量等常駐GPU 設(shè)備內(nèi)存,鄰居通信前需要將halo 區(qū)的數(shù)據(jù)先拷貝回CPU 內(nèi)存,待通信結(jié)束后再拷貝到GPU 內(nèi)存.第1 次拷貝是無(wú)法重疊的,因?yàn)橹挥械韧耆截惤Y(jié)束后才能進(jìn)行鄰居通信.

    Fig.12 Overlap of computation and communication圖12 計(jì)算通信重疊

    8 HPCG 測(cè)試結(jié)果

    本文對(duì)第3.1 節(jié)和第3.2 節(jié)的算法均進(jìn)行了實(shí)現(xiàn),并基于某國(guó)產(chǎn)復(fù)雜異構(gòu)超級(jí)計(jì)算機(jī)單節(jié)點(diǎn)單進(jìn)程進(jìn)行了測(cè)試,測(cè)試結(jié)果如圖13 所示.圖13 中給出了HPCG參考版、兩個(gè)并行方案的性能結(jié)果,對(duì)第2 個(gè)方案,還給出了多個(gè)優(yōu)化技術(shù)所帶來(lái)的性能提升.從圖中可以看出,第3.2 節(jié)算法性能較高(見(jiàn)圖中para2),約是第3.1 節(jié)算法(見(jiàn)圖中para1)的2 倍多,因?yàn)榈?.2 節(jié)算法能更好的發(fā)揮GPU 的計(jì)算能力,并行度更高.圖中opt1 是將setup 部分和OptimizeProblem部分進(jìn)行優(yōu)化的結(jié)果,同時(shí)該版本還減少了不必要的同步操作,opt2 是對(duì)多重網(wǎng)格中每一層的著色方案進(jìn)行自適應(yīng)調(diào)整,以增加粗層的并行度,另外該版本中還包括對(duì)零元訪存的優(yōu)化.opt2 版本的性能是本文工作單節(jié)點(diǎn)可達(dá)到的最高性能,在做完內(nèi)外區(qū)劃分后,該性能有所下降,見(jiàn)圖中inner-outer 部分.

    Fig.13 HPCG performance using single process圖13 HPCG 單進(jìn)程性能

    本文基于某國(guó)產(chǎn)復(fù)雜異構(gòu)超級(jí)計(jì)算機(jī)系統(tǒng)進(jìn)行測(cè)試,分別測(cè)試了單節(jié)點(diǎn)計(jì)算效率和整機(jī)計(jì)算效率,并測(cè)試了整機(jī)的弱可擴(kuò)展性,最終單節(jié)點(diǎn)計(jì)算效率達(dá)到了1.82%,整機(jī)計(jì)算效率達(dá)到了1.67%,整機(jī)弱可擴(kuò)展性并行效率達(dá)到了92%.

    9 結(jié)論及下一步工作

    本文面向國(guó)產(chǎn)復(fù)雜異構(gòu)超級(jí)計(jì)算機(jī)研制了異構(gòu)眾核并行HPCG 軟件,從著色算法、異構(gòu)任務(wù)劃分、稀疏矩陣存儲(chǔ)格式等角度展開(kāi)研究,提出了一套適用于結(jié)構(gòu)化網(wǎng)格的著色算法,用于HPCG 后,著色質(zhì)量與現(xiàn)有算法相比有明顯的提升.通過(guò)分析異構(gòu)部件的傳輸開(kāi)銷,提出了一套異構(gòu)任務(wù)劃分方法,并采用ELL 格式存儲(chǔ)稀疏矩陣,以減少訪存開(kāi)銷.同時(shí)采用分支消除、循環(huán)展開(kāi)、數(shù)據(jù)預(yù)取等多種優(yōu)化方式進(jìn)行了優(yōu)化.在多進(jìn)程實(shí)現(xiàn)時(shí),為了盡可能地提升整機(jī)性能,本文還采用了內(nèi)外區(qū)劃分的算法,將鄰居通信與內(nèi)區(qū)計(jì)算進(jìn)行重疊,以隱藏通信開(kāi)銷,提高并行效率.最終整機(jī)計(jì)算效率達(dá)到了峰值性能的1.67%,弱可擴(kuò)展性并行效率更是提高到了92%.下一步將面向其他國(guó)產(chǎn)超級(jí)計(jì)算機(jī)開(kāi)展HPCG 的并行與優(yōu)化工作,研究HPCG 混合精度算法,并與相關(guān)應(yīng)用進(jìn)行合作,提升應(yīng)用整體性能.

    猜你喜歡
    超級(jí)計(jì)算機(jī)分塊著色
    超級(jí)計(jì)算機(jī)
    蔬菜著色不良 這樣預(yù)防最好
    蘋果膨大著色期 管理細(xì)致別大意
    分塊矩陣在線性代數(shù)中的應(yīng)用
    超級(jí)計(jì)算機(jī)及其在航空航天領(lǐng)域中的應(yīng)用
    科技傳播(2019年22期)2020-01-14 03:06:36
    10位畫家為美術(shù)片著色
    電影(2018年10期)2018-10-26 01:55:48
    美國(guó)制造出全球最快超級(jí)計(jì)算機(jī)
    每秒100億億次 中國(guó)超級(jí)計(jì)算機(jī)
    反三角分塊矩陣Drazin逆新的表示
    基于自適應(yīng)中值濾波的分塊壓縮感知人臉識(shí)別
    特大巨黑吊av在线直播| 少妇丰满av| 精品一区二区免费观看| 亚洲黑人精品在线| 欧美中文日本在线观看视频| 国产免费男女视频| 午夜影院日韩av| 国产一区二区激情短视频| 97热精品久久久久久| 国产精品久久久久久久久免 | 天堂av国产一区二区熟女人妻| 在线观看舔阴道视频| 久久国产精品影院| 精华霜和精华液先用哪个| 九九热线精品视视频播放| 中国美女看黄片| 精品日产1卡2卡| 搡老熟女国产l中国老女人| 精品人妻偷拍中文字幕| 国产黄a三级三级三级人| 高清毛片免费观看视频网站| 国产成人啪精品午夜网站| 久久精品国产亚洲av涩爱 | 亚洲欧美激情综合另类| 波多野结衣巨乳人妻| 国内精品美女久久久久久| 国产精品久久久久久精品电影| 亚洲性夜色夜夜综合| av女优亚洲男人天堂| av在线老鸭窝| 一区二区三区高清视频在线| 久久久久久久午夜电影| 国产精品美女特级片免费视频播放器| 观看免费一级毛片| 女同久久另类99精品国产91| 宅男免费午夜| 男人和女人高潮做爰伦理| 日韩欧美国产在线观看| 国产一区二区三区视频了| 国产91精品成人一区二区三区| 亚洲av第一区精品v没综合| 亚洲成a人片在线一区二区| 国产在线男女| 精品久久久久久,| 国产精品自产拍在线观看55亚洲| 国产中年淑女户外野战色| 成人欧美大片| 精品人妻1区二区| 国产精品日韩av在线免费观看| 十八禁人妻一区二区| 久久伊人香网站| 99久久九九国产精品国产免费| 国产野战对白在线观看| 久久6这里有精品| 精品午夜福利视频在线观看一区| 99国产精品一区二区三区| 久久人人精品亚洲av| 亚洲最大成人av| 美女 人体艺术 gogo| 99久久精品一区二区三区| 亚洲成人久久性| 长腿黑丝高跟| 国产日本99.免费观看| 午夜日韩欧美国产| 成人三级黄色视频| 最好的美女福利视频网| 亚洲av美国av| av视频在线观看入口| 一进一出抽搐动态| 99热这里只有精品一区| 一区二区三区激情视频| 国产三级黄色录像| 一个人免费在线观看的高清视频| 无人区码免费观看不卡| 国产免费男女视频| 一进一出好大好爽视频| 麻豆成人午夜福利视频| 91在线观看av| 一a级毛片在线观看| 丝袜美腿在线中文| 又爽又黄a免费视频| 麻豆成人av在线观看| 他把我摸到了高潮在线观看| 好男人在线观看高清免费视频| 一卡2卡三卡四卡精品乱码亚洲| 好看av亚洲va欧美ⅴa在| 久久人人精品亚洲av| 91在线精品国自产拍蜜月| 又爽又黄无遮挡网站| 老司机深夜福利视频在线观看| 嫩草影视91久久| 97人妻精品一区二区三区麻豆| 久久久成人免费电影| 美女被艹到高潮喷水动态| 人妻丰满熟妇av一区二区三区| 免费看日本二区| 免费在线观看成人毛片| 免费av毛片视频| 国产国拍精品亚洲av在线观看| 日韩欧美三级三区| 乱人视频在线观看| 午夜免费激情av| 成年免费大片在线观看| 又黄又爽又刺激的免费视频.| 日日摸夜夜添夜夜添小说| 成年版毛片免费区| 成人国产一区最新在线观看| 国产精品av视频在线免费观看| 99在线人妻在线中文字幕| 久久6这里有精品| bbb黄色大片| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 久久国产乱子伦精品免费另类| 国产精品自产拍在线观看55亚洲| 欧美成人免费av一区二区三区| 亚洲欧美日韩东京热| 国内揄拍国产精品人妻在线| 久久久国产成人免费| 99久久精品一区二区三区| av天堂在线播放| 亚洲av第一区精品v没综合| 直男gayav资源| 午夜两性在线视频| 噜噜噜噜噜久久久久久91| 男人狂女人下面高潮的视频| 精品福利观看| 国产一区二区激情短视频| 国产亚洲欧美98| 黄色一级大片看看| 99在线人妻在线中文字幕| x7x7x7水蜜桃| 女同久久另类99精品国产91| 国产精品三级大全| 一卡2卡三卡四卡精品乱码亚洲| 丁香六月欧美| 一个人看的www免费观看视频| 国内精品美女久久久久久| 亚洲精品日韩av片在线观看| 午夜福利免费观看在线| 美女cb高潮喷水在线观看| 一卡2卡三卡四卡精品乱码亚洲| 看黄色毛片网站| 亚洲色图av天堂| 一区二区三区激情视频| 丁香欧美五月| 一二三四社区在线视频社区8| 日日干狠狠操夜夜爽| 亚洲欧美激情综合另类| 国内精品久久久久精免费| 亚洲国产精品合色在线| 国产精品久久久久久亚洲av鲁大| 国产精品久久久久久精品电影| 亚洲狠狠婷婷综合久久图片| 久久久久九九精品影院| 精品久久久久久成人av| 久久久久久久久久成人| 嫩草影视91久久| 国产伦人伦偷精品视频| 日本一本二区三区精品| 精华霜和精华液先用哪个| 18禁裸乳无遮挡免费网站照片| 久久国产精品人妻蜜桃| 精品久久久久久,| 欧美xxxx黑人xx丫x性爽| 精品久久久久久久久久久久久| 亚洲第一区二区三区不卡| 欧美性猛交黑人性爽| 老司机午夜福利在线观看视频| 特级一级黄色大片| 国产黄a三级三级三级人| 欧美3d第一页| 色哟哟哟哟哟哟| 欧美一区二区国产精品久久精品| 婷婷丁香在线五月| 成人毛片a级毛片在线播放| 一级毛片久久久久久久久女| 亚洲天堂国产精品一区在线| 91av网一区二区| a在线观看视频网站| 午夜免费男女啪啪视频观看 | 国产极品精品免费视频能看的| 国产欧美日韩精品亚洲av| 99久久精品国产亚洲精品| 免费无遮挡裸体视频| 精品午夜福利在线看| 最新在线观看一区二区三区| 国产午夜福利久久久久久| 90打野战视频偷拍视频| 日本在线视频免费播放| 欧美一区二区精品小视频在线| 听说在线观看完整版免费高清| 久久草成人影院| 国产精品久久久久久久电影| 91在线精品国自产拍蜜月| 天堂网av新在线| 日韩欧美精品v在线| 十八禁人妻一区二区| 人人妻人人看人人澡| 一区福利在线观看| 可以在线观看的亚洲视频| 又黄又爽又免费观看的视频| 综合色av麻豆| 午夜精品一区二区三区免费看| 成人国产一区最新在线观看| av在线观看视频网站免费| 午夜福利在线观看吧| 看片在线看免费视频| 日韩中字成人| 在线看三级毛片| 免费无遮挡裸体视频| 色哟哟·www| 欧美极品一区二区三区四区| 久久久久亚洲av毛片大全| 久久午夜福利片| 亚洲中文日韩欧美视频| 亚洲,欧美精品.| 日本撒尿小便嘘嘘汇集6| 一级黄色大片毛片| 超碰av人人做人人爽久久| 十八禁国产超污无遮挡网站| 少妇丰满av| 久99久视频精品免费| 欧美不卡视频在线免费观看| 我要看日韩黄色一级片| 欧美潮喷喷水| 日本五十路高清| 嫩草影院新地址| 婷婷色综合大香蕉| 久久亚洲精品不卡| 国产一区二区激情短视频| 午夜精品在线福利| 国内久久婷婷六月综合欲色啪| 麻豆一二三区av精品| 午夜福利高清视频| 久久久久久大精品| 非洲黑人性xxxx精品又粗又长| 啦啦啦韩国在线观看视频| 国产乱人视频| 我要看日韩黄色一级片| 女人被狂操c到高潮| 天天一区二区日本电影三级| 午夜福利欧美成人| 99久久无色码亚洲精品果冻| 尤物成人国产欧美一区二区三区| 国产精品一区二区三区四区免费观看 | 男人舔女人下体高潮全视频| 日韩av在线大香蕉| 极品教师在线视频| 又黄又爽又免费观看的视频| 在线观看一区二区三区| 日韩欧美精品免费久久 | 亚洲精品日韩av片在线观看| 啪啪无遮挡十八禁网站| 亚洲美女搞黄在线观看 | 性色av乱码一区二区三区2| 日本黄色片子视频| 亚洲欧美日韩东京热| 少妇被粗大猛烈的视频| 欧美成人a在线观看| 又爽又黄a免费视频| 日本黄色视频三级网站网址| 九色成人免费人妻av| 午夜激情福利司机影院| 韩国av一区二区三区四区| 久久人人精品亚洲av| 欧美成人性av电影在线观看| 一卡2卡三卡四卡精品乱码亚洲| 永久网站在线| 在线观看午夜福利视频| 人妻制服诱惑在线中文字幕| 我要看日韩黄色一级片| 亚洲av中文字字幕乱码综合| 国产精品一及| 日本在线视频免费播放| 久久精品久久久久久噜噜老黄 | 中文字幕久久专区| 99热只有精品国产| 中文字幕人妻熟人妻熟丝袜美| 人人妻,人人澡人人爽秒播| 禁无遮挡网站| 午夜两性在线视频| 在线观看午夜福利视频| .国产精品久久| 免费大片18禁| 91在线观看av| 国产一区二区三区在线臀色熟女| 怎么达到女性高潮| 免费电影在线观看免费观看| 日韩欧美在线二视频| 国产午夜精品久久久久久一区二区三区 | 欧美日韩黄片免| 91久久精品国产一区二区成人| 99精品在免费线老司机午夜| 亚洲精品色激情综合| 免费黄网站久久成人精品 | 精品久久久久久成人av| 午夜影院日韩av| 国产精品美女特级片免费视频播放器| 夜夜看夜夜爽夜夜摸| 99久久无色码亚洲精品果冻| 亚洲av五月六月丁香网| 日日干狠狠操夜夜爽| 欧美高清成人免费视频www| 精品午夜福利在线看| 久久久久精品国产欧美久久久| 亚洲精品一区av在线观看| av女优亚洲男人天堂| 亚洲中文字幕日韩| 最后的刺客免费高清国语| 激情在线观看视频在线高清| 最近中文字幕高清免费大全6 | 伊人久久精品亚洲午夜| 观看美女的网站| 亚洲中文日韩欧美视频| 丰满乱子伦码专区| 麻豆一二三区av精品| 一二三四社区在线视频社区8| 日韩欧美在线二视频| 91av网一区二区| 亚洲成a人片在线一区二区| 久久久久久九九精品二区国产| 日韩欧美精品免费久久 | 久久久久九九精品影院| 亚洲人成网站在线播放欧美日韩| 一个人观看的视频www高清免费观看| 在线国产一区二区在线| 国产精品爽爽va在线观看网站| 最近最新中文字幕大全电影3| 亚洲国产精品sss在线观看| 在线看三级毛片| 91午夜精品亚洲一区二区三区 | 国产高清三级在线| 久久久久久久久久黄片| 日本一本二区三区精品| 亚洲18禁久久av| 亚洲天堂国产精品一区在线| 在线免费观看的www视频| 别揉我奶头 嗯啊视频| 亚洲精品成人久久久久久| 夜夜夜夜夜久久久久| 成人国产一区最新在线观看| 国内精品久久久久久久电影| 亚洲精品一区av在线观看| 在线免费观看不下载黄p国产 | 国产成年人精品一区二区| 一本精品99久久精品77| 亚洲,欧美精品.| 午夜久久久久精精品| 国产蜜桃级精品一区二区三区| 免费人成视频x8x8入口观看| 国产成+人综合+亚洲专区| 国产精品爽爽va在线观看网站| 欧美一级a爱片免费观看看| 亚洲av.av天堂| 高清在线国产一区| 91麻豆精品激情在线观看国产| 色av中文字幕| 精品国产三级普通话版| 色尼玛亚洲综合影院| 久久精品久久久久久噜噜老黄 | 国产探花极品一区二区| 一个人免费在线观看电影| 在线观看舔阴道视频| 色综合亚洲欧美另类图片| 日本撒尿小便嘘嘘汇集6| 欧美日韩瑟瑟在线播放| 久久久久久久久久黄片| 很黄的视频免费| 在线观看免费视频日本深夜| 一个人免费在线观看的高清视频| 老司机福利观看| 国产精品一区二区性色av| 国产伦人伦偷精品视频| 亚洲人成网站高清观看| 搡老岳熟女国产| 最近在线观看免费完整版| 国产毛片a区久久久久| 国产三级黄色录像| 国产久久久一区二区三区| 91午夜精品亚洲一区二区三区 | 一本久久中文字幕| netflix在线观看网站| 国产高清激情床上av| 日韩欧美精品免费久久 | 亚洲激情在线av| 可以在线观看的亚洲视频| 每晚都被弄得嗷嗷叫到高潮| 可以在线观看的亚洲视频| 在线观看av片永久免费下载| 中文字幕精品亚洲无线码一区| 国产高清视频在线播放一区| 无人区码免费观看不卡| 亚洲乱码一区二区免费版| 女人被狂操c到高潮| 91av网一区二区| 成人亚洲精品av一区二区| 一区福利在线观看| 国产又黄又爽又无遮挡在线| 天堂动漫精品| 真人做人爱边吃奶动态| 国产精品自产拍在线观看55亚洲| 好看av亚洲va欧美ⅴa在| 欧美日韩乱码在线| 国产白丝娇喘喷水9色精品| 一区二区三区免费毛片| 国内精品美女久久久久久| 简卡轻食公司| 亚洲精品在线观看二区| 国产成人欧美在线观看| 日本 av在线| 亚洲第一电影网av| 国产成年人精品一区二区| 啦啦啦韩国在线观看视频| 丰满乱子伦码专区| 老司机深夜福利视频在线观看| 免费观看人在逋| 免费看光身美女| 男女视频在线观看网站免费| 欧美三级亚洲精品| 18禁黄网站禁片午夜丰满| 久久久久亚洲av毛片大全| 欧美3d第一页| 男女做爰动态图高潮gif福利片| 日本三级黄在线观看| 他把我摸到了高潮在线观看| 免费在线观看日本一区| 亚洲狠狠婷婷综合久久图片| 欧美激情久久久久久爽电影| 99riav亚洲国产免费| 国内精品美女久久久久久| 可以在线观看的亚洲视频| 国产亚洲av嫩草精品影院| 国内精品美女久久久久久| 国产人妻一区二区三区在| 99国产极品粉嫩在线观看| 欧美中文日本在线观看视频| 久久99热这里只有精品18| 国产在线精品亚洲第一网站| 久久久久久国产a免费观看| 91九色精品人成在线观看| 亚洲七黄色美女视频| av天堂中文字幕网| av女优亚洲男人天堂| 日本五十路高清| 精品午夜福利视频在线观看一区| 国产高清激情床上av| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 麻豆av噜噜一区二区三区| 婷婷色综合大香蕉| 久久人妻av系列| 哪里可以看免费的av片| 国产伦一二天堂av在线观看| 国产精品久久视频播放| 两个人的视频大全免费| 亚洲成a人片在线一区二区| 欧美bdsm另类| 淫妇啪啪啪对白视频| 露出奶头的视频| 99国产精品一区二区三区| 一区二区三区免费毛片| 日韩欧美 国产精品| 99热这里只有是精品在线观看 | 别揉我奶头 嗯啊视频| 亚州av有码| 人人妻人人看人人澡| 狠狠狠狠99中文字幕| 欧美日韩综合久久久久久 | 一级黄片播放器| 美女免费视频网站| 国产aⅴ精品一区二区三区波| 黄片小视频在线播放| 天堂av国产一区二区熟女人妻| 一个人免费在线观看的高清视频| 国产精品99久久久久久久久| 18美女黄网站色大片免费观看| 一区二区三区激情视频| 老司机午夜十八禁免费视频| 国产精品久久久久久亚洲av鲁大| 国产高清有码在线观看视频| 天天躁日日操中文字幕| 国产大屁股一区二区在线视频| 在线观看av片永久免费下载| 麻豆成人午夜福利视频| 亚洲精品在线美女| 性插视频无遮挡在线免费观看| 韩国av一区二区三区四区| 亚洲精品粉嫩美女一区| 在线播放国产精品三级| 久久精品国产自在天天线| 成人鲁丝片一二三区免费| 久久欧美精品欧美久久欧美| 亚洲av免费高清在线观看| 中文亚洲av片在线观看爽| 国产精品久久视频播放| 婷婷亚洲欧美| 成人午夜高清在线视频| 国产探花极品一区二区| 亚洲av一区综合| 色5月婷婷丁香| 国内毛片毛片毛片毛片毛片| 91在线观看av| 亚洲性夜色夜夜综合| 91在线观看av| 最近视频中文字幕2019在线8| 成人一区二区视频在线观看| 九九热线精品视视频播放| 色综合婷婷激情| 亚洲内射少妇av| 欧美日本视频| 亚洲精品影视一区二区三区av| 999久久久精品免费观看国产| 可以在线观看的亚洲视频| 中文字幕人成人乱码亚洲影| 久久久精品大字幕| 男女之事视频高清在线观看| 欧美三级亚洲精品| 性欧美人与动物交配| 久久中文看片网| 国产av麻豆久久久久久久| 日日干狠狠操夜夜爽| 身体一侧抽搐| 性欧美人与动物交配| 亚洲精品成人久久久久久| 欧美日韩亚洲国产一区二区在线观看| 国产主播在线观看一区二区| 日日夜夜操网爽| 精品国产三级普通话版| 成人欧美大片| 国产精品久久久久久人妻精品电影| 亚洲国产高清在线一区二区三| 亚洲人成电影免费在线| eeuss影院久久| 成人美女网站在线观看视频| 天美传媒精品一区二区| 日韩中文字幕欧美一区二区| 国产69精品久久久久777片| 宅男免费午夜| 久久久久久久久久成人| 男人和女人高潮做爰伦理| 91av网一区二区| 午夜精品一区二区三区免费看| 听说在线观看完整版免费高清| 白带黄色成豆腐渣| 国产人妻一区二区三区在| 自拍偷自拍亚洲精品老妇| 成年女人毛片免费观看观看9| av中文乱码字幕在线| 欧美黄色淫秽网站| 无遮挡黄片免费观看| 久久精品国产99精品国产亚洲性色| 久久久久亚洲av毛片大全| 最新在线观看一区二区三区| 美女大奶头视频| 免费黄网站久久成人精品 | 亚洲性夜色夜夜综合| 91狼人影院| 精品免费久久久久久久清纯| 国产免费男女视频| 69av精品久久久久久| 欧美区成人在线视频| 1024手机看黄色片| 亚洲精品亚洲一区二区| 欧美黄色淫秽网站| 中文字幕人成人乱码亚洲影| 国产精品永久免费网站| 免费电影在线观看免费观看| 日韩大尺度精品在线看网址| 午夜福利高清视频| 露出奶头的视频| 午夜免费男女啪啪视频观看 | 十八禁国产超污无遮挡网站| 深夜精品福利| a级一级毛片免费在线观看| or卡值多少钱| 国产精品99久久久久久久久| 51午夜福利影视在线观看| 久久久久国产精品人妻aⅴ院| 岛国在线免费视频观看| 欧美最新免费一区二区三区 | 亚洲天堂国产精品一区在线| 免费高清视频大片| 午夜日韩欧美国产| 91在线精品国自产拍蜜月| 免费av不卡在线播放| 亚洲av免费高清在线观看| 成人国产一区最新在线观看| 欧美3d第一页| 精品一区二区免费观看| 中文字幕久久专区| 听说在线观看完整版免费高清| 亚洲,欧美,日韩| 老鸭窝网址在线观看| 永久网站在线| 免费在线观看成人毛片| 中文字幕人成人乱码亚洲影| 黄色丝袜av网址大全| or卡值多少钱| 国内精品美女久久久久久| 亚洲久久久久久中文字幕| 国产一区二区三区在线臀色熟女| 国产老妇女一区| 国产v大片淫在线免费观看| 久久精品综合一区二区三区| 全区人妻精品视频| 亚洲av不卡在线观看| 中文字幕熟女人妻在线| 国内精品美女久久久久久| 日韩欧美在线二视频| 免费大片18禁| 日韩免费av在线播放| 日韩欧美国产在线观看| 51午夜福利影视在线观看| 嫩草影视91久久| 国产在线精品亚洲第一网站| 免费搜索国产男女视频|