• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)值堆熱工流體高精細(xì)并行模擬優(yōu)化技術(shù)研究

    2021-09-16 01:55:48董玲玉周志鋒戴潮虎吳宗蕓劉天才趙民富胡長軍
    原子能科學(xué)技術(shù) 2021年9期
    關(guān)鍵詞:二分法子圖元法

    董玲玉,周志鋒,戴潮虎,趙 珂,吳宗蕓,劉天才,趙民富,楊 文,胡長軍,*

    (1.北京科技大學(xué) 計算機(jī)與通信工程學(xué)院,北京 100083;2.中國原子能科學(xué)研究院 反應(yīng)堆工程技術(shù)研究所,北京 102413)

    熱工流體高性能模擬是數(shù)值反應(yīng)堆的重要組成部分。熱工流體計算程序按建模尺度可劃分為系統(tǒng)程序、子通道程序和CFD程序,其中CFD程序能對反應(yīng)堆中復(fù)雜區(qū)域的三維流動過程(包括湍流)進(jìn)行高精細(xì)的模擬,其核心內(nèi)容是求解N-S(Navier-Stokes)方程組。求解N-S方程組的數(shù)值方法包括有限差分法、有限體積法、有限元法、譜方法和譜元法等。其中譜元法是Patera等[1]通過結(jié)合譜方法的高精度和有限元法的區(qū)域適應(yīng)性發(fā)展而來的,符合數(shù)值反應(yīng)堆對高分辨率和高效并行求解的追求。然而堆幾何的復(fù)雜性以及譜元法的高精度特點使得數(shù)值反應(yīng)堆模擬對計算資源、存儲資源的需求巨大。例如在中國實驗快堆中,燃料棒直徑約為繞絲直徑的6.3倍,二者的接觸面需要大量精細(xì)網(wǎng)格來描述。經(jīng)測試,在平均網(wǎng)格質(zhì)量指標(biāo)超過0.6的情況下,單根繞絲棒流道的網(wǎng)格數(shù)量至少需要100萬,快堆全堆的網(wǎng)格數(shù)量則會達(dá)到百億量級。再如Kothe等[2]估算采用大渦模擬的方法進(jìn)行堆芯局部區(qū)域的模擬需要P級的計算能力,進(jìn)行全堆芯的模擬則需要E級的計算能力。高精細(xì)、大規(guī)模數(shù)值模擬對數(shù)據(jù)存儲、區(qū)域分解、并行求解以及計算機(jī)算力等方面提出了巨大挑戰(zhàn)。

    以我國神威·太湖之光和天河二號為代表的超級計算機(jī),計算能力已居世界領(lǐng)先地位。國產(chǎn)超算多為混合架構(gòu),例如主從核異構(gòu)的神威超算,其98%計算能力分布在從核中,因此想要充分發(fā)揮其計算能力必須提高從核利用率。然而目前的CFD軟件大多為純CPU開發(fā),亟需開展針對國產(chǎn)異構(gòu)架構(gòu)超算的CFD軟件的優(yōu)化移植工作。

    本文以基于譜元法求解N-S方程的數(shù)值方法為研究對象,瞄準(zhǔn)大規(guī)模網(wǎng)格區(qū)域分解時間成本高以及缺少面向國產(chǎn)超算體系結(jié)構(gòu)的優(yōu)化移植方法兩個關(guān)鍵問題,提出一種面向海量精細(xì)網(wǎng)格的混合并行遞歸譜二分法實現(xiàn)的大規(guī)模區(qū)域分解方法,并建立一套以小矩陣乘為核心的申威(SW26010處理器)眾核架構(gòu)并行優(yōu)化技術(shù)。

    1 區(qū)域分解與CFD軟件優(yōu)化移植的國內(nèi)外相關(guān)研究

    常用區(qū)域分解方法有:Wesseling[3]和Anders[4]提出的遞歸二分法、貪婪算法、Saule等[5]提出的啟發(fā)式算法以及Pothen等[6]根據(jù)遞歸二分法的思想提出的遞歸譜二分法。其中,遞歸譜二分法相對其他算法的劃分效果好,但當(dāng)網(wǎng)格規(guī)模過大時,使用該算法的時間成本不可忽略,針對該問題,Barnard等[7]設(shè)計了多層次遞歸譜二分法(MRSB)、并行多層次遞歸譜二分法(PMRSB)[8-9],但方案的實現(xiàn)依賴于T3D內(nèi)存共享體系結(jié)構(gòu)且各分區(qū)元素不均衡。王琥等[10]在MRSB的基礎(chǔ)上,提出了多層次遞歸譜二分優(yōu)化算法(MMRSB),相對MRSB改善了負(fù)載平衡和通信時間兩個方面,但優(yōu)化方案的引入增加了一定的時間成本。目前的研究中缺少在不改變遞歸譜二分法分區(qū)效果的前提下提高分區(qū)效率的算法。

    當(dāng)前主流CFD軟件大多是基于MPI并行的純CPU架構(gòu)開發(fā)的,但面對異構(gòu)架構(gòu)的發(fā)展趨勢,涌現(xiàn)出了向不同類型的異構(gòu)架構(gòu)體系進(jìn)行優(yōu)化的研究。Fournier等[11]在IBM Blue Gene/P超算上將Code_Saturne擴(kuò)展到超3.2萬核。Ojha等[12]將基于有限體積法的OpenFOAM移植到采用CPU+Intel Xeon PHI加速卡混合架構(gòu)的Endeavor集群上。面向國內(nèi)超算平臺,孟德龍等[13]使用Athread加速線程庫,將OpenFOAM移植到神威·太湖之光超算上。李芳等[14]將基于有限差分法的OpenCFD移植到申威異構(gòu)眾核處理器,采用直接數(shù)值模擬的方法模擬5.52億網(wǎng)格,在213萬核上并行效率達(dá)到50%。但面向國產(chǎn)異構(gòu)架構(gòu)的優(yōu)化大部分圍繞有限差分、有限體積法為基礎(chǔ)的CFD軟件進(jìn)行開展,并沒有關(guān)于譜元法CFD模擬軟件的優(yōu)化。面向國產(chǎn)異構(gòu)架構(gòu)的移植主要在于發(fā)揮每個計算節(jié)點內(nèi)加速核的算力,常見方法是利用加速核計算程序熱點。傳統(tǒng)CFD中的FVM等方法的程序熱點多為大型稀疏矩陣向量乘(SPMV),可面向國產(chǎn)異構(gòu)架構(gòu)依據(jù)SPMV經(jīng)典方法進(jìn)行優(yōu)化;而譜元法的計算熱點是小而稠密的矩陣-矩陣乘,由于矩陣規(guī)模較小,數(shù)學(xué)庫和編譯器難以提供最好的內(nèi)核性能,經(jīng)過測試后發(fā)現(xiàn)使用通用優(yōu)化技術(shù)(如OpenACC、OpenMP)或優(yōu)化庫(如BLAS、GEMM)反而會帶來大幅性能下降。

    2 數(shù)值反應(yīng)堆熱工流體CFD模擬計算模型

    2.1 計算模型

    通常,數(shù)值反應(yīng)堆熱工流體CFD模擬的求解對象是不可壓縮N-S方程,如式(1)所示,上下兩個方程分別稱為動量方程和連續(xù)性方程,假設(shè)求解區(qū)域為一維空間Ω:

    (1)

    其中:u為速度;p為壓力;Re為雷諾數(shù);f為力源項。N-S方程是一個偏微分方程,時間與空間上均存在偏導(dǎo)數(shù),而計算機(jī)不能直接計算連續(xù)的偏導(dǎo)數(shù),因此求解思路是將偏導(dǎo)數(shù)分別在時間與空間上離散為計算機(jī)可計算的格式,譜元法即是一種空間離散的數(shù)值方法。

    式(1)應(yīng)用變分原理得到變分公式:

    (2)

    (3)

    使用剛度矩陣、質(zhì)量矩陣、對流算子對式(3)進(jìn)行簡化:

    (4)

    簡化后得到聚合公式:

    (5)

    對式(5)中的時間偏導(dǎo)數(shù)使用k階向后差分法(BDFk)進(jìn)行離散得到:

    (6)

    然而向后差分法為隱式格式,相比顯式格式增加了計算量,因此采用k階外推法(EXTk)對Cun+1項進(jìn)行外推,得到:

    (7)

    其中,bk、ak分別為隱式時間導(dǎo)數(shù)離散化和顯式外推的系數(shù),根據(jù)文獻(xiàn)[15]使用的數(shù)值技術(shù),式(7)最終分裂成兩個部分:

    (8)

    式(8)即為基于譜元法求解N-S方程的核心計算式,第1項是壓力泊松方程,第2項是亥姆霍茲方程,兩個方程可簡化成如下形式:

    (9)

    該形式可看作是線性方程組Ax=b的求解。其中:φ為自變量;K為剛度矩陣;M為質(zhì)量矩陣;f為右端項的和;h1和h2為變量系數(shù),為式(10)的使用條件[16]:

    (10)

    兩個方程均可使用Krylov子空間迭代法求解。壓力泊松方程的系數(shù)矩陣為非對稱矩陣,可使用廣義最小余量法(GMRES);速度亥姆霍茲方程的系數(shù)矩陣為對稱矩陣,可使用預(yù)處理共軛梯度法(PCG)。對于求解較復(fù)雜的壓力泊松方程,迭代前可應(yīng)用一些預(yù)處理技術(shù)來加速迭代,例如粗網(wǎng)格技術(shù)。

    2.2 基本流程

    數(shù)值反應(yīng)堆熱工流體CFD模擬總體上可分為預(yù)處理、主求解與后處理3個步驟。圖1示出基于譜元法的CFD模擬基本流程。在預(yù)處理過程中,需定義流道的幾何形狀(幾何建模)、定義求解域、劃分求解域為譜元(網(wǎng)格生成)、分解區(qū)域、設(shè)置參數(shù)(如流體屬性、邊界條件)等;主求解部分需對N-S方程進(jìn)行時間離散、空間離散與算子分裂,如2.1節(jié)所述將離散后的方程分裂為壓力泊松方程與速度亥姆霍茲方程,隨后在每個譜元內(nèi)對這兩個方程進(jìn)行迭代求解;最后在后處理部分中輸出每個譜元得到的方程解,檢查輸出結(jié)果的正確性,通過適當(dāng)?shù)姆绞斤@示數(shù)據(jù)(如圖形、數(shù)據(jù)對比)。

    圖1 熱工流體CFD模擬基本流程Fig.1 Basic flow of thermal fluid CFD simulation

    基于譜元法的CFD模擬流程中存在兩個關(guān)鍵點:1) 面對海量精細(xì)網(wǎng)格,區(qū)域分解的時間成本將不可忽略,例如單根繞絲棒流道區(qū)域分解時間為11 h,而并行計算1 s的模擬結(jié)果僅需5 min,為加速程序計算,節(jié)約前處理時間,非常有必要對區(qū)域分解進(jìn)行并行化處理;2) 基于譜元法中張量積的特殊性質(zhì)[17],小而稠密的矩陣-矩陣乘法是計算核心,以典型基于譜元法的軟件Nek5000為例,矩陣-矩陣乘函數(shù)占整個程序運行時間的60%,因此針對矩陣-矩陣乘的并行優(yōu)化是有意義的。

    3 混合并行大規(guī)模區(qū)域分解方法

    區(qū)域分解將網(wǎng)格劃分后的元素進(jìn)行聚合,得到粗粒度任務(wù),是基于譜元法進(jìn)行并行求解的必要過程(圖2),其最終目的是使各分區(qū)內(nèi)的網(wǎng)格數(shù)量相近以滿足均衡的計算負(fù)載,以及使各分區(qū)之間的共享邊界較少以滿足較低的通信頻率。而找到同時滿足這兩個條件的算法是一個NPC問題[18],即無法在多項式時間內(nèi)找到最優(yōu)解,遞歸譜二分法是對該問題較好的近似。

    圖2 基于譜元法的并行求解算法必要流程Fig.2 Essential process of parallel solution algorithm based on spectral element method

    3.1 遞歸譜二分法原理

    遞歸譜二分法根據(jù)網(wǎng)格對偶圖的拉普拉斯矩陣對應(yīng)的特征值來進(jìn)行分割,拉普拉斯矩陣為圖的度矩陣與鄰接矩陣的差值。首先使用Lanczos算法計算拉普拉斯矩陣的等效三對角矩陣,根據(jù)三對角矩陣計算費德勒向量,然后對費德勒向量頂點進(jìn)行排序,給每個子域分配近似1/2的頂點,得到兩個子域,在每個子域上遞歸該過程直到分區(qū)數(shù)達(dá)到設(shè)定的值。費德勒向量的含義是圖的拉普拉斯矩陣的次小特征值λ2對應(yīng)的特征向量X2,F(xiàn)iedler[19-20]證明了X2的兩個特殊性質(zhì)。

    性質(zhì)1:由費德勒向量劃分的子圖是連通的。子圖連通可一定程度上減小劃分的割數(shù),如圖3a為子圖連通情況,其割為1;圖3b子圖不連通,其割為2。

    a——子圖連通,割為1;b——子圖不連通,割為2圖3 費德勒向量性質(zhì)1Fig.3 The first property of Federer vectors

    性質(zhì)2:費德勒向量分量的值近似1/2為正,1/2為負(fù)。該性質(zhì)可基本保持子圖之間的負(fù)載均衡,如圖4a為1對偶圖A,根據(jù)A的拉普拉斯矩陣L(A)可得到圖4c的費德勒向量xA,該向量中每個分量對應(yīng)于圖中1個節(jié)點,分量為正與分量為負(fù)的節(jié)點分別劃分到兩個子圖即得圖4d中的分區(qū)結(jié)果。

    a——對偶圖A;b——A的拉普拉斯矩陣L(A);c——L(A)的費德勒向量xA;d——由xA分量符號得到的分區(qū)結(jié)果圖4 費德勒向量性質(zhì)2Fig.4 The second property of Federer vectors

    費德勒向量的兩個特殊性質(zhì)在圖的最小割與負(fù)載均衡之間做了平衡,因此遞歸譜二分法是一種質(zhì)量相對高的區(qū)域分解算法。

    3.2 遞歸譜二分法MPI/OpenMP混合并行實現(xiàn)

    基于遞歸譜二分法的網(wǎng)格區(qū)域分解適合于數(shù)據(jù)并行,但各分區(qū)操作同一全局?jǐn)?shù)組的過程中產(chǎn)生了數(shù)據(jù)相關(guān)。根據(jù)該特點,設(shè)計并行算法使用MPI通信消除子域之間的數(shù)據(jù)相關(guān)性,算法依功能劃分為3部分:單次圖劃分、進(jìn)程擴(kuò)展、結(jié)果回收。

    單次圖劃分的作用是劃分得到兩個子圖,通過多次調(diào)用可完成單個進(jìn)程內(nèi)的圖劃分任務(wù),劃分過程見3.1節(jié)。圖5示出使用4個進(jìn)程并行地將12個網(wǎng)格劃分到8個子域,其中進(jìn)程0、2、4、6分別進(jìn)行了3、2、1、1次單次圖劃分過程。

    圖5 MPI并行遞歸譜二分法流程Fig.5 MPI parallel recursive spectrum bisection algorithm process

    進(jìn)程擴(kuò)展的作用是將單次圖劃分得到的子圖分散到其他進(jìn)程,實現(xiàn)并行劃分。程序的開始僅有0號進(jìn)程進(jìn)行單次圖劃分,得到兩個子圖后,保留1個子圖,將相關(guān)的全局?jǐn)?shù)組通過MPI發(fā)送給編號為2depth+Rank(depth為當(dāng)前圖劃分深度,Rank為當(dāng)前進(jìn)程在通信域內(nèi)的編號)的進(jìn)程,隨后啟動進(jìn)程Rank與2depth+Rank開始劃分子圖。圖5第1次擴(kuò)展過程中,0號進(jìn)程擴(kuò)展了2號進(jìn)程。所有擴(kuò)展啟動的進(jìn)程將具有與主進(jìn)程相同的進(jìn)程擴(kuò)展方式,即并行規(guī)模隨著子圖劃分層次深入而增大,活動進(jìn)程的數(shù)量為2的冪次。

    結(jié)果回收的作用是將分散到其他進(jìn)程的子圖劃分結(jié)果回收整合,得到整體的劃分結(jié)果。由于同一個進(jìn)程可能多次向編號不同的進(jìn)程發(fā)送數(shù)據(jù)進(jìn)行擴(kuò)展,數(shù)據(jù)的接收也需要根據(jù)發(fā)送的順序反向依次執(zhí)行,因此借助堆棧實現(xiàn)結(jié)果回收:在發(fā)送的過程中逐個將目標(biāo)進(jìn)程的進(jìn)程號壓入棧中,保證回收過程中子圖的劃分層次從下至上產(chǎn)生合并。除0號進(jìn)程與最底層進(jìn)程外,其他進(jìn)程在結(jié)果回收過程中需完成兩個操作:收集下層子圖劃分結(jié)果與向上級進(jìn)程返回結(jié)果。

    除粗粒度MPI并行設(shè)計外,對程序計算熱點使用OpenMP進(jìn)行細(xì)粒度并行,可較好地利用兩種模型的優(yōu)點,使程序得到更好的性能。使用性能測試工具gprof對基于譜二分法的Nek5000的區(qū)域分解模塊進(jìn)行執(zhí)行概要分析后,發(fā)現(xiàn)稀疏矩陣向量乘函數(shù)ax占用了程序總體運行時間的46%,且函數(shù)本身執(zhí)行時間較高,因此可并行化函數(shù)ax來加速迭代。函數(shù)ax的調(diào)用主要發(fā)生在Lanczos計算過程中,計算相似三對角矩陣時每次迭代均會出現(xiàn)原對稱矩陣與正交列向量的乘法操作。由于ax處理的是非常稀疏而行內(nèi)元素分布均勻的矩陣,實際非零元素數(shù)量很低,可采用OpenMP共享內(nèi)存多線程并行。

    串行稀疏矩陣向量乘函數(shù)ax中矩陣存儲使用CSR(compressed sparse row)格式。為節(jié)省內(nèi)存,CSR通過3個數(shù)組va、ja、ia來存儲矩陣中的非零元素。其中va數(shù)組存儲非零元素的值,ja數(shù)組存儲非零元素列下標(biāo),ia數(shù)組最后1位存儲非零元素總個數(shù),其他位是每行第1個非零元素在va數(shù)組中的索引?;贑SR格式的稀疏矩陣向量乘法由兩重循環(huán)構(gòu)成,外層循環(huán)按行遍歷,內(nèi)層循環(huán)讀取ia數(shù)組中的下標(biāo)范圍后按下標(biāo)范圍進(jìn)行遍歷,循環(huán)內(nèi)操作矩陣中的非零元素與對應(yīng)向量中的元素相乘及累加,最終按行編號順序逐步得到結(jié)果向量。

    并行的思路在于對循環(huán)進(jìn)行拆解,由于區(qū)域分解問題中處理的稀疏矩陣每一行非零元素數(shù)量對應(yīng)網(wǎng)格相連的其他網(wǎng)格數(shù)量,從網(wǎng)格模型生成角度看這一數(shù)值大致相近,因此拆解外層循環(huán)并給各線程分配相同行數(shù)可保證基本的負(fù)載均衡。圖6為OpenMP任務(wù)劃分示意圖,其中avg=總行數(shù)/線程數(shù)量,即平均每個線程負(fù)責(zé)計算的行數(shù)。另外隨著圖劃分層次的加深,稀疏矩陣向量乘的規(guī)模不斷下降,計算耗時不足以掩蓋線程開銷,并行后的ax函數(shù)反而比串行函數(shù)消耗時間更大,因此設(shè)置了合理的閾值,舍棄小于該閾值的計算加速以在整體上獲得更好的性能。

    圖6 OpenMP任務(wù)劃分示意圖Fig.6 OpenMP task division diagram

    3.3 并行效果測試

    混合并行大規(guī)模區(qū)域分解方法在天河二號超級計算機(jī)上進(jìn)行一系列實驗測試,包括使用MPI并行算法與Nek5000串行遞歸譜二分法的運行時間對比測試、MPI并行算法與MPI+OpenMP混合并行算法的運行時間對比測試。

    圖7a示出Nek5000的區(qū)域分解模塊與僅經(jīng)過MPI優(yōu)化的并行譜二分程序運行時間對比。選用從20萬網(wǎng)格到1 000萬網(wǎng)格的8種網(wǎng)格規(guī)模(此處網(wǎng)格指譜元而非配置點),在8進(jìn)程(8個物理核)運行的條件下,MPI優(yōu)化的并行譜二分程序相對于Nek5000的網(wǎng)格劃分模塊運行速度有明顯提升。劃分1 000萬網(wǎng)格Nek5000需超過11 h,而MPI優(yōu)化后的程序僅需55 min。為測試并行效率,在1 000萬網(wǎng)格下分別使用8進(jìn)程、16進(jìn)程、32進(jìn)程進(jìn)行測試,加速比分別為10.1、16.5、24.9,并行效率分別為1.26、1.03、0.77。并行效率不斷下降的原因是進(jìn)程擴(kuò)展必須在最初的幾次圖劃分結(jié)束后才能完成,而最初的圖劃分矩陣規(guī)模也是最大的,耗時占總時間較大比重,這部分消耗的時間無法隨著進(jìn)程數(shù)的增加而減小。測試過程中出現(xiàn)并行效率超過1的情況是開啟編譯器優(yōu)化帶來的額外性能提升。

    在圖7a的基礎(chǔ)上,增加MPI并行算法與MPI+OpenMP混合并行算法的運行時間對比,如圖7b所示。混合并行算法在同樣8進(jìn)程運行條件下,每個進(jìn)程分配12個線程,共96個物理核心,可發(fā)現(xiàn)在原有MPI并行基礎(chǔ)上提升了30%~50%運行效率。劃分1 000萬網(wǎng)格混合并行程序?qū)r間進(jìn)一步縮短到34 min,相較于Nek5000的網(wǎng)格劃分模塊性能提升約95%。但此時并行效率僅0.21,這是由于OpenMP并行優(yōu)化算法存在適用閾值,當(dāng)圖劃分層次的加深到規(guī)模較小的矩陣時停止使用OpenMP,因此處理器占用率實際較低。

    a——串行與MPI并行遞歸譜二分程序的運行時間;b——MPI優(yōu)化與混合優(yōu)化的運行時間圖7 不同網(wǎng)格規(guī)模(譜元數(shù))運行時間對比(處理器Xeon E5-2692V2,單節(jié)點內(nèi)存64G)Fig.7 Running time comparison (processor Xeon E5-2692V2, single node memory 64G)

    混合并行大規(guī)模區(qū)域分解方法在并行過程中僅利用了主核CPU的計算能力,因此可兼容各超算平臺,但由于上述提到的最初圖劃分矩陣規(guī)模最大以及矩陣規(guī)模隨圖劃分層次加深變小的問題,算法可擴(kuò)展性不高。對于計算熱點稀疏矩陣向量乘的優(yōu)化,即使將OpenMP方法替換為面向異構(gòu)眾核(如神威·太湖之光)或異構(gòu)加速器(如曙光計算云、天河二號)的優(yōu)化,也僅能在一定程度上提高資源利用率,算法可擴(kuò)展性不會得到明顯提升。這是由于主核與其他從核/加速器之間存在通信開銷,同樣需舍棄小于適用閾值的矩陣的計算加速,該問題目前難以避免。

    4 面向申威眾核架構(gòu)的并行優(yōu)化技術(shù)

    4.1 SW26010介紹

    神威·太湖之光由40 960塊自主研發(fā)的SW26010異構(gòu)眾核處理器組成,每個處理器包含4個核組(core group, CG),260個異構(gòu)核心[21]。如圖8所示,單個核組由1個控制核心(manage processing element, MPE)和運算核心(computing processing element, CPE)陣列(8×8網(wǎng)格結(jié)構(gòu))組成,每個CPE有16 KB的L1指令緩存和64 KB的用戶可編程片上存儲(scratch-pad memory, SPM),MPE和CPE共同共享8 GB內(nèi)存地址空間。

    圖8 SW26010的架構(gòu)Fig.8 Architecture of SW26010

    4.2 小矩陣乘面向SW26010的并行優(yōu)化技術(shù)

    基于譜元法求解N-S方程的計算核心是底層的矩陣-矩陣乘。以Nek5000為例,使用性能測試工具gprof對整體程序進(jìn)行執(zhí)行概要分析,結(jié)果顯示矩陣-矩陣乘子函數(shù)mxf24、mxf8、mxf10需要60%以上的執(zhí)行時間,而mxfN函數(shù)為Nek5000的計算熱點,其中N(N∈[1,24])代表譜元法的階數(shù)。在計算過程中,僅有以下3種矩陣乘法形式出現(xiàn)(Cn1×n3=An1×n2Bn2×n3):1)n1=N,n2=N,n3=N;2)n1=N2,n2=N,n3=N;3)n1=N,n2=N,n3=N2。

    出于對矩陣規(guī)模的考量,針對情況1在主核進(jìn)行MPE向量化,針對情況2、3考慮使用從核進(jìn)行CPE移植優(yōu)化。

    1) MPE向量化

    對于情況1,每個矩陣的規(guī)模過小,不適合在CPE上進(jìn)行優(yōu)化,因此在MPE內(nèi)部利用SIMD向量化和指令級并行。MPE和CPE提供256位的SIMD擴(kuò)展部件,所以在MPE或CPE中可同時計算8個整型(32位)或4個雙精度浮點數(shù)(64位)。SW26010處理器提供了直接調(diào)用的對界SIMD接口(simd_load/simd_store),該接口要求標(biāo)準(zhǔn)類型變量為32字節(jié)對界,而Nek5000經(jīng)sw5編譯后標(biāo)準(zhǔn)類型變量按照16字節(jié)對界,直接使用該接口會導(dǎo)致內(nèi)存訪問異常,處理器產(chǎn)生冗余操作將不對界的數(shù)據(jù)拆分成標(biāo)準(zhǔn)類型數(shù)據(jù)后再進(jìn)行加載/存儲,大幅降低了向量化求解的性能。而使用不對界的SIMD接口(simd_loadu/simd_storeu)可避免引入冗余操作。

    Nek5000中矩陣乘代碼由Fortran語言編寫。Fortran中的數(shù)組是按列優(yōu)先存儲的,矩陣B和C的訪問是連續(xù)的,而矩陣A的訪問是不連續(xù)的。因此在計算前將A轉(zhuǎn)置,以便通過提供對內(nèi)存的連續(xù)訪問來提高SIMD性能。另外,矩陣乘法的內(nèi)循環(huán)次數(shù)固定為N,可通過手動展開N個內(nèi)部循環(huán)來激活指令流水線。

    2) CPE移植優(yōu)化

    情況2中的矩陣A和情況3中的矩陣B規(guī)模足夠大,可以并行處理。通過將矩陣塊的計算分配給M(M∈[1,64])個CPE以利用數(shù)據(jù)并行性,該過程需考慮數(shù)據(jù)的傳遞方式。SW26010在CPE的主存和LDM之間提供了兩個內(nèi)存訪問方式:gload/gstore和DMA。對于第1種方式,gload/gstore接口不考慮數(shù)據(jù)局部性,僅提供8 GB/s的物理帶寬。相比之下,DMA可通過64個CPE連續(xù)訪問大量數(shù)據(jù)來實現(xiàn)30.94 GB/s的有效帶寬。在使用DMA將數(shù)據(jù)移動到LDM之前,需考慮矩陣A如何移動。在文獻(xiàn)[22]的工作中,DMA和CPE的能力未被充分考慮,所以矩陣A在MPE中被轉(zhuǎn)置后才被傳遞到計算中,本文分兩種情況提出新的矩陣傳遞方式。

    對于情況2,矩陣A的規(guī)模較大,因此將A劃分為多個數(shù)據(jù)塊并均勻分布到M個CPE上,每個CPE負(fù)責(zé)A的多行以實現(xiàn)負(fù)載均衡。SW26010的DMA有兩種訪問方式:連續(xù)訪問方式與跨步訪問方式。根據(jù)Jiang等[23]的總結(jié)報告,當(dāng)數(shù)據(jù)大于512 B時,跨步訪問方式的帶寬與連續(xù)訪問基本一致。由于Fortran是列優(yōu)先存儲的,而矩陣A劃分后的子數(shù)據(jù)塊基本大于512 B,因此每個CPE使用跨步訪問的DMA來讀取A的子數(shù)據(jù)塊。數(shù)據(jù)傳遞到CPE的LDM后,考慮到計算時能連續(xù)讀取數(shù)據(jù)塊,將傳遞來的A的子數(shù)據(jù)塊進(jìn)行轉(zhuǎn)置以提高性能。矩陣B足夠小,可直接傳遞給每個CPE,并且在計算過程中滿足連續(xù)的內(nèi)存訪問。計算完成后,矩陣C通過跨步訪問DMA方式返回到原地址,傳遞過程如圖9a所示。對于情況3,矩陣B可均分為多個列,這些列通過DMA以連續(xù)內(nèi)存訪問的方式傳遞到每個CPE中。矩陣A加載到LDM中,計算完成后,矩陣C通過連續(xù)訪問DMA方式返回其原始地址,傳遞過程如圖9b所示。

    a——情況2的矩陣-矩陣乘優(yōu)化;b——情況3的矩陣-矩陣乘優(yōu)化圖9 數(shù)據(jù)傳遞過程Fig.9 Data transfer process

    SW26010的CPE中同樣存在SIMD接口,并且傳遞到LDM的矩陣滿足double類型變量32 B對界,因此從核中可使用對界的SIMD接口來加速計算。對于mxfN(N%4=0),需在傳輸前對矩陣A進(jìn)行轉(zhuǎn)置,以便連續(xù)加載到矢量寄存器中,提高SIMD性能。

    4.3 性能測試

    為驗證小矩陣乘優(yōu)化后軟件整體的性能,在神威·太湖之光超算上進(jìn)行單處理器、多處理器性能優(yōu)化測試以及強(qiáng)擴(kuò)展性和弱擴(kuò)展性測試。

    1)性能優(yōu)化測試

    首先測試了在單處理器中,不同多項式階數(shù)(譜元階數(shù))和譜單元個數(shù)下小矩陣乘優(yōu)化的性能特征。表1列出優(yōu)化前Nek5000在MPE中運行的結(jié)果。從表1可知,多項式階數(shù)(N)和每個CG分配的譜單元個數(shù)(E)均會影響程序執(zhí)行時間。隨著N和E的增加,程序的執(zhí)行時間也會逐漸增加。表2列出經(jīng)過矩陣-矩陣乘優(yōu)化后的執(zhí)行結(jié)果。結(jié)合表1數(shù)據(jù)可得到圖10。圖10a為N固定為12時,性能隨著E增加的提升幅度為6%~8%,提升并不明顯,圖10b為E固定為16時,性能隨著N增加的提升幅度為6%~47%,提升較為明顯。因此矩陣-矩陣乘優(yōu)化方法對多項式階數(shù)更為敏感。另外由圖10b可知,當(dāng)N=10或N=8時,矩陣-矩陣乘優(yōu)化后的性能相比優(yōu)化之前的版本反而有所下降。這是由于該方法依賴矩陣規(guī)模,對于規(guī)模過小的矩陣將其切分并傳輸?shù)紺PE進(jìn)行計算的時間遠(yuǎn)大于直接在MPE上計算的時間,因此該方法適合N≥12的情況。

    a——每個CG中不同譜單元個數(shù)對性能的影響;b——多項式階數(shù)對性能的影響圖10 性能提升百分比Fig.10 Percentage performance improvement

    表1 優(yōu)化前Nek5000在MPE中執(zhí)行時間Table 1 Execution time of Nek5000 in MPE before optimization

    表2 矩陣-矩陣乘優(yōu)化方法的執(zhí)行時間Table 2 Execution time of matrix-matrix multiplication optimization method

    圖11a示出單處理器中多種譜元階數(shù)(N)下不同的CPE數(shù)對程序性能的影響,其中譜單元個數(shù)(E)固定為16。圖中橫虛線代表了優(yōu)化前Nek5000在MPE中的執(zhí)行時間,觀察可知當(dāng)開啟的CPE數(shù)量太少時(如4個),性能比優(yōu)化前反而有所下降;隨著CPE個數(shù)的增加,性能優(yōu)化逐漸達(dá)到瓶頸,因此最佳選擇是使用32個CPE。

    a——不同CPE數(shù)量下多種N的執(zhí)行時間;b——不同CG下優(yōu)化前后的執(zhí)行時間圖11 運行時間對比(處理器SW26010,單節(jié)點內(nèi)存32 G)Fig.11 Running time comparison (processor SW26010, single node memory 32 G)

    進(jìn)一步使用多處理器對優(yōu)化前與優(yōu)化后的性能進(jìn)行測試。圖11b示出在64個CG(每個CG使用32個CPE)、128個CG、256個CG、512個CG下的性能對比。其中譜單元的個數(shù)是1 872,多項式階數(shù)為24,在每次迭代過程中,壓力步和速度步各迭代50次,共運行150步。相比未優(yōu)化版本,矩陣-矩陣乘優(yōu)化方法在64個CG下性能提升51.9%,隨著CG數(shù)的增加,每個CG中分配到的譜單元減少,擴(kuò)展到512個CG時仍維持49.7%的性能增長。

    2) 擴(kuò)展性測試

    圖12a示出優(yōu)化后程序的強(qiáng)可擴(kuò)展性。測試規(guī)模為621 610個譜單元,多項式階數(shù)為12,壓力步迭代10次,速度步迭代50次,共迭代次數(shù)為20。擴(kuò)展性的測試范圍為2 560個CG、5 120個CG、10 240個CG、20 480個CG??蓮膱D中看到,隨著CG的增加,并行效率逐漸下降,擴(kuò)展到20 480個CG(1 331 200核)時并行效率仍有77%。圖12b示出優(yōu)化后程序的弱可擴(kuò)展性,并行效率以160 個CG為基準(zhǔn),擴(kuò)展至5 120個CG,譜單元的范圍是42 444、84 888、169 776、339 552、679 104、1 358 208。對比強(qiáng)擴(kuò)展性來說,弱可擴(kuò)展性有更高的并行效率,擴(kuò)展到5 120個CG(332 800核)時并行效率可達(dá)92.4%。

    a——強(qiáng)擴(kuò)展性測試;b——弱擴(kuò)展性測試圖12 擴(kuò)展性測試(處理器SW26010,單節(jié)點內(nèi)存32 G)Fig.12 Scalability testing (processor SW26010, single node memory 32 G)

    5 結(jié)論及下一步工作

    熱工流體模擬是數(shù)值反應(yīng)堆的重要組成部分,為實現(xiàn)高精細(xì)、大規(guī)模的熱工流體CFD模擬,本文提出了一種混合并行大規(guī)模區(qū)域分解方法,建立了一套以小矩陣乘為核心的面向申威眾核架構(gòu)的并行優(yōu)化技術(shù),并分別在天河二號和神威·太湖之光超算上進(jìn)行了測試。實驗結(jié)果顯示,混合并行大規(guī)模區(qū)域分解方法在8進(jìn)程、12線程條件下,劃分同等規(guī)模網(wǎng)格性能較開源CFD軟件Nek5000的串行區(qū)域分解模塊提升約95%;面向申威的小矩陣乘并行優(yōu)化技術(shù)性能在64個CG下較Nek5000提高了51.9%。目前兩種技術(shù)均在中國數(shù)值反應(yīng)堆核心軟件CVR-PACA中得以應(yīng)用。

    下一步,面對國際上高端信息技術(shù)創(chuàng)新和競爭的制高點——E級超算,本文中的兩種方法需要做適應(yīng)修改。E級計算系統(tǒng)總體并行度將達(dá)到千萬量級,極大規(guī)模并行所帶來的復(fù)雜性使應(yīng)用程序需能表示所有異構(gòu)層次的內(nèi)在并行性并充分利用多級內(nèi)存層次結(jié)構(gòu)?;旌喜⑿写笠?guī)模區(qū)域分解方法中,MPI+OpenMP的并行模式最大程度利用了主核CPU的計算能力,但未能充分發(fā)揮E級超算中輔助計算核的算力,因此下一步對計算熱點稀疏矩陣向量乘的優(yōu)化可將OpenMP方法替換為面向異構(gòu)眾核(神威E級超算)或異構(gòu)加速器(曙光E級超算、天河E級超算)的優(yōu)化;面向申威眾核架構(gòu)的并行優(yōu)化方法能發(fā)揮神威E級超算的異構(gòu)架構(gòu)優(yōu)勢,使用了矩陣轉(zhuǎn)置、跨步訪問等技巧實現(xiàn)內(nèi)存的連續(xù)訪問,但對于多級內(nèi)存層次的利用不夠充分,可利用L1 Cache(一級緩存)等緩存部件進(jìn)一步加速求解。除此之外,下一步計劃依據(jù)實際的數(shù)值反應(yīng)堆需求設(shè)計自主的基于譜元法的并行CFD軟件系統(tǒng)。

    猜你喜歡
    二分法子圖元法
    基于二進(jìn)制/二分法的ETC狀態(tài)名單查找算法
    “二分法”求解加速度的分析策略
    “二分法”求解加速度的分析策略
    換元法在解題中的運用
    基于離散元法的礦石對溜槽沖擊力的模擬研究
    臨界完全圖Ramsey數(shù)
    估算的妙招——“二分法”
    基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
    換元法在解題中的應(yīng)用
    “微元法”在含電容器電路中的應(yīng)用
    超碰97精品在线观看| 亚洲综合色网址| 亚洲av电影在线观看一区二区三区| 大片电影免费在线观看免费| 视频中文字幕在线观看| 香蕉精品网在线| 另类亚洲欧美激情| 国产伦精品一区二区三区视频9| 久久影院123| av线在线观看网站| 这个男人来自地球电影免费观看 | 日韩,欧美,国产一区二区三区| 搡女人真爽免费视频火全软件| 国产精品一二三区在线看| 三级国产精品欧美在线观看| 国产男女内射视频| av线在线观看网站| 国产一区二区三区av在线| 下体分泌物呈黄色| 国产精品.久久久| 搡老乐熟女国产| 午夜视频国产福利| 日本wwww免费看| 晚上一个人看的免费电影| 亚洲精品久久久久久婷婷小说| 秋霞在线观看毛片| 18在线观看网站| 最近的中文字幕免费完整| 91精品一卡2卡3卡4卡| 精品亚洲成国产av| 精品久久久久久电影网| 久久婷婷青草| 亚洲国产精品999| 国产 一区精品| 久久精品久久久久久久性| 久久人妻熟女aⅴ| 一本一本综合久久| 九九在线视频观看精品| 精品久久久精品久久久| 插逼视频在线观看| 免费观看的影片在线观看| 国产一区二区三区综合在线观看 | 69精品国产乱码久久久| 亚洲熟女精品中文字幕| 夜夜骑夜夜射夜夜干| 国产高清国产精品国产三级| 亚洲国产精品一区三区| 国产成人av激情在线播放 | 九九在线视频观看精品| 亚洲精品视频女| 大香蕉久久成人网| 亚洲情色 制服丝袜| 2021少妇久久久久久久久久久| 免费日韩欧美在线观看| 亚洲av在线观看美女高潮| 国产亚洲精品久久久com| 一区二区三区四区激情视频| 亚洲,一卡二卡三卡| 日日爽夜夜爽网站| 丰满饥渴人妻一区二区三| 亚洲av成人精品一区久久| 国产一区二区三区综合在线观看 | 日韩中字成人| 欧美另类一区| 国产视频内射| 日本欧美视频一区| 最近中文字幕2019免费版| 91国产中文字幕| 91久久精品国产一区二区三区| 精品久久久精品久久久| 精品一区二区三区视频在线| 中文字幕久久专区| 日本-黄色视频高清免费观看| 26uuu在线亚洲综合色| 日韩强制内射视频| 亚洲四区av| 久久精品国产a三级三级三级| 久久久欧美国产精品| 欧美精品一区二区大全| 午夜激情久久久久久久| 国产精品国产三级国产专区5o| 免费黄网站久久成人精品| 久久av网站| 人体艺术视频欧美日本| 国产成人免费观看mmmm| 免费日韩欧美在线观看| 男人添女人高潮全过程视频| 日韩一本色道免费dvd| 日韩大片免费观看网站| 王馨瑶露胸无遮挡在线观看| 一个人免费看片子| 人体艺术视频欧美日本| 国产男女内射视频| 简卡轻食公司| 又黄又爽又刺激的免费视频.| 国产在线免费精品| 欧美bdsm另类| 天美传媒精品一区二区| 99热全是精品| 日本欧美视频一区| 日韩一本色道免费dvd| 日韩三级伦理在线观看| 国产精品一区www在线观看| 丁香六月天网| 国产免费现黄频在线看| 国产一区二区在线观看av| 天美传媒精品一区二区| 国产乱人偷精品视频| 一个人看视频在线观看www免费| 两个人的视频大全免费| 亚洲欧洲精品一区二区精品久久久 | 免费观看av网站的网址| 国产精品国产三级国产av玫瑰| 啦啦啦视频在线资源免费观看| 最近的中文字幕免费完整| 秋霞伦理黄片| 人成视频在线观看免费观看| √禁漫天堂资源中文www| 大香蕉97超碰在线| 欧美一级a爱片免费观看看| 亚洲欧美精品自产自拍| 又粗又硬又长又爽又黄的视频| 在线观看免费高清a一片| 欧美丝袜亚洲另类| 国产在线免费精品| 亚洲av福利一区| 热re99久久国产66热| 麻豆乱淫一区二区| 99re6热这里在线精品视频| 亚洲精品日韩在线中文字幕| 91在线精品国自产拍蜜月| 青春草国产在线视频| 欧美激情 高清一区二区三区| 国产精品 国内视频| 精品午夜福利在线看| 丰满乱子伦码专区| 一本一本综合久久| 国产精品不卡视频一区二区| av播播在线观看一区| 丰满迷人的少妇在线观看| 51国产日韩欧美| 男人添女人高潮全过程视频| 这个男人来自地球电影免费观看 | 午夜福利视频在线观看免费| 男女啪啪激烈高潮av片| 精品一区在线观看国产| 男男h啪啪无遮挡| 国产在线一区二区三区精| 精品酒店卫生间| 亚洲国产av新网站| 一本大道久久a久久精品| 久久人人爽人人片av| 18+在线观看网站| 一级,二级,三级黄色视频| 亚洲精品国产色婷婷电影| 欧美日韩av久久| 国产色爽女视频免费观看| 我的老师免费观看完整版| 国产一区二区在线观看av| 亚洲av福利一区| a 毛片基地| 嘟嘟电影网在线观看| 男女无遮挡免费网站观看| 亚洲精品亚洲一区二区| 国产综合精华液| 精品99又大又爽又粗少妇毛片| 日韩,欧美,国产一区二区三区| 国产精品无大码| 美女福利国产在线| 国产高清三级在线| 久久99一区二区三区| 亚洲欧美成人综合另类久久久| 久久 成人 亚洲| 久久久久久久大尺度免费视频| 精品人妻熟女毛片av久久网站| 三级国产精品欧美在线观看| 观看美女的网站| 亚洲精品456在线播放app| 看十八女毛片水多多多| 亚洲av福利一区| 欧美3d第一页| 色网站视频免费| 我的女老师完整版在线观看| 国产 精品1| kizo精华| xxx大片免费视频| 成年人午夜在线观看视频| 在线播放无遮挡| 亚洲精品日韩av片在线观看| 丝袜脚勾引网站| 18+在线观看网站| 日韩精品有码人妻一区| 夜夜骑夜夜射夜夜干| 男人添女人高潮全过程视频| 欧美日韩在线观看h| 日本猛色少妇xxxxx猛交久久| 简卡轻食公司| 看免费成人av毛片| 精品久久久久久电影网| 熟女人妻精品中文字幕| 黄色欧美视频在线观看| 成人手机av| 桃花免费在线播放| 欧美精品亚洲一区二区| 伊人久久精品亚洲午夜| 大片电影免费在线观看免费| 亚洲成人一二三区av| 99视频精品全部免费 在线| 各种免费的搞黄视频| 精品一区二区三区视频在线| kizo精华| 国产成人免费观看mmmm| 亚洲欧美一区二区三区国产| 成年人免费黄色播放视频| 少妇人妻 视频| 亚洲国产最新在线播放| 99re6热这里在线精品视频| 日韩不卡一区二区三区视频在线| 午夜激情av网站| 久久久久国产网址| 少妇的逼好多水| 成人二区视频| 夜夜看夜夜爽夜夜摸| av天堂久久9| 亚洲国产欧美日韩在线播放| 狠狠婷婷综合久久久久久88av| 久久影院123| 欧美 日韩 精品 国产| 人妻夜夜爽99麻豆av| 男女国产视频网站| 少妇精品久久久久久久| 久久99蜜桃精品久久| 男女边吃奶边做爰视频| 精品人妻一区二区三区麻豆| 18在线观看网站| 王馨瑶露胸无遮挡在线观看| 亚洲精品一二三| 久久久久精品久久久久真实原创| 精品一区二区三区视频在线| 国产白丝娇喘喷水9色精品| 十分钟在线观看高清视频www| 亚洲欧美中文字幕日韩二区| 国产成人精品福利久久| 男女边吃奶边做爰视频| 精品亚洲乱码少妇综合久久| 永久免费av网站大全| 天堂8中文在线网| 成人二区视频| 边亲边吃奶的免费视频| 久久青草综合色| 精品亚洲成国产av| 男女啪啪激烈高潮av片| 欧美 亚洲 国产 日韩一| 天天影视国产精品| 日韩伦理黄色片| 2021少妇久久久久久久久久久| 十八禁网站网址无遮挡| 日本猛色少妇xxxxx猛交久久| 久久久久久久久久久丰满| 男的添女的下面高潮视频| 免费观看无遮挡的男女| 精品视频人人做人人爽| 哪个播放器可以免费观看大片| 99久久综合免费| 久久精品熟女亚洲av麻豆精品| 3wmmmm亚洲av在线观看| 成年人午夜在线观看视频| 少妇高潮的动态图| 中文字幕最新亚洲高清| 大又大粗又爽又黄少妇毛片口| 日本与韩国留学比较| 久久国产亚洲av麻豆专区| 少妇精品久久久久久久| 蜜臀久久99精品久久宅男| 美女xxoo啪啪120秒动态图| 一区二区三区免费毛片| 亚洲图色成人| 欧美日韩成人在线一区二区| 亚洲欧美日韩另类电影网站| 亚洲中文av在线| 精品久久国产蜜桃| 久久精品国产亚洲av天美| av网站免费在线观看视频| 美女xxoo啪啪120秒动态图| 中文字幕久久专区| 菩萨蛮人人尽说江南好唐韦庄| 性色av一级| 国产免费现黄频在线看| 一本—道久久a久久精品蜜桃钙片| 最近的中文字幕免费完整| 乱人伦中国视频| 黄片无遮挡物在线观看| 亚洲国产精品成人久久小说| 中文字幕人妻丝袜制服| 亚洲,一卡二卡三卡| 在线播放无遮挡| 十分钟在线观看高清视频www| 欧美 日韩 精品 国产| 午夜福利在线观看免费完整高清在| 啦啦啦中文免费视频观看日本| 久久久久久久亚洲中文字幕| 亚洲欧洲国产日韩| 啦啦啦啦在线视频资源| 亚洲av国产av综合av卡| 亚洲婷婷狠狠爱综合网| videosex国产| 久久午夜综合久久蜜桃| 97超碰精品成人国产| 国产国语露脸激情在线看| 人妻系列 视频| 99精国产麻豆久久婷婷| 精品卡一卡二卡四卡免费| 考比视频在线观看| av又黄又爽大尺度在线免费看| 18禁动态无遮挡网站| 午夜福利网站1000一区二区三区| 精品少妇内射三级| 亚洲性久久影院| 国产精品国产三级国产av玫瑰| 高清毛片免费看| 蜜臀久久99精品久久宅男| 欧美 亚洲 国产 日韩一| 伦精品一区二区三区| 午夜激情久久久久久久| 亚洲精品乱码久久久v下载方式| 最新的欧美精品一区二区| 最近中文字幕高清免费大全6| 久久久久久久国产电影| 久久久午夜欧美精品| 亚洲国产色片| 插逼视频在线观看| 能在线免费看毛片的网站| 国产成人一区二区在线| 亚洲国产精品一区三区| 亚洲人成网站在线观看播放| 欧美国产精品一级二级三级| 中文字幕人妻熟人妻熟丝袜美| 国产国语露脸激情在线看| 人妻系列 视频| 日韩一本色道免费dvd| 一区二区三区乱码不卡18| 久久久国产精品麻豆| 国产高清国产精品国产三级| 欧美老熟妇乱子伦牲交| 日韩av免费高清视频| 中文字幕久久专区| 免费不卡的大黄色大毛片视频在线观看| 丝瓜视频免费看黄片| 亚洲精品日韩在线中文字幕| 一区二区三区乱码不卡18| 成年人免费黄色播放视频| 夫妻午夜视频| 久久久a久久爽久久v久久| 人人妻人人澡人人看| 亚洲精品成人av观看孕妇| 天堂中文最新版在线下载| av国产精品久久久久影院| 99久久精品一区二区三区| 精品一区二区免费观看| 香蕉精品网在线| 亚洲中文av在线| 天堂8中文在线网| 日韩电影二区| 中文精品一卡2卡3卡4更新| 中文字幕免费在线视频6| 大香蕉久久成人网| 欧美精品亚洲一区二区| 老司机影院毛片| 热re99久久国产66热| 在线精品无人区一区二区三| 欧美国产精品一级二级三级| 久久久国产欧美日韩av| 爱豆传媒免费全集在线观看| 久热久热在线精品观看| 亚洲精品日韩在线中文字幕| 最近2019中文字幕mv第一页| 国产男女超爽视频在线观看| 色视频在线一区二区三区| 亚洲三级黄色毛片| 免费不卡的大黄色大毛片视频在线观看| 99热这里只有精品一区| 国产午夜精品久久久久久一区二区三区| 天美传媒精品一区二区| 蜜桃在线观看..| 在线观看三级黄色| 亚洲国产毛片av蜜桃av| 精品久久蜜臀av无| 乱人伦中国视频| 26uuu在线亚洲综合色| 国产亚洲精品久久久com| 成年美女黄网站色视频大全免费 | 午夜福利,免费看| 黑人高潮一二区| 欧美精品高潮呻吟av久久| 日韩不卡一区二区三区视频在线| 91精品国产九色| 午夜av观看不卡| 精品卡一卡二卡四卡免费| 国产成人精品福利久久| 午夜91福利影院| 蜜桃在线观看..| 97在线视频观看| 亚洲人成网站在线播| 午夜av观看不卡| 午夜免费鲁丝| 亚洲在久久综合| 丰满乱子伦码专区| 尾随美女入室| 9色porny在线观看| 伦理电影大哥的女人| 国产高清国产精品国产三级| 精品少妇黑人巨大在线播放| 日韩强制内射视频| 97超碰精品成人国产| a级毛片免费高清观看在线播放| 午夜免费观看性视频| 免费不卡的大黄色大毛片视频在线观看| 国产成人精品一,二区| 日日撸夜夜添| 成人综合一区亚洲| 亚洲一级一片aⅴ在线观看| 一级爰片在线观看| 成人国产av品久久久| xxxhd国产人妻xxx| 久久久欧美国产精品| 欧美另类一区| 高清视频免费观看一区二区| 一级二级三级毛片免费看| 国产在线视频一区二区| 国产av国产精品国产| 国产高清不卡午夜福利| 能在线免费看毛片的网站| 亚洲欧美一区二区三区黑人 | av又黄又爽大尺度在线免费看| 男女无遮挡免费网站观看| 亚洲精品乱久久久久久| 精品亚洲成a人片在线观看| 日韩不卡一区二区三区视频在线| 香蕉精品网在线| 哪个播放器可以免费观看大片| 成年av动漫网址| 五月伊人婷婷丁香| 成人二区视频| 五月伊人婷婷丁香| 久久精品国产鲁丝片午夜精品| 菩萨蛮人人尽说江南好唐韦庄| 高清在线视频一区二区三区| 亚洲av.av天堂| 一级爰片在线观看| 美女福利国产在线| 国产成人精品久久久久久| 51国产日韩欧美| 男人操女人黄网站| 18禁观看日本| 最近最新中文字幕免费大全7| 十八禁高潮呻吟视频| 97超视频在线观看视频| 欧美精品高潮呻吟av久久| a级毛片免费高清观看在线播放| 80岁老熟妇乱子伦牲交| 黑人欧美特级aaaaaa片| 99久久精品一区二区三区| 一级a做视频免费观看| 亚洲国产毛片av蜜桃av| 久久久久精品久久久久真实原创| 中文字幕制服av| 国产精品一国产av| 亚洲人成网站在线播| 日韩不卡一区二区三区视频在线| 国产日韩欧美亚洲二区| 777米奇影视久久| 日韩电影二区| 久久青草综合色| 精品酒店卫生间| 国产精品久久久久成人av| 纯流量卡能插随身wifi吗| av在线观看视频网站免费| 青春草国产在线视频| 婷婷色综合大香蕉| 亚洲国产成人一精品久久久| 欧美bdsm另类| 老熟女久久久| 精品久久久久久电影网| 久久久久久久亚洲中文字幕| 精品一区在线观看国产| 麻豆成人av视频| 国产免费一区二区三区四区乱码| 夜夜看夜夜爽夜夜摸| 女性被躁到高潮视频| 在线看a的网站| 亚洲国产最新在线播放| 亚洲国产精品一区二区三区在线| 最近的中文字幕免费完整| 久久99精品国语久久久| 久久久久久久大尺度免费视频| 亚洲怡红院男人天堂| 天天影视国产精品| 国产亚洲最大av| 精品久久久噜噜| 国产男女内射视频| 国产在线免费精品| 亚洲国产精品成人久久小说| 哪个播放器可以免费观看大片| 午夜福利视频在线观看免费| 在线观看国产h片| 国产精品一区二区三区四区免费观看| 2021少妇久久久久久久久久久| 国产精品国产三级专区第一集| 欧美日韩亚洲高清精品| 中文精品一卡2卡3卡4更新| 欧美人与善性xxx| 人妻人人澡人人爽人人| 亚洲精品日韩在线中文字幕| av线在线观看网站| 亚洲内射少妇av| 日韩,欧美,国产一区二区三区| 亚洲四区av| 欧美精品一区二区免费开放| 自线自在国产av| 国产亚洲午夜精品一区二区久久| 成年人免费黄色播放视频| 99久久精品国产国产毛片| 欧美日韩成人在线一区二区| 国产亚洲av片在线观看秒播厂| 国国产精品蜜臀av免费| 看十八女毛片水多多多| 51国产日韩欧美| 视频区图区小说| 国产免费又黄又爽又色| 人人妻人人添人人爽欧美一区卜| 日本-黄色视频高清免费观看| 久久久精品区二区三区| 亚州av有码| a级片在线免费高清观看视频| 一二三四中文在线观看免费高清| 国产免费一级a男人的天堂| 91精品国产九色| 国产精品人妻久久久影院| 久久av网站| 最近手机中文字幕大全| 欧美精品人与动牲交sv欧美| 国产欧美日韩一区二区三区在线 | 国语对白做爰xxxⅹ性视频网站| 国产永久视频网站| 韩国av在线不卡| 一级毛片 在线播放| 99久久精品一区二区三区| 国产成人av激情在线播放 | 亚洲一级一片aⅴ在线观看| 丝袜喷水一区| 久久综合国产亚洲精品| 高清视频免费观看一区二区| 国产成人a∨麻豆精品| 国产精品 国内视频| 美女视频免费永久观看网站| 成人国产av品久久久| 欧美老熟妇乱子伦牲交| 国产在视频线精品| 大话2 男鬼变身卡| 中文字幕亚洲精品专区| 亚洲国产精品专区欧美| 免费看不卡的av| 成人无遮挡网站| 欧美精品人与动牲交sv欧美| 欧美成人午夜免费资源| 一边亲一边摸免费视频| 人妻制服诱惑在线中文字幕| 一区二区三区乱码不卡18| 永久网站在线| 婷婷成人精品国产| 亚洲av成人精品一二三区| 午夜免费男女啪啪视频观看| 亚洲,一卡二卡三卡| 天天躁夜夜躁狠狠久久av| 啦啦啦啦在线视频资源| 又粗又硬又长又爽又黄的视频| a级片在线免费高清观看视频| 春色校园在线视频观看| 汤姆久久久久久久影院中文字幕| 99热这里只有精品一区| 亚洲av男天堂| 在线观看免费视频网站a站| 嫩草影院入口| 亚洲经典国产精华液单| 久久人人爽人人片av| 亚洲一级一片aⅴ在线观看| 亚洲精品一二三| 2021少妇久久久久久久久久久| 欧美亚洲 丝袜 人妻 在线| 丁香六月天网| 在线观看国产h片| 亚洲欧美一区二区三区黑人 | 久久综合国产亚洲精品| 三级国产精品欧美在线观看| 青春草国产在线视频| 亚洲av福利一区| 大香蕉久久网| 热99国产精品久久久久久7| 精品久久久久久久久亚洲| 一个人免费看片子| 亚洲,一卡二卡三卡| 寂寞人妻少妇视频99o| 18禁观看日本| 日本vs欧美在线观看视频| 尾随美女入室| 男人爽女人下面视频在线观看| 91aial.com中文字幕在线观看| 亚洲三级黄色毛片| 欧美日韩视频高清一区二区三区二| 亚洲欧美精品自产自拍| 99热6这里只有精品| 人人妻人人澡人人看| 97在线人人人人妻| 亚洲国产欧美在线一区| 尾随美女入室|