• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Silicon-Crystal應(yīng)用在SW26010處理器上的移植與優(yōu)化

    2021-05-24 09:01:16朱文強(qiáng)梁建國
    關(guān)鍵詞:優(yōu)化

    朱文強(qiáng),傅 游,梁建國,郭 強(qiáng),花 嶸

    1(山東科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)2(山東省計算中心(國家超級計算濟(jì)南中心),濟(jì)南 250101)

    E-mail:huarong@sdust.edu.cn

    1 引 言

    分子動力學(xué)(molecular dynamics,MD)[1]作為一個科學(xué)計算領(lǐng)域的重要應(yīng)用,它是高性能計算領(lǐng)域中具有很強(qiáng)代表性和挑戰(zhàn)性的問題之一.針對不同的體系結(jié)構(gòu),研究者在HPC平臺上提出各種技術(shù)進(jìn)行分子動力學(xué)的加速運算.

    2007年,James N.Glosli等[2]利用分子動力學(xué)實現(xiàn)了Kelvin-Helmholtz(KH)不穩(wěn)定性的首次微米級模擬,進(jìn)展主要體現(xiàn)在容錯、內(nèi)存優(yōu)化和高效并行3個方向;2009年,David E等[3]針對分子動力學(xué)模擬生物分子系統(tǒng),制造了一臺特殊的超級計算機(jī)Anton,特殊的硬件極大地提高了MD的計算速度;張勤勇等[4]分析討論了分子動力學(xué)模擬的算法特征和計算特點,采用基于消息傳遞的MPI設(shè)計平臺,在可擴(kuò)展機(jī)群上實現(xiàn)了并行化,獲得了90%以上的并行效率;趙文輝等[5]提出一種針對分子動力學(xué)的Atomreorder算法,通過重新調(diào)整粒子順序來增強(qiáng)程序的局部性,進(jìn)而減少Cache的丟失.

    隨著圖形處理單元(Graphics Processing Units,GPUs)功能的增強(qiáng),加之分子動力學(xué)大多為數(shù)據(jù)并行計算,非常適合在其上運行.Jens Glaser等[6]在GPU上對HOOMD-blue程序進(jìn)行并行優(yōu)化,最終較CPU取得了12.5倍的加速;楊決寬等[7]在GPU平臺提出了一種加速分子動力學(xué)仿真計算的方法,并計算了固體氬的導(dǎo)熱系數(shù),獲得10到11倍的加速;張帥等[8]在GPU平臺將分子動力學(xué)模擬中的原子劃分和空間劃分相結(jié)合,優(yōu)化了用于近程力計算的Cell Verlet算法.目前常見的分子動力學(xué)軟件NAMD,VMD,LAMMPS,AMBER,GROMACS等均已發(fā)布支持GPU計算的版本.硅材料作為半導(dǎo)體和太陽能電池行業(yè)的重要材料之一,非平衡分子動力學(xué)模擬是研究硅晶體熱物理性質(zhì)的有力工具,克服了體狀硅和硅納米線導(dǎo)熱系數(shù)的有限尺寸效應(yīng)[9].針對硅晶體分子動力學(xué)模擬,中科院過程所的侯超峰等[10,11]在GPUs上實現(xiàn)了優(yōu)化.

    在“神威·太湖之光”[12]上開展分子動力學(xué)研究的單位也較多.馬躍等[13]提出一種基于收斂策略的國產(chǎn)CPU性能測試模型;中國科學(xué)院過程工程研究所在此系統(tǒng)上對Cahn-Hilliard方程進(jìn)行并行優(yōu)化,將規(guī)模擴(kuò)展到了1,060萬核,雙精度浮點運算獲得了49.39PFlops性能[14];中國科學(xué)技術(shù)大學(xué)將納米級粒度分子動力學(xué)軟件NAMD在該系統(tǒng)上進(jìn)行移植和優(yōu)化,針對從核的結(jié)構(gòu)和主從核執(zhí)行關(guān)系對應(yīng)用進(jìn)行優(yōu)化,優(yōu)化后單個核組的性能較Intel Xeon E5-2650 v2提高3倍,但在擴(kuò)展性方面,至多可達(dá)到325萬核,仍需解決多節(jié)點性能與可擴(kuò)展性問題以及整機(jī)優(yōu)化、調(diào)度與負(fù)載平衡策略等問題[15];湖南大學(xué)從分子動力學(xué)算法出發(fā),針對SW26010的體系結(jié)構(gòu)特征,提出了一種基于簇粒子的新算法,然后逐步實現(xiàn)了3種仿真優(yōu)化方法:SW26010的并行擴(kuò)展、內(nèi)存訪問優(yōu)化和矢量化.經(jīng)過優(yōu)化處理后,在單個計算節(jié)點上實現(xiàn)了14倍加速,實驗中應(yīng)用了近24萬個計算節(jié)點(60萬核),獲得了近似線性的加速[16];山東大學(xué)在該系統(tǒng)上進(jìn)行了分子動力學(xué)軟件LAMMPS模擬,從4個方面進(jìn)行性能提升,優(yōu)化后單個計算節(jié)點的性能相當(dāng)于一百多個Intel Xeon E5-2650 v2的性能,使用16,384計算節(jié)點獲得了2.43Pflops性能[17];中國科學(xué)技術(shù)大學(xué)在該系統(tǒng)上重構(gòu)分子動力學(xué)應(yīng)用程序GROMACS,主要也是解決內(nèi)存帶寬限制的難題,最終單核組較主核版性能提升16倍,并且設(shè)法實現(xiàn)了300萬原子核移到798720個計算節(jié)點[18].

    以上分子動力學(xué)程序的移植與優(yōu)化都取得了較好的效果,但是本文是針對硅晶體分子動力學(xué)模擬程序的移植與優(yōu)化,原子結(jié)構(gòu)以及模擬算法都有較大不同,另外,硅晶體分子動力學(xué)模擬使用了更為復(fù)雜的多體Tersoff勢[19-21],使得程序在SW26010處理器上移植時內(nèi)存受限問題變得更加突出,移植難度加大.徐陽等[22]利用OpenACC將Silicon-Crystal應(yīng)用移植到神威太湖之光上,并進(jìn)行了數(shù)據(jù)流驅(qū)動任務(wù)圖并行化,但他們主要偏重于并行編程模型的研究,而本文主要研究的是Silicon-Crystal應(yīng)用基于MPI+Athread的并行移植與優(yōu)化,主要是通過將多種優(yōu)化方法相結(jié)合來克服SW26010內(nèi)存受限問題.

    2 背景介紹

    2.1 SW26010處理器

    “神威·太湖之光”計算機(jī)系統(tǒng)是由國家并行計算機(jī)工程技術(shù)研究中心自主技術(shù)研制的超級計算機(jī),該計算機(jī)系統(tǒng)峰值運算速度為125.43TFlop/s,功耗為15.37KW,整機(jī)內(nèi)存總?cè)萘繛?024TB,訪存總帶寬為4473.16TB/s.計算結(jié)點采用的是片上計算陣列集群和分布式共享儲存結(jié)合的SW26010異構(gòu)眾核處理器,處理器的頻率為1.45GHz,包括4個管理單元MPE、4個計算單元CPE及4個內(nèi)存控制器(Management Controller,MC)單元組成,其中每個CPE單元由8×8陣列的64核心組成,所以SW26010處理器共260個核心(4*64+4=260);每個核組有8GB本地內(nèi)存,4個核組共32GB內(nèi)存,每個運算核心有64KB的局部存儲器LDM,運算核心可以離散訪問主存,也可以通過 DMA方式將主存數(shù)據(jù)批量獲取到LDM中,同時運算核心陣列同行或同列還可以采用寄存器通信方式進(jìn)行通信.

    SW26010處理器加速線程庫(Athread庫)是針對主從加速編程模型所設(shè)計的程序加速庫.用戶通過調(diào)用Athread接口函數(shù)管理從核的計算和訪存,每個線程的創(chuàng)建、回收、調(diào)度控制和中斷異常管理等操作都需要用戶調(diào)用接口實現(xiàn),需要用戶更精細(xì)地編寫代碼,以避免造成線程阻塞.該方式提高了執(zhí)行效率,但也增加了調(diào)試難度和出錯率.

    2.2 Silicon-Crystal應(yīng)用介紹

    Silicon-Crystal應(yīng)用來源于晶體硅的結(jié)晶生長.隨著半導(dǎo)體行業(yè)以及太陽能電池行業(yè)的發(fā)展,對晶體硅的數(shù)量和質(zhì)量要求不斷提高,研究硅晶體生長以更加精確地指導(dǎo)硅晶體的生產(chǎn)具有重要的意義.硅晶體的每個原子周圍有4個近鄰的原子,4個近鄰原子之間構(gòu)成正四面體結(jié)構(gòu),中心原子處在正四面體結(jié)構(gòu)中心,其晶體結(jié)構(gòu)如圖1所示,硅晶體由這樣的四面體累積起來構(gòu)成金剛石結(jié)構(gòu).這4個鄰居原子的位置各自處于正四面體的4個頂角上,頂角上的原子與中心原子分別提供一個價電子為這兩個原子共同擁有,從而形成共價鍵,每個硅原子和周圍的4個原子組成4個共價鍵,所以硅晶體屬于原子晶體.

    圖1 硅晶體結(jié)構(gòu)示意圖Fig.1 Schematic diagram of silicon crystal structure

    Silicon-Crystal應(yīng)用運用MD方法分析了目前比較常用的勢函數(shù)在模擬硅晶體生長方面的差異,最終選定了Tersoff勢來描述硅晶體原子間的相互作用.Silicon-Crystal應(yīng)用的主要計算核心為計算Tersoff勢的TersoffPotent函數(shù),Tersoff勢是由Tersoff根據(jù)量子力學(xué)中鍵序的概念,基于簡單的量子力學(xué)理論而提出的原子間相互作用勢模型,為一種超級勢,能較好地描述硅的非正面體結(jié)構(gòu),Tersoff勢的主要表達(dá)式為:

    (1)

    (2)

    VR(r)=Aexp(-λ1r)

    (3)

    VA(r)=-Bexp(-λ2r)

    (4)

    其中,fc表示截斷函數(shù),Rij表示截斷半徑,rij表示原子i和j的距離,VR表示鄰居原子間的排斥力,VA表示鄰居原子間的吸引力,bij表示原子i與原子j間的鍵級.其它參數(shù)如表1所示.

    表1 Si的Tersoff勢函數(shù)參數(shù)表Table 1 Major parameters for Tersoff potential function

    3 Silicon-Crystal應(yīng)用在SW26010上的移植

    3.1 Roofline模型

    Roofline模型是一個可以將浮點性能、計算密度和存儲性能等關(guān)聯(lián)起來可視化的性能分析模型.針對特定硬件平臺的Roofline模型的建立可以指導(dǎo)該處理器上不同類型應(yīng)用程序的優(yōu)化.

    Roofline曲線取決于浮點性能峰值和內(nèi)存理論帶寬,本文針對SW26010處理器的浮點性能峰值和訪存帶寬分別進(jìn)行測試和計算.

    SW26010主從核均支持256b向量化指令,以及乘加融合指令,每個從核支持一條浮點數(shù)雙精度流水線,主核支持雙浮點數(shù)流水線.由此可得,SW26010的雙精度理論峰值性能為:

    主核:4×1.45×8×2=23.2GFlops

    從核:64×1.45×4×2=742.4GFlops

    SW26010處理器:4×23.2+4×742.4=3.06GFlops

    從以上計算結(jié)果可知,SW26010的算力主要集中在從核,所以SW26010上進(jìn)行應(yīng)用的移植主要是要發(fā)揮其從核的性能,因此接下來主要刻畫SW26010從核的訪存帶寬.從CPE角度看,CPE陣列的內(nèi)存層次結(jié)構(gòu)包括3個級別:與MPE共享的8GB主存、64KB SPM和寄存器.CPE陣列訪存方式主要有兩種:1)通過具有全局內(nèi)存地址的常用裝入/存儲指令(gld/gst)離散訪問主存;2)通過直接內(nèi)存訪問DMA方式訪問主存.

    通過STREAM Triad基準(zhǔn)測試測得訪問SPM的峰值帶寬最高為154.0GB/s,DMA方式訪存峰值帶寬為90.4GB/s,MPE訪存峰值帶寬為39.7GB/s,gld/gst方式訪存效果最差,峰值帶寬僅為5.92GB/s.

    根據(jù)上述數(shù)據(jù),可以得到SW26010處理器的Roofline性能曲線如圖2所示.

    3.2 移植原則

    結(jié)合SW26010處理器的Roofline模型與Silicon-Crystal程序的特征,確定了移植過程中4條需要遵循的原則.

    圖2 SW26010的Roofline模型Fig.2 Roofline model of SW26010

    1)Silicon-Crystal應(yīng)用是一個計算密集型的應(yīng)用,從Roofline模型構(gòu)建過程可知,SW26010處理器的主要算力在從核陣列,因此,應(yīng)盡量將應(yīng)用的熱點函數(shù)放在從核陣列上進(jìn)行計算,同時保證從核陣列負(fù)載平衡.

    2)從Roofline模型可以看出,SW26010有限的內(nèi)存帶寬(90.4GB/s)導(dǎo)致較高的每字節(jié)浮點運算比率(33.85Flops/Byte),超過 KNL(7.05Flops/Byte)的4倍多,而其處理器峰值性能(3.06TFLops)卻與Intel KNL 7290(3.46TFlops)相當(dāng),這意味著SW26010處理器強(qiáng)大的運算能力會受到內(nèi)存帶寬的限制.為避免使應(yīng)用變成訪存受限,必須充分利用內(nèi)存帶寬.為了最大程度地減小內(nèi)存訪問開銷,應(yīng)盡量限制隨機(jī)數(shù)據(jù)訪問.

    3)Silicon-Crystal應(yīng)用在計算過程中存在數(shù)據(jù)之間的依賴,為了使程序能夠更好的并行執(zhí)行,應(yīng)在并行前將依賴消除,同時,為提高數(shù)據(jù)的利用率和傳輸效率,盡量將所需數(shù)據(jù)提前準(zhǔn)備好.

    4)SW26010處理器從核沒有超越函數(shù)的處理單元,從核在進(jìn)行超越函數(shù)計算時存在離散訪問主存的情況,需要用合理的方式避免從核離散訪存導(dǎo)致的計算性能下降.

    3.3 主從核移植

    將Silicon-Crystal應(yīng)用移植到SW26010處理器,首先移植到SW26010處理器的單個主核上,然后設(shè)計合理的方案將熱點函數(shù)移植到從核進(jìn)行并行加速.Silicon-Crystal應(yīng)用移植工作主要分為3個步驟:主核移植、數(shù)據(jù)處理和從核移植.

    3.3.1 主核移植

    Silicon-Crystal應(yīng)用程序是基于C++開發(fā)的,SW26010處理器的主核可以直接對C++代碼進(jìn)行編譯,但從核卻不支持C++代碼的編譯,而且主核上的C++編譯器sw5CC不支持SIMD庫.因此,本文用C語言對Silicon -Crystal程序進(jìn)行重構(gòu).完成主核移植后,使用神威平臺自帶的gprof工具進(jìn)行測試,發(fā)現(xiàn)TersoffPotent函數(shù)和pow函數(shù)的總運行時間占程序總時間的91%,是程序的主要熱點,接下來將圍繞這兩個函數(shù)進(jìn)行從核并行化優(yōu)化.

    3.3.2 數(shù)據(jù)處理

    通過對初始數(shù)據(jù)中原子的位置及編號分析發(fā)現(xiàn)原子的編號呈現(xiàn)亂序,考慮到從核移植需要利用DMA方式將主存數(shù)據(jù)取到從核的LDM中,而利用DMA方式對主存進(jìn)行訪問時,訪問的是一塊連續(xù)的主存地址,所以,需要將亂序的數(shù)據(jù)進(jìn)行重新排序,以保證數(shù)據(jù)的連續(xù)性,提高后續(xù)從核移植時DMA效率.

    Silicon-Crystal應(yīng)用程序的計算數(shù)據(jù)是由N個亂序硅晶體原子信息構(gòu)成,其信息包含原子位置、速度、加速度、臨時加速度以及4個鄰居的編號,通過原子的位置信息可以得到所有原子均勻的分布在一個長方體空間內(nèi),其局部結(jié)構(gòu)如圖3(a)所示,每個原子的鄰居分布在原子周圍,原子與4個鄰居之間都構(gòu)成一個正四面體,結(jié)合這種特殊的結(jié)構(gòu),將數(shù)據(jù)按照原子位置所在的空間坐標(biāo)系先x,再y,后z的順序進(jìn)行編號,如圖3(b)所示,整理得到有序的原子數(shù)據(jù),同時從圖中可以看出,z方向上位移相同的原子會均勻的分布在一個平面上,且每個平面的原子編號是連續(xù)的,因此計算數(shù)據(jù)就可以看成是由多個這樣的平面組成的空間結(jié)構(gòu).

    圖3 原子與原子鄰居之間的空間結(jié)構(gòu)圖Fig.3 Spatial structure between particles and their neighbors

    計算數(shù)據(jù)重排序后的原子位置、速度、加速度、臨時加速度信息沒有發(fā)生改變,但是4個鄰居的編號發(fā)生了改變,為了防止原子與鄰居之間相互關(guān)系遭到破壞,用排序后的編號對應(yīng)更新鄰居表中排序前的編號,使每個原子都能通過鄰居表找到鄰居排序后的編號,所有的排序工作結(jié)束后,通過對每個原子的鄰居編號分析并結(jié)合上一段中由多個平面組成的空間結(jié)構(gòu)發(fā)現(xiàn),每個原子的4個鄰居位于原子所在面的前一面和后一面各兩個,如圖3(b)所示,31號原子的鄰居分別為前一面的13、16號和后一面的49、52號,而且相鄰編號的原子對應(yīng)的鄰居編號也是相鄰的,這是由硅晶體內(nèi)部原子間的結(jié)構(gòu)決定的,通過排序可以清楚地體現(xiàn)出數(shù)據(jù)的局部性和連續(xù)性.

    3.3.3 從核移植

    本節(jié)將對兩個熱點函數(shù)移植到從核進(jìn)行并行加速,主要步驟分為任務(wù)劃分與映射和依賴分析與消除.

    1)任務(wù)劃分與映射

    Silicon-Crystal應(yīng)用在計算時,每個原子的計算量大致相同,進(jìn)行從核移植時,為了從核之間負(fù)載均衡,將原子平均分配到64個從核進(jìn)行計算,又因為硅晶體原子在空間上有較強(qiáng)的局部性,所以選擇采用分塊的方式,將原子按空間劃分為64塊,每個從核計算一塊,充分利用原子的空間局部性.

    以131072個原子為例,每個從核負(fù)責(zé)計算131072/64=2048個原子,經(jīng)過3.3.2節(jié)對數(shù)據(jù)進(jìn)行處理后,原子根據(jù)Z方向上位移不同,劃分為128個平面,每一個平面包含1024個原子,任務(wù)劃分后,每個從核負(fù)責(zé)計算2048個原子,表明每兩個連續(xù)平面上的原子為一塊,分配到對應(yīng)的從核進(jìn)行計算.

    2)依賴分析與消除

    硅晶體原子之間的作用力是相互的,Tersoff勢求的是鄰居原子對原子本身的作用力所產(chǎn)生的加速度以及原子本身對鄰居原子的反向作用力產(chǎn)生的加速度,最終加速度是將原子所受的加速度以及反向加速度累加,由于不同原子的鄰居原子之間存在交集,移植到從核后鄰居原子的計算與原子本身的計算可能不在同一個從核上,如果兩個從核同時操作一塊主存空間,會導(dǎo)致數(shù)據(jù)出錯.例如A原子的鄰居是B原子,同時A原子也是B原子的鄰居,當(dāng)原子A與B在分配到兩個不同的從核上計算時,兩個從核都要對主存上的A、B原子信息進(jìn)行更改,此時就會產(chǎn)生A、B原子的寫后寫依賴.為了消除這種數(shù)據(jù)依賴關(guān)系,首先,通過變量重命名法將作用力與反作用力所產(chǎn)生的加速度實現(xiàn)分離,在從核中保存反作用力產(chǎn)生的加速度的副本而不直接更新加速度;其次,在主存開了64份冗余空間存放從核計算的反作用力產(chǎn)生的加速度,在從核計算結(jié)束后將數(shù)據(jù)傳回主存,由主核將其累加求得最終加速度,實現(xiàn)主核異步串行數(shù)據(jù)更新,從而避免寫后寫數(shù)據(jù)依賴.

    4 性能優(yōu)化

    4.1 LDM優(yōu)化

    Silicon-Crystal應(yīng)用在進(jìn)行Tersoff勢函數(shù)的計算時需要用到許多的計算參數(shù),其中就包含表一中的A(eV)、B(eV)、β、n、c等,如果在從核利用gld/gst直接訪問主存中的這些參數(shù),會導(dǎo)致訪問的延時較大,而且多個從核同時訪問時易出現(xiàn)擁堵現(xiàn)象,不利于程序的加速.而每個從核都有各自的LDM局存,從核訪問LDM的延時要遠(yuǎn)小于從核離散訪問主存的延時,所以本文在開啟從核前,將從核計算所需要的計算參數(shù)以及常量整理打包,集中存放到一個結(jié)構(gòu)體中,從核開啟后通過DMA方式將數(shù)據(jù)一次取到LDM中,從核計算時直接從LDM中獲取計算所需參數(shù),減少了大量的離散訪存,加快了程序的運行速度.

    4.2 DMA優(yōu)化

    在SW26010處理器中,主核MPE與從核簇CPEs共享8GB的存儲器,從核可以通過兩種方式訪問主存:1)利用gld/gst直接零散的訪問主存數(shù)據(jù);2)利用DMA方式將主存數(shù)據(jù)批量傳輸?shù)絃DM;DMA方式通常延時較大,但是帶寬的利用率較高.針對Silicon-Crystal傳輸數(shù)據(jù)量大的特點,應(yīng)盡量使用DMA方式來提升訪存帶寬.每個原子的信息封裝在一個結(jié)構(gòu)體中,結(jié)構(gòu)體包含位置、速度、加速度、臨時加速度、鄰居編號等信息組成共16元組(x,y,z,vx,vy,vz,ax,ay,az,tmpax,tmpay,tmpaz,nbrmark1,nbrmark2,nbrmark3,nbrmark4),計算時需要將計算原子傳輸?shù)絃DM中,一個原子信息就要占用112個字節(jié),64KB的LDM空間最多存放580個原子數(shù)據(jù),所以需對計算數(shù)據(jù)進(jìn)行分塊,取512個原子為一塊,通過DMA方式將原子信息傳輸?shù)絃DM,既可以減少離散訪存延時,又能將一塊連續(xù)的數(shù)據(jù)取到LDM中.

    考慮到LDM一次存儲的數(shù)據(jù)量有限,在Tersoff勢的核心計算過程中取到LDM中的原子信息只用到了原子的位置以及鄰居編號,為了減少多余的數(shù)據(jù)放進(jìn)LDM中,在主核進(jìn)行數(shù)據(jù)處理時將結(jié)構(gòu)體數(shù)組(Array of Structure,AoS)轉(zhuǎn)為數(shù)組結(jié)構(gòu)體(Structure of Array,SoA),把所有原子的位置、速度、加速度、臨時減速度以及鄰居編號單獨存放到對應(yīng)的數(shù)組中,如圖4所示,從核可以只獲取原子的一個參數(shù)數(shù)據(jù),減少了大量的不必要數(shù)據(jù)放進(jìn)LDM中,由原來的16元組減少到了現(xiàn)在的7元組,從核通過DMA的方式可一次傳輸1024個原子數(shù)據(jù),提高了LDM利用率和DMA效率.

    圖4 結(jié)構(gòu)體數(shù)組(AoS)轉(zhuǎn)數(shù)組結(jié)構(gòu)體(SoA)Fig.4 Transform AoS to SoA

    4.3 軟件cache優(yōu)化

    在實現(xiàn)上述優(yōu)化策略后,中心原子可以通過DMA方式將原子信息取到LDM中,但是原子的鄰居編號需要通過查詢鄰居表才能獲得,無法直接通過DMA方式取到LDM中.但是由3.3.2節(jié)可知每個原子的4個鄰居分布在原子所在面的前一面和后一面各兩個,而且相鄰編號的原子對應(yīng)的鄰居編號也是相鄰的,即相鄰原子的鄰居之間存在較強(qiáng)的空間局部性,為了減少離散訪問原子鄰居帶來的長延時,本文通過在從核上設(shè)計軟件cache來充分利用數(shù)據(jù)的空間局部性,同時用DMA方式代替離散訪存.

    軟件cache的設(shè)計主要考慮數(shù)據(jù)的預(yù)取、替換策略、重用策略3方面,但在SW26010上設(shè)計軟件cache還需要考慮占用LDM的空間以及符合Silicon-Crystal應(yīng)用特點,既要保證計算所需數(shù)據(jù)在LDM中,還要保證DMA的傳輸效率以及LDM的利用率,下面主要從cache大小的確定、數(shù)據(jù)預(yù)取、數(shù)據(jù)替換策略以及數(shù)據(jù)重用策略4方面進(jìn)行詳細(xì)設(shè)計.

    cache大小的確定:經(jīng)過DMA優(yōu)化后,從核LDM需要存儲1,024個中心原子位置、1,024個中心原子的鄰居編號等數(shù)據(jù)信息,剩余空間不足20KB,所以軟件cache大小應(yīng)該小于20KB.硅晶體結(jié)構(gòu)中每個原子有4個鄰居需要分別存放在不同的cacheline中,所以將cacheline數(shù)量設(shè)置為4,cacheline大小根據(jù)原子的空間局部性確定,考慮到數(shù)據(jù)處理后相鄰編號的原子對應(yīng)的鄰居編號也是相鄰的,而且呈現(xiàn)每32個鄰居編號組成一個連續(xù)的數(shù)據(jù)塊,而32個原子占用768字節(jié),所以取的原子數(shù)應(yīng)為32的倍數(shù),為了充分利用LDM空間,cacheline大小確定為3KB,最終cache大小為12KB軟件cache的數(shù)據(jù)預(yù)取:Tersoff勢的計算過程中將數(shù)據(jù)的前后、上下、左右平面視為對接,在3個維度上構(gòu)成回環(huán),使得一個維度上前端原子的鄰居反而在末端,所以當(dāng)數(shù)據(jù)未命中對數(shù)據(jù)進(jìn)行預(yù)取時,將首地址設(shè)置為未命中原子編號向前取臨近32倍數(shù)的原子編號地址,通過DMA方式一次取連續(xù)的3KB數(shù)據(jù)放到一個cacheline中.

    軟件cache的替換策略:因為原子有較強(qiáng)的局部性,取到cacheline中的原子會按序訪問,最先取到cacheline中的原子最先訪問結(jié)束,所以選擇采用 FIFO替換策略來保證替換進(jìn)來的數(shù)據(jù)得到充分的利用,同時也降低了軟件cache設(shè)計的復(fù)雜度.替換時將cacheline中第一個原子編號存放到對應(yīng)cacheline的tag中,計算時可以將鄰居編號與 cacheline的tag進(jìn)行比較,快速確定是數(shù)據(jù)否命中.

    軟件cache的重用策略:數(shù)據(jù)整理后已知4個鄰居分布在上下兩層,而且根據(jù)每個維度的大小原子鄰居呈現(xiàn)周期性變化,前一個周期所有原子的2號和4號鄰居原子會被作為后一個周期所有原子的1號和3號鄰居原子再次參與計算,即鄰居面上同一個原子會被作為中心面上兩個原子的鄰居參與計算,為了提高cache中數(shù)據(jù)的重用率,采用了全相聯(lián)映射機(jī)制,降低cache設(shè)計的復(fù)雜度.

    4.4 從核超越函數(shù)優(yōu)化

    完成以上優(yōu)化后,利用penv_slave2_gld_count接口測得從核存在大量離散訪存,主要原因是神威平臺的編譯環(huán)境中默認(rèn)鏈接的數(shù)學(xué)庫需要離散訪存操作,而程序中存在大量的pow、exp、sin以及cos等數(shù)學(xué)庫函數(shù)的使用,導(dǎo)致大量離散訪存,減低了性能.如果改用在CPE上實現(xiàn)的已經(jīng)優(yōu)化的GNU數(shù)學(xué)庫,雖不會產(chǎn)生gld/gst指令,但要通過查LDM中的相應(yīng)函數(shù)表實現(xiàn),sin和cos函數(shù)表共享4KB空間,而pow和exp的函數(shù)表大約占用9KB空間,4個庫函數(shù)共需要占用大約13KB的LDM空間,使得軟件cache和各種數(shù)據(jù)緩沖能夠使用的空間減小.為此,本研究使用多項式近似計算超越函數(shù)的值.

    ex函數(shù)求解方法如下:利用式ex=2xlog2e進(jìn)行轉(zhuǎn)換;令xlog2e=p+q,則ex=2p·2q,其中p為浮點數(shù)的整數(shù)部分,q為小數(shù)部分且0≤q<1;通過指數(shù)函數(shù)求解2p;利用式2q=eqln2進(jìn)行轉(zhuǎn)換;最后利用泰勒公式展開的多項式P(x)進(jìn)行求解,在P(x)的階數(shù)為11時,|P(x)-ex|<10-14可以滿足計算精度的需求.

    pow函數(shù)的求解方法為:x<0時,y為整數(shù),可以直接求解;x>0時,通過式xy=eyln(x)求解,其中,利用公式:

    (5)

    求得ln(x),再利用exp和ln函數(shù)求解pow函數(shù).

    對于sin函數(shù),則利用sin函數(shù)的周期性得到sin(x)=sin(x%2π),令y=x%2π,為了快速收斂,利用sin函數(shù)的對稱性,即:

    (6)

    將y化簡為區(qū)間[0,π/2)內(nèi)的值,然后利用泰勒展開式:

    (7)

    進(jìn)行計算,最終求得sin(x)的值.cos函數(shù)計算與此類似.

    從核直接調(diào)用以上實現(xiàn)的超越函數(shù)進(jìn)行求解,不僅消除了從核調(diào)用超越函數(shù)產(chǎn)生的離散訪存,而且節(jié)省LDM空間.

    4.5 任務(wù)分步流水優(yōu)化

    經(jīng)過使用軟件cache后,極大地提高了數(shù)據(jù)的重用率,減少了DMA的訪存次數(shù),但是由于LDM僅有64KB,依然無法將整面原子計算所需要的數(shù)據(jù)以及計算后產(chǎn)生的數(shù)據(jù)完全存放在cache中,而且仍然會有許多原子作為不同原子的鄰居多次傳輸?shù)絃DM中,導(dǎo)致傳輸效率低,所以本文設(shè)計了一種分步流水的方式將Tersoff勢的計算分為兩部分進(jìn)行,對計算所需以及計算產(chǎn)生的數(shù)據(jù)分到不同LDM中進(jìn)行存儲.

    深入分析Tersoff勢的計算過程可以看出在每個原子的計算主要分為兩部分,第1部分為截斷函數(shù)的求解,通過原子與鄰居的位置求得相互之間的距離,然后代入2.2節(jié)中公式(2)進(jìn)行求解;第2部分為硅晶體勢能求解,將求得的原子與鄰居之間的距離代入公式(3)和公式(4)求出原子之間的吸引力和排斥力,結(jié)合第1部分截斷函數(shù)的求解,通過公式(1)得到硅晶體的勢能.計算過程中,主要的存儲數(shù)據(jù)為第1部分求解所需原子的位置以及第2部分利用原子之間相互作用力求得的原子的加速度,如果將一整面計算所需要的位置數(shù)據(jù)存放到LDM中,計算產(chǎn)生的原子加速度將無法存放,因此為了使計算數(shù)據(jù)能夠完整地存儲到LDM中,將前后兩部分計算分配到兩個從核進(jìn)行計算,中間交互使用寄存器通信,使用從核寄存器的點對點通信全片聚合帶寬高達(dá)2043.4GB/S,合理使用寄存通信可以進(jìn)一步減少從核冗余的訪存操作,極大提升計算性能.

    圖5 從核間雙流水模式Fig.5 Step-to-step pipeline and double buffering between CPEs

    將從核陣列分為偶數(shù)核和奇數(shù)核,偶數(shù)核從主存獲取計算所需的原子位置信息存儲到LDM中,然后進(jìn)行截斷函數(shù)的計算,計算結(jié)束后通過寄存器通信傳輸?shù)狡鏀?shù)核,奇數(shù)核拿到計算數(shù)據(jù)后進(jìn)行吸引力、排斥力和加速度的計算,將計算后數(shù)據(jù)存儲到奇數(shù)核LDM中,在奇數(shù)核計算的同時,偶數(shù)核可以進(jìn)行下一個原子截斷函數(shù)的計算,這樣便形成了從核間任務(wù)的分步流水計算,如圖5(a)所示,此時將計算原子以及鄰居原子一次存到偶數(shù)核LDM中,將計算后的加速度數(shù)據(jù)存放到奇數(shù)核LDM中,減少DMA次數(shù),而且提高DMA效率.

    實現(xiàn)任務(wù)分步流水優(yōu)化后,從核LDM仍然有剩余空間,考慮到每個從核要對多個連續(xù)的原子面進(jìn)行計算,所以使用雙緩沖優(yōu)化將計算與通信進(jìn)行隱藏,如圖5(b)所示,偶數(shù)核在計算前發(fā)起下次所需數(shù)據(jù)的DMA請求,到下次計算之前檢測數(shù)據(jù)是否傳輸完成,奇數(shù)核在發(fā)起寫回主存的DMA請求的同時直接進(jìn)行下一次的計算,直到下一次計算結(jié)束后判斷傳輸有沒有結(jié)束,奇數(shù)核和偶數(shù)核都實現(xiàn)了雙緩沖流水,結(jié)合任務(wù)分步流水,形成了從核間分步流水從核內(nèi)部雙緩沖流水的雙流水模式

    5 性能實驗結(jié)果與分析

    為了測試驗證上述研究內(nèi)容的效果,將Silicon-Crystal應(yīng)用分別在SW26010異構(gòu)眾核處理器和Intel Xeon E5-2620 v4處理器上的性能進(jìn)行測試對比,表2列舉了試驗平臺信息.

    表2 實驗用軟、硬件環(huán)境配置信息Table 2 Experimental software and hardware environment configuration information

    實驗將運行在1個主核上的Silicon-Crystal應(yīng)用作為測試基準(zhǔn),對第4節(jié)中的5步優(yōu)化逐步進(jìn)行測試.測試數(shù)據(jù)規(guī)模為:131072個原子構(gòu)成的回環(huán),迭代計算次數(shù)為1000次.

    5.1 單核組性能優(yōu)化評估

    本文所有優(yōu)化方法的性能測試結(jié)果如圖6所示,從圖6中可以看出:

    圖6 多種方法優(yōu)化后程序的運行時間Fig.6 Running time of the program after implementing each optimization

    1)進(jìn)行簡單從核并行后,性能不但沒有提升反而有所下降,主要原因是從核的離散訪存占時較大,導(dǎo)致計算優(yōu)勢難以發(fā)揮.

    2)對從核訪存方面進(jìn)行的優(yōu)化效果進(jìn)行評估.首先通過數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換使其更適合DMA傳輸,提高從核的訪存帶寬;針對應(yīng)用中存在的不規(guī)則數(shù)據(jù)訪問,結(jié)合硅晶體的結(jié)構(gòu)特征進(jìn)行數(shù)據(jù)預(yù)處理,使數(shù)據(jù)更具空間局部性,從而利用軟件cache進(jìn)一步提升從核的訪存帶寬;針對應(yīng)用中存在的大量超越函數(shù)的離散訪存,通過在從核上定制的數(shù)學(xué)庫函數(shù)解決了其離散訪存問題;為了進(jìn)一步減少從核訪存,還通過鄰居預(yù)取以及任務(wù)分步流水方法進(jìn)一步減少從核訪存.最終單個核組的運行時間由778.55s減少到60.37s,其性能比測試基提升了12.89倍.同時還可以看出,SW26010處理器的單核組優(yōu)化性能相較于Intel Xeon E5-2620 v4處理器串行程序提升了8.7倍.

    5.2 多節(jié)點性能評估

    單核組性能優(yōu)化及評估結(jié)束后,本文又在神威平臺上利用MPI+Athread實現(xiàn)了Silicon-Crystal應(yīng)用的多節(jié)點并行版本,并對其進(jìn)行了強(qiáng)、弱可擴(kuò)展性測試及分析.

    強(qiáng)可擴(kuò)展性:對Silicon-Crystal應(yīng)用的數(shù)據(jù)進(jìn)行擴(kuò)展,將數(shù)據(jù)量擴(kuò)展到67108864數(shù)據(jù),進(jìn)程的規(guī)模最大擴(kuò)展到了512個核組,測試結(jié)果如圖7所示.

    圖7 Silicon-Crystal應(yīng)用在從核上的強(qiáng)可擴(kuò)展性分析Fig.7 Strong scalability of Silicon-Crystal application

    從圖7可以發(fā)現(xiàn)隨著核數(shù)的增長,運行時間在逐漸減少,到最后趨向平穩(wěn),因為隨著核組數(shù)的增長,數(shù)據(jù)的切分越來越多,進(jìn)程之間的通信也隨之增多,進(jìn)程間的通信占比越來越大,程序運行時間逐漸受到通信的限制趨向于平穩(wěn).

    表4 弱可擴(kuò)展性測試規(guī)模Table 4 Scale of weak scalability test

    弱可擴(kuò)展性:隨著核組數(shù)的增長,數(shù)據(jù)也跟著同比增長,由最開始的4個核組運行524288數(shù)據(jù)擴(kuò)展到512個核組運行67108864數(shù)據(jù),數(shù)據(jù)規(guī)模以及不同規(guī)模下程序的執(zhí)行時間如表4所示,可以看出隨著核組數(shù)和數(shù)據(jù)量的同比增長,執(zhí)行時間并沒有隨著通信量的增加而加長,呈現(xiàn)相對平穩(wěn)狀態(tài),表明Silicon-Crystal應(yīng)用程序具有較好的弱可擴(kuò)展性.

    6 總 結(jié)

    本文基于國產(chǎn)異構(gòu)眾核處理器SW26010的體系結(jié)構(gòu)特點,使用神威平臺的MPI+Athread并行編程模型對Silicon-Crystal應(yīng)用進(jìn)行了并行化.在對應(yīng)用進(jìn)行主核移植后,針對Silicon-Crystal應(yīng)用程序熱點函數(shù)特點,從5個方面進(jìn)行單核組優(yōu)化,使其性能相比主核串行基準(zhǔn)測試程序提升12.89倍.與Intel CPU平臺串行程序相比,提升8.7倍.

    下一步將針對多節(jié)點運行進(jìn)行更深入的優(yōu)化,并對大規(guī)??蓴U(kuò)展性進(jìn)行深入研究.

    猜你喜歡
    優(yōu)化
    超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
    PEMFC流道的多目標(biāo)優(yōu)化
    能源工程(2022年1期)2022-03-29 01:06:28
    民用建筑防煙排煙設(shè)計優(yōu)化探討
    關(guān)于優(yōu)化消防安全告知承諾的一些思考
    一道優(yōu)化題的幾何解法
    由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
    圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
    事業(yè)單位中固定資產(chǎn)會計處理的優(yōu)化
    4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
    幾種常見的負(fù)載均衡算法的優(yōu)化
    電子制作(2017年20期)2017-04-26 06:57:45
    亚洲av男天堂| 久久亚洲精品不卡| 精品福利观看| 免费日韩欧美在线观看| 国产亚洲精品一区二区www | 国产三级黄色录像| 亚洲精品美女久久av网站| 日韩三级视频一区二区三区| 亚洲久久久国产精品| 99国产精品免费福利视频| 在线精品无人区一区二区三| 99国产精品免费福利视频| 大香蕉久久网| 亚洲成av片中文字幕在线观看| 国产一卡二卡三卡精品| 国产一卡二卡三卡精品| 中文字幕人妻丝袜一区二区| 国产精品二区激情视频| 99精品欧美一区二区三区四区| 久久中文看片网| kizo精华| 国产又色又爽无遮挡免| 在线永久观看黄色视频| 欧美老熟妇乱子伦牲交| 亚洲视频免费观看视频| 人人妻人人爽人人添夜夜欢视频| 女人高潮潮喷娇喘18禁视频| 少妇被粗大的猛进出69影院| 国产精品.久久久| 黄色a级毛片大全视频| 欧美激情 高清一区二区三区| 妹子高潮喷水视频| 午夜视频精品福利| 亚洲国产欧美日韩在线播放| 午夜免费成人在线视频| 亚洲第一av免费看| 日本欧美视频一区| 国产精品国产av在线观看| 亚洲,欧美精品.| 国产在线免费精品| 免费观看av网站的网址| 老鸭窝网址在线观看| 男人操女人黄网站| 一进一出抽搐动态| 久久久精品国产亚洲av高清涩受| 亚洲欧美成人综合另类久久久| bbb黄色大片| 十分钟在线观看高清视频www| 2018国产大陆天天弄谢| 成人18禁高潮啪啪吃奶动态图| xxxhd国产人妻xxx| 午夜日韩欧美国产| 国产免费一区二区三区四区乱码| 老司机深夜福利视频在线观看 | 久久精品人人爽人人爽视色| videosex国产| 天堂中文最新版在线下载| 精品福利永久在线观看| 久久精品亚洲av国产电影网| 最黄视频免费看| 日本vs欧美在线观看视频| 少妇的丰满在线观看| 免费av中文字幕在线| 91老司机精品| 国产免费视频播放在线视频| 欧美国产精品va在线观看不卡| 亚洲欧美激情在线| 老司机靠b影院| www.自偷自拍.com| 巨乳人妻的诱惑在线观看| 午夜福利乱码中文字幕| 亚洲成人国产一区在线观看| 日韩,欧美,国产一区二区三区| 精品国产一区二区三区久久久樱花| 久久精品人人爽人人爽视色| 精品国产乱码久久久久久男人| av超薄肉色丝袜交足视频| 亚洲欧美一区二区三区黑人| 久久99一区二区三区| 后天国语完整版免费观看| 首页视频小说图片口味搜索| 国产精品免费大片| 天堂8中文在线网| 丝袜美足系列| 曰老女人黄片| 欧美日韩黄片免| 精品人妻一区二区三区麻豆| 亚洲第一av免费看| 18禁国产床啪视频网站| 精品人妻熟女毛片av久久网站| 中文字幕另类日韩欧美亚洲嫩草| 色精品久久人妻99蜜桃| 免费在线观看黄色视频的| 精品久久蜜臀av无| 久久影院123| 国产免费视频播放在线视频| 法律面前人人平等表现在哪些方面 | 最黄视频免费看| 亚洲欧美成人综合另类久久久| 国产区一区二久久| 国产高清videossex| 亚洲av电影在线观看一区二区三区| 亚洲av片天天在线观看| 亚洲精品一卡2卡三卡4卡5卡 | 亚洲精品国产精品久久久不卡| 老司机影院毛片| 色精品久久人妻99蜜桃| bbb黄色大片| 欧美精品av麻豆av| 99久久99久久久精品蜜桃| 久久久久国产精品人妻一区二区| 久久人人97超碰香蕉20202| 巨乳人妻的诱惑在线观看| 黄片小视频在线播放| 人人妻人人澡人人爽人人夜夜| 国产成人精品久久二区二区91| 麻豆国产av国片精品| 亚洲第一欧美日韩一区二区三区 | 成年人黄色毛片网站| 亚洲第一欧美日韩一区二区三区 | 最新在线观看一区二区三区| 中国国产av一级| 欧美日韩亚洲国产一区二区在线观看 | 日本一区二区免费在线视频| 一本—道久久a久久精品蜜桃钙片| 午夜成年电影在线免费观看| 亚洲成人手机| 国产精品一区二区精品视频观看| 在线亚洲精品国产二区图片欧美| 欧美97在线视频| 亚洲中文av在线| 最近最新免费中文字幕在线| 久久这里只有精品19| 91大片在线观看| 人妻人人澡人人爽人人| 久久国产精品影院| 男人舔女人的私密视频| 精品人妻在线不人妻| av有码第一页| 国产精品 国内视频| 菩萨蛮人人尽说江南好唐韦庄| 欧美另类一区| 久久精品国产综合久久久| 亚洲欧美激情在线| 国产在线观看jvid| 在线精品无人区一区二区三| 男女下面插进去视频免费观看| 美女主播在线视频| av天堂久久9| 在线 av 中文字幕| 悠悠久久av| 久热这里只有精品99| 91av网站免费观看| av福利片在线| 成人18禁高潮啪啪吃奶动态图| 亚洲精品国产av成人精品| 天堂俺去俺来也www色官网| av在线老鸭窝| 国产精品二区激情视频| 亚洲一码二码三码区别大吗| 亚洲一卡2卡3卡4卡5卡精品中文| 老司机午夜福利在线观看视频 | 国产成人av教育| 男女国产视频网站| 欧美日韩国产mv在线观看视频| 12—13女人毛片做爰片一| 两个人免费观看高清视频| 国产男女超爽视频在线观看| 亚洲av国产av综合av卡| 国产精品亚洲av一区麻豆| 啦啦啦视频在线资源免费观看| 国产视频一区二区在线看| 国产在线一区二区三区精| 99re6热这里在线精品视频| 男女免费视频国产| 老司机午夜十八禁免费视频| 欧美大码av| 亚洲午夜精品一区,二区,三区| 日韩欧美国产一区二区入口| 精品乱码久久久久久99久播| 一级片免费观看大全| 日韩大片免费观看网站| 婷婷丁香在线五月| 国产亚洲午夜精品一区二区久久| av电影中文网址| 18禁观看日本| 欧美黄色片欧美黄色片| 欧美xxⅹ黑人| 极品人妻少妇av视频| 久久久久久久久免费视频了| 国产精品一区二区精品视频观看| 波多野结衣av一区二区av| 老汉色av国产亚洲站长工具| 人成视频在线观看免费观看| 极品人妻少妇av视频| 一区二区三区四区激情视频| 侵犯人妻中文字幕一二三四区| 亚洲第一av免费看| 黄色视频,在线免费观看| 欧美日韩福利视频一区二区| 制服人妻中文乱码| 下体分泌物呈黄色| av在线老鸭窝| 午夜福利免费观看在线| 最新在线观看一区二区三区| 两个人看的免费小视频| 男人爽女人下面视频在线观看| 男女午夜视频在线观看| 久久精品人人爽人人爽视色| 亚洲天堂av无毛| av天堂久久9| 水蜜桃什么品种好| 美女午夜性视频免费| 久久精品人人爽人人爽视色| 成人手机av| 国产亚洲午夜精品一区二区久久| av不卡在线播放| 999久久久国产精品视频| 国产一区二区三区综合在线观看| 18在线观看网站| 男女高潮啪啪啪动态图| 免费日韩欧美在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲中文av在线| 麻豆国产av国片精品| 久久99热这里只频精品6学生| 在线观看www视频免费| 91麻豆精品激情在线观看国产 | 亚洲精品自拍成人| 大码成人一级视频| 亚洲专区字幕在线| 精品亚洲乱码少妇综合久久| 午夜福利免费观看在线| 国产欧美日韩综合在线一区二区| 国产成人av激情在线播放| 国产视频一区二区在线看| 亚洲视频免费观看视频| 亚洲人成电影观看| 亚洲欧洲日产国产| 成年人午夜在线观看视频| 精品亚洲成国产av| 亚洲精品国产精品久久久不卡| 亚洲熟女精品中文字幕| 久久国产精品人妻蜜桃| 亚洲欧美日韩另类电影网站| 考比视频在线观看| 亚洲精品中文字幕一二三四区 | 亚洲欧洲精品一区二区精品久久久| 老司机影院成人| 欧美在线黄色| 国产亚洲精品久久久久5区| 精品久久蜜臀av无| 欧美乱码精品一区二区三区| 一个人免费看片子| 国产有黄有色有爽视频| 桃花免费在线播放| 中文字幕精品免费在线观看视频| 无遮挡黄片免费观看| 肉色欧美久久久久久久蜜桃| 日韩大片免费观看网站| 国产精品久久久久成人av| 国产精品麻豆人妻色哟哟久久| 久久人妻熟女aⅴ| 2018国产大陆天天弄谢| 国产精品一区二区精品视频观看| avwww免费| 国产成人精品久久二区二区91| 婷婷丁香在线五月| 成年人午夜在线观看视频| 久久精品熟女亚洲av麻豆精品| 国产精品久久久久久人妻精品电影 | 欧美激情高清一区二区三区| 少妇的丰满在线观看| 欧美性长视频在线观看| 精品视频人人做人人爽| 久久久久久久久久久久大奶| 国产男女内射视频| 一边摸一边做爽爽视频免费| 久久av网站| 最黄视频免费看| 久久 成人 亚洲| 十八禁高潮呻吟视频| 免费观看人在逋| 免费久久久久久久精品成人欧美视频| 亚洲午夜精品一区,二区,三区| 两个人免费观看高清视频| 国产黄色免费在线视频| 婷婷丁香在线五月| 成年人午夜在线观看视频| 考比视频在线观看| 久久性视频一级片| 窝窝影院91人妻| 丝瓜视频免费看黄片| 国产免费现黄频在线看| 国产一区二区在线观看av| 搡老熟女国产l中国老女人| 丁香六月天网| 大型av网站在线播放| 国产人伦9x9x在线观看| 秋霞在线观看毛片| 热99久久久久精品小说推荐| a在线观看视频网站| 久久99热这里只频精品6学生| 丝瓜视频免费看黄片| 天堂中文最新版在线下载| 免费av中文字幕在线| 国产亚洲一区二区精品| 国产欧美日韩一区二区三 | 黑人欧美特级aaaaaa片| 成人国产一区最新在线观看| 亚洲性夜色夜夜综合| 亚洲avbb在线观看| 日韩一区二区三区影片| 一二三四社区在线视频社区8| 一进一出抽搐动态| 老司机深夜福利视频在线观看 | 男女高潮啪啪啪动态图| 另类精品久久| 欧美日韩中文字幕国产精品一区二区三区 | 免费日韩欧美在线观看| 美女午夜性视频免费| 丝袜人妻中文字幕| 日本av手机在线免费观看| 嫩草影视91久久| 俄罗斯特黄特色一大片| 人妻久久中文字幕网| 老司机在亚洲福利影院| 97精品久久久久久久久久精品| 日韩欧美一区二区三区在线观看 | 搡老熟女国产l中国老女人| 亚洲欧美色中文字幕在线| 亚洲一区二区三区欧美精品| 伦理电影免费视频| 悠悠久久av| 免费女性裸体啪啪无遮挡网站| 欧美国产精品一级二级三级| 久久久久久免费高清国产稀缺| www.av在线官网国产| 十分钟在线观看高清视频www| 手机成人av网站| 他把我摸到了高潮在线观看 | 国产黄频视频在线观看| 99国产精品99久久久久| 一个人免费看片子| 超色免费av| 国产成人免费无遮挡视频| 天天影视国产精品| a级毛片在线看网站| 91大片在线观看| 乱人伦中国视频| 日本a在线网址| 中国国产av一级| 女人被躁到高潮嗷嗷叫费观| 黄频高清免费视频| 国产高清国产精品国产三级| 999久久久国产精品视频| 狠狠婷婷综合久久久久久88av| 婷婷丁香在线五月| 在线观看www视频免费| 成人亚洲精品一区在线观看| 高清av免费在线| 国产无遮挡羞羞视频在线观看| 最近中文字幕2019免费版| 欧美另类一区| 久久久久久久国产电影| 纵有疾风起免费观看全集完整版| 50天的宝宝边吃奶边哭怎么回事| 伊人久久大香线蕉亚洲五| 欧美xxⅹ黑人| av一本久久久久| 韩国精品一区二区三区| 狠狠狠狠99中文字幕| 制服人妻中文乱码| 久久人人97超碰香蕉20202| 欧美精品人与动牲交sv欧美| 精品一区二区三区av网在线观看 | 国产成+人综合+亚洲专区| 国产欧美日韩一区二区三 | 欧美日韩国产mv在线观看视频| 男人添女人高潮全过程视频| av福利片在线| 男人爽女人下面视频在线观看| 亚洲国产日韩一区二区| 国产成人欧美在线观看 | 日本一区二区免费在线视频| 五月天丁香电影| 国产欧美亚洲国产| av网站在线播放免费| 国产一级毛片在线| 国产免费福利视频在线观看| 国产片内射在线| 免费黄频网站在线观看国产| 高清黄色对白视频在线免费看| 免费在线观看日本一区| 国产在线观看jvid| 久久免费观看电影| 亚洲中文日韩欧美视频| 人妻 亚洲 视频| 久久久国产成人免费| 成年人午夜在线观看视频| 欧美日本中文国产一区发布| 大码成人一级视频| 悠悠久久av| 人成视频在线观看免费观看| 91精品国产国语对白视频| 成年动漫av网址| 国产欧美日韩一区二区精品| 欧美精品啪啪一区二区三区 | 久久免费观看电影| 日日爽夜夜爽网站| 啦啦啦免费观看视频1| 99精品久久久久人妻精品| 成年人午夜在线观看视频| 岛国毛片在线播放| www.熟女人妻精品国产| 亚洲精品一区蜜桃| 黄片大片在线免费观看| 亚洲自偷自拍图片 自拍| 人人妻人人爽人人添夜夜欢视频| 人妻久久中文字幕网| 久久久久久人人人人人| 亚洲av欧美aⅴ国产| 少妇猛男粗大的猛烈进出视频| 久热这里只有精品99| 国产区一区二久久| 在线观看www视频免费| 欧美精品一区二区大全| 久久国产亚洲av麻豆专区| 他把我摸到了高潮在线观看 | 性少妇av在线| 动漫黄色视频在线观看| 亚洲七黄色美女视频| 国产成人精品久久二区二区免费| 免费看十八禁软件| 99热网站在线观看| 老汉色∧v一级毛片| 电影成人av| 9191精品国产免费久久| 欧美黄色片欧美黄色片| 国产成人免费观看mmmm| 免费在线观看影片大全网站| 电影成人av| 亚洲中文日韩欧美视频| 男女无遮挡免费网站观看| 亚洲国产av影院在线观看| 秋霞在线观看毛片| 国产免费福利视频在线观看| 亚洲中文日韩欧美视频| 一本一本久久a久久精品综合妖精| 爱豆传媒免费全集在线观看| 久久久久久久国产电影| 亚洲精品久久久久久婷婷小说| 老司机亚洲免费影院| 成年人免费黄色播放视频| 精品一区在线观看国产| 欧美精品高潮呻吟av久久| 菩萨蛮人人尽说江南好唐韦庄| 亚洲三区欧美一区| 国产一区二区三区在线臀色熟女 | 亚洲成人手机| 亚洲,欧美精品.| 多毛熟女@视频| 欧美精品高潮呻吟av久久| 日本wwww免费看| 国产精品久久久久久精品古装| 日韩人妻精品一区2区三区| av不卡在线播放| 亚洲人成77777在线视频| 日本av手机在线免费观看| 久久天堂一区二区三区四区| 亚洲第一欧美日韩一区二区三区 | www日本在线高清视频| 最近中文字幕2019免费版| 亚洲精品av麻豆狂野| 99精品欧美一区二区三区四区| www.精华液| 男女无遮挡免费网站观看| 欧美一级毛片孕妇| 一个人免费看片子| 极品人妻少妇av视频| 自线自在国产av| 成年人黄色毛片网站| 亚洲熟女毛片儿| 中国美女看黄片| 97人妻天天添夜夜摸| 99国产精品一区二区蜜桃av | 中亚洲国语对白在线视频| 亚洲av成人一区二区三| 99国产精品免费福利视频| av天堂久久9| 考比视频在线观看| 2018国产大陆天天弄谢| tube8黄色片| 亚洲av男天堂| 日韩制服丝袜自拍偷拍| 国产极品粉嫩免费观看在线| 欧美亚洲日本最大视频资源| 欧美日韩成人在线一区二区| 又紧又爽又黄一区二区| 免费观看av网站的网址| netflix在线观看网站| www.av在线官网国产| 久久久久国产一级毛片高清牌| 亚洲中文字幕日韩| a级毛片在线看网站| 久久 成人 亚洲| 男女无遮挡免费网站观看| 久久久久视频综合| 少妇精品久久久久久久| 亚洲av男天堂| 亚洲伊人色综图| 欧美亚洲 丝袜 人妻 在线| 日韩一区二区三区影片| 嫁个100分男人电影在线观看| 97人妻天天添夜夜摸| 满18在线观看网站| www日本在线高清视频| 国产亚洲精品久久久久5区| 国产亚洲精品一区二区www | 国产精品国产三级国产专区5o| 老鸭窝网址在线观看| a 毛片基地| cao死你这个sao货| 国产精品熟女久久久久浪| 久久人妻福利社区极品人妻图片| 黑人操中国人逼视频| 午夜福利在线免费观看网站| av在线播放精品| 黄色视频不卡| 精品高清国产在线一区| av有码第一页| 亚洲精品av麻豆狂野| 黄色视频不卡| 国产1区2区3区精品| 亚洲中文av在线| 精品高清国产在线一区| 亚洲av电影在线进入| 欧美日韩国产mv在线观看视频| 国产一区二区三区在线臀色熟女 | 建设人人有责人人尽责人人享有的| 国产成人影院久久av| 久热爱精品视频在线9| 久久精品成人免费网站| 久久久久网色| 伊人亚洲综合成人网| 亚洲国产精品成人久久小说| 交换朋友夫妻互换小说| 国产精品一区二区精品视频观看| 18在线观看网站| 啦啦啦啦在线视频资源| 日韩大码丰满熟妇| 97人妻天天添夜夜摸| 久久天躁狠狠躁夜夜2o2o| 亚洲五月色婷婷综合| 免费观看a级毛片全部| 成人国产一区最新在线观看| 亚洲欧美成人综合另类久久久| 久久精品国产a三级三级三级| 久久久精品国产亚洲av高清涩受| 99国产极品粉嫩在线观看| 精品国产一区二区久久| 女人高潮潮喷娇喘18禁视频| 菩萨蛮人人尽说江南好唐韦庄| 极品少妇高潮喷水抽搐| 成人国语在线视频| 亚洲欧美色中文字幕在线| av网站在线播放免费| 国产av一区二区精品久久| 国产高清videossex| 精品乱码久久久久久99久播| 久久影院123| 一二三四社区在线视频社区8| 久久青草综合色| 亚洲久久久国产精品| 真人做人爱边吃奶动态| 成人免费观看视频高清| 男男h啪啪无遮挡| 午夜福利免费观看在线| 在线观看免费高清a一片| 国产精品av久久久久免费| 久久久久网色| 麻豆av在线久日| 美女视频免费永久观看网站| 亚洲人成电影免费在线| 极品少妇高潮喷水抽搐| 少妇的丰满在线观看| 人妻 亚洲 视频| 国产一区二区 视频在线| 亚洲精品美女久久av网站| 久久 成人 亚洲| 国产有黄有色有爽视频| 曰老女人黄片| 免费人妻精品一区二区三区视频| 三上悠亚av全集在线观看| 国产成人免费观看mmmm| h视频一区二区三区| 久久影院123| www.av在线官网国产| 99九九在线精品视频| 国产成人精品无人区| 亚洲欧美日韩另类电影网站| 一区在线观看完整版| 乱人伦中国视频| 可以免费在线观看a视频的电影网站| 午夜福利乱码中文字幕| 中国国产av一级| 80岁老熟妇乱子伦牲交| 亚洲欧美日韩高清在线视频 | 一个人免费在线观看的高清视频 | 巨乳人妻的诱惑在线观看| 欧美少妇被猛烈插入视频| 国产欧美日韩精品亚洲av| 亚洲中文日韩欧美视频| 狠狠狠狠99中文字幕| 亚洲中文字幕日韩|