• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    天河三號(hào)原型機(jī)分布式并行深度神經(jīng)網(wǎng)絡(luò)性能評(píng)測(cè)及調(diào)優(yōu)*

    2021-05-18 09:32:10張興軍紀(jì)澤宇李靖波岳瑩瑩
    關(guān)鍵詞:原型機(jī)天河進(jìn)程

    魏 嘉,張興軍,紀(jì)澤宇,李靖波,岳瑩瑩

    (西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)

    1 引言

    深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)是人工智能領(lǐng)域AI(Artificial Intelligence)的重要分支[1]。近年來,由于DNN在自然語言處理[2]和目標(biāo)識(shí)別[3]中里程碑式的表現(xiàn),其在無人駕駛[4]、癌癥檢測(cè)[5]和復(fù)雜決策[6]等領(lǐng)域應(yīng)用廣泛,尤其是在圖像領(lǐng)域,相比以支持向量機(jī)為代表的傳統(tǒng)算法,基于深度學(xué)習(xí)的AlexNet模型將分類準(zhǔn)確率提高了2倍,從而引起了圖像識(shí)別社區(qū)以及學(xué)術(shù)界的興趣。DNN通過統(tǒng)計(jì)學(xué)習(xí)大量數(shù)據(jù)來有效表示輸入空間,進(jìn)而獲取到數(shù)據(jù)高級(jí)特征[7 - 9]。這與早期使用專家設(shè)計(jì)的特定功能或規(guī)則的機(jī)器學(xué)習(xí)方法完全不同。

    但是,DNN需要付出巨大的計(jì)算開銷來獲取良好的性能表現(xiàn)。隨著數(shù)據(jù)集規(guī)模的增大和模型復(fù)雜程度的增加,DNN在訓(xùn)練過程中對(duì)計(jì)算強(qiáng)度和存儲(chǔ)空間的需求也成比例增長(zhǎng)[10 - 12]。盡管通用計(jì)算引擎(尤其是GPU)已成為許多加速DNN訓(xùn)練的主要手段[13 - 16],但人們對(duì)專業(yè)的DNN訓(xùn)練加速技術(shù)有著更高的興趣。為了使訓(xùn)練得到的DNN更具有競(jìng)爭(zhēng)力,本質(zhì)上需要高性能計(jì)算集群[17 - 19]。而對(duì)上述系統(tǒng),需要對(duì)DNN訓(xùn)練和推理(評(píng)估)等不同方面進(jìn)行優(yōu)化[20 - 24],以適應(yīng)相應(yīng)平臺(tái)特點(diǎn),從而提高整體并發(fā)性。

    近年來,以GPU、MIC和FPGA為代表的高能效異構(gòu)計(jì)算平臺(tái)[10 - 12,13 - 16,17 - 26]廣泛應(yīng)用于計(jì)算密集型任務(wù)中。 與此同時(shí),這一理念也深刻影響著超級(jí)計(jì)算機(jī)的設(shè)計(jì)[25],如我國(guó)使用GPU加速卡的天河一號(hào)異構(gòu)集群,采用MIC協(xié)處理器的天河二號(hào),以及利用國(guó)產(chǎn)異構(gòu)多核 CPU 制造的神威·太湖之光超級(jí)計(jì)算機(jī)均曾位列TOP500榜首。2020年6月,日本理化研究所和富士通公司基于ARM架構(gòu),搭載富士通開發(fā)的CPU“A64FX”的“富岳”超級(jí)計(jì)算機(jī)在最新的2020年TOP500榜單中奪魁,運(yùn)算速度為415.5 PFlop/s。迄今為止,超算向E級(jí)發(fā)展仍是整個(gè)高性能計(jì)算HPC(High Performance Computing)社區(qū)面臨的巨大挑戰(zhàn),其能否對(duì)深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)出良好的適用性亦是眾多科研機(jī)構(gòu)和工業(yè)界重點(diǎn)關(guān)注的領(lǐng)域。

    在中國(guó)的百億億級(jí)計(jì)劃中,天河三號(hào)采用了基于ARM的多核架構(gòu),處理器采用國(guó)產(chǎn)Phytium-2000+(FTP)和Matrix-2000+(MTP),并向公眾開放以供性能評(píng)估。

    不斷發(fā)展的高性能計(jì)算機(jī)與日漸完善的并行框架為分布式并行深度學(xué)習(xí)奠定了基礎(chǔ),如何結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型特點(diǎn)與高性能集群架構(gòu)特性,利用并行編程框架來設(shè)計(jì)能充分發(fā)揮高性能平臺(tái)計(jì)算能力的神經(jīng)網(wǎng)絡(luò)分布式計(jì)算方法顯得十分迫切。為了實(shí)現(xiàn)優(yōu)化設(shè)計(jì)以充分發(fā)揮超算平臺(tái)的高性能,首先需要對(duì)具體的高性能計(jì)算集群進(jìn)行對(duì)應(yīng)的評(píng)測(cè)和調(diào)優(yōu)。本文在天河三號(hào)原型機(jī)上,對(duì)神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練性能進(jìn)行了評(píng)測(cè)和調(diào)優(yōu)工作。

    本文貢獻(xiàn)主要有以下4點(diǎn):

    (1)針對(duì)天河三號(hào)原型機(jī)獨(dú)特的架構(gòu)特點(diǎn),通過綜合考量神經(jīng)網(wǎng)絡(luò)模型、神經(jīng)網(wǎng)絡(luò)執(zhí)行框架和測(cè)試模式3個(gè)維度,設(shè)計(jì)了一套具有針對(duì)性的實(shí)驗(yàn)設(shè)計(jì)策略。

    (2)將PyTorch的分布式框架移植到了天河三號(hào)原型機(jī)并實(shí)現(xiàn)了與天河MPI的適配工作。

    (3)分別針對(duì)單Matrix-2000+節(jié)點(diǎn)、單Phytium- 2000+節(jié)點(diǎn)、多Matrix-2000+節(jié)點(diǎn)和多Phytium-2000+節(jié)點(diǎn)等多種情況設(shè)計(jì)實(shí)現(xiàn)了不同的測(cè)試策略。

    (4)從計(jì)算和通信2個(gè)角度對(duì)測(cè)試所得到的結(jié)果進(jìn)行了綜合分析。

    2 相關(guān)工作

    隨著任務(wù)規(guī)模不斷增大、網(wǎng)絡(luò)層數(shù)不斷加深,深度神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練經(jīng)歷了由采用多核、眾核等技術(shù)的單節(jié)點(diǎn)并行計(jì)算[7]到使用MPI(Message Passing Interface)、NCCL(NVIDIA Collective multi-GPU Communication Library)等技術(shù)的多節(jié)點(diǎn)分布式計(jì)算的發(fā)展變遷。單節(jié)點(diǎn)訓(xùn)練加速研究集中在使用GPU、MIC或FPGA上[27 - 31]。

    在GPU加速方面,Raina等人[14]最先使用GPU加速訓(xùn)練深度玻爾茲曼機(jī)DBN(Deep Boltzmann Machine);Yadan等人[15]使用NVIDIA Titan顯卡實(shí)現(xiàn)了模型并行與數(shù)據(jù)并行的結(jié)合;Li等人[16]使用單塊NVIDIA Titan Tesla K40c GPU加速DBN,相比于Intel Core i7-4790K在預(yù)訓(xùn)練過程中獲得了14~22×加速比;Bottleson 等人[13]使用OpenCL改進(jìn)了Caffe框架,相比于 Intel CPU,實(shí)現(xiàn)了2.5~4.6倍加速。

    在MIC加速方面,一般使用 OpenMP 并行編程模型。Olas等人[27]在 Intel Xeon Phi 7120P上以原生模式運(yùn)行DBN,相較于Intel Xeon E5-2695v2 CPU最高實(shí)現(xiàn)了13.6×的加速比。Zlateski等人[28]在眾核CPU5110P上實(shí)現(xiàn)的三維卷積算法達(dá)到 90×加速比。

    在FPGA加速方面,Suda 等人[29]在FPGA上實(shí)現(xiàn)了VGG和AlexNet,在VGG網(wǎng)絡(luò)中相較于 Intel I5處理器達(dá)到了5.5×加速比。Zhang等人[30]實(shí)現(xiàn)了性能可達(dá)近1.8 Tops/s的FPGA VGG網(wǎng)絡(luò),相較于Intel Xeon E5-1530處理器加速比可達(dá)4.4×。Aydonat等人[31]實(shí)現(xiàn)了具有Winograd矩陣乘優(yōu)化算法的FPGA AlexNet網(wǎng)絡(luò),與此同時(shí)還優(yōu)化了片內(nèi)外帶寬,在Arria 10上達(dá)到了1 382 GFlop/s的峰值性能。

    在多節(jié)點(diǎn)加速方面,多節(jié)點(diǎn)分布式并行執(zhí)行深度神經(jīng)網(wǎng)絡(luò)在國(guó)內(nèi)外眾多集群系統(tǒng)中得到了廣泛的應(yīng)用。Yin等人[32]在Summit超級(jí)計(jì)算機(jī)上提供了一套綜合考慮神經(jīng)網(wǎng)絡(luò)計(jì)算核心、通信方式和數(shù)據(jù)I/O的分布式深度學(xué)習(xí)部署拓展策略;Song等人[17]使用神威·太湖之光超級(jí)計(jì)算機(jī)的4個(gè)節(jié)點(diǎn)針對(duì)MNIST網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)并行的深度置信網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)了對(duì)Intel Xeon E5 2420處理器 23×的加速比。Awan等人[18]針對(duì)具有80個(gè)NVIDIA Tesla K80 GPU加速卡的12個(gè)節(jié)點(diǎn)集群,提出了S-Caffe(Scalable and distributed Caffe adaptation)改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)框架。Li等人[19]提出了swCaffe,將Caffe框架改造并移植到了神威·太湖之光上,在某些神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上得到了超越NVK40m GPU的處理速度。Moritz等人[26]聯(lián)合使用Caffe和Spark優(yōu)化了SGD(Stochastic Gradient Descent)同步協(xié)議。

    對(duì)超級(jí)計(jì)算機(jī)的測(cè)試和調(diào)優(yōu)在HPC領(lǐng)域一直是一個(gè)重要且具挑戰(zhàn)性的課題。Peng等人[20]在天河二號(hào)計(jì)算機(jī)上采用AMBER(Assisted Model Building with Energy Refinement)并行加速策略訓(xùn)練分子動(dòng)力學(xué)模型,與原程序相比,實(shí)現(xiàn)了最高33倍加速;徐藝峰等人[21]在天河二號(hào)上,對(duì)ZnO-MOCVD(ZnO-Metal Organic Chemical Vapor Deposition)腔體數(shù)值模型進(jìn)行測(cè)試,最大加速比可達(dá)45。朱傳家等人[22]探索了使用同步更新策略的去中心化和參數(shù)服務(wù)器分布式方式部署Caffe神經(jīng)網(wǎng)絡(luò)在神威·太湖之光上,文中的實(shí)驗(yàn)表明,同步方式下,去中心化分布式擴(kuò)展方法相比參數(shù)服務(wù)器分布式擴(kuò)展方法在通信效率方面具有明顯的優(yōu)勢(shì),對(duì)特定的模型通信性能提高可達(dá)98倍。You等人[23]針對(duì)天河三號(hào)原型機(jī),對(duì)線性代數(shù)核計(jì)算表現(xiàn)進(jìn)行了測(cè)試和分析,并針對(duì)天河三號(hào)原型機(jī)上的MTP和FTP以及用于比較的KNL處理器進(jìn)行了性能比較。Li等人[24]提出了一種啟發(fā)式的拓?fù)涓兄成渌惴∣HTMA(Optimized Heuristic Topology-aware Mapping Algorithm),對(duì)天河三號(hào)原型機(jī)通信性能進(jìn)行了評(píng)估和改進(jìn),實(shí)驗(yàn)表明使用這種算法可以大大降低通信成本。

    3 DNN分布式訓(xùn)練關(guān)鍵問題

    本節(jié)主要介紹本文分布式訓(xùn)練的4個(gè)關(guān)鍵點(diǎn):小批量梯度下降、分布式環(huán)境下的并行模型、一致性計(jì)算模型和天河三號(hào)原型機(jī)。

    3.1 小批量梯度下降

    在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,一個(gè)非常重要的任務(wù)就是求解代價(jià)函數(shù),最常用的優(yōu)化算法是梯度下降算法,梯度下降算法包括批量梯度下降算法、隨機(jī)梯度下降算法和小批量梯度下降算法3種變體。批量梯度下降算法可以收斂到凸函數(shù)的最小值或非凸函數(shù)極小值,但每次執(zhí)行需要遍歷所有樣本,所以存在無法在線更新、執(zhí)行速度慢和大數(shù)據(jù)集無法使用的問題;隨機(jī)梯度下降算法每次只需輸入一個(gè)樣本,支持在線學(xué)習(xí)且訓(xùn)練速度很快,但這種算法收斂過程波動(dòng)很大且易陷入局部極??;小批量梯度下降算法汲取了二者優(yōu)勢(shì),每次更新選取一批(D個(gè))數(shù)據(jù)進(jìn)行訓(xùn)練,能夠快速穩(wěn)定地尋找到較優(yōu)的訓(xùn)練結(jié)果。因此,本文實(shí)驗(yàn)選取了小批量梯度下降算法求解代價(jià)函數(shù)。

    算法1隨機(jī)梯度下降算法MBGD(Mini Batch Gradient Descent)

    輸入:需要進(jìn)行訓(xùn)練的樣本數(shù)據(jù),S:樣本數(shù)據(jù)大小,D:每一批數(shù)據(jù)大小,t:迭代次數(shù),z:每輪輸入數(shù)據(jù);ω:網(wǎng)絡(luò)權(quán)值,l:損失函數(shù),f:評(píng)估結(jié)果,g:評(píng)估結(jié)果梯度,Δω:神經(jīng)網(wǎng)絡(luò)權(quán)值梯度。

    輸出:本輪訓(xùn)練完成后的權(quán)值。

    1.fort= 0 to (|S|/D)×epochsdo

    2.z←SampleBelements fromS;/*從數(shù)據(jù)集中獲取訓(xùn)練樣本*/

    3.ωmb←ω(t);//獲取權(quán)值參數(shù)

    4.f←l(ωmb,z,h(z));//計(jì)算前向評(píng)估值

    5.gmb←l(ωmb,f);//使用反向傳播值計(jì)算梯度

    6.Δω←u(gmb,ω(0,…,t),t);//權(quán)值更新算法

    7.ω(t+1)=ωmb+Δω;//保存新權(quán)值

    3.2 分布式環(huán)境下的并行模型

    深度學(xué)習(xí)目前主要通過模型與數(shù)據(jù)并行[33]來實(shí)現(xiàn)并行訓(xùn)練。模型并行將神經(jīng)網(wǎng)絡(luò)劃分成多個(gè)子模塊并指定給多個(gè)計(jì)算單元進(jìn)行協(xié)同訓(xùn)練;數(shù)據(jù)并行將分塊數(shù)據(jù)分配給多個(gè)計(jì)算單元,每個(gè)計(jì)算單元獨(dú)立完成自己數(shù)據(jù)集上的神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù),并通過參數(shù)服務(wù)器或All-reduce等通信機(jī)制來完成參數(shù)交換。

    在MBGD中,數(shù)據(jù)以N個(gè)樣本為批次進(jìn)行處理。由于大多數(shù)運(yùn)算符相對(duì)于N是獨(dú)立無關(guān)的,因此并行化的直接方法是在多個(gè)計(jì)算資源(處理器核或設(shè)備)之間分配小批量樣本執(zhí)行工作。

    可以認(rèn)為,神經(jīng)網(wǎng)絡(luò)在梯度下降中使用微型批次最初是由數(shù)據(jù)并行性驅(qū)動(dòng)的。 Farber等人[34]使用多個(gè)矢量加速器微處理器(Spert-II)并行執(zhí)行誤差反向傳播,以加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練。為了支持?jǐn)?shù)據(jù)并行性,他們提出了一種稱為“捆綁模式”的延遲梯度更新版本,其中梯度在更新權(quán)重之前被更新了數(shù)次,本質(zhì)上等效于MSGD。

    Raina等人[35]最早將DNN計(jì)算映射到數(shù)據(jù)并行架構(gòu)(例如GPU),他們?cè)谑芟薏柶澛鼨C(jī)上的訓(xùn)練結(jié)果,使得CPU的速度提高了72.6倍。如今,絕大多數(shù)深度學(xué)習(xí)框架支持?jǐn)?shù)據(jù)深度并行化,可以使用單個(gè)GPU(CPU)或者多個(gè)GPU(CPU)或多個(gè)GPU(CPU)節(jié)點(diǎn)的集群。

    使用MapReduce可以將并行任務(wù)調(diào)度到多個(gè)處理器以及分布式環(huán)境中。在進(jìn)行這些工作之前,科研人員已經(jīng)對(duì)包括神經(jīng)網(wǎng)絡(luò)在內(nèi)的各種機(jī)器學(xué)習(xí)問題研究了MapReduce的潛在規(guī)模,從而促進(jìn)了從單處理器學(xué)習(xí)向分布式存儲(chǔ)系統(tǒng)轉(zhuǎn)變的需求。

    3.3 一致性計(jì)算模型

    為了優(yōu)化分布式數(shù)據(jù)并行訓(xùn)練過程,研究人員提出了整體同步BSP(Bulk Synchronous Parallel)[36]、延遲同步SSP(Staleness Synchronous Parallel)和異步ASP(Asychronous Parallel)[37]等參數(shù)同步模型。

    BSP通過設(shè)置同步柵欄的方式保證一組分布式計(jì)算單元能夠以相同迭代輪次更新模型參數(shù),各個(gè)計(jì)算單元一輪迭代完成后根據(jù)同步柵欄機(jī)制等待主節(jié)點(diǎn)同步指令,主節(jié)點(diǎn)在得到所有計(jì)算單元的更新參數(shù)后更新參數(shù)并發(fā)送給各計(jì)算單元,進(jìn)入新一輪迭代。常見的BSP模型系統(tǒng)包括Spark和Mahout[38]等。

    ASP的各計(jì)算單元利用本地?cái)?shù)據(jù)計(jì)算模型參數(shù),計(jì)算單元完成一輪后,無需等待即可更新主節(jié)點(diǎn)模型參數(shù),并獲取最新全局參數(shù)進(jìn)入下一輪迭代。但是,這種不限制迭代輪數(shù)差的參數(shù)同步模型極易導(dǎo)致結(jié)果不收斂,為解決這一問題,有學(xué)者提出了SSP計(jì)算模型。

    SSP的各計(jì)算單元同樣以不同輪次更新全局主節(jié)點(diǎn)模型參數(shù),但是限制最快、最慢節(jié)點(diǎn)參數(shù)迭代輪次差小于延遲參數(shù)stale,從而既減弱了慢節(jié)點(diǎn)對(duì)整個(gè)系統(tǒng)運(yùn)行速度的影響,又保證了模型參數(shù)收斂。常見的 SSP 模型系統(tǒng)包括Petuum[39]、深度學(xué)習(xí)系統(tǒng)[32,40,41]等。

    3.4 天河三號(hào)原型機(jī)

    天河三號(hào)原型機(jī)采用的處理器包括FT-2000+(FTP)和MT-2000+(MTP),從天津超算中心官方網(wǎng)站、飛騰信息技術(shù)有限公司官方網(wǎng)站和公開發(fā)表的論文資料可以知道,F(xiàn)TP包含64個(gè)ARMv8架構(gòu)的FTC662處理器核,工作主頻在2.2~2.4 GHz,片上集成了32 MB的二級(jí)Cache,可提供204.8 GB/s訪存帶寬,典型工作能耗約為100 W;而MTP處理器包含128個(gè)定制的處理器核心,被組織為4個(gè)超級(jí)節(jié)點(diǎn),主頻最高可達(dá)2.0 GHz,整個(gè)處理器的消耗為240 W。FTP和MTP的處理器架構(gòu)如圖1所示。

    Figure 1 FT-2000+processor architecture and MT-2000+processor architecture圖1 FT-2000+處理器架構(gòu)和MT-2000+處理器架構(gòu)

    在天河三號(hào)原型機(jī)中,如表1所示,F(xiàn)TP和MTP都被劃分成以32個(gè)核作為一個(gè)計(jì)算節(jié)點(diǎn),這么做的目的可能是為了提供更多的計(jì)算節(jié)點(diǎn)以滿足復(fù)雜的計(jì)算任務(wù)[23]。計(jì)算節(jié)點(diǎn)由批處理調(diào)度系統(tǒng)管理和分配。在FTP中,32個(gè)核共享64 GB內(nèi)存,而在MTP中,32個(gè)核共享16 GB的內(nèi)存。它們都帶有具有kernel v4.4.0的Kylin 4.0-1a操作系統(tǒng)。

    Table 1 Basic situation of Tianhe-3 prototype system表1 天河三號(hào)原型機(jī)基本情況

    除此之外,由國(guó)防科技大學(xué)設(shè)計(jì)實(shí)現(xiàn)的原型集群互連技術(shù)提供了200 Gbps雙向互連帶寬。原型機(jī)使用了Lustre進(jìn)行分布式文件系統(tǒng)管理。與此同時(shí),原型機(jī)提供了多個(gè)版本的MPI編譯實(shí)現(xiàn),包括mpich 3.2.1和尚在調(diào)試階段的 openmpi 4.0.0。除此之外,還預(yù)置了LAMMPS、GROMACS等科學(xué)計(jì)算應(yīng)用軟件。但遺憾的是,原型機(jī)沒有提供例如Caffe、PyTorch、TensorFlow等針對(duì)深度神經(jīng)網(wǎng)絡(luò)的開發(fā)框架,所以本文的工作首先要從移植PyTorch的框架開始。

    4 實(shí)驗(yàn)設(shè)計(jì)

    本文通過綜合考量神經(jīng)網(wǎng)絡(luò)模型、神經(jīng)網(wǎng)絡(luò)執(zhí)行框架和測(cè)試模式3個(gè)維度提出了一套具有針對(duì)性的實(shí)驗(yàn)設(shè)計(jì)方案,從而充分地測(cè)試天河三號(hào)原型機(jī)在神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練中的性能表現(xiàn)。

    4.1 神經(jīng)網(wǎng)絡(luò)模型

    為了更好地測(cè)試天河三號(hào)原型機(jī)在神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練中的表現(xiàn),本文選取了改進(jìn)版的LeNet模型來實(shí)現(xiàn)圖像分類工作。它包含2個(gè)卷積層、2個(gè)池化層、3個(gè)激活層和2個(gè)全連接層。第1個(gè)卷積層,輸入通道數(shù)為1,輸出通道數(shù)為10,卷積核大小為5×5,步長(zhǎng)為1,零填充。第2個(gè)卷積層,輸入通道數(shù)為10,輸出通道數(shù)為20,其余參數(shù)同第1個(gè)卷積層。2個(gè)池化層均使用最大池化方法。3個(gè)激活函數(shù)均使用ReLu函數(shù),并對(duì)模型使用了drop_out優(yōu)化方法。

    4.2 神經(jīng)網(wǎng)絡(luò)執(zhí)行框架

    本文將PyTorch分布式深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架移植到了天河三號(hào)原型機(jī)上,相比Caffe,PyTorch有較好的內(nèi)部?jī)?yōu)化和更優(yōu)質(zhì)的模型支持,但TensorFlow需要使用bazel聯(lián)網(wǎng)編譯,而天河三號(hào)原型機(jī)無法連接互聯(lián)網(wǎng)。除此之外,PyTorch還具有相當(dāng)簡(jiǎn)潔、高效、快速的框架,該框架的設(shè)計(jì)追求最少的封裝,符合人類思維,讓用戶盡可能地專注于實(shí)現(xiàn)自己的想法。本文選擇了最適合天河三號(hào)的MPI作為分布式底層通信架構(gòu),這也就決定了只能使用源碼安裝的方式在天河三號(hào)上部署PyTorch。

    本文用于訓(xùn)練的數(shù)據(jù)集是Mnist數(shù)據(jù)集,Mnist數(shù)據(jù)集是機(jī)器學(xué)習(xí)領(lǐng)域中非常經(jīng)典的一個(gè)數(shù)據(jù)集,由60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本組成,每個(gè)樣本都是一幅28×28的灰度手寫數(shù)字圖像。

    4.3 測(cè)試模型

    天河三號(hào)原型機(jī)具有MT-2000+和FT-2000+ 2種不同的處理器節(jié)點(diǎn),本文分別設(shè)計(jì)了MT-2000+和FT-2000+單節(jié)點(diǎn)、多進(jìn)程并行訓(xùn)練任務(wù),MT-2000+多節(jié)點(diǎn)、多進(jìn)程分布式訓(xùn)練任務(wù)和FT-2000+多節(jié)點(diǎn)、多進(jìn)程分布式訓(xùn)練任務(wù),以全面評(píng)估天河三號(hào)原型機(jī)上單節(jié)點(diǎn)的并行訓(xùn)練性能,及其在多節(jié)點(diǎn)分布式訓(xùn)練中的擴(kuò)展性。為保證數(shù)據(jù)的魯棒性,本文所有實(shí)驗(yàn)結(jié)果均為5次測(cè)試后的算術(shù)平均值。

    5 實(shí)驗(yàn)評(píng)估

    根據(jù)第4節(jié)設(shè)計(jì)的實(shí)驗(yàn)方案,本節(jié)分別針對(duì)MTP、FTP單節(jié)點(diǎn)和多節(jié)點(diǎn)展開實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié)分析,對(duì)實(shí)驗(yàn)結(jié)果出現(xiàn)的原因進(jìn)行解釋。

    5.1 單節(jié)點(diǎn)表現(xiàn)

    為了充分探究在MT-2000+和FT-2000+不同眾核處理器節(jié)點(diǎn)上的性能,本文分別在2種不同處理器構(gòu)成的1個(gè)節(jié)點(diǎn)上使用了最少1個(gè)進(jìn)程到最多32個(gè)進(jìn)程(根據(jù)天河三號(hào)的架構(gòu)特點(diǎn),1個(gè)節(jié)點(diǎn)最多使用32個(gè)處理器核,其中在本文實(shí)驗(yàn)中MTP最多只能使用20個(gè)進(jìn)程,否則會(huì)導(dǎo)致內(nèi)存資源不足)分別對(duì)同一個(gè)分類任務(wù)進(jìn)行訓(xùn)練。本文采取數(shù)據(jù)并行的分布式訓(xùn)練策略,以All-reduce機(jī)制作為通信策略,并使用嚴(yán)格的一致性同步協(xié)議(BSP),同時(shí)將訓(xùn)練集上的數(shù)據(jù)均勻分配到各進(jìn)程。

    在單個(gè)MT-2000+節(jié)點(diǎn)上,分別使用1~20個(gè)進(jìn)程進(jìn)行10個(gè)迭代輪次后訓(xùn)練的損失值如圖2e所示,在進(jìn)程數(shù)為2時(shí)loss值最小為0.221 9,在進(jìn)程數(shù)為17時(shí)loss值最大為0.245 7。相應(yīng)地,在進(jìn)程為2時(shí)總訓(xùn)練時(shí)間最短為4.602 5 min,隨后整體訓(xùn)練時(shí)間基本呈現(xiàn)隨進(jìn)程數(shù)的增加而增加的趨勢(shì)(在進(jìn)程數(shù)為8時(shí)有下降),在進(jìn)程數(shù)為20時(shí)總訓(xùn)練時(shí)間達(dá)到最大值37.064 1 min;與此同時(shí),本文發(fā)現(xiàn)當(dāng)進(jìn)程數(shù)是2的冪次時(shí),其訓(xùn)練結(jié)果優(yōu)于相鄰的進(jìn)程數(shù)的訓(xùn)練結(jié)果。

    在單個(gè)FT-2000+節(jié)點(diǎn)上,分別使用1~32個(gè)進(jìn)程進(jìn)行10個(gè)迭代輪次后訓(xùn)練的損失值如圖2a所示,在進(jìn)程數(shù)為2時(shí)loss值最小為0.221 0,在進(jìn)程數(shù)為26時(shí)loss值最大為0.262 0。相應(yīng)地,在進(jìn)程為2時(shí)總訓(xùn)練時(shí)間最短為3.995 8 min,在隨后整體訓(xùn)練時(shí)間也基本呈現(xiàn)隨進(jìn)程數(shù)的增加而增加的趨勢(shì)(在進(jìn)程數(shù)為8時(shí)有下降),在進(jìn)程數(shù)為32時(shí),總訓(xùn)練時(shí)間達(dá)到最大值52.082 1 min。與在MTP上的結(jié)果類似,當(dāng)本文使用的進(jìn)程數(shù)為2的冪次時(shí),其訓(xùn)練結(jié)果會(huì)明顯地優(yōu)于鄰近的進(jìn)程數(shù)的訓(xùn)練結(jié)果。

    5.2 多節(jié)點(diǎn)表現(xiàn)

    如圖2e~圖2h所示,在MT-2000+多節(jié)點(diǎn)訓(xùn)練過程中,當(dāng)使用的節(jié)點(diǎn)總數(shù)小于8時(shí),在進(jìn)程數(shù)為節(jié)點(diǎn)數(shù)2倍的情況下,可以在loss基本保持不變的情況下,達(dá)到最短訓(xùn)練時(shí)間;當(dāng)節(jié)點(diǎn)數(shù)大于或等于8時(shí),選擇和節(jié)點(diǎn)數(shù)一致的進(jìn)程數(shù),可以在最小化loss值的同時(shí)達(dá)到最短訓(xùn)練時(shí)間。在MTP選擇2節(jié)點(diǎn)時(shí),由于天河架構(gòu)共享內(nèi)存設(shè)計(jì)的原因,在進(jìn)程數(shù)達(dá)到64時(shí)就會(huì)出現(xiàn)內(nèi)存溢出問題。

    Figure 2 Training loss and total training time on MT-2000+ and FT-2000+ with different numbers of processors圖2 MT-2000+和FT-2000+單節(jié)點(diǎn)、多節(jié)點(diǎn)訓(xùn)練損失值與訓(xùn)練總時(shí)間

    在FT-2000+多節(jié)點(diǎn)訓(xùn)練過程中,當(dāng)使用的節(jié)點(diǎn)總數(shù)小于或等于8時(shí),與MTP類似,在進(jìn)程數(shù)為節(jié)點(diǎn)數(shù)2倍的情況下,可以在loss基本保持不變的情況下,達(dá)到最短訓(xùn)練時(shí)間,但是這個(gè)時(shí)間隨著節(jié)點(diǎn)數(shù)的增加將逐漸逼近進(jìn)程數(shù)等同于節(jié)點(diǎn)數(shù)情況下的訓(xùn)練時(shí)間。

    5.3 結(jié)果分析

    根據(jù)前文所述的測(cè)試結(jié)果可以發(fā)現(xiàn),在單節(jié)點(diǎn)的表現(xiàn)中,無論是FTP還是MTP,使用進(jìn)程數(shù)為2的冪次時(shí)結(jié)果會(huì)優(yōu)于鄰近的進(jìn)程數(shù)選擇(訓(xùn)練時(shí)間相差不多甚至更少的同時(shí)得到更低的訓(xùn)練損失函數(shù)值),在10輪迭代后,2種處理器均在進(jìn)程數(shù)為2時(shí)達(dá)到了最優(yōu)的訓(xùn)練結(jié)果,此時(shí)FTP的loss值比MTP的下降了約4%,同時(shí)訓(xùn)練時(shí)間縮短了約13%。在后續(xù)的實(shí)驗(yàn)中,本文將這2種情況下的迭代輪次提升到了50,此時(shí)MTP的loss為0.114 9,所花費(fèi)的時(shí)間為22.889 0 min,F(xiàn)TP的loss為0.112 2,所花費(fèi)的時(shí)間為19.180 9 min。綜上所述,單節(jié)點(diǎn)FTP上的損失函數(shù)值和訓(xùn)練時(shí)間都略優(yōu)于單節(jié)點(diǎn)MTP的損失函數(shù)值和訓(xùn)練時(shí)間。

    在多節(jié)點(diǎn)的表現(xiàn)中,當(dāng)MTP使用的節(jié)點(diǎn)數(shù)小于8,F(xiàn)TP使用的節(jié)點(diǎn)數(shù)小于16時(shí),與單節(jié)點(diǎn)上的結(jié)果一致,使用2倍于節(jié)點(diǎn)數(shù)的進(jìn)程數(shù)可以在損失值與最優(yōu)結(jié)果相差不超過0.002的情況下實(shí)現(xiàn)最短的訓(xùn)練時(shí)間。然而,隨著節(jié)點(diǎn)數(shù)的增加,使用與節(jié)點(diǎn)數(shù)相同的進(jìn)程數(shù)進(jìn)行訓(xùn)練的時(shí)間逐漸逼近使用2倍節(jié)點(diǎn)數(shù)的進(jìn)程數(shù)的訓(xùn)練時(shí)間,并在節(jié)點(diǎn)數(shù)達(dá)到16時(shí),使用等同于節(jié)點(diǎn)數(shù)的進(jìn)程數(shù)可以在損失函數(shù)值與最優(yōu)結(jié)果相差不超過0.000 5時(shí),達(dá)到最短的訓(xùn)練時(shí)間;在多節(jié)點(diǎn)MTP訓(xùn)練中,當(dāng)節(jié)點(diǎn)數(shù)大于或等于8之后,使用等同于節(jié)點(diǎn)數(shù)的進(jìn)程數(shù)進(jìn)行訓(xùn)練可以同時(shí)達(dá)到最小的損失函數(shù)值和最短的訓(xùn)練時(shí)間。除此之外,本文還發(fā)現(xiàn),在使用的進(jìn)程數(shù)相同時(shí),因?yàn)榭梢允褂酶嗟奶幚砥骱?,所以使用更多的?jié)點(diǎn)一定能夠在損失值相差不超過0.001的基礎(chǔ)上達(dá)到最短的訓(xùn)練時(shí)間。

    針對(duì)在單節(jié)點(diǎn)和多節(jié)點(diǎn)不同進(jìn)程數(shù)下訓(xùn)練性能差異的一個(gè)解釋是,在使用單節(jié)點(diǎn)訓(xùn)練時(shí),使用2個(gè)進(jìn)程比使用單個(gè)進(jìn)程更能充分地發(fā)揮節(jié)點(diǎn)的計(jì)算性能,但當(dāng)進(jìn)程數(shù)繼續(xù)增大時(shí),進(jìn)程間通信的開銷所帶來的損失超過了進(jìn)程數(shù)增加帶來的計(jì)算性能的增益,導(dǎo)致總體的訓(xùn)練時(shí)間增加和訓(xùn)練效果的下降;在MTP節(jié)點(diǎn)數(shù)小于8,F(xiàn)TP節(jié)點(diǎn)數(shù)小于或等于16時(shí),原因與單節(jié)點(diǎn)上一致;當(dāng)節(jié)點(diǎn)數(shù)繼續(xù)增加時(shí),即使是2倍的進(jìn)程數(shù)都會(huì)造成通信開銷的損失大于計(jì)算性能的提升,所以每個(gè)節(jié)點(diǎn)使用1個(gè)進(jìn)程在這種情況下是最好的選擇。

    5.4 通信與計(jì)算開銷分析

    進(jìn)一步地,為了充分探究上述實(shí)驗(yàn)結(jié)果出現(xiàn)的原因,如圖3所示,本文將整個(gè)實(shí)驗(yàn)切分成了計(jì)算時(shí)間T1(主要包括神經(jīng)網(wǎng)絡(luò)模型前向傳播和反向傳播以及損失值計(jì)算等的計(jì)算開銷)和通信時(shí)間T2(主要指使用All-reduce進(jìn)行全局梯度更新時(shí)的通信開銷),總時(shí)間T為上述2種開銷的總和,如式(1)所示。

    T=T1+T2

    (1)

    Figure 3 Communication and computing time of single node FT-2000+ and MT-2000+ 圖3 FT-2000+和MT-2000+單節(jié)點(diǎn)通信與計(jì)算時(shí)間

    Figure 4 Computing time of single node MT-2000+ and FT-2000+ 圖4 MT-2000+和FT-2000+單節(jié)點(diǎn)計(jì)算時(shí)間

    其中,計(jì)算開銷T1是為了訓(xùn)練網(wǎng)絡(luò)而必須付出的開銷,如圖4所示,隨著進(jìn)程數(shù)的增加,分配到單個(gè)進(jìn)程的訓(xùn)練子集數(shù)目將減少,因而在單個(gè)進(jìn)程中需要進(jìn)行的神經(jīng)網(wǎng)絡(luò)前向傳播和反向傳播計(jì)算操作(包括卷積、池化、激活操作、本地梯度更新和損失值更新等)的開銷將減少;但與此同時(shí),隨著進(jìn)程數(shù)的增加,根據(jù)天河三號(hào)原型機(jī)的共享內(nèi)存和共享Cache的架構(gòu)特點(diǎn),每個(gè)進(jìn)程的Cache命中率將顯著下降,訪存沖突將明顯增加。在進(jìn)程數(shù)剛開始遞增時(shí),前者的影響大于后者,所以計(jì)算時(shí)間將隨著進(jìn)程數(shù)的增大而增大;隨后,隨著進(jìn)程數(shù)的繼續(xù)增大,訪存沖突的影響將遠(yuǎn)遠(yuǎn)大于計(jì)算開銷的增益,所以計(jì)算時(shí)間將隨進(jìn)程數(shù)的增大顯著上升,導(dǎo)致了計(jì)算開銷隨著進(jìn)程數(shù)的增加先減少后增大的變化趨勢(shì)。

    同樣地,通信開銷T2是為了同步神經(jīng)網(wǎng)絡(luò)中的權(quán)值在路徑上的損耗,它可以利用式(2)來計(jì)算:

    T2=K×lbN×(α+S/B+S×C)

    (2)

    其中,α表示2個(gè)進(jìn)程間的通信延遲,它將隨著處理器核在片上的分布方式與相對(duì)距離而變化,共享同一個(gè)Cache的處理器核的通信速度將明顯大于僅僅共享同一個(gè)共享內(nèi)存的不同處理器核,而共享同一個(gè)共享內(nèi)存的處理器核之間的通信速度又會(huì)顯著超過使用不同共享內(nèi)存但在同一個(gè)節(jié)點(diǎn)內(nèi)的不同處理器核,處于2個(gè)不同節(jié)點(diǎn)之間的處理器核的通信速度將會(huì)是最慢的。S(Size)代表執(zhí)行All-reduce操作時(shí),每一個(gè)進(jìn)程所包含的數(shù)據(jù)塊大小,B(Bandwidth)代表2個(gè)進(jìn)程間通信的帶寬,C(Computing)代表每字節(jié)的計(jì)算開銷(注意,這部分計(jì)算開銷是指在All-reduce過程中的計(jì)算開銷,而非上一節(jié)中所說的計(jì)算開銷),N(Nnumbers)代表進(jìn)行通信的所有進(jìn)程數(shù)目,另外,K代表所進(jìn)行的All-reduce操作次數(shù)。本文實(shí)驗(yàn)使用的Mnist數(shù)據(jù)集總共有60 000個(gè)實(shí)例,Batchsize大小固定為128,那么每執(zhí)行一輪訓(xùn)練,所需要的All-reduce操作數(shù)目是固定的,即:

    K=60000/128

    (3)

    雖然每次參與迭代的進(jìn)程數(shù)不同,但是單個(gè)進(jìn)程進(jìn)行交互的數(shù)據(jù)塊大小為恒定的神經(jīng)網(wǎng)絡(luò)的權(quán)值W的大?。?/p>

    S=W

    (4)

    所以,式(1)可以改寫為:

    T2=458.75×lbN(α+W/B+W×C)

    (5)

    因此,由式(5)可知,在通信帶寬和每比特計(jì)算開銷確定的情況下,總體通信時(shí)間只與進(jìn)程的個(gè)數(shù)和2個(gè)進(jìn)程間的通信延遲相關(guān)。另外,在進(jìn)程數(shù)為奇數(shù)時(shí),每一個(gè)批次的通信開銷都會(huì)增加1個(gè)單位時(shí)間,所以在進(jìn)程數(shù)為奇數(shù)時(shí)總通信開銷時(shí)間為:

    T2=468.75×[lbN(α+W/B+W×C)+1]

    (6)

    所以,除了在FTP單節(jié)點(diǎn)的實(shí)驗(yàn)之外,在其他的所有測(cè)試場(chǎng)景下,總通信時(shí)間隨著進(jìn)程數(shù)的增大而增大,因?yàn)橥ㄐ叛舆t的變化在進(jìn)程數(shù)目較小時(shí),隨進(jìn)程數(shù)的增加變化不大。所以,式(6)中的總通信時(shí)間T2主要受到進(jìn)程數(shù)N的影響,T2隨著N的增大而增大,但是隨著N的增大,T2增大的幅度在減小,這與對(duì)數(shù)曲線的趨勢(shì)相一致。

    進(jìn)一步地,如圖5所示,本文發(fā)現(xiàn)在FTP單節(jié)點(diǎn)的訓(xùn)練場(chǎng)景中,當(dāng)進(jìn)程數(shù)超過20時(shí),總體通信時(shí)間反而會(huì)隨著進(jìn)程數(shù)的增加而減小,因?yàn)樵谶M(jìn)程數(shù)相對(duì)節(jié)點(diǎn)數(shù)目較大的時(shí)候,通信延遲和進(jìn)程間的通信帶寬B會(huì)變得復(fù)雜而不能一概而論。所以,式(6)所示的通信延遲的計(jì)算方法應(yīng)描述為:

    (7)

    從實(shí)驗(yàn)中發(fā)現(xiàn),根據(jù)式(7),當(dāng)進(jìn)程數(shù)繼續(xù)增加時(shí),各進(jìn)程間的總體通信延遲減小,總體通信帶寬增大,從而導(dǎo)致了通信的總時(shí)間減少。

    Figure 5 Communication time of single node FT-2000+ and MT-2000+圖5 FT-2000+和MT-2000+單節(jié)點(diǎn)通信時(shí)間

    6 結(jié)束語

    本文在作者自己移植的PyTorch分布式框架之上使用改進(jìn)的LeNet模型評(píng)估天河三號(hào)原型機(jī)的深度神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練性能。評(píng)估結(jié)果可用于評(píng)估邁向百億億級(jí)時(shí)的軟件和硬件設(shè)計(jì)。為了全面地評(píng)估和說明評(píng)估結(jié)果,本文分別為FTP和MTP的單節(jié)點(diǎn)和集群設(shè)計(jì)了相應(yīng)的實(shí)驗(yàn),為軟件開發(fā)人員和硬件架構(gòu)師提供了多角度的性能優(yōu)化方向。

    此外,本文將FTP和MTP處理器的性能進(jìn)行了比較,反映了不同處理器體系結(jié)構(gòu)設(shè)計(jì)之間的優(yōu)缺點(diǎn)。本文希望能夠向HPC社區(qū)與天河三號(hào)的開發(fā)人員提供參考,裨益中國(guó)百億億級(jí)超級(jí)計(jì)算機(jī)計(jì)劃,從而為追求百億億級(jí)超級(jí)計(jì)算機(jī)的發(fā)展開辟道路。在今后的工作中,希望結(jié)合天河三號(hào)原型機(jī)計(jì)算節(jié)點(diǎn)的特點(diǎn)和網(wǎng)絡(luò)拓?fù)涞奶攸c(diǎn),在PyTorch等平臺(tái)上對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練框架結(jié)構(gòu)進(jìn)行進(jìn)一步的調(diào)優(yōu),以更好地發(fā)揮天河三號(hào)原型機(jī)潛在的計(jì)算能力。

    猜你喜歡
    原型機(jī)天河進(jìn)程
    湖南省瀟水涔天河水庫(kù)擴(kuò)建工程通過竣工驗(yàn)收
    太空部隊(duì)授予SpaceX等四家企業(yè)發(fā)射系統(tǒng)原型機(jī)獎(jiǎng)勵(lì)
    我校設(shè)計(jì)制造的“西航一號(hào)”無人機(jī)原型機(jī)首飛成功
    債券市場(chǎng)對(duì)外開放的進(jìn)程與展望
    一條天河走運(yùn)來
    北方音樂(2019年13期)2019-08-21 02:14:32
    天河CBD:集聚創(chuàng)新,遇見城市未來
    空中之家(2017年11期)2017-11-28 05:27:45
    中國(guó)運(yùn)—20運(yùn)輸機(jī)可能將于2016年開始服役
    “天河二號(hào)”獲全球超算五連冠等
    社會(huì)進(jìn)程中的新聞學(xué)探尋
    我國(guó)高等教育改革進(jìn)程與反思
    99国产精品一区二区蜜桃av | 亚洲精品美女久久久久99蜜臀 | 午夜日韩欧美国产| 黄网站色视频无遮挡免费观看| 999精品在线视频| 国产xxxxx性猛交| 亚洲成色77777| 欧美人与性动交α欧美精品济南到| 国产精品人妻久久久影院| 少妇猛男粗大的猛烈进出视频| 曰老女人黄片| 日韩 欧美 亚洲 中文字幕| 亚洲人成77777在线视频| 最新的欧美精品一区二区| 大码成人一级视频| 五月天丁香电影| 成人黄色视频免费在线看| 黑人猛操日本美女一级片| 日本欧美国产在线视频| 青春草视频在线免费观看| 香蕉丝袜av| 精品一区二区三区四区五区乱码 | 一个人免费看片子| 成人亚洲精品一区在线观看| 少妇人妻久久综合中文| 大片免费播放器 马上看| 午夜视频精品福利| 90打野战视频偷拍视频| 亚洲伊人久久精品综合| 欧美人与性动交α欧美软件| h视频一区二区三区| 亚洲一码二码三码区别大吗| 免费久久久久久久精品成人欧美视频| www日本在线高清视频| 在线观看人妻少妇| 国产成人精品久久久久久| 一级毛片 在线播放| 亚洲成人手机| 国产在线观看jvid| 伊人亚洲综合成人网| 狂野欧美激情性xxxx| 国产在视频线精品| 欧美另类一区| 久久久久国产精品人妻一区二区| 久久精品aⅴ一区二区三区四区| 免费高清在线观看日韩| 欧美黄色淫秽网站| av不卡在线播放| 日本91视频免费播放| 尾随美女入室| 最黄视频免费看| 亚洲 欧美一区二区三区| 老司机靠b影院| 亚洲精品美女久久久久99蜜臀 | 久久久久久久国产电影| 午夜福利在线免费观看网站| 亚洲国产av影院在线观看| 黄色毛片三级朝国网站| 亚洲国产毛片av蜜桃av| 国产精品久久久久久人妻精品电影 | 久久精品aⅴ一区二区三区四区| 国产熟女欧美一区二区| av又黄又爽大尺度在线免费看| 热re99久久国产66热| 男人舔女人的私密视频| 一级毛片黄色毛片免费观看视频| 少妇人妻久久综合中文| 下体分泌物呈黄色| 日韩中文字幕欧美一区二区 | 黄色怎么调成土黄色| 亚洲av综合色区一区| 在线精品无人区一区二区三| 国产一区二区在线观看av| 丝袜美足系列| 亚洲国产看品久久| 超色免费av| 精品第一国产精品| 在线亚洲精品国产二区图片欧美| 国产主播在线观看一区二区 | 五月天丁香电影| 亚洲av综合色区一区| 亚洲图色成人| 午夜福利视频精品| 亚洲欧美日韩另类电影网站| 欧美在线黄色| 一级毛片黄色毛片免费观看视频| 一级,二级,三级黄色视频| e午夜精品久久久久久久| 国产日韩一区二区三区精品不卡| 国产精品免费大片| 久久久久网色| 在线观看一区二区三区激情| 性色av乱码一区二区三区2| 午夜老司机福利片| 国产成人免费无遮挡视频| 亚洲欧美中文字幕日韩二区| 亚洲专区中文字幕在线| 在线观看人妻少妇| 精品一区二区三区av网在线观看 | 成人午夜精彩视频在线观看| 欧美黑人欧美精品刺激| 久久99一区二区三区| 99香蕉大伊视频| 亚洲精品国产一区二区精华液| 国产成人av激情在线播放| 久久久久网色| 韩国精品一区二区三区| 午夜福利,免费看| 亚洲黑人精品在线| 老司机午夜十八禁免费视频| 黄色a级毛片大全视频| 国产精品熟女久久久久浪| 老司机亚洲免费影院| 久久精品久久久久久噜噜老黄| 国产福利在线免费观看视频| 性高湖久久久久久久久免费观看| 黑丝袜美女国产一区| 最新的欧美精品一区二区| 国产精品亚洲av一区麻豆| 亚洲欧美日韩高清在线视频 | 中文字幕另类日韩欧美亚洲嫩草| 日韩av在线免费看完整版不卡| 18禁黄网站禁片午夜丰满| 夫妻午夜视频| 好男人视频免费观看在线| 亚洲av综合色区一区| 一本一本久久a久久精品综合妖精| 一级,二级,三级黄色视频| 两性夫妻黄色片| 久久国产亚洲av麻豆专区| av在线app专区| 满18在线观看网站| 久久久久久久精品精品| 日本欧美视频一区| 国产色视频综合| 大香蕉久久成人网| 久久青草综合色| 好男人电影高清在线观看| 肉色欧美久久久久久久蜜桃| 久久人人爽av亚洲精品天堂| 少妇精品久久久久久久| 日韩av不卡免费在线播放| 黄色a级毛片大全视频| 亚洲 国产 在线| 天堂中文最新版在线下载| 久久久久精品国产欧美久久久 | 天天躁夜夜躁狠狠躁躁| 交换朋友夫妻互换小说| 热re99久久国产66热| 日韩视频在线欧美| 亚洲人成电影免费在线| 手机成人av网站| 国产伦理片在线播放av一区| 成人国产av品久久久| 制服人妻中文乱码| 精品亚洲成a人片在线观看| 人成视频在线观看免费观看| 久久99热这里只频精品6学生| 午夜视频精品福利| 日韩av不卡免费在线播放| 高潮久久久久久久久久久不卡| 久久久久久人人人人人| 1024视频免费在线观看| 99九九在线精品视频| 日韩电影二区| 日本一区二区免费在线视频| 美女国产高潮福利片在线看| 久久久久精品人妻al黑| 高清av免费在线| 激情视频va一区二区三区| 另类亚洲欧美激情| 亚洲免费av在线视频| 黄色视频在线播放观看不卡| 看十八女毛片水多多多| 中文字幕最新亚洲高清| 日本91视频免费播放| 婷婷色麻豆天堂久久| 久久国产亚洲av麻豆专区| 国产xxxxx性猛交| 日本av免费视频播放| netflix在线观看网站| 日韩欧美一区视频在线观看| 亚洲国产av新网站| 午夜两性在线视频| 满18在线观看网站| 国产免费一区二区三区四区乱码| 80岁老熟妇乱子伦牲交| 少妇人妻久久综合中文| 久热爱精品视频在线9| 人妻一区二区av| 国产麻豆69| 黄色怎么调成土黄色| av在线老鸭窝| 别揉我奶头~嗯~啊~动态视频 | 人人妻,人人澡人人爽秒播 | av不卡在线播放| 免费在线观看完整版高清| 久久久精品国产亚洲av高清涩受| 99国产精品一区二区三区| 亚洲免费av在线视频| 秋霞在线观看毛片| 叶爱在线成人免费视频播放| 日本av手机在线免费观看| 欧美精品高潮呻吟av久久| 在线观看免费日韩欧美大片| 美女国产高潮福利片在线看| 色网站视频免费| 久久影院123| 亚洲av成人不卡在线观看播放网 | 午夜激情久久久久久久| 亚洲专区中文字幕在线| 母亲3免费完整高清在线观看| 精品一区二区三区av网在线观看 | 天天躁日日躁夜夜躁夜夜| 赤兔流量卡办理| 黄色片一级片一级黄色片| 亚洲欧美一区二区三区国产| 波野结衣二区三区在线| 成人午夜精彩视频在线观看| 精品国产乱码久久久久久男人| 麻豆国产av国片精品| 精品一区在线观看国产| 最近手机中文字幕大全| 国产亚洲精品第一综合不卡| 国产亚洲欧美在线一区二区| 精品熟女少妇八av免费久了| 亚洲av综合色区一区| 国产精品久久久人人做人人爽| 中文字幕人妻丝袜制服| 成年女人毛片免费观看观看9 | 欧美乱码精品一区二区三区| 99久久人妻综合| 国产高清不卡午夜福利| 狂野欧美激情性xxxx| 热re99久久精品国产66热6| 国产男女超爽视频在线观看| 欧美久久黑人一区二区| 欧美黑人精品巨大| 18禁裸乳无遮挡动漫免费视频| 九色亚洲精品在线播放| 天堂中文最新版在线下载| av在线播放精品| 在线观看免费视频网站a站| 亚洲欧美成人综合另类久久久| 亚洲自偷自拍图片 自拍| 欧美黄色片欧美黄色片| 2018国产大陆天天弄谢| 亚洲 国产 在线| 亚洲精品久久久久久婷婷小说| 黄色毛片三级朝国网站| 亚洲,欧美,日韩| 国产亚洲欧美精品永久| 国产野战对白在线观看| 99香蕉大伊视频| 少妇 在线观看| 人体艺术视频欧美日本| av国产精品久久久久影院| h视频一区二区三区| 99久久精品国产亚洲精品| 热99久久久久精品小说推荐| 国产97色在线日韩免费| 国产深夜福利视频在线观看| 欧美精品一区二区免费开放| 国产日韩欧美视频二区| 中文字幕另类日韩欧美亚洲嫩草| av国产精品久久久久影院| 少妇被粗大的猛进出69影院| 中文精品一卡2卡3卡4更新| 99国产精品99久久久久| 熟女av电影| 中文精品一卡2卡3卡4更新| 91字幕亚洲| 亚洲人成电影观看| 久热爱精品视频在线9| 丝袜美腿诱惑在线| 国产成人免费无遮挡视频| 亚洲成人国产一区在线观看 | 国产日韩欧美在线精品| 亚洲伊人久久精品综合| 国产深夜福利视频在线观看| 久久精品久久久久久噜噜老黄| 亚洲精品一卡2卡三卡4卡5卡 | 中文字幕另类日韩欧美亚洲嫩草| 亚洲精品av麻豆狂野| 国产又色又爽无遮挡免| 欧美中文综合在线视频| 男女无遮挡免费网站观看| 日韩制服骚丝袜av| 久久久久久久国产电影| av福利片在线| 黄网站色视频无遮挡免费观看| 香蕉丝袜av| 午夜福利视频精品| 19禁男女啪啪无遮挡网站| 久久影院123| h视频一区二区三区| 亚洲精品乱久久久久久| 国产日韩欧美亚洲二区| 性少妇av在线| 亚洲av成人不卡在线观看播放网 | 久久ye,这里只有精品| 国产精品久久久av美女十八| 亚洲免费av在线视频| 亚洲精品国产av蜜桃| 国产黄频视频在线观看| 黄网站色视频无遮挡免费观看| 满18在线观看网站| 久久久久网色| 国产成人精品无人区| 中文字幕av电影在线播放| 国产91精品成人一区二区三区 | 日韩一卡2卡3卡4卡2021年| 亚洲国产欧美日韩在线播放| 69精品国产乱码久久久| 欧美日韩亚洲高清精品| 99精品久久久久人妻精品| 亚洲精品在线美女| 亚洲色图 男人天堂 中文字幕| 97人妻天天添夜夜摸| 一级毛片黄色毛片免费观看视频| 啦啦啦在线免费观看视频4| 人人妻人人爽人人添夜夜欢视频| 亚洲精品国产一区二区精华液| 欧美亚洲日本最大视频资源| 亚洲av国产av综合av卡| 少妇 在线观看| 亚洲av欧美aⅴ国产| 中文字幕精品免费在线观看视频| 亚洲av电影在线进入| 国产av国产精品国产| 国产精品二区激情视频| 亚洲欧美日韩高清在线视频 | 国产成人系列免费观看| 爱豆传媒免费全集在线观看| av在线老鸭窝| xxx大片免费视频| 精品亚洲成国产av| 久久久久久亚洲精品国产蜜桃av| 丝瓜视频免费看黄片| 成人黄色视频免费在线看| 国产亚洲一区二区精品| 亚洲美女黄色视频免费看| 少妇 在线观看| 国产精品 国内视频| a级毛片黄视频| 亚洲av日韩在线播放| 一本大道久久a久久精品| 丝袜美腿诱惑在线| 日本欧美国产在线视频| 欧美在线一区亚洲| 国产精品免费视频内射| 国产成人影院久久av| 九色亚洲精品在线播放| 18在线观看网站| 国产精品99久久99久久久不卡| 欧美激情高清一区二区三区| 超碰成人久久| 满18在线观看网站| 国产精品一区二区精品视频观看| cao死你这个sao货| 水蜜桃什么品种好| 18在线观看网站| 99热全是精品| 欧美日韩视频精品一区| 亚洲av综合色区一区| 日本av免费视频播放| 亚洲av综合色区一区| 69精品国产乱码久久久| 国产欧美日韩一区二区三区在线| 少妇裸体淫交视频免费看高清 | 精品久久久精品久久久| 亚洲五月婷婷丁香| 国产一区二区三区av在线| 91九色精品人成在线观看| 国产欧美日韩一区二区三 | av有码第一页| 丰满人妻熟妇乱又伦精品不卡| 欧美日韩黄片免| 久久精品国产亚洲av高清一级| 久久人人爽av亚洲精品天堂| 一个人免费看片子| 免费看十八禁软件| 最近手机中文字幕大全| 中文字幕人妻丝袜一区二区| 首页视频小说图片口味搜索 | 自拍欧美九色日韩亚洲蝌蚪91| 精品人妻一区二区三区麻豆| 精品久久蜜臀av无| 成人午夜精彩视频在线观看| 9色porny在线观看| 国产一区二区激情短视频 | 亚洲专区中文字幕在线| 日本vs欧美在线观看视频| 狠狠精品人妻久久久久久综合| 青草久久国产| 国产爽快片一区二区三区| 午夜老司机福利片| 少妇精品久久久久久久| 免费久久久久久久精品成人欧美视频| 无遮挡黄片免费观看| 美女高潮到喷水免费观看| 久久国产精品人妻蜜桃| 亚洲国产日韩一区二区| 热re99久久国产66热| 欧美日韩综合久久久久久| 一本久久精品| 人成视频在线观看免费观看| 午夜两性在线视频| 最黄视频免费看| 亚洲图色成人| 亚洲国产欧美在线一区| 午夜福利一区二区在线看| 国产人伦9x9x在线观看| 日韩,欧美,国产一区二区三区| 欧美久久黑人一区二区| av有码第一页| 无限看片的www在线观看| 大型av网站在线播放| 亚洲精品国产一区二区精华液| 精品亚洲成国产av| 国产精品免费大片| 黄片小视频在线播放| 人人妻人人添人人爽欧美一区卜| 亚洲,欧美精品.| 脱女人内裤的视频| 天天添夜夜摸| 五月天丁香电影| 国产精品 国内视频| 国产精品一二三区在线看| 后天国语完整版免费观看| 久久人人97超碰香蕉20202| 女人精品久久久久毛片| 亚洲精品久久成人aⅴ小说| 亚洲欧洲精品一区二区精品久久久| 国产一卡二卡三卡精品| 日日爽夜夜爽网站| 黄频高清免费视频| 欧美精品av麻豆av| 99国产精品免费福利视频| av在线播放精品| 久久女婷五月综合色啪小说| 免费日韩欧美在线观看| 免费看十八禁软件| √禁漫天堂资源中文www| 久久久欧美国产精品| 黄色a级毛片大全视频| 看十八女毛片水多多多| 五月天丁香电影| 丝袜人妻中文字幕| 中文字幕亚洲精品专区| 可以免费在线观看a视频的电影网站| 国产xxxxx性猛交| 久久ye,这里只有精品| 日本黄色日本黄色录像| 亚洲欧美一区二区三区久久| 亚洲国产精品一区二区三区在线| 精品福利观看| 国产精品一国产av| 十八禁高潮呻吟视频| 午夜激情久久久久久久| 一本一本久久a久久精品综合妖精| 黄色怎么调成土黄色| 国产男女超爽视频在线观看| 9热在线视频观看99| 只有这里有精品99| 亚洲av成人不卡在线观看播放网 | 中文字幕精品免费在线观看视频| 欧美精品一区二区大全| 精品少妇一区二区三区视频日本电影| 香蕉国产在线看| 黑人巨大精品欧美一区二区蜜桃| 亚洲av男天堂| 少妇被粗大的猛进出69影院| 丁香六月欧美| 99国产精品一区二区蜜桃av | 人人妻人人澡人人看| 乱人伦中国视频| 日韩av免费高清视频| 一本一本久久a久久精品综合妖精| 亚洲 欧美一区二区三区| 免费观看人在逋| 亚洲精品成人av观看孕妇| 婷婷色综合大香蕉| 在线观看一区二区三区激情| 黑人欧美特级aaaaaa片| 国产男女超爽视频在线观看| 亚洲专区国产一区二区| 精品国产乱码久久久久久小说| 精品人妻一区二区三区麻豆| 丰满人妻熟妇乱又伦精品不卡| 久久av网站| 亚洲国产最新在线播放| 中国美女看黄片| 免费在线观看影片大全网站 | 黄色 视频免费看| 欧美黄色淫秽网站| 熟女av电影| av国产久精品久网站免费入址| 大话2 男鬼变身卡| 精品国产超薄肉色丝袜足j| 久久久精品国产亚洲av高清涩受| 国产xxxxx性猛交| 精品一区二区三区av网在线观看 | 极品少妇高潮喷水抽搐| 国产片内射在线| 女性生殖器流出的白浆| 欧美日韩精品网址| 最黄视频免费看| 欧美97在线视频| 亚洲欧美日韩高清在线视频 | 国产欧美亚洲国产| 老司机亚洲免费影院| 日本av免费视频播放| av在线老鸭窝| 欧美精品一区二区免费开放| 国产野战对白在线观看| 成人18禁高潮啪啪吃奶动态图| 19禁男女啪啪无遮挡网站| 老司机亚洲免费影院| 国产精品一国产av| 巨乳人妻的诱惑在线观看| 两个人看的免费小视频| 精品国产乱码久久久久久男人| 欧美精品亚洲一区二区| bbb黄色大片| 久久精品aⅴ一区二区三区四区| 精品一区二区三区av网在线观看 | 国产日韩欧美亚洲二区| 久久影院123| 丝袜美腿诱惑在线| 亚洲精品在线美女| 国产精品人妻久久久影院| 国产日韩欧美亚洲二区| 亚洲欧洲精品一区二区精品久久久| 少妇被粗大的猛进出69影院| 成人18禁高潮啪啪吃奶动态图| 国产不卡av网站在线观看| 国产人伦9x9x在线观看| 国产精品国产av在线观看| 男女边吃奶边做爰视频| 午夜免费观看性视频| 国产男女内射视频| 国产av一区二区精品久久| 久久久精品94久久精品| 蜜桃在线观看..| 黄色怎么调成土黄色| 亚洲中文av在线| 91九色精品人成在线观看| 日本a在线网址| a级毛片黄视频| 又大又爽又粗| 国产成人欧美| 老司机午夜十八禁免费视频| 99久久人妻综合| 成年女人毛片免费观看观看9 | 免费黄频网站在线观看国产| 777米奇影视久久| 热99久久久久精品小说推荐| 高潮久久久久久久久久久不卡| 久久精品国产亚洲av涩爱| 黄色毛片三级朝国网站| 成人亚洲欧美一区二区av| 高清欧美精品videossex| 日韩一本色道免费dvd| 性色av一级| 国产精品人妻久久久影院| 日本黄色日本黄色录像| 午夜激情av网站| 午夜老司机福利片| 欧美激情 高清一区二区三区| 国产成人a∨麻豆精品| 精品人妻1区二区| 两个人看的免费小视频| 在线看a的网站| 国产欧美日韩一区二区三区在线| 2018国产大陆天天弄谢| 久久久国产精品麻豆| 狂野欧美激情性bbbbbb| 免费不卡黄色视频| 精品少妇黑人巨大在线播放| 老司机在亚洲福利影院| 性少妇av在线| www.999成人在线观看| 在线 av 中文字幕| 国产精品秋霞免费鲁丝片| 国产不卡av网站在线观看| 高清欧美精品videossex| 观看av在线不卡| 亚洲人成网站在线观看播放| 夜夜骑夜夜射夜夜干| 欧美人与性动交α欧美精品济南到| 日韩视频在线欧美| 中文字幕高清在线视频| 91国产中文字幕| 精品视频人人做人人爽| 王馨瑶露胸无遮挡在线观看| 亚洲五月婷婷丁香| 久久狼人影院| 亚洲国产最新在线播放| 亚洲精品自拍成人| 精品亚洲成a人片在线观看| 看免费av毛片| 久久精品成人免费网站| 搡老岳熟女国产| 99久久综合免费| 如日韩欧美国产精品一区二区三区| 亚洲第一av免费看| 精品高清国产在线一区| 中文欧美无线码| 成年动漫av网址| 亚洲国产最新在线播放| 日本色播在线视频| 午夜福利一区二区在线看| 欧美人与性动交α欧美软件| 亚洲欧美成人综合另类久久久|