• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向訓(xùn)練階段的神經(jīng)網(wǎng)絡(luò)性能分析

    2018-10-12 02:19:50李景軍
    計(jì)算機(jī)與生活 2018年10期
    關(guān)鍵詞:利用率卷積神經(jīng)網(wǎng)絡(luò)

    李景軍,張 宸,曹 強(qiáng)

    華中科技大學(xué) 武漢光電國家研究中心,武漢 430074

    1 引言

    隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)被廣泛應(yīng)用到人臉識別、物體檢測等領(lǐng)域。另外,處理器計(jì)算能力的增強(qiáng),不僅縮短了模型訓(xùn)練的時間,而且也使得CNN技術(shù)得到了進(jìn)一步的研究和開發(fā)。例如,Google公司開發(fā)的FaceNet網(wǎng)絡(luò)模型人臉識別精度可以達(dá)到99.63%[1]。微軟開發(fā)的Optasia,在大城市交通攝像機(jī)的關(guān)聯(lián)查詢方面,也表現(xiàn)出很高的精度和性能[2]。

    雖然CNN取得了很高的精度,但是復(fù)雜的網(wǎng)絡(luò)模型給處理器帶來了極大的挑戰(zhàn)。例如,為了達(dá)到57.1%的top-1精度和80.2%的top-5精度,AlexNet[3]需要迭代358000次[4]。VGG-16[5]擁有13800萬個權(quán)值參數(shù),一次迭代需要155億次浮點(diǎn)操作[6]。對于大型網(wǎng)絡(luò)模型(例如ResNet[7]),常常由幾十或者幾百層組成,模型具有更多的參數(shù),迭代計(jì)算需要更多的浮點(diǎn)操作。由于CPU采用復(fù)雜的控制邏輯和分支預(yù)測,利用CPU訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)模型時間很長,完成一次訓(xùn)練往往需要幾天甚至十幾天。

    為了加速訓(xùn)練過程,F(xiàn)PGA、GPU和一些專用加速器[8-13]被相繼開發(fā),通過優(yōu)化并行計(jì)算、流水線或近數(shù)據(jù)處理等方式,加快神經(jīng)網(wǎng)絡(luò)的執(zhí)行速度。GPU具有強(qiáng)大的并行處理能力,因此深度學(xué)習(xí)工作者大多使用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。Song等人[14]通過對任務(wù)進(jìn)行分類,動態(tài)調(diào)度GPU的內(nèi)部資源,在mobile GPU上實(shí)現(xiàn)了不同任務(wù)在延時、能耗和精度方面的權(quán)衡。Rhu等人[15]同時利用顯存和內(nèi)存存儲特征圖和參數(shù),實(shí)現(xiàn)了GPU訓(xùn)練更大的網(wǎng)絡(luò)模型。此外,cuDNN[16]、cuBLAS[17]等GPU加速庫和一些并行算法的出現(xiàn),從算法上優(yōu)化了矩陣乘法,縮短了矩陣運(yùn)算的時間。

    利用GPU神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度得到了很大的提升,但是GPU的計(jì)算資源和顯存仍然未被充分利用[18]。訓(xùn)練復(fù)雜的網(wǎng)絡(luò)模型時,如何高效地利用GPU,仍然有待進(jìn)一步研究。與之前的工作相比,本文注重于探究和分析在訓(xùn)練CNN過程中GPU資源是否被充分利用,以及GPU的計(jì)算效率是否達(dá)到最高。量化了GPU加速庫、神經(jīng)網(wǎng)絡(luò)模型和批次對GPU計(jì)算效率和資源利用率的影響。另外,統(tǒng)計(jì)了神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中每層的參數(shù)和特征圖的顯存占用量,為后續(xù)利用GPU訓(xùn)練大規(guī)模網(wǎng)絡(luò)模型的研究鋪平道路。

    總之,本文的主要貢獻(xiàn)如下:

    (1)把神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程分解為6個階段,通過細(xì)粒度的實(shí)驗(yàn),給出了每個階段的延時,明確地指出圖像預(yù)處理和反向傳播的矩陣乘法是最耗時的操作。

    (2)對比了cuDNN和cuBLAS庫加速CNN訓(xùn)練的差異。卷積層cuDNN的計(jì)算效率和資源利用率分別是cuBLAS的2倍和1.7倍,但是在全連接層兩者差距不大。

    (3)探究了網(wǎng)絡(luò)模型和批次對GPU計(jì)算效率和資源利用率的影響。對于不同網(wǎng)絡(luò)模型,卷積層的計(jì)算效率和資源利用率都遠(yuǎn)遠(yuǎn)高于全連接層。另外,較大的批次雖然會帶來計(jì)算效率的提升,但是資源利用率不會升高。

    (4)統(tǒng)計(jì)了不同網(wǎng)絡(luò)模型每層的顯存使用情況,為以后研究訓(xùn)練超出GPU顯存的網(wǎng)絡(luò)模型奠定基礎(chǔ)。

    本文組織結(jié)構(gòu)如下:第2章簡述相關(guān)工作;第3章介紹CNN的背景、數(shù)據(jù)流以及實(shí)驗(yàn)方法;第4章針對CNN數(shù)據(jù)流,對每個階段進(jìn)行細(xì)粒度的量化分析;第5章展示并分析實(shí)驗(yàn)結(jié)果;第6章總結(jié)全文。

    2 相關(guān)工作

    先前大部分工作研究和設(shè)計(jì)了神經(jīng)網(wǎng)絡(luò)加速器,從硬件來加速網(wǎng)絡(luò)訓(xùn)練過程[19-23]。本文重點(diǎn)從數(shù)據(jù)流的角度闡述神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,并量化了訓(xùn)練過程中GPU的計(jì)算效率和資源利用率,為之后GPU或者神經(jīng)網(wǎng)絡(luò)加速器的研究奠定基礎(chǔ)。

    神經(jīng)網(wǎng)絡(luò)的計(jì)算非常耗時,因此有大量的工作對此優(yōu)化[24-26],但是圖像預(yù)處理耗時也比較長,需要進(jìn)一步優(yōu)化。盡管使用快速存儲設(shè)備可以分?jǐn)傔@一開銷,但預(yù)處理的問題并沒有得到解決。隨著計(jì)算能力的提升,圖像預(yù)處理會拖慢神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

    另外,還有一些探究網(wǎng)絡(luò)模型性能的工作。Shi等人[27]在不同的硬件平臺上對多種網(wǎng)絡(luò)模型進(jìn)行了評估。通過比較各種模型的運(yùn)行時間,衡量網(wǎng)絡(luò)模型對硬件平臺的敏感程度。雖然本文也是通過時間延時衡量性能,但是主要在單個GPU平臺,評估GPU計(jì)算效率和資源利用率,分析不同網(wǎng)絡(luò)模型性能差異的根本原因。Li等人[28]對比了cuda-convnet和cuDNN下網(wǎng)絡(luò)模型的吞吐量,然后針對內(nèi)存布局重點(diǎn)討論了矩陣乘法帶來的吞吐量差異。從塊和寄存器分配等角度探究GPU資源利用情況,更注重于充分開發(fā)GPU的計(jì)算潛力。

    3 背景

    本章首先對CNN進(jìn)行簡要介紹,闡述CNN數(shù)據(jù)流的每個步驟,然后針對訓(xùn)練網(wǎng)絡(luò)模型的過程設(shè)計(jì)實(shí)驗(yàn)方法。

    3.1 CNN簡介

    常見的卷積神經(jīng)網(wǎng)絡(luò)主要由3種類型的層組成:卷積層(conv)、池化層(pool)和全連接層(fc)。為了防止過擬合,提高網(wǎng)絡(luò)的準(zhǔn)確率,研究人員會添加額外的層(norm、dropout等)。CNN就是由這些層按照一定順序組合而成,網(wǎng)絡(luò)的模型參數(shù)和權(quán)值都保存在這些層中。圖1展示了一個簡單的CNN網(wǎng)絡(luò)模型。

    Fig.1 Convolutional neural network圖1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積層,卷積層是利用一系列卷積核與輸入數(shù)據(jù)進(jìn)行卷積操作。在NCHW內(nèi)存布局中,卷積計(jì)算如式(1)所示:

    其中,K是卷積核;X和Y分別是卷積層的輸入和輸出;Ni是批次大小;Ci和Co分別是輸入和輸出通道數(shù);Hi和Wi分別是輸入特征圖的高和寬;KH和KW代表卷積核的大小。總之,卷積層通過卷積核從輸入的特征圖中提取各種局部特征,比如邊、角等。

    池化層,也叫下采樣層,普遍的實(shí)現(xiàn)方式有兩種:最大池化和均值池化。最大池化是對鄰域內(nèi)的特征點(diǎn)求最大值,均值池化是對鄰域內(nèi)的特征點(diǎn)求平均值。以均值池化為例,計(jì)算如式(2)所示:

    池化層對卷積層提取的局部特征進(jìn)行下采樣,抽象為低分辨率的特征圖。

    全連接層,又叫作內(nèi)積層。全連接層將之前層學(xué)到的特征圖映射到樣本空間。全連接層可以看作卷積核為KH=1,KW=1的卷積層。其中,H和W分別為上一層結(jié)果的高度和寬度。

    Softmax層,一般在網(wǎng)絡(luò)模型的最后,用來計(jì)算分類對象的概率。它的輸入來自全連接層。Softmax層的計(jì)算如式(3)所示:

    其中,Xk是上層輸出的最大預(yù)測值。

    3.2 前向傳播和反向傳播

    訓(xùn)練神經(jīng)網(wǎng)絡(luò)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)值參數(shù)W的過程,該過程需要進(jìn)行多次迭代(比如AlexNet迭代450000次),每次迭代又可以細(xì)分為前向傳播(Forward)和反向傳播(Backward),如圖2所示。

    Fig.2 Forward and backward propagation of CNN圖2 卷積神經(jīng)網(wǎng)絡(luò)的前向和反向傳播

    在前向傳播中,CNN網(wǎng)絡(luò)模型中的層按照從前至后順序依次執(zhí)行,第L層的輸出是第L+1層的輸入。在前向傳播的末尾,一個損失函數(shù)J被定義,用于衡量網(wǎng)絡(luò)模型輸出的預(yù)測結(jié)果Yi與真實(shí)標(biāo)簽Ti的差異,得到推斷誤差,如式(4)所示:

    在反向傳播過程中,利用鏈?zhǔn)椒▌t和隨機(jī)梯度下降算法[29-31],由后至前計(jì)算權(quán)值梯度ΔW。計(jì)算如式(5)、式(6)所示:

    最后,使用權(quán)值的梯度ΔW更新每層對應(yīng)的權(quán)值:

    3.3 CNN數(shù)據(jù)流

    圖3展示了一個典型的CNN數(shù)據(jù)流。對于訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)的迭代過程可以細(xì)分為6個階段:

    Fig.3 Data flow of CNN in computer systems圖3 計(jì)算系統(tǒng)的CNN數(shù)據(jù)流

    數(shù)據(jù)預(yù)取①:首先,預(yù)取線程從存儲設(shè)備(比如硬盤、SSD)讀取圖像數(shù)據(jù)和對應(yīng)的標(biāo)簽到內(nèi)存。為了提高圖像讀取速度,圖像數(shù)據(jù)可以以數(shù)據(jù)庫(LMDB、LevelDB)或者HDF5格式保存在存儲設(shè)備。

    圖像預(yù)處理②:對圖像進(jìn)行均值消減、裁剪、縮放等操作,變換到網(wǎng)絡(luò)規(guī)定的輸入大?。ˋlexNet網(wǎng)絡(luò)模型是3×227×227)。

    數(shù)據(jù)拷貝③:將批次大小張圖像數(shù)據(jù)從內(nèi)存異步拷貝到顯存,供GPU計(jì)算使用。

    網(wǎng)絡(luò)計(jì)算④:從顯存中讀取圖像數(shù)據(jù)、權(quán)值等,執(zhí)行每層的計(jì)算(包括前向傳播和反向傳播),并在反向傳播過程中計(jì)算每層的權(quán)值梯度ΔW。

    權(quán)值更新⑤:利用權(quán)值梯度ΔW,通過W=W+ΔW更新顯存中的權(quán)值,并準(zhǔn)備下次迭代,迭代直至訓(xùn)練結(jié)束。

    模型保存⑥:在訓(xùn)練過程中,為了避免進(jìn)程異?;蛘呦到y(tǒng)崩潰丟失訓(xùn)練的網(wǎng)絡(luò)模型,常常需要使用快照技術(shù)在一定數(shù)量的迭代次數(shù)后(例如10000次),將網(wǎng)絡(luò)模型保存到存儲設(shè)備。

    3.4 方法評估

    本文的目的是探索神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段GPU的計(jì)算效率和資源利用率,并分析影響GPU性能的根本原因。使用延時時間作為評價(jià)性能的指標(biāo)。首先對神經(jīng)網(wǎng)絡(luò)的一次迭代過程進(jìn)行量化分析,從數(shù)據(jù)流的角度詳細(xì)地給出迭代中各個階段的執(zhí)行時間。然后,從GPU加速庫、網(wǎng)絡(luò)模型和批次三方面討論對GPU計(jì)算效率和資源利用率的影響。最后統(tǒng)計(jì)了網(wǎng)絡(luò)模型中每層的權(quán)值數(shù)據(jù)和特征圖對顯存的使用情況。Caffe[32-33]提供了一個開發(fā)友好的平臺,并且在訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面展現(xiàn)出了良好的性能,因此選用Caffe作為本文的實(shí)驗(yàn)平臺。

    硬件和軟件平臺:表1詳細(xì)地展示了實(shí)驗(yàn)中使用的CPU和GPU的規(guī)格信息。本文使用的軟件平臺如表2所示。cuDNN是專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的GPU加速庫,對卷積層、池化層、正則化層和激活層進(jìn)行大量優(yōu)化。與cuDNN不同,cuBLAS是針對GPU設(shè)計(jì)的線性代數(shù)運(yùn)算庫,能夠利用GPU加速計(jì)算密集型操作。

    Table 1 Hardware configurations表1 硬件配置

    Table 2 Software configurations表2 軟件配置

    網(wǎng)絡(luò)模型和負(fù)載:在實(shí)驗(yàn)中,本文選擇MNIST[34]和ImageNet[35]數(shù)據(jù)集作為不同網(wǎng)絡(luò)模型的負(fù)載。Ima-geNet數(shù)據(jù)集作為AlexNet[3]網(wǎng)絡(luò)和VGG-16[5]網(wǎng)絡(luò)的輸入,MNIST數(shù)據(jù)集作為LeNet[36]網(wǎng)絡(luò)的輸入。ImageNet(240 GB,LMDB)包含128萬張訓(xùn)練圖像和50000張測試圖像,是一個用于訓(xùn)練視覺類網(wǎng)絡(luò)模型的典型大數(shù)據(jù)集。數(shù)據(jù)集中每一張圖像都用從0到999范圍內(nèi)的一個數(shù)字標(biāo)記,每一個數(shù)字代表自然界中一個具體的物種。另一方面,MNIST(59 MB,LMDB)數(shù)據(jù)集通常用于手寫數(shù)字的分類,有60000張訓(xùn)練圖像和10000張測試圖像。MNIST中的所有圖像都是28×28像素的灰度圖,每張圖像用0到9中的一個數(shù)字標(biāo)記,每一個數(shù)字代表一種手寫數(shù)字。

    4 數(shù)據(jù)流分析

    首先從數(shù)據(jù)流的角度,量化地給出一次迭代中各個階段的執(zhí)行時間,包括數(shù)據(jù)預(yù)取、圖像預(yù)處理、數(shù)據(jù)拷貝、網(wǎng)絡(luò)計(jì)算和權(quán)值更新。然后針對網(wǎng)絡(luò)計(jì)算階段,統(tǒng)計(jì)每層的執(zhí)行時間,并根據(jù)每層主要函數(shù)的執(zhí)行時間,分析網(wǎng)絡(luò)計(jì)算的瓶頸。

    圖4列出了在磁盤陣列(4×HDD,RAID 0)和單個硬盤上訓(xùn)練AlexNet網(wǎng)絡(luò)模型,批次為256時各階段的執(zhí)行時間和一次迭代總時間。其中權(quán)值更新耗時較短,圖像預(yù)處理(transform)和網(wǎng)絡(luò)計(jì)算(forward和backward)耗時較長,數(shù)據(jù)預(yù)取時間與存儲設(shè)備有關(guān)。

    Fig.4 Alexnets per stage computation latency over disk array and HDD圖4 Alexnet磁盤陣列和硬盤上各個階段計(jì)算延遲

    圖像預(yù)處理:依次從內(nèi)存中讀取256張圖像,對每張圖像進(jìn)行均值消減、剪裁、縮放等操作。由于數(shù)據(jù)集有限,網(wǎng)絡(luò)模型需要迭代幾十萬次,為了防止之后的迭代過程使用與本次迭代相同的圖像數(shù)據(jù)作為輸入,圖像預(yù)處理引入了隨機(jī)函數(shù),在一定程度上隨機(jī)控制圖像轉(zhuǎn)換操作,防止過擬合。圖像轉(zhuǎn)換操作雖然簡單,但是要對每個像素進(jìn)行操作,CPU處理256張圖像轉(zhuǎn)換需要大約110 ms。

    數(shù)據(jù)拷貝:轉(zhuǎn)換后的圖像數(shù)據(jù)仍然保存在內(nèi)存中,實(shí)驗(yàn)中,150 MB數(shù)據(jù)從內(nèi)存拷貝到顯存需要13 ms。如果每次迭代前都需要串行地執(zhí)行數(shù)據(jù)預(yù)取、圖像預(yù)處理和數(shù)據(jù)拷貝,GPU大部分時間空閑。因此如圖3所示,使用單獨(dú)的預(yù)取線程進(jìn)行數(shù)據(jù)預(yù)取,同時數(shù)據(jù)拷貝以異步的方式執(zhí)行,這樣不僅可以高效利用內(nèi)存帶寬,而且分?jǐn)偭藬?shù)據(jù)預(yù)取階段的時間花銷。

    網(wǎng)絡(luò)計(jì)算:網(wǎng)絡(luò)計(jì)算階段耗時223 ms,其中,前向傳播和反向傳播分別占40%和60%。

    另外對于磁盤陣列,迭代時間主要取決于網(wǎng)絡(luò)計(jì)算(computation)的時間。而對于單個磁盤,數(shù)據(jù)讀取時間是磁盤陣列的5.4倍,較慢的讀取速度,大大增加了預(yù)取時間。數(shù)據(jù)層需要等待預(yù)取線程的圖像數(shù)據(jù),因此迭代時間決定于數(shù)據(jù)預(yù)取的時間。磁盤陣列的讀取速度能夠滿足網(wǎng)絡(luò)計(jì)算的需求,因此接下來重點(diǎn)分析網(wǎng)絡(luò)計(jì)算階段。

    為了進(jìn)一步細(xì)粒度探究網(wǎng)絡(luò)計(jì)算階段的真實(shí)執(zhí)行情況,使用Nvidia Visual Profiler統(tǒng)計(jì)AlexNet網(wǎng)絡(luò)模型一次迭代中每層的函數(shù)執(zhí)行情況,并按照延時時間從大到小排序,表3展示了延時最高的15個函數(shù)。在所有耗時較高的函數(shù)中,卷積層的矩陣乘法運(yùn)算占87%,尤其是前兩個卷積層反向傳播中矩陣乘法運(yùn)算(bconv1和bconv2),占整個迭代時間的50%。因此,細(xì)粒度地分析卷積層矩陣操作的延時,量化評估GPU的計(jì)算效率和資源利用情況,揭示影響GPU性能的根本原因,顯得格外重要。此外,池化層和全連接層反向傳播中的延時也不容忽視。

    以AlexNet網(wǎng)絡(luò)模型為例,量化地給出了每一層計(jì)算操作的時間,為之后的實(shí)驗(yàn)分析提供了基礎(chǔ)。

    5 實(shí)驗(yàn)分析

    針對網(wǎng)絡(luò)計(jì)算階段,首先對比AlexNet網(wǎng)絡(luò)在不同GPU加速庫下的GPU計(jì)算效率和資源利用率。然后細(xì)粒度地分析在大型、中型和小型網(wǎng)絡(luò)模型下GPU的性能差異。此外,還量化地揭示了在訓(xùn)練網(wǎng)絡(luò)模型過程中,每層的特征圖和權(quán)值數(shù)據(jù)的顯存占用情況。

    Table 3 Top-15 latency of major functions in layers表3 層中主要函數(shù)時間延時的前15名

    5.1 cuDNN與cuBLAS的對比分析

    統(tǒng)計(jì)了在cuDNN和cuBLAS上訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的計(jì)算延時,包括前向傳播、反向傳播和梯度更新,如圖5所示。cuBLAS庫的前向傳播和反向傳播過程比cuDNN慢了65%。由于權(quán)值更新階段的時間延時不超過4.4%,省略這部分的分析。

    Fig.5 Latency for computation phase over cuDNN and cuBLAS圖5 cuDNN和cuBLAS在計(jì)算階段的延時

    圖6展示了cuDNN和cuBLAS庫每層執(zhí)行時間對比(前向傳播和反向傳播)。從圖中可以看出,在相同的存儲設(shè)備和預(yù)取延時條件下,cuDNN計(jì)算更快,尤其是conv層和norm層,cuBLAS的平均延時分別是cuDNN的4倍和3.25倍。從整體來看,norm層、relu層和pool層耗時較短,重點(diǎn)分析conv層。

    Fig.6 Per layer computation latency over cuDNN and cuBLAS圖6 cuDNN和cuBLAS每層的延時

    為了深入地探究cuDNN和cuBLAS的計(jì)算效率,量化分析計(jì)算性能,用實(shí)際吞吐量與峰值吞吐量的比值衡量GPU的計(jì)算效率:

    其中,flops是卷積層單精度浮點(diǎn)計(jì)算次數(shù);t是卷積層的執(zhí)行時間;Cores是GPU的CUDA核數(shù)量。

    圖7展示了本文的實(shí)驗(yàn)結(jié)果,卷積層cuDNN的計(jì)算效率遠(yuǎn)高于cuBLAS,是cuBLAS的2倍。雖然cuBLAS在全連接層的計(jì)算效率較高,但是與cuDNN差別不大。前面提到,卷積層cuBLAS的總延時是cuDNN的4倍,但卷積層的計(jì)算效率僅僅為cuDNN的一半,這是因?yàn)榫矸e層cuBLAS每次處理一張圖像,循環(huán)執(zhí)行256次(批次256)。cuDNN一次處理256張圖像,減少了CUDA函數(shù)調(diào)用次數(shù)。另外,處理過程中的一些異步操作(im2col[16])也會在一定程度上減少耗時。

    Fig.7 Per layer compute efficiency over cuDNNandcuBLAS圖7 cuDNN和cuBLAS每層的計(jì)算效率

    表4列出了卷積層和全連接層網(wǎng)絡(luò)計(jì)算過程中的矩陣信息??梢钥闯?,對于相同大小的結(jié)果矩陣,cuDNN和cuBLAS實(shí)際執(zhí)行的子矩陣大小也有很大差別。這一方面是由硬件條件決定的(例如顯存大小、寄存器數(shù)量等),另一方面也與GPU內(nèi)部塊和線程的劃分有關(guān)。

    為了進(jìn)一步探究GPU內(nèi)部計(jì)算資源的利用情況,探究GPU計(jì)算效率低的原因,定義矩陣乘法計(jì)算過程中實(shí)際劃分的線程塊的數(shù)量:

    Table 4 Detail information of CNN dominated kernels表4 CNN主要核函數(shù)的詳細(xì)信息

    其中,M×N是結(jié)果矩陣的大??;m×n是CUDA劃分后實(shí)際執(zhí)行的子矩陣的大小,這樣結(jié)果矩陣就可以通過執(zhí)行若干個子矩陣操作計(jì)算。

    由于GPU寄存器資源有限,而矩陣乘法是寄存器密集型的操作,每個線程至少使用81個寄存器,因此從寄存器利用的角度衡量最大可用的線程塊數(shù):

    如果Gridsize小于maxBlocks,則說明GPU資源未充分利用。如果Gridsize大于maxBlocks,則GPU資源也存在利用率不高的情形,為了量化GPU資源利用率,使用RU衡量GPU的資源利用效率:

    其中,cycles是GPU執(zhí)行完所有Gridsize需要的時鐘周期。在反向傳播過程中,既有權(quán)值梯度的計(jì)算,又有梯度映射的計(jì)算。表3中顯示,對于大多數(shù)層,權(quán)值梯度ΔW的計(jì)算延時高于梯度映射ΔY的計(jì)算延時。盡管conv2層梯度映射延時較高,但是與權(quán)值梯度延時差距不大。因此,重點(diǎn)分析反向傳播中權(quán)值梯度的計(jì)算過程。圖8展示了本文的實(shí)驗(yàn)結(jié)果。

    Fig.8 Resource utilization of main layers over cuDNN and cuBLAS圖8 cuDNN和cuBLAS在關(guān)鍵層的資源利用率

    對于cuDNN,卷積層的資源利用率最高,基本都在95%以上,全連接層在80%左右。而對于cuBLAS,卷積層的資源利用率平均只有47%,全連接層的資源利用率達(dá)到最高。這是因?yàn)榫矸e層cuBLAS每次處理一張圖像,數(shù)據(jù)量較少,實(shí)際分配的Gridsize要小于maxBlocks,導(dǎo)致GPU的計(jì)算資源并沒有充分利用。而cuDNN是將256張圖像的處理過程融合成一次大矩陣操作,訓(xùn)練過程較大的批次,使得結(jié)果矩陣很大,從而Gridsize遠(yuǎn)大于maxBlocks,實(shí)現(xiàn)了較高的資源利用率和計(jì)算效率。另外對于全連接層,cuDNN和cuBLAS都是將一批圖像的計(jì)算看作一次矩陣操作,因此兩者的資源利用率相近。

    bfc6層cuBLAS資源利用率遠(yuǎn)高于cuDNN,是因?yàn)閏uBLAS使用了較大的blocksize,一定程度上使得Gridsize大于maxBlocks。

    總之,由于cuDNN和cuBLAS矩陣操作方面處理方式的不同,使得它們在計(jì)算效率和資源利用率上差異很大。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時,由于較大的批次和數(shù)據(jù)量,使得cuDNN的性能要高于cuBLAS。因此,根據(jù)網(wǎng)絡(luò)模型結(jié)果矩陣的大小,合理地分配設(shè)置子矩陣大小、塊大小和線程數(shù),會增加GPU的計(jì)算效率和資源利用率,加快訓(xùn)練過程。

    5.2 網(wǎng)絡(luò)模型

    不同網(wǎng)絡(luò)模型使用的卷積核和圖像大小不同,間接地導(dǎo)致GPU資源分配不均勻,從而影響訓(xùn)練性能。因此,在不同模型下,對比了GPU的計(jì)算效率和資源利用率。圖9、圖10分別展示了3種網(wǎng)絡(luò)模型LeNet、AlexNet和VGG-16的GPU計(jì)算效率和資源利用率。

    首先無論是大型、中型還是小型網(wǎng)絡(luò)模型,卷積層的計(jì)算效率都高于全連接層,是全連接層的1.94倍。這是因?yàn)榫矸e層的矩陣大小遠(yuǎn)遠(yuǎn)大于全連接層,GPU計(jì)算效率更高。另外VGG-16中卷積層矩陣更大,計(jì)算效率最高,其次是AlexNet和LeNet。而全連接層的計(jì)算效率AlexNet最高,其次是VGG-16和LeNet。由于較小的網(wǎng)絡(luò)模型和簡單的計(jì)算操作,LeNet的卷積層和全連接層的計(jì)算效率都不高。

    Fig.9 Compute efficiency of GPU in main layers overAlexNet,LeNet and VGG-16圖9 AlexNet、LeNet和VGG-16在關(guān)鍵層GPU的計(jì)算效率

    Fig.10 Resource utilization of main layers overAlexNet,LeNet and VGG-16圖10 AlexNet、LeNet和VGG-16在關(guān)鍵層的資源利用率

    從資源利用率角度看,較大的矩陣規(guī)模和復(fù)雜的矩陣運(yùn)算使VGG-16和AlexNet在卷積層的資源利用率幾乎達(dá)到了100%。AlexNet網(wǎng)絡(luò)在全連接層的資源利用率達(dá)到了80%,VGG-16和LeNet都低于50%。這是因?yàn)锳lexNet的全連接層分配了較大的blocksize和r,較小的maxBlocks使得Gridsize是max-Blocks的1.5倍。而LeNet和VGG-16網(wǎng)絡(luò)模型,實(shí)際分配的Gridsize不到maxBlocks的一半,導(dǎo)致了極低的資源利用率。

    VGG-16的全連接層反向傳播(bfc6、bfc7和bfc8)的資源利用率遠(yuǎn)高于前向傳播(fc6、fc7和fc8)。由5.1節(jié)的分析可知,對于大部分卷積層和全連接層,反向傳播計(jì)算參數(shù)梯度的時間長于計(jì)算輸入的梯度,因此,主要討論參數(shù)梯度計(jì)算階段的資源利用情況。VGG-16的全連接層在參數(shù)梯度計(jì)算中擁有比輸入梯度計(jì)算更大的batchsize和r,另外VGG-16復(fù)雜的網(wǎng)絡(luò)模型和較多的參數(shù),也進(jìn)一步加大了Gridsize和maxBlocks之間的差值,增大了資源利用率。

    總之,通過圖9和圖10,卷積層的資源利用率和計(jì)算效率較高,并且相比于小型網(wǎng)絡(luò)(LeNet),中型網(wǎng)絡(luò)(AlexNet)和大型網(wǎng)絡(luò)(VGG-16)的計(jì)算效率達(dá)到了70%。全連接層的資源利用率和計(jì)算效率普遍較低,對于全連接層較多的網(wǎng)絡(luò),增大全連接層的計(jì)算效率顯得格外重要。

    5.3 批次大小

    通過5.1節(jié)和5.2節(jié)可知,分配的blocksize大小、寄存器的數(shù)量以及使用的Gridsize大小會對計(jì)算效率和資源利用率產(chǎn)生很大影響。前面已經(jīng)量化地討論了GPU加速庫和網(wǎng)絡(luò)模型帶來的性能差異。但是訓(xùn)練階段批次大小也會影響結(jié)果矩陣的大小,進(jìn)而通過Gridsize影響計(jì)算效率和資源利用率。

    圖11和圖12分別給出了AlexNet網(wǎng)絡(luò)模型在批次為128、256和512時的計(jì)算效率和資源利用率??梢钥闯觯卧酱笥?jì)算效率越高。批次為512的計(jì)算效率比256和128分別高出11%和41%。因此,適當(dāng)增加批次會增加GPU的計(jì)算效率。

    Fig.11 Compute efficiency of main layers over different batchsizes圖11 不同批次下關(guān)鍵層的計(jì)算效率

    Fig.12 Resource utilization of main layers over different batchsizes圖12 不同批次下關(guān)鍵層的資源利用率

    從資源利用率角度看,不同批次并沒有太大差別且都大于80%。這是因?yàn)樵谇跋騻鞑ブ?,盡管批次的差異會造成Gridsize差別很大(與批次大小成正比),但是不同批次的blocksize和r完全相同,因此資源利用率基本相同。fc8層512批次的GPU資源利用率較高的原因是完成所有Gridsize需要的時鐘周期cycles不嚴(yán)格地與Gridsize成正比。另外,在反向傳播中沒有出現(xiàn)這種現(xiàn)象,這是因?yàn)樵诜聪騻鞑ブ袇?shù)梯度的計(jì)算,參數(shù)的數(shù)量不會隨著批次改變??傊?,計(jì)算效率會在一定程度上隨著批次的增大而提高,但是批次對資源利用率的影響極小,基本可以忽略。因此計(jì)算效率和資源利用率并不是嚴(yán)格正相關(guān)。

    5.4 顯存利用

    圖13展示了不同網(wǎng)絡(luò)模型的顯存占用情況??梢钥闯?,隨著人們對模型計(jì)算精度需求的提升,網(wǎng)絡(luò)模型不斷增大,顯存使用越來越大。在當(dāng)前的框架中,為了提升網(wǎng)絡(luò)的訓(xùn)練過程速度,所有的數(shù)據(jù)包括權(quán)值、特征圖和預(yù)取圖像都存放在顯存,通過這種方式減少GPU對內(nèi)存的訪問,減低內(nèi)存與顯存數(shù)據(jù)拷貝的時間開銷。但是當(dāng)網(wǎng)絡(luò)模型所需顯存大于顯存的最大容量時,模型的訓(xùn)練過程將無法執(zhí)行。另外,盡管總的顯存使用量很高,但是層級的顯存利用率不到20%。在分析GPU計(jì)算效率和資源利用率的同時,很有必要關(guān)注并量化地分析訓(xùn)練過程中顯存的使用情況。

    Fig.13 GPU memory allocation size and max layer-wise usage圖13 不同模型的顯存分配和層級的最大顯存使用

    為了探究不同網(wǎng)絡(luò)模型下顯存的使用情況,量化顯存利用率,對LeNet、AlexNet和VGG網(wǎng)絡(luò)每層的顯存占用情況進(jìn)行了詳細(xì)的分析,結(jié)果如圖14~圖16所示。

    Fig.14 GPU memory allocation size of each layer inAlexNet(512)圖14 AlexNet(512)網(wǎng)絡(luò)每層顯存占用情況

    Fig.15 GPU memory allocation size of each layer in LeNet(256)圖15 LeNet(256)網(wǎng)絡(luò)每層顯存占用情況

    Fig.16 GPU memory allocation size of each layer in VGG-16(64)圖16 VGG-16(64)網(wǎng)絡(luò)每層顯存占用情況

    前兩個卷積層和第一個全連接層顯存占用較高,因?yàn)榍皟蓚€卷積層使用大量卷積核在原始圖像上進(jìn)行特征提?。ū热鏏lexNet的conv1層有96個卷積核),生成大量特征圖。全連接層將特征圖映射到樣本空間,參數(shù)數(shù)據(jù)量遠(yuǎn)大于特征圖量。Relu層和drop層沒有顯存分配,因?yàn)檫@些層在卷積層上進(jìn)行原地更新。

    雖然訓(xùn)練階段顯存占用量很大,但是每層的顯存占用較低,因此根據(jù)每層的數(shù)據(jù)量對顯存進(jìn)行合理的分配將會提高GPU訓(xùn)練大型網(wǎng)絡(luò)的能力。

    6 總結(jié)

    本文針對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段進(jìn)行了細(xì)粒度的分析,量化地給出了數(shù)據(jù)預(yù)取、數(shù)據(jù)拷貝、網(wǎng)絡(luò)計(jì)算等階段的時間延時以及每層的時間延時。對于網(wǎng)絡(luò)計(jì)算階段,探討了GPU加速庫、網(wǎng)絡(luò)模型和批次對GPU計(jì)算效率和資源利用率的影響。另外,給出了不同網(wǎng)絡(luò)模型每層的參數(shù)、特征圖等的顯存占用量,指出了通過調(diào)度每層顯存分配能實(shí)現(xiàn)訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)。

    猜你喜歡
    利用率卷積神經(jīng)網(wǎng)絡(luò)
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    化肥利用率穩(wěn)步增長
    做好農(nóng)村土地流轉(zhuǎn) 提高土地利用率
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    淺議如何提高涉煙信息的利用率
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    板材利用率提高之研究
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    亚洲 欧美 日韩 在线 免费| 亚洲av中文字字幕乱码综合| 国产高清有码在线观看视频| 国产极品精品免费视频能看的| 国内精品美女久久久久久| 中出人妻视频一区二区| 12—13女人毛片做爰片一| 国产三级中文精品| 亚洲在线自拍视频| 三级国产精品欧美在线观看 | 亚洲熟女毛片儿| 宅男免费午夜| 欧美一级毛片孕妇| 女生性感内裤真人,穿戴方法视频| 操出白浆在线播放| 999久久久国产精品视频| 欧美黄色片欧美黄色片| 日韩精品中文字幕看吧| x7x7x7水蜜桃| 男人舔奶头视频| 欧美性猛交╳xxx乱大交人| 免费在线观看影片大全网站| 精品日产1卡2卡| 最新美女视频免费是黄的| 国产高清有码在线观看视频| 成人亚洲精品av一区二区| 成人特级av手机在线观看| 国产黄片美女视频| av片东京热男人的天堂| 免费搜索国产男女视频| 少妇丰满av| 此物有八面人人有两片| 啪啪无遮挡十八禁网站| 精品久久久久久久人妻蜜臀av| 国产精品久久久人人做人人爽| 亚洲av熟女| 超碰成人久久| 日韩av在线大香蕉| 日日夜夜操网爽| 在线观看一区二区三区| 黄频高清免费视频| 一级黄色大片毛片| 欧美国产日韩亚洲一区| 后天国语完整版免费观看| 久久午夜亚洲精品久久| 亚洲av第一区精品v没综合| 亚洲精品久久国产高清桃花| 69av精品久久久久久| 免费大片18禁| 我要搜黄色片| 性色av乱码一区二区三区2| 亚洲精品国产精品久久久不卡| 亚洲18禁久久av| 久久婷婷人人爽人人干人人爱| 国产精品一区二区精品视频观看| 搞女人的毛片| 国产在线精品亚洲第一网站| 欧美丝袜亚洲另类 | 久久精品91无色码中文字幕| 亚洲国产欧洲综合997久久,| 动漫黄色视频在线观看| 好看av亚洲va欧美ⅴa在| 成人18禁在线播放| 成人特级av手机在线观看| 免费无遮挡裸体视频| 亚洲在线观看片| 一边摸一边抽搐一进一小说| 一二三四社区在线视频社区8| 欧美精品啪啪一区二区三区| 看黄色毛片网站| 嫩草影院入口| 丰满的人妻完整版| 婷婷亚洲欧美| 亚洲国产欧美网| 法律面前人人平等表现在哪些方面| 丝袜人妻中文字幕| 亚洲精华国产精华精| 久久香蕉国产精品| 五月伊人婷婷丁香| www日本在线高清视频| 日韩成人在线观看一区二区三区| 网址你懂的国产日韩在线| 日韩国内少妇激情av| www日本在线高清视频| 欧美不卡视频在线免费观看| 亚洲精品一卡2卡三卡4卡5卡| 午夜免费激情av| 搡老岳熟女国产| 欧美在线黄色| 日本黄大片高清| 丁香六月欧美| 欧美黑人巨大hd| or卡值多少钱| 九九在线视频观看精品| 国产精品野战在线观看| 久久久国产成人精品二区| 又粗又爽又猛毛片免费看| www.熟女人妻精品国产| 黄频高清免费视频| 日韩三级视频一区二区三区| 久久久久久人人人人人| 日韩大尺度精品在线看网址| 日本三级黄在线观看| 毛片女人毛片| 男女视频在线观看网站免费| 国产高清有码在线观看视频| 18禁美女被吸乳视频| 成年女人永久免费观看视频| 国产午夜精品久久久久久| 一二三四社区在线视频社区8| 美女高潮喷水抽搐中文字幕| 国产成年人精品一区二区| 天天躁狠狠躁夜夜躁狠狠躁| 欧美极品一区二区三区四区| 男人的好看免费观看在线视频| 亚洲黑人精品在线| 亚洲成人久久爱视频| 日韩欧美 国产精品| 欧美绝顶高潮抽搐喷水| 国内少妇人妻偷人精品xxx网站 | 日本熟妇午夜| 久久久久精品国产欧美久久久| 制服丝袜大香蕉在线| 性色avwww在线观看| 色综合欧美亚洲国产小说| 少妇的逼水好多| 中文字幕高清在线视频| 啦啦啦观看免费观看视频高清| 网址你懂的国产日韩在线| 少妇人妻一区二区三区视频| 极品教师在线免费播放| 亚洲熟妇熟女久久| 中文字幕人成人乱码亚洲影| 欧美日韩乱码在线| 精品熟女少妇八av免费久了| 啦啦啦韩国在线观看视频| 亚洲午夜理论影院| 黄色 视频免费看| 男人舔奶头视频| 身体一侧抽搐| www日本在线高清视频| 国产精品香港三级国产av潘金莲| 他把我摸到了高潮在线观看| 午夜福利在线观看吧| 国产精品美女特级片免费视频播放器 | 一本综合久久免费| 国产69精品久久久久777片 | 亚洲精品中文字幕一二三四区| 99久久无色码亚洲精品果冻| 亚洲aⅴ乱码一区二区在线播放| 国产69精品久久久久777片 | 欧美日韩精品网址| 啦啦啦免费观看视频1| 色综合亚洲欧美另类图片| 天堂√8在线中文| 毛片女人毛片| 一级毛片女人18水好多| 国产激情偷乱视频一区二区| 亚洲成人久久性| 日本 av在线| 日日干狠狠操夜夜爽| 狠狠狠狠99中文字幕| 久99久视频精品免费| 久久热在线av| 99热这里只有精品一区 | 欧美激情久久久久久爽电影| 国产高清videossex| 久久香蕉精品热| 黑人欧美特级aaaaaa片| 女生性感内裤真人,穿戴方法视频| 午夜亚洲福利在线播放| 日本 欧美在线| 国产欧美日韩一区二区精品| 亚洲av第一区精品v没综合| 亚洲av美国av| 中文字幕人成人乱码亚洲影| 亚洲熟女毛片儿| 亚洲国产精品合色在线| 亚洲成a人片在线一区二区| 国产真实乱freesex| 在线观看一区二区三区| 九九在线视频观看精品| 一个人看的www免费观看视频| 在线国产一区二区在线| 欧美一级a爱片免费观看看| 久久久久精品国产欧美久久久| 亚洲国产欧美人成| 日韩三级视频一区二区三区| 天堂√8在线中文| 午夜福利免费观看在线| 变态另类丝袜制服| 国产又色又爽无遮挡免费看| 亚洲中文字幕日韩| 丁香欧美五月| 国产av不卡久久| 亚洲av熟女| 岛国视频午夜一区免费看| 18禁美女被吸乳视频| 欧美xxxx黑人xx丫x性爽| 亚洲狠狠婷婷综合久久图片| 又大又爽又粗| 午夜精品久久久久久毛片777| 日韩有码中文字幕| 69av精品久久久久久| 噜噜噜噜噜久久久久久91| 天天躁狠狠躁夜夜躁狠狠躁| 久久精品aⅴ一区二区三区四区| 变态另类成人亚洲欧美熟女| 黄色日韩在线| 亚洲午夜精品一区,二区,三区| 国内精品久久久久精免费| 国产淫片久久久久久久久 | 草草在线视频免费看| 1024香蕉在线观看| 麻豆国产97在线/欧美| 免费观看的影片在线观看| 久99久视频精品免费| 亚洲男人的天堂狠狠| 亚洲 欧美一区二区三区| 国产99白浆流出| 欧美av亚洲av综合av国产av| 黄色日韩在线| 网址你懂的国产日韩在线| 国产黄片美女视频| 99热6这里只有精品| 午夜亚洲福利在线播放| 精品国产乱码久久久久久男人| 一级毛片高清免费大全| 国产激情欧美一区二区| 亚洲va日本ⅴa欧美va伊人久久| 曰老女人黄片| 国产精品影院久久| www.999成人在线观看| 黄片大片在线免费观看| 1024手机看黄色片| 这个男人来自地球电影免费观看| 国产激情久久老熟女| 黑人操中国人逼视频| 免费av不卡在线播放| 18禁观看日本| 97超视频在线观看视频| 精品久久久久久久毛片微露脸| 黄片大片在线免费观看| 欧美日韩精品网址| 12—13女人毛片做爰片一| 欧美精品啪啪一区二区三区| 久久久国产成人免费| 叶爱在线成人免费视频播放| 1024手机看黄色片| 丁香六月欧美| 黑人巨大精品欧美一区二区mp4| 少妇丰满av| 久久久久久久久久黄片| 国产精品自产拍在线观看55亚洲| 一边摸一边抽搐一进一小说| 久久这里只有精品19| 91麻豆av在线| 制服人妻中文乱码| 成熟少妇高潮喷水视频| 精品久久久久久久久久免费视频| 窝窝影院91人妻| 99国产精品一区二区三区| 日韩大尺度精品在线看网址| 一本一本综合久久| 女人被狂操c到高潮| 中文在线观看免费www的网站| 欧美xxxx黑人xx丫x性爽| 久久久久久久久久黄片| 国产精品九九99| 免费人成视频x8x8入口观看| 久久天躁狠狠躁夜夜2o2o| 亚洲成a人片在线一区二区| 国产精品永久免费网站| 99久国产av精品| 国产单亲对白刺激| 亚洲成av人片在线播放无| 精品福利观看| 久久香蕉精品热| 久久国产乱子伦精品免费另类| 日韩欧美一区二区三区在线观看| 精品久久久久久久毛片微露脸| 国模一区二区三区四区视频 | 久久久久性生活片| 亚洲欧洲精品一区二区精品久久久| 国产aⅴ精品一区二区三区波| 黄色成人免费大全| 人人妻,人人澡人人爽秒播| 日本 av在线| 久久香蕉国产精品| 美女 人体艺术 gogo| 日本一本二区三区精品| 中文字幕久久专区| 国产爱豆传媒在线观看| 五月伊人婷婷丁香| 在线观看一区二区三区| 在线观看舔阴道视频| 亚洲成av人片在线播放无| 在线观看免费视频日本深夜| 无限看片的www在线观看| 小说图片视频综合网站| 国产三级中文精品| 国产黄a三级三级三级人| a级毛片在线看网站| 午夜激情欧美在线| 亚洲av片天天在线观看| 成人特级黄色片久久久久久久| 国内少妇人妻偷人精品xxx网站 | 99热只有精品国产| 国产淫片久久久久久久久 | svipshipincom国产片| 99久久综合精品五月天人人| 久久精品91蜜桃| 久久久国产精品麻豆| 国产成人av激情在线播放| 国产高潮美女av| 午夜免费激情av| 波多野结衣巨乳人妻| 好男人电影高清在线观看| 男人和女人高潮做爰伦理| 中文字幕高清在线视频| 宅男免费午夜| 午夜激情欧美在线| 日韩免费av在线播放| 国产精品av久久久久免费| 国产av一区在线观看免费| 国产99白浆流出| 美女高潮喷水抽搐中文字幕| 免费在线观看成人毛片| 亚洲 欧美 日韩 在线 免费| 99在线人妻在线中文字幕| 国产视频内射| 成人永久免费在线观看视频| 亚洲18禁久久av| 高清毛片免费观看视频网站| 国产乱人伦免费视频| 五月玫瑰六月丁香| 亚洲欧洲精品一区二区精品久久久| 亚洲成人久久性| 老鸭窝网址在线观看| xxx96com| 久久久久久人人人人人| 毛片女人毛片| 中文字幕高清在线视频| 亚洲av美国av| 国产精品美女特级片免费视频播放器 | 精品一区二区三区视频在线 | 日本撒尿小便嘘嘘汇集6| 久久午夜综合久久蜜桃| 亚洲欧美日韩无卡精品| 一本久久中文字幕| 欧美大码av| 巨乳人妻的诱惑在线观看| www.999成人在线观看| 免费看美女性在线毛片视频| 日韩大尺度精品在线看网址| 久久久国产欧美日韩av| 精品久久久久久久毛片微露脸| 欧美极品一区二区三区四区| 免费在线观看日本一区| 久久中文看片网| 欧美色欧美亚洲另类二区| 身体一侧抽搐| 夜夜爽天天搞| 国产精品国产高清国产av| 久久这里只有精品中国| 久久久色成人| 精品一区二区三区视频在线观看免费| 欧美性猛交╳xxx乱大交人| 成人精品一区二区免费| 1024香蕉在线观看| 亚洲在线自拍视频| 一区福利在线观看| 精品久久久久久久久久久久久| av在线蜜桃| 毛片女人毛片| 免费无遮挡裸体视频| 性色av乱码一区二区三区2| 看免费av毛片| 国产精品一区二区三区四区久久| 中出人妻视频一区二区| 国产精品亚洲一级av第二区| 最近最新免费中文字幕在线| 好看av亚洲va欧美ⅴa在| 黄色视频,在线免费观看| 黄色丝袜av网址大全| 中文字幕人成人乱码亚洲影| 精品一区二区三区四区五区乱码| 亚洲专区国产一区二区| 日本 欧美在线| 国产激情偷乱视频一区二区| 九九热线精品视视频播放| av黄色大香蕉| 日韩欧美一区二区三区在线观看| 国产成人欧美在线观看| av国产免费在线观看| 老司机午夜福利在线观看视频| 美女大奶头视频| 久久久国产成人精品二区| 天天躁狠狠躁夜夜躁狠狠躁| 校园春色视频在线观看| 他把我摸到了高潮在线观看| 久久午夜综合久久蜜桃| АⅤ资源中文在线天堂| 可以在线观看毛片的网站| 久久久水蜜桃国产精品网| 可以在线观看毛片的网站| 国产av不卡久久| 国产伦精品一区二区三区四那| 色噜噜av男人的天堂激情| 少妇的丰满在线观看| 五月伊人婷婷丁香| 丰满人妻熟妇乱又伦精品不卡| avwww免费| 午夜福利成人在线免费观看| 在线观看一区二区三区| 日韩欧美在线二视频| 黑人操中国人逼视频| or卡值多少钱| 亚洲最大成人中文| 久久香蕉国产精品| netflix在线观看网站| 国产免费av片在线观看野外av| 成人18禁在线播放| 精华霜和精华液先用哪个| 精品99又大又爽又粗少妇毛片 | 国产极品精品免费视频能看的| 国产欧美日韩一区二区三| 97超级碰碰碰精品色视频在线观看| av中文乱码字幕在线| 欧美色视频一区免费| 亚洲中文字幕一区二区三区有码在线看 | 黄片大片在线免费观看| 欧美日韩黄片免| 最近最新中文字幕大全免费视频| 少妇熟女aⅴ在线视频| 色综合站精品国产| 免费在线观看日本一区| 色噜噜av男人的天堂激情| 女人被狂操c到高潮| 国产高清视频在线播放一区| xxxwww97欧美| 日本黄色视频三级网站网址| 亚洲人与动物交配视频| 精品国产亚洲在线| 别揉我奶头~嗯~啊~动态视频| 女同久久另类99精品国产91| 真人一进一出gif抽搐免费| 国产精品亚洲一级av第二区| 亚洲av免费在线观看| 九色国产91popny在线| av欧美777| 黄色丝袜av网址大全| 啦啦啦免费观看视频1| 老司机午夜十八禁免费视频| 97碰自拍视频| 成年女人毛片免费观看观看9| av中文乱码字幕在线| 亚洲精品456在线播放app | 国产欧美日韩一区二区三| 真实男女啪啪啪动态图| 久久久国产欧美日韩av| 久久久国产成人免费| 久久久久亚洲av毛片大全| 麻豆国产av国片精品| 日韩人妻高清精品专区| 国产欧美日韩一区二区精品| 日韩免费av在线播放| 麻豆国产av国片精品| 人人妻,人人澡人人爽秒播| 国产真实乱freesex| 12—13女人毛片做爰片一| a在线观看视频网站| 老司机在亚洲福利影院| 91久久精品国产一区二区成人 | 母亲3免费完整高清在线观看| 国产精品亚洲一级av第二区| 啪啪无遮挡十八禁网站| 久久香蕉精品热| 母亲3免费完整高清在线观看| 国产免费男女视频| 18禁国产床啪视频网站| 很黄的视频免费| 夜夜夜夜夜久久久久| 一本精品99久久精品77| 国产高清视频在线播放一区| 午夜福利视频1000在线观看| 欧美日韩国产亚洲二区| 美女午夜性视频免费| 三级毛片av免费| 三级男女做爰猛烈吃奶摸视频| 热99在线观看视频| 毛片女人毛片| 成人永久免费在线观看视频| 美女黄网站色视频| 午夜福利视频1000在线观看| 国产激情欧美一区二区| 国产成人系列免费观看| 国产亚洲欧美98| 在线观看免费视频日本深夜| 国产高清视频在线观看网站| 中文在线观看免费www的网站| 国内少妇人妻偷人精品xxx网站 | 舔av片在线| 最近最新中文字幕大全电影3| 久久久久久人人人人人| 天堂动漫精品| 国产精华一区二区三区| 国产成人精品久久二区二区免费| 亚洲中文av在线| 久久午夜综合久久蜜桃| 一级a爱片免费观看的视频| 久久久色成人| 国产精品1区2区在线观看.| a级毛片a级免费在线| 免费观看精品视频网站| 男女午夜视频在线观看| 欧美激情在线99| 手机成人av网站| 十八禁网站免费在线| 非洲黑人性xxxx精品又粗又长| 国内精品一区二区在线观看| 日韩免费av在线播放| 久9热在线精品视频| 精品一区二区三区av网在线观看| 成年女人看的毛片在线观看| 久久久国产欧美日韩av| 国产精品久久久久久人妻精品电影| 日韩欧美国产在线观看| 久久久久久久久中文| 99精品欧美一区二区三区四区| 精品久久久久久久末码| 国产av麻豆久久久久久久| 床上黄色一级片| 亚洲欧洲精品一区二区精品久久久| 久久人人精品亚洲av| 欧美一级毛片孕妇| 1000部很黄的大片| 免费观看的影片在线观看| 三级国产精品欧美在线观看 | 亚洲国产精品久久男人天堂| 九九在线视频观看精品| 亚洲无线在线观看| 国产成人精品久久二区二区免费| 精品乱码久久久久久99久播| 久久久色成人| 日日摸夜夜添夜夜添小说| 国产黄a三级三级三级人| 国产精品久久电影中文字幕| 亚洲精品在线美女| 久久久久九九精品影院| 超碰成人久久| 午夜福利免费观看在线| 看黄色毛片网站| 国产一区在线观看成人免费| 国产亚洲精品久久久com| 丰满人妻熟妇乱又伦精品不卡| 日本黄色视频三级网站网址| 日本免费a在线| 天堂网av新在线| 精品国产美女av久久久久小说| 国产成人啪精品午夜网站| 99久久久亚洲精品蜜臀av| 久久久久久久精品吃奶| 99热精品在线国产| 宅男免费午夜| 欧美丝袜亚洲另类 | 露出奶头的视频| 国产探花在线观看一区二区| 精华霜和精华液先用哪个| 在线免费观看不下载黄p国产 | 1000部很黄的大片| 两性夫妻黄色片| 国产毛片a区久久久久| 男女下面进入的视频免费午夜| 18美女黄网站色大片免费观看| 波多野结衣巨乳人妻| 99精品欧美一区二区三区四区| 法律面前人人平等表现在哪些方面| 国产精品一区二区三区四区免费观看 | 99国产精品99久久久久| 国产欧美日韩精品亚洲av| 欧美日韩福利视频一区二区| 老司机深夜福利视频在线观看| 亚洲av免费在线观看| 免费在线观看成人毛片| 国内精品美女久久久久久| 亚洲av美国av| 中亚洲国语对白在线视频| 欧美绝顶高潮抽搐喷水| 免费观看人在逋| av天堂中文字幕网| 性色av乱码一区二区三区2| 精品国内亚洲2022精品成人| 99在线人妻在线中文字幕| 蜜桃久久精品国产亚洲av| 日本免费一区二区三区高清不卡| 欧美性猛交╳xxx乱大交人| 欧美激情久久久久久爽电影| a级毛片a级免费在线| 亚洲自偷自拍图片 自拍| 舔av片在线| 精品国内亚洲2022精品成人| 一个人免费在线观看的高清视频| 少妇熟女aⅴ在线视频| 美女cb高潮喷水在线观看 | 18禁美女被吸乳视频| av天堂中文字幕网| 麻豆国产av国片精品| 午夜福利18| 久久人妻av系列| 色综合站精品国产| 国产精品一区二区三区四区免费观看 | 一区二区三区激情视频| 亚洲成人久久爱视频| 午夜免费成人在线视频|