• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向異構并行架構的大規(guī)模原型學習算法

    2016-12-22 08:52:48蘇統(tǒng)華李松澤鄧勝春
    哈爾濱工業(yè)大學學報 2016年11期
    關鍵詞:小批量線程原型

    蘇統(tǒng)華, 李松澤, 鄧勝春, 于 洋, 白 薇

    (1.哈爾濱工業(yè)大學 軟件學院, 哈爾濱 150001;2.中建八局大連公司, 遼寧 大連 116021;3.諾基亞通信系統(tǒng)技術(北京)有限公司浙江分公司, 杭州 310053)

    ?

    面向異構并行架構的大規(guī)模原型學習算法

    蘇統(tǒng)華1, 李松澤1, 鄧勝春1, 于 洋2, 白 薇3

    (1.哈爾濱工業(yè)大學 軟件學院, 哈爾濱 150001;2.中建八局大連公司, 遼寧 大連 116021;3.諾基亞通信系統(tǒng)技術(北京)有限公司浙江分公司, 杭州 310053)

    為解決當前原型學習算法在大規(guī)模、大類別機器學習和模式識別領域的計算密集瓶頸問題,提出一種采用GPU和CPU異構并行計算架構的可擴展原型學習算法框架. 一是通過分解和重組算法的計算任務,將密集的計算負載轉移到GPU上,而CPU只需進行少量的流程控制. 二是根據(jù)任務類型自適應地決定是采用分塊策略還是并行歸約策略來實現(xiàn). 采用大規(guī)模手寫漢字樣本庫驗證本框架,在消費級顯卡GTX680上使用小批量處理模式進行模型學習時,最高可得到194倍的加速比,升級到GTX980顯卡,加速比可提升到638倍;算法甚至在更難以加速的隨機梯度下降模式下,也至少能獲得30倍的加速比. 該算法框架在保證識別精度的前提下具有很高的可擴展性,能夠有效解決原有原型學習的計算瓶頸問題.

    原型學習;學習矢量量化;手寫漢字識別;并行歸約;異構并行計算

    學習矢量量化LVQ (learning vector quantization)是一種適用于大規(guī)模、大類別分類任務的原型學習算法,具有低存儲、高識別吞吐率的優(yōu)點. 已有的研究表明,當采用判別學習準則時,原型學習能在數(shù)字識別、漢字識別(含日本文字識別)問題上獲得較先進的識別結果[1]. LVQ同樣在選取有限候選類方面具有非常好的效果. 例如,LVQ可以用來為復雜模型篩選小部分有潛力的類別集,從而有效緩解PL-MQDF模型[2]的高強度訓練過程. 更重要的是,隨著移動設備的普及,LVQ以其模型精巧、速度快等特點能很好地適用于智能手機、平板電腦等嵌入式設備上的輸入法應用[3-4].

    學習一個魯棒的大規(guī)模LVQ模型,其計算復雜性令人望而生畏. 若使用單核CPU的傳統(tǒng)實現(xiàn)方法,將需要若干天的訓練時間. 而對于判別學習準則來說,數(shù)據(jù)越多識別效果則越好,當然學習時間會相應的加長. 部分研究者嘗試通過收集或人工合成的方式獲取更多的訓練樣本. 最新的一些研究結果認為,當指數(shù)級增長樣本數(shù)量時,識別效果可以得到穩(wěn)步提升[5-6]. 然而,目前已進入了多核計算時代. 英特爾公司的Pat Gelsinger曾表示,若芯片仍按照傳統(tǒng)方式設計,到2015年芯片將如同太陽表面一樣熱[7]. GPU所使用的異構并行計算架構已開始逐漸補充甚至部分代替?zhèn)鹘y(tǒng)的串行計算架構. 因此,從單核處理器轉向大規(guī)模并行處理器是未來算法設計的必然趨勢.

    GPU異構計算架構在機器學習以及模式識別任務領域具有突出的加速效果. Raina等人研究了深度信念網(wǎng)絡DBN (deep belief network)與稀疏編碼在GPU上的實現(xiàn)[8],他們的DBN實現(xiàn)方案達到了70倍的加速比,而稀疏編碼的并行算法則獲得了5到15倍的加速比. 一些學者也研究了大型多層神經(jīng)網(wǎng)絡在GPU上的實現(xiàn). Scherer與Behnke[9]在GPU上實現(xiàn)了加速比達100倍的卷積神經(jīng)網(wǎng)絡CNN (convolution neural network). Ciresan等人則在GPU上實現(xiàn)了深度多層感知機,并且取得了當前最好的識別性能[10]. 周明可等人則針對改進二次判別函數(shù)MQDF (modified quadratic discriminative function)實現(xiàn)了基于GPU的判別訓練方法,并將其成功應用到了漢字識別上,其小批量處理實現(xiàn)方案獲得了15倍的加速比[6].

    本文提出一種適用于大規(guī)模、大類別分類任務的異構原型學習算法框架. 與已有的研究工作不同,本文提出的框架幾乎將所有的計算負載都調度到GPU上,CPU只負責協(xié)調部分計算邏輯. 為了充分利用GPU的計算資源,算法深入分析了計算負載的可并行度,大量使用了分塊平鋪以及并行歸約等并行計算模式. 算法在大類別手寫漢字識別任務下進行驗證,得到比較高的可擴展性. 在小批量處理的模式下,使用消費級顯卡GTX680,該算法最高可達194倍的加速比. 當升級到新一代GTX980時,加速比提升到638倍. 最值得一提的是,該算法在隨機梯度模式下也可以獲得至少30倍的加速比.

    1 算 法

    1.1 LVQ串行算法

    假設有一個包含C個類別的分類任務,原型學習即產生一個原型向量集Θ= {mi, i=1, 2,…,C}. 為便于討論,本文的形式化主要對每個類包含一個原型(類中心)的情況展開,所述框架同樣適用于每個類包含多個原型的情況. 預測未知標號樣本x的標記問題,可以轉化為查找最小距離問題. 計算x與每個原型向量的歐氏距離,通過查找C個距離的最小值,就可以把x的標號設為擁有最小距離的原型向量所在類別,表示x與該類別的原型最相似. 該預測過程可形式化為把x賦予標號j:

    為了學習一個原型向量集,需要從大規(guī)模訓練樣本中進行有監(jiān)督的訓練. 用{(xn,yn), n=1,2,…,N }表示訓練樣本集,其中yn為樣本xn的真實標號,整個訓練過程的目標就是針對訓練集最小化經(jīng)驗損失[11]:

    (1)

    其中φ(·)為針對評分函數(shù)f(x,Θ)的損失函數(shù).

    為了求解式(1)中的最小化問題,通常采用隨機梯度下降SGD (stochastic gradient descent)的方法對參數(shù)進行更新:

    其中η表示學習步長.

    為說明LVQ中的判別學習思想,此處以廣義學習矢量量化GLVQ (generalized learning vector quantization)為例. 首先需定義一個可以度量樣本x誤差的測量函數(shù):

    (2)

    這里dc與dr分別表示樣本x與真實類別c以及競爭類別r之間的距離. 分類損失函數(shù)可以通過sigmoid函數(shù)近似:

    (3)

    其中ξ用來調節(jié)sigmoid函數(shù)的平滑度.

    若使用歐氏平方距離,則mc與mr的更新公式可以表示為x的下列函數(shù):

    (4)

    整個GLVQ學習算法可由算法1中的偽碼表示. 算法1主要重復執(zhí)行下列任務:采樣一個樣本,計算出該樣本與所有原型之間的距離,獲得真實類別與競爭類別,計算損失函數(shù)以及梯度,最后更新原型向量.

    算法1 GLVQ學習算法(串行版本)

    Input:training set{xn,yn}n=1,…,N, initial prototypes {mi}i=1,…,C

    Output: {mi}i=1,…,C

    1: while not convergent do

    2: for each {xn,yn}

    3: find out (mc,dc) and (mr,dr) through compare- then-exchange distances

    4: compute error measure f(x) using Eq.(2)

    6: update mcand mrusing Eq.(4)

    7: end for

    8: end while

    9: return {mi}i=1,…,C

    1.2 并行原型學習框架

    算法1的整體處理流程是一個串行過程. 為了將其擴展到異構并行計算框架,采用帶小批量處理(數(shù)量為mb)的梯度下降算法. 改進的算法框架如算法2所示,其中的每個計算步驟(第3到6行)都可以并行執(zhí)行. 本框架不是一個接著一個的逐一計算每個樣本與每個原型的距離,而是一次性計算一個批次的樣本與全部原型的距離,保存為距離矩陣(見算法2第3行);與距離矩陣有關的計算涉及高密度的計算,具有較高的可擴展性. 對于查找真實類別與競爭類別可以與計算分類損失函數(shù)合并進行,需要考察不同的并行執(zhí)行備選方案(見算法2第4和5行). 最后執(zhí)行的參數(shù)更新操作,由于是針對一批樣本的計算,再加上每個樣本包含數(shù)百維特征,所以具有天然的并行性.

    算法2 GLVQ學習算法(并行框架)

    Input:training set{xn,yn}n=1,…,N, initial prototypes {mi}i=1,…,C

    Output: {mi}i=1,…,C

    1: while not convergent do

    2: for each mini-batch Ti={(xi1,yi1),…,(xiM,yiM)}

    3: compute all distances as a matrix in parallel

    4: find out genuine/rival pair in parallel

    5: derive loss functionin parallel

    6: update prototypesin parallel

    7: end for

    8: end while

    9: return {mi}i=1,…,C

    本文中的GPU程序設計圍繞英偉達公司的計算統(tǒng)一設備架構CUDA(compute unified device architecture)編程模型展開. GPU硬件從物理上提供了兩個層面的并行模式:一塊GPU上包含多個流多處理器SM (streaming multiprocessor),每個流多處理器上又包含若干個流處理器(或稱為CUDA核心). 代碼的最終物理執(zhí)行在SP上,CUDA核函數(shù)將計算封裝然后分配到GPU上執(zhí)行. 邏輯上,CUDA也包含兩個軟件抽象層與兩個物理層相對應,即線程塊與線程,一個線程塊由一組線程組成,線程塊調度到SM上執(zhí)行,線程塊中的每個線程再具體調度到SP上執(zhí)行.

    同一線程塊上的所有線程可以對一小塊稱為共享內存的存儲區(qū)(SM3.0的設備共享內存大小為64KB)進行訪問,并且在執(zhí)行的任一時刻都可以進行同步. GPU上還有一塊叫做全局內存的存儲區(qū),其容量較大,GTX680上的全局內存達到2GB. GPU上所有的線程均可訪問全局內存,但全局內存的訪問速度卻比共享內存慢兩個數(shù)量級. 因此,英偉達公司提供了一種叫存儲合并的技術為特定連續(xù)數(shù)據(jù)的存儲訪問提供優(yōu)化方案. 由于GPU的計算與存儲都是并行執(zhí)行的,因此,許多算法的主要瓶頸都出現(xiàn)在CPU與GPU全局內存的數(shù)據(jù)傳輸上以及全局內存的訪問,另外合理利用共享內存也能對程序的加速做出很大貢獻.

    為了充分挖掘GPU的性能,有兩點必須注意. 首先,CPU與GPU全局內存的數(shù)據(jù)傳輸次數(shù)應盡量少. 對于機器學習和模式識別問題,可以通過將原型模型數(shù)據(jù)一直保存在GPU全局內存的方式來減少數(shù)據(jù)的傳輸次數(shù). 然而,有時全局內存并不能保存所有的訓練數(shù)據(jù),此時可以只在使用時傳輸相應的數(shù)據(jù),每次傳輸?shù)臄?shù)據(jù)量盡量多,以此保證總體的傳輸次數(shù)最少. 由于原型參數(shù)數(shù)據(jù)以及訓練數(shù)據(jù)均保存在GPU的全局內存中,參數(shù)的更新操作也可以直接在GPU上完成.

    另外需要注意的一點是學習算法的設計和實現(xiàn)需考慮線程塊與線程這兩個層面,這樣才能高效使用共享內存,實現(xiàn)全局內存合并訪問. 通常,線程塊的選取控制著整體數(shù)據(jù)并行策略,而線程塊內的線程通過使用共享內存和同步操作,控制著最底層的并行效果. 此外,已調度到SM上準備執(zhí)行的線程塊在等待全局內存訪問時,圖形硬件能很好地隱藏存儲延遲. 為了充分利用這些延遲時間,線程塊的數(shù)量可以盡量多,且相互之間獨立執(zhí)行.

    根據(jù)以上兩點并行設計原則,本文提出一種可以把密集型計算分發(fā)到GPU上的計算框架,其流程圖如圖1所示. 圖中GPU與CPU控制權的更迭用虛線箭頭表示. 由圖1可知:原型向量只在程序啟動時傳輸?shù)紾PU上,并在程序結束時從GPU傳輸回CPU;若全局內存無法一次性容納整個訓練集,則通過小批量處理的方式分批將訓練樣本傳輸?shù)紾PU全局內存(CPU和GPU端的數(shù)據(jù)傳輸采用曲線箭頭表示),否則,只需一次性將所有數(shù)據(jù)拷貝到GPU. 整個執(zhí)行過程中,僅在流程控制和準備數(shù)據(jù)上,需要少量的CPU干預.

    圖1 原型學習的異構計算模型

    2 算法實現(xiàn)

    本文的算法實現(xiàn)采用CUDA并行編程架構. 在每輪的訓練過程中主要調用了3個CUDA核函數(shù). 算法2中的第3到6步分別在3個獨立的核函數(shù)中執(zhí)行,其中第4步和第5步在同一核函數(shù)內執(zhí)行. 在這3個核函數(shù)中,前2個最消耗時間,是所謂的“熱點”. 針對這2個核函數(shù),本文分別提供了兩種不同的并行計算算法,并對其效率進行分析.

    2.1 基于并行歸約的距離計算

    歸約操作可以在K個輸入元素上執(zhí)行操作,轉化得到1個輸出元素. 它可以用來并行執(zhí)行可交換的二元操作. 標準的歸約算法可以在文獻[12]中找到. 此處采用歸約算法來計算兩個向量之間的歐氏平方距離. 在計算過程中,需定義操作符:

    圖2顯示了16個線程時的歸約結構(每個線程處理一個元素). 第一輪計算時,前8個元素依序與后8個元素進行操作符為的運算. 第二輪則是前8個元素中的前4個元素與后4個元素對應運算. 以此類推. 假設K是2的冪次倍,對于一個K維的向量則只需要計算log2(K)+1輪就能得到平方距離.

    圖2 歸約過程示意(以16元素為例)

    初始時,每個線程塊從全局內存加載一個樣本向量和原型向量,負責一個平方距離的計算. 因此,一共需要(C,mb)個線程計算Cmb個平方距離.

    然而,在具體實現(xiàn)的時候,仍有許多細節(jié)問題需要注意. 例如有時樣本特征向量的維度(用dim表示)并不是2的冪次倍,如160. 此時,線程塊的線程數(shù)目仍可以開啟為2的冪次倍,但其大小必須是小于特征向量的維度和物理硬件允許的線程塊線程數(shù)目的最大2的冪次值. 對于超出線程塊大小的數(shù)據(jù),可以在進行對數(shù)步(log-step)歸約之前,通過額外一次運算累加到線程塊前部線程的部分和上. 另外,程序應盡可能復用共享內存. 相較于一個線程塊計算一個平方距離,也可以讓每個線程塊計算一個樣本與TILE_LEN個原型之間的歐氏距離,以提高樣本數(shù)據(jù)的利用率.

    2.2 基于分塊加和的距離計算

    與歸約算法不同,該算法的思想是一個線程獨立計算一個歐氏距離,每個線程首先從全局內存中獲取2個維度為dim的向量,然后執(zhí)行一個序列化的歸約操作. 但這樣讀取全局內存的效率并不高,容易造成阻塞. 為了解決矩陣乘法任務中全局內存的訪問阻塞問題,文獻[13]采用基于數(shù)據(jù)分塊思想進行改善. 這種思想進行適當改進,也能很好地用來解決這里的平方距離的計算問題.

    圖3 通過分塊思想實現(xiàn)平方距離的計算

    2.3 基于并行歸約的最小距離搜索

    當計算出樣本(xn,yn)與C個原型的距離后,接下來的任務就是找出該類的真實類別(含額外的距離信息)(dc,c)與競爭類別(含額外的距離信息) (dr,r). 從而可以通過梯度下降方法更新mc與mr. 這里提出一種并行歸約的方式來尋找與該樣本最近的距離以及與其對應的原型索引,并通過一些技巧來避免程序的條件判斷代碼. 例如,既然dr是除了dc之外的最小距離,在程序執(zhí)行時,可先通過yn獲取到dc,然后將其設為一個無限大的值,以防止尋找最小距離時需要對dc進行特別的判斷操作. 若每個類使用多個原型中心,則需要提前通過一遍歸約操作來計算出最近的原型索引.

    算法的內核函數(shù)啟動了mb個線程塊,每個線程塊包含1024(或512)個線程. 同一個線程塊內的所有線程將在共享內存中做歸約操作,找出與該樣本距離最近的競爭類別. 同樣,若類別數(shù)C不為2的冪次倍,也可采用3.1節(jié)中相同的技巧. 另外,C可能比一個線程塊包含的線程數(shù)還要大,此時需要在進行對數(shù)步歸約之前先對那些相距線程塊大小的數(shù)據(jù)進行迭代加和.

    2.4 基于比較交換的最小距離搜索

    該算法只需調用mb個線程,每個線程通過比較交換操作找出一個樣本的真實類別(含額外的距離信息)(dc,c)與競爭類別(含額外的距離信息) (dr,r). 若mb比線程塊理論最大線程數(shù)還大,則需要分配多個線程塊.

    該算法是對串行搜索算法進行的最粗粒度的并行化. 一個線程將要執(zhí)行時間復雜度為O(C)的操作才能得到輸出,因此這是一種線程密集型的處理策略. 若mb的值很小,則無法充分利用GPU的資源.

    2.5 參數(shù)更新

    若使用隨機梯度下降(即mb=1),則每次更新時只需對兩個原型向量進行更新,即真實類別原型向量和競爭類別原型向量. 參數(shù)更新的內核函數(shù)只需調用dim個線程,每個線程按式(2)對向量的一個元素進行更新. 當mb>1時,每個線程需要迭代mb次,每輪迭代都考慮來自一個樣本的貢獻,對兩個原型向量進行更新.

    3 驗 證

    將本文中的異構原型學習算法在大規(guī)模、大類別手寫漢字識別任務上進行測試,驗證過程中主要對每類單個原型和每類8個原型的情況進行測試,TILE_LEN的大小設置為16. 算法測試的硬件平臺采用統(tǒng)一的GPU服務器. 計算機配置有Xeon X3440服務器級CPU,主頻為2.53 GHZ. 消費級顯卡GTX680插在服務器的PCI-E插槽上. 當考慮算法在未來硬件上的適應性時,使用了更新的顯卡GTX980.

    3.1 漢字樣本庫描述

    本文使用的漢字數(shù)據(jù)庫為CASIA-HWDB1.0 (DB1.0)與CASIA-HWDB1.1 (DB1.1)[15],這是文獻[2]中使用的數(shù)據(jù)庫的子集,其包含3 755個類別(來自國標GB1字符集),每個類約有570個訓練樣本. 這樣共有2 144 749個訓練樣本,533 675個測試樣本. 在收集樣本時,每一套字符集按照6種不同的排列次序預先打印在版面上,為的是抵消每個書寫者在書寫過程中的書寫質量變化.

    為了描述每個樣本,提取512維的梯度特征作為特征向量. 隨后使用線性判別分析(LDA)將特征向量從512維降到160維. 因此,本文中使用的變量dim大小為160.

    3.2 算法正確性驗證

    同時運行CPU版本的GLVQ算法與異構計算架構版本的GLVQ算法進行背對背測試,且均在訓練數(shù)據(jù)上運行40輪. 每輪測試都計算出訓練樣本上的識別錯誤率以及測試樣本的識別錯誤率. 實驗中也對不同大小的mb進行了測試,圖4與圖5分別顯示了整個學習過程以及對應的性能. 鑒于基于CPU的串行算法的訓練過程過于耗時,圖5中僅訓練了24輪. 由圖可知, 串行版本的GLVQ算法與異構計算架構版本的GLVQ算法的運行結果并無明顯差異,這說明本文提出的適用于異構計算架構的大規(guī)模GLVQ算法具備正確性.

    圖4 比較CPU版本和GPU異構版本的學習過程(每類單個原型)

    Fig.4 Learning process comparison between CPU and GPU (single prototype/class)

    圖5 比較CPU和GPU的學習過程(每類八個原型)

    Fig.5 Learning process comparison between CPU and GPU (eight prototypes/class)

    3.3 算法中間過程評估

    算法1中距離計算與最短距離搜索這兩步的計算量最大. 首先對距離計算的效率進行評估. 實驗中主要使用了歸約和分塊加和兩種算法,并比較了不同mb大小時的運算效率. mb的大小分別取{20, 21, …, 213}. 實驗結果如圖6與圖7所示,實驗只對訓練數(shù)據(jù)進行了一輪測試. 由圖可知,并行歸約算法的執(zhí)行時間比較穩(wěn)定,在小批量的規(guī)模較小時,應優(yōu)先使用并行歸約算法. 而當mb的值大于或等于TILE_LEN時,分塊加和算法則效率更高.

    圖6 分別基于并行歸約和分塊加和計算距離的比較(每類單個原型)Fig.6 Distance computation comparison between parallel reduction and tiling sum (single prototype/class)

    圖7 分別基于并行歸約和分塊加和計算距離的比較(每類八個原型)Fig.7 Distance computation comparison between parallel reduction and tiling sum (eight prototypes/class)

    對于最短距離搜索的實現(xiàn),采用了并行歸約和比較交換兩種方案. 對這兩種方案進行一輪學習測試,測試結果如圖8與圖9所示. 從圖中可以看出,并行歸約算法的可擴展性更強,針對不同的mb值算法的執(zhí)行時間都比較穩(wěn)定,即使當mb很大時,比較交換算法仍比并行歸約慢很多. 另外,當一個類使用多個原型向量時,比較交換算法的效率就變得更差. 圖中同樣顯示,當使用過大的mb時,會帶來少量的額外消耗. 很重要的原因在于mb取值很大時,可能損害GPU系統(tǒng)緩存的效率.

    圖8 分別基于并行歸約和比較交換策略求最小值的比較(每類單個原型)

    Fig.8 Minima searching comparison between parallel reduction and compare-and-exchange (single prototype /class)

    圖9 分別基于并行歸約和比較交換策略求最小值的比較(每類八個原型)

    Fig.9 Minima searching comparison between parallel reduction and compare-and-exchange (eight prototypes/class)

    3.4 算法加速比評估

    訓練GLVQ模型的串行學習過程比較耗時。若使用單核CPU進行一輪學習,當每個類使用單個原型時需要花費4 332 s,而每類使用8個原型則需要消耗32 843 s. 若對GLVQ算法循環(huán)訓練40輪,則需要花費數(shù)天時間.

    基于本文提出的異構并行學習框架,開發(fā)了一個可根據(jù)計算負載規(guī)模自適應切換最優(yōu)內核函數(shù)的GLVQ原型學習算法. 分別針對每類單個原型和每類8個原型的情況,收集數(shù)據(jù)并計算算法的加速比,如圖10所示. 加速比的計算是采用串行執(zhí)行時間除以并行執(zhí)行時間. 可從圖10看出,當使用本文所提出的異構原型學習算法時, 每類使用單個原型時運行速度最高可加速184倍,而每類使用8原型則最高可加速194倍.

    圖10 異構大規(guī)模原型學習相對CPU的加速比(分別考慮每類單個原型和每類八個原型)

    Fig.10 Prototype learning speedup (with both single prototype/class and eight prototypes/class)

    這里需要強調,并不是小批量規(guī)模越大,加速越高. 加速峰值均出現(xiàn)在小批量mb=2 048個樣本時,說明此時GPU的計算部件的利用率和訪存效率之間經(jīng)折衷后達到最優(yōu). 一旦繼續(xù)加大小批量的規(guī)模,雖然可以加大GPU的占用率,但會對參加運算數(shù)據(jù)的局部性有所損害,從而導致GPU硬件二級緩存的命中率降低. 以每類單個原型為例,從mb=2 048增加小批量的規(guī)模到mb=8 196,GPU的占用率從98.08%增加為98.13%,但卻導致二級緩存的命中率從91.0%惡化到87.1%. 緩存命中率的下降,意味著訪存效率的惡化,由于占用率的增加無法抵消訪存惡化的負面效應,最終影響了每秒可以執(zhí)行的浮點以及整型運算數(shù)量. 在本文的實驗中,隨著mb的進一步增大,加速比的下降幅度一般較小.

    隨機梯度下降模式(mb=20)通常很難達到較高的加速比,這是由于受到可并行化的計算負載的局限. 當采用隨機梯度下降時,本文中距離計算與最短距離搜索均采用并行歸約的算法,以此實現(xiàn)細粒度并行. 最終,本文的方法在隨機梯度下降模式下實現(xiàn)了最少30倍的加速比(每類單個原型時30倍,每類8個原型時37倍),這一成績在文獻上比較少見.

    最后,討論所提出框架在未來新GPU硬件上的擴展性和適應性. 當前,在消費級顯卡行業(yè)出現(xiàn)了計算能力高于GTX680的GPU硬件,GTX980是典型代表. 本文的原型學習算法未做任何修改,重新運行在GTX980上并考察在新硬件上的性能表現(xiàn). 當采用隨機梯度下降模式時,兩種原型分配方案下獲得的加速比分別為30倍(每類單個原型)和38倍(每類8個原型),跟GTX680的加速比例相當. 但當采用小批量處理模式時,可以看到更優(yōu)異的性能提升:每類分配單個原型時獲得加速比為493倍,每類8個原型時的加速比為638倍. 這表明本文的異構并行學習框架對于未來的新硬件具有較強的自動擴展能力.

    4 結 語

    本文提出的適用于異構計算架構的大規(guī)模原型學習算法框架通過重組串行原型學習算法的計算任務,將串行學習算法轉化為高度并行化的形式,可以將密集型計算負載轉移到GPU上,而CPU只需進行少量的流程協(xié)調和數(shù)據(jù)傳遞. 為了充分利用GPU的資源,該算法框架可自動選擇分塊策略與并行歸約策略. 算法的正確性和有效性均在大規(guī)模手寫漢字識別任務上進行了驗證. 在消費級顯卡GTX680上使用小批量處理模式進行模型學習時,最高可得到194倍的加速比,即使是隨機梯度下降模式下,也可實現(xiàn)30倍的加速比. 當升級顯卡到GTX980,在小批量下的加速比可提升到638倍,表明本文提出的框架和算法具有很好的可擴展性和適應性,能夠有效解決原有原型學習的計算瓶頸問題.

    [1] LIU C, NAKAGAWA M. Evaluation of prototype learning algorithms for nearest-neighbor classifier in application to handwritten character recognition[J]. Pattern Recognition, 2001,34: 601-615.

    [2] SU T, LIU C, ZHANG X. Perceptron learning of modified quadratic discriminant function[C]//International Conference on Document Analysis and Recognition. 2011:1007-1011.

    [3] LV Y, HUANG L, et al. Learning-based candidate segmentation scoring for real-time recognition of online overlaid Chinese handwriting[C]//International Conference on Document Analysis and Recognition. 2013: 74-78.

    [4]蘇統(tǒng)華,戴洪良,張健,等. 面向連續(xù)疊寫的高精簡中文手寫識別方法研究[J],計算機科學, 2015, 42(7):300-304.

    SU T, DAI H, et al. Study on High Compact Recognition Method for Continuously Overlaid Chinese Handwriting[J]. Computer Science, 2015, 42(7):300-304.

    [5] SU T, MA P, et al. Exploring MPE/MWE training for Chinese handwriting recognition[C]//International Conference on Document Analysis and Recognition. 2013:1275-1279.

    [6] ZHOU M, YIN F, LIU C. GPU-based fast training of discriminative learning quadratic discriminant function for handwritten Chinese character recognition[C]//International Conference on Document Analysis and Recognition, 2013:842-846.

    [7] GELSINGER P. Microprocessors for the new millennium: Challenges, opportunities and new frontiers[C]//ISSCC Tech. Digest, 2001: 22-25.

    [8] RAINA R, MADHAVAN A, NG A Y. Large-scale deep unsupervised learning using graphics processors[C]//International Conference on Machine Learning. 2009. 873-880.

    [9] SCHERER D, SCHULZ H, BEHNKE S, Accelerating large-scale convolutional neural networks with parallel graphics multiprocessors[C]//International conference on Artificial neural networks. 2010:82-91.

    [10]CIRESAN DC, MEIER U, et al. Deep, big, simple neural nets for handwritten digit recognition[J]. Neural computation. 2010, 22: 3207-3220.

    [11]JIN X, LIU C , HOU X. Regularized margin-based conditional log-likelihood loss for prototype learning[J]. Pattern Recognition, 2010, 43(7): 2428-2438.

    [12]SATO A, YAMADA K. Generalized learning vector quantization[C]//Advances in Neural Information Processing Systems. 1996: 423-429.

    [13]WILT N. CUDA專家手冊: GPU編程權威指南[M]. 蘇統(tǒng)華等, 譯. 北京: 機械工業(yè)出版社, 2014.

    WILT N. The CUDA Handbook: A Comprehensive Guide to GPU Programming[M]. Addison-Wesley, 2013.

    [14]KIRK DB, WENMEI WH.大規(guī)模并行處理器編程實戰(zhàn)[M]. 趙開勇等,譯. 第二版. 北京: 清華大學出版社, 2013.

    KIRK DB, WENMEI WH. Programming massively parallel processors: a hands-on approach (Second Edition)[M]. Morgan Kaufmann, 2012.

    [15]LIU C, YIN F, et al. Online and offline handwritten Chinese character recognition: Benchmarking on new databases[J]. Pattern Recognition, 2013,46(1): 155-162.

    (編輯 王小唯 苗秀芝)

    Massively scalable prototype learning for heterogeneous parallel computing architecture

    SU Tonghua1, LI Songze1, DENG Shengchun1, YU Yang2, BAI Wei3

    (1. School of Software, Harbin Institute of Technology, Harbin 150001, China; 2. Dalian Branch China Construction Eighth Engineering Division Corp. Ltd, Dalian 116021, Liaoning, China; 3.Nokia Solutions and Networks, Hangzhou 310053, China)

    Current learning algorithms for prototype learning require intensive computation burden for large category machine learning and pattern recognition fields. To solve this bottleneck problem, a principled scalable prototype learning method is proposed based on heterogeneous parallel computing architecture of GPUs and CPUs. The method can transfer the intense workload to the GPU side instead of CPU side through splitting and rearranging the computing task, so that only a few control process is needed to be managed by the CPU. Meanwhile, the method has the ability to adaptively choose the strategies between tiling and reduction depending on its workload. Our evaluations on a large Chinese character database show that up to 194X speedup can be achieved in the case of mini-batch when evaluated on a consumer-level card of GTX 680. When a new GTX980 card is used, it can scale up to 638X. Even to the more difficult SGD occasion, a more than 30-fold speedup is observed. The proposed framework possess a high scalability while preserving its performance precision, and can effectively solve the bottleneck problems in prototype learning.

    prototype learning; learning vector quantization; Chinese character recognition; parallel reduction; heterogeneous parallel computing

    10.11918/j.issn.0367-6234.2016.11.009

    2015-05-11

    國家自然科學基金(61203260);黑龍江省自然科學基金重點項目(ZD2015017);哈爾濱工業(yè)大學科研創(chuàng)新基金 (HIT.NSRIF.2015083)

    蘇統(tǒng)華(1979—),男, 博士, 副教授; 鄧勝春(1971—),男, 博士,教授,博士生導師

    蘇統(tǒng)華, thsu@hit.edu.cn

    TP181

    A

    0367-6234(2016)11-0053-08

    猜你喜歡
    小批量線程原型
    基于多品種小批量中小型電機數(shù)字化沖壓車間規(guī)劃
    打破多品種、小批量的行業(yè)魔咒——通往高質量發(fā)展的智能制造之路
    包裹的一切
    多品種小批量智能制造產線關鍵技術及應用探討
    電子制作(2019年20期)2019-12-04 03:52:00
    《哈姆雷特》的《圣經(jīng)》敘事原型考證
    淺談linux多線程協(xié)作
    論《西藏隱秘歲月》的原型復現(xiàn)
    劍南文學(2016年14期)2016-08-22 03:37:42
    原型理論分析“門”
    人間(2015年20期)2016-01-04 12:47:08
    普通車床中、小批量加工氣(油)缸方法
    Linux線程實現(xiàn)技術研究
    男人操女人黄网站| 精品国产乱码久久久久久男人| 两个人免费观看高清视频| 国产精品影院久久| 国产日韩欧美视频二区| 欧美乱码精品一区二区三区| 国产成人av激情在线播放| 欧美另类亚洲清纯唯美| 一本—道久久a久久精品蜜桃钙片| 热99re8久久精品国产| 欧美乱妇无乱码| 这个男人来自地球电影免费观看| 夜夜爽天天搞| 久久免费观看电影| 亚洲欧美一区二区三区黑人| 18禁美女被吸乳视频| 国产在线免费精品| av有码第一页| 90打野战视频偷拍视频| 午夜福利,免费看| 国产精品二区激情视频| 蜜桃在线观看..| 久久av网站| 国产伦理片在线播放av一区| 一进一出好大好爽视频| 国产真人三级小视频在线观看| 欧美精品啪啪一区二区三区| 精品少妇久久久久久888优播| 婷婷丁香在线五月| 成年女人毛片免费观看观看9 | 欧美日韩亚洲高清精品| 精品一区二区三区视频在线观看免费 | 日本撒尿小便嘘嘘汇集6| 无人区码免费观看不卡 | 91字幕亚洲| 女人高潮潮喷娇喘18禁视频| 丝袜喷水一区| 国产在线观看jvid| 精品亚洲成国产av| 精品人妻1区二区| 男女午夜视频在线观看| 免费看a级黄色片| 在线观看人妻少妇| 国产亚洲精品第一综合不卡| 亚洲伊人色综图| 女人高潮潮喷娇喘18禁视频| 99国产极品粉嫩在线观看| 国产深夜福利视频在线观看| 免费黄频网站在线观看国产| 在线观看一区二区三区激情| 国产精品久久久av美女十八| 国产又爽黄色视频| 99re在线观看精品视频| 成年动漫av网址| 久久久欧美国产精品| 亚洲成人国产一区在线观看| kizo精华| 在线永久观看黄色视频| 一个人免费看片子| 免费少妇av软件| 国产精品香港三级国产av潘金莲| 久久精品国产亚洲av香蕉五月 | 亚洲国产成人一精品久久久| 国产一区二区 视频在线| www.熟女人妻精品国产| 2018国产大陆天天弄谢| 国产成人啪精品午夜网站| 国产男女内射视频| 久久影院123| 两个人看的免费小视频| 50天的宝宝边吃奶边哭怎么回事| xxxhd国产人妻xxx| 国产精品电影一区二区三区 | 丰满少妇做爰视频| av不卡在线播放| 老司机在亚洲福利影院| 黑人巨大精品欧美一区二区mp4| 激情视频va一区二区三区| 日韩一区二区三区影片| 午夜视频精品福利| 亚洲 国产 在线| 欧美av亚洲av综合av国产av| 精品视频人人做人人爽| 蜜桃在线观看..| 国产一区二区三区综合在线观看| 久久久国产精品麻豆| 男女免费视频国产| 精品福利永久在线观看| 日韩大码丰满熟妇| 国产一区二区在线观看av| 91麻豆av在线| 色尼玛亚洲综合影院| 国产人伦9x9x在线观看| 窝窝影院91人妻| 在线观看舔阴道视频| 亚洲午夜精品一区,二区,三区| 中文亚洲av片在线观看爽 | 99久久人妻综合| 天天影视国产精品| 蜜桃在线观看..| av有码第一页| 满18在线观看网站| 这个男人来自地球电影免费观看| 欧美成狂野欧美在线观看| 国产成人一区二区三区免费视频网站| 婷婷丁香在线五月| 最近最新中文字幕大全电影3 | 999久久久国产精品视频| 国产深夜福利视频在线观看| 美女午夜性视频免费| 日本精品一区二区三区蜜桃| 久久久水蜜桃国产精品网| 日韩视频一区二区在线观看| 久久精品91无色码中文字幕| 99香蕉大伊视频| 成年女人毛片免费观看观看9 | 免费在线观看黄色视频的| 婷婷丁香在线五月| 午夜免费鲁丝| 欧美日韩国产mv在线观看视频| 麻豆成人av在线观看| 日韩制服丝袜自拍偷拍| 久久国产精品男人的天堂亚洲| 人妻一区二区av| 中文字幕人妻丝袜制服| 亚洲黑人精品在线| 18禁黄网站禁片午夜丰满| 欧美日韩亚洲国产一区二区在线观看 | 在线观看免费视频网站a站| 啦啦啦 在线观看视频| 久久精品国产亚洲av高清一级| 后天国语完整版免费观看| 老司机午夜十八禁免费视频| 午夜久久久在线观看| 免费在线观看日本一区| 老熟妇乱子伦视频在线观看| 黄色 视频免费看| 精品一区二区三卡| 宅男免费午夜| 亚洲av电影在线进入| 久久免费观看电影| 国产国语露脸激情在线看| 夫妻午夜视频| 国产成人精品久久二区二区免费| 午夜激情av网站| 国产深夜福利视频在线观看| av视频免费观看在线观看| 午夜福利免费观看在线| 一边摸一边抽搐一进一小说 | 视频区图区小说| 国产亚洲午夜精品一区二区久久| 亚洲 欧美一区二区三区| a级毛片黄视频| 亚洲精品国产区一区二| 日韩成人在线观看一区二区三区| kizo精华| 亚洲av第一区精品v没综合| 久久午夜亚洲精品久久| 国产精品亚洲av一区麻豆| 91大片在线观看| 国产在视频线精品| 18禁观看日本| 午夜福利一区二区在线看| 久久久久久久精品吃奶| 大型av网站在线播放| 嫁个100分男人电影在线观看| 日本vs欧美在线观看视频| 亚洲色图 男人天堂 中文字幕| 一本色道久久久久久精品综合| 国产日韩一区二区三区精品不卡| 99九九在线精品视频| 热re99久久精品国产66热6| 亚洲欧美色中文字幕在线| 99re6热这里在线精品视频| 国产福利在线免费观看视频| 99热国产这里只有精品6| 日韩熟女老妇一区二区性免费视频| 香蕉丝袜av| 国产精品成人在线| 日韩大片免费观看网站| 精品少妇久久久久久888优播| 国产在视频线精品| 999精品在线视频| 精品一品国产午夜福利视频| 成在线人永久免费视频| 超色免费av| 国产成人欧美在线观看 | 欧美中文综合在线视频| 黄色毛片三级朝国网站| 亚洲一区中文字幕在线| 老熟女久久久| 日韩欧美三级三区| 国产亚洲精品久久久久5区| 美女主播在线视频| 亚洲精品国产一区二区精华液| 亚洲国产欧美网| 老汉色∧v一级毛片| 一区二区日韩欧美中文字幕| 黄色视频,在线免费观看| 欧美日韩视频精品一区| 人妻久久中文字幕网| 色综合婷婷激情| 激情视频va一区二区三区| 亚洲精品久久成人aⅴ小说| 日韩熟女老妇一区二区性免费视频| 18在线观看网站| 18禁裸乳无遮挡动漫免费视频| 脱女人内裤的视频| 黄色成人免费大全| 亚洲成人免费av在线播放| 亚洲中文av在线| 久久精品成人免费网站| 夜夜夜夜夜久久久久| 色综合欧美亚洲国产小说| 怎么达到女性高潮| 国产视频一区二区在线看| 91成人精品电影| 人人妻人人澡人人爽人人夜夜| 欧美人与性动交α欧美精品济南到| 搡老乐熟女国产| 久热爱精品视频在线9| av在线播放免费不卡| 黑丝袜美女国产一区| 操出白浆在线播放| 啦啦啦中文免费视频观看日本| 午夜两性在线视频| 欧美黑人精品巨大| 一个人免费在线观看的高清视频| 欧美日韩视频精品一区| 黄色丝袜av网址大全| 五月天丁香电影| 女性被躁到高潮视频| 成年版毛片免费区| 99国产极品粉嫩在线观看| 日韩三级视频一区二区三区| 久久精品国产99精品国产亚洲性色 | 久久亚洲精品不卡| 啦啦啦免费观看视频1| 日韩三级视频一区二区三区| 成人手机av| 久久久久国产一级毛片高清牌| 国产精品免费大片| 亚洲自偷自拍图片 自拍| www日本在线高清视频| 丝瓜视频免费看黄片| 黄色视频不卡| 99精品久久久久人妻精品| 人人澡人人妻人| 一边摸一边做爽爽视频免费| 日韩精品免费视频一区二区三区| 香蕉丝袜av| 国产麻豆69| 精品少妇内射三级| 久久婷婷成人综合色麻豆| 国产高清激情床上av| 亚洲一区二区三区欧美精品| www.精华液| av免费在线观看网站| 国产淫语在线视频| 母亲3免费完整高清在线观看| 人妻久久中文字幕网| 国产精品国产高清国产av | 久久久久精品人妻al黑| 99riav亚洲国产免费| 亚洲精品久久午夜乱码| 亚洲精品成人av观看孕妇| 午夜福利影视在线免费观看| 亚洲五月色婷婷综合| 国产又色又爽无遮挡免费看| 久久精品国产亚洲av高清一级| 最新在线观看一区二区三区| 一区二区三区乱码不卡18| 十八禁高潮呻吟视频| 黑丝袜美女国产一区| 超色免费av| 日韩大码丰满熟妇| 亚洲av日韩在线播放| 国产精品国产av在线观看| 久久久久国产一级毛片高清牌| 欧美变态另类bdsm刘玥| 99国产精品99久久久久| 久久国产亚洲av麻豆专区| 12—13女人毛片做爰片一| 亚洲第一青青草原| 最近最新免费中文字幕在线| 欧美另类亚洲清纯唯美| 女性被躁到高潮视频| 天天影视国产精品| 大型av网站在线播放| 大片电影免费在线观看免费| 亚洲色图av天堂| 精品人妻在线不人妻| 肉色欧美久久久久久久蜜桃| 在线av久久热| 亚洲va日本ⅴa欧美va伊人久久| 国产在线观看jvid| 欧美激情高清一区二区三区| 首页视频小说图片口味搜索| 免费在线观看视频国产中文字幕亚洲| tube8黄色片| 国产在线视频一区二区| 一级片免费观看大全| 欧美成人免费av一区二区三区 | 人人妻人人澡人人看| 91老司机精品| 国产成人欧美| 国产一区二区激情短视频| 久久这里只有精品19| 国产成人精品久久二区二区免费| 日韩欧美国产一区二区入口| 国产一区二区三区在线臀色熟女 | 丁香六月天网| 天堂中文最新版在线下载| 午夜久久久在线观看| 麻豆成人av在线观看| 国产伦理片在线播放av一区| 两性夫妻黄色片| 精品一区二区三区av网在线观看 | 亚洲视频免费观看视频| 国产黄色免费在线视频| 久久午夜综合久久蜜桃| 精品一区二区三区视频在线观看免费 | 亚洲精品国产精品久久久不卡| 一进一出抽搐动态| 一本久久精品| 免费看a级黄色片| 在线看a的网站| 欧美精品av麻豆av| 黄色 视频免费看| 国产三级黄色录像| 人人妻人人澡人人看| 又黄又粗又硬又大视频| 国产不卡一卡二| 男女边摸边吃奶| 亚洲情色 制服丝袜| 国产高清视频在线播放一区| 欧美激情 高清一区二区三区| 高清毛片免费观看视频网站 | 国产精品一区二区在线不卡| 国产精品久久久久久精品古装| 国产三级黄色录像| 日本撒尿小便嘘嘘汇集6| 激情在线观看视频在线高清 | 久久久精品免费免费高清| 欧美日韩成人在线一区二区| 精品少妇久久久久久888优播| 91字幕亚洲| 国产亚洲欧美在线一区二区| 亚洲免费av在线视频| 精品福利观看| 国产91精品成人一区二区三区 | 丰满饥渴人妻一区二区三| 国产精品免费一区二区三区在线 | 欧美日韩中文字幕国产精品一区二区三区 | 美女午夜性视频免费| 最近最新免费中文字幕在线| 50天的宝宝边吃奶边哭怎么回事| 久久精品国产a三级三级三级| 男女下面插进去视频免费观看| 丰满迷人的少妇在线观看| 伊人久久大香线蕉亚洲五| 51午夜福利影视在线观看| 丰满人妻熟妇乱又伦精品不卡| 国产一区二区三区视频了| videosex国产| 91麻豆av在线| 欧美日韩黄片免| 久久久国产精品麻豆| 国产精品免费大片| 亚洲成人免费电影在线观看| 在线天堂中文资源库| 国产区一区二久久| 亚洲精品成人av观看孕妇| 捣出白浆h1v1| 一本色道久久久久久精品综合| 精品少妇一区二区三区视频日本电影| 亚洲精品国产精品久久久不卡| 桃花免费在线播放| 亚洲欧美日韩另类电影网站| www.999成人在线观看| av网站在线播放免费| 日本黄色视频三级网站网址 | 777久久人妻少妇嫩草av网站| 精品少妇黑人巨大在线播放| 老司机午夜十八禁免费视频| av不卡在线播放| 亚洲视频免费观看视频| 精品国产一区二区久久| 曰老女人黄片| 十八禁网站网址无遮挡| 老司机午夜福利在线观看视频 | 午夜福利一区二区在线看| 欧美人与性动交α欧美精品济南到| 亚洲专区字幕在线| 91麻豆精品激情在线观看国产 | 亚洲精品一二三| 成人国语在线视频| 欧美亚洲日本最大视频资源| 久久久久久久精品吃奶| 亚洲精品久久午夜乱码| 国产精品香港三级国产av潘金莲| 性少妇av在线| 丝袜在线中文字幕| 国产黄色免费在线视频| 在线 av 中文字幕| 日本黄色日本黄色录像| 国产精品一区二区在线不卡| 成人国产一区最新在线观看| 国产福利在线免费观看视频| 久久久久久久久免费视频了| 老熟妇仑乱视频hdxx| 高清黄色对白视频在线免费看| 国产日韩一区二区三区精品不卡| 日本五十路高清| 男女边摸边吃奶| 色视频在线一区二区三区| 国产日韩欧美亚洲二区| 亚洲人成电影观看| 一本久久精品| 国产主播在线观看一区二区| 精品国产一区二区久久| 黄色视频在线播放观看不卡| 国产在线免费精品| 中文字幕色久视频| 老司机靠b影院| 久久久久久久精品吃奶| 国产成人免费无遮挡视频| 久久久精品免费免费高清| 精品久久久久久电影网| 国产亚洲av高清不卡| 国产av精品麻豆| 欧美久久黑人一区二区| 久久精品国产a三级三级三级| 成人手机av| www日本在线高清视频| 99re6热这里在线精品视频| 91麻豆av在线| 欧美日韩亚洲高清精品| 亚洲av欧美aⅴ国产| 丝袜美足系列| 久久久欧美国产精品| 色婷婷av一区二区三区视频| 亚洲欧美精品综合一区二区三区| 国产一区二区三区在线臀色熟女 | 人妻 亚洲 视频| 日韩一卡2卡3卡4卡2021年| 国产精品免费视频内射| 99精品欧美一区二区三区四区| 国产成人欧美在线观看 | 亚洲国产成人一精品久久久| 亚洲精华国产精华精| 真人做人爱边吃奶动态| 热99久久久久精品小说推荐| 国产激情久久老熟女| 窝窝影院91人妻| avwww免费| 菩萨蛮人人尽说江南好唐韦庄| 国产精品免费视频内射| 国产有黄有色有爽视频| 啦啦啦中文免费视频观看日本| 国产av一区二区精品久久| 亚洲人成伊人成综合网2020| av免费在线观看网站| 天堂中文最新版在线下载| 精品一区二区三区av网在线观看 | 99国产精品一区二区蜜桃av | 一区二区三区国产精品乱码| 热99久久久久精品小说推荐| 大码成人一级视频| 伊人久久大香线蕉亚洲五| 久热这里只有精品99| 超色免费av| 老司机深夜福利视频在线观看| 美女高潮喷水抽搐中文字幕| 婷婷丁香在线五月| 人人妻,人人澡人人爽秒播| 久9热在线精品视频| 亚洲午夜精品一区,二区,三区| 成在线人永久免费视频| 高潮久久久久久久久久久不卡| 两个人免费观看高清视频| 首页视频小说图片口味搜索| 亚洲 国产 在线| 大香蕉久久成人网| 亚洲色图av天堂| 18禁美女被吸乳视频| 国产99久久九九免费精品| 日韩欧美一区二区三区在线观看 | 久久国产精品男人的天堂亚洲| 最黄视频免费看| 欧美日韩黄片免| 一级,二级,三级黄色视频| 丰满少妇做爰视频| 视频区欧美日本亚洲| 国产精品电影一区二区三区 | 午夜福利,免费看| 伦理电影免费视频| 成年动漫av网址| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲少妇的诱惑av| 精品国产一区二区久久| 老汉色∧v一级毛片| 日韩大码丰满熟妇| 色婷婷久久久亚洲欧美| 精品国产一区二区三区久久久樱花| 国产免费视频播放在线视频| 99精品欧美一区二区三区四区| 正在播放国产对白刺激| 国产主播在线观看一区二区| 自拍欧美九色日韩亚洲蝌蚪91| 波多野结衣av一区二区av| av片东京热男人的天堂| 亚洲 国产 在线| 美女主播在线视频| 亚洲中文字幕日韩| 亚洲黑人精品在线| 免费日韩欧美在线观看| 国产成人精品在线电影| 日日爽夜夜爽网站| 欧美日本中文国产一区发布| 国产日韩一区二区三区精品不卡| 日韩欧美一区二区三区在线观看 | 黄片大片在线免费观看| 曰老女人黄片| 欧美精品人与动牲交sv欧美| 一本大道久久a久久精品| 久久中文字幕人妻熟女| 9191精品国产免费久久| 一二三四社区在线视频社区8| 久久ye,这里只有精品| 热99久久久久精品小说推荐| 欧美国产精品一级二级三级| 欧美在线黄色| 一本—道久久a久久精品蜜桃钙片| 老熟女久久久| 精品一区二区三区四区五区乱码| 久久久久久久大尺度免费视频| 欧美精品一区二区免费开放| 麻豆乱淫一区二区| 久久久久久久精品吃奶| 午夜激情av网站| 精品福利永久在线观看| 欧美日韩精品网址| 电影成人av| 在线十欧美十亚洲十日本专区| 亚洲av第一区精品v没综合| 欧美乱码精品一区二区三区| 极品教师在线免费播放| 午夜91福利影院| 国产精品自产拍在线观看55亚洲 | 黑人操中国人逼视频| 亚洲精品粉嫩美女一区| 国产免费视频播放在线视频| videosex国产| 9191精品国产免费久久| 俄罗斯特黄特色一大片| 天天躁日日躁夜夜躁夜夜| 露出奶头的视频| 咕卡用的链子| 精品国产乱码久久久久久男人| 午夜福利影视在线免费观看| 国产亚洲精品久久久久5区| 成年人午夜在线观看视频| 久久久久久久精品吃奶| 欧美日韩av久久| 国产成人精品无人区| 女性被躁到高潮视频| 99国产精品一区二区蜜桃av | 亚洲欧美激情在线| 国产成人影院久久av| 久久久精品区二区三区| 成年人黄色毛片网站| 999精品在线视频| tocl精华| 男人舔女人的私密视频| 精品一区二区三区四区五区乱码| 亚洲少妇的诱惑av| 狂野欧美激情性xxxx| 久久国产精品男人的天堂亚洲| 欧美另类亚洲清纯唯美| 精品一品国产午夜福利视频| 色尼玛亚洲综合影院| 亚洲第一青青草原| 国产aⅴ精品一区二区三区波| 久久av网站| av国产精品久久久久影院| 久久久国产精品麻豆| 国产成+人综合+亚洲专区| 国产伦人伦偷精品视频| 国产精品国产高清国产av | 交换朋友夫妻互换小说| 亚洲欧美一区二区三区久久| 成年人免费黄色播放视频| 丝袜美足系列| 12—13女人毛片做爰片一| 亚洲精品自拍成人| 精品国产超薄肉色丝袜足j| 制服诱惑二区| 亚洲av成人不卡在线观看播放网| 日韩一卡2卡3卡4卡2021年| 涩涩av久久男人的天堂| 色综合欧美亚洲国产小说| 国产精品久久久人人做人人爽| 色视频在线一区二区三区| 久久精品人人爽人人爽视色| 亚洲专区字幕在线| 一级片免费观看大全| 精品少妇一区二区三区视频日本电影| 中文欧美无线码| 亚洲全国av大片| 最新在线观看一区二区三区| 国产淫语在线视频| 国产aⅴ精品一区二区三区波| 一二三四社区在线视频社区8| 色综合婷婷激情|