• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    適用于空間通信的LDPC碼GPU高速譯碼架構

    2017-11-23 05:57:40侯毅劉榮科彭皓趙嶺熊慶旭
    航空學報 2017年1期
    關鍵詞:譯碼內核線程

    侯毅,劉榮科,彭皓,趙嶺,熊慶旭

    適用于空間通信的LDPC碼GPU高速譯碼架構

    侯毅,劉榮科*,彭皓,趙嶺,熊慶旭

    北京航空航天大學電子信息工程學院,北京 100083

    鑒于目前空間通信對高速、可重配置信道譯碼器的需求,利用圖形處理器(GPU)的并行化運算特點,提出了一種低密度奇偶校驗(LDPC)碼軟件高速譯碼架構。通過優(yōu)化Turbo消息傳遞譯碼(TDMP)算法節(jié)點更新運算線程塊內和塊間并行度、減少非規(guī)則行重造成的線程分支、降低線程對節(jié)點更新信息存儲資源的訪問延時以及合理量化譯碼器存儲信息來提升譯碼內核函數的執(zhí)行效率。并在此基礎上引入異步統(tǒng)一計算設備構架(CUDA)流處理機制,設計優(yōu)化的譯碼器輸入輸出數據傳輸和內核函數之間的執(zhí)行調度方式以及CUDA流上的譯碼線程資源配置方式,最大化譯碼吞吐率的同時降低譯碼延時。在Nvidia最新的Tesla K20和GTX980平臺上對國際空間數據系統(tǒng)咨詢委員會(CCSDS)遙測標準LDPC碼進行的TDMP譯碼實驗結果表明,本架構進行10次迭代譯碼的吞吐率最高可達約500Mbps,平均譯碼延時約為2ms左右。與現有結果相比,本架構在保持軟件架構配置靈活性的同時更加有效的兼顧了譯碼吞吐率和延時性能。

    低密度奇偶校驗碼;圖形處理器;軟件譯碼架構;Turbo消息傳遞譯碼算法;高吞吐率;低延時

    低密度奇偶校驗(Low-Density Parity-Check,LDPC)碼[1]由于近香農限的優(yōu)異糾錯性能而被包括國際空間數據系統(tǒng)咨詢委員會(CCSDS)、DVB-S2在內的多種空間通信標準所采用,其譯碼器日益成為該領域學術界和工業(yè)界研究的熱點。當前,隨著空間通信的多任務、寬帶化趨勢,譯碼器作為通信接收系統(tǒng)的關鍵組成部分為了滿足高速、靈活可重配置的性能需求,在逐步向軟件化發(fā)展。美國宇航局(NASA)最新的空間通信無線電系統(tǒng)(STRS)架構標準[2]以及噴氣推進實驗室(JPL)近期的報告[3-4]都將適應多種編碼模式的高速軟件譯碼器作為星載或地面接收系統(tǒng)的重要環(huán)節(jié)之一。

    圖 形 處 理 器 (Graphics Processing Units,GPU)是近年得到快速發(fā)展的具備大規(guī)模并行處理能力的單指令流多線程流(SIMT)架構通用運算處理器。GPU用于軟件譯碼器實現相比采用現場可編程門陣列(FPGA)的方式[5]在配置上更為靈活,更適應未來空間通信的多任務模式;比基于數字信號處理器(DSP)的實現方式[6]擁有更多并行運算資源,更適應寬帶化通信應用。與現有采用單指令流多數據流(SIMD)架構的通用處理器 CPU、ARM 的實現方式[7-8]相比,GPU 的并行線程寄存器資源更多,對緩存命中率的依賴較低,因此更適合作為空間通信標準里中長LDPC碼的可重配高速實現平臺。

    國際上現有的GPU軟件譯碼架構研究成果根據其優(yōu)化實現方式大致可分為兩類:存儲訪問優(yōu)化[9-12]和運算并行優(yōu)化[13-15]。在存儲優(yōu)化方面目前主要利用GPU片上的高速共享內存,以降低譯碼算法行列更新中的節(jié)點信息訪存延時為目的。受限于GPU片上有限的存儲資源,該設計僅能滿足LDPC短碼的節(jié)點更新信息存儲需求,對于應用于空間通信的中長LDPC碼,則難以通過共享內存提升節(jié)點更新的存儲訪問速度。在運算并行優(yōu)化方面現有方法主要是提升LDPC譯碼器的幀間并行度,通過加大可執(zhí)行的譯碼線程數,將大量接收碼字加入GPU運算核心調度處理的隊列,使得GPU飽和運行以獲得高的譯碼吞吐率。其代價是譯碼延時大幅提升,尤其是使用空間通信標準中非規(guī)則中長碼時延時問題更為嚴重,并加重了譯碼器輸入緩存處理的負擔。此外,上述GPU譯碼架構主要針對節(jié)點同時更新的兩階段消息傳遞(TPMP)算法[16],而對于譯碼收斂速度更快更適合中長LDPC碼采用的節(jié)點順序更新消息傳遞算法[17-18]則缺乏有效的優(yōu)化實現設計方法。

    本文提出的LDPC碼GPU軟件譯碼架構面向空間通信應用,以高吞吐率和低延時為設計目標。鑒于目前空間通信標準采用的準循環(huán)LDPC(QC-LDPC)碼大多具有校驗矩陣子矩陣行列重為1的特點,利于譯碼器以分層部分并行的方式進行處理,故本文采用了按校驗節(jié)點順序分層更新的 Turbo消息傳遞譯碼(TDMP)算法[17],相比傳統(tǒng)TPMP算法,TDMP算法由于在每次迭代內部利用了節(jié)點的即時更新信息從而擁有更快的譯碼收斂速度。本文根據TDMP算法迭代過程的分層特點,致力于提升譯碼線程對層內和層間信息的更新處理效率,利用統(tǒng)一計算設備構架(CUDA)流異步執(zhí)行機制隱藏譯碼器數據傳輸延時,通過單幀內部多節(jié)點并行更新與多幀之間譯碼并行處理相結合的方式,在最大化GPU運算及存儲資源利用率的同時避免了在現有實現方法中因單純依靠大規(guī)模幀間并行處理而導致的譯碼延時過高的問題。與現有實現結果的對比表明,本譯碼架構能夠有效兼顧高吞吐率和低延時性能。

    1 LDPC碼TDMP譯碼算法

    TDMP譯碼算法將LDPC碼校驗矩陣H分解為L層,即HT= […],每層列重至多為1。TDMP算法在層與層之間傳遞節(jié)點的更新信息,設定表示在第k次迭代第t層中從校驗節(jié)點c傳遞到變量節(jié)點v的更新信息,表示在第k次迭代第t層中從變量節(jié)點v傳遞到校驗節(jié)點c的更新信息,表示第k次迭代中從第t層傳遞到下一層的變量節(jié)點v的層傳遞信息,N (c)\v表示與校驗節(jié)點c相連的變量節(jié)點中除去變量節(jié)點v的集合。具體譯碼過程如下:

    步驟3 校驗節(jié)點c到變量節(jié)點v的更新(為了簡化運算,本文采用修正最小和(Min-Sum)算法,修正系數為α):

    步驟5 判決:對于所有的變量節(jié)點v,按如下方法進行判決得到硬判決信息^v:

    2 基于GPU的LDPC碼譯碼架構優(yōu)化設計

    LDPC碼TDMP譯碼器在GPU平臺的實現架構如圖1所示。該譯碼架構發(fā)揮軟件實現靈活可重配置的優(yōu)勢,在譯碼器啟動時將碼字校驗矩陣數據從系統(tǒng)內存?zhèn)鬟f到GPU中具備緩存區(qū)的只讀常量內存(Constant Memory)里,以應對不同任務的譯碼配置需求。該架構的性能主要取決于兩個方面:GPU硬件資源對譯碼算法的執(zhí)行效率以及主機(Host)與GPU之間通過PCI-E總線進行數據交互的傳輸效率。GPU硬件主要由流處理器簇(Stream Multiprocessor,SM)運算陣列以及多種存儲單元組成。譯碼過程依照TDMP算法通過Nvidia CUDA內核函數(Kernel)控制線程塊(Block)調用并訪問SM上的運算資源和存儲資源來實現。譯碼器輸入輸出數據的傳輸過程以及譯碼內核函數的執(zhí)行過程均在CUDA流上完成,不同的流執(zhí)行模式以及流上的資源配置方式會帶來不同的實現性能。

    本文將從內核函數優(yōu)化以及異步CUDA流優(yōu)化兩個方面提升LDPC譯碼架構的吞吐率和延時性能。

    2.1 基于GPU的LDPC碼譯碼架構內核函數優(yōu)化

    內核函數是LDPC碼軟件譯碼架構的核心組成部分,它以線程束(Warp)的方式調用GPU內部的運算和存儲資源來完成迭代譯碼的各個步驟。內核函數的執(zhí)行效率直接影響譯碼的吞吐率和延時性能,本文所設計的譯碼架構將從內核函數中線程塊資源配置優(yōu)化、線程分支優(yōu)化、線程對存儲資源的訪問優(yōu)化以及線程運算量化方式優(yōu)化4個方面提升內核函數執(zhí)行效率。

    2.1.1 線程塊資源配置優(yōu)化

    在本文提出的架構中,TDMP譯碼過程的幀內和幀間并行執(zhí)行程度分別對應于譯碼內核函數線程塊內部和塊間的并行度。盡管GPU硬件提供了大量可并行處理的運算資源,但片上存儲資源對于中長LDPC碼的譯碼節(jié)點更新運算過程中間信息存儲需求而言依然十分有限,需要設計優(yōu)化的線程塊內和塊間并行度。

    根據TDMP譯碼的節(jié)點更新方式,若選用的LDPC碼行重為w,則每個線程執(zhí)行所需的寄存器數目如下:存儲變量節(jié)點到校驗節(jié)點的更新信息Lk,tvc以及變量節(jié)點所對應的列地址共需要2×w個寄存器資源,每個Lk,tvc符號值在讀取時所需的緩存、各節(jié)點符號值的按位拼接存儲、符號值乘積存儲、最小值存儲、次小值存儲各需要1個寄存器資源,此外的存儲均通過全局內存完成,因此每個線程所需寄存器總數Q=2×w+5。如果線程塊內部并行度過高,受限于SM中有限的寄存器資源,每個譯碼線程將無法分配到足夠的寄存器而導致執(zhí)行效率低下。過低的線程塊內部并行度則無法通過維持一定數目的激活線程來隱藏譯碼節(jié)點信息訪問以及節(jié)點更新算術運算帶來的延遲,導致譯碼吞吐率下降。此外,線程塊間的并行度會影響SM工作負荷情況,需要與硬件資源參數相匹配,否則會引發(fā)運算負載失衡造成部分SM運算資源閑置。設定在內核函數調用執(zhí)行過程中,線程塊間并行度為Nbl,分配到SM的線程塊數最小為B,線程塊內并行度為Nth,GPU硬件擁有的SM個數為Nsm,每個SM擁有的寄存器數為Nreg,每個SM隱藏運算延時所需的最小線程數為NTH,TDMP算法分層中每一層校驗節(jié)點數目為Nrpl,則譯碼線程塊并行度的選取需要滿足以下4個條件以獲得較高的內核函數線程執(zhí)行效率:① Nth×B×Q≤Nreg;② Nth×B≥NTH;

    2.1.2 線程分支優(yōu)化

    在線程級的并行能夠完全隱藏存儲訪問和算術運算延時的條件下,譯碼內核函數的執(zhí)行效率將會達到一個瓶頸值,若要繼續(xù)降低內核函數的執(zhí)行時間,需要通過引入線程中指令級的并行來實現??紤]到指令級并行度受限于GPU片內的寄存器資源、指令相關性以及譯碼過程的分支程度,其中寄存器的消耗和指令相關性受限于TDMP算法,難以做到顯著的降低,因此本文所設計的譯碼架構通過線程分支優(yōu)化來提升指令級并行度,進而提高譯碼吞吐率。

    鑒于采用的Nvidia GPU是基于SIMT模型,線程束中所有線程在同一時間只能獲取一條指令。當一個線程束執(zhí)行中出現不同分支時,不滿足分支條件的線程將會被阻塞并閑置。由于GPU缺乏類似于CPU具備的復雜分支預測功能,因此較多的程序分支將大幅降低譯碼內核函數的執(zhí)行效率。對于空間通信標準中大多采用的非規(guī)則LDPC碼而言,其校驗矩陣行列重的差異性將導致不同行重(列重)的行(列)信息更新時,調用內核函數的資源消耗及計算量不同?,F有的LDPC碼譯碼架構在執(zhí)行非規(guī)則碼譯碼時,是用單一的內核函數根據存儲器中讀出的行(列)重值分配相應的寄存器資源,并以循環(huán)的形式進行譯碼所需行列更新計算。然而,循環(huán)處理的指令順序執(zhí)行特性需要較大的開銷,為了達到減少分支以便進行循環(huán)展開的目的,本文所設計譯碼架構為不同行重的分層更新采用不同的內核函數。舉例來說,假設TDMP譯碼各層的行重有3種:w1,w2,w3,則在行信息更新過程中,分別調用不同的內核函數 Kernel_w1,Kernel_w2,Kernel_w3,如圖2所示。雖然該方法會增加少許內核函數啟動的開銷,但能有效避免分支所造成的線程束運算資源浪費,從而降低內核函數的執(zhí)行所需時間。

    2.1.3 線程存儲資源訪問優(yōu)化

    在LDPC碼的TDMP譯碼內核函數處理過程中需要對大量節(jié)點更新信息以及校驗矩陣地址數據進行訪問,由于GPU存儲器的訪問速度遠低于其運算速度,因此進行存儲資源訪問優(yōu)化設計對于提升內核函數的執(zhí)行效率至關重要。GPU中存儲資源的訪問是以線程束為單位進行的,在當前Nvidia GPU的架構版本中,線程束由32個線程組成,能夠同時訪問最多128字節(jié)的存儲地址空間。當線程束中所有線程的訪問地址連續(xù)且與存儲地址以32字節(jié)為單位對齊時,僅需要進行一次存儲訪問事務(Transaction)即可將線程束中所需數據全部讀取或寫入存儲器,否則將需要進行多次存儲訪問事務。考慮到適用于空間通信的中長LDPC碼的節(jié)點更新信息數據量大,只能存儲到片外的全局內存(Global Memory)中,而GPU全局內存的訪問延時長達600~800個時鐘周期,因此不滿足連續(xù)和對齊要求的存儲訪問操作將造成內核函數效率的嚴重下降。

    為了保證TDMP譯碼過程中譯碼線程對存儲空間中校驗矩陣非零位置地址值訪問的連續(xù)性,LDPC碼的校驗矩陣需要按行順序進行存儲。鑒于目前LDPC碼校驗矩陣均為準循環(huán)結構,為了節(jié)省常量內存空間,本譯碼架構將校驗矩陣的非零子矩陣位置按行塊壓縮存儲為一維數組的形式,數組中每個元素包含2個數值,即非零子矩陣所在的列塊絕對位置編號C和非零子矩陣的首行偏移量P。校驗矩陣存儲圖樣示例如圖3所示,假設校驗矩陣循環(huán)子矩陣規(guī)模為Z×Z,校驗矩陣行塊、列塊數目分別為4和8,其中8個非零子矩陣的首行偏移量分別為P1,P2,…,P8,非零子矩陣位置如圖,則在常量內存中壓縮存儲后的校驗矩陣為包含4個元素的一維數組Row[0]到 Row[3]。本譯碼架構將TDMP算法中校驗節(jié)點到變量節(jié)點的更新信息Rcv存儲于GPU片外的全局內存中。Rcv的存儲圖樣采用二維數組如圖4所示。其中M為LDPC碼校驗矩陣的行數,即譯碼更新處理的校驗節(jié)點數,Wrow_max為校驗矩陣的最大行重。當第l層譯碼時,對應層內第r個非零子矩陣節(jié)點更新的譯碼線程塊中編號為ntid的線程所訪問的Rcv取值為該二維存儲空間里第l×Z+ntid行第r列的數值。在該存儲方式下,線程塊編號的連續(xù)性保證了譯碼線程對節(jié)點更新信息訪問地址的連續(xù)性,避免了額外的存儲訪問開銷。

    本譯碼架構中變量節(jié)點到校驗節(jié)點的更新信息存儲于片外全局內存的一維數組中。利用從壓縮校驗矩陣中讀取的更新節(jié)點所在列塊的絕對位置C以及節(jié)點所處的非零子矩陣首行偏移量P,可獲得節(jié)點更新線程ntid所對應的一維數組存儲空間中的位置索引值C×Z+[(P+ntid)mod(Z)]。該存儲訪問過程僅在線程束跨越校驗矩陣非零子矩陣邊界位置時會發(fā)生因地址跳變而造成的一次額外訪問事務,其余情況下均能保證訪問的連續(xù)性。

    2.1.4 線程運算量化方式優(yōu)化

    GPU的處理核心對片外全局內存的訪問能力相比其運算處理能力而言十分有限,如何更加有效利用有限的存儲訪問帶寬是提升譯碼內核函數執(zhí)行效率的關鍵之一。當前GPU架構的處理單元只支持最低32位單精度浮點型或整型運算,然而對于LDPC碼TDMP最小和譯碼算法而言,其節(jié)點更新信息通常只需要較低的量化精度即可獲得與32位精度量化相當的誤碼率性能,譯碼架構可以通過減少存儲節(jié)點信息的精度達到提高內核函數存儲訪問效率的目的,如采用8位整型量化或16位半精度浮點型量化。然而需要注意的是,8位量化方式由于值域偏小,LDPC譯碼過程中節(jié)點更新運算的32位整型結果需要進行限幅處理后進行存儲,增加了譯碼線程的分支判斷。此外,由于目前GPU對整型運算的處理能力較弱(如主流Kepler架構的整型運算能力約為浮點型的1/6[19]),8位整型量化在提升內核函數存儲訪問能力的同時會造成其運算能力的下降。因此,8位整型量化存儲方式僅適于對內核函數運算耗時不敏感,存儲訪問帶寬嚴重受限的譯碼應用。對于需要同時兼顧內核函數執(zhí)行效率和存儲訪問帶寬利用效率的譯碼應用,本文選擇采用16位半精度浮點型進行節(jié)點更新信息的量化存儲,譯碼線程讀取節(jié)點信息后轉換為單精度浮點型后進行迭代更新運算。半精度浮點型對于TDMP最小和算法的節(jié)點更新結果具有足夠的值域空間,不需要在運算和存儲轉換時進行限幅處理,保證了譯碼內核函數運算和存儲訪問的高效性。

    2.2 基于GPU的LDPC碼譯碼架構CUDA流執(zhí)行效率優(yōu)化

    LDPC碼軟件譯碼架構在GPU平臺上運行所消耗的時間中,除去譯碼內核函數執(zhí)行時間以外,其余大部分是用于在主機系統(tǒng)內存和GPU片外全局內存之間經由PCI-E總線傳輸譯碼輸入軟信息和硬判決輸出信息。若要提高譯碼吞吐率性能,需要引入異步CUDA流機制,在提升內核函數自身執(zhí)行效率的同時優(yōu)化數據傳輸和譯碼內核函數之間的調度機制,最大化GPU硬件運算資源的利用率。此外,在多流處理方式中需要合理配置線程塊資源數以便能同時獲得更優(yōu)的譯碼吞吐率和延時性能。因此,本文從異步調度方式和流上的線程資源配置準則兩個方面優(yōu)化譯碼架構的CUDA流執(zhí)行效率和降低譯碼延時。

    2.2.1 異步CUDA流調度優(yōu)化

    相比于GPU運算處理能力在近年來的不斷提升,主機與GPU之間通過PCI-E總線的數據傳輸能力卻沒有顯著增加,造成數據傳輸日益成為GPU軟件譯碼架構吞吐率性能提升的瓶頸。此外,內核函數在執(zhí)行過程中會出現譯碼線程間由于數據依賴造成的阻塞,影響執(zhí)行效率。本文所設計譯碼架構采用Nvidia在Kepler架構(GK110)之后引入的 Hyper-Q技術,通過異步CUDA流實現多幀譯碼內核函數之間以及內核函數與數據傳輸之間的交疊執(zhí)行,如圖5(a)所示,其中H2D和D2H部分分別表示數據從主機到GPU以及從GPU到主機的傳輸過程,Decoding Kernel部分表示譯碼過程的執(zhí)行時間,可見異步執(zhí)行模式相比于圖5(b)所示傳統(tǒng)譯碼器的同步執(zhí)行模式有效降低了GPU運算資源在PCIE總線數據傳輸時的空閑等待時間,同時通過多內核函數交疊對SM運算資源的復用來緩解譯碼過程中由于校驗節(jié)點以最小和方式更新的運算相關性以及線程對全局內存中更新信息訪問的長延時所造成的硬件資源利用率較低的問題。此外,本架構對譯碼輸出的硬判決信息以32位整型方式進行了按位拼接存儲,大幅減少了D2H過程中的傳輸數據量,進一步降低了譯碼所需的延時。

    2.2.2 異步CUDA流線程資源配置優(yōu)化

    GPU的SIMT架構特點決定了其需要大量的線程以達到隱藏算術延時提高吞吐率的目的,在現有文獻所提出的譯碼架構設計中,多數即通過同時進行數百甚至上千幀的迭代譯碼過程來最大化吞吐率性能,例如在文獻[14-15]中達到最大譯碼吞吐率時的最低并行譯碼幀數設置分別為4 096和4 480。大量的并行譯碼幀數不可避免的帶來譯碼延時過大的問題,尤其是對于空間通信應用中的中長LDPC碼更是如此。Nvidia GPU的核心將全部SM劃分為多個圖形處理集群(Graphics Processor Cluster,GPC),每個 GPC所包含的SM數目有可能不同,GPU在不同SM中分配譯碼線程塊時遵循大致上的輪轉次序,但優(yōu)先分配SM數目較多的GPC。因此當每個SM中分配的線程塊數滿足激活線程塊數的整數倍關系時,SM之間才能夠達到運算負載的平衡,使得譯碼吞吐達到峰值?;诖?,本文所提出的譯碼架構盡可能減少單線程塊中運行譯碼的幀數,并且設置所有異步CUDA流上運行的總線程塊數為SM上激活線程塊數與SM總數乘積的較小整數倍,以便在獲得譯碼吞吐峰值的同時減小譯碼幀數,縮短譯碼延時。

    3 仿真實驗及分析

    實驗測試所用硬件平臺如表1所示。本文所提出的基于GPU的LDPC碼TDMP譯碼架構在 Nvidia CUDA 6.5工具包下進行編譯,編譯環(huán)境是 Visual Studio 2013,Windows 7 64位操作系統(tǒng)。硬件平臺選取的主板為Intel的Z97芯片組,Tesla K20GPU使用PCI-E 2.0X16總線接口,GTX980GPU使用PCI-E 3.0X16總線接口。

    實驗所選取的LDPC碼為CCSDS遙測同步和信道編碼標準[20]中所提供的4 096信息位1/2碼率(碼1)和2/3碼率(碼2)的兩種非規(guī)則AR4JA LDPC碼。其中碼1的平均行重為5,校驗矩陣子矩陣規(guī)模為512×512,碼2的平均行重為7.67,子矩陣規(guī)模為256×256。譯碼采用TDMP最小和算法,迭代10次。最小和修正系數α在32位單精度和16位半精度浮點型量化的兩種碼譯碼實現中均設置為0.8,在8位整型量化(其中5比特代表整數位、2比特代表小數位、1比特代表符號位)的碼1中設置為0.77,碼2中設置為0.7。不同量化方式的誤碼性能在GPU平臺上測試結果如圖6所示,誤碼率(BER)和誤幀率(FER)是譯碼出現50誤幀數時的統(tǒng)計結果??梢奣DMP最小和算法誤碼性能對量化不敏感,32位、16位浮點型量化以及8位整型量化的譯碼性能基本一致。

    表1 仿真實驗硬件環(huán)境Table 1 Hardware simulation environments

    表2為同步模式下兩種碼采用本文所提出的內核函數優(yōu)化方法使用不同量化方式獲得的譯碼吞吐率以及延時性能。譯碼內核函數中線程塊內并行度根據2.1.1節(jié)的選取準則設置碼1為512、碼2為256。且內核函數均根據非規(guī)則行重的特點減少了線程分支并采用存儲聯(lián)合訪問圖樣??梢娫趦?yōu)化后的內核函數中使用16位半精度浮點型和8位整型量化得益于利用相同的存儲訪問帶寬獲取更多的譯碼更新節(jié)點信息,在兩種GPU平臺上的譯碼吞吐率均比32位單精度浮點型量化方式有較大提升。由于Tesla K20平臺與GTX980平臺的PCI-E總線傳輸平均帶寬分別為二代16通道的5GBps和三代16通道的10GBps左右,因此在較低數據傳輸速率的K20平臺上,量化對于有限帶寬下碼字傳輸能力的改善相比GTX980平臺更為顯著。需要注意的是,在兩種GPU平臺上碼2的8位整型量化譯碼吞吐率均低于16位浮點型量化,其原因是8位整型量化方式在譯碼更新過程中需要頻繁進行限幅運算,校驗矩陣行重越大,限幅造成的運算開銷越大,使得在對碼2進行譯碼時內核函數運算時間過長,吞吐率相比16位量化方式下降的同時譯碼延時也大幅增加。

    表2 內核函數優(yōu)化后同步模式譯碼吞吐率及延時性能Table 2 Throughput and latency performance of proposed architecture with optimized Kernel functions under synchronous mode

    表3為異步模式下兩種碼采用本文所設計的CUDA流優(yōu)化方法后使用不同量化方式獲得的譯碼吞吐率以及延時性能。異步CUDA流均設置為3個??梢娫诋惒侥J较碌靡嬗谟行щ[藏了GPU與主機之間的數據傳輸延時,譯碼吞吐率相比表2中的同步模式有較大幅度的提升。譯碼延時因為異步CUDA流交疊所造成的單個內核函數執(zhí)行時間上升而略有增加。采用本文所提出的線程資源優(yōu)化配置方法后,在達到譯碼吞吐率峰值的同時減少了幀間并行度,使得譯碼延時仍能夠基本保持在2~3ms左右。與同步模式的實驗結果類似,碼2的8位整型量化實現由于其校驗矩陣行重較大帶來大量限幅運算開銷導致兩種GPU平臺上吞吐率均嚴重降低并且譯碼延時大幅增大。Tesla K20平臺在異步模式譯碼實現上的瓶頸主要為有限的PCI-E總線傳輸帶寬,因此行重較少的碼1在8位整型實現時由于傳輸效率的大幅提升且內核函數限幅運算開銷較小,從而吞吐率獲得較大的提高。而GTX980平臺在異步模式譯碼上的瓶頸主要為內核函數運算開銷,所以不需要限幅運算開銷并且兼顧總線傳輸效率的16位浮點型量化實現方式能取得較理想的吞吐率和延時性能。

    表4為本文所提出的GPU譯碼架構(選取Tesla K20平臺實現結果)與現有文獻中同類方法的性能比較。在比較過程中采用了歸一化吞吐率(Normalized Throughput)的概念,即單位運算核心每MHz頻率的譯碼吞吐率,以消除平臺差異對比較結果的影響。

    表3 CUDA流優(yōu)化后異步模式譯碼吞吐率及延時性能(CUDA流數為3)Table 3 Throughput and latency performance of proposed architecture with optimized CUDA stream execution under asynchronous mode(3CUDA streams)

    表4 與現有譯碼架構的性能比較Table 4 Comparison with performance of existing decoder architectures

    可以看到,相比文獻[11]和文獻[14]的方法,本文所提譯碼架構的歸一化吞吐率分別提升了106%和47.6%。鑒于文獻[11]的GTX Titan平臺傳輸總線為PCI-E 3.0,而本文的Tesla K20為傳輸帶寬減半的 PCI-E 2.0,因此本文方法的譯碼延時與文獻[11]相當。文獻[14]中沒有給出譯碼延時的數據,但是根據其并行處理4 096碼字的方式可以判斷延時相較本文方法會大幅增加。在表4中本文的譯碼歸一化吞吐率約為文獻[15]所提方法的67.5%,考慮到文獻[15]采用的譯碼算法是TPMP,在得到相同誤碼性能時所需的譯碼迭代次數接近本文所采用的TDMP算法所需次數的兩倍,因此若從相同誤碼性能角度衡量,兩種方法所能達到的吞吐率相當。但由于文獻[15]的譯碼幀間并行度過高,本文方法的譯碼延時僅為文獻[15]的1.3%。綜上所述可知,本文所提出的譯碼架構在獲得較高譯碼吞吐率的同時兼顧了低譯碼延時的性能。

    4 結 論

    1)提出了一種基于GPU的LDPC碼軟件譯碼架構,采用TDMP最小和譯碼算法,從內核函數優(yōu)化以及異步CUDA流執(zhí)行優(yōu)化兩個方面提升了譯碼架構的吞吐率和延時性能。

    2)實驗結果表明,本文所提出的GPU軟件譯碼架構對CCSDS標準所建議的中長LDPC碼在10次譯碼迭代時吞吐率最高可達500Mbps左右,譯碼延時約為2ms左右。相比現有方法,本架構能更有效兼顧高譯碼吞吐率和低延時性能。

    [1] MACKAY D J C,NEAL R M.Near Shannon limit performance of low density parity check codes[J].Electronics Letters,1996,32(18):1645-1646.

    [2] NASA.Space telecommunications radio system (STRS)architecture standard:NASA-STD-4009[S].Washington,D.C.:NASA,2014.

    [3] LAY N,ARGUETA A,TKACENKO A,et al.Reconfigurable wideband ground receiver field testing:IPN progress report 42-191[R].Pasadena:Jet Propulsion Laboratory,2012.

    [4] CHEUNG K M,ABRAHAM D,ARROYO B,et al.Next-generation ground network architecture for communications and tracking of interplanetary smallsats:IPN progress report 42-202[R].Pasadena:Jet Propulsion Laboratory,2015.

    [5] WANG Y Q,LIU D L,SUN L,et al.Real-time implementation for reduced-complexity LDPC decoder in satellite communication[J].China Communications,2014,11(12):94-104.

    [6] LECHNER G,SAYIR J,RUPP M.Efficient DSP implementation of an LDPC decoder[C]/IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP).Piscataway,NJ:IEEE Press,2004:iv-665-iv-668.

    [7] GAL B L,JEGO C.High-throughput multi-core LDPC decoders based on x86processor[J/OL].IEEE Transactions on Parallel and Distributed Systems,(2015-05-20)[2016-01-11].http:/doi.ieeecomputersociety.org/10.1109/TPDS.2015.2435787.

    [8] GAL B L,JEGO C.High-throughput LDPC decoder on low-power embedded processors[J].IEEE Communications Letters,2015,19(11):1861-1864.

    [9] FALCAO G,SOUSA L,SILVA V.Massively LDPC decoding on multicore architectures[J].IEEE Transactions on Parallel and Distributed Systems,2011,22(2):309-322.

    [10] JI H W,CHO J H,SUNG W Y.Memory access optimized implementation of cyclic and quasi-cyclic LDPC codes on a GPGPU[J].Journal of Signal Processing Systems,2010,64(1):149-159.

    [11] WANG G H,WU M,YIN B,et al.High throughput low latency LDPC decoding on GPU for SDR systems[C]/Proceedings of 2013IEEE Global Conference on Signal and Information Processing (GlobalSIP).Piscataway,NJ:IEEE Press,2013:1258-1261.

    [12] HONG J H,CHUNG K S.Parallel LDPC decoding on a GPU using OpenCL and global memory for accelerators[C]/Proceedings of 2015IEEE International Conference on Networking,Architecture and Storage(NAS).Piscataway,NJ:IEEE Press,2015:353-354.

    [13] FALCAO G,ANDRADE J,SILVA V,et al.GPU-based DVB-S2LDPC decoder with high throughput and fast error floor detection[J].Electronics Letters,2011,47(9):542-543.

    [14] XIE W,JIAO X J,PEKKA J,et al.A high throughput LDPC decoder using a mid-range GPU[C]/Proceedings of 2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Piscataway,NJ:IEEE Press,2014:7515-7519.

    [15] LIN Y,NIU W S.High throughput LDPC decoder on GPU[J].IEEE Communications Letters,2014,18(2):344-347.

    [16] GALLAGER R.Low-density parity-check codes[J].IRE Transactions on Information Theory,1962,8(1):21-28.

    [17] MANSOUR M,SHANBHAG N.Turbo decoder architectures for low-density parity-check codes[C]/Proceedings of 2002IEEE Global Telecommunications Conference(GLOBECOM).Piscataway,NJ:IEEE Press,2002:1383-1388.

    [18] ZHANG J T,FOSSORIER M P C.Shuffled iterative decoding[J].IEEE Transactions on Communications,2005,53(2):209-213.

    [19] NVIDIA Corporation.CUDA C programming guide version 7.5[EB/OL].(2015-09-01)[2016-01-11].http:/docs.nvidia.com/cuda/cuda-c-programming-guide.

    [20] CCSDS.Synchronization and channel coding,Issue 2:131.0-B-2TM[S].Washington,D.C.:CCSDS,2011.

    High-throughput GPU-based LDPC decoder architecture for space communication

    HOU Yi,LIU Rongke*,PENG Hao,ZHAO Ling,XIONG Qingxu
    School of Electronics and Information Engineering,Beihang University,Beijing 100083,China

    In view of the current requirements for high-speed reconfigurable channel decoder for space communications,a high-throughput low-density parity-check(LDPC)software decoding architecture is proposed by exploiting the graphics processing units(GPU)’s parallel operating characteristics.The efficiency of the decoding kernel functions is improved by optimizing the inter-block and intra-block thread parallelism for the nodes’updating operations in software decoding architecture;turbo-decoding message passing (TDMP)algorithm,reducing the thread branch induced by the irregularity of rowweight,lowering the memory access latency for the updating information by threads,and reasonably quantizing the stored information to.The asynchronous compute unified device architecture(CUDA)stream processing mechanism,which includes designing an optimized execution scheduling between decoder’s input/output data transfers and kernel functions,and setting a thread resource allocation method on CUDA streams,is also introduced to maximize the decoding throughput and at the same time reduce the decoding latency.The experimental results from the decoding simulations of the Consultative Committee for Space Data System (CCSDS)telemetry standard’s LDPC codes on the Nvidia’s latest Tesla K20and GTX980platforms demonstrate that the proposed architecture achieves about 500Mbps maximum throughput and about 2ms average latency by using TDMP algorithm with 10iterations.In comparison with the existing results,the proposed architecture can improve both the decoding throughput and latency performance,and maintain the configuration flexibility of software architecture.

    low-density parity-check codes;graphics processing units;software decoding architecture;Turbo-decoding message passing algorithm;high-throughput;low latency

    2016-01-25;Revised:2016-04-08;Accepted:2016-04-25;Published online:2016-05-05 15:07

    URL:www.cnki.net/kcms/detail/11.1929.V.20160505.1507.004.html

    National Natural Science Foundation of China(91438116)

    V443+.1;TN911.22

    A

    1000-6893(2017)01-320107-10

    http:/hkxb.buaa.edu.cn hkxb@buaa.edu.cn

    10.7527/S1000-6893.2016.0126

    2016-01-25;退修日期:2016-04-08;錄用日期:2016-04-25;網絡出版時間:2016-05-05 15:07

    www.cnki.net/kcms/detail/11.1929.V.20160505.1507.004.html

    國家自然科學基金 (91438116)

    *通訊作者 .E-mail:rongke_liu@buaa.edu.cn

    侯毅,劉榮科,彭皓,等.適用于空間通信的LDPC碼GPU高速譯碼架構[J].航空學報,2017,38(1):320107.HOU Y,LIU R K,PENG H,et al.High-throughput GPU-based LDPC decoder architecture for space communication[J].Acta Aeronautica et Astronautica Sinica,2017,38(1):320107.

    (責任編輯:蘇磊)

    *Corresponding author.E-mail:rongke_liu@buaa.edu.cn

    猜你喜歡
    譯碼內核線程
    萬物皆可IP的時代,我們當夯實的IP內核是什么?
    現代裝飾(2022年4期)2022-08-31 01:41:24
    強化『高新』內核 打造農業(yè)『硅谷』
    基于校正搜索寬度的極化碼譯碼算法研究
    基于嵌入式Linux內核的自恢復設計
    Linux內核mmap保護機制研究
    淺談linux多線程協(xié)作
    從霍爾的編碼譯碼理論看彈幕的譯碼
    新聞傳播(2016年3期)2016-07-12 12:55:27
    LDPC 碼改進高速譯碼算法
    遙測遙控(2015年2期)2015-04-23 08:15:19
    基于概率裁剪的球形譯碼算法
    Linux線程實現技術研究
    亚洲欧美激情综合另类| 国产毛片a区久久久久| 麻豆一二三区av精品| 亚洲第一电影网av| 91麻豆av在线| 日本撒尿小便嘘嘘汇集6| 熟女人妻精品中文字幕| 欧美xxxx性猛交bbbb| 桃红色精品国产亚洲av| 亚洲最大成人手机在线| 国模一区二区三区四区视频| 欧美黑人巨大hd| 97热精品久久久久久| 欧美成人一区二区免费高清观看| 一边摸一边抽搐一进一小说| 欧美在线一区亚洲| 最近最新免费中文字幕在线| 一边摸一边抽搐一进一小说| 男人的好看免费观看在线视频| 国产亚洲av嫩草精品影院| 日本一二三区视频观看| 一本一本综合久久| 简卡轻食公司| 51国产日韩欧美| 亚洲一区高清亚洲精品| 成人鲁丝片一二三区免费| 老司机午夜福利在线观看视频| 99热6这里只有精品| 中国美女看黄片| 欧美成人一区二区免费高清观看| 国产精华一区二区三区| 国产精品嫩草影院av在线观看 | 69人妻影院| 两个人视频免费观看高清| 免费大片18禁| 欧美成人性av电影在线观看| 久久久久久久精品吃奶| 亚洲五月天丁香| 一边摸一边抽搐一进一小说| 国产精华一区二区三区| 亚洲国产色片| 欧美色欧美亚洲另类二区| 又爽又黄无遮挡网站| 如何舔出高潮| 一卡2卡三卡四卡精品乱码亚洲| 精品99又大又爽又粗少妇毛片 | 国产 一区精品| 黄片wwwwww| 香蕉av资源在线| 长腿黑丝高跟| 嫩草影院精品99| 日本免费a在线| 久久久久久久精品吃奶| 久久久久九九精品影院| 欧美色视频一区免费| 亚洲欧美激情综合另类| 成人亚洲精品av一区二区| 日本在线视频免费播放| 精品一区二区三区av网在线观看| 免费在线观看日本一区| 午夜免费男女啪啪视频观看 | 日日摸夜夜添夜夜添av毛片 | 乱人视频在线观看| 国产高清有码在线观看视频| 午夜福利在线观看吧| 国内精品宾馆在线| x7x7x7水蜜桃| 精品99又大又爽又粗少妇毛片 | 久久精品夜夜夜夜夜久久蜜豆| 久久久成人免费电影| 97超视频在线观看视频| 国产精品日韩av在线免费观看| 我要搜黄色片| 最近最新免费中文字幕在线| 久久久色成人| 中文字幕精品亚洲无线码一区| 亚洲精品456在线播放app | 在线观看av片永久免费下载| 国产男靠女视频免费网站| 一级a爱片免费观看的视频| 国产主播在线观看一区二区| 色吧在线观看| 嫩草影院精品99| 亚洲五月天丁香| 麻豆成人午夜福利视频| 啦啦啦啦在线视频资源| 国产久久久一区二区三区| 免费在线观看日本一区| 欧美日韩国产亚洲二区| 波野结衣二区三区在线| 精品一区二区三区人妻视频| 久久人人精品亚洲av| 国产一区二区三区av在线 | 亚洲天堂国产精品一区在线| 窝窝影院91人妻| 欧美精品啪啪一区二区三区| 又紧又爽又黄一区二区| 日本黄色视频三级网站网址| 国产女主播在线喷水免费视频网站 | 国产一级毛片七仙女欲春2| 国产免费一级a男人的天堂| 日本与韩国留学比较| 丰满的人妻完整版| 国产精品三级大全| 99久久无色码亚洲精品果冻| 亚洲欧美日韩高清专用| 99久国产av精品| 淫妇啪啪啪对白视频| 国产精品亚洲美女久久久| 免费av不卡在线播放| 动漫黄色视频在线观看| 国产三级在线视频| 亚洲综合色惰| 亚洲无线在线观看| 草草在线视频免费看| 少妇的逼好多水| 亚洲精品成人久久久久久| 亚洲自偷自拍三级| 免费大片18禁| 久久国内精品自在自线图片| xxxwww97欧美| 在线播放国产精品三级| 小蜜桃在线观看免费完整版高清| 免费人成在线观看视频色| 黄色欧美视频在线观看| 免费看光身美女| 亚洲一区二区三区色噜噜| 国产一区二区三区av在线 | 精品日产1卡2卡| 又黄又爽又刺激的免费视频.| 精品久久久久久久人妻蜜臀av| 成人国产综合亚洲| 一进一出抽搐gif免费好疼| 亚洲精品日韩av片在线观看| 他把我摸到了高潮在线观看| 国产精品日韩av在线免费观看| 日韩av在线大香蕉| 99精品久久久久人妻精品| 免费黄网站久久成人精品| 日韩一区二区视频免费看| 成年版毛片免费区| 22中文网久久字幕| 一区福利在线观看| 琪琪午夜伦伦电影理论片6080| 69av精品久久久久久| 真人一进一出gif抽搐免费| 亚洲欧美精品综合久久99| 免费观看精品视频网站| 久久久久国产精品人妻aⅴ院| 悠悠久久av| 黄色女人牲交| 国产一区二区三区在线臀色熟女| 国产亚洲av嫩草精品影院| 如何舔出高潮| 国产在线男女| 亚洲成人免费电影在线观看| 亚洲国产精品sss在线观看| 国产男人的电影天堂91| 欧美激情在线99| 一进一出抽搐动态| 在线播放国产精品三级| 国产伦在线观看视频一区| 午夜福利在线观看免费完整高清在 | 丰满乱子伦码专区| 中亚洲国语对白在线视频| 国产日本99.免费观看| 国产高清三级在线| 亚洲最大成人中文| 中文字幕av成人在线电影| 亚洲一级一片aⅴ在线观看| 免费观看人在逋| 亚洲人与动物交配视频| 国产综合懂色| 白带黄色成豆腐渣| 久久欧美精品欧美久久欧美| 亚洲精品色激情综合| 99国产精品一区二区蜜桃av| 一级黄片播放器| 国产aⅴ精品一区二区三区波| 国产精品乱码一区二三区的特点| 1000部很黄的大片| 国产蜜桃级精品一区二区三区| 国产精品自产拍在线观看55亚洲| 国产亚洲av嫩草精品影院| 人妻久久中文字幕网| 亚洲午夜理论影院| 成人特级黄色片久久久久久久| 精品人妻视频免费看| 成年女人永久免费观看视频| 桃红色精品国产亚洲av| 91麻豆av在线| 欧美日本视频| 一区二区三区高清视频在线| 99久久中文字幕三级久久日本| 一夜夜www| 成人av在线播放网站| 国产大屁股一区二区在线视频| 欧美日韩瑟瑟在线播放| 97碰自拍视频| 在线免费观看的www视频| 精品久久久久久久末码| 中出人妻视频一区二区| 国产午夜精品论理片| 我的老师免费观看完整版| 久久中文看片网| 亚洲国产精品成人综合色| 久久草成人影院| 欧美日本视频| 日韩一本色道免费dvd| 长腿黑丝高跟| 俺也久久电影网| 又爽又黄a免费视频| 黄色配什么色好看| 深夜a级毛片| 嫩草影院精品99| 非洲黑人性xxxx精品又粗又长| 国内精品久久久久精免费| 99视频精品全部免费 在线| 欧美bdsm另类| 天美传媒精品一区二区| 一级黄片播放器| 99久久精品一区二区三区| 动漫黄色视频在线观看| 亚洲综合色惰| 毛片一级片免费看久久久久 | 精品国内亚洲2022精品成人| 日本成人三级电影网站| 99热网站在线观看| www.www免费av| 色视频www国产| 成人精品一区二区免费| 亚洲电影在线观看av| 国产亚洲91精品色在线| 欧美xxxx性猛交bbbb| 麻豆一二三区av精品| 日韩欧美 国产精品| 亚洲综合色惰| 久久天躁狠狠躁夜夜2o2o| 亚洲欧美精品综合久久99| 国产精品亚洲美女久久久| 欧美一区二区精品小视频在线| 赤兔流量卡办理| 22中文网久久字幕| 久久精品综合一区二区三区| 成人性生交大片免费视频hd| 国内精品久久久久精免费| 亚洲专区国产一区二区| avwww免费| 少妇裸体淫交视频免费看高清| 无人区码免费观看不卡| 精品久久久久久久久久免费视频| 成年版毛片免费区| 色噜噜av男人的天堂激情| 两个人视频免费观看高清| 精品日产1卡2卡| 欧美精品啪啪一区二区三区| 婷婷色综合大香蕉| 69av精品久久久久久| 亚洲人成网站在线播| 久久久久国产精品人妻aⅴ院| 一a级毛片在线观看| 亚洲国产精品成人综合色| 黄色丝袜av网址大全| 女同久久另类99精品国产91| 久久久久久久久大av| 午夜老司机福利剧场| 九色国产91popny在线| 999久久久精品免费观看国产| 亚洲精品色激情综合| 久9热在线精品视频| 日韩大尺度精品在线看网址| 欧美又色又爽又黄视频| 五月玫瑰六月丁香| 欧美成人性av电影在线观看| 性欧美人与动物交配| 亚洲欧美日韩东京热| 五月伊人婷婷丁香| 免费人成视频x8x8入口观看| 日本在线视频免费播放| 女同久久另类99精品国产91| 亚洲一级一片aⅴ在线观看| 亚洲四区av| 免费人成在线观看视频色| 又粗又爽又猛毛片免费看| 亚洲精品国产成人久久av| 99热这里只有是精品在线观看| 欧美激情国产日韩精品一区| 婷婷色综合大香蕉| 国产精品日韩av在线免费观看| 午夜精品久久久久久毛片777| 观看免费一级毛片| 国产免费一级a男人的天堂| 亚洲内射少妇av| 亚洲人成伊人成综合网2020| 伦精品一区二区三区| 日韩中字成人| 一边摸一边抽搐一进一小说| 国产高清三级在线| 国产女主播在线喷水免费视频网站 | 精品午夜福利视频在线观看一区| 黄色配什么色好看| 搡女人真爽免费视频火全软件 | АⅤ资源中文在线天堂| 国产成人av教育| 成人永久免费在线观看视频| 久久精品国产自在天天线| 日韩欧美精品免费久久| 久久久精品大字幕| 亚洲精品亚洲一区二区| 少妇裸体淫交视频免费看高清| 一卡2卡三卡四卡精品乱码亚洲| 在线观看免费视频日本深夜| 亚洲国产欧洲综合997久久,| 中文字幕精品亚洲无线码一区| 亚洲,欧美,日韩| 欧美bdsm另类| 久久久久国内视频| 亚洲男人的天堂狠狠| 精品久久久久久久人妻蜜臀av| 亚洲精品在线观看二区| 日本a在线网址| 精品人妻一区二区三区麻豆 | 啦啦啦观看免费观看视频高清| 亚洲 国产 在线| 精品免费久久久久久久清纯| 国产精品永久免费网站| 亚洲中文字幕一区二区三区有码在线看| 国国产精品蜜臀av免费| 日本黄色片子视频| 婷婷精品国产亚洲av| 国产精品人妻久久久影院| 99热6这里只有精品| 成人欧美大片| 成人国产一区最新在线观看| 欧美性猛交╳xxx乱大交人| 国产日本99.免费观看| 99久久九九国产精品国产免费| 久久精品国产清高在天天线| 乱系列少妇在线播放| 亚洲无线观看免费| 男女做爰动态图高潮gif福利片| 久久九九热精品免费| 国产亚洲精品综合一区在线观看| 精品久久久久久,| 欧美成人一区二区免费高清观看| 免费在线观看日本一区| av中文乱码字幕在线| 少妇猛男粗大的猛烈进出视频 | 91狼人影院| 日韩精品有码人妻一区| 久久国内精品自在自线图片| 看黄色毛片网站| 欧美日韩精品成人综合77777| 久久午夜福利片| 美女被艹到高潮喷水动态| 97碰自拍视频| 欧美zozozo另类| 亚洲欧美日韩高清在线视频| 亚洲精品一区av在线观看| 天天躁日日操中文字幕| 午夜精品一区二区三区免费看| 国产av在哪里看| 女人十人毛片免费观看3o分钟| 亚洲精品456在线播放app | 日本免费a在线| 中文字幕人妻熟人妻熟丝袜美| 精品人妻偷拍中文字幕| 亚洲av美国av| 在线免费十八禁| 黄色配什么色好看| 亚洲真实伦在线观看| 久久久久国内视频| 午夜日韩欧美国产| 3wmmmm亚洲av在线观看| 精品欧美国产一区二区三| 欧美绝顶高潮抽搐喷水| 国产精品国产三级国产av玫瑰| 韩国av在线不卡| 日本成人三级电影网站| 丰满人妻一区二区三区视频av| 精品一区二区三区视频在线| 在线观看舔阴道视频| 少妇丰满av| 久9热在线精品视频| 老司机深夜福利视频在线观看| 99久久中文字幕三级久久日本| 午夜激情欧美在线| 老熟妇乱子伦视频在线观看| 99在线人妻在线中文字幕| 一卡2卡三卡四卡精品乱码亚洲| 91午夜精品亚洲一区二区三区 | 国产毛片a区久久久久| 国产一区二区亚洲精品在线观看| 又爽又黄a免费视频| 少妇人妻一区二区三区视频| 亚洲最大成人手机在线| 白带黄色成豆腐渣| 国产精品自产拍在线观看55亚洲| 成人美女网站在线观看视频| 亚洲精品成人久久久久久| 久久久久性生活片| 午夜福利在线观看免费完整高清在 | 色综合婷婷激情| 精品午夜福利在线看| 亚洲欧美精品综合久久99| av天堂在线播放| 成人av在线播放网站| 中文亚洲av片在线观看爽| 我要搜黄色片| 窝窝影院91人妻| 亚洲美女视频黄频| 桃色一区二区三区在线观看| 成人国产一区最新在线观看| 国产精品美女特级片免费视频播放器| av.在线天堂| 一边摸一边抽搐一进一小说| 国产乱人伦免费视频| а√天堂www在线а√下载| 国产成人一区二区在线| 亚洲最大成人av| 老师上课跳d突然被开到最大视频| 国产不卡一卡二| 桃色一区二区三区在线观看| av天堂在线播放| 日本撒尿小便嘘嘘汇集6| 精品人妻1区二区| 少妇人妻精品综合一区二区 | 国产成人aa在线观看| 三级国产精品欧美在线观看| 成人无遮挡网站| 国产白丝娇喘喷水9色精品| 一夜夜www| 国产精品不卡视频一区二区| 亚洲内射少妇av| 国产高清三级在线| 国产高清激情床上av| 中文字幕免费在线视频6| 亚洲 国产 在线| 又紧又爽又黄一区二区| 综合色av麻豆| 看片在线看免费视频| 长腿黑丝高跟| 男女那种视频在线观看| 久久99热这里只有精品18| 老司机福利观看| 美女免费视频网站| 亚洲一区高清亚洲精品| 国内少妇人妻偷人精品xxx网站| 午夜精品久久久久久毛片777| 身体一侧抽搐| 男人和女人高潮做爰伦理| 亚洲专区国产一区二区| 亚洲aⅴ乱码一区二区在线播放| 欧美绝顶高潮抽搐喷水| av在线天堂中文字幕| 亚洲精华国产精华液的使用体验 | netflix在线观看网站| 精品久久久久久久久av| 国产aⅴ精品一区二区三区波| 午夜影院日韩av| 在线免费观看不下载黄p国产 | 久久久久九九精品影院| 亚洲,欧美,日韩| 久久精品影院6| 亚洲图色成人| 久久精品国产自在天天线| 啦啦啦啦在线视频资源| 久久热精品热| 给我免费播放毛片高清在线观看| 老熟妇乱子伦视频在线观看| 日本免费a在线| 精品久久久久久久人妻蜜臀av| 能在线免费观看的黄片| 亚洲av中文字字幕乱码综合| 97超视频在线观看视频| 国产精品一区二区免费欧美| 久久精品国产自在天天线| 欧美3d第一页| 亚洲 国产 在线| 好男人在线观看高清免费视频| h日本视频在线播放| 一个人免费在线观看电影| 国产精品野战在线观看| 亚州av有码| 99久久成人亚洲精品观看| 97人妻精品一区二区三区麻豆| 很黄的视频免费| 久久久午夜欧美精品| 一级黄片播放器| 12—13女人毛片做爰片一| 久久久久国内视频| 天天一区二区日本电影三级| av在线天堂中文字幕| 人人妻人人看人人澡| 国产一区二区在线av高清观看| 99久久精品一区二区三区| 成人国产麻豆网| 两人在一起打扑克的视频| 午夜福利高清视频| 国产精品嫩草影院av在线观看 | 欧美日本亚洲视频在线播放| 性欧美人与动物交配| 国产 一区精品| 在线看三级毛片| 国产午夜精品久久久久久一区二区三区 | 波野结衣二区三区在线| 啪啪无遮挡十八禁网站| 很黄的视频免费| 国内少妇人妻偷人精品xxx网站| 麻豆成人午夜福利视频| 我的老师免费观看完整版| 别揉我奶头~嗯~啊~动态视频| 欧美一区二区精品小视频在线| 麻豆成人午夜福利视频| 久久热精品热| 欧美xxxx性猛交bbbb| 午夜免费男女啪啪视频观看 | 国产av一区在线观看免费| 国产av在哪里看| 国产成人aa在线观看| 色哟哟哟哟哟哟| 亚洲欧美日韩高清专用| 久久久国产成人免费| 变态另类成人亚洲欧美熟女| 日韩高清综合在线| 在线观看免费视频日本深夜| 午夜老司机福利剧场| av天堂中文字幕网| 美女xxoo啪啪120秒动态图| 欧美人与善性xxx| 91在线精品国自产拍蜜月| 欧美最新免费一区二区三区| 春色校园在线视频观看| 91久久精品电影网| 欧美色欧美亚洲另类二区| 日韩欧美精品v在线| 国产av一区在线观看免费| 亚洲国产欧洲综合997久久,| 中文字幕高清在线视频| 午夜亚洲福利在线播放| 国语自产精品视频在线第100页| 日韩高清综合在线| 在线观看av片永久免费下载| 欧美丝袜亚洲另类 | 亚洲四区av| 久久欧美精品欧美久久欧美| 成人二区视频| 免费av毛片视频| 99精品在免费线老司机午夜| 国产精品精品国产色婷婷| 亚洲va日本ⅴa欧美va伊人久久| 中亚洲国语对白在线视频| 动漫黄色视频在线观看| 国产中年淑女户外野战色| 美女免费视频网站| 女人被狂操c到高潮| 婷婷六月久久综合丁香| 国内精品久久久久精免费| 久久久久久国产a免费观看| 午夜免费男女啪啪视频观看 | 午夜福利视频1000在线观看| 成人毛片a级毛片在线播放| 亚洲成a人片在线一区二区| 日本与韩国留学比较| 精品日产1卡2卡| 久久这里只有精品中国| 国产大屁股一区二区在线视频| 99热只有精品国产| 成人欧美大片| 黄色视频,在线免费观看| 看免费成人av毛片| 午夜福利在线观看吧| 三级国产精品欧美在线观看| 热99re8久久精品国产| 精品久久久久久,| 在线播放国产精品三级| 国产精品国产三级国产av玫瑰| 日日摸夜夜添夜夜添小说| 听说在线观看完整版免费高清| 尾随美女入室| 少妇猛男粗大的猛烈进出视频 | 日本 欧美在线| 999久久久精品免费观看国产| 国产麻豆成人av免费视频| 国产一区二区三区av在线 | 性插视频无遮挡在线免费观看| 久久久午夜欧美精品| 亚洲人成网站高清观看| 欧美zozozo另类| 国产精品久久久久久亚洲av鲁大| 真实男女啪啪啪动态图| 亚洲欧美日韩卡通动漫| 波多野结衣高清无吗| 老女人水多毛片| 一夜夜www| 久久精品人妻少妇| av在线老鸭窝| 色播亚洲综合网| av在线观看视频网站免费| 亚洲欧美日韩高清在线视频| 国产精品久久久久久av不卡| 日韩精品青青久久久久久| 国产在线精品亚洲第一网站| 丝袜美腿在线中文| 97碰自拍视频| 精品一区二区三区av网在线观看| 欧美zozozo另类| 精品人妻1区二区| 国产又黄又爽又无遮挡在线| 亚洲av一区综合| 亚洲专区中文字幕在线| av黄色大香蕉| av视频在线观看入口| 国产av在哪里看| 99精品在免费线老司机午夜|