• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種高性能超長點(diǎn)數(shù)浮點(diǎn)FFT加速器設(shè)計(jì)

    2021-06-17 14:01:26吳鐵彬譚弘兵郝子宇李宏亮

    王 諦 石 嵩 吳鐵彬 劉 亮 譚弘兵 郝子宇 過 鋒 李宏亮

    (江南計(jì)算技術(shù)研究所 江蘇無錫 214083)

    (wangdi_csarch@126.com)

    離散傅里葉變換(discrete Fourier transform,DFT)作為時(shí)域和頻域轉(zhuǎn)換的基本運(yùn)算,在數(shù)字信號(hào)處理中占據(jù)核心地位[1],應(yīng)用領(lǐng)域十分廣泛.快速傅里葉變換[2](fast Fourier transform,FFT)是DFT的快速算法,FFT的提出促進(jìn)了數(shù)字信號(hào)處理的發(fā)展,被評(píng)選為20世紀(jì)科學(xué)和工程界最具影響力的十大算法之一[3].隨著高速采樣和實(shí)時(shí)信號(hào)處理技術(shù)的發(fā)展,高性能超長點(diǎn)數(shù)FFT的需求迅速增長[4].由于FFT的算法復(fù)雜度為O(NlgN),FFT和以FFT為基礎(chǔ)的各類時(shí)-頻變換算法的計(jì)算占比愈發(fā)凸顯.例如,在國際大科學(xué)工程——平方公里陣列(square kilometer array,SKA)射電望遠(yuǎn)鏡項(xiàng)目中,FFT的計(jì)算占比達(dá)40%[5].目前已有FFT計(jì)算架構(gòu)的最大吞吐率能達(dá)到100 GS/s量級(jí)[6],并且吞吐率需求以指數(shù)級(jí)速度增長,大概每5年增長10倍[7].

    數(shù)十年來發(fā)展出數(shù)字信號(hào)處理器(digital signal processor,DSP)、現(xiàn)場(chǎng)可編程門陣列(field programmable gate array,FPGA)和專用集成電路(application specific integrated circuit,ASIC)等多種數(shù)字信號(hào)處理平臺(tái).DSP具有強(qiáng)大的運(yùn)算能力和良好的可編程性,在滿足性能需求的條件下,DSP是構(gòu)建數(shù)字信號(hào)處理系統(tǒng)的首選器件.但受到指令串行執(zhí)行和處理器尋址模式的限制,傳統(tǒng)DSP的FFT運(yùn)算能力低于FPGA和ASIC實(shí)現(xiàn)[8].

    “通用核心+加速器”的結(jié)構(gòu)在獲得通用處理器可編程性和靈活性的同時(shí)又能提升特定應(yīng)用的性能與功耗效率,是未來處理器發(fā)展的重要方向.為了提高DSP的FFT處理能力,在DSP中集成FFT加速器成為必然選擇,已有大量理論研究[9]和實(shí)際產(chǎn)品[10]出現(xiàn).現(xiàn)有研究成果存在2點(diǎn)不足:1)與DSP核心相比,FFT加速器的峰值性能沒有體現(xiàn)出明顯優(yōu)勢(shì);2)對(duì)于超長點(diǎn)數(shù)FFT的支持能力有限.

    本文針對(duì)集成于DSP的FFT加速器開展研究工作.注意到將FFT的2維分解算法推廣到多維后,可以將每一維的點(diǎn)數(shù)控制在16個(gè)點(diǎn)以內(nèi),從而能用固定的小點(diǎn)數(shù)FFT實(shí)現(xiàn)幾乎任意長度的FFT,本文在此基礎(chǔ)上提出面向超長點(diǎn)數(shù)FFT的多維分解算法.針對(duì)FFT多維分解算法中的轉(zhuǎn)置和鉸鏈因子生成這2種核心運(yùn)算開展研究,提出了素?cái)?shù)體片上3維轉(zhuǎn)置存儲(chǔ)器結(jié)構(gòu)解決訪存帶寬利用率低的問題,提出了鉸鏈因子遞推生成算法解決坐標(biāo)旋轉(zhuǎn)數(shù)字計(jì)算機(jī)(coordinate rotational digital computer,CORDIC)算法迭代計(jì)算周期長的問題.最后,對(duì)每一維處理中的小點(diǎn)數(shù)FFT進(jìn)行了精細(xì)化電路設(shè)計(jì).本文設(shè)計(jì)的FFT加速器能夠?qū)崿F(xiàn)最長4G點(diǎn)數(shù)的單精度浮點(diǎn)FFT計(jì)算,運(yùn)行頻率能夠達(dá)到1 GHz以上,性能達(dá)到640 Gflop/s.在點(diǎn)數(shù)和性能方面都較已有研究成果取得大幅提升.

    1 相關(guān)研究

    經(jīng)過數(shù)十年的研究,FFT算法發(fā)展了許多種類.根據(jù)運(yùn)算形式的不同可以將FFT分為時(shí)間抽選(decimation in time,DIT)和頻率抽選(decimation in frequency,DIF).根據(jù)基本蝶形運(yùn)算單元的粒度則可以將FFT分為基2、基4、基8、基16、多基和素?cái)?shù)基等.與此同時(shí),大量的流水化和并行化FFT實(shí)現(xiàn)結(jié)構(gòu)也被提出,例如陣列并行結(jié)構(gòu)、單路延時(shí)置換(single-path delay commutator,SDC)結(jié)構(gòu)、單路延時(shí)反饋(single-path delay feedback,SDF)結(jié)構(gòu)、多路延時(shí)置換(multi-path delay commutator,MDC)結(jié)構(gòu)和多通路延時(shí)反饋(multi-path delay feedback,MDF)結(jié)構(gòu)等[9].

    許多研究針對(duì)基本運(yùn)算單元進(jìn)行精細(xì)化設(shè)計(jì).例如,采用基22算法[1],對(duì)偶序號(hào)使用基2算法,對(duì)奇序號(hào)使用基4算法,減少運(yùn)算量;采用不同實(shí)現(xiàn)方式的乘法器[11]獲得較小的開銷;以CORDIC算法為基礎(chǔ),將復(fù)數(shù)乘法與旋轉(zhuǎn)因子求值統(tǒng)一到一個(gè)迭代運(yùn)算中[12],減少蝶形運(yùn)算復(fù)雜度;通過運(yùn)算過程中的動(dòng)態(tài)位寬調(diào)整[13],減少資源開銷和功耗;采用二項(xiàng)融合點(diǎn)積(fused dot product,FDP)運(yùn)算和融合加-減(fused add-subtract,FAS)運(yùn)算[14],實(shí)現(xiàn)高效的浮點(diǎn)復(fù)數(shù)運(yùn)算.這些研究在小點(diǎn)數(shù)FFT計(jì)算中普遍取得明顯的優(yōu)勢(shì),然而,提升長點(diǎn)數(shù)FFT計(jì)算效率需要超出基本運(yùn)算單元的范疇進(jìn)行考慮.

    對(duì)于長點(diǎn)數(shù)FFT,計(jì)算的中間結(jié)果無法全部存儲(chǔ)在芯片內(nèi)部.Winograd傅里葉變換算法[15](Winograd Fourier transform algorithm,WFTA)利用旋轉(zhuǎn)因子特性對(duì)FFT進(jìn)行分解,使用規(guī)模較小的2維FFT模擬實(shí)現(xiàn)規(guī)模較大的一維FFT,是一種高效且資源占用相對(duì)較少的FFT實(shí)現(xiàn)方法.在處理器[16-17]和FPGA[4,18]上對(duì)長點(diǎn)數(shù)FFT的實(shí)現(xiàn)普遍采用了這種2維分解算法.

    長點(diǎn)數(shù)FFT加速器的研究大多在2維分解算法基礎(chǔ)上進(jìn)行改進(jìn).Yang等人[19]采用一種支持基2、基4、基8、基16可重構(gòu)運(yùn)算單元,實(shí)現(xiàn)FFT運(yùn)算中蝶形運(yùn)算單元的靈活配置,達(dá)到最佳的能效.Tang等人[20]提出一種基數(shù)靈活可配的MDF結(jié)構(gòu),適用于可變長度多路FFT.Chen等人[21]提出一種基于CORDIC算法的可重構(gòu)浮點(diǎn)FFT加速器結(jié)構(gòu),通過旋轉(zhuǎn)方向預(yù)測(cè)減少硬件開銷,通過旋轉(zhuǎn)角度的實(shí)時(shí)生成節(jié)省存儲(chǔ)需求.于東等人[22]在FFT處理器中將緩存劃分成32個(gè)體,通過對(duì)緩存的靈活調(diào)度實(shí)現(xiàn)“乒乓”操作,提高長點(diǎn)數(shù)FFT的運(yùn)算性能.雷元武等人[9]設(shè)計(jì)了一種基于矩陣轉(zhuǎn)置操作的可變長度FFT加速器結(jié)構(gòu),提出“乒乓”多體數(shù)據(jù)存儲(chǔ)器、基于基本塊的快速矩陣轉(zhuǎn)置算法、結(jié)合查表和基于CORDIC算法的混合旋轉(zhuǎn)因子產(chǎn)生策略等優(yōu)化方法.在這些研究中,運(yùn)算量的精簡、旋轉(zhuǎn)因子高效生成和提高存儲(chǔ)訪問效率始終是關(guān)注的重點(diǎn).

    2 算法分析

    2.1 FFT算法介紹

    N點(diǎn)序列{x0,x1,…,x n}的DFT定義為

    其中,k∈[0,N-1],旋轉(zhuǎn)因子

    Cooley-Tukey算法[2]是目前應(yīng)用最為廣泛的FFT算法.根據(jù)旋轉(zhuǎn)因子在計(jì)算過程中的位置分為DIT和DIF兩類.

    以基2 DIT算法為例進(jìn)行簡要說明[23].當(dāng)N為偶數(shù)時(shí),令x0,n=x2n,x1,n=x2n+1(0≤n≤N/2-1,n為整數(shù)).若X0,k=DFT(x0,n),X1,k=DFT(x1,n),(0≤k≤N/2-1,k為整數(shù)),則:

    式(2)表明:若將任何一偶數(shù)點(diǎn)序列按n的奇偶性分成2個(gè)子序列,則原序列的DFT可由2個(gè)子序列DFT的線性組合得到.

    按照式(1)直接進(jìn)行N點(diǎn)DFT計(jì)算,需要N2次復(fù)數(shù)乘法和N(N-1)次復(fù)數(shù)加法,而采用式(2)的蝶形運(yùn)算方法則只需(NlbN)/2次復(fù)數(shù)乘法和NlbN次復(fù)數(shù)加法.FFT算法極大縮減了DFT的運(yùn)算量.

    2.2 多維分解FFT算法

    觀察式(2)可以發(fā)現(xiàn),每一級(jí)蝶形運(yùn)算的輸入數(shù)據(jù)都是上一級(jí)蝶形運(yùn)算輸出數(shù)據(jù)混洗的結(jié)果.而且,隨著蝶形運(yùn)算級(jí)數(shù)的增加,混洗的范圍越來越大.這就導(dǎo)致,當(dāng)FFT的點(diǎn)數(shù)長到無法在加速器內(nèi)部一次性加載所有輸入數(shù)據(jù)的時(shí)候,將會(huì)產(chǎn)生大量的非連續(xù)訪存,這與半導(dǎo)體存儲(chǔ)器采用并行總線方式提高帶寬的機(jī)制不兼容.對(duì)于超長點(diǎn)數(shù)FFT運(yùn)算需要找到訪存連續(xù)性較好的算法.

    假設(shè)N=L×M,由式(1)得:

    其中,p∈[0,L-1],q∈[0,M-1].

    從式(3)可以看出,N點(diǎn)DFT分解為了2維.第1維是獨(dú)立的L組M點(diǎn)DFT(其結(jié)果需要乘以鉸鏈因子W lqN),第2維是獨(dú)立的M組L點(diǎn)DFT.所以,可以將長點(diǎn)數(shù)FFT轉(zhuǎn)化為小點(diǎn)數(shù)FFT的2維分解[4]:1)將N點(diǎn)的數(shù)據(jù)分解為L行M列的矩陣;2)對(duì)所有行分別做M點(diǎn)的FFT;3)將所有元素與各自的鉸鏈因子相乘;4)進(jìn)行矩陣轉(zhuǎn)置,得到M行L列的矩陣;5)對(duì)所有行分別做L點(diǎn)的FFT;6)再次進(jìn)行矩陣轉(zhuǎn)置,得到結(jié)果.

    將上述2維分解進(jìn)一步推廣.假設(shè)N=B d,由式(3)得:

    其中,n0,n1,…,n d-1∈[0,B-1];k0,k1,…,k d-1∈[0,B-1].根據(jù)式(4)可以得到基礎(chǔ)FFT點(diǎn)數(shù)為B的d維分解算法.

    算法1.FFT的多維分解算法.

    FFT_MD(d;x0,x1,…,x B d-1):/?遞歸定義,B點(diǎn)FFT作為基本運(yùn)算,參數(shù)d為維度?/

    算法1總共進(jìn)行d輪,每輪完成B d-1組B點(diǎn)FFT.每個(gè)元素讀、寫各d次,參與B點(diǎn)FFT運(yùn)算d次,乘鉸鏈因子d-1次.

    如果存儲(chǔ)器的訪問粒度為B個(gè)點(diǎn),則算法1中的訪存將是“按維連續(xù)”的.最基本的運(yùn)算單元就是B點(diǎn)FFT,每次運(yùn)算都是在相應(yīng)的維上連續(xù)的B個(gè)數(shù)據(jù)參與運(yùn)算.采用第3節(jié)中將要介紹的3維轉(zhuǎn)置存儲(chǔ)器則可以將“按維連續(xù)”的訪存轉(zhuǎn)換為連續(xù)訪存,從而解決了超長點(diǎn)數(shù)FFT運(yùn)算的訪存連續(xù)性問題.

    另外,在算法1中計(jì)算順序是按照第d維到第1維進(jìn)行的,計(jì)算第i維(1≤i≤d)的B d-1個(gè)B點(diǎn)FFT的過程是相互獨(dú)立的.當(dāng)其他維坐標(biāo)固定時(shí),第i維和第i-1維構(gòu)成一個(gè)B×B的矩陣.如果以這樣的矩陣為基本處理單元,則2維處理可以合并,讀、寫B(tài) d-2次B2個(gè)元素可以進(jìn)行B d-2×2B次B點(diǎn)FFT運(yùn)算.運(yùn)算次數(shù)不變的情況下,讀、寫次數(shù)還能減半.

    3 設(shè)計(jì)實(shí)現(xiàn)

    考慮到超長點(diǎn)數(shù)FFT的精度要求,本文選擇單精度浮點(diǎn)作為基本數(shù)據(jù)表示.在此基礎(chǔ)上,選擇16點(diǎn)FFT作為基本運(yùn)算.

    3.1 數(shù)據(jù)流處理

    從根本上說,FFT計(jì)算過程中需要以2的冪為步長交叉訪問數(shù)據(jù),這與存儲(chǔ)器的連續(xù)訪問機(jī)制不匹配,導(dǎo)致存儲(chǔ)帶寬利用率低,計(jì)算性能無法充分發(fā)揮.3維轉(zhuǎn)置運(yùn)算搭建了連續(xù)訪問數(shù)據(jù)與跨步交叉訪問數(shù)據(jù)之間的橋梁.在此基礎(chǔ)上,通過2維轉(zhuǎn)置實(shí)現(xiàn)算法1中2維處理的合并,進(jìn)一步減少訪存量.

    3.1.1 3維轉(zhuǎn)置運(yùn)算

    假設(shè)存儲(chǔ)器的訪問粒度為B個(gè)點(diǎn),則意味著FFT加速器每次必須按第1維的B個(gè)點(diǎn)進(jìn)行讀、寫.為了存儲(chǔ)一個(gè)第i維和第i-1維構(gòu)成的B×B矩陣,需要具備存儲(chǔ)B3個(gè)點(diǎn)的能力.因?yàn)?讀入B3個(gè)點(diǎn)才能同時(shí)得到B個(gè)完整的第i維和第i-1維構(gòu)成的B×B矩陣.此時(shí),如果能夠按照第i維或第i-1維同時(shí)將B個(gè)數(shù)據(jù)取出,則實(shí)現(xiàn)了無帶寬損失的3維轉(zhuǎn)置運(yùn)算.

    存儲(chǔ)器的訪問粒度按照16個(gè)點(diǎn)設(shè)計(jì),具備存儲(chǔ)163=4 096個(gè)點(diǎn)的能力,容量為32 KB,使用靜態(tài)隨機(jī)訪問存儲(chǔ)器(static random access memory,SRAM)實(shí)現(xiàn).SRAM無法進(jìn)行任意方向的讀寫,即便采用2維SRAM陣列[24](每個(gè)存儲(chǔ)單元變成了2個(gè)端口,增大了SRAM的面積)仍然難以實(shí)現(xiàn)3維轉(zhuǎn)置運(yùn)算.因此,本文采用基于SRAM的無沖突體編址技術(shù)實(shí)現(xiàn)3維轉(zhuǎn)置運(yùn)算.

    根據(jù)高慶獅等人[25]對(duì)素?cái)?shù)存儲(chǔ)系統(tǒng)的研究,對(duì)于跨步為2的冪的訪問,采用素?cái)?shù)個(gè)存儲(chǔ)體,即可消除存儲(chǔ)體訪問沖突.假設(shè)訪問地址為a,a+2r,a+2×2r,…,a+15×2r,采用17個(gè)存儲(chǔ)體.令2rmod 17=t,則各地址所在的體為amod 17,(a+t)mod 17,(a+2t)mod 17,…,(a+15t)mod 17.如果第i個(gè)地址和第j個(gè)地址落在同一個(gè)體,即(a+it)mod 17=(a+jt)mod 17,則(i-j)tmod 17=0,只有i=j(luò)等式才能成立.

    3維轉(zhuǎn)置運(yùn)算的存儲(chǔ)體可以存儲(chǔ)一個(gè)多維張量中按照某3維截取的一個(gè)立方體.由于采用17個(gè)體在跨步為2的冪訪問時(shí)不存在體沖突,可以并行讀入該立方體,并且對(duì)任意2維并行轉(zhuǎn)置讀出.作為轉(zhuǎn)置用存儲(chǔ)器,每個(gè)體需要存儲(chǔ)個(gè)點(diǎn),即每個(gè)體寬度為64 b(8 B)、深度為241.

    按照3維編址進(jìn)行分析.初始狀態(tài)下,第1組寫入地址為(0,0,0)~(0,0,15),第2組寫入地址為(0,1,0)~(0,1,15),依次類推,當(dāng)寫入地址為(15,15,0)~(15,15,15)時(shí),完成全部4 096個(gè)點(diǎn)的寫入.在完成地址(15,0,0)~(15,0,15)的寫入后,即可讀出轉(zhuǎn)置后的第1組地址(0,0,0)~(15,0,0).所以,當(dāng)4 096個(gè)點(diǎn)完全寫入時(shí),已讀出多組數(shù)據(jù),下一批4 096個(gè)點(diǎn)可以流水寫入.

    新的4 096個(gè)點(diǎn)第1組寫入地址為(0,0,0)~(15,0,0),第2組寫入地址為(0,1,0)~(15,1,0),依次類推,當(dāng)寫入地址為(0,15,15)~(15,15,15)時(shí),完成全部4 096個(gè)點(diǎn)的寫入.在完成地址(0,0,15)~(15,0,15)的寫入后,即可讀出轉(zhuǎn)置后的第1組地址(0,0,0)~(0,0,15).

    根據(jù)讀/寫的維序即可計(jì)算讀/寫操作下一拍的3維編址(z,y,x).

    根據(jù)3維編址得到體地址與體內(nèi)地址為

    并不需要對(duì)所有地址進(jìn)行計(jì)算,每次讀/寫的16個(gè)地址,只需要先計(jì)算出第1個(gè)所在的體地址和體內(nèi)地址,其余15個(gè)可以快速得到.另外,對(duì)于以2的冪加1為除數(shù)的除法和模運(yùn)算存在快速硬件實(shí)現(xiàn)方法[25].

    從式(5)所顯示的體地址規(guī)律可以看出,第1維和第3維都是連續(xù)循環(huán)遞增的,第2維是連續(xù)循環(huán)遞減的.無論是輸入數(shù)據(jù)還是輸出數(shù)據(jù),可以根據(jù)地址計(jì)算出移位位數(shù).分別對(duì)輸入/輸出的16個(gè)數(shù)據(jù)進(jìn)行順序和逆序排列之后移位,移位采用2級(jí)對(duì)數(shù)移位器.總體結(jié)構(gòu)如圖1所示:

    Fig.1 Structure of 3-dimensional transposition operation module圖1 3維轉(zhuǎn)置運(yùn)算模塊結(jié)構(gòu)

    3.1.2 2維轉(zhuǎn)置運(yùn)算

    2維轉(zhuǎn)置運(yùn)算采用行向輸入、列向輸出的存儲(chǔ)器陣列實(shí)現(xiàn).需要存儲(chǔ)162=256個(gè)點(diǎn),存儲(chǔ)容量為2 KB.芯片中容量較小的存儲(chǔ)器陣列可以采用觸發(fā)器、SRAM或鎖存器實(shí)現(xiàn).SRAM的面積和功耗開銷最小,但是由于2維轉(zhuǎn)置運(yùn)算對(duì)存儲(chǔ)器有特殊要求,需要按行寫入、按列讀出,標(biāo)準(zhǔn)SRAM不支持該功能,因此需要采用定制設(shè)計(jì)[24],開發(fā)周期長且不利于擴(kuò)展.觸發(fā)器的面積和功耗開銷最大.因此,選擇鎖存器作為基本存儲(chǔ)單元.2維轉(zhuǎn)置運(yùn)算的存儲(chǔ)器如圖2所示.

    通過2個(gè)這樣的鎖存器陣列來實(shí)現(xiàn)轉(zhuǎn)置處理的流水化,如圖3所示.讀選擇信號(hào)和寫選擇信號(hào)互為反相,根據(jù)讀、寫次數(shù)來進(jìn)行判斷.

    3.2 鉸鏈因子處理

    對(duì)FFT運(yùn)算點(diǎn)數(shù)的支持并不需要無限大,超出主存容量是沒有意義的.加速器按照最大支持4G點(diǎn)FFT設(shè)計(jì),則存儲(chǔ)容量需要32 GB,基本達(dá)到當(dāng)前內(nèi)存容量的極限.更長點(diǎn)數(shù)FFT則依賴于軟件方法實(shí)現(xiàn).

    Fig.2 Memory for two-dimensional transposition operation圖2 2維轉(zhuǎn)置運(yùn)算的存儲(chǔ)器

    Fig.3 Structure of 2-dimensional transposition operation module圖3 2維轉(zhuǎn)置運(yùn)算模塊結(jié)構(gòu)

    在許多研究中采用CORDIC算法生成鉸鏈因子,需要進(jìn)行十幾個(gè)甚至幾十個(gè)時(shí)鐘周期的流水化迭代處理.CORDIC算法可以生成任意角度的坐標(biāo)值,對(duì)于有限集合而言則過于強(qiáng)大.我們注意到,即便對(duì)于4G點(diǎn)FFT,也只需要根據(jù)算法1進(jìn)行8維分解,鉸鏈因子是一個(gè)有限集合,而且每一組鉸鏈因子與前一組鉸鏈因子存在遞推關(guān)系,因此,可以使用較為簡便的方法實(shí)現(xiàn)鉸鏈因子生成.

    假設(shè)數(shù)據(jù)組織為8維維序結(jié)構(gòu),以處理第4維鉸鏈因子為例.x n7,n6,n5,n4,n3,n2,n1,n0需要的鉸鏈因子為.由于同時(shí)處理n3=0~15,需要同時(shí)生成.在算法1中,處理的第1組點(diǎn)為鉸鏈因子均為處理的第2組點(diǎn)為鉸鏈因子分別為…;處理的第16組點(diǎn)為鉸鏈因子分別為;處理的第17組點(diǎn)為,鉸鏈因子分別為,依次類推.對(duì)于同時(shí)處理的16個(gè)鉸鏈因子中的第k個(gè),可以采用算法2遞推生成.

    算法2.鉸鏈因子生成算法.

    輸入:上一個(gè)鉸鏈因子Wpre、上一個(gè)計(jì)數(shù)值Cpre、鉸鏈因子的維度d;

    輸出:鉸鏈因子W、計(jì)數(shù)值C.

    初始狀態(tài)W=1,C=0;

    為了并行執(zhí)行,鉸鏈因子處理需要16個(gè)鉸鏈因子生成模塊和16個(gè)單精度浮點(diǎn)復(fù)數(shù)乘法器.維度控制邏輯根據(jù)FFT命令解析出當(dāng)前運(yùn)算的維度,發(fā)送給每個(gè)鉸鏈因子生成模塊.

    鉸鏈因子生成模塊結(jié)構(gòu)如圖4所示.控制邏輯根據(jù)處理的維度和計(jì)數(shù)值生成選擇信號(hào).寄存器0用于存儲(chǔ)當(dāng)前的鉸鏈因子,寄存器1用于存儲(chǔ)上一個(gè)計(jì)數(shù)值整除16時(shí)的鉸鏈因子.控制邏輯根據(jù)算法2實(shí)現(xiàn).基礎(chǔ)旋轉(zhuǎn)因子包括W k16,W k162,…,W k168為常數(shù),接入固定電平即可.

    Fig.4 Twiddle factor generation module圖4 鉸鏈因子生成模塊

    從算法2和圖4可以看出,鉸鏈因子生成的延遲與乘法運(yùn)算的延遲相同,較傳統(tǒng)的CORDIC算法有明顯優(yōu)勢(shì).但是,該方法也帶來了單精度浮點(diǎn)復(fù)數(shù)乘法器的額外開銷.

    3.3 基本運(yùn)算

    本文采用IEEE 754-2008標(biāo)準(zhǔn)[26]單精度浮點(diǎn)作為基本數(shù)據(jù)表示.以Swartzlander等人[14]提出的FDP運(yùn)算和FAS運(yùn)算作為基本的浮點(diǎn)運(yùn)算來構(gòu)造單精度浮點(diǎn)復(fù)數(shù)運(yùn)算.對(duì)于復(fù)數(shù)a=aRe+iaIm和b=bRe+ibIm,其乘積c=cRe+icIm=a×b=(aRe+iaIm)×(bRe+ibIm)=(aRebRe-aImbIm)+i(aRebIm+aImbRe).FDP實(shí)現(xiàn)4個(gè)單精度浮點(diǎn)數(shù)a0,a1,a2,a3的a0a1+a2a3運(yùn)算或a0a1-a2a3運(yùn)算.2個(gè)FDP(分別配置為加和減)則恰好能夠?qū)崿F(xiàn)一個(gè)復(fù)數(shù)乘法.FAS運(yùn)算同時(shí)完成蝶形運(yùn)算中的加法和減法運(yùn)算.

    16點(diǎn)FFT運(yùn)算采用基4 DIT算法實(shí)現(xiàn),總體結(jié)構(gòu)如圖5所示,包括3個(gè)混洗單元、8個(gè)4點(diǎn)蝶形運(yùn)算單元和8個(gè)旋轉(zhuǎn)因子乘法單元.

    Fig.5 Sixteen-point FFT operation module圖5 16點(diǎn)FFT運(yùn)算模塊

    混洗單元內(nèi)部只有連線,實(shí)現(xiàn)地址反序輸出,如圖6所示:

    Fig.6 Shuffle unit圖6 混洗單元

    4點(diǎn)蝶形運(yùn)算單元完成的運(yùn)算為

    采用圖7所示結(jié)構(gòu)實(shí)現(xiàn),其中,Re和Im分別表示一個(gè)復(fù)數(shù)的實(shí)部和虛部.

    Fig.7 Four-point butterfly unit圖7 4點(diǎn)蝶形運(yùn)算單元

    3.4 控制結(jié)構(gòu)

    FFT加速器總體結(jié)構(gòu)如圖8所示,包括命令隊(duì)列、讀/寫控制器、讀/寫緩沖、3維轉(zhuǎn)置存儲(chǔ)器、16點(diǎn)FFT運(yùn)算模塊、鉸鏈因子處理模塊和2維轉(zhuǎn)置存儲(chǔ)器等.

    Fig.8 Overall structure of FFT accelerator圖8 FFT加速器總體結(jié)構(gòu)

    命令隊(duì)列從DSP核心的指令流水線接收命令并進(jìn)行解析,生成各模塊控制信號(hào).讀/寫控制器根據(jù)命令隊(duì)列解析的地址對(duì)讀/寫緩沖和3維轉(zhuǎn)置存儲(chǔ)器進(jìn)行控制.讀/寫緩沖與存儲(chǔ)器交互,用于讀/寫數(shù)據(jù)的平滑.

    FFT加速器的執(zhí)行方式為:1)DSP核心通過寫特殊存儲(chǔ)空間或特殊寄存器方式對(duì)FFT加速器進(jìn)行配置,包括原始數(shù)據(jù)地址、計(jì)算結(jié)果地址、計(jì)算規(guī)模等;2)DSP核心發(fā)出異步FFT指令;3)FFT加速器從存儲(chǔ)器中讀取數(shù)據(jù)進(jìn)行FFT計(jì)算,并將計(jì)算結(jié)果寫入指定存儲(chǔ)器地址中;4)通過中斷或回答字機(jī)制返回FFT完成信號(hào)給DSP核心.

    整個(gè)FFT加速器通過命令隊(duì)列和讀/寫控制器進(jìn)行管理,工作流程為:1)DSP核心的指令流水線向命令隊(duì)列發(fā)出FFT指令;2)命令隊(duì)列對(duì)FFT指令進(jìn)行解析,解析出讀/寫命令;3)讀/寫控制器生成讀/寫地址,發(fā)送給讀/寫緩沖;4)讀緩沖從存儲(chǔ)器中讀數(shù)據(jù);5)讀緩沖將數(shù)據(jù)發(fā)送給輸入3維轉(zhuǎn)置存儲(chǔ)器;6)輸入3維轉(zhuǎn)置存儲(chǔ)器根據(jù)維序?qū)⑥D(zhuǎn)置后數(shù)據(jù)發(fā)送給16點(diǎn)FFT運(yùn)算模塊;7)FFT計(jì)算后結(jié)果經(jīng)過鉸鏈因子處理,送入2維轉(zhuǎn)置存儲(chǔ)器;8)2維轉(zhuǎn)置存儲(chǔ)器輸出送入另一個(gè)16點(diǎn)FFT運(yùn)算模塊;9)FFT計(jì)算后結(jié)果經(jīng)過鉸鏈因子處理,送入輸出3維轉(zhuǎn)置存儲(chǔ)器;10)輸出3維轉(zhuǎn)置存儲(chǔ)器根據(jù)維序?qū)⑥D(zhuǎn)置后數(shù)據(jù)發(fā)送給寫緩沖;11)寫緩沖根據(jù)寫地址將數(shù)據(jù)寫回存儲(chǔ)器.

    4 實(shí)驗(yàn)與分析

    4.1 綜合結(jié)果

    本文使用Verilog語言對(duì)FFT加速器進(jìn)行了完整實(shí)現(xiàn).其中,單精度浮點(diǎn)FDP和FAS都采用4級(jí)流水線設(shè)計(jì).

    使用物理信息相關(guān)的DCG綜合流程[27],對(duì)各模塊和整個(gè)FFT加速器采用TT Corner工藝進(jìn)行綜合,關(guān)鍵路徑延時(shí)為954 ps(運(yùn)行頻率能夠達(dá)到1 GHz以上),面積為462 100μm2,功耗為1 210 m W.FFT總體及各模塊綜合結(jié)果如表1所示.

    表1中同時(shí)列出了一個(gè)4級(jí)流水的單精度浮點(diǎn)融合乘加(fused multiply-add,FMA)部件的綜合結(jié)果作為對(duì)比.可以看出,整個(gè)FFT加速器的面積大致相當(dāng)于500個(gè)單精度浮點(diǎn)FMA部件.本文提出的加速器結(jié)構(gòu)中,4點(diǎn)蝶形運(yùn)算含有8個(gè)FAS,16點(diǎn)FFT運(yùn)算含有8個(gè)4點(diǎn)蝶形運(yùn)算和8個(gè)旋轉(zhuǎn)因子乘法,鉸鏈因子處理中含有32個(gè)復(fù)數(shù)乘法器.可以看出,各子部件單獨(dú)綜合結(jié)果與總體綜合結(jié)果基本吻合.3維轉(zhuǎn)置存儲(chǔ)器中使用的每個(gè)SRAM存儲(chǔ)器的面積為2 500μm2,SRAM的總面積為34×2 500μm2=85 000μm2,占整個(gè)FFT加速器的18.39%.

    Table 1 Synthesis Result表1 綜合結(jié)果

    本文還對(duì)FFT加速器進(jìn)行了FPGA實(shí)現(xiàn),其中,器件型號(hào)為XCVU440-FLGA2892.時(shí)鐘頻率可以達(dá)到136.6 MHz,資源消耗情況如表2所示,占用了177 875個(gè)REG、657 790個(gè)LUT和34個(gè)Block RAM.從綜合結(jié)果來看,本文設(shè)計(jì)的FFT加速器具有較強(qiáng)的可實(shí)現(xiàn)性.

    Table 2 FPGA Resources Consumption of Realization表2 FPGA實(shí)現(xiàn)資源消耗

    4.2 比較與分析

    4.2.1 性能與開銷

    以基2 DIT算法作為性能計(jì)算的標(biāo)準(zhǔn),一個(gè)蝶形運(yùn)算及其完成的基本操作需要4個(gè)乘法操作和6個(gè)加/減法操作,共10個(gè)操作[9].對(duì)于N點(diǎn)FFT,總共需要0.5NlbN個(gè)蝶形運(yùn)算,所以總的計(jì)算量為5NlbN個(gè)操作.

    根據(jù)綜合結(jié)果,本文設(shè)計(jì)的FFT加速器可以運(yùn)行在1 GHz,內(nèi)部包含2個(gè)16點(diǎn)FFT運(yùn)算模塊,性能能夠達(dá)到2×5×16×(lb16)flop×1 GHz=640 Gflop/s.

    Table 3 Performance Comparison of FFT Accelerator表3 FFT加速器性能與開銷對(duì)比

    表3中對(duì)比了若干種長點(diǎn)數(shù)FFT加速器的性能和開銷.可以看出,采用綜合實(shí)現(xiàn)方式,本文提出的FFT加速器與現(xiàn)有研究中的浮點(diǎn)FFT加速器相比,能夠取得1~2個(gè)數(shù)量級(jí)的性能提升.在與現(xiàn)有研究中的定點(diǎn)FFT加速器比較時(shí),性能上也有優(yōu)勢(shì).得益于多維分解算法的使用,本文將單維處理點(diǎn)數(shù)固定為16,從而可以高密度集成16點(diǎn)FFT運(yùn)算部件.同樣得益于多維分解算法的使用,本文設(shè)計(jì)的FFT加速器能夠支持到4G個(gè)點(diǎn),遠(yuǎn)遠(yuǎn)超過其他實(shí)現(xiàn)方法.

    由于不同研究者采用的工藝或FPGA型號(hào)不同,難以給出一個(gè)統(tǒng)一的開銷標(biāo)準(zhǔn).我們既給出了綜合結(jié)果,也給出了FPGA實(shí)現(xiàn)結(jié)果,便于進(jìn)行開銷對(duì)比.與其他綜合實(shí)現(xiàn)的研究相比,本文設(shè)計(jì)的FFT加速器的面積和功耗開銷較高,但是性能面積比和性能功耗比都具有優(yōu)勢(shì).

    4.2.2 存儲(chǔ)帶寬

    假設(shè)FFT加速器的計(jì)算性能為Pcom,基本處理點(diǎn)數(shù)為M(對(duì)于本文設(shè)計(jì)的FFT加速器Pcom=640Gflop/s,M=162=256).對(duì)于N點(diǎn)FFT(N>M,存儲(chǔ)器中能夠容納N個(gè)點(diǎn)數(shù)據(jù)),計(jì)算量Acom=5NlbNflop,訪存量Amem=16N(lbN/lbM)B.存儲(chǔ)器帶寬Bmem需滿足:

    所以,本文設(shè)計(jì)的FFT加速器,需要的存儲(chǔ)器帶寬為0.4×640 GB/s=256 GB/s.對(duì)于使用DDR存儲(chǔ)器的高端處理器,這個(gè)帶寬是可以滿足的.對(duì)于使用GDDR和HBM存儲(chǔ)器的處理器,存儲(chǔ)帶寬更高.

    對(duì)于主存帶寬受限的情況(以128 GB/s為例),則可以通過設(shè)置緩存的方式來達(dá)到對(duì)計(jì)算能力的支持.緩存的帶寬需要滿足256 GB/s(對(duì)于片上SRAM是容易實(shí)現(xiàn)的),緩存能夠容納的點(diǎn)數(shù)M?可以視作主存視角的基本處理點(diǎn)數(shù).則lbM?≥(3.2×640)/128=16,M?≥216,即緩存容量需要達(dá)到512 KB,對(duì)于處理器而言也是容易實(shí)現(xiàn)的.

    對(duì)于主存帶寬較低的情況(以32 GB/s為例,假設(shè)片上緩存容量為2 MB),點(diǎn)數(shù)小于256 K時(shí)能夠達(dá)到峰值計(jì)算性能,點(diǎn)數(shù)大于256 K時(shí)的計(jì)算性能

    4.2.3 計(jì)算效率

    本文設(shè)計(jì)的FFT加速器以256點(diǎn)為基本處理單位,當(dāng)計(jì)算的總點(diǎn)數(shù)為256的冪時(shí),性能可以得到充分發(fā)揮,其他情況下計(jì)算效率難以達(dá)到100%.

    對(duì)256點(diǎn)到4G點(diǎn)FFT的計(jì)算效率進(jìn)行模擬測(cè)試,結(jié)果如圖9所示.可以看出,對(duì)于點(diǎn)數(shù)不是256冪的情況,點(diǎn)數(shù)較小時(shí)計(jì)算效率降幅較大,而點(diǎn)數(shù)較大時(shí)計(jì)算效率降幅則較小.這是由于,當(dāng)點(diǎn)數(shù)較大時(shí),在大部分情況下都能選擇出完整的2個(gè)維度進(jìn)行FFT計(jì)算.

    Fig.9 Computing efficiency of FFT accelerator圖9 FFT加速器的計(jì)算效率

    在本文設(shè)計(jì)的FFT加速器中提高小點(diǎn)數(shù)FFT的計(jì)算效率仍然需要進(jìn)一步探索.

    5 總 結(jié)

    本文提出一種可集成于DSP的高性能超長點(diǎn)數(shù)FFT加速器結(jié)構(gòu).通過基于素?cái)?shù)體的片上3維轉(zhuǎn)置存儲(chǔ)器、高效鉸鏈因子生成技術(shù)和精細(xì)化FFT運(yùn)算電路設(shè)計(jì),實(shí)現(xiàn)了超長點(diǎn)數(shù)FFT的多維分解算法.對(duì)于4G以內(nèi)點(diǎn)數(shù)的單精度浮點(diǎn)FFT計(jì)算,能夠達(dá)到640 Gflop/s的性能,大幅提升了FFT加速器的性能和支持的點(diǎn)數(shù).

    国产精品国产av在线观看| 七月丁香在线播放| 国产黄片视频在线免费观看| 免费黄色在线免费观看| 久久久久久人妻| 80岁老熟妇乱子伦牲交| 一级毛片黄色毛片免费观看视频| 最近最新中文字幕免费大全7| av国产精品久久久久影院| 欧美xxxx性猛交bbbb| 丝袜喷水一区| 高清午夜精品一区二区三区| 免费不卡的大黄色大毛片视频在线观看| 男男h啪啪无遮挡| 婷婷色av中文字幕| 亚洲性久久影院| 22中文网久久字幕| 日韩中文字幕视频在线看片| 亚洲av免费高清在线观看| 国产在线一区二区三区精| 91精品三级在线观看| 永久免费av网站大全| 久久久久久伊人网av| 久久 成人 亚洲| 丰满饥渴人妻一区二区三| 欧美变态另类bdsm刘玥| 亚洲精品自拍成人| 欧美另类一区| 久久99热6这里只有精品| 考比视频在线观看| 国产精品国产三级专区第一集| 色哟哟·www| 国产老妇伦熟女老妇高清| 精品亚洲成国产av| 日本黄大片高清| 亚洲精品乱久久久久久| 在线 av 中文字幕| 日本欧美视频一区| 寂寞人妻少妇视频99o| 十分钟在线观看高清视频www| 亚洲成人手机| 午夜影院在线不卡| 美女大奶头黄色视频| 777米奇影视久久| 久久国内精品自在自线图片| 日本欧美视频一区| 亚洲av中文av极速乱| 九色成人免费人妻av| 男男h啪啪无遮挡| 秋霞在线观看毛片| 熟女人妻精品中文字幕| 国产男人的电影天堂91| 大码成人一级视频| 97在线视频观看| 18禁在线播放成人免费| 91精品国产国语对白视频| 高清欧美精品videossex| 午夜激情福利司机影院| 亚洲精品国产av蜜桃| 久久久久久久久久人人人人人人| 不卡视频在线观看欧美| 99久久综合免费| 99九九在线精品视频| 另类精品久久| 国产成人精品福利久久| 国产精品蜜桃在线观看| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 久久久久久久精品精品| 丝瓜视频免费看黄片| 欧美+日韩+精品| av播播在线观看一区| 在线观看美女被高潮喷水网站| 日本黄色片子视频| 亚洲经典国产精华液单| 国产精品人妻久久久影院| 99久久精品国产国产毛片| 国产日韩欧美在线精品| 亚洲一区二区三区欧美精品| 国产高清有码在线观看视频| 91成人精品电影| 国产熟女欧美一区二区| 日韩av免费高清视频| a级毛片黄视频| 一级毛片aaaaaa免费看小| 成人毛片a级毛片在线播放| 亚洲内射少妇av| 亚洲精品日本国产第一区| 国产成人精品一,二区| 三级国产精品欧美在线观看| 国产日韩一区二区三区精品不卡 | 亚洲成人av在线免费| 国产伦精品一区二区三区视频9| 毛片一级片免费看久久久久| 乱人伦中国视频| .国产精品久久| av免费在线看不卡| 最近2019中文字幕mv第一页| 高清视频免费观看一区二区| 少妇人妻久久综合中文| 亚洲国产色片| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 午夜福利视频在线观看免费| 久久人妻熟女aⅴ| 又粗又硬又长又爽又黄的视频| 久久久久网色| 亚洲久久久国产精品| 3wmmmm亚洲av在线观看| 王馨瑶露胸无遮挡在线观看| 久久精品熟女亚洲av麻豆精品| 欧美精品人与动牲交sv欧美| 视频中文字幕在线观看| 在线观看人妻少妇| 日韩人妻高清精品专区| 国产精品一区二区在线不卡| 蜜桃国产av成人99| 免费高清在线观看日韩| 99热6这里只有精品| 人妻 亚洲 视频| 汤姆久久久久久久影院中文字幕| 99久久综合免费| 少妇精品久久久久久久| 久久久午夜欧美精品| 中国国产av一级| 国产69精品久久久久777片| 国产欧美亚洲国产| 国产一区二区在线观看av| 午夜91福利影院| 欧美精品高潮呻吟av久久| 高清黄色对白视频在线免费看| 日韩av免费高清视频| 国产精品国产三级国产专区5o| 欧美激情国产日韩精品一区| 免费不卡的大黄色大毛片视频在线观看| a 毛片基地| 国产精品不卡视频一区二区| 国产熟女午夜一区二区三区 | 精品熟女少妇av免费看| 久久影院123| 午夜精品国产一区二区电影| 久久人妻熟女aⅴ| 精品一区在线观看国产| 高清毛片免费看| 日本免费在线观看一区| 男女高潮啪啪啪动态图| 国产69精品久久久久777片| 国产精品人妻久久久久久| 满18在线观看网站| 国产欧美另类精品又又久久亚洲欧美| 一级二级三级毛片免费看| 人妻少妇偷人精品九色| 一级爰片在线观看| 性高湖久久久久久久久免费观看| 日韩人妻高清精品专区| 天天躁夜夜躁狠狠久久av| 亚洲美女黄色视频免费看| 亚洲综合色惰| a级毛片免费高清观看在线播放| 日日摸夜夜添夜夜爱| 国产精品一区www在线观看| 国产欧美日韩一区二区三区在线 | 五月玫瑰六月丁香| 综合色丁香网| 精品人妻熟女av久视频| 99热这里只有精品一区| 99久久精品一区二区三区| 最近中文字幕2019免费版| av播播在线观看一区| 亚洲精品久久午夜乱码| 黄色欧美视频在线观看| 观看av在线不卡| 一本久久精品| 国产不卡av网站在线观看| 久久精品国产自在天天线| 91久久精品国产一区二区成人| 熟女人妻精品中文字幕| 黄色一级大片看看| 多毛熟女@视频| 91精品国产九色| 久热这里只有精品99| 久久99一区二区三区| 一级片'在线观看视频| 男男h啪啪无遮挡| 日本欧美视频一区| 69精品国产乱码久久久| 亚洲国产色片| 看十八女毛片水多多多| 国产片内射在线| 99热这里只有精品一区| 一级,二级,三级黄色视频| 亚洲,一卡二卡三卡| 欧美精品高潮呻吟av久久| 免费人妻精品一区二区三区视频| 亚洲av免费高清在线观看| 国产伦理片在线播放av一区| 亚州av有码| 午夜激情福利司机影院| 人人妻人人澡人人爽人人夜夜| 一级片'在线观看视频| 成人二区视频| 大话2 男鬼变身卡| 卡戴珊不雅视频在线播放| 日本欧美视频一区| 日韩不卡一区二区三区视频在线| 中文字幕亚洲精品专区| 五月开心婷婷网| 久久人人爽人人爽人人片va| 欧美成人精品欧美一级黄| 午夜福利在线观看免费完整高清在| 久久ye,这里只有精品| 亚洲不卡免费看| 亚洲av欧美aⅴ国产| 国精品久久久久久国模美| 91成人精品电影| 超色免费av| 亚洲高清免费不卡视频| 午夜免费男女啪啪视频观看| 国产欧美另类精品又又久久亚洲欧美| 亚洲人成网站在线播| 欧美精品人与动牲交sv欧美| 欧美日韩国产mv在线观看视频| av视频免费观看在线观看| 草草在线视频免费看| 欧美精品亚洲一区二区| 高清午夜精品一区二区三区| 久久 成人 亚洲| 午夜免费观看性视频| 日韩精品有码人妻一区| 亚洲五月色婷婷综合| 亚洲经典国产精华液单| 国产高清国产精品国产三级| 免费少妇av软件| 婷婷色综合大香蕉| 国产精品99久久99久久久不卡 | 亚洲婷婷狠狠爱综合网| 蜜桃在线观看..| 日本vs欧美在线观看视频| 麻豆精品久久久久久蜜桃| 国产精品久久久久久久电影| 国产高清有码在线观看视频| 国产午夜精品一二区理论片| 各种免费的搞黄视频| 久久久精品区二区三区| 母亲3免费完整高清在线观看 | 搡女人真爽免费视频火全软件| 熟女人妻精品中文字幕| 老司机影院毛片| 久久午夜综合久久蜜桃| 精品视频人人做人人爽| 亚洲av男天堂| 999精品在线视频| 人妻夜夜爽99麻豆av| 亚洲av综合色区一区| 国产有黄有色有爽视频| 国精品久久久久久国模美| 久久久精品免费免费高清| 亚洲欧洲国产日韩| 麻豆乱淫一区二区| 欧美精品一区二区大全| 人人妻人人添人人爽欧美一区卜| 欧美日韩亚洲高清精品| 久久精品人人爽人人爽视色| 免费播放大片免费观看视频在线观看| 一本久久精品| 久久精品国产a三级三级三级| 久久女婷五月综合色啪小说| 日韩av免费高清视频| 一级黄片播放器| 免费大片黄手机在线观看| 国产 一区精品| 国产精品免费大片| 色婷婷久久久亚洲欧美| 久久av网站| 久久久久久久久久久久大奶| 啦啦啦在线观看免费高清www| 美女福利国产在线| 99热这里只有精品一区| 久久鲁丝午夜福利片| 人人妻人人澡人人看| 欧美日韩国产mv在线观看视频| 蜜桃久久精品国产亚洲av| 国产精品一区二区在线观看99| 草草在线视频免费看| 好男人视频免费观看在线| 久久久久久人妻| 国产精品.久久久| 美女国产视频在线观看| av在线播放精品| 99热这里只有精品一区| 国产一区二区三区综合在线观看 | 少妇被粗大猛烈的视频| 国产免费一区二区三区四区乱码| 国产精品熟女久久久久浪| 特大巨黑吊av在线直播| 十八禁网站网址无遮挡| 精品久久久久久电影网| av卡一久久| 亚洲av在线观看美女高潮| 性高湖久久久久久久久免费观看| 国产 一区精品| 日本爱情动作片www.在线观看| 免费看av在线观看网站| 亚洲精品美女久久av网站| 国产极品粉嫩免费观看在线 | 美女视频免费永久观看网站| 国产精品一区二区在线观看99| 国产国语露脸激情在线看| 好男人视频免费观看在线| 狂野欧美白嫩少妇大欣赏| 亚洲丝袜综合中文字幕| 日韩中文字幕视频在线看片| 国产一区有黄有色的免费视频| 国产伦精品一区二区三区视频9| 丝袜在线中文字幕| 午夜av观看不卡| 人妻少妇偷人精品九色| av网站免费在线观看视频| 人妻人人澡人人爽人人| 国产熟女欧美一区二区| 一本大道久久a久久精品| 亚洲av二区三区四区| 青春草亚洲视频在线观看| 久久狼人影院| 高清av免费在线| 亚洲国产毛片av蜜桃av| 色吧在线观看| av黄色大香蕉| 成人国语在线视频| av在线老鸭窝| 大码成人一级视频| 国产免费又黄又爽又色| 亚洲国产欧美在线一区| 国产一区有黄有色的免费视频| 亚洲国产精品专区欧美| 国产日韩欧美亚洲二区| 亚洲一级一片aⅴ在线观看| 亚洲国产精品国产精品| 七月丁香在线播放| av在线老鸭窝| 欧美精品国产亚洲| 亚洲三级黄色毛片| 男女边吃奶边做爰视频| 久久毛片免费看一区二区三区| 精品久久国产蜜桃| 一区二区日韩欧美中文字幕 | 成人影院久久| 日日摸夜夜添夜夜添av毛片| 美女xxoo啪啪120秒动态图| 80岁老熟妇乱子伦牲交| 欧美另类一区| 日韩成人伦理影院| 免费大片18禁| 国产午夜精品一二区理论片| 在线观看国产h片| 赤兔流量卡办理| 有码 亚洲区| 亚洲第一av免费看| 日本猛色少妇xxxxx猛交久久| 亚洲欧美色中文字幕在线| 亚洲av男天堂| 午夜影院在线不卡| 日本猛色少妇xxxxx猛交久久| 精品一区二区三卡| 欧美少妇被猛烈插入视频| 在线观看免费视频网站a站| 一级片'在线观看视频| 黄色欧美视频在线观看| √禁漫天堂资源中文www| 欧美97在线视频| 亚洲av福利一区| 男人添女人高潮全过程视频| 一级片'在线观看视频| 男人添女人高潮全过程视频| 2018国产大陆天天弄谢| 两个人免费观看高清视频| 多毛熟女@视频| av专区在线播放| 色哟哟·www| h视频一区二区三区| 高清av免费在线| 青春草视频在线免费观看| 亚洲国产欧美在线一区| 成年女人在线观看亚洲视频| 国产国拍精品亚洲av在线观看| 久久狼人影院| 欧美国产精品一级二级三级| 18+在线观看网站| 91久久精品国产一区二区三区| 国产午夜精品一二区理论片| 人人澡人人妻人| 国产成人一区二区在线| 午夜免费鲁丝| 女人久久www免费人成看片| 高清不卡的av网站| 成人亚洲欧美一区二区av| videossex国产| 插逼视频在线观看| 日本欧美国产在线视频| 男女啪啪激烈高潮av片| 免费看av在线观看网站| 精品国产乱码久久久久久小说| 中文字幕制服av| 精品国产乱码久久久久久小说| 国产欧美日韩一区二区三区在线 | 午夜影院在线不卡| 欧美国产精品一级二级三级| 国产成人一区二区在线| 啦啦啦视频在线资源免费观看| 女人久久www免费人成看片| 男男h啪啪无遮挡| 久久久久久久久久人人人人人人| 国产精品嫩草影院av在线观看| 我的老师免费观看完整版| 九色亚洲精品在线播放| av播播在线观看一区| 飞空精品影院首页| 极品人妻少妇av视频| 十八禁高潮呻吟视频| 亚洲精品久久午夜乱码| 日韩,欧美,国产一区二区三区| 日本爱情动作片www.在线观看| 国产精品一区二区三区四区免费观看| 精品久久久精品久久久| 午夜福利网站1000一区二区三区| 99热6这里只有精品| 国产午夜精品久久久久久一区二区三区| 妹子高潮喷水视频| 亚洲欧洲国产日韩| 少妇精品久久久久久久| 国产男人的电影天堂91| 国产又色又爽无遮挡免| av国产精品久久久久影院| 成人免费观看视频高清| 亚洲国产最新在线播放| 两个人的视频大全免费| 99热6这里只有精品| 亚洲熟女精品中文字幕| 国产深夜福利视频在线观看| 亚洲国产欧美在线一区| 91精品一卡2卡3卡4卡| 免费大片18禁| 两个人的视频大全免费| 亚洲国产色片| 国产午夜精品久久久久久一区二区三区| 在线亚洲精品国产二区图片欧美 | 日韩电影二区| 青春草亚洲视频在线观看| 成年人免费黄色播放视频| 美女内射精品一级片tv| 亚洲欧美一区二区三区黑人 | 免费久久久久久久精品成人欧美视频 | 能在线免费看毛片的网站| 亚洲国产日韩一区二区| 国产精品国产三级国产av玫瑰| 亚洲美女搞黄在线观看| 日本色播在线视频| 久久久精品区二区三区| 日韩人妻高清精品专区| 狂野欧美激情性bbbbbb| 国产永久视频网站| 亚洲人与动物交配视频| a级毛片在线看网站| av女优亚洲男人天堂| 免费观看在线日韩| 亚洲国产精品成人久久小说| 免费高清在线观看视频在线观看| 纯流量卡能插随身wifi吗| 亚洲精品自拍成人| 九色亚洲精品在线播放| 亚洲精品日韩av片在线观看| 乱人伦中国视频| 国产成人精品婷婷| 在线播放无遮挡| 黄片播放在线免费| 久久亚洲国产成人精品v| 国产男女内射视频| 99国产精品免费福利视频| 最近中文字幕高清免费大全6| 国产伦理片在线播放av一区| 搡老乐熟女国产| 日韩,欧美,国产一区二区三区| 一级毛片我不卡| 成人毛片a级毛片在线播放| 99热这里只有是精品在线观看| 五月伊人婷婷丁香| 国产成人精品一,二区| 久久午夜综合久久蜜桃| 国产精品一区二区三区四区免费观看| 日本欧美国产在线视频| 街头女战士在线观看网站| 久久精品国产a三级三级三级| 啦啦啦在线观看免费高清www| 久久亚洲国产成人精品v| 国产成人a∨麻豆精品| 人妻夜夜爽99麻豆av| 欧美xxxx性猛交bbbb| 国产熟女午夜一区二区三区 | 2018国产大陆天天弄谢| 91精品三级在线观看| 日韩欧美精品免费久久| 日韩av在线免费看完整版不卡| 91精品国产九色| 又大又黄又爽视频免费| 亚洲人成网站在线播| 亚洲经典国产精华液单| av播播在线观看一区| 午夜激情av网站| 一级毛片黄色毛片免费观看视频| 91在线精品国自产拍蜜月| 十八禁网站网址无遮挡| 美女福利国产在线| 欧美三级亚洲精品| 99久久综合免费| 国产熟女欧美一区二区| 日本欧美国产在线视频| 精品人妻偷拍中文字幕| 老司机影院成人| 人成视频在线观看免费观看| 少妇人妻精品综合一区二区| 国产午夜精品久久久久久一区二区三区| 国产精品蜜桃在线观看| 少妇丰满av| 国产亚洲av片在线观看秒播厂| av又黄又爽大尺度在线免费看| 大又大粗又爽又黄少妇毛片口| 高清av免费在线| 久热这里只有精品99| 亚洲av福利一区| 新久久久久国产一级毛片| 精品久久蜜臀av无| 午夜视频国产福利| a级毛片免费高清观看在线播放| 久久亚洲国产成人精品v| 久久久久久久精品精品| 亚洲国产日韩一区二区| 久久国产亚洲av麻豆专区| videosex国产| av电影中文网址| 夜夜看夜夜爽夜夜摸| 国产在视频线精品| 成人毛片a级毛片在线播放| 王馨瑶露胸无遮挡在线观看| 全区人妻精品视频| 国产精品一区www在线观看| 视频在线观看一区二区三区| 国产无遮挡羞羞视频在线观看| 欧美人与性动交α欧美精品济南到 | 国产精品99久久99久久久不卡 | av国产精品久久久久影院| 成人免费观看视频高清| 午夜免费鲁丝| 欧美最新免费一区二区三区| 国产精品嫩草影院av在线观看| 22中文网久久字幕| 人妻系列 视频| 欧美日韩视频精品一区| 国产乱人偷精品视频| 久久久国产一区二区| 国产精品国产av在线观看| 国产综合精华液| 亚洲人成77777在线视频| av国产久精品久网站免费入址| 成人亚洲欧美一区二区av| 国产老妇伦熟女老妇高清| 国产精品国产三级专区第一集| 丝袜在线中文字幕| 精品一区二区免费观看| 国产高清三级在线| 一级a做视频免费观看| 欧美激情 高清一区二区三区| av在线播放精品| 狠狠婷婷综合久久久久久88av| 水蜜桃什么品种好| 亚洲天堂av无毛| 国产乱人偷精品视频| 午夜av观看不卡| 一边摸一边做爽爽视频免费| 如日韩欧美国产精品一区二区三区 | 亚洲不卡免费看| 久久久久视频综合| a级片在线免费高清观看视频| 日日摸夜夜添夜夜爱| 99国产综合亚洲精品| 国产精品一区www在线观看| 大香蕉久久成人网| 伊人久久国产一区二区| 中文精品一卡2卡3卡4更新| 蜜桃在线观看..| 在线观看免费高清a一片| 女性生殖器流出的白浆| 国语对白做爰xxxⅹ性视频网站| 肉色欧美久久久久久久蜜桃| av女优亚洲男人天堂| 91aial.com中文字幕在线观看| 成年av动漫网址| 又粗又硬又长又爽又黄的视频| 97超碰精品成人国产| 国产成人免费无遮挡视频| 亚洲欧美一区二区三区黑人 | 街头女战士在线观看网站| 如何舔出高潮| 亚洲欧美成人综合另类久久久| 国产精品麻豆人妻色哟哟久久| 日韩强制内射视频| 岛国毛片在线播放| 一本一本综合久久| 国产一区二区三区av在线| 高清在线视频一区二区三区| 久久人人爽人人爽人人片va| 久久久精品免费免费高清| 久久人人爽av亚洲精品天堂| 成人亚洲精品一区在线观看| 午夜激情av网站| 哪个播放器可以免费观看大片| 久久久a久久爽久久v久久| 美女xxoo啪啪120秒动态图|