摘要:根據(jù)YHFT-DX移位分支部件的功能特點(diǎn)和性能要求,提出了一種結(jié)構(gòu)劃分與實(shí)現(xiàn)策略,確定了移位分支部件的關(guān)鍵路徑及相應(yīng)設(shè)計(jì)方法.對(duì)于時(shí)序緊張的定點(diǎn)算術(shù)操作模塊、移位操作模塊采用手工半定制設(shè)計(jì)優(yōu)化.時(shí)序驗(yàn)證與分析表明:移位分支部件時(shí)序優(yōu)化了6.86%,面積減少了10.64%,達(dá)到了主頻1.0 GHz的設(shè)計(jì)目標(biāo).
關(guān)鍵詞:移位分支部件;手工半定制;算術(shù)操作模塊;移位操作模塊
中圖分類號(hào):TP332 文獻(xiàn)標(biāo)識(shí)碼:A
The Design and Optimization of BSU in YHFT-DX
CHEN Ji-hua, SHEN Zhi-chun, LI Zhen-tao, CHEN Xiao-chun
( College of Computer, National Univ of Defense Technology, Changsha, Hunan 410073, China)
Abstract: Based on the features and performance requirements of BSU (Branch Shifting arithmetic logic Unit) in YHFT-DX, a new structure partition and a strategy of implementation were proposed, and the critical path and the corresponding design method were determined. The arithmetic operation module and shift operation module with tension timing were designed and optimized by hand semi-custom design method. Timing verification and analysis show that the timing is optimized for 6.86%, the area is decreased by 10.64%, and the frequency (1.0 GHz) is achieved.
Key words: BSU; manual semi-custom; arithmetic operation module; shift operation module
目前芯片的設(shè)計(jì)方法主要分為兩種,一種是半定制設(shè)計(jì)方法,另一種是全定制設(shè)計(jì)方法.半定制設(shè)計(jì)方法是利用EDA工具進(jìn)行綜合及物理設(shè)計(jì)的過程,其優(yōu)點(diǎn)是自動(dòng)化程度高、設(shè)計(jì)周期短、設(shè)計(jì)成本低,缺點(diǎn)是設(shè)計(jì)性能較低;全定制設(shè)計(jì)是對(duì)集成電路中所有的各個(gè)模塊采用手工方式進(jìn)行精細(xì)優(yōu)化的設(shè)計(jì)方法,其優(yōu)點(diǎn)是設(shè)計(jì)性能高、面積小,缺點(diǎn)是設(shè)計(jì)周期長(zhǎng)、成本高.
移位分支部件是YHFT-DX處理器中的關(guān)鍵部件,采用半定制設(shè)計(jì)方法不能達(dá)到設(shè)計(jì)目標(biāo),而采用全定制設(shè)計(jì)方法會(huì)延長(zhǎng)設(shè)計(jì)周期.本文針對(duì)YHFT-DX移位分支部件的特點(diǎn)和性能要求,提出了一種結(jié)構(gòu)劃分方式和手工半定制設(shè)計(jì)方法.手工半定制設(shè)計(jì)方法是針對(duì)全定制和半定制而言,采取了取長(zhǎng)補(bǔ)短的策略,即比半定制設(shè)計(jì)方法采用更多的人工干預(yù),比全定制設(shè)計(jì)方法采用更多的工具自動(dòng)化,結(jié)合了半定制自動(dòng)化程度高、設(shè)計(jì)周期短和全定制設(shè)計(jì)性能高的優(yōu)點(diǎn),對(duì)YHFT-DX移位分支部件電路設(shè)計(jì)十分有效[1],利用該方法成功地設(shè)計(jì)優(yōu)化了移位分支部件,達(dá)到了設(shè)計(jì)目標(biāo).
1 移位分支部件結(jié)構(gòu)劃分與實(shí)現(xiàn)策略
移位分支部件具有復(fù)雜眾多的指令操作類型,有很多速度要求較高的指令和運(yùn)算部件中唯一的分支跳轉(zhuǎn)指令,包括較多邏輯指令、移位操作類指令、位操作指令及定點(diǎn)算術(shù)操作類指令等.移位分支部件主要完成的功能包括整型或長(zhǎng)整型的算術(shù)和比較運(yùn)算、移位操作、整型的邏輯操作、數(shù)據(jù)打包與解包、字節(jié)移位等.移位分支部件接收從指令派發(fā)部件傳送來的指令信號(hào)和從寄存器文件或交叉通路傳送過來的源操作數(shù),并將計(jì)算所得結(jié)果寫入寄存器文件中.移位分支部件總共實(shí)現(xiàn)122條指令,包含定點(diǎn)類指令82條、浮點(diǎn)指令32條、偽指令8條.
YHFT-DX采用40 nm工藝,移位分支部件要達(dá)到1.0 GHz主頻的性能目標(biāo),根據(jù)移位分支部件的功能特點(diǎn)和實(shí)現(xiàn)指令分析將移位分支部件劃分成4個(gè)模塊,分別是定點(diǎn)算術(shù)操作模塊、移位操作模塊、位操作模塊和浮點(diǎn)算數(shù)操作模塊.
1)定點(diǎn)算術(shù)操作模塊.該模塊首先進(jìn)行加法和減一運(yùn)算,然后對(duì)加法結(jié)果進(jìn)行溢出判斷[2],并根據(jù)指令類型對(duì)加減結(jié)果、溢出結(jié)果和減一結(jié)果進(jìn)行選擇,作為加減運(yùn)算結(jié)果或跳轉(zhuǎn)地址.該模塊根據(jù)指令類型又可以細(xì)分為9個(gè)子模塊,第一是定點(diǎn)加減運(yùn)算,第二是SIMD加減運(yùn)算,第三是定點(diǎn)比較運(yùn)算,第四是SIMD比較運(yùn)算,第五是定點(diǎn)函數(shù)操作,兩個(gè)源操作數(shù)中的高低半字分別取賦值給目的寄存器相應(yīng)半字.第六是SIMD寄存器傳送操作,第七是分支轉(zhuǎn)移、分支跳轉(zhuǎn)、分支、正數(shù)分支跳轉(zhuǎn)、子程序調(diào)用等[3].第八是寄存器傳送,控制寄存器和通用寄存器之間數(shù)據(jù)賦值.第九是邏輯運(yùn)算、數(shù)據(jù)按位與、按位或、按位異或、源操作數(shù)一與源操作數(shù)二的非按位與.
2)移位操作模塊.該模塊實(shí)現(xiàn)16/32/40位算術(shù)左移、32位飽和算術(shù)左移、16/32位算術(shù)右移、16/32位邏輯右移、清零、置位、位域擴(kuò)展和多種位寬的SIMD移位操作.
3)位操作模塊.該模塊分為定點(diǎn)函數(shù)類操作、SIMD定點(diǎn)函數(shù)類操作和寄存器傳送類操作,主要實(shí)現(xiàn)數(shù)據(jù)打包、解包、字節(jié)移位和賦值給目的寄存器的操作.
4)浮點(diǎn)算數(shù)操作模塊.該模塊是執(zhí)行浮點(diǎn)操作數(shù)相關(guān)的指令.
通過對(duì)上述4個(gè)模塊的時(shí)序劃分和性能要求分析,確定了YHFT-DX移位分支部件的關(guān)鍵路徑和實(shí)現(xiàn)策略,其策略是:針對(duì)時(shí)序緊張的定點(diǎn)算術(shù)操作模塊中的運(yùn)算器和移位操作模塊中的64位移位器采用手工半定制方法進(jìn)行設(shè)計(jì)優(yōu)化,對(duì)于時(shí)序相對(duì)寬松的其他模塊采用半定制方法進(jìn)行設(shè)計(jì)優(yōu)化.下一節(jié)將詳述關(guān)鍵模塊及設(shè)計(jì)優(yōu)化.
2 移位分支部件設(shè)計(jì)優(yōu)化
移位分支部件64位加法器和移位器采用半定制設(shè)計(jì)方法不能達(dá)到設(shè)計(jì)目標(biāo),對(duì)于這些處在關(guān)鍵路徑上的模塊,本文采用了手工半定制設(shè)計(jì)方法進(jìn)行設(shè)計(jì)優(yōu)化.
2.1 定點(diǎn)算術(shù)操作模塊設(shè)計(jì)與優(yōu)化
定點(diǎn)算術(shù)操作模塊主要是進(jìn)行整型或長(zhǎng)整型加/減和比較類運(yùn)算.加法器是定點(diǎn)算術(shù)操作模塊的核心,定點(diǎn)算術(shù)模塊總共可執(zhí)行43條指令,其中定點(diǎn)算術(shù)加/減指令17條、定點(diǎn)比較指令8條、邏輯操作指令9條、分支跳轉(zhuǎn)指令9條[4].通過對(duì)這些指令類型的分析,實(shí)現(xiàn)這些指令需要8位、16位、32位、40位4種不同位寬的加法器,若單個(gè)實(shí)現(xiàn),需要的加法器種類和數(shù)目比較多,功耗和面積代價(jià)之大不言而喻,因此,在時(shí)序要求得到滿足的情況下需要將這些不同類型的加法器進(jìn)行融合,從而降低功耗,減小面積.
定點(diǎn)算術(shù)操作模塊的總體結(jié)構(gòu)框圖如圖1所示.
其核心部件是8個(gè)8位的加法器陣列,該加法器總位寬為64位的加法器,分成8組,每組8位位寬,各組采用完全相同的設(shè)計(jì),8位子加法器采用進(jìn)位選擇加的結(jié)構(gòu),組進(jìn)位和組傳播進(jìn)位采用并行前綴運(yùn)算算法[5].根據(jù)不同的指令類型,組間并行選擇傳遞不同的進(jìn)位,從而得到多種位寬的結(jié)果.
8位加法器采用進(jìn)位選擇加的結(jié)構(gòu),組進(jìn)位和組傳播進(jìn)位采用并行前綴運(yùn)算算法.并行前綴運(yùn)算算法描述見表1.表中組進(jìn)位和傳播進(jìn)位函數(shù)表達(dá)式如下:
GD:j=Gi:k+Pi:k·GK-1:j.(1)
Pi:j=Pi:k·PK-1:j.(2)
把式(1)和式(2)用圖的形式表示出來,如圖2所示,圖中黑色方塊包含進(jìn)位產(chǎn)生信號(hào)和進(jìn)位傳播信號(hào),它恰好表示的是前綴運(yùn)算“”;灰色只包含組進(jìn)位產(chǎn)生信號(hào),即式(1),常用于樹型結(jié)構(gòu)每位的末尾用以計(jì)算每位的和值;黑色反向器用來減輕關(guān)鍵路徑上的負(fù)載;而每條線代表一束組進(jìn)位產(chǎn)生和組進(jìn)位傳播信號(hào),這些塊單元組成Han-Carlson樹型結(jié)構(gòu)如圖3所示,用這些塊和線束組成的加法器的進(jìn)位鏈部分可以表示為非循環(huán)圖的形式.
圖3所示的Han-Carlson樹型結(jié)構(gòu)是一種介于Kogge-Stone樹和Brent-Kung樹之間的結(jié)構(gòu)[6],它對(duì)邏輯級(jí)數(shù)和扇出進(jìn)行折衷,在Han-Carlson加法器中,采用奇偶相間的位片式設(shè)計(jì),在奇數(shù)位執(zhí)行Kogge-Stone運(yùn)算構(gòu)成主體進(jìn)位樹,然后再用一級(jí)點(diǎn)操作行波產(chǎn)生偶數(shù)位的進(jìn)位,主體進(jìn)位樹只需計(jì)算一半的進(jìn)位,從而避免了完全進(jìn)位樹結(jié)構(gòu),減小了復(fù)雜度,它的運(yùn)算結(jié)點(diǎn)位(Nlog2N)/2個(gè),當(dāng)N為64時(shí)為192個(gè),是Kogge-Stone結(jié)構(gòu)的60%,Han-Carlson結(jié)構(gòu)具有最小的扇出2,最大布線通道N/4,都比Kogge-Stone結(jié)構(gòu)小,并且結(jié)構(gòu)也較規(guī)整.
本文所設(shè)計(jì)的加法器根據(jù)不同的指令類型,組間并行選擇傳遞不同的進(jìn)位,從而得到多種位寬的結(jié)果[7].進(jìn)位傳遞分為以下4種情況:
1)8位加法:各組加法器選擇初始進(jìn)位輸入.
2)16位加法:第一組、第三組、第五組和第七組加法器選擇初始進(jìn)位輸入,第二組、第四組、第六組和第八組加法器選擇相鄰低位加法器的組進(jìn)位和傳播進(jìn)位輸入.
3)32位加法:第一組和第五組加法器選擇初始進(jìn)位輸入,第二組、第三組、第四組和第六組、第七組、第八組加法器分別依次選擇相鄰低位加法器的組進(jìn)位和傳播進(jìn)位輸入.
4)40位加法:第一組加法器選擇初始進(jìn)位輸入,第二組、第三組、第四組和第五組加法器分別依次選擇相鄰低位加法器的組進(jìn)位和傳播進(jìn)位輸入.
8個(gè)8位的加法器采用完全相同的基于標(biāo)準(zhǔn)單元的手工半定制設(shè)計(jì),輸入輸出端口明確,可重用性高.圖4給出了該加法器的主要電路圖,圖中Ain為源一操作數(shù)輸入、Bin為源二操作數(shù)輸入,ResultAnd為邏輯與結(jié)果、ResultOr為邏輯或結(jié)果、Px為組間傳播進(jìn)位函數(shù)、Cout為組間產(chǎn)生進(jìn)位函數(shù)、ResultXor為邏輯異或結(jié)果.
以8個(gè)完全相同的8位加法器為核心集成其他邏輯電路實(shí)現(xiàn)了整個(gè)運(yùn)算單元的設(shè)計(jì),圖5給出了部分驗(yàn)證波形.當(dāng)輸入信號(hào)A=8F, B=F2, Cin=0時(shí),組間進(jìn)位Cout=1, 組間傳播Px=1, 加法器和ResultAdd=81, 邏輯與ResultAnd=82, 邏輯或ResultOr=FF, 邏輯異或ResultXor=7D,分析表明驗(yàn)證結(jié)果正確.
表2所示的數(shù)據(jù)表明,手工半定制設(shè)計(jì)的關(guān)鍵路徑延時(shí)比半定制方法優(yōu)化了7.31%,功耗優(yōu)化了17.96%,面積優(yōu)化了32.2%.
2.2 移位操作模塊設(shè)計(jì)優(yōu)化
YHFT-DX處理器指令集中有好幾類指令都涉及到移位操作,移位分支部件中與移位相關(guān)的指令有SHL,SHR,SSHL,EXT等,另外CLR和SET指令用到的掩模數(shù)也可以用移位器來產(chǎn)生.
歸納起來,在移位分支部件中移位器需要進(jìn)行3種類型的操作:無符號(hào)右移、帶符號(hào)右移、算術(shù)左移.無符號(hào)右移也叫邏輯右移,右移的時(shí)候高位填0;帶符號(hào)右移也叫算術(shù)右移,右移的時(shí)候高位填符號(hào)位;算術(shù)左移時(shí)低位填0.目前常見移位器結(jié)構(gòu),根據(jù)譯碼方式來區(qū)分有全譯碼方式、全編碼方式、部分譯碼方式3種.
1)全譯碼方式.全譯碼方式對(duì)表示移位位數(shù)的二進(jìn)制數(shù)進(jìn)行完全譯碼,分別給出各種移位的控制線.對(duì)于4位移位器,移位部分就有4根控制線(Sh0~Sh3) 分別控制移0~3位(A0~A3)的移位操作,同一時(shí)間只有一條控制線選通,如圖6所示.
從電路結(jié)構(gòu)上來看,該電路從輸入到輸出理論上只需經(jīng)過一個(gè)傳輸管的延時(shí),但實(shí)際上實(shí)現(xiàn)這樣的設(shè)計(jì)需要較大的面積,特別是移位量較大的時(shí)候.例如實(shí)現(xiàn)一個(gè)能對(duì)32位數(shù)進(jìn)行0~31位移位操作的桶形移位器,移位網(wǎng)絡(luò)總共需要32×32個(gè)傳輸管,移位量較大時(shí),從面積考慮不適合采用此結(jié)構(gòu).
2)全編碼方式.全編碼方式對(duì)移位次數(shù)不進(jìn)行譯碼,直接利用移位量的各個(gè)位控制移位通路.
對(duì)數(shù)移位器就是全編碼方式,采用了分級(jí)的設(shè)計(jì)方法.總的移位值被分解成2的指數(shù)值.一個(gè)具有最大移位寬度M的移位器包括log2M級(jí)傳輸管來進(jìn)行移位控制,在每一級(jí)中有兩種情況,當(dāng)該位對(duì)應(yīng)的控制信號(hào)為1時(shí),則前一級(jí)送來的數(shù)據(jù)傳輸?shù)较乱患?jí)時(shí)將被移2i-1位(i是控制信號(hào)的階次),否則不被移位,例如一個(gè)實(shí)現(xiàn)0~31位移位的移位器,可用5級(jí)傳輸管來進(jìn)行移位控制.圖7給出的是一個(gè)最大移位寬度為4位的對(duì)數(shù)移位器.
這種移位器因?yàn)橹苯佑靡莆粩?shù)來控制移位網(wǎng)絡(luò),因此不需要對(duì)移位量進(jìn)行譯碼,同時(shí)這種設(shè)計(jì)的移位網(wǎng)絡(luò)只需要32×5個(gè)傳輸管,節(jié)省了面積;不足之處是數(shù)據(jù)從輸入到結(jié)果輸出共需要經(jīng)過5級(jí)傳輸管的延時(shí),使得這種移位器很難達(dá)到高性能的設(shè)計(jì)目標(biāo).
3)部分譯碼方式.部分譯碼方式是介于全譯碼方式和全編碼方式之間的一種方案.通過將移位量分段后譯碼,將移位操作分成2~3步來完成,實(shí)驗(yàn)證明:部分譯碼的移位器既能獲得較高的性能,又不占用很大的面積,因而本設(shè)計(jì)就基于分段譯碼的結(jié)構(gòu)來設(shè)計(jì)[8].
漏斗移位器能夠執(zhí)行邏輯移位、算術(shù)移位和循環(huán)移位這3種操作.當(dāng)輸入數(shù)據(jù)字長(zhǎng)為2N-1時(shí),輸出字長(zhǎng)為N.從輸入數(shù)據(jù)和輸出數(shù)據(jù)的字長(zhǎng)來看,它很像一個(gè)漏斗的形狀,因此命名為“漏斗”移位器[9].漏斗移位器是基于部分譯碼方式設(shè)計(jì)的一種移位器,融合對(duì)數(shù)移位器的分級(jí)思想和桶形移位器只需通過一個(gè)傳輸管即可到達(dá)輸出的優(yōu)勢(shì),本設(shè)計(jì)主要基于32位 “漏斗”移位器來實(shí)現(xiàn).32位的“漏斗”移位器的電路結(jié)構(gòu)如圖8所示,它的輸入數(shù)據(jù)為63位,輸出結(jié)果為32位數(shù)據(jù).漏斗移位器分為兩級(jí),第一級(jí)為傳輸門陣列,為了減少邏輯級(jí)數(shù)而采用了四選一選擇器,完成移0位、移8位、移16位或移24位的操作.第二級(jí)為桶形移位陣列,完成0~8位的移位,通過第一級(jí)和第二級(jí)的組合可完成0~31位移位操作[9].
分析桶形移位器、對(duì)數(shù)移位器和“漏斗”移位器的過程中,我們不難發(fā)現(xiàn)當(dāng)移位寬度較大時(shí),移位器延時(shí)仍然偏大.其延遲和面積還是不能滿足設(shè)計(jì)的需要,且設(shè)計(jì)周期比較長(zhǎng).為此我們對(duì)現(xiàn)有的移位器進(jìn)行了改進(jìn)優(yōu)化.
4)部分譯碼改進(jìn)型.移位操作模塊是設(shè)計(jì)中的關(guān)鍵,而移位器又是移位操作模塊中的關(guān)鍵.移位器采用多級(jí)選擇的結(jié)構(gòu)實(shí)現(xiàn),考慮到本設(shè)計(jì)對(duì)性能的要求較高,采用將左右移位進(jìn)行分開的設(shè)計(jì),而不采用左右移位結(jié)合的設(shè)計(jì),移位器包括兩部分的設(shè)計(jì),即譯碼電路設(shè)計(jì)和移位網(wǎng)絡(luò)設(shè)計(jì).
a)譯碼電路的設(shè)計(jì)優(yōu)化.
譯碼電路用來將移位量譯成單獨(dú)的控制線,部分譯碼就是譯碼電路將移位量分段來進(jìn)行譯碼;對(duì)一個(gè)移位量操作數(shù)的分段可以有多種劃分方法,不同劃分對(duì)應(yīng)不同的移位網(wǎng)絡(luò)結(jié)構(gòu).以一個(gè)64位移位器的譯碼為例,有6位移位量:C0 C1 C2 C3 C4 C5,可采用的分段方法及其對(duì)應(yīng)的移位網(wǎng)絡(luò)結(jié)構(gòu)見表3.
采用哪種分段方法與具體設(shè)計(jì)相關(guān),需要通過時(shí)序模擬來選擇最優(yōu)的方法.對(duì)移位量進(jìn)行譯碼段劃分后,需要對(duì)各段的移位量分別進(jìn)行譯碼,根據(jù)標(biāo)準(zhǔn)單元延遲情況,進(jìn)行布爾表達(dá)式等價(jià)變換,得到延時(shí)最小的邏輯實(shí)現(xiàn)方式,其優(yōu)化后的基于標(biāo)準(zhǔn)單元或非門的2-4譯碼電路如圖9所示,靜態(tài)時(shí)序分析表明,優(yōu)化后比優(yōu)化前延時(shí)減少了22.2%.
b) 移位網(wǎng)絡(luò)的設(shè)計(jì)優(yōu)化.
64位移位器的實(shí)現(xiàn)需要6位移位量:C0 C1 C2 C3 C4 C5,按照6位移位量控制信號(hào)進(jìn)行分段譯碼的方式,可以劃分多種方案實(shí)現(xiàn),本文采用了移位量控制信號(hào)分段譯碼2-2-2結(jié)構(gòu)C0C1|C2C3|C4C5分組,其時(shí)序和面積相對(duì)均衡的方案進(jìn)行設(shè)計(jì)優(yōu)化,其結(jié)構(gòu)如圖10所示.
圖10中的移位器分為三級(jí),每一級(jí)都是由譯碼器和移位網(wǎng)絡(luò)組成的,移位器的第一級(jí)移0, 1, 2, 3位,第二級(jí)移0, 4, 8, 12位,第三級(jí)移0, 16, 32, 48位,因此三級(jí)進(jìn)行組合移位就可以移0~63任意位.
按照確定的方案進(jìn)行移位網(wǎng)絡(luò)的設(shè)計(jì).移位網(wǎng)絡(luò)主要是由多路選擇開關(guān)構(gòu)成的,而選擇開關(guān)通??梢杂啥喾N方式實(shí)現(xiàn),本文主要基于標(biāo)準(zhǔn)單元進(jìn)行選擇開關(guān)的設(shè)計(jì)優(yōu)化.由于此方案中每一級(jí)移位網(wǎng)絡(luò)都進(jìn)行4檔移位,所以每一級(jí)的移位網(wǎng)絡(luò)都可以采用四選一電路實(shí)現(xiàn).移位網(wǎng)絡(luò)四選一電路通過三態(tài)門實(shí)現(xiàn),如圖11所示.
三態(tài)門實(shí)現(xiàn)的四選一電路優(yōu)點(diǎn)是速度快,缺點(diǎn)是面積較大.在設(shè)計(jì)的過程中為了平衡速度和面積之間的關(guān)系,我們還需采用面積小而速度稍微比三態(tài)門慢點(diǎn)的四輸入的與或非門實(shí)現(xiàn)四選一電路,如圖12所示.
利用三態(tài)門和與或非門各自的優(yōu)點(diǎn),最終確定采用混合實(shí)現(xiàn)的策略,因?yàn)榕c或非門面積小,所以第一和第二級(jí)移位網(wǎng)絡(luò)采用與或非門實(shí)現(xiàn);由于三態(tài)門延時(shí)比較小但面積較大,所以第三級(jí)移位網(wǎng)絡(luò)采用三態(tài)門實(shí)現(xiàn);與基于邏輯綜合的半定制設(shè)計(jì)相比,時(shí)序驗(yàn)證分析結(jié)果見表4.
表5中結(jié)果表明,手工半定制與半定制設(shè)計(jì)相比,優(yōu)化后延時(shí)、面積分別比優(yōu)化前減小0.07 ns, 8 606.7 μm2,時(shí)序優(yōu)化了6.86%,面積減少了10.64%,達(dá)到了1.0 GHz設(shè)計(jì)目標(biāo).
4 結(jié)束語
本文根據(jù)YHFT-DX移位分支部件的特點(diǎn),提出了結(jié)構(gòu)劃分與實(shí)現(xiàn)策略;確定了移位分支部件關(guān)鍵路徑和設(shè)計(jì)方法;對(duì)于時(shí)序緊張的定點(diǎn)算術(shù)操作模塊、移位操作模塊等關(guān)鍵模塊,采用了手工半定制設(shè)計(jì)方法進(jìn)行設(shè)計(jì)優(yōu)化并進(jìn)行了詳細(xì)的描述;對(duì)于時(shí)序相對(duì)寬松的譯碼站和其他模塊,采用了基于邏輯綜合的半定制設(shè)計(jì)方法;完成了整個(gè)移位分支部件的設(shè)計(jì),優(yōu)化了時(shí)序、減少了面積、降低了功耗[10];達(dá)到了預(yù)期的設(shè)計(jì)目標(biāo).
參考文獻(xiàn)
[1] 沈志春.高性能DSP移位分支部件的設(shè)計(jì)與優(yōu)化 [D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué)研究生院,2013.
SHEN Zhi-chun. Design and optimization of BSU of high performance DSP[D]. Changsha: Graduate School, National University of Defense Technology, 2013. (In Chinese)
[2] 陳吉華,郭陽,陳海燕,等. 集成電路計(jì)算機(jī)輔助設(shè)計(jì)與驗(yàn)證[M]. 長(zhǎng)沙:國(guó)防科技大學(xué)出版社,2010.
CHEN Ji-hua. GUO Yang,CHEN Hai-yan, et al. Computer-aided design and verification of IC[M]. Changsha: National University of Defense Technology Press, 2010.(In Chinese)
[3] FISHER J A. Very long instruction word architectures and the ELI-512[C]//Proceedings of the 10th Annual International Symposium on Computer Architecture. New York: ACM, 1983: 140-150.
[4] YEH T Y, PATT Y N. Two-Level adaptive training branch prediction[C]// Proceedings of the 24th ACM/IEEE International Symposium on Microarchitecture. New York: ACM, 1991:51-61.
[5] 李振濤.高性能DSP關(guān)鍵電路及EDA技術(shù)研究[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué)研究生院,2007:10-15.
LI Zhen-tao. Key circuits and EDA techniques research of high performance DSPs[D]. Changsha: Graduate School, National University of Defense Technology, 2007:10-15. (In Chinese)
[6] JOTWANI R, SUNDARAM S, KOSONOCKY S, et al. An x86-64 Core in 32 nm SOI CMOS[J]. IEEE Journal of Solid-State Circuits, 2011, 46(1):162-172.
[7] WENDEL D F, KALLA R, WARNOCK J, et al. POWER7TM, a highly parallel, scalable multi-core high end server processor[J]. IEEE Journal of Solid-State Circuits , 2011, 46(1):145-161.
[8] 張子杰. 600MHz YHFT-DX移位分支部件的設(shè)計(jì)與實(shí)現(xiàn) [D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué)研究生院,2010.
ZHANG Zi-jie. The design and implementation of 600 MHz BSU of YHFT-DX[D]. Changsha: Graduate School, National University of Defense Technology, 2010.(In Chinese)
[9] 徐慶光. 600MHz YHFT-DX算術(shù)邏輯部件的設(shè)計(jì)與實(shí)現(xiàn) [D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué)研究生院,2010.
XU Qing-guang. The design and implementation of 600 MHz ALU of YHFT-DX[D]. Changsha: Graduate School, National University of Defense Technology, 2010.(In Chinese)
[10]HERNANDEZ M A, ARANDA M L. A low power bootstrapped CMOS full adder[C]// Proceedings of 2005 2nd International Conference on Electrical and Electronics Engineering. New York: IEEE, 2005: 7-9.