馮萬鵬,王 鷗,紀應軍,宋志鵬
(西南技術物理研究所1部,四川成都 610041)
隨著集成電路工藝節(jié)點的不斷提高,芯片的工作頻率越來越高,對芯片的低功耗要求也越來越高,現在的工藝尺寸可縮減到20 nm、16 nm或更小,先進的工藝技術可提高集成電路器件集成度及生產出更大的芯片尺寸,但同時意味著時鐘網絡的負載越來越重并可能穿過更長的距離。隨著時鐘網絡越來越復雜,時鐘網絡的功耗占整個芯片高達約50%。所以,為了降低整個芯片功耗,可從降低整個時鐘網絡的功耗著手,本文將介紹門控技術在時鐘網絡的應用,以及多閾值電壓的器件在時鐘網絡的應用,并最終討論了不同驅動能力的緩沖器和反向器對整個時鐘網絡功耗的影響。
芯片中動態(tài)功耗較大一部分是消耗在時鐘網絡,甚至超過50%的動態(tài)功耗是消耗在時鐘樹的緩存器上的。這是由于時鐘樹緩存器具有最高的翻轉率,數量過多,且為了減少時鐘樹的延時,時鐘樹緩沖器通常具有較強的驅動能力。此外,在觸發(fā)器時鐘信號接收端接收到時鐘信號時,即使觸發(fā)器的數據輸入端和輸出端保持不變,也會消耗一些動態(tài)功耗。減少時鐘樹上動態(tài)功耗的最常用方法是在無需時鐘信號時將時鐘關斷。該種方法就是所謂的門控時鐘技術[1-2]。現在的綜合設計工具支持門控時鐘技術的自動化流程,工具可自動識別門控時鐘單元,并在不改變電路邏輯功能的前提下,將門控時鐘單元插入到電路中根據門控時鐘單元插入的位置不同,門控時鐘技術又分為粗粒度門控時鐘和細粒度門控時鐘。粗粒度門控時鐘技術就是將門控時鐘單元插入到整個模塊的時鐘輸入端,而細粒度門控時鐘技術則是將門控時鐘單元插入到模塊中每個寄存器的時鐘輸入端。相對而言,粗粒度門控時鐘技術雖控制粒度不如細粒度門控時鐘技術,但其能節(jié)省芯片的面積,并減少了過多門控時鐘單元引入的功耗。因此,粗粒度門控時鐘技術應用更為普遍。
實驗數據表明,在添加了門控時鐘技術后,芯片的面積減少了約20%,功耗根據不同的操作條件節(jié)省了30%~40%;其面積節(jié)省是由于單個的門控時鐘單元取代了多個選擇器;其功耗節(jié)省是芯片的部分電路采用了門控時鐘技術;其結果是在實際的芯片上,處理器處于閑置狀態(tài)時測量得到的。且其對比了將時鐘門控單元插在時鐘樹不同位置上所得出的功耗分析結果,發(fā)現時鐘門控單元越靠近時鐘根節(jié)點,節(jié)省的功耗越多,且面積也越小。
圖1 門控技術示意圖
表1 無門控技術和門控技術的功耗
當工藝制程下降到20 nm或更低的工藝節(jié)點時,使用多閾值電壓工藝庫成為減少泄露功耗的一種常用方式。亞閾值泄露功耗與閾值電壓相比呈指數關系增長,延時也同樣依賴于閾值電壓,但依賴關系明顯弱于亞閾值泄漏功耗。目前而言,工藝廠商會提供3種類型的標準單元:低閾值電壓標準單元(LVT)、標準閾值電壓標準單元(SVT)和高閾值電壓標準單元(SVT)。綜合工具和后端實現工具會充分利用以上標準單元來同時優(yōu)化時序和功耗。在利用多閾值電壓[3]工藝庫進行綜合時,其首要目標就是降低高速高泄漏低閾值電壓晶體管的使用,只有當需滿足性能時序的情況下才會使用。通常默認情況下,工具在達到最低的性能指標后方會進行功耗優(yōu)化。實際上,對不同需求的模塊,可進行不同的設置來決定優(yōu)先處理某個標準單元庫。若一個模塊中的路徑處于整個芯片的關鍵路徑上,可先采用高性能低閾值標準單元庫進行綜合,然后對于非關鍵路徑上的標準單元替換成相應功能的低性能高閾值標準單元。由此,既可滿足能要求,又可降低芯片的泄露功耗。相反,若對一個模塊的性能要求較低,而功耗要求較高,則可優(yōu)先采用高閾值電壓標準單元庫進行綜合,然后根據性能要求對關鍵路徑上的標準單元使用低閾值電壓標準單元進行替代。圖2表示器件的閾值電壓與泄露電流、延時的關系圖。
圖2 泄露電流和延時關系圖
表2 LVT、SVT和HVT的特性
從表2可看出,LVT類型的cell具有驅動能力強、器件延時小、速度快及靈敏度高的高性能指標,但又因泄露電流大導致功耗大的缺點;SVT性能次之;HVT類型的cell具有驅動能力小、器件延時大、速度慢,且靈敏度低的低性能指標,但卻有泄露電流小帶來功耗低的優(yōu)點;故在選擇器件時,要權衡器件性能和功耗。
選用一個音頻芯片做完preCTS并存儲DataBase,使用Cadence CCOPT引擎做時鐘樹,使用相同驅動能力(X8)的緩沖器,分析 LVT、SVT、HVT下的功耗情況。
表3 8X驅動能力緩沖器LVT、SVT、HVT的功耗
實驗數據表明,LVT的各功耗指標比SVT大,SVT的各功耗指標比HVT大。時鐘樹綜合通常用到緩沖器和方向器,如何選擇緩沖器和反相器在時鐘樹綜合始終存在爭議。以TSMC 20 nm工藝庫為列,在同一類型的緩沖器和反相器條件下,分析使用不同驅動能力大小的緩沖器和方向器對整個時鐘功耗的影響。
CMOS 電路中,功耗有4 種來源[5],PTotal=PDynamic+PLeakage+PShort-circuit+PDC,PDynamic動態(tài)功耗主要來源于開關的功耗,即對輸出電容進行充放電所消耗的功耗;PLeakage由兩部分組成,一部分是MOSFET開關的非理想動態(tài)特性所引起的亞閾值功耗,另一部分是載流子隧道效應通過柵氧化層導致的柵極泄露功耗;PShort-circuit是CMOS晶體管柵極的上拉和下拉打開時的輸入信號躍遷所產生的瞬態(tài)功耗,PDC是CMOS電路在低電壓擺幅輸入信號驅動時所消耗的靜態(tài)直流功耗。
圖3 CMOS電路的功耗示意圖
與此同時,當前EDA工具對功耗的評估公式為
式(1)中,PInternal由標準門單元的短路功耗和PShort-circurt標準門單元內部節(jié)點充放電功耗 PInternal-switch兩部分組成
其中,VDD為電源電壓,TR為信號在單位時間內的翻轉次數,CL為負載電容
其中,VDD為電源電壓;ILeakage(i)為漏電流;每個cell的ILeakage(i)是固定的,且與信號翻轉速度無關。
時鐘樹綜合有3種方法[4]:使用反相器、使用緩沖器以及二者結合使用。在具體的設計中,采用反相器還是緩沖器來構建時鐘網絡進行時鐘樹綜合,始終是個有爭議的問題。本次優(yōu)化的目的是在滿足時序的前提下,盡可能地降低時鐘網絡的功耗,因此分別采用反相器和緩沖器的方法進行時鐘樹綜合,選出最優(yōu)方案。
表4 1X-16X驅動能力緩沖器功耗
從 library中選用 1X,2X,4X,6X,8X,10X,12X,16X驅動能力的緩沖器。從表4中可看到,隨著驅動能力的增大,時鐘樹的功耗越來越大,同時無時鐘樹占整個芯片的功耗也在不斷增大從22.19%增加到29.56%。根據DRV violation可看出,選用驅動能力在6~12驅動的能力緩沖器較為合適,在該驅動能力的緩沖器DRV的violation較低。
表5 1X-16X驅動能力反向器功耗
從 library中選用 1X,2X,4X,6X,8X,10X,12X,16X驅動能力的反方向器。從表5中可看到,隨著驅動能力的增大,時鐘樹的功耗越來越小,同時無時鐘樹占整個芯片的功耗也在減小從57.5%減小到33.83%。根據DRV violation可看出,選用驅動能力在6~12驅動的能力方向器較為合適,在該驅動能力的緩沖器DRV的violation較低。
表6 8X驅動能力反相器和緩沖器功耗
從library中選用8X驅動能力的反相向和緩沖器器,從表6中可以看出,只選用緩沖器向器的功耗最小,緩沖器和反相器混用功耗次之,而只選用反相器的功耗最大。
使用門控技術可有效節(jié)省時鐘樹上的功耗,同時也可節(jié)省芯片的功耗及面積。代工廠提供的HTV、SVT、LVT 3 種類型的 cell[6],在保證時序收斂的情況下,使用HVT替代LVT來達到降低時鐘樹上的功耗的目的,在使用同一類型的緩沖器和反相器時,可單一地選用緩沖器,也可單一選用反相器,還可將緩沖器和反相器同時使用,無論選擇哪種使用方式,均可保證在無DRV的情況下,使得功耗最低。
[1]孫佳.信息安全芯片的低功耗后端設計研究[D].上海:復旦大學,2012.
[2]謝曉娟,蔣見花.一種基于門控時鐘的低功耗電路實現方案[J].電子器件,2010,33(2):154 -157.
[3]石玉龍,張立超,柏露.ASIC后端設計中低功耗時鐘綜合的方法[J].信息通信,2009(4):24-26.
[4]潘靜,吳武臣,侯立剛,等.ASIC物理設計中的時鐘樹綜合優(yōu)化研究[J].微電子學,2011,41(6):872 -875.
[5]王昌林,張勇,李東生.CMOS集成電路功耗分析及其優(yōu)化方法[J].艦船電子工程,2006,6(3):123 -125,166.
[6]Michael Keating,David Flynn,Robert Aitken Alan G,et al.Kaijian shi low power methodology manual for system-onchip design[M].Berlin:Springer Press,2007.