郭鑫斐
(上海交通大學密西根學院 上海 200240)
芯片的可靠性定義為在給定的壽命和使用環(huán)境下能夠正確且穩(wěn)定完成其對應使用場景下的功能的程度或性質(zhì)??煽啃耘c時間直接相關(guān),關(guān)乎芯片在整個使用周期中性能的變化趨勢,也決定著一款芯片的最長使用壽命。如圖1所示,隨著芯片應用場景的多樣化,多個關(guān)鍵應用場景都提出了比傳統(tǒng)的消費電子更高的芯片壽命要求(例如15年以上),尤其體現(xiàn)在工業(yè)場景(如電網(wǎng)級別大規(guī)模儲能系統(tǒng))、物聯(lián)網(wǎng)、軍用和航空應用中[1,2]。另外芯片使用率大幅提高以及所處理的數(shù)據(jù)量顯著增多,比如一些是從雷達、接收器、激光雷達等傳輸而來,要求處理數(shù)據(jù)的準確度更高、速度更快,隨著時間的推移,芯片想要達到目標的功能將會變得越難以實現(xiàn)。造成芯片不可靠以及縮短芯片使用壽命的關(guān)鍵原因則是老化效應,也即半導體器件在工作過程中部分特征參數(shù)隨著時間退化的機制[3]??梢院唵蔚馗爬榫w管老化導致閾值電壓升高,最終導致晶體管失效以及金屬線老化導致電阻升高最終斷裂。老化雖為器件層的物理效應,但其影響會蔓延至整個系統(tǒng)[4]。芯片老化效應成為先進工藝節(jié)點以及廣泛應用中亟待解決的熱點問題[5]。工藝的不斷縮小意味著更薄的電介質(zhì)、更細的線以及更大的功率密度,而且,襯底也會越來越薄,所導致的老化現(xiàn)象也會更嚴重,在不進行大幅度改變晶體管和互連線材料和結(jié)構(gòu)的情況下改善老化現(xiàn)象將會極為困難,即便最新的全環(huán)柵晶體管 (Gate-All-Around Field-Effect Transistor, GAA FET)技術(shù)依然面臨著嚴峻的老化挑戰(zhàn)[6,7]。因此包括國內(nèi)外學術(shù)界和工業(yè)界等都認識到解決當前面臨的嚴重芯片老化問題不僅需要器件制造過程中進行可靠性改善,更需要在集成電路設計過程中進行創(chuàng)新,研究更優(yōu)的老化防護設計方法是高可靠性芯片領(lǐng)域的重要發(fā)展方向和新趨勢。
圖1 芯片使用場景的多樣化和使用率的增加對于壽命的要求
從芯片老化的物理機制來看可以分為以下幾類,前道工藝晶體管的老化現(xiàn)象主要有熱載流子注入(Hot Carrier Injection, HCI)和偏置溫度不穩(wěn)定性(Bias Temperature Instability, BTI),而柵介質(zhì)膜中的老化主要有經(jīng)時擊穿特性 (Time-Dependent Dielectric Breakdown, TDDB)。HCI是由于載流子在溝道中受到漏極強大的溝道電場的作用,導致其越過硅-二氧化硅勢壘注入到氧化物介質(zhì)中形成陷阱,造成閾值電壓的退化[8];BTI則主要由于在晶體管正常工作時硅-二氧化硅界面陷阱的能級升高后會俘獲載流子,造成溝道中載流子的減少,造成了閾值電壓的升高[1,4],其中發(fā)生在P型晶體管的BTI現(xiàn)象稱為負偏置溫度不穩(wěn)定性(Negative Bias Temperature Instability, NBTI),發(fā)生在N型晶體管的BTI現(xiàn)象稱為正偏置溫度不穩(wěn)定性(Positive Bias Temperature Instability, PBTI);TDDB是指晶體管在正柵壓下的鈉離子發(fā)射,由電場的驅(qū)動飄逸至硅-二氧化硅界面,聚居于界面缺陷內(nèi),導致局部鈉離子濃度升高,局部電場增強,引起局部的隧道擊穿,最終導致介質(zhì)擊穿[9]。BTI存在兩個階段:壓力階段與恢復階段。晶體管打開時,界面陷阱持續(xù)俘獲載流子,導致閾值電壓的持續(xù)退化,為壓力階段;而當晶體管關(guān)斷,部分已俘獲載流子向界面反向擴散,表現(xiàn)為閾值電壓恢復,為恢復階段。與BTI不同的是,HCI和TDDB都沒有恢復階段,因此HCI和TDDB造成的老化是不可逆的。相比前道工藝,造成后道工藝的老化因素則主要是電遷移 (Electro-Migration,EM)和應力遷移(Stress-Migration, SM)現(xiàn)象,EM現(xiàn)象是由于片上金屬線在通電過程中電子與金屬原子發(fā)生物理碰撞,導致金屬原子的移動,進而形成金屬上的空洞,導致電阻增加,最后導致金屬線的斷裂。SM是由于金屬材料與絕緣介質(zhì)的熱膨脹系數(shù)存在較大差異導致接觸面產(chǎn)生較強機械應力,該應力會致使金屬原子發(fā)生遷移從而在連線上產(chǎn)生裂紋或空洞,結(jié)果引起器件或電路性能退化甚至失效,SM 是一種與環(huán)境溫度變化相關(guān)的退化行為,而并非電流或者電壓加速退化所致。相比SM現(xiàn)象,EM具有一定的可逆性,例如在金屬線中反向電流的作用下,電子反向遷移,從而避免潛在的碰撞[3,10]。當前針對老化的多項工作表明,在先進工藝下造成晶體管老化的主要機制為HCI和BTI[4,11,12],而電遷移則是造成金屬線老化的主要因素[3,10,13,14]。本文將主要針對BTI和EM這兩種極為重要且都具有一定可逆性的老化現(xiàn)象進行討論。如圖2所示,以反相器電路為例,雖然BTI和EM發(fā)生在電路的不同位置,但是均會造成相關(guān)參數(shù)的變化最終導致電路性能的退化。從其如圖3所示的機理來看, BTI和EM都表現(xiàn)為某種應力對于器件造成一定的影響,BTI由于電荷在溝道積聚時會對晶體管造成壓力,如果持續(xù)足夠長的時間會導致永久性損壞,表現(xiàn)為升高晶體管的閾值電壓,從而增加電路的延時,最終可能導致晶體管完全失效[15,16]。類似的現(xiàn)象也會發(fā)生在金屬互連線中,當大電流和熱量聚集在一起時,EM主導的老化效應會增大電阻,如果持續(xù)足夠長的時間會導致永久性損壞[17]。由于兩種老化的相似性,從防護的角度也可以采用相似的指導思路。
圖2 集成電路老化現(xiàn)象以及其影響示意圖(以反相器電路為例)
圖3 BTI和EM老化機理示意圖
圖4總結(jié)了當前針對兩種老化效應已有的防護方法,按照設計思路可以分為“完全接受”、“適應”和“改善”3個方面?!巴耆邮堋币布丛谠O計初期估算在給定壽命下老化的極端情況,在電路老化之前通過故意降低時鐘主頻或者增大晶體管或者金屬線尺寸預留充足的設計裕量(也即時序余量或電壓余量,也稱為margin或guardband)使電路在老化之后仍能保證足夠的性能要求,但是此方法有諸多弊端,比如過多的面積及功耗開銷問題并不適用于當今大規(guī)模數(shù)字集成電路,另外此裕量在10年壽命的情況下會達到時鐘周期的20%[2,16],造成嚴重的悲觀設計,對于設計兼具高性能和高可靠性的芯片很難再適用。針對此弊端,國內(nèi)外研究團隊提出了一系列設計方法來進一步減小裕量開銷,例如文獻[18]提出了門替換技術(shù)通過引入考慮門的時延關(guān)鍵性的權(quán)值識別關(guān)鍵門并進行門替換從而改善時延。文獻[19]通過將老化信息引入標準單元庫,在邏輯綜合過程進行優(yōu)化。文獻[20]提出了將老化與近似計算邏輯綜合結(jié)合的可靠性增強電路設計流程。文獻[21]也是通過將老化引入設計流程中,提出針對電遷移感知的布線算法。僅依靠設計初期容忍老化的方式會造成時鐘浪費和悲觀設計,因此以“適應”為思路的動態(tài)補償方式應運而生,動態(tài)補償包括感知與補償兩個部分。在感知和預測方面,文獻[22,23]提出了不同類型的感知電路。而在補償部分,文獻[24,25]提出了通過改變時鐘頻率、電壓、徹底偏置電壓等動態(tài)補償方法。在文獻[26,27]中,基于機器學習的預測老化的方法被提出,基于該模型可以進行實時的補償。文獻[28]則提出了資源分配算法來進一步緩解老化現(xiàn)象。
圖4 當前常見老化防護方法總結(jié)
以上設計思路都對改善設計裕量造成的額外開銷起到了一定的作用,但是隨著壽命要求的增加,設計裕量開銷也會擴大,僅僅依靠“完全接受”或“適應”的方式依然無法滿足當前多樣的應用場景和新型工藝帶來的可靠性挑戰(zhàn),所以利用被動恢復“改善”老化本身成為設計的一個新思路。文獻[29]研究通過輸入向量控制和電壓分配方式來緩解老化?;陔娺w移的被動恢復特性提出了針對3維堆疊電路的新型電源網(wǎng)絡[30]。由此可見,利用恢復的特性進行老化防護正成為一種重要的設計思路。近些年來,針對以上兩種老化物理機制的最新研究結(jié)果表明,在移除電壓或者電流的條件下,偏置溫度不穩(wěn)定性和電遷移都具有可擬性[3,16],但是恢復速度和效率雖然較低,但更進一步的研究發(fā)現(xiàn)在一定的外加條件下(如改變電壓和溫度),恢復過程可以被進一步激活和加速,從而實現(xiàn)高達90%以上的恢復率[31]。此特性可以從本質(zhì)上緩解老化效應對電路性能的影響,因此如果合理將這一思路運用到電路設計過程中,將會極大降低設計裕量,從而改善容忍式設計思路帶來的過度設計問題,主動加速恢復的設計思路油然而生。而要在電路設計階段最大化利用恢復的特性,需要從電路模型、實現(xiàn)方法、設計空間探索等多個維度進行創(chuàng)新,本文就主動加速恢復所帶來的巨大收益和潛在的挑戰(zhàn)進行詳細闡述和分析,從主動加速恢復的場景出發(fā),展示目前該領(lǐng)域已有進展和結(jié)果,并就當前實現(xiàn)主動恢復遇到的瓶頸問題進行詳細討論。
本文章節(jié)安排如下:第2節(jié)介紹主動加速恢復的定義和意義;第3節(jié)著重討論主動加速恢復面臨的實現(xiàn)瓶頸問題和潛在解決方案;第4節(jié)總結(jié)全文。
集成電路老化的物理機理的研究可以追溯到20世紀60年代初左右,對于兩種老化的可恢復機制的理解也在不斷進化。針對偏置溫度不穩(wěn)定性,文獻[32]提出用“俘獲釋放機理”來解釋晶體管的老化和恢復過程,并模擬了溫度和電壓影響閾值電壓退化的過程。文獻[33]在此基礎(chǔ)上,針對先進工藝在模型中引入了占空比、摻雜濃度等因子,綜合分析和比較了近年來已有機理的優(yōu)劣,一致認為晶體管在柵源兩端電壓為零的情況下會進入被動恢復狀態(tài)[33]。文獻[34]進一步發(fā)現(xiàn)被動恢復速度較慢,甚至出現(xiàn)了長時間“不可恢復”的情形。針對電遷移老化,文獻[35]用實驗的方式證明了在互連線上通過變換電流的方向可以觀察到恢復現(xiàn)象。文獻[36]用實驗證明電遷移老化可以通過調(diào)節(jié)不同的占空比使其恢復更徹底。文獻[10]基于此特性建立了電遷移恢復模型,用來表征電流和溫度對恢復的影響過程。如圖5所示,如果將兩種老化綜合考慮,在電路正常工作狀態(tài)下,晶體管的老化是由柵壓偏置引起,而互連線老化由電流應力引起,而被動恢復的發(fā)生是由于晶體管或互連線轉(zhuǎn)移到了非運行狀態(tài),此過程中老化效應得到緩解和適當?shù)幕謴停刂怂悸啡绻麑⑷祟愋菝吲c芯片老化的恢復過程類比,用“周期節(jié)律”的思路來理解集成電路芯片老化問題,就不難想到如果芯片和人類一樣,及時的“休眠”可以使其從老化中恢復以至于接下來可以繼續(xù)“高效工作”,如果在休眠中能夠提高恢復的效率,那么會對系統(tǒng)的下一個使用周期的效率有進一步的提升。近年來,多項工作已證明兩種老化現(xiàn)象除了可以被動恢復以外,在外界的環(huán)境影響下恢復效率會進一步提升,此過程被稱之為主動加速恢復。
圖5 針對BTI老化和EM老化的主動加速恢復的定義以及與其他狀態(tài)的對比
針對BTI老化的主動加速恢復的概念最早在文獻[31]中得到了證明,研究人員通過在45 nm工藝的FPGA芯片上用實驗的方式完整驗證了高溫和反向電壓對于偏置溫度不穩(wěn)定性效應恢復過程的加速特性,超過70%的BTI老化得到了緩解,但是依然存在不可恢復的部分,而文獻[37]進一步通過實驗發(fā)現(xiàn)了如果合理調(diào)節(jié)信號的占空比,通過運用“周期節(jié)律”的方式進行主動恢復,此前不可逆的BTI老化部分可被進一步恢復。而類似的思路也在電遷移老化EM上進行了驗證,文獻[36,38]分別通過實驗和建模的方式驗證了互連線在逆向電流以及高溫的情況下,恢復效率高達80%以上。然而EM老化與BTI老化不同的地方在于,電遷移的發(fā)生突變性更強,如圖6所示為實驗測得的互連線電阻隨時間的變化情況[39],在老化過程中,互連線中通有電流,并通過高溫加速老化過程,電阻的阻值在590~600 min中發(fā)生突變,變化后來又趨于平緩,這是由于EM所引起的電阻增加本質(zhì)上是由于應力的累計,當應力累計到一定程度電阻開始突然增加,表示電遷移已經(jīng)開始嚴重影響互連線的正常運行,這個過程類似于偏置溫度不穩(wěn)定性的受壓階段,因此電遷移老化的恢復時機更為重要,前期工作[16,39]證明,如果在早期(例如圖6的400 min時)就開始主動加速恢復,其恢復率可達到將近95%以上。
圖6 實驗測得的電遷移(EM)老化過程以及其在高溫環(huán)境中的主動加速恢復過程
基于上述討論,不難發(fā)現(xiàn),主動加速恢復可以理解為逆向的老化過程,由于該過程相對老化過程較慢,因此外界的影響對于恢復程度尤其重要,主要因素有電壓(BTI老化)、電流(EM老化)、溫度以及恢復的開始時間。此特性的發(fā)現(xiàn)對于老化防護有較好的啟示,在下一節(jié)中本文將進一步討論主動加速恢復的潛在意義。
主動加速恢復特性通過對已發(fā)生的老化效應進行深度恢復,如果可以引入到電路設計過程中,并通過電路實現(xiàn)的方法輔助主動恢復,最終實現(xiàn)高效和普適的自適應主動恢復老化防護技術(shù),將極大降低因老化防護產(chǎn)生的性能開銷并提高芯片使用壽命。圖7展示了不同設計思路對于時序余量開銷的直觀影響,在芯片設計的前期規(guī)劃過程中,設計余量的制定需要考慮極端情況,通過動態(tài)補償、被動恢復等方式會從一定程度降低初期的設計余量,然而該余量隨著使用壽命限制增加而增大,主動恢復由于考慮了在運行過程中的潛在恢復,可以極大減少起始時序余量,更為重要的是該余量不會隨著使用壽命的增加而增大,其原因如下:主動恢復過程將會通過“刷新”的方式將電路的時序特性不斷恢復至起始狀態(tài),雖然該過程中會有不可恢復部分的不斷累積,但是此前的工作[16,40]中已證明不可恢復的部分可以通過提前進入設置的恢復周期,最終可以實現(xiàn)最大可減少設計裕量理論值超過60倍以上。
圖7 不同老化防護設計思路對于全壽命周期時序余量開銷的直觀影響
除了減少設計初期的時序余量,周期性地主動加速恢復可以進一步提高系統(tǒng)運行的平均性能。如圖8所示,在芯片運行過程中可以通過預設周期的方式合理安排運行與恢復周期, 該圖展示的為1:1的周期,但是在實際實現(xiàn)過程中也可以結(jié)合應用場景考慮其他比例,例如消費電子領(lǐng)域,通常的運行周期與恢復周期可以與用戶的使用習慣所綁定,一旦運行任務完成即可進入主動加速恢復狀態(tài)。相比現(xiàn)有的被動恢復方式,周期性主動恢復可以降低老化累積效應所帶來的性能下降,從而使得系統(tǒng)始終頻率始終保持在較高水平,平均性能得到提升。
圖8 周期性主動加速恢復與被動恢復的對比概念圖
雖然主動加速恢復這一特性對于緩解集成電路老化這一可靠性問題具有諸多潛在的優(yōu)勢,但是目前的研究仍然多數(shù)停留在器件級,在具體電路實現(xiàn)方面依然面臨諸多挑戰(zhàn),本文將挑戰(zhàn)總結(jié)如下:
挑戰(zhàn)1實現(xiàn)主動恢復電路的第1個挑戰(zhàn)在于理解恢復本身如何定量影響電路的可靠性。當前電路設計中老化防護設計裕量的獲取多數(shù)通過大量的電路仿真, 需要較長的周期, 缺乏設計初期各參數(shù)對壽命影響的直觀影響模型,因此會限制設計者的選擇空間。 另外,兩種老化的恢復過程除了和運行電壓、溫度有關(guān)之外,還和占空比、恢復起始時間等有關(guān),目前已有的包含恢復過程的老化物理模型對于加速恢復部分的考慮較少。 因此需要通過具體的理論分析建立老化和恢復相關(guān)參數(shù)對于與電路設計可靠性指標的定量影響模型, 例如加速恢復對于靜態(tài)設計裕量的影響關(guān)系,從而拓展到對于壽命的影響等。 另外需要結(jié)合老化和恢復的物理機制和實驗結(jié)論, 在器件級模型中引入主動恢復相關(guān)變量,例如負偏置電壓、恢復起始時間等,進而結(jié)合電路設計理論搭建物理現(xiàn)象與芯片設計之間關(guān)系的橋梁, 最終為以主動恢復作為指導思想的設計方法提供重要的理論基礎(chǔ),指導設計初期各參數(shù)的選擇將主動恢復過程中的可控變量融合到目前已有的器件模型中, 通過結(jié)合器件物理、電路分析、數(shù)學等理論學科建立主動恢復機制與電路設計中重要指標(如性能、壽命等) 之間的定量模型從而形成設計空間探索模型, 并與基于實際工藝的電路仿真結(jié)果進行對比和驗證。
挑戰(zhàn)2在有了理論模型的基礎(chǔ)之上,如何設計低開銷的主動恢復電路是另一個將主動恢復從器件級現(xiàn)象應用到實際設計中需要克服的重要挑戰(zhàn),如圖9所示,電路設計的本質(zhì)在于權(quán)衡不同的指標之間的關(guān)系,基于應用場景的要求而選取最優(yōu)的參數(shù)等,例如分析電路速度和面積,并以最小的面積取得最快的邏輯過程被稱為設計空間探索,其本質(zhì)為研究各關(guān)鍵指標之間的牽制關(guān)系。對于受老化影響的可靠性來講,通常用壽命來權(quán)衡,傳統(tǒng)的老化防護方法通常需要通過用較大的功耗、性能、面積和開銷換取更長的壽命,而主動加速恢復的機制將會影響壽命以及各類開銷,因此將對已有電路設計空間產(chǎn)生影響。綜合不同的應用場景需要研究普適的主動恢復輔助電路最大限度利用恢復可加速特性。
圖9 傳統(tǒng)老化防護方法與主動加速恢復設計方法設計空間的區(qū)別
挑戰(zhàn)3由于芯片的老化和時間直接相關(guān),所以在使用過程中老化的方式也在動態(tài)改變。 另外針對不同應用場景的芯片對于壽命的要求也不盡相同, 開銷小的自適應補償技術(shù)將是解決該問題的關(guān)鍵方式, 目前已有的自適應補償機制主要以適應的方式為主, 通過不斷放松時序或者設計準則要求去適應逐漸退化的電路性能,還未考慮恢復特性。因此面臨多樣的應用場景和壽命要求, 如何從本質(zhì)上將恢復的性質(zhì)與自適應機制融合形成全新的自適應恢復機理,如何實施主動恢復以及以低成本的方式集成到目前已有芯片中, 如何觸發(fā)主動恢復都成為亟需解決的一個挑戰(zhàn)。
本文在以下章節(jié)中將針對以上3個挑戰(zhàn)可采用的潛在方案進行詳細闡述。
利用主動加速恢復設計電路的重要根基之一即是器件模型,恢復過程是老化的可逆過程,以P型晶體管為例,其老化發(fā)生在柵源電壓Vgs處于負偏置狀態(tài)時(Vgs=-Vdd,也即晶體管正常工作時),這個階段也稱為受壓階段,此時溝道中存在大量的空穴載流子,當經(jīng)歷高溫和一定時間的受壓狀態(tài)后這些空穴不用越過很高的勢壘而隧穿進入柵氧化層內(nèi)部,陷阱俘獲這些空穴后將帶正電,會導致晶體管閾值電壓升高,N型晶體管的機制與此類似。根據(jù)經(jīng)典俘獲模型[32],閾值電壓的升高程度Vth(tstress)與受壓時間tstress呈對數(shù)關(guān)系
其中,A和C為工藝相關(guān)的參數(shù),φ1為與界面陷阱數(shù)量成正比的一個系數(shù),可以表示為
其中,K1和B為常數(shù),E0為 活化能, k為玻爾茲曼常數(shù),T為開氏溫度,tox為氧化層厚度,Vdd為工作電壓,因此結(jié)合式(1)和式(2)看出在固定工藝的情況下,閾值電壓在受壓階段的變化和受電壓以及溫度影響極大。
恢復過程開始于在晶體管關(guān)閉的時候(Vgs=0),此時被俘獲的空穴會被一定程度地釋放,閾值電壓會逐漸下降。根據(jù)釋放模型[32],如果晶體管在經(jīng)歷了受壓時間tstress后進入恢復階段,恢復階段閾值電壓的變化程度可以表征為
從式(3)和式(4)不難看出恢復階段閾值電壓的變化也與溫度和電壓有關(guān)(影響φ2),并且呈現(xiàn)指數(shù)關(guān)系。主動加速恢復的過程將在傳統(tǒng)意義的被動恢復(Vgs=0 )的基礎(chǔ)上繼續(xù)降低增加Vgs,使得Vgs為正,并且在恢復過程中引入高溫。另外從式(3)可以看出,恢復程度和歷史受壓狀況Vth(tstress)也有直接關(guān)系,因此在不同時機實施恢復對于最后能恢復的程度有直接影響。同理,對于N型晶體管,當柵源電壓Vgs為負值時,其進入主動恢復狀態(tài)。根據(jù)以上分析,在以上模型的基礎(chǔ)上可以全面考慮所有主動恢復控制變量包括恢復電壓、恢復溫度、恢復起始時間、受壓恢復比等,結(jié)合物理機制,完善主動恢復過程與閾值電壓變化過程的模型,最終與已有實驗結(jié)果進行交叉驗證。
閾值電壓的變化會直接減小晶體管的飽和電流,因此會造成時延增加,時延是電路設計中的重要指標之一。晶體管時延與閾值電壓呈現(xiàn)式(5)的關(guān)系
其中,CL是負載電容,與工藝和具體的設計有關(guān),Vth為閾值電壓,基于式(5)可以得到如式(6)的關(guān)系
其中,時延變化為td,td0為初始時延,因此將閾值電壓隨主動恢復各參數(shù)的變化模型代入式(6),可以計算在恢復階段的時延的變化。根據(jù)以上討論內(nèi)容,結(jié)合具體的工藝信息和具體電路特征,可以建立主動加速恢復變量對時延變化的影響模型。
對于電遷移而言,其發(fā)生的位置相比偏置溫度不穩(wěn)定性更為集中,在芯片上所有的金屬互連線網(wǎng)中,供電網(wǎng)絡(Power Delivery Network, PDN)上的電遷移問題最為嚴峻。這是因為信號線網(wǎng)、時鐘線網(wǎng)等互連線網(wǎng)中的電流方向和電流強度在芯片工作時會交替變化(AC變換),因此使金屬線具有一定的恢復能力。而在供電網(wǎng)絡中金屬導線上的電流方向和電流強度基本保持不變。因此,通常電遷移問題的主要研究對象為集成電路芯片中供電網(wǎng)絡。一般來講解決電遷移老化的辦法也是增加設計裕量,最常見的方法是加寬易受影響的部分金屬線以提高載流能力。由于底層金屬如M2,M3等相對較窄,因此受電遷移老化影響極大,通常需要加寬數(shù)倍(大于3倍)來防護,而信號線網(wǎng)、時鐘線網(wǎng)又需要大量底層金屬,加寬了供電網(wǎng)絡金屬意味著留給其他信號的繞線資源的大量減少。而主動加速恢復方法則是通過電路設計的方法使得供電網(wǎng)絡產(chǎn)生逆向電流而加速恢復,從而達到壽命增加的目的,但是目前還沒有具體的理論模型輔助分析該電流對于供電網(wǎng)絡的定量影響,這也將是該特性被真正應用的重要挑戰(zhàn)之一。
衡量供電網(wǎng)絡可靠性的重要指標為以電遷移造成的供電網(wǎng)絡電壓降(IR 壓降),通常在設計過程中需要確保該壓降不超過1個閾值電壓,如果IR壓降超過閾值,則需要以上提到的增加設計裕量的方法,而主動恢復的引入將直觀上減少該裕量,從而只需要構(gòu)建繞線資源較少的電源網(wǎng)絡即可滿足壓降閾值。定量分析和模擬這一影響需要了解電遷移老化和恢復的機制以及更準確以及針對性更強的電源網(wǎng)絡分析模型。和偏置溫度不穩(wěn)定性的成因類似,電遷移是金屬線在電流和溫度作用下產(chǎn)生的金屬遷移現(xiàn)象,運動中的電子和主體金屬晶格之間相互交換動量,金屬原子沿電子流方向遷移時,就會在原有位置上形成空洞,同時,在金屬原子遷移堆積形成丘狀突起。前者將引線開路或斷裂,而后者會造成光刻困難和多層布線之間的短路。其平均失效時間通常用經(jīng)典的布萊克方程表征
其中, A為線寬常數(shù),和金屬的電阻率、散射截面等有關(guān),J為電流密度,E0為 活化能, k為玻爾茲曼常數(shù),T為開氏溫度。由此可見,在工藝固定的情況下,影響電遷移的因素主要為溫度和電流密度。電遷移也是一個漸變的過程,表現(xiàn)為應力的逐漸增加,當應力積累到一定程度,電阻開始突然增加,表示電遷移已經(jīng)開始嚴重影響互連線的正常運行,這個過程類似于偏置溫度不穩(wěn)定性的受壓階段。同理,電遷移效應在一定的場景下也是可逆的,當電流為逆向時,電子會反向遷移,從而部分應力可以得到的恢復。根據(jù)文獻[41],在恢復階段可以表示為
其中,P為時鐘周期,j+為 正向電流密度,j-為逆向電流強度,γ為恢復常數(shù),通常為0.6?;谑?7)和式(8),可以看出如果增加j-(t)會降低平均電流密度,因此增加平均失效時間,也即壽命。
圖10展示了典型的供電網(wǎng)絡(以Vdd為例,VSS供電網(wǎng)絡情況類似)的電遷移分析流程,由于電流密度帶來的原子遷移會跨越不同的金屬導線段邊界,而不僅僅局限在一段導線上。電遷移會在由同層互連金屬導線構(gòu)成的互連樹上發(fā)生,因此必須考慮互連樹上不同金屬導線上電遷移的互相影響。根據(jù)Korhonen模型,供電網(wǎng)絡上電遷移是一個電流與應力相互作用的過程:電子的流動造成金屬線上應力的累積,當張應力達到臨界值時,金屬線上形成空洞,而空洞導致了供電導線電阻的增加,從而改變了供電網(wǎng)絡上的電流密度,又進一步影響應力分布。因此可以從電流應力的Korhonen物理模型出發(fā),讀入電路的網(wǎng)表信息,獲取待分析的金屬互連線網(wǎng),并構(gòu)建同層金屬互連線構(gòu)成的互連樹,進一步將供電網(wǎng)絡建模為時變的電阻網(wǎng)絡,通過仿真時間的推進計算電流應力與電流密度的相互作用,在此過程中引入主動恢復相關(guān)參數(shù),如恢復周期、逆向電流強度、恢復溫度等變量,最后同樣以供電節(jié)點上電壓降超過一定閾值作為失效評判標準,結(jié)合式(7)和式(8)計算供電網(wǎng)絡的平均電遷移失效時間,也即供電網(wǎng)絡的最終壽命。
圖10 供電網(wǎng)絡電遷移分析流程(以Vdd為例,此處忽略VSS)
對于偏置溫度不穩(wěn)定性效應,加速其恢復過程的最有效機制為降低Vsg為負,另一方面為提高恢復溫度。而對于電遷移老化,加速其恢復過程為在供電網(wǎng)絡中實現(xiàn)逆向電流。通常芯片上的偏置負電壓發(fā)生器電路應用于低電壓放大器,使放大器輸出接近零電壓(如圖11(a)所示)。本文展示了一個適用于主動恢復電壓范圍內(nèi)的專用負電壓發(fā)生器,原理如圖11(c)所示。該電路基于經(jīng)典的電荷泵(charge pump)原理,包括一個非重疊時鐘發(fā)生器(圖11(b)),以及開關(guān)電容。輸出負電壓(Vout)的值可以在設計時通過調(diào)節(jié)電容值(C1與C2的比例)以及時鐘的周期來調(diào)節(jié),因此該電壓發(fā)生器可以用來傳輸偏置負電壓。
圖11 可用作主動加速恢復的負偏置電壓發(fā)生器電路原理圖(基于文獻[16]進行了修改)
針對電遷移,受電路設計的功率門控技術(shù)(Power gating)啟發(fā),文獻[39]提出全新的可以支持供電網(wǎng)絡逆向電流的電路結(jié)構(gòu),其原理如圖1 2(a)所示。主要設計思路為通過添加門控在Vdd和VSS供電網(wǎng)絡的兩端來逆轉(zhuǎn)電流方向,而負載(如圖中的處理器)兩端的電流方向始終保持不變。因此該電路結(jié)構(gòu)可以支持在電遷移老化和恢復過程中實際負載皆可正常工作。利用本電路結(jié)構(gòu)需要解決的挑戰(zhàn)之一為如何確保壓降以及不同模式切換時間在可接受范圍。圖12(b)展示了文獻[16]中通過基于28 nm工藝的仿真結(jié)果,負載只選取較小的環(huán)形振蕩器,但是通過此結(jié)果可以發(fā)現(xiàn)該電路的優(yōu)勢之一是模式切換時間隨負載大小的變化相對緩慢,這也意味著可以進一步通過實際的負載大小選取晶體管N1-4,P1-4的尺寸來確保負載的延時以及模式切換時間在一個可接受的范圍。
圖12 支持供電網(wǎng)絡逆向電流的門控電路及其性能評估(基于文獻[39]進行了修改)
以上兩個電路僅為當前在主動加速恢復方面已有的嘗試,由于實際芯片開銷和應用場景的不同,該類電路模塊的插入需要一系列的設計空間探索,如圖13所示,設計者需要根據(jù)實際芯片和應用場景制定主動恢復的方案,進而估算預期收益;同時也可以基于實際的預期指標提升需求(比如壽命提升)獲得所需要的主動恢復條件,從而在設計初期部署相關(guān)設計方法。
圖13 主動加速恢復情形下的電路設計空間探索模型示意圖
目前主流芯片中已被廣泛應用的自適應機制為自適應電壓縮放(Adaptive Voltage Scaling, AVS)技術(shù),在電壓縮放電源和芯片上的性能監(jiān)視器之間實現(xiàn)了閉環(huán)反饋系統(tǒng)。主動加速恢復機制的實現(xiàn)可以參考類似的機制,并本著盡可能多利用片上現(xiàn)有資源的原則來減少主動恢復帶來的額外開銷。圖14展示了潛在的以主動加速恢復為核心的自適應系統(tǒng)。感知電路負責實時采集老化或恢復狀態(tài)信息,當超過閾值時,將自行啟動主動恢復過程,主動恢復電路模塊將實施加速恢復,直到感知電路系統(tǒng)恢復停止報警。與此同時,在主動恢復過程中,將啟動狀態(tài)保存機制,該機制將采用與傳統(tǒng)的功率門控技術(shù)類似的方式(在電源關(guān)斷過程中,系統(tǒng)的狀態(tài)被保存在狀態(tài)保持寄存器里)。根據(jù)反饋系統(tǒng)中負載電路粒度(也即芯片的不同分區(qū))對芯片可靠性的影響,可以將芯片的功能模塊集成不同的主動恢復模式,以此來節(jié)約開銷。例如中央處理器(CPU)的ALU模塊更容易老化,因此可以支持多模式主動恢復,而緩存Cache部分可以只支持其中一種模式。
圖14 感知-主動加速恢復自適應系統(tǒng)集成方案
集成電路老化效應隨著工藝迭代愈加顯著,以偏置溫度不穩(wěn)定性和電遷移為主導的老化機制分別制約晶體管和互連線的性能,兩種老化機制都具有一定的可恢復性,但是恢復較慢,且依然存在不可恢復的部分,因此當前主要的老化防護方法依然以預留足夠的裕量為主要思路。本文討論了一種全新的維度來緩解老化帶來的影響,主動加速恢復通過利用近些年發(fā)現(xiàn)的老化恢復的可加速性這一特性,結(jié)合新型的電路方法和思路,從而可以大幅度減少設計初期預留的時序余量,提高系統(tǒng)平均性能。然而,在電路設計過程中最大化地利用該特性而不產(chǎn)生巨大的面積功耗開銷需要全新的設計空間探索,依然需要解決包括電路模型的建立、輔助電路的設計、系統(tǒng)層次的集成等瓶頸問題,本文針對以上挑戰(zhàn)介紹了一系列的潛在解決方案,提出了結(jié)合自適應的機制設計感知-主動加速恢復系統(tǒng)的概念,最大程度利用恢復特性進行抗老化設計,具體的系統(tǒng)設計細節(jié)以及驗證部分將在未來的工作中陸續(xù)介紹。