摘要:為保證變電站繼電保護裝置的運行可靠性,突破原有僅憑經(jīng)驗進行熱設(shè)計與分析的局限,對國產(chǎn)核心芯片與板卡進行精準(zhǔn)建模,采用力導(dǎo)向算法優(yōu)化熱源布局。通過精細化熱分析及實驗驗證表明:本方法改善了板卡局部熱點與溫度梯度分布,增加了國產(chǎn)化繼電保護裝置的熱安全余量,提升了裝置在工程現(xiàn)場長期運行的可靠性。
關(guān)鍵詞:國產(chǎn)芯片;繼電保護裝置;精準(zhǔn)建模;力導(dǎo)向算法;精細化熱分析;可靠性
中圖分類號:TK123文獻標(biāo)志碼:A文章編號:1671-5276(2024)06-0205-06
Abstract:To ensure the operation reliability of relay protection devices in substations, by breaking through the limitations of the original thermal design and analysis merely based on experience, builds precise models of domestic core chips and printed circuit boards, and optimizes the layout of heat sources by using force-directed algorithm. The refined thermal analysis and experimental verification indicate that the optimized method improves the local hot spot and temperature gradient distribution of the pcb, increases the thermal safety margin of the domestic relay protection device, and reinforces the long-term operation reliability of the device on project site.
Keywords:domestic chip; relay protection device; precise modeling; force-directed algorithm; refined thermal analysis; reliability
0引言
長期以來,變電站繼電保護裝置CPU、FPGA等核心芯片完全依賴進口,隨著中美貿(mào)易摩擦加劇,尤其是美國《2022芯片與科學(xué)法案》的簽署,使自主可控、安全可靠成為智能電網(wǎng)的重要發(fā)展方向[1-2],繼電保護裝置芯片自主化進程進一步加速。國外半導(dǎo)體技術(shù)比較發(fā)達,芯片制程工藝先進,封裝集成度高,功耗低,芯片研發(fā)、應(yīng)用與量產(chǎn)均已經(jīng)過多場景、長時間驗證,可靠性較高。相比而言,國內(nèi)芯片產(chǎn)業(yè)仍處于發(fā)展上升期,國產(chǎn)芯片在單位性能下的功耗和熱穩(wěn)定性與進口芯片相比存在較大差距。應(yīng)用國產(chǎn)芯片的繼電保護裝置在工程現(xiàn)場運行的可靠性與裝置內(nèi)部發(fā)熱情況息息相關(guān),如芯片功耗高、發(fā)熱大,加之散熱設(shè)計不充分,將引起芯片參數(shù)漂移、熱擊穿等而引發(fā)設(shè)備誤動或拒動等嚴(yán)重故障,危及電網(wǎng)運行安全[3]。
據(jù)統(tǒng)計,電子設(shè)備超過50%的失效故障均由器件溫度超限導(dǎo)致,且失效概率隨溫度增加呈指數(shù)增長趨勢[4],因此在系統(tǒng)及部件設(shè)計過程中開展科學(xué)合理、精確的熱分析顯得尤為重要。張瑾等[5]對自主龍芯3A處理器進行了封裝和散熱分析,使封裝管殼能滿足處理器高功耗的散熱需求;謝秀娟等[6]針對FC-BGA(flip chip ball grid array)倒裝芯片球柵格陣列的封裝形式,通過詳細的熱模型分析以提高芯片的熱可靠性;周輝等[7]通過理論模型與仿真分析相結(jié)合的方法,分析并改進了繼電保護裝置內(nèi)部溫度分布。但以上研究均只聚焦芯片或板卡單體,仿真分析顆粒度較粗,實際工程應(yīng)用中設(shè)備對溫度環(huán)境的適應(yīng)性與仿真分析結(jié)果存在較大差異。
另外,許多繼電保護裝置有嚴(yán)格的防水、防塵要求,無法選擇水冷、風(fēng)冷等主動散熱方式,通常采用密閉箱體與被動散熱相結(jié)合的結(jié)構(gòu)形式。雖然被動散熱不需要冷卻劑驅(qū)動裝置,可靠性高,但散熱效率低,元器件溫升大,因此精細化的熱分析對提升基于國產(chǎn)芯片的繼電保護裝置熱可靠性具有更為重要的意義。本文在國產(chǎn)芯片與板卡兩個維度開展熱仿真精細化建模,突破了僅依靠經(jīng)驗進行優(yōu)化設(shè)計的傳統(tǒng)模式,應(yīng)用力導(dǎo)向算法優(yōu)化布局并進行仿真和實測驗證,為基于國產(chǎn)芯片的繼電保護裝置開發(fā)提供指導(dǎo),有利于提升設(shè)備在現(xiàn)場長期運行的可靠性。
1國產(chǎn)芯片與板卡精準(zhǔn)建模
1.1芯片熱仿真模型構(gòu)建
CPU芯片和FPGA芯片是繼電保護裝置中實現(xiàn)采集計算、通信處理等核心功能的關(guān)鍵元器件,單體功耗較高,是設(shè)備可靠性的關(guān)鍵。龍芯LS2K2100是一款面向工業(yè)控制與終端等領(lǐng)域的自主通用處理器,采用FC-BGA封裝形式,將芯片正面朝下倒扣于封裝管殼頂部,通過焊球凸點將芯片焊接到封裝基板上,芯片上方無頂蓋設(shè)計,如圖1(a)所示。復(fù)旦微電子FMK50T4是一款高性能、小封裝的自主可編程邏輯芯片,同樣采用FC-BGA封裝,且芯片上方有散熱金屬頂蓋,如圖1(b)所示。
FC-BGA是目前自主CPU和FPGA芯片普遍采用的高密度封裝形式。采用底部朝上、倒裝在基板的結(jié)構(gòu)形式,使芯片背面貼近封裝管殼頂部,更利于散熱[8]。龍芯LS2K2100與FMK50T4的封裝結(jié)構(gòu),分別如圖2(a)、圖2(b)所示。根據(jù)CPU芯片、FPGA芯片的幾何結(jié)構(gòu)參數(shù),建立如圖3所示的三維模型。模型由晶圓(die)、基板(substrate)、底部填充(underfill)、凸點(bump)、焊球(solder ball)和頂蓋(cover)等部分組成,并按表1設(shè)置各組成部分的材料屬性與導(dǎo)熱系數(shù)。
以繼電保護裝置的過程層通信處理板為例,該板卡實現(xiàn)過程層SV(sampled value)的接收和GOOSE(generic object oriented substation event)的收發(fā)功能,并和中央處理板之間交互實時數(shù)據(jù)。該板卡采用1片龍芯LS2K2100CPU芯片和2片F(xiàn)MK50T4FPGA芯片,CPU和FPGA之間通過PCIe接口交互實時數(shù)據(jù)。主要發(fā)熱器件的初始布局如圖4所示。CPU芯片、FPGA芯片和光通信模塊是最主要的發(fā)熱器件,其中光通信模塊為外部物理接口,位置相對固定。為保證熱仿真分析的裕度,器件功耗按正常工作時最大功耗或設(shè)計最大功耗取值。板卡上主要發(fā)熱器件的特征參數(shù)如表2所示。
部均有不同的導(dǎo)熱率特性。仿真分析時,通常將PCB粗略地簡化為平面方向和垂直方向呈不同熱導(dǎo)率的均勻材質(zhì),此種簡化對于PCB各層走線分布相對均勻的設(shè)計具有一定的合理性。但是,采用自主CPU和FPGA的通信處理板器件密度大、走線復(fù)雜,如果不考慮PCB熱導(dǎo)率的局部變化,仍使用簡化模型,將無法清晰反映實際PCB的導(dǎo)熱特性,從而影響熱仿真分析的準(zhǔn)確性[9]。
為此,本研究先期完成通信處理板的首版設(shè)計,并在熱仿真分析時通過導(dǎo)入ECAD布線與過孔信息建立板卡的精準(zhǔn)模型,如圖5所示。從PCB正面熱導(dǎo)率分布可以看出,精準(zhǔn)模型下PCB熱導(dǎo)率與銅層分布、走線疏密、過孔分布相吻合,銅層面積大的區(qū)域熱導(dǎo)率高,最高約387.6W/m·K,而絕緣介質(zhì)區(qū)域熱導(dǎo)率僅0.35W/m·K。該模型較準(zhǔn)確地反映了PCB各向與局部均有不同的熱導(dǎo)率特征,為板卡熱仿真分析的精準(zhǔn)性提供了基礎(chǔ)支撐。
2基于精準(zhǔn)模型的熱仿真分析
基于上述國產(chǎn)芯片和板卡的精準(zhǔn)模型,使用有限元法求解環(huán)境溫度75℃、自然散熱條件下通信處理板的穩(wěn)態(tài)溫度分布。LS2K2100CPU芯片溫度分布如圖6所示,位號U802的FMK50T4FPGA芯片的溫度分布如圖7所示。CPU芯片最高結(jié)點溫度118.3℃,位號U802、U803的FPGA芯片最高結(jié)點溫度分別為117.9℃、115.1℃,都非常接近芯片最高允許的結(jié)點溫度,安全余量較小。通信處理板正表面溫度分布如圖8所示。從仿真結(jié)果可以看出,芯片產(chǎn)生的熱量主要集中在封裝內(nèi)部,通過芯片頂部散熱器傳導(dǎo)至周圍空氣中。通信處理板3顆芯片附近熱量集聚,在熱耦合作用下,熱點附近溫度梯度大,很可能產(chǎn)生較大的熱應(yīng)力。當(dāng)熱應(yīng)力到達一定數(shù)值,將導(dǎo)致PCB變形、焊接部位開裂和元器件失效等可靠性問題[10]。因此,為確保國產(chǎn)芯片在75℃環(huán)境溫度下能可靠地工作,需要科學(xué)合理地優(yōu)化上述芯片布局,降低芯片結(jié)溫的同時,使板卡的溫度分布更加均勻,提升板卡的熱穩(wěn)定性。
3基于力導(dǎo)向算法的熱布局優(yōu)化
3.1力導(dǎo)向算法布局優(yōu)化
器件熱布局可以通過優(yōu)化算法來求解。近年來,國內(nèi)外許多學(xué)者對此類問題進行了深入的探討和研究,取得了顯著的進展,提出了多種優(yōu)化模型和算法,其中應(yīng)用較多的有遺傳算法、模擬退火算法和力導(dǎo)向算法等。遺傳算法訓(xùn)練時間長,對初始種群的選擇有很強的依賴性[11];模擬退火算法采用慢降溫、多抽樣等方式,算法效率有所提高,但容易導(dǎo)致局部最優(yōu)解情況[12]。力導(dǎo)向算法兼具上述算法優(yōu)點,綜合性能較好[13]。
力導(dǎo)向算法假定任意器件之間都存在互斥力,斥力大小與芯片功耗成正比,與芯片距離成反比。設(shè)PCB長為L,寬為W,(Xi,Yi)是元器件di(i=1,2,…,m)的位置坐標(biāo)。由于PCB側(cè)面耗散的熱量與PCB頂面、底面耗散的熱量相比可以忽略,因此模型假設(shè)PCB側(cè)面絕熱。為解決邊界不連續(xù)問題,將對稱平面放置在4個側(cè)面,如圖9所示。此時左下角位于原點的物理區(qū)域PCB與有限個熱源被鏡像成無邊界PCB與無限個鏡像熱源。其中row、column是指力導(dǎo)向算法提及的鏡像模型中,某PCB對應(yīng)位置的行與列位置數(shù)值。
設(shè)圖9中物理區(qū)域PCB上器件dj的位置坐標(biāo)為(Xj,Yj),鏡像模型中位于r行c列的PCB上器件dj的位置坐標(biāo)為(Xj(r,c),Yj(r,c)),則有:
為模擬熱傳導(dǎo)機制,定義無邊界板中器件dj施加到物理區(qū)域器件di的斥力為
式中:αi為器件di的熱敏感系數(shù),一般器件αi=1,熱敏感器件αigt;1;qj是器件dj的功耗;Δri,j(r,c)是無邊界板中器件dj到物理區(qū)域器件di的距離。
將fi,j(r,c)分解,得到x軸、y軸分量:
根據(jù)線性疊加原理,將熱源擴充至無邊界區(qū)域的m個熱源,則物理區(qū)域中器件di受到的總斥力為
Fzi=∑mj=1fzi,j+∑式中z是x軸或y軸分量。由于f(r,c)i,j隨Δr(r,c)i,j平方而快速衰減,算法在實際應(yīng)用中可以將a設(shè)為5,此時物理區(qū)域被鏡像為原來面積的121倍。至此,熱布局優(yōu)化問題轉(zhuǎn)變?yōu)榍蠼夥匠蘁zi=0,獲得熱源坐標(biāo)的問題。先求Fzi的偏導(dǎo)數(shù):
F′zi=∑mj=1{f′zi,j+∑將器件di的位置zi按式(12)、式(13)進行迭代:
式中系數(shù)取0.5是因為兩個器件之間斥力是相互的。如計算得到的zi,new超出物理區(qū)域,則將Δzi減半取值,直至zi,new在物理區(qū)域內(nèi)。為了使求解計算能收斂,定義
當(dāng)?shù)嬎銤M足式(15)、式(16)時,判定計算收斂:
設(shè)置求解精度ε1=0.01,ε2=0.01。從初始布局開始計算Norm,判斷是否滿足精度要求,若不滿足精度要求,則按式(12)、式(13)計算新的器件位置進行迭代,直至同時滿足收斂準(zhǔn)則式(15)與式(16)為止。此時器件坐標(biāo)即為力導(dǎo)向算法優(yōu)化后的熱布局。
3.2熱布局優(yōu)化仿真驗證
在圖4所示的通信處理板上劃定深色陰影區(qū)域為CPU芯片與FPGA芯片布局可調(diào)整區(qū)域,作為算法的物理區(qū)域。將物理區(qū)域的尺寸與芯片對應(yīng)功耗輸入由Python語言實現(xiàn)的算法程序中。程序從隨機布局開始,計算收斂后得到CPU芯片與FPGA芯片優(yōu)化后的位置坐標(biāo)。按算法優(yōu)化后的芯片位置重新調(diào)整板卡電路設(shè)計,使用熱仿真分析軟件求解其在自然散熱條件下的穩(wěn)態(tài)溫度分布,如圖10所示。熱布局優(yōu)化前后芯片溫度的仿真計算結(jié)果如表3所示。
從仿真對比結(jié)果可以看出,優(yōu)化前CPU芯片與FPGA芯片布局位置比較靠近,芯片產(chǎn)生的熱量沒有足夠的空間傳導(dǎo),因熱量積聚導(dǎo)致芯片溫度的升高。算法合理優(yōu)化了芯片間距與位置關(guān)系,使CPU芯片和兩顆FPGA芯片的結(jié)溫分別下降了2.5℃、5.3℃和1.6℃,芯片溫升得到較大改善。
3.3熱布局優(yōu)化實測驗證
為進一步驗證基于力導(dǎo)向算法熱布局優(yōu)化方法的有效性,按優(yōu)化前后兩種熱布局設(shè)計制造通信處理板,并在CPU和兩顆FPGA芯片正表面固定鉑電阻溫度傳感器,配置相同負(fù)載,放入標(biāo)準(zhǔn)溫度試驗箱VC37060內(nèi),進行75℃高溫運行實驗。引出溫度傳感器連接到數(shù)據(jù)采集終端,通過計算機讀取、處理后得到芯片的結(jié)溫數(shù)據(jù)。在運行2h后,記錄熱平衡時測試芯片表面溫度如表4所示。
從實測結(jié)果看,CPU芯片結(jié)點溫度下降了2.9℃,兩顆FPGA芯片分別下降了5.9℃、2.5℃,PCB平均溫度下降了2.2℃。通信處理板高溫運行實測數(shù)據(jù)和仿真結(jié)果接近,進一步驗證了熱仿真模型的準(zhǔn)確性和布局優(yōu)化效果。板卡實測效果略優(yōu)于仿真數(shù)據(jù),主要是因為溫度試驗箱為了保證箱內(nèi)溫度均勻性,配置了系統(tǒng)風(fēng)扇,內(nèi)部相比自然散熱條件有相對更高的氣流速度,一定程度上提升了PCB與芯片散熱器的散熱效率。
需要注意的是,設(shè)計板卡電路時,在仿真優(yōu)化的基礎(chǔ)上還需要結(jié)合板卡的硬件資源情況和接口設(shè)計復(fù)雜度,統(tǒng)籌考慮整體優(yōu)化布局,在電路設(shè)計和仿真優(yōu)化之間進行迭代,才能設(shè)計出滿足實際目標(biāo)要求的產(chǎn)品。
4結(jié)語
目前國產(chǎn)CPU、FPGA等高端芯片制造工藝相對落后,芯片功耗較高。采用國產(chǎn)芯片的繼電保護裝置在工程應(yīng)用時面臨熱可靠性問題。針對此問題,本文建立了國產(chǎn)芯片與板卡的精準(zhǔn)模型,并開展了熱仿真計算與分析。同時,采用力導(dǎo)向算法對原來僅憑經(jīng)驗布置的芯片熱源位置進行了科學(xué)布局優(yōu)化,并通過仿真與實測對比加以驗證。本研究采用精細化熱分析和熱布局優(yōu)化的閉環(huán)驗證方法,實現(xiàn)了國產(chǎn)芯片熱源的控溫要求,改善了板卡局部熱點與溫度梯度分布,增加了國產(chǎn)化繼電保護裝置的熱安全余量,提升了設(shè)備現(xiàn)場長期運行的可靠性,對工業(yè)領(lǐng)域高防護要求的電子設(shè)備熱可靠性設(shè)計具有一定的借鑒意義。
參考文獻:
[1] 仲偉,王仲,陶保震,等. 新一代自主可控保護裝置軟硬件平臺技術(shù)[J]. 電力系統(tǒng)保護與控制,2022,50(6):135-140.
[2] 李友軍,周華良,徐廣輝,等. 基于龍芯處理器的繼電保護裝置平臺及關(guān)鍵技術(shù)[J]. 電力自動化設(shè)備,2022,42(3):218-224.
[3] 鄭玉平. 電網(wǎng)繼電保護技術(shù)與應(yīng)用[M]. 北京:中國電力出版社,2019:164-168.
[4] 于慈遠,于湘珍,楊為民. 電子設(shè)備熱分析/熱設(shè)計/熱測試技術(shù)初步研究[J]. 微電子學(xué),2000,30(5):334-337.
[5] 張瑾,王劍. 龍芯3A處理器封裝的散熱設(shè)計[J]. 計算機工程與科學(xué),2009,31(增刊1):120-124.
[6] 謝秀娟,楊少柒,羅成,等. 倒裝陶瓷球柵陣列電子封裝的熱模型研究[J]. 電子元件與材料,2011,30(11):68-71.
[7] 周輝,鄭立亮,沈敏,等. 基于Icepak的電網(wǎng)保護裝置熱設(shè)計研究[J]. 機械制造與自動化,2022,51(4):206-210.
[8] MALLIK D. Advanced package technologies for high-performance systems[J]. Intel Technology Journal,2005,9(4):259-271.
[9] 馬巖. 印制電路板詳細模型的熱仿真分析[J]. 機械設(shè)計與制造工程,2016,45(1):52-55.
[10] 文惠東,黃穎卓,林鵬榮,等. 陶瓷封裝倒裝焊器件熱學(xué)環(huán)境可靠性評估[J]. 半導(dǎo)體技術(shù),2019,44(9):723-727.
[11] 閻德勁,周德儉,黃春躍,等. 基于遺傳算法的表面組裝電子元件熱布局優(yōu)化[J]. 電子機械工程,2007,23(2):12-17.
[12] 王乃龍,戴宏宇,周潤德. 用模擬退火算法實現(xiàn)集成電路熱布局優(yōu)化[J]. 半導(dǎo)體學(xué)報,2003,24(4):427-432.
[13] LEE J. Thermal placement algorithm based on heat conduction analogy[J]. IEEE Transactions on Components and Packaging Technologies,2003,26(2):473-482.
收稿日期:20230309
基金項目:國家重點研發(fā)計劃資助項目(2021YFB2401000)
第一作者簡介:甘云華(1983—),男,高級工程師,碩士,研究方向為電力二次設(shè)備共性平臺技術(shù),shenmin1981@sina.cn。
DOI:10.19344/j.cnki.issn1671-5276.2024.06.041