王雷,陳志列
(1. 研祥智能科技股份有限公司,廣東 深圳,518057;2. 國家特種計算機工程技術研究中心,廣東 深圳,518057)
獨立溫度應力施加在系統(tǒng)可靠性評估中的應用
王雷1,2,陳志列1,2
(1. 研祥智能科技股份有限公司,廣東 深圳,518057;2. 國家特種計算機工程技術研究中心,廣東 深圳,518057)
在工業(yè)系統(tǒng)的可靠性設計中,通過溫度應力加速激發(fā)產品潛在缺陷,提高產品設計可靠性,已經(jīng)成為目前的研究熱點。在溫度應力施加過程中,如何利用局部獨立溫控來確認系統(tǒng)的可靠性限值,區(qū)分元件在極限溫度應力下的敏感性,成為開展加速溫度應力試驗時必須面對的問題。利用獨立溫控方法進行可靠性設計分析,國外已經(jīng)有較成熟的系統(tǒng),但可查詢到的信息幾乎空白;國內僅在研究所和軍工中有部分應用,可參考的資料也很少。本文通過理論與實際的分析研究,設計出了一種溫度應力控制系統(tǒng),說明了其在可靠性評估中的應用方法,以及對溫度敏感類問題的驗證原理。
可靠性評估;高溫度應力試驗;獨立溫控
為了驗證工業(yè)控制計算機的設計可靠性,普通的燒機老化測試由于驗證時間太長,已經(jīng)不能滿足產品開發(fā)周期的要求,如果采用高溫變率的早期缺陷篩選[1],也只能對普通元器件的參數(shù)一致性問題進行排查,但對于潛在性設計缺陷卻無法篩查驗證,只能通過后期的可靠性鑒定試驗[2]和客戶驗收試驗來得到數(shù)據(jù),改善成本高且周期長。而高加速的溫度應力試驗提供了一種新的手段和方法,具有快速高效的缺陷激發(fā)能力,可以實現(xiàn)有效發(fā)現(xiàn)產品設計問題的目的。
如何通過溫度應力驗證產品可靠性,應用獨立溫控技術確認器件對溫度應力的敏感性及器件間的關聯(lián)性,成為目前需要研究的問題。
通過HALT[3]測試發(fā)現(xiàn),在元器件殼溫達到105℃時,CPU出現(xiàn)自動保護,無法開機,由于此溫度保護點是由因特爾公司芯片內置的保護,通過軟件設置無法關閉,當需要進一步溫度應力施加時,由于機器已經(jīng)無法開機,試驗無法開展。
為了給高溫情況下系統(tǒng)器件可靠性驗證創(chuàng)造條件,必須考慮采用局部溫控,達到對CPU等關鍵部件的局部溫度控制,使其殼溫低于溫度保護點105℃,實現(xiàn)在高溫情況下機器可以正常開機繼續(xù)測試,從而驗證橋芯片和內存顆粒等其他器件。
表1是幾種溫度控制技術比較:
表1 主流散熱方式對比Tab.1 comparison of main cooling modes
對于目前需要通過HALT試驗來進行可靠性驗證的情況,試驗箱內的環(huán)境溫度范圍可以達到-60℃~150℃,在此環(huán)境下,CPU等關鍵元件很容易出現(xiàn)過溫保護,而為了驗證各器件的可靠性,必須進行局部的獨立溫度控制,從而達到對器件溫度敏感性的驗證。目前國內外關于獨立溫控的設備主要由以下幾種方式(如圖1至圖3所示):
圖1 水冷制冷設備Fig.1 Water cooled refrigeration equipment
圖2 液氮冷卻制冷設備Fig.2 liquid nitrogen cooling refrigeration equipment
水冷散熱器如圖1所示,主要由散熱頭和密封管以及散熱排和散熱風扇組成,散熱冷頭部位安裝有小型水泵來增加內部水流速度,由于此種散熱器對密封要求較高,密封水管要求能夠耐受高低溫驟變等惡劣環(huán)境。對于現(xiàn)有成品而言,如果需要進行獨立溫控應用,需要重新選擇密封水管,并設計防水,存在的問題是,當環(huán)境溫度升高后,散熱效果會逐漸降低,對于箱體內部的高溫環(huán)境下散熱,效果會大打折扣,所以此種方案被否決,不適合于在HALT試驗時進行溫控應用。
液氮制冷如圖2所示,目前德國已經(jīng)有此應用,但其采用密閉系統(tǒng)進行降溫,內部的液氮通過吸熱氣化和加壓液化的過程進行熱量傳遞,此種冷卻方案對于溫度無法調節(jié)控制,僅能起到降溫的目的,不適用于具體測試過程中元器件各個限值溫度點的確認和驗證。
半導體制冷片如圖3所示,其利用半導體兩端通電后,在PN兩級產生熱端和冷端,從而實現(xiàn)將冷端的熱量帶到熱端的目的,不過此種制冷片只是完成熱量從冷端到熱端的轉移,如果熱端的熱量沒有快速帶走,其制冷效率會大大降低,而在HALT試驗箱中,環(huán)境溫度變化加大,散熱效果無法得到保證,對局部的溫度無法具體的控制。
通過表1對各種散熱方式的分析以及目前國內外幾種散熱設備的比較,要實現(xiàn)-60℃~150℃寬溫度范圍的局部溫度控制,只能通過化學制冷,采用干冰或者液氮作為制冷劑,但干冰制冷范圍較窄,所以只能采用液氮作為制冷劑。
圖3 半導體制冷片F(xiàn)ig.3 Semiconductor refrigeration chip
圖4 冷卻腔體內部剖面圖Fig.4 internal profile of cooling cavity
2.1 液氮冷卻腔體設計
如圖4所示,為液氮冷卻腔體及進液管和出氣管的連接示意圖。液氮腔體的結構設計成周圍帶有真空層,其目的是為了有效隔熱,隔斷內腔與四周空間之間的熱交換,使得液氮在內腔中氣化時只從杯底吸收熱量,提高了其對腔體底部被測器件的冷卻能力,減少了對周圍其它器件的溫度干擾。液氮輸入管帶有真空層,也是為了隔斷其與外界空間環(huán)境之間的熱交換,防止液氮在輸送的過程中影響周邊空氣溫度。
進液管最好可以靠近杯子底部,這樣可以保證液氮盡可能直接接觸到冷卻腔體底部,較少的受到杯子內部的氮氣影響,提高制冷效果,排出管考慮到成本費用因素,可以不采用真空管,但其外部也需要用隔熱材料包裹好,避免冷凝水形成,造成電路的短路。
2.2 安裝架和導熱支架設計
如圖5所示,為導熱支架、冷卻腔體、安裝架之間的連接裝配圖,其中導熱支架是針對不同的元件需要專門定制,底面與對應元件接觸,上表面與冷卻腔體底部接觸,要求導熱性好,面光滑,四個角加固定孔與PCB鎖?。粚嶂Ъ苌厦娣爬鋮s腔體,用安裝架壓住鎖緊,從而保證冷卻腔體、導熱支架和PCB上元件的熱阻最小,冷卻腔體外側面用隔熱材料包裹,在其外側面靠底部預留一個小凸臺,方便安裝固定;杯蓋采用凸臺式設計,并在凸臺周圍附上塑膠密封圈,與杯體內腔契合,達到良好的密封效果,從而提高隔熱效果,并防止氮氣外泄對周圍操作人員產生不良影響。
2.3 制冷系統(tǒng)設計
液氮制冷系統(tǒng)方案如圖6所示,主要由真空杯、真空隔熱管、排氣管、杜瓦罐以及手動液氮泵等部件組成。為了保證冷卻腔體能夠與PCB上的CPU、橋芯片、板載式內存顆粒等元件接觸良好,熱阻較小,需要針對不同原件設計導熱片,把冷卻腔體安裝上去后再裝安裝架固定,保證冷卻腔體與PCB鎖緊,使散熱杯與功率原件緊密貼合[4]。
將冷卻腔體上的液氮輸入管接通液氮存儲罐,通過手壓泵將液氮泵入冷卻腔體,快速進入冷卻腔體的液氮在低氣壓環(huán)境中迅速氣化成了氮氣,由氮氣輸出管排出,同時從杯底吸收了大量的熱,杯底變冷,導熱架得到冷卻,從而把元器件產生的熱量帶走,這樣的過程不斷循環(huán)會使主板上的單個器件持續(xù)冷卻,通過增加液氮流量會使器件溫度變得更低,直至低溫保護點。主板不啟動時測得的杯底導熱架溫度就是這個器件真實的低溫操作溫度,然后將液氮流量調節(jié)至最小,待該器件在周圍環(huán)境的傳導的對流熱的作用下逐漸恢復(如不能夠恢復工作,則此溫度點為該器件的低溫破壞限值溫度點),再次增大流量降溫,直到元件低溫無法恢復工作為止,此時測得的溫度點即為此元件的低溫破壞點。
為了防止在大溫差環(huán)境下的局部低溫部分可能產生的凝露的問題,我們在冷卻腔體周圍及上蓋,液氮輸入管和氮氣輸出管等都包裹保溫棉,加強其與環(huán)境之間的隔熱作用,也可吸收電子元器件表面產生的少量水滴,防止電子元器件表面冷凝結水,導致短路。
圖5 方案示意圖Fig.5 Schematic diagram
圖6 制冷系統(tǒng)連接圖Fig.6 refrigeration system connection diagram
本系統(tǒng)可應用于HALT實驗,作為高溫條件下各元件和模塊的操作溫度限值和破壞溫度限值尋找和確認手段,從而建立產品的元件及模塊溫度限值數(shù)據(jù)庫,為可靠性設計和降額提供支持[5]。另外,在方案可靠性預計階段,通過溫度限值數(shù)據(jù)庫可以提供較精確的實際元件溫度因子數(shù)據(jù),摒棄了國內目前可靠性預計采用MIL-HDBK-217F、GJB299C、SR332等標準的滯后性,提高了方案階段的元器件應力預計可靠性以及結果準確性,更好的指導工程師進行可靠性設計[6]。
本系統(tǒng)可以作為低溫敏感元件的限值確認。如在做低溫實驗時,系統(tǒng)出現(xiàn)低溫不開機情況,此時無法確認是由于哪些關鍵元件導致了主板的不開機,但通過液氮的局部冷卻功能,就可以通過給局部元件降溫來觀察主板工作情況,同時記錄對應工作狀態(tài)的溫度點,從而可以得到元器件的低溫操作限值。
在驗證客戶端低溫工作不良問題時,此系統(tǒng)也非常有用。可以在開機狀態(tài)下,對局部的元件或模塊進行降溫,觀察主板工作狀態(tài),從而確認低溫狀態(tài)下不開機的問題所在。如不久前有客戶抱怨我們主板在北方較寒冷地區(qū)工作不穩(wěn)定,溫度較低時就會出現(xiàn)不開機的情況,通過獨立溫控裝置對板載內存顆粒在開機狀態(tài)下的局部冷卻,發(fā)現(xiàn),當溫度低于-25℃時,內存顆粒出現(xiàn)工作不穩(wěn)定狀態(tài),后面通過降低內存顆粒工作頻率,從而達到可以保證在-25℃下可以正常開機。
另外,通過增加冷卻頭,可以同時控制兩個溫度元件或者模塊,從而可以區(qū)分出元件及模塊之間的溫度關聯(lián)性。如降溫到-40℃出現(xiàn)主板不開機的情況,然后我們初步推斷可能是由于CPU和內存顆粒低溫性能不穩(wěn)定造成的,此時可以升溫到主板開機,然后對內存顆粒和CPU進行降溫,并調節(jié)兩者的溫度,就可以區(qū)分出兩個元件的溫度敏感點。
本文介紹了一種溫度應力下評估產品可靠性設計的系統(tǒng)和方法,在高溫度應力實驗和可靠性問題驗證以及可靠性參數(shù)提取方面都具有重要作用,隨著進口元件、工業(yè)級和監(jiān)控級元件的逐漸增加,成本問題不斷凸顯,如何做到可靠性經(jīng)濟設計以及溫度敏感問題的快速驗證,已經(jīng)成為急切需要研究和突破的熱點,此系統(tǒng)和方法可以為類似問題研究提供參考。
[1] 楊世銘,陶文栓.傳熱學[M]. 北京:高等教育出版社,2016:197-211. YANG Shi-ming. Heat Transfer Theory[M]. Beijing:Higher Education Press,2016:197-211.
[2] 錫吉. 電子設備可靠性工程[M]. 陜西科學技術出版社,1999. XI Ji. Reliability Engineering of Electronic Equipment[M]. 1999.
[3] 王雷,林詩美. HALT技術在工業(yè)系統(tǒng)的應用[J]. 新型工業(yè)化,2016,6(11):86-89. WANG Lei,LIN Shi-mei. Application of HALT Technology in Industrial System [J]. The Journal of New Industrialization,2016,6(10):86-89.
[4] 彭高亮,高賀鵬,劉文劍,等. 隨鉆壓力測量裝置電路板的抗振性研究[J]. 新型工業(yè)化,2013,3(9):73-83. PENG Gao-liang. GAO He-peng,LIU Wen-jian,et al. Anti-vibration Performance Analysis of PCB on Logging while Drilling Device [J]. The Journal of New Industrialization,2013,3(9):73-83.
[5] 陸廷孝,鄭鵬洲,何國偉. 可靠性設計與分析[M]. 北京:國防工業(yè)出版社,1995. LU Ting-xiao,ZHENG Peng-zhou,HE Guo-wei. Reliability Design and Analysis[M].Beijing:National Defence Industry Press,1995.
[6] 蔡金燕. 電子裝備系統(tǒng)性能可靠性分析與評估研究 [D]. 南京:南京理工大學,2010. CAI Jin-yan. Research on Analysis and Assessment of Systemic Performance Reliability for Electronic Equipment [D]. Nanjing:Nanjing University of Science & Technology,2010.
Application of Independent Temperature Stress in System Reliability Evaluation
WANG Lei1,2, CHEN Zhi-lie1,2
(1.EVOC Intelligent technology co., LTD, Shenzhen, Guangdong 518057, China; 2.National Special Computer Engineering Technology Research Center, Shenzhen, Guangdong 518057, China)
In the reliability design of the industrial system, by the temperature stress accelerating product potential defects and improving product reliability design, has become a current research hot spot. Under temperature stress, how to utilize the local temperature control to confirm system reliability limit and to distinguish the components under temperature stress sensitivity, becomes the problem that accelerated temperature stress tests must face. With independent temperature control method for reliability design and analysis, have relatively mature system abroad, but can query to the information is almost blank; Domestic applications mainly in the research institute and the military industry, and are rarely reference information. Through the analysis of theory and practical research, this paper designed a kind of temperature stress control system, and illustrated its application in the reliability evaluation method, and the principle of verifying temperature sensitive problem.
Reliability estimation; High temperature stress test; Independent temperature control
王雷,陳志列.獨立溫度應力施加在系統(tǒng)可靠性評估中的應用[J]. 新型工業(yè)化,2016,6(11):100-104.
10.19335/j.cnki.2095-6649.2016.11.014
: WANG Lei, CHEN Zhi-lie. Application of Independent Temperature Stress in System Reliability Evaluation[J]. The Journal of New Industrialization, 2016, 6(11) : 100-104.
王雷(1982-),男,工學碩士研究生,研究方向:可靠性成熟度模型、APQP、CMMI等;陳志列(1963-),男,西北工業(yè)大學碩士學位,現(xiàn)為研祥智能股份有限公司董事長,主要研究方向為特種計算機研發(fā)設計