寧金葉,徐 謙,羅小麗,寧高容
(1.湖南電氣職業(yè)技術學院 大數(shù)據(jù)與人工智能研究所,湘潭411101;2.湖南工程學院 電氣與信息工程學院,湘潭411104;3.中國航天科工運載技術研究院 北京分院技術中心,北京101500)
在國家“核高基”重大專項的支持下,以龍芯、中標麒麟、達夢等為代表的國產高性能處理器、操作系統(tǒng)和數(shù)據(jù)庫等軟硬件技術迅猛發(fā)展,在軍用、工業(yè)及民用領域內得到廣泛應用.2018年6月,龍芯中科發(fā)布了一套高性能的網(wǎng)絡平臺“3A3000+7A1000”,實現(xiàn)了從硬件到操作系統(tǒng)、應用的完全國產、自主、可控[1-3].但是,在一系列的裝備聯(lián)調聯(lián)試和實際應用過程中,國產計算機相繼出現(xiàn)業(yè)務系統(tǒng)的可靠性問題,特別是環(huán)境適應能力與可靠性方面,自主可控計算平臺的軟硬件產品性能相比國際先進水平還存在著一定的差距[4-6].因此,如何優(yōu)化國產計算機的環(huán)境適應能力與系統(tǒng)可靠性成為計算機自動控制領域的研究熱點[7].
本文主要研究基于車載環(huán)境計算資源受限情況下國產計算機的環(huán)境適應能力,即采用壓力測試試驗和可靠性摸底試驗對國產計算機(龍芯3A3000+7A1000)進行環(huán)境適應能力驗證,采用冒煙測試獲取計算機的環(huán)境適應閾值[8-9].
試驗內容主要包括兩種:壓力測試和可靠性摸底試驗,采用冒煙測試獲取計算機的環(huán)境適應閾值.
壓力測試包括四種情況,其環(huán)境條件及時間要求如表1所示.
表1 壓力測試環(huán)境條件及時間要求
(1)常溫老煉試驗
老煉時運行壓力測試程序或屏幕保護程序.在正常大氣條件下,設備累積老煉時間不小于200 h.可在整機老煉試驗期間開展電源適應性試驗.在特殊情況下,可采用高溫老煉.老煉試驗條件及要求如表2所示.
表2 老煉試驗條件及要求
測試方法及結果:
考慮到常溫老煉試驗的環(huán)境條件與連續(xù)工作試驗相同,把常溫老煉試驗放在連續(xù)工作試驗一同進行.詳細試驗情況見連續(xù)工作試驗.
(2)高溫工作試驗
被測計算機放在高溫試驗箱內;以不大于5℃/min的速率將箱內溫度升高至55℃,直到設備內部溫度穩(wěn)定(保溫2 h);計算機啟動工作,運行屏保程序或測試程序,連續(xù)工作200 h;計算機停止工作,以不大于5℃/min的速率將箱內溫度降低至正常溫度.被測計算機溫度恢復到常溫穩(wěn)定后,開機工作進行計算機的功能檢查.高溫工作實驗過程中,設備的溫度剖面如圖1所示.
圖1 高溫工作試驗溫度剖面
測試方法及結果:
第一階段:將被測計算機(1號機、4號機)放置在試驗箱內,以不大于5℃/min的速率將箱內溫度升高至+55℃直到設備內部溫度穩(wěn)定(保溫2 h);計算機啟動工作,并運行LTP測試程序,測試負載設置為滿載的80%;連續(xù)工作50 h(兩臺設備累計100 h),被測計算機正常工作.
第二階段:將試驗箱溫度升高至+60℃,并保溫2 h,計算機啟動工作,并運行LTP測試程序,測試負載設置為滿載的80%;連續(xù)工作24 h(兩臺設備累計48 h),1號機和4號機均正常工作.
第三階段:將試驗箱溫度升高至+65℃,并保溫2 h,計算機啟動工作,并運行LTP測試程序,測試負載設置為滿載的80%;其中1號機連續(xù)正常工作24 h,4號機正常工作2 h后出現(xiàn)死機現(xiàn)象,斷電重新開機后,依然出現(xiàn)死機現(xiàn)象.
(3)低溫工作試驗
被測計算機放在高溫試驗箱內;以不大于5℃/min的速率將箱內溫度降低至-25℃,直到設備內部溫度穩(wěn)定(保溫2 h);計算機啟動工作,運行屏保程序,連續(xù)工作200 h;計算機停止工作,以不大于5℃/min的速率將箱內溫度恢復至正常溫度.被測計算機溫度恢復到常溫穩(wěn)定后,開機工作進行計算機的功能檢查.低溫工作實驗過程中,設備的溫度剖面如圖2所示.
圖2 低溫工作試驗溫度剖面
測試方法及結果:
第一階段:將被測計算機(1號機、4號機)放置在試驗箱內,以不大于5℃/min的速率將箱內溫度降低至-25℃直到設備內部溫度穩(wěn)定(保溫2 h);計算機啟動工作,并運行LTP測試程序,測試負載設置為滿載的80%;連續(xù)工作50 h(兩臺設備累計100 h),計算機正常工作.
第二階段:將試驗箱溫度降低至-30℃,并保溫2h,計算機啟動工作,并運行LTP測試程序,測試負載設置為滿載的80%;連續(xù)工作24 h(兩臺設備累計48 h),1號機和4號機均正常工作.
第三階段:將試驗箱溫度降低至-35℃,并保溫2 h,計算機啟動工作,并運行LTP測試程序,測試負載設置為滿載的80%;連續(xù)工作24 h(兩臺設備累計48 h),1號機和4號機均正常工作.
(4)連續(xù)工作試驗
計算機完成了720 h連續(xù)工作測試,測試過程分為全面測試(包括系統(tǒng)2D圖形性能、3D圖形性能、網(wǎng)絡性能、系統(tǒng)I/O性能、系統(tǒng)性能)、壓力測試(包括CPU,內存,磁盤等信息;測試過程中全時段運行LTP測試軟件,測試負載設置為80%).測試時間分配如圖3所示.
圖3 連續(xù)工作720小時LTP測試時間圖
1)四次全面測試數(shù)據(jù)對比(共35天)
通過四次(共35天)全面測試數(shù)據(jù)可知,在經過長時間壓力工作后,國產計算機的2D圖形處理、3D圖形處理、磁盤讀寫性能、網(wǎng)頁性能等未出現(xiàn)下降.
2)三次長時間壓力測試數(shù)據(jù)對比(共30天)
通過對三段長時間壓力測試數(shù)據(jù)的比較可知,在經過長時間壓力工作后,國產計算機的CPU使用率、內存使用率、磁盤讀寫速度等未出現(xiàn)明顯變化.
可靠性增長摸底試驗的目的是通過系統(tǒng)施加逐步增大的環(huán)境應力,摸清產品對一定條件下環(huán)境應力的承受能力.本次可靠性摸底試驗共分三階段進行:可靠性增長試驗剖面(1)3個循環(huán)的試驗、可靠性增長試驗剖面(2)3個循環(huán)的試驗、可靠性增長試驗剖面(3)2個循環(huán)的試驗.可靠性增長試驗剖面(1)、(2)、(3)圖如圖4所示.
圖4 可靠性增長試驗剖面圖
可靠性摸底試驗共進行了8個循環(huán)的試驗.試驗過程中,計算機運行LTP測試程序,測試負載設置為80%;兩臺被測計算機(1號機、4號機)均正常工作,未出現(xiàn)死機、重啟等不正?,F(xiàn)象.
(1)問題分析
在進行高溫試驗時,在溫度+65℃的環(huán)境下,計算機運行LTP測試程序,測試負載設置為80%;被測的4號計算機出現(xiàn)死機現(xiàn)象,重啟后依然出現(xiàn)死機現(xiàn)象;恢復到常溫后,計算機正常工作.針對故障現(xiàn)象,研究團隊對國產計算機的龍芯3A3000處理器的CPU溫度進行實時跟蹤,計算機環(huán)境溫度在+55℃和+60℃時,CPU的核心溫度分別達到了99℃和104℃.
經查詢產品手冊,得知龍芯3A3000-I的結溫為105℃[2-3].通過簡單計算,在+65℃環(huán)境溫度下,CPU溫度將超過105℃,CPU將不能正常工作,故導致計算機死機現(xiàn)象.
(2)解決措施
對計算機的散熱設計進行進一步優(yōu)化,或通過降低CPU主頻來降低功耗;經過測試,當龍芯3A3000處理器主頻為1.4 GHz時,主板功耗約45 W;當龍芯3A3000處理器主頻為1.2 GHz時,主板功耗約38 W.經采用費舍爾組合測試驗證了系統(tǒng)的穩(wěn)定性[10-11],由此可見降低主頻可以顯著降低CPU功耗,從而降低溫度,提高環(huán)境適應能力.
環(huán)境適應能力研究分析:通過對國產龍芯計算平臺的軟硬件優(yōu)化設計、采用壓力測試試驗和可靠性摸底試驗進行環(huán)境適應能力驗證,國產龍芯計算平臺在-35℃~+60℃的環(huán)境條件下,可以正常工作(環(huán)境適應能力與設備的散熱環(huán)境有關),其環(huán)境適應能力不低于同類型非國產計算機.
軟件可靠性研究分析,通過對國產計算機在長時間、高負載運行時的功能、性能進行測試分析,系統(tǒng)能夠長時間正常運行,未發(fā)生死機、重啟、內存溢出異常等現(xiàn)象.