張家芳
摘 要:現(xiàn)在,高性能的計算機系統(tǒng)的性能在不斷地改善,而且其硬件的功能越來越完善,所以,提高系統(tǒng)運行可靠性是十分重要的。本文通過分析高性能計算機的可靠性技術(shù),分析高性能計算機在進行硬件設(shè)計的過程中的可靠性的現(xiàn)狀,并結(jié)合避錯技術(shù)、靜態(tài)冗余等技術(shù),分析不同的可靠性技術(shù)在計算機中的實際應(yīng)用,提高高性能計算機在使用過程中的可靠性。
關(guān)鍵詞:高性能計算機;可靠性;避錯;冗余
現(xiàn)在,高性能計算機的運行效率越來越高,而且,其處理器的數(shù)量也是越來越多,現(xiàn)在硬件系統(tǒng)的功能越來越強大,但是,隨之而來的是計算機的可靠性下降,系統(tǒng)在使用時會發(fā)生各類故障。尤其是在大規(guī)模的高性能計算機中,由于硬件的功能多,所以,導(dǎo)致的故障也是多種多樣的,而且,故障一旦發(fā)生后,就會導(dǎo)致整個系統(tǒng)都不能繼續(xù)運行。所以,為了能夠確保計算機的性能,并提高其使用的可靠性,有必要對計算機的可靠性技術(shù)進行研究。
1 高性能計算機的可靠性需求
可靠性指的是系統(tǒng)能夠平穩(wěn)運行的基礎(chǔ),一般是確保系統(tǒng)在長時間內(nèi)部出現(xiàn)故障,而且,現(xiàn)在,計算機的功能越來越完善,這就導(dǎo)致了計算機的可靠性下降。高性能的計算機,其處理器的數(shù)量也是比較多的,處理數(shù)據(jù)的效率非常高。通過對高性能計算機使用情況的分析,可以看出,其在每個小時內(nèi)都會出現(xiàn)不同的故障,所以,計算機在運行中都是通過重啟的方式使計算機的運行恢復(fù)正常的。從計算機的芯片性能進行分析,計算機的芯片規(guī)模越來越大,導(dǎo)致了處理器內(nèi)會發(fā)生各類故障。
2 高性能計算機可靠性技術(shù)的現(xiàn)狀分析
在提高高性能計算機可靠性的時候,一般是使用避錯技術(shù)和容錯技術(shù)。避錯技術(shù)能夠通過完善計算機的硬件系統(tǒng),防止硬件在運行過程中產(chǎn)生錯誤。容錯技術(shù)是保障計算機在發(fā)生局部的故障時不影響整體的運行。容錯技術(shù)還包括靜態(tài)冗余和動態(tài)冗余兩種,在對高性能計算機進行容錯時,一般采用的是靜態(tài)冗余的方式。
2.1 避錯技術(shù)
避錯技術(shù)主要指的是在對計算機設(shè)計的過程中,盡量能夠?qū)τ嬎銠C的故障進行控制,防止故障在系統(tǒng)中蔓延,防止其他的零部件不能運行。按照相關(guān)的體系,計算機中的零部件的失效與其使用的環(huán)境、工作的溫度等因素密切相關(guān),所以,避錯技術(shù)重點是對零部件的設(shè)計,控制好零部件運行時的溫度,使零部件運行能夠在良好的環(huán)境下。在實現(xiàn)高性能計算機穩(wěn)定運行中,一般在選擇零部件時都選擇那些可靠性比較高的,將零部件集成使用,這樣就能夠減少零部件的數(shù)量,在故障處理中也是比較方便的。例如,在CEC單元中,其零部件主要包括處理器、存儲器、I/O幾口等,這些零部件通過集成的方式形成一個整體,就能夠減少故障發(fā)生時的影響區(qū)域。
現(xiàn)在,高性能計算機的功能在不斷地完善,所以,其會產(chǎn)生更大的能耗量,所以,在系統(tǒng)產(chǎn)生能耗時會產(chǎn)生很多熱量,會導(dǎo)致系統(tǒng)發(fā)生故障,在提高計算機可靠性時,應(yīng)該充分考慮到零部件使用的熱環(huán)境。各類零部件在使用時,如果長時間處于運行的狀態(tài),那么,其結(jié)溫就會一直增加,導(dǎo)致零部件的故障頻發(fā)。為了能夠降低零部件在使用中溫度的升高,就要選擇那些低熱阻的裝備,并且采用高效的冷卻方法。例如,在數(shù)據(jù)的傳輸過程中,當(dāng)指令也完成了發(fā)布后,這時不能夠改變串行口的設(shè)計狀態(tài),由于硬件反應(yīng)速度比較慢,如果強制性的改變串行口的設(shè)置狀態(tài),那么就會使一些信息丟失。所以,在實際的應(yīng)用中,應(yīng)該等到發(fā)送完成后,再改變串行口的狀態(tài),或者運用查詢的方式分析其狀態(tài)是否是可以改變的。
2.2 靜態(tài)冗余
靜態(tài)冗余技術(shù)能夠?qū)植康墓收线M行屏蔽,使局部的故障不影響整個系統(tǒng)的運行。在系統(tǒng)發(fā)生故障的時候,運用信息冗余的方式,使故障能夠在最短的時間內(nèi)輸出,通過對故障的補救,從而能夠消除其帶給系統(tǒng)的不良的影響。CRC校驗又稱為循環(huán)冗余校驗,是數(shù)據(jù)通訊中常用的一種校驗算法。它可以有效的判別出數(shù)據(jù)在傳輸過程中是否發(fā)生了錯誤,從而保障了傳輸?shù)臄?shù)據(jù)可靠性。 CRC校驗有多種方式,如:CRC8、CRC16、CRC32等等。在實際使用中,我們經(jīng)常使用CRC16校驗。CRC16校驗也有多種,如:1005多項式、1021多項式(CRC-ITU)等。在這里我們不討論CRC算法是怎樣產(chǎn)生的,而是重點落在幾種算法的C51程序的優(yōu)化上。 計算CRC校驗時,最常用的計算方式有三種:查表、計算、查表+計算。一般來說,查表法最快,但是需要較大的空間存放表格;計算法最慢,但是代碼最簡潔、占用空間最小。
2.3 部件的冗余
部件的冗余指的是在系統(tǒng)的關(guān)鍵零部件上出現(xiàn)的故障,如在系統(tǒng)的電源和監(jiān)控器上出現(xiàn)的故障。在使用高性能計算機時,經(jīng)常出現(xiàn)的故障就是電源故障,這類故障會產(chǎn)生比較嚴重的后果,所以,應(yīng)該采用電源冗余的方法,可以進行電源的冗余備份處理,應(yīng)該從不同的電源上接收輸入信號,然后在運行的情況下實現(xiàn)電源的轉(zhuǎn)換。在對冗余時鐘進行設(shè)計時,要分析中心面板上的振蕩器,分為兩個振蕩器,一個處于工作狀態(tài),一個處于備份的狀態(tài),當(dāng)一個振蕩器發(fā)生故障后,時鐘源就可以進行切換,使備用的振蕩器派上用場。
2.4 數(shù)據(jù)通路的冗余
數(shù)據(jù)通路的冗余能夠理解成對零部件的冗余,在高性能計算機使用的過程中,一般都采取了這種提高可靠性的措施,在對磁盤的路徑進行設(shè)計時一般都設(shè)計了冗余路徑。軟件會實現(xiàn)很多特定的功能,為了方便程序員,引入了“模塊化程序設(shè)計”,引入動態(tài)鏈接庫(DLL),由主執(zhí)行文件調(diào)用來執(zhí)行某一項或幾項特定功能。但在卸載時,可能會出現(xiàn)不能將所有DLL文件刪除干凈的情況,這些剩余的DLL文件就是冗余動態(tài)連接庫,可以通過刪除來節(jié)省硬盤空間。
2.5 信息冗余
信息冗余指的是對數(shù)據(jù)的糾錯的技術(shù),其能夠在數(shù)據(jù)中增加冗余,從而減少信息在傳遞的過程中發(fā)生的故障,而且能夠?qū)π畔⒌墓收掀鸬搅己玫钠帘蔚男Ч?。在高性能計算機的使用中,中央處理器、I/O接口等一般都采用了信息冗余的方法。
2.6 動態(tài)冗余
動態(tài)冗余指的是在計算機系統(tǒng)中按照功能的不同分成不同的模塊,在對故障進行檢查時,只需要檢查每個模塊的運行狀況就可以直接找到故障的所在,系統(tǒng)能夠進行及時地恢復(fù)。
3 故障的診斷與檢測
故障的檢測技術(shù)能夠分析計算機中是否是存在故障的,而且能夠?qū)收系奈恢枚ㄎ?。在對故障進行診斷和檢測時,可以采取聯(lián)機的方式,也可以在脫機的形式下進行。一般在高性能的計算機中,是采用聯(lián)機檢測的方法,能夠?qū)收线M行跟蹤處理。在對檢錯碼進行分析時,能夠針對循環(huán)冗余中提供的校驗碼進行分析,從而能夠自動的識別系統(tǒng)的故障。但是,其與糾錯碼還是存在一定的差異的,檢錯碼不能夠自動的將錯誤糾正,而且,在監(jiān)視定時器使用時需要有網(wǎng)絡(luò)連接。在對總線的故障進行分析時,需要考慮到總線控制器在交互環(huán)節(jié)中的問題。在對故障進行檢測的過程中,應(yīng)該先對硬件進行檢測,然后分析系統(tǒng)的故障。
3.1 重組技術(shù)
充足時實現(xiàn)動態(tài)冗余的關(guān)鍵,是防止局部的系統(tǒng)故障對整個系統(tǒng)帶來的不利影響。系統(tǒng)的故障分為可恢復(fù)的和不可恢復(fù),如果檢測的故障是不可恢復(fù)的,那么,系統(tǒng)中就會將故障的部件切換掉,運用備用的部件。而且如果發(fā)現(xiàn)備用的部件不足,系統(tǒng)就能夠自動的將故障隔離,確保整個計算機系統(tǒng)還是可以運行的。
3.2 恢復(fù)技術(shù)
重組技術(shù)能夠?qū)δ切┎荒芑謴?fù)的故障進行處理,但是,在高性能計算機運行的過程中,還是存在一些瞬間產(chǎn)生的故障,這些故障能夠很快解決,可以通過對系統(tǒng)的恢復(fù)完成?;謴?fù)能夠?qū)崿F(xiàn)對瞬間故障的診斷,瞬間故障一般都是可恢復(fù)的故障,所以這些故障能夠及時地消除。在恢復(fù)技術(shù)中最常見的是重試,在對相關(guān)的步驟操作但是沒有反應(yīng)時,可以采用重試的方式,服務(wù)器就會采用重試的方式,對系統(tǒng)重新運行,重新對數(shù)據(jù)進行傳輸。
3.3 在線替換
這項技術(shù)能夠?qū)ο到y(tǒng)出現(xiàn)的故障替換,將故障置換出來,從而能夠使系統(tǒng)恢復(fù)到之前的功能。在高性能計算機中,在線替換功能主要是英語到磁盤、電源等設(shè)備中,在單元板能夠正常運行的情況下,實現(xiàn)服務(wù)器的一環(huán),從而也能夠使那些較為落后的功能替換,實現(xiàn)系統(tǒng)的在線升級。
4 結(jié)語
現(xiàn)在,高性能計算機的應(yīng)用還是比較廣泛的,在各類生產(chǎn)中得到了廣泛地應(yīng)用,其功能逐漸完善,但是,在多元化功能的背景下,其運行的可靠性也在下降,所以,要提高計算機的可靠性,就需要借助一些可靠性技術(shù),促進高性能計算機的穩(wěn)定運行。
參考文獻:
[1] 黃永勤,金利峰,劉耀.高性能計算機的可靠性技術(shù)現(xiàn)狀與趨勢[J].計算機研究與發(fā)展.2010(04):589-594.
[2] 王俊超,彭濤,馮光柳.曙光高性能計算機在數(shù)值預(yù)報模式中的應(yīng)用[J].計算機技術(shù)與發(fā)展.2014(10):178-181.
[3] 蔣句平,龐征斌,周興銘.高性能計算機RAS技術(shù)現(xiàn)狀與趨勢[J].計算機工程與科學(xué).2005(01):80-82.
[4] 劉曉婷,賈志淳.高性能計算機中互連網(wǎng)絡(luò)的可靠性研究[J].電子制作.2015(04):151-152.
[5]華凌.高性能計算機是一個國家綜合科技實力的體現(xiàn) 我國超級計算機顯神威[J].電子展望與決策.2000(06):29-30.
[6]王穎.李國杰和他的曙光高性能計算機[J].中國信息導(dǎo)報.2000(06):
42-43.
[7]夏培肅.高性能計算機中的若干關(guān)鍵技術(shù)問題的基礎(chǔ)性研究[J].中國基礎(chǔ)科學(xué).2000(04).
[8]胡永生.加快發(fā)展高性能窮人計算機——記者胡永生對工程院院士李國杰的專訪[J].計算機與農(nóng)業(yè).2002(01):4-6.
[9]胡敏.走向高性能運算[J].中國計算機用戶.2003(34):60.
[10]丁曄,袁斌,陳曉軍.未必永遠跟隨——中國高性能計算機發(fā)展趨勢[J].每周電腦報.2003(24):34-35.
[11]祝明發(fā).未必永遠跟隨——中國高性能計算機發(fā)展趨勢[J].每周電腦報.2003(40):96.
[12]朱瑩.淺談高性能計算機的發(fā)展現(xiàn)狀和瓶頸[J].科技情報開發(fā)與經(jīng)濟.2008(18):123-125.
[13]樊建平.高性能計算機的發(fā)展現(xiàn)狀與趨勢[J].計算機教育.2004
(05):3-5.
[14]洪文董.高性能計算機的發(fā)展與氣象應(yīng)用[J].計算機工程與應(yīng)用.
2004(05):32-35.
[15]段樹云.高性能計算機的發(fā)展[J].瀘天化科技.2003(04):335-336.
[16]王志華.高性能計算機及其相關(guān)技術(shù)研究[J].忻州師范學(xué)院學(xué)報.
2004(05):117-119.
[17]陳亮.高性能計算機標準開放圖存[J].互聯(lián)網(wǎng)周刊.2006(32):16.
[18]曾宇,王潔.中國高性能計算機技術(shù)及標準現(xiàn)狀分析[J].信息技術(shù)與標準化.2006(10):9-12.
[19]華凌.高性能計算機是一個國家綜合科技實力的體現(xiàn) 我國超級計算機顯神威[J].電子展望與決策.2000(06):29-30.