摘 要:當(dāng)今社會(huì)是高度信息化的社會(huì),計(jì)算機(jī)在各個(gè)生產(chǎn)領(lǐng)域所占的地位越來越重?,F(xiàn)代化的商業(yè)操作都是以高校密集的計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)作為基礎(chǔ)。如今的計(jì)算機(jī)已經(jīng)發(fā)展成為了高性能容錯(cuò)計(jì)算機(jī),這大大促進(jìn)了相關(guān)技術(shù)和產(chǎn)業(yè)的發(fā)展。這一類計(jì)算機(jī)的容錯(cuò)框架的核心就是故障的實(shí)時(shí)監(jiān)測和管理維修機(jī)制。本文就計(jì)算機(jī)硬件設(shè)備故障管理機(jī)制的故障原因、故障管理框架、故障診斷原則、故障診斷方法等作一淺析。
關(guān)鍵詞:故障管理機(jī)制;故障管理框架;診斷描述;故障診斷方法
中圖分類號:TP303
1 計(jì)算機(jī)硬件設(shè)備故障原因分析
隨著科技的發(fā)展,計(jì)算機(jī)的使用已經(jīng)滲透進(jìn)各行各業(yè),高度信息化自動(dòng)化的浪潮席卷了全球,這一切都與計(jì)算機(jī)的強(qiáng)大計(jì)算能力息息相關(guān)。但是,計(jì)算機(jī)并不是能夠保證永久正常運(yùn)行的,在計(jì)算機(jī)的使用過程中硬件故障一直都是一個(gè)難以保障的問題。硬件故障的原因可能有病毒入侵和設(shè)備老化兩種,計(jì)算機(jī)出現(xiàn)故障的時(shí)候,往往意味著我們的生產(chǎn)生活會(huì)受到極大的影響,所以我們要竭力避免這種情況。
計(jì)算機(jī)的運(yùn)行異常通常分為缺陷、紊亂和故障三種。缺陷指的是計(jì)算機(jī)在設(shè)計(jì)時(shí)或者制造時(shí)造成的先天性的瑕疵,缺陷體現(xiàn)出來的時(shí)候和計(jì)算機(jī)的運(yùn)行狀態(tài)和工作人員的操作都沒有關(guān)系,這往往很難控制,也幾乎無法維修。紊亂是指計(jì)算機(jī)在使用過程中,由于外界環(huán)境的變化,計(jì)算機(jī)本身的復(fù)雜構(gòu)造往往會(huì)影響到計(jì)算機(jī)的使用,例如劇烈溫度變化造成的電壓不穩(wěn)等問題,但是通常紊亂并不需要工作人員對計(jì)算機(jī)進(jìn)行維修,往往等到環(huán)境因素穩(wěn)定下來,計(jì)算機(jī)也就能正常工作了。計(jì)算機(jī)的故障往往發(fā)生在計(jì)算機(jī)的長時(shí)間使用之后,這種異常與生產(chǎn)和設(shè)計(jì)無關(guān),造成的原因大部分是因?yàn)橛布匣蛘咴獾狡茐?,?jì)算機(jī)的完整性難以保持,也就不能正常工作了。
在三種使用異常中,只有故障這一種異常是可以彌補(bǔ)和修復(fù)的,在絕大多數(shù)情況下都會(huì)對故障的計(jì)算機(jī)進(jìn)行修復(fù)。目前,世界上的故障管理系統(tǒng)由錯(cuò)誤處理器、診斷引擎和故障響應(yīng)代理三部分組成,主要使用了錯(cuò)誤處理技術(shù)和診斷引擎技術(shù),二者分別負(fù)責(zé)驅(qū)動(dòng)容錯(cuò)、錯(cuò)誤檢測、錯(cuò)誤糾正和幫助技術(shù)人員實(shí)現(xiàn)自動(dòng)化的故障診斷。
2 當(dāng)下的計(jì)算機(jī)故障管理機(jī)制
2.1 日志型故障管理機(jī)制
目前的大多數(shù)操作系統(tǒng)使用的是日志故障處理機(jī)制。在故障發(fā)生時(shí),系統(tǒng)通常只是將錯(cuò)誤的元件信息轉(zhuǎn)化為日志消息格式,直接將信息輸送給管理員。這種機(jī)制的故障報(bào)告信道往往很多,而且缺乏統(tǒng)一的渠道管理,所以系統(tǒng)進(jìn)場分散處理錯(cuò)誤報(bào)告工作;甚至有時(shí)候人工對錯(cuò)誤進(jìn)行診斷和修復(fù)機(jī)器設(shè)備故障問題,無法實(shí)現(xiàn)自動(dòng)化的故障管理操作。
2.2 SFM系統(tǒng)
該系統(tǒng)的工作原理標(biāo)準(zhǔn)是WEB的企業(yè)管理,診斷工具為模塊式硬件設(shè)備。系統(tǒng)工作時(shí)能夠?qū)崟r(shí)監(jiān)控系統(tǒng)運(yùn)行,并將獲取的硬件監(jiān)測數(shù)據(jù)在同一時(shí)刻以中間件形式匯報(bào)給管理員,然后管理員根據(jù)接收到的信息快速準(zhǔn)確地找到故障元件。SFM系統(tǒng)的不足之處有,系統(tǒng)在正常運(yùn)行是必須伴隨著特定的診斷程序的參與,而且算法采用了成本費(fèi)用較高的主動(dòng)式測試硬件算法,導(dǎo)致故障監(jiān)測能力并不如預(yù)期,其修復(fù)能力與力度也極其有限,不足以滿足自動(dòng)化故障診斷的要求。
2.3 X86 平臺式MCA技術(shù)
MCA技術(shù)的設(shè)備故障處理涉及三方面,分別是硬件、固件和操作系統(tǒng)。它有很大的局限性。第一,技術(shù)自身并不能檢測設(shè)備故障,而是只能將錯(cuò)誤信息傳送給操作系統(tǒng),由管理員做出判斷及制定措施;第二,技術(shù)涉及的平臺相關(guān)性占用了管理員大量的時(shí)間閱讀錯(cuò)誤日志信息,難以保證系統(tǒng)運(yùn)行的高效;第三,故障管理軟件的平臺和供應(yīng)商設(shè)備二者的錯(cuò)誤報(bào)告標(biāo)準(zhǔn)很難或者沒有辦法統(tǒng)一。
3 層次化故障管理機(jī)制
計(jì)算機(jī)硬件管理技術(shù)在使用時(shí)都只是針對故障管理系統(tǒng)的三個(gè)部分服務(wù)的,而缺少一個(gè)共同的管理平臺來集中化自動(dòng)化智能化處理信息。層次化故障管理機(jī)制,層次化故障管理框架由此而來。一個(gè)完整框架的建設(shè)能保證故障管理系統(tǒng)在工作時(shí)能夠長時(shí)間不間斷的高效管理故障,對故障進(jìn)行檢測、診斷和預(yù)測等功能,并向技術(shù)人員返還維修建議。在故障管理框架中,系統(tǒng)的三部分變成了框架構(gòu)成的三個(gè)組件,并能使現(xiàn)在服務(wù)器中正常的相互通信??蚣鼙环譃樗膫€(gè)層次:資源層、故障管理層、事件層、傳輸層。
資源層包括三個(gè)要素:硬件故障引發(fā)的錯(cuò)誤行為、硬件引發(fā)錯(cuò)誤的行為規(guī)則、硬件資源本身。在管理框架的實(shí)現(xiàn)過程中,管理系統(tǒng)所要做的是將這三個(gè)要素進(jìn)行交互。資源層實(shí)現(xiàn)的是對管理系統(tǒng)提供的硬件資源進(jìn)行核實(shí)的建模,為分析和管理提供基礎(chǔ)。故障管理層提供了對故障的管理,錯(cuò)誤處理組件對故障進(jìn)行感知,故障診斷組件對引發(fā)錯(cuò)誤的錯(cuò)誤行為做以診斷,故障修復(fù)組件完成相對應(yīng)的修復(fù)。事件層中,描述其根據(jù)謝醫(yī)生稱故障信息,對錯(cuò)誤進(jìn)行標(biāo)準(zhǔn)的描述,分排氣將故障傳遞給處理模塊,保證故障管理工作正常運(yùn)行。傳輸層對事件在整個(gè)過程中進(jìn)行封裝,為事件從發(fā)生處傳給消費(fèi)者提供通道。
4 故障管理診斷規(guī)則
診斷規(guī)則描述方法在資源層是十分重要的。資源層提供了故障管理框架和硬件實(shí)體間實(shí)現(xiàn)交互的接口,對硬件的實(shí)體進(jìn)行了有效的封裝,它能夠自行引導(dǎo)用戶配置三要素,靈活配置故障處發(fā)生錯(cuò)誤的規(guī)則。系統(tǒng)運(yùn)行中出現(xiàn)的錯(cuò)誤和故障一般情況下可以用一個(gè)事件協(xié)議來組織完成,協(xié)議將每一個(gè)錯(cuò)誤行為和故障事件命名,并表示出錯(cuò)誤信息,錯(cuò)誤和故障將會(huì)以事件的形式在故障管理框架內(nèi)傳遞。
實(shí)際上診斷規(guī)則的地位可以說是資源層的核心,他直接反映了硬件故障的機(jī)理,是控制的核心內(nèi)容,與每一段過程有息息相關(guān)。在診斷過程前,關(guān)鍵環(huán)節(jié)之一就是自定義診斷規(guī)則。診斷規(guī)則的描述非常復(fù)雜,和配置自定義錯(cuò)誤行為要素和故障源要素都有很大區(qū)別,并不是僅僅需要把事件注冊進(jìn)入相應(yīng)的事件協(xié)議并給各個(gè)屬性賦值。診斷規(guī)則被要求能夠充分表現(xiàn)出硬件故障之間各種錯(cuò)綜復(fù)雜的關(guān)系,描述硬件故障和異常行為間的復(fù)雜過程,這些過程中需要極其強(qiáng)大的計(jì)算,因?yàn)橛布倪B接不是簡單地一對一連接,所以故障和錯(cuò)誤很多時(shí)候不是一一對應(yīng)的,有可能一個(gè)異常的出現(xiàn)是多個(gè)硬件共同作用的結(jié)果,也有可能一個(gè)硬件故障引起連鎖反應(yīng)帶來多個(gè)異常信息。用戶在使用計(jì)算機(jī)的過程中需要能夠根據(jù)計(jì)算機(jī)的實(shí)際情況,自定義修改故障診斷規(guī)則,或者直接飲用第三方的診斷規(guī)則,但是要能夠賬務(wù)簡單的診斷規(guī)則描述語法,以便對第三方規(guī)則做少許的改動(dòng)。
5 故障管理技術(shù)和方法
故障管理技術(shù)有錯(cuò)誤處理器技術(shù),需要關(guān)注錯(cuò)誤檢測、錯(cuò)誤糾正、驅(qū)動(dòng)容錯(cuò)等方面;錯(cuò)誤檢測技術(shù),有設(shè)備自覺監(jiān)測和系統(tǒng)定時(shí)輪詢兩種方式,核心部分是錯(cuò)誤檢測覆蓋率和錯(cuò)誤監(jiān)測判定值;錯(cuò)誤實(shí)時(shí)糾正技術(shù),包含指令糾錯(cuò)技術(shù)和糾錯(cuò)碼兩部分。
故障管理方法分為基于規(guī)則的診斷和基于模型的診斷兩種。
基于規(guī)則的診斷中,被適時(shí)制定的規(guī)則由系統(tǒng)拓?fù)浣Y(jié)構(gòu)、故障上下文關(guān)系、系統(tǒng)管理員所共同決定。故障源有兩種不同的分析方法,其一是參考硬件各元件的連接關(guān)系(即拓?fù)浣Y(jié)構(gòu)信息和故障上下文關(guān)系),另一個(gè)是參考系統(tǒng)本身保存的故障歷史記錄進(jìn)行分析。后者在分析比較復(fù)雜的故障的時(shí)候非常有用。
在基于模型的診斷中,診斷是在意見模型的基礎(chǔ)上,通過診斷推理模型和定性模型方法對已經(jīng)獲取的信息進(jìn)行預(yù)測和診斷。故障檢測診斷的目的達(dá)成,通常需要分析和處理比較實(shí)際動(dòng)態(tài)系統(tǒng)特性和系統(tǒng)數(shù)字模型中預(yù)測的系統(tǒng)特性。
參考文獻(xiàn):
[1]蔣謝彬,李獻(xiàn)球.高可用系統(tǒng)的技術(shù)與應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013(01).
[2]周江.糾錯(cuò)碼在容錯(cuò)存儲器設(shè)計(jì)中的應(yīng)用[J].今日電子,2012(01).
[3]孟慶利.故障管理系統(tǒng)中事件相關(guān)性分析的運(yùn)用[J].世界電信,2014(10).
[4]趙瑾,申忠宇,顧幸生.基于定量模型故障診斷技術(shù)若干問題的研究[J].自動(dòng)化儀表,2011(03).
作者單位:沈陽化工大學(xué)計(jì)算機(jī)應(yīng)用實(shí)踐中心,沈陽 110142