■ 北京 段旭升 范潔
編者按:筆者通過單位服務(wù)器出現(xiàn)的不定時死機(jī)問題,對其從安全、軟件、硬件方面逐步進(jìn)行排查,并通過可靠性監(jiān)視器最終鎖定問題根源。
筆者單位一臺Windows Server 2008 服務(wù)器架設(shè)了Hyper-V 虛擬化服務(wù),承載了FTP、圖書查詢等業(yè)務(wù)系統(tǒng),已經(jīng)穩(wěn)定運(yùn)行多年。最近一個月該服務(wù)器出現(xiàn)不定時死機(jī)問題。
具體問題表現(xiàn)為:每周死機(jī)一次,基本上都是周一發(fā)現(xiàn)業(yè)務(wù)宕機(jī),服務(wù)器屏幕無顯示,重新插拔電源后正常啟動。起初筆者沒有多加懷疑,只是認(rèn)定一般軟件故障。但在出現(xiàn)3 次以后,通過結(jié)合固定的宕機(jī)時間(周末),筆者推斷該問題有些特殊,于是從安全、軟件、硬件三方面逐步排查故障原因。
磁盤陣列自檢正常,沒有任何故障燈和異響,風(fēng)扇和溫度也無異常情況。
因?yàn)楸旧硎欠?wù)器且系統(tǒng)版本老舊,筆者重點(diǎn)懷疑安全攻擊導(dǎo)致。但單位配有深信服安全防護(hù)設(shè)備,且機(jī)器訪問外網(wǎng)還需要二次認(rèn)證,本身也安裝了安全防護(hù)軟件。最終經(jīng)查深信服日志未發(fā)現(xiàn)對此設(shè)備的惡意攻擊。
軟件方面的問題排查起來難度大,而且難以理清頭緒。筆者和很多管理員一樣,先從“服務(wù)”、“計(jì)劃任務(wù)”和“服務(wù)器日志”查起。但是,除了日志中有些安裝更新失敗的記錄,均未發(fā)現(xiàn)其它有價(jià)值線索。
正在一籌莫展之際,筆者打開了監(jiān)視工具中的“可靠性監(jiān)視器”,只看一眼便找到了問題的根源:原來是系統(tǒng)更新過程中造成了中斷性關(guān)機(jī)(如圖1 所示)。該監(jiān)視器用圖表的樣式清晰的展示了各類故障,配合穩(wěn)定性分值從0 至10 詳細(xì)打分,在圖中可以看出伴隨著4 次故障點(diǎn),穩(wěn)定性分值均出現(xiàn)明顯的下行變化。
圖1 系統(tǒng)更新造成中斷性關(guān)機(jī)
圖2 控制面板中的可靠性監(jiān)視器工具
筆者猜測可能是因?yàn)橄到y(tǒng)補(bǔ)丁不完整或者安裝過程中認(rèn)證失敗導(dǎo)致死機(jī)。于是筆者將服務(wù)器聯(lián)網(wǎng)進(jìn)行手動更新,不出所料,依然更新失敗。
接下來就開始排查系統(tǒng)更新問題,筆者首先檢查C:Windowssystem32catroot2 文件夾,該文件夾存儲Windows Update 軟件包的簽名,發(fā)現(xiàn)文件的更新時間比較久遠(yuǎn)。
于是筆者在CMD 界面通過“net stop cryptsvc”命令,暫時停止數(shù)字簽名服務(wù),這樣才能清空該文件夾內(nèi)容。同時,清空C:WindowsSoftwareDistributionDown load 文件夾,該文件夾用于緩存系統(tǒng)補(bǔ)丁。最后,通過“net start cryptsvc”命令恢復(fù)服務(wù)。
再次運(yùn)行系統(tǒng)更新程序,發(fā)現(xiàn)可以正常安裝系統(tǒng)補(bǔ)丁了。至此服務(wù)器故障解決完畢,通過一段時間的運(yùn)行未發(fā)現(xiàn)死機(jī)問題。
可靠性監(jiān)視器工具界面友好,內(nèi)容詳細(xì),相比系統(tǒng)日志更易解讀。該工具在后期的2012 和2016 版中移動到了控制面板內(nèi)(如圖2 所示),可喜的是,Windows10 系統(tǒng)也內(nèi)置了該工具,所以當(dāng)你遇見難纏的故障時,打開它試一試吧!