筆者所在單位的應(yīng)用系統(tǒng)很多,大多是運行在VMWARE ESXi虛擬機系統(tǒng)之上,并通過光交換機連接到存儲系統(tǒng),其中存儲系統(tǒng)包括了日立HDS存儲和IBM存儲。
今年國慶期間的某個下午,用戶反映公司辦公自動化系統(tǒng)即NOTES系統(tǒng)內(nèi)部郵箱打不開,查NOTES服務(wù)器發(fā)現(xiàn)系統(tǒng)崩潰,NOTES服務(wù)器虛擬機無法運行,同時發(fā)現(xiàn)有一些應(yīng)用系統(tǒng)也無法進行聯(lián)機。
由于NOTES系統(tǒng)事關(guān)每個用戶,重要性不言而喻,因此即著手通過備份系統(tǒng)恢復(fù)NOTES郵件系統(tǒng),反復(fù)恢復(fù)多次均因系統(tǒng)讀寫錯誤而恢復(fù)失敗。由于當(dāng)時系統(tǒng)崩潰檢查時,發(fā)現(xiàn)所有設(shè)備,包括虛擬機主機、存儲系統(tǒng)的指示燈顯示均正常,無任何硬件故障報警信號,所以一直未懷疑是存儲系統(tǒng)中的磁盤陣列發(fā)生了硬件故障,經(jīng)過了一天時間的測試排查,終于排除了其他的可能性,初步判斷雖然沒有硬件報警,但是可能是磁盤陣列發(fā)生了故障。
圖1 IBM DS4700管理界面狀態(tài)顯示
故障第二日,聯(lián)系日立HDS存儲廠商并要求廠商上門處理。筆者部門在其他整列上完成了新建NOTES虛擬服務(wù)器并恢復(fù)OA郵件系統(tǒng)服務(wù),只是用戶無法瀏覽、查詢歷史郵件。
由于正值“十一”國慶期間,廠家維護響應(yīng)較慢,故障第三日上午日立HDS存儲的廠家維護人員來公司檢查,給出結(jié)論是HDS的外部存儲無法連接。排查外部存儲時,首先發(fā)現(xiàn)IBM DS4700存儲故障。當(dāng)時DS4700存儲第一個磁盤陣列的RAID5結(jié)構(gòu)中損壞兩塊硬盤,配備的熱備HOT SPARE盤并未起作用。經(jīng)過對存儲日志的分析發(fā)現(xiàn),兩塊硬盤是由于同時損壞或損壞間隔時間間隔極短,導(dǎo)致熱備盤沒有時間去頂替壞盤。圖1是IBM DS4700管理界面的狀態(tài)顯示。
檢查另一個外部存儲IBM DS5020時,發(fā)現(xiàn)情況和IBM DS4700類似,手動連接IBM DS5020存儲管理端口后,發(fā)現(xiàn)整個存儲狀態(tài)顯示為不可用,由于該存儲磁盤陣列也是RAID5結(jié)構(gòu),同樣出現(xiàn)了兩塊硬盤故障導(dǎo)致熱備盤沒有頂替的情況。
由于原NOTES虛擬服務(wù)器數(shù)據(jù)都放在IBM DS5020存儲上,確認IBM DS5020 故障是本次NOTES郵件系統(tǒng)崩潰且無法及時恢復(fù)的直接原因。圖2是IBM DS5020管理界面的狀態(tài)顯示。
在這種情況下,單位火速請數(shù)據(jù)恢復(fù)公司派技術(shù)人員分批將IBM DS4700、IBM DS5020上的硬盤拆卸送去杭州,請數(shù)據(jù)恢復(fù)公司對硬盤進行檢測和數(shù)據(jù)恢復(fù)。經(jīng)數(shù)據(jù)恢復(fù)公司開盤檢測后,發(fā)現(xiàn)IBM DS4700存儲磁盤物理損壞,有劃痕,無法恢復(fù)。幸運的是IBM DS5020存儲磁盤沒有物理損壞,可以通過技術(shù)手段恢復(fù)數(shù)據(jù)。
圖2 IBM DS5020管理界面狀態(tài)顯示
由于保存郵件系統(tǒng)的存儲磁盤數(shù)據(jù)量較大,數(shù)據(jù)檢測和數(shù)據(jù)恢復(fù)時間都需要較長的時間。經(jīng)過一個多星期的時間,IBM DS5020恢復(fù)數(shù)據(jù)終于送回到單位,并將現(xiàn)場數(shù)據(jù)拷貝完成,當(dāng)日下午恢復(fù)了原NOTES虛擬服務(wù)器,并將新、老NOTES郵件系統(tǒng)的郵件進行了合并,至此用戶可以瀏覽、查詢所有歷史郵件。
直接原因:
兩塊磁盤同時硬件損壞和邏輯損壞,造成系統(tǒng)熱備盤沒能頂上,導(dǎo)致整個存儲停止運行。但是硬盤內(nèi)部盤面的劃痕無從查證。
間接原因:
1.磁盤損壞后,陣列控制器未提示報警,造成日常巡檢無法第一時間發(fā)現(xiàn)。
2.IBM DS4700存儲陣列服役時間已超10年,IBM DS5020存儲陣列服役時間也已超6年,長周期7*24小時的連續(xù)運行增加了硬盤的故障概率。
3.在對比了其他案列以及本單位的現(xiàn)狀,存儲上的邏輯壞塊極可能是由于IBM存儲整列與日立HDS存儲控制器之間算法有別,導(dǎo)致作為外部存儲的IBM DS4700、DS5020同時出現(xiàn)多塊硬盤邏輯壞塊,且日立HDS的統(tǒng)一存儲管理造成相連外部存儲故障而未能提示報警信息。
1.解除 DS4700、DS5020存儲陣列與HDS存儲控制器之間的管理關(guān)系,采用各存儲直接映射服務(wù)器的方式,每天進行磁盤狀態(tài)檢查,確保指示燈均正常指示。
2.購買新的磁盤對原存儲陣列磁盤進行全部更換,確保磁盤為新產(chǎn)品并保證一致性。
3.對磁盤陣列框架擇機進行更新,保證整個存儲系統(tǒng)的設(shè)備匹配和性能可靠。
4.考慮對數(shù)據(jù)量大的NOTES郵件服務(wù)器進行單機布置,并盡可能加大服務(wù)器磁盤容量,降低服務(wù)器虛擬化存在的故障風(fēng)險。