巡檢ESXi環(huán)境,忽然發(fā)現(xiàn)vSAN集群報(bào)“組件元數(shù)據(jù)運(yùn)行狀況”測(cè)試失敗的警告(如圖 1),進(jìn)一步查看該報(bào)錯(cuò)詳情,確認(rèn)是在其中一個(gè)節(jié)點(diǎn)中,有3個(gè)組件狀態(tài)無(wú)效。熟悉vSAN的可能一看就知道,這其實(shí)是3個(gè)虛機(jī)目錄的真實(shí)本體,都是一長(zhǎng)串字符標(biāo)識(shí)的文件夾,如若處理不當(dāng),極可能造成虛機(jī)文件同步錯(cuò)誤,甚至可能損壞、丟失虛機(jī)。
首先初略排查該vSAN集群所有虛機(jī),是否有異常存在,通過(guò)正常開關(guān)虛機(jī)、測(cè)試操作系統(tǒng)讀寫狀態(tài)、服務(wù)運(yùn)行等確認(rèn)該元數(shù)據(jù)異常沒有影響到生產(chǎn)環(huán)境。接著,將有異的主機(jī)置為“維護(hù)模式”,同時(shí)勾選“遷移全部數(shù)據(jù)”,如此確保正常的虛機(jī)在該主機(jī)節(jié)點(diǎn)沒有殘留(如圖2)。
遷出全部數(shù)據(jù),根據(jù)該主機(jī)節(jié)點(diǎn)存儲(chǔ)量的大小耗時(shí)普遍較久,觀察vSAN性能圖表,可見會(huì)產(chǎn)生一個(gè)較大的讀I/O,本例中等待數(shù)據(jù)全部遷出用時(shí)大約1天,等待主機(jī)進(jìn)入維護(hù)模式又用了1天,這不僅需要較好的耐心,還要多觀察后臺(tái)的運(yùn)行狀態(tài)日志,確保遷出數(shù)據(jù)和進(jìn)入維護(hù)模式的狀態(tài)都是正常的,可在集群視圖→監(jiān)控→vSAN→物理磁盤界面中,觀察到該主機(jī)節(jié)點(diǎn)是否還有虛機(jī)對(duì)象。
圖1 組件元數(shù)據(jù)運(yùn)行情況
圖2 vSAN數(shù)據(jù)遷移對(duì)話框
圖3 刪除磁盤組對(duì)話框
接下來(lái),就要對(duì)該主機(jī)的所有磁盤組進(jìn)行刪除(如圖3)。刪除對(duì)話框給出 了“No data will be moved.”綠色打勾提示,同時(shí)上述的狀態(tài)確認(rèn)也是一種佐證,確保刪除磁盤組這一中等風(fēng)險(xiǎn)性操作能把控風(fēng)險(xiǎn)點(diǎn),因?yàn)橐坏┎僮?,萬(wàn)一有單副本或未同步完成的虛機(jī)在磁盤組上,則可能導(dǎo)致虛機(jī)損壞或丟失,幾乎是不能恢復(fù)的。刪除磁盤組的對(duì)話框中,選擇“遷移全部數(shù)據(jù)”,雖然已事先完成數(shù)據(jù)遷出,但這一選項(xiàng)仍會(huì)耗費(fèi)較長(zhǎng)的時(shí)間,只有當(dāng)確認(rèn)數(shù)據(jù)和虛機(jī)都無(wú)誤,才可選擇“未撤出數(shù)據(jù)”以較快完成磁盤組刪除。
磁盤組刪除完畢,可在集群視圖→配置→磁盤管理界面中,觀察到該主機(jī)使用的磁盤數(shù)為零,此時(shí)可重新創(chuàng)建磁盤組。創(chuàng)建完成后,再次運(yùn)行vSAN檢查,不再出現(xiàn)組件元數(shù)據(jù)測(cè)試失敗的警告。與此同時(shí),還要在集群視圖→監(jiān)控→vSAN→運(yùn)行狀況界面中,展開并找到vSAN磁盤平衡,查看集群中所有節(jié)點(diǎn)是否存在存儲(chǔ)不均衡的情況,并根據(jù)實(shí)際需要主動(dòng)重新平衡磁盤。
小結(jié):這一問(wèn)題的處置,總的來(lái)的說(shuō)屬于中等風(fēng)險(xiǎn)操作,主要思路是遷出數(shù)據(jù)文件置于維護(hù)模式,刪除磁盤組以清除有問(wèn)題的元數(shù)據(jù),重建磁盤組即恢復(fù)正常。
最大風(fēng)險(xiǎn)在于,刪除磁盤組操作是不可逆的,如果未做好充分的狀態(tài)確認(rèn),則可能導(dǎo)致無(wú)法挽回的損失。其次是容易忽略減少了一個(gè)主機(jī),是否有足夠的磁盤空間來(lái)承載所有的存儲(chǔ),如果不滿足剩余空間的條件,該問(wèn)題則需將部分虛機(jī)轉(zhuǎn)移到其他存儲(chǔ)上。