李 國,何辰煜,李 靜
(中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
海量數(shù)據(jù)的時(shí)代已經(jīng)到來,現(xiàn)今數(shù)據(jù)存儲的方式已經(jīng)從本地轉(zhuǎn)移到了云端。數(shù)據(jù)安全被認(rèn)為是影響云計(jì)算系統(tǒng)可靠性的重要因素,大規(guī)模數(shù)據(jù)存儲中心的可靠性研究不容忽視。研究[1-3]表明,在大型數(shù)據(jù)中心的硬件故障報(bào)告中,硬盤故障的比例最高。硬盤故障將導(dǎo)致數(shù)據(jù)丟失,影響客戶端的經(jīng)濟(jì)效益,如果沒有相對應(yīng)的故障處理機(jī)制,造成的損失將是無法想象的。如果能夠提前預(yù)測硬盤的健康狀態(tài)[4,5],并且可以通過預(yù)警遷移機(jī)制及時(shí)進(jìn)行備份和遷移,則可以大幅度減少硬盤故障所帶來的損失。
許多學(xué)者研究了硬盤故障預(yù)測問題,但是先前的一些研究僅僅預(yù)測硬盤在將來是否會發(fā)生故障,而沒有提供更多可參考的指標(biāo),并且在可解釋性方面表現(xiàn)不佳。統(tǒng)計(jì)分析[2]發(fā)現(xiàn),運(yùn)維人員在收到磁盤故障的FOTs(故障操作通知單)后,不會立即采取相應(yīng)的措施,因此直接預(yù)測硬盤的剩余使用壽命失去了實(shí)際意義。運(yùn)維人員真正想知道的是硬盤故障發(fā)生的緊迫性即硬盤故障的健康程度。如果預(yù)測模型能向運(yùn)維人員提供有關(guān)硬盤故障緊急程度的信息,運(yùn)維人員則可以根據(jù)硬盤的健康程度對故障操作通知單進(jìn)行排序,從而及時(shí)處理來降低故障風(fēng)險(xiǎn)。本文提出一種能反饋的硬盤健康狀況的基于TCBN的硬盤健康度預(yù)測模型,以提高預(yù)測性能及應(yīng)用價(jià)值。
大多數(shù)硬盤制造商使用自我監(jiān)視,分析和報(bào)告技術(shù)(SMART),但是該項(xiàng)技術(shù)采用的閾值算法進(jìn)行故障檢測率約為3%至10%,無法滿足預(yù)期的要求。Hughes等統(tǒng)計(jì)發(fā)現(xiàn)SMART屬性是非參數(shù)分布的,因此研究建議使用Wilcoxon秩和檢驗(yàn)方法進(jìn)行建模。在基于3744個(gè)磁盤數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,當(dāng)誤報(bào)率(false alarm rate,F(xiàn)AR)為0.5%時(shí),模型的故障檢出率(failure detection rate,F(xiàn)DR)達(dá)到60%。
李靜等[6]提出了一種基于分類和回歸樹的硬盤故障預(yù)測模型。在具有25 792個(gè)硬盤的數(shù)據(jù)集上,F(xiàn)DR達(dá)到95%,F(xiàn)AR低于0.1%。此外,還提出了一種基于回歸樹的健康度模型。該模型可以評估硬盤的健康狀況,將健康樣本的值設(shè)置為1,并使用基于個(gè)性化惡化窗口的函數(shù)來表示故障的樣本。也就是說,硬盤的健康狀態(tài)通過特定的概率值來表示,這樣的表達(dá)不是精確和直觀的。Basak等[7]使用LSTM建立了硬盤剩余壽命的在線預(yù)測模型。經(jīng)過訓(xùn)練的模型可以預(yù)測大約10天的故障,精度約為0.8。盡管在研究中給出了硬盤剩余使用壽命的預(yù)測,但剩余使用壽命以天為單位。如果運(yùn)維人員獲得了此類數(shù)據(jù),則認(rèn)為只要在預(yù)計(jì)的日期內(nèi)處理故障,數(shù)據(jù)就不會丟失。實(shí)際上,這樣會導(dǎo)致錯(cuò)過進(jìn)行故障排除的最佳時(shí)間。Xu等[8]認(rèn)為硬盤故障預(yù)測的研究屬于長期依賴性的問題,因此作者提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的硬盤健康評估模型,該模型在健康評估方面具有更好的表現(xiàn)。但是,該模型忽略了健康度劃分會影響模型在實(shí)際工作中的性能。
Wang等[9]提出了AIOPs解決方案,用于解決硬盤故障數(shù)據(jù)不平衡的問題。該解決方案集成了XGBoost分類,LSTM和XGBoost回歸的3種算法模型。實(shí)驗(yàn)結(jié)果表明,該集成算法的預(yù)測效果更加準(zhǔn)確、穩(wěn)定。Pang等[10]設(shè)計(jì)了CBN硬盤健康度預(yù)測模型,其預(yù)測故障時(shí)間為實(shí)際故障時(shí)間的70%或更早。但是作者忽略了模型的老化以及基于不同結(jié)構(gòu)的模型之間的相互影響。同時(shí),該研究也沒有給出具體的硬盤健康度劃分模型。
鑒于上述的研究中產(chǎn)生的不足,本文做出了如下改進(jìn):
(1)為提高模型的實(shí)際應(yīng)用價(jià)值,本文調(diào)研了大數(shù)據(jù)中心的故障調(diào)查報(bào)告[2],通過數(shù)據(jù)中心運(yùn)維人員的工作日志,了解到運(yùn)維人員更需要的是指示硬盤健康狀況的輸出結(jié)果。于是,采用貝葉斯網(wǎng)絡(luò)將4個(gè)在硬盤故障預(yù)測方面表現(xiàn)較好的單個(gè)分類器組合起來,組合成TCBN硬盤健康度預(yù)測模型。
(2)基于大型數(shù)據(jù)中心提供的真實(shí)數(shù)據(jù)設(shè)計(jì)實(shí)驗(yàn),驗(yàn)證TCBN組合模型的硬盤故障預(yù)測性能,并與其它單個(gè)分類器進(jìn)行比較。此外,為避免不同硬盤型號差異的影響,提取了特定型號的硬盤來驗(yàn)證TCBN模型在預(yù)測硬盤剩余壽命方面的表現(xiàn)。本文中使用的數(shù)據(jù)集來自大型云存儲供應(yīng)商公司Backblaze。
(3)考慮到硬盤健康度劃分對硬盤健康度預(yù)測模型應(yīng)用的影響,因此本文提出了“SMART-Degree”硬盤健康度劃分,并設(shè)計(jì)了相關(guān)對比實(shí)驗(yàn)來驗(yàn)證采用該健康度劃分的健康度預(yù)測模型的性能。
在先前研究[2]中發(fā)現(xiàn),關(guān)于硬盤健康狀況的信息對數(shù)據(jù)中心運(yùn)維人員處理故障時(shí)更為重要,通過硬盤健康度信息可以動態(tài)調(diào)度運(yùn)維人員處理故障預(yù)警信息,一方面節(jié)省人力成本,并降低數(shù)據(jù)中心發(fā)生硬盤故障的風(fēng)險(xiǎn)。硬盤的健康程度能更好地表達(dá)硬盤是否能正常運(yùn)行,這是硬盤故障預(yù)測模型中不能忽略的關(guān)鍵參考因素。另外在先前研究中[8,10],研究人員對硬盤健康程度進(jìn)行均等劃分或隨機(jī)劃分,并沒有給出健康度劃分的具體定義,從而忽略了健康度劃分對預(yù)測模型的影響。以往研究[6]指出硬盤的惡化不是突然的,而是逐漸發(fā)生的,并利用基于個(gè)性化惡化窗口函數(shù)來預(yù)測硬盤健康狀況。統(tǒng)計(jì)報(bào)告[2]指出硬盤的故障率隨著時(shí)間的推移是呈現(xiàn)逐步上升的趨勢,可見硬盤的壽命與自然生物的壽命相似,存在一個(gè)逐漸退化的過程,而基于Fibonacci推導(dǎo)的數(shù)學(xué)模型在壽命研究領(lǐng)域應(yīng)用廣泛。于是本文基于Fibonacci函數(shù)結(jié)合硬盤健康度時(shí)間間隔提出了“SMART-Degree”硬盤健康度劃分。統(tǒng)計(jì)報(bào)告同時(shí)也指出實(shí)際數(shù)據(jù)中心運(yùn)維人員在接收到故障預(yù)警信息時(shí),在30天內(nèi)處理故障的可能性僅為0.65左右。即該硬盤健康度劃分一方面能反饋硬盤壽命的退化過程便于模型進(jìn)行預(yù)測,另一方面更貼合實(shí)際運(yùn)維人員的反應(yīng)時(shí)間便于及時(shí)進(jìn)行數(shù)據(jù)遷移等操作。
本文將硬盤的實(shí)際剩余工作時(shí)間作為硬盤健康度的來源,硬盤的實(shí)際剩余工作時(shí)間可以真正反映硬盤的健康狀況。以20天或480小時(shí)為限來表示硬盤的健康程度,預(yù)測結(jié)果超過20天或480小時(shí)的硬盤被認(rèn)定為是相對安全的,本文將這些硬盤歸類為健康硬盤。反之,預(yù)測結(jié)果是少于20天或480小時(shí)的硬盤,將被認(rèn)為是一個(gè)有問題的故障硬盤,需要對該硬盤的健康狀況進(jìn)行評估??紤]到數(shù)據(jù)集以及數(shù)據(jù)中心運(yùn)維人員的工作習(xí)慣,故不能隨意劃分硬盤的健康度等級。如果硬盤健康度劃分的時(shí)間間隔太小,或者大部分集中在只有夜間值班人員的情況下,所提出的模型不能提供貼合實(shí)際應(yīng)用場景的預(yù)測結(jié)果。所以該模型以天為基本單位,即24小時(shí)或24小時(shí)的倍數(shù)作為最小的健康度劃分單元。“SMART-Degree”硬盤健康度的劃分區(qū)間表示為interval(i), 具體公式如下:
當(dāng)i=1時(shí)
interval(1)=1*24h
(1)
當(dāng)i=2時(shí)
interval(2)=1*24h
(2)
當(dāng)i≥3時(shí)
(3)
圖1展示了具體的“SMART-Degree”健康度劃分,根據(jù)上面定義的時(shí)間間隔公式劃分480 h,制定了7個(gè)硬盤健康度等級。健康度等級越低,硬盤發(fā)生故障的緊急程度就越高;健康度等級越高,硬盤的故障發(fā)生時(shí)間越遲緩,相對應(yīng)的緊急程度就越低。
圖1 SMART-Degree硬盤健康度劃分
組合模型往往比單個(gè)分類器具有更高的預(yù)測準(zhǔn)確性,一般分類器通常進(jìn)行二分類,而本文需要的是關(guān)于硬盤健康度的多分類結(jié)果,貝葉斯網(wǎng)絡(luò)為本研究提供了可能性。在先前研究中,基于樹的模型在硬盤故障預(yù)測方面取得了較好的效果。因此本文選擇了XGBoost、Adaboost、CT以及GBDT作為基分類器并通過貝葉斯網(wǎng)絡(luò)組合在一起。在該組合模型中基分類器之間是等權(quán)重的,但是各個(gè)分類器之間的相互影響是一個(gè)不容忽視的問題。不同模型之間相互影響著最終的預(yù)測結(jié)果。硬盤健康度的預(yù)測研究也是如此,每個(gè)基分類器的預(yù)測結(jié)果對最終預(yù)測出的硬盤健康度有著不同的貢獻(xiàn),于是本研究采用了全連接的方式組合貝葉斯網(wǎng)絡(luò)。
圖2展示了TCBN模型的具體結(jié)構(gòu)以及整個(gè)模型的訓(xùn)練過程。首先通過硬盤數(shù)據(jù)集訓(xùn)練4個(gè)分類器,然后結(jié)合經(jīng)過“SMART-Degree”健康度劃分處理后的硬盤健康度等級,以形成一個(gè)新的訓(xùn)練集來訓(xùn)練TCBN模型。
圖2 TCBN硬盤健康度預(yù)測模型的具體構(gòu)建
如圖2所示采用X,A,C,G的4個(gè)節(jié)點(diǎn)代表XGBoost、Adaboost、CT和GBDT這4個(gè)單一分類器,并作為貝葉斯網(wǎng)絡(luò)中的特征節(jié)點(diǎn)。節(jié)點(diǎn)D代表硬盤健康度等級,作為貝葉斯網(wǎng)絡(luò)中的分類節(jié)點(diǎn)。例如,Adaboost的預(yù)測結(jié)果影響XGBoost的預(yù)測,而CT的預(yù)測結(jié)果影響GBDT的結(jié)果,彼此相互影響。如圖2所示,任意兩個(gè)節(jié)點(diǎn)之間都有一條邊,故它們的聯(lián)合分布P(D,X,A,C,G)為
P(D,X,A,C,G)=P(G|D,X,A,C)*P(A|D,C,G)*
P(C|D,X)*P(X|D)*P(D)
(4)
其中先驗(yàn)概率P(D) 是通過訓(xùn)練集中的統(tǒng)計(jì)數(shù)據(jù)獲得的。
TCBN硬盤健康度預(yù)測模型的性能離不開4個(gè)單一分類器的共同作用。單一分類器的內(nèi)容如下所示:
(1)XGBoost模型使用了“梯度增強(qiáng)”的思想,該思想可以連續(xù)分割特征并擬合最后預(yù)測的殘差。在硬盤故障預(yù)測上,如果沒有處理XGBoost模型的預(yù)測結(jié)果,則默認(rèn)輸出結(jié)果是概率值。此時(shí)需要給出一個(gè)閾值,當(dāng)它低于給定的閾值時(shí),就將其判斷為有故障的硬盤。XGBoost使用Gain增益函數(shù)找到最佳分割節(jié)點(diǎn),首先計(jì)算分割節(jié)點(diǎn)左右子樹的得分總和,在減去分割之前的總得分,計(jì)算信息增益,然后選擇最大信息增益的特征。其增益函數(shù)如下
(5)
上面Gain增益函數(shù)中,H代表葉子節(jié)點(diǎn)包含樣本的二階偏導(dǎo)數(shù)累加之和,G表示葉子節(jié)點(diǎn)包含樣本的一階偏導(dǎo)數(shù)之和。L和R則分別代表左右子樹的節(jié)點(diǎn),γ代表加入新葉子節(jié)點(diǎn)引入的復(fù)雜度代價(jià)。首先計(jì)算左右子樹分?jǐn)?shù)和減去未分割前的得分,遍歷后取增益得分最大的作為新的分割節(jié)點(diǎn)。
由于本文所用的硬盤數(shù)據(jù)包含122 507個(gè)硬盤的數(shù)據(jù),直接使用精確查找算法會降低計(jì)算速度,所以采用近似算法。根據(jù)硬盤SMART特征的分布,確定n個(gè)分割點(diǎn)Sn={S1,S2…Sn-1,Sn}, 然后將相應(yīng)的樣本放入相應(yīng)的分割桶中,并對分割點(diǎn)集進(jìn)行精確的貪婪搜索。圖3展示了XGBoost硬盤故障預(yù)測模型中的簡化樹模型。
圖3 XGBoost硬盤故障預(yù)測模型簡化實(shí)例
圖3可以看到第一個(gè)分割節(jié)點(diǎn)是SER(seek error rate),旁邊標(biāo)注的是SMART屬性序列號。當(dāng)SER<80時(shí),使用Gain函數(shù)來計(jì)算出當(dāng)前的最大增益節(jié)點(diǎn)作為下一個(gè)分割點(diǎn),即POH(power-on hours),然后計(jì)算葉節(jié)點(diǎn)的得分。XGBoost模型的最終預(yù)測值是所有葉子節(jié)點(diǎn)得分的總和。葉子節(jié)點(diǎn)得分的公式如下所示
(6)
在XGBoost執(zhí)行一次迭代后,它將葉節(jié)點(diǎn)上的權(quán)重乘以學(xué)習(xí)率。學(xué)習(xí)率主要弱化每棵樹的影響,使后續(xù)學(xué)習(xí)有更多的學(xué)習(xí)空間,降低過擬合的風(fēng)險(xiǎn)。
(2)CT模型不像上述提到的“boosting”思想,而是學(xué)習(xí)了一套分類規(guī)則以形成一棵樹。與以前的研究[6]不同,本文采用信息增益率作為分割函數(shù),因?yàn)橐恍㏒MART特征的取值比較多,將某個(gè)SMART特征的信息增益一直保持最大的狀態(tài),很容易導(dǎo)致過擬合。整個(gè)分割過程是通過計(jì)算信息增益率最高的特征作為下一個(gè)分割節(jié)點(diǎn)。首先,將D其定義為決策樹的父節(jié)點(diǎn),Di代表其子節(jié)點(diǎn),s代表D節(jié)點(diǎn)的選定的特征屬性。則增益函數(shù)的公式如下所示
Gain(D,s)=Ex(D)-Ex(D|s)
(7)
信息增益Gain(D,s) 是經(jīng)驗(yàn)熵Ex(D) 減去經(jīng)驗(yàn)條件熵Ex(D|s)。 如前面所述,如果某一個(gè)SMART特征的取數(shù)量太多,那么經(jīng)驗(yàn)條件熵Ex(D|s) 的值就會趨近于0,最終導(dǎo)致信息增益的結(jié)果最大,導(dǎo)致過擬合。本文所采用的信息增益率Gratio(D,s) 的公式如下所示
(8)
H(s)代表s特征的熵,其表達(dá)式為
(9)
如果硬盤的某一個(gè)SMART特征屬性的取值較多,則H(s) 的值將增大,同時(shí)Gain(D,s) 的值也將增大。采用信息增益率Gratio(D,s) 將可以消除這部分影響。使用信息增益率Gratio(D,s) 來選擇硬盤的SMART特征會更準(zhǔn)確,但是不能忽略其可能會受到某個(gè)取值較少的SMART特征屬性的影響。于是在選擇分割點(diǎn)之前,首先要找出信息增益高于平均的SMART特征,然后再選擇其中信息增益率最高的SMART特征。
(3)Adaboost首先初始化硬盤樣本的權(quán)重,使用SMART特征構(gòu)建決策樹,對數(shù)據(jù)進(jìn)行分類,評估結(jié)果,然后計(jì)算該樹在最終分類中的重要性,并更新硬盤樣本的權(quán)重,繼續(xù)迭代。最后通過硬盤數(shù)據(jù)集訓(xùn)練的多個(gè)基學(xué)習(xí)器進(jìn)行賦權(quán)結(jié)合得到最終的強(qiáng)學(xué)習(xí)器。其中權(quán)重更新公式如下所示
(10)
式中:xi表示第i個(gè)訓(xùn)練樣本,yi表示第i個(gè)訓(xùn)練樣本的類別標(biāo)簽。
(4)GBDT算法與XGBoost不同,利用損失函數(shù)的負(fù)梯度擬合基學(xué)習(xí)器。首先通過硬盤數(shù)據(jù)訓(xùn)練一個(gè)弱學(xué)習(xí)器,計(jì)算損失函數(shù)并求導(dǎo)獲取梯度,然后計(jì)算出權(quán)重,一直迭代,最后每個(gè)弱學(xué)習(xí)器與權(quán)重結(jié)合得到最后的結(jié)果。計(jì)算負(fù)梯度的公式如下所示
(11)
以上4個(gè)單一分類器都是樹型結(jié)構(gòu),具有良好的可解釋性,模型之間的平衡性很好,所以能有效提升本文組合模型的預(yù)測性能。
本文采用的數(shù)據(jù)集來自大型云存儲公司Backblaze。自2013年以來,Backblaze公司每季度會對數(shù)據(jù)中心的硬盤進(jìn)行統(tǒng)計(jì)分析。本文抓取的數(shù)據(jù)集包含2019年4個(gè)季度總共122 507個(gè)硬盤,每條記錄包含硬盤型號、制造商、容量等信息。
硬盤SMART特征包含255個(gè)屬性,但是其中僅有少部分屬性對硬盤健康狀況有影響。為了提高模型的可移植性,本文篩選出3個(gè)具有代表性的特征選擇方案,通過簡單的投票機(jī)制,篩選出適合的SMART特征屬性。
第一個(gè)方案來自Backblaze公司,該公司通過統(tǒng)計(jì)分析挑選出5個(gè)SMART屬性,這些屬性預(yù)示了硬盤在將來是否發(fā)生故障。第二個(gè)方案來自于同樣涉及云存儲業(yè)務(wù)的國內(nèi)大型互聯(lián)網(wǎng)公司騰訊。在先前的研究發(fā)現(xiàn)SMART特征屬性是非參數(shù)分布的,于是先前工作[6]使用3種非參數(shù)統(tǒng)計(jì)方法(秩和檢驗(yàn)、Z-score和倒序排列測試)選取特征。所以,將常用的統(tǒng)計(jì)學(xué)方法作為本文的第三個(gè)方案。
圖4展示了3個(gè)具體SMART特征提取方案的熱力圖,表1展示了本研究最終選取的SMART特征屬性。
圖4 3種SMART特征提取方案
表1 最終選取的硬盤SMART屬性
為驗(yàn)證組合模型的效果,本文在包含122 507個(gè)硬盤的數(shù)據(jù)集上設(shè)計(jì)了多個(gè)硬盤故障預(yù)測模型的對比實(shí)驗(yàn)。TCBN硬盤健康度預(yù)測模型是一個(gè)多分類的輸出,所以,本文將預(yù)測結(jié)果高的硬盤健康等級定義為運(yùn)行狀況良好的硬盤。反之,預(yù)測結(jié)果顯示較低等級的硬盤健康度則被認(rèn)為是故障硬盤。本文采用真陽率(TPR)和假陽率(FPR)作為評估指標(biāo)。真陽率和假陽率是評估硬盤故障預(yù)測模型的常用評估指標(biāo)。其公式如下所示
(12)
(13)
圖5和表2展示了各種硬盤故障預(yù)測模型的真陽率和假陽率。如圖5可以看到,TCBN模型的真陽率達(dá)到0.857,假陽率僅達(dá)到0.031。組合模型的故障預(yù)測性能已經(jīng)超過了其余的單個(gè)分類器,其中Adaboost模型的假陽率最高,為0.092。在真陽率方面,GBDT模型的性能相對較差,僅達(dá)到0.793。CT硬盤故障預(yù)測模型的效果與先前研究人員提到的CBN模型相近。
圖5 TCBN模型在故障預(yù)測方面與其它模型的比較
表2 各模型真陽率與假陽率數(shù)據(jù)
圖5可以觀察到TCBN模型的性能也超出了先前研究[10]中提出的CBN模型的性能,這驗(yàn)證了組合模型應(yīng)考慮模型之間的平衡性及模型老化的問題。以前的CBN模型包括一些較老化的模型,例如SVM,并且這些模型在當(dāng)時(shí)所采用的硬盤數(shù)據(jù)集規(guī)模明顯不足。此外,該模型包含了樹型結(jié)構(gòu)和網(wǎng)絡(luò)等結(jié)構(gòu),導(dǎo)致各個(gè)模型之間的差異增大,影響了整體模型的最終的性能。
上一個(gè)實(shí)驗(yàn)驗(yàn)證了TCBN模型比其它單個(gè)分類器具有更好的故障預(yù)測性能。但是,僅通過實(shí)驗(yàn)來驗(yàn)證TCBN模型在真陽率和假陽率方面的性能還不夠全面,因此本文又設(shè)計(jì)了實(shí)驗(yàn)來驗(yàn)證TCBN模型在硬盤的剩余使用壽命方面的表現(xiàn)。首先,篩選合適的數(shù)據(jù)集,當(dāng)不同型號的硬盤發(fā)生故障時(shí),與硬盤故障相關(guān)的SMART特征值也會有所不同,從而影響硬盤的正常運(yùn)行。
為了消除這部分的影響,本文首先分析了Backblaze提供的數(shù)據(jù),并抓取了Seagate公司的型號為ST12000 NM0007硬盤,選取該型號硬盤的原因如下:
(1)該型號硬盤的故障數(shù)量最大為1156個(gè),年故障率為3.32%。
(2)ST12000NM0007型號的硬盤總數(shù)占2019年硬盤總數(shù)的55.90%。
為了驗(yàn)證TCBN的性能預(yù)測特定型號硬盤上的剩余使用壽命,本文更改了先前定義的SMART-Degree健康度劃分,將其劃分間隔改成24 h即一天,并取消了480 h的總時(shí)間限制,以便利用TCBN硬盤健康度預(yù)測模型進(jìn)行硬盤剩余使用壽命的預(yù)測。圖6展示了更改后的24 h等分硬盤健康度劃分。
圖6 24 h等分硬盤健康度劃分
圖7展示了2019年度的硬盤統(tǒng)計(jì)信息。圖8顯示了TCBN模型在預(yù)測硬盤剩余使用壽命方面的性能。圖中的正方形圖案代表硬盤的真實(shí)剩余使用壽命,圓形圖案代表TCBN模型預(yù)測的硬盤剩余使用壽命。本文使用了20多個(gè)測試用例,可以看到預(yù)測的硬盤剩余使用壽命與真實(shí)剩余使用壽命在整體上相當(dāng)吻合。
圖7 2019年度硬盤統(tǒng)計(jì)信息餅狀圖
圖8中觀察到TCBN模型預(yù)測的剩余使用壽命在宏觀水平上非常符合真實(shí)的剩余使用壽命,但是可以觀察到硬盤的預(yù)測的剩余使用壽命在微觀水平上與真實(shí)值之間存在波動。盡管波動很小,但模型的預(yù)測最小單元是一天。該模型預(yù)測的結(jié)果可能會導(dǎo)致數(shù)據(jù)中心運(yùn)營人員無法提前處理預(yù)警的故障信息,從而導(dǎo)致數(shù)據(jù)中心發(fā)生故障,例如數(shù)據(jù)中心的海量數(shù)據(jù)丟失。
圖8 TCBN模型在預(yù)測硬盤剩余使用壽命方面的擬合情況
關(guān)于硬盤剩余壽命預(yù)測的研究[1,7,11,12],相對于傳統(tǒng)的硬盤故障二分類研究能夠直觀給出故障硬盤的實(shí)際剩余使用壽命,運(yùn)維人員可以根據(jù)硬盤的壽命指標(biāo)進(jìn)行故障預(yù)警遷移工作,從而達(dá)到維護(hù)數(shù)據(jù)中心用戶數(shù)據(jù)安全以及減少故障帶來的損失的目的。但是預(yù)測出的剩余使用壽命僅能較好擬合實(shí)際的剩余使用壽命,還存在一定的波動,運(yùn)維人員需要增加信息處理以及排序等步驟。因此,關(guān)于硬盤健康度的預(yù)測顯得尤為重要。本文提供的硬盤健康度預(yù)測模型為運(yùn)維人員提供了的有關(guān)硬盤健康狀況等級信息,以便運(yùn)維人員在某個(gè)時(shí)間范圍內(nèi)提前進(jìn)行故障盤的維修和數(shù)據(jù)遷移操作,也驗(yàn)證了硬盤健康度預(yù)測模型的實(shí)際應(yīng)用價(jià)值。
為了驗(yàn)證本文提出的SMART-Degree硬盤健康度劃分的性能,本文設(shè)計(jì)了與上述24 h等分硬盤度劃分的對比實(shí)驗(yàn)。圖9和圖10分別顯示了在采用不同劃分的TCBN模型在每個(gè)硬盤健康度劃分間隔的預(yù)測準(zhǔn)確性。
圖9 采用SMART-Degree劃分的TCBN模型的準(zhǔn)確率
圖10 采用24 h劃分的TCBN模型的準(zhǔn)確率
圖10中可以觀察到采用24 h劃分的TCBN健康度預(yù)測模型在大多數(shù)時(shí)間間隔內(nèi)的準(zhǔn)確率約為30%。這種效果顯然是不夠的。過于密集的劃分間隔實(shí)際上會降低模型在預(yù)測硬盤健康度方面的準(zhǔn)確率。另一方面,圖9中采用SMART-Degree硬盤健康度劃分的TCBN模型準(zhǔn)確率是呈現(xiàn)逐漸上升的趨勢。隨著劃分間隔的擴(kuò)大,預(yù)測模型的準(zhǔn)確率也逐漸提高,其中在288 h~480 h區(qū)間的準(zhǔn)確率達(dá)到了75%。從整體上看,本文提出的“SMART-Degree”硬盤健康度劃分取得了良好的性能。
樣本數(shù)量可能會對準(zhǔn)確性產(chǎn)生一定的影響,但是本文的樣本是來自實(shí)際數(shù)據(jù)中心的硬盤數(shù)據(jù)集。該因素正驗(yàn)證了數(shù)據(jù)中心硬盤故障的實(shí)際發(fā)生狀況。如果盲目地?cái)U(kuò)大硬盤健康度劃分的最小單元,擴(kuò)大到極端情況下,它就演變成為二分類問題。盡管準(zhǔn)確率將大大提高,但這種研究與傳統(tǒng)的故障二分類問題一樣,在實(shí)際應(yīng)用中不具備更高的實(shí)際應(yīng)用價(jià)值。
本文建立了一種基于TCBN組合模型的硬盤健康度預(yù)測模型,依據(jù)真實(shí)數(shù)據(jù)中心運(yùn)維人員故障處理機(jī)制,提出了“SMART-Degree”硬盤健康度劃分。實(shí)驗(yàn)結(jié)果表明,TCBN模型在TPR和FPR指標(biāo)方面超過以往研究提出的單個(gè)模型;模型預(yù)測的剩余使用壽命與真實(shí)值具有較好的吻合度;此外,對比采用提出的“SMART-Degree”與常見等分的硬盤健康度劃分,TCBN硬盤健康度預(yù)測模型準(zhǔn)確率顯著提升。
與以往研究相比,本文設(shè)計(jì)的TCBN組合模型解決了單一模型預(yù)測效果差及預(yù)測結(jié)果單一的問題,同時(shí)提出的“SMART-Degree”健康度劃分,為數(shù)據(jù)中心可靠性研究提供了新思路。未來的研究將繼續(xù)嘗試其它算法,提高組合模型的性能;同時(shí)探索其它因素對硬盤預(yù)測模型的影響,讓其更貼合實(shí)際應(yīng)用場景,從而提高研究的應(yīng)用價(jià)值。