蔡珩,戈磊
?
智能化網(wǎng)格電信系統(tǒng)的故障預(yù)測方法
蔡珩,戈磊
(中國電信股份有限公司上海分公司,上海 200042)
嘗試用基于深度學(xué)習(xí)的相關(guān)人工智能技術(shù),分析服務(wù)器集群上的進(jìn)程和端口網(wǎng)絡(luò),并對網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行狀態(tài)預(yù)測。具體地,結(jié)合運(yùn)維過程中的先驗(yàn)知識對網(wǎng)絡(luò)節(jié)點(diǎn)的特征進(jìn)行細(xì)致選擇,預(yù)測網(wǎng)絡(luò)中各個進(jìn)程和端口的異常(崩潰)狀態(tài)。實(shí)驗(yàn)結(jié)果表明,進(jìn)程節(jié)點(diǎn)的運(yùn)行信息(如CPU和內(nèi)存使用率)、進(jìn)程間的通信情況以及進(jìn)程節(jié)點(diǎn)在整個網(wǎng)絡(luò)中的結(jié)構(gòu)特征對于判斷該節(jié)點(diǎn)的狀態(tài)具有一定的指導(dǎo)價值,而這些特征在時間維度上的變化量同樣反映了進(jìn)程/端口的狀態(tài)。
故障預(yù)測;深度學(xué)習(xí);二分類
隨著信息技術(shù)的發(fā)展,大規(guī)模服務(wù)器集群和網(wǎng)絡(luò)設(shè)備的部署和使用日益廣泛,在集群上運(yùn)行各種服務(wù)[1]逐漸成為大型企業(yè)的選擇。同時,對集群上各種資源的監(jiān)視和管理也得到學(xué)術(shù)界和工業(yè)界的大量關(guān)注。
人們總是希望部署一個可靠穩(wěn)定的服務(wù)器集群,然而事與愿違,大部分集群上還是會出現(xiàn)如進(jìn)程崩潰[2]、端口流量過大、端口阻塞[3]等異常情況。人們往往采取人工查看服務(wù)器日志的方式,通過各個進(jìn)程和端口的狀態(tài)判斷哪些進(jìn)程或端口可能會發(fā)生異常并采取相應(yīng)的措施,但是這種方式耗時耗力,并且人工查看具有時限性和一定的誤差。
本文將采用一些基于深度學(xué)習(xí)的方法,對服務(wù)器集群上的進(jìn)程和端口網(wǎng)絡(luò)進(jìn)行分析,并對該網(wǎng)絡(luò)上的節(jié)點(diǎn)即某個進(jìn)程或端口的狀態(tài)進(jìn)行預(yù)測。
本文首先對服務(wù)器集群上的進(jìn)程網(wǎng)絡(luò)進(jìn)行建模,而和被廣泛關(guān)注的社交網(wǎng)絡(luò)[4-8]不同的是,缺乏對該進(jìn)程網(wǎng)絡(luò)上節(jié)點(diǎn)的了解,比如一個進(jìn)程何時會與周圍的進(jìn)程產(chǎn)生通信、為什么會產(chǎn)生通信以及本文的預(yù)測目標(biāo):一個進(jìn)程是否會發(fā)生崩潰,因?yàn)檫M(jìn)程間的通信通常依賴于某個進(jìn)程的具體功能和實(shí)際服務(wù)的使用情況。即便如此,本文還是可以類比社交網(wǎng)絡(luò)中節(jié)點(diǎn)的相關(guān)性質(zhì),對該進(jìn)程網(wǎng)絡(luò)中的節(jié)點(diǎn)做出如下分析。
??將某個進(jìn)程的占用CPU、內(nèi)存情況看作進(jìn)程節(jié)點(diǎn)的“固有屬性”。
??進(jìn)程之間的通信看作進(jìn)程網(wǎng)絡(luò)中的邊,那么,節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心度[9-10]可以衡量節(jié)點(diǎn)的活躍程度以及與外界聯(lián)系的緊密程度。
??把進(jìn)程崩潰視作一個進(jìn)程的行為,那么進(jìn)程崩潰這一現(xiàn)象可以類比為社交網(wǎng)絡(luò)中信息的擴(kuò)散[11-12]。
基于以上分析,本文把一個進(jìn)程或端口發(fā)生崩潰、阻塞等異常的現(xiàn)象定義為網(wǎng)絡(luò)中一個節(jié)點(diǎn)的狀態(tài);在給定的時間戳下,網(wǎng)絡(luò)中的節(jié)點(diǎn)可以被分為兩類:處于異常狀態(tài)的節(jié)點(diǎn)和處于正常狀態(tài)的節(jié)點(diǎn)。因此,預(yù)測網(wǎng)絡(luò)中節(jié)點(diǎn)的異常[13]可以轉(zhuǎn)化為針對網(wǎng)絡(luò)節(jié)點(diǎn)的二分類問題[14]。本文仔細(xì)地選取節(jié)點(diǎn)的相關(guān)屬性作為節(jié)點(diǎn)分類的特征,用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[15]對該模型進(jìn)行分類,并得到了較為可信的結(jié)果。
本文對服務(wù)器集群上的進(jìn)程網(wǎng)絡(luò)以及該網(wǎng)絡(luò)中的節(jié)點(diǎn)、邊和節(jié)點(diǎn)狀態(tài)做出如下定義。
定義1 (進(jìn)程標(biāo)識符)用一個進(jìn)程的如下信息作為其標(biāo)識符:本地IP地址、本地主機(jī)名、本地進(jìn)程組、進(jìn)程描述以及進(jìn)程號。換句話說,上述5個字段可以唯一地確定一個進(jìn)程。
如果兩條日志記錄中進(jìn)程的標(biāo)識符完全一致,則認(rèn)為是同一進(jìn)程的記錄。
定義5 (遠(yuǎn)端進(jìn)程)把在日志記錄中本地IP地址或本地主機(jī)名為空的進(jìn)程定義為遠(yuǎn)端進(jìn)程。由于日志記錄是由本地probe(探針)對正在運(yùn)行的進(jìn)程進(jìn)行遍歷得到的,因此,日志記錄中本地IP地址或主機(jī)名為空可以視作該進(jìn)程不在這個服務(wù)器集群上,將這類進(jìn)程稱為遠(yuǎn)端進(jìn)程。
定義6 (端口標(biāo)識符)用一個端口的如下信息作為其標(biāo)識符:主機(jī)名、端口名。如果兩條日志記錄中主機(jī)名和端口名一致,認(rèn)為這是同一端口的記錄。
在對進(jìn)程和端口狀態(tài)進(jìn)行預(yù)測前,先從整體上對數(shù)據(jù)做一些基本的分析。
?3.1.1 數(shù)據(jù)量
?3.1.2 靜態(tài)特征分布
??CPU占用率;
??內(nèi)存使用量;
??與之存在通信的進(jìn)程數(shù)量(即進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的度);
??與其他進(jìn)程的通信總量(即進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的邊權(quán)之和);
??存在通信的遠(yuǎn)端進(jìn)程數(shù)量;
如圖1所示,正負(fù)樣本在CPU這一“固有屬性”上存在一定的差異:對于負(fù)樣本即正常進(jìn)程,它們的CPU使用率集中在20%以下和100%以上;而正樣本(異常進(jìn)程)的CPU使用率分布較為分散。根據(jù)經(jīng)驗(yàn),這種分布是可以理解的,因?yàn)閷τ谡谶\(yùn)行的進(jìn)程,如果是計算密集型的,CPU使用量會較高,否則一般不會太多地占用CPU資源。
圖1 CPU占比的整體分布
圖2為存在通信的進(jìn)程數(shù)量這一非結(jié)構(gòu)特征的整體分布??梢钥吹剑嬖谕ㄐ诺倪M(jìn)程數(shù)量在正負(fù)樣本之間沒有顯著區(qū)別(進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的度大多為1);進(jìn)程節(jié)點(diǎn)的帶權(quán)重的度以及遠(yuǎn)端通信進(jìn)程數(shù)量這兩個特征的結(jié)果也和圖2類似。也就是說,正負(fù)樣本在這3個非結(jié)構(gòu)特征上沒有明顯差異。
圖2 存在通信的進(jìn)程數(shù)量的整體分布
對該進(jìn)程網(wǎng)絡(luò)中的結(jié)構(gòu)特征的分布情況進(jìn)行考察。再次回到本文的目標(biāo):對于給定的進(jìn)程,其是否為崩潰狀態(tài)。對于較大規(guī)模的服務(wù)器集群,其上運(yùn)行著大量進(jìn)程,不難想象,一個進(jìn)程關(guān)聯(lián)的其他進(jìn)程越多,該進(jìn)程就越重要,其對服務(wù)器的負(fù)載就越重,崩潰的可能性就越大。
因此,選擇進(jìn)程網(wǎng)絡(luò)圖上的結(jié)構(gòu)特征來衡量一個進(jìn)程的重要性或者核心程度,希望通過進(jìn)程節(jié)點(diǎn)的中心度[9-10]來幫助對進(jìn)程狀態(tài)進(jìn)行分析。圖3給出了進(jìn)程節(jié)點(diǎn)的中心度的分布情況。其中,橫坐標(biāo)為中心度的十進(jìn)對數(shù),縱坐標(biāo)為累積分布概率。
圖3 中心度的整體分布
可以看到,相對于正常進(jìn)程,正樣本(異常進(jìn)程)的中心度偏小,但整體分布是相似的,緊密性也是類似的結(jié)果。但這并不意味著“中心度高的重要進(jìn)程更容易崩潰”這一假設(shè)不正確,因?yàn)橥粋€中心進(jìn)程崩潰會導(dǎo)致與其存在通信的其他進(jìn)程或者該進(jìn)程的子進(jìn)程產(chǎn)生異常,而日志記錄是在某個特定的時間點(diǎn)通過探針生成的,因此很有可能在生成日志記錄的時候,以該中心進(jìn)程為核心的進(jìn)程組都進(jìn)行了重啟,因此正樣本的中心度分布和樣本的整體分布沒有較大區(qū)別。
值得注意的是,中心度和緊密性具有一定的相關(guān)性,二者作為特征訓(xùn)練分類器的效果也許會有意想不到的效果,在實(shí)驗(yàn)中也將看到這一點(diǎn)。
?3.1.3 時間間隔分布
前文對進(jìn)程的靜態(tài)特征做了整體分析,但是還應(yīng)當(dāng)注意到,進(jìn)程的崩潰是一個過程,時間維度上的特征也許會較好地反映進(jìn)程的狀態(tài)。
本文考慮進(jìn)程從正常狀態(tài)到崩潰狀態(tài)的時間間隔,體現(xiàn)在日志記錄中即同一進(jìn)程的進(jìn)程號兩條不同的連續(xù)日志記錄的時間戳的差。如果進(jìn)程一直保持著正常狀態(tài)(沒有崩潰),則傾向于認(rèn)為其在日志記錄中出現(xiàn)的時間戳應(yīng)當(dāng)是比較穩(wěn)定的,即不會突然在一段時間內(nèi)沒有日志記錄。而對于發(fā)生崩潰的進(jìn)程,由于其重啟等因素,可能會有較長時間間隔沒有日志記錄的現(xiàn)象。
圖4為正負(fù)樣本的時間間隔的整體分布。其中,橫坐標(biāo)為進(jìn)程距離上次出現(xiàn)在探針日志中的時間間隔(分鐘),縱坐標(biāo)為累積分布概率。
再一次地,可以發(fā)現(xiàn)在時間間隔這一特征上沒有顯著區(qū)別。由于探針每3 min采樣一次,因此時間戳的差集中在3、6或9等數(shù)值上。
圖4 時間間隔的整體分布
?3.2.1 數(shù)據(jù)量
?3.2.2 端口特征
對具體某個端口,定義以下特征:
圖5為端口在前一天各個小時中的平均入口流量分布??梢钥吹疆惓6丝诤驼6丝诘牟罹嗍禽^為明顯的:相對于正常端口,異常端口各個小時的平均流量有明顯的下降,可以猜測發(fā)生了端口阻塞,導(dǎo)致異常端口在同時段內(nèi)流量較少。
同樣地,如圖6所示,異常端口和正常端口在前3天的出口流量方差這一指標(biāo)上也是區(qū)別顯著:相對于正常端口,異常端口的出口流量在一天內(nèi)的方差很大(很可能是因?yàn)楫惓6丝跁r斷時續(xù)地進(jìn)行工作,出入流量的方差相比正常端口自然要大一些)。圖7是端口在前3天出現(xiàn)告警次數(shù)的平均值。可以看到,如果當(dāng)天端口出現(xiàn)異常情況,那么在前3天這個端口也很有可能已經(jīng)出現(xiàn)了異常情況。
圖5 前一天平均入口流量分布
圖6 前3天出口流量方差
值得注意的是,圖5和圖6的結(jié)果是在2017年4月份的數(shù)據(jù)集上得出的,不同時間段內(nèi)異常端口的表現(xiàn)可能不一致,如異常端口可能會出現(xiàn)出入口流量方差較小的情況(和圖6恰恰相反),這有可能是因?yàn)楫惓6丝诒蛔枞?,流量在一天的大部分時間內(nèi)恒定地處于較低水平,表現(xiàn)出方差較小的情況。但經(jīng)過大量數(shù)據(jù)的測試,發(fā)現(xiàn)異常端口和正常端口在出入口流量方差和小時總量這兩個指標(biāo)上總是有較為顯著的區(qū)別。
圖7 前3天告警次數(shù)分布
將用分類問題的思路判斷給定進(jìn)程或端口的狀態(tài)。進(jìn)一步地,由于狀態(tài)只有異常和正常兩種,因此目標(biāo)簡化為二分類[14-18]問題:給定一個進(jìn)程/端口的相關(guān)描述,輸出該進(jìn)程/端口所處的狀態(tài)(異常與否)。
?4.1.1 進(jìn)程網(wǎng)絡(luò)
根據(jù)樣本的輸入特征,在訓(xùn)練集上訓(xùn)練得到CNN,對測試集中的每個進(jìn)程或輸出判斷結(jié)果,用準(zhǔn)確率、召回率和F1得分來衡量分類器的優(yōu)劣。
其中,由于正負(fù)樣本比過?。ㄕ龢颖具^少),本文采用過采樣(over-sampling)[20]的方法生成訓(xùn)練集,用交叉驗(yàn)證(cross-validation)[21-22]的方式對分類器進(jìn)行訓(xùn)練,然后對正樣本極少的原始數(shù)據(jù)集進(jìn)行測試。
?4.1.2 端口網(wǎng)絡(luò)
類似地,對于端口的異常預(yù)測這一問題,人工提取第3.2節(jié)中提及的各個特征作為輸入,通過訓(xùn)練集得到一個CNN分類器,對測試集中的每個進(jìn)程或輸出判斷結(jié)果,用準(zhǔn)確率、召回率和F1得分來衡量分類器的優(yōu)劣。
同樣,由于正負(fù)樣本比過小(正樣本過少),本文采用部分隨機(jī)采樣(partly-random sampling)的方法對負(fù)樣本進(jìn)行采樣,以平衡正負(fù)樣本比生成訓(xùn)練集,然后用交叉驗(yàn)證的方式對分類器進(jìn)行訓(xùn)練,對正樣本極少的原始數(shù)據(jù)集進(jìn)行測試。
對于進(jìn)程網(wǎng)絡(luò),按照定義4給出的方式,人工從原始數(shù)據(jù)集中提取進(jìn)程標(biāo)簽(正負(fù)樣本)。即首先過濾日志得到常駐進(jìn)程,對每個常駐進(jìn)程,判斷其上一條時間戳的日志記錄的進(jìn)程號是否與當(dāng)前時間戳的進(jìn)程號一致。若不一致,則認(rèn)為在當(dāng)前時間戳該進(jìn)程發(fā)生崩潰,采集為正樣本,否則為負(fù)樣本。
而端口網(wǎng)絡(luò)數(shù)據(jù)集中含有標(biāo)簽信息,直接提取即可。
本數(shù)據(jù)集(上海電信CSB服務(wù)器集群的進(jìn)程日志)時間跨度為2016年8月30日14—18時,共2 858 063條日志記錄。其中,常駐進(jìn)程973個,進(jìn)程崩潰次數(shù)為25次,正負(fù)樣本比為0.16‰。
本文隨機(jī)地對正負(fù)樣本進(jìn)行分割,使訓(xùn)練集和測試集的大小一致。由于正負(fù)樣本比過低,本文采用正樣本過采樣和交叉驗(yàn)證的方式進(jìn)行訓(xùn)練,每次訓(xùn)練和測試過程重復(fù)10次,結(jié)果取平均值。
首先考慮具體的某個基本特征對分類效果的影響。
圖8給出了不同特征對分類結(jié)果的影響的比較。橫向地和沒有剔除任何特征的分類器相比,可以發(fā)現(xiàn),CPU、內(nèi)存使用量以及遠(yuǎn)端進(jìn)程數(shù)量這3個特征對區(qū)分正負(fù)樣本的作用是顯著的,剔除其中任何一個都會使F1得分有明顯的下降。這個結(jié)果和特征的分布具有一致性,因?yàn)檎?fù)樣本的CPU占用率和內(nèi)存使用量的分布有著明顯的區(qū)別;而對于剔除節(jié)點(diǎn)的度、邊權(quán)和以及圖的結(jié)構(gòu)化特征中心度和緊密性,可以發(fā)現(xiàn)隨著正負(fù)樣本比的降低,F(xiàn)1得分反而在增加。
圖8 單個特征對結(jié)果的影響
進(jìn)一步地,為了考慮不同特征之間的相關(guān)性的影響,把上述的特征分為3類:進(jìn)程的運(yùn)行信息,即CPU和內(nèi)存使用情況;進(jìn)程的通信情況,體現(xiàn)為進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的度(或帶權(quán)重的邊權(quán)和)以及存在通信的遠(yuǎn)端進(jìn)程數(shù)量;進(jìn)程網(wǎng)絡(luò)中節(jié)點(diǎn)的結(jié)構(gòu)特征,即中心度和緊密性。
圖9展示了不同特征對分類結(jié)果的影響??梢钥吹剑诙愄卣骷催M(jìn)程的通信情況,極大地提高了分類器的召回率,但是準(zhǔn)確率很低,這是因?yàn)橛写罅康呢?fù)樣本在該特征上和正樣本具有相同的值,在只有第二類特征的條件下,分類器傾向于認(rèn)為大部分樣本都是正樣本。因而崩潰預(yù)測在沒有第二類特征的分類器上達(dá)到了最好的效果。
圖9 單組特征和組合特征對分類的影響
而第一類和第三類特征都可以在一定程度上反映進(jìn)程的狀態(tài)。這是因?yàn)檎缭趫D9中,正負(fù)樣本的CPU和內(nèi)存使用情況的分布不同,而第三類特征即進(jìn)程節(jié)點(diǎn)的中心度,盡管分布相似,但二者具有緊密的相關(guān)性,結(jié)合在一起考慮便可以作為崩潰檢測的指標(biāo)之一。
圖10 不同特征變化量對應(yīng)的F1得分
這說明進(jìn)程的崩潰不是突然的,一個進(jìn)程在發(fā)生崩潰的前后,其CPU、內(nèi)存使用情況以及和其他進(jìn)程的通信等屬性往往會有突出的變化:比如在PC(個人計算機(jī))上,往往一個進(jìn)程占用內(nèi)存過大會出現(xiàn)崩潰,崩潰前內(nèi)存使用量增加的趨勢則反映了其崩潰的可能性。
實(shí)驗(yàn)結(jié)果表明,將時間信息加入進(jìn)程的特征進(jìn)行訓(xùn)練,得到了效果更好的分類器以對進(jìn)程的崩潰進(jìn)行檢測。
本文選取了上海電信IDC的2017年4月份的端口流量監(jiān)控記錄,日活躍端口數(shù)量均值為6 175.5。
本文將4月1—13日的數(shù)據(jù)作為訓(xùn)練集訓(xùn)練分類器,用4月14—20日的數(shù)據(jù)作為測試集。
如表1所示,訓(xùn)練得到的分類器對測試集的預(yù)測是較為準(zhǔn)確的,平均F1得分可以達(dá)到0.8左右。
表1 端口網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果
本文針對上海電信的進(jìn)程網(wǎng)絡(luò)和網(wǎng)絡(luò)端口,分析了網(wǎng)絡(luò)中節(jié)點(diǎn)的有關(guān)屬性,選取節(jié)點(diǎn)的特征進(jìn)行訓(xùn)練以對節(jié)點(diǎn)的異常狀態(tài)進(jìn)行預(yù)測。
通過仔細(xì)地選取特征和相應(yīng)的預(yù)測結(jié)果,可以得到如下結(jié)論。
??由于數(shù)據(jù)集上正樣本的稀疏性,訓(xùn)練數(shù)據(jù)的正負(fù)樣本比對訓(xùn)練結(jié)果有顯著的影響。
??相比于進(jìn)程的通信情況,進(jìn)程節(jié)點(diǎn)的結(jié)構(gòu)特征以及進(jìn)程運(yùn)行信息(如CPU占用率、內(nèi)存使用量等)對于判斷一個進(jìn)程是否會崩潰更具參考價值。
??從時間的維度看,進(jìn)程的運(yùn)行和通信信息的變化量更能反映該進(jìn)程的狀態(tài)。
??從時間的維度看,端口過去3天的告警次數(shù)和出入流量方差更能區(qū)分其是否異常。
針對進(jìn)程故障預(yù)測這一問題,未來還可以從以下兩方面著手考慮。
??類比社交網(wǎng)絡(luò)中的信息擴(kuò)散[11-12],可以把進(jìn)程崩潰看作進(jìn)程的一種行為,通過對進(jìn)程節(jié)點(diǎn)之間的影響力進(jìn)行建模,可以預(yù)測進(jìn)程的崩潰情況。同樣的,對于網(wǎng)絡(luò)端口來說,對網(wǎng)絡(luò)上的邊進(jìn)行建模(如端口的通信),也可以將端口出現(xiàn)異常視作在端口網(wǎng)絡(luò)中擴(kuò)散的一種行為。
??除了人工地選取進(jìn)程特征進(jìn)行訓(xùn)練,還可以運(yùn)用圖表示[23]的方法對進(jìn)程和端口網(wǎng)絡(luò)進(jìn)行建模,用embedding的結(jié)果作為特征訓(xùn)練分類器。
[1] DAMANI O P, CHUNG P E, HUANG Y, et al. ONE-IP: techniques for hosting a service on a cluster of machines[J]. Computer Networks and ISDN Systems, 1997, 29(8-13): 1019-1027.
[2] MOOLENBROEK D V C, APPUSWAMY R, TANENBAUM A S. Integrated system and process crash recovery in the loris storage stack[C]//Networking, Architecture and Storage(NAS), 2012 IEEE 7th International Conference, October 14-17, 2012, Seoul, Korea (South). Piscataway: IEEE Press, 2012: 1-10.
[3] MOHAMED E, ABDEL-WAHAB H, SALAMA I. Multicast address management in the internet: a study of the port blocking problem[R]. 1999.
[4] NEWMAN M, BARABASI A L, WATTS D J. The structure and dynamics of networks[M]. Princeton: Princeton University Press, 2006: 419-421.
[5] GRANOVETTER M. The strength of weak ties[J]. American Journal of Sociology, 1973, 78(6): 1360-1380.
[6] ONNELA J P, SARAMAKI J, HYVONEN J, et al. Structure and tie strengths in mobile communication networks[J]. The National Academy of Sciences, 2007, 104(18): 7332-7336.
[7] CHORMANSKI K, MATUSZAK M, MIEKISZ J. Scale-free graph with preferential attachment and evolving internal vertex structure[J]. Journal of Statistical Physics, 2013, 151(6): 1175- 1183.
[8] MILGRAM S. The small world problem[J]. Psychology Today, 1967, 2(1): 185-195.
[9] FREEMAN L. A set of measures of centrality based on betweenness[J]. Sociometry, 1977, 40(1): 35-41.
[10] NEWMAN M. Networks: an introduction[M]. Oxford: Oxford University Press, 2010.
[11] GOMEZ-RODRIGUEZ M, LESKOVEC J, KRAUSE A. Inferring networks of diffusion and influence[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 5(4): 1-37.
[12] RODRIGUEZ M G, BALDUZZI D, SCHOLKOPF B. Uncovering the temporal dynamics of diffusion networks[C]//The 28th International Conference on Machine Learning (ICML), June 28-July 2, 2011, Bellevue, Washington, USA. [S.l.:s.n.], 2011: 561-568.
[13] LIBEN-NOWELL D, KLEINBERG J. The link prediction problem for social networks[J]. Journal of the Association for Information Science & Technology, 2007, 58(7): 1019-1031.
[14] LAST M. Kernel methods for pattern analysis[M]. Beijing: China Machine Press, 2005.
[15] KIM I. Convolutional neural networks for sentence classification[J]. arXiv: 1408.5882, 2014.
[16] CONKLIN J D. Applied logistic regression[J]. Technometrics, 2013, 44(1): 81-82.
[17] BRANDES U. A faster algorithm for betweenness centrality[J]. Journal of Mathematical Sociology, 2001, 25(2): 163- 177.
[18] SABIDUSSI G.The centrality index of a graph[J]. Psychometrika, 1966, 31(4): 581-603.
[19] JAPKOWICZ N. The class imbalance problem: significance and strategies[C]//The 2000 International Conference on Artificial Intelligence(IC-AI’2000), June 26-29, 2000, Las Vegas, USA. [S.l.:s.n.], 2000.
[20] GEISSER S. Predictive inference: an introduction [M]. New York: Chapman and Hall, 1993.
[21] KOHAVI R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]//The Fourteenth International Joint Conference on Artificial Intelligence, August 20-25, 1995, Montreal, Quebee, Canada. New York: ACM Press, 1995: 1137-1143.
[22] LEIKE, A. Demonstration of the exponential decay law using beer froth[J]. European Journal of Physics, 2002, 23(1): 21.
[23] MOHAR B. A linear time algorithm for embedding graphs in an arbitrary surface[J]. SIAM Journal on Discrete Mathematics, 2006, 12(1): 6-26.
Intelligent fault prediction method of telecom system
CAI Heng, GE Lei
Shanghai Branch of China Telecom Co., Ltd., Shanghai 200042, China
Some approaches based on deep learning would be used to analyze the process and port network on a server cluster. Specifically, the features of nodes were carefully selected in server cluster network, by combining the prior knowledge from actual operations, and the abnormal state of processes or ports on the cluster was predicted. According to the research, the running information such as loads of CPU and memory, communications between processes and the structural features in the process network was valuable in predicting the states of processes and ports; furthermore, the changes of features mentioned above in the time dimension reflected the states of processes or ports, too.
fault prediction, deep learning, binary classification
TP391.1
A
10.11959/j.issn.1000?0801.2018118
蔡珩(1976?),女,中國電信股份有限公司上海分公司工程師,主要研究方向?yàn)镮T智慧運(yùn)營、利用大數(shù)據(jù)技術(shù)提升系統(tǒng)運(yùn)維的智能化。
戈磊(1973?),男,中國電信股份有限公司上海分公司企業(yè)信息化部高級項(xiàng)目經(jīng)理,主要研究方向?yàn)樵朴嬎?、開源架構(gòu)、大數(shù)據(jù)分析、Devops運(yùn)營、流程生命周期管控等。
2017?10?17;
2018?02?05