近年來(lái),隨著移動(dòng)通信技術(shù)的快速發(fā)展,出現(xiàn)了在線語(yǔ)音、視頻、實(shí)時(shí)手游、手機(jī)購(gòu)物等業(yè)務(wù),使得基站業(yè)務(wù)數(shù)據(jù)流量指數(shù)增長(zhǎng)。傳統(tǒng)蜂窩移動(dòng)通信系統(tǒng)在未來(lái)無(wú)法滿足業(yè)務(wù)和能耗上的要求,中科院計(jì)算技術(shù)研究所提出了超級(jí)基站的概念。
超級(jí)基站[1-3]是一種物理集中、邏輯分布的多模異構(gòu)新型接入網(wǎng)平臺(tái),支持資源水平共享、統(tǒng)計(jì)復(fù)用。超級(jí)基站通過(guò)統(tǒng)一和開(kāi)放接口在集中式大規(guī)模資源池中按需創(chuàng)建大量虛擬基站,多個(gè)虛擬基站共享資源池中的資源,資源池中某部分資源出現(xiàn)問(wèn)題,可能導(dǎo)致與之關(guān)聯(lián)的多個(gè)基站故障,從而影響大范圍接入用戶業(yè)務(wù),嚴(yán)重的話會(huì)造成整個(gè)網(wǎng)絡(luò)崩潰。因此,超級(jí)基站平臺(tái)要求一個(gè)更加安全、可靠網(wǎng)絡(luò)環(huán)境以及一個(gè)更加高效的故障檢測(cè)機(jī)制。
然而集中式接入網(wǎng)的設(shè)備復(fù)雜性越來(lái)越高,業(yè)務(wù)種類(lèi)的增多,使得超級(jí)基站的數(shù)據(jù)規(guī)模呈爆發(fā)式的增長(zhǎng),其故障檢測(cè)效率越來(lái)越低,故障管理變得越來(lái)越困難。目前,領(lǐng)域內(nèi)出現(xiàn)了一些故障檢測(cè)方法,文獻(xiàn)[4]提出一種探針機(jī)制,周期性的向網(wǎng)絡(luò)發(fā)送探測(cè)數(shù)據(jù),判斷網(wǎng)絡(luò)的狀態(tài)。此方式需要不斷的向網(wǎng)絡(luò)中發(fā)送探測(cè)包,這會(huì)給本來(lái)數(shù)據(jù)量就十分龐大的超級(jí)基站增加難以估計(jì)的開(kāi)銷(xiāo),降低故障管理效率。文獻(xiàn)[5]提出利用數(shù)據(jù)挖掘技術(shù)對(duì)故障數(shù)據(jù)進(jìn)行訓(xùn)練,生成一套規(guī)則用于故障檢測(cè)。此方法學(xué)習(xí)能力強(qiáng),但是需要訓(xùn)練故障樣本,并且故障樣本越大,訓(xùn)練出來(lái)的規(guī)則可靠性越高,而對(duì)于大多數(shù)設(shè)備而言,一次獲得大量故障樣本比較困難。文獻(xiàn)[6]提出了一種否定選擇算法,此方法實(shí)現(xiàn)簡(jiǎn)單,只需要訓(xùn)練正常的數(shù)據(jù)就可檢測(cè)出異常,但是異常并不一定是故障。而文獻(xiàn)[7]提出的專(zhuān)家系統(tǒng),存儲(chǔ)了大量領(lǐng)域相關(guān)的知識(shí)給系統(tǒng)決策提供依據(jù)。于是,本文結(jié)合否定選擇算法和專(zhuān)家系統(tǒng),給超級(jí)基站設(shè)計(jì)了一個(gè)綜合的故障檢測(cè)機(jī)制—NEFDM(Negative selection algorithm and Expert system Fault Detection Mechanism)?;趦煞N方式的結(jié)合,所提出的NEFDM應(yīng)用在超級(jí)基站上可有效提升故障檢測(cè)率,使得故障管理變得簡(jiǎn)單并能提升網(wǎng)絡(luò)的自適應(yīng)能力。NEFDM分為兩步:1、異常檢測(cè):采用人工免疫系統(tǒng)的否定選擇算法生成超級(jí)基站異常檢測(cè)器,進(jìn)行超級(jí)基站的異常檢測(cè),發(fā)現(xiàn)系統(tǒng)的異常情況。2、故障判定:對(duì)步驟1中檢測(cè)出的異常進(jìn)行故障判定?;诔?jí)基站專(zhuān)家系統(tǒng)規(guī)則庫(kù)對(duì)異常狀況進(jìn)行篩選,如果該異常是已知的并且造成了故障,采用專(zhuān)家規(guī)則庫(kù)的方法解決;如果是未知異常狀況,則通知系統(tǒng)故障管理模塊進(jìn)行故障定位,并將解決后的方案擴(kuò)充到專(zhuān)家系統(tǒng)。
否定選擇算法屬于人工免疫領(lǐng)域一種常用算法,又稱(chēng)陰性選擇算法,由美國(guó)學(xué)者Forrest等在研究免疫系統(tǒng)時(shí)提出并成功應(yīng)用于計(jì)算機(jī)安全領(lǐng)域。其原理借鑒了免疫細(xì)胞成熟時(shí)的“否定選擇”過(guò)程,通過(guò)學(xué)習(xí)“自體”數(shù)據(jù)訓(xùn)練出的異常檢測(cè)器并用于檢測(cè)“非己”情況,其中“自體”數(shù)據(jù)指正常數(shù)據(jù),“非己”指異常狀況,該算法包括離線訓(xùn)練階段和在線檢測(cè)檢測(cè)[8]兩個(gè)階段。
2.1.1 離線訓(xùn)練階段
離線訓(xùn)練階段的目的是生成異常檢測(cè)器,用于異常檢測(cè),如下圖1。
生成的成熟異常檢測(cè)器集合用于下一階的異常檢測(cè)。
圖1 離線訓(xùn)練階段流程圖
2.1.2 在線檢測(cè)階段
異常檢測(cè)階段是將成熟的異常檢測(cè)器集合與待測(cè)數(shù)據(jù)中匹配,篩選出異常數(shù)據(jù),如下圖2。
圖2 異常檢測(cè)階段流程圖
專(zhuān)家系統(tǒng)主要由知識(shí)庫(kù)、推理機(jī)、人機(jī)交互接口等組件構(gòu)成,如下圖3。
知識(shí)庫(kù)存儲(chǔ)了大量的專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)。在構(gòu)建知識(shí)庫(kù)時(shí),知識(shí)的表達(dá)是一個(gè)核心問(wèn)題。知識(shí)表達(dá)的要求不僅適用于人類(lèi)的自然表達(dá),而且易于翻譯成機(jī)器易于使用的格式。專(zhuān)家系統(tǒng)中規(guī)則知識(shí)的表達(dá)形式一般為:
IF<條件>或者<前提>,THEN<結(jié)論>或者<操作>,SOLUTION<方法>。
如果前提成立,則結(jié)論成立,解決方法如下。中間使用AND、OR等連接符。連接符之間是規(guī)則元,是告警信息、故障類(lèi)型、解決方法等參數(shù)的詳細(xì)描述。
推理機(jī)是專(zhuān)家系統(tǒng)的組織控制機(jī)構(gòu),它根據(jù)輸入信息,運(yùn)知識(shí)庫(kù)中的知識(shí),參考一定的策略進(jìn)行推理,完成故障判定。
人機(jī)接口是專(zhuān)家系統(tǒng)和用戶之間進(jìn)行信息交互的媒介,通過(guò)定制的接口,可以方便地添加、刪除和修改專(zhuān)家知識(shí),瀏覽各種對(duì)象和屬性,賦予初始值,調(diào)整對(duì)象的相對(duì)關(guān)系,從而高效地建立、擴(kuò)展和維護(hù)專(zhuān)家系統(tǒng)的知識(shí)庫(kù)。
NEFDM分為異常檢測(cè)和故障判定兩個(gè)步驟,如下圖4。首先對(duì)基站的正常運(yùn)行數(shù)據(jù)進(jìn)行訓(xùn)練,生成異常檢測(cè)器集合,接著使用異常檢測(cè)器進(jìn)行異常檢測(cè),如果檢測(cè)到了異常,然后由專(zhuān)家系統(tǒng)進(jìn)行篩選,若為已知的異常,及時(shí)通知故障管理系統(tǒng)參考知識(shí)庫(kù)進(jìn)行故障修復(fù);如果檢測(cè)到了無(wú)法分析的異常,通知故障管理系統(tǒng)進(jìn)行故障定位,并將解決后的故障知識(shí)添加到專(zhuān)家系統(tǒng)。
接著介紹異常檢測(cè)與故障判定在超級(jí)基站的具體設(shè)計(jì)。
超級(jí)基站的異常檢測(cè)將進(jìn)行3個(gè)階段工作:數(shù)據(jù)預(yù)處理、異常檢測(cè)器生成、異常檢測(cè)器檢測(cè)。
3.2.1 數(shù)據(jù)預(yù)處理
圖4 超級(jí)基站故障檢測(cè)
超級(jí)基站的有關(guān)性能運(yùn)行參數(shù)有小區(qū)負(fù)載、丟包率、切換成功率、小區(qū)干擾門(mén)限等,有關(guān)設(shè)備的運(yùn)行參數(shù)有內(nèi)存利用率,溫度、電壓等等,這些參數(shù)均不是一個(gè)量綱級(jí)別,在異常檢測(cè)前需要將參數(shù)歸一化為同一量綱的數(shù)據(jù),文獻(xiàn)[9]提出將不同種類(lèi)的數(shù)據(jù)歸一化為實(shí)值向量序列,歸一化的公式(3-1)給出,生成的異常檢測(cè)器也是由實(shí)值向量序列表示。如下圖表1,從超級(jí)基站取5個(gè)正常運(yùn)行參數(shù)然后歸一化成0-1區(qū)間內(nèi)的實(shí)值,2個(gè)實(shí)值向量之間的距離表示二者之間的親和度,親和度越小就越匹配。例如向量x=[0.2, 0.3, 0.3, 0.1, 0.4]表示待測(cè)數(shù)據(jù),同時(shí)向量y=[0.1, 0.4, 0.5, 0.2, 0.3]表示檢測(cè)器,當(dāng)兩個(gè)向量之間的距離小于某個(gè)閾值時(shí),就表示樣本與檢測(cè)器匹配。此例中向量x與向量y之間的親和度用歐式(Euclidean)距離(3-2)計(jì)算。
3.2.2 生成異常檢測(cè)器
超級(jí)基站歷史數(shù)據(jù)庫(kù)中取出足夠的正常運(yùn)行參數(shù),歸一化處理為實(shí)值向量集合,我們稱(chēng)為自體樣本。自體樣本親和半徑為,若待測(cè)點(diǎn)與自體樣本的最小距離大于,則待測(cè)點(diǎn)屬于異常數(shù)據(jù);反之,待測(cè)點(diǎn)屬于正常數(shù)據(jù)。異常檢測(cè)器的生成過(guò)程就是一種否定選擇過(guò)程:隨機(jī)生成檢測(cè)器序列,比較檢測(cè)器與自體樣本的最小距離由公式(3-2)計(jì)算,若,該檢測(cè)器被否定;若,該檢測(cè)器可作為候選檢測(cè)器,對(duì)應(yīng)的檢測(cè)半徑為。已有的異常檢測(cè)器的檢測(cè)半徑集合為為異常檢測(cè)器的編號(hào),為了減小檢測(cè)器之間的重合率,需要判斷L與所有的大小,若存在,則將丟棄候選檢測(cè)器;若不存在,則將候選檢測(cè)器加入到成熟檢測(cè)器集合;下圖5為異常檢測(cè)器生成階段的流程圖。
表1 超級(jí)基站自體樣本案例
圖5 異常檢測(cè)器生成
生成檢測(cè)器集的停止條件是檢測(cè)器達(dá)到預(yù)定覆蓋率的值。文獻(xiàn)[10]提出使用樣本估計(jì)是否達(dá)到了覆蓋率,進(jìn)行樣本估計(jì)的時(shí)候暫時(shí)停止生成檢測(cè)器。選取n個(gè)測(cè)試樣本,設(shè)x為測(cè)試樣本被檢測(cè)器覆蓋的數(shù)量,如公式(3-3),為估計(jì)的覆蓋率。
p為預(yù)定覆蓋率,σ為標(biāo)準(zhǔn)差,根據(jù)中心極限定理,當(dāng)測(cè)試樣本n足夠大時(shí),測(cè)試樣本估計(jì)的覆蓋率的誤差z值可近似認(rèn)為服從標(biāo)準(zhǔn)正態(tài)分布,由式(3-4)表示。
根據(jù)(3-3)和(3-4)可推出(3-5)。然而估計(jì)存在誤差,文獻(xiàn)[11]給出,當(dāng)時(shí),可認(rèn)為已達(dá)到覆蓋率,停止訓(xùn)練;當(dāng)時(shí),沒(méi)有達(dá)到預(yù)定的覆蓋率范圍,繼續(xù)產(chǎn)生檢測(cè)器。其中α為顯著水平,α越小,說(shuō)明達(dá)到預(yù)定覆蓋率的結(jié)果越準(zhǔn)確,通常顯著水平選為α=0.05,則置信水平為1-α=0.95,為此置信水平對(duì)應(yīng)的值,可以通過(guò)查表得出。下圖6為檢測(cè)器覆蓋率檢驗(yàn)流程圖。
超級(jí)基站異常檢測(cè)器生成步驟如下:
圖6 檢測(cè)器覆蓋率檢驗(yàn)
(1)選取3.2.1節(jié)歸一化的實(shí)值自體樣本,設(shè)置自體樣本半徑。
(5)接著判斷成熟的檢測(cè)器是否足夠(如圖6),此時(shí)停止生成檢測(cè)器。
(6)選擇顯著性水平α,預(yù)定覆蓋率p,需要檢測(cè)的樣本數(shù)為n。
(7)隨機(jī)生成測(cè)試點(diǎn),判斷測(cè)試點(diǎn)是否屬于自體,若屬于則重新生成測(cè)試點(diǎn);若不屬于,統(tǒng)計(jì)生成的測(cè)試點(diǎn)數(shù);
(8)接著判斷測(cè)試點(diǎn)是否被覆蓋,即判斷測(cè)試點(diǎn)與檢測(cè)器集合的距離L,若L大于,則該測(cè)試點(diǎn)未被覆蓋;若L小于等于,則給測(cè)試點(diǎn)被覆蓋,。
3.2.3 異常檢測(cè)器檢測(cè)
接下來(lái),將上一小節(jié)生成的成熟檢測(cè)器集合用于超級(jí)基站的異常檢測(cè),步驟如下:
(1)從超級(jí)基站操作維護(hù)中心選取待測(cè)數(shù)據(jù),根據(jù)3.2.1節(jié)進(jìn)行數(shù)據(jù)預(yù)處理。
(4)判斷是否是最后一個(gè)檢測(cè)器,若不是,返回(2)接著去下一個(gè)異常檢測(cè)器,直到取完為止;若是,超級(jí)基站此時(shí)沒(méi)有異常,接著監(jiān)督下一個(gè)狀態(tài),返回(1)。
異常檢測(cè)器檢測(cè)出了異常,接著進(jìn)行故障判定。故障判定前需要先建立專(zhuān)家系統(tǒng)。
3.3.1 建立專(zhuān)家系統(tǒng)
首先獲取知識(shí)庫(kù)。知識(shí)獲取來(lái)源:(1)通常是通信設(shè)備廠商或者移動(dòng)通信協(xié)議制定者提出的通用標(biāo)準(zhǔn)、指標(biāo)。(2)超級(jí)基站運(yùn)維專(zhuān)家結(jié)合前幾代產(chǎn)品的實(shí)際故障案例歸納總結(jié)出的知識(shí)。(3)超級(jí)基站故障檢測(cè)機(jī)制挖掘出來(lái)的潛在知識(shí),也就是此次檢測(cè)之前收集的新知識(shí)。
接著是知識(shí)的表達(dá)。比如說(shuō)掉話率偏高或小區(qū)切換失敗,原因是切換參數(shù)設(shè)置不合理造成的,解決方法有調(diào)整切換門(mén)限、時(shí)延、天線傾斜角等等。超級(jí)基站專(zhuān)家知識(shí)庫(kù)按如下形式表達(dá)。
然后設(shè)計(jì)推理機(jī),設(shè)計(jì)成2個(gè)步驟:
(1)模型匹配:將當(dāng)前檢測(cè)出的異常情況與規(guī)則庫(kù)進(jìn)行條件匹配。如果完全匹配或大致匹配,則觸發(fā)步驟(2)。
(2)競(jìng)爭(zhēng)解決:從解決策略中依次選擇最符合條件的方法,提供給管理端。
最后設(shè)計(jì)人機(jī)交互接口,做成可調(diào)用的API形式,進(jìn)行推理機(jī)和知識(shí)庫(kù)的數(shù)據(jù)均通過(guò)此API實(shí)現(xiàn)。
超級(jí)基站的專(zhuān)家系統(tǒng)只需建立一次,以后每次都是對(duì)專(zhuān)家知識(shí)庫(kù)的擴(kuò)充,給下一次的故障判定提供參考依據(jù)。
3.3.2 故障判定
專(zhuān)家系統(tǒng)建立完成后接著進(jìn)行故障判定,如下圖7,步驟如下:
(1)異常檢測(cè)器檢測(cè)出異常,啟動(dòng)專(zhuān)家系統(tǒng);
(2)找到異常情況的原始數(shù)據(jù),通過(guò)人機(jī)交互接口進(jìn)入推理機(jī)實(shí)行模型匹配,若匹配成功,說(shuō)明超級(jí)基站的異常是已知的,觸發(fā)競(jìng)爭(zhēng)解決機(jī)制,選擇最合適的解決方法;若匹配失敗,說(shuō)明檢測(cè)出了未知異常,上報(bào)故障定位模塊進(jìn)行故障定位。
圖7 超級(jí)基站故障判定
(3)將已解決的故障案例以指定的格式添加到超級(jí)基站專(zhuān)家知識(shí)庫(kù),供下一次的故障檢測(cè)使用。
本文給超級(jí)基站設(shè)計(jì)的采用否定選擇算法和專(zhuān)家系統(tǒng)相結(jié)合的故障檢測(cè)機(jī)制(NEDFM)能給超級(jí)基站帶來(lái)如下好處:
(1)NEDFM能及時(shí)發(fā)現(xiàn)超級(jí)基站潛在的異常狀況,并上報(bào)給故障管理系統(tǒng),能從整體減小故障發(fā)生的概率、提升故障管理的效率,進(jìn)而增強(qiáng)網(wǎng)絡(luò)的可靠性和穩(wěn)定性。
(2)否定選擇算法在進(jìn)行異常檢測(cè)模型訓(xùn)練時(shí)只需提供正常運(yùn)行參數(shù)樣本,而不需提供大量的故障樣本,實(shí)現(xiàn)較為容易。
(3)NEFDM結(jié)合了專(zhuān)家系統(tǒng),每次新發(fā)現(xiàn)的異常案例能被專(zhuān)家系統(tǒng)收錄,當(dāng)下次再發(fā)生相同的異常能及時(shí)處理,提高了系統(tǒng)的自動(dòng)化程度。