張才俊,于喻,吳杏平,唐文升,孫德艷
(1.國(guó)家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300;2.北京中電普華信息技術(shù)有限公司,北京 100085;3.國(guó)家電網(wǎng)有限公司,北京 100031)
并行計(jì)算也稱平行計(jì)算,是相對(duì)于串行計(jì)算制度而存在的。該項(xiàng)應(yīng)用技術(shù)能夠在同一時(shí)間內(nèi)執(zhí)行多個(gè)指令算法,其目的在于提高數(shù)據(jù)參量的實(shí)際計(jì)算速度,在擴(kuò)大問(wèn)題求解規(guī)模的同時(shí),解決各類復(fù)雜的計(jì)算問(wèn)題。所謂并行可解釋為“空間上的并行”、“時(shí)間上的并行”兩部分,前者是指利用多個(gè)處理器設(shè)備進(jìn)行并發(fā)式的執(zhí)行計(jì)算,而后者則是指一系列連貫的流水化數(shù)據(jù)計(jì)算任務(wù)[1]。在獨(dú)立的應(yīng)用系統(tǒng)環(huán)境中,并行計(jì)算技術(shù)可以以某種方式,將多臺(tái)計(jì)算機(jī)設(shè)備組成一個(gè)完整的集群組織,且隨著該項(xiàng)技術(shù)手段的應(yīng)用,集群內(nèi)完成處理的數(shù)據(jù)參量可直接反饋回用戶主機(jī)內(nèi)部。
系統(tǒng)日志能夠準(zhǔn)確記錄系統(tǒng)在運(yùn)行過(guò)程中所發(fā)生的各項(xiàng)軟硬件執(zhí)行問(wèn)題,同時(shí)還能對(duì)系統(tǒng)中可能發(fā)生的事件進(jìn)行監(jiān)視[2]。一般情況下,用戶主機(jī)可根據(jù)錯(cuò)誤發(fā)生原因,尋找攻擊文件在攻擊過(guò)程中留下的信息痕跡。傳統(tǒng)分布式采集策略為獲取大量的系統(tǒng)運(yùn)行日志,需要在軟件技術(shù)手段的支持下,對(duì)日志信息所屬格式進(jìn)行定義,再針對(duì)網(wǎng)關(guān)產(chǎn)品的局限性問(wèn)題展開(kāi)深入研究。然而此方法并不能完全滿足日志服務(wù)的可擴(kuò)展性需求,易導(dǎo)致系統(tǒng)運(yùn)行環(huán)境穩(wěn)定性水平的下降。為解決此問(wèn)題,引入并行計(jì)算技術(shù),設(shè)計(jì)一種新型系統(tǒng)運(yùn)行日志采集方法,通過(guò)選定性能指標(biāo)的方式,確定線程任務(wù)的并行量數(shù)值,再聯(lián)合異構(gòu)體的可移植性能力,計(jì)算日志數(shù)據(jù)的實(shí)際采集量水平。
通用并行計(jì)算技術(shù)研究由性能指標(biāo)選定、線程任務(wù)并行量確定、異構(gòu)體可移植性分析3 個(gè)步驟組成,具體研究過(guò)程如下。
性能指標(biāo)能夠描述系統(tǒng)運(yùn)行日志在單位時(shí)間內(nèi)的傳輸數(shù)值量水平。一般情況下,該項(xiàng)物理量能夠決定系統(tǒng)在未來(lái)一段時(shí)間內(nèi)的實(shí)際工作能力,且由于并行計(jì)算原理在數(shù)值方面的真實(shí)約束性,最終所選定的性能指標(biāo)基本能夠完全滿足系統(tǒng)日志的實(shí)際運(yùn)行需求[3-4]。設(shè)代表系統(tǒng)運(yùn)行日志在單位時(shí)間內(nèi)的通行輸入量均值,χ0代表指標(biāo)參量的下限采集權(quán)限,χ1代表指標(biāo)參量的上限采集權(quán)限,β代表基于并行計(jì)算原理的日志數(shù)據(jù)傳輸判處條件,聯(lián)立上述物理量,可將系統(tǒng)運(yùn)行日志的性能指標(biāo)選定結(jié)果表示為:
式中,Rmin代表系統(tǒng)運(yùn)行日志的最小特征值,Rmax代表系統(tǒng)運(yùn)行日志的最大特征值,e1、e2分別代表兩個(gè)不同的日志數(shù)據(jù)并行處理參量。
在完成性能指標(biāo)選定后,并行計(jì)算的線程任務(wù)并沒(méi)有完全結(jié)束,而是有一部分任務(wù)以單線程的形式在系統(tǒng)CPU 運(yùn)行核心上繼續(xù)傳輸,當(dāng)線程消耗量達(dá)到理想數(shù)值標(biāo)準(zhǔn)后,才能收獲最終的并行量計(jì)算數(shù)值[5]。常規(guī)的CPU 運(yùn)行核心元件中至少包含4個(gè)處理器設(shè)備,且隨著線程任務(wù)并行量數(shù)值的增加,待采集的系統(tǒng)運(yùn)行日志量也會(huì)逐漸增大,但二者之間的數(shù)值配比關(guān)系始終滿足日志數(shù)據(jù)加速比定律[6-7]。設(shè)α0代表線程任務(wù)的最小單向傳輸系數(shù),α1代表線程任務(wù)的最大單向傳輸系數(shù),在上述物理量的支持下,聯(lián)立式(1),可將線程任務(wù)的并行量計(jì)算結(jié)果表示為:
其中,λ代表與系統(tǒng)運(yùn)行日志數(shù)據(jù)相關(guān)的單線程傳輸系數(shù),W代表日志數(shù)據(jù)特征值,w代表參量W的補(bǔ)充說(shuō)明條件,Y代表日志數(shù)據(jù)采集權(quán)限值,y代表參量Y的補(bǔ)充說(shuō)明條件,代表單位時(shí)間內(nèi)的日志數(shù)據(jù)并行處理系數(shù)。
異構(gòu)體的存在不僅方便了并行計(jì)算技術(shù)的應(yīng)用,也為系統(tǒng)運(yùn)行日志數(shù)據(jù)采集提供了大量的可參考節(jié)點(diǎn)。由于線程任務(wù)并行量在單位時(shí)間內(nèi)始終保持不斷增加的數(shù)值變化趨勢(shì),因此日志數(shù)據(jù)異構(gòu)體必須具備較強(qiáng)的可移植性能力。根據(jù)已選定的性能指標(biāo),對(duì)線程任務(wù)并行量進(jìn)行精準(zhǔn)計(jì)算,再通過(guò)判定系統(tǒng)運(yùn)行日志采集量的方式,實(shí)現(xiàn)對(duì)異構(gòu)體可移植性能力的判別與感知[8-9]。假設(shè)代表單位時(shí)間內(nèi)系統(tǒng)運(yùn)行日志數(shù)據(jù)異構(gòu)體的最小采集規(guī)模系數(shù),代表單位時(shí)間內(nèi)系統(tǒng)運(yùn)行日志數(shù)據(jù)異構(gòu)體的最大采集規(guī)模系數(shù),σ代表冪次項(xiàng)并行處理指標(biāo),在上述物理量的支持下,聯(lián)立式(2),可將并行數(shù)據(jù)的異構(gòu)體可移植性能力定義為:
式中,φ代表日志數(shù)據(jù)的線程任務(wù)定義系數(shù),D代表單位時(shí)間內(nèi)的系統(tǒng)日志采集運(yùn)行指標(biāo),f代表信息參量的并行計(jì)算權(quán)限值,代表日志量運(yùn)行采集均值。
日志采集框架能夠在并行計(jì)算原理的作用下,提取系統(tǒng)內(nèi)處于運(yùn)行傳輸狀態(tài)的日志文件,并借助相關(guān)傳輸信道,將這些信息參量反饋至相關(guān)客戶端主機(jī)之中。在系統(tǒng)運(yùn)行環(huán)境中,日志文件始終具有多種源類型存儲(chǔ)形式,其中一部分源類型文件能夠?qū)θ罩緮?shù)據(jù)起到傳輸支配的作用,也有一部分源類型文件則能夠幫助系統(tǒng)準(zhǔn)確掌握日志數(shù)據(jù)連接與存儲(chǔ)方式[10-11]。隨著日志采集指令的實(shí)施,并行數(shù)據(jù)源只能以創(chuàng)建流的形式在系統(tǒng)環(huán)境中傳輸,且隨著采集任務(wù)的形成,最終采集到的日志數(shù)據(jù)信息始終具備較強(qiáng)的傳輸感知能力,直至形成獨(dú)立的信息采集流文件后,系統(tǒng)才會(huì)在既定時(shí)間內(nèi)達(dá)到理想化的數(shù)據(jù)并行計(jì)算水平標(biāo)準(zhǔn)[12]。日志采集框架結(jié)構(gòu)如圖1所示。
圖1 日志采集框架結(jié)構(gòu)圖
AQM 分類器負(fù)責(zé)采集系統(tǒng)環(huán)境中的各項(xiàng)運(yùn)行日志數(shù)據(jù),并可在并行計(jì)算原理的作用下,對(duì)這些數(shù)據(jù)信息進(jìn)行精準(zhǔn)區(qū)分,從而避免源類型數(shù)據(jù)對(duì)日志文件造成的干擾影響[13]。AQM 分類主機(jī)直接作用于日志采集源,可借助采集通道,對(duì)這些傳輸信息進(jìn)行標(biāo)記處理,再將其反饋至存儲(chǔ)數(shù)據(jù)庫(kù)、并行數(shù)據(jù)樣本等多個(gè)物理信息空間中。由于并行計(jì)算原理的存在,AQM 分類主機(jī)能夠準(zhǔn)確掌握日志數(shù)據(jù)源的實(shí)際傳輸需求,并可在不違背系統(tǒng)運(yùn)行需求的情況下,對(duì)日志數(shù)據(jù)文件進(jìn)行目的性整合處理,從而實(shí)現(xiàn)對(duì)信息數(shù)據(jù)參量的按需采集與調(diào)取利用[14]。AQM 分類器結(jié)構(gòu)如圖2 所示。
圖2 AQM分類器結(jié)構(gòu)示意圖
采集量計(jì)算是系統(tǒng)運(yùn)行日志采集方法設(shè)計(jì)的末尾處理環(huán)節(jié),可在已知并行計(jì)算需求的前提下,將日志數(shù)據(jù)整合成多個(gè)完全獨(dú)立的存儲(chǔ)形式,并將這些物理信息量分別反饋至相關(guān)的設(shè)備應(yīng)用結(jié)構(gòu)體之中。在不考慮其他干擾條件的情況下,日志采集量計(jì)算結(jié)果只受數(shù)據(jù)并行指標(biāo)表現(xiàn)量的直接影響[15-16]。一般情況下,數(shù)據(jù)并行指標(biāo)表現(xiàn)量由最大值、最小值兩部分組成。其中,數(shù)據(jù)并行指標(biāo)表現(xiàn)量最大值為ψmax、數(shù)據(jù)并行指標(biāo)表現(xiàn)量最小值為ψmin,兩者的物理差值水平越大,最終計(jì)算所得的采集量數(shù)值也就越大,反之則越小。在上述物理量的支持下,聯(lián)立式(3),可將日志采集量計(jì)算結(jié)果表示為:
其中,代表日志信息量反饋系數(shù),代表既定數(shù)據(jù)采集指標(biāo),b1、b2分別代表兩個(gè)不同的系統(tǒng)運(yùn)行標(biāo)準(zhǔn)項(xiàng)系數(shù)。至此,實(shí)現(xiàn)各項(xiàng)系統(tǒng)應(yīng)用指標(biāo)的計(jì)算與處理,在并行計(jì)算原理的支持下,完成系統(tǒng)運(yùn)行日志采集方法的設(shè)計(jì)[17]。
為驗(yàn)證基于并行計(jì)算系統(tǒng)運(yùn)行日志采集方法的實(shí)際采集性能,進(jìn)行仿真對(duì)比實(shí)驗(yàn)驗(yàn)證。日志文件采集環(huán)境如圖3 所示。
在圖3 所示的采集環(huán)境中,將文中方法與傳統(tǒng)方法的運(yùn)行主機(jī)分別與采集主機(jī)設(shè)備的接口相連。
圖3 日志文件采集環(huán)境
QTR 與WEP 指標(biāo)的數(shù)值越大,說(shuō)明采集方法的采集性能越強(qiáng),對(duì)于系統(tǒng)運(yùn)行日志的采集能力越強(qiáng),能夠保證系統(tǒng)的穩(wěn)定運(yùn)行。QTR 指標(biāo)數(shù)值對(duì)比結(jié)果如表1 所示。
從表1 的實(shí)驗(yàn)結(jié)果中可以看出,在實(shí)驗(yàn)時(shí)間不斷增加的情況下,文中方法與傳統(tǒng)方法的QTR 指標(biāo)數(shù)值均呈現(xiàn)出持續(xù)上升的趨勢(shì)。但是,文中方法的QTR 指標(biāo)數(shù)值始終高于傳統(tǒng)方法,其最高達(dá)到85.6%,傳統(tǒng)方法的QTR 指標(biāo)數(shù)值最高僅為36.5%。
表1 QTR指標(biāo)數(shù)值對(duì)比結(jié)果
文中方法與傳統(tǒng)方法的WEP 指標(biāo)數(shù)值對(duì)比結(jié)果如表2 所示。
表2 WEP指標(biāo)數(shù)值對(duì)比結(jié)果
從表2 中可以明顯看出,文中方法的WEP 指標(biāo)數(shù)值從實(shí)驗(yàn)開(kāi)始初期不斷增加,從35 min 開(kāi)始穩(wěn)定在74.5%,而傳統(tǒng)方法的WEP 指標(biāo)數(shù)值從實(shí)驗(yàn)開(kāi)始至結(jié)束一直呈現(xiàn)出不斷下降的趨勢(shì),最終結(jié)果下降到39.8%。
通過(guò)表1 與表2 的對(duì)比驗(yàn)證,相較于傳統(tǒng)方法,文中方法的QTR 與WEP 指標(biāo)數(shù)值顯著增加,說(shuō)明文中方法的采集性能更優(yōu)。
綜上可知,應(yīng)用基于并行計(jì)算系統(tǒng)運(yùn)行日志采集方法后,QTR 指標(biāo)、WEP 指標(biāo)均出現(xiàn)了一定程度的數(shù)值上升變化趨勢(shì),能夠較好滿足運(yùn)行系統(tǒng)對(duì)于日志服務(wù)可擴(kuò)展性的實(shí)際應(yīng)用需求。
在并行計(jì)算原理的支持下,新型系統(tǒng)運(yùn)行日志采集方法可通過(guò)選定性能指標(biāo)的方式,確定異構(gòu)體數(shù)據(jù)的可移植性能力,再聯(lián)合日志采集框架與AQM分類器,實(shí)現(xiàn)對(duì)日志文件采集量的精準(zhǔn)計(jì)算。從實(shí)用性角度來(lái)看,QTR 指標(biāo)數(shù)值與WEP 指標(biāo)數(shù)值的提升,能夠較好滿足日志服務(wù)的可擴(kuò)展性需求,進(jìn)而對(duì)系統(tǒng)運(yùn)行環(huán)境進(jìn)行維系與完善。