方浩天 李春花 王 清 周 可
(武漢光電國家研究中心(華中科技大學(xué)) 武漢 430074)
隨著云計(jì)算的發(fā)展,越來越多的應(yīng)用軟件使用微服務(wù)架構(gòu)來構(gòu)建.微服務(wù)架構(gòu)[1]將一個(gè)大型應(yīng)用程序拆分成許多小型的、松散耦合的微服務(wù),可以更好地適應(yīng)快速變化的業(yè)務(wù)需求.然而,基于微服務(wù)架構(gòu)的軟件服務(wù)的故障也影響了用戶的正常使用,并給企業(yè)帶來造成了不小的損失.例如,2018 年亞馬遜在一次大型銷售活動(dòng)中因故障停機(jī)1 h,造成了高達(dá)1億美元的損失.因此,保障線上微服務(wù)的高可靠性和高可用性十分重要[2],一旦系統(tǒng)出現(xiàn)故障,需要及時(shí)發(fā)現(xiàn)并診斷問題以采取相應(yīng)措施進(jìn)行修復(fù).
隨著微服務(wù)系統(tǒng)的規(guī)模和復(fù)雜性的不斷增加,同一個(gè)微服務(wù)可能會(huì)出現(xiàn)在不同的調(diào)用鏈中完成不同的業(yè)務(wù)請(qǐng)求,導(dǎo)致微服務(wù)的性能指標(biāo)(例如響應(yīng)時(shí)間)存在多個(gè)正常的數(shù)值區(qū)間,這使得常規(guī)的異常檢測(cè)方法在微服務(wù)場(chǎng)景下變得不適用.同時(shí),微服務(wù)之間復(fù)雜的交互使得理解微服務(wù)是單獨(dú)失敗還是級(jí)聯(lián)失敗變得更加困難.一旦某個(gè)微服務(wù)出現(xiàn)性能異常,異??赡軙?huì)沿著調(diào)用鏈的調(diào)用方向進(jìn)行反向傳播,使得大量微服務(wù)表現(xiàn)出性能異常,然而這些被影響的微服務(wù)并非都是引起故障的根本原因.因此,如何準(zhǔn)確地發(fā)現(xiàn)微服務(wù)系統(tǒng)中的異常并定位異常的根本原因成了運(yùn)維工作的難點(diǎn).另一方面,系統(tǒng)的運(yùn)維數(shù)據(jù)(監(jiān)控指標(biāo)、日志以及調(diào)用鏈)規(guī)模變得越來越大.據(jù)Gartner 預(yù)測(cè) ,企業(yè)IT 基礎(chǔ)設(shè)施平均每年生成的IT運(yùn)營數(shù)據(jù)正在以2~3 倍的速度不斷增長(zhǎng),使得運(yùn)維人員很難通過人工分析發(fā)現(xiàn)和診斷系統(tǒng)的各種問題.
由于微服務(wù)系統(tǒng)較高的復(fù)雜性,現(xiàn)代工業(yè)微服務(wù)系統(tǒng)通常配備了分布式跟蹤系統(tǒng),它可以跟蹤微服務(wù)系統(tǒng)中跨服務(wù)實(shí)例的請(qǐng)求執(zhí)行,采集系統(tǒng)的跟蹤數(shù)據(jù),用于分析和監(jiān)視微服務(wù)應(yīng)用程序的行為.同時(shí),面對(duì)系統(tǒng)海量的數(shù)據(jù)和更加復(fù)雜的軟件架構(gòu),伴隨著人工智能、機(jī)器學(xué)習(xí)等技術(shù)的興起,智能運(yùn)維[3]應(yīng)運(yùn)而生.將運(yùn)維知識(shí)、運(yùn)維數(shù)據(jù)和人工智能結(jié)合,能夠?qū)崿F(xiàn)更加有效的異常檢測(cè)與根因定位.Liu 等人[4]針對(duì)調(diào)用軌跡,提出了基于深度貝葉斯神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)方法TraceAnomaly,通過比較調(diào)用軌跡的模式與學(xué)習(xí)到的正常調(diào)用軌跡的模式判斷是否存在異常情況.Nedelkoski 等人[5]分別利用變分自編碼器和卷積神經(jīng)網(wǎng)絡(luò)來檢測(cè)跟蹤異常并識(shí)別異常類型,他們還提出了一種多模態(tài)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型[6],基于系統(tǒng)正常運(yùn)行時(shí)收集的跟蹤數(shù)據(jù),通過組合2個(gè)單模態(tài)網(wǎng)絡(luò)來學(xué)習(xí)跟蹤數(shù)據(jù)中事件序列和響應(yīng)時(shí)間序列的正常模式,基于預(yù)測(cè)發(fā)生的事件以及事件可能的響應(yīng)時(shí)間來判斷系統(tǒng)是否出現(xiàn)了異常.
這些方法雖然取得了一定的檢測(cè)效果,但是都不能很好地建模微服務(wù)在跨調(diào)用路徑下具有不同的響應(yīng)時(shí)間的復(fù)雜模式,從而導(dǎo)致異常檢測(cè)的效率不高,同時(shí)對(duì)檢測(cè)的異常缺乏可解釋性,也無法快速準(zhǔn)確地定位問題的根因.
針對(duì)上述問題,本文針對(duì)微服務(wù)系統(tǒng)中的調(diào)用鏈,提出基于Transformer 的性能異常檢測(cè)與根因定位方法TTEDA(Transformer trace explore data analysis).TTEDA 首先將調(diào)用鏈構(gòu)建為微服務(wù)調(diào)用序列和對(duì)應(yīng)的響應(yīng)時(shí)間序列.然后,借助自注意力機(jī)制捕捉微服務(wù)之間的調(diào)用關(guān)系,并通過編碼器-解碼器建立微服務(wù)的響應(yīng)時(shí)間與其調(diào)用路徑之間的關(guān)聯(lián)關(guān)系,使其能夠有效學(xué)習(xí)到微服務(wù)在不同的調(diào)用鏈上的正常響應(yīng)時(shí)間分布.接著,基于學(xué)習(xí)到的正常模式檢測(cè)出異常的調(diào)用鏈,并能夠檢測(cè)出異常調(diào)用鏈上的異常微服務(wù).最后,在異常檢測(cè)的基礎(chǔ)上,TTEDA 利用微服務(wù)之間的調(diào)用關(guān)系以及異常的傳播方式,通過對(duì)出現(xiàn)性能異常的微服務(wù)進(jìn)行反向拓?fù)渑判騺磉M(jìn)行準(zhǔn)確快速地根因定位.同時(shí)利用所提出的方法設(shè)計(jì)了微服務(wù)性能異常檢測(cè)與根因定位的框架.
本文的主要貢獻(xiàn)包括3 個(gè)方面:
1)提出了一種基于Transformer 模型的性能異常檢測(cè)與根因定位方法TTEDA.以調(diào)用鏈為研究對(duì)象,在考慮微服務(wù)調(diào)用路徑的前提下,利用自注意力機(jī)制學(xué)習(xí)微服務(wù)響應(yīng)時(shí)間的正常模式,能夠更加準(zhǔn)確地檢測(cè)到微服務(wù)的性能異常.
2)提出了一種調(diào)用鏈的特征構(gòu)建方式,利用調(diào)用鏈的結(jié)構(gòu)信息和特征信息將調(diào)用鏈構(gòu)建為微服務(wù)調(diào)用序列和路徑向量,解決了現(xiàn)有特征構(gòu)建方式向量稀疏和表義不明的問題,能夠?qū)崿F(xiàn)有效的模型學(xué)習(xí).
3)設(shè)計(jì)了針對(duì)微服務(wù)系統(tǒng)的異常檢測(cè)和根因定位框架.首先利用歷史跟蹤數(shù)據(jù)離線學(xué)習(xí)調(diào)用鏈的正常模式,然后利用模型在線實(shí)時(shí)檢測(cè)系統(tǒng)中的微服務(wù)性能異常推斷根因,便于操作人員及時(shí)采取準(zhǔn)確的措施,提高系統(tǒng)的可靠性.
4)在開源基準(zhǔn)微服務(wù)系統(tǒng) Train-Ticket 的數(shù)據(jù)集和AIops 挑戰(zhàn)賽數(shù)據(jù)集上驗(yàn)證了本文方法的有效性.實(shí)驗(yàn)結(jié)果表明,相比于同類異常檢測(cè)方法AEVB,Multimodal LSTM,TraceAnomaly,精確率平均提高了48.6%,30.2%,3.5%,召回率平均提高了34.7%,11.1%,4.1%;相比于根因定位方法 MonitorRank 和TraceAnomaly,根因定位的準(zhǔn)確率分別提高了35.4%和6.1%.
近年來,隨著云計(jì)算技術(shù)的不斷發(fā)展,許多軟件應(yīng)用程序開始部署在云計(jì)算平臺(tái)上[1],單體架構(gòu)逐漸被面向服務(wù)的架構(gòu)所取代.針對(duì)微服務(wù)系統(tǒng)的異常檢測(cè)[7]與根因定位受到越來越多的關(guān)注,一些研究以分布式跟蹤(調(diào)用鏈)為研究對(duì)象,提出了異常檢測(cè)與根因定位的方法.
Liu 等人[4]提出了TraceAnomaly 對(duì)調(diào)用軌跡進(jìn)行異常檢測(cè).該方法將調(diào)用鏈編碼為微服務(wù)跟蹤向量,將其作為輸入訓(xùn)練了一個(gè)具有后驗(yàn)流的深度貝葉斯神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)調(diào)用鏈的正常模式.通過比較調(diào)用軌跡的模式與學(xué)習(xí)到的正常調(diào)用軌跡的模式,來判斷是否存在異常情況.在檢測(cè)出異常跟蹤的基礎(chǔ)上,TraceAnomaly 通過比較與異常跟蹤具有相同結(jié)構(gòu)的跟蹤向量,在相同維度上采用3-sigma 原則確定異常微服務(wù),并將處于最下游的微服務(wù)作為可能的異常根因.Nedelkoski 等人[5]使用變分自編碼器對(duì)應(yīng)用程序正常狀態(tài)下的跟蹤進(jìn)行建模,并利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)注入特定故障的應(yīng)用程序運(yùn)行時(shí)收集的跟蹤信息進(jìn)行訓(xùn)練,使其可以識(shí)別導(dǎo)致微服務(wù)性能異常的故障類型,并利用重構(gòu)誤差來檢測(cè)異常跟蹤.此外,他們還提出了一種多模態(tài)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型[6],通過組合2 個(gè)單模態(tài)網(wǎng)絡(luò)來學(xué)習(xí)跟蹤數(shù)據(jù)中事件序列和響應(yīng)時(shí)間序列的正常模式.其中一個(gè)網(wǎng)絡(luò)用于學(xué)習(xí)事件之后可能發(fā)生的事件的概率分布,另一個(gè)網(wǎng)絡(luò)則用于學(xué)習(xí)微服務(wù)響應(yīng)時(shí)間的概率分布.在線檢測(cè)時(shí),模型通過預(yù)測(cè)一個(gè)事件之后可能發(fā)生的事件以及事件可能的響應(yīng)時(shí)間來判斷系統(tǒng)是否出現(xiàn)了異常.如果預(yù)測(cè)結(jié)果中未出現(xiàn)某個(gè)事件,或者微服務(wù)響應(yīng)時(shí)間不在預(yù)測(cè)的范圍內(nèi),則意味著應(yīng)用程序出現(xiàn)了功能異?;蛐阅墚惓?張攀等人[8]提出了一種在線實(shí)時(shí)微服務(wù)調(diào)用鏈異常檢測(cè)方法MicroTrace,利用基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型學(xué)習(xí)正常調(diào)用鏈的模式.吳佳潔等人[9]提出了一種基于TCN 和注意力機(jī)制的異常檢測(cè)算法,用于檢測(cè)從系統(tǒng)采集的時(shí)序數(shù)據(jù)中的點(diǎn)異常和窗口異常.Bogatinovski 等人[10]使用了一種自監(jiān)督編碼器-解碼器神經(jīng)網(wǎng)絡(luò)對(duì)跟蹤建模,它能夠根據(jù)鄰近事件的上下文預(yù)測(cè)跟蹤中給定“掩碼”位置記錄的事件情況.訓(xùn)練好的網(wǎng)絡(luò)提供了在輸入跟蹤的任何掩碼位置可能出現(xiàn)的事件的概率分布.在線檢測(cè)時(shí)能獲得跟蹤的每個(gè)位置應(yīng)該記錄的事件的排序列表.如果實(shí)際記錄的事件不在相應(yīng)位置預(yù)測(cè)出現(xiàn)的事件之中,視為異常事件.然后計(jì)算跟蹤的異常得分(即異常事件數(shù)除以跟蹤長(zhǎng)度)來判斷系統(tǒng)的功能異常.Jin 等人[11]首先對(duì)跟蹤數(shù)據(jù)進(jìn)行矩陣表示,然后通過主成分分析確定異常跟蹤,接著使用無監(jiān)督算法(如孤立森林[12]、單類支持向量機(jī)[13]、局部離群因子和3-sigma 原則[14])處理微服務(wù)收集到的性能指標(biāo)來分析微服務(wù)是否異常.文獻(xiàn)[4-14] 所述的方法雖然取得了一定的檢測(cè)效果,但是沒有很好地考慮到微服務(wù)的響應(yīng)時(shí)間和調(diào)用路徑之間的依賴關(guān)系,檢測(cè)效果有待提高.
針對(duì)上述討論的異常檢測(cè)方法存在的問題,本文利用分布式跟蹤數(shù)據(jù),提出基于Transformer 的跨調(diào)用路徑的微服務(wù)異常檢測(cè)方法,能夠在考慮微服務(wù)的響應(yīng)時(shí)間與調(diào)用路徑的關(guān)聯(lián)關(guān)系的前提下學(xué)習(xí)到微服務(wù)響應(yīng)時(shí)間的正常分布模式,更加準(zhǔn)確地檢測(cè)到微服務(wù)的性能異常.同時(shí)以可解釋的方式識(shí)別出調(diào)用鏈中的異常微服務(wù),在異常檢測(cè)的基礎(chǔ)上能夠直觀快速地定位異常的根因.
由于微服務(wù)系統(tǒng)較高的復(fù)雜性,現(xiàn)代工業(yè)微服務(wù)系統(tǒng)通常配備了分布式跟蹤系統(tǒng),例如谷歌公司的Dapper、Cloudera 的HTrace、Twitter 的Zipkin 等.分布式跟蹤系統(tǒng)可以跟蹤微服務(wù)系統(tǒng)中跨服務(wù)實(shí)例的請(qǐng)求執(zhí)行,能夠用于分析和監(jiān)視微服務(wù)應(yīng)用程序的行為.該系統(tǒng)將微服務(wù)操作的每次調(diào)用記錄為一個(gè)跨度(Span)并將每個(gè)外部請(qǐng)求的執(zhí)行過程,即實(shí)現(xiàn)同一用戶請(qǐng)求的所有調(diào)用,記錄為跟蹤(Trace),也稱調(diào)用鏈.本文對(duì)AIops 挑戰(zhàn)賽提供的某開源微服務(wù)系統(tǒng)中采集到的跟蹤數(shù)據(jù)進(jìn)行了分析,通過觀察到的現(xiàn)象設(shè)計(jì)了本文的方案.表1 展示了跟蹤數(shù)據(jù)的相關(guān)數(shù)據(jù)屬性、格式以及示例,主要包括時(shí)間戳、對(duì)象名、span_id、trace_id、處理時(shí)間、操作名、parent_span等信息.
Table 1 Trace Data Attributes and Content Instances表1 跟蹤數(shù)據(jù)屬性與內(nèi)容實(shí)例
由于微服務(wù)系統(tǒng)高度的動(dòng)態(tài)性和復(fù)雜性,一個(gè)微服務(wù)同時(shí)會(huì)在不同的業(yè)務(wù)邏輯中發(fā)揮作用,即同一個(gè)微服務(wù)會(huì)出現(xiàn)在多條調(diào)用鏈中.圖1(a)中展示了4 個(gè)微服務(wù)在正常情況下部分響應(yīng)時(shí)間的分布情況.可以觀察到,每個(gè)微服務(wù)的響應(yīng)時(shí)間會(huì)呈現(xiàn)多個(gè)不同的區(qū)間,例如微服務(wù)A的響應(yīng)時(shí)間有一部分小于50 s,一部分集中在50 s 附近,還有一部分大于50 s,即出現(xiàn)了多個(gè)正常的指標(biāo)區(qū)間.進(jìn)一步地,圖1(b)展示了不同調(diào)用鏈中同一微服務(wù)的部分響應(yīng)時(shí)間的分布情況,在調(diào)用鏈1 中微服務(wù)的響應(yīng)時(shí)間主要集中在區(qū)間2~4 s.而在調(diào)用鏈2 中微服務(wù)的響應(yīng)時(shí)間主要集中在區(qū)間50~100 s.這說明了微服務(wù)的響應(yīng)時(shí)間與其所處的調(diào)用鏈之間存在著一定的關(guān)聯(lián)性.微服務(wù)的響應(yīng)時(shí)間受多個(gè)因素影響,其中包括微服務(wù)本身執(zhí)行的操作以及從調(diào)用入口微服務(wù)到該使用服務(wù)的調(diào)用路徑.由于不同調(diào)用鏈涉及的調(diào)用鏈操作和調(diào)用的路徑不同,導(dǎo)致微服務(wù)在不同的調(diào)用鏈中會(huì)表現(xiàn)出不同的響應(yīng)時(shí)間特征.這種微服務(wù)間調(diào)用鏈關(guān)聯(lián)性的認(rèn)識(shí)對(duì)于分析和優(yōu)化微服務(wù)系統(tǒng)的性能至關(guān)重要.
圖1 微服務(wù)的調(diào)用鏈及其響應(yīng)時(shí)間分布的關(guān)系Fig.1 Relationship between the microservices’ call trains and its response time distribution
以往的研究中,一些工作[5,11]會(huì)針對(duì)每個(gè)微服務(wù)的響應(yīng)時(shí)間進(jìn)行建模,學(xué)習(xí)微服務(wù)的正常模式.然而由于微服務(wù)的響應(yīng)時(shí)間在正常情況下也會(huì)出現(xiàn)顯著不同,所以可能導(dǎo)致建模失效,并因此帶來不準(zhǔn)確的檢測(cè)結(jié)果.一些工作[4,6,8-9]考慮了微服務(wù)的響應(yīng)時(shí)間和微服務(wù)的調(diào)用路徑之間的關(guān)聯(lián)關(guān)系,但是缺乏一定的可解釋性,在檢測(cè)到異常時(shí)往往無法確定調(diào)用鏈中的異常微服務(wù),因此也難以定位異常的根因.為此,本文基于Transformer[15]提出一種適用于微服務(wù)系統(tǒng)的性能異常檢測(cè)與根因定位方法,在建模微服務(wù)響應(yīng)時(shí)間的正常分布時(shí),考慮了微服務(wù)所處的調(diào)用路徑.本文針對(duì)調(diào)用鏈數(shù)據(jù)設(shè)計(jì)了具有明確意義的特征構(gòu)建方式,并利用Transformer 模型的自注意機(jī)制捕捉微服務(wù)之間的調(diào)用關(guān)系,通過編碼器-解碼器架構(gòu)建立微服務(wù)的響應(yīng)時(shí)間與其調(diào)用路徑之間的關(guān)聯(lián)關(guān)系,從而學(xué)習(xí)微服務(wù)在跨調(diào)用路徑下響應(yīng)時(shí)間的正常分布情況.基于此檢測(cè)異常調(diào)用鏈并確定其中的異常微服務(wù),根據(jù)異常的傳播模式有效地定位導(dǎo)致該異常的根因微服務(wù).
2.2.1 異常檢測(cè)框架
本文針對(duì)微服務(wù)系統(tǒng)設(shè)計(jì)了基于Transformer 的異常檢測(cè)框架TraceCatcher,如圖2 所示,該框架分為離線訓(xùn)練和在線檢測(cè)2 個(gè)部分.
圖2 基于Transformer 的異常檢測(cè)框架TraceCatcherFig.2 Transformer-based anomaly detection framework TraceCatcher
在離線訓(xùn)練階段,TraceCatcher 利用從系統(tǒng)采集的跨度日志,將其組裝成跟蹤,并進(jìn)一步處理得到訓(xùn)練樣本.在組裝跟蹤的過程中,通過跨度中傳遞的Trace_ID 聚合屬于同一跟蹤的所有跨度,并使用深度優(yōu)先搜索算法搜索跟蹤中從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的所有路徑,得到不同的微服務(wù)調(diào)用序列和對(duì)應(yīng)的響應(yīng)時(shí)間序列.為了提高模型的魯棒性和降低模型的運(yùn)算復(fù)雜度,本文使用CART[16]回歸樹對(duì)同一微服務(wù)的多個(gè)響應(yīng)時(shí)間進(jìn)行分箱,將分箱后的微服務(wù)響應(yīng)時(shí)間作為特征值構(gòu)建路徑向量,最終得到多條成對(duì)的微服務(wù)調(diào)用序列和路徑向量組成的訓(xùn)練樣本,分別作為Transformer 模型編碼器和解碼器的輸入.通過模型學(xué)習(xí)跟蹤中不同微服務(wù)的響應(yīng)時(shí)間的正常分布情況.
在線檢測(cè)階段,將新產(chǎn)生的跨度日志經(jīng)過相同的數(shù)據(jù)處理得到微服務(wù)調(diào)用序列和路徑向量.將微服務(wù)調(diào)用序列作為訓(xùn)練好的Transformer 模型編碼器的輸入,經(jīng)過模型的編碼器-解碼器層生成一個(gè)輸出向量,并經(jīng)過模型的線性層和Softmax 層輸出每個(gè)微服務(wù)的特征值的概率分布,利用概率分布獲取到路徑向量中微服務(wù)實(shí)際特征值的概率,作為微服務(wù)的
異常得分來判斷微服務(wù)是否出現(xiàn)了性能異常.
2.2.2 特征構(gòu)建
在檢測(cè)微服務(wù)性能異常的過程中,需要先將跟蹤數(shù)據(jù)構(gòu)建為特征向量的形式用于建模.現(xiàn)有的方法通常是將微服務(wù)系統(tǒng)中的調(diào)用鏈以某種編排方式,例如先序、后序或者廣度優(yōu)先遍歷等,表示為1 個(gè)1維向量.下面介紹2 種常見的方式.
1)1 維特征向量構(gòu)建.這種方式通過對(duì)調(diào)用樹進(jìn)行先序遍歷來對(duì)微服務(wù)進(jìn)行排序,然后利用微服務(wù)的特征值(如微服務(wù)A的響應(yīng)時(shí)間445 s)來構(gòu)建表示調(diào)用鏈的特征向量,能夠反映微服務(wù)之間的部分先后調(diào)用關(guān)系,但并不能完全地體現(xiàn)微服務(wù)之間的調(diào)用關(guān)系.在一些情況下,無法做到有效區(qū)分正常和異常的調(diào)用鏈.如圖3 所示,經(jīng)過特征構(gòu)建之后,正常調(diào)用鏈1 和異常調(diào)用鏈2 的1 維特征向量非常相似,并因此會(huì)導(dǎo)致模型錯(cuò)誤地將異常調(diào)用鏈2 識(shí)別為正常調(diào)用鏈1.
圖3 正常調(diào)用鏈與異常調(diào)用鏈相似的1 維特征向量構(gòu)建Fig.3 Construction of similar one-dimensional feature vectors with normal call chain and abnormal call chain
2)服務(wù)跟蹤向量構(gòu)建.除了1 維特征構(gòu)建方式,在TraceAnomaly 中提出了一種不同的針對(duì)調(diào)用鏈的1 維特征向量構(gòu)建方式,并將其稱之為服務(wù)跟蹤向量(service trace vector,STV).如圖4 所示,該方法將所有調(diào)用鏈中出現(xiàn)的不同的調(diào)用對(duì)(調(diào)用者,被調(diào)用者)對(duì)應(yīng)到向量的不同維度上,在向量中每個(gè)維度的值代表相應(yīng)調(diào)用對(duì)中被調(diào)用者的響應(yīng)時(shí)間.對(duì)于未出現(xiàn)在調(diào)用鏈中的調(diào)用對(duì),該方法用“-1”來設(shè)置向量中對(duì)應(yīng)維度的值,以此表示該調(diào)用對(duì)在向量中缺失.當(dāng)調(diào)用關(guān)系過多,而一條調(diào)用鏈中包含的調(diào)用關(guān)系較少時(shí),向量中會(huì)出現(xiàn)大量的無效維度,會(huì)導(dǎo)致向量中有效維度過于稀疏,在一定程度上會(huì)影響模型訓(xùn)練的收斂速度和檢測(cè)的效果.
圖4 TraceAnomaly 服務(wù)跟蹤向量構(gòu)建Fig.4 TraceAnomaly service trace vector construction
為了解決上述2 種特征構(gòu)建存在的問題,同時(shí)更好地支持模型訓(xùn)練和檢測(cè)異常并定位異常根因,本文基于調(diào)用鏈的領(lǐng)域知識(shí)提出了一種新的方法,該方法將跟蹤數(shù)據(jù)表示為成對(duì)的微服務(wù)調(diào)用序列和路徑向量用于建模.如圖5 所示,在同一條調(diào)用鏈中,一個(gè)微服務(wù)可能會(huì)被調(diào)用多次,每次調(diào)用可能執(zhí)行不同的業(yè)務(wù)邏輯,在執(zhí)行不同的業(yè)務(wù)邏輯時(shí)微服務(wù)會(huì)執(zhí)行不同的操作,可能會(huì)有多個(gè)特征值.本文通過構(gòu)建基于事件表示的調(diào)用鏈樹形結(jié)構(gòu),將每個(gè)節(jié)點(diǎn)表示為一個(gè)調(diào)用事件,如節(jié)點(diǎn)A→B表示微服務(wù)A調(diào)用了微服務(wù)B的事件.然后使用深度優(yōu)先搜索算法從調(diào)用鏈的樹形結(jié)構(gòu)中提取出不同的調(diào)用序列,并從節(jié)點(diǎn)信息中獲取特征(響應(yīng)時(shí)間),構(gòu)建相應(yīng)的路徑向量.
圖5 構(gòu)建調(diào)用序列向量和路徑向量Fig.5 Constructing call sequence vectors and path vectors
采用上述方式,可以有效地保留調(diào)用鏈的結(jié)構(gòu)和特征信息,同時(shí)避免了特征向量過于稀疏的問題,使模型能夠更加有效地建模服務(wù)的正常模式.此外,對(duì)于不同的調(diào)用鏈類型,服務(wù)調(diào)用序列和路徑向量的維度會(huì)有所不同,由于Transformer 能夠處理不同長(zhǎng)度的序列,因此不會(huì)對(duì)模型建模造成影響.
2.2.3 模型輸入
通過特征構(gòu)建,調(diào)用鏈被表示為不同的微服務(wù)調(diào)用序列向量(op0,op1, ···,opn-1)和路徑向量(D0,D1,...,Dn-1).為了使模型能更好地理解系統(tǒng)中的行為,opi由表1 中對(duì)象名和微服務(wù)操作名組成.
對(duì)于一個(gè)微服務(wù)調(diào)用序列,Transformer 首先使用一個(gè)V×dmodel維的嵌入矩陣將輸入序列中的每個(gè)微服務(wù)映射成詞向量用于表示微服務(wù)的語義信息,其中V是微服務(wù)的數(shù)量,dmodel是詞向量的維度.在訓(xùn)練過程中,模型會(huì)通過更新嵌入矩陣的參數(shù)來學(xué)習(xí)更好的語義表示,而在推理時(shí)則會(huì)使用固定的嵌入矩陣將微服務(wù)映射為詞向量.然后需要對(duì)序列中的每個(gè)元素進(jìn)行位置編碼,引入位置編碼有助于模型理解微服務(wù)之間的依賴關(guān)系,建模事件模板的上下文信息.Transformer 采用正弦和余弦位置編碼為序列中的不同位置賦予不同的編碼向量,編碼向量的維度與詞向量的維度相同.對(duì)于給定的位置pos和給定的維度i,位置編碼的計(jì)算方式如式(1)(2)所示:
其中PE(pos,i)表示位置pos的第i維的位置編碼,dmodel表示向量的維度.位置編碼的參數(shù)10 0002i/dmodel是一個(gè)基于位置和詞向量維度計(jì)算的值,當(dāng)i是偶數(shù)時(shí)這個(gè)值是10 0002i/dmodel,當(dāng)i是奇數(shù)時(shí)這個(gè)值是10 0002(i-1)/dmodel.從位置編碼函數(shù)的定義中可以看出,對(duì)于給定位置pos的每個(gè)維度i,其對(duì)應(yīng)的位置編碼值都是由不同周期的正弦曲線和余弦曲線組成.這種位置編碼方式可以確保不同位置在所有dmodel維度上被編碼成不完全相同的值,使得序列中不同位置上的事件模板都能獲得獨(dú)一無二的位置編碼.其次,由于三角函數(shù)的特性, 如正弦函數(shù)sin(a+b)=sin(a)cos(b)+cos(a)sin(b),其對(duì)于pos+k處的信息,可以由pos位置編碼值計(jì)算得到,因此,這種位置編碼方式能夠表示序列不同距離的元素的相對(duì)關(guān)系.位置編碼會(huì)在模型訓(xùn)練過程中被動(dòng)態(tài)更新和調(diào)整,以更好地捕捉序列中的依賴關(guān)系.
通過將詞向量和位置編碼相加,得到模型的輸入向量.詞向量用來表征事件模板的語義信息,位置編碼用來表征微服務(wù)在序列中的位置關(guān)系.
2.2.4 模型訓(xùn)練
Tranformer 模型主要由編碼器和解碼器2 部分組成,每個(gè)部分主要包含了2 個(gè)子層:1)多頭注意力機(jī)制層,可以捕捉輸入序列中的多層次信息和長(zhǎng)距依賴關(guān)系;2)前饋神經(jīng)網(wǎng)絡(luò),用于對(duì)注意力機(jī)制計(jì)算的輸出作進(jìn)一步處理.
本文的核心思路是通過關(guān)聯(lián)微服務(wù)的響應(yīng)時(shí)間和調(diào)用路徑來學(xué)習(xí)微服務(wù)在不同調(diào)用鏈中的響應(yīng)時(shí)間的正常分布模式.為此,首先利用自注意力機(jī)制對(duì)微服務(wù)的上下文信息進(jìn)行建模,以捕捉微服務(wù)之間的調(diào)用關(guān)系;然后利用編碼器-解碼器的架構(gòu)關(guān)聯(lián)微服務(wù)的響應(yīng)時(shí)間和調(diào)用路徑.
1)捕捉微服務(wù)之間的依賴關(guān)系.編碼器的第1 層為多頭注意力層.利用自注意機(jī)制,模型可以計(jì)算微服務(wù)之間的相關(guān)性分?jǐn)?shù),捕捉微服務(wù)之間的依賴關(guān)系.給定一組輸入矩陣(X1,X2,···,Xn),其中Xi表示通過詞嵌入和位置編碼構(gòu)造的序列中第i個(gè)微服務(wù)的向量表示.在自注意力機(jī)制中,模型首先通過權(quán)重矩陣Wq,Wk,Wv對(duì)Xi進(jìn)行線性變換,分別得到query,key,value向量q,k,v,在訓(xùn)練過程中,權(quán)重矩陣Wq,Wk會(huì)不斷更新.然后,利用向量q和k計(jì)算微服務(wù)之間的相關(guān)性分?jǐn)?shù)(注意力分?jǐn)?shù)),計(jì)算過程如式(3)所示.由 ∝i,j組成的注意力得分(attention score)矩陣代表了微服務(wù)調(diào)用序列中不同微服務(wù)之間的依賴程度.
接著,利用Softmax 函數(shù)對(duì) αi,j歸一化處理得到:
隨后,通過將向量v與歸一化后的相關(guān)性分?jǐn)?shù)進(jìn)行加權(quán)和計(jì)算得到表征微服務(wù)上下文的向量Yi.如式(5)所示:
總的來說,通過自注意力機(jī)制,對(duì)于一組輸入矩陣X=(X1,X2,···,Xn),可以將其轉(zhuǎn)換為包含上下文信息的另一組矩陣Y=(Y1,Y2,···,Yn),整個(gè)過程如圖6所示.因此,模型能夠有效建模微服務(wù)的上下文信息,并捕捉到微服務(wù)之間的依賴關(guān)系.
圖6 通過自注意力機(jī)制計(jì)算微服務(wù)帶有上下文的向量Fig.6 Computing the vectors with the context of the microservice through the self-attention mechanism
為了增強(qiáng)自注意力層的學(xué)習(xí)能力,模型使用了多頭注意力機(jī)制,即將多個(gè)自注意力機(jī)制集成在一起,每個(gè)注意力模塊稱為一個(gè)注意力頭.使用多頭注意力,模型可以更全面地捕捉輸入序列的特征.具體地,在訓(xùn)練過程中,模型會(huì)將數(shù)據(jù)X分別輸入到多個(gè)注意力頭中,每個(gè)注意力頭會(huì)分別進(jìn)行q,k,v向量的計(jì)算,并得到不同的特征矩陣Yi,將多個(gè)Yi拼接得到最終的特征矩陣Y.編碼器的第2 層是前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,F(xiàn)FN),用于對(duì)多頭自注意力層的輸出進(jìn)行非線性變換和特征提取,為模型提供更多的非線性變換和學(xué)習(xí)能力.
2)建立微服務(wù)調(diào)用序列和響應(yīng)時(shí)間序列的關(guān)聯(lián)關(guān)系.在模型訓(xùn)練過程中,編碼器中的多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)能夠生成帶有微服務(wù)上下文信息的特征矩陣,從而能夠捕捉微服務(wù)之間的依賴關(guān)系.利用編碼器-解碼器注意力機(jī)制則能夠建模微服務(wù)調(diào)用序列和響應(yīng)時(shí)間序列之間的關(guān)聯(lián)關(guān)系,并最終結(jié)合微服務(wù)的調(diào)用關(guān)系學(xué)習(xí)微服務(wù)響應(yīng)時(shí)間的正常分布模式.
編碼器-解碼器注意力模塊的部分輸入來自于帶掩碼的多頭注意力(masked multi-head attention)模塊,該模塊使用掩碼技術(shù)處理路徑向量.模型在推理時(shí),因?yàn)樵谏赡繕?biāo)輸出時(shí)無法使用到未來時(shí)間步信息,因此在訓(xùn)練時(shí)采用了掩碼的方式,將目標(biāo)輸入序列中當(dāng)前時(shí)間步之后的內(nèi)容進(jìn)行掩蔽.也就是,將需要掩蔽的向量設(shè)置為負(fù)無窮,在經(jīng)過點(diǎn)積和Softmax 計(jì)算注意力得分時(shí),這些位置的權(quán)重會(huì)趨于零,不會(huì)對(duì)后續(xù)的計(jì)算結(jié)果產(chǎn)生影響.
在編碼器的注意力模塊中,輸入向量被用于構(gòu)建向量q,k,v,而在編碼器-解碼器注意力模塊中,向量q來自于帶掩碼的多頭注意力層對(duì)路徑向量處理后的輸出,向量k和向量v則來自編碼器對(duì)微服務(wù)調(diào)用序列處理后得到的特征矩陣Y.通過Attention 的方式,即注意力計(jì)算過程,從而使得微服務(wù)調(diào)用序列和響應(yīng)時(shí)間序列在訓(xùn)練過程中被關(guān)聯(lián)起來.
3)學(xué)習(xí)微服務(wù)響應(yīng)時(shí)間的正常分布模式.解碼器輸出的特征向量在經(jīng)過一層線性層和Softmax 層之后,會(huì)為目標(biāo)序列的每個(gè)位置輸出一個(gè)概率分布.通過模型預(yù)測(cè)的概率分布與真實(shí)目標(biāo)序列之間的差異,計(jì)算模型的損失函數(shù).
具體地,模型的損失函數(shù)基于目標(biāo)序列與模型預(yù)測(cè)的響應(yīng)時(shí)間序列之間的交叉熵?fù)p失函數(shù)計(jì)算得到.解碼器的輸出通過線性層和Softmax 函數(shù),可以得到每個(gè)微服務(wù)的特征值的概率分布情況.將模型生成的目標(biāo)序列中下一個(gè)響應(yīng)時(shí)間特征值對(duì)應(yīng)的概率作為該時(shí)間步的預(yù)測(cè)值.該預(yù)測(cè)值與真實(shí)值之間的交叉熵?fù)p失函數(shù)可通過式(6)來計(jì)算.訓(xùn)練時(shí),模型旨在為每個(gè)時(shí)間步預(yù)測(cè)下一個(gè)響應(yīng)時(shí)間,通過計(jì)算預(yù)測(cè)值與真實(shí)值之間的差異,最小化損失函數(shù)的值來不斷更新模型參數(shù),以此達(dá)到建模微服務(wù)正常響應(yīng)時(shí)間分布的目的.
其中Ty表示目標(biāo)序列的長(zhǎng)度,yt,i表示目標(biāo)序列在時(shí)間步t時(shí)第i個(gè)特征值的one-hot 表示,表示模型在時(shí)間步t時(shí)預(yù)測(cè)的第i個(gè)特征值的概率值.
本文使用大量的從跟蹤數(shù)據(jù)中提取的微服務(wù)調(diào)用序列和路徑向量進(jìn)行無監(jiān)督訓(xùn)練.考慮到在訓(xùn)練樣本中可能會(huì)存在一些異常的噪聲數(shù)據(jù),但由于模型采用隨機(jī)梯度下降進(jìn)行訓(xùn)練,每次按照輸入數(shù)據(jù)中的最小批次的數(shù)據(jù)去更新模型參數(shù),這使得模型只學(xué)習(xí)到輸入序列中最顯著的模式.因此,模型的最終性能不會(huì)受到訓(xùn)練集中的少量異常數(shù)據(jù)的影響.
根因定位是現(xiàn)代基于微服務(wù)的軟件系統(tǒng)運(yùn)維中的一個(gè)重要環(huán)節(jié),通過快速準(zhǔn)確地定位系統(tǒng)異常的根本原因,可以有效地提高系統(tǒng)的可靠性和穩(wěn)定性.本文提出的方法在異常檢測(cè)基礎(chǔ)上,利用微服務(wù)的調(diào)用關(guān)系,同時(shí)能夠快速準(zhǔn)確定位異常的根因.
針對(duì)一條異常調(diào)用鏈,本文的異常檢測(cè)方法能夠細(xì)粒度檢測(cè)出調(diào)用鏈中的異常微服務(wù),在此基礎(chǔ)上,對(duì)異常微服務(wù)進(jìn)行反向拓?fù)渑判颍孕纬膳判蛄斜?具體而言,通過遍歷調(diào)用鏈中的異常微服務(wù),迭代輸出異常出度(指向異常微服務(wù)的邊的個(gè)數(shù))為0的微服務(wù),每輸出一個(gè)異常微服務(wù),就將調(diào)用它的微服務(wù)的異常出度減1,直到輸出所有的異常微服務(wù).然后按照列表中的順序輸出不存在調(diào)用關(guān)系的微服務(wù),將其確定為異常的根本原因.如圖7 所示,在線檢測(cè)時(shí),調(diào)用路徑中的根因微服務(wù)G和微服務(wù)E以及被影響上游微服務(wù)會(huì)獲得較低的異常得分從而被判定為異常微服務(wù),然后在這些異常微服務(wù)中不斷尋找異常出度(即是否有指向異常服務(wù)的邊)為0 的節(jié)點(diǎn),將其選出并更新指向節(jié)點(diǎn)的異常出度,最終得到排序列表[G,E,D,C,B,A],將其作為根因列表輸出,其中微服務(wù)G和E排序靠前且不存在依賴關(guān)系,會(huì)被判定為最終根因.在一些情況下,調(diào)用鏈中可能會(huì)出現(xiàn)多個(gè)根因,如圖7 所示,本文的異常檢測(cè)與根因定位方法同樣適用于多根因的情況.最后將根因列表反饋給運(yùn)維人員,運(yùn)維人員可以更全面地了解系統(tǒng)的運(yùn)行狀態(tài),以便分析系統(tǒng)故障原因并采取相應(yīng)措施.
圖7 通過檢測(cè)的異常微服務(wù)定位根因Fig.7 Locating the root cause by detecting anomalous microservices
本文的數(shù)據(jù)集來自于AIops 挑戰(zhàn)賽的數(shù)據(jù)集以及一個(gè)開源的基于微服務(wù)架構(gòu)的火車訂票系統(tǒng)Train-Ticket.
1)AIops 挑戰(zhàn)賽數(shù)據(jù)集.該數(shù)據(jù)來源于基于微服務(wù)架構(gòu)的模擬電商系統(tǒng).系統(tǒng)基于谷歌公司開源的hipstershop 進(jìn)行改造,采用動(dòng)態(tài)部署架構(gòu),主要包含10個(gè)核心服務(wù)和6 個(gè)虛擬機(jī).每個(gè)服務(wù)部署了4 個(gè)Pod,共有40 個(gè)Pod,40 個(gè)Pod 動(dòng)態(tài)部署在6 個(gè)虛擬機(jī)上,分別在服務(wù)(Service)級(jí)別、Pod 級(jí)別和虛擬機(jī)節(jié)點(diǎn)(Node)級(jí)別注入故障.Service 級(jí)別故障是指對(duì)該服務(wù)下的所有Pod 都注入故障,而Pod 級(jí)別的故障只針對(duì)某一個(gè)Pod 進(jìn)行故障注入.其中Service 級(jí)別和Pod 級(jí)別的故障主要是針對(duì)k8s 容器進(jìn)行故障注入,包括網(wǎng)絡(luò)延遲、CPU 壓力突增、內(nèi)存壓力突增、磁盤讀寫壓力等.針對(duì)Node 級(jí)別的故障注入包括內(nèi)存壓力突增、磁盤空間滿、磁盤讀、磁盤寫、CPU 壓力等.這些故障部分會(huì)導(dǎo)致服務(wù)的響應(yīng)時(shí)間異常.表2 展示了部分故障注入信息.
2)Train-Ticket 數(shù)據(jù)集.火車票訂票系統(tǒng)是目前最大的開源微服務(wù)系統(tǒng)之一,并且已經(jīng)廣泛應(yīng)用于現(xiàn)有的一些研究中[17-19].該系統(tǒng)一共包含41 個(gè)微服務(wù),實(shí)現(xiàn)了完整的訂票流程.Train-Ticket 通過Kubernetes 部署在7 臺(tái)物理機(jī)器上運(yùn)行,其中每個(gè)服務(wù)都部署了多個(gè)實(shí)例.通過系統(tǒng)在正常運(yùn)行狀態(tài)下收集正常數(shù)據(jù)集用于訓(xùn)練,由于偶發(fā)的系統(tǒng)問題,可能會(huì)存在一小部分的異常數(shù)據(jù).異常數(shù)據(jù)采用故障注入的方法構(gòu)造,通過網(wǎng)絡(luò)模擬工具模擬網(wǎng)絡(luò)延遲來實(shí)現(xiàn)服務(wù)的響應(yīng)時(shí)間異常.此外,考慮了在3 個(gè)不同級(jí)別組件上注入故障,包括微服務(wù)、容器和API 級(jí)別.最后,訓(xùn)練集中包含了系統(tǒng)在無故障注入條件下收集到的214 782 條調(diào)用鏈數(shù)據(jù),測(cè)試集中一共包含35 977 條調(diào)用鏈數(shù)據(jù),其由31 964 條正常調(diào)用鏈數(shù)據(jù)和4 013 條異常調(diào)用鏈數(shù)據(jù)組成.
實(shí)驗(yàn)環(huán)境如表3 所示.為了驗(yàn)證模型的性能,本文選用準(zhǔn)確率、精確率、召回率、F1-Score 作為評(píng)價(jià)指標(biāo).
Table 3 Experimental Environment Configuration表3 實(shí)驗(yàn)環(huán)境配置
3.3.1 異常檢測(cè)效果評(píng)估
本文分別在AIops 數(shù)據(jù)集和Train-Ticket 數(shù)據(jù)集上對(duì)本文方法進(jìn)行了評(píng)估.AIops 數(shù)據(jù)集中包含從系統(tǒng)中采集到的連續(xù)4 天的各種類型的數(shù)據(jù)(指標(biāo)、日志和調(diào)用鏈).本文使用其中的調(diào)用鏈數(shù)據(jù)對(duì)本文方法TTEDA 進(jìn)行評(píng)估,調(diào)用鏈的基本信息如表1 所示.每天的調(diào)用鏈數(shù)據(jù)規(guī)模如表4 所示.
Table 4 AIops Dataset Information表4 AIops 數(shù)據(jù)集信息
表4 中Path 數(shù)量表示所有的Trace 中包含的微服務(wù)調(diào)用序列的數(shù)量.第1 天的數(shù)據(jù)(Day-1)是系統(tǒng)在正常狀態(tài)下運(yùn)行時(shí)采集的數(shù)據(jù),其他3 天分別注入了不同類型的故障.每次采用1 天的調(diào)用鏈數(shù)據(jù)進(jìn)行模型訓(xùn)練.測(cè)試集來自于注入故障的后3 天數(shù)據(jù),其中在不同層級(jí)注入的不同類型的故障并不是都會(huì)導(dǎo)致微服務(wù)的響應(yīng)時(shí)間異常,少部分經(jīng)過被注入故障的微服務(wù)的請(qǐng)求可以被正常處理.
為了篩選出合適的測(cè)試集,首先根據(jù)故障注入時(shí)間以及注入單元篩選出故障注入后10 min 內(nèi)經(jīng)過被注入故障的微服務(wù)的所有調(diào)用鏈數(shù)據(jù),然后根據(jù)相同結(jié)構(gòu)的調(diào)用鏈的響應(yīng)時(shí)間模式,將顯著偏離調(diào)用鏈響應(yīng)時(shí)間模式的調(diào)用鏈和微服務(wù)標(biāo)記為異常.具體而言,本文基于分布密度和 3σ原則劃分?jǐn)?shù)據(jù),密度閾值設(shè)為0.1.將數(shù)據(jù)集中各個(gè)調(diào)用鏈中的各個(gè)位置的微服務(wù)響應(yīng)時(shí)間按降序排列,在故障注入的一段時(shí)間內(nèi)的調(diào)用鏈數(shù)據(jù)中,如果調(diào)用鏈中的某個(gè)位置上的微服務(wù)響應(yīng)時(shí)間超過對(duì)應(yīng)位置微服務(wù)響應(yīng)時(shí)間的密度閾值和μ+3σ閾值,則將該調(diào)用鏈和微服務(wù)標(biāo)記為異常.測(cè)試集的數(shù)據(jù)規(guī)模如表5 所示.
Table 5 Test Dataset Information表5 測(cè)試集信息
本文分別利用第1 天和第2 天的數(shù)據(jù)訓(xùn)練模型Model-1 和Model-2,然后利用訓(xùn)練好的模型檢測(cè)測(cè)試集中的異常調(diào)用鏈,最終的各項(xiàng)評(píng)價(jià)指標(biāo)數(shù)據(jù)如圖8 所示.圖8(a)是通過正常數(shù)據(jù)訓(xùn)練模型測(cè)試得到的各項(xiàng)指標(biāo)結(jié)果,圖8(b)的訓(xùn)練數(shù)據(jù)則包含了部分異常數(shù)據(jù).其中Model-1 在Test-A上的準(zhǔn)確率、精確率、召回率以及F1-Score 分別達(dá)到了98.57%,95.80%,99.20%,97.47%;在Test-B上的各項(xiàng)指標(biāo)分別達(dá)到了99.11%,96.91%,98.83%,97.86%;在Test-C上的各項(xiàng)指標(biāo)分別達(dá)到了98.93%,95.30%,97.85%,96.56%.Medel-2 在Test-B上的準(zhǔn)確率、精確率、召回率以及F1-Score 分別達(dá)到了98.14%,94.88%,96.09%,95.49%;在Test-C上的準(zhǔn)確率、精確率、召回率以及F1-Score 分別達(dá)到了98.78%,95.45%,96.67%,96.05%.可以看出模型具有較高的檢測(cè)性能,并且性能不會(huì)受到訓(xùn)練集中少量異常數(shù)據(jù)的影響.
圖8 Model-1 和Model-2 的檢測(cè)效果Fig.8 Detection effect of Model-1 and Model-2
除了在AIops 數(shù)據(jù)集上驗(yàn)證模型的性能和效果,同樣在Train-Ticket 數(shù)據(jù)集上,針對(duì)不同級(jí)別的故障注入,也分別對(duì)模型的異常檢測(cè)的效果進(jìn)行了測(cè)試,測(cè)試結(jié)果如圖9 所示.在微服務(wù)、容器以及API 這3個(gè)不同層級(jí)上,模型的精確率分別達(dá)到了89.26%,85.29%,83.53%;召回率分別達(dá)到了91.41%,84.46%,88.07%;F1-Score 分別達(dá)到了90.32%,84.87%,85.74%;準(zhǔn)確率分別達(dá)到了98.65%,96.37%,88.99%.可以看出,模型對(duì)異常具有較高的檢測(cè)效率.
圖9 在Train-Ticket 不同層級(jí)測(cè)試集上的檢測(cè)效果Fig.9 Detection effect on the test set of different levels of Train-Ticket
此外,本文在AIops 數(shù)據(jù)集和Train-Ticket 數(shù)據(jù)集上對(duì)針對(duì)3 種基線方法TraceAnomaly[4],AEVB[5],Multi-LSTM[6]的效果進(jìn)行了評(píng)估,并與本文方法TTEDA 進(jìn)行了對(duì)比.如表6 所示相比于3 種異常檢測(cè)的基準(zhǔn)方法,TTEDA 在所有指標(biāo)上都取得了最高的分?jǐn)?shù).在2種數(shù)據(jù)集下,TTEDA 在精確率上平均提高了48.6 個(gè)百分點(diǎn)、30.2 個(gè)百分點(diǎn)、3.5 個(gè)百分點(diǎn) ,在召回率上平均提高了34.7 個(gè)百分點(diǎn)、11.1 個(gè)百分點(diǎn)、4.1 個(gè)百分點(diǎn).上述實(shí)驗(yàn)結(jié)果可以看出,本文方法TTEDA 的性能要優(yōu)于其他的基線模型.這說明本文將調(diào)用鏈表示為成對(duì)的微服務(wù)調(diào)用序列和路徑向量是有效的,利用自注意力機(jī)制挖掘微服務(wù)的響應(yīng)時(shí)間與其調(diào)用路徑之間的關(guān)聯(lián)關(guān)系可以有效地學(xué)習(xí)到微服務(wù)響應(yīng)時(shí)間的正常分布模式,從而提高異常檢測(cè)性能.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出模型的有效性.同時(shí)表7 給出了不同方法的訓(xùn)練和測(cè)試開銷,可見,本文方法TTEDA在帶來良好性能的同時(shí)其開銷是可以接受的.
Table 6 Anomaly Detection Effect of Different Methods表6 不同方法的異常檢測(cè)效果%
Table 7 Training and Testing Overheads of Different Methods on AIops Dataset表7 不同方法在AIops 數(shù)據(jù)集上的訓(xùn)練和測(cè)試開銷
3.3.2 根因定位效果評(píng)估
本文選擇了3 種根因定位的基準(zhǔn)算法與本文的方法TTEDA 在AIops 測(cè)試集上對(duì)比了根因定位方面的性能,實(shí)驗(yàn)結(jié)果如表8 所示.采用常見的評(píng)估排序結(jié)果的指標(biāo)Top-k準(zhǔn)確率(A@k)來評(píng)估算法根因定位的效果.A@k計(jì)算過程如式(7)所示,其中k=1,2,3.
Table 8 Comparison of Root Cause Location Effects of Different Methods表8 不同方法根因定位效果對(duì)比%
其中n表示樣本中異常調(diào)用鏈的數(shù)量,表示通過算法確定的前k個(gè)根因微服務(wù)是否包含實(shí)際的根因微服務(wù).A@k表示根本原因包含在Top-k結(jié)果中的概率,即前k個(gè)結(jié)果中包含根因微服務(wù)的調(diào)用鏈數(shù)量占總的異常調(diào)用鏈數(shù)量的比例.
1)SBFL(spectrum-based fault localization).基于頻譜的故障定位在程序調(diào)試中應(yīng)用較多.SBFL 在運(yùn)行測(cè)試用例時(shí)收集程序元素的覆蓋率信息,然后使用預(yù)定義的評(píng)分函數(shù)來計(jì)算程序元素的可疑分?jǐn)?shù).其基本思想是,由較少通過的測(cè)試和更多失敗的測(cè)試覆蓋的程序元素更有可能是根本原因.這項(xiàng)技術(shù)在Micro-Rank[20]被用微服務(wù)的根因定位.通過統(tǒng)計(jì)微服務(wù)出現(xiàn)在異常路徑上的次數(shù)Oef、出現(xiàn)在正常路徑上的次數(shù)Oep、不包含微服務(wù)的異常路徑數(shù)量Onf以及不包含微服務(wù)的正常路徑數(shù)量Onp來計(jì)算微服務(wù)的異常評(píng)分,其中評(píng)分越高的微服務(wù)是根因的可能性越大,異常評(píng)分的計(jì)算為
2)MonitorRank[20].該方法定期處理應(yīng)用程序服務(wù)產(chǎn)生的調(diào)用數(shù)據(jù),為每個(gè)時(shí)間段生成調(diào)用圖.基于調(diào)用圖,利用微服務(wù)的鄰接矩陣和指標(biāo)之間的相關(guān)性,使用隨機(jī)游走方法PageRank 來定位根因.
3)TraceAnomaly[4].該方法在檢測(cè)出異常跟蹤的基礎(chǔ)上,通過比較所有與異常跟蹤具有相同結(jié)構(gòu)的跟蹤向量HSTV 來定位根因,即在向量的每一維上使用3-sigma 原則找出1 個(gè)或多個(gè)異常服務(wù),即顯著偏離平均響應(yīng)時(shí)間的服務(wù).然后將這些異常服務(wù)最下游的微服務(wù)作為可能的根本原因.
由表8 可知,本文方法TTEDA 根因定位最準(zhǔn)確.原因分析如下:
SBFL 基于服務(wù)的頻譜數(shù)據(jù)來定位根因,并沒有考慮不同調(diào)用鏈的重要性,不同調(diào)用鏈在系統(tǒng)中出現(xiàn)的次數(shù)不同,出現(xiàn)次數(shù)較多的調(diào)用鏈中包含的服務(wù)計(jì)算的異常得分偏小,且如果調(diào)用鏈出現(xiàn)異常,其包含的所有服務(wù)的異常次數(shù)都會(huì)增加,這其中也包含了正常的服務(wù),因此效果不佳.MonitorRank 使用隨機(jī)游走算法定位根因,如果某個(gè)正常的服務(wù)在不同的異常調(diào)用鏈中多次出現(xiàn),它可能會(huì)被方法多次遍歷,因此具有較高的異常分?jǐn)?shù),這會(huì)導(dǎo)致方法出現(xiàn)誤判,使得算法性能變差.TraceAnomaly 在檢測(cè)異常上,通過比較與異常調(diào)用鏈具有相同結(jié)構(gòu)的調(diào)用鏈來定位根因,雖然算法取得了一定的效果,但是這增加了一定的比較開銷.
而本文方法將調(diào)用鏈表示為具有明確成對(duì)關(guān)系的微服務(wù)調(diào)用序列和路徑向量,通過模型將其關(guān)聯(lián),從而能夠細(xì)粒度地檢測(cè)出異常調(diào)用鏈中的異常服務(wù),在正確檢測(cè)到異常調(diào)用鏈的情況下準(zhǔn)確定位到根因微服務(wù).相比于現(xiàn)有的根因定位方法 MonitorRank 和TraceAnomaly,根因定位的準(zhǔn)確率分別提高了35.4 個(gè)百分點(diǎn)和 6.1 個(gè)百分點(diǎn).由于本文是按照異常服務(wù)的拓?fù)漤樞驅(qū)ξ⒎?wù)進(jìn)行排序,即在調(diào)用路徑中越下游的異常服務(wù)排序越靠前,在單根因的情況下,如果根因列表中的第1 位不是實(shí)際根因,那么后續(xù)的服務(wù)可能均不是根因,因此不適合計(jì)算A@2 和A@3.
本文以微服務(wù)系統(tǒng)的調(diào)用鏈為研究對(duì)象,通過分析發(fā)現(xiàn)微服務(wù)的響應(yīng)時(shí)間與調(diào)用鏈存在一定的依賴關(guān)系,進(jìn)而提出一種基于Transfomer 的微服務(wù)性能異常檢測(cè)與根因定位方法TTEDA.通過構(gòu)建微服務(wù)調(diào)用序列和路徑向量的方式有效表示了調(diào)用鏈的結(jié)構(gòu)信息和服務(wù)的特征信息,借助自注意力機(jī)制捕捉微服務(wù)之間的調(diào)用關(guān)系,并通過編碼器-解碼器注意力機(jī)制建立服務(wù)響應(yīng)時(shí)間和調(diào)用路徑之間的關(guān)聯(lián)關(guān)系,從而能夠有效學(xué)習(xí)到微服務(wù)在不同調(diào)用鏈上的正常響應(yīng)時(shí)間分布,提高了異常檢測(cè)的準(zhǔn)確性,且將異常檢測(cè)粒度精確到了微服務(wù)級(jí)別.此外,本文方法主要是檢測(cè)調(diào)用鏈中微服務(wù)的性能異常,即服務(wù)的響應(yīng)時(shí)間異常.在實(shí)際的場(chǎng)景中,往往還存在功能異常的情況,即服務(wù)調(diào)用路徑異常(例如調(diào)用中斷),這種功能異常不太常見,但可能與攻擊等嚴(yán)重問題有關(guān),因此依然值得關(guān)注.同時(shí)還需要更加細(xì)粒度地定位根因,如與服務(wù)有關(guān)的根因KPI,以便運(yùn)維人員采取止損措施.這些工作將作為本文的未來工作進(jìn)行展開.
作者貢獻(xiàn)聲明:方浩天提出了方法思路和實(shí)驗(yàn)方案,并完成了實(shí)驗(yàn)和論文初稿的撰寫;李春花指導(dǎo)研究方案設(shè)計(jì)并修改論文;王清參與論文修改和實(shí)驗(yàn)驗(yàn)證;周可提出指導(dǎo)性意見并參與論文的修訂.