廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 朱鴻斌
變點(diǎn)檢測(cè)方法普遍應(yīng)用于各個(gè)工程領(lǐng)域,但是,傳統(tǒng)的變點(diǎn)檢測(cè)方法使用的是參數(shù)法,該方法在復(fù)雜環(huán)境下存在一定的局限性。為克服該問(wèn)題,本文介紹一種基于AUC統(tǒng)計(jì)量非參數(shù)變點(diǎn)檢測(cè)方法。ROC曲線下的區(qū)域(AUC)指標(biāo)可用于描述二分類(lèi)器性能,數(shù)據(jù)信號(hào)的分離程度。其中,AUC統(tǒng)計(jì)量和Mann-Whitney U(曼-惠特尼)統(tǒng)計(jì)量是等價(jià)的。因其具有簡(jiǎn)單,計(jì)算方便等優(yōu)點(diǎn),因此本文將介紹該指標(biāo)在變點(diǎn)檢測(cè)中問(wèn)題的應(yīng)用。實(shí)驗(yàn)結(jié)果表明,該方法具有一定的有效性和實(shí)用性。
ROC分析起源于20世紀(jì)50年代初期,目前已成為一種重要的工具,并廣泛應(yīng)用在不同的科學(xué)工程領(lǐng)域,包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、信號(hào)處理、生物信息學(xué)和能源探測(cè)器信號(hào)處理中的一些未解決的問(wèn)題等。ROC曲線是由在不同判決門(mén)限下真陽(yáng)性率和假陽(yáng)性率所構(gòu)成的,接收機(jī)工作特性曲線下的面積(Area Under the Curve,以下簡(jiǎn)稱(chēng)AUC)可以評(píng)估分類(lèi)器能否有效地將特定問(wèn)題中的陽(yáng)性類(lèi)樣本和陰性類(lèi)樣本區(qū)分出來(lái),也可用來(lái)判斷兩類(lèi)樣本是否存在差異。若AUC的數(shù)值越大,說(shuō)明兩類(lèi)樣本的重合度越低,這也意味著分類(lèi)器的分類(lèi)性能越好,或者兩類(lèi)數(shù)據(jù)分離程度較高。
變點(diǎn)在工程上也被稱(chēng)為異常點(diǎn),指一個(gè)信號(hào)或者模型突然發(fā)生變化的點(diǎn)。變點(diǎn)檢測(cè)是判斷信號(hào)或數(shù)據(jù)序列是否發(fā)生變化,以及突變的時(shí)刻。變點(diǎn)檢測(cè)技術(shù)目前已經(jīng)廣泛應(yīng)用于工程領(lǐng)域中。比如:工業(yè)故障檢測(cè)、氣候方面的突發(fā)事件分析、人工智能領(lǐng)域的圖像的邊緣檢測(cè)和分割技術(shù)以及語(yǔ)音辨析技術(shù)等。傳統(tǒng)的變化點(diǎn)檢測(cè)方法可分為離線檢測(cè)方法和在線檢測(cè)方法。相比離線檢測(cè),在線檢測(cè)需要考慮眾多的因素,例如:數(shù)據(jù)流的到達(dá)的頻率。本文主要研究離線情況下變點(diǎn)檢測(cè)。若將突變點(diǎn)前后的數(shù)據(jù)看作二類(lèi)問(wèn)題,曼-惠特尼統(tǒng)計(jì)量將可以對(duì)二類(lèi)問(wèn)題進(jìn)行分析,并且判斷是否出現(xiàn)變點(diǎn),以及變點(diǎn)出現(xiàn)的時(shí)刻。
令獨(dú)立同分布的樣本序列X1,X2,……Xm和Y1,Y2,……Yn分別服從于累積概率密度函數(shù)FX、FY。從D.Bamber,“The area above the ordinal dominance graph and the area below the receiver operating characteristic graph”可知,計(jì)算AUC的經(jīng)驗(yàn)無(wú)偏估計(jì)量為:
其中:
由上式可知,當(dāng)X1,X2,……Xm與Y1,Y2,……Yn完全分離時(shí),AUC的估計(jì)值為0或者1;當(dāng)X與Y完全重疊時(shí),AUC的估計(jì)值為0.5。
令Z為長(zhǎng)度等于K的隨機(jī)時(shí)間序列,即Z=[Z1,Z2,..,ZK],且服從以下分布:
式中,μ,δ2分別為序列的均值和方差。本文僅研究均值突變的情況,即δ2保持不變。
若在某一時(shí)刻,序列Z的均值發(fā)生突變,其數(shù)學(xué)模型可以表示為:
而Δ指的是序列均值突變的幅度。
為驗(yàn)證本文所介紹方法的有效性,在本實(shí)驗(yàn)中,我們產(chǎn)生一個(gè)長(zhǎng)度K=1000的序列,該序列由均值分別為0、5,方差為1的隨機(jī)數(shù)據(jù)組成,其中,突變的區(qū)間范圍為[600,100]。
(2)逐步增加q,即讓窗口由左向右滑動(dòng)。此時(shí),我們可以獲得各個(gè)時(shí)刻的θq的估計(jì)值,如圖1所示。
圖1 基于滑窗方法的AUC統(tǒng)計(jì)序列圖
如圖1所示,當(dāng)兩個(gè)窗口的數(shù)據(jù)不存在均值突變時(shí),即Δ=0,此時(shí)θq的值的變化不明顯,且僅在一定的范圍內(nèi)波動(dòng);當(dāng)窗口y中的一部分?jǐn)?shù)據(jù)進(jìn)入突變后區(qū)域,此時(shí)θq的值會(huì)逐漸增大;當(dāng)窗口x完全處于突變點(diǎn)之前、且窗口y完全處于突變點(diǎn)之后,θq的值將達(dá)到最大;此后θq的數(shù)值將會(huì)隨著窗口x進(jìn)入突變后的區(qū)域而逐漸減小。
本文主要介紹了如何將曼-惠特尼統(tǒng)計(jì)量應(yīng)用于變點(diǎn)檢測(cè)問(wèn)題,并且做了均值突變的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,當(dāng)數(shù)據(jù)序列發(fā)生均值突變時(shí),使用曼-惠特尼統(tǒng)計(jì)量進(jìn)行分析能夠判斷數(shù)據(jù)序列是否出現(xiàn)變點(diǎn),因此,本文的方法具有一定的合理性和實(shí)用性。然而,本文尚存在一些不足,對(duì)閾值設(shè)定和窗口大小的選取還沒(méi)有系統(tǒng)的理論方法,因此還能夠從以下幾個(gè)方面進(jìn)一步改進(jìn),例如:閾值的選取、滑窗大小的設(shè)定、多變點(diǎn)檢測(cè)以及變點(diǎn)發(fā)生的時(shí)刻的估計(jì)等。