• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    新奇檢測綜述

    2021-03-09 16:41:02雷恒林古蘭拜爾吐爾洪買日旦吾守爾張東梅
    計算機工程與應用 2021年5期
    關(guān)鍵詞:新奇樣本圖像

    雷恒林,古蘭拜爾·吐爾洪,買日旦·吾守爾,張東梅

    新疆大學 信息科學與工程學院,烏魯木齊830046

    異常檢測是數(shù)據(jù)分析中的一個領(lǐng)域,它被具體分為離群檢測(正常點和異常點都在訓練的數(shù)據(jù)中)和新奇檢測(在構(gòu)建訓練模型時僅使用正常點,再用訓練好的模型對新到來的數(shù)據(jù)點進行分類)。

    新奇檢測在數(shù)據(jù)智能方面具有重要的作用。21世紀,數(shù)據(jù)正在成為一項重要的資產(chǎn),通過對數(shù)據(jù)進行分析和建模,從中提取有用信息,并以此為基礎(chǔ)來構(gòu)建智能化系統(tǒng),使社會運作更有效率。隨著智能化的推進,正在賦予機器更多的權(quán)力,客機的自動駕駛系統(tǒng)已應用多年,而近年無人汽車駕駛技術(shù)也在蓬勃發(fā)展。這些自動系統(tǒng)是否異常,對于智能機器做出正確的判斷有重要的作用。新奇檢測是一類重要的異常檢測方法,其在實際生活中具有廣泛的應用,比如自動識別橋梁渦激共振信號[1]以及汽車自動駕駛時進行目標檢測[2]。

    新奇檢測極大地彌補了離群檢測在面對新類型異常點時存在的不足:機器在遇到一個前所未有的異常數(shù)據(jù)時,離群點檢測會將它歸類到和它最相似的已知類中,這樣通常會得到錯誤的結(jié)果,因為實際上它并不屬于該類。希望模型能將未見過的異常歸為新的異常類,這正是新奇檢測的特點所在。

    新奇檢測更加適合當下大多數(shù)智能系統(tǒng)所面臨的一個常態(tài):處于正常狀態(tài)的時間要比處于異常狀態(tài)的時間多,甚至核電站之類的系統(tǒng),可能幾十年才會遇到一次嚴重的異常狀態(tài),這就導致在實際情況中,系統(tǒng)得到的正常數(shù)據(jù)遠多于異常數(shù)據(jù)。當面對的是這樣一種不平衡數(shù)據(jù)時,如果想要把這些正常數(shù)據(jù)充分利用起來,新奇檢測就具有優(yōu)勢。

    新奇檢測以其良好的異常歸類能力和在不平衡數(shù)據(jù)集上的良好表現(xiàn),在實際生活中具有較高的應用價值,目前國外已有學者從不同的角度,對新奇檢測進行了綜述。Markou等人[3-4]分別從統(tǒng)計和神經(jīng)網(wǎng)絡兩大方面對新奇檢測進行了具體闡述。Kerr等人總結(jié)了新奇檢測在累積學習機器人任務中的應用情況[5]。Miljkovi?從聚簇類、最近鄰、統(tǒng)計和分類四個方面描述新奇檢測的應用[6]。Pimentel等人在文獻[7]中詳細論述了新奇檢測領(lǐng)域的各種算法和原理。Domingues等人[8]對離散數(shù)據(jù)類型中的新奇檢測方法進行了對比實驗,來尋找最有效方法。但這些論文有的年代較為久遠,有的討論的檢測方法和領(lǐng)域較為局限,同時最近幾年新奇檢測又產(chǎn)生了新的理論和新的應用。于是緊跟技術(shù)的發(fā)展,對新奇檢測算法和其應用進行了擴展總結(jié)。

    本文的組織如下:首先介紹了各種常用新奇檢測方法的基本原理和具體應用,然后介紹了新奇檢測實驗的基本步驟、常用評估標準以及在經(jīng)典數(shù)據(jù)集上的效果,最后對經(jīng)典新奇檢測方法的優(yōu)缺點和應用進行總結(jié)分析并對新奇檢測的未來研究趨勢進行展望。

    1 新奇檢測方法

    1.1 基于距離的新奇檢測方法

    基于距離的新奇檢測方法主要包括K最近鄰(KNearest Neighbor,KNN)算法和聚簇類算法(比如Kmeans算法)。該類方法通過計算點與點之間的距離來估計樣本點的聚集程度并設定閾值,其中聚集程度高于閾值的點,被視為正常點,反之則為異常點。

    KNN算法:KNN屬于監(jiān)督學習方法。在一般情況下使用KNN來檢測異常類時,首先計算各個點和它K個近鄰之間距離的平均值,其中距離較大的點是異常點。如圖1所示,當Neighbor設置為3時,異常點A1到相鄰點的距離之和的平均值要大于正常點N1。如果要把KNN算法應用到新奇檢測中需要進行一些改變。比如,可以通過設置新到來的點到與它相鄰點的距離極值來進行新奇檢測,若超過極值則被劃分為新奇點。常用的距離評判標準有歐式距離、曼哈頓距離、夾角余弦等。這類算法通常不太擅長處理高維數(shù)據(jù),計算開銷較大,因而不適合在大規(guī)模數(shù)據(jù)和實時應用中使用。

    圖1 KNN算法示意圖

    K均值(K-means)算法:該算法根據(jù)點與點之間的距離,將距離集中的點定為一個簇。算法第一步在數(shù)據(jù)集中隨機產(chǎn)生聚簇中心,第二步將點劃分到和它距離最近的聚簇中心,同時更新聚簇中心的位置(因為有新的點加入簇,簇的中心改變),重復第二步,直到所有點都被歸類到簇中,具體過程如圖2所示。同為聚簇類算法的還有使用馬哈諾比斯距離的Gustafson-Kessel模糊聚類算法(fuzzy Gustafson-Kessel clustering,GK),在該算法中,每個數(shù)據(jù)點同時屬于所有聚類簇,但是每個簇對它們的吸引力不同,點最終被歸屬到對它吸引力最強的簇中。Viegas等人[9]利用GK算法首先對一組合法消費者的電力使用數(shù)據(jù)進行聚類,以構(gòu)建合法用電行為的原型。然后,將原型應用于基于距離的新穎性檢測中。和原型相比差異較大的情形,則可能是用戶在偷電,或是出故障的設備正在維修。實驗證明,該方法優(yōu)于目前在電力反盜竊研究中表現(xiàn)最優(yōu)的算法(基于SVM),成功地挽回了電力傳輸過程中的非技術(shù)性損失。

    圖2 K-means聚簇過程示意圖

    1.2 基于概率的方法

    這類新奇檢測方法的數(shù)學基礎(chǔ)是概率,通過在已知觀察序列上建模,推測序列背后的狀態(tài)。該類方法主要包括基于高斯分布假設的高斯模型和隱馬爾可夫模型。

    高斯混合模型(Gaussian Mixture Model,GMM):假設輸入的數(shù)據(jù)符合高斯分布(根據(jù)定理,任何曲線都可由幾個正態(tài)分布線性表示,如圖3所示,y4可由y1、y2、y3表示),在給定的數(shù)據(jù)集上,計算每個特征的u和σ2。這時如果出現(xiàn)一個新的數(shù)據(jù)點,計算出其在各個特征下的偏差之和p(x),假設異常的閾值為ε,如果p(x)<ε,則判定點為異常,反之為正常。

    圖3 曲線由正態(tài)分布表示示例

    一類支持向量機是在醫(yī)療領(lǐng)域使用較多的新奇檢測方法,但是其在分類過程中只構(gòu)建了全局的概率邊界,這不太適合多類分類問題。為了解決這個問題,Yang等人[10]提出了半監(jiān)督變分的高斯混合模型(Semi-supervised Variational Gaussian Mixture Model,SsVGMM)。該模型使用高斯混合分布,同時對預定義的類和未定義的類進行建模。從每一個類的概率密度出發(fā),利用二維合成數(shù)據(jù)生成概率邊界。SsVGMM已被用于甲狀腺疾病數(shù)據(jù)的分類,其還可以被用于其他醫(yī)療數(shù)據(jù)的多類分類新奇檢測。

    隱馬爾可夫模型(Hidden Markov Model,HMM):該模型包含觀察序列和隱含序列,觀察序列用于推測隱含序列的狀態(tài)。先對正常數(shù)據(jù)進行模型訓練,求得HMM模型的參數(shù)估計,然后在已訓練好的模型上運行測試數(shù)據(jù),看結(jié)果是否超出閾值。Fagiani等人[11]將HMM應用到智能水網(wǎng)和天然氣網(wǎng)的泄漏檢測中,通過和GMM模型對比,發(fā)現(xiàn)HMM模型有更好的效果。Schmidt等人[12]用HMM模型在波動工況下對齒輪箱進行新奇檢測。該方法能夠在只有單個傳感器振動數(shù)據(jù)的情況下檢測和定位齒輪故障。該團隊認為在旋轉(zhuǎn)機器診斷探測領(lǐng)域,HMM比高斯混合模型和高斯分布具有更好的區(qū)分能力。

    1.3 基于域的檢測方法

    該方法先確定一個邊界或域,然后使用邊界分離正常類和異常類。其主要包括支持向量機、一類支持向量機和支持向量數(shù)據(jù)描述。

    支持向量機(Support Vector Machine,SVM):通過選擇最優(yōu)的一個超平面來對數(shù)據(jù)進行劃分,劃分的原則是使各類與超平面之間的間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解。關(guān)于SVM在新奇檢測中的應用原理在文獻[13]中有具體描述。Chen等人[14]提出了兩種新的SVM改進算法,稱為帶有負例樣本的SVDD(SVDD with negative examples,R-SVDD)和在負例樣本使用ε不靈敏損失函數(shù)的SVDD(SVDD using the ε-insensitive loss function in negative samples,εNRSVDD)。這兩種算法用正例構(gòu)建模型,提高模型對噪聲、異常數(shù)據(jù)的魯棒性。宋玉丹等人[15]面對大部分數(shù)據(jù)正常樣本較多,異常樣本較少,且大部分異常分類算法只考慮了正常樣本,忽略了異常樣本的實際情況,提出了基于少量異常數(shù)據(jù)的最大間隔支持向量機算法。在使用正常樣本構(gòu)建SVM模型的同時,也加入了異常樣本,以此使構(gòu)建的超平面更加貼合正常樣本的邊界,達到更好的判斷效果。

    一類支持向量機(One Class SVM,OCSVM):當訓練集中只有一類數(shù)據(jù),測試集中卻包含第二類數(shù)據(jù)時,使用一類支持向量機對測試集進行分類較為合適。此外,定義邊界域的形狀取決于所選的內(nèi)核,其原理是在訓練時構(gòu)建一個超平面,把所有的訓練樣本包含進去。在進行測試時,如果樣本落在球體外面,則判定該樣本為第二類數(shù)據(jù)。在圖4中顯示了OCSVM在確定邊界后對數(shù)據(jù)的分類效果。有關(guān)OCSVM用于新奇檢測的詳細信息在文獻[16]中有具體介紹。Burnaev等人[17]通過在訓練階段添加惡意軟件的特權(quán)信息,將松弛變量重新建模,再結(jié)合傳統(tǒng)的OCSVM,提高了對惡意軟件的檢測能力。Delgado-Prieto等人[18]提出先對機電系統(tǒng)數(shù)據(jù)進行收集,再用主成分分析(Principal Component Analysis,PCA)降維,最后用正常數(shù)據(jù)對OCSVM建模,使檢測精度有了顯著提升。Delgado-Prieto等人認為該方法能用于其他工業(yè)機器的故障檢測。周葉[19]選擇健康狀態(tài)的水電機組進行建模,對水電機組的常態(tài)數(shù)據(jù)進行特征提取,最后利用OCSVM實現(xiàn)對水電機組故障的診斷。

    圖4 一類支持向量機

    支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)通過把原始的數(shù)據(jù)映射到高維空間,然后在高維空間中找一個超球體,該球體盡可能小,但是又要盡量包含更多的點。這時把超球體逆映射到原始的數(shù)據(jù)空間,就可以得到一個更加準確的正常數(shù)據(jù)范圍。如果新來的點落在范圍之外,則為異常點,關(guān)于SVDD的深入學習可以參考文獻[20]。傳統(tǒng)SVDD的決策函數(shù)用內(nèi)核擴展表示,導致運算速度與支持向量的數(shù)量呈線性關(guān)系,為了滿足快速響應程序的需要,研究者提出了快速SVDD(Fast-SVDD,F(xiàn)-SVDD)算法,將決策函數(shù)的時間復雜度控制在常數(shù)級,并已在液晶顯示器微缺陷檢查中得到應用[21]。針對原始SVDD運行速度慢的問題,孫文柱等人[22]提出了改進型的SVDD(Improved Support Vector Data Description,I-SVDD),通過縮小SVDD核矩陣的尺寸,提高了運行速度,且保證了精度,并成功應用在了飛行器飛行參數(shù)的異常檢測。曲建嶺等人[23]提出一種啟發(fā)式約減支持向量數(shù)據(jù)描述(Heuristic Reduction Support Vector Data Description,HR-SVDD),用啟發(fā)式的方法從原數(shù)據(jù)集中挑選出部分數(shù)據(jù)集,再在部分數(shù)據(jù)集上進行運算,在基本保持運算精度的情況下,加快了運行速度。實驗結(jié)果表明,對于大樣本數(shù)據(jù),HR-SVDD有較好的分類效果。

    1.4 基于重構(gòu)的方法

    1.4.1 神經(jīng)網(wǎng)絡

    神經(jīng)網(wǎng)絡是當下機器學習領(lǐng)域非常熱門的一種方法,其是對人類大腦神經(jīng)元處理信息過程的一種模仿,通過訓練框架,讓網(wǎng)絡不斷自主學習來修改神經(jīng)元之間連接的權(quán)重,直到達到最佳的訓練效果。研究者們很早便開始使用神經(jīng)網(wǎng)絡來進行新奇點檢測。神經(jīng)網(wǎng)絡可以被用于時間序列數(shù)據(jù)類型的異常識別,常用的有長短時記憶網(wǎng)絡(Long Short Term Memory Network,LSTM)[24]、遞歸神經(jīng)網(wǎng)絡(Recursive Neural Network,RNN)等。

    LSTM模型解決了RNN無法記住較久遠信息的弊端,通過一種特殊設計的“門”結(jié)構(gòu)(包括遺忘門、輸入門、輸出門),實現(xiàn)節(jié)點對數(shù)據(jù)的選擇性保留。Nguyen等人[25]構(gòu)建了帶有隨機層的RNN作為時間序列建模的框架,在聲音異常檢測方面達到了目前最優(yōu)的效果。LSTM和自動編碼器的搭配還被用于檢測預防未知的核電站安全事故[26]。

    利用生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)進行新奇檢測,其在圖形領(lǐng)域的運用流程如圖5所示。GAN屬于深度學習,其包含一個生成器和一個辨別器,可以利用辨別器對新奇點進行鑒別,再利用生成器生成新奇點,克服了新奇點數(shù)量少的缺點。關(guān)于GAN的詳細內(nèi)容可以參考文獻[27]。研究者已經(jīng)嘗試在分類的同時進行異常檢測,辨別器中新出現(xiàn)的類被認為是異常類[28]。Sim?o等人[29]利用GAN新生成的數(shù)據(jù)在線擴充數(shù)據(jù)集,同時使用隨機目標向量來提高新奇檢測精度,GAN存在的一個問題最優(yōu)參數(shù)不好調(diào)控以及在不同數(shù)據(jù)集上的驗證還不太充分。

    圖5 生成對抗網(wǎng)絡示意圖

    自編碼器(Auto Encoder)使用神經(jīng)網(wǎng)絡來對輸入數(shù)據(jù)進行高效表示,可用于降維或者生成與訓練數(shù)據(jù)相似的數(shù)據(jù),其重構(gòu)過程如圖6所示。從其結(jié)構(gòu)可知,在面對低維度的數(shù)據(jù)時其表現(xiàn)不是很好[30]。在文獻[31]中,作者改進自編碼器后得到代表性特征自編碼器(Representative Feature Auto-Encoder,RFAE),利用自編碼器先得到相位相同樣本的代表性特征,再對代表性特征進行擴展得到重構(gòu)樣本。根據(jù)重構(gòu)誤差來判斷樣本是否異常。

    圖6 自編碼器重構(gòu)過程圖

    1.4.2 基于子空間的方法

    子空間是原來向量空間的一部分,其維度小于等于原空間。通過一定的方法在盡量保留信息的情況下縮小原空間的范圍,可以加快運行速度。這類方法主要包括主成分分析和零空間(Null Space)。

    主成分分析(Principal Component Analysis,PCA)的基本思想是通過將高維數(shù)據(jù)在盡量保留數(shù)據(jù)特征的基礎(chǔ)上映射到低維數(shù)據(jù)空間上,借此加快程序運行速度,如圖7所示將3維空間降到2維空間。Feng等人[32]通過對復式壓縮機的指示圖進行離散2D變換來提取特征,再用PCA進行降維,最后對降維特征數(shù)據(jù)進行新奇檢測,取得了比用小波變換更好的效果。Valiente-González等人[33]提出了一種新的圖像類型新奇檢測方案。該團隊為了從玉米粒中挑選出有問題的玉米粒,先使用智能相機對通過通道的玉米粒進行拍照,再對玉米圖像的顏色空間用PCA降維并建立特征空間,在訓練集中以PCA降維獲得的相關(guān)信息來設定閾值,進一步判斷測試值是否異常,最后獲得了92%的準確率。

    圖7 PCA將三維聚簇數(shù)據(jù)降到二維

    Bodesheim等人[34]利用零Foley-Sammon變換(Null Foley-Sammon Transform,NFST)來進行新奇檢測,并提出了零空間的概念。零空間是所有訓練樣本的一個聯(lián)合子空間,每個已知類由一個點表示。與核主成分分析等其他子空間方法相比,該方法可以避免在獲得的子空間內(nèi)進行額外的密度估計或聚類,并且可以使用簡單的距離度量來獲得新穎性得分,適合處理增量識別任務。后來該方法還被應用于多類識別中的新奇檢測,并在未知人臉識別和未知鳥類識別上得到了具體應用[35]。

    線性判別分析(Linear Discriminant Analysis,LDA)同樣屬于降維方法。和PCA不同的是,它的目標是尋求投影后類內(nèi)方差最小、類間方差最大。Yu等人[36]和Huang等人[37]對LDA進行改進,克服了類內(nèi)散布矩陣必須是非奇異性矩陣的缺點,提出了基于辨別分析的核零空間方法(Kernel Null Space Method based Discriminant Analysis,KNDA)。Liu等人[38]對KNDA進行改進,得到了基于辨別分析的增量核零空間(Incremental Kernel Null Space based Discriminant Analysis,IKNDA)算法。該方法克服了KNDA特征分解帶來的時間開銷變大和無法計算連續(xù)數(shù)據(jù)的問題。通過在數(shù)據(jù)集Founder-Type-200和Caltech-256測試后,證明了相比KNDA、SVM和DNN,該算法降低了時間復雜度和空間復雜度,同時保持了良好的可伸縮性,適合處理大規(guī)模數(shù)據(jù)。

    近年來,基于神經(jīng)網(wǎng)絡的新奇檢測方法得到了較多的應用,這得益于其在大規(guī)模數(shù)據(jù)上的良好表現(xiàn)和高性能處理器性能的提升。但是神經(jīng)網(wǎng)絡的求解過程對研究人員來說是一個“黑盒子”,而有的應用場景需要對過程有較好的解釋性,比如在銀行領(lǐng)域,對用戶的決策過程應該透明,這時其他具有較強解釋性的機器學習方法會更加適合。而基于子空間的方法通過投影映射等步驟構(gòu)建一個較小的空間,縮小問題的范圍的同時降低復雜度,來達到新奇檢測的目的。

    2 新奇檢測實驗

    2.1 新奇檢測過程

    在實際的新奇檢測工作流程中,首先需要明確正常值的標準,收集系統(tǒng)在正常狀態(tài)產(chǎn)生的數(shù)據(jù)。

    然后需要進行數(shù)據(jù)的預處理工作。數(shù)據(jù)預處理工作在整個新奇檢測過程中具有重要作用,主要包括對異常值、缺失值的處理,以及數(shù)據(jù)類型的轉(zhuǎn)換。

    對于訓練集中異常值的處理是直接刪除,因為它會對模型訓練效果造成干擾。而對于缺失值的處理,如果缺失數(shù)據(jù)的數(shù)量相對整個數(shù)據(jù)集來說很小,重要性很低,可以試著直接刪除。如果缺失數(shù)據(jù)較為重要,則可以采取辦法進行填充。最簡單的方法是使用中值、中位數(shù)和眾數(shù)去填充缺失值。填補缺失值的方法還有插值法和最近鄰法。插值法通過插值函數(shù)f(x)來對已知點進行擬合,用變量在該函數(shù)對應的值來填補缺失值。常用的插值方法有拉格朗日法、牛頓插值法和樣條插值法;最近鄰法使用KNN算法計算距離該點最近的K個點的均值來代替缺失值。

    數(shù)據(jù)的轉(zhuǎn)換。系統(tǒng)產(chǎn)生的數(shù)據(jù)類型多種多樣,比如有字符型、數(shù)值型和日期型等。通常需要將非數(shù)值型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),便于新奇檢測方法使用。另外特征之間由于量綱不同,值的范圍也許會相差很大,這時需要使用歸一化處理,消除量綱帶來的影響。

    經(jīng)過以上預處理之后,在模型中訓練這些正常數(shù)據(jù),會得到正常數(shù)據(jù)所在的一個邊界。然后需要對模型進行測試來評價其性能。新奇檢測的具體過程如圖8所示。在對模型進行測試時,通過比較測試集中數(shù)據(jù)和邊界的位置關(guān)系判斷其異常與否。最后再通過正確率、F1-score、AUC等評估方法進行模型的評估。

    圖8 新奇檢測過程

    2.2 新奇檢測評估指標

    很多新奇檢測的評估指標都來源于混淆矩陣(confusion-matrix),混淆矩陣如表1所示。混淆矩陣分為TP、FN、FP、TN四個方面,具體含義如下:真陽性(True Positive,TP):真實值為0,預測值也為0。假陰性(False Negative,F(xiàn)N):真實值為0,預測值為1。假陽性(False Positive,F(xiàn)P):真實值為1,預測值為0。真陰性(True Negative,TN):真實值為0,預測值也為0。

    表1 混淆矩陣

    由混淆矩陣可以引申出正確率(Accuracy)、假正率(False Positive Rate,F(xiàn)PR)、真正率(True Positive Rate,TPR)的計算公式:FPR表示當前被錯誤分到正樣本類別中真實的負樣本所占所有負樣本總數(shù)的比例,TPR表示當前分到正樣本中真實的正樣本所占所有正樣本的比例,在一般的情況下,F(xiàn)PR越低越好,TPR越高越好。而ROC曲線下方面積(Area Under the Curve of ROC,AUC)則與ROC曲線有較多聯(lián)系。接收者操作特征曲線(Receiver Operating Characteristic curve,ROC)也是一個用于效果評估的指標,其橫縱坐標分別代表FPR和TPR。ROC曲線存在的一個問題是不太好進行量化比較,所以用ROC曲線下方和坐標軸之間的面積(AUC值)來進行評估結(jié)果之間的量化比較,AUC值越大的模型,其效果越好。

    2.3 算法具體性能表現(xiàn)

    這里主要是部分新奇檢測方法在經(jīng)典圖像數(shù)據(jù)上的表現(xiàn),使用的評價指標有Accuracy和AUC。新奇檢測圖像領(lǐng)域使用的經(jīng)典數(shù)據(jù)集有MNIST、Caltech-256、CIFAR-10、Coil-100等,下面是它們的簡要介紹:

    MNIST數(shù)據(jù)集是圖像分類中最常用的數(shù)據(jù)集,其中所有圖像的大小都是28×28。數(shù)據(jù)庫包含了60 000張的訓練圖像和10 000張的測試圖像,每張圖像內(nèi)容為手寫的0~9中的一個數(shù)字。

    Caltech-256數(shù)據(jù)集是一個圖像物體識別數(shù)據(jù)集,一共包含30 608張圖像,里面有256個物體類別,每類圖像最少有80張,最多不超過827張。

    CIFAR-10數(shù)據(jù)集由60 000個32×32彩色圖像組成。其包含10個類,每個類有6 000個圖像。其中訓練集中有50 000個圖像,測試集中有10 000個圖像。

    Coil-100數(shù)據(jù)集是由不同物體在360°旋轉(zhuǎn)中每隔5°成像一次組成的數(shù)據(jù)集,其含有100個物體,每個具有72個不同的姿勢,圖像大小為128×128。

    在表2中展示了各文獻中的經(jīng)典方法目前在MNIST、Caltech-256等數(shù)據(jù)集上的實驗結(jié)果,從同一方法在不同數(shù)據(jù)集上的表現(xiàn)來看,數(shù)據(jù)集的大小、圖像的復雜程度等因素都會對實際效果產(chǎn)生影響。

    MNIST數(shù)據(jù)集是非常經(jīng)典的數(shù)據(jù)集,該數(shù)據(jù)集數(shù)量較大,且圖像較小。在MNIST數(shù)據(jù)集下,使用GAN的一類新奇檢測(One Class novelty detection using GANs,OCGAN)能夠達到最佳的效果。該方法對傳統(tǒng)的GAN進行了改進,在輸入時只輸入正常點,在測試時,異常點經(jīng)過重構(gòu)后會變得像正常點,但是該結(jié)果和真正正常點重構(gòu)后的結(jié)果相比差異還是比較大,通過這種差異來發(fā)現(xiàn)異常點。對于有著多達286個類別的Caltech-256數(shù)據(jù)集,使用混合技術(shù)(Mix-up technique)的方法通過在特征空間中使用插值來訓練模型,更好地對數(shù)據(jù)進行了分離。其與基礎(chǔ)的SVM和KNDA相比,有著較高的精度提升,獲得了較好的效果。在CIFAR10數(shù)據(jù)集下,OCmst的效果大幅領(lǐng)先于其他算法,該模型使用卷積神經(jīng)網(wǎng)絡來進行深度特征提取和基于圖的生成樹來解決新奇檢測問題。而VAE和OCSVM的效果較差。原因是OCSVM本身不太適合處理大規(guī)模數(shù)據(jù)集,而VAE在對CIFAR10數(shù)據(jù)集中異常數(shù)據(jù)的重構(gòu)上,效果并不是很好,這似乎與該數(shù)據(jù)集本身難以重建有關(guān),該數(shù)據(jù)集中的圖像為彩色圖像,而非MNIST數(shù)據(jù)集中的灰度圖像。

    總的來看,目前單一的傳統(tǒng)機器學習新奇檢測方法,比如OCSVM、SVDD等在精確度上已逐漸被神經(jīng)網(wǎng)絡等新式方法超越。神經(jīng)網(wǎng)絡類方法得到了越來越多的應用,尤其在新奇檢測圖像領(lǐng)域,研究重心向著深度學習、自動編碼器等傾斜的趨勢更加明顯。

    3 總結(jié)和展望

    各類新奇檢測方法都有各自的特點:基于距離的方法通過假設距離較近的點大多屬于同一個類別來進行新奇檢測,具有易于理解、實現(xiàn)簡單的優(yōu)點;基于概率的方法是根據(jù)不同的類對應的不同概率分布來進行劃分的;基于域的方法通過設立一個正常類的邊界來找出新奇類;基于神經(jīng)網(wǎng)絡類的方法具有適合大規(guī)模數(shù)據(jù)處理的優(yōu)勢;基于子空間的方法通過對有效信息的保留,具有運算速度較快的優(yōu)點。

    表2 不同新奇檢測方法在經(jīng)典數(shù)據(jù)集上的表現(xiàn)

    表3 新奇檢測方法的優(yōu)缺點比較以及得到應用領(lǐng)域

    在表3中對文中提到的主要新奇檢測方法的優(yōu)缺點和已得到應用的領(lǐng)域進行了總結(jié)。從表中可以看出,新奇檢測方法種類較多,在工業(yè)制造、網(wǎng)絡安全、醫(yī)療、能源傳輸?shù)阮I(lǐng)域都得到了應用。表中絕大多數(shù)方法都可以處理圖像數(shù)據(jù),在萬物智能互聯(lián)的時代,圖像在計算機處理的數(shù)據(jù)類型中占的比例越來越大,比如在近年興起的自動駕駛領(lǐng)域和安防領(lǐng)域中,圖像都是最重要的信息載體。

    從表3中可以看出,OCSVM和Auto-encoder在應用廣度上較為突出,在多個領(lǐng)域得到了應用。而LSTM和Auto-encoder則能處理較多的數(shù)據(jù)類型,對數(shù)據(jù)的適應性較好。在大規(guī)模數(shù)據(jù)處理方面,NFST、KNFST都具有一定優(yōu)勢,而PCA也可以在降低數(shù)據(jù)維度后和其他方法結(jié)合,最終提高運行速度。對于時間序列類型的任務,LSTM會具有優(yōu)勢,可以對過去有效的信息進行保留。對于新奇數(shù)據(jù)較少的情況,可利用GAN生成相似的數(shù)據(jù),擴充數(shù)據(jù)集。而K-means、SVDD、KNN都是較為傳統(tǒng)的方法,結(jié)構(gòu)簡單,便于理解,這其中KNN算法的實際使用率非常低,這與它不適合大規(guī)模數(shù)據(jù),以及包容性差有關(guān)系,SVDD類的方法使用次數(shù)相對更多,它的復雜性較低,訓練速度也更快。

    每種方法都有自己的優(yōu)缺點,在進行新奇檢測方法選擇時,要充分考慮所處理數(shù)據(jù)的數(shù)據(jù)類型、數(shù)據(jù)維度、數(shù)據(jù)量大小等內(nèi)容,選擇合適的方法進行應用。

    新奇檢測在大規(guī)模數(shù)據(jù)流、在線檢測、小樣本數(shù)據(jù)集等方面仍舊面臨著挑戰(zhàn)。研究人員在努力賦予新奇檢測更加強大的能力。其中包括:

    (1)多類分類新奇檢測。隨著技術(shù)的發(fā)展,目前需要分類的類別逐漸增多,這使多類分類得到了發(fā)展。比如有時需要模型在識別出異常類的同時還能夠?qū)φn愡M行分類;有時還需要判斷新到來的點是否是訓練類中的一種。這兩種情況都是對單一二元分類的擴展。

    (2)在大數(shù)據(jù)和云計算技術(shù)的推動下,目前互聯(lián)網(wǎng)上的數(shù)據(jù)量越來越大。數(shù)據(jù)規(guī)模越大意味著更多的訓練數(shù)據(jù),對部分異常檢測算法來說會有正確率上的提升。但是另一方面當面對大規(guī)模數(shù)據(jù)時,很多常規(guī)的新奇檢測算法在時間開銷上會變得很大,這就需要新的方法,其對數(shù)據(jù)規(guī)模有較好的魯棒性,甚至是專為大數(shù)據(jù)設計的新奇檢測算法。

    (3)用于訓練的模型輸入數(shù)據(jù)需確保是正常數(shù)據(jù)。這是新奇檢測法的一個前提,如果數(shù)據(jù)有標簽,能很好地進行正負類區(qū)分,如果數(shù)據(jù)沒有標簽,則要先確定正負類的標準。訓練用的正類樣本集的質(zhì)量非常重要,直接影響到異常檢測的結(jié)果。

    (4)擴充訓練和測試用的數(shù)據(jù)集。有時面對的數(shù)據(jù)是小樣本數(shù)據(jù),訓練樣本比較少會降低模型的有效性,這時可以考慮對樣本進行擴充。常用的擴充方法是GAN,利用該模型生成相似的數(shù)據(jù)集。

    猜你喜歡
    新奇樣本圖像
    改進的LapSRN遙感圖像超分辨重建
    用樣本估計總體復習點撥
    有趣的圖像詩
    新奇的包
    新奇體驗
    海峽姐妹(2019年4期)2019-06-18 10:38:50
    推動醫(yī)改的“直銷樣本”
    新奇博物館
    隨機微分方程的樣本Lyapunov二次型估計
    村企共贏的樣本
    遙感圖像幾何糾正中GCP選取
    浦江县| 昔阳县| 古交市| 嫩江县| 开鲁县| 麻栗坡县| 华安县| 大港区| 德昌县| 印江| 扶风县| 灯塔市| 偏关县| 区。| 葫芦岛市| 龙山县| 扶沟县| 延安市| 宁河县| 景德镇市| 鸡泽县| 辉南县| 黄山市| 宜都市| 开江县| 搜索| 平罗县| 安溪县| 达孜县| 达州市| 南城县| 阿图什市| 教育| 汨罗市| 大新县| 富裕县| 辉县市| 孟村| 黄龙县| 荥阳市| 甘孜|