• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于特征正則約束的異常檢測方法

      2020-12-04 02:01:38陳洪剛王正勇何小海
      關(guān)鍵詞:概率密度特征向量編碼器

      鄧 描, 劉 強(qiáng), 陳洪剛, 王正勇, 何小海

      (四川大學(xué)電子信息學(xué)院, 成都 610065)

      1 引 言

      隨著人們安全意識增強(qiáng),視頻監(jiān)控領(lǐng)域的異常檢測引起了很多關(guān)注,逐漸成為一項(xiàng)重要且極具挑戰(zhàn)性的任務(wù)[1].因?yàn)椴煌瑘鼍跋碌哪骋恍袨楫惓5某潭炔煌?,即特定場景下的特定行為才能稱為異常,嘗試收集各種異常事件并用分類的方法解決問題幾乎是不可行的,所以考慮獲得更好的特征表示成為了解決問題的關(guān)鍵.

      相較于傳統(tǒng)的特征提取方法深度學(xué)習(xí)能夠從大量的數(shù)據(jù)中自動提取出有用的特征,目前在異常檢測領(lǐng)域取得了豐碩的成果。基于標(biāo)記信息可以分為監(jiān)督學(xué)習(xí)方法,如支持向量機(jī)(SVM)[2]、主成分分析(PCANet)[3]等;半監(jiān)督學(xué)習(xí)方法,如自動編碼器(Autoencoder)[4-5]和生成對抗網(wǎng)絡(luò)(GAN)[6]等;無監(jiān)督學(xué)習(xí)方法,如受限玻爾茲曼機(jī)(RBM),稀疏編碼器(Sparse Coding)[7-8]等.但由于異常標(biāo)簽很難獲取,標(biāo)注成本高,半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)在異常檢測中的應(yīng)用更為廣泛.自動編碼器作為一種常用的半監(jiān)督學(xué)習(xí)方法其原理也比較簡單:對于輸入樣本,首先通過編碼器將其壓縮為低維特征,然后通過解碼器對每個(gè)樣本點(diǎn)進(jìn)行重建,還原到原來的維度,整個(gè)訓(xùn)練模型的目的就是減小重構(gòu)誤差.假設(shè)輸入異常樣本會產(chǎn)生更大的誤差.傳統(tǒng)的稀疏編碼算法就使用這樣的框架,并且將正常樣本表示為幾個(gè)基本分量的組合,通過無監(jiān)督的方式學(xué)習(xí)有效的數(shù)據(jù)編碼. Luo等提出了時(shí)間相關(guān)稀疏編碼方法[9],它可以映射到SRNN中更方便地進(jìn)行參數(shù)優(yōu)化并提高了異常檢測的速度.自編碼器具有強(qiáng)大的重構(gòu)能力,但正因?yàn)檫@種能力,即使是異常樣本也能得到很好的重建,導(dǎo)致異常檢測精度下降.

      為解決上述問題,使正常樣本和異常樣本有更明顯的界限,本文提出一種新的異常檢測框架:首先,為自動編碼器添加跳線連接結(jié)構(gòu),這種使用U-Net風(fēng)格的編碼解碼網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對圖像空間細(xì)節(jié)的多尺度捕捉,并能從模型所學(xué)習(xí)的分布中產(chǎn)生高質(zhì)量的圖像.然后,用分類器網(wǎng)絡(luò)迫使自動編碼器學(xué)習(xí)改進(jìn)的分布模型并提取輸入圖像的特征,以便模型能重建出低維特征向量.最后,在自動編碼器上配備一個(gè)密度估計(jì)器,用一個(gè)自回歸過程對潛在向量的概率分布進(jìn)行正則約束.通過聯(lián)合優(yōu)化整個(gè)網(wǎng)絡(luò),模型能在重建出質(zhì)量更好的圖片的同時(shí),降低潛在特征向量表示異常的可能性.

      2 基本原理

      2.1 結(jié)構(gòu)組成

      本文采用無監(jiān)督的方式對提出的卷積網(wǎng)絡(luò)架構(gòu)進(jìn)行訓(xùn)練,輸入數(shù)據(jù)集D被分成訓(xùn)練集Dtrn和測試集Dtst.Dtrn包含m個(gè)正常樣本Dtrn={(x1,y1),(x2,y2),…,(xm,ym)},其中,yi=0表示正常類.Dtst包括n個(gè)正常和異常樣本Dtst={(x1,y1),(x2,y2),…,(xn,yn)},其中,yi=0或yi=1.通常情況下m>n.

      基于上面定義的數(shù)據(jù)集,我們將在訓(xùn)練集Dtrn上訓(xùn)練我們的模型,并在測試集Dtst上評估它的性能.訓(xùn)練目標(biāo)不僅是在圖像空間內(nèi)捕獲訓(xùn)練樣本的分布,而且還包括潛在特征向量空間.通過最小化訓(xùn)練目標(biāo)來捕獲兩個(gè)維度內(nèi)的分布,使網(wǎng)絡(luò)能夠?qū)W習(xí)正常圖像所特有的高維特征和低維特征.

      整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,分別包括編碼器EN,解碼器DE,分類器C和參數(shù)密度估計(jì)器H,損失函數(shù)將在2.2節(jié)介紹.

      自動編碼器網(wǎng)絡(luò):編碼器EN通過將輸入樣本x下采樣成低維特征z來捕獲輸入數(shù)據(jù)的分布,其過程可以表示為z=f(x),其中,x∈w×h×c;w是輸入圖像的寬度;h是輸入圖像的高度,c是輸入圖像的通道數(shù);z∈d;d是輸出特征的通道數(shù).解碼器網(wǎng)絡(luò)DE將低維特征z上采樣回到輸入圖像維度并重建輸出,表示為x′=g(z),其中,x′表示重建圖像.在文獻(xiàn)[10] 的推動下,自動編碼器采用跳線連接方式,這是一種新型的特征融合方式:拼接,使得編碼器網(wǎng)絡(luò)中的每個(gè)下采樣層被連接到通道數(shù)相同的上采樣解碼器層,形成更厚的特征層.使之能夠直接地進(jìn)行信息傳遞,保留了多尺度信息,因此能夠產(chǎn)生更好的重建.

      分類器網(wǎng)絡(luò):C的任務(wù)是對由自動編碼器生成的偽圖像x′和真實(shí)圖像x進(jìn)行分類,它采用了與文獻(xiàn)[11]中DCGAN的鑒別器類似的結(jié)構(gòu).網(wǎng)絡(luò)C還用作特征提取器,提取輸入圖像x和重建圖像x′的低維特征.

      參數(shù)密度估計(jì)器網(wǎng)絡(luò):想要提高模型區(qū)分正常和異常樣本的能力,僅僅依靠自動編碼器來縮小圖像層面對正常樣本的重建誤差是不夠的,因?yàn)樗荒鼙WC異常樣本能產(chǎn)生很大的重構(gòu)誤差,所以提出在自動編碼器上引入?yún)?shù)密度估計(jì)器H,對低維特征向量z的概率密度進(jìn)行正則化約束,正則化約束是指:找到能充分覆蓋正常模式的最小潛在特征向量空間,使異常值落在該子空間之外,以降低特征向量表示異常的可能性.假設(shè)輸入樣本x和低維特征z之間存在這樣的關(guān)系如下.

      (1)

      本文僅用正常樣本進(jìn)行訓(xùn)練,p(x)為正常樣本的分布,p(x|z)是在給定潛在向量的先驗(yàn)分布p(z)的情況下所觀察到的條件概率密度,即在已知特征向量為z的情況下輸入樣本x為正常的概率.為使低維特征z盡量不重建出異常圖片,需要找到使p(x|z)最大的特征向量z,故提出使用參數(shù)密度估計(jì)器學(xué)習(xí)特征向量的分布p(z).本文不強(qiáng)制要求特征向量服從某一分布(如高斯分布),而是通過一個(gè)自回歸過程來學(xué)習(xí)它的真實(shí)分布.自回歸模型為涉及順序預(yù)測的任務(wù)提供了通用表述,即每個(gè)輸出都取決于先前的觀察結(jié)果,本文采用這種技術(shù)來分解聯(lián)合概率密度,分布情況如下.

      (2)

      其中,我們把p(z)分解成d個(gè)條件概率密度的乘積,并且每個(gè)zi的條件概率密度是根據(jù)它之前出現(xiàn)的{z1,...,zi-1}的概率密度計(jì)算得出的,其中,<表示一種順序結(jié)構(gòu).在實(shí)驗(yàn)中,每個(gè)條件概率密度p(zi|z

      (3)

      其中,類型A強(qiáng)制嚴(yán)格依賴于先前的元素(并且僅用作第一個(gè)估計(jì)層),而類型B僅屏蔽后續(xù)元素.假設(shè)每個(gè)條件概率密度被建模為多項(xiàng)式,則最后一個(gè)自回歸層的輸出(在d×B中)提供構(gòu)成空間量化的B個(gè)通道的概率估計(jì).

      (4)

      式中,⊥表示將d個(gè)多項(xiàng)式拼接起來,得到分布參數(shù),進(jìn)而推斷出概率分布q(z).

      圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram

      2.2 損失定義

      本文結(jié)合了4個(gè)損失值期望模型能夠重建出更高質(zhì)量的圖片,并且能在潛在向量空間學(xué)習(xí)到異常性,從而區(qū)分正常樣本和異常樣本.

      (1) 分類損失:式(5)中所示的該損失確保網(wǎng)絡(luò)EN和DE盡可能逼真地重建正常圖像x至x′,而分類器網(wǎng)絡(luò)C對樣本進(jìn)行分類得到C(x)和C(x′).分類損失的期望表示為

      (5)

      (2) 重建損失:為明確地學(xué)習(xí)表觀特征以充分捕獲輸入數(shù)據(jù)分布,我們將1-范數(shù)正則化應(yīng)用于輸入x和重構(gòu)輸出x′.這種正則化確保模型能生成與輸入樣本類似的圖像.重建損失的期望如下.

      (6)

      (3) 特征損失:分類器C除了對樣本進(jìn)行分類還提取x和x′的特征得到f(x)和f(x′).因此,特征向量的損失期望為

      (7)

      (4) 密度估計(jì)損失:估計(jì)器用一種自回歸的方式獲取真實(shí)分布p(z)的參數(shù)模型,得到近似分布q(z).為了確保它和真實(shí)分布之間的信息差距很小,從而降低特征向量表示異常的可能性,用Lde來表示真實(shí)分布與擬合分布的KL散度,定義為

      Lde=DKL(p(z)‖q(z))

      (8)

      最終,總損失定義為

      L=λclaLcla+λintLint+λfeaLfea+λdeLde

      (9)

      其中,λcla、λint、λfea和λde是權(quán)重參數(shù).

      2.3 異常分?jǐn)?shù)定義

      對于異常性的評估是通過計(jì)算異常分?jǐn)?shù),假設(shè)正常樣本的異常分?jǐn)?shù)小,異常樣本的分?jǐn)?shù)更高.因此,對于給定樣本x,它的異常分?jǐn)?shù)s(x)定義為

      s(x)=αI(x)+γV(x)

      (10)

      其中,I(x)和V(x)分別表示給定樣本和特征向量的重建分?jǐn)?shù);α和γ是他們的權(quán)重.最后將整個(gè)測試集中所有圖像的異常分?jǐn)?shù)歸一化到[0,1]范圍,并使用以下等式計(jì)算每個(gè)測試樣本的異常分?jǐn)?shù)As(x)為

      (11)

      3 分析與討論

      為評估本文的異常檢測模型,我們使用兩種類型的數(shù)據(jù)集.CIFAR-10:該數(shù)據(jù)集共有6×104張彩色圖像,這些圖像是32×32像素,標(biāo)簽包含10個(gè)類別(飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車)每類6×103張圖.本文選取其中一類視作異常,其他為正常,根據(jù)選取異常類別的不同總共有10種情況(如圖4,每一列代表一種異常類別),每種情況都有4.5×104個(gè)正常訓(xùn)練樣本,9×103個(gè)正常測試樣本,6×103個(gè)異常測試樣本.UCSD Ped2:該數(shù)據(jù)集由加州大學(xué)圣地亞哥分校創(chuàng)建,通過安裝在一定高度、俯視人行道的攝像機(jī)來采集自然狀態(tài)下發(fā)生的異常行為,主要針對人群中個(gè)體行為的識別研究,是一個(gè)被廣泛認(rèn)可及應(yīng)用的視頻異常檢測數(shù)據(jù)集,它的異常情況包括:開車、騎自行車、滑冰等,其中包含有16個(gè)訓(xùn)練圖像序列以及12個(gè)測試圖像序列,圖像大小均為360×240像素.

      實(shí)驗(yàn)平臺為:Ubuntu 16. 04. 5,Nvidia GTX 1080 Ti GPU,Intel(R) Xeon(R) CPUE5-2686.深度學(xué)習(xí)框架是Pytorch0.3.CIFAR-10的原尺寸32×32,UCSD Ped2的尺寸批量修改為256×256.通過Adam優(yōu)化器優(yōu)化訓(xùn)練目標(biāo),初始學(xué)習(xí)速率lr=2×10-4,具有權(quán)重衰減,動量β1=0.5,β2=0.999.實(shí)驗(yàn)表明,總損失的加權(quán)參數(shù)為λcla=1,λint=40,λfea=1,λde=1時(shí)模型性能最佳.在對CIFAR-10進(jìn)行訓(xùn)練時(shí),最初設(shè)定訓(xùn)練15個(gè)epoch,UCSD Ped2訓(xùn)練100個(gè)epoch.但在大多數(shù)情況下,它們在較少的訓(xùn)練周期內(nèi)能夠?qū)W習(xí)足夠的信息.因此,當(dāng)模型的性能開始下降時(shí),我們保存網(wǎng)絡(luò)的參數(shù),防止其出現(xiàn)過擬合的情況.

      模型性能由接受者操作特征曲線(Receiver Operating Characteristic Curve, ROC)和曲線下面積(Area Under Curve,AUC)評估,該函數(shù)由真實(shí)陽性率(True Positive Rate, TPR)和假陽性率(False Positive Rate, FPR)繪制.表1可看出本文的算法在CIFAR-10數(shù)據(jù)集的Cat,Deer,Dog,F(xiàn)rog,Plane,Ship類別上的表現(xiàn)都高于其他算法.

      表1 CIFAR-10數(shù)據(jù)集的AUC結(jié)果

      從表2可知,本文提出的算法與當(dāng)前的流行算法相比具有高的準(zhǔn)確率.

      圖2是測試數(shù)據(jù)的正常和異常分?jǐn)?shù)的柱狀圖,其中,藍(lán)色區(qū)域代表樣本為正常時(shí)分?jǐn)?shù)的分布情況,黃色區(qū)域代表樣本為異常時(shí)分?jǐn)?shù)的分布.通過對這些數(shù)據(jù)的仔細(xì)觀察發(fā)現(xiàn),該模型在輸出異常分?jǐn)?shù)上產(chǎn)生了明顯的分離.

      表2 UCSD Ped2數(shù)據(jù)集的AUC結(jié)果

      圖2 UCSD Ped2數(shù)據(jù)集的異常分?jǐn)?shù)直方圖

      圖3是各個(gè)損失的ROC曲線圖,黃色曲線代表僅存在分類損失時(shí)的ROC曲線;綠色曲線表示分類損失和重建損失一起存在時(shí)的ROC曲線;藍(lán)色曲線是分類損失,重建損失和特征損失同時(shí)存在時(shí)的檢測效果;最后加上密度估計(jì)損失后的檢測效果由紅色曲線來體現(xiàn).由圖可知隨著各個(gè)損失的添加,檢測效果有了明顯的提升,證明添加的每個(gè)損失都起到了相應(yīng)的作用.

      圖3 各個(gè)損失的ROC曲線圖Fig.3 ROC of each loss

      圖4 CIFAR-10輸入樣本和輸出樣本,每一列分別代表一種類別(鳥、汽車、貓、鹿、狗、青蛙、馬、飛機(jī)、船、卡車)

      圖4和圖5分別是CIFAR-10的測試集和UCSD Ped2的測試集輸入模型后生成的圖像.從外觀上來看,生成圖像和輸入的圖像具有很高的相似度,從圖5可以看到,異常樣本也能得到一定程度的重建,這是使用自動編碼器生成圖片的普遍問題,但是,如2.3節(jié)所示,異常分?jǐn)?shù)能夠在特征向量空間體現(xiàn).

      圖6上面一排是CIFAR-10數(shù)據(jù)集的輸入、文獻(xiàn)[6] 的重建輸出以及本文的重建輸出,將紅框圈中的船這一類別作為異常類別,其余類別的圖像作為正常.可以看出除異常類別的圖片外其他圖片的重建效果都比文獻(xiàn)[6] 的效果好.下面一排是UCSD Ped2數(shù)據(jù)集的輸入、文獻(xiàn)[16] 以及本文的重建輸出,紅框圈中的地方是異常(自行車)出現(xiàn)的地方,可以看出本文的總體重建效果要優(yōu)于文獻(xiàn)[16] ,但異常部分(自行車)人能夠部分重建.這是由于自動編碼器極強(qiáng)的重建能力.

      圖5 UCSD Ped2輸入樣本和輸出樣本,騎自行車和汽車表示異常

      圖6 CIFAR-10數(shù)據(jù)集(上排)輸入樣本、文獻(xiàn)[6] 的重建樣本以及本文的重建樣本,UCSD Ped2數(shù)據(jù)集(下排)輸入樣本、文獻(xiàn)[16] 的重建樣本以及本文的重建樣本

      4 結(jié) 論

      本文提出了一個(gè)新穎的異常檢測框架,在傳統(tǒng)自動編碼器上結(jié)合跳線結(jié)構(gòu)使模型能對樣本細(xì)節(jié)進(jìn)行捕捉,并引入了自回歸密度估計(jì)器通過最大似然原理約束潛在特征向量的分布,一方面提高了模型的重建能力,另一方面使它能夠在樣本的潛在向量空間捕獲到異常.CIFAR-10和UCSD Ped2兩個(gè)數(shù)據(jù)集上的AUC測試結(jié)果表明,該方法能夠提升異常檢測的效果,并在一定程度上優(yōu)于現(xiàn)有方法,證明了本文的異常檢測模型的有效性.

      猜你喜歡
      概率密度特征向量編碼器
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      連續(xù)型隨機(jī)變量函數(shù)的概率密度公式
      基于FPGA的同步機(jī)軸角編碼器
      一類特殊矩陣特征向量的求法
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      Hunt過程在Girsanov變換下的轉(zhuǎn)移概率密度的表示公式
      隨機(jī)變量線性組合的分布的一個(gè)算法
      东乡族自治县| 九江县| 彭泽县| 凤山县| 乐业县| 呼图壁县| 鄯善县| 手游| 罗城| 仪征市| 嘉鱼县| 廉江市| 怀安县| 永昌县| 章丘市| 永修县| 石阡县| 荃湾区| 丹凤县| 淳安县| 南阳市| 皋兰县| 天等县| 衡山县| 广州市| 铁岭县| 沭阳县| 徐汇区| 平原县| 太白县| 长武县| 张家港市| 常宁市| 淳安县| 巧家县| 赤城县| 临高县| 曲松县| 镇平县| 利津县| 昌都县|