彭 旭,饒 元,喬 焰
(1 安徽農(nóng)業(yè)大學(xué) 信息與計算機(jī)學(xué)院,安徽 合肥 230036; 2 合肥工業(yè)大學(xué) 計算機(jī)與信息學(xué)院,安徽 合肥 230001)
精準(zhǔn)農(nóng)業(yè)是推動農(nóng)業(yè)現(xiàn)代化與信息化發(fā)展的關(guān)鍵,其重要的農(nóng)情數(shù)據(jù)采集階段離不開農(nóng)業(yè)物聯(lián)網(wǎng) (Internet of things in agriculture)的支持[1]?,F(xiàn)階段,農(nóng)業(yè)物聯(lián)網(wǎng)已在農(nóng)業(yè)生產(chǎn)中得到廣泛應(yīng)用,復(fù)雜的傳感器網(wǎng)絡(luò)按時間序列連續(xù)地采集溫度、濕度、CO2和NH3濃度等大量的環(huán)境及作物生長信息。分析和評估采集的信息可為農(nóng)業(yè)精準(zhǔn)決策提供保障。因此,農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)的有效挖掘和利用已成為農(nóng)業(yè)信息化領(lǐng)域的研究熱點(diǎn)[2-3]。然而,由于農(nóng)業(yè)作業(yè)環(huán)境往往較為惡劣,且受制造工藝和網(wǎng)絡(luò)傳輸?shù)南拗?,?dǎo)致采集到的數(shù)據(jù)中不可避免地存在異常[4],這些異??赡芨蓴_數(shù)據(jù)分析并影響農(nóng)業(yè)精準(zhǔn)決策。
費(fèi)歡等[5]以傳感器網(wǎng)絡(luò)多模態(tài)數(shù)據(jù)流之間的相干性為理論基礎(chǔ),利用多維數(shù)據(jù)和滑動窗口模型對異常數(shù)據(jù)及其來源進(jìn)行檢測和評估。Zhao等[6]提出一種基于多分類器集成的漂移補(bǔ)償監(jiān)督學(xué)習(xí)算法,利用支持向量機(jī) (Support vector machine,SVM)和改進(jìn)的長短期記憶 (Long short term memory,LSTM)構(gòu)建多分類器模型,通過歸一化和加權(quán)策略,在每次分類過程中去除精確度最低的基分類器,使模型適應(yīng)傳感器漂移,有效地提高了傳感器漂移分類性能。Wang等[7]利用傳感器之間的數(shù)據(jù)相關(guān)性,使用信號空間投影和卡爾曼濾波器實(shí)現(xiàn)傳感器漂移的盲校準(zhǔn)。高鵬等[8]利用LSTM和廣義回歸神經(jīng)網(wǎng)絡(luò) (Generalized regression neural network,GRNN)模型對土壤墑情進(jìn)行建模,實(shí)現(xiàn)對柑橘土壤含水量和土壤電導(dǎo)率的預(yù)測。
在傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)中,需要用多種信號處理算法檢測數(shù)據(jù)流中的異常,導(dǎo)致效率較低,在數(shù)據(jù)分析過程中易出現(xiàn)過擬合或欠擬合現(xiàn)象。此外,大多數(shù)據(jù)異常檢測算法泛化能力較弱,不適用于其他類型的異常檢測。文獻(xiàn)[6]中采用SVM和LSTM的結(jié)合模型,獲得了理想精確度,但增加了時間復(fù)雜度。文獻(xiàn)[7]所提信號空間投影和卡爾曼濾波器方法,利用傳感器之間的相關(guān)性解決傳感器漂移問題,但傳感器難以密集部署,模型應(yīng)用場景狹小、泛化能力較弱。
近年來,隨著硬件計算能力的顯著提升,人工智能(Artificial intelligence)和深度學(xué)習(xí)(Deep learning)技術(shù)已廣泛應(yīng)用于圖像識別[9]、自然語言處理[10]、推薦系統(tǒng)[11]和音頻識別[12]領(lǐng)域。深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)在傳感器數(shù)據(jù)異常檢測領(lǐng)域也得到廣泛應(yīng)用,Bao等[13]提出了一種基于計算機(jī)視覺和深度學(xué)習(xí)的傳感器數(shù)據(jù)異常檢測方法,該方法將時間序列信號轉(zhuǎn)換為圖像并保存在灰度圖像中,通過訓(xùn)練兩隱藏層堆疊的自動編碼深度神經(jīng)網(wǎng)絡(luò)來自動檢測未標(biāo)簽的數(shù)據(jù)。Tang等[14]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的傳感器數(shù)據(jù)異常檢測方法,在圖片中融合數(shù)據(jù)的時域和頻域特征,并采用卷積神經(jīng)網(wǎng)絡(luò)對圖片進(jìn)行分類,但時域和頻域可視化方法無法保存數(shù)據(jù)的時間數(shù)值依賴性。Liu等[15]提出一種動態(tài)寬度增量學(xué)習(xí)算法,通過深度疊加寬度學(xué)習(xí)系統(tǒng),解決數(shù)據(jù)回歸和圖像分類問題,但在數(shù)據(jù)預(yù)處理中,未采用有效方法增強(qiáng)數(shù)據(jù)時間依賴性。Wang等[16]提出一種格拉姆角求和域/差分域和馬爾科夫過渡域的時間序列數(shù)據(jù)可視化方法,并采用平鋪卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征,實(shí)現(xiàn)時間序列數(shù)據(jù)分類,但當(dāng)原始時間序列過長時,重構(gòu)后的矩陣規(guī)模大,增加了運(yùn)算時間消耗。
針對以上研究現(xiàn)狀,本文設(shè)計了一種寬度卷積神經(jīng)網(wǎng)絡(luò) (Broad convolution neural network,BCNN)的農(nóng)情數(shù)據(jù)異常檢測方法,并通過滑動窗口機(jī)制解決單次輸入模型數(shù)據(jù)量大引起的模型檢測耗時長和準(zhǔn)確率不足等問題。研究數(shù)據(jù)預(yù)處理與重構(gòu)方法、滑動窗口尺寸對異常檢測性能的影響,對比分析不同異常檢測模型的性能差異,以期為精準(zhǔn)農(nóng)業(yè)的數(shù)據(jù)高質(zhì)量采集提供參考。
試驗(yàn)數(shù)據(jù)采用位于安徽省長豐縣雙墩鎮(zhèn)的合肥安谷農(nóng)業(yè)有限公司羊圈監(jiān)測點(diǎn)傳感器的空氣濕度、空氣溫度、土壤濕度和土壤溫度數(shù)據(jù),時間覆蓋范圍從2019年12月1日至2019年12月31日,采樣間隔3 min,共11 355條觀測數(shù)據(jù)。為便于開展檢測性能對比分析,在數(shù)據(jù)中引入一組隨機(jī)故障率(10%~40%)的異常點(diǎn)[17]。為系統(tǒng)評估所提方法的性能,采用80%的數(shù)據(jù)集作為訓(xùn)練集、20%的數(shù)據(jù)集作為測試集。數(shù)據(jù)集如圖1所示,4種數(shù)據(jù)的周期性和趨勢特征存在差異??諝鉂穸葦?shù)據(jù)值域波動較大,周期性特征不明顯??諝鉁囟葦?shù)據(jù)呈周期性變化,波動較小。土壤濕度數(shù)據(jù)具有明顯的周期性特征,值域范圍較小。土壤溫度數(shù)據(jù)周期性特征與空氣溫度數(shù)據(jù)相似,且值域波動更小。
圖1 試驗(yàn)數(shù)據(jù)集Fig.1 Experimental dataset
基于寬度學(xué)習(xí)的農(nóng)情數(shù)據(jù)異常檢測框架圖如圖2所示。傳感器端負(fù)責(zé)采集數(shù)據(jù)并發(fā)送至數(shù)據(jù)中心,數(shù)據(jù)中心負(fù)責(zé)存儲數(shù)據(jù)、訓(xùn)練模型和異常檢測。模型訓(xùn)練過程如下:部署傳感器并采集數(shù)據(jù),將數(shù)據(jù)歸一化,基于數(shù)據(jù)周期和采樣間隔等參數(shù)確定滑動窗口尺寸l,編碼為極坐標(biāo)表示,并基于滑動窗口尺寸l劃分子集,采用格拉姆角求和域(Gramian summation angular field,GASF)方法重構(gòu)為矩陣,最后訓(xùn)練得到BCNN數(shù)據(jù)異常檢測模型。
圖2 基于BCNN的傳感器數(shù)據(jù)異常檢測框架Fig.2 Anomaly detection framework of sensor data based on BCNN
在異常數(shù)據(jù)實(shí)時檢測過程中,數(shù)據(jù)中心對采集的最新數(shù)據(jù)進(jìn)行歸一化處理,編碼為極坐標(biāo)并重構(gòu)矩陣,最后輸入模型檢測異常。若模型判斷為正常,則將其保存為歷史數(shù)據(jù),否則,校準(zhǔn)異常并保存。校準(zhǔn)異常可采用回歸模型預(yù)測、均值替換等方法[18]。
設(shè)傳感器節(jié)點(diǎn)在某時刻共采集到n個時間序列數(shù)據(jù)X={x1,x2,···,xn},為降低采樣數(shù)據(jù)取值范圍對模型訓(xùn)練效果的影響,將數(shù)據(jù)歸一化至[-1,1]區(qū)間內(nèi),表示為:
式中,xi表示原始時間序列數(shù)據(jù),X'表示歸一化后的時間序列數(shù)據(jù),Xmax和Xmin分別表示原始時間序列中的最大值和最小值,表示歸一化后的數(shù)據(jù)。歸一化將原始數(shù)據(jù)映射至[-1,1]區(qū)間內(nèi),將有量綱數(shù)據(jù)轉(zhuǎn)化為無量綱形式,降低不同量綱對模型的影響,并保留原始數(shù)據(jù)特征,使不同的數(shù)據(jù)集處于相同數(shù)量級,便于對比分析。
模型處理一維時間序列時,無法有效保持?jǐn)?shù)據(jù)周期性時間依賴,無法有效提取部分?jǐn)?shù)據(jù)之間的相關(guān)性,且對于具有不同周期的時間序列數(shù)據(jù),模型泛化能力較差。為此,本文通過將時間序列數(shù)據(jù)編碼為極坐標(biāo)并重構(gòu)為矩陣,實(shí)現(xiàn)模型對時間序列數(shù)據(jù)時間依賴性的保持和泛化性的增強(qiáng)。
具體的,將歸一化后的數(shù)據(jù)編碼為極坐標(biāo)[16],時間序列數(shù)據(jù)的數(shù)值和時間戳分別編碼為極角和極徑,表示為:
式中,ti表示時間序列數(shù)據(jù)的時間戳,n表示時間序列數(shù)據(jù)數(shù)量,θ和r分別表示編碼后數(shù)據(jù)的極徑和極角?;跇O坐標(biāo)的編碼方法是預(yù)處理和分析時間序列數(shù)據(jù)的一種新方法。反余弦函數(shù)在[-1,1]區(qū)間內(nèi)是單調(diào)的,因此,式(2)在時間序列數(shù)據(jù)和極坐標(biāo)之間構(gòu)建了一個雙射。給定一組時間序列數(shù)據(jù),可產(chǎn)生唯一的映射關(guān)系,且相對笛卡爾坐標(biāo)系,極坐標(biāo)可保留絕對時間關(guān)系。
滑動窗口控制單次輸入模型的數(shù)據(jù)量,是影響異常檢測模型性能的重要參數(shù),選取合適的滑動窗口尺寸可有效提高模型準(zhǔn)確率和降低時間消耗。本文設(shè)計了基于數(shù)據(jù)特征的滑動窗口尺寸l的計算方法:
式中,β為支持度衰減因子,Δt為農(nóng)業(yè)物聯(lián)網(wǎng)傳感器數(shù)據(jù)采樣間隔,T為農(nóng)情數(shù)據(jù)特征周期,S為農(nóng)情數(shù)據(jù)的標(biāo)準(zhǔn)差?;瑒哟翱诔叽鐚δP蜏?zhǔn)確率和效率存在影響,窗口尺寸過大會增加模型檢測耗時,過小則會導(dǎo)致模型無法有效提取數(shù)據(jù)特征,從而降低準(zhǔn)確率。式中T/Δt控制滑動窗口選擇函數(shù)上升幅度和衰減速度,Δt/β+lnS平衡采樣間隔和數(shù)據(jù)特征的影響,可滿足模型異常檢測準(zhǔn)確率和效率需求。
根據(jù)滑動窗口尺寸l,將編碼后的數(shù)據(jù)分為若干個子集并將每個子集數(shù)據(jù)采用GASF方法重構(gòu)為矩陣,采用類熱力圖形式可視化:
式中,G為重構(gòu)后的矩陣,為編碼為極坐標(biāo)并劃分子集后的數(shù)據(jù)。
通過式(2)將歸一化后的數(shù)據(jù)編碼為極坐標(biāo),采用式(3)重構(gòu)為矩陣。時間序列數(shù)據(jù)編碼為極坐標(biāo)后仍保留數(shù)據(jù)連續(xù)性,重構(gòu)后的矩陣隨著位置的變化,時間會增加,可有效保存時間依賴性。此外,矩陣也包含了時間相關(guān)性,其中的Gi,j元素疊加了原始數(shù)據(jù)中第i和第j個數(shù)據(jù)相關(guān)性,主對角線包含了原始數(shù)據(jù)信息。因此,可采用神經(jīng)網(wǎng)絡(luò)提取高維數(shù)據(jù)特征。
為展示完整的數(shù)據(jù)預(yù)處理方法,以土壤濕度數(shù)據(jù)為例,完整流程如圖3所示。首先,采用式(1)將原始土壤濕度數(shù)據(jù)歸一化至[-1,1]區(qū)間內(nèi),并通過式(2)編碼為極坐標(biāo)表示(圖3B),極坐標(biāo)數(shù)據(jù)保留時間依賴性,原始異常數(shù)據(jù)在極坐標(biāo)系中仍存在離群特征(即極坐標(biāo)圖中存在顯著的異常點(diǎn)),接著,采用式(3)將極坐標(biāo)數(shù)據(jù)劃分子集,并通過式(4)重構(gòu)矩陣。圖3C展示了部分矩陣,異常數(shù)據(jù)可在GASF矩陣中顯著表示,矩陣中出現(xiàn)顏色突變即表示該點(diǎn)數(shù)據(jù)存在異常,如矩陣1、2、5、6和7,矩陣中顏色連續(xù)變化即表示無異常,如矩陣3、4和8。預(yù)處理后的數(shù)據(jù)特征更為顯著,可采用模型更有效地檢測異常數(shù)據(jù)。
圖3 土壤濕度數(shù)據(jù)預(yù)處理流程Fig.3 Soil humidity data preprocessing process
設(shè)計的寬度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。模型采用寬度學(xué)習(xí)系統(tǒng)強(qiáng)化傳統(tǒng)CNN模型[19]。BCNN的第1層(Layer 1)是輸入層,輸入矩陣維度為k×k,其中k表示滑動窗口尺寸。第2層(Layer 2)是卷積層,其中卷積核(Filter)數(shù)量為20,每個卷積核尺寸為41×41,步長(Stride)為1,采用Relu激活函數(shù)。第3層(Layer 3)是Reduction層,其中包含1個池化模塊和2個卷積模塊,該層采用殘差連接。池化模塊中,池大小 (Pool size)為 3×3,步長為 3,池化方式為最大池化(Maxpooling)。卷積模塊中,第1層卷積采用1×1的卷積核,第2層卷積采用20個3×3大小的卷積核,步長為3。卷積模塊和池化模塊輸出的特征圖按其深度連接,并采用Relu函數(shù)激活,被平坦化為一維向量輸入寬度學(xué)習(xí)系統(tǒng)。第4層(Layer 4)采用特征提取器代替?zhèn)鹘y(tǒng)CNN模型中的Softmax分類器,其中包含1 000個特征節(jié)點(diǎn)。第5層(Layer 5)為特征增強(qiáng)器,其中包含1 000個特征增強(qiáng)節(jié)點(diǎn),第4層中特征提取器的輸出被特征增強(qiáng)器隨機(jī)映射輸出。最后將特征提取器和特征強(qiáng)化器的輸出連接,并加權(quán)重構(gòu),得到整個模型的輸出。
圖4 寬度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The structure of broad convolution neural network
卷積可通過連續(xù)地變換提取數(shù)據(jù)的復(fù)雜特征。在卷積層中,利用卷積核對輸入數(shù)據(jù)進(jìn)行卷積:
池化是一種降采樣形式。它將圖像劃分為若干個區(qū)域,每個區(qū)域獨(dú)立地按池化方式輸出,減小了數(shù)據(jù)空間大小,參數(shù)數(shù)量和模型計算量也隨之下降,在一定程度上防止過擬合的發(fā)生。本文采用最大池化方式,表示為:
寬度學(xué)習(xí)系統(tǒng)[15]是一種通過隨機(jī)方法將特征擴(kuò)展到廣闊空間的模型,其主要由特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn)組成。特征節(jié)點(diǎn)將輸入隨機(jī)映射,映射特征由增強(qiáng)節(jié)點(diǎn)隨機(jī)擴(kuò)展,將最后所有特征加權(quán)連接輸出。
殘差層的輸出被平坦化為一維向量X并輸入至特征節(jié)點(diǎn),其表示為:
式中,權(quán)重矩陣Wzi和偏置矩陣 βzi隨機(jī)生成, φ ()表示激活函數(shù),Zi表示第i個特征節(jié)點(diǎn)的輸出,所有特征節(jié)點(diǎn)的集合記為其中n為特征節(jié)點(diǎn)數(shù)量。類似的,特征增強(qiáng)節(jié)點(diǎn)可表示為:
式中,權(quán)重矩陣Whj和偏置矩陣 βhj隨機(jī)生成, ξ ()表示激活函數(shù),Hj表示第j個特征增強(qiáng)節(jié)點(diǎn)的輸出,所有特征節(jié)點(diǎn)的集合記為其中m為特征增強(qiáng)節(jié)點(diǎn)數(shù)量。
將特征節(jié)點(diǎn)和特征增強(qiáng)節(jié)點(diǎn)連接加權(quán)重構(gòu),輸出可表示為:
式中,權(quán)重矩陣W可通過偽逆法求解,可表示為:
式中,A表示特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn)輸出組合成的擴(kuò)展矩陣,λ表示對權(quán)重矩陣W的約束,I表示單位矩陣,AT表示轉(zhuǎn)置矩陣。
本文采用準(zhǔn)確率(Accuracy)、F1值和模型檢測時間(Time)等指標(biāo)評估模型的異常檢測性能,其表示為:
式中,Tp表示正確分類至目標(biāo)類的數(shù)量,F(xiàn)p表示其他類錯誤分類至目標(biāo)類的數(shù)量,Tn表示其他類正確分類的數(shù)量,F(xiàn)n表示目標(biāo)類錯誤分類至其他類的數(shù)量。
準(zhǔn)確率是正確分類的數(shù)據(jù)與數(shù)據(jù)集數(shù)據(jù)總量的比值,反映模型的正確檢測能力。精確度(Precision)和召回率(Recall)分別是正確分類為異常數(shù)據(jù)的個數(shù)與所有分類的異常數(shù)據(jù)、實(shí)際異常數(shù)據(jù)的比值。F1值同時兼顧了精確度和召回率。除異常檢測能力外,模型檢測時間也是評估模型是否符合實(shí)際應(yīng)用的重要參數(shù)。
試驗(yàn)采用 Windows 10 操作系統(tǒng)、Intel Core i5 CPU、8GB內(nèi)存的臺式計算機(jī),Python3.6編程語言和Tensor Flow2.0.0框架用于異常檢測模型搭建和應(yīng)用。主要研究滑動窗口尺寸對模型異常檢測性能的影響及模型對不同特征數(shù)據(jù)的異常檢測靈敏性,以甄選最優(yōu)的異常檢測方法。在此基礎(chǔ)上,對比分析不同異常檢測模型性能。
試驗(yàn)將BCNN與當(dāng)前使用較為廣泛的SVM、隨機(jī)森林(Random forest,RF)和卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行比較。SVM模型[20-21]核函數(shù)采用徑向基函數(shù)(Radial basis function,RBF),核函數(shù)參數(shù)ε為 0.2,正則化參數(shù)C為1;RF模型[22]聚類數(shù)c=2,模糊程度系數(shù)m=3,卷積神經(jīng)網(wǎng)絡(luò)方法從文獻(xiàn)[14]中引用。BCNN模型的特征節(jié)點(diǎn)和特征增強(qiáng)節(jié)點(diǎn)數(shù)量均為1 000。對于滑動窗口,傳感器監(jiān)測數(shù)據(jù)特征周期T為24 h,支持度衰減因子β取0.5[23],采樣間隔Δt為3 min,空氣濕度、空氣溫度、土壤濕度和土壤溫度的滑動窗口尺寸分別為105、88、76和91。為控制模型參數(shù)隨機(jī)初始化和訓(xùn)練引起的隨機(jī)性,重復(fù)5次試驗(yàn),以平均數(shù)進(jìn)行結(jié)果分析。
為評估所提滑動窗口選擇方法的有效性,以BCNN模型為例,采用窗口尺寸60~120的數(shù)據(jù)集進(jìn)行試驗(yàn),結(jié)果如圖5所示??諝鉂穸葦?shù)據(jù)集中,異常檢測準(zhǔn)確率在窗口尺寸[60,100]區(qū)間內(nèi)呈上升趨勢,在窗口尺寸100時達(dá)到峰值;空氣溫度數(shù)據(jù)集中,窗口尺寸在[60,90]區(qū)間時,異常檢測準(zhǔn)確率隨窗口尺寸增大而增加,窗口尺寸在90時準(zhǔn)確率表現(xiàn)最佳,窗口尺寸大于90時準(zhǔn)確率無顯著變化;土壤濕度數(shù)據(jù)集中,在窗口尺寸[60,70]區(qū)間內(nèi)準(zhǔn)確率呈增加趨勢,在[70,120]區(qū)間內(nèi)準(zhǔn)確率趨于穩(wěn)定;土壤溫度數(shù)據(jù)集中,在窗口尺寸[90,100]時準(zhǔn)確率最高。值得注意的是,土壤濕度數(shù)據(jù)集呈最高準(zhǔn)確率的窗口尺寸遠(yuǎn)小于其他數(shù)據(jù)集,這是由于其數(shù)據(jù)波動不顯著,模型僅需少量數(shù)據(jù)即可學(xué)習(xí)其特征。試驗(yàn)所得出的最佳滑動窗口尺寸,與式(3)得出的窗口尺寸基本相符。因此,基于數(shù)據(jù)特征的滑動窗口選擇方法可有效地提高模型異常檢測準(zhǔn)確率。
圖5 不同滑動窗口尺寸與數(shù)據(jù)集的異常檢測準(zhǔn)確率Fig.5 Anomaly detection accuracy of different sliding window sizes and datasets
模型檢測耗時隨滑動窗口尺寸變化如圖6所示??諝鉂穸葦?shù)據(jù)集中,滑動窗口尺寸在[90,100]區(qū)間時,檢測耗時最短??諝鉁囟葦?shù)據(jù)集中,在窗口尺寸[80,100]區(qū)間時檢測耗時最短,處于理想狀態(tài)。土壤濕度數(shù)據(jù)集中,當(dāng)窗口尺寸變化時,模型檢測耗時變化不明顯,窗口尺寸80左右時檢測耗時最短。土壤溫度數(shù)據(jù)集中,在窗口尺寸[80,90]區(qū)間內(nèi),檢測耗時較短,處于理想水平,其中窗口尺寸90時最優(yōu)??傮w上,窗口尺寸和檢測耗時呈二次相關(guān)。波動性較強(qiáng)的數(shù)據(jù)(如空氣濕度),窗口尺寸變化時,檢測耗時波動更大;而波動小、較為平穩(wěn)的數(shù)據(jù)(如土壤濕度),改變滑動窗口尺寸對檢測耗時影響較小。
圖6 不同滑動窗口尺寸與數(shù)據(jù)集的模型檢測耗時Fig.6 Anomaly detection time of different sliding window sizes and datasets
綜上,采用滑動窗口機(jī)制后,可提升模型對異常數(shù)據(jù)的檢測能力,針對不同特征數(shù)據(jù)選取合適的滑動窗口尺寸,可提升異常檢測準(zhǔn)確率和降低檢測耗時。
對比分析SVM、RF、CNN和BCNN模型的數(shù)據(jù)異常檢測性能,各種模型的異常檢測準(zhǔn)確率和F1值如圖7所示。BCNN模型在空氣濕度、空氣溫度、土壤濕度和土壤溫度數(shù)據(jù)集上均表現(xiàn)出良好的異常檢測性能,準(zhǔn)確率均在97%以上,其中空氣濕度數(shù)據(jù)集的準(zhǔn)確率最高,達(dá)到99.29%,優(yōu)于SVM、RF和CNN的95.68%、94.67%和93.31%。相較于CNN模型,BCNN模型在空氣濕度、空氣溫度、土壤濕度和土壤溫度數(shù)據(jù)集上準(zhǔn)確率分別提升了5.98%、1.48%、2.19%和2.55%;相較于SVM和RF模型,BCNN模型在空氣濕度數(shù)據(jù)集上的準(zhǔn)確率與二者差異最為明顯,分別高出3.61%和4.62%。由圖1可知,空氣濕度數(shù)據(jù)波動性較大,周期性特征弱于其他數(shù)據(jù)集,故BCNN在處理波動性大的數(shù)據(jù)時性能更佳。BCNN模型在空氣濕度、空氣溫度、土壤濕度和土壤溫度數(shù)據(jù)集上的F1值分別為:0.996 4、0.988 7、0.994 9 和 0.992 0,均優(yōu)于其他模型。空氣溫度數(shù)據(jù)集中,4種模型的F1值差值較小,均小于0.007 6。在波動性較大的空氣濕度數(shù)據(jù)集中,BCNN模型的F1值達(dá)到0.996 4,分別優(yōu)于SVM、RF和CNN 模型 0.018 8、0.024 1 和 0.031 0。因此,BCNN模型異常檢測性能優(yōu)于其他模型,且BCNN模型對波動性大的數(shù)據(jù)檢測能力更優(yōu),而其他模型隨著數(shù)據(jù)波動性增大,異常檢測能力有所下降。
圖7 模型異常檢測準(zhǔn)確率與F1值Fig.7 Anomaly detection accuracy and F1 score of different models
總之,相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型,BCNN模型對異常數(shù)據(jù)的檢測能力在不同特征的數(shù)據(jù)集上均得到了一定程度的提升。其中,對波動性較大的數(shù)據(jù)集的異常檢測能力最優(yōu)。
各種異常檢測模型檢測耗時如表1所示。BCNN模型檢測耗時大幅低于同類的深度模型CNN,僅為其1/6~1/7。相較于SVM和RF傳統(tǒng)機(jī)器學(xué)習(xí)算法,BCNN模型雖然需要額外的檢測時間,但異常檢測準(zhǔn)確率和F1值都有明顯提升,增強(qiáng)了模型對波動性較大數(shù)據(jù)的檢測能力,同時,BCNN模型的超參數(shù)數(shù)量較少,有效地降低了超參數(shù)選擇的復(fù)雜度。綜上,對于農(nóng)情數(shù)據(jù)異常檢測,BCNN模型在檢測能力和耗時方面優(yōu)于同類深度學(xué)習(xí)模型,在檢測能力和超參數(shù)選擇方面優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,具有良好的適用性。
表1 不同模型異常檢測耗時Table 1 Anomaly detection time of different models s
本研究提出了基于寬度卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)情數(shù)據(jù)異常檢測方法,采用養(yǎng)殖場傳感器環(huán)境監(jiān)測數(shù)據(jù),綜合評估了數(shù)據(jù)異常檢測性能。試驗(yàn)結(jié)果表明,基于數(shù)據(jù)特征的滑動窗口劃分子集,可有效地增加模型檢測準(zhǔn)確率和降低檢測耗時。在異常檢測模型對比試驗(yàn)中,BCNN模型取得了最高準(zhǔn)確率和F1值,對空氣和土壤溫濕度數(shù)據(jù)異常檢測的平均準(zhǔn)確率和F1值分別達(dá)到了98.54%和0.993 0,相比于SVM、RF和CNN模型的平均準(zhǔn)確率(96.86%、95.79%和95.49%)和F1 值 (0.983 7、0.978 1 和 0.976 8),表現(xiàn)出良好的檢測效果。BCNN模型對波動性較大數(shù)據(jù)集的檢測能力更強(qiáng),準(zhǔn)確率和F1值平均優(yōu)于其他模型4.74%和0.024 6。另一方面,BCNN模型檢測時間僅為同類深度學(xué)習(xí)模型CNN的1/6~1/7,且比傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM和RF采用更少的超參數(shù)。本研究為農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)高質(zhì)量感知及農(nóng)業(yè)信息化提供了一定的參考。考慮到無線傳感器網(wǎng)絡(luò)規(guī)模不斷擴(kuò)展,后續(xù)研究將更多地關(guān)注傳感器網(wǎng)絡(luò)群體異常數(shù)據(jù)檢測,進(jìn)一步提高農(nóng)業(yè)物聯(lián)網(wǎng)感知數(shù)據(jù)質(zhì)量。