陳海燕, 杜婧涵, 張魏寧
(1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 江蘇 南京 211106; 2. 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心, 江蘇 南京 211106)
隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大規(guī)模遠(yuǎn)程監(jiān)測(cè)被廣泛地應(yīng)用于各行各業(yè)。各種監(jiān)測(cè)系統(tǒng)一般由大量傳感器節(jié)點(diǎn)所構(gòu)成,能夠完成實(shí)時(shí)數(shù)據(jù)的采集并將數(shù)據(jù)傳送到終端。由于硬件設(shè)備自身的局限,監(jiān)測(cè)點(diǎn)失效或數(shù)據(jù)采集錯(cuò)誤的現(xiàn)象時(shí)有發(fā)生,導(dǎo)致無法獲取某區(qū)域的真實(shí)數(shù)據(jù)。因此,在監(jiān)測(cè)點(diǎn)失效期間,如何通過軟件的方法對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行修復(fù)(填補(bǔ)、補(bǔ)全)成為一個(gè)值得關(guān)注的問題[1]。
近年來,國(guó)內(nèi)外學(xué)者們對(duì)監(jiān)測(cè)數(shù)據(jù)修復(fù)(填補(bǔ)、補(bǔ)全)的研究不斷深入,取得了一些可以借鑒的成果。文獻(xiàn)[2]針對(duì)歷史質(zhì)量數(shù)據(jù)集中缺失數(shù)據(jù)對(duì)軟件質(zhì)量評(píng)估的影響,提出了基于灰色關(guān)系分析的K最近鄰(K-nearest neighbor,KNN)數(shù)據(jù)補(bǔ)全算法。通過灰色關(guān)系分析尋找KNN的最優(yōu)參數(shù),緩解了KNN對(duì)K值敏感的問題,進(jìn)而提高了軟件質(zhì)量評(píng)估精度;然而由于歐氏距離度量方式的局限性,補(bǔ)全算法的穩(wěn)定性還有待提高。文獻(xiàn)[3]通過構(gòu)建一種基于屬性的決策圖,進(jìn)而建立基于屬性重要度的數(shù)據(jù)補(bǔ)全模型。在將分類問題作為評(píng)估標(biāo)準(zhǔn)的標(biāo)準(zhǔn)數(shù)據(jù)集中,該補(bǔ)全模型效果較好;由于該方法對(duì)數(shù)據(jù)質(zhì)量要求較高,在含噪聲較多的實(shí)際應(yīng)用場(chǎng)景中無法達(dá)到令人滿意的補(bǔ)全效果。文獻(xiàn)[4]基于多維度相似性并考慮順序敏感的填補(bǔ)情況,提出了面向多元感知數(shù)據(jù)且順序敏感的缺失值填補(bǔ)框架,較好地解決了在缺失數(shù)據(jù)較為密集的情況下填補(bǔ)準(zhǔn)確性難以保證的情況。文獻(xiàn)[5]提出利用高斯混合模型和極限學(xué)習(xí)機(jī)預(yù)測(cè)模型,設(shè)計(jì)一種缺失數(shù)據(jù)多重填補(bǔ)方式的策略。在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集中都對(duì)缺失數(shù)據(jù)取得了較好的預(yù)測(cè)精度。文獻(xiàn)[6]提出基于支持向量機(jī)的缺失數(shù)據(jù)插補(bǔ)算法,利用周圍監(jiān)測(cè)點(diǎn)數(shù)據(jù)預(yù)測(cè)缺失數(shù)據(jù)。預(yù)測(cè)模型較好地解決了無線傳感器網(wǎng)絡(luò)中傳感器節(jié)點(diǎn)數(shù)據(jù)收集過程中存在的缺失問題;然而該方法在待修復(fù)數(shù)據(jù)與有效數(shù)據(jù)之間存在高度相關(guān)關(guān)系時(shí),才具有較好的預(yù)測(cè)精度。文獻(xiàn)[7]提出聯(lián)合使用模糊C均值和支持向量回歸預(yù)測(cè)模型。該混合預(yù)測(cè)模型在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集中對(duì)缺失數(shù)據(jù)達(dá)到了合理的估算,較傳統(tǒng)的模糊C均值預(yù)測(cè)模型和支持向量回歸模型,混合模型具有更好的穩(wěn)定性。也有部分方法是結(jié)合相似性度量和回歸預(yù)測(cè)模型來進(jìn)行數(shù)據(jù)修復(fù)的。文獻(xiàn)[8]提出基于KNN的支持向量機(jī)回歸預(yù)測(cè)模型用于無線傳感器網(wǎng)路中的數(shù)據(jù)異常檢測(cè)和補(bǔ)全,先通過KNN篩選相似度高的有效數(shù)據(jù),根據(jù)有效數(shù)據(jù)建立回歸預(yù)測(cè)模型進(jìn)而對(duì)異常數(shù)據(jù)進(jìn)行補(bǔ)全。文獻(xiàn)[9]提出基于動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)相似性度量回歸預(yù)測(cè)模型,用于滾動(dòng)軸承的壽命預(yù)測(cè)。通過DTW算法提取不同健康狀態(tài)下的曲線相似度,根據(jù)曲線相似度建立支持向量回歸(support vector regression,SVR)預(yù)測(cè)模型進(jìn)而對(duì)軸承異常狀態(tài)的發(fā)現(xiàn)和預(yù)測(cè)。
由于在監(jiān)測(cè)數(shù)據(jù)修復(fù)這一問題中,被挖掘的數(shù)據(jù)都是實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù),往往含有大量的噪聲值,因此,對(duì)所采用的方法提出了更高的要求。深度學(xué)習(xí)近年來成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)[10-12],其理論被應(yīng)用于解決各種數(shù)據(jù)挖掘問題。考慮到深度學(xué)習(xí)在特征提取方面表現(xiàn)出的優(yōu)勢(shì)以及提取相關(guān)信息對(duì)于數(shù)據(jù)修復(fù)的重要性,本文基于深度學(xué)習(xí)的思想,利用深度降噪自編碼(deep denoising auto-encoder, DDAE)網(wǎng)絡(luò)來挖掘數(shù)據(jù)間隱含的深層相關(guān)信息。這種相關(guān)信息一方面具有較少的冗余信息,另一方面能夠很好地反映數(shù)據(jù)間本征相關(guān)性。基于深層相關(guān)信息并結(jié)合SVR預(yù)測(cè)算法,提出一種基于DDAE網(wǎng)絡(luò)的異常監(jiān)測(cè)點(diǎn)數(shù)據(jù)修復(fù)方法。
(1)
(2)
(3)
式中,hW,b(·)為輸入數(shù)據(jù)的重構(gòu)函數(shù)。
圖1 DAE網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of DAE network
對(duì)于一個(gè)含有m個(gè)樣本的樣本集{x1,x2,…,xm},為了使輸出結(jié)果盡可能重構(gòu)輸入數(shù)據(jù),DAE的目標(biāo)函數(shù)可表示為
(4)
為進(jìn)一步降低過擬合的風(fēng)險(xiǎn)并提高網(wǎng)絡(luò)的泛化性,對(duì)DAE的學(xué)習(xí)參數(shù)設(shè)置了L2正則化約束,目標(biāo)函數(shù)可進(jìn)一步改寫為
(5)
式中,θ={W,b};W是所有連接相鄰兩層的權(quán)重;b是各層的偏置項(xiàng);λ則用于度量數(shù)據(jù)重構(gòu)程度和正則化約束之間的權(quán)重。
DDAE網(wǎng)絡(luò)[15]是由多個(gè)自編碼網(wǎng)絡(luò)或其變形網(wǎng)絡(luò)堆疊而成的深度神經(jīng)網(wǎng)絡(luò),采用上述DAE作為基本結(jié)構(gòu)單元構(gòu)造了DDAE網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中,輸入層和輸出層的節(jié)點(diǎn)個(gè)數(shù)為數(shù)據(jù)的維數(shù),最中間的隱含層節(jié)點(diǎn)個(gè)數(shù)通過本征維數(shù)估計(jì)[16]的方法來確定。
圖2 DDAE網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of DDAE network
DDAE網(wǎng)絡(luò)在輸出層重構(gòu)輸入數(shù)據(jù),在隱含層學(xué)到輸入數(shù)據(jù)的壓縮表示。深度學(xué)習(xí)理論認(rèn)為這種壓縮表示通過學(xué)習(xí)獲得的可表征樣本集深層特征的新的表達(dá)形式。這種表達(dá)形式一方面具有較少的冗余信息,另一方面能夠有效地反映輸入數(shù)據(jù)的特性。用壓縮表示作為新的特征向量代替原始特征向量輸入到回歸模型中,在很多任務(wù)中可以大大提高預(yù)測(cè)模型的準(zhǔn)確度和魯棒性[17-18]。
一般地,一個(gè)DDAE網(wǎng)絡(luò)的訓(xùn)練過程分為逐層訓(xùn)練和微調(diào)兩個(gè)步驟進(jìn)行。
(1) 逐層訓(xùn)練
初始化整個(gè)網(wǎng)絡(luò)參數(shù)W和b為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)值,采用貪婪算法來逐層訓(xùn)練網(wǎng)絡(luò)。即先利用輸入數(shù)據(jù)訓(xùn)練DDAE網(wǎng)絡(luò)的第一層,生成第一層網(wǎng)絡(luò)的參數(shù)W(1)和b(1);然后將第一層的輸出作為第二層的輸入,繼續(xù)訓(xùn)練得到第二層的參數(shù)W(2)和b(2);最后對(duì)后面各層采用同樣的策略,即將前層的輸出作為下一層輸入的方式依次訓(xùn)練。對(duì)于上述訓(xùn)練方式,在訓(xùn)練每一層參數(shù)的時(shí)候,會(huì)固定其他各層參數(shù)保持不變。為了學(xué)習(xí)到更加魯棒的特征,逐層訓(xùn)練時(shí)每一層的輸入都需要加入噪聲,即以一定的概率將神經(jīng)元的取值重置為0。
(2) 微調(diào)
通過反向傳播算法調(diào)整DDAE網(wǎng)絡(luò)的參數(shù),即利用梯度下降法迭代更新權(quán)重,更新過程可表示為
(6)
式中,α為學(xué)習(xí)速率。當(dāng)目標(biāo)函數(shù)達(dá)到一定閾值即完成微調(diào)整個(gè)網(wǎng)絡(luò)過程。
從首都機(jī)場(chǎng)15個(gè)機(jī)場(chǎng)噪聲監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù)中隨機(jī)選取了1 000條監(jiān)測(cè)數(shù)據(jù)作為網(wǎng)絡(luò)的訓(xùn)練集,152條作為網(wǎng)絡(luò)的測(cè)試集??紤]到實(shí)際數(shù)據(jù)規(guī)模以及自編碼網(wǎng)絡(luò)的表達(dá)能力,為了對(duì)比不同自編碼網(wǎng)絡(luò)在重構(gòu)數(shù)據(jù)性能上的差異,本文設(shè)置了3種自編碼網(wǎng)絡(luò),分別是傳統(tǒng)的DAE網(wǎng)絡(luò)(15-6-15,簡(jiǎn)稱DAE)、5層DDAE網(wǎng)絡(luò)(15-10-6-10-15,簡(jiǎn)稱DDAE-5)和7層DDAE網(wǎng)絡(luò)(15-11-9-6-9-11-15,簡(jiǎn)稱DDAE-7)。利用第1.2節(jié)提到的訓(xùn)練方式,訓(xùn)練上述3種自編碼網(wǎng)絡(luò)。為了分析自編碼網(wǎng)絡(luò)重構(gòu)數(shù)據(jù)的效果,實(shí)驗(yàn)對(duì)比了不同自編碼網(wǎng)絡(luò)的重構(gòu)數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的相對(duì)誤差,結(jié)果如圖3所示。
從圖3中可以看出,DDAE-5網(wǎng)絡(luò)重構(gòu)數(shù)據(jù)的效果最好,重構(gòu)誤差大都在5%以內(nèi)。值得一提的是,DDAE-7網(wǎng)絡(luò)沒有取得很好的重構(gòu)效果,這可能由于訓(xùn)練數(shù)據(jù)規(guī)模相比于網(wǎng)絡(luò)復(fù)雜度而言過小,網(wǎng)絡(luò)參數(shù)沒有得到充分有效的學(xué)習(xí)。而傳統(tǒng)DAE網(wǎng)絡(luò)的重構(gòu)效果介于DDAE-5和DDAE-7之間。
為了檢驗(yàn)上述3種自編碼網(wǎng)絡(luò)的泛化能力,在未參與訓(xùn)練的測(cè)試集中對(duì)比了3種網(wǎng)絡(luò)的學(xué)習(xí)效果,其重構(gòu)誤差如圖4所示。通過對(duì)比可以看出,DDAE-5在測(cè)試集中的泛化性能最好,這說明該網(wǎng)絡(luò)學(xué)到的隱層特征可以較好地表征輸入數(shù)據(jù)。同樣地,對(duì)于DDAE-7來說,由于在訓(xùn)練階段網(wǎng)絡(luò)沒有得到充分的學(xué)習(xí),導(dǎo)致沒有挖掘到適合輸入數(shù)據(jù)的特征表示,從而使得該網(wǎng)絡(luò)在測(cè)試集中的泛化性能最差。
圖3 不同自編碼網(wǎng)絡(luò)的訓(xùn)練集重構(gòu)誤差Fig.3 Reconstruction error in training set for different AE network
圖4 不同自編碼網(wǎng)絡(luò)的測(cè)試集重構(gòu)誤差Fig.4 Reconstruction error in test set for different AE network
進(jìn)一步,選取誤差平方和(sum of squares for error,SSE)作為數(shù)據(jù)重構(gòu)效果好壞的定量評(píng)價(jià)指標(biāo)。3種自編碼網(wǎng)絡(luò)在訓(xùn)練集和測(cè)試集的SSE結(jié)果如表1所示。明顯地,DDAE-5在訓(xùn)練集和測(cè)試集的SSE均取得了最小值,也進(jìn)一步說明DDAE-5的隱層特征提取結(jié)果最好,能夠在一定程度上代替原始輸入數(shù)據(jù)。
表1 不同自編碼網(wǎng)絡(luò)的SSE
結(jié)合DDAE網(wǎng)絡(luò)的隱層特征提取方法及SVR預(yù)測(cè)算法,提出了一種新的數(shù)據(jù)修復(fù)模型,利用基于DDAE網(wǎng)絡(luò)的SVR預(yù)測(cè)(簡(jiǎn)稱DDAE_SVR)算法,將預(yù)測(cè)值作為異常數(shù)據(jù)修復(fù)的結(jié)果,DDAE_SVR算法主要步驟如下。
步驟1給定樣本個(gè)數(shù)為ntr訓(xùn)練樣本集Tr={(x1,y1),(x2,y2),…,(xntr,yntr)}和樣本個(gè)數(shù)為nte測(cè)試樣本集Te={(x1,y1),(x2,y2),…,(xnte,ynte)},并設(shè)置候選DDAE網(wǎng)絡(luò)層數(shù)M={m1,m2,…,mk}。
步驟2從M中選擇一個(gè)mi模型,并初始化DDAE網(wǎng)絡(luò)權(quán)重θmi={W,b}~N(0,1)。
步驟3對(duì)訓(xùn)練數(shù)據(jù)xtr={x1,x2,…,xntr}采用貪婪算法逐層訓(xùn)練DDAE網(wǎng)絡(luò)參數(shù)θ(j)(j=1,2,…,mi),利用梯度下降法根據(jù)損失函數(shù)的梯度值迭代更新權(quán)重,得到學(xué)習(xí)后的參數(shù)值θmi。
步驟4對(duì)測(cè)試數(shù)據(jù)xte={x1,x2,…,xnte}根據(jù)式(4)計(jì)算mi模型的數(shù)據(jù)重構(gòu)誤差Rmi。
步驟5令M=M{mi},如果M=?跳轉(zhuǎn)到步驟6,否則跳轉(zhuǎn)到步驟2。
步驟6從Rmi(i=1,2,…,k)中選取值最小的模型mmin。分別提取xtr和xte在mmin模型中的隱含深度特征dtr和dte。
步驟7利用ε-SVR回歸預(yù)測(cè)算法對(duì)(dtr,ytr)進(jìn)行訓(xùn)練并得到回歸預(yù)測(cè)模型。
步驟8根據(jù)步驟7學(xué)習(xí)到的回歸預(yù)測(cè)模型,利用測(cè)試數(shù)據(jù)的隱含深度特征dte預(yù)測(cè)yte。
利用第1.3節(jié)提到的機(jī)場(chǎng)噪聲監(jiān)測(cè)數(shù)據(jù),并根據(jù)上述建立的基于DDAE網(wǎng)絡(luò)的數(shù)據(jù)修復(fù)模型,進(jìn)行了監(jiān)測(cè)數(shù)據(jù)的預(yù)測(cè)實(shí)驗(yàn)。由于該方法屬于結(jié)合相關(guān)關(guān)系和回歸預(yù)測(cè)模型的數(shù)據(jù)修復(fù)方法,為了對(duì)比回歸預(yù)測(cè)效果,設(shè)置了4組實(shí)驗(yàn)。其中,基于皮爾遜系數(shù)的回歸預(yù)測(cè)(簡(jiǎn)稱CORR_SVR)模型是此類方法的基本模型,基于DTW相似性度量[19]的回歸預(yù)測(cè)(簡(jiǎn)稱DTW_SVR)模型是該類方法中適用范圍最廣預(yù)測(cè)效果最好的模型。同時(shí),為了對(duì)比深度網(wǎng)絡(luò)對(duì)回歸預(yù)測(cè)效果的影響,設(shè)置了基于DAE網(wǎng)絡(luò)的回歸預(yù)測(cè)(簡(jiǎn)稱DAE_SVR)以及基于DDAE網(wǎng)絡(luò)的回歸預(yù)測(cè)(簡(jiǎn)稱DDAE_SVR)兩種模型。其中DAE網(wǎng)絡(luò)和DDAE網(wǎng)絡(luò)采取第1.3節(jié)訓(xùn)練好的DAE網(wǎng)絡(luò)和DDAE-5網(wǎng)絡(luò)。4種模型在測(cè)試集上的預(yù)測(cè)結(jié)果如圖5所示。
圖5 各模型在測(cè)試集中的噪聲預(yù)測(cè)結(jié)果Fig.5 Prediction results in the test set for different models
根據(jù)實(shí)驗(yàn)結(jié)果分析,使用DTW相似性度量方法比使用皮爾遜相似性度量方法的預(yù)測(cè)結(jié)果更精確,這說明了DTW相似性度量方法的優(yōu)越性。對(duì)比傳統(tǒng)相似性度量方法,本文提出的DDAE_SVR模型在整體的預(yù)測(cè)趨勢(shì)來看,更好地捕獲了測(cè)試集的變化趨勢(shì);在對(duì)峰值的預(yù)測(cè)情況來看,使用DDAE_SVR模型的預(yù)測(cè)結(jié)果更為理想。對(duì)比上述4個(gè)實(shí)驗(yàn)結(jié)果,一定程度上說明了基于DDAE網(wǎng)絡(luò)提取到的隱層特征能夠較好地代表原始數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),同時(shí)也體現(xiàn)了隱層特征具有較好的抗噪性和魯棒性。
表2顯示了4個(gè)模型在測(cè)試階段的表現(xiàn)能力,評(píng)價(jià)指標(biāo)有均方誤差和決定系數(shù)。均方誤差(mean squared error,MSE)直接反應(yīng)了預(yù)測(cè)結(jié)果的好壞程度。決定系數(shù)(squared correlation coefficient,SCC)是相關(guān)系數(shù)的平方,反映了列入模型的所有解釋變量對(duì)因變量的聯(lián)合的影響程度,表征模型的擬合優(yōu)度,取值范圍在0~1,值越接近于1,表明擬合模型的參考價(jià)值越高;相反越接近0,表明參考價(jià)值越低。通過定量的對(duì)比發(fā)現(xiàn),本文提出的DDAE_SVR模型相比傳統(tǒng)的回歸預(yù)測(cè)模型更好,較DTW_SVR模型在MSE和SCC評(píng)價(jià)指標(biāo)上分別提高了25.1%和11.4%。
表2 測(cè)試集中的性能指標(biāo)
對(duì)于DDAE_SVR模型,分別可視化了測(cè)試集中的預(yù)測(cè)誤差和相對(duì)誤差。如圖6所示,測(cè)試數(shù)據(jù)的預(yù)測(cè)誤差大部分都在2 dB左右,誤差控制在5%以內(nèi),這較好地符合當(dāng)前對(duì)機(jī)場(chǎng)噪聲預(yù)測(cè)的要求,也進(jìn)一步表明了本文提出的基于DDAE網(wǎng)絡(luò)的SVR預(yù)測(cè)算法在預(yù)測(cè)精度上的優(yōu)越性。
圖6 DDAE_SVR模型誤差分析Fig.6 Error analysis for DDAE_SVR model
考慮到模型在實(shí)際應(yīng)用場(chǎng)景中噪聲較多的情況,為了驗(yàn)證模型對(duì)噪聲的魯棒性,針對(duì)不同噪聲水平進(jìn)行了對(duì)比實(shí)驗(yàn)。通過對(duì)測(cè)試階段的輸入數(shù)據(jù)增加不同程度的高斯噪聲,獲得含不同噪聲水平下DDAE_SVR模型的MSE情況。如圖7所示,相比不含噪聲的DDAE_SVR預(yù)測(cè)模型的測(cè)試結(jié)果,在噪聲程度較小時(shí),該模型的MSE僅有少量增加,模型具有較好的抗噪能力;當(dāng)噪聲程度較大時(shí),盡管MSE有一定程度的增加,但相比較其他模型仍具有較小的MSE。對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的DDAE_SVR模型具有一定的魯棒性和抗噪能力。
圖7 DDAE_SVR模型魯棒性分析Fig.7 Robustness analysis for DDAE_SVR model
針對(duì)物聯(lián)網(wǎng)實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)的異常修復(fù)問題,提出了一種基于深度降噪自編碼網(wǎng)絡(luò)和支持向量回歸算法的異常監(jiān)測(cè)數(shù)據(jù)修復(fù)方法。該方法通過重構(gòu)輸入數(shù)據(jù)和學(xué)習(xí)輸入數(shù)據(jù)的壓縮表示,獲得樣本集深層特征的新表達(dá)形式,不僅充分反映了輸入數(shù)據(jù)的特性,還極大地減少了相關(guān)信息之間存在的冗余。比較了3種不同深度的自編碼網(wǎng)絡(luò)在重構(gòu)數(shù)據(jù)上的性能差異。在實(shí)測(cè)的首都機(jī)場(chǎng)噪聲監(jiān)測(cè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,所提出的基于深度降噪自編碼網(wǎng)絡(luò)的異常監(jiān)測(cè)數(shù)據(jù)修復(fù)方法具有較好的抗噪性和魯棒性,能有效提高異常數(shù)據(jù)的預(yù)測(cè)精度。
本文所提出的方法主要針對(duì)物聯(lián)網(wǎng)中單監(jiān)測(cè)點(diǎn)失效或少量監(jiān)測(cè)數(shù)據(jù)缺失而需修復(fù)的場(chǎng)景。對(duì)于多監(jiān)測(cè)點(diǎn)同時(shí)失效而導(dǎo)致的大面積數(shù)據(jù)缺失問題,由于關(guān)聯(lián)數(shù)據(jù)的缺失,可能無法較好地提取數(shù)據(jù)的隱含特征,進(jìn)而使得預(yù)測(cè)數(shù)據(jù)準(zhǔn)確率不高。該問題將作為未來的研究?jī)?nèi)容之一。
[1] BARALDI A N, ENDERS C K. An introduction to modern missing data analyses[J]. Journal of School Psychology, 2010, 48(1): 5-37.
[2] HUANG J, SUN H. Grey relational analysis basedknearest neighbor missing data imputation for software quality datasets[C]∥Proc.of the IEEE International Conference on Software Quality, Reliability and Security, 2016: 86-91.
[3] BERTINI J R, DO CARMO NICOLETTI M, ZHAO L. Imputation of missing data supported by complete p-partite attribute-based decision graphs[C]∥Proc.of the IEEE International Joint Conference on Neural Networks, 2014: 1100-1106.
[4] 馬茜,谷峪,李芳芳,等.順序敏感的多源感知數(shù)據(jù)填補(bǔ)技術(shù)[J]. 軟件學(xué)報(bào), 2016, 27(9): 2332-2347.
MA Q, GU Y, LI F F, et al. Order-sensitive missing value imputation technology for multi-source sensory data[J]. Journal of Software, 2016, 27(9): 2332-2347.
[5] SOVILJ D, EIROLA E, MICHE Y, et al. Extreme learning machine for missing data using multiple imputations[J]. Neurocomputing, 2016, 174(PA): 220-231.
[6] GAO S, TANG Y, QU X. LSSVM based missing data imputation in nuclear power plants environmental radiation monitor sensor network[C]∥Proc.of the 5th IEEE International Conference on Advanced Computational Intelligence, 2012: 479-484.
[7] AYDILEK I B, ARSLAN A. A hybrid method for imputation of missing values using optimized fuzzy C-means with support vector regression and a genetic algorithm[J]. Information Sciences, 2013, 233(4): 25-35.
[8] XU S, HU C, WANG L, et al. Support vector machines based on K nearest neighbor algorithm for outlier detection in WSNs[C]∥Proc.of the 8th IEEE International Conference on Wireless Communications, Networking and Mobile Computing, 2012: 1-4.
[9] ZHANG L, LU C, TAO L. Curve similarity recognition based rolling bearing degradation state estimation and lifetime prediction[J]. Journal of Vibroengineering, 2016, 18(5):2089.
[10] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[11] SUK H I, LEE S W, SHEN D, et al. Latent feature representation with stacked auto-encoder for AD/MCI diagnosis[J]. Brain Structure and Function, 2015, 220(2): 841-859.
[12] 劉揚(yáng), 付征葉, 鄭逢斌. 基于神經(jīng)認(rèn)知計(jì)算模型的高分辨率遙感圖像場(chǎng)景分類[J]. 系統(tǒng)工程與電子技術(shù), 2015, 37(11): 2623-2633.
LIU Y, FU Z Y, ZHENG F B. Scene classification of high-resolution remote sensing image based on multimedia neural cognitive computing[J]. Systems Engineering and Electronics, 2015, 37(11): 2623-2633.
[13] WILLIAMS D, HINTON G E. Learning representtations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[14] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]∥Proc.of the 25th ACM International Conference on Machine Learning, 2008: 1096-1103.
[15] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(12): 3371-3408.
[16] CAMASTRA F. Data dimensionality estimation methods: a survey[J]. Pattern Recognition, 2003, 36(12): 2945-2954.
[17] GEHRING J, MIAO Y, METZE F, et al. Extracting deep bottleneck features using stacked auto-encoders[C]∥Proc.of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2013: 3377-3381.
[18] RIFAI S, VINCENT P, MULLER X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]∥Proc.of the 28th International Conference on Machine Learning, 2011: 833-840.
[19] BERNDT D J, CLIFFORD J. Using dynamic time warping to find patterns in time series[J]. KDD Workshop,1994, 10(16): 359-370.