張 紅,程傳祺,徐志剛,李建華
1.蘭州理工大學 計算機與通信學院,蘭州730050
2.蘭州理工大學 機電工程學院,蘭州730050
在大數(shù)據(jù)時代,數(shù)據(jù)的來源越來越廣泛,數(shù)據(jù)類型也越來越多樣化。但是,由于大數(shù)據(jù)的“5V”特性(Volume、Variety、Value、Veracity、Velocity),使人們難以充分挖掘大數(shù)據(jù)的隱含信息。因此,人們迫切需要有效的手段對多源異構數(shù)據(jù)進行融合,并挖掘出有價值的信息加以利用。數(shù)據(jù)融合技術作為一種重要的數(shù)據(jù)處理手段,有廣泛的應用,如目標檢測[1-3]、戰(zhàn)場評估[4]、醫(yī)療診斷[5-7]、遙感測繪[8-10]、故障診斷[11-14]、智能制造[15-16]等。在智能制造領域中,數(shù)據(jù)融合技術有效地提高了人們對工業(yè)大數(shù)據(jù)的處理能力和利用效率。通過數(shù)據(jù)融合技術,對海量、高維、多源異構含噪聲工業(yè)數(shù)據(jù)進行清洗去噪、集成建模與多尺度分類,為之后的關聯(lián)分析、性能預測和優(yōu)化決策提供可靠的數(shù)據(jù)資源支持。因此,數(shù)據(jù)融合技術有力地推動了應用領域的發(fā)展。
美國Joint Directors of Laboratories(JDL)數(shù)據(jù)融合小組曾從軍事角度對數(shù)據(jù)融合做出描述:數(shù)據(jù)融合是一種多層次多角度的信息處理手段。在處理過程中,為了得到精確的狀態(tài)判定、身份識別以及完整及時的態(tài)勢與威脅評估,將多源數(shù)據(jù)進行一系列包括檢測、結合、關聯(lián)、估計和組合等操作[17]。Hall等人[18]認為“信息融合是將不同來源、不同時刻的信息自動或半自動地轉換成能夠為人為或自動決策提供有效支持的表示形式”。根據(jù)研究人員對數(shù)據(jù)融合技術的不同描述,可以將數(shù)據(jù)融合總結為:針對多個信息采集設備所提供的不完整、不精確信息,進行一定的綜合處理和分析手段,得到對目標較為準確和完善的描述,為決策或判斷做支持。在應用場景中,使用數(shù)據(jù)融合技術對多源數(shù)據(jù)進行處理存在諸多優(yōu)勢[19],如多源數(shù)據(jù)具有對目標描述全面、數(shù)據(jù)互補的特點,對其進行融合操作能很好地提高決策可信度和模型的抗干擾能力;對多源數(shù)據(jù)進行融合,能夠降低多源數(shù)據(jù)存在的冗余,減少了對存儲資源的浪費,也減少了在傳輸數(shù)據(jù)時不必要的資源消耗。
常用的數(shù)據(jù)融合方法可分為基于概率融合方法、基于Dempster-Shafer理論的融合方法、基于知識的融合方法等[20]。基于概率融合的方法包括貝葉斯推理[21-23]、卡爾曼濾波模型[24-26]以及馬爾科夫模型[27-28]等,這類融合方法的核心數(shù)學理論是貝葉斯推理,通過引入概率分布和概率密度函數(shù)來表示隨機變量之間的依賴關系,從而建立不同數(shù)據(jù)集之間的關系;基于證據(jù)理論的融合方法主要是D-S證據(jù)理論,D-S理論通過引入置信度和合理度來表示數(shù)據(jù)的不確定性,在動態(tài)的情況下進行推理,使用規(guī)定的融合規(guī)則進行數(shù)據(jù)融合。D-S 理論作為貝葉斯推理的推廣形式,相較于貝葉斯推理,具有不需要獲取數(shù)據(jù)的先驗概率的優(yōu)點;基于知識的融合方法包括支持向量機、聚類[29]等方法,這類方法認為數(shù)據(jù)中包含大量有用的知識信息,尋找數(shù)據(jù)中包含的知識以及度量知識之間的相關性和相似性,是這類方法的關鍵。
研究人員意識到常用的數(shù)據(jù)融合方法在對大數(shù)據(jù)進行融合時存在諸多弊端,如基于概率的融合方法存在難以獲取先驗概率、處理高維復雜數(shù)據(jù)困難的缺點;基于證據(jù)理論的融合方法存在質(zhì)量函數(shù)難以估計的缺點;基于知識的融合方法對數(shù)據(jù)缺失和噪聲數(shù)據(jù)敏感的特點。隨著計算機運算硬件和數(shù)據(jù)處理技術的發(fā)展,計算設備的運算能力不再成為深度學習的障礙。這為深度學習在數(shù)據(jù)融合中的應用帶來了新的發(fā)展機遇。深度學習能夠根據(jù)訓練數(shù)據(jù)進行自學習,而無需對每個要解決的問題具體編程實現(xiàn)。深度學習模型旨在對數(shù)據(jù)進行建模,以獲得數(shù)據(jù)中的深層關聯(lián)關系并建立知識框架,最終將模型用于預測、分類和特征提取等方面。近年來,研究人員嘗試將深度學習運用到數(shù)據(jù)融合中,希望能夠提高融合算法在處理大數(shù)據(jù)時的性能。
眾多學者已經(jīng)從不同的角度對數(shù)據(jù)融合方法進行歸納整理。如Alam等人[30]對物聯(lián)網(wǎng)中數(shù)據(jù)融合的方法進行綜述;Pires等人[31]對移動設備中傳感器數(shù)據(jù)融合技術進行了系統(tǒng)的概述;Gite等人[32]對數(shù)據(jù)融合技術在上下文感知系統(tǒng)中的應用進行了深入研究;Meng 等人[33]系統(tǒng)地回顧了基于機器學習的數(shù)據(jù)融合方法在各領域的應用,并對基于機器學習的數(shù)據(jù)融合方法進行評價;Ding等人[34]從物聯(lián)網(wǎng)安全和隱私保護角度,回顧了數(shù)據(jù)融合技術在其中的應用;Khaleghi 等人[35]從以數(shù)據(jù)為中心的角度,對數(shù)據(jù)融合方法進行了分類闡述,并且重點介紹了數(shù)據(jù)融合領域未來的發(fā)展方向;Zhang 等人[36]對基于深度學習的數(shù)據(jù)融合方法在多源異構數(shù)據(jù)中的應用進行了綜述;Liu 等人[37]在對常用數(shù)據(jù)融合方法進行總結的基礎上,概述了基于深度學習的城市大數(shù)據(jù)融合方法,也簡要地討論了多模式大數(shù)據(jù)融合存在的困難和一些解決思路。
從以上文獻發(fā)現(xiàn),研究人員從各種角度對數(shù)據(jù)融合方法進行了綜述。但是,缺少對基于深度學習的數(shù)據(jù)融合方法進行系統(tǒng)的概括和總結。盡管Liu等人[37]對基于深度學習的數(shù)據(jù)融合方法進行了分類,并列舉了在城市大數(shù)據(jù)融合中的應用,但是作者只關注了城市大數(shù)據(jù)融合背景下的相關文獻,也缺少與傳統(tǒng)數(shù)據(jù)融合方法的比較;而Zhang等人[36]僅是簡單介紹了深度學習在大數(shù)據(jù)融合方面的應用,并未對方法進行評價和總結。隨著深度學習在數(shù)據(jù)融合領域的不斷發(fā)展,深入了解基于深度學習的數(shù)據(jù)融合方法的應用現(xiàn)狀和未來發(fā)展趨勢是至關重要的。
本文將對基于深度學習的數(shù)據(jù)融合方法進行詳細的闡述和總結。首先,對傳統(tǒng)的數(shù)據(jù)融合方法進行分類闡述,對傳統(tǒng)的數(shù)據(jù)融合方法應用領域、存在的優(yōu)點和不足進行簡要總結;然后按照深度學習模型在數(shù)據(jù)融合過程中的參與階段,對基于深度學習的數(shù)據(jù)融合方法進行歸納分類;最后將傳統(tǒng)的數(shù)據(jù)融合方法與基于深度學習的數(shù)據(jù)融合方法進行比較,并指出基于深度學習的數(shù)據(jù)融合方法的難點和未來研究方向。本文的主要貢獻如下:
(1)回顧了基于深度學習的數(shù)據(jù)融合方法在各種場景下的應用,并按照融合性能、資源消耗、模型復雜度等方面將其與傳統(tǒng)的數(shù)據(jù)融合進行對比,著重討論了兩者在不同應用場景下的優(yōu)劣。
(2)總結了部分基于深度學習的數(shù)據(jù)融合方法,并按照深度學習在數(shù)據(jù)融合模型中參與的階段,將基于深度學習的數(shù)據(jù)融合方法分為基于深度學習特征提取的數(shù)據(jù)融合方法、基于深度學習融合的數(shù)據(jù)融合方法以及基于深度學習全過程的數(shù)據(jù)融合方法,并介紹了各類方法的結構特點。
(3)討論了基于深度學習的數(shù)據(jù)融合方法存在的難點和未來值得研究的一些問題。
深度學習是深度神經(jīng)網(wǎng)絡的統(tǒng)稱,是由淺層神經(jīng)網(wǎng)絡發(fā)展而來。淺層神經(jīng)網(wǎng)絡通常由一個輸入層、一個隱藏層和一個輸出層組成,用Wx+b 來計算前一層輸入的加權和,其中W 為權重向量,b 為偏置量,之后將加權和通過非線性激活函數(shù),如tanh、sigmod和ReLU等得到后一層的輸入。而深度神經(jīng)網(wǎng)絡的隱藏層則包含多個,較低層的隱藏層輸出作為較高層隱藏層的輸入。因此,深度神經(jīng)網(wǎng)絡能夠學習到數(shù)據(jù)中更有效的特征表示。相較于淺層網(wǎng)絡,深度神經(jīng)網(wǎng)絡能夠更好地表示復雜的目標函數(shù),具有更好的泛化性能,能夠通過多個隱藏層提取數(shù)據(jù)的多層特征從而獲得更多的信息。
深度神經(jīng)網(wǎng)絡比淺層神經(jīng)網(wǎng)絡具有更強的表示能力,由于深度神經(jīng)網(wǎng)絡的網(wǎng)絡層增加使得非凸目標函數(shù)容易產(chǎn)生局部最優(yōu)解。反向傳播算法基于梯度下降,從初始化點開始尋找最優(yōu)解,這通常會陷入局部極值,并且隨著網(wǎng)絡層增加而進一步惡化。因此,不能很好地求解深度神經(jīng)網(wǎng)絡問題,這也導致在20世紀80年代和90年代深度神經(jīng)網(wǎng)絡研究進展緩慢。在2006年Hinton教授[38]提出深度學習概念,并提出求解深度神經(jīng)網(wǎng)絡的貪婪逐層訓練算法,這使得深度學習迅速發(fā)展,并在目標檢測[39]、圖像處理[40]、語音[41]等領域廣泛應用,而深度學習在數(shù)據(jù)融合領域中的應用還是相對較新的研究。深度神經(jīng)網(wǎng)絡具有多個隱藏層和大量參數(shù),適合描述不確定的復雜系統(tǒng)。深度神經(jīng)網(wǎng)絡的多層結構使得在海量數(shù)據(jù)特征提取方面更具優(yōu)勢[42],并且所提取特征質(zhì)量要遠優(yōu)于人工標注等方式獲得的特征[43]。由于深度學習模型是模擬人類大腦的神經(jīng)連接結構,在處理圖像、聲音等數(shù)據(jù)時通過多個變換階段分層對數(shù)據(jù)進行描述,因此更適合處理海量異構數(shù)據(jù)。
深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)優(yōu)秀的特征表示能力,使其在數(shù)據(jù)融合領域有了較為廣泛的應用。文獻[36]將現(xiàn)有的基于深度學習的數(shù)據(jù)融合方法分為三類:基于深度學習輸入的數(shù)據(jù)融合方法、基于深度學習輸出的數(shù)據(jù)融合方法以及基于深度學習雙階段的數(shù)據(jù)融合方法,但是該文獻中綜述的模型偏向于對城市大數(shù)據(jù)的融合,因此該分類方法并不能很好地對基于深度學習的數(shù)據(jù)融合方法進行分類。本文將在上述文獻融合模型分類方法的基礎上,提出一種針對基于深度學習的數(shù)據(jù)融合模型的新的分類方法。該分類方法按照深度學習在數(shù)據(jù)融合中所參與的階段,把基于深度學習的數(shù)據(jù)融合方法分為三種類型:基于深度學習特征提取的數(shù)據(jù)融合方法、基于深度學習融合的數(shù)據(jù)融合方法和基于深度學習全過程的數(shù)據(jù)融合方法,如圖1 所示。在基于深度學習特征提取的數(shù)據(jù)融合方法中,深度學習主要參與數(shù)據(jù)融合中特征提取的階段,融合階段則是使用其他方法完成;基于深度學習融合的數(shù)據(jù)融合方法中,深度學習主要參與到數(shù)據(jù)融合階段;在基于深度學習全過程的數(shù)據(jù)融合方法中,深度學習模型則是參與了數(shù)據(jù)融合操作的特征提取階段和融合階段,并且通常使用了不同的深度學習模型。
3.2.1 基于深度學習特征提取的數(shù)據(jù)融合方法
基于深度學習特征提取數(shù)據(jù)融合方法中,深度學習主要作用是提取數(shù)據(jù)的特征,融合操作可以在深度學習模型之后(特征級融合或決策級融合)也可以在深度學習模型之前(數(shù)據(jù)級融合)。
Liu等人[44]提出一種基于非下采樣輪廓波變換(Non-Subsampled Contourlet Transform,NSCT)和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)的X 射線圖像骨齡評估多尺度數(shù)據(jù)融合框架,并在該框架下提出基于特征級融合的回歸模型和基于決策級融合的分類模型,分別如圖2所示。在基于特征級融合的回歸模型中,首先通過NSCT對X射線圖像進行4級分解,獲得豐富的底層特征;然后將提取出的底層特征輸入進卷積模塊,該模塊由多個VGGNet-16網(wǎng)絡構成,每一個由13層卷積層和5 個最大池化層組成,分別處理NSCT 的一級分解,以獲得特征圖;在融合階段,將不同VGGNet-16神經(jīng)網(wǎng)絡輸出特征圖拼接,以實現(xiàn)特征級融合?;跊Q策級融合的分類模型主要包含4個模塊:NSTC分解、分類、融合和估計。NSCT分解模塊同樣是通過對X射線圖像分解得到底層特征;分類模塊包含特征提取以及分類決策,在該模塊中使用VGGNet-16 神經(jīng)網(wǎng)絡提取特征,然后將特征作為輸入通過三層全連接層進行分類;在融合模塊中,可以使用不同的融合規(guī)則對分類模塊中的決策結果進行融合,在該文獻中,作者給出了三種融合規(guī)則:元素最大值規(guī)則、元素均值規(guī)則和元素乘法規(guī)則。
圖1 基于深度學習的數(shù)據(jù)融合方法分類
圖2 基于NSCT和CNN的數(shù)據(jù)融合框架
元素最大規(guī)則:
其中,Pf,j為第j 個元素的融合預測,Pi,j為第j 個元素中第i 個源的預測結果,N 為原預測的個數(shù),i,j ∈{1,2,…,N}。作者最后將該方法與最新的骨齡預測方法進行對比,結果表明該方法具有更好的性能。該方法不同于傳統(tǒng)醫(yī)學圖像融合方法以原始圖像作為輸入,而是使用了NSCT對原始圖像進行分解,既解決了醫(yī)學圖像樣本少的缺點,同時通過圖像分解也獲得了圖像在多個不同角度的特征,使得對目標的描述更加精確。該模型集成了多個VGGNet-16 卷積神經(jīng)網(wǎng)絡分別對NSCT 所分解的特征進行進一步特征提取,因此,這導致模型的復雜度較高,模型訓練時間較長。作者指出基于特征級融合的回歸模型和基于決策級融合的分類模型訓練所消耗時間分別為14.61 h和4.14 h,測試集平均運行時間分別為22.69 ms 和35.36 ms。該模型為離線訓練,因此模型部署后仍具有較好的實時性。此外,該方法雖然只在公開骨齡評估數(shù)據(jù)集上進行驗證,但是同樣適用于其他樣本較小的醫(yī)學圖像融合,具有較好的擴展性。
Zhang 等人[45]提出一種基于多傳感器數(shù)據(jù)融合和DBN(Deep Belief Network)的滾珠絲杠劣化檢測識別方法,如圖3所示。首先通過快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)將多個傳感器采集的時域信號轉換為對應的頻域信號,并通過平行疊加的方式進行融合;然后將融合結果作為輸入通過無監(jiān)督學習的方式對DBN進行訓練;最后使用Softmax 分類器進行分類。在該方法中,融合操作在深度學習模型之前,其融合過程如下所示:
步驟1使用n 個傳感器采集不同位置的時域信號。
步驟2使用FFT 計算n 組時域信號對應的頻譜{f(1)i,f(2)i,…,f(n)i},i=1,2,…,M ,其中M 為每組收集的退化樣本數(shù)。
圖3 基于DBN的多傳感器數(shù)據(jù)融合模型
步驟3將這n 組頻譜按照平行疊加的方式進行融合,得到融合后的頻譜{Fi},i=1,2,…,M ,其中,F(xiàn)i=f(1)i?f(2)i?…?f(n)i,然后將融合后的頻譜進行歸一化。融合后的頻譜的維數(shù)為n 組頻譜維度之和,即dim(Fi)=im(f(j)i)。
為了驗證方法的有效性,作者將該方法與使用未融合數(shù)據(jù)集的DBN 方法進行對比,實驗結果顯示該方法在訓練集和測試集上的表現(xiàn)出較好的準確性和穩(wěn)定性。相對于單傳感器信號,該文獻使用的多傳感器信號對故障描述更加全面、準確。DBN 從融合頻譜中挖掘固有特征,并建立融合頻譜和退化特征之間的非線性映射,有效降低了多傳感器特征提取的難度,避免了特征提取不充分,導致的準確性較差的問題。同時,模型的深度結構和大量神經(jīng)元,使得模型的訓練時間相對于淺層神經(jīng)網(wǎng)絡等方法更長。若采取離線訓練后對模型進行部署,仍能夠保證模型的實時性。該方法采用信號處理常用的手段對傳感器信號進行處理,因此,在多傳感器數(shù)據(jù)融合領域有較好的擴展性。此外,該方法采取平行疊加的方式對數(shù)據(jù)進行融合,但是在傳感器節(jié)點較少的情況下,并不能有效降低某節(jié)點傳感器數(shù)據(jù)異常造成的影響。
Zhai等人[46]提出一種基于深度學習融合識別方法,通過合成孔徑雷達(SAR)圖像數(shù)據(jù)進行融合以提升目標識別準確度,其模型流程如圖4所示。首先通過主成分分析(PCA)對SAR圖像數(shù)據(jù)進行降維,并將其作為輸入,通過堆疊自動編碼器(Stacked Auto-encoder,SAE)來獲取SAR 圖像的深層特征;之后將經(jīng)過預處理的SAR圖像數(shù)據(jù)作為輸入,使用CNN網(wǎng)絡提取深層特征;然后將SAE提取的特征向量和CNN提取的特征向量直接拼接完成融合;最后將融合特征通過Softmax 分類器進行分類。實驗結果表明,該方法能夠有效避免噪聲、背景和姿態(tài)角對目標識別模型的影響,提升了模型的魯棒性。在該方法中,CNN網(wǎng)絡具有較好的平移不變性,能夠有效地提取SAR 數(shù)據(jù)的深層特征,并且對數(shù)據(jù)的背景和噪音具有較好的魯棒性;使用PCA 和SAE 網(wǎng)絡對添加隨機高斯噪聲的SAR 圖像數(shù)據(jù)進行降維,使得模型具有較好的抗噪能力。但是,一維的PCA 特征缺失了圖像的部分域信息,這導致目標識別的精度有所下降。該方法有效降低了姿態(tài)角、背景以及噪聲等對檢測結果影響,因此該方法在SAR 目標檢測中具有較好的適應性和擴展性。
圖4 基于SAE和CNN的數(shù)據(jù)融合模型
除了上述經(jīng)典深度學習方法在數(shù)據(jù)融合中的應用,改進的深度學習方法也在數(shù)據(jù)融合中有廣泛的應用。Zheng 等人[47]使用BPNN 和indRNN 提取數(shù)據(jù)的空間特征和時間特征,并通過全連接層對特征進行融合。該方法通過引入時間特征,大大降低了時間特征對產(chǎn)量預測的影響,降低了預測誤差。
3.2.2 基于深度學習融合的數(shù)據(jù)融合方法
基于深度學習融合的數(shù)據(jù)融合方法中,深度學習模塊的主要功能為對輸入的數(shù)據(jù)進行融合。在實際應用中,該模塊的輸入數(shù)據(jù)可能是原始數(shù)據(jù)集,也可能是經(jīng)過處理后的數(shù)據(jù)特征。盡管在此類方法中,深度學習模塊主要起到數(shù)據(jù)融合作用,但是,通常在數(shù)據(jù)融合操作的同時具有一定的特征提取功能。
Chen等人[48]在故障診斷研究過程中,提出一種基于深度卷積神經(jīng)網(wǎng)絡的數(shù)據(jù)融合模型(DCNN),其模型結構如圖5 所示。由于單個傳感器采集的故障數(shù)據(jù)通常不太穩(wěn)定且噪聲影響嚴重,因此,作者提出在不同位置安裝傳感器,分別用來采集水平振動信號數(shù)據(jù)和垂直振動信號數(shù)據(jù),這使得傳感器數(shù)據(jù)對故障特征描述更加全面和準確。首先對水平振動信號和垂直振動信號進行重疊切片,并將同一時刻的切片信號進行組合,作為DCNN模型的輸入;然后通過DCNN模型對組合后的切片信號進行融合,并同時完成對數(shù)據(jù)的特征提??;最后將融合后的數(shù)據(jù)特征通過Softmax層進行分類。由于使用兩個傳感器同時采集設備在水平和垂直方向上的信號,能夠有效地消除噪聲對所采集到數(shù)據(jù)的影響,并且使得傳感器數(shù)據(jù)對設備狀態(tài)的描述更加全面。通過對同時刻的傳感器信號數(shù)據(jù)進行切片組合也能很好地保留不同傳感器之間的時間相關性。文獻通過實驗證明了將兩個傳感器數(shù)據(jù)融合后進行故障診斷能夠獲得更好的診斷效果。此外,通過在多個數(shù)據(jù)集上與支持向量機(Support Vector Machine,SVM)、BP 神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN)等淺層網(wǎng)絡對比,結果表明通過引入DCNN 數(shù)據(jù)融合方法使得檢測模型具有更好的檢測性能和擴展性。該方法充分體現(xiàn)了基于深度學習數(shù)據(jù)融合的優(yōu)勢,即DCNN模型具有的非線性映射能力,能夠進行特征自動提取并通過數(shù)據(jù)融合提高模型魯棒性。但是,DCNN模型的特征學習能力與神經(jīng)網(wǎng)絡層數(shù)成正比,而深層網(wǎng)絡結構意味著需要更多的訓練數(shù)據(jù)和大量待訓練參數(shù),模型的訓練時間也會更久。但是通過離線訓練后部署模型,仍能夠使模型具有不錯的實時性。此外,該方法對噪聲數(shù)據(jù)并未進行預處理處理操作,因此該方法有進一步研究的空間。
圖5 基于深度卷積神經(jīng)網(wǎng)絡的數(shù)據(jù)融合模型
Wu等人[49]提出一種基于深度長短時記憶神經(jīng)網(wǎng)絡(Deep Long Short Time Memory,DLSTM)數(shù)據(jù)融合預測模型,用于對設備剩余使用壽命預測。該模型以LSTM神經(jīng)單元為基礎,多個LSTM神經(jīng)單元構成LSTM層,DLSTM模型通過多層LSTM層進行疊加構成,其結構如圖6 所示。相較于單傳感器數(shù)據(jù)使用多個傳感器數(shù)據(jù)進行預測,能夠提高預測的準確性和可靠性。在DLSTM模型中,將多傳感器數(shù)據(jù)構造成為二維矩陣,矩陣中的行數(shù)和列數(shù)分別為k 和T ,其中k 為傳感器數(shù)量,T 表示對單個傳感器采樣數(shù)據(jù)量。模型的輸入層神經(jīng)元為所選傳感器信號的數(shù)量,即k。多個LSTM層堆疊構成DLSTM模型對多傳感器數(shù)據(jù)進行融合并提取深層特征,不同的LSTM 層在空間上相連,數(shù)據(jù)從上層神經(jīng)元輸入到下層神經(jīng)元,每個LSTM層的LSTM神經(jīng)元之間進行信息交換。因此,通過在層之間以及神經(jīng)元之間的連接,DLSTM 模型能夠很好地挖掘多傳感器數(shù)據(jù)之間的長期依賴關系。文獻通過實驗驗證了基于DLSTM 數(shù)據(jù)融合預測模型的預測準確率有明顯提高,并且模型的魯棒性也有很大提高。DLSTM模型層與層之間、神經(jīng)元與神經(jīng)元之間的信息交換,使其能夠更好地對多傳感器數(shù)據(jù)進行融合。但是,DLSTM 網(wǎng)絡結構復雜、待訓練參數(shù)較多,因此,DLSTM 網(wǎng)絡的訓練過程較為復雜且漫長,而且對運算設備的計算能力要求更高。該方法的平均在線計算時間為0.18 s,實時性滿足實際應用要求,并且該方法具有較好的多傳感器融合能力,可以廣泛應用于工業(yè)領域中,具有較好的擴展性。
圖6 DLSTM數(shù)據(jù)融合模型結構
Li等人[50]為解決在多源數(shù)據(jù)融合故障診斷中,數(shù)據(jù)融合困難的問題,提出一種基于卷積神經(jīng)網(wǎng)絡的自適應數(shù)據(jù)融合方法,該方法基于卷積神經(jīng)網(wǎng)絡的自適應卷積核設計自適應數(shù)據(jù)融合層,之后提出基于空洞卷積的一維卷積神經(jīng)網(wǎng)絡對融合數(shù)據(jù)特征進行提取。該方法有效降低了多源數(shù)據(jù)的融合難度。Fu 等人[51]提出一種基于殘差網(wǎng)絡的多尺度特征融合卷積神經(jīng)網(wǎng)絡(MCFFCNN),用于車輛顏色識別。MCFF-CNN通過組合不同的網(wǎng)絡層的輸出特征實現(xiàn)圖像特征的多尺度融合,同時將深層網(wǎng)絡和淺層網(wǎng)絡的輸出特征融合,從而獲得車輛圖像的更深層特征。該方法能夠很好地識別出不同光線條件下車輛顏色,方法具有很好的魯棒性。
3.2.3 基于深度學習全過程的數(shù)據(jù)融合方法
基于深度學習全過程數(shù)據(jù)融合方法的特征提取階段以及數(shù)據(jù)融合階段都使用深度學習模型。在該類模型中,特征提取和數(shù)據(jù)融合既可以使用相同類型的深度學習模型,也可以使用不同類型的深度學習模型。
Du 等人[52]提出一種基于CNN 模型、GRU(Gated Recurrent Unit)模型和自適應多模態(tài)聯(lián)合模型的深度學習框架,用于對短時交通流量進行預測,框架結構如圖7 所示。該模型中的CNN 模型用于學習序列數(shù)據(jù)局部趨勢的空間表示,GRU 模型學習長期依賴特征的時間表示,之后將提取出的時間相關特征和空間相關特征,通過帶注意力機制融合層進行初步融合。該過程表示如下:
其中,Si和Ti分別表示輸入數(shù)據(jù)集Ii通過N模型C 和GRU 模型G 得到的空間和時間相關特征,MA 表示帶有注意力機制的特征融合層,Ri表示時間相關特征和空間相關特征Ti和Si的共享表示。至此,僅完成單一模式數(shù)據(jù)類型的融合。為了完成多模式數(shù)據(jù)類型融合,作者提出一種自適應多模態(tài)融合層,融合表示如下:
其中,JM 表示自適應深度學習框架,π 表示不同時空相關特征Ri的融合特征表示,i 表示模態(tài)數(shù)量,Wi和bi表示模型權重和偏置。在該文獻中,模型通過CNN和GRU獲得交通數(shù)據(jù)的深層次非線性相關特征并進行融合,充分考慮了不同交通流數(shù)據(jù)之間的相關性,有效地提高模型的魯棒性和預測精度。由于模型很好地挖掘數(shù)據(jù)時間和空間特征,因此在多模式相關數(shù)據(jù)融合方面具有較好的擴展性。該方法組合多種深度學習模型,具有復雜的網(wǎng)絡結構和較多待學習參數(shù),因此,該模型訓練較為耗時,并且模型對所部署設備的運算能力要求較高。此外,文獻對模型的實時性并未進行評價,但是實時性是短時交通流預測較為重要的指標,因此,還需對模型的實時性做進一步研究。
圖7 基于CNN、GRU和自適應多模態(tài)聯(lián)合數(shù)據(jù)融合模型
Hu等人[53]提出一種基于聯(lián)合監(jiān)督損失和多層特征融合的深度學習判別模型(DDFLJM),該模型由兩部分構成:特征提取網(wǎng)絡(FEN)和特征融合網(wǎng)絡(FFN),該模型簡易結構如圖8 所示。在FEN 中,采用Inception-Resnet-v1作為骨干網(wǎng)絡來快速提取輸入數(shù)據(jù)的低維特征表示,并在引入兩個降維塊(Dimension Reduction Block,DRB)以充分利用深度網(wǎng)絡中間層的輔助特征,其中DRB 的輸入為Inception-Resnet-v1 網(wǎng)絡的中間層輸出,在該部分能夠得到數(shù)據(jù)的低維特征表示(嵌入特征)和輔助特征。在FFN 中,特征的融合主要通過MGTNN(Modified Gated Two-stream Neural Network)進行特征融合,MGTNN 是一個八層深度網(wǎng)絡,相較于GTNN(Gated Two-stream Neural Network),MGTNN 通過增加MFM(Max Feature Map)激活層來進一步降低嵌入特征和輔助特征的維度,進而減少特征包含的冗余信息,并通過添加ReLU 激活層來增加融合網(wǎng)絡的非線性。因此,MGTNN能夠充分利用嵌入特征和輔助特征之間的互補信息完成對特征融合,最終獲得融合特征。文獻通過實驗說明了,對嵌入特征和輔助特征進行融合能夠有效提高模型的識別精度,并且模型的魯棒性也有較為明顯提高。該方法的網(wǎng)絡結構復雜,,參數(shù)變化對結果的影響較大,模型訓練困難,耗時較長。此外,該模型網(wǎng)絡層數(shù)較多,對該模型訓練時需要較多的訓練樣本,否則易出現(xiàn)過擬合問題。因此,該方法雖在人臉識別領域有較好的識別效果,但是由于模型自身網(wǎng)絡特點限制,該模型的擴展性有限。
圖8 DDFLJM數(shù)據(jù)融合模型
除了上述典型的深度學習模型在數(shù)據(jù)融合中的應用,很多研究人員對深度學習模型進行改進,將其應用在數(shù)據(jù)融合領域。Xu 等人[54]為有效融合多傳感器數(shù)據(jù),基于CNN 模型設計并行卷積神經(jīng)網(wǎng)絡(Parallel Convolutional Neural Network,PCNN)用于多傳感器數(shù)據(jù)的特征提取以及特征融合,然后將融合特征以此通過CNN、ResNet、Bi-LSTM獲得時間依賴和空間相關性,從而有效提高融合質(zhì)量和決策精度。Zhang等人[55]提出醫(yī)學圖像樣本偏少,但是含有豐富的信息,使用傳統(tǒng)深度學習方法處理已過擬合。為解決該問題,作者提出一種跨模態(tài)特征學習框架。通過GAN神經(jīng)網(wǎng)絡來獲取圖像的不同模態(tài)特征,之后通過構建的新型深度神經(jīng)網(wǎng)絡對多模態(tài)特征進行深度融合,該方法不僅解決了樣本少導致模型訓練困難的問題,提高了模型的預測精度,同時模型在醫(yī)學圖像領域具有較好的擴展性。
通過對上述基于深度學習的數(shù)據(jù)融合模型分析發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡具有強大的非線性表達能力,使其能夠充分挖掘多源數(shù)據(jù)之間的深層抽象特征,避免了因特征提取不充分導致的影響模型輸出精度降低的問題;深度學習具有的自學習能力,使其能自主獲得多源信息之間的相關性,并按照相關性進行充分融合;基于深度學習的數(shù)據(jù)融合方法在計算能力較強的設備上運行時,具有很好的實時性,能夠滿足相關領域的實時性要求。因此,基于深度學習的數(shù)據(jù)融合方法相較于傳統(tǒng)數(shù)據(jù)融合方法具有更好的性能。雖然深度學習在數(shù)據(jù)融合領域具有較好的應用前景,但是,深度學習模型的自身特點也一定程度上限制其應用。目前,大多數(shù)深度學習算法為了提高網(wǎng)絡的非線性表達能力而增加模型的深度和網(wǎng)絡復雜度,但同時也增加了模型的參數(shù)和模型的訓練難度,運算資源消耗也進一步提高。因此,基于深度學習的數(shù)據(jù)融合方法在傳感器網(wǎng)絡節(jié)點、可移動終端等小型設備并不適用。最后如表1所示,本文從深度學習方法、融合數(shù)據(jù)類型、實時性、擴展性以及資源消耗等方面對本節(jié)中提到的基于深度學習的數(shù)據(jù)融合方法進行歸納總結。
表1 基于深度學習的數(shù)據(jù)融合方法總結
通過對近年來關于數(shù)據(jù)融合文獻的詳細闡述和分析,發(fā)現(xiàn)無論是傳統(tǒng)的數(shù)據(jù)融合方法還是基于深度學習的數(shù)據(jù)融合方法都已經(jīng)得到了廣泛應用。傳統(tǒng)的數(shù)據(jù)融合方法和基于深度學習的數(shù)據(jù)融合方法在算法本質(zhì)上存在不同,這也導致兩者在應用場景、融合思路等方面存在差異。傳統(tǒng)的數(shù)據(jù)融合方法在對數(shù)據(jù)進行特征提取時,通常采用專家制定提取規(guī)則或人工標注等方式進行,因此適合處理小規(guī)模數(shù)據(jù)集。但是人工提取特征會導致提取的特征不全面,無法進一步挖掘多源數(shù)據(jù)間存在的關聯(lián)關系,使得決策精度降低。在實時性方面,傳統(tǒng)數(shù)據(jù)融合方法復雜度相對較低,具有更好的實時性?;谏疃葘W習的數(shù)據(jù)融合方法具有自學習能力和非線性特點,能夠自動挖掘數(shù)據(jù)的相關特征,因此在對海量數(shù)據(jù)進行融合時具有優(yōu)勢。但是基于深度學習的數(shù)據(jù)融合方法的復雜度較高,訓練模型較為費時并且對計算設備的計算能力要求較高。傳統(tǒng)的數(shù)據(jù)融合方法與基于深度學習的數(shù)據(jù)融合方法比較總結如表2所示。
本文對基于深度學習的數(shù)據(jù)融合方法進行了較為全面的綜述。首先對傳統(tǒng)的數(shù)據(jù)融合方法和深度學習方法進行簡單概述;然后,將基于深度學習的數(shù)據(jù)融合方法按照深度學習在數(shù)據(jù)融合中所參與的階段,分為基于深度學習特征提取的數(shù)據(jù)融合方法、基于深度學習融合的數(shù)據(jù)融合方法和基于深度學習全過程的數(shù)據(jù)融合方法,并對每種方法的形式分別進行描述。最后將傳統(tǒng)的數(shù)據(jù)融合方法和基于深度學習的數(shù)據(jù)融合方法進行對比,并根據(jù)基于深度學習的數(shù)據(jù)融合方法的特點進行分析,提出了其目前存在的難點以及未來需要研究的方向。
表2 常用的數(shù)據(jù)融合方法與基于深度學習數(shù)據(jù)融合方法比較
在數(shù)據(jù)量愈加龐大的時代,數(shù)據(jù)融合技術借助深度學習得到進一步發(fā)展?;谏疃葘W習的數(shù)據(jù)融合也成為最有發(fā)展前景的數(shù)據(jù)融合方法。但是,基于深度學習的數(shù)據(jù)融合方法仍存在一些難點。
(1)異構數(shù)據(jù)
多源異構數(shù)據(jù)通常具有不同的數(shù)據(jù)表示方式、數(shù)據(jù)單位、數(shù)據(jù)密度以及數(shù)據(jù)分布,這也體現(xiàn)了數(shù)據(jù)的多模態(tài)。目前,融合數(shù)據(jù)類型較為豐富,包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。異構數(shù)據(jù)特征表示的差異性是數(shù)據(jù)融合的難點。此外,異構數(shù)據(jù)具有高維或超高維特性,而高維數(shù)據(jù)的特征表示對數(shù)據(jù)融合方法也具有挑戰(zhàn)性。如何對多源異構數(shù)據(jù)提取特征并對多模式特征進行融合是需要進一步研究的問題。
(2)數(shù)據(jù)融合模型訓練
基于深度學習的數(shù)據(jù)融合方法通常具有較為復雜的網(wǎng)絡結構,模型復雜度較高。而這些方法在進行訓練時,對計算機運算設備的要求也較高,如3.2 節(jié)中,模型訓練使用的硬件資源有NVIDIA GTX 1080Ti[44]、NVIDIA Tesla K80[52]、NVIDIA Quadro K4200[48]等。因此,基于深度學習的數(shù)據(jù)融合方法只有在消耗大量計算資源的情況下才能確保有效性,這也導致基于深度學習的數(shù)據(jù)融合方法在傳感器等小型設備上并不適用。目前,關于提升深度學習訓練效率的方法主要分為兩類:計算優(yōu)化、硬件優(yōu)化[56]。計算優(yōu)化包括模型結構優(yōu)化、模型剪枝、模型量化等措施,盡可能減少模型計算量,進而尋求模型效果和效率的平衡。硬件優(yōu)化主要是通過增加硬件計算資源或提高硬件的計算速度來提升訓練效率。如何對基于深度學習的數(shù)據(jù)融合方法進行計算優(yōu)化減少計算量,從而減少對高性能計算設備的依賴,擴大方法的應用領域,是基于深度學習的數(shù)據(jù)融合方法未來需要解決的問題。
盡管基于深度學習的數(shù)據(jù)融合方法在應用中還存在一些困難,但是對其進行進一步研究與應用卻是至關重要的。通過對基于深度學習的數(shù)據(jù)融合方法的難點進行分析,從難點的本質(zhì)入手對其進行進一步研究。
(1)異構數(shù)據(jù)融合研究
異構性是大數(shù)據(jù)的主要特征之一,而異構性不可避免會導致數(shù)據(jù)特征存在差異。如何完成對異構數(shù)據(jù)的關聯(lián)、交叉,最終獲得數(shù)據(jù)間的相關關系,這是對異構數(shù)據(jù)融合研究的重點。通過對基于深度學習的數(shù)據(jù)融合方法文獻的分析后發(fā)現(xiàn),目前已有研究人員對異構數(shù)據(jù)融合進行研究。例如,Rodrigues等人[57]提出一種針對時間序列數(shù)據(jù)和文本數(shù)據(jù)的數(shù)據(jù)融合模型,使用不同的深度學習模型學習不同數(shù)據(jù)的特征并融合。在已有研究工作的基礎上,可以對異構數(shù)據(jù)的特點進行分析,通過多模型融合的方式來實現(xiàn)多任務集成的深度學習,并通過挖掘所得的多源異構數(shù)據(jù)關聯(lián)關系實現(xiàn)融合,獲得數(shù)據(jù)的共享表示。
(2)基于深度學習的數(shù)據(jù)融合方法訓練效率
深度學習復雜的網(wǎng)絡結構使其具有很好的數(shù)據(jù)處理能力,但是也帶來了一系列的問題。例如,訓練模型需要大量數(shù)據(jù)、訓練模型對設備的計算能力要求高、訓練模型所耗費的時間較長等。這些問題也制約了基于深度學習的數(shù)據(jù)融合方法發(fā)展。目前,關于提高深度學習模型訓練效率主要在兩個研究方向:其一為增加計算資源,該方法最為有效,但是并不能解決關于模型訓練的根本問題;另一個方向為對模型網(wǎng)絡結構進行壓縮或對網(wǎng)絡參數(shù)進行量化,這類方法能從根本上解決網(wǎng)絡結構復雜帶來的一系列問題,但是這類優(yōu)化操作較為依賴人工經(jīng)驗,費時費力。因此,讓模型在訓練過程中自動完成對網(wǎng)絡結構優(yōu)化,是提升基于深度學習的數(shù)據(jù)融合模型訓練效率有效的手段,值得進行深入研究。
(3)數(shù)據(jù)融合評價體系
對數(shù)據(jù)融合模型的評價應是全面且有充分的依據(jù)作為支撐?,F(xiàn)階段大部分數(shù)據(jù)融合方法的評價是以基于模擬或理想化的假設進行的,這使得很難對模型的實際應用效果做出評價。Laere[58]在有關數(shù)據(jù)融合模型評價的綜述文獻中,討論了在實際應用中數(shù)據(jù)融合性能評估挑戰(zhàn)。在對52 篇數(shù)據(jù)融合相關文獻研究后發(fā)現(xiàn),只有約6%的研究工作是基于實際應用場景對融合模型進行評估的。脫離實際場景對模型進行評價,會使得研究人員更加注重模型在理想化條件下的表現(xiàn),而忽略模型在實際應用場景中的性能,阻礙數(shù)據(jù)融合技術的發(fā)展與應用。因此,建立合理的數(shù)據(jù)融合評價體系,對模型評價過程進行規(guī)范化是數(shù)據(jù)融合重要的研究方向。
(4)數(shù)據(jù)融合模型安全性
目前,大多數(shù)針對數(shù)據(jù)融合的研究注重于提高融合方法的性能,而鮮有對模型安全的相關研究。在數(shù)據(jù)融合的特殊應用領域,如軍事領域,迫切需要安全的模型來完成對軍事數(shù)據(jù)的融合。現(xiàn)階段,模型的攻擊通常發(fā)生在模型的訓練或預測階段,攻擊者通過不同手段對模型的輸入、輸出做出惡意修改或通過某種手段竊取模型的內(nèi)部參數(shù),從而破壞模型的保密性、完整性。保密性攻擊手段主要有:通過構造惡意模型竊取敏感信息;根據(jù)預測信息破解模型參數(shù),通過模型逆向獲得近似原始數(shù)據(jù)的數(shù)據(jù)[59]。完整性攻擊主要通過對輸入數(shù)據(jù)的修改來影響模型的性能。在模型訓練階段,攻擊者對訓練數(shù)據(jù)增加干擾,影響訓練過程從而降低模型的準確性,該階段常見的攻擊手段為數(shù)據(jù)投毒攻擊。在模型預測階段,攻擊者也可以對待預測數(shù)據(jù)進行修改,從而使模型預測出現(xiàn)錯誤,常用的攻擊手段為對抗樣本攻擊。在設計數(shù)據(jù)融合模型時,為保證模型的安全性和可靠性,應該考慮會對模型發(fā)起攻擊的手段以及攻擊強度。目前,大多數(shù)數(shù)據(jù)融合模型在設計時并未過多考慮攻擊者,使得在實際應用中模型抗攻擊能力很弱。因此,模型的安全性是數(shù)據(jù)融合領域亟待進一步研究的方向。