• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙重正則矩陣分解的缺失數(shù)據(jù)恢復(fù)

      2021-05-06 10:11:56芮國勝田文飚
      關(guān)鍵詞:正則矩陣傳感器

      劉 歌, 芮國勝, 田文飚

      (海軍航空大學(xué), 山東 煙臺 264001)

      0 引 言

      現(xiàn)實(shí)場景中,在某一監(jiān)測區(qū)域內(nèi)通過部署多個(gè)傳感器對同一對象進(jìn)行持續(xù)的感知,獲取豐富的信息以支撐不同類型的感知應(yīng)用[1]。這些多傳感器網(wǎng)絡(luò)中收集到的數(shù)據(jù)通常被稱為多源時(shí)間序列。例如,海上浮標(biāo)多個(gè)傳感器監(jiān)測海洋環(huán)境(maritime environment, ME)數(shù)據(jù)(溫度、濕度、壓強(qiáng)、風(fēng)速、風(fēng)向等)以獲取蒸發(fā)波導(dǎo)整體態(tài)勢感知[2];個(gè)人醫(yī)療系統(tǒng)中通過穿戴設(shè)備布設(shè)多個(gè)傳感器監(jiān)測血壓、脈搏、心電等數(shù)據(jù)獲知病人的整體健康狀況[3]。由于惡劣的工作條件或不可控制的因素,導(dǎo)致傳感器網(wǎng)絡(luò)短暫甚至長時(shí)間無法收集數(shù)據(jù)從而出現(xiàn)信息盲區(qū),影響系統(tǒng)的感知應(yīng)用。將上述問題歸結(jié)為多源時(shí)間序列數(shù)據(jù)的缺失信息恢復(fù)問題。該問題廣泛存在于海上氣象要素監(jiān)測傳感器網(wǎng)絡(luò)[4]、電網(wǎng)系統(tǒng)[5]、物聯(lián)網(wǎng)系統(tǒng)[6]、森林防火監(jiān)測系統(tǒng)[7]等各種傳感器網(wǎng)絡(luò)中,因此解決缺失數(shù)據(jù)的恢復(fù)問題具有重要的實(shí)際應(yīng)用價(jià)值。

      缺失數(shù)據(jù)恢復(fù)方法中最簡單的是插值法,文獻(xiàn)[8]提出了基于M分量的概率主成分分析模型和期望最大化(M-component probabilitic principal component analysis-expectation maximization,MPPCA-EM)算法的多重插補(bǔ)算法來預(yù)測歷史降雨時(shí)間序列數(shù)據(jù),該方法簡單易操作,但是僅適用于丟失少量數(shù)據(jù)并且時(shí)間序列變化非常穩(wěn)定的情況[9]。常用的方法還有建模法,這是一種通過掌握數(shù)據(jù)內(nèi)部的隱含規(guī)律,建立模型以預(yù)測缺失數(shù)據(jù)的方法。Frasconi[10]等使用季節(jié)性核來測量時(shí)間序列實(shí)例之間的相似性,并提出將季節(jié)性自回歸綜合移動平均模型與卡爾曼濾波器結(jié)合使用,可實(shí)現(xiàn)丟失數(shù)據(jù)預(yù)測性能。文獻(xiàn)[11]使用了一種基于廣義空間動態(tài)自回歸模型(generalized spatial dynamic autoregression model, GSDAM)的方法對缺失數(shù)據(jù)進(jìn)行預(yù)測。但是基于模型的方法局限性比較大,一旦脫離對應(yīng)的數(shù)據(jù)類型,模型將失效。近年來,基于矩陣填充和矩陣分解(matrix factorization, MF)的方法逐漸興起。矩陣填充方法中各種低秩約束的算法如奇異值閾值(singular value thresholding, SVT)算法[12]、奇異值投影(singular value projection, SVP)算法[13]、基于近似SVD的FPC算法(approximate SVD based FPC algorithm, FPCA)[14]等能夠?qū)崿F(xiàn)缺失數(shù)據(jù)的恢復(fù),但是需要滿足矩陣低秩性和非相干性以及R-RIP條件,約束條件嚴(yán)格。Song等用矩陣分解法預(yù)測流量矩陣,其方法比傳統(tǒng)方法表現(xiàn)出更有效的性能[15],但是未能充分利用數(shù)據(jù)內(nèi)部的先驗(yàn)信息,預(yù)測性能有待提升。文獻(xiàn)[16]時(shí)域動態(tài)矩陣分解(time-domain dynamic matrix factorization, TDMF)的方法,通過施加不同的正則化項(xiàng)來約束矩陣分解的目標(biāo)函數(shù),并建立了5個(gè)相應(yīng)的模型來預(yù)測多變量時(shí)間序列中的缺失數(shù)據(jù),但是對于傳感器數(shù)據(jù)的相關(guān)性計(jì)算忽略了數(shù)據(jù)的變化趨勢相關(guān)性,可能導(dǎo)致相似傳感器的判斷不夠準(zhǔn)確。

      為解決上述問題,本文提出一種基于雙重正則矩陣分解(double regularization matrix factorization, DRMF)的方法,該方法明確地考慮了多源時(shí)間序列在時(shí)間和傳感器兩個(gè)角度下的數(shù)據(jù)特性,充分挖掘先驗(yàn)信息。對于時(shí)間序列,通過定義時(shí)間序列的穩(wěn)定性,利用二階差分正則化進(jìn)行約束;對于多傳感器數(shù)據(jù),引入圖論的基本原理,設(shè)計(jì)了一種基于雙重皮爾遜系數(shù)的相關(guān)性度量策略,獲取表示各傳感器數(shù)據(jù)關(guān)系的拉普拉斯矩陣;最終將圖拉普拉斯正則化與二階差分正則化融入到的矩陣分解框架下,利用梯度下降法實(shí)現(xiàn)目標(biāo)函數(shù)的優(yōu)化。

      1 問題描述

      傳感器網(wǎng)絡(luò)在其網(wǎng)絡(luò)分布區(qū)域收集到的各種ME監(jiān)測數(shù)據(jù)通常以矩陣形式表示,在本文中將該矩陣稱為多源時(shí)間序列矩陣,記作X(X∈Rm×n),其元素xij表示第i(i=1,2,…,m)個(gè)氣象傳感器源在第j(j=1,2,…,n)個(gè)時(shí)刻獲得的某一氣象要素?cái)?shù)據(jù)。缺失信息矩陣X具體可表示為

      X=

      式中,符號“”表示該位置出現(xiàn)缺失數(shù)據(jù);xi∈Rn表示第i個(gè)氣象傳感器源獲取的數(shù)據(jù)向量;tj表示第j個(gè)采樣時(shí)刻。

      2 矩陣分解模型

      矩陣分解是矩陣恢復(fù)中常用的方法,其優(yōu)點(diǎn)在于發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu),并且可以用概率解釋;容易擴(kuò)展到一些指定特定先驗(yàn)信息的領(lǐng)域;可以用許多優(yōu)化方法例如梯度下降法來找到一個(gè)最優(yōu)解。奇異值分解是其中最為普遍的一種分解方法,給定X∈Rm×n,X的奇異值分解為

      X=UΣVT

      (1)

      式中,U∈Rm×r表示傳感器源隱含因子矩陣;V∈Rn×r表示時(shí)間序列隱含因子矩陣;Σ∈Rr×r為對角陣,對角元素是矩陣X奇異值;r表示隱含因子的維度。

      式(1)可以轉(zhuǎn)換為兩個(gè)矩陣相乘的表示形式,即

      X=SQT

      (2)

      為了后續(xù)計(jì)算方便,定義一個(gè)矩陣I∈Rm×n,用來表示矩陣X的缺失位置,即其中元素值為0表示此處信息缺失,元素值為1則相反。將缺失矩陣看作是完整矩陣與缺失位置矩陣的哈達(dá)瑪乘積,即

      X′=I°X

      (3)

      式中,X′表示缺失信息的矩陣。為實(shí)現(xiàn)矩陣X的信息恢復(fù),需要完成最優(yōu)化問題:

      (4)

      為了防止過擬合,分別對兩個(gè)隱含因子進(jìn)行約束:

      (5)

      式中,λS和λQ表示正則化參數(shù)。

      3 算法實(shí)現(xiàn)

      3.1 時(shí)間序列的正則化設(shè)計(jì)

      現(xiàn)實(shí)場景中,各傳感器數(shù)據(jù)通常呈現(xiàn)為有限時(shí)間內(nèi)的緩慢變化,把這種一定時(shí)間段內(nèi)的緩變現(xiàn)象稱為時(shí)間序列的穩(wěn)定性。

      多源時(shí)間序列矩陣X的行向量為某一傳感器的時(shí)間序列,計(jì)算xij前后兩個(gè)相鄰位置的差值并作歸一化處理,得

      (6)

      以海洋氣象數(shù)據(jù)的獲取為例,海上傳感器網(wǎng)絡(luò)通過在指定海域部署大量海上傳感器節(jié)點(diǎn),采集網(wǎng)絡(luò)分布區(qū)域內(nèi)的各種環(huán)境要素,然后通過各類通信手段將采集到的數(shù)據(jù)傳送到監(jiān)測中心。TAO/TRITON和PIRATA的浮標(biāo)測量海洋和海表面氣象參數(shù)多達(dá)20余種,本文限于篇幅,僅對幾種典型數(shù)據(jù)進(jìn)行分析,即蒸發(fā)波導(dǎo)特性研究所需要的氣溫、風(fēng)速、海表溫度、壓強(qiáng)、相對濕度等環(huán)境要素。氣溫、風(fēng)速、海表溫度、壓強(qiáng)和相對濕度5種海洋氣象環(huán)境要素?cái)?shù)據(jù)的統(tǒng)計(jì)累積分布如圖1所示。

      圖1 5種ME數(shù)據(jù)時(shí)間序列穩(wěn)定性分析

      從圖1中曲線可以看出,5種傳感器的時(shí)間序列在一定的時(shí)間范圍內(nèi)變化緩慢,其中溫度和海表溫度以及濕度3種傳感器數(shù)據(jù)的r(i)≤0.1的比重占90%以上,風(fēng)速和壓強(qiáng)兩種傳感器r(i)≤0.2的比重占90%以上。所以,多源傳感器時(shí)間序列的穩(wěn)定性可以作為先驗(yàn)信息加入矩陣分解的框架中。

      基于上述分析,將時(shí)間序列隱含因子二階差分的正則化約束引入到目標(biāo)函數(shù):

      (7)

      式中,H表示二階差分矩陣;α表示正則化參數(shù),有

      (8)

      3.2 多源傳感器隱含因子的正則化設(shè)計(jì)

      在多源傳感器網(wǎng)絡(luò)中,盡管各傳感器的任務(wù)不同,獲取的數(shù)據(jù)單位不同,但是其目標(biāo)相同,因此某些傳感器之間可能存在很強(qiáng)的相關(guān)性。例如,環(huán)境監(jiān)測傳感器網(wǎng)絡(luò)中,溫度和濕度之間可能存在著較強(qiáng)的相關(guān)性;個(gè)人醫(yī)療監(jiān)護(hù)系統(tǒng)中,心跳和血壓之間也可能存在高度相關(guān)性。這些相關(guān)性的信息都是多傳感器元數(shù)據(jù)的先驗(yàn)信息。

      為了更好地將多源傳感器時(shí)間序列的先驗(yàn)信息融入到矩陣分解的框架中,受到圖論被廣泛用于探索數(shù)據(jù)內(nèi)部的幾何結(jié)構(gòu)的啟發(fā),本文引入圖正則化對多傳感器數(shù)據(jù)之間的相互關(guān)系進(jìn)行約束。從文獻(xiàn)[17]和文獻(xiàn)[18]中獲知,如果兩組數(shù)據(jù)在數(shù)據(jù)分布的內(nèi)在幾何結(jié)構(gòu)中很接近,那么這兩組數(shù)據(jù)相對于基函數(shù)的表示也很接近。這種假設(shè)通常被稱為局部不變假設(shè)。因此對多源時(shí)間序列,式(2)還可以表示為

      (9)

      式中,sj=[sj1,sj2,…,sjr]表示傳感器隱含因子矩陣S的行向量;qi表示矩陣Q的列向量;xj表示矩陣X的行向量。式(9)可以近似看作由S分量加權(quán)的Q列向量的線性組合。換個(gè)角度來看,將qi看作是基向量,[sj1,sj2,…,sjr]就是此基向量下的表示。因此,若兩個(gè)傳感器時(shí)間序列數(shù)據(jù)本身是相似的,那么傳感器隱含因子也是相似的。針對給定的大小為m的傳感器數(shù)據(jù)集{X1,X2,…,Xm},為這個(gè)數(shù)據(jù)集構(gòu)造一個(gè)具有m個(gè)結(jié)點(diǎn)的無向圖,節(jié)點(diǎn)之間邊的權(quán)重值則表示兩節(jié)點(diǎn)之間的相似程度,這樣就為數(shù)據(jù)集構(gòu)建了一個(gè)最近鄰圖。首先構(gòu)造近鄰圖,如果xi,xj是近鄰關(guān)系,就在i節(jié)點(diǎn)和j節(jié)點(diǎn)之間添加一條邊,然后確定近鄰圖邊上的權(quán)重值,得到權(quán)重矩陣W。基于此,兩個(gè)傳感器數(shù)據(jù)之間的相似關(guān)系可以表示為

      (10)

      式中,si和sj表示第i個(gè)傳感器隱含因子和第j個(gè)傳感器隱含因子;Wij表示權(quán)重,具體表示為

      (11)

      式中,si和sj滿足的相似條件將在下面進(jìn)行詳細(xì)探討。

      2tr(ST(D-W)S)=2tr(STLS)

      (12)

      將傳感器隱含因子的拉普拉斯正則化加入到式(4)中,可以得到

      (13)

      式中,γ表示正則化參數(shù)。

      基于此,為更好地說明不同傳感器數(shù)據(jù)之間的相互關(guān)系,本文從兩個(gè)傳感器數(shù)據(jù)之間的相關(guān)性和時(shí)間序列變化趨勢之間的關(guān)系入手,利用統(tǒng)計(jì)學(xué)中的皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)來度量兩個(gè)變量之間的相關(guān)程度,其表達(dá)式為

      (14)

      而僅采用 PCC計(jì)算兩個(gè)傳感器數(shù)據(jù)樣本之間相似性,忽略了變化趨勢的相關(guān)性,因此增加對數(shù)據(jù)變化趨勢的相似程度對比對于相似傳感器的判定,會更有說服力?;谏鲜龇治?本文提出聯(lián)合一階擬合系數(shù)的PCC和數(shù)據(jù)本身的PCC的相似傳感器判定方法,為表示方便,將兩次求PCC的方法在本文中稱為D-PCC。

      一階擬合系數(shù)是指通過對各傳感器時(shí)間序列進(jìn)行分段擬合得到的系數(shù)組成的一組向量,這組向量就是傳感器數(shù)據(jù)變化趨勢的真實(shí)反應(yīng)。因此,利用任意兩個(gè)傳感器的一階擬合系數(shù)來感知數(shù)據(jù)變化趨勢的相似性。假設(shè)兩個(gè)傳感器時(shí)間序列將Xi=[xi1,xi2,…,xin]和Xj=[xj1,xj2,…,xjn]均分為z段,分別對每一段進(jìn)行一階擬合,得到的系數(shù)組分別為a=[a1,a2,…,az]和b=[b1,b2,…,bz],因此一階擬合系數(shù)的相似度可以計(jì)算為

      (15)

      因此,定義當(dāng)且僅當(dāng)任意兩個(gè)傳感器感知數(shù)據(jù)的綜合相關(guān)系數(shù)Ci, j

      相似傳感器的定義建立在對兩個(gè)傳感器數(shù)據(jù)本身大小和變化趨勢兩者比較的基礎(chǔ)之上,該定義為衡量任意兩個(gè)傳感器之間是否具有穩(wěn)定的數(shù)據(jù)相關(guān)性提供了依據(jù)。兩個(gè)傳感器的數(shù)據(jù)達(dá)到該衡量標(biāo)準(zhǔn),無向圖中就可以在相似傳感器之間加一條邊,鄰接矩陣W就是對圖中的邊進(jìn)行統(tǒng)計(jì)。

      3.3 多源時(shí)間序列缺失信息恢復(fù)模型確立

      第3.1節(jié)和第3.2節(jié)的分析,旨在從傳感器和時(shí)間序列兩個(gè)角度充分挖掘多源時(shí)間序列的先驗(yàn),對于提高缺失信息的恢復(fù)性能具有重要作用,因此本小節(jié)將兩種先驗(yàn)約束統(tǒng)一于矩陣分解的框架下,提出基于時(shí)序差分正則化和圖拉普拉斯正則化的矩陣分解方法用于解決缺失數(shù)據(jù)的恢復(fù)問題。目標(biāo)函數(shù)的最優(yōu)化問題可以重新歸結(jié)為

      (16)

      通過梯度下降來優(yōu)化式(16)所述的目標(biāo)函數(shù),即

      (17)

      (18)

      結(jié)合上述分析和計(jì)算,將算法步驟總結(jié)如算法1所示來解決式(16)中所示的問題。在給定多變量時(shí)間序列X以及各種參數(shù)的條件下,設(shè)計(jì)該算法以獲得隱含因子特征矩陣S和Q更精確的解。算法更新的停止條件可以選擇預(yù)先設(shè)置的迭代次數(shù),也可以是前后兩次迭代的誤差小于某一閾值,每次迭代都根據(jù)回溯線搜索策略更新步長τS和τQ,最終缺失數(shù)據(jù)可以從恢復(fù)矩陣中得到。

      算法 1 DRMF算法輸入 多源時(shí)間序列X,指示矩陣I,參數(shù)r,λS,λQ,α,β,步長τ,閾值c,迭代次數(shù)iters輸出 恢復(fù)后的多源時(shí)間序列^X步驟1 獲取拉普拉斯矩陣(1) 綜合相關(guān)系數(shù)判別法確定權(quán)重矩陣W。根據(jù)式(14)、式(15)計(jì)算傳感器i和j的PCC_ab和PCC_X,從而得到Ci,j=12·(PCC_ab+PCC_X)當(dāng)且僅當(dāng)Ci,j

      4 算法性能分析及仿真實(shí)驗(yàn)

      4.1 算法可行性分析

      仿真實(shí)驗(yàn)中,在完整數(shù)據(jù)的基礎(chǔ)上剔除一部分?jǐn)?shù)據(jù),剔除數(shù)據(jù)的數(shù)目占原始數(shù)據(jù)總數(shù)目的比例稱為信息缺失率。數(shù)據(jù)缺失的類型根據(jù)產(chǎn)生原因不同大體上可以分為隨機(jī)型、均勻型和連續(xù)型3類。在進(jìn)行D-PCC相關(guān)系數(shù)計(jì)算時(shí),對隨機(jī)型和均勻型缺失來說,缺失數(shù)據(jù)或隨機(jī)或均勻地分布在數(shù)據(jù)中,將缺失數(shù)據(jù)剔除,剔除前后的曲線變化趨勢沒有受到很大影響。將剔除缺失值后的數(shù)據(jù)曲線與原始數(shù)據(jù)曲線進(jìn)行對比,如圖2所示。數(shù)據(jù)缺失類型為隨機(jī)缺失,缺失率為0.7。

      圖2 原始時(shí)間序列與剔除缺失數(shù)據(jù)序列的曲線對比

      從兩幅圖的對比中可以看出,剔除缺失數(shù)據(jù)前后的曲線變化趨勢極其相似,說明剔除缺失數(shù)據(jù)不但不會對整體的相關(guān)計(jì)算產(chǎn)生影響,反而因?yàn)槿笔恢蒙系臄?shù)據(jù)點(diǎn)的剔除,實(shí)現(xiàn)了數(shù)據(jù)的整體縮減,使得后續(xù)計(jì)算的數(shù)據(jù)量減少。從另一個(gè)角度來看,這樣做也提高了處理較長時(shí)間跨度內(nèi)時(shí)間序列的能力。對于均勻缺失也是同樣的情況。不同的是連續(xù)型缺失,這種類型的缺失情況可能導(dǎo)致一段時(shí)間內(nèi)的數(shù)據(jù)缺失,而其他時(shí)間數(shù)據(jù)沒有發(fā)生缺失,這種情況下將缺失數(shù)據(jù)的位置剔除,獲得的曲線與前兩種類型不同,因此不能直接用來進(jìn)行相關(guān)性計(jì)算。針對這種情況,本文采用分階段相關(guān)計(jì)算的方法,以缺失位置為界,前后分別對相應(yīng)位置上的數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算和曲線變化趨勢相關(guān)性計(jì)算,其余計(jì)算方法不變。

      4.2 算法收斂條件

      若要保證梯度下降法始終有效收斂,需要在正確范圍內(nèi)選擇迭代過程中的步長。下面通過Lipschitz條件對梯度下降過程中的步長上界進(jìn)行推導(dǎo)。

      定理 1(β平滑) 若函數(shù)f(x)滿足Lipschitz條件,則存在一個(gè)常量β(β>0),使f(x)在定義域上的任意2個(gè)值滿足:

      (19)

      定理 2(收斂條件) 假設(shè)凸函數(shù)f(x)滿足β平滑條件,以xn為當(dāng)前點(diǎn),以x*為最優(yōu)點(diǎn),如果τn≤1/β,則‖xn-x*‖隨n的減小而減小。

      現(xiàn)在目標(biāo)函數(shù)如式(16)所示,那么首先根據(jù)定理1推導(dǎo)變量S和Q的β平滑條件。對于變量S,將式(17)代入式(19)中得

      ‖(S1QT-X)Q+λSS1+γ(L+LT)S1-

      (S2QT-X)Q+λSS2+γ(L+LT)S2‖=

      ‖(S1-S2)QTQ+(λSI+γ(L+LT))(S1-S2)‖≤

      ‖(S1-S2)QTQ‖+‖(λSI+γ(L+LT))(S1-S2)‖≤

      ‖S1-S2‖‖QTQ‖+‖λSI+γ(L+LT)‖‖S1-S2‖=

      (‖QTQ‖+‖λSI+γ(L+LT)‖)‖S1-S2‖

      (20)

      由于此時(shí)‖QTQ‖+‖λSI+γ(L+LT)‖是已知的數(shù)據(jù),所以令β=‖QTQ‖+‖λSI+γ(L+LT)‖且β>0時(shí),E(S)滿足L-Lipschitz條件,若想保證式(17)的整個(gè)迭代過程收斂,根據(jù)定理2,第t次迭代過程中的步長滿足:

      同理,對于變量Q,將式(18)代入式(19)中得

      ‖(Q1-Q2)STS+λQ(Q1-Q2)+α(Q1-Q2)HTH‖=

      ‖(Q1-Q2)(STS+λQI-αHTH)‖≤

      ‖STS+λQI-αHTH‖‖Q1-Q2‖

      (21)

      同樣,由于此時(shí)‖STS+λQI-αHTH‖是已知的數(shù)據(jù),所以β=‖STS+λQI-αHTH‖且β>0時(shí),E(Q)滿足L-Lipschitz條件。若要保證式(18)的整個(gè)迭代過程收斂,根據(jù)定理2,第t次迭代過程中的步長應(yīng)滿足:

      4.3 不同算法性能對比

      為了評估該方法的性能,利用均方根誤差(root mean square error,RMSE)來衡量信息恢復(fù)質(zhì)量。RMSE計(jì)算方式為

      (22)

      本文以3種數(shù)據(jù)集合作為實(shí)驗(yàn)對象,以RMSE為評價(jià)標(biāo)準(zhǔn),對算法性能進(jìn)行測試,每次試驗(yàn)得到的結(jié)果都是50次結(jié)果的平均值。

      實(shí)驗(yàn)部分采用一個(gè)合成的MTS數(shù)據(jù)集和兩個(gè)真實(shí)的MTS數(shù)據(jù)集。

      (1) 合成(synthetic, SYN)數(shù)據(jù)集:由Asin(ωt+φ)+n產(chǎn)生,其中振幅A取值范圍為[1,2,3],角頻率ω取值范圍為[1,π,2π],初相φ的取值范圍為[0,π/2,π],n為加性高斯白噪聲,時(shí)間序列長度為104。

      (2) 海洋環(huán)境數(shù)據(jù)集:來自國內(nèi)山東煙臺芝罘島氣象站的ME數(shù)據(jù)集,含氣溫、風(fēng)速、海表溫度、壓強(qiáng)和相對濕度的每小時(shí)測量值,時(shí)間范圍為2017年1月1日20時(shí)-2018年9月4日23時(shí),時(shí)間分辨率為1 h,取時(shí)間序列長度為104。

      (3) Motes數(shù)據(jù)集:來自英特爾-伯克利實(shí)驗(yàn)室54個(gè)MieahDot傳感器獲得的數(shù)據(jù),時(shí)間從2004年2月28日-2004年4月5日。選取其中23個(gè)傳感器數(shù)據(jù)進(jìn)行分析,時(shí)間序列長度為104。

      利用算法對剔除的數(shù)據(jù)進(jìn)行預(yù)測,然后通過預(yù)測值與原實(shí)際值的對比來評價(jià)預(yù)測算法的性能。依據(jù)相關(guān)文獻(xiàn)中通常采用的數(shù)據(jù)劃分方式,將數(shù)據(jù)集劃分為90%的訓(xùn)練集和10%的測試集。

      為方便計(jì)算,令正則化參數(shù)λS=λQ=0.1。對于SYN數(shù)據(jù)集、ME數(shù)據(jù)集以及Motes數(shù)據(jù)集,3組數(shù)據(jù)梯度下降法的步長在每次迭代中都根據(jù)回溯線搜索策略更新。下面對其他參數(shù)設(shè)置進(jìn)行具體討論。實(shí)驗(yàn)中具體的參數(shù)設(shè)置如表1所示。

      表1 DRMF算法在不同數(shù)據(jù)集下的參數(shù)

      4.3.1 算法恢復(fù)性能對比

      將DRMF算法與其他4種算法進(jìn)行仿真比較,以對算法性能進(jìn)行有效評估,對比算法包括:基于GSDAM的算法、基于SVP的方法、基于TDMF的算法以及不添加正則項(xiàng)的MF算法。

      DRMF算法與對比算法在缺失率不同的條件下的缺失信息恢復(fù)性能對比如圖3所示,通過對圖中數(shù)據(jù)的分析可以得到以下結(jié)論。

      圖3 不同數(shù)據(jù)集下算法性能對比

      從曲線的總體趨勢來看,DRMF算法顯示出更低的RMSE,證明了基于DRMF的方法是恢復(fù)多變量時(shí)間序列缺失值的有效方法。隨著缺失率的升高,誤差逐漸增大,但是在缺失率為90%時(shí),誤差仍處于合理范圍內(nèi)。具體來說,不同數(shù)據(jù)集中,DRMF算法的恢復(fù)性能不同,在ME數(shù)據(jù)集中,恢復(fù)誤差更小,這可能與該數(shù)據(jù)集的傳感器較少且相關(guān)性較強(qiáng)有關(guān)。對比算法中,SVP算法的重構(gòu)精度較低,這是因?yàn)槿笔实奶岣邥?dǎo)致采樣數(shù)目的降低,從而使得矩陣填充算法的精確重構(gòu)條件難以達(dá)到,因此誤差較大。未加正則項(xiàng)的MF算法RMSE顯然要高于本文算法,充分證明了融合先驗(yàn)信息之后,對MF算法恢復(fù)數(shù)據(jù)的準(zhǔn)確性提高起到了極大的作用。

      4.3.2 算法運(yùn)算時(shí)間對比

      在3種數(shù)據(jù)集中的缺失率都設(shè)置為0.7的前提下,表2給出了本文算法與4種對比算法在上述3種數(shù)據(jù)集中100次計(jì)算過程的平均運(yùn)行時(shí)間。仿真實(shí)驗(yàn)環(huán)境為Inter Core i7, 2.30 GHz處理器,Windows10操作系統(tǒng),仿真軟件為Matlab R2016 b。

      表2 不同算法平均運(yùn)行時(shí)間的比較

      從表2中數(shù)據(jù)可以看出,未加正則項(xiàng)的MF算法的運(yùn)行時(shí)間最短,DRMF算法的運(yùn)行時(shí)間比MF算法長,但是明顯比GSDAM算法短,總體來說運(yùn)算時(shí)間在一個(gè)合理的范圍內(nèi)。

      5 結(jié) 論

      本文針對多源時(shí)間序列缺失數(shù)據(jù)恢復(fù)精度不高的問題,提出了一種基于雙重正則矩陣分解的方法,該方法在挖掘數(shù)據(jù)內(nèi)部先驗(yàn)信息的基礎(chǔ)上,利用時(shí)間序列的平滑性構(gòu)建時(shí)間序列隱含因子的二階差分正則項(xiàng),引入反映數(shù)據(jù)內(nèi)部結(jié)構(gòu)的圖拉普拉斯正則項(xiàng)對傳感器隱含因子進(jìn)行約束,并在圖拉普拉斯矩陣獲取過程中設(shè)計(jì)了一種聯(lián)合歐式距離和D-PCC的相關(guān)性度量策略,最后將雙正則項(xiàng)統(tǒng)一于矩陣分解的框架中,從而獲得較高的恢復(fù)性能。但是復(fù)雜的先驗(yàn)融入矩陣分解的結(jié)構(gòu)之后,會導(dǎo)致計(jì)算復(fù)雜度隨著數(shù)據(jù)量的增加而上升,因此DRMF算法框架下的大規(guī)模數(shù)據(jù)的計(jì)算效率問題是下一步需要解決的問題。

      猜你喜歡
      正則矩陣傳感器
      康奈爾大學(xué)制造出可拉伸傳感器
      簡述傳感器在物聯(lián)網(wǎng)中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:52
      “傳感器新聞”會帶來什么
      傳媒評論(2019年5期)2019-08-30 03:50:18
      跟蹤導(dǎo)練(三)2
      剩余有限Minimax可解群的4階正則自同構(gòu)
      類似于VNL環(huán)的環(huán)
      初等行變換與初等列變換并用求逆矩陣
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      岫岩| 怀化市| 遂平县| 兴海县| 邯郸市| 平利县| 水富县| 彩票| 本溪市| 通榆县| 庆云县| 福贡县| 临城县| 罗平县| 公安县| 九台市| 三亚市| 托里县| 遂溪县| 正蓝旗| 宁陵县| 紫阳县| 西平县| 龙井市| 从江县| 西宁市| 正安县| 绥江县| 南部县| 永安市| 合水县| 胶州市| 霸州市| 安岳县| 金湖县| 海南省| 洮南市| 洞口县| 康乐县| 根河市| 福州市|