張?zhí)m秋月
摘要:伴隨著信息技術(shù)的飛速發(fā)展,城市越來(lái)越智能化。萬(wàn)物互聯(lián),不同的傳感器隨時(shí)產(chǎn)生著大量的數(shù)據(jù),這些數(shù)據(jù)廣泛地應(yīng)用于后續(xù)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域。然而在數(shù)據(jù)收集過(guò)程中無(wú)法避免數(shù)據(jù)的缺失。文中介紹了當(dāng)前缺失數(shù)據(jù)恢復(fù)領(lǐng)域面臨的問(wèn)題和挑戰(zhàn),闡述了缺失數(shù)據(jù)定義及缺失數(shù)據(jù)分類(lèi)機(jī)制,針對(duì)上述兩類(lèi)缺失值處理方法進(jìn)行傳統(tǒng)方法的總結(jié),最后探究深度學(xué)習(xí)如DBN(深度置信網(wǎng)絡(luò))、GAN(生成式對(duì)抗網(wǎng)絡(luò))在缺失數(shù)據(jù)恢復(fù)領(lǐng)域的新進(jìn)展。
關(guān)鍵詞:數(shù)據(jù)缺失;缺失數(shù)據(jù)分類(lèi)機(jī)制;數(shù)據(jù)插補(bǔ);GAN
中圖分類(lèi)號(hào):TP301? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)25-0048-03
1引言
1.1? 面臨的挑戰(zhàn)
在數(shù)據(jù)的收集、傳輸、存儲(chǔ)場(chǎng)景中,由于各種不可抗的因素,會(huì)造成部分?jǐn)?shù)據(jù)丟失的情況,這種現(xiàn)象也被稱(chēng)為數(shù)據(jù)缺失。數(shù)據(jù)缺失的現(xiàn)象是從出現(xiàn)數(shù)據(jù)統(tǒng)計(jì)就出現(xiàn)的,但最初并未引起學(xué)者們的重視 [1]。隨著信息技術(shù)的發(fā)展我們進(jìn)入了信息時(shí)代,各行各業(yè)產(chǎn)生的數(shù)據(jù)呈爆發(fā)增長(zhǎng)的態(tài)勢(shì),這些數(shù)據(jù)存在一些新的特點(diǎn),如數(shù)據(jù)的體量特別龐大,且具有強(qiáng)耦合性、高維的特點(diǎn);大量由傳感器產(chǎn)生的數(shù)據(jù)不確定很強(qiáng);同一個(gè)數(shù)據(jù)集中,數(shù)據(jù)類(lèi)型多樣;測(cè)量過(guò)程中由于整個(gè)系統(tǒng)的復(fù)雜性導(dǎo)致的多時(shí)變性與不完整性。故傳統(tǒng)的數(shù)據(jù)恢復(fù)方法已經(jīng)不能解決如高維數(shù)據(jù)缺失的問(wèn)題。
數(shù)據(jù)缺失的情況不僅僅會(huì)在科學(xué)研究過(guò)程中出現(xiàn),在常規(guī)的面向群體的調(diào)查中也會(huì)存在,我們將一些沒(méi)有辦法直接獲得和因?yàn)樵O(shè)備故障等客觀原因丟失的數(shù)據(jù)叫做缺失數(shù)據(jù)。數(shù)據(jù)缺失會(huì)對(duì)下游分析任務(wù)如:機(jī)器學(xué)習(xí)中的分類(lèi)聚類(lèi)、數(shù)據(jù)分析挖掘和潛在知識(shí)發(fā)現(xiàn)帶來(lái)嚴(yán)重的阻礙。究其原因,數(shù)據(jù)缺失不僅會(huì)降低數(shù)據(jù)的有效性,還會(huì)導(dǎo)致整個(gè)數(shù)據(jù)分析任務(wù)不精準(zhǔn),產(chǎn)生錯(cuò)誤的分析結(jié)果,因此對(duì)缺失數(shù)據(jù)的處理顯得極其重要。
1.2 缺失數(shù)據(jù)分類(lèi)
數(shù)據(jù)缺失按照其缺失的形式如圖1所示[2]。我們按照這種分類(lèi)方法能夠直觀的認(rèn)識(shí)數(shù)據(jù)集中不同數(shù)據(jù)之間的關(guān)系,明確數(shù)據(jù)集中存在的數(shù)據(jù)和缺失數(shù)據(jù)是如何構(gòu)成的。
第二種分類(lèi)方法關(guān)注缺失值在數(shù)據(jù)中的分布情況,具體描述如表1所示。
其中隨機(jī)缺失如公式(1)所示,數(shù)據(jù)集Y缺失值數(shù)據(jù)Ymis的概率與其本身沒(méi)有關(guān)系,但與其觀測(cè)到的值Yobs有關(guān)。
完全隨機(jī)缺失如公式(2)所示,其中缺失數(shù)據(jù)Ymis與觀測(cè)到的數(shù)據(jù)Yobs沒(méi)有任何關(guān)系。
2缺失值處理方法
2.1刪除法
2.1.1成列刪除與成對(duì)刪除
成列刪除的思想是:在任意個(gè)案中存在某個(gè)變量的缺失,便簡(jiǎn)單地將該個(gè)案所有數(shù)據(jù)從分析中排除,也稱(chēng)為個(gè)案刪除[3]。低于5%的缺失個(gè)案可以被認(rèn)為是MAR,此時(shí)通過(guò)傳統(tǒng)方法中的成列刪除是比較安全合理的。
對(duì)應(yīng)的成對(duì)刪除的思想是:不直接刪除存在數(shù)據(jù)缺失的個(gè)案,在對(duì)其他無(wú)缺失變量進(jìn)行計(jì)算時(shí)納入計(jì)算,又稱(chēng)成對(duì)刪除為可得個(gè)案分析。假設(shè)數(shù)據(jù)為MCAR,成對(duì)刪除在大樣本中會(huì)接近無(wú)偏差,與成列刪除相比將會(huì)產(chǎn)生更有效的估計(jì)值。
2.2插補(bǔ)法
2.2.1均值插補(bǔ)
從數(shù)據(jù)屬性角度講,可以分成定距型和非定距型兩類(lèi)。我們可以將定距屬性的平均值進(jìn)行缺失數(shù)據(jù)的補(bǔ)充。相似的對(duì)于非定距屬性,插補(bǔ)的值由平均值更換為數(shù)據(jù)中出現(xiàn)次數(shù)最多的值即眾數(shù)。由于均值只有一個(gè),所以該方法又被稱(chēng)為單一均值插補(bǔ)。填補(bǔ)值如公式(3)所示:
但由于該方法插補(bǔ)的數(shù)據(jù)也是來(lái)自分布中的數(shù)值,將帶來(lái)處理后的數(shù)據(jù)方差與數(shù)據(jù)實(shí)際的方差不同的問(wèn)題。
同類(lèi)均值插補(bǔ)與均值插補(bǔ)類(lèi)似,差異在于同類(lèi)均值插補(bǔ)會(huì)先使用聚類(lèi)模型對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)處理,再使用跟缺失數(shù)據(jù)為同一類(lèi)型的數(shù)據(jù)均值進(jìn)行缺失數(shù)據(jù)的插補(bǔ)[4]。顯然,同類(lèi)均值插補(bǔ)和單一均值插補(bǔ)相比更為精準(zhǔn),但仍存在一定問(wèn)題,插補(bǔ)的同類(lèi)數(shù)據(jù)會(huì)引起自相關(guān),在一定場(chǎng)景下會(huì)影響后續(xù)的分析。
2.2.2極大似然估計(jì)
在數(shù)據(jù)缺失類(lèi)型為MAR的情況下,我們可以利用極大似然估計(jì)對(duì)缺失值進(jìn)行填補(bǔ)[5]。通常情況,我們需要最大化似然度來(lái)求參數(shù)的最優(yōu)值。公式(4)表示含隱變量的極大似然公式,要求得似然度需要對(duì)不可觀測(cè)的隱變量zi進(jìn)行求和或積分,這使得優(yōu)化公式(4)非常困難。
為了解決上述問(wèn)題, EM(最大期望)算法擴(kuò)展了極大似然估計(jì),解決了極大似然估計(jì)問(wèn)題很難得到解析解的問(wèn)題[2]。在大樣本的情況下[6],使用EM算法比簡(jiǎn)單的刪除和單值插補(bǔ)更有用,但其也有計(jì)算復(fù)雜,收斂速度比較慢的缺點(diǎn)。
2.2.3多重插補(bǔ)
多重插補(bǔ)又被稱(chēng)為多值插補(bǔ),理論基礎(chǔ)為貝葉斯估計(jì)[7]。它認(rèn)為缺失的值是隨機(jī)的,并且來(lái)自于已觀測(cè)到的值。具體操作時(shí),在已得到的待插補(bǔ)值上混合不同的噪聲數(shù)據(jù),形成多組待插補(bǔ)值,隨后根據(jù)具體場(chǎng)景需求,選取最合適的一組進(jìn)行缺失值填補(bǔ)。
3深度學(xué)習(xí)應(yīng)用于數(shù)據(jù)修復(fù)
3.1深度置信網(wǎng)絡(luò)應(yīng)用于傳感器數(shù)據(jù)恢復(fù)(DBN)
深度置信網(wǎng)絡(luò)又可以稱(chēng)其為一個(gè)概率生成模型[8]。深度置信網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,通俗來(lái)講,網(wǎng)絡(luò)可分為隱藏層和可見(jiàn)層,各層之間有連接,通過(guò)放入數(shù)據(jù)訓(xùn)練,隱藏層可輸出和可見(jiàn)層相關(guān)的數(shù)據(jù)特征。
在大型監(jiān)控系統(tǒng)中,部署了不同位置的傳感器來(lái)收集大量有用的時(shí)間序列數(shù)據(jù),這有助于實(shí)時(shí)數(shù)據(jù)分析及其相關(guān)應(yīng)用。但是,受硬件設(shè)備本身的影響,傳感器節(jié)點(diǎn)通常無(wú)法工作,導(dǎo)致收集的數(shù)據(jù)不完整的常見(jiàn)現(xiàn)象。Jing、Hai等人用深度置信網(wǎng)絡(luò)DBN提取這些時(shí)空相關(guān)數(shù)據(jù)的高級(jí)特征表示,最后通過(guò)單層神經(jīng)網(wǎng)絡(luò)基于這些特征預(yù)測(cè)缺失的數(shù)據(jù)隨后進(jìn)行數(shù)據(jù)插補(bǔ)[9]。
3.2循環(huán)生成式對(duì)抗網(wǎng)絡(luò)應(yīng)用于醫(yī)療數(shù)據(jù)恢復(fù)
生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)包含生成器和鑒別器兩個(gè)部分[10],具體結(jié)構(gòu)如圖3所示。生成式對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程非常有趣,生成器和鑒別器之間相互對(duì)抗。生成器的任務(wù)是生成一個(gè)與真實(shí)數(shù)據(jù)相似的假數(shù)據(jù),鑒別器的任務(wù)則是從數(shù)據(jù)中將生成器產(chǎn)生的假數(shù)據(jù)識(shí)別出來(lái)。