關(guān)鍵詞:商業(yè)大數(shù)據(jù);網(wǎng)格過濾;高維數(shù)據(jù);離群點(diǎn);局部線性嵌入法
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)26-0067-04開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :
0 引言
在目前的信息新時(shí)代,大數(shù)據(jù)是生產(chǎn)要素,也是國家的基礎(chǔ)性戰(zhàn)略資源。商業(yè)大數(shù)據(jù)以海量的數(shù)據(jù)集合為特征,它在商業(yè)營銷、決策等方面有著廣泛的用途。根據(jù)相關(guān)數(shù)據(jù)及其預(yù)測,從2015年至2025年,中國企業(yè)級的數(shù)據(jù)量將得到大幅度的增長。伴隨著信息技術(shù)的發(fā)展,企業(yè)數(shù)量的增加以及應(yīng)用場景的不斷豐富,商業(yè)大數(shù)據(jù)將會(huì)有一個(gè)大幅度的增長。
商業(yè)大數(shù)據(jù)應(yīng)用主要是指相關(guān)數(shù)據(jù)服務(wù)組織將采集到的原始數(shù)據(jù)經(jīng)過專業(yè)的數(shù)據(jù)分析工具的清洗、修剪、整理及分類后變?yōu)榻Y(jié)構(gòu)化的信息。然后專業(yè)技術(shù)人員又將這些結(jié)構(gòu)化的信息經(jīng)過數(shù)據(jù)挖掘轉(zhuǎn)變?yōu)橄嚓P(guān)的專業(yè)數(shù)據(jù)集,形成專業(yè)數(shù)據(jù)集后,專業(yè)技術(shù)人員將這些數(shù)據(jù)集根據(jù)不同的應(yīng)用進(jìn)行數(shù)學(xué)建模。相關(guān)的數(shù)學(xué)模型建立了以后,也就意味著某種具體的商業(yè)應(yīng)用形成了相關(guān)的數(shù)據(jù)資產(chǎn)。專業(yè)技術(shù)人員通過挖掘數(shù)據(jù)資產(chǎn)背后所隱藏的價(jià)值,賦能給各行各業(yè),為信用評級、風(fēng)險(xiǎn)管理、營銷決策等提供附加價(jià)值。
商業(yè)大數(shù)據(jù)的應(yīng)用根據(jù)客戶類型及使用形式,可以分為企業(yè)端基礎(chǔ)數(shù)據(jù)服務(wù)、企業(yè)端標(biāo)準(zhǔn)數(shù)據(jù)服務(wù)、企業(yè)端場景化數(shù)據(jù)服務(wù)等形式。
目前,商業(yè)大數(shù)據(jù)的應(yīng)用主要是集中在電信、金融等領(lǐng)域。但是隨著技術(shù)的發(fā)展及商業(yè)大數(shù)據(jù)應(yīng)用的普及,政務(wù)、工業(yè)、公檢法等領(lǐng)域也逐漸越來越適應(yīng)利用大數(shù)據(jù)進(jìn)行相關(guān)業(yè)務(wù)的管理及決策。另外,在一些傳統(tǒng)行業(yè),比如電力、鐵路、石化等,這些行業(yè)中的一些龍頭企業(yè)也不斷地利用其自身雄厚的經(jīng)濟(jì)實(shí)力,不斷完善自身的大數(shù)據(jù)的建設(shè)、管理和應(yīng)用的能力。商業(yè)大數(shù)據(jù)的應(yīng)用越來越向?qū)嶓w行業(yè)滲透已經(jīng)是一個(gè)不爭的事實(shí)。
1 商業(yè)大數(shù)據(jù)中高維數(shù)據(jù)離群點(diǎn)檢測的必要性
隨著大數(shù)據(jù)技術(shù)在商業(yè)應(yīng)用上的成熟,需要對大量商業(yè)應(yīng)用的相關(guān)數(shù)據(jù)進(jìn)行卓有成效的采集。因?yàn)楦呔S數(shù)據(jù)往往更能準(zhǔn)確地反映商業(yè)應(yīng)用中不同數(shù)據(jù)單元的相互聯(lián)系,所以對高維數(shù)據(jù)的數(shù)據(jù)挖掘則顯得尤其具有重要意義。而在對高維數(shù)據(jù)的挖掘中,離群點(diǎn)的檢測對于數(shù)據(jù)異常的判斷具有重要的參考作用[1-2]。離群點(diǎn)檢測的主要內(nèi)容就是通過數(shù)據(jù)挖掘發(fā)現(xiàn)與正常數(shù)據(jù)維度偏差比較大的數(shù)據(jù)點(diǎn),從而進(jìn)行相應(yīng)的降噪處理從而達(dá)到將采集的數(shù)據(jù)恢復(fù)正常的目的。離群點(diǎn)產(chǎn)生的原因有很多,譬如隨著商業(yè)應(yīng)用的深入, 商業(yè)應(yīng)用中所采集用戶的大數(shù)據(jù)的維度變得越來越高階,相關(guān)的數(shù)據(jù)結(jié)構(gòu)也變得越來越復(fù)雜。所以若要對這些由相關(guān)應(yīng)用所產(chǎn)生的大數(shù)據(jù)進(jìn)行有效的利用,那么對數(shù)據(jù)中離群點(diǎn)的檢測則變得至關(guān)重要了起來。
國內(nèi)現(xiàn)有很多專家對高位數(shù)據(jù)離群點(diǎn)的檢測進(jìn)行了很多卓有成效的研究。楊曉玲[3]等利用對象區(qū)域密度和臨近區(qū)域間的相互關(guān)系,通過計(jì)算得到兩者間的相對距離,然后對應(yīng)最小生成樹結(jié)構(gòu),將離群簇和離群點(diǎn)進(jìn)行一個(gè)分割,從而實(shí)現(xiàn)對離群點(diǎn)的檢測。但這種方法的缺點(diǎn)是對機(jī)器內(nèi)存的占用跟數(shù)據(jù)維度的增加成正比,所以應(yīng)用的實(shí)踐性不強(qiáng)。邱華[4]等則預(yù)先對已產(chǎn)生的海量數(shù)據(jù)進(jìn)行處理,然后對這些處理過的數(shù)據(jù)利用極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練之后會(huì)得到一個(gè)對于局部離群因子閾值的預(yù)測,之后再利用WLOF 閾值對數(shù)據(jù)進(jìn)行聚類處理,從而檢測出離群點(diǎn)。但這種方法效率比較低,同樣應(yīng)用的實(shí)踐性不強(qiáng)。
針對以上問題,提出面向高維數(shù)據(jù)檢測的局部線性嵌入法。通過劃分網(wǎng)格對高維數(shù)據(jù)進(jìn)行預(yù)處理。然后將預(yù)處理過的數(shù)據(jù)中的高維離群點(diǎn),利用角度方差進(jìn)行一個(gè)自動(dòng)化的檢測。經(jīng)過實(shí)驗(yàn)測試表明,在實(shí)踐中這種方法不僅可以大幅提高內(nèi)存的使用率,還可以極大地減少檢測的時(shí)間,并且還能保證檢測結(jié)果的精度。
2 局部線性嵌入法對高維數(shù)據(jù)的檢測
2.1 劃分網(wǎng)格
為了實(shí)現(xiàn)對高維數(shù)據(jù)離群點(diǎn)的檢測,首先要進(jìn)行網(wǎng)格劃分的處理,而處理的依據(jù)則來自這些高維數(shù)據(jù)的空間維度。對應(yīng)的維數(shù)空間可以表示為公式(1) :
2.2 處理高維數(shù)據(jù)集
在檢測離群點(diǎn)的過程中,對于高維數(shù)據(jù)集的處理是關(guān)鍵的步驟,為了準(zhǔn)確地描述它的數(shù)據(jù)結(jié)構(gòu),我們采用局部線性嵌入法對它來進(jìn)行處理,通過分析數(shù)據(jù)點(diǎn)的不同組合的特性后,從而得出高維數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。處理高維數(shù)據(jù)集的流程圖如圖1所示:
(1) 輸入高維數(shù)據(jù)集,然后利用相關(guān)算法獲取最近鄰點(diǎn)。
(2) 通過重構(gòu)誤差獲取高維數(shù)據(jù)點(diǎn)及其鄰近的數(shù)據(jù)點(diǎn)的權(quán)值。
(3) 通過相關(guān)公式獲得鄰近的數(shù)據(jù)點(diǎn)經(jīng)過變換后的重構(gòu)權(quán)值,同時(shí)將高維數(shù)據(jù)集進(jìn)行降維處理。
(4) 將降維后的數(shù)據(jù)集重新通過公式進(jìn)行計(jì)算,得到一系列具有相關(guān)特性的數(shù)據(jù)點(diǎn)。
(5) 將這一系列的數(shù)據(jù)點(diǎn)根據(jù)權(quán)值特性劃分成符合要求的數(shù)據(jù)聚類,輸出相關(guān)結(jié)果,完成高維數(shù)據(jù)集的處理。
2.3 高維數(shù)據(jù)離群點(diǎn)的采集
在高維數(shù)據(jù)集離群點(diǎn)的采集過程中,真正能對商業(yè)應(yīng)用提供重要意義的數(shù)據(jù)點(diǎn)實(shí)際只占全部數(shù)據(jù)集合的一小部分,大部分?jǐn)?shù)據(jù)點(diǎn)的信息對于數(shù)據(jù)挖掘的過程起到的只是干擾作用,并且這部分信息的存在還會(huì)影響到處理結(jié)果的準(zhǔn)確性。
前后文信息是數(shù)據(jù)離群點(diǎn)的重要組成部分。它不僅可以體現(xiàn)離群數(shù)據(jù)和其他數(shù)據(jù)的一致性關(guān)系,除此以外,它還可以提供更具參考意義的信息,比如離群數(shù)據(jù)的具體含義和不同之處。
在這里,我們可以利用MapReducc模型來進(jìn)行高維數(shù)據(jù)離群點(diǎn)的采集。MapReducc模型是一個(gè)廣泛應(yīng)用于不同領(lǐng)域的大數(shù)據(jù)模型。MapReducc模型的數(shù)據(jù)邏輯在于可以將一個(gè)大的編程任務(wù)劃分成不同的,然后進(jìn)行分布式處理,這樣不僅執(zhí)行效率高,而且對于硬件資源的占用也會(huì)比其他數(shù)據(jù)模型低得多。MapReducc模型在處理數(shù)據(jù)的過程中主要分成以下幾個(gè)步驟,分別為:
(1) 切割數(shù)據(jù):根據(jù)不同應(yīng)用的不同需求,將高維數(shù)據(jù)進(jìn)行切割,得到對應(yīng)的待處理的輸入數(shù)據(jù)。
(2) 負(fù)載均衡:通過集群聚類計(jì)算不同節(jié)點(diǎn)的處理效率,然后再根據(jù)計(jì)算結(jié)果從宏觀上來分配不同節(jié)點(diǎn)的計(jì)算資源,使之得到最佳的調(diào)度處理。
(3) 處理錯(cuò)誤信息:對不同節(jié)點(diǎn)計(jì)算后的結(jié)果進(jìn)行核對處理和統(tǒng)計(jì),統(tǒng)計(jì)它們的錯(cuò)誤情況,并將全部節(jié)點(diǎn)的錯(cuò)誤信息進(jìn)行收集,并根據(jù)具體情況作出是否要發(fā)出警告信息的判斷。
(4) 通信處理:對于高維數(shù)據(jù)集當(dāng)中需要通信的全部節(jié)點(diǎn)進(jìn)行高效的管理,確保每個(gè)數(shù)據(jù)節(jié)點(diǎn)間都能正常通信,而且在通信過程中保證數(shù)據(jù)的有效性、可靠性和安全性。
通過如上所述分析,可以得出高維數(shù)據(jù)離群點(diǎn)采集的詳細(xì)流程如下:
(1) 輸入經(jīng)過處理的高維數(shù)據(jù)集。
(2) 經(jīng)過分布式運(yùn)算處理,得出不同子空間的離散程度。
(3) 通過分布式計(jì)算得出不同數(shù)據(jù)子集的維度信息,從而得出不同數(shù)據(jù)對象的離散程度。
(4) 根據(jù)不同的離散程度形成不同的稀疏矩陣。
(5) 根據(jù)不同的離散程度通過運(yùn)算得出具有特異性的因子,然后將這些因子按照從小到大的順序排列,然后從這些順序排列中得出我們想要的關(guān)于高位數(shù)據(jù)離群點(diǎn)的采集結(jié)果。
2.4 檢測高維數(shù)據(jù)離群點(diǎn)
在高維數(shù)據(jù)集中,正常數(shù)據(jù)和離群數(shù)據(jù)的比值如果比較懸殊,而在維度比較低的空間中又存在分布比較密集的區(qū)域,則我們對于差異因子的取值利用密度分布來進(jìn)行描述則顯得比較適宜。
對于網(wǎng)格化后的數(shù)據(jù)集,我們選取其中體積最大的網(wǎng)格來作為我們的標(biāo)準(zhǔn)網(wǎng)格。其中我們可以利用數(shù)據(jù)點(diǎn)和鄰近對象之間的矢量距離來作為測量半徑,根據(jù)半徑的大小來作為劃分網(wǎng)格的依據(jù),以效避免過度稀疏情況的產(chǎn)生。
由于分布稀疏是高維數(shù)據(jù)集的分布特性,所以劃分網(wǎng)格時(shí),有可能會(huì)產(chǎn)生不包含任何數(shù)據(jù)的空白網(wǎng)格單元。因此在對網(wǎng)格劃分的前期,在進(jìn)行類型判斷時(shí),應(yīng)先采用方法將這些空白的網(wǎng)格單元予以過濾,這樣既可以節(jié)省空間資源,對時(shí)間復(fù)雜度又能進(jìn)行有效降低。
另外,對于算法復(fù)雜度影響比較大的因素還有網(wǎng)格的存儲(chǔ)結(jié)構(gòu)。因此,針對高維大數(shù)據(jù)的稀疏特點(diǎn),我們可以利用哈希表來完成網(wǎng)格單元的存儲(chǔ)工作。利用哈希表的既有優(yōu)點(diǎn),我們可以在大大節(jié)省系統(tǒng)存儲(chǔ)資源的同時(shí),還可以有提高查詢和遍歷的效率。網(wǎng)格單元信息利用哈希表來進(jìn)行存儲(chǔ),利用網(wǎng)格及其相鄰的網(wǎng)格關(guān)系,對不同子空間進(jìn)行劃分映射處理后,可以形成一張數(shù)據(jù)表。
如上所述,利用角度方差來對高位數(shù)據(jù)離群點(diǎn)進(jìn)行數(shù)據(jù)檢測,步驟如圖2所示。
(1) 通過密度分布矩陣來對相關(guān)屬性進(jìn)行相應(yīng)的處理,構(gòu)建形成不同的數(shù)據(jù)子空間,從而完成對高維數(shù)據(jù)集的預(yù)處理。
(2) 確定標(biāo)準(zhǔn)網(wǎng)絡(luò),然后確定數(shù)據(jù)子空間內(nèi)進(jìn)行測量的矢量維度半徑。對于前期已經(jīng)完成處理的網(wǎng)格,需要先刪除其中已經(jīng)確定的空白網(wǎng)格,然后將剩余部分利用哈希表進(jìn)行存儲(chǔ),并進(jìn)行遍歷計(jì)算。另外,已經(jīng)確定好的標(biāo)準(zhǔn)網(wǎng)絡(luò)即作為中心網(wǎng)絡(luò),以此作為依托對鄰近網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理。同時(shí),利用稀疏矩陣選擇網(wǎng)格,并經(jīng)過一定的數(shù)據(jù)處理后得到正常運(yùn)行的網(wǎng)絡(luò)。
(3) 經(jīng)過網(wǎng)格劃分后形成候選網(wǎng)格,然后利用角度方差因子進(jìn)行分布式計(jì)算。其中,將網(wǎng)格密度設(shè)為重要指標(biāo),分別對比不同子空間的角度方差因子和離群度,經(jīng)過降序排列后,輸出排名高的數(shù)據(jù)對象將其作為離群點(diǎn),從而完成對高維數(shù)據(jù)離群點(diǎn)的檢測。
3 仿真實(shí)驗(yàn)
為了驗(yàn)證所提面向高維數(shù)據(jù)離群點(diǎn)檢測的局部線性嵌入法的有效性,我們需要進(jìn)行仿真實(shí)驗(yàn)以進(jìn)行驗(yàn)證。
(1) 測試環(huán)境:實(shí)驗(yàn)所使用的計(jì)算機(jī)操作系統(tǒng)為Windows 11,配置Intel i5處理器和128GB運(yùn)行內(nèi)存,同時(shí)使用Matlab軟件作為驗(yàn)證平臺(tái)。
(2) 測試結(jié)果:實(shí)驗(yàn)分別對本文所提方法以及文獻(xiàn)[3]方法展開高維數(shù)據(jù)離群點(diǎn)的相關(guān)檢測,根據(jù)測試需要,先假定好空間維數(shù),然后根據(jù)不同的數(shù)據(jù)密度閾值分別進(jìn)行數(shù)據(jù)訓(xùn)練,然后得到不同情況下的時(shí)間執(zhí)行效率。
從得出的實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,在密度閾值發(fā)生變化的情況下,兩種方法的執(zhí)行效率產(chǎn)生了明顯的差異。本文所提方法的執(zhí)行效率會(huì)隨著數(shù)據(jù)密度閾值的增加而提升,而文獻(xiàn) [3]方法對于數(shù)據(jù)的執(zhí)行效率則基本保持不變。由此可以看出,在限定時(shí)間的情況下,本文所提方法的執(zhí)行效率會(huì)比較高。
我們進(jìn)一步通過實(shí)驗(yàn)分析在不同數(shù)據(jù)集下,這兩種方法在執(zhí)行時(shí)間上的變化。由實(shí)驗(yàn)結(jié)果可知,隨著測試數(shù)據(jù)集變得越來越復(fù)雜,這兩種方法的執(zhí)行時(shí)間也會(huì)變得越來越長。但是對比另外一種方法,本文所提方法明顯執(zhí)行時(shí)間更短,所以這也可以證明本文所提方法的執(zhí)行效率更高。
其次,為了檢測對于高維數(shù)據(jù)離群點(diǎn)的檢測準(zhǔn)確性,我們將檢測精度作為檢測指標(biāo),通過不同數(shù)據(jù)集進(jìn)行相關(guān)的數(shù)據(jù)訓(xùn)練,實(shí)驗(yàn)結(jié)果的準(zhǔn)確性越高,說明所用方法的檢測精度越高。
從實(shí)驗(yàn)數(shù)據(jù)可知,本文所提方法在不同的數(shù)據(jù)集下的輸出精度一直都保持穩(wěn)定,且精度均值也比較高。而文獻(xiàn)[3]的方法在同樣的條件下進(jìn)行數(shù)據(jù)訓(xùn)練,輸出結(jié)果精度明顯偏低,同時(shí)該方法的輸出結(jié)果明顯還會(huì)受到數(shù)據(jù)集復(fù)雜度的影響。因此,本文所提方法對于檢測高維數(shù)據(jù)離群點(diǎn)的準(zhǔn)確性而言具有明顯的優(yōu)勢。
最后,我們再來分析一下在進(jìn)行不同數(shù)據(jù)集訓(xùn)練時(shí),不同檢測方法對于系統(tǒng)內(nèi)存資源的占用情況。由實(shí)驗(yàn)得出的實(shí)驗(yàn)數(shù)據(jù)結(jié)果可知,隨著所采用的實(shí)驗(yàn)數(shù)據(jù)集的維數(shù)增高,不同檢測方法對于內(nèi)存資源的占用也會(huì)隨之升高。在進(jìn)行對比的兩種檢測方法中,本文所提方法對于內(nèi)存的占用一直比較低,而文獻(xiàn)[3]的方法對于內(nèi)存的占用情況則明顯偏高。據(jù)此,本文所提方法在進(jìn)行高維數(shù)據(jù)離群點(diǎn)的檢測時(shí)能有效降低內(nèi)存資源的占用情況。
4 結(jié)論
針對商業(yè)大數(shù)據(jù)的數(shù)據(jù)挖掘中高維數(shù)據(jù)離群點(diǎn)的檢測,提出了基于網(wǎng)格過濾的局部線性嵌入方法。在進(jìn)行網(wǎng)格維度劃分時(shí),我們利用數(shù)據(jù)子空間的概念,先利用相關(guān)算法將子空間進(jìn)行劃分,然后使用局部線性嵌入法進(jìn)行檢測。局部線性嵌入法在保證商業(yè)數(shù)據(jù)精度的同時(shí),還能夠大幅地降低系統(tǒng)資源及數(shù)據(jù)檢測的執(zhí)行時(shí)間,這一點(diǎn)已經(jīng)在實(shí)踐中得到了證明。