程雅瓊
摘要:在對高維光譜數(shù)據(jù)集中的離群數(shù)據(jù)進行分類和挖掘時,由于傳統(tǒng)基于逆k近鄰計數(shù)的挖掘方法在應(yīng)用中極易受到宇宙背景噪聲、光線衰弱等因素影響,使得成功挖掘出的離群數(shù)據(jù)點數(shù)量少,最終會嚴重影響挖掘精度。針對這一問題,在引入雙區(qū)塊鏈結(jié)構(gòu)的基礎(chǔ)上,開展高維光譜離群數(shù)據(jù)挖掘方法設(shè)計研究。通過基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)獲取、高維光譜數(shù)據(jù)離群點檢測、基于離群分數(shù)的三元組挖掘樣本選擇和高維光譜離群數(shù)據(jù)分離,提出一種全新的挖掘方法。通過實驗證明,新的挖掘方法可有效解決上述問題,促進挖掘精度的不斷提升。
關(guān)鍵詞:雙區(qū)塊鏈結(jié)構(gòu);離群數(shù)據(jù);高維光譜;數(shù)據(jù)挖掘
中圖分類號:TP18? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)15-0017-02
當前科學技術(shù)的快速發(fā)展也在一定程度上促進了天文領(lǐng)域的發(fā)展,同時也使得天文數(shù)據(jù)呈現(xiàn)出爆炸式的增長趨勢。目前世界上光譜獲取率最高的望遠鏡是LAMOST望遠鏡,在夜晚觀測條件下能夠獲取到數(shù)萬條的光譜,能夠為天文領(lǐng)域的相關(guān)研究提供更加可靠的依據(jù)和素材,對于促進天文領(lǐng)域的完善和快速發(fā)展而言都有著十分重要的意義。針對高維光譜的分類是從上千維的光譜數(shù)據(jù)當中,選擇或提取能夠?qū)崿F(xiàn)更精準識別的特征,并將各個特征匯總構(gòu)建一個特征空間[1]。同時,在對高維光譜進行分類的過程中,光譜數(shù)據(jù)集當中通常會存在一部分離群分布的數(shù)據(jù),由于其特征與已知的天體特征區(qū)別較大,因此常常被劃分為一類未知的光譜數(shù)據(jù)類別。這些離群數(shù)據(jù)在高維數(shù)據(jù)集當中存在的主要原因,是由于宇宙背景噪聲、光線衰弱等因素對光譜數(shù)據(jù)造成了嚴重的污染,進而使得這一部分數(shù)據(jù)無法實現(xiàn)準確識別[2]。針對這一問題,該領(lǐng)域研究人員對其進行了不斷探索,并逐步提出多種對高維光譜離群數(shù)據(jù)進行分類識別的挖掘方法。但由于針對這一問題的研究起步較晚,因此目前大部分挖掘方法在實際應(yīng)用中都存在訓練時間長、識別精度低的問題。因此,針對上述論述,本文在引入雙區(qū)塊鏈結(jié)構(gòu)的基礎(chǔ)上,開展對高維光譜離群數(shù)據(jù)挖掘方法的設(shè)計研究。
1 基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜離群數(shù)據(jù)挖掘方法設(shè)計
1.1 基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)獲取
在高維光譜數(shù)據(jù)集中,由于數(shù)據(jù)量巨大,因此為了確保后續(xù)挖掘的效率和精度,在挖掘前需要從不同的文件當中獲取待挖掘的數(shù)據(jù),并在完成對數(shù)據(jù)的提取后,針對其不同維度進行預(yù)處理。預(yù)處理的內(nèi)容主要包括對數(shù)據(jù)的標準化處理和對其主成分的降維分析處理。針對占用空間較大,并且分布在不同文件中的高維光譜數(shù)據(jù),采用直接讀取文件的方式會消耗大量的時間,因此針對這一問題,本文將原始數(shù)據(jù)根據(jù)高維光譜數(shù)據(jù)ID存入MySQL數(shù)據(jù)庫當中,并在后續(xù)挖掘的過程中,隨機抽取少部分數(shù)據(jù),并將其存入到h5文件當中,將其視為訓練集和測試集,以此提高對高維光譜離散數(shù)據(jù)挖掘的效率[3]。同時,在后期完成挖掘后,也可通過這一操作,采用隨機數(shù)獲取表格ID的方式,使用MySQL數(shù)據(jù)庫當中的數(shù)據(jù),進一步提高數(shù)據(jù)的利用價值。通過上述操作獲取到的高維光譜數(shù)據(jù)可以實現(xiàn)由于序號造成數(shù)據(jù)片面化的問題,進而使整個數(shù)據(jù)集的特性得到更充分地發(fā)揮[4]。在完成對高維光譜數(shù)據(jù)的獲取后,基于其海量數(shù)據(jù)特點,引入雙區(qū)塊鏈結(jié)構(gòu),將獲取到的數(shù)據(jù)進行存儲。圖1為基于區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)存儲結(jié)構(gòu)示意圖。
在圖1所示的存儲結(jié)構(gòu)基礎(chǔ)上,可確保在挖掘過程中更精準地獲取需要進行挖掘的數(shù)據(jù)集,進一步為離群數(shù)據(jù)的挖掘提供依據(jù)。同時,存儲在上述結(jié)構(gòu)當中的數(shù)據(jù)集為經(jīng)過PCA降維處理后的數(shù)據(jù)。在處理的過程中,可結(jié)合協(xié)方差矩陣對其進行降維,協(xié)方差矩陣表達式為:
[cov(X,Y)=i=1n(Xi-X)(Yi-Y)n-1]? ? ? ? ? ? ? ? ? ?(1)
公式(1)中,[cov(X,Y)]表示為兩個高維隨機變量度量結(jié)果;[X]和[Y]表示為均值;[Xi]和[Yi]表示為某組數(shù)據(jù)i當中的數(shù)據(jù)。根據(jù)上述公式(1)完成對所有高維光譜數(shù)據(jù)的PCA降維處理[5]。協(xié)方差矩陣的實質(zhì)是實現(xiàn)對兩個隨機變量關(guān)系的度量統(tǒng)計,通過協(xié)方差矩陣計算后,數(shù)據(jù)集當中存在的高維光譜數(shù)據(jù)能夠?qū)崿F(xiàn)降維處理,從而為后續(xù)挖掘提供便利條件。
1.2 高維光譜數(shù)據(jù)離群點檢測
根據(jù)上述論述內(nèi)容,在完成對基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)獲取后,并實現(xiàn)對數(shù)據(jù)的PCA降維處理,需要對數(shù)據(jù)集當中所有離群點進行檢測。通過隨機選擇某一數(shù)據(jù)集當中的子集,選擇某一數(shù)據(jù)點到數(shù)據(jù)子集之間最近的三個點,并計算求解得出其平均數(shù)值,通過不斷重復上述操作,最終得到該組數(shù)據(jù)的離群分數(shù),其表達式為:
[χ=rm]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
公式(2)中,[χ]表示為某一組數(shù)據(jù)的離群分數(shù);[r]表示為某一數(shù)據(jù)點到數(shù)據(jù)子集之間最近的三個點,并計算求解得出其平均數(shù)值;[m]表示為重復操作次數(shù)。在這一數(shù)據(jù)的基礎(chǔ)上,引入正態(tài)分布,對數(shù)據(jù)點到隨機子集之間的距離進行分析,并將與該數(shù)據(jù)中心距離較遠的兩側(cè)數(shù)據(jù)作為離群值[6]。具體而言,在進行離群點檢測的過程中,其流程可大致分為以下四個步驟:第一步,隨機選擇高維光譜數(shù)據(jù)集當中的抽取數(shù)據(jù)子集;第二步,計算待挖掘的數(shù)據(jù)到該數(shù)據(jù)子集之間的歐氏距離;第三步,計算求解多個點之間歐氏距離的平均值,并按照公式(2)完成對離群分數(shù)的計算;第四步,設(shè)置閾值,并按照如下公式,找出相應(yīng)數(shù)據(jù)點:
[r>μ+ασ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)127CF405-BA7B-47CF-A338-3B3B5F1F764A
公式(3)中,[μ]表示為均值;[σ]表示為常數(shù)。若檢測點相關(guān)參數(shù)代入到上述公式(3)中成立,則說明該檢測點為離群點;若檢測點相關(guān)參數(shù)代入到上述公式(3)不成立,則說明該檢測點不是離群點。按照上述四個步驟,完成對高維光譜離群點的檢測。
1.3 基于離群分數(shù)的三元組挖掘樣本選擇
在完成對高維光譜數(shù)據(jù)離群點檢測后,為了能夠進一步提高挖掘的精度,引入表示學習理論,針對數(shù)據(jù)集當中的所有離群數(shù)據(jù)點進行獲取,并結(jié)合上述離去分數(shù)的計算結(jié)果,實現(xiàn)對三元組挖掘樣本的選擇,并通過該樣本完成對本文挖掘方法的迭代訓練[7]。具體而言,在選擇過程中應(yīng)當首先根據(jù)上述公式(2)計算的結(jié)果,從高維光譜內(nèi)部候選集當中抽取多個需要進行查詢的對象,并以此獲取到訓練樣本。假設(shè)需要進行挖掘的數(shù)據(jù)對象被抽樣成為查詢對象的概率為P,并且這一數(shù)據(jù)的變化與其異常值恰好呈現(xiàn)出反比例變化關(guān)系,根據(jù)上述論述,得出P的表達式為:
[P=Z-rit=1i(Z-rt)]? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)
公式(4)中,[Z]表示為所有高維光譜數(shù)據(jù)集內(nèi)部異常值的總和;[r]表示為某一待挖掘的數(shù)據(jù)對象對應(yīng)的離群值分數(shù);[rt]表示為高維光譜數(shù)據(jù)集內(nèi)部候選集合異常值。結(jié)合上述公式,完成對P值的計算后,根據(jù)均勻概率從內(nèi)部候選集當中選擇出內(nèi)部數(shù)據(jù)的正樣本。最后,再從異常候選集中獲取到離群數(shù)據(jù)的負樣本,選擇最可能為異常值的數(shù)據(jù)作為負面實例的最高概率,通過給定該數(shù)據(jù)的變化范圍,確定其負面實例出現(xiàn)的概率,并將上述得出的所有結(jié)果構(gòu)成一個完整的三元組樣本,以此為挖掘訓練提供可靠的挖掘樣本。
1.4 高維光譜離群數(shù)據(jù)分離
在完成對樣本的選擇后,通過不斷迭代訓練促進挖掘方法的精度提升,在完成挖掘后,還需要對高維光譜數(shù)據(jù)當中已經(jīng)被找出的離群數(shù)據(jù)進行分離。引入淺層表示學習網(wǎng)絡(luò),采用一層雙向長短期記憶層和一層全連接層的結(jié)構(gòu),對上述獲取到的三元組挖掘樣本進行大量計算,并在進行預(yù)處理后結(jié)合深度學習方法,以此增加時間開銷,并得到精度更高的挖掘結(jié)果。在淺層表示學習網(wǎng)絡(luò)當中將縮減數(shù)據(jù)集、稀疏度系數(shù)閾值等作為輸入,將最終得到的局部離群數(shù)據(jù)分離結(jié)果作為輸出。在該網(wǎng)絡(luò)結(jié)構(gòu)當中,根據(jù)子節(jié)點的數(shù)量和縮減數(shù)據(jù)集的條數(shù),計算得出各個子節(jié)點需要進行計算的數(shù)據(jù)子集個數(shù),即縮減數(shù)據(jù)集條數(shù)/節(jié)點數(shù)目。在主節(jié)點通過表示學習網(wǎng)絡(luò)搜索后,對其挖掘任務(wù)進行編號,并依次完成對所有子集中數(shù)據(jù)節(jié)點的編號。按照上述離群點檢測流程,將所有符合公式(3)的數(shù)據(jù)子集匯總,并輸出,從而實現(xiàn)對離群數(shù)據(jù)的分離。
2 對比實驗
通過本文上述論述,在明確了基于雙區(qū)塊鏈結(jié)構(gòu)的挖掘方法基本應(yīng)用思路后,為了進一步驗證這一挖掘方法的應(yīng)用效果。選擇以天文領(lǐng)域當中的某一高維光譜數(shù)據(jù)集作為研究對象,分別利用本文提出的基于雙區(qū)塊鏈結(jié)構(gòu)的挖掘方法和傳統(tǒng)基于逆k近鄰計數(shù)的挖掘方法對該數(shù)據(jù)集當中的離群數(shù)據(jù)進行挖掘和分離。在實驗過程中,為了確保實驗的客觀性,首先需要對高維光譜數(shù)據(jù)集進行預(yù)處理,實現(xiàn)對其歸一化,并通過PCA實現(xiàn)對高維光譜數(shù)據(jù)集的降維處理,以此也能夠進一步簡化實驗過程。為了方便論述,將本文提出的挖掘方法設(shè)置為實驗組,將傳統(tǒng)基于逆k近鄰計數(shù)的挖掘方法設(shè)置為對照組。在本文實驗選擇的數(shù)據(jù)集當中,其維數(shù)為50,光譜數(shù)據(jù)集分別含有5263(6M)、36448(42M)、71562(101M)、78596(112M)條。將上述所有數(shù)據(jù)統(tǒng)一存儲在E4546CPU數(shù)據(jù)庫當中,在實驗過程中使用兩臺512MB內(nèi)存計算機作為子節(jié)點,將其中一臺作為主節(jié)點。在實驗過程中,設(shè)置高維光譜離群數(shù)據(jù)的稀疏度為-1,將其稀疏因子設(shè)定為0.2,分別設(shè)置一種單機環(huán)境和一種并行環(huán)境,應(yīng)用兩種挖掘方法對實驗數(shù)據(jù)集中的離群數(shù)據(jù)進行挖掘。對比實驗組和對照組挖掘方法通過挖掘后得到的離群數(shù)據(jù)點個數(shù),挖掘到離群數(shù)據(jù)點越多,則說明該挖掘方法更有效,更能夠?qū)崿F(xiàn)對高維光譜離群數(shù)據(jù)的準確識別;反之,挖掘到的離群數(shù)據(jù)點越少,則說明該挖掘方法利用價值越低,無法實現(xiàn)對高維光譜離群數(shù)據(jù)的準確識別。根據(jù)上述論述,記錄實驗組和對照組兩種挖掘方法的應(yīng)用效果,并繪制成表1。
從表1中得出的實驗結(jié)果可以看出,實驗組在單機環(huán)境下和并行環(huán)境下挖掘出的離群數(shù)據(jù)點個數(shù)均明顯多于對照組挖掘離散數(shù)據(jù)點個數(shù)。同時,通過表1中數(shù)據(jù)進一步分析得出,對照組單機環(huán)境下對離散數(shù)據(jù)點的挖掘數(shù)量明顯多于并行環(huán)境,其主要原因是并行環(huán)境中復雜因素較多,由于對照組挖掘方法沒有能夠抵抗外界干擾因素影響的能力,因此使得最終實驗結(jié)果不理想,而實驗組并沒有出現(xiàn)這一問題,設(shè)置在對第一組數(shù)據(jù)和第三組數(shù)據(jù)進行挖掘時,并行環(huán)境的挖掘效果優(yōu)于單機環(huán)境。因此,綜合上述論述能夠證明,本文提出的基于雙區(qū)塊鏈結(jié)構(gòu)的挖掘方法在應(yīng)用到對真實高維光譜數(shù)據(jù)集進行挖掘時,能夠?qū)崿F(xiàn)對其中大量離群數(shù)據(jù)點的準確挖掘,挖掘精度與以往基于逆k近鄰計數(shù)的挖掘方法相比得到明顯提高。
3 結(jié)束語
針對高維光譜數(shù)據(jù)集當中的離群數(shù)據(jù),實現(xiàn)對其充分挖掘,對于后續(xù)高維光譜數(shù)據(jù)集的使用和天體數(shù)據(jù)分類處理而言,具有十分重要的作用。針對此,本文在引入雙區(qū)塊鏈結(jié)構(gòu)的基礎(chǔ)上,提出了一種全新的挖掘方法,并結(jié)合實驗驗證了該方法的可行性。但由于研究能力有限,在研究過程中,本文采用的數(shù)據(jù)處理方法在時間復雜度上過高,雖然能夠確保最終挖掘結(jié)果的精度,但挖掘效率仍然有待進一步提升。因此,針對這一問題,在后續(xù)的研究當中,還將引入多種不同的算法和分類器,對本文挖掘方法進行不斷完善,從而設(shè)計出一種更加適合用于對高維光譜中離群數(shù)據(jù)進行挖掘的方法,提高高維光譜數(shù)據(jù)的利用價值。
參考文獻:
[1] 唐偉寧,劉穎,于旭,等.基于離群數(shù)據(jù)挖掘的低壓竊電行為辨識方法研究[J].電子設(shè)計工程,2021,29(23):56-59,64.
[2] 尚福華,曹茂俊,王才志.基于人工智能技術(shù)的局部離群數(shù)據(jù)挖掘方法[J].吉林大學學報(工學版),2021,51(2):692-696.
[3] 田文祥.基于離群數(shù)據(jù)挖掘技術(shù)的高校學生學業(yè)預(yù)警研究[J].黑龍江科學,2021,12(7):54-56.
[4] 李林睿,常舒予,喬一鳴.基于表示學習的高維光譜離群數(shù)據(jù)挖掘[J].電腦知識與技術(shù),2021,17(22):90-93.
[5] 馬洋,趙旭俊,蘇建花,等.基于核密度估計的離群數(shù)據(jù)挖掘[J].太原科技大學學報,2020,41(6):456-462,469.
[6] 羅念華,陶佳冶,劉俊榮.依賴大數(shù)據(jù)離群數(shù)據(jù)挖掘算法的業(yè)務(wù)系統(tǒng)間權(quán)限異構(gòu)監(jiān)控研究[J].自動化與儀器儀表,2019(5):179-182.
[7] 朱云麗,張繼福.基于逆k近鄰計數(shù)和權(quán)值剪枝的離群數(shù)據(jù)挖掘算法[J].小型微型計算機系統(tǒng),2019,40(8):1627-1632.
【通聯(lián)編輯:張薇】127CF405-BA7B-47CF-A338-3B3B5F1F764A