李瑋瑤
摘 要:傳統(tǒng)的大數(shù)據(jù)過(guò)濾方法,其降噪處理和過(guò)濾效果都會(huì)對(duì)最終結(jié)果產(chǎn)生一定影響,導(dǎo)致過(guò)濾效率低下?;诖耍疚奶岢龌谀:P(guān)聯(lián)空間的有效大數(shù)據(jù)過(guò)濾方法,利用動(dòng)態(tài)編譯實(shí)現(xiàn)數(shù)據(jù)采集過(guò)濾,進(jìn)行分布式離群點(diǎn)檢測(cè),通過(guò)網(wǎng)閘過(guò)濾對(duì)數(shù)據(jù)信息進(jìn)行過(guò)濾。經(jīng)對(duì)比試驗(yàn),該方法能夠?qū)崿F(xiàn)有效大數(shù)據(jù)的高效過(guò)濾,而基于區(qū)域劃分的數(shù)據(jù)過(guò)濾方法,無(wú)法充分利用試驗(yàn)環(huán)境中所有實(shí)體的數(shù)據(jù)信息,因此不可能實(shí)現(xiàn)較高的過(guò)濾效率,由此證明了本研究所提方法的實(shí)用性和有效性。
關(guān)鍵詞:模糊關(guān)聯(lián)空間;有效大數(shù)據(jù);過(guò)濾
中圖分類(lèi)號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)29-0011-03
An Effective Big Data Filtering Method Based on Fuzzy Correlation Space
LI Weiyao
(School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000)
Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have certain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and filtering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through comparative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method proposed in this study.
Keywords: fuzzy association space;effective big data;filtering
在空間數(shù)據(jù)挖掘研究領(lǐng)域,空間關(guān)聯(lián)規(guī)則具體指的是空間對(duì)象彼此間的空間和非空間的相互關(guān)系[1]。因?yàn)榭臻g對(duì)象彼此間的關(guān)系一般會(huì)利用空間和非空間的定語(yǔ)來(lái)表示,與之相對(duì)應(yīng),挖掘空間的關(guān)聯(lián)規(guī)則就必須借助兩類(lèi)層次進(jìn)行充分表達(dá),即概念層次與空間關(guān)系層次[2]。其中,空間關(guān)系層次主要包括空間拓?fù)錁?gòu)造、空間方位層次以及空間度量關(guān)系層次[3]。這些層次的類(lèi)別構(gòu)造并不具備硬性標(biāo)準(zhǔn),這就需要適當(dāng)引進(jìn)模糊隸屬度來(lái)對(duì)邊界進(jìn)行軟化,產(chǎn)生模糊概念層次以及模糊空間關(guān)系層次,在這個(gè)基礎(chǔ)上所研究的空間關(guān)聯(lián)規(guī)則就是人們常說(shuō)的模糊空間關(guān)聯(lián)規(guī)則(FSA Rs)[4]。本文以有效大數(shù)據(jù)信息為關(guān)鍵,對(duì)其處理和過(guò)濾方法進(jìn)行了研究,希望可以在某些方面給予研究人員一定啟發(fā)。
1 基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過(guò)濾方法
1.1 利用動(dòng)態(tài)編譯實(shí)現(xiàn)數(shù)據(jù)采集過(guò)濾
動(dòng)態(tài)編譯數(shù)據(jù)采集工具的主要功能是采集數(shù)據(jù)在運(yùn)行過(guò)程中產(chǎn)生的信息,以特殊的格式完成存儲(chǔ),為后續(xù)分析與過(guò)程回放提供有效的數(shù)據(jù)源。首先利用系統(tǒng)配置向?qū)ミx取合適的匹配信息,有關(guān)匹配信息的內(nèi)容主要包括數(shù)據(jù)類(lèi)別、系統(tǒng)相關(guān)運(yùn)行信息。其次,配置完成以后,按照具體的配對(duì)信息自動(dòng)生產(chǎn)一組動(dòng)態(tài)代碼,將動(dòng)態(tài)代碼組編為動(dòng)態(tài)編譯,形成一個(gè)正式結(jié)構(gòu)。此結(jié)構(gòu)就是針對(duì)系統(tǒng)動(dòng)態(tài)生成的數(shù)據(jù)采集信息。最后,用戶可以在形成的數(shù)據(jù)樹(shù)表中選取合適對(duì)象的有關(guān)信息。
1.2 構(gòu)建虛假無(wú)效數(shù)據(jù)的識(shí)別規(guī)則庫(kù)
對(duì)大數(shù)據(jù)下的有效數(shù)據(jù)樣本進(jìn)行統(tǒng)一歸類(lèi)和處理,利用聚類(lèi)算法對(duì)虛假無(wú)效數(shù)據(jù)進(jìn)行必要的聚類(lèi)集成,得到虛假無(wú)效數(shù)據(jù)的全部類(lèi)別信息,完成虛假無(wú)效數(shù)據(jù)的具體分類(lèi),按照聚類(lèi)中心建立的虛假無(wú)效數(shù)據(jù)識(shí)別規(guī)則庫(kù),建構(gòu)一個(gè)完整的虛假無(wú)效數(shù)據(jù)識(shí)別模型,具體過(guò)程如下。
假設(shè)[Z1,Z2,…,ZN]表示大數(shù)據(jù)下有效數(shù)據(jù)樣本,[j=1,2,…,N]表示有效數(shù)據(jù)樣本內(nèi)的具體數(shù)量,為了最大限度地規(guī)避大數(shù)據(jù)環(huán)境下數(shù)據(jù)樣本內(nèi)最大值和最小值的影響,就必須對(duì)有效數(shù)據(jù)樣本進(jìn)行統(tǒng)一歸類(lèi)處理,有些虛假無(wú)效數(shù)據(jù)極有可能屬于同一類(lèi)型,所以就需要把每一個(gè)流量數(shù)據(jù)看作是一個(gè)聚類(lèi)中心。對(duì)于流量數(shù)據(jù),其屬于聚類(lèi)中心的基本概率計(jì)算公式為:
[Di=j=1exp(-δZi-Zj)]? ? ? ? ? ? ? ? ? ? ? ?(1)
式中,[δ=4r2a]為一個(gè)標(biāo)準(zhǔn)情況下的參量;[Zi-Zj]為其具體的歐式距離大小;[ra]表示其屬于非負(fù)數(shù)范圍,表示其鄰域,假設(shè)一個(gè)正常運(yùn)行過(guò)程中出現(xiàn)的數(shù)據(jù)出現(xiàn)了多個(gè)近鄰數(shù)據(jù),那么該數(shù)據(jù)就極有可能成為聚類(lèi)中心;[Di]為標(biāo)準(zhǔn)運(yùn)行數(shù)據(jù)[Zi]和[Zj]之間的歐式距離。
選擇[Di]中概率最大的數(shù)據(jù)作為聚類(lèi)中心,假設(shè)1代表虛假無(wú)效數(shù)據(jù)的規(guī)定類(lèi)別,其出現(xiàn)概率就以[D1]來(lái)表示,可借助式(2)對(duì)其余正常運(yùn)行數(shù)據(jù)被稱為聚類(lèi)中心的概率進(jìn)行具體計(jì)算。
[?=Di-D1exp(-γZ1-Y1)]? ? ? ? ? ? ? ? ? ?(2)
式中,[γ=4r2b]為一個(gè)常數(shù)參量,表示其鄰域?qū)儆赱rb]。
分析式(2)可知,[Z1]表示標(biāo)準(zhǔn)狀態(tài)下運(yùn)行數(shù)據(jù)出現(xiàn)的第一個(gè)類(lèi)別。當(dāng)?shù)玫降赱K+1]個(gè)聚類(lèi)中心時(shí),其余數(shù)據(jù)均可以視為第[K+1]個(gè)聚類(lèi)中心的概率可借助式(3)獲得:
[χ=Di-Dkexp(-γZi-Yk)]? ? ? ? ? ? (3)
式中,[Yk]為第[K]個(gè)虛假無(wú)效數(shù)據(jù)類(lèi)別屬性;[Dk]為其出現(xiàn)概率。
對(duì)正常運(yùn)行狀態(tài)下出現(xiàn)的數(shù)據(jù)概率大致設(shè)定一個(gè)范圍,當(dāng)上述過(guò)程沒(méi)有超過(guò)該范圍時(shí),[Dk<0.15D1],就需要停止換代,獲得全部虛假無(wú)效數(shù)據(jù)的類(lèi)別,實(shí)現(xiàn)虛假無(wú)效數(shù)據(jù)的實(shí)時(shí)分類(lèi)。假設(shè)聚類(lèi)中心[Ck]相對(duì)應(yīng)的虛假無(wú)效數(shù)據(jù)類(lèi)別為[C1],那么就可獲取其余虛假無(wú)效數(shù)據(jù)識(shí)別的運(yùn)行規(guī)則,即
[RK=??(yk/ak)]? ? ? ? ? ? ? ? ? ? ? ? ? (4)
式中,[?]為正常運(yùn)行狀態(tài)下數(shù)據(jù)向量的一般維度;[yk]為相對(duì)應(yīng)的空間關(guān)聯(lián)模糊規(guī)則;[ak]為一標(biāo)準(zhǔn)常數(shù)。
虛假無(wú)效數(shù)據(jù)識(shí)別規(guī)則的觸發(fā)可通過(guò)式(5)對(duì)其進(jìn)行計(jì)算[10],即
[uk=exp(-δ?-Ck)rd]? ? ? ? ? ? ? ? ? ? (5)
式中,[rd]為虛假無(wú)效數(shù)據(jù)的聚類(lèi)半徑。上述虛假無(wú)效數(shù)據(jù)的識(shí)別規(guī)則轉(zhuǎn)換為以下公式:
[Rk=xop×Akp(-δyk-ak)]? ? ? ? ? ? ? ? ? ? ?(6)
式中,[xop]為大數(shù)據(jù)下第[p]個(gè)正常運(yùn)行數(shù)據(jù)的特征;[Akp]為第[k]條檢測(cè)規(guī)則的第[p]個(gè)數(shù)據(jù)特征的隸屬度函數(shù)。選用高斯函數(shù)作為隸屬函數(shù),則有
[Akp=exp-12xop-ckp?kp2uk]? ? ? ? ? ? ? ? ?(7)
式中,[ckp]為聚類(lèi)中心作為[Ck]的第[p]個(gè)正常運(yùn)行狀態(tài)下出現(xiàn)的常規(guī)數(shù)據(jù);[?kp]為聚類(lèi)中心的擴(kuò)展范圍。
按照式(7)的計(jì)算,對(duì)剩余的聚類(lèi)中心組建相對(duì)應(yīng)的識(shí)別規(guī)則庫(kù),由此構(gòu)建用于虛假無(wú)效數(shù)據(jù)識(shí)別的規(guī)則庫(kù),從而獲得該規(guī)則庫(kù)下的虛假無(wú)效數(shù)據(jù)識(shí)別規(guī)則:
[y=K=1UykuKK-1UuK]? ? ? ? ? ? ? ? ? ? ? ? ?(8)
式中,[yk]為第[k]條識(shí)別規(guī)則相配置的識(shí)別結(jié)果;[u]為識(shí)別規(guī)則的總數(shù)。
1.3 實(shí)行分布式離群點(diǎn)檢測(cè)
如果數(shù)據(jù)集合中存在一定數(shù)量的[pct]部分對(duì)象和對(duì)[o]的距離超過(guò)[DT]限定,對(duì)象[o]就作為基于距離的有關(guān)參數(shù)[pct]與[DT]的離群點(diǎn)而存在,即[DB(pct,DT)=Out lie]。如果假設(shè)[k]代表用戶所要求的離群點(diǎn)下的數(shù)目相同,那么其偏離度就是最大的,假設(shè)[k]個(gè)對(duì)象均屬于離群點(diǎn),那么其檢測(cè)過(guò)程大致如下。
確定[k]個(gè)簇、[n]個(gè)數(shù)據(jù),對(duì)[s]個(gè)離群點(diǎn)進(jìn)行敘述,使[out lie Set =K],其中相對(duì)離群點(diǎn)集合就被賦予空集的定義,將輸出的簇集視為[KCo];當(dāng)[KCo=OKCo]時(shí),能夠保存涵蓋所有離群點(diǎn)的候選微聚類(lèi)集合,按照計(jì)算結(jié)果獲得數(shù)據(jù)聚類(lèi)的信息熵以及偏離度,再依次取出各元素,進(jìn)行計(jì)算,根據(jù)結(jié)果判斷出信息熵的值是否在閾值范圍內(nèi),如果計(jì)算結(jié)果超出闕值范圍,說(shuō)明此數(shù)據(jù)不列入離群點(diǎn)內(nèi),排除這類(lèi)數(shù)據(jù)聚類(lèi);在輸出過(guò)程中,將離群點(diǎn)重置到[out lie Set ]中。
1.4 利用網(wǎng)閘過(guò)濾進(jìn)行數(shù)據(jù)信息過(guò)濾
網(wǎng)閘過(guò)濾組織主要用于對(duì)不同符號(hào)型屬性進(jìn)行有效分類(lèi),如此能夠針對(duì)不同的數(shù)據(jù)類(lèi)型實(shí)行更為精準(zhǔn)的過(guò)濾程序。假定[Fu,v]為過(guò)濾組織的過(guò)濾閥值,那么[fx,y]就是對(duì)應(yīng)條目下Web網(wǎng)絡(luò)內(nèi)所有數(shù)據(jù)含有的甄別屬性,[uπ]則代表數(shù)據(jù)信息提取系數(shù)的對(duì)照比,這樣就能夠利用符號(hào)型屬性完成公式的建立,即
[F(u,v)=c(u)c(v)4x=0ny=0nf(x,y)+cos(2x+1)uπ16cos(2y+1)vπ16]? (9)
借助式(9)可以有效區(qū)別Web網(wǎng)絡(luò)內(nèi)的數(shù)據(jù)信息,可以降低部分過(guò)濾組織的任務(wù)量,也有效提高了過(guò)濾組織對(duì)數(shù)據(jù)的準(zhǔn)確度。通過(guò)初級(jí)過(guò)濾后,將其輸入條件矩陣內(nèi)完成矩陣過(guò)濾。假定攜帶符號(hào)型屬性的信息數(shù)據(jù)矩陣為[Tij],其需要與條件矩陣[T′ij]進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
實(shí)際運(yùn)行過(guò)程中,對(duì)信息數(shù)據(jù)矩陣[Tij]和運(yùn)行條件矩陣[T′ij]進(jìn)行對(duì)比,實(shí)現(xiàn)初級(jí)過(guò)濾。初級(jí)的數(shù)據(jù)過(guò)濾不能完全滿足實(shí)際需要,因而需要對(duì)其閾值進(jìn)行二次過(guò)濾,閾值的二次過(guò)濾必須具備一定的對(duì)應(yīng)預(yù)處理,如下所示:
[Rk=1IZFYLK+FY2KLa-FY3K+FY4KLB(T)+rk-1](10)
式中,[FYLK]為數(shù)據(jù)信息的雙重權(quán)屬系數(shù);[FY2K]為條件矩陣的符號(hào)型屬性;[La]為符合閾值過(guò)濾范圍內(nèi)的符號(hào)型屬性;[1IZ]為甄別系數(shù);[LB]為數(shù)據(jù)信息屬性中的只讀屬性;[rk-1]為預(yù)處理狀態(tài)下的數(shù)據(jù)參數(shù);[Rk]為預(yù)處理狀態(tài)下的屬性參數(shù)整集。通過(guò)預(yù)處理設(shè)置后的數(shù)據(jù)輸入閾值范圍,就能夠?qū)崿F(xiàn)閾值的二次計(jì)算,而閾值選擇公式為:
[minW=12i,j=1iyiyj?i?jKxi,xj]? ? ? ? ? ? ? ?(11)
式中,[yi]、[yj]分別為數(shù)據(jù)信息內(nèi)所有的專屬閾值以及特定狀態(tài)下的識(shí)別指數(shù);[?i]、[?j]分別為調(diào)取參數(shù)和調(diào)取閾值;[K(xi,xj)]為所屬粒子集群。
如此一來(lái),數(shù)據(jù)信息就能夠完成閾值的二次過(guò)濾,大大提高數(shù)據(jù)信息的過(guò)濾邏輯性,計(jì)算公式如下:
[S=DT+DDB+nΔt]? ? ? ? ? ? ? ? ? ? ?(12)
式中,[T]為數(shù)據(jù)識(shí)別的基本屬性;[D]為可以實(shí)現(xiàn)數(shù)據(jù)分組操作的數(shù)據(jù)集合;[Δt]為數(shù)據(jù)實(shí)際運(yùn)行狀態(tài)下的轉(zhuǎn)變值,這樣就可以實(shí)現(xiàn)其快速分類(lèi);[B]為數(shù)據(jù)信息的序列號(hào)。
通過(guò)上述過(guò)程,人們就可以完成對(duì)數(shù)據(jù)信息的分類(lèi)過(guò)濾。
2 試驗(yàn)與效果分析
為了更加直觀地展現(xiàn)基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過(guò)濾方法的實(shí)際應(yīng)用效果,特與傳統(tǒng)的基于區(qū)域劃分的數(shù)據(jù)過(guò)濾方法進(jìn)行對(duì)比,對(duì)其過(guò)濾能力進(jìn)行比較。
2.1 試驗(yàn)準(zhǔn)備
為保證試驗(yàn)的準(zhǔn)確性,將兩種有效大數(shù)據(jù)過(guò)濾方法置于相同的試驗(yàn)環(huán)境中,進(jìn)行過(guò)濾能力的有關(guān)試驗(yàn)。
2.2 試驗(yàn)結(jié)果分析
試驗(yàn)過(guò)程中,兩種不同的有效大數(shù)據(jù)過(guò)濾方法同時(shí)在相同環(huán)境中工作,而在試驗(yàn)環(huán)境中,數(shù)據(jù)過(guò)濾的目的就是最大限度地減少冗余數(shù)據(jù)的產(chǎn)生,其主要衡量指標(biāo)即數(shù)據(jù)的過(guò)濾效率。試驗(yàn)效果對(duì)比如圖1所示。
通過(guò)試驗(yàn)對(duì)比結(jié)果可知,采用基于模糊關(guān)聯(lián)空間理論的數(shù)據(jù)過(guò)濾技術(shù)后,合理設(shè)置K值,能夠確保關(guān)聯(lián)體內(nèi)的每一個(gè)實(shí)體與該關(guān)聯(lián)體間的關(guān)聯(lián)度均超出某一限定值。在整個(gè)試驗(yàn)過(guò)程中,數(shù)據(jù)過(guò)濾效率是能夠?qū)崿F(xiàn)控制的,模糊關(guān)聯(lián)空間體現(xiàn)出實(shí)體之間基于屬性關(guān)聯(lián)度的一種整體關(guān)聯(lián),這也是數(shù)據(jù)過(guò)濾的本質(zhì)目的;而基于區(qū)域劃分的數(shù)據(jù)過(guò)濾方法,無(wú)法充分利用試驗(yàn)環(huán)境中所有實(shí)體的數(shù)據(jù)信息,因此不可能實(shí)現(xiàn)較高的過(guò)濾效率。試驗(yàn)證明,本文所提設(shè)計(jì)方法具有很高的實(shí)用性和有效性。
3 結(jié)語(yǔ)
本文對(duì)基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過(guò)濾方法進(jìn)行分析,根據(jù)模糊關(guān)聯(lián)空間理論和概念,對(duì)大數(shù)據(jù)過(guò)濾方法進(jìn)行優(yōu)化,實(shí)現(xiàn)設(shè)計(jì)目的。試驗(yàn)論證表明,本文設(shè)計(jì)的方法具備極高的有效性。希望本研究能夠?yàn)榛谀:P(guān)聯(lián)空間的有效大數(shù)據(jù)過(guò)濾方法提供理論依據(jù)。
參考文獻(xiàn)
[1]謝燁,陳熙哲,丁宇.有效大數(shù)據(jù)信息處理與過(guò)濾[J].現(xiàn)代信息科技,2017(5):117-118.
[2]羅弦,馮浩,王逸兮,等.Web環(huán)境下大數(shù)據(jù)動(dòng)態(tài)不良信息安全過(guò)濾系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2017(24):15-19.
[3]趙珂,彭清暢,劉光俊.大數(shù)據(jù)實(shí)時(shí)流計(jì)算的高鐵轉(zhuǎn)向架數(shù)據(jù)過(guò)濾算法研究[J].軟件,2018(11):88-95.
[4]汪苗苗,焦學(xué)磊.概率數(shù)學(xué)模型在數(shù)據(jù)過(guò)濾中的應(yīng)用研究[J].科技通報(bào),2019(6):20-23.