張 平,關(guān)麗紅
(長(zhǎng)春大學(xué)理學(xué)院,吉林 長(zhǎng)春 130022)
數(shù)據(jù)處理技術(shù)[1]迅猛發(fā)展,待處理數(shù)據(jù)規(guī)模日益龐大,在初始數(shù)據(jù)內(nèi)挖掘出所需信息的有效手段逐漸增多,已成為數(shù)據(jù)處理技術(shù)的一個(gè)主要研究方向[2]。數(shù)據(jù)挖掘技術(shù)與統(tǒng)計(jì)分析息息相關(guān),只有經(jīng)過數(shù)據(jù)分析,才能發(fā)現(xiàn)數(shù)據(jù)之間隱藏的關(guān)系與模式。該項(xiàng)技術(shù)作為應(yīng)用策略之一,其數(shù)據(jù)間具有一種獨(dú)有的關(guān)聯(lián)規(guī)則,此類數(shù)據(jù)統(tǒng)稱為關(guān)聯(lián)數(shù)據(jù)[3,4]。為拓寬關(guān)聯(lián)數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,相關(guān)研究領(lǐng)域的眾多專家與學(xué)者對(duì)其展開了深入探索。
例如,部分學(xué)者通過建立強(qiáng)關(guān)聯(lián)規(guī)則,經(jīng)選擇、交叉、變異等操作,結(jié)合信息增益建立決策樹挖掘模型,運(yùn)用該模型實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)挖掘;部分學(xué)者通過數(shù)據(jù)處理層、挖掘?qū)?、?chǔ)存層以及查詢層構(gòu)建硬件部分,結(jié)合數(shù)據(jù)量化、子集抽取以及模糊聚類等軟件程序,建立漏洞信息數(shù)據(jù)挖掘系統(tǒng)。除上述方法外,文獻(xiàn)[5]在關(guān)聯(lián)規(guī)則中添加改進(jìn)遺傳算法,基于此,通過引入親密度來構(gòu)建一種數(shù)據(jù)挖掘方法。但是,以往的數(shù)據(jù)挖掘方法通常是靜態(tài)挖掘已有的歷史數(shù)據(jù),無法滿足實(shí)時(shí)獲取的應(yīng)用需求,因此,本文以挖掘領(lǐng)域中最基礎(chǔ)、最關(guān)鍵的統(tǒng)計(jì)策略為基礎(chǔ),架構(gòu)出基于概率統(tǒng)計(jì)的多維關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)挖掘方法。構(gòu)建的非參數(shù)概率統(tǒng)計(jì)模型基礎(chǔ)是核密度估計(jì),有助于互補(bǔ)參數(shù)化與非參數(shù)化優(yōu)劣勢(shì),提升少樣本數(shù)據(jù)的概率密度預(yù)估準(zhǔn)確度;根據(jù)參數(shù)設(shè)置原則,合理設(shè)置模型參數(shù),使概率統(tǒng)計(jì)模型性能得到最大化發(fā)揮;提取多維關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,增加多維關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)挖掘的有效性。
假定任意采集到的獨(dú)立樣本集合為{X1,X2,…,Xn},樣本數(shù)量是n,且服從某未知概率密度f(x)分布,則引入核密度估計(jì)[6]的非參數(shù)概率密度預(yù)估界定表達(dá)式如下所示
(1)
由上式推導(dǎo)出
(2)
其中,核函數(shù)與窗寬分別是K(z)、h,且h>0,對(duì)概率密度預(yù)估平滑度起著決定性作用。
根據(jù)核密度估計(jì)理念下的非參數(shù)概率密度預(yù)估方法,結(jié)合實(shí)際的數(shù)據(jù)分布先驗(yàn)知識(shí),建立一種以提升少樣本數(shù)據(jù)的概率密度預(yù)估準(zhǔn)確度為目標(biāo),互補(bǔ)參數(shù)化與非參數(shù)化優(yōu)劣勢(shì)的半?yún)?shù)化概率密度預(yù)估模型。
(x)=r(x)*f(x,)
(3)
依據(jù)式(3)所示的理想修正因子形式,通過核密度估計(jì)的概率密度預(yù)估方法,完成非參數(shù)化修正因子r(x)預(yù)估的界定,表達(dá)式如下所示
(4)
(5)
基于式(4)的界定公式,構(gòu)建出下列基于核密度估計(jì)的半?yún)?shù)化概率密度預(yù)估模型
(6)
為使概率統(tǒng)計(jì)模型性能最大化,依據(jù)設(shè)計(jì)的半?yún)?shù)化概率密度預(yù)估模型,結(jié)合以下參數(shù)設(shè)置原則,合理設(shè)置模型參數(shù):
1)利用積分均方誤差算法[7],最小化窗寬h的最佳值,計(jì)算公式如下所示
(7)
2)若式(6)中的f(Xi,)≈0或與f(x,)的差值較大,則分式的值對(duì)概率密度預(yù)估結(jié)果有直接影響,因此,利用下列截?cái)啾磉_(dá)式,令分式值局限在0.1到10以內(nèi):
(8)
為有效實(shí)現(xiàn)多維關(guān)聯(lián)數(shù)據(jù)的動(dòng)態(tài)挖掘,需先挖掘出多維關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,規(guī)則提取通過改進(jìn)的遺傳優(yōu)化算法[8]完成,具體流程描述如下:
1)令初始種群隨機(jī)產(chǎn)生,得到種群P={A1,A2,…,Am};
2)基于種群P={A1,A2,…,Am},獲取使用者預(yù)設(shè)的支持度與置信度極小值,分別為smin、cmin;
3)利用下列計(jì)算公式求解種群P={A1,A2,…,Am}所含個(gè)體的適應(yīng)度值:
(9)
4)根據(jù)解得的個(gè)體濃度dj與選擇概率
5)完成當(dāng)前種群內(nèi)所有個(gè)體至交配池的復(fù)制;
6)在交配池里任意選取到個(gè)體A′、A″,采用下式任意動(dòng)態(tài)選擇到的交叉概率,完成交叉操作
(10)
7)利用任意動(dòng)態(tài)選擇到的變異概率,完成變異操作
(11)
8)當(dāng)符合遺傳優(yōu)化算法停止迭代的條件時(shí),運(yùn)算停止;反之,則返回第3)步,開始新一周期的循環(huán)計(jì)算;
9)根據(jù)解得的置信度,提取出多維關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。
將滑動(dòng)窗口設(shè)定成動(dòng)態(tài)采集窗口,以平滑地動(dòng)態(tài)采集多維關(guān)聯(lián)數(shù)據(jù)。滑動(dòng)窗口的兩個(gè)相關(guān)界定條件描述如下:
1)對(duì)于多維關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù)源,已知標(biāo)識(shí)號(hào)是i∈Z+的數(shù)據(jù)di,根據(jù)數(shù)據(jù)形成時(shí)長(zhǎng),劃分為τ規(guī)格窗口的數(shù)據(jù)段Dk,其中,k∈N,τ表示時(shí)段,同時(shí)也指代數(shù)據(jù)的門限值[9],因此,各數(shù)據(jù)段均是一個(gè)數(shù)據(jù)窗口;
2)ω是一個(gè)給定正數(shù),滿足ω=τn,當(dāng)ω規(guī)格的窗口在T時(shí)間時(shí),出現(xiàn)數(shù)據(jù)段集合D={D1,D2,…,Dn},且每間隔τ時(shí)段,窗口就會(huì)向前運(yùn)動(dòng),步長(zhǎng)是s個(gè)數(shù)據(jù)窗口,則該窗口就是滑動(dòng)窗口。
圖1展示的是多維關(guān)聯(lián)數(shù)據(jù)的滑動(dòng)窗口動(dòng)態(tài)采集過程,將兩個(gè)數(shù)據(jù)窗口作為滑動(dòng)窗口規(guī)格,移動(dòng)步長(zhǎng)設(shè)定成每次一個(gè)窗口。
圖1 滑動(dòng)窗口動(dòng)態(tài)采集過程示意圖
為避免忽略邊界數(shù)據(jù),利用疊加窗口方法設(shè)計(jì)一種動(dòng)態(tài)窗口,完成數(shù)據(jù)的實(shí)時(shí)動(dòng)態(tài)處理。給定有限數(shù)據(jù)集Z={Z1,Z2,…,Zn},Z?RC,將其分類成數(shù)量為(2k-1)的數(shù)據(jù)窗口,令窗口i與i+1局部疊加,反復(fù)求解重合區(qū)域的邊界數(shù)據(jù),逐個(gè)窗口完成處理直至結(jié)束。該方法使密度點(diǎn)的選擇貢獻(xiàn)值全部相同,并有助于減小k值對(duì)密度點(diǎn)的影響。
將動(dòng)態(tài)窗口規(guī)格界定為sτ,按照表1所示的窗口分類條件,劃分多維關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù)源,以處理所有數(shù)據(jù)di。
表1 動(dòng)態(tài)數(shù)據(jù)源窗口分類條件
在數(shù)據(jù)窗口不斷向前運(yùn)動(dòng)的過程中,基于數(shù)據(jù)流特征,采用設(shè)計(jì)的動(dòng)態(tài)窗口,按照以下流程完成數(shù)據(jù)的實(shí)時(shí)動(dòng)態(tài)處理:
1)針對(duì)滑動(dòng)窗口采集到的m維流式數(shù)據(jù)序列{x1,x2,…,xi,…}與數(shù)據(jù)處理窗口時(shí)間序列{t1,t2,…,ti,…},根據(jù)滑動(dòng)窗口的兩個(gè)相關(guān)界定條件,推動(dòng)出下列表達(dá)式
(12)
2)令數(shù)據(jù)集滿足下列等式
xi={D(i-1)*s+k|0 (13) 3)設(shè)定2τs為動(dòng)態(tài)窗口規(guī)格,v=τs; 4)先后在流式數(shù)據(jù)集xi、xi∩xi+1以及xi+1內(nèi),分別提取出特征項(xiàng); 5)逐個(gè)窗口進(jìn)行處理,去除重復(fù)特征項(xiàng),發(fā)送處理結(jié)果至目標(biāo)數(shù)據(jù)集。 假設(shè)θτ(θ∈R+)表示時(shí)間門限值,每當(dāng)?shù)竭_(dá)該時(shí)間門限值時(shí),動(dòng)態(tài)挖掘便運(yùn)行一次,且需要于下個(gè)運(yùn)行周期開始前結(jié)束挖掘。 在動(dòng)態(tài)挖掘目標(biāo)數(shù)據(jù)集的過程中,利用K標(biāo)號(hào)方法標(biāo)識(shí)使用的數(shù)據(jù),實(shí)現(xiàn)動(dòng)態(tài)控制目標(biāo)數(shù)據(jù),解決處理后、未處理以及目標(biāo)數(shù)據(jù)間的平滑問題。 針對(duì)已知目標(biāo)數(shù)據(jù)集TDS={TD1,TD2,…,TDj},其中,j∈N,0是其初始標(biāo)識(shí)號(hào)碼,在每次實(shí)施動(dòng)態(tài)挖掘后,都要在目標(biāo)數(shù)據(jù)TDi的標(biāo)號(hào)數(shù)值上做加一處理,待標(biāo)號(hào)增加至K(K∈N)后,處理操作停止。動(dòng)態(tài)挖掘的每次運(yùn)行均采用比K小的標(biāo)號(hào)數(shù)值數(shù)據(jù)。 選取某市區(qū)五個(gè)交警大隊(duì)半年內(nèi)的道路交通事故數(shù)據(jù)作為挖掘目標(biāo),利用本文構(gòu)建的動(dòng)態(tài)挖掘模型分析事故屬性數(shù)據(jù),提取出潛在關(guān)聯(lián)規(guī)則,獲取實(shí)驗(yàn)結(jié)論。 表2所示為多維關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)挖掘方法的開發(fā)環(huán)境與運(yùn)行環(huán)境軟硬件相關(guān)參數(shù)。 表2 挖掘方法仿真環(huán)境參數(shù)配置 根據(jù)事故成因,將道路交通事故進(jìn)行分類,利用由美國(guó)flexsim公司開發(fā)的FlexSim仿真軟件[10],繪制出圖2所示的道路交通事故類別及其對(duì)應(yīng)數(shù)量。 圖2 道路交通事故類別及其對(duì)應(yīng)發(fā)生數(shù)量 以違章變更車道為例,在設(shè)定支持度閾值與置信度閾值的極小值后,挖掘與該事故成因類別存在關(guān)聯(lián)的多維數(shù)據(jù)相關(guān)規(guī)則。部分關(guān)聯(lián)規(guī)則描述如下,其中,括號(hào)中數(shù)據(jù)分別表示各關(guān)聯(lián)規(guī)則的支持度與置信度,用于反映該條關(guān)聯(lián)規(guī)則的必要性與可用性: 1)道路因素+時(shí)間因素:混合式橫斷面與主干路(5.48%,42.65%);四岔口路段(6.23%,38.11%);瀝青路面、混合式橫斷面、日間時(shí)段、無信號(hào)燈(10.31%,40.38%); 2)道路因素+天氣因素+時(shí)間因素:晴天、平原地形、混合式橫斷面、日間時(shí)段、直行線路、無信號(hào)燈(8.76%,41.98%);陰天;瀝青路面、混合式橫斷面、日間時(shí)段(9.37%,35.61%);霧天、平坦路面、混合式橫斷面、夜間時(shí)段、直行線路、無信號(hào)燈(7.56%,39.74%);雨天、平原地形、混合式橫斷面、日間時(shí)段、彎曲線路、無信號(hào)燈(10.31%,42.18%); 3)道路因素+時(shí)間因素+駕駛員因素:主干路、混合式橫斷面、日間時(shí)段、無信號(hào)燈、無證駕駛(12.16%,44.65%);平坦路面、混合式橫斷面、夜間時(shí)段、疲勞駕駛(12.75%,43.49%);瀝青路面、混合式橫斷面、日間時(shí)段、彎曲線路、無信號(hào)燈、醉酒駕駛(11.68%,43.57%)。 基于得到的多維數(shù)據(jù)關(guān)聯(lián)規(guī)則,從直行與彎曲道路類型、不同天氣狀況的月統(tǒng)計(jì)周期數(shù)據(jù)以及不同時(shí)段的事故數(shù)量中,動(dòng)態(tài)挖掘多維關(guān)聯(lián)數(shù)據(jù),并將其與實(shí)際事故發(fā)生數(shù)據(jù)作對(duì)比,如圖3所示。 根據(jù)圖3中動(dòng)態(tài)挖掘到的事故數(shù)據(jù)可以看出:在直行、晴天等視野更好的行車環(huán)境中,駕駛員更容易麻痹大意,導(dǎo)致直行與晴天條件下的道路交通事故發(fā)生頻率高于其它情況,從事故發(fā)生時(shí)段來講,午后發(fā)生頻率更高,尤其是疲憊感劇增的傍晚時(shí)段,肇事死亡率較大;通過對(duì)比事故的實(shí)際發(fā)生次數(shù),顯而易見,本文方法能夠有效挖掘出所需的多維關(guān)聯(lián)數(shù)據(jù),且具有較為理想的精準(zhǔn)度,究其原因是半?yún)?shù)化概率密度預(yù)估模型的構(gòu)建目標(biāo)是提升少樣本數(shù)據(jù)的概率密度預(yù)估準(zhǔn)度,利用遺傳優(yōu)化算法,提取到了多維關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,通過滑動(dòng)窗口動(dòng)態(tài)采集、疊加窗口動(dòng)態(tài)處理,結(jié)合時(shí)間門限值與K標(biāo)號(hào)方法,實(shí)現(xiàn)動(dòng)態(tài)控制、挖掘目標(biāo)數(shù)據(jù)。 在大數(shù)據(jù)中發(fā)現(xiàn)可用信息的處理過程就是數(shù)據(jù)挖掘,該項(xiàng)技術(shù)已隨著網(wǎng)絡(luò)技術(shù)的發(fā)展演變成了學(xué)術(shù)界的主要課題,并在保險(xiǎn)、醫(yī)療、電信、金融等現(xiàn)代社會(huì)的諸多重要領(lǐng)域中,起著決策與管理的指導(dǎo)作用。不斷更新的數(shù)據(jù)信息對(duì)以往的挖掘技術(shù)提出了前所未有的巨大挑戰(zhàn),使其無法及時(shí)給予有效信息,故利用概率統(tǒng)計(jì)方法,動(dòng)態(tài)挖掘多維關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)本文的研究目的。概率統(tǒng)計(jì)作為數(shù)據(jù)挖掘的關(guān)鍵環(huán)節(jié),需做深入的理論知識(shí)研究,使概率統(tǒng)計(jì)方法與數(shù)據(jù)動(dòng)態(tài)挖掘技術(shù)更有效地結(jié)合;需嘗試?yán)瞄_環(huán)分類學(xué)習(xí)系統(tǒng),通過逆向反饋流程,檢驗(yàn)、明確反饋效果,實(shí)現(xiàn)適應(yīng)性調(diào)整,提升模型學(xué)習(xí)效率;由于提取到的關(guān)聯(lián)規(guī)則以支持度與置信度為基礎(chǔ),存在使用者不感興趣的規(guī)則,為解決該問題,應(yīng)將興趣度添加作為下一階段的研究側(cè)重點(diǎn),令得到的關(guān)聯(lián)規(guī)則更具實(shí)用性。3.4 多維關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)挖掘
4 多維關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)挖掘仿真
4.1 仿真環(huán)境配置
4.2 多維關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)挖掘
5 結(jié)論