金紅軍
摘要:為了提高數(shù)據(jù)挖掘算法的查全率,為精準(zhǔn)預(yù)測(cè)工作提供更加精準(zhǔn)的數(shù)據(jù)支持,利用人工蜂群聚類技術(shù)在傳統(tǒng)數(shù)據(jù)挖掘算法的基礎(chǔ)上進(jìn)行優(yōu)化設(shè)計(jì)。針對(duì)不同的精準(zhǔn)預(yù)測(cè)任務(wù)準(zhǔn)備對(duì)應(yīng)的數(shù)據(jù)樣本,并通過(guò)選擇、預(yù)處理和數(shù)據(jù)轉(zhuǎn)換三個(gè)步驟,實(shí)現(xiàn)對(duì)初始樣本數(shù)據(jù)的處理。利用人工蜂群聚類技術(shù)分類樣本數(shù)據(jù),并剔除離群數(shù)據(jù)。在設(shè)置關(guān)聯(lián)規(guī)則的約束下,得出數(shù)據(jù)挖掘結(jié)果。通過(guò)算法性能的測(cè)試對(duì)比實(shí)驗(yàn)得出結(jié)論:與傳統(tǒng)的數(shù)據(jù)挖掘算法相比,人工蜂群聚類數(shù)據(jù)挖掘算法的查全率提高了1.3%,將其應(yīng)用到精準(zhǔn)預(yù)測(cè)工作中,可以有效的降低預(yù)測(cè)誤差。
關(guān)鍵詞:精準(zhǔn)預(yù)測(cè);人工蜂群;聚類數(shù)據(jù);數(shù)據(jù)挖掘算法
中圖分類號(hào):TN929? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):1007-9416(2020)10-0000-00
0 引言
預(yù)測(cè)是根據(jù)歷史和當(dāng)前已知因素,運(yùn)用已有的知識(shí)、經(jīng)驗(yàn)和科學(xué)方法,對(duì)未來(lái)環(huán)境進(jìn)行預(yù)先估計(jì),并對(duì)事物未來(lái)的發(fā)展趨勢(shì)做出估計(jì)和評(píng)價(jià)。為了保證預(yù)測(cè)結(jié)果的精準(zhǔn)度,在當(dāng)前預(yù)測(cè)方法的基礎(chǔ)上提出了精準(zhǔn)預(yù)測(cè)方法,這種方法延續(xù)了傳統(tǒng)預(yù)測(cè)方法的一般步驟,但在實(shí)際的預(yù)測(cè)過(guò)程中選擇更加精準(zhǔn)的歷史和當(dāng)前數(shù)據(jù),在預(yù)測(cè)過(guò)程中嚴(yán)格控制預(yù)測(cè)誤差,從而保證預(yù)測(cè)結(jié)果的精準(zhǔn)度[1]。精準(zhǔn)預(yù)測(cè)技術(shù)的正常運(yùn)行要求提供精準(zhǔn)的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),因此數(shù)據(jù)挖掘算法經(jīng)常被應(yīng)用到精準(zhǔn)預(yù)測(cè)工作當(dāng)中。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中自動(dòng)搜索隱藏與其中的有著特殊關(guān)系性的信息的過(guò)程,數(shù)據(jù)挖掘算法的實(shí)現(xiàn)需要借助計(jì)算機(jī)設(shè)備,通過(guò)數(shù)據(jù)統(tǒng)計(jì)、在線分析、數(shù)據(jù)處理、情報(bào)檢索、及其學(xué)習(xí)以及模式識(shí)別等多種方法來(lái)實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)的挖掘[2]。然而當(dāng)前的數(shù)據(jù)挖掘算法存在挖掘結(jié)果精度低的問(wèn)題,將其用于精準(zhǔn)預(yù)測(cè)工作中會(huì)導(dǎo)致預(yù)測(cè)結(jié)果存在嚴(yán)重誤差,為了解決上述問(wèn)題,提出了人工蜂群聚類技術(shù)。人工蜂群聚類技術(shù)通過(guò)各人工蜂個(gè)體的局部尋優(yōu)行為,最終在群體中使全局最優(yōu)值凸顯出來(lái)。而聚類技術(shù)以相似性為基礎(chǔ),將具有較高相似度的數(shù)據(jù)聚類在一起。通過(guò)人工蜂群聚類技術(shù)的有機(jī)結(jié)合并將其應(yīng)用到數(shù)據(jù)的挖掘過(guò)程當(dāng)中,可以挖掘出目標(biāo)數(shù)據(jù)集當(dāng)中的一系列最優(yōu)數(shù)據(jù)集合,將數(shù)據(jù)挖掘結(jié)果應(yīng)用到精準(zhǔn)預(yù)測(cè)工作當(dāng)中,便可以得出精準(zhǔn)的預(yù)測(cè)結(jié)果。
1 人工蜂群聚類數(shù)據(jù)挖掘算法設(shè)計(jì)
1.1 數(shù)據(jù)準(zhǔn)備與處理
數(shù)據(jù)準(zhǔn)備與處理的過(guò)程就是數(shù)據(jù)收集和預(yù)處理的過(guò)程,通過(guò)數(shù)據(jù)的選擇、預(yù)處理和數(shù)據(jù)轉(zhuǎn)換三個(gè)步驟得出初始數(shù)據(jù)的處理結(jié)果[3]。其中數(shù)據(jù)清洗處理的過(guò)程如圖1所示。
從圖1可以看出數(shù)據(jù)清洗分為四個(gè)處理階段,分別為清洗規(guī)則的生成階段、預(yù)處理階段、處理階段和數(shù)據(jù)加載階段。通過(guò)數(shù)據(jù)的清洗可以檢測(cè)出初始數(shù)據(jù)集合并解決單一數(shù)據(jù)源中或多數(shù)據(jù)源集成過(guò)程中存在的數(shù)據(jù)質(zhì)量問(wèn)題,直到樣本數(shù)據(jù)滿足數(shù)據(jù)的質(zhì)量要求[4]。
1.2 利用人工蜂群聚類技術(shù)分類樣本數(shù)據(jù)
人工蜂群算法模擬蜜蜂不同的分工,種群中主要分為采蜜蜂、觀察蜂和偵查蜂三種類型,一個(gè)蜜源對(duì)應(yīng)一個(gè)采蜜蜂,觀察蜂通過(guò)觀察采蜜蜂帶來(lái)的蜜源信息,結(jié)合蜜源的數(shù)量和質(zhì)量選擇蜜源進(jìn)行開采,加快算法的收斂[5]。而偵查蜂的作用是在整個(gè)區(qū)域范圍內(nèi)搜索可用的蜜源,從而提高全局的開采能力。假設(shè)人工蜂群蜜源表示的是目標(biāo)函數(shù)的解,那么蜜源的質(zhì)量能夠反映出目標(biāo)函數(shù)解的質(zhì)量,該質(zhì)量使用公式(1)表示的適應(yīng)度函數(shù)來(lái)衡量。
結(jié)合人工蜂群的變異和交叉思想,分別通過(guò)采蜜蜂、觀察蜂和偵查蜂三個(gè)角度執(zhí)行人工蜂群算法[6]。在開始運(yùn)行之前,首先需要對(duì)算法中的變量進(jìn)行初始化處理,根據(jù)公式(1)開始迭代執(zhí)行以下階段,直到達(dá)到最大迭代次數(shù)。人工蜂群算法的采蜜蜂和觀察蜂階段可以表示為:
公式(2)(a)中在初始蜜源附近產(chǎn)生一個(gè)新的鄰近蜜源,記為,表示的是此時(shí)對(duì)蜜源的第j維產(chǎn)生一個(gè)擾動(dòng)。公式(2)(a)中為控制繞度幅度的隨機(jī)數(shù),j為常數(shù)參數(shù)[7]。在偵查蜂階段,蜜源經(jīng)過(guò)多次擾動(dòng)后仍未更新,被判定為枯竭蜜源,重新搜索一個(gè)新的蜜源來(lái)代替初始蜜源,返回到采蜜階段繼續(xù)進(jìn)行新一個(gè)循環(huán)迭代。結(jié)合上述人工蜂群算法進(jìn)行初始樣本數(shù)據(jù)的聚類處理,并診斷出源數(shù)據(jù)集合中的離群樣本。定義初始數(shù)據(jù)樣本集合為(公式(3)):
其中樣本數(shù)據(jù)的維度為n,設(shè)置聚類中心,并得出相同類型樣本數(shù)據(jù)與聚類中心之間的距離,距離計(jì)算如公式(4):
式(4)中表示的是設(shè)置的聚類中心,即為任意一個(gè)樣本數(shù)據(jù)與其對(duì)應(yīng)的聚類中心之間的距離,而J為各個(gè)樣本達(dá)到對(duì)應(yīng)聚類中心的距離綜合[8]。遵循最鄰近聚類法則,判斷任意一個(gè)樣本數(shù)據(jù)是否屬于類型D,若滿足公式(5)中的條件,即數(shù)據(jù)屬于類型D。
由此便可以得出樣本數(shù)據(jù)的分類結(jié)果。如果在樣本數(shù)據(jù)中存在一個(gè)樣本數(shù)據(jù),該數(shù)據(jù)不屬于任意一個(gè)聚類,則認(rèn)定該數(shù)據(jù)為離群數(shù)據(jù)進(jìn)行剔除處理[9]。
1.3 實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)相關(guān)數(shù)據(jù)并行挖掘
為了提高數(shù)據(jù)挖掘的效率,在保證數(shù)據(jù)挖掘結(jié)果質(zhì)量的同時(shí)提升數(shù)據(jù)挖掘的速度,以人工蜂群聚類技術(shù)下樣本數(shù)據(jù)分類為基礎(chǔ),在關(guān)聯(lián)規(guī)則的約束下,采用并行的方式實(shí)現(xiàn)對(duì)數(shù)據(jù)的精準(zhǔn)挖掘,從而為精準(zhǔn)預(yù)測(cè)工作提供更加準(zhǔn)確的數(shù)據(jù)樣本[10]。其中并行的兩個(gè)部分分別為數(shù)據(jù)挖掘執(zhí)行程序和人工蜂群聚類技術(shù)下的數(shù)據(jù)分類程序,以人工蜂群聚類分類結(jié)果為一個(gè)數(shù)據(jù)倉(cāng)庫(kù)得出符合關(guān)聯(lián)規(guī)則的一組數(shù)據(jù)挖掘結(jié)果,為了保證兩個(gè)并行程序的負(fù)載均衡,需要及時(shí)調(diào)整數(shù)據(jù)的挖掘誤差,最終將輸出的多組數(shù)據(jù)挖掘結(jié)果進(jìn)行融合,得出的結(jié)果即為用于精準(zhǔn)預(yù)測(cè)的數(shù)據(jù)挖掘結(jié)果[11]。
2 數(shù)據(jù)挖掘算法應(yīng)用實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)?zāi)康呐c過(guò)程
此次實(shí)驗(yàn)的實(shí)驗(yàn)?zāi)康氖菫榱俗C明設(shè)計(jì)的人工蜂群聚類數(shù)據(jù)挖掘算法的性能,數(shù)據(jù)挖掘算法的性能測(cè)試分為兩個(gè)部分,分別為挖掘算法本身的查全率和算法的應(yīng)用性能。實(shí)驗(yàn)中選擇通信網(wǎng)絡(luò)流量的精準(zhǔn)預(yù)測(cè)作為實(shí)驗(yàn)環(huán)境,設(shè)置了傳統(tǒng)的數(shù)據(jù)挖掘算法和文獻(xiàn)[6]中提出的云計(jì)算下的數(shù)據(jù)挖掘算法作為此次實(shí)驗(yàn)的對(duì)比方法,分別將三種數(shù)據(jù)挖掘算法以相同的方式導(dǎo)入到實(shí)驗(yàn)環(huán)境中,保證實(shí)驗(yàn)變量的唯一性。