劉靜瑞,潘東陽(yáng)
(信陽(yáng)職業(yè)技術(shù)學(xué)院,數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,信陽(yáng) 464000)
數(shù)學(xué)模型在我們的日常生活中運(yùn)用的地方是非常廣泛的,不論是我們的日常生活還是有關(guān)通信數(shù)據(jù)智能挖掘算法的運(yùn)用上都是非常重要的。所謂的數(shù)學(xué)模型是為現(xiàn)實(shí)世界的特殊目的而提出的更抽象和簡(jiǎn)化的結(jié)構(gòu)模型。具體一點(diǎn)來(lái)說(shuō),數(shù)學(xué)模型就是通過(guò)一些字母、數(shù)字及數(shù)學(xué)符號(hào)等等而組成的一些式子、圖表或圖像用來(lái)描述客觀事物及其內(nèi)部關(guān)系特征,從而達(dá)到一種特定的目的而建立起來(lái)的數(shù)學(xué)結(jié)構(gòu)表達(dá)式[1]。數(shù)學(xué)模型是對(duì)具體問(wèn)題以數(shù)學(xué)思維來(lái)解決,通過(guò)數(shù)學(xué)中的概念、方法和思路來(lái)深入思考與分析,從精密的邏輯思維對(duì)現(xiàn)實(shí)問(wèn)題進(jìn)行分析與研究,為解決現(xiàn)實(shí)問(wèn)題提供精確地指導(dǎo)與數(shù)據(jù)。
傳統(tǒng)的算法需要將處理查詢機(jī)制下的全部數(shù)據(jù)進(jìn)行載入,再將全部數(shù)據(jù)按照一定的分類規(guī)則進(jìn)行切割計(jì)算,大大限制了通信數(shù)據(jù)智能挖掘算法的速度,效率低下。因此本文提出基于數(shù)學(xué)模型提出一種新型的通信數(shù)據(jù)智能挖掘的加速算法,這種新型的算法對(duì)于分類的條件匹配和全部數(shù)據(jù)的精確查找可以以較高的速度實(shí)現(xiàn),并且保證準(zhǔn)確率,這種新型的加速算法與傳統(tǒng)的算法相比有性能上的優(yōu)越。
基于數(shù)學(xué)模型提出的通信數(shù)據(jù)智能挖掘加速算法在速度上有明顯的提升,原因如下。假設(shè)在某一時(shí)刻t,將某個(gè)增量數(shù)據(jù)集的全部數(shù)據(jù)載入系統(tǒng),用公示表示如下:
假設(shè)在某個(gè)時(shí)長(zhǎng)為T 的時(shí)間段內(nèi),將某一個(gè)小時(shí)刻標(biāo)記為t=1,2,…,T,全部數(shù)據(jù)將被采集到數(shù)據(jù)塊DT中,對(duì)其公式表示如下:
H(.)用于表示啟發(fā)式算法的功能[2]。在傳統(tǒng)算法中,貪婪式算法通常被用作啟發(fā)式算法的主要內(nèi)容,以實(shí)現(xiàn)最優(yōu)數(shù)據(jù)樹(TRGLOBAL)的目標(biāo)。全局最優(yōu)樹源自數(shù)據(jù)集中的所有數(shù)據(jù),因此絕對(duì)是全局最優(yōu)的。然后,啟發(fā)式算法H(.)的功能是從最大的信息增量從上到下排序標(biāo)簽的每個(gè)分支點(diǎn)的邊界,然后選擇關(guān)于分類的最佳屬性。對(duì)于每一個(gè)最佳的屬性Xi,對(duì)i(i ≤M)和j(j ≤N)進(jìn)行檢索,其中M 代表的是最大的屬性個(gè)數(shù),那么N 代表最大接收實(shí)例的個(gè)數(shù),也就是xij的分支值。因此,從xi1到xij的分支值中根據(jù)條件xij=argmaxH(xij)來(lái)選取函數(shù)的功能最大屬性Xi。以上所描述的信息在DT 中已經(jīng)全部包括了。要保證輸入結(jié)果是全局最優(yōu)結(jié)果的前提就是要在這個(gè)處理過(guò)程中保證所有的數(shù)據(jù)都在數(shù)據(jù)集DT中,用公式可表示為以下形式:
在對(duì)于未來(lái)某一任意的時(shí)刻t,Xt,將要到達(dá)的全部新數(shù)據(jù)集,該模型全部數(shù)據(jù)都可以安排在新集合{ ytk }中。在這一集合中,k 表示的是在可能集合K 中的一個(gè)可能的集合序列號(hào)。
根據(jù)目前已經(jīng)收集到的所有數(shù)據(jù)集,基于數(shù)學(xué)模型的啟發(fā)式算法H(.)的建立是根據(jù)最優(yōu)分類的錯(cuò)誤類型為目標(biāo)的,用公式可表示為[3]:
在時(shí)間t 內(nèi),數(shù)據(jù)已經(jīng)積累到DT,并在全部數(shù)據(jù)的分類模型TRGLOBAL中表現(xiàn)良好。在時(shí)刻t+1時(shí)間內(nèi),數(shù)據(jù)已經(jīng)到達(dá)了新的數(shù)據(jù)集,分類模型TRGLOBAL要基于新的數(shù)據(jù)集合,并重復(fù)公式(3)和(4)的運(yùn)算來(lái)實(shí)現(xiàn)自我更新。隨著時(shí)刻t 和DT的上升,更新時(shí)間延長(zhǎng),在每次更新時(shí)都需要重新載入集合DT的歷史數(shù)據(jù)。
在運(yùn)用本文算法進(jìn)行數(shù)據(jù)的挖掘時(shí),所采集到的數(shù)據(jù)量龐大并且數(shù)據(jù)頻繁更新,新數(shù)據(jù)不斷出現(xiàn)。如何在新數(shù)據(jù)不斷更新的情況下仍保持挖掘算法的速度,仍然沒(méi)有解決方案,在不斷更新的數(shù)據(jù)模型中,對(duì)歷史數(shù)據(jù)進(jìn)行多次計(jì)算是不可行的做法,因此,對(duì)于此類數(shù)據(jù)庫(kù)的更新必須采用增量分類的方法來(lái)保證算法的速度。
為了解決數(shù)據(jù)庫(kù)更新數(shù)據(jù)龐大的問(wèn)題,本文提出的加速算法將通過(guò)在候選屬性數(shù)據(jù)集中選擇最可靠的數(shù)據(jù)集來(lái)實(shí)現(xiàn)候選集屬性的輸出。加速算法的數(shù)據(jù)提取過(guò)程只需執(zhí)行一次即可讀取數(shù)據(jù),因此可稱為任意算法。該加速算法將根據(jù)每個(gè)屬性值的出現(xiàn)次數(shù)構(gòu)建決策分支樹。在計(jì)算加速算法的過(guò)程中,屬性Xi的值的出現(xiàn)頻率和屬性Xi的類yk由Hoffding 邊界在下面的公式中檢查[4-5]。其公式如下:
在公式中分類屬性由R 來(lái)確定,屬于同一個(gè)數(shù)據(jù)集合中的個(gè)數(shù)用n 來(lái)表示。與傳統(tǒng)的算法不同,這一新型的加速算法對(duì)于屬性Xi的檢測(cè)是根據(jù)對(duì)推薦前的兩組高值的集合項(xiàng)來(lái)確定的。在任意時(shí)刻中,xi存在兩個(gè)最大集合值項(xiàng),分別為xia和xib,這兩個(gè)值都滿足xia=argmaxH(xij)和xib=argmaxH(xij),其中j ≠a。至此完成通信數(shù)據(jù)智能挖掘的加速算過(guò)程。為了測(cè)試本文算法的加速效果進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)建立在Maglab 仿真環(huán)境中。實(shí)驗(yàn)的硬件環(huán)境為:IntelCole5-540 1G 內(nèi)存,操作系統(tǒng)為Windows 7。假設(shè)在通信環(huán)境下光纖網(wǎng)絡(luò)通信節(jié)點(diǎn)分布3000m×3000m 的均勻陣列區(qū)域,光纖通信采用頻帶為3kHz 至11 kHz,載頻時(shí)寬為 2 ms[6]。本文在傳統(tǒng)算法中選取3種常見(jiàn)算法進(jìn)行比較分析[7-8]。分別為混合通道,HP 的每個(gè)分類的建立都依靠于這個(gè)分離內(nèi)所有的數(shù)據(jù)的實(shí)現(xiàn)。測(cè)試的數(shù)據(jù)根據(jù)包含最多實(shí)例的數(shù)據(jù)庫(kù)的原則選取;貝葉斯,NB 基于訓(xùn)練數(shù)據(jù)進(jìn)行分析。其分類器并不進(jìn)行更新。貝葉斯網(wǎng)絡(luò)學(xué)習(xí)通過(guò)不同的搜算算法和結(jié)果質(zhì)量評(píng)估方法來(lái)組成;決策樹,DT生成C45決策樹。
此實(shí)驗(yàn)所運(yùn)用到的環(huán)境和數(shù)據(jù)參數(shù)如上所述,對(duì)通信智能挖掘加速算法模型的運(yùn)用首先進(jìn)行數(shù)據(jù)時(shí)間的序列采樣,并以采集到的數(shù)據(jù)進(jìn)行對(duì)比。
將基于數(shù)學(xué)模型的新型加速算法與傳統(tǒng)算法進(jìn)行性能的對(duì)比,得到的通信數(shù)據(jù)智能挖掘算法的速度對(duì)比結(jié)果。
圖1 新型加速算法與傳統(tǒng)算法的速度對(duì)比
如圖1所示。通過(guò)實(shí)驗(yàn)的對(duì)比結(jié)果表明,采用基于數(shù)學(xué)模型的新型通信數(shù)據(jù)智能挖掘加速算法的速度快于傳統(tǒng)的算法,提高了算法的效率,具有較高的推廣度。
本文提出的新加速算法是基于數(shù)學(xué)模型的智能挖掘加速。新型的加速算法排除掉了全部數(shù)據(jù)重新載入的過(guò)程,實(shí)現(xiàn)通信數(shù)據(jù)智能挖掘算法的加速查詢。為測(cè)試新型加速算法的性能,將新型算法與其他的三種傳統(tǒng)算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明新型算法在查詢準(zhǔn)確度與速度上有更為明顯的優(yōu)勢(shì),具有推廣價(jià)值。但是本文提出的新型加速算法有一定的限制,在今后的研究中將繼續(xù)研究有關(guān)加速算法,為通信智能挖掘算法效率的提高做出理論支撐。