(安徽三聯(lián)學院,安徽 合肥 230601)
隨著現(xiàn)代化科技的飛速快速發(fā)展,網(wǎng)絡流量數(shù)據(jù)精準挖掘方法作為一種相對較為保守的電子網(wǎng)絡數(shù)據(jù)管理方法,進行網(wǎng)絡數(shù)據(jù)流量的挖掘過程中,經(jīng)常會出現(xiàn)數(shù)據(jù)異常等問題。為解決以上問題,提出基于優(yōu)化蟻群算法的網(wǎng)絡流量數(shù)據(jù)精準挖掘仿真方法[1]。對網(wǎng)絡流量數(shù)據(jù)挖掘過程中常見的數(shù)據(jù)識別異常等問題進行優(yōu)化和改善,并對網(wǎng)絡模糊異常數(shù)據(jù)特征進行快速識別,為解決傳統(tǒng)網(wǎng)絡流量數(shù)據(jù)挖掘過程中常見的數(shù)據(jù)特征挖掘準確率相對較低、數(shù)據(jù)挖掘成本相對較大等問題進行優(yōu)化和改善,以期更好的識別處理數(shù)據(jù)挖掘效果[2]。根據(jù)無線傳感器網(wǎng)絡挖掘原理進行海量數(shù)據(jù)關聯(lián)特征的采集和劃分,在此基礎上,結合網(wǎng)絡數(shù)據(jù)挖掘窗口進行遺傳數(shù)據(jù)的挖掘和分類檢測,并根據(jù)檢測結果進行數(shù)據(jù)空間關聯(lián)性特征識別,簡化數(shù)據(jù)挖掘和特征識別步驟,最終實現(xiàn)對網(wǎng)絡流量數(shù)據(jù)的精準挖掘。
(1)
若β,η分別為網(wǎng)絡流量數(shù)據(jù)的參考數(shù)值,結合最大相似原理對挖掘到的異常數(shù)值進行規(guī)范,對分布函數(shù)運算原理進一步對異常數(shù)值波動系數(shù)進行規(guī)范,具體算法如下:
R=l-1(f(x)|g(y)-ηβ)
(2)
在上述算法中,l-1表示非線性網(wǎng)絡流量的異常數(shù)據(jù)置信度數(shù)值,在網(wǎng)絡流量異常數(shù)據(jù)波動系數(shù)相對較大時,需要進一步對異常數(shù)值波動距離進行計算和規(guī)范,考慮到挖掘數(shù)據(jù)的穩(wěn)定性,對異常波動數(shù)值的高維空間進程優(yōu)化[4]。結合聚類特征簇合并算法對網(wǎng)絡流量數(shù)據(jù)進行模糊特征評估和區(qū)分處理,從而獲取波動聚類權重數(shù)值,具體算法如下:
(3)
若在上述算法中,xi和xj分別代表網(wǎng)絡流量數(shù)據(jù)的標準數(shù)值和異常數(shù)值,yi和yj分別代表不同維度的數(shù)據(jù)波動標準范圍數(shù)值和異常數(shù)值范圍數(shù)值?;谏鲜鏊惴ㄟM行加權賦值處理,若標準權重和流量數(shù)據(jù)異常特征數(shù)值進行對比[5]。若wi代表網(wǎng)絡流量數(shù)據(jù)中的不同維度異常數(shù)據(jù)權重,異常波動規(guī)范數(shù)值系數(shù)越高則賦權數(shù)值越低,即二者呈反比關系[6]。進一步對二者關系標準進行計算,若k為加權數(shù)值,p為異常波動規(guī)范數(shù)值,且二者滿足:
(4)
進一步對網(wǎng)絡流量數(shù)據(jù)的相似性加權特征聚類數(shù)值進行規(guī)范,結合網(wǎng)絡流量數(shù)據(jù)之間的特征相似度對挖掘數(shù)據(jù)進行歸一化處理,對采集到的異常數(shù)據(jù)集進行異常數(shù)據(jù)的模糊特征去除處理,并對網(wǎng)絡流量異常數(shù)據(jù)精準挖掘和特征識別的魯棒性進行提高,若給定非線性初始數(shù)據(jù)特征數(shù)值為z,則網(wǎng)絡流量挖掘目標進行搜索,具體的網(wǎng)絡數(shù)據(jù)特征搜索算法為:
(5)
若uei表示網(wǎng)絡流量數(shù)據(jù)挖掘過程中的特征蟻群數(shù)值空間,其特征向量可記為R,δ為網(wǎng)絡數(shù)據(jù)挖掘過程中的初始特征釁側條件,結合非線性原理對網(wǎng)絡流量數(shù)據(jù)進行分類,則對網(wǎng)絡流量數(shù)據(jù)挖掘精準性概率模型進行計算,具體算法為。
(6)
在上述算法中,計算所得的概率數(shù)值越大,則數(shù)據(jù)特征相似性越高,進一步對數(shù)據(jù)挖掘的非線性數(shù)據(jù)特征進行轉移,從而獲取網(wǎng)絡流量正常數(shù)據(jù)挖掘概率數(shù)值,若a為相似性常數(shù),在網(wǎng)絡流量數(shù)據(jù)特征挖掘的過程中,對聚類特征進行劃分,其中分類規(guī)劃到第n個正常特征數(shù)據(jù)的概率,相當于對任意一個網(wǎng)絡流量特征數(shù)據(jù)相似度的加權距離的采集數(shù)值,為了有效的去除非線性網(wǎng)絡流量數(shù)據(jù)模糊特征干擾,對異常數(shù)據(jù)特征進行歸一化處理,具體算法如下:
(7)
基于上述算法可有效實現(xiàn)對網(wǎng)絡數(shù)據(jù)異常特征數(shù)值的有效歸類,并根據(jù)計算結果實現(xiàn)對網(wǎng)絡流量數(shù)據(jù)進行挖掘,為保障挖掘結果的有效性,需要進一步對挖掘步驟進行改善[6]。
進一步對網(wǎng)絡流量數(shù)據(jù)挖掘步驟進行優(yōu)化,建立一個相對更加完整數(shù)據(jù)管理平臺,將采集到的特征數(shù)據(jù)傳輸至平臺中[7]。在數(shù)據(jù)挖掘過程中中數(shù)據(jù)可隨機抽取待挖掘數(shù)據(jù),數(shù)據(jù)管理作為網(wǎng)絡流量數(shù)據(jù)挖掘過程中的關鍵環(huán)節(jié),其對數(shù)據(jù)采樣的優(yōu)劣產(chǎn)生直接影響,因此對數(shù)據(jù)采集平臺結構進行優(yōu)化,具體結構如圖1所示:
圖1 網(wǎng)絡數(shù)據(jù)流量采集平臺
圖2 網(wǎng)絡流量數(shù)據(jù)處理結構
在上述網(wǎng)絡數(shù)據(jù)采集平臺中隨機抽取特征數(shù)據(jù),為保障數(shù)據(jù)抽取的準確性,進一步對其挖掘步驟進行規(guī)范,具體如下:
我吃過竹筍,卻不知道它一夜之間竟可長這么高;旁邊那塊空地,也長了幾根竹子,昨晚要是睡那兒,竹筍突然冒出來,可能會把人傷了;原來竹子拔節(jié),聲音這么響,喀喀喀的。
步驟1:抽取被選擇數(shù)據(jù)。在數(shù)據(jù)抽取的過程中,具有較為重要的影響,從平臺結構中多個初級處理接口進行數(shù)據(jù)源特征勘查和采集工作,并對海量網(wǎng)絡流量數(shù)據(jù)特征進行勘察,并采集網(wǎng)絡流量數(shù)據(jù)中的異常數(shù)值樣本。
步驟2:規(guī)范數(shù)據(jù)挖掘指標。在完成對數(shù)據(jù)特征的抽取后,進一步對數(shù)據(jù)挖掘指標進行規(guī)范,基于數(shù)據(jù)平臺中的特征數(shù)值進行指標參照數(shù)值規(guī)范,隨機抽取數(shù)據(jù)庫指標進行對比檢測[8]。在對數(shù)據(jù)特征進行規(guī)范的過程中,需要對海量數(shù)據(jù)特征進行泛化處理,結合對維度附加屬性歸納原理進行指標規(guī)范。
步驟3:數(shù)據(jù)挖掘處理優(yōu)化。結合多維數(shù)據(jù)特征聯(lián)機原理進行挖掘,對特征數(shù)據(jù)進行有效集合和分類,抽取特征數(shù)據(jù),對特征屬性進行附加處理并對其挖掘標準進行歸納和泛化處理,并對處理后的數(shù)據(jù)關聯(lián)度進行存儲,并從高到低的總結數(shù)據(jù)特征之間的深度關聯(lián)性關系[9]。
基于以上步驟進一步對網(wǎng)絡交流數(shù)據(jù)精準性進行挖掘,為保障數(shù)據(jù)挖掘的有效性進一步在數(shù)據(jù)挖掘處理平臺中添加UI表示層、DLL業(yè)務邏輯層和DAL數(shù)據(jù)訪問層等,具體功能如下:
網(wǎng)絡流量數(shù)據(jù)UI表示層:網(wǎng)絡流量數(shù)據(jù)UI表示層的結構設計主要包括對網(wǎng)絡流量數(shù)據(jù)信息特征的采集和存儲,對已挖掘的特征數(shù)據(jù)進行歸類支持和服務。
網(wǎng)絡流量數(shù)據(jù)邏輯評價層:該模塊的設計主要是通過對挖掘后的網(wǎng)絡流量數(shù)據(jù)特征信息進行分類,劃分數(shù)據(jù)邏輯關系層,結合Apriori算法進一步對數(shù)據(jù)特征進行訪問和挖掘,從而達到對數(shù)據(jù)挖掘質(zhì)量進行有效調(diào)整的目標[10]。
網(wǎng)絡流量數(shù)據(jù)檢測層:在對網(wǎng)絡流量數(shù)據(jù)進行檢測的過程中,進一步對數(shù)據(jù)特征進行挖掘評價,并根據(jù)挖掘評價結果進行數(shù)據(jù)特征的調(diào)整、傳輸和存儲,從而達到實現(xiàn)對網(wǎng)絡流量數(shù)據(jù)挖掘的目標。
基于以上結構對網(wǎng)絡流量數(shù)據(jù)挖掘結構進行優(yōu)化,具體結構如圖2所示:
(8)
設隨機選取數(shù)據(jù)挖掘樣本,記為n,若E為可挖掘到的最佳信息數(shù)值,則:
(9)
若在上述算法中,Q為可挖掘到的數(shù)據(jù)特征信息熵,n為數(shù)據(jù)挖掘前后差異值。結合蟻群算法和層次分析原理對數(shù)據(jù)挖掘質(zhì)量等級進行計算,針對采集到的數(shù)據(jù)特征樣本對數(shù)據(jù)流量變化標準差值進行計算。算法如下:
(10)
根據(jù)以上算法可有效實現(xiàn)對數(shù)據(jù)挖掘步驟的合理設置,達到最大程度上優(yōu)化和改善數(shù)據(jù)挖掘數(shù)據(jù)挖掘效果,提高數(shù)據(jù)挖掘質(zhì)量的研究目標。
利用蟻群算法進一步進行挖掘處理,把采集到的特征數(shù)據(jù)源信息按照特征數(shù)值進行劃分,保證網(wǎng)絡流量數(shù)據(jù)特征與波動系數(shù)成正常比例,從而控制異常數(shù)據(jù)變化數(shù)值。進一步對網(wǎng)絡流量數(shù)據(jù)挖掘質(zhì)量進行計算,設數(shù)據(jù)挖掘過程中的產(chǎn)生的最小特征支持度為A,整體數(shù)據(jù)挖掘變化數(shù)據(jù)記為C,x1,x2,x3,x4,x5,x6表示數(shù)據(jù)變化數(shù)值,a,b,c分別表示數(shù)據(jù)挖掘質(zhì)量等級,則:
(11)
(12)
(13)
(14)
采取數(shù)據(jù)特征關聯(lián)規(guī)律、排序挖掘算法對網(wǎng)絡流量的中間動作數(shù)據(jù)進行挖掘處理。結合蟻群算法和Aprepem平臺進行關聯(lián)規(guī)律的規(guī)范處理,根據(jù)采集到的數(shù)據(jù)特征向量支持度下限對網(wǎng)絡流量數(shù)據(jù)進行關聯(lián)規(guī)律的挖掘,并在數(shù)據(jù)挖掘過程中臨時設定相應的數(shù)據(jù)挖掘限制條件,從而更好的確保數(shù)據(jù)挖掘的關聯(lián)規(guī)律,保證網(wǎng)絡流量應用特征的準確分類,為保障數(shù)據(jù)挖掘和特征分類的有效性,對數(shù)據(jù)挖掘流程進行規(guī)范,具體如圖3所示。
圖3 網(wǎng)絡流量數(shù)據(jù)挖掘流程優(yōu)化
基于以上流程進一步對網(wǎng)絡流量數(shù)據(jù)進行挖掘,結合計算機終端電子存儲設備,對海量的碎片化數(shù)據(jù)噪聲數(shù)值和模糊信息進行過濾處理,建立相應的空間二維坐標,并分析網(wǎng)絡流量特征的整體性,對計算機網(wǎng)絡流量挖掘管理平臺及數(shù)據(jù)挖掘管理平臺進行優(yōu)化設計,具體見圖4:
圖4 數(shù)據(jù)挖掘管理平臺
圖5 傳統(tǒng)方法檢測結果
基于以上步驟可有效實現(xiàn)對網(wǎng)絡流量數(shù)據(jù)的合理挖掘,簡化數(shù)據(jù)挖掘流程,提高數(shù)據(jù)挖掘準確性和時效性。
為了更好的檢測基于優(yōu)化蟻群算法的網(wǎng)絡流量數(shù)據(jù)挖掘效果,在相同環(huán)境下結合傳統(tǒng),數(shù)據(jù)挖掘方法進行對比檢測,為保障檢測結果真實有效,對檢測環(huán)境和實驗參數(shù)進行統(tǒng)一設置。
圖6 方法檢測結果
實驗平臺選擇了ASP.NET WEB數(shù)據(jù)開發(fā)平臺,WEB標準網(wǎng)站,XHTML語言,NET Frame work存儲器,ASP.NET應用程序,B,J Script NET數(shù)據(jù)運行庫。Visual C++6.0作為實驗研發(fā)工具,選取2018年10月1日早七時至10月10日晚19時用網(wǎng)高峰期內(nèi)的網(wǎng)絡流量數(shù)據(jù)采集數(shù)值作為實驗研究對象,并對兩種方法下的數(shù)據(jù)特征的模式歸為一個集合,記為:
hn=[sup port(V),congfidence(Y)]
(15)
其中數(shù)據(jù)挖掘的限制條件為V,數(shù)據(jù)挖掘興趣度為Y?;谏鲜鏊惴ㄟM行數(shù)據(jù)挖掘波動數(shù)值的檢測,并進一步對實驗參數(shù)進行設計,具體如下:
表1 實驗參數(shù)
基于以上實驗環(huán)境和實驗參數(shù)進行對比檢測實驗,通過對數(shù)據(jù)挖掘過程中干擾度對波頻影響程度進行挖掘效果的展示,并對檢測數(shù)值進行記錄,繪制成圖,具體的實驗檢測結果如圖5,6所示:
傳統(tǒng)方法數(shù)值波動范圍在±15之間,而所提方法數(shù)值波動范圍在±5之間,波動范圍越小,檢測精準度越高。
觀察以上檢測結果不難發(fā)現(xiàn),在相同干擾度影響條件下,傳統(tǒng)數(shù)據(jù)挖掘方法波動數(shù)值變化遠遠超出標準范圍,由此證實,傳統(tǒng)方法數(shù)據(jù)挖掘精確性相對較差。而反觀挖掘方法檢測結果可知,基于優(yōu)化蟻群算法的網(wǎng)絡流量數(shù)據(jù)挖掘仿真檢測結果波動數(shù)值始終處于標準波動范圍內(nèi),由此證實,基于優(yōu)化蟻群算法的網(wǎng)絡流量數(shù)據(jù)挖掘仿真具有更高的準確性,充分滿足研究要求。
隨著當前電子信息技術的飛速發(fā)展,對網(wǎng)絡流量數(shù)據(jù)的挖掘準確性要求更高。為彌補傳統(tǒng)挖掘效果準確性較差的問題,提出基于優(yōu)化蟻群算法的網(wǎng)絡流量數(shù)據(jù)精掘仿真方法進行優(yōu)化和改善,從而更好的保證數(shù)據(jù)挖掘的準確性。