隨著時代的發(fā)展以及客戶的需求變化,計算機采集數(shù)據(jù)量在不斷增大,提升計算機安全性,運用計算機處理海量數(shù)據(jù)已成為一種技術(shù)趨勢。針對不同數(shù)據(jù)類型以及數(shù)據(jù)格式的信息,運用計算機對數(shù)據(jù)進行處理,其難度也相應(yīng)有所提升;基于云計算技術(shù)的發(fā)展,將該技術(shù)應(yīng)用到數(shù)據(jù)處理之中,能夠取得不錯應(yīng)用效果。本文主要目的就是分析在云計算技術(shù)支持下,改進傳統(tǒng)的數(shù)據(jù)處理方法,應(yīng)用并行SLIQ算法實現(xiàn)對計算機海量數(shù)據(jù)的處理,以便提升計算機海量數(shù)據(jù)處理效果。
云計算就是以更快捷的方式為用戶提供計算資源,不斷地提高云計算下計算機的處理能力,減少計算機用戶終端的數(shù)據(jù)處理的負擔(dān),使計算機數(shù)據(jù)終端可以簡化為一種輸入輸出設(shè)備,云的強大計算處理能力使用戶可以按需求取。云計算它包括網(wǎng)絡(luò)計算、并行計算、網(wǎng)絡(luò)存儲、分布式計算等,它是用網(wǎng)絡(luò)的方式整合較低的計算實體,最終形成強大計算能力的用戶終端,并借助商業(yè)模式來進行推廣應(yīng)用。
基于云計算的并行SLIQ算法,就是在用云計算作為支持的技術(shù)平臺上,再構(gòu)建分布式時空數(shù)據(jù)庫,面向擁有海量數(shù)據(jù)計算機系統(tǒng)的數(shù)據(jù)挖掘模型。并且,在云計算技術(shù)下,確保計算機海量數(shù)據(jù)在傳輸中不發(fā)生成批成片丟失、錯誤的狀況,可以解決海量數(shù)據(jù)存儲中節(jié)點失效幾率,可以確保計算機數(shù)據(jù)安全性。
基于云計算的計算機數(shù)據(jù)處理中,能夠為客戶數(shù)據(jù)處理提供動態(tài)資源池,并可以實現(xiàn)虛擬化可用性計算機數(shù)據(jù)處理平臺,這樣就可以利用云計算來對計算機海量數(shù)據(jù)進行計算挖掘。
圖1 云計算中數(shù)據(jù)計算模型
在基于云計算的計算機海量數(shù)據(jù)SLIQ算法中,可以通過這個云計算平臺,云計算技術(shù)的底層中,是可以透明化實現(xiàn)的,其能夠給上層數(shù)據(jù)計算提供服務(wù),并且在基于運算的SLIQ算法上層之中,還可以有效通過計算機的層間開放接口,以此去調(diào)用下層中的數(shù)據(jù)服務(wù),這也就可以使得計算機海量數(shù)據(jù)SLIQ算法中,其并行決策樹層以及層之間功能,能夠?qū)崿F(xiàn)其之間的相對獨立,云計算設(shè)計的計算機海量數(shù)據(jù)處理中,基于海量數(shù)據(jù)的二次開發(fā),設(shè)計出具備多層插件的框架結(jié)構(gòu),計算機海量數(shù)據(jù)SLIQ算法,運用云計算技術(shù),整合資源跟彈性構(gòu)架,增加實際計算機海量數(shù)據(jù)SLIQ算法的實現(xiàn)有效性,提升其維護中的靈活性。同時,在基于云計算的SLIQ算法之中,要滿足數(shù)據(jù)復(fù)雜型,滿足海量數(shù)據(jù)動態(tài)性,是一種實現(xiàn)數(shù)據(jù)挖掘的重要模式。
在SLIQ算法中,可以采用預(yù)排序的技術(shù),有效消除云計算決策樹中每個節(jié)點數(shù)據(jù)集排序需要,對每個屬性取值,把記錄按從小到大排序,為訓(xùn)練集數(shù)據(jù)的每個屬性創(chuàng)建一個屬性列表,運用廣度優(yōu)先策略去構(gòu)造決策樹,也就是在決策樹的每一層,可以只需對其每個屬性的列表進行掃描,就可以一次找出其決策樹葉子節(jié)點的最優(yōu)分裂標(biāo)準(zhǔn),從而提升數(shù)據(jù)處理效率。
在SLIQ算法的數(shù)據(jù)結(jié)構(gòu)中,包含屬性表(Attribute List)、類表(C1ass List),其中,SLIQ算法中的每個屬性有一個屬性表,有必要的話,屬性表可以寫回磁盤類表(C1ass List):
SLIQ算法中僅有一張類表,類表必須常駐內(nèi)存,類表第 n項,存放第n條記錄的類標(biāo)簽,類表(C1ass List)表示如下:
SLIQ算法的數(shù)據(jù)結(jié)構(gòu)中,還包含有樹節(jié)點,內(nèi)部節(jié)點記錄必要的分類信息,葉子節(jié)點代表訓(xùn)練集的一塊數(shù)據(jù),也就是一個類別。每個節(jié)點之中,其也都具有一個類的直方圖,可以在計算機海量數(shù)據(jù)處理中,用此圖來統(tǒng)計分類數(shù)據(jù)信息。
SLIQ算法樹結(jié)構(gòu)中的數(shù)值型字段的類直方圖:SLIQ算法樹結(jié)構(gòu)中的種類型字段的類直方圖:
SLIQ算法中,具備預(yù)排序與廣度優(yōu)先增長策略;而且在SLIQ算法中,還有預(yù)排序與廣度優(yōu)先增長策略,計算出最佳分割以后,就可以產(chǎn)生子節(jié)點了;子節(jié)點生成以后,需要對類表進行更新,使它指向原來節(jié)點的子節(jié)點。其更新類表算法代碼如下:
UpdateLabe1s()
在基于云計算技術(shù)的SLIQ算法中,將會應(yīng)用“云服務(wù)”,針對云計算公共標(biāo)準(zhǔn),基于云計算開發(fā)網(wǎng)絡(luò)平臺,有效分類、管理、利用計算機海量數(shù)據(jù)資源,確保計算機海量數(shù)據(jù)在“云端”的安全性,選擇可想的云計算服務(wù),提升計算機海量數(shù)據(jù)平臺開發(fā)的質(zhì)量。計算機海量數(shù)據(jù)處理,在實際應(yīng)用領(lǐng)域內(nèi),給數(shù)據(jù)管理工作帶來許多優(yōu)勢,選擇適合數(shù)據(jù)分析模型的關(guān)聯(lián)規(guī)則,建立數(shù)據(jù)倉庫,并對其進行數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)消減等,應(yīng)用基于云計算技術(shù)的SLIQ算法,大大優(yōu)化了計算機海量數(shù)據(jù)管理質(zhì)量。
同時,對于在硬件開發(fā)部門,將會應(yīng)用云計算技術(shù),利用“云端”、計算機系統(tǒng)以及局域網(wǎng)組建其互聯(lián)網(wǎng)形式,有效提升硬件開發(fā)方面的質(zhì)量水平。在應(yīng)該開發(fā)中,應(yīng)用三層次服務(wù),云計算技術(shù)的SLIQ算法中,實現(xiàn)用戶通過云計算web瀏覽器以及手機等移動設(shè)備,提升計算機海量數(shù)據(jù)處理速度,避免重復(fù)開發(fā)。并且,在云計算技術(shù)下,對于計算機本地存儲的數(shù)據(jù),均會進行加密保護,并且在數(shù)據(jù)的網(wǎng)絡(luò)傳輸上也會加密保護,確保海量數(shù)據(jù)傳輸安全。在設(shè)計中,還需要具備任務(wù)調(diào)度以及創(chuàng)建新任務(wù)的功能;內(nèi)存管理中,應(yīng)該可以實時用戶提供強大的虛擬存儲管理機制,在軟件設(shè)計中還應(yīng)該具備中斷管理、時間管理功能,可以在系統(tǒng)的軟件設(shè)計中,設(shè)計出基于云計算海量數(shù)據(jù)處理中的時鐘程序;能夠在云計算技術(shù)下,針對計算機海量數(shù)據(jù)處理軟件設(shè)計中,設(shè)置具備任務(wù)擴展功能的結(jié)構(gòu),提高海量數(shù)據(jù)處理實際使用效率。
云計算下SLIQ算法中,根據(jù)MDL剪枝原理,對計算機海量數(shù)據(jù)進行編碼,對于生成的初始樹,發(fā)現(xiàn)最好的描述訓(xùn)練集S的子樹 T。同時,SLIQ算法還具備一些不足,首先是,云計算技術(shù)的SLIQ算法中,在云計算計算機中把類別列表存在內(nèi)存,中限制處理數(shù)據(jù)集大小。其次是云計算技術(shù)的SLIQ算法中,采用的是預(yù)排序技術(shù),由于實際排序算法復(fù)雜度,不是和記錄個數(shù)成線性關(guān)系的,在實際中也不能通過記錄數(shù)目增長,而是使數(shù)據(jù)結(jié)構(gòu)發(fā)生線性可伸縮性。
圖2 數(shù)據(jù)結(jié)構(gòu)
圖3 直方圖
要實現(xiàn)數(shù)據(jù)庫內(nèi)數(shù)據(jù)的轉(zhuǎn)換,首先確定數(shù)據(jù)分析中所具備的參數(shù),定義統(tǒng)計數(shù)據(jù)以及刪除統(tǒng)計數(shù)據(jù),確定統(tǒng)計時間段,以及參與SLIQ計算的字段。首先,對學(xué)生成績數(shù)據(jù)進行預(yù)排列,數(shù)據(jù)結(jié)構(gòu)及樹節(jié)點信息、類型字段直方圖如圖2、圖3所示。
計算樣本集信息熵,計算每個屬性的信息增益;對于屬性age,需要知道age的每個樣本值yes和no的分布。根據(jù)訓(xùn)練樣本集的屬性劃分成子集的熵;生成決策樹的根和分枝。如圖4所示:
圖4 決策樹
基于SLIQ算法中,針對實際計算機海量數(shù)據(jù)處理中,改進的SLIQ算法,避免因 SLIQ 算法需大量可以計算云計算決策樹中每個節(jié)點的指數(shù),從而可以獲得每個節(jié)點的分裂屬性,減少計算復(fù)雜性,提升分類效果,類圖5如下:
圖5 類圖
建立其云計算技術(shù)的決策樹,云計算技術(shù)的SLIQ算法中,計算最大信息增益值算法代碼如下所示:
云計算技術(shù)的SLIQ算法中,計算最佳分割的算法代碼如下所示:
建樹的過程中,應(yīng)該提高“確定最佳分裂(Best Sp1it)”的可伸縮性,計算開銷不大,確定數(shù)值型字段,尋找最佳的子集,遍歷所有子集,時間復(fù)雜度為指數(shù)級。其次,選擇導(dǎo)致最低錯誤率的子樹;使用獨立的數(shù)據(jù)集,快速得到簡潔而且準(zhǔn)確的決策樹,安全性高,數(shù)據(jù)準(zhǔn)確度高。最后得出決策樹,經(jīng)過程序?qū)Q策樹進行遍歷,得出計算機海量數(shù)據(jù)處理結(jié)果。
針對計算機海量數(shù)據(jù)處理中,基于云計算技術(shù),應(yīng)用 SLIQ算法處理海量數(shù)據(jù),改變以往計算機海量數(shù)據(jù)管理模式,把人工手動管理為計算機網(wǎng)絡(luò)化管理,使計算機海量數(shù)據(jù)處理方便快捷,提高了數(shù)據(jù)的安全性。采用云計算技術(shù),將計算機海量數(shù)據(jù)信息都存儲為一個服務(wù)器群,方便數(shù)據(jù)安全連接,也可以使各種硬件和軟件資源在互聯(lián)網(wǎng)上能夠自由流通,避免計算機數(shù)據(jù)丟失,可以減輕計算機海量數(shù)據(jù)處理人員的工作量,加強管理,還有就是縮小開支,提高工作效率與準(zhǔn)確率。
綜上所述,針對計算機海量數(shù)據(jù),應(yīng)用基于云計算技術(shù)SLIQ算法,有效解決計算機海量數(shù)據(jù)計算問題,加快數(shù)據(jù)查詢速度,處理海量計算機數(shù)據(jù),提升其工作中的安全性;同時,在處理計算機海量數(shù)據(jù)時,采用云計算SLIQ算法,不僅可以解決計算機海量數(shù)據(jù)存儲中節(jié)點失效的問題,還可提高計算海量數(shù)據(jù)的效率,降低數(shù)據(jù)處理復(fù)雜度,快速挖掘海量數(shù)據(jù)信息,具有實際應(yīng)用價值。