朱 娜
(哈爾濱職業(yè)技術(shù)學(xué)院 黑龍江 哈爾濱 150001)
數(shù)據(jù)挖掘技術(shù)可針對大量、不完整,甚至存在噪聲和模糊數(shù)據(jù)中,提取具有應(yīng)用價值的數(shù)據(jù)信息,便于數(shù)據(jù)信息的應(yīng)用。在具體的數(shù)據(jù)挖掘時,可以將其是為一個發(fā)現(xiàn)新數(shù)據(jù)、信息知識的過程中。將云計算技術(shù)應(yīng)用到數(shù)據(jù)挖掘平臺設(shè)計中,其可借助“云”中的多個資源完成對數(shù)據(jù)的挖掘任務(wù),且可進(jìn)一步增強(qiáng)數(shù)據(jù)挖掘平臺的功能,提升效率。而且,借助云計算技術(shù),可有效打破實(shí)際網(wǎng)絡(luò)下數(shù)據(jù)挖掘的限制,可使之商業(yè)化水平更高。由此可見,云計算技術(shù)運(yùn)用到數(shù)據(jù)挖掘平臺中,具有極高的應(yīng)用價值,對推動數(shù)據(jù)挖掘平臺優(yōu)化具有極高的現(xiàn)實(shí)意義。
針對大數(shù)據(jù)時代,信息的爆炸式增長,全面加大了信息攫取的難度,對于噪聲、不完整的數(shù)據(jù)信息,如果不選擇有效技術(shù),則無法完成對這些信息的利用,則導(dǎo)致信息資源浪費(fèi)。而傳統(tǒng)數(shù)據(jù)挖掘平臺,在實(shí)際的運(yùn)用中,也存在一定的限制,效率相對較低。針對這種情況,可展開對云計算技術(shù)下數(shù)據(jù)挖掘平臺,結(jié)合數(shù)據(jù)特點(diǎn),實(shí)現(xiàn)云計算技術(shù)的運(yùn)用,對數(shù)據(jù)信息進(jìn)行有效過濾和轉(zhuǎn)化,可全面增強(qiáng)數(shù)據(jù)挖掘平臺的效率。而且,在面向海量用戶數(shù)據(jù)信息時,云計算技術(shù)下的數(shù)據(jù)挖掘平臺,可從計費(fèi)數(shù)據(jù)、業(yè)務(wù)訂購數(shù)據(jù)和網(wǎng)管數(shù)據(jù)等中發(fā)現(xiàn)商業(yè)信息,可為進(jìn)一步的市場營銷提供幫助。
平臺在具體設(shè)計中,主要選擇三層結(jié)構(gòu),包括具體數(shù)據(jù)預(yù)處理、云計算和數(shù)據(jù)挖掘平臺。借助三層結(jié)構(gòu)達(dá)到改進(jìn)優(yōu)化傳統(tǒng)數(shù)據(jù)挖掘平臺功能的目的,突出平臺的可用性,滿足用戶的基本需求。其中,結(jié)構(gòu)中的不同內(nèi)容實(shí)現(xiàn)不同的功能。各項(xiàng)結(jié)合的相互配合可保障數(shù)據(jù)挖掘的整體效果,提升數(shù)據(jù)的利用質(zhì)量。其中數(shù)據(jù)預(yù)處理層,主要是完成對數(shù)據(jù)文件的存儲工作,選擇分布式存儲方式,簡單實(shí)現(xiàn)數(shù)據(jù)信息的過濾,便于平臺對數(shù)據(jù)信息的分布式管理。云計算層主要是在云計算的支持下,借助規(guī)則、模式、模型和圖表等方式,完成對數(shù)據(jù)挖掘步驟的控制與調(diào)度,并實(shí)現(xiàn)原始數(shù)據(jù)的有效預(yù)處理。對于數(shù)據(jù)挖掘平臺,則由各種實(shí)際應(yīng)用體現(xiàn),并具備決策管理、資源管理和通信性能優(yōu)化等內(nèi)容。
在研究平臺總體設(shè)計的基礎(chǔ)上,對平臺具體功能展開設(shè)計。云計算技術(shù)下數(shù)據(jù)挖掘平臺,可實(shí)現(xiàn)多種數(shù)據(jù)挖掘功能。具體的功能設(shè)計選擇模塊化的設(shè)計方案,具體功能模塊的示意圖如圖1所示。
圖1 功能模塊圖
(1)數(shù)據(jù)采集模塊。該模塊的功能較為明顯,主要是完成對數(shù)據(jù)信息采集,具體的數(shù)據(jù)信息包括平臺服務(wù)器終端的數(shù)據(jù),用戶等級數(shù)據(jù)信息等。數(shù)據(jù)信息的采集,決定了平臺的功能性與可靠性。
(2)數(shù)據(jù)處理模塊。該模塊的功能,是對數(shù)據(jù)采集模塊所采集的數(shù)據(jù)信息進(jìn)行處理或是直接將預(yù)處理返回的數(shù)據(jù)信息進(jìn)行進(jìn)一步處理。其主要目的是將數(shù)據(jù)信息中無用信息、冗余數(shù)據(jù)進(jìn)行控制,從而達(dá)到節(jié)省平臺數(shù)據(jù)挖掘時間的效果。其是系統(tǒng)中不可或缺的功能模塊。具體數(shù)據(jù)處理中,需要合理的對算法進(jìn)行選擇,遺傳算法是數(shù)據(jù)挖掘中,常用的算法類型,在遺傳算法基礎(chǔ)上,可對算法進(jìn)行進(jìn)一步優(yōu)化,可有效提升數(shù)據(jù)處理效果。
(3)模式規(guī)則選擇模塊。它屬于的一種學(xué)習(xí)策略,有助于平臺獲取各個站點(diǎn)的通用模式,保障平臺的功能性體現(xiàn)。
(4)應(yīng)用接口模塊。應(yīng)用接口是實(shí)現(xiàn)數(shù)據(jù)與數(shù)據(jù)挖掘平臺連接的關(guān)鍵,借助應(yīng)用接口模塊,可順利完成對數(shù)據(jù)信息的傳遞。
根據(jù)圖1所示,平臺數(shù)據(jù)庫是平臺結(jié)構(gòu)中的重要組成部分,其可實(shí)現(xiàn)對數(shù)據(jù)存儲與調(diào)用,便于用戶對挖掘后的數(shù)據(jù)信息進(jìn)行利用,綜合提升平臺的服務(wù)性能。在具體的數(shù)據(jù)庫設(shè)計中,需對其基本特征進(jìn)行利用,最大限度的降低冗余數(shù)據(jù),并借助主鍵與外鍵對應(yīng)動態(tài)生成所需視圖,從而達(dá)到便于查詢的目的。另外,借助查閱數(shù)據(jù)庫的相關(guān)資料,對各類表鍵對應(yīng)關(guān)系進(jìn)行研究。
云計算技術(shù)下數(shù)挖掘平臺的算法是確保數(shù)據(jù)挖掘效果的關(guān)鍵,直接影響數(shù)據(jù)挖掘效率和質(zhì)量。故此,必須展開對具體算法的研究。云計算與數(shù)據(jù)挖掘相結(jié)合,可在無限規(guī)模的機(jī)器集群上展開。本文所構(gòu)建的平臺中,具體的Map/Reduce中,但凡一次計算請求,均算作一次作業(yè)。它在實(shí)施作業(yè)中,將具體作業(yè)流程分為若干個差異明顯的Map任務(wù),并按照一定規(guī)則,將所有Map任務(wù)發(fā)送到機(jī)器中,由機(jī)器執(zhí)行。完成后,則展開合并,并輸出。這一過程展開的同時,平臺也生成若干個Reduce任務(wù),算法與之相同,最后生成目標(biāo)文件。
在研究具體平臺設(shè)計方案和具體算法實(shí)現(xiàn)的基礎(chǔ)上,對平臺中具體的關(guān)鍵技術(shù)展開研究,詳細(xì)內(nèi)容如下。
具體的云計算技術(shù)在數(shù)據(jù)挖掘平臺構(gòu)建中,分別運(yùn)用到分布式存儲技術(shù)、虛擬化技術(shù)、并行云計算技術(shù)。
(1)分布式存儲技術(shù)。借助這種方式完成對數(shù)據(jù)信息的存儲,可完成對硬件不足的彌補(bǔ),并構(gòu)建一個資源池,提升數(shù)據(jù)信息的利用效果
(2)虛擬化技術(shù)。全面虛擬條件下的應(yīng)用與整合,可保障云計算環(huán)境下,數(shù)據(jù)挖掘?qū)崿F(xiàn)。借助虛擬化技術(shù),可實(shí)現(xiàn)資源調(diào)度與數(shù)據(jù)挖掘的跨平臺整合,借助IT資源匯合海量數(shù)據(jù),達(dá)到提供虛擬化資源的目的。
(3)并行云計算技術(shù)??杀U蠑?shù)據(jù)挖掘與計算的高效性,還可完成對部分技術(shù)細(xì)節(jié)的封裝,包括數(shù)據(jù)分布、并行、容錯等,可提升研發(fā)效率。
可針對不同類型的數(shù)據(jù)進(jìn)行匯集,且接入云計算數(shù)據(jù)挖掘平臺業(yè)務(wù)數(shù)據(jù),可順利完成對數(shù)據(jù)相關(guān)規(guī)約問題的控制,可支持多種源數(shù)據(jù)格式。服務(wù)調(diào)度與管理技術(shù),是為平臺提供必要管理與調(diào)度功能,可保障平臺的安全與可靠,綜合提升平臺的服務(wù)性能,滿足用戶的基本需求。
本文研究分析云計算技術(shù)數(shù)據(jù)挖掘平臺,主要從云計算技術(shù)與數(shù)據(jù)挖掘平臺的相關(guān)研究入手,分析云計算技術(shù)的應(yīng)用價值及具體平臺設(shè)計需求。再展開對具體云計算技術(shù)下數(shù)據(jù)挖掘平臺的設(shè)計方案進(jìn)行研究,詳細(xì)對總體設(shè)計、功能設(shè)計、數(shù)據(jù)庫設(shè)計和算法實(shí)現(xiàn)等進(jìn)行闡述,從而完成對云計算技術(shù)下數(shù)據(jù)挖掘平臺的構(gòu)建。最后,研究分析具體平臺構(gòu)建過程中所運(yùn)用到的關(guān)鍵技術(shù),包括分布式存儲技術(shù)、虛擬化技術(shù)、并行云計算技術(shù)等。借助關(guān)鍵技術(shù)的運(yùn)用,積極推動平臺的功能擴(kuò)展。
[1] 劉建東.云計算下數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)的探索[J].科技與創(chuàng)新,2017(6):128-128.
[2] 包永紅.云計算技術(shù)下數(shù)據(jù)挖掘平臺設(shè)計及技術(shù)[J].現(xiàn)代電子技術(shù),2016,39(16):61-63.