李曉輝
(長(zhǎng)春大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022)
數(shù)據(jù)挖掘是一個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程,具體是指對(duì)海量數(shù)據(jù)進(jìn)行分析和總結(jié),得到有用信息。數(shù)據(jù)挖掘的應(yīng)用遍及社會(huì)各個(gè)角落,大到國(guó)家對(duì)各種社會(huì)信息的統(tǒng)計(jì)分析,小到一個(gè)家庭的收支帳本,都會(huì)涉及數(shù)據(jù)挖掘。雖然不是所有人都了解數(shù)據(jù)挖掘的概念,但這并不影響對(duì)數(shù)據(jù)挖掘的實(shí)際運(yùn)用。比如一個(gè)家庭的收支帳目,通過(guò)對(duì)日常生活當(dāng)中的收入與支出進(jìn)行記錄,然后對(duì)某一階段的數(shù)據(jù)進(jìn)行分析,做出一個(gè)對(duì)家庭財(cái)政理有利的決策,這就是對(duì)數(shù)據(jù)挖掘的具體應(yīng)用。再比如一些證券分析類軟件,對(duì)于股民來(lái)講最常見(jiàn)的就是股票軟件,股票軟件的一個(gè)重要功能是對(duì)股票的以往數(shù)據(jù)進(jìn)行分析,最后得出一個(gè)結(jié)論,供股民參考決策,也是數(shù)據(jù)挖掘的具體應(yīng)用。數(shù)據(jù)挖掘不僅對(duì)個(gè)人有著重要指導(dǎo)意義,對(duì)于企業(yè)的經(jīng)營(yíng)來(lái)講更是意義非凡,只有不斷地總結(jié)過(guò)去,準(zhǔn)確地預(yù)測(cè)未來(lái),才能立于不敗之地。比如通過(guò)對(duì)于企業(yè)的經(jīng)營(yíng)數(shù)據(jù)進(jìn)行挖掘,從而找到經(jīng)營(yíng)當(dāng)中的經(jīng)驗(yàn)與不足,據(jù)此制定更好的管理方案;通過(guò)對(duì)市場(chǎng)的信息數(shù)據(jù)進(jìn)行挖掘?qū)κ袌?chǎng)未來(lái)趨勢(shì)做出準(zhǔn)確預(yù)測(cè),據(jù)此制定優(yōu)秀的市場(chǎng)戰(zhàn)略,都會(huì)對(duì)企業(yè)的發(fā)展帶來(lái)很大幫助。隨著社會(huì)的信息化進(jìn)程,各企業(yè)對(duì)于數(shù)據(jù)挖掘越來(lái)越重視,有些具有一定實(shí)力的企業(yè)已經(jīng)擁有了自己的數(shù)據(jù)挖掘系統(tǒng)。
近些年來(lái),國(guó)內(nèi)外已經(jīng)陸續(xù)開發(fā)了多種不同的數(shù)據(jù)挖掘系統(tǒng),但這些系統(tǒng)不是價(jià)格昂貴就是使用復(fù)雜,其推廣應(yīng)用存在相當(dāng)大的難度。云計(jì)算因其強(qiáng)大的計(jì)算與數(shù)據(jù)處理能力,為數(shù)據(jù)挖掘系統(tǒng)的發(fā)展打開了新的局面。
云計(jì)算的定義有廣義與狹義之分。從廣義上講云計(jì)算是一種服務(wù)的提供與使用模式,指服務(wù)提供方通過(guò)網(wǎng)絡(luò)以按需、易擴(kuò)展的方式為用戶提供服務(wù),用戶可以按需獲取服務(wù),并按使用交費(fèi)。這種服務(wù)既可以與IT和軟件、互聯(lián)網(wǎng)相關(guān),也可以是其他領(lǐng)域的服務(wù)。從狹義上講云計(jì)算指IT基礎(chǔ)設(shè)施的交付和使用模式,指通過(guò)網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需資源,云指的就是網(wǎng)絡(luò)當(dāng)中的軟件及硬件資源。云計(jì)算的使用已經(jīng)滲透到生活中各個(gè)領(lǐng)域,比如我們?cè)诰W(wǎng)上搜索信息、看網(wǎng)絡(luò)視頻、玩網(wǎng)絡(luò)游戲等都是在享受云計(jì)算的服務(wù)。
云計(jì)算的使用有著普通網(wǎng)絡(luò)無(wú)可比擬的優(yōu)勢(shì),主要有資源共享、數(shù)據(jù)安全、性能強(qiáng)大、降低成本等幾個(gè)方面。
1.2.1 資源共享
云計(jì)算可以將連接在網(wǎng)絡(luò)上的所有計(jì)算機(jī)及其它硬件設(shè)備和軟件、數(shù)據(jù)信息等資源進(jìn)行統(tǒng)一的調(diào)度管理。對(duì)于用戶來(lái)講,云可以認(rèn)為是無(wú)限的,可以隨時(shí)按需使用云中的資源,并按使用量付費(fèi)。用戶也可以將自己擁有的軟硬件資源共享到云端,成為共享資源的一部分,同時(shí)有效的權(quán)限管理策略可以讓用戶放心地與自己指定用戶共享資源,不會(huì)造成信息泄露。
1.2.2 數(shù)據(jù)安全
用戶將自己的信息數(shù)據(jù)放到云端,數(shù)據(jù)的安全可靠性將大大增強(qiáng)。有專業(yè)團(tuán)隊(duì)會(huì)對(duì)云端的數(shù)據(jù)信息進(jìn)行維護(hù)管理,用戶不用再擔(dān)心數(shù)據(jù)損壞、病毒入侵等問(wèn)題。
1.2.3 性能強(qiáng)大
通過(guò)網(wǎng)絡(luò)連接的大量計(jì)算機(jī)與各種硬件設(shè)備形成一個(gè)性能超強(qiáng)的服務(wù)器,可以為用戶提供強(qiáng)大的計(jì)算和數(shù)據(jù)處理能力,這在個(gè)人計(jì)算機(jī)上是難以企及的。
1.2.4 成本低廉
企業(yè)不需購(gòu)買昂貴的硬件設(shè)備,租用云端設(shè)備便可以構(gòu)建自己的信息平臺(tái)。
1.2.5 服務(wù)優(yōu)秀
云計(jì)算為使用者提供優(yōu)秀的服務(wù),使用者可以方便地構(gòu)建自己的平臺(tái),進(jìn)行數(shù)據(jù)存儲(chǔ)或共享。同時(shí)使用相當(dāng)便捷,用戶只需準(zhǔn)確把握自己的真正意圖,其它都可以交由計(jì)算機(jī)或其它終端來(lái)完成。
云計(jì)算可以為用戶提供多種優(yōu)秀的服務(wù),根據(jù)服務(wù)提供層面的不同我們可以將其大概分為三類:基礎(chǔ)設(shè)施層的服務(wù),平臺(tái)層的服務(wù),應(yīng)用層的服務(wù)?;A(chǔ)設(shè)施層的服務(wù)主要是指網(wǎng)絡(luò)當(dāng)中的計(jì)算機(jī)及各種硬件設(shè)備資源。平臺(tái)層的服務(wù)是將系統(tǒng)平臺(tái)或開發(fā)環(huán)境做為一種服務(wù)提供給用戶。應(yīng)用層的服務(wù)主要指各類應(yīng)用軟件,對(duì)于用戶而言,不用再購(gòu)買各種軟件,可以通過(guò)網(wǎng)絡(luò)使用提供商提供的軟件,并且不用再對(duì)軟件進(jìn)行維護(hù),這是提供商要做的事情。除了應(yīng)用軟件,數(shù)據(jù)本身也可以成為服務(wù),可以將原始數(shù)據(jù)或經(jīng)過(guò)處理的數(shù)據(jù)提供給用戶,用戶只需按使用付費(fèi)即可。
算法是數(shù)據(jù)挖掘的靈魂,只有最有效的數(shù)據(jù)挖掘算法才能更好地完成數(shù)據(jù)挖掘任務(wù),這樣的挖掘目標(biāo)才是有意義的。但數(shù)據(jù)挖掘算法有多種,哪一種才是最有效的卻是要根據(jù)具體情況而定。因?yàn)閿?shù)據(jù)類型也是有許多種的,挖掘不同類型的數(shù)據(jù)所要求的算法也是不一樣的,目前還沒(méi)有哪一種算法可以通用于所有數(shù)據(jù)類型。同樣適用于某種類型數(shù)據(jù)的挖掘算法,得到的結(jié)果也不一樣。而對(duì)單一類型的數(shù)據(jù)進(jìn)行挖掘往往只存在于實(shí)驗(yàn)當(dāng)中,是屬于最理想的狀態(tài),在現(xiàn)實(shí)當(dāng)中我們一般都需要對(duì)多種類型的數(shù)據(jù)同時(shí)進(jìn)行挖掘,這就更加復(fù)雜,所以在實(shí)際運(yùn)用當(dāng)中,根據(jù)所要挖掘的數(shù)據(jù)類型與現(xiàn)有算法進(jìn)行綜合考慮,從而找到合適的挖掘算法是非常重要的。一般說(shuō)來(lái),我們會(huì)采用多種算法對(duì)數(shù)據(jù)進(jìn)行挖掘,甚至可能會(huì)對(duì)已有算法進(jìn)行改進(jìn)或者創(chuàng)造新的算法以達(dá)到更好的挖掘效果。從挖掘的數(shù)據(jù)類型出發(fā),我們可以將數(shù)據(jù)挖掘算法分為如下幾類:
分類算法的主要目的是通過(guò)對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行挖掘來(lái)發(fā)現(xiàn)其它的數(shù)據(jù),并對(duì)現(xiàn)有數(shù)據(jù)集與新發(fā)現(xiàn)的數(shù)據(jù)進(jìn)行分析,進(jìn)而找到數(shù)據(jù)分類的原理。這個(gè)原理可以用來(lái)對(duì)后加入的數(shù)據(jù)進(jìn)行分類。分類算法主要適用于以元組構(gòu)成的關(guān)系型數(shù)據(jù)。
聚類分析的主要目的是從潛在的數(shù)據(jù)中發(fā)現(xiàn)新的、有意義的數(shù)據(jù)分布模式,過(guò)程是將現(xiàn)有數(shù)據(jù)事先不規(guī)定分組規(guī)則,按照數(shù)據(jù)自身特征分為不同的組來(lái)進(jìn)行挖掘。聚類分析主要也是用于由元組組成的關(guān)系型數(shù)據(jù)。
關(guān)聯(lián)規(guī)則的主要目的是找到大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。關(guān)聯(lián)規(guī)則適用的數(shù)據(jù)類型相對(duì)較多,主要適用于事務(wù)型、交易型和關(guān)系型數(shù)據(jù)。關(guān)聯(lián)規(guī)則最適合處理的變量類型是布爾型和數(shù)值型。
這種算法適用于文本型和時(shí)間型兩種數(shù)據(jù),在文本型數(shù)據(jù)上的應(yīng)用主要是進(jìn)行文本相似性搜索;在時(shí)間型數(shù)據(jù)上的應(yīng)用,主要是通過(guò)對(duì)時(shí)間序列數(shù)據(jù)庫(kù)的挖掘從而發(fā)現(xiàn)時(shí)間序列中所蘊(yùn)涵的知識(shí)。
該技術(shù)主要用于時(shí)間型數(shù)據(jù),通過(guò)對(duì)不同時(shí)間點(diǎn)以前時(shí)間數(shù)據(jù)值的變化進(jìn)行分析,對(duì)未來(lái)可能發(fā)生的變化或趨勢(shì)進(jìn)行預(yù)測(cè)。
基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)是云計(jì)算與數(shù)據(jù)挖掘的完美結(jié)合,既具有云計(jì)算的所有優(yōu)勢(shì),又具有強(qiáng)大的數(shù)據(jù)挖掘能力,云計(jì)算為數(shù)據(jù)挖掘提供強(qiáng)大支持,數(shù)據(jù)挖掘使云計(jì)算的計(jì)算與數(shù)據(jù)管理能力大幅提高,云計(jì)算與數(shù)據(jù)挖掘相輔相承,相得益彰。
基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)是一個(gè)結(jié)構(gòu)復(fù)雜、內(nèi)容豐富的服務(wù)系統(tǒng)。主要構(gòu)成包括四個(gè)子系統(tǒng)、一個(gè)服務(wù)器群和一個(gè)數(shù)據(jù)庫(kù)?;谠朴?jì)算的數(shù)據(jù)挖掘平臺(tái)充分發(fā)揮了云計(jì)算的服務(wù)模式,不僅在整體上能夠更好地提供數(shù)據(jù)挖掘服務(wù),而且系統(tǒng)中的任何一個(gè)子系統(tǒng)也都可以單獨(dú)向用戶提供服務(wù)。
基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)有四個(gè)子系統(tǒng):帳戶管理子系統(tǒng)、數(shù)據(jù)管理子系統(tǒng)、數(shù)據(jù)挖掘子系統(tǒng)、挖掘算法管理子系統(tǒng)。四個(gè)子系統(tǒng)分別負(fù)責(zé)不同的任務(wù),但相互之間緊密關(guān)聯(lián),有機(jī)地構(gòu)成數(shù)據(jù)挖掘平臺(tái)的整體,下面我們對(duì)四個(gè)子系統(tǒng)分別進(jìn)行介紹。
3.1.1 賬戶管理子系統(tǒng)
帳戶管理子系統(tǒng)是整個(gè)平臺(tái)的基礎(chǔ),主要負(fù)責(zé)管理用戶對(duì)整個(gè)系統(tǒng)的所有操作情況。帳戶管理子系統(tǒng)的功能主要有四部分:支出明細(xì)管理、收入明細(xì)管理、帳戶余額管理、歷史記錄管理。支出明細(xì)管理主要用來(lái)記錄用戶使用的平臺(tái)當(dāng)中所有的服務(wù)及設(shè)備的明細(xì)項(xiàng)目。收入明細(xì)管理包括兩個(gè)方面:一是用戶通過(guò)數(shù)據(jù)管理子系統(tǒng)向系統(tǒng)平臺(tái)提供的數(shù)據(jù)資源;二是通過(guò)挖掘算法子系統(tǒng)向系統(tǒng)平臺(tái)提供的先進(jìn)算法的報(bào)酬。帳戶余額就是收入與支出的差額。歷史記錄管理主要用來(lái)記錄用戶在系統(tǒng)平臺(tái)上的操作,用戶可以據(jù)此進(jìn)行撤消操作和回溯操作等。
3.1.2 數(shù)據(jù)管理子系統(tǒng)
數(shù)據(jù)管理子系統(tǒng)主要用來(lái)對(duì)用戶的數(shù)據(jù)資源進(jìn)行管理。用戶可以通過(guò)數(shù)據(jù)管理子系統(tǒng)購(gòu)買自己需要的數(shù)據(jù),也可以平臺(tái)有償提供數(shù)據(jù)。用戶的數(shù)據(jù)資源包括三類數(shù)據(jù):用戶自有的數(shù)據(jù)、用戶購(gòu)買的數(shù)據(jù)和用戶出售的數(shù)據(jù)。用戶自有的數(shù)據(jù),用戶可以將自己的數(shù)據(jù)存放到系統(tǒng)平臺(tái)。用戶購(gòu)買的數(shù)據(jù),是指用戶向平臺(tái)購(gòu)買的數(shù)據(jù),系統(tǒng)會(huì)將這些數(shù)據(jù)存放的數(shù)據(jù)庫(kù)名稱提供給用戶。用戶出售的數(shù)據(jù),是指用戶向平臺(tái)有償提供的數(shù)據(jù)的詳細(xì)列表。
3.1.3 數(shù)據(jù)挖掘子系統(tǒng)
數(shù)據(jù)挖掘子系統(tǒng)是整個(gè)平臺(tái)的核心部分,主要功能是通過(guò)對(duì)用戶提供的數(shù)據(jù)進(jìn)行挖掘從而發(fā)現(xiàn)有用信息與蘊(yùn)涵的知識(shí)。數(shù)據(jù)挖掘子系統(tǒng)可分為六個(gè)功能模塊:一站式服務(wù)、數(shù)據(jù)獲取、預(yù)處理、數(shù)據(jù)挖掘、結(jié)果評(píng)估與幫助。一站式服務(wù),指不具備數(shù)據(jù)挖掘相關(guān)知識(shí)的用戶可以將數(shù)據(jù)和挖掘目的提交給平臺(tái),由專業(yè)團(tuán)隊(duì)來(lái)完成數(shù)據(jù)挖掘,然后將挖掘報(bào)告提供給用戶。數(shù)據(jù)獲取,主要工作是從系統(tǒng)內(nèi)部或外部獲取數(shù)據(jù)源供數(shù)據(jù)挖掘使用,并且將外部數(shù)據(jù)源保存在平臺(tái)數(shù)據(jù)庫(kù)中。預(yù)處理,主要是完成數(shù)據(jù)挖掘之前的準(zhǔn)備工作,為數(shù)據(jù)挖掘提供符合要求的數(shù)據(jù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換四個(gè)功能。數(shù)據(jù)挖掘,對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)通過(guò)種種算法進(jìn)行挖掘,找到有用信息。為了更好地達(dá)到數(shù)據(jù)挖掘的目的,用戶還可以提供自定義數(shù)據(jù)挖掘算法。結(jié)果評(píng)估,主要包括三個(gè)方面:模式評(píng)估、結(jié)果展示、結(jié)果對(duì)比。模式評(píng)估是指對(duì)挖掘出的模式進(jìn)行性能評(píng)估,比如可靠性與可信度等。結(jié)果展示是將挖掘結(jié)果以各種形式展示給用戶。結(jié)果對(duì)比是對(duì)同一挖掘任務(wù)進(jìn)行多次挖掘或使用不同算法進(jìn)行挖掘,對(duì)多個(gè)挖掘結(jié)果進(jìn)行對(duì)比,供用戶參考。幫助主要是一些關(guān)于平臺(tái)的介紹,操作方法說(shuō)明等。
3.1.4 挖掘算法管理子系統(tǒng)
挖掘算法管理子系統(tǒng)主要負(fù)責(zé)對(duì)數(shù)據(jù)挖掘算法進(jìn)行管理,并可以獲取新的數(shù)據(jù)挖掘算法。挖掘算法管理子系統(tǒng)主要包括四個(gè)功能:系統(tǒng)算法、算法歷史記錄、自定義算法、算法銷售。系統(tǒng)算法對(duì)平臺(tái)現(xiàn)有的各種挖掘算法進(jìn)行管理并有對(duì)各種算法的介紹。算法歷史記錄是對(duì)用戶使用過(guò)的算法進(jìn)行記錄,可以做為算法的評(píng)價(jià)標(biāo)準(zhǔn)。自定義算法是一種算法擴(kuò)展方式,可以對(duì)現(xiàn)有算法進(jìn)行改進(jìn)甚至創(chuàng)造新的算法,以達(dá)到更好地完成數(shù)據(jù)挖掘任務(wù)的目的。算法銷售是指用戶可以將改進(jìn)的算法或自創(chuàng)的算法提供給平臺(tái),并獲取報(bào)酬。
服務(wù)器群可以利用平臺(tái)所擁有的本地或異地服務(wù)器資源實(shí)現(xiàn)高效的服務(wù)并對(duì)資源進(jìn)行有效配置。對(duì)于想構(gòu)建自己的數(shù)據(jù)挖掘平臺(tái)的用戶,無(wú)需單獨(dú)購(gòu)買硬件設(shè)備,只需租賃系統(tǒng)平臺(tái)的服務(wù)器即可方便地構(gòu)建自己的平臺(tái),對(duì)于有設(shè)備閑置的用戶,也可以將其出租給系統(tǒng)平臺(tái)獲得收益。
云計(jì)算的一個(gè)顯著特點(diǎn)就海量的數(shù)據(jù)信息,數(shù)據(jù)挖掘的目的就是從數(shù)據(jù)信息當(dāng)中發(fā)現(xiàn)有用信息,因此數(shù)據(jù)的存儲(chǔ)極為重要。數(shù)據(jù)庫(kù)群就是用來(lái)存儲(chǔ)平臺(tái)本身的數(shù)據(jù)信息,以及用戶存儲(chǔ)在平臺(tái)上的數(shù)據(jù)信息,還有用戶與平臺(tái)的交互所產(chǎn)生的各種數(shù)據(jù)信息。數(shù)據(jù)庫(kù)不但提供給平臺(tái)的用戶用于數(shù)據(jù)挖掘任務(wù),還可以將其租用給用戶進(jìn)行儲(chǔ)存數(shù)據(jù)等其他用途。
云計(jì)算的海量數(shù)據(jù)信息及強(qiáng)大的計(jì)算與數(shù)據(jù)處理能力為數(shù)據(jù)挖掘提供了有力支持,基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)擁有許多以前數(shù)據(jù)挖掘系統(tǒng)所不具備的優(yōu)勢(shì),為企業(yè)及個(gè)人用戶的數(shù)據(jù)挖掘任務(wù)提供了良好的解決方案。
[1]魏德志,吳旭,林麗娜,等.基于云計(jì)算的模糊規(guī)則挖掘算法在入侵檢測(cè)中的應(yīng)用[J].吉林師范大學(xué)學(xué)報(bào),2012(2):115-118.
[2]鄧?yán)倮伲诤?基于云計(jì)算的數(shù)據(jù)挖掘研究及展望[J].計(jì)算機(jī)與現(xiàn)代化,2015(5):93-95.
[3]黃章樹,劉晴晴.基于云計(jì)算服務(wù)模式的數(shù)據(jù)挖掘應(yīng)用平臺(tái)的構(gòu)建[J].電信科學(xué),2012(1):53-57.
[4]余永紅,向曉軍,高陽(yáng),等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索,2012(1):46-57.
[5]何清.物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J].智能系統(tǒng)學(xué)報(bào),2012(6):1-5.
[6]王超鵬,梁正科,李強(qiáng).基于云計(jì)算的分布式數(shù)據(jù)挖掘算法研究[J].硅谷,2012(2):104.
長(zhǎng)春大學(xué)學(xué)報(bào)2012年12期