查道貴,許彩芳,陳 偉
(宿州職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)信息系, 安徽 宿州 234101)
云計(jì)算平臺(tái)下數(shù)據(jù)挖掘算法研究
查道貴,許彩芳,陳 偉
(宿州職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)信息系, 安徽 宿州 234101)
伴隨著網(wǎng)絡(luò)信息化建設(shè)的萬(wàn)象更新,云計(jì)算平臺(tái)下數(shù)據(jù)挖掘算法日益重要。為求解云計(jì)算平臺(tái)下海量數(shù)據(jù)的科學(xué)分析與整合處理,本文就云計(jì)算平臺(tái)下數(shù)據(jù)挖掘算法的現(xiàn)實(shí)應(yīng)用、云計(jì)算平臺(tái)下數(shù)據(jù)挖掘算法的挖掘建構(gòu)流程及服務(wù)應(yīng)用體系,做出具體探討,為數(shù)據(jù)挖掘的集成開(kāi)發(fā)與商業(yè)應(yīng)用提供參考。
數(shù)據(jù)挖掘;服務(wù);云計(jì)算
目前,國(guó)內(nèi)外云計(jì)算技術(shù)尚處起步階段,還僅限于開(kāi)發(fā)研究與初步應(yīng)用的“雛形期”,尚未形成規(guī)范性的統(tǒng)一定義與整體標(biāo)準(zhǔn)。綜合分析各類云計(jì)算,突顯四大共性特色:云環(huán)境存儲(chǔ)規(guī)模性;云環(huán)境超強(qiáng)性;云環(huán)境資源動(dòng)態(tài)性;云環(huán)境結(jié)構(gòu)伸展性。而差異性的特色,則在于依靠不同領(lǐng)域龐大資源與虛擬技術(shù)的“并駕齊驅(qū)”,分別完成按需供應(yīng)的特色服務(wù)。大勢(shì)所趨之下,云計(jì)算平臺(tái)數(shù)據(jù)將何以挖掘,成為亟待探討的話題。
1.1 商業(yè)發(fā)展需求的迫切性
伴隨業(yè)務(wù)量的突飛猛進(jìn)與業(yè)務(wù)范圍的極限擴(kuò)張,帶來(lái)了商業(yè)數(shù)據(jù)的海量“囤積”,極具規(guī)模的數(shù)據(jù)庫(kù)令企業(yè)應(yīng)接不暇。一邊是市場(chǎng)競(jìng)爭(zhēng)的“獨(dú)力難支”,一邊是數(shù)據(jù)傳統(tǒng)挖掘方式的“積重難返”,“一頭霧水”的經(jīng)營(yíng)者在創(chuàng)建企業(yè)再發(fā)展中“望洋興嘆”。傳統(tǒng)計(jì)算能力已經(jīng)難以滿足海量數(shù)據(jù)的挖掘需求,已經(jīng)造成了再發(fā)展危機(jī)。同時(shí),網(wǎng)絡(luò)大環(huán)境下,出于海量數(shù)據(jù)跨地域性再生業(yè)務(wù)的增勢(shì)與發(fā)展前景考慮,尋求高性能新式數(shù)據(jù)挖掘算法,已成當(dāng)務(wù)之急。因此,構(gòu)建一個(gè)融數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析于一體,全面實(shí)現(xiàn)分布式數(shù)據(jù)處理與數(shù)據(jù)挖掘的云平臺(tái)模式,已成企業(yè)眾望所歸。
1.2 數(shù)據(jù)挖掘算法的前沿性
云計(jì)算平臺(tái)下的共享資源存儲(chǔ)形式以分布式的特色,其挖掘數(shù)據(jù)任務(wù)執(zhí)行模式與本地單機(jī)式挖掘形式“大相徑庭”,所充分體現(xiàn)的也是網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)挖掘的鮮明亮點(diǎn)。云計(jì)算服務(wù)器群體的超規(guī)?;钊苏?,同時(shí)擁有的超強(qiáng)計(jì)算能力更出人意料。尤其云存儲(chǔ)作為時(shí)代的“寵兒”,所展現(xiàn)存儲(chǔ)能力強(qiáng)大性的“無(wú)與倫比”,綜合分析能力超強(qiáng)性的“難以比擬”,數(shù)據(jù)管理無(wú)限性的“心思縝密”,置身再“海量”的數(shù)據(jù)也自當(dāng)“處變不驚”、“游刃有余”。目前已有的數(shù)據(jù)挖掘算法多以整體系統(tǒng)作為中心,尤其注重算法與系統(tǒng)的完整統(tǒng)一。云計(jì)算平臺(tái)最為突出的特點(diǎn),在于面向服務(wù)視野作數(shù)據(jù)挖掘,將規(guī)范化與科學(xué)化兼顧一身,提供出前沿性的獨(dú)到解決方法??v觀云平臺(tái)始終,無(wú)論平臺(tái)運(yùn)行,還是海量存儲(chǔ),或者軟件開(kāi)發(fā)應(yīng)用,均有獨(dú)到“修為”,聯(lián)手成就一種共享空間下的網(wǎng)絡(luò)互動(dòng)資源,“包羅萬(wàn)象”于無(wú)形,在統(tǒng)一接口之下,把資源整體封裝為一個(gè)整體,并以服務(wù)互動(dòng)的模式給用戶與開(kāi)發(fā)者提供支持。同時(shí),云計(jì)算按需出售的軟件商業(yè)計(jì)算模式,也將挖掘數(shù)據(jù)程序的服務(wù)性能完美給予體現(xiàn),這對(duì)于企業(yè)不僅是挖掘數(shù)據(jù)成本的有效降低,更是為挖掘數(shù)據(jù)商業(yè)化應(yīng)用搭建前沿性平臺(tái)。
1.3 數(shù)據(jù)挖掘算法的科學(xué)性
其一,基于云計(jì)算平臺(tái)的挖掘數(shù)據(jù)的科學(xué)算法探究,即通過(guò)科學(xué)改進(jìn)手段或系統(tǒng)移植策略,開(kāi)展云計(jì)算平臺(tái)下的一種網(wǎng)絡(luò)算法,進(jìn)一步拓展其算法的科學(xué)性能;其二,基于云計(jì)算平臺(tái)挖掘數(shù)據(jù)的系統(tǒng)架構(gòu)探究,即通過(guò)整體結(jié)構(gòu)的系統(tǒng)分析與構(gòu)建設(shè)計(jì),綜合挖掘數(shù)據(jù)平臺(tái);其三,基于云計(jì)算挖掘數(shù)據(jù)的應(yīng)用探討,即實(shí)現(xiàn)商業(yè)化應(yīng)用的云計(jì)算平臺(tái)數(shù)據(jù)挖掘方案。有的將云計(jì)算技術(shù)應(yīng)用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)兩個(gè)不同領(lǐng)域,特色在于K鄰近與約束玻爾茲曼式機(jī)算法的結(jié)合應(yīng)用,并基于云計(jì)算平臺(tái)創(chuàng)設(shè)出客戶興趣的預(yù)測(cè)模型,使模型精度得以有效提升。有的則獨(dú)辟蹊徑,從資源與服務(wù)不同角度創(chuàng)設(shè)云架構(gòu),并設(shè)計(jì)容高性能與廣域性于一身,即分布式海量數(shù)據(jù)定向管理與綜合分析、多向抽取與系統(tǒng)分配為一體的云平臺(tái)挖掘數(shù)據(jù)架構(gòu)。
2.1 云計(jì)算平臺(tái)下數(shù)據(jù)挖掘算法的建構(gòu)思路
依據(jù)網(wǎng)絡(luò)科學(xué),“云計(jì)算平臺(tái)下數(shù)據(jù)挖掘算法”的主要表現(xiàn)形式是:云計(jì)算平臺(tái)通過(guò)“Iaas”(基礎(chǔ)設(shè)施)、“Paas”( 服務(wù)平臺(tái))與“Saas”( 服務(wù)軟件)三種模式服務(wù),將數(shù)據(jù)化存儲(chǔ)與計(jì)算設(shè)備、平臺(tái)開(kāi)發(fā)與服務(wù)軟件等平臺(tái)資源,以不同的網(wǎng)絡(luò)技術(shù)支持突出特色服務(wù)的亮點(diǎn)模式,形成一套客戶需求“供給制”的計(jì)算綜合服務(wù)。云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘,作為網(wǎng)絡(luò)計(jì)算資源的一種獨(dú)特應(yīng)用,歸根結(jié)底是一道服務(wù)的“計(jì)算題”??蛻舳诉f達(dá)云端的挖掘數(shù)據(jù)任務(wù),本身就視作一種“云服務(wù)”; 處理器與存儲(chǔ)空間就是服務(wù)的廣域資源,數(shù)據(jù)挖掘的執(zhí)行操作也屬于運(yùn)算的綜合服務(wù)范疇;具體到數(shù)據(jù)信息的“收集整合”、數(shù)據(jù)倉(cāng)儲(chǔ)“綜合拓展”與數(shù)據(jù)挖掘算法“統(tǒng)籌兼顧”等,各環(huán)節(jié)均可視為數(shù)據(jù)挖掘“服務(wù)組合”中的不同取向性服務(wù)資源。
所謂技術(shù)性挖掘數(shù)據(jù)服務(wù),是數(shù)據(jù)功能屬性與行為挖掘的技術(shù)集合體,無(wú)論從數(shù)據(jù)的定向選擇到數(shù)據(jù)取向的前期運(yùn)作,還是數(shù)據(jù)整合到數(shù)據(jù)挖掘與系統(tǒng)分析,或是綜合評(píng)價(jià)與最后結(jié)果展示等,貫穿始終的均為服務(wù)整合與服務(wù)搭配特色功能,最終所概括而出的是復(fù)合型的服務(wù)應(yīng)用。云計(jì)算實(shí)現(xiàn)了計(jì)算機(jī)端口設(shè)備與網(wǎng)絡(luò)存儲(chǔ)設(shè)備“合二為一”,創(chuàng)設(shè)了服務(wù)器集群服務(wù)與網(wǎng)路集成應(yīng)用平臺(tái)“齊頭并進(jìn)”,打造了應(yīng)用軟件與網(wǎng)絡(luò)資源“共享天下”?;谶@樣的思路,通過(guò)虛擬化與集成技術(shù)的量身定做,接口組件與軟硬件組合的“打包封裝”,最終結(jié)成形態(tài)各異的服務(wù)鏈接,以響應(yīng)開(kāi)發(fā)平臺(tái)、基礎(chǔ)設(shè)施和實(shí)現(xiàn)應(yīng)用等客戶不同層面上的服務(wù)要求,分別為“Iaas”(基礎(chǔ)設(shè)施服務(wù))、“Paas”(平臺(tái)服務(wù))與“Saas”(軟件服務(wù))。三種層次實(shí)現(xiàn)三重服務(wù),進(jìn)而形成一整套的服務(wù)支持組合。基于這樣的網(wǎng)絡(luò)科學(xué),云計(jì)算平臺(tái)下進(jìn)行的數(shù)據(jù)挖掘足以給客戶組合式、系統(tǒng)化的數(shù)據(jù)儲(chǔ)備與開(kāi)發(fā)服務(wù)、數(shù)據(jù)挖掘與應(yīng)用支持,在綜合性的運(yùn)籌帷幄中,全面落實(shí)數(shù)據(jù)挖掘“技術(shù)型”與“服務(wù)型”方案的具體整合。將服務(wù)需求與行為支持貫穿于數(shù)據(jù)挖掘進(jìn)程始終,貼緊云計(jì)算組合整體結(jié)構(gòu)與“SOA”架構(gòu)(面向服務(wù)體系結(jié)構(gòu)),創(chuàng)設(shè)演繹出云計(jì)算模式數(shù)據(jù)挖掘的服務(wù)構(gòu)架。
所謂基礎(chǔ)性設(shè)施服務(wù),指向性在于數(shù)據(jù)中心的基礎(chǔ)性支持,主要表現(xiàn)為計(jì)算資源成就了數(shù)據(jù)挖掘的服務(wù)行為,并塑造出遠(yuǎn)程資源訪問(wèn)能力的前沿性。遠(yuǎn)程數(shù)據(jù)資源的支持服務(wù)屬數(shù)據(jù)庫(kù)托管式行為,需求驅(qū)動(dòng)的遠(yuǎn)程數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù),其先進(jìn)性足以使客戶如同使用本地?cái)?shù)據(jù)信息般“一覽無(wú)遺”,方便快捷。就業(yè)務(wù)流程而言,數(shù)據(jù)挖掘行為簡(jiǎn)潔明了,而服務(wù)方式卻具有豐富的廣域性,形成包羅萬(wàn)象的多系統(tǒng)涉獵。其特點(diǎn)在于,將相應(yīng)的數(shù)據(jù)信息對(duì)接綁定于關(guān)鍵模塊,以關(guān)鍵模式分工挖掘流程,以此挖掘模式的具體構(gòu)建,系統(tǒng)完成遠(yuǎn)程資源的整合與開(kāi)發(fā)。所謂應(yīng)用服務(wù),可具體為軟件的開(kāi)發(fā)與運(yùn)用,是以程序應(yīng)用的整體性具體履行數(shù)據(jù)挖掘不同的屬性行為,最終依托平臺(tái)完成客戶的交付使用。測(cè)試服務(wù)則是以遠(yuǎn)程托管為依托完成測(cè)試工具的創(chuàng)設(shè),實(shí)現(xiàn)云平臺(tái)交付數(shù)據(jù)挖掘或本地?cái)?shù)據(jù)挖掘的系統(tǒng)測(cè)試與評(píng)估;平臺(tái)服務(wù)則是注重于應(yīng)用數(shù)據(jù)系統(tǒng)挖掘的遠(yuǎn)程開(kāi)發(fā)整合,主要形式在于應(yīng)用程序與鏈接端口開(kāi)發(fā),并兼容數(shù)據(jù)庫(kù)的配套拓展,同時(shí)兼容信息存儲(chǔ)與數(shù)據(jù)集成、系統(tǒng)測(cè)試與體系部署等綜合功能,讓客戶基于此創(chuàng)建企業(yè)級(jí)的數(shù)據(jù)挖掘應(yīng)用。
所謂集成服務(wù),在于語(yǔ)義仲裁與抽象接口、流控制與整合設(shè)計(jì)的集成技術(shù)支持,最終形成服務(wù)形式,達(dá)成對(duì)客戶的交付使用。眾所周知,云計(jì)算最大薄弱點(diǎn)在于安全性的“舉步維艱”,云安全也成為互聯(lián)網(wǎng)技術(shù)的長(zhǎng)久話題,也是眾多操作系統(tǒng)鼎力不懈的探索。本研究以加密服務(wù)為手段,以身份管理的監(jiān)控為抓手,打造規(guī)范性與先進(jìn)性的等級(jí)式安全服務(wù)職能,為挖掘數(shù)據(jù)全面性地構(gòu)建云計(jì)算的安全環(huán)境。云計(jì)算模式下的數(shù)據(jù)挖掘,通過(guò)服務(wù)架構(gòu)的綜合打造,可使客戶便捷靈活地使用服務(wù)資源。同時(shí),貼近市場(chǎng)需求的“量身定做”,也使動(dòng)態(tài)服務(wù)更加成為可能。
2.2 云計(jì)算模式下建模流程的主要做法
要完成數(shù)據(jù)挖掘的系統(tǒng)化服務(wù), 關(guān)鍵在于上述對(duì)服務(wù)架概括性的全面分析, 在于每個(gè)組件模型中挖掘服務(wù)每一處個(gè)性數(shù)據(jù)的第一手建立。通過(guò)服務(wù)支持的考究與識(shí)別與信息數(shù)據(jù)的互動(dòng)關(guān)聯(lián),以此為據(jù)打造具有完整性的一處服務(wù)構(gòu)件,建模流程的主要做法有三。其一,如何定義于服務(wù)。問(wèn)題的關(guān)鍵在于對(duì)域內(nèi)信息數(shù)據(jù)的理解與歸類,在于數(shù)據(jù)收集與挖掘的服務(wù)屬性思考與分析,從而定義出該服務(wù)潛在的核心性功能、信息數(shù)據(jù)的取向支撐及服務(wù)集成的組合產(chǎn)出。具體而論,對(duì)服務(wù)做出屬性定義,從中可以窺視數(shù)據(jù)挖掘行為與服務(wù)組合的整體關(guān)聯(lián)性,進(jìn)而形成數(shù)據(jù)挖掘候選服務(wù)目錄中的理性思考。其二,如何綁定數(shù)據(jù)創(chuàng)設(shè)服務(wù)。整體數(shù)據(jù)化挖掘服務(wù)由其自身功能屬性與趨向性數(shù)據(jù)體系共同構(gòu)建而成,由此可見(jiàn),服務(wù)定義的嚴(yán)密性不容忽視,其關(guān)聯(lián)屬性數(shù)據(jù)的結(jié)合與候選服務(wù)的取舍也極具規(guī)范性。因此,基于嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,數(shù)據(jù)的組合綁定與服務(wù)集成創(chuàng)設(shè)也應(yīng)合理規(guī)范。其三,如何構(gòu)建服務(wù)屬性組件。結(jié)合規(guī)范的處理整合,服務(wù)探討中的屬性策略與服務(wù)綁定中的組合信息,最終達(dá)成服務(wù)的定義功能屬性,并在封裝打包模式中成就具有獨(dú)立性的每一處服務(wù)組件,以此,定義并調(diào)用起統(tǒng)一的服務(wù)接口,形成獨(dú)立環(huán)節(jié)服務(wù)組件的完整性。
3.1 模型體系結(jié)構(gòu)的特色
3.1.1 基礎(chǔ)層的“終端性” 基礎(chǔ)設(shè)施層的特點(diǎn),在于提供挖掘數(shù)據(jù)服務(wù)資源型的計(jì)算與資源存儲(chǔ)的基礎(chǔ)性服務(wù)。其主要形式,在于依據(jù)終端接口的鏈接,將千姿百態(tài)的物理資源盡收網(wǎng)絡(luò)“囊中”,以數(shù)據(jù)共享全面實(shí)現(xiàn)網(wǎng)絡(luò)信息資源的平臺(tái)互聯(lián),并逐步形成虛擬層的直觀展示,創(chuàng)設(shè)虛擬化進(jìn)程的終極接口。
3.1.2 虛擬層的“邏輯性” 在虛擬工具的導(dǎo)向性對(duì)接中,虛擬層做出“邏輯性”判斷,將云計(jì)算平臺(tái)下分布的各種資源“物以類聚”,進(jìn)行透明性與邏輯性服務(wù)屬性資源的封裝打造。并通過(guò)對(duì)邏輯資源的規(guī)范管理,實(shí)現(xiàn)資源合理的調(diào)度與分配, 并將封裝的資源傳遞于平臺(tái)層,以供其開(kāi)發(fā)與應(yīng)用。
3.1.3 平臺(tái)層的“核心性” 平臺(tái)層作為挖掘數(shù)據(jù)服務(wù)的核心服務(wù)層,其“核心性”在于服務(wù)的整體實(shí)施與綜合治理。包括服務(wù)取向性建模以及目錄管理的支持組合,兼顧任務(wù)探討、調(diào)度計(jì)算及數(shù)據(jù)管理的完整性。
3.1.4 應(yīng)用層的“廣域性” 應(yīng)用層由終端層與接口層所共同構(gòu)建,有其鮮明的“廣域性”。由接口層為其鏈接客戶認(rèn)證、客戶管理、需求表達(dá)與需求處理,由終端層為其搭建不同地域的訪問(wèn)接入,并通過(guò)網(wǎng)頁(yè)、移動(dòng)終端等終極端口,客戶可方便完成訪問(wèn)鏈接,使用系統(tǒng)的云數(shù)據(jù)挖掘式服務(wù)。
3.2 模型體系結(jié)構(gòu)的構(gòu)建要求
分析期要“定義科學(xué)”。要根據(jù)具體需求給予科學(xué)的甄別與發(fā)現(xiàn),適時(shí)做出合理性的定義與判定,啟迪服務(wù)的生命發(fā)展新周期。
設(shè)計(jì)期要“接口規(guī)范”。要結(jié)合服務(wù)行為的具體屬性定義與探討,規(guī)范形成服務(wù)屬性說(shuō)明,完善服務(wù)設(shè)計(jì)的接口嚴(yán)謹(jǐn)與契約規(guī)范,以確保服務(wù)定義與非功能特性的傳承進(jìn)度。
開(kāi)發(fā)期要“集成功能”。要全面展現(xiàn)功能服務(wù)支持的獨(dú)到屬性,在服務(wù)定義的切實(shí)取舍下,進(jìn)一步做好低耦合結(jié)合高內(nèi)聚的集成功能文章,完善功能屬性的互動(dòng)與溝通。
維護(hù)期要“有的放矢”。要在支持服務(wù)設(shè)計(jì)的前提條件下,有的放矢,及時(shí)對(duì)開(kāi)發(fā)缺陷做出具有時(shí)效性的修復(fù),并根據(jù)服務(wù)領(lǐng)域的具體需求,適時(shí)更新服務(wù)支持版本,為長(zhǎng)久的循環(huán)發(fā)展做出積極努力。
[1] 王 鵬.走進(jìn)云計(jì)算[M].北京:人民郵電出版社,2009.
[2] 徐 昕.增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃[M].北京:科學(xué)出版社,2010.
[3] 范 波,潘 泉,等.多智能體學(xué)習(xí)中基于知識(shí)的強(qiáng)化函數(shù)設(shè)計(jì)方法[J].計(jì)算機(jī)工程與應(yīng)用,2005(3)77-79.
(編輯:嚴(yán)佩峰)
Data Mining Algorithm on Cloud Computing Platform
ZHA Dao-gui, XU Cai-fang, CHEN Wei
(Computer Information Department of Suzhou Vocational and Technical College, Suzhou 234101, China)
Along with the various innovation of network informatization construction, data mining algorithm on cloud computing platform has become increasingly significant. To solve the scientific analysis and integrated processing issues on cloud computing platform, the essay combines the reality application, mining construction process and service application system of the data mining algorithm on cloud computing platform and conducts concrete discussion and research at these three levels, aiming to provide reference for the integrated development and commercial application of data mining.
data mining;service;cloud computing
2016-11-23
安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2016A778).
查道貴(1975—),男,安徽安慶人,碩士,講師,研究方向:計(jì)算機(jī)應(yīng)用.
TP311.13
A
2095-8978(2017)01-0113-03
信陽(yáng)農(nóng)林學(xué)院學(xué)報(bào)2017年1期