潘慶超
〔摘 要〕網(wǎng)格的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)與網(wǎng)格計算的有機結(jié)合,文章介紹了網(wǎng)格數(shù)據(jù)挖掘的概念、特點、網(wǎng)格數(shù)據(jù)挖掘技術(shù)的優(yōu)點,網(wǎng)格數(shù)據(jù)挖掘的體系結(jié)構(gòu),討論了網(wǎng)格的數(shù)據(jù)挖掘的基本過程,并從開放網(wǎng)格服務(wù)體系結(jié)構(gòu)出發(fā),給出了網(wǎng)格平臺下的信息服務(wù)質(zhì)量數(shù)據(jù)挖掘的功能和執(zhí)行過程。
〔關(guān)鍵詞〕網(wǎng)格;數(shù)據(jù)挖掘;服務(wù)質(zhì)量;數(shù)據(jù)庫
〔中圖分類號〕TP392 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)07-0141-03
Application of Grid Data Mining on Information Service QualityPan Qingchao
(College of Physics Science and Technology,Shenyang Normal University,Shenyang 110034,China)
〔Abstract〕Grid data mining is an integration of data mining and grid computing.The paper introduced the concept,characteristics,from the perspective of OGSA,it offered the functions and process of information service quality data mining under the platform of grid.
〔Key words〕grid;data mining;information service quality;database
1 網(wǎng)格數(shù)據(jù)挖掘概念[1]
網(wǎng)格的數(shù)據(jù)挖掘建立在數(shù)據(jù)網(wǎng)格的基礎(chǔ)設(shè)施和相關(guān)技術(shù)的基礎(chǔ)上,在廣域分布的海量數(shù)據(jù)和計算資源的環(huán)境中發(fā)現(xiàn)數(shù)據(jù)模式,獲取新的科學(xué)知識和規(guī)律。這個網(wǎng)格計算環(huán)境提供特殊的數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)復(fù)制和安全監(jiān)控等功能。用戶向網(wǎng)格系統(tǒng)提出的數(shù)據(jù)任務(wù)就是一種網(wǎng)格服務(wù)。執(zhí)行運算的處理器和存儲空間等視作資源,而與任務(wù)相關(guān)的數(shù)據(jù)庫或數(shù)據(jù)倉庫、數(shù)據(jù)挖掘算法等則可以看作是用戶擁有的特殊資源。
2 利用網(wǎng)格數(shù)據(jù)挖掘技術(shù)的優(yōu)點[2]
2.1 提高現(xiàn)有資源的利用率
通過資源的共享與整合,可以方便地彼此“借用”,減小資源的閑置,提高資源的使用效率。
2.2 從大量的數(shù)據(jù)中發(fā)現(xiàn)或“挖掘”有用的知識
網(wǎng)格中含有大量分布在各網(wǎng)格節(jié)點中的數(shù)據(jù),網(wǎng)格數(shù)據(jù)挖掘就需要跨多個網(wǎng)格節(jié)點實施全局數(shù)據(jù)挖掘。網(wǎng)格的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)和網(wǎng)格計算的有機結(jié)合,它通過共享解決方案、算法、計算、數(shù)據(jù)、存儲服務(wù)來實施可靠和可擴展的數(shù)據(jù)挖掘任務(wù),能夠在動態(tài)變化的多個節(jié)點間共享資源和協(xié)調(diào)解決數(shù)據(jù)挖掘問題。
3 網(wǎng)格數(shù)據(jù)挖掘的體系結(jié)構(gòu)[3]
3.1 網(wǎng)格的重要特點是分布性和動態(tài)性
網(wǎng)格的各種資源不是集中在一起的,而是分布在不同的地理位置,各種資源也是動態(tài)變化的。正是網(wǎng)格的這些特點及其分布式環(huán)境,使得網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)不再局限于傳統(tǒng)的集中式數(shù)據(jù)挖掘系統(tǒng),而是和網(wǎng)格一樣具有分布性、動態(tài)性和自適應(yīng)性。
3.2 網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)采用分布式的組件架構(gòu)和自適應(yīng)的分布技術(shù),由一系列的組件集成,組件之間可以實現(xiàn)互相通信和數(shù)據(jù)交換
這種基于分布式組件技術(shù)的體系結(jié)構(gòu)允許更大的彈性,包括集成不同的協(xié)議、應(yīng)用程序接口、應(yīng)用程序、操作系統(tǒng)和硬件,能夠提供多級的抽象能力、高可靠性、可擴充性和安全性。其體系結(jié)構(gòu)如圖1所示。
4 網(wǎng)格數(shù)據(jù)挖掘新技術(shù)的融合[4]
4.1 Web Service和網(wǎng)格技術(shù)融合
Web Service和網(wǎng)格技術(shù)融合可解決“無處不在的集成計算和資源共享”的應(yīng)用技術(shù)問題。在HTML、SMTP等Internet標準協(xié)議的基礎(chǔ)上,使用基于XML的文本消息傳送模型進行通信,從而真正實現(xiàn)分布式Web系統(tǒng)間跨平臺、跨語言的無縫融合,從而解決傳統(tǒng)分布式體系架構(gòu)無法解決的在Internet環(huán)境下的松耦合分布式異構(gòu)問題。
4.2 網(wǎng)格與數(shù)據(jù)集成技術(shù)的結(jié)合
隨著網(wǎng)格技術(shù)的發(fā)展和商務(wù)處理的全球化,網(wǎng)格數(shù)據(jù)集成技術(shù)將成為下一代Internet網(wǎng)中的信息融合、信息處理、信息發(fā)布等關(guān)鍵技術(shù)。Web Service的不斷研究和發(fā)展給信息集成技術(shù)提供了更廣闊的發(fā)展空間。利用本體描述服務(wù)的結(jié)構(gòu)、類型和語義,從而使Web Service語義表示模型化、統(tǒng)一化,從語義層就解決不同數(shù)據(jù)源或系統(tǒng)的異構(gòu)問題。所以,網(wǎng)格數(shù)據(jù)集成技術(shù)將是充分利用傳統(tǒng)的信息集成。Web Service、本體、網(wǎng)格技術(shù),構(gòu)造一個虛擬的、實現(xiàn)更加高效、準確服務(wù)的具有超級計算能力的、能更好分析數(shù)據(jù)并獲得豐富知識的集成系統(tǒng)。
4.3 本體與Web Service的合成技術(shù)
Web Service是網(wǎng)格進行分布式計算的基本元素。分布在網(wǎng)格上的各種各樣的數(shù)據(jù)挖掘Web Service已經(jīng)成為一類重要的資源。當(dāng)這些Web Service能夠在網(wǎng)格上真正實現(xiàn)自由的互聯(lián)、互通、協(xié)作和聯(lián)盟的時候,就形成了一種與當(dāng)前的信息Web類似的軟件Web。所以,應(yīng)使用本體與Web Service合成使這些Web Service能夠自主感應(yīng)并實現(xiàn)它們所處的環(huán)境中的需求。而且,在單個Web Service不能實現(xiàn)全部需求的情況下,多個小粒度的Web Service能夠自主合成,形成更大粒度的Web Service,最終實現(xiàn)需求。
5 網(wǎng)格數(shù)據(jù)挖掘的基本過程
5.1 數(shù)據(jù)的處理
數(shù)據(jù)的處理階段主要完成從數(shù)據(jù)網(wǎng)格環(huán)境中收集廣域分布的數(shù)據(jù)和計算資源,并對原始數(shù)據(jù)進行歸檔處理,更正校對,過濾清理和數(shù)據(jù)的轉(zhuǎn)換、合并。最后再對經(jīng)過處理后的數(shù)據(jù)進行歸檔。這階段由于數(shù)據(jù)的歸檔處理,存在相對靜止的索引數(shù)據(jù),數(shù)據(jù)的處理功能比較穩(wěn)定,而且對歸檔的數(shù)據(jù)進行周期性的數(shù)據(jù)再處理。
5.2 數(shù)據(jù)的分析與挖掘
這階段主要完成對處理后的數(shù)據(jù)進行分析、概括和挖掘,生成關(guān)聯(lián)的規(guī)則,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系等,并歸檔概括出來的數(shù)據(jù)。
5.3 模式的評價
這階段對處理后的數(shù)據(jù)和歸納后的數(shù)據(jù)再次進行分析,得出一些數(shù)據(jù)模式,并評價數(shù)據(jù)挖掘結(jié)果的有效性和可靠性,提交得出的結(jié)論或新的關(guān)系和趨勢。
6 基于OGSA的信息服務(wù)評價數(shù)據(jù)挖掘
開放網(wǎng)格服務(wù)結(jié)構(gòu)(Open Grid Service Architecture OGSA)是一個面向服務(wù)的網(wǎng)格體系結(jié)構(gòu),它建立在網(wǎng)格服務(wù)的基礎(chǔ)上,將一切都抽象為服務(wù),包括計算資源、存儲資源、網(wǎng)絡(luò)、程序、數(shù)據(jù)庫、儀器設(shè)備等。OGSA中以網(wǎng)格服務(wù)為核心,通過網(wǎng)格服務(wù)提供的接口為網(wǎng)格用戶提供各方面的服務(wù)。網(wǎng)格服務(wù)由服務(wù)數(shù)據(jù)和實現(xiàn)組成,服務(wù)數(shù)據(jù)指的是該網(wǎng)格服務(wù)可以提供的資源屬性,實現(xiàn)是指對這些服務(wù)數(shù)據(jù)的訪問操作。
6.1 服務(wù)質(zhì)量評價的數(shù)據(jù)挖掘
網(wǎng)格數(shù)據(jù)挖掘技術(shù)在信息服務(wù)管理系統(tǒng)中起著重要作用。信息服務(wù)機構(gòu)可以建立服務(wù)評價綜合管理系統(tǒng)。通過管理系統(tǒng)可以方便地獲得大量的服務(wù)數(shù)據(jù),把所有與服務(wù)相關(guān)的數(shù)據(jù)進行整合成面向主題的數(shù)據(jù)倉庫。然后應(yīng)用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進行挖掘,以獲得服務(wù)管理決策中所需要的信息和模式。這些信息和模式可以為信息機構(gòu)的管理決策和服務(wù)決策提供有力的依據(jù)。目前,網(wǎng)格數(shù)據(jù)挖掘技術(shù)在服務(wù)系統(tǒng)中的應(yīng)用有以下幾個方面: