中國(guó)礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院 王子明 徐慧
基于服務(wù)質(zhì)量的面向服務(wù)數(shù)據(jù)挖掘系統(tǒng)研究
中國(guó)礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院 王子明 徐慧
經(jīng)過(guò)數(shù)十年的發(fā)展,數(shù)據(jù)挖掘領(lǐng)域產(chǎn)生了眾多的算法和挖掘系統(tǒng)。挖掘系統(tǒng)作為研究的有形成果,在展示數(shù)據(jù)挖掘技術(shù)的威力、利用數(shù)據(jù)挖掘技術(shù)產(chǎn)生經(jīng)濟(jì)效益方面起著至關(guān)重要的作用。目前,各大軟件廠商及研究單位都忙著推出了各自的數(shù)據(jù)挖掘系統(tǒng)。有的作為商業(yè)產(chǎn)品,功能強(qiáng)大,集成了數(shù)量眾多的挖掘算法;有的作為科研試驗(yàn)軟件,僅集成了一兩個(gè)新穎的算法,功能有限。絕大部分的數(shù)據(jù)挖掘系統(tǒng)采用C/S的兩層結(jié)構(gòu),用戶需要安裝龐大客戶端,使得安裝和維護(hù)都十分不方便。特別是為了跟蹤數(shù)據(jù)挖掘研究的最新進(jìn)展,經(jīng)常需要給系統(tǒng)增添新的算法,傳統(tǒng)的挖掘系統(tǒng)將難以適應(yīng)這種需求,因此,構(gòu)建一個(gè)功能較全、容易擴(kuò)展、支持功能模塊復(fù)用、基于服務(wù)質(zhì)量的新型數(shù)據(jù)挖掘系統(tǒng)便迫在眉睫。
1.Web服務(wù)。Web Service是對(duì)象/組件技術(shù)在Internet中的延伸,是封裝成單個(gè)實(shí)體且發(fā)布到網(wǎng)絡(luò)上以供其他程序使用的功能集合。Web Service從本質(zhì)上講是放置于Web站點(diǎn)上的可重用構(gòu)件。
Web Service可以分散于Web的各個(gè)地方,通過(guò)互相調(diào)用以協(xié)同完成業(yè)務(wù)活動(dòng)。在Web Service的體系中,應(yīng)用系統(tǒng)被分割為高內(nèi)聚、弱耦合的單個(gè)服務(wù),可以通過(guò)Web被調(diào)用和訪問(wèn)。
Web服務(wù)的應(yīng)用通常涉及服務(wù)提供者(service provider)、服務(wù)請(qǐng)求者(service requestor)及服務(wù)注冊(cè)中心(service registry)3種應(yīng)用程序。服務(wù)所有者通過(guò)向服務(wù)注冊(cè)中心注冊(cè)服務(wù)描述來(lái)發(fā)布(publish)服務(wù),并通過(guò)服務(wù)訪問(wèn)平臺(tái)提供服務(wù);服務(wù)請(qǐng)求者在服務(wù)注冊(cè)中心搜索((find)滿足所求的服務(wù),根據(jù)其服務(wù)描述解析服務(wù)調(diào)用方式,并動(dòng)態(tài)綁定(bind)服務(wù)提供者,獲取服務(wù)。
2.服務(wù)質(zhì)量。服務(wù)質(zhì)量英文全稱QoS(Quality of Service),在Web實(shí)際應(yīng)用中,對(duì)Web Service往往有許多不同方面的技術(shù)要求,如各種級(jí)別的服務(wù)可用性、性能、可伸縮性、安全性和隱私策略等,因此需要能夠描述所有的這些技術(shù)需求,并且要求駐留每一個(gè)服務(wù)的環(huán)境能夠基于不同的技術(shù)要求提供不同的QoS選擇。顯然,對(duì)于服務(wù)提供者和他們的客戶而言,Web Service所提供的QoS已成為一個(gè)非常重要的問(wèn)題。服務(wù)質(zhì)量主要包括服務(wù)價(jià)格、服務(wù)響應(yīng)時(shí)間、服務(wù)可用性、服務(wù)完整性等參數(shù)。
3.面向服務(wù)架構(gòu)。面向服務(wù)架構(gòu)(SOA)其目的是實(shí)現(xiàn)相互作用的軟件功能單元之間的松散耦合。SOA的基本思想是以服務(wù)為核心,將企業(yè)的IT資源整合成可操作的、基于標(biāo)準(zhǔn)的服務(wù),使其能被重新組合和應(yīng)用。這種重新組合,使那些原本趨于閑置的IT資源重新發(fā)揮作用,從而使企業(yè)的資源得到優(yōu)化,并煥發(fā)出新的生機(jī)。
4.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊和隨機(jī)的數(shù)據(jù)中,提取隱含在其中人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。還有很多和這一術(shù)語(yǔ)相近的術(shù)語(yǔ),如從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。
1.Web服務(wù)Qos評(píng)估因素。服務(wù)質(zhì)量(QoS)是對(duì)Web服務(wù)滿足服務(wù)請(qǐng)求者需求能力的一種度量。Web服務(wù)中的QoS評(píng)估因素是一個(gè)可擴(kuò)充向量,可以從很多方面來(lái)描述服務(wù)質(zhì)量,如可擴(kuò)展性、并發(fā)處理能力、響應(yīng)時(shí)間、可靠性、服務(wù)價(jià)格、吞吐量、可用性、安全性、準(zhǔn)確性、賠償率等,它們分別從不同角度對(duì)服務(wù)的質(zhì)量進(jìn)行了評(píng)估,但針對(duì)數(shù)據(jù)挖掘領(lǐng)域的特點(diǎn),在眾多QoS中比較強(qiáng)調(diào)費(fèi)用、執(zhí)行時(shí)間、可用性、可靠性這些指標(biāo),所以本文用如下所示的四元組向量作為評(píng)價(jià)Web服務(wù)s的服務(wù)質(zhì)量的標(biāo)準(zhǔn),即QoS模型為:
下面給出各分量的評(píng)價(jià)指標(biāo):
(1)費(fèi)用(qprice(s))。Web服務(wù)提供者給定的一個(gè)服務(wù)操作的執(zhí)行價(jià)格qprice(s)作為服務(wù)請(qǐng)求者為完成任務(wù)所執(zhí)行該服務(wù)操作要付出的費(fèi)用。該任務(wù)的執(zhí)行價(jià)格就是qprice(s)。
(2)執(zhí)行時(shí)間(qprice(s))。執(zhí)行時(shí)間是請(qǐng)求服務(wù)發(fā)送的瞬間到結(jié)果被收到的瞬間之間這段時(shí)間,以毫秒為單位。公式表示:
qtime(s),服務(wù)執(zhí)行時(shí)間;P(s),服務(wù)處理時(shí)間,T(s),服務(wù)傳送時(shí)間。
(3)可用性(qavailability(s))。可用性是質(zhì)量的一個(gè)方面,指Web服務(wù)是否存在或是否已就緒可供立即使用。公式表示:qavailability(s)=A(s)/u。
(4)可靠性(qreliability(s))??煽啃允荳eb服務(wù)質(zhì)量的一個(gè)方面,表示能夠維護(hù)服務(wù)和服務(wù)質(zhì)量的程度。公式表示:qreliability(s)=N(s)/I。
qreliability(s),服務(wù)可靠性概率;N(s),服務(wù)s在最大期望時(shí)間內(nèi)被成功調(diào)用的次數(shù),I:調(diào)用服務(wù)s的總次數(shù)。
2.Web服務(wù)Qos計(jì)算模型。假設(shè)存在一組服務(wù)群,用S={S1,S2,S3,S4.....Sk}表示,這k個(gè)服務(wù)在Web服務(wù)發(fā)現(xiàn)過(guò)程中都能滿足基本的功能匹配,于是我們就可以得到如下的k×4維矩陣:
由于衡量服務(wù)質(zhì)量的指標(biāo)有2種:一種是正向質(zhì)量指標(biāo),即指標(biāo)值越大,服務(wù)質(zhì)量越好,如可用性和可靠性;另一種是負(fù)向質(zhì)量指標(biāo),指標(biāo)值越大,服務(wù)質(zhì)量越差,如價(jià)格和響應(yīng)時(shí)間。
所以,為了保證QoS因素具有可比性,需要對(duì)QoS參數(shù)進(jìn)行歸一化處理,將所有QoS屬性的值域調(diào)整到一個(gè)統(tǒng)一的區(qū)間,在這里我們采用最小-最大規(guī)范化方法對(duì)數(shù)據(jù)進(jìn)行變換,把Web服務(wù)質(zhì)量的向量中的4個(gè)質(zhì)量指標(biāo)的值轉(zhuǎn)換為[0,1]區(qū)間內(nèi)的相應(yīng)數(shù)值。
對(duì)于正向指標(biāo)和負(fù)向指標(biāo)分別采用公式(1)和(2)進(jìn)行處理:
設(shè)服務(wù)S的第j個(gè)QoS參數(shù)取值最大為qjmax,最小為qjmin,當(dāng)前值為 qij,其中 qjmax=max(qij),1≤i≤k,1≤j≤4;qjmin=min(qij),1≤i≤k,1≤j≤4;
通過(guò)以上規(guī)范化處理,得到規(guī)范化k×4維矩陣:
向量V(si)=(vi1,vi2,vi3,vi4)=1≤i≤k,表示W(wǎng)eb服務(wù)si在相應(yīng)服務(wù)群中的規(guī)范化質(zhì)量向量,這樣就把各項(xiàng)質(zhì)量標(biāo)準(zhǔn)統(tǒng)一轉(zhuǎn)換為正向質(zhì)量標(biāo)準(zhǔn),且值分布在[0,1]之間,最優(yōu)值為1,最劣值為0,統(tǒng)一了多目標(biāo)的優(yōu)劣判定。
(1)數(shù)據(jù)挖掘服務(wù)代理模塊。在數(shù)據(jù)挖掘應(yīng)用與服務(wù)之間搭起一座橋梁,實(shí)現(xiàn)了兩者在調(diào)用關(guān)系上的松散耦合,主要包括請(qǐng)求處理器、安全認(rèn)證管理、服務(wù)管理。
(2)數(shù)據(jù)挖掘服務(wù)應(yīng)用模塊。它是平臺(tái)與用戶交互的接口層。它發(fā)出各種各樣的數(shù)據(jù)挖掘服務(wù)需求,并以服務(wù)請(qǐng)求的方式通過(guò)統(tǒng)一的通信接口發(fā)送到數(shù)據(jù)挖掘服務(wù)代理。同時(shí)不必考慮平臺(tái)能夠提供什么樣的服務(wù),只需將服務(wù)需求按照既定格式發(fā)送出去,等待響應(yīng)。
(3)數(shù)據(jù)挖掘服務(wù)模塊。按照數(shù)據(jù)挖掘流程,提供各種數(shù)據(jù)挖掘服務(wù),主要由預(yù)處理組件、挖掘分析組件、可視化組件、服務(wù)定義4個(gè)部分組成。