辛明海,潘孝銘
(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建泉州362021)
多層次語義網(wǎng)的改進(jìn)Web服務(wù)檢索技術(shù)
辛明海,潘孝銘
(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建泉州362021)
利用語義Web服務(wù)中的標(biāo)準(zhǔn)OWL-S,提出多層次語義Web服務(wù)檢索技術(shù).與目前關(guān)鍵字或分類的查詢方法相比,多層次語義Web服務(wù)檢索技術(shù)具有更多的判斷依據(jù),并增加Web服務(wù)在搜尋時(shí)的準(zhǔn)確率及可用性.模型包括服務(wù)名稱分析、概念描述及輸出-輸出參數(shù)相似性分析、服務(wù)質(zhì)量分析3個(gè)階段.實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于關(guān)鍵字的檢索方式相比,采用多層次語義擴(kuò)展檢索的查準(zhǔn)率平均值上升0.25,查全率平均值上升0.24,但執(zhí)行效率降低3.2%.
語義擴(kuò)展檢索;Web服務(wù);多層次;相似度
隨著Web服務(wù)的迅速發(fā)展,在Web服務(wù)儲(chǔ)存庫[1]中可獲取的Web服務(wù)數(shù)量也隨之快速增加.因此,在服務(wù)檢索時(shí)單純以關(guān)鍵字搜尋想要的服務(wù),會(huì)對(duì)服務(wù)的自動(dòng)組合造成很大的困難.Web服務(wù)架構(gòu)面臨著安全、組合、語義等一些難以解決的問題[2].結(jié)合語義網(wǎng)的語義Web服務(wù)是使用計(jì)算機(jī)能解釋的語言,描述Web服務(wù)的能力及內(nèi)容,并改進(jìn)現(xiàn)在的工作質(zhì)量,包括服務(wù)發(fā)現(xiàn)、監(jiān)視、回復(fù)等.語義Web服務(wù)技術(shù)抽象的架構(gòu)和所使用的協(xié)議,能夠解決5種語義Web服務(wù)代理人的需求:包括動(dòng)態(tài)服務(wù)發(fā)現(xiàn)、服務(wù)協(xié)調(diào)、服務(wù)規(guī)范和管理、社群支持服務(wù)、服務(wù)質(zhì)量[3].服務(wù)請(qǐng)求者如何才能準(zhǔn)確、有效地找到想要的服務(wù),已經(jīng)成為重要的研究課題.用戶在Web服務(wù)注冊(cè)中心搜尋服務(wù),其運(yùn)作機(jī)制一般有兩種方式,一種是以Web界面的方式,另一種是以離線網(wǎng)絡(luò)統(tǒng)一描述、發(fā)現(xiàn)和集成協(xié)議(UDD I)的方式.目前,研究語義Web服務(wù)的發(fā)掘、搜尋或匹配方法,主要都是以O(shè)WL(Web Ontology Language)與Service結(jié)合的OWL-S作為標(biāo)準(zhǔn)文件[4-8].本文提出一種多層次語義Web服務(wù)搜尋機(jī)制,以增加Web服務(wù)在搜尋時(shí)的準(zhǔn)確率及可用性.
圖1 服務(wù)搜尋流程圖Fig.1 Web services search flow diagram
改進(jìn)文[9]提出的多層次語義的改進(jìn)網(wǎng)絡(luò)匹配方式,將Web服務(wù)搜尋機(jī)制分為4個(gè)步驟.即比對(duì)服務(wù)名稱、服務(wù)概念描述內(nèi)容的相似性分析、輸出與輸入?yún)?shù)的相似性分析和服務(wù)質(zhì)量分析.服務(wù)需求者的需求先利用OWL-S編輯器轉(zhuǎn)換成OWL-S文件檔,或?qū)⒎?wù)儲(chǔ)存庫中待匹配的WSDL文件,利用套件CODE[10]換成OWL-S文件,其流程如圖1所示.
(1)比對(duì)服務(wù)名稱.比對(duì)服務(wù)名稱及分析概念內(nèi)容描述的相似性是第1階段,它可以先篩選掉一些不相關(guān)的服務(wù),減少后續(xù)的匹配的文件,減少花費(fèi)時(shí)間;匹配后再對(duì)服務(wù)質(zhì)量分析,可作為選擇的參考依據(jù).
為服務(wù)名稱的命名時(shí),經(jīng)常不是單一字詞,如有“GetLocalTime”,“Lookup Zipcode”這類的復(fù)合名詞.因此,分析前需分解,將有意義的字詞用大寫開頭及底線“_”相連,拆解完后,再繼續(xù)下一步.
使用者輸入關(guān)鍵字的搜尋方式,可利用近似字符串比對(duì)演算法,將服務(wù)儲(chǔ)存庫中的服務(wù)名稱與使用者的輸入做比對(duì).近似字符串比對(duì),可以容忍如下3種類型的錯(cuò)誤:(1)置換型錯(cuò)誤,如computer變?yōu)閏imputer;(2)遺漏型錯(cuò)誤,如computer變?yōu)閏oputer;(3)重復(fù)型錯(cuò)誤,如computer變?yōu)閏omputer.
因此,使用近似定串比對(duì)演算法為編輯距離,對(duì)于3種錯(cuò)誤類型各視為相差一個(gè)距離.此計(jì)算方式會(huì)因單詞長(zhǎng)短的不同而有所誤差,故3種情況的總發(fā)生率不能大于0.2.利用字串相近的方式可增加搜尋彈性,避免因輸入時(shí)的小錯(cuò)誤而搜尋不到服務(wù).
圖2 知識(shí)本體的層次架構(gòu)Fig.2 Hierarchical structure of ontology
知識(shí)本體的層次架構(gòu),如圖2所示.從圖2可看出,在名稱相似度計(jì)算部分,對(duì)于知識(shí)本體而言,階層越低,相似性越高.因此,對(duì)于層級(jí)越低的節(jié)點(diǎn),計(jì)算相似度時(shí),將其權(quán)重值提高.即其中:S(A,B)為兩節(jié)點(diǎn)的相似度;d(P(A,B))為A,B兩節(jié)點(diǎn)的共同父節(jié)點(diǎn)轎車到根部的距離;d(A,B)表示A,B間的最短路經(jīng),加1的目的在避免A,B是相同節(jié)點(diǎn)時(shí)分母為0.
當(dāng)分析服務(wù)名稱完成后,將服務(wù)儲(chǔ)存庫中的服務(wù)分成兩類.較具有相關(guān)性名稱的服務(wù)放入第2階段的流程,以分析其概念描述及輸出參數(shù)之相似性;如果使用者僅以關(guān)鍵字查詢方式搜尋服務(wù),則可至第3階段做服務(wù)質(zhì)量分析.
(2)服務(wù)概念描述的相似性分析.它是第2階段的第1個(gè)步驟,利用文[6]提出的向量空間模型,依其步驟計(jì)算各服務(wù)之概念相似性,其值為Simp rofile.
(3)輸出與輸入?yún)?shù)相似性分析.它是第2階段的第2個(gè)步驟.在參數(shù)相似性分析部分,可利用設(shè)定字詞的權(quán)重wi(d)的計(jì)算式,交叉計(jì)算需求與儲(chǔ)存庫中服務(wù)的輸入與輸出參數(shù)的相似性.有
其中:wi(d)為字詞i在文件d中的加權(quán)值;fi(d)為文件d中每個(gè)字詞i出現(xiàn)頻率;N為文件總數(shù);di為包含有字詞i的文件數(shù)量.
設(shè)需求的輸入?yún)?shù)以RIN表示、輸出參數(shù)以ROUT表示,儲(chǔ)存庫中服務(wù)的輸入?yún)?shù)以AIN表示、輸出參數(shù)以AOUT表示,分別計(jì)算其相似度,有
若SIN-OUT計(jì)算結(jié)果相似,則先將其剔除,表示兩服務(wù)工作內(nèi)容正好相反;然后,計(jì)算參數(shù)的相似度,有
第2階段完成后,會(huì)產(chǎn)生服務(wù)集合S2.集合中,服務(wù)相似度Ss的計(jì)算方式為
(4)服務(wù)質(zhì)量分析.前兩階段的相似性分析過程可以視為完整的搜尋步驟.加入服務(wù)質(zhì)量(QoS)分析[11]的目的是,候選服務(wù)在做選擇的參考排序,或是當(dāng)首選服務(wù)執(zhí)行失敗時(shí),可立即找到替代服務(wù).
在服務(wù)質(zhì)量分析項(xiàng)目中,參考一般關(guān)于Web服務(wù)質(zhì)量的QoS指標(biāo),分別定義如下7個(gè)QoS指標(biāo).
(1)回應(yīng)時(shí)間.服務(wù)完成所需時(shí)間.
(2)承載量.服務(wù)可同時(shí)接受的請(qǐng)求數(shù)量.
(3)可用性.表示服務(wù)是否已準(zhǔn)備就緒能直接使用.
(4)正確性.表示一段時(shí)間內(nèi)的錯(cuò)誤率.
(5)正確性.表示一段時(shí)間內(nèi)的錯(cuò)誤率.
(6)成本.服務(wù)所需的價(jià)錢.
(7)安全性.表示定義服務(wù)是否提供機(jī)密性、完整性、可驗(yàn)證性的機(jī)制.
服務(wù)請(qǐng)求者可以彈性選擇其所關(guān)注的項(xiàng)目,并設(shè)定其允許極值,比如服務(wù)回應(yīng)時(shí)間在多少時(shí)間內(nèi)等.最后,所列出的服務(wù)集合即為候選服務(wù),使用者可從中選取適合的服務(wù).列出清單的目的在于,服務(wù)請(qǐng)求可依據(jù)此清單彈性選擇所要的服務(wù),也可用于Web服務(wù)的自動(dòng)化組合.
采用Web服務(wù)儲(chǔ)存庫“XM ethod”(http://www.xmethods.net),“Web Service List”(http:// www.webservicelist.com/),取得旅游相關(guān)的WSDL文件,包含訂票、天氣、購物、匯率等服務(wù),以及一些不相關(guān)的服務(wù)文件,如密鑰管理、檔案處理等.
首先,使用CODE[10]將WSDL格式的文件轉(zhuǎn)為OWL-S格式,作為實(shí)驗(yàn)?zāi)M服務(wù)儲(chǔ)存庫中的服務(wù).
然后,在搜尋流程第二階段使用的w,x,y,z等4個(gè)參數(shù).將使用不同的權(quán)重比例測(cè)試搜尋結(jié)果的準(zhǔn)確率,從而選出最適合計(jì)算的公式.準(zhǔn)確率的判斷方式以查全率(ηR)及查準(zhǔn)率(ηP)參照[12].其中:查全率為候選服務(wù)清單中相關(guān)服務(wù)的數(shù)量與服務(wù)儲(chǔ)存庫中所有相關(guān)服務(wù)數(shù)量的比值;查準(zhǔn)率為候選服務(wù)清單中相關(guān)服務(wù)的數(shù)量與候選服務(wù)清單中的服務(wù)數(shù)量的比值.
在第3階段的服務(wù)質(zhì)量分析部分,特別是在目前OWL-S標(biāo)準(zhǔn)格式中,并沒有服務(wù)質(zhì)量的相關(guān)標(biāo)簽.因此,在編輯OWL-S文件時(shí),需再增加QoS指標(biāo)標(biāo)簽.
采用關(guān)鍵字檢索與Web服務(wù)檢索的效果對(duì)比,如表1所示.從表1可知,3種搜索引擎采用關(guān)鍵字檢索的查準(zhǔn)率平均值為0.30,而采用多層次語義擴(kuò)展檢索的查準(zhǔn)率平均值為0.55,提高了0.25. Google搜索引擎的關(guān)鍵字檢索的查準(zhǔn)率為0.34,表明其對(duì)中文的分詞并不理想,經(jīng)多層語義擴(kuò)展后,其查準(zhǔn)率上升到0.58,檢索性能顯著提升.
表1 檢索方式的效果對(duì)比Tab.1 Results comparison of retrievalmethods
從表1的查全率數(shù)值可知,通過語義擴(kuò)展可以檢索到關(guān)鍵字并不匹配但確為用戶所需的服務(wù),甚至是組合服務(wù),起查全率平均值上升0.24,相比于關(guān)鍵字匹配方式有顯著的提高.
采用多層次語義擴(kuò)展檢索做服務(wù)搜尋時(shí),需要執(zhí)行更多的步驟,因此系統(tǒng)的執(zhí)行效率會(huì)降低.實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的基于關(guān)鍵字的檢索方式,使用多層次語義擴(kuò)展檢索的執(zhí)行效率要降低3.2%.
分為3個(gè)階段的多層次語義Web服務(wù)搜尋機(jī)制,相比較于目前關(guān)鍵字或分類的查詢方法,多了更多的判斷依據(jù).第1階段的服務(wù)名稱分析,可視為前置的篩選流程,可以大量減少后續(xù)階段所需匹配的文件數(shù)量,因此能夠節(jié)省不少時(shí)間.并且,該階段的搜尋方式,相對(duì)于只用關(guān)鍵字搜尋的服務(wù)請(qǐng)求者而言,仍然比傳統(tǒng)搜尋方式更能找到所需要的服務(wù).
語義相似性比對(duì)更切合服務(wù)請(qǐng)求者的需求,增加搜尋到所需要服務(wù)的機(jī)會(huì);而增加服務(wù)質(zhì)量的分析,除了讓服務(wù)請(qǐng)求者可以多一項(xiàng)參考依據(jù)外,也避免搜尋到不能真正執(zhí)行的服務(wù).
后繼的研究重點(diǎn)是,考慮此搜尋機(jī)制在服務(wù)自動(dòng)化組合時(shí)產(chǎn)生的問題,以及服務(wù)質(zhì)量指標(biāo)的正確性等問題.同時(shí),進(jìn)一步提高執(zhí)行效率,把該搜尋機(jī)制擴(kuò)展應(yīng)用于如文[13]的軟構(gòu)件檢索.
[1] SABOU M,PAN J.Towards semantically enhanced web service reposito ries[J].Web Semantics:Science,Servicesand Agentson the World Wide Web,2007,5(2):142-150.
[2] WANG Hong-bing,HUANG J Z,QU Yu-zhong,et al.Web services:Problems and future directions[J].Web Semantics:Science,Services and Agents on the World Wide Web,2004,1(3):309-320.
[3] BURSTEIN M,BUSSLER C,ZAREMBA M,et al.A semantic Web services architecture[J].IEEE Internet Computing,2005,9(5):72-81.
[4] 陳錦源.基于語義的Web服務(wù)發(fā)現(xiàn)機(jī)制研究[J].計(jì)算機(jī)與現(xiàn)代化,2007(7):34-37.
[5] M ILLER G A.Wo rdNet:A lexical database fo r English[J].Communications of the ACM,1995,38(11):39-41.
[6] ELHAM P,JAFAR H,SOHEIL Y H.Semantic composability measure for semantic web services[C]∥First Asia International Conference on Modelling&Simulation.Phuket:[s.n.],2007:88-93.
[7] PAOLUCCIM,KAWAMURA T,PA YNE T R,et al.Semantic matching of web services capabilities[C]∥Proceedings of the 1st International Semantic Web Conference.Sardinia:[s.n.],2002:333-347.
[8] SU Xiao-meng,GULLA J A.Semantic enrichment for ontology mapping[C]∥Proceeding of the 9th International Conference on App licationsof Natural Language to Info rmation System.Heidelberg:Sp ringer-Verla,2004:217-228.
[9] 仲梅,宋順林.一種語義Web服務(wù)的多層次匹配方法[J].計(jì)算機(jī)應(yīng)用,2007,27(1):199-201,204.
[10] SRIN IVASAN N,PAOLUCCIM,SYCARA K.Semantic Web service discover in the OWL-S IDE[C]∥Proceedings of the 39th Annual Hawaii International Conferenceon System Sciences.Washington D C:IEEEComputer Society,2006:109.
[11] XIN Dong,ALON H,MADAHAVAN J,et al.Similarity search fo r web services[C]∥Proceedingsof the Thirtieth International Conference on Very Large Data Bases.Toronto:VLDB Endowment,2004:372-383.
[12] SAL TON G,MCGILL M J.Introduction to modern information retrieval[M].New York:M cGraw Hill Book Co, 1983.
[13] 余金山.利用XML,Tamino和CORBA的軟構(gòu)件管理與檢索技術(shù)[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2008,29(4): 518-522.
Im proving of Web Services Retrieval Techn ique by Using M ulti-Layer Seman tic Web
XIN M ing-hai,PAN Xiao-ming
(College of Computer Science and Technology,Huaqiao University,Quanzhou 362021,China)
M ulti-level semantic web service retrieval technique was p roposed by using the usual standard OWL-S in the semantic web service.Compared w ith the method simp ly using keywords o r classified mechanism,multi-level semantic web service retrieval technique p rovidesmo re judgment and imp roves the p recision and usability w hen searching fo r Web Services.The model includes 3 phase:service name analysis,concep t describing and input-output parameter similar analysis,service quality analysis.Experimental results show that compared w ith traditional search way based on keywo rds, using multi-level semantic expansion retrievalmethod leads the p recision ratio average to rise by 0.25,recall level average to rise by 0.24,but carry out efficiency to reduce by 3.2%.
semantic expanded retrieval;Web service;multi-level;similarity
TP 391.3
A
(責(zé)任編輯:黃仲一 英文審校:吳逢鐵)
1000-5013(2010)05-0530-04
2010-01-11
辛明海(1976-),男,講師,主要從事軟件工程、模式識(shí)別和人工智能的研究.E-mail:minghai_xin@seu. edu.cn.
福建省自然科學(xué)基金資助項(xiàng)目(A 0810013);華僑大學(xué)科研基金資助項(xiàng)目(04BS313,06HZR29);泉州市科技計(jì)劃項(xiàng)目(2009-0032)