陳 磊,周夏青,陳 盈
(1.淮南師范學(xué)院 計(jì)算機(jī)學(xué)院,安徽 淮南 232038;2.臺(tái)州醫(yī)院,浙江 臨海 317000 3.臺(tái)州學(xué)院 智能信息處理研究所,浙江 臨海 317000)
基于語義的深網(wǎng)數(shù)據(jù)集成研究*
陳 磊1,周夏青2,陳 盈3
(1.淮南師范學(xué)院 計(jì)算機(jī)學(xué)院,安徽 淮南 232038;2.臺(tái)州醫(yī)院,浙江 臨海 317000 3.臺(tái)州學(xué)院 智能信息處理研究所,浙江 臨海 317000)
深網(wǎng)(Deep Web)包含海量的結(jié)構(gòu)化數(shù)據(jù),深網(wǎng)數(shù)據(jù)集成有利于充分利用Web數(shù)據(jù),提高領(lǐng)域數(shù)據(jù)的共享程度。提出一種建模語言,利用WF2OML,借助關(guān)系表到本體映射的思想,實(shí)現(xiàn)了從Web表單到領(lǐng)域本體的映射。在此基礎(chǔ)上為同一領(lǐng)域的深網(wǎng)查詢提供一個(gè)統(tǒng)一的集成接口,接口的集成是基于語義的,一方面保證了各個(gè)Web表單之間映射的準(zhǔn)確性,另一方面實(shí)現(xiàn)了對(duì)查詢結(jié)果的語義標(biāo)注;完成了將Web數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)化為本體數(shù)據(jù)的功能,轉(zhuǎn)化可以是虛擬的,即通過WF2OML文檔提供一個(gè)虛擬視圖,也可以將查詢結(jié)果導(dǎo)出為本體實(shí)例,為更為深入的數(shù)據(jù)分析提供了本體數(shù)據(jù)源。
WF2OML;Web表單;本體;深網(wǎng);數(shù)據(jù)集成
深網(wǎng)(Deep Web)的概念自被提出以來就成為領(lǐng)域關(guān)注的焦點(diǎn),研究表明Deep Web上的數(shù)據(jù)量巨大,較之表面網(wǎng)(Surface Web)靜態(tài)頁面所含的信息而言,深網(wǎng)中的結(jié)構(gòu)化信息具有更高的商業(yè)價(jià)值,且有著良好的可重用性[1]。深網(wǎng)中的信息一般都屬于某個(gè)特定的領(lǐng)域,提供給特定的應(yīng)用。同領(lǐng)域中的信息可能分布在不同的深網(wǎng)站點(diǎn),例如政府網(wǎng)站中提供的開放數(shù)據(jù)查詢應(yīng)用等。由于傳統(tǒng)的搜索引擎無法訪問到深網(wǎng)站點(diǎn)中的底層數(shù)據(jù),因而,深網(wǎng)數(shù)據(jù)的訪問主要依靠站點(diǎn)所提供的查詢接口(通常是一個(gè)Web表單)來實(shí)現(xiàn)。查詢系統(tǒng)根據(jù)用戶的查詢條件,在底層的數(shù)據(jù)庫中查詢數(shù)據(jù),并將查詢的結(jié)果動(dòng)態(tài)地返回給用戶。然而,一般情況下,用戶的查詢必須要以手動(dòng)的方式遞交到各個(gè)查詢的站點(diǎn),再進(jìn)行查詢結(jié)果的人工分析。在浩如煙海的互聯(lián)網(wǎng)站點(diǎn)中,用戶想全面獲取一個(gè)查詢結(jié)果是非常困難的,他們往往需要查詢多個(gè)同類的網(wǎng)站,反復(fù)地遞交查詢,然后對(duì)大量的查詢結(jié)果進(jìn)行分析。因而,一般情況下,用戶所得到的查詢的結(jié)果也是片面的和不完整的,同時(shí),得到的查詢結(jié)果也只能靠用戶的瀏覽與分析得到結(jié)論,計(jì)算機(jī)系統(tǒng)在自動(dòng)分析與信息的深層挖掘方面顯得無能為力。深網(wǎng)數(shù)據(jù)集成是指將Web上同領(lǐng)域的盡可能多的Web數(shù)據(jù)庫集成起來,以同時(shí)響應(yīng)用戶的查詢,其形式主要是為用戶提供一個(gè)統(tǒng)一的查詢接口,用戶的查詢通過該接口傳送到多個(gè)同一領(lǐng)域內(nèi)的多個(gè)局部查詢接口上,達(dá)到同時(shí)訪問同一領(lǐng)域中多個(gè)Web數(shù)據(jù)庫的目的[2]。傳統(tǒng)的深網(wǎng)數(shù)據(jù)集成需要經(jīng)過Web數(shù)據(jù)庫的發(fā)現(xiàn)、查詢接口模式的抽取、Web數(shù)據(jù)庫的分類、查詢接口的集成、查詢的轉(zhuǎn)換、查詢結(jié)果的抽取及查詢結(jié)果的注釋等環(huán)節(jié)[3],目前來看,其實(shí)用性仍遠(yuǎn)遠(yuǎn)未達(dá)到用戶的要求。
本文提出一種建模思想,旨在利用一種建模語言描述深網(wǎng)數(shù)據(jù)的查詢接口,即Web表單。通常,常用網(wǎng)站所提供的Web表單的模式是固定的,不會(huì)頻繁變換,Web表單模式可以視為Web數(shù)據(jù)庫的一個(gè)視圖,因而可表示為s=(a1,a2,…,ak),其中,ai稱為Web表單的屬性名稱,它與Web數(shù)據(jù)庫模式中的某個(gè)屬性名稱對(duì)應(yīng),但更容易理解,有著明確的語義。查詢表單是對(duì)一個(gè)待查詢的概念的描述,即,一個(gè)表單所體現(xiàn)出的模式實(shí)際上是某個(gè)概念的重要特征的集合。這個(gè)模式是Web數(shù)據(jù)庫提供者希望暴露在Web上供用戶查詢和訪問的。因而,表單的模式所描述的特征是領(lǐng)域概念具有代表性的特征,因?yàn)樗鎸?duì)的是互聯(lián)網(wǎng)上的無數(shù)的用戶,因而該模式是比較固定的統(tǒng)一的,如果說Web底層數(shù)據(jù)庫的模式是相對(duì)封閉的,則對(duì)應(yīng)的Web表單的模式就是相對(duì)開放的。我們借助語義Web中的將關(guān)系模式映射為本體模式的思想,提出一種建模方法,將描述Web數(shù)據(jù)庫的表單模式轉(zhuǎn)換成相應(yīng)的本體模式。因而,本文研究的問題是,提出一種建模語言,它將深網(wǎng)數(shù)據(jù)的訪問接口,即Web表單描述成為相關(guān)領(lǐng)域的本體概念。利用這種描述機(jī)制,我們可以在語義層做到深網(wǎng)查詢接口的集成,并對(duì)查詢結(jié)果進(jìn)行語義包裝,從而獲得一組帶有語義描述的查詢結(jié)果,在這組數(shù)據(jù)上,語義Web應(yīng)用系統(tǒng)可以做更深入的數(shù)據(jù)分析與信息挖掘。
本文所提出的WF2OML(Web Form to Ontology Model Language)是一種將Web表單模式映射為RDF本體的建模語言。受W3C的R2RML建模語言[4]的啟發(fā),我們選用類似的語法結(jié)構(gòu)來描述這種映射關(guān)系,但是,WF2OML與R2RML有著重要區(qū)別:兩種語言的目的不同,R2RML是用來描述關(guān)系模式向RDF模式映射的語言,而WF2OML是用來描述Web表單向本體映射的語言,WF2OML是用來服務(wù)深網(wǎng)查詢的,尤其是深網(wǎng)的集成查詢,在WF2OML的支持下,我們可以方便地將傳統(tǒng)的深網(wǎng)查詢轉(zhuǎn)化為一種服務(wù),這種服務(wù)為用戶提供了領(lǐng)域內(nèi)的統(tǒng)一查詢接口,實(shí)現(xiàn)了深網(wǎng)查詢的集成功能。
2.1WF2OML的基本思想
WF2OML首先將一個(gè)Web表單視為它底層Web數(shù)據(jù)庫的一個(gè)視圖,然后將該視圖映射為一組用來表示本體模式的RDF三元組。由于可將Web表單模式視為一個(gè)關(guān)系視圖,因而將一個(gè)Web表單的模式轉(zhuǎn)化為本體模式時(shí),可以采用簡(jiǎn)單的“表到類”的思想,即,一個(gè)表單模式映射為一個(gè)本體類,而表單中的各個(gè)屬性映射為該本體概念的相應(yīng)屬性。例如,對(duì)于圖1的表單,我們可以有如下映射:
圖1 Web表單
上述表單模式可以表示為:BooksForm(Keywords,Author,Title,ISBN,Publisher,Subject),則可以映射為一個(gè)本體如下:
映射的主要目有兩點(diǎn)。第一,將一個(gè)表單與一個(gè)本體的類聯(lián)系起來,這樣在深網(wǎng)查詢時(shí)可以準(zhǔn)確地判斷深網(wǎng)的查詢接口是與哪一類信息相關(guān)聯(lián)的;第二,將表單的各個(gè)“屬性”轉(zhuǎn)化為本體中的各個(gè)屬性,這樣在查詢時(shí)可以準(zhǔn)確地判斷出表單的查詢能力(Query Capabilities)。以上兩點(diǎn)保證了在集成查詢過程中準(zhǔn)確地發(fā)現(xiàn)數(shù)據(jù)源和對(duì)查詢的分解。
2.2WF2OML的形式
在WF2OML中,為了靈活地將表單(或表單的一部分)與一個(gè)本體概念關(guān)聯(lián)起來,我們采用一個(gè)邏輯表(Logical Table)來從表單的模式上提取用于轉(zhuǎn)換的信息。例如,將圖1中的表單模式映射成相應(yīng)的本體概念的映射文件片段描述如下:
可以看到,WF2OML將映射表示為一個(gè)RDF圖。這里,Trip lesMap1和Trip lesMap2是w fo:Trip lesMap類的實(shí)例,用來表示一個(gè)表單向本體的映射,其中,Trip lesMap1將amazon.com(亞馬遜)站點(diǎn)提供的圖書高級(jí)查詢表單映射為圖書領(lǐng)域本體,而TriplesMap2則將京東商城的圖書查詢表單映射為同一個(gè)領(lǐng)域本體,這樣就將兩個(gè)站點(diǎn)提供的查詢集成起來;w fo:logicalTable是一個(gè)屬性,用來描述一個(gè)邏輯表。我們將一個(gè)表單模式描述成相應(yīng)的邏輯表;w fo:subjectMap用來表示將一個(gè)Web表單中的某(幾)個(gè)組件值映射為本體的三元組的主語 (subject)部分;w fo:predicateObjectMap則表示相應(yīng)的謂語(predicate)和賓語(object)映射;w fo:referenceObjectMap表示不同表單模式之間的關(guān)聯(lián)信息(例如表示兩個(gè)實(shí)例是同一實(shí)體,或者兩個(gè)實(shí)例之間是互相參考的關(guān)系)。WF2OML的主要詞匯結(jié)構(gòu)如圖2所示:
圖2 WF2OML的核心詞匯
如上所述,我們通過一種簡(jiǎn)單的建模語言將Web上的深網(wǎng)查詢表單的模式與領(lǐng)域的本體聯(lián)系起來,一個(gè)Web表單視圖就完成了向本體模式的映射。這種描述方法的優(yōu)點(diǎn)是:(1)它是簡(jiǎn)單的,因?yàn)閃eb表單作為接受用戶查詢的接口,它已經(jīng)形成了對(duì)某一類事物的較完整的描述,因而,在將Web表單轉(zhuǎn)換成本體的時(shí)候,只需要采用簡(jiǎn)單的表到類、屬性到屬性的映射方法即可;(2)這種描述方案表明了表單所描述的事物在領(lǐng)域本體中的分類,為語義查詢、集成等操作的處理提供了實(shí)現(xiàn)途徑;(3)可以通過這種映射將Web表單的查詢結(jié)果轉(zhuǎn)化為RDF實(shí)例數(shù)據(jù),也可以為語義Web應(yīng)用提供一個(gè)虛擬的RDF視圖,為將現(xiàn)有的Web數(shù)據(jù)轉(zhuǎn)換成RDF語義數(shù)據(jù)提供了新的途徑。
基于WF2OML的查詢集成系統(tǒng)正是將各局部查詢接口(即Web表單)與領(lǐng)域本體建立上述映射關(guān)系,從而將多個(gè)局部的查詢接口集成起來。一個(gè)以WF2OML映射文檔為依據(jù)所建立的深網(wǎng)集成查詢系統(tǒng)的工作步驟大致如下:
step 1:以領(lǐng)域本體為基礎(chǔ),構(gòu)建統(tǒng)一的查詢接口;
step 2:通過編輯WF2OML文檔,將局部站點(diǎn)的Web表單映射到領(lǐng)域本體上,同時(shí)也完成了局部站點(diǎn)向統(tǒng)一接口的集成;
step 3:用戶向統(tǒng)一查詢接口輸入查詢條件;
step 4:根據(jù)各局部站點(diǎn)對(duì)應(yīng)的WF2OML文檔,將獲取的用戶查詢分解并提交至各局部查詢站點(diǎn);
step 5:獲取各局部站點(diǎn)的查詢結(jié)果,并按各站點(diǎn)對(duì)應(yīng)的WF2OML文檔對(duì)查詢結(jié)果完成語義包裝;
step 6:匯總各局部形成的語義數(shù)據(jù),形成最終的查詢結(jié)果數(shù)據(jù)集
上述步驟中,step1和step2可以作為系統(tǒng)的初始化過程,其中,當(dāng)有新的局部站點(diǎn)需要加入時(shí),只需完成step 2,形成該站點(diǎn)對(duì)應(yīng)的WF2OML文檔即可。此處類似一個(gè)Web服務(wù)的注冊(cè)過程。為了驗(yàn)證本文提出方法的有效性,我們給出一個(gè)用于測(cè)試的圖書領(lǐng)域查詢系統(tǒng)原型,如圖3所示:
圖3 系統(tǒng)查詢界面
與傳統(tǒng)的集成接口類似,用戶在全局的查詢接口,即一個(gè)統(tǒng)一的Web表單中輸入查詢條件,系統(tǒng)依據(jù)用戶的查詢內(nèi)容判斷并得到與查詢相關(guān)的局部查詢接口,然后將用戶的查詢分解并提交至各局部查詢接口。待各局部查詢系統(tǒng)執(zhí)行查詢并得出結(jié)果時(shí),再對(duì)結(jié)果進(jìn)行包裝,合并,從而匯總給最終的用戶??梢詫⑦@種映射視為一種服務(wù)機(jī)制,服務(wù)的注冊(cè)就是Web表單與領(lǐng)域本體的匹配過程。WF2OML中的w fo:TriplesMap是一個(gè)映射類,它將一個(gè)表單模式映射到領(lǐng)域本體上,更準(zhǔn)確地說,w fo:TriplesMap將一個(gè)表單與一個(gè)領(lǐng)域本體中的具體概念對(duì)應(yīng)起來,因此,當(dāng)用戶進(jìn)行深網(wǎng)查詢時(shí),它需要選擇查詢對(duì)象所在的領(lǐng)域,如圖書類等。圖例所示是用戶選擇圖書作為查詢對(duì)象后的一個(gè)頁面,此時(shí),用戶輸入要查詢的圖書的信息,得到了一組查詢結(jié)果,這組查詢結(jié)果是從右側(cè)的“The current mapped Web Sites”中分別查詢并匯總,經(jīng)過語義包裝而得到的一組RDF數(shù)據(jù)。與傳統(tǒng)的集成查詢相比,這種集成是建立在語義層上的,并且得到的查詢結(jié)果也是語義數(shù)據(jù),對(duì)用戶的分析將更有價(jià)值。例如,WF2OML中的w fo:reference屬性(見圖3中的hhuVocabulary:book-original屬性)將不同網(wǎng)站之間的相關(guān)的查詢結(jié)果建立了一種語義關(guān)聯(lián),通過這種關(guān)聯(lián),用戶或代理可以方便地進(jìn)行更為深層的語義分析。
本文根據(jù)Web表單模型的特點(diǎn),構(gòu)建了一個(gè)將表單模式映射到本體模式的建模語言WF2OML,通過所提供的一組詞匯,它將關(guān)系模式到本體的映射思想應(yīng)用到Web表單模式向本體的映射過程中,這種映射使得基于領(lǐng)域本體的深網(wǎng)集成成為可能。在這種映射規(guī)則的支持下,可以將映射視為一種虛擬的RDF視圖,在不生成RDF實(shí)例數(shù)據(jù)的情況下將Web數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)用到語義Web應(yīng)用中;同時(shí),由于傳統(tǒng)的查詢結(jié)果是嵌入到HTML文檔中的,是一種無結(jié)構(gòu)的數(shù)據(jù),給查詢結(jié)果的分析和知識(shí)發(fā)現(xiàn)帶來很大的困難,因此,也可以選擇對(duì)查詢的結(jié)果進(jìn)行語義標(biāo)注,生成RDF實(shí)例,這是本文研究的重點(diǎn),這樣可以充分利用語義Web技術(shù)對(duì)這些數(shù)據(jù)做更為深層的分析。
作為一種映射規(guī)則的描述語言,WF2OML為站點(diǎn)的提供者或者第三方開發(fā)者提供了靈活的描述表示機(jī)制,WF2OML文檔本身就是RDF圖,第三方可以在任何場(chǎng)合對(duì)自己感興趣的站點(diǎn)進(jìn)行描述、匹配,最終形成一個(gè)統(tǒng)一的查詢接口。當(dāng)然,理想的方式是有權(quán)威的機(jī)構(gòu)對(duì)某些領(lǐng)域的查詢接口進(jìn)行匹配、集成,并在此基礎(chǔ)上不斷地?cái)U(kuò)充待描述的站點(diǎn),最終形成較為完整、全面的領(lǐng)域集成查詢接口。
[1]Kevin Chen-Chuan Chang,Bin He,Zhen Zheng.Toward Large Scale Integration Building a Metaquerier over Databases on the Web.[J].Proceedings of the Second Conference on Innovative Data Systems Research.2005,Vol.1:44-55.
[2]劉偉,孟小峰,孟衛(wèi)一.Deep Web數(shù)據(jù)集成綜述[J].計(jì)算機(jī)學(xué)報(bào),2007(9):1475-1489.
[3]袁柳,李戰(zhàn)懷,陳世亮.基于本體的Deep Web數(shù)據(jù)標(biāo)注[J].軟件學(xué)報(bào),2008(2):237-245.
[4]Souripriya Das,Seema Sundara,Richard Cyganiak.R2RML:RDB to RDF Mapping Language.http://www.w3. org/TR/2012/REC-r2rm l-20120927/
Research on Semantic Data Integration of Deep W eb
CHEN Lei1,ZHOU Xiaqing2,CHEN Ying3
(1.School of Com puter Science,Huainan Normal University,Huainan 232038,Anhui,China; 2.Taizhou Hospital,Linhai 317000,Zhejiang,China; 3.Institute of Intelligent Information Processing,Taizhou University,Taizhou 317000,Zhejiang,China)
The Deep Web has massive structural data;and the integration of deep w eb data can promote a better usage of web data and increase the level of domain data sharing.This paper proposes a model language and realizes the mapping from Web Form to ontology,w hich adopts the idea of mapping method between relational schema and ontology.With the support of WF2OML,w e provide a unified integrated query interface to some application domain.The integration is on the semantic layer,w hich,on one hand,ensures the precise matches among several Web form s,and on the other hand,realizes the semantic annotation to the results of the query.The method also perform s the capability of transform ing the data in the Web databases to the RDF data.The transform ing can be performed w ith a virtual view--WF2OML document,and also can be implemented by exporting the results to the ontology instances,which benefit the deeper data analysis.
WF2OML;Web Form;ontology;Deep Web;data integration
10.13853/j.cnki.issn.1672-3708.2016.06.004
(責(zé)任編輯:耿繼祥)
2016-10-05;
安徽高校自然科學(xué)重點(diǎn)研究項(xiàng)目(KJ2016A664);浙江省科技廳軟科學(xué)研究項(xiàng)目(2015C35049)。
陳磊(1980- ),男,安徽懷遠(yuǎn)人,副教授,主要從事語義Web技術(shù)和Deep Web數(shù)據(jù)集等研究;
簡(jiǎn)介:陳盈(1981-),男,浙江諸暨人,副教授,主要從事智能信息處理方面研究。