湯怡潔 張敏 丁曉芹
〔摘 要〕首先,針對關(guān)聯(lián)數(shù)據(jù)的國內(nèi)外發(fā)展現(xiàn)狀和相關(guān)技術(shù)進(jìn)展進(jìn)行研究,并且調(diào)研了目前主要的關(guān)聯(lián)數(shù)據(jù)集,并深入研究了DBPedia數(shù)據(jù)集、DBLP數(shù)據(jù)集和CORDIS數(shù)據(jù)集。接著基于中國科學(xué)院集成信息平臺CASIIP,同時結(jié)合中國科學(xué)院研究所群組集成知識平臺項(xiàng)目一期、二期的建設(shè)情況,充分分析平臺語義化擴(kuò)展方面的需求和可行性,并且在關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)上提出了CASIIP語義化的擴(kuò)展解決方案。最后在CASIIP的內(nèi)容管理組件、搜索組件和綜合資源管理組件中利用DBPedia的lookup和Spotlight分別實(shí)現(xiàn)了組件語義化擴(kuò)展。實(shí)驗(yàn)證明,該方法合理可行,為CASIIP實(shí)現(xiàn)從基礎(chǔ)內(nèi)容發(fā)布建站平臺軟件到語義化集成資源的平臺軟件發(fā)展奠定了基礎(chǔ)。
〔關(guān)鍵詞〕關(guān)聯(lián)數(shù)據(jù);IIP;信息平臺;語義化;DBPedia;關(guān)聯(lián)數(shù)據(jù)集
〔中圖分類號〕G250.7 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2016)06-0066-08
〔Abstract〕First,according to the related data at home and abroad development status and technical progress of research and investigation of the current major linked data sets,and in-depth study of the DBPedia data sets,the DBLP data set and CORDIS data set.Then based on the Chinese Academy of Sciences integrated information platform CASIIP,combined with China Academy of Sciences Institute of group knowledge integration platform project phase,phase II construction,a full analysis of semantic platform extended the demand and feasibility of,and in the data association based on the proposed solution CASIIP semantic expansion.Finally in the CASIIP content management module,search components and integrated resource management components using DBPedia the lookup and spotlight respectively,to achieve the assembly semantic expansion.Experiments showed that the method was reasonable and feasible.CASIIP implementation from the foundation content release station platform software to the semantic resource integration platform software development laid the foundation.
〔Key words〕linked data;IIP;information platform;semantic expansion;DBPedia;linked data set
中國科學(xué)院集成信息平臺(CASIIP)是為研究所一線科研人員以及所圖書館員提供信息集成與交互服務(wù)的個性化門戶平臺,需要在充分利用研究所圖書館資源的同時,實(shí)現(xiàn)對第三方開放資源的集成服務(wù),并能夠通過平臺建立起科研人員與圖書館員之間良好的互動交互機(jī)制,同時基于不同科研用戶的需要,提供用戶個性化組織和利用信息資源與服務(wù)的功能。目前平臺在中科院研究所得到廣泛應(yīng)用,已經(jīng)在62個研究所開展應(yīng)用服務(wù)。
隨著互聯(lián)網(wǎng)知識內(nèi)容產(chǎn)出方式的不斷變化,用戶所需求的數(shù)字知識資源越來越廣泛化綜合化,類型和格式也日益復(fù)雜化多樣化。與此同時,關(guān)聯(lián)數(shù)據(jù)技術(shù)的快速發(fā)展增強(qiáng)了語義網(wǎng)技術(shù)的可行性,近年來日益增長的關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)為實(shí)現(xiàn)計(jì)算機(jī)自動發(fā)現(xiàn)和處理網(wǎng)絡(luò)上異構(gòu)的來自不同數(shù)據(jù)源的數(shù)據(jù)提供了便利。面對用戶需求的變化和外部關(guān)聯(lián)數(shù)據(jù)云的爆發(fā)式增長,如何利用關(guān)聯(lián)數(shù)據(jù)云中的數(shù)據(jù)對CASIIP平臺進(jìn)行語義化擴(kuò)展是本文重點(diǎn)討論的問題。
1 關(guān)聯(lián)數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)集的發(fā)展近況
1.1 關(guān)聯(lián)數(shù)據(jù)整體概述
關(guān)聯(lián)數(shù)據(jù)(Linked Data)[1]的宗旨是構(gòu)建計(jì)算機(jī)能理解的具有結(jié)構(gòu)化和富語義的數(shù)據(jù)網(wǎng)絡(luò),是在2006年由Tim Berners-Lee首次提出的。這一概念的提出能夠更好地支持構(gòu)建智能化的應(yīng)用,彌補(bǔ)目前僅僅是人能讀懂的文檔網(wǎng)絡(luò)的不足。關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)把以前沒有關(guān)聯(lián)的相關(guān)數(shù)據(jù)連接起來,成為推動語義Web發(fā)展的重要方式之一。
關(guān)聯(lián)數(shù)據(jù)已經(jīng)被W3C推薦為語義網(wǎng)最佳實(shí)踐,已經(jīng)成為當(dāng)前語義網(wǎng)領(lǐng)域研究和實(shí)踐的熱門主題。W3C為促進(jìn)語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)的發(fā)展所倡導(dǎo)的“關(guān)聯(lián)開放數(shù)據(jù)項(xiàng)目(Linked Open Data Project)”從2006年至今,已經(jīng)吸引了多領(lǐng)域和無數(shù)參與者的關(guān)注,將數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)并且相互關(guān)聯(lián)起來,形成了關(guān)聯(lián)數(shù)據(jù)云(LOD Cloud),也是實(shí)質(zhì)的數(shù)據(jù)網(wǎng)絡(luò)。近年來關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)以驚人的速度增長,并且仍然保持高速地發(fā)展。截至2014年8月份,整個關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)已經(jīng)包含了570個關(guān)聯(lián)數(shù)據(jù)集,并通過2 909個鏈接集進(jìn)行相互關(guān)聯(lián),如圖1所示。
1.2 關(guān)聯(lián)數(shù)據(jù)集分析
1.2.1 關(guān)聯(lián)數(shù)據(jù)集調(diào)研
DataHub作為一個數(shù)據(jù)注冊服務(wù)中樞,目前已經(jīng)收錄了9 000多個數(shù)據(jù)集,其中屬于Linking Open Data Cloud組的數(shù)據(jù)集有212個[3]。DataHub是基于CKAN[4]構(gòu)建的,CKAN是一個開源的Python框架。在CKAN上注冊關(guān)聯(lián)數(shù)據(jù)集必須滿足以下幾個條件:①所有數(shù)據(jù)條目通過可參引的URIs可以訪問;②所有的數(shù)據(jù)必須以規(guī)范的RDF格式(RDFa,RDF/XML,Turtle,N-Triples)描述;③數(shù)據(jù)集至少包含1 000個三元組;④數(shù)據(jù)集與其他關(guān)聯(lián)數(shù)據(jù)集之間至少包含50個有效鏈接;⑤同時需要說明數(shù)據(jù)集允許訪問的形式(RDF crawling,RDF dump,SPARQL endpoint)。主要的關(guān)聯(lián)數(shù)據(jù)集(部分)如表1所示。
1.2.2 DBPedia數(shù)據(jù)集分析
DBpedia[5]由柏林自由大學(xué)和萊比錫大學(xué)的研究人員發(fā)起,與OpenLink Software公司合作,致力于從維基百科的結(jié)構(gòu)化和半結(jié)構(gòu)化信息中抽取數(shù)據(jù)并生成RDF三元組,將其組織后形成龐大的數(shù)據(jù)集,與外部的關(guān)聯(lián)數(shù)據(jù)連接,提供給人們使用。DBPedia數(shù)據(jù)來源于WikiPedia,以定時抽取和實(shí)時監(jiān)測兩種模式同步數(shù)據(jù),解決了目前知識庫建設(shè)中存在的數(shù)據(jù)規(guī)模與其結(jié)構(gòu)化程度之間的矛盾,以較低成本建設(shè)和維護(hù)結(jié)構(gòu)化程度較高的大規(guī)模海量知識庫。DBPedia采用基于語義Web的知識組織模式,遵循RDF語法描述知識并通過4種知識分類方法進(jìn)行語義分類,從而實(shí)現(xiàn)了知識內(nèi)容的跨領(lǐng)域性[6]。
在LOD關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)絡(luò)中,DBPedia作為最主要的一個數(shù)據(jù)中樞與其他開放關(guān)聯(lián)數(shù)據(jù)集進(jìn)行鏈接,以DBPedia為圓心,通過RDF鏈接直接或間接的輻射到外部數(shù)據(jù)集。DBPedia 2014數(shù)據(jù)集中更是包含了5 000萬左右的RDF鏈接與外部關(guān)聯(lián)數(shù)據(jù)集進(jìn)行關(guān)聯(lián),鏈接數(shù)量排名前十位的關(guān)聯(lián)數(shù)據(jù)集如表2所示。
同時,越來越多的數(shù)據(jù)集反向鏈接到DBPedia中,鏈接總數(shù)超過3 900萬個,如ACM數(shù)據(jù)集、NSF數(shù)據(jù)集、DrugBank等。
DBpedia提供了URI查找服務(wù) DBpedia Lookup[7],即通過用戶提供的關(guān)鍵詞查找相關(guān)的URI,實(shí)現(xiàn)方式包括關(guān)鍵詞查詢(Keyword search)和詞前綴查詢(Prefix search)。查詢結(jié)果格式為XML文件,內(nèi)容包括URI,標(biāo)簽、簡短的描述,類型、分類和在Wikipedia的內(nèi)部鏈接引用次數(shù)。
DBpedia同時也提供了類似語義標(biāo)注的工具DBpedia Spotlight[8],能對自由文本中所涉及到的DBpedia概念進(jìn)行自動標(biāo)注,為非結(jié)構(gòu)化信息資源通過DBpedia關(guān)聯(lián)到關(guān)聯(lián)數(shù)據(jù)云(Linked Data Cloud)提供了實(shí)現(xiàn)基礎(chǔ)。該工具可執(zhí)行命名實(shí)體的抽取,包括實(shí)體檢測和命名消歧,也可以在其他信息抽取任務(wù)中構(gòu)建自己的命名實(shí)體識別解決方案。
1.2.3 DBLP數(shù)據(jù)集分析
DBLP由德國特里爾大學(xué)的一個團(tuán)隊(duì)開發(fā)和維護(hù)[9],提供計(jì)算機(jī)領(lǐng)域高質(zhì)量的科學(xué)文獻(xiàn)搜索服務(wù),并且只儲存這些文獻(xiàn)的相關(guān)元數(shù)據(jù),如標(biāo)題、作者、發(fā)表日期等,不提供全文下載。截至到2015年4月DBLP已經(jīng)收錄有2 963 980篇文獻(xiàn)信息,該數(shù)據(jù)集遵循ODC-BY 1.0數(shù)據(jù)開放協(xié)議供用戶公開使用。DBLP收錄的文獻(xiàn)類型有Journal Article、Book and Theses、Editorship、Parts in Books or Collections、Informal Publications、Conference and Workshop Papers、Reference Works共7類,提供的數(shù)據(jù)描述信息包括author、title、booktitle、pages、year、address、journal、volume、number、month、url、cite、publisher、note、isbn、series、chapter等。
DBLP利用ReSIST項(xiàng)目構(gòu)建的RKB Explorer對外發(fā)布關(guān)聯(lián)數(shù)據(jù),該數(shù)據(jù)集的數(shù)據(jù)相對滯后,最近的更新數(shù)據(jù)是2013年3月,包含43 153 440三元組,4.4G的RDF數(shù)據(jù)。DBLP提供SPARQL Endpoint語義查詢服務(wù),相關(guān)的SPARQL查詢服務(wù)地址為:http:∥dblp.rkbexplorer.com/sparql/?query=。
1.2.4 CORDIS數(shù)據(jù)集分析
歐盟研發(fā)信息服務(wù)委員會(The Community Research and Development Information Service,CORDIS)發(fā)布的關(guān)聯(lián)數(shù)據(jù)集CORDIS包含了所有歐盟的計(jì)劃和項(xiàng)目信息[10]。該數(shù)據(jù)集中主要描述的實(shí)例類有4個(人員、機(jī)構(gòu)、計(jì)劃和項(xiàng)目),屬性有44個(如項(xiàng)目資助、人員所屬單位、項(xiàng)目起止日期、項(xiàng)目所屬計(jì)劃等)。在數(shù)據(jù)集中總共擁有人員實(shí)例93 669個、機(jī)構(gòu)實(shí)例248 581個、計(jì)劃實(shí)例764個、項(xiàng)目實(shí)例84 801個。
CORDIS數(shù)據(jù)集是通過D2R Server進(jìn)行發(fā)布的,數(shù)據(jù)集不僅提供關(guān)聯(lián)數(shù)據(jù)的瀏覽服務(wù),同時也支持通過SPARQL Endpoint進(jìn)行數(shù)據(jù)查詢,相關(guān)的SPARQL查詢服務(wù)地址為:http:∥wifo5-04.infomatik.uni-mannheim.de/cordis/sparql。
2 利用關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)IIP語義擴(kuò)展的方法研究
2.1 IIP組件使用情況分析
中國科學(xué)院集成信息平臺CASIIP是一套基于Portal和CMS內(nèi)容管理的集成信息系統(tǒng),系統(tǒng)針對研究所、項(xiàng)目組、實(shí)驗(yàn)室、信息中心以及科研用戶團(tuán)隊(duì)建立集成信息平臺的需求而設(shè)計(jì),為用戶進(jìn)行信息加工、組織和發(fā)布提供相關(guān)的服務(wù),具有①簡單、靈活、實(shí)用;②構(gòu)建多社區(qū)服務(wù);③專題數(shù)據(jù)庫服務(wù);④數(shù)據(jù)可視化功能;⑤集中式管理等特點(diǎn)。IIP平臺在中科院“研究所群組集成知識平臺可持續(xù)服務(wù)能力建設(shè)”項(xiàng)目中得到了廣泛應(yīng)用,本項(xiàng)目針對群組一期、二期選用IIP平臺的23個研究所,100多個平臺進(jìn)行了分析,具體調(diào)研的組件包括內(nèi)容管理、綜合資源、第三方資源集成、交互以及其他各種類型的組件,總共包括15個以上組件,具體使用情況如圖2所示。圖2 IIP平臺內(nèi)組件使用情況
通過對IIP平臺組件使用情況調(diào)研發(fā)現(xiàn),使用頻率最高,涵蓋數(shù)據(jù)量最大的組件是內(nèi)容管理組件和綜合資源組件。在各個研究所的群組平臺中,內(nèi)容管理組件中的單篇全文組件主要用于描述科研團(tuán)隊(duì)人員信息、機(jī)構(gòu)組織信息、儀器設(shè)備信息等;標(biāo)題列表組件主要用于發(fā)布學(xué)術(shù)動態(tài)、各類學(xué)科快報等。綜合資源組件多數(shù)情況下用于集成論文信息,同時也可以集成專利、項(xiàng)目、會議等各種資源信息。
2.2 基于關(guān)聯(lián)數(shù)據(jù)的IIP語義擴(kuò)展方法
根據(jù)上述研究,再結(jié)合目前中國科學(xué)院集成信息平臺建設(shè)的實(shí)際情況,關(guān)聯(lián)數(shù)據(jù)在集成信息平臺的語義擴(kuò)展方法的核心思想是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將集成信息平臺中的數(shù)據(jù)信息進(jìn)行語義標(biāo)注,并擴(kuò)展關(guān)聯(lián)外部的各大關(guān)聯(lián)數(shù)據(jù)集。關(guān)聯(lián)數(shù)據(jù)可以為集成信息平臺擴(kuò)展資源信息提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ),提供多個分布式異構(gòu)數(shù)據(jù)源整合的關(guān)聯(lián)訪問,將來自不同數(shù)據(jù)源的同一個實(shí)體數(shù)據(jù)進(jìn)行整合,返回給用戶關(guān)于該實(shí)體的盡可能多的相關(guān)信息的統(tǒng)一視圖,從而為用戶提供資源發(fā)現(xiàn)和訪問服務(wù)的新的視角。簡單來說,就是關(guān)聯(lián)數(shù)據(jù)允許集成信息平臺關(guān)聯(lián)到更廣泛的信息資源,并不局限于資源本身的信息,可以擴(kuò)充科研人員、所屬機(jī)構(gòu)、科研成果以及其所屬學(xué)科主題等其他信息到其他任何一個存在該信息描述的數(shù)據(jù)源。
3 IIP語義擴(kuò)展模塊設(shè)計(jì)與實(shí)現(xiàn)
3.1 IIP關(guān)聯(lián)數(shù)據(jù)標(biāo)引
單篇全文組件是IIP平臺中最主要的內(nèi)容呈現(xiàn)組件之一,用于顯示后臺內(nèi)容管理組件發(fā)布的某篇文章的具體內(nèi)容,通常用于描述科研團(tuán)隊(duì)人員信息、機(jī)構(gòu)組織信息、研究進(jìn)展和儀器設(shè)備信息等。IIP關(guān)聯(lián)數(shù)據(jù)標(biāo)引主要是針對IIP單篇全文組件進(jìn)行語義化擴(kuò)展,利用DBPedia關(guān)聯(lián)數(shù)據(jù)集中的概念對文章內(nèi)容進(jìn)行標(biāo)引。通過標(biāo)引可以使IIP內(nèi)部數(shù)據(jù)與對應(yīng)的DBPedia知識庫中的詞條關(guān)聯(lián)上,從而擴(kuò)展了IIP內(nèi)部數(shù)據(jù)的可讀性和豐富性。
3.1.1 模塊設(shè)計(jì)與實(shí)現(xiàn)
單篇全文組件的語義化擴(kuò)展的設(shè)計(jì)思路是在不改變原有組件的使用和操作流程的基礎(chǔ)上,通過用戶選擇自定義的方式支持語義化標(biāo)引,用戶可以在組件配置界面中勾選是否采用DBPedia關(guān)聯(lián)數(shù)據(jù)集進(jìn)行文章內(nèi)容的標(biāo)引操作。整個組件的默認(rèn)設(shè)置是不實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)標(biāo)引,當(dāng)用戶手工勾選后,則界面呈現(xiàn)的文章內(nèi)容是經(jīng)過標(biāo)引后的結(jié)果,正確標(biāo)引命中的詞出現(xiàn)超鏈接,點(diǎn)擊直接跳轉(zhuǎn)至DBPedia中相關(guān)的詞條,實(shí)現(xiàn)了語義擴(kuò)展閱讀。具體的組件功能示意圖如圖3所示。
從圖3中可以看出,針對單篇全文組件流程的二次開發(fā)改進(jìn)主要集中在2個方面,一個是在組件配置過程中,加入了語義擴(kuò)展配置選項(xiàng);另一個是在組件的文章呈現(xiàn)流程中,根據(jù)語義擴(kuò)展配置選項(xiàng),實(shí)現(xiàn)調(diào)用DBPedia Spotlight工具實(shí)現(xiàn)語義標(biāo)引的分支。
在單篇全文組件語義化擴(kuò)展實(shí)現(xiàn)過程中,文章內(nèi)容如何通過第三方開源工具Spotlight實(shí)現(xiàn)語義標(biāo)引是關(guān)鍵技術(shù)點(diǎn)。組件首先采用htmlparser包進(jìn)行內(nèi)容的過濾,將過濾完成的純文本字符串通過HttpURLConnection傳給DBPedia Spotlight第三方工具,最后返回xml結(jié)果。整體模塊流程如圖4所示,當(dāng)組件根據(jù)配置信息檢測到該組件配置為語義化擴(kuò)展組件時,則直接進(jìn)入語義化擴(kuò)展處理流程進(jìn)行操作。否則,直接顯示從數(shù)據(jù)庫中獲取的原始文章內(nèi)容。
由于IIP中的內(nèi)容發(fā)布組件支持html在線編輯器,大部分發(fā)布的文章內(nèi)容都包含大量的html代碼來控制整篇文章的格式,但是這些html代碼不能帶入第三方標(biāo)引工具進(jìn)行標(biāo)引處理,一則會出現(xiàn)url超長現(xiàn)象,二則會導(dǎo)致標(biāo)引結(jié)果的不準(zhǔn)確性。因此,整個語義化擴(kuò)展處理流程的第一步就是對文本進(jìn)行清洗過濾,然后在此基礎(chǔ)上進(jìn)行語義化標(biāo)引操作。整個處理流程的關(guān)鍵偽代碼如下:
根據(jù)組件配置信息判斷是否進(jìn)行語義化擴(kuò)展
IF(enableDBPedia==true) 開始語義化擴(kuò)展操作
構(gòu)建Parser parser=new Parser(articleContent);
TextExtractingVisitor visitor=new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
執(zhí)行過濾后的文章內(nèi)容字符串dealwithArticleContent=visitor.getExtractedText().trim();
將字符串進(jìn)行URLEncode編碼;
帶入第三方開源工具spotlight=″http:∥spotlight.dbpedia.org/rest/annotate?text=″+searchWord+″&confidence=0.2&support=20″;
URL restServiceURL=new URL(spotlight);
利用HttpURLConnection,(HttpURLConnection) restServiceURL.openConnection();
httpConnection.setRequestMethod(″GET″);
httpConnection.setRequestProperty(″Accept″,″application/xml″);
BufferedReader responseBuffer=new BufferedReader(new InputStreamReader((httpConnection.getInputStream())));
ByteArrayOutputStream semanticArticleStream=new ByteArrayOutputStream();
while((i=responseBuffer.read())!=-1){semanticArticleStream.write(i);}
最終獲得結(jié)果語義標(biāo)引的文本內(nèi)容semanticArticle=semanticArticleStream.toString();
結(jié)束語義化擴(kuò)展操作,將處理完成的文本內(nèi)容放入單篇全文組件中
journalArticleContent.setContent(semanticArticle);
3.1.2 實(shí)現(xiàn)效果
IIP關(guān)聯(lián)數(shù)據(jù)標(biāo)引實(shí)現(xiàn)效果以群組一期中國科學(xué)院大學(xué)建設(shè)的“凝聚態(tài)理論與計(jì)算材料物理實(shí)驗(yàn)室”平臺中的一篇實(shí)驗(yàn)室研究方向介紹的文章內(nèi)容為例,通過DBPedia語義化標(biāo)引前后的實(shí)現(xiàn)效果如圖5所示。圖5 關(guān)聯(lián)標(biāo)引實(shí)現(xiàn)效果
從圖5中可以看出,通過配置“啟用標(biāo)引”選項(xiàng),發(fā)布的文章內(nèi)容實(shí)現(xiàn)了DBPedia的詞匯標(biāo)引,在能與DBPedia數(shù)據(jù)集中匹配的內(nèi)容下加上了相關(guān)的鏈接。點(diǎn)擊鏈接直接跳轉(zhuǎn)到DBPedia中相關(guān)詞條的描述頁面,如點(diǎn)擊“Condensed matter physics”,進(jìn)入了DBPedia中“凝聚態(tài)物理”詞條的描述頁面,包含了基本描述、涉及的主題,等價概念等。
3.2 IIP關(guān)聯(lián)數(shù)據(jù)搜索
IIP關(guān)聯(lián)數(shù)據(jù)搜索主要分為兩種服務(wù)模式,一種是人工輸入搜索;一種是自動擴(kuò)展搜索。人工輸入搜索是基于IIP搜索組件,擴(kuò)充DBPedia檢索選項(xiàng),將用戶輸入的檢索詞送入DBPedia數(shù)據(jù)集中進(jìn)行檢索并返回相關(guān)的結(jié)果列表。自動擴(kuò)展搜索是基于IIP綜合資源組件,該組件可以動態(tài)的建立用戶自己的知識庫,滿足用戶之間知識積累和共享的要求。在IIP綜合資源組件顯示每條資源的詳細(xì)信息頁面中,根據(jù)每條資源的標(biāo)題自動送入DBPedia數(shù)據(jù)集中檢索,獲取到的相關(guān)結(jié)果作為該資源的擴(kuò)展信息呈現(xiàn)在同一頁面內(nèi)。
3.2.1 模塊設(shè)計(jì)與實(shí)現(xiàn)
IIP關(guān)聯(lián)數(shù)據(jù)搜索的功能擴(kuò)展主要在IIP搜索組件和IIP綜合資源組件中進(jìn)行,利用DBPedia的URI查找服務(wù)-DBpedia Lookup實(shí)現(xiàn)DBPedia的數(shù)據(jù)集檢索。由于同時針對IIP的兩個功能組件進(jìn)行關(guān)聯(lián)數(shù)據(jù)搜索擴(kuò)展服務(wù),因此整體模塊設(shè)計(jì)思路是在系統(tǒng)底層開發(fā)一個公共組件用于與外部DBPedia數(shù)據(jù)集進(jìn)行通訊,在公共組件的上層提供接口直接支持搜索組件和綜合資源組件的調(diào)用,這種設(shè)計(jì)模式更利于系統(tǒng)后續(xù)擴(kuò)展與再開發(fā)。具體的組件功能示意圖如圖6所示。
從圖6中可以看出,DBPedia擴(kuò)展檢索組件的開發(fā)是實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)搜索的主要工作,另外需要對IIP中兩個現(xiàn)有組件進(jìn)行二次開發(fā),調(diào)用DBPedia擴(kuò)展檢索組件的功能,最終實(shí)現(xiàn)人工搜索和自動搜索兩種服務(wù)模式。具體而言,DBPedia擴(kuò)展檢索組件通過Apache Jakarta Common下的子項(xiàng)目httpclient提供的jar包調(diào)用DBPedia lookup查詢服務(wù)接口實(shí)現(xiàn)與DBPedia DataSet的通訊。在綜合資源組件中通過調(diào)用擴(kuò)展檢索組件接口,實(shí)現(xiàn)綜合資源本地內(nèi)容和DBPedia擴(kuò)展內(nèi)容的組合呈現(xiàn),整個處理流程的關(guān)鍵偽代碼如下:圖6 IIP關(guān)聯(lián)檢索功能示意圖
IF(IntegratedResources.getOp().equals(″detail″)==true) 進(jìn)入綜合資源詳細(xì)內(nèi)容獲取流程
創(chuàng)建IntegratedResourcesForm實(shí)體;
利用returnIntegratedResources方法獲取本地內(nèi)容,ResourcesDisplayLbean.returnIntegratedResources(irId);
利用returnDBPediaResources方法獲取DBPedia數(shù)據(jù)集中的相關(guān)內(nèi)容,ResourcesDisplayLbean.returnIntegratedResources(searchWord);
在returnDBPediaResources方法中,String lookupDBpedia=″http:∥lookup.dbpedia.org/api/search.asmx/PrefixSearch?QueryClass=&MaxHits=5&QueryString=″+searchWord;利用HttpClient調(diào)研l(wèi)ookup服務(wù)接口,返回結(jié)果經(jīng)過本地二次處理,以字符串形式返回;
整理合并本地內(nèi)容和DBPedia相關(guān)內(nèi)容,分別寫入之前創(chuàng)建的IntegratedResourcesForm實(shí)體,
IntegratedResourcesForm.setContent(integratedResource);
IntegratedResourcesForm.setDBPedia(dbpediaResult);
完成內(nèi)容獲取整個流程后,將IntegratedResourcesForm寫入request
req.setAttribute(″IntegratedResourcesForm″,IntegratedResourcesForm);在頁面上呈現(xiàn)。
3.2.2 實(shí)現(xiàn)效果
IIP關(guān)聯(lián)數(shù)據(jù)搜索實(shí)現(xiàn)效果之一是通過輸入檢索詞直接在DBPedia數(shù)據(jù)集中檢索相關(guān)內(nèi)容并返回檢索結(jié)果列表,以condensed為例,通過DBPedia檢索返回的結(jié)果包括Hydrochloric acid;Condensed matter physics;Condensation等。點(diǎn)擊Condensed matter physics直接跳轉(zhuǎn)到DBPedia中的“凝聚體物理”詞條展示頁面,具體效果如圖7所示。圖7 關(guān)聯(lián)檢索實(shí)現(xiàn)效果之一
IIP關(guān)聯(lián)數(shù)據(jù)搜索實(shí)現(xiàn)效果之二是以利用綜合資源組件構(gòu)建的藥品數(shù)據(jù)庫為基礎(chǔ),在瀏覽藥品詳細(xì)信息的時候,在界面呈現(xiàn)本地藥品數(shù)據(jù)庫中加工形成的數(shù)據(jù)資源以及通過DBPedia檢索返回的擴(kuò)展資源信息。例如在藥品數(shù)據(jù)庫資源列表頁面點(diǎn)擊Abacavir,進(jìn)入該藥品詳細(xì)信息頁面,在此頁面中上方為本地藥品庫中的信息內(nèi)容,下方為從DBPedia數(shù)據(jù)集擴(kuò)展獲取的信息內(nèi)容,具體實(shí)現(xiàn)效果如圖8所示。
4 結(jié) 論
中國科學(xué)院集成信息平臺(CASIIP)雖然在中科院范圍內(nèi)62家研究所的幾百個課題組得到了廣泛應(yīng)用,但是CASIIP平臺還是以傳統(tǒng)的門戶呈現(xiàn)模式和關(guān)系型數(shù)據(jù)庫存儲模式進(jìn)行的信息組織,語義化程度較低。本文的研究思路是在CASIIP平臺中引入了關(guān)聯(lián)數(shù)據(jù)的概念,利用外部關(guān)聯(lián)數(shù)據(jù)集DBPedia豐富的信息資源描述,結(jié)構(gòu)化的組織形式以及規(guī)范的數(shù)據(jù)接口實(shí)現(xiàn)了平臺語義化擴(kuò)展。通過平臺語義化擴(kuò)展,將平臺自身的信息資源與來自DBPedia數(shù)據(jù)源的同一個實(shí)體數(shù)據(jù)進(jìn)行整合,以統(tǒng)一視圖的形式返回給用戶盡可能多的相關(guān)信息。
目前在CASIIP平臺中只引入了DBPedia一個關(guān)聯(lián)數(shù)據(jù)集,接下來,根據(jù)不同研究所的研究領(lǐng)域不同,將開展有針對性的關(guān)聯(lián)數(shù)據(jù)集調(diào)研并引入CASIIP系統(tǒng)中。與此同時,將開展CASIIP系統(tǒng)自身信息的語義化轉(zhuǎn)換,利用關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù),將系統(tǒng)數(shù)據(jù)發(fā)布為標(biāo)準(zhǔn)的關(guān)聯(lián)數(shù)據(jù)格式對外提供服務(wù)。
參考文獻(xiàn)
[1]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報,2011,(2):5-12.
[2]The Linking Open Data Cloud diagram[EB/OL].http:∥lod-cloud.net/.
[3]DataHub Dataset[EB/OL].https:∥datahub.io/dataset.
[4]CKAN Overview[EB/OL].http:∥docs.ckan.org/en/ckan-2.4.1/index.html.
[5]DBPedia[EB/OL].http:∥wiki.dbpedia.org/.
[6]邢美鳳.DBPedia本體知識庫關(guān)鍵技術(shù)及應(yīng)用展望[J].圖書館理論與實(shí)踐,2013,(1):43-46.
[7]DBPedia Lookup[EB/OL].http:∥wiki.dbpedia.org/projects/dbpedia-lookup.
[8]Pablo,N.Mendes;Max,Jakob;Andres Garcia-Silva;Christian Bizer.Bpedia Spotlight:Shedding Light on the Web of Documents[J/OL].I-SEMANTICS 2011,7th Int.Conf.on Semantic Systems,2011.http:∥blog.semantic-web.at/wp-content/uploads/2011/09/p1mendes.pdf.
[9]DBLP computer science bibliography[EB/OL].http:∥dblp.uni-trier.de/.
[10]CORDIS European Union Open Data Portal[EB/OL].https:∥open-data.europa.eu/en/data.