李博,戚曉鵬,李言飛,陳強,馬俊才,孫清嵐,王松旺
1.中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京 10080
2.中國科學(xué)院微生物研究所,北京 100101
3.中國科學(xué)院大學(xué),北京 10049
4.中國疾病預(yù)防控制中心公共衛(wèi)生監(jiān)測與信息服務(wù)中心,北京 102206
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)信息變得龐大而復(fù)雜,要想將這些信息整合并從這些數(shù)據(jù)中獲取一些相關(guān)數(shù)據(jù)并進行分析從而得到些有價值的結(jié)論,并不是十分容易。而語義網(wǎng)的應(yīng)用及普及就顯得尤為重要。語義網(wǎng)的概念[1]最早是由有“互聯(lián)網(wǎng)之父”之稱的Tim Berners-Lee 在 1998 年提出來的,他指出語義網(wǎng)并不是單獨的 Web,而是當(dāng)前 Web 的擴展,就是通過給 Web 上的信息賦予能被計算機理解的含義,從而使計算機和人能夠更好地協(xié)作。目前,語義網(wǎng)已被廣泛應(yīng)用在很多領(lǐng)域,如:劉清堂[2]等人基于語義網(wǎng)的技術(shù)對教育應(yīng)用的研究現(xiàn)狀進行分析,指出當(dāng)前教育應(yīng)用研究中存在著理論研究概述過多、實用開發(fā)技術(shù)研究過少、在基礎(chǔ)教育應(yīng)用的研究少、研究角度狹窄等問題并提出了相應(yīng)的改進方案;張倩倩[3]等人對國內(nèi)外的語義網(wǎng)技術(shù)在軍事領(lǐng)域的研究狀況進行了綜述和總結(jié),并提出了具有我軍特色的語義網(wǎng)技術(shù)的研究建議和方向;等等。
在生物安全監(jiān)測領(lǐng)域,國外有很多優(yōu)秀的模型,如美國的 PHCDM[4](Public Health Conceptual Data Model),其總體目的是整理、歸檔公共衛(wèi)生所需的信息資料,并作為 NEDSS (全國電子疾病監(jiān)控系統(tǒng)) 起步的一部分,促進數(shù)據(jù)標準化的發(fā)展。PHCDM 于1999 年就開始開發(fā)了,相對來說比較成熟,本研究想要在現(xiàn)有標準體系框架的基礎(chǔ)上,建立適合我國生物安全監(jiān)測的數(shù)據(jù)標準體系,如包括病原的發(fā)現(xiàn)、檢測、診斷、干預(yù)過程等,從而為以后的數(shù)據(jù)集成和數(shù)據(jù)共享提供基礎(chǔ),應(yīng)用語義網(wǎng)技術(shù),就可以很好地解決這個問題。
本文首先介紹了語義網(wǎng)的相關(guān)技術(shù),并對其在國內(nèi)外的研究現(xiàn)狀進行了總結(jié)與綜述,然后具體的描述了生物安全監(jiān)測概念數(shù)據(jù)模型,最后應(yīng)用語義網(wǎng)技術(shù)將該數(shù)據(jù)標準可視化,直觀地展示出來,方便理解。
語義網(wǎng)是一種智能網(wǎng)絡(luò)[5],它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關(guān)系,從而實現(xiàn)人與電腦之間的無障礙溝通。2001 年TimBerners-Lee 提出了語義網(wǎng)的基本體系結(jié)構(gòu)[6],指出支持語義網(wǎng)的三大關(guān)鍵技術(shù)為:XML (可擴展標記語言)、RDF (資源描述框架)、Ontology (本體)。
XML 是可擴展標記語言,是 W3C 的推薦標準,其本身不會做任何事情,是被設(shè)計用來結(jié)構(gòu)化、存儲以及傳輸信息,而且可以根據(jù)需要自行定義標簽和屬性名,所以 XML 文件的結(jié)構(gòu)可以復(fù)雜到任意程度。再加上其特有的 NS 機制及 XML Schema 所支持的多種數(shù)據(jù)類型與校驗機制,使其成為語義網(wǎng)的關(guān)鍵技術(shù)之一。
RDF[7]是一種通用的資源描述框架,本質(zhì)上是一個數(shù)據(jù)模型,即通過“資源-屬性-屬性值”的三元組形式來描述各種資源,是語義網(wǎng)數(shù)據(jù)表示的標準??梢院唵蔚睦斫鉃椤爸鳎^-賓”的形式 (s,p,o),主語可以看成資源,可以是 URI 或空結(jié)點;謂語可以看成屬性,必須是 URI;賓語可以看成屬性值,可以是 URI 或者空結(jié)點或者文字描述,其中賓語為URI 或者空節(jié)點的屬性被稱為 Object 屬性,賓語為文字描述的屬性被稱為 Datatype 屬性; (s,p,o) 被稱為一個陳述或者公理,每一個陳述就可以表示一個關(guān)系。由此可見,該形式可以很容易的被計算機理解,并為數(shù)據(jù)集成、數(shù)據(jù)交換提供了方便。
1.3.1 概念
本體 (Ontology) 本是個哲學(xué)概念,不同的領(lǐng)域紛紛采用該概念來描述客觀世界,指的是對客觀存在的抽象概念及概念間的關(guān)系的描述,是系統(tǒng)的解釋和說明[8]。在計算機領(lǐng)域,本體被定義成“概念化的明確規(guī)范說明”[9],被人們廣泛接受。一個本體描述了一個特定領(lǐng)域的結(jié)構(gòu)化的、易于擴展與共享的模型,并且可以被計算機所理解。
1.3.2 本體描述語言
本體是由本體描述語言進行描述的,有許多種本體描述語言,如:RDF 和 RDFS、OIL、DAML、OWL 等等,其中,OWL 本體描述語言[10]是由 W3C組織定義的國際通用的標準描述語言。與之前基于Web 的本體語言相比,OWL 的突出特點是對本體具有更強的描述和推理能力?,F(xiàn)在在 OWL 的基礎(chǔ)上,已經(jīng)演變到 OWL 的第二個版本 OWL2,OWL2[11]可以被看作是一種針對人類知識某些部分的強大而通用的建模語言,旨在對興趣領(lǐng)域的知識進行明確表達(formulate)、交換和推理,具有極強的擴展、交互能力,是描述本體被廣泛使用的語言。
1.3.3 本體的構(gòu)建
在語義網(wǎng)中,本體是最關(guān)鍵的一個技術(shù),具有非常重要的地位,是解決語義層次上 Web 信息共享和交換的基礎(chǔ),所以構(gòu)建本體就顯得尤為重要。本體一般分為通用本體和領(lǐng)域本體,通用本體如:DBpedia、freebase 等等,領(lǐng)域本體是指針對某一特定領(lǐng)域而言。本文針對的是領(lǐng)域本體,是生物安全監(jiān)測領(lǐng)域。本體構(gòu)建方法可分為兩大類[12]:一類是依靠本體專家參與整個構(gòu)建過程的純手工構(gòu)建方法;另一種是利用機器學(xué)習(xí)、自然語言處理等技術(shù)進行的自動或者半自動的構(gòu)建方法。顯然,手工構(gòu)建本體的方法構(gòu)建成本高、主觀性強、缺乏靈活性,但其準確性應(yīng)該有保證;自動或者半自動構(gòu)建方法基本不需要人工參與,具有更加客觀、更靈活等特點。本研究采用的是手工構(gòu)建的方法進行本體的構(gòu)建。
在構(gòu)建領(lǐng)域本體時,研究人員往往想要一種規(guī)范的、通用的構(gòu)建方法去構(gòu)建領(lǐng)域本體,但是由于領(lǐng)域知識的不同,本體具體實現(xiàn)的目標不同,所以目前對于本體構(gòu)建來說,還沒有一套系統(tǒng)的、完整的、通用的規(guī)范。目前比較成熟的本體構(gòu)建方法[13]有七種,分別為:IDEF5、骨架法、TOVE 法、METHONTOLOGY 法、KACTUS 法、SENSUS 法、七步法。
每個方法都有自己的特點和適用的領(lǐng)域,都有自己的優(yōu)點。除了上述列舉的典型本體構(gòu)建方法外,還有很多研究者在本體實際開發(fā)中摸索出的適應(yīng)所研究特定領(lǐng)域的本體構(gòu)建方法。本文借鑒了已有的本體構(gòu)建方法,考慮了每個方法的特點,結(jié)合特定的生物安全監(jiān)測領(lǐng)域,總結(jié)出了以下的本體構(gòu)建方法,強調(diào)了可視化本體關(guān)聯(lián)關(guān)系的重要性、本體文檔的重要性等。具體流程圖如圖 1 所示。
由圖可知,本體構(gòu)建具體過程如下:
圖1 本體構(gòu)建流程圖Fig.1 Ontology construction fl ow chart
① 首先要明確目標知識庫;
② 和領(lǐng)域?qū)<姨接憽⒎治?,抽象并定義本體元素:類、屬性、及對屬性的限制信息等,該步中秉持的原則是盡量復(fù)用已有的本體,尋找已存在的領(lǐng)域本體,從已有的領(lǐng)域本體中尋找可描述目標陳述的類、屬性等信息并復(fù)用;
③ 利用本體構(gòu)建工具來構(gòu)建本體的類、屬性等信息,包括類之間的關(guān)聯(lián)關(guān)系等,本文采用的是protégé 構(gòu)建工具,在此基礎(chǔ)上,利用本體可視化工具WebVowl 向領(lǐng)域?qū)<艺故径x的本體并探討可行性;
④ 迭代、改進本體:如果本體元素不明確,返回第①步迭代改進本體,同時在其他情況下本體需要迭代、更新均從第①步起。
1.3.4 本體構(gòu)建的工具及可視化
選擇一個合適的工具來構(gòu)建本體會事半功倍。目前比較成熟且影響力較高的本體構(gòu)建工具有 8 種[14]:Ontolingua Server、Ontosaurus、WebOnto、protégé、OntoEdit、WebODE、OILED 和 DUET,徐國虎[15]等人提出一種包括可用性、軟件結(jié)構(gòu)、文件格式、知識表達能力、推理機制 5 個方面、19 個二級指標的綜合評價框架,并運用該評價框架對上述 8 種工具進行比較,全面的總結(jié)出了各個構(gòu)建工具的優(yōu)缺點。本研究采用的是開源的 protégé 構(gòu)建工具。
可視化可以給人更直觀、更形象的感受和理解,可以很清楚地看到關(guān)聯(lián)關(guān)系,給本體的使用和理解提供了極大的方便,同時也便于對該領(lǐng)域不熟悉的專家快速理解。在本體可視化工具中,目前比較優(yōu)秀的是VOWL (Visual Notation for OWL Ontologies) 工具,具有強大的展示能力。目前使用 VOWL 來展示本體的方法有兩種:一種是使用基于 protégé 的 VOWL 插件 protégéVOWL[16]來可視化本體,該方法仍存在一些問題,所以不推薦使用;另一種方法是先用伴隨著WebVOWL 發(fā)布的 OWL2VOWL 工具將本體文件轉(zhuǎn)換成 JSON 文件,然后再用 WebVOWL 工具可視化本體,其特點[17]是:基于 OWL 轉(zhuǎn)換成的 JSON 格式進行展示,使得本體的展示更加獨立;展示的內(nèi)容、形式更加豐富,交互能力強。VOWL 官方推薦使用WebVOWL 來展示。本文采用的是王利鵬[18]等人提出的基于本體可視化的關(guān)聯(lián)數(shù)據(jù)集表達的方法來進行本體的可視化,其是基于 OWL2VOWL 項目實現(xiàn)將關(guān)聯(lián)關(guān)系轉(zhuǎn)化為 WebVOWL 規(guī)定格式的 JSON 元素,并將其結(jié)合 WebVOWL 嵌入到發(fā)布模型中,完成關(guān)聯(lián)數(shù)據(jù)集關(guān)聯(lián)關(guān)系的發(fā)布。
本研究借鑒標準化理論,研究、整理我國現(xiàn)有生物安全監(jiān)測相關(guān)標準,分析、評估其適用性,構(gòu)建覆蓋新發(fā)突發(fā)病原監(jiān)測、入侵生物監(jiān)測、口岸監(jiān)測和動物疫病監(jiān)測等多個領(lǐng)域行業(yè)的生物安全監(jiān)測數(shù)據(jù)標準框架體系,進一步健全和完善我國生物安全監(jiān)測標準。本文對生物安全的監(jiān)測標準,利用語義網(wǎng)技術(shù),構(gòu)建了該領(lǐng)域的標準數(shù)據(jù)統(tǒng)一命名空間。即對該標準進行基于 RDF (資源描述框架) 為元數(shù)據(jù)模型的關(guān)系網(wǎng)絡(luò)的構(gòu)建。最終形成可擴展、易應(yīng)用的適合我國生物安全現(xiàn)狀的統(tǒng)一標準框架,同時也為全面的數(shù)據(jù)集成、共享提供了基礎(chǔ)。
本研究參考了企業(yè)架構(gòu)規(guī)劃 FEA 模型、PHCDM模型,結(jié)合我國的現(xiàn)狀,梳理了各個業(yè)務(wù)流程;合并、整理并提取各業(yè)務(wù)中的實體類;整理實體類屬性并規(guī)范屬性名稱等等,最后總結(jié)出了概念數(shù)據(jù)模型圖。概念模型共分為4大主題域:參與者、位置、材料、活動。每個主題域都有相應(yīng)的子類、子子類,共40個類。具體如下:參與者包括組織、人、非人生命體 (如蚊蟲、病毒) 等;位置包括行政地址、物理坐標;材料包括器具與設(shè)備、宣傳材料、消殺藥劑、標本、疫苗;活動包括疾病發(fā)生、觀察、干預(yù)、報告等,其中觀察包括實驗室相關(guān)記錄、環(huán)境監(jiān)測記錄、媒介監(jiān)測記錄、人群監(jiān)測記錄等,是整個監(jiān)測的核心,具體如圖 2 所示,其余不再贅述。
考慮到在該領(lǐng)域的通用性,結(jié)合相應(yīng)的本體定義基本準則,分析上述概念數(shù)據(jù)模型,和領(lǐng)域?qū)<矣懻摯_認后,本文定義了 34 個基本類和 11 個關(guān)聯(lián)以及若干描述這些類的屬性。
圖2 “觀察”類圖Fig.2 Class diagram of “observation”
本體的設(shè)計思想如下:經(jīng)分析,最核心的關(guān)聯(lián)是病毒作用于載體,載體作用于人。如圖 3 所示。在此基礎(chǔ)上,進行擴展,如人在某個地點,那么人和位置就關(guān)聯(lián)上了;人屬于家庭這個組織等;當(dāng)然病毒和材料也可以關(guān)聯(lián)起來,因為材料類中的子類標本、器具主要是針對病毒來說的,是研究病毒的。這樣,就可以形成一個關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò),即構(gòu)建了本體。
本文采用本體構(gòu)建工具 protégé 來進行本體構(gòu)建的,構(gòu)建了本體元素,如類、屬性、屬性值的數(shù)據(jù)類型等等,如圖 4 所示。
將構(gòu)建的本體可視化后,如圖 5 所示。
上圖中,實體如圖中圓圈所示,每個實體具有其Datatype 屬性,如圖中箭頭上綠色部分所示,圖中黃色部分指數(shù)值屬性的數(shù)據(jù)類型,實體和實體間的關(guān)聯(lián)如圖中箭頭上藍色部分所示,即 Object 屬性
其中,“人”類屬性及其屬性的數(shù)據(jù)類型如圖 6所示,由圖可知,“人”有 pname (名字)、birthdate (出生日期)、career (職業(yè)) 等屬性,其對應(yīng)的數(shù)據(jù)類型分別為 string、int、int 等。“人”和family (家庭)、carrier(載體) 等通過 belong、infect 等關(guān)聯(lián)。其余不再贅述。
圖3 核心關(guān)聯(lián)圖Fig.3 Core association diagram
圖4 本體類元素Fig.4 Ontology element
圖5 關(guān)聯(lián)關(guān)系可視化Fig.5 Association Visualization
圖6 “人”類可視化Fig.6 Human Visualization
由此可見,利用語義網(wǎng)技術(shù)將其轉(zhuǎn)換成一個網(wǎng)狀結(jié)構(gòu),給關(guān)聯(lián)數(shù)據(jù)集的信息查詢帶來極大方便;將原始數(shù)據(jù)按照本體轉(zhuǎn)換成若干三元組形式,使數(shù)據(jù)挖掘變得簡單、同時也實現(xiàn)了數(shù)據(jù)共享,解決了“信息孤島”的問題。
本文首先介紹了語義網(wǎng)的三大關(guān)鍵技術(shù) XML、RDF、Ontology 的相關(guān)知識,然后介紹了本體的構(gòu)建及可視化,接著將其應(yīng)用在生物安全監(jiān)測領(lǐng)域,闡述了本體的構(gòu)建方法,最后形成了統(tǒng)一的命名空間并直觀的展現(xiàn)出來,方便研究人員理解與使用,同時也為以后的數(shù)據(jù)集成、共享以及進一步的數(shù)據(jù)挖掘提供了很大的方便。
在本文研究的基礎(chǔ)上,還有很多方向值得繼續(xù)深入研究,如可以考慮通過機器學(xué)習(xí)的方式實現(xiàn)自動化本體的構(gòu)建、不斷學(xué)習(xí)不斷迭代更新本體、更加豐富本體展示信息等等。還可以做進一步的研究與深化。
致謝
非常感謝中國疾控中心的支持,在本體構(gòu)建過程中不斷和王松旺老師進行探討、迭代改進本體,以確保數(shù)據(jù)標準符合業(yè)務(wù)場景。