胡丹陽(yáng) 高 峰 顧進(jìn)廣
(武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 武漢 430065)
自新冠疫情在全球范圍爆發(fā)以來(lái),世界各國(guó)人民的生活都受到了極大的影響。在全球科學(xué)家的共同努力下,新冠疫情相關(guān)信息逐步積累。同時(shí),隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,信息量出現(xiàn)了極大的增長(zhǎng),有效信息與冗余信息混雜。但是未經(jīng)處理整合的新冠防控信息,難以實(shí)現(xiàn)直觀信息展示,在后續(xù)的深層次應(yīng)用上存在困難。
近年來(lái),由于知識(shí)圖譜在交互的知識(shí)推理與發(fā)現(xiàn)方面的出色表現(xiàn),知識(shí)圖譜方向的研究受到了越來(lái)越廣泛的關(guān)注。通過(guò)對(duì)防控措施相關(guān)信息收集,進(jìn)行分類(lèi)、歸納,取得事件之間的聯(lián)系,可以構(gòu)成一個(gè)豐富的新冠防控知識(shí)圖譜。新冠防控知識(shí)圖譜的構(gòu)建能夠充分挖掘信息價(jià)值,為人們提供直觀的防控措施參考依據(jù)。
本文對(duì)新冠防控知識(shí)圖譜的構(gòu)建方法進(jìn)行了全面的分析整理,并采用力導(dǎo)向布局的節(jié)點(diǎn)連接圖實(shí)現(xiàn)新冠防控知識(shí)圖譜的可視化。對(duì)知識(shí)圖譜應(yīng)用場(chǎng)景進(jìn)行了介紹,提出來(lái)后續(xù)深入研究的方向,以期對(duì)推動(dòng)和完善新冠知識(shí)圖譜的建設(shè)工作和應(yīng)用提供幫助。
知識(shí)圖譜概念誕生已久,Lee在2006年呼吁完善數(shù)據(jù)鏈接相關(guān)技術(shù)標(biāo)準(zhǔn),如統(tǒng)一資源標(biāo)識(shí)符(Uniform Resource Identifier,URI)等[1],隨后引起語(yǔ)義網(wǎng)研究熱潮,知識(shí)圖譜技術(shù)隨之誕生。目前被廣泛認(rèn)同的知識(shí)圖譜是在2012年由谷歌提出,最初目的是提高引擎搜索能力,優(yōu)化用戶(hù)搜索質(zhì)量。知識(shí)圖譜技術(shù)在經(jīng)過(guò)語(yǔ)義網(wǎng)絡(luò)、描述邏輯、本體論階段的發(fā)展后,目前主要的表達(dá)方式為Swick等提出的資源描述框架(resource description framework,RDF)[2]以及由W3C負(fù)責(zé)維護(hù)的網(wǎng)絡(luò)本體語(yǔ)言(Web Ontology Language,OWL)[3]。
目前知名度較高的大規(guī)模開(kāi)放鏈接知識(shí)庫(kù)包括Freebase[4]、Wikidata、DBpedia[5]以及YAGO[6]。經(jīng)過(guò)廣泛的研究和探索,現(xiàn)在知識(shí)圖譜在語(yǔ)義搜索、問(wèn)答[7]與決策支持等方面已成為受到大眾認(rèn)可的基礎(chǔ)技術(shù)之一。
在生命科學(xué)方向上,知識(shí)圖譜應(yīng)用廣泛,Ernst等構(gòu)建了涉及疾病、癥狀、原因等多方面的知識(shí)圖譜,相比之前生命醫(yī)學(xué)本體構(gòu)建主要集中在基因、蛋白質(zhì)等方向,在新方向做出了探索[8],Ali等針對(duì)生物方向?qū)崿F(xiàn)知識(shí)圖譜嵌入的系統(tǒng)有限的情況,開(kāi)發(fā)了BioKEEN,允許用戶(hù)以交互命令的方式使用[9]。Shi L等針對(duì)異構(gòu)醫(yī)學(xué)知識(shí)數(shù)量巨大的現(xiàn)狀,提出一種新穎的模型更好的實(shí)現(xiàn)醫(yī)療知識(shí)的語(yǔ)義集成[10]。目前,關(guān)聯(lián)開(kāi)放數(shù)據(jù)云(The Linked Open Data Cloud)中生命科學(xué)方面的數(shù)據(jù)集數(shù)量最多。
知識(shí)圖譜可視化是指將知識(shí)圖譜中的知識(shí)以圖形化的方法展示出來(lái)。目前主流的知識(shí)圖譜可視化技術(shù)可以分為四類(lèi),即空間填充、節(jié)點(diǎn)鏈接圖、熱圖和鄰接矩陣。節(jié)點(diǎn)鏈接圖是用互聯(lián)的節(jié)點(diǎn)表示本體,最常用的布局為力導(dǎo)向布局,力引導(dǎo)布局最早由Eades在1984年提出。本文選擇使用的是力導(dǎo)向布局的節(jié)點(diǎn)鏈接圖。
此外,Heim等提出了一種展示兩個(gè)節(jié)點(diǎn)之間關(guān)系的圖形化方法[11],Kerdjoudj等提出來(lái)一種可視化RDF知識(shí)圖譜的系統(tǒng)[12]。
自新冠疫情爆發(fā)以來(lái),中文開(kāi)放知識(shí)圖譜OpenKG組織構(gòu)建了一系列新冠相關(guān)知識(shí)圖譜,包括浙江大學(xué)陳卓等構(gòu)建的新冠科研知識(shí)圖譜,小米人工智能實(shí)驗(yàn)室及河海大學(xué)構(gòu)建的新冠事件知識(shí)圖譜,清華大學(xué)許斌等構(gòu)建的新冠健康知識(shí)圖譜,哈爾濱工業(yè)大學(xué)張?jiān)V鄣葮?gòu)建的新冠概念知識(shí)圖譜,IBM中國(guó)研究院李靜等構(gòu)建的新冠流行病知識(shí)圖譜,蔡嘉輝等構(gòu)建的新冠臨床知識(shí)圖譜,王智鳳等構(gòu)建的新冠英雄知識(shí)圖譜,武漢科技大學(xué)劉宇等構(gòu)建的新冠物資知識(shí)圖譜,王昊奮、漆桂林構(gòu)建的新冠百科知識(shí)圖譜。Domingo-Fernández等提出了新冠生理病理學(xué)方向的知識(shí)圖譜[13]。
防控措施是指為消除潛在不合格或其他潛在不期望情況的原因所采取的措施以及根據(jù)評(píng)估結(jié)果以采取用來(lái)保證目標(biāo)得以實(shí)現(xiàn)的措施。針對(duì)新冠疫情的防控措施主要指,通過(guò)某種措施達(dá)到不感染新冠病毒并且對(duì)已發(fā)生的新冠疫情產(chǎn)生有效控制的措施。防控措施是新冠防控知識(shí)圖譜的關(guān)鍵部分,通過(guò)防控措施需要了解到什么人在什么地方采取什么樣的措施和物資能夠防止感染新冠病毒。
新冠防控知識(shí)圖譜的數(shù)據(jù)來(lái)源主要是協(xié)和新型冠狀病毒肺炎防護(hù)手冊(cè)[14](以下稱(chēng)作《手冊(cè)1》),《張文宏教授支招防控新型冠狀病毒》[15](數(shù)字版)(以下稱(chēng)作《手冊(cè)2》),以及中央赴湖北省指導(dǎo)組防控組編制的不同人群、不同場(chǎng)所和不同交通工具健康防護(hù)指導(dǎo)手冊(cè)[16](以下稱(chēng)作《手冊(cè)3》)。需要注意的是,各國(guó)針對(duì)新冠疫情提出的建議防護(hù)措施不盡相同。為避免防控建議與當(dāng)?shù)胤雷o(hù)要求產(chǎn)生沖突,基于以上信息來(lái)源總結(jié)的防控建議適用范圍為中國(guó)。
根據(jù)《手冊(cè)1》,采用“自頂向下”的方法構(gòu)建知識(shí)圖譜。確定出交通工具、場(chǎng)所、人群和措施四個(gè)基本類(lèi),并且對(duì)每一個(gè)類(lèi)進(jìn)行細(xì)分,同時(shí)確定出適用人群、適用場(chǎng)所、適用交通工具等對(duì)象屬性;為使得新冠防控知識(shí)圖譜內(nèi)容更加完整,實(shí)用性更強(qiáng),增加問(wèn)答類(lèi)和疫情類(lèi)。以上信息來(lái)源中對(duì)應(yīng)的不同防護(hù)措施作為實(shí)例(Individual)添加至新冠防控知識(shí)圖譜。
根據(jù)上述定義,在形式上用M表示防控措施,定義一個(gè)六元組M={P,A,E,D,S,T},包含的基本元素分別代表適用人群、適用場(chǎng)所、措施主題、措施描述、防控物資以及交通工具[15]。
P(適用人群):指防控措施針對(duì)的人群,一般為防控措施主語(yǔ),例如“需要陪護(hù)的老人,陪護(hù)人員應(yīng)注意自身健康。陪護(hù)人員要注意減少外出,如果必須外出要做好自身防護(hù)”中的陪護(hù)人員。
A(適用場(chǎng)所):指防控措施適用的動(dòng)作發(fā)生的場(chǎng)所,例如養(yǎng)老院、學(xué)校、工作場(chǎng)所等。為區(qū)別people與place,用A(area)表示適用場(chǎng)所。
E(措施主題):是對(duì)措施的概括性描述,根據(jù)漢語(yǔ)習(xí)慣提取措施描述中的關(guān)鍵詞,保留句子主干,盡量簡(jiǎn)潔的進(jìn)行表述。例如“保持環(huán)境衛(wèi)生”。
D(措施描述):具體描述某種措施,即在措施主題的基礎(chǔ)上進(jìn)行擴(kuò)充,添加定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ),使得措施描述表達(dá)更加清晰準(zhǔn)確。例如“保持環(huán)境整潔衛(wèi)生,每天定時(shí)對(duì)公用設(shè)備或物體表面(如收銀臺(tái)、柜臺(tái)、休息區(qū)等)進(jìn)行擦拭消毒,并做好記錄?!?/p>
S(防護(hù)物資):指的是防護(hù)措施中涉及到的物品,例如在“醫(yī)療機(jī)構(gòu)要重視消毒隔離工作,各部門(mén)要密切協(xié)作,確保消毒隔離和防護(hù)措施落實(shí)到位,定期進(jìn)行消毒效果監(jiān)測(cè)”這個(gè)措施描述中,建議使用的防護(hù)物資為消毒用品。
T(交通工具):即防控措施中涉及到的交通工具,例如在“老人出現(xiàn)發(fā)熱、咳嗽等可疑癥狀時(shí),應(yīng)自我隔離,避免與其他人員近距離接觸。由醫(yī)護(hù)人員對(duì)其健康狀況進(jìn)行評(píng)估,視病情狀況送至醫(yī)療機(jī)構(gòu)就診,送醫(yī)途中應(yīng)佩戴口罩,盡量避免乘坐公共交通工具”中提到的公共交通工具。
如圖1所示,為防控措施六元組例子。
圖1 防控措施六元組例子
防控措施本體定義了防控措施的六類(lèi)實(shí)體:人群、場(chǎng)所、交通工具、常見(jiàn)問(wèn)答、措施、疫情。對(duì)象屬性中定義了適用人群、適用場(chǎng)所等屬性。其中,交通工具和人群被設(shè)為枚舉類(lèi)。通過(guò)設(shè)置屬性的Domains和Ranges將屬性和類(lèi)關(guān)聯(lián)起來(lái)。防控措施本體模型如圖2所示。
圖2 防控措施本體模型
根據(jù)《手冊(cè)1》、《手冊(cè)2》、《手冊(cè)3》中的信息對(duì)每個(gè)類(lèi)中的概念進(jìn)行完善。措施類(lèi)包含新冠防控措施的主要信息,按照個(gè)人、場(chǎng)所、交通工具預(yù)防措施以及心理調(diào)適等方面進(jìn)行描述,其中心理調(diào)適包含子類(lèi)不同心理問(wèn)題調(diào)適以及不同人群的心理調(diào)適。措施類(lèi)結(jié)構(gòu)如圖3所示。
圖3 措施類(lèi)結(jié)構(gòu)
交通工具類(lèi)包含出租汽車(chē)、公共交通汽電車(chē)、私家車(chē)等子類(lèi),通過(guò)對(duì)象屬性使用的交通工具與措施類(lèi)關(guān)聯(lián),交通工具類(lèi)結(jié)構(gòu)如圖4所示。
圖4 交通工具類(lèi)結(jié)構(gòu)
人群類(lèi)包含企業(yè)工人、傷殘人士、兒童等子類(lèi),通過(guò)對(duì)象屬性適用人群與措施類(lèi)關(guān)聯(lián),人群類(lèi)結(jié)構(gòu)如圖5所示。
圖5 人群類(lèi)結(jié)構(gòu)
場(chǎng)所類(lèi)包含公共場(chǎng)所、家庭、特殊場(chǎng)所、社區(qū)四個(gè)子類(lèi),每個(gè)子類(lèi)下又包含對(duì)應(yīng)的概念,通過(guò)對(duì)象屬性適用場(chǎng)所與措施類(lèi)關(guān)聯(lián),場(chǎng)所類(lèi)結(jié)構(gòu)如圖6所示。
圖6 場(chǎng)所類(lèi)結(jié)構(gòu)
根據(jù)《手冊(cè)1》、《手冊(cè)2》、《手冊(cè)3》中的信息,形成相應(yīng)的新冠防控知識(shí)圖譜schema,包含防護(hù)概念的分類(lèi)體系、注意事項(xiàng),相關(guān)避免去的場(chǎng)所、措施適用的人群等屬性和對(duì)于防控新冠病毒的有效措施。其中物資包含口罩、消毒用品等涉及一些特定商品的圖譜。
通過(guò)Protégé添加實(shí)例,以《手冊(cè)3》中企業(yè)工人預(yù)防措施第八條為例,措施的具體描述為“企業(yè)工人應(yīng)加強(qiáng)手衛(wèi)生,可用有效的含醇速干手消毒劑,特殊條件下,也可使用含氯或過(guò)氧化氫消毒劑進(jìn)行消毒”,進(jìn)行分析,其中適用人群為企業(yè)工人,建議使用的防護(hù)物資為含氟消毒液、含酒精消毒液,措施主題為“使用消毒劑加強(qiáng)手衛(wèi)生”。
根據(jù)目前互聯(lián)網(wǎng)公開(kāi)的針對(duì)人員、場(chǎng)所、交通工具的新冠防控指南和手冊(cè)添加相應(yīng)的實(shí)例后的新冠防控知識(shí)圖譜樣例圖如圖7所示。
圖7 新冠防控知識(shí)圖譜樣例圖
經(jīng)過(guò)SPARQL查詢(xún)對(duì)COVID-19防控知識(shí)圖譜進(jìn)行規(guī)模統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表1所示。
表1 COVID-19防控知識(shí)圖譜規(guī)模
可視化是將新冠知識(shí)圖譜中的知識(shí)以圖譜形式進(jìn)行展示。本文實(shí)現(xiàn)新冠防控知識(shí)圖譜可視化主要分為以下幾步進(jìn)行,首先進(jìn)行數(shù)據(jù)預(yù)處理,其次生成可視化頁(yè)面,最后優(yōu)化布局,生成力導(dǎo)向的節(jié)點(diǎn)連接圖。
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),需要將OWL文件按照一定格式處理成為Json文件。在進(jìn)行處理時(shí),每個(gè)節(jié)點(diǎn)賦予唯一id標(biāo)識(shí),除自身信息外,保存其父、子節(jié)點(diǎn)信息,由此標(biāo)記關(guān)系。處理后的Json文件使用D3.js(Data-Driven Documents,數(shù)據(jù)驅(qū)動(dòng)的文件)進(jìn)行展示。
為避免可視化結(jié)果中存在大量交叉線(xiàn),提升圖的美觀度與可閱度,采用力導(dǎo)向布局,硬于更好地展現(xiàn)網(wǎng)絡(luò)的整體結(jié)構(gòu)與自同構(gòu)特征。力導(dǎo)向布局基本思想是把網(wǎng)絡(luò)看成是一個(gè)物理系統(tǒng),在其頂點(diǎn)有一個(gè)鋼環(huán),在其側(cè)面有一個(gè)彈簧。當(dāng)系統(tǒng)得到一個(gè)初始狀態(tài)后,彈簧的作用力(重力和斥力)使鋼圈運(yùn)動(dòng)起來(lái),當(dāng)系統(tǒng)的總能量降低到最小,這種運(yùn)動(dòng)就會(huì)停止。本文采用力導(dǎo)向的節(jié)點(diǎn)連接圖生成新冠防控知識(shí)圖譜的可視化。結(jié)果如圖8所示。
圖8 可視化結(jié)果
利用新冠防控知識(shí)圖譜,可以實(shí)現(xiàn)原文導(dǎo)覽。通過(guò)關(guān)鍵字、詞匹配方式提供人群、場(chǎng)所、物資和對(duì)象等實(shí)體的相關(guān)措施(及子措施)查詢(xún)和展示;或基于自然語(yǔ)言的措施主題查詢(xún)與之相關(guān)的防控措施具體內(nèi)容。復(fù)工企業(yè)、上班工人等用此方式快速定位并閱讀與自己的場(chǎng)所、人群等相關(guān)的防控措施及子措施。
用戶(hù)輸入車(chē),可以查詢(xún)涉及建議使用的交通工具,交通工具名稱(chēng)中包含“車(chē)”的防控措施,例如私家車(chē)乘坐時(shí)需要注意通風(fēng)換氣,公共汽車(chē)在車(chē)輛每次出行載客前應(yīng)對(duì)車(chē)廂進(jìn)行清潔消毒,需要用到的防護(hù)物資為消毒用品。
SPARQL查詢(xún)語(yǔ)句如圖9所示。
圖9 SPARQL查詢(xún)語(yǔ)句
最終獲取的部分信息如表2所示。
表2 部分導(dǎo)覽結(jié)果
新冠防控涉及到的場(chǎng)景多樣,相同場(chǎng)景下針對(duì)不同人群防護(hù)措施也不盡相同,僅根據(jù)現(xiàn)有防護(hù)手冊(cè)中的信息,不可避免地會(huì)出現(xiàn)無(wú)法完全匹配的情況。知識(shí)推理可以根據(jù)現(xiàn)有信息,進(jìn)行綜合分析、決策,歸納出新的事實(shí)。即新冠知識(shí)圖譜可以滿(mǎn)足用戶(hù)對(duì)各種情景下的信息查詢(xún),給出適合的防護(hù)方案。
定義以下規(guī)則:
security_measures(x,true):
-place(p,x)
rdfs:t ype(t,p)
measures(m,t)
security_check(x,m)
x是輸入內(nèi)容,p為x中的地點(diǎn),t為地點(diǎn)類(lèi)型,m是t類(lèi)型地點(diǎn)應(yīng)當(dāng)采取的防控措施,當(dāng)x包含m中每一項(xiàng)措施時(shí),輸出結(jié)果為true。
當(dāng)接收信息為“公交公司已按照客流情況對(duì)XX路公交車(chē)組織合理運(yùn)力,上班工作人員無(wú)發(fā)熱情況,車(chē)輛駕駛過(guò)程中保持少量車(chē)窗為開(kāi)啟狀態(tài),接收所有乘客,在車(chē)輛出發(fā)前和到達(dá)終點(diǎn)站后均進(jìn)行消毒”時(shí)做出推理,XX路公交車(chē)是城市公共汽電車(chē),屬于交通工具,在知識(shí)圖譜中對(duì)應(yīng)查找城市公共汽電車(chē)預(yù)防措施,并做出防護(hù)情況判斷。判斷結(jié)果為未正確防護(hù),存在的防護(hù)錯(cuò)誤點(diǎn)為車(chē)輛駕駛過(guò)程中僅少量車(chē)窗為開(kāi)啟狀態(tài),接收所有乘客。存在的防護(hù)遺漏點(diǎn)為未隨車(chē)配備消毒物品,車(chē)輛未設(shè)置臨時(shí)隔離區(qū)。
通過(guò)對(duì)相關(guān)信息的收集與整理構(gòu)建的新冠防控知識(shí)圖譜在很多場(chǎng)景下都具有實(shí)際應(yīng)用價(jià)值。未經(jīng)整理的信息多而無(wú)序,在經(jīng)過(guò)合理設(shè)計(jì)后構(gòu)建的新冠防控知識(shí)圖譜能夠?qū)π畔⑦M(jìn)行清晰有效的展示,提高用戶(hù)信息獲取效率,如新冠防控知識(shí)圖譜在導(dǎo)覽方向上的應(yīng)用,在沒(méi)有新冠防控知識(shí)圖譜的情況下,用戶(hù)可能需要在網(wǎng)頁(yè)上搜索完整的新冠防控措施文檔,然后再逐條根據(jù)自身情況進(jìn)行匹配。對(duì)于沒(méi)有明確給出防護(hù)措施的場(chǎng)景,知識(shí)圖譜可以根據(jù)規(guī)則進(jìn)行推理,根據(jù)已有信息提供給用戶(hù)明確的適用防護(hù)措施。
新冠防控知識(shí)圖譜的構(gòu)建為后期的應(yīng)用打下了基礎(chǔ),除了可以用于防護(hù)措施導(dǎo)覽、知識(shí)推理,后期還可以拓展提供基于自然語(yǔ)言的搜索,以及通過(guò)圖譜中包含的FAQ和KBQA來(lái)提供問(wèn)答功能。
本文通過(guò)信息收集整合,對(duì)防護(hù)措施進(jìn)行了定義,并據(jù)此提出防控措施六元組概念,即人群、場(chǎng)所、防護(hù)物資、交通工具、措施主題、措施描述,在對(duì)層次結(jié)構(gòu)進(jìn)行梳理優(yōu)化后,構(gòu)建了新冠防控知識(shí)圖譜,具有開(kāi)放性,在設(shè)計(jì)上為后續(xù)的擴(kuò)充與修改留出了空間。對(duì)OWL文件進(jìn)行數(shù)據(jù)處理,按照一定格式生成Json文件,并采用力導(dǎo)向的節(jié)點(diǎn)連接圖,實(shí)現(xiàn)新冠防控圖譜的可視化。對(duì)新冠防控知識(shí)圖譜的應(yīng)用場(chǎng)景做了簡(jiǎn)單介紹。
本文完成了新冠防控方面知識(shí)圖譜的初步探索,知識(shí)圖譜規(guī)模方面,作為未來(lái)的工作,可以在現(xiàn)有基礎(chǔ)上進(jìn)行知識(shí)圖譜擴(kuò)充,例如實(shí)現(xiàn)通過(guò)機(jī)器學(xué)習(xí)進(jìn)行關(guān)系抽取。在可視化方向上,后續(xù)可以在交互性與可視化效果上進(jìn)行完善。在應(yīng)用方面,可以完善規(guī)則,實(shí)現(xiàn)推理等應(yīng)用。