王成文 熊 勵(lì)
(上海大學(xué)管理學(xué)院,上海 200444)
突發(fā)公共衛(wèi)生事件醫(yī)療資源是事件處置中的關(guān)鍵資源,有效的醫(yī)療資源管理對(duì)醫(yī)療決策至關(guān)緊要。以新冠肺炎疫情為例,疫情防控中涉及感染預(yù)防與控制、醫(yī)學(xué)篩查、診療等大量醫(yī)療活動(dòng),這些活動(dòng)需要消耗多種多樣的醫(yī)療資源,統(tǒng)計(jì)協(xié)調(diào)相關(guān)資源數(shù)據(jù),提取有價(jià)值的決策信息存在較多困難。由于不同主體產(chǎn)生和采集的多源數(shù)據(jù)存在數(shù)據(jù)冗余、數(shù)據(jù)缺失和不一致等問題[1],使得數(shù)據(jù)無法滿足決策需求,最終影響醫(yī)療決策效率。此外,針對(duì)突發(fā)事件的應(yīng)急醫(yī)療資源優(yōu)化配置模型專業(yè)性強(qiáng),較難遷移到其他場(chǎng)景,在遇到類似事件時(shí)仍需重復(fù)大量工作,重復(fù)構(gòu)建模型,面向突發(fā)事件醫(yī)療資源有效管理與利用的智能方案仍需拓展。
醫(yī)療健康對(duì)經(jīng)驗(yàn)和知識(shí)依賴性強(qiáng),相關(guān)解決方案需要領(lǐng)域知識(shí)的支撐[2-3]。多源數(shù)據(jù)中存在大量共性知識(shí),基于共性知識(shí)的提取,形成概念框架,一旦遇到類似問題,即可重用框架,及時(shí)實(shí)例化具體對(duì)象,并結(jié)合具體場(chǎng)景優(yōu)化知識(shí)推理規(guī)則,實(shí)現(xiàn)當(dāng)前問題中對(duì)象的管理、潛在關(guān)系的挖掘和決策方案的生成,為突發(fā)事件提供決策支持。同時(shí),在新問題的擴(kuò)充下,領(lǐng)域知識(shí)被持續(xù)豐富和優(yōu)化,進(jìn)而驅(qū)動(dòng)高效決策,促進(jìn)決策系統(tǒng)之間的互操作和知識(shí)共享。以多源數(shù)據(jù)和知識(shí)驅(qū)動(dòng)醫(yī)療服務(wù)管理智能化符合當(dāng)前疫情多點(diǎn)散發(fā)的醫(yī)療決策需求,能夠促進(jìn)快速應(yīng)急響應(yīng),提升決策效率。
在本次新冠肺炎疫情事件中,防疫部門、醫(yī)學(xué)專家和醫(yī)務(wù)工作者通過大量實(shí)踐,在病例篩查、診療等醫(yī)療活動(dòng)中積累了豐富經(jīng)驗(yàn),形成了一系列方案和指南。將相關(guān)經(jīng)驗(yàn)轉(zhuǎn)換為形式化、可共享的醫(yī)療知識(shí)和推理規(guī)則,有助于促進(jìn)醫(yī)療知識(shí)的充分利用,進(jìn)而為醫(yī)療資源的管理與協(xié)調(diào)提供依據(jù)。
對(duì)突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)進(jìn)行有效管理和協(xié)調(diào)是提升整體醫(yī)療救治能力的重要一環(huán)。本文基于多源數(shù)據(jù),以知識(shí)為驅(qū)動(dòng),從服務(wù)管理和資源分配角度探究突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)知識(shí)庫(kù)構(gòu)建策略,為實(shí)現(xiàn)決策系統(tǒng)之間的互操作和知識(shí)共享、促進(jìn)高效醫(yī)療決策提供可借鑒方案。
海量的多源異構(gòu)數(shù)據(jù)增加了突發(fā)公共衛(wèi)生事件醫(yī)療資源管理與協(xié)調(diào)難度[4],如何基于事件形勢(shì)進(jìn)行醫(yī)療資源的統(tǒng)籌管理和有效配置顯得尤為迫切[5]。醫(yī)療健康對(duì)知識(shí)和經(jīng)驗(yàn)依賴性強(qiáng)[2],知識(shí)服務(wù)是提升我國(guó)醫(yī)療資源利用率和醫(yī)療服務(wù)機(jī)構(gòu)管理決策水平的重要手段[3]。基于多源數(shù)據(jù)提煉并整合醫(yī)療服務(wù)知識(shí)對(duì)提升突發(fā)公共衛(wèi)生事件醫(yī)療決策效率具有重要意義。
醫(yī)療信息化的加速推進(jìn)產(chǎn)生了大量醫(yī)療數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含的豐富醫(yī)療知識(shí)為醫(yī)療決策和醫(yī)療信息服務(wù)提供了豐富的知識(shí)元素[6]。在新一代信息技術(shù)驅(qū)動(dòng)診療模式變革的背景下,亟需進(jìn)行多源異構(gòu)醫(yī)療數(shù)據(jù)資源的整合與利用,以推動(dòng)醫(yī)療服務(wù)的智慧化和服務(wù)創(chuàng)新[7],賦能更有效的醫(yī)療決策[8]。本體尤其適用于醫(yī)療數(shù)據(jù)和知識(shí)的集成與利用,驅(qū)動(dòng)智能醫(yī)療服務(wù)方案,促進(jìn)對(duì)醫(yī)療健康服務(wù)的有效管理[9],因此成為醫(yī)療服務(wù)知識(shí)組織的關(guān)鍵方法。相關(guān)研究主要以本體為實(shí)現(xiàn)方法和載體構(gòu)建醫(yī)療知識(shí)模型,對(duì)醫(yī)療服務(wù)進(jìn)行知識(shí)表示,以支持醫(yī)療服務(wù)分析和決策。
醫(yī)療知識(shí)服務(wù)方面,高血壓醫(yī)療知識(shí)服務(wù)模型[10]、面向個(gè)人的中醫(yī)藥健康知識(shí)庫(kù)[11]、面向在線咨詢服務(wù)的醫(yī)生推薦模型[12]、慢病知識(shí)服務(wù)模型[13-15]主要通過本體融合及復(fù)用多源醫(yī)療數(shù)據(jù)和知識(shí),基于醫(yī)療數(shù)據(jù)、信息的知識(shí)化,為用戶提供個(gè)性化的醫(yī)療健康知識(shí)資源,這些研究主要側(cè)重于基于本體實(shí)現(xiàn)醫(yī)療數(shù)據(jù)知識(shí)化,將提供醫(yī)療知識(shí)作為服務(wù)元素。醫(yī)療服務(wù)管理方面,本體為面向臨床路徑的醫(yī)療規(guī)劃[16]、智能醫(yī)療服務(wù)語義描述[17]、健康監(jiān)測(cè)與遠(yuǎn)程醫(yī)療服務(wù)管理[18]提供了關(guān)鍵支撐,這些成果為突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)知識(shí)組織和基于醫(yī)療知識(shí)的服務(wù)管理提供了參考和借鑒。
突發(fā)事件場(chǎng)景下,應(yīng)急醫(yī)療服務(wù)資源管理體現(xiàn)在資源的部署和利用方面,而醫(yī)療服務(wù)的優(yōu)化配置是提高醫(yī)療效率、緩解醫(yī)療資源被擠兌的重要環(huán)節(jié)[19]。曾慶田等運(yùn)用應(yīng)急資源本體匹配突發(fā)事件和應(yīng)急醫(yī)療、救援等資源[20],為應(yīng)急資源高效部署提供了方案參考。醫(yī)療本體知識(shí)推理也被用于救援服務(wù)資源的調(diào)配方案中[21],實(shí)現(xiàn)快速應(yīng)急響應(yīng)。相關(guān)研究主要圍繞醫(yī)療資源構(gòu)建知識(shí)模型,通過推理為應(yīng)急事件匹配醫(yī)療資源。這些研究?jī)H僅圍繞具體事件,沒有考慮為類似事件提供可復(fù)用的服務(wù)知識(shí)架構(gòu),也沒有系統(tǒng)區(qū)分參與醫(yī)療服務(wù)的多元主體,以及從服務(wù)角度區(qū)分多種醫(yī)療資源和資源的供需關(guān)系。
突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)資源管理方面,COVID-19物資知識(shí)圖譜主要面向多種物資的分類和檢索[22],并未從服務(wù)視角研究醫(yī)療資源的管理與決策問題。通過文獻(xiàn)梳理發(fā)現(xiàn),基于多源數(shù)據(jù),以知識(shí)為驅(qū)動(dòng)進(jìn)行突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)管理的研究仍然欠缺。
以新冠肺炎疫情為代表的突發(fā)公共衛(wèi)生事件是一類突然暴發(fā)、傳播速度快、破壞力極強(qiáng)的事件,其防控與醫(yī)療救治難度大,有賴于通過多源醫(yī)療數(shù)據(jù)和信息的集成與共享,促進(jìn)協(xié)同防治和智慧診療,進(jìn)而提升防控能力和醫(yī)療救治效率[23]。但針對(duì)突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)知識(shí)組織與利用的研究較為欠缺,相關(guān)研究主要側(cè)重于突發(fā)公共衛(wèi)生事件知識(shí)組織和常規(guī)醫(yī)療知識(shí)庫(kù)構(gòu)建兩個(gè)方面。
突發(fā)公共衛(wèi)生事件知識(shí)組織方面,徐健等基于現(xiàn)有的應(yīng)急知識(shí)庫(kù),從事件整體角度提出了突發(fā)公共衛(wèi)生事件知識(shí)庫(kù)的5個(gè)模塊[24]?;谝咔闀r(shí)序數(shù)據(jù)、開放知識(shí)圖譜、醫(yī)療機(jī)構(gòu)信息的疫情知識(shí)庫(kù)實(shí)現(xiàn)了多源數(shù)據(jù)的整合和知識(shí)表示[25],但未突出醫(yī)療服務(wù)這一重要模塊。宋培彥等借助語義相似度融合醫(yī)療相關(guān)本體,形成整合的專業(yè)知識(shí)[26],該策略融合了疫苗、癥狀、疾病等知識(shí),但沒有從服務(wù)角度研究各類醫(yī)療資源的管理與決策問題。
常規(guī)醫(yī)療服務(wù)知識(shí)庫(kù)構(gòu)建方面,面向醫(yī)療服務(wù)集成的智能醫(yī)療系統(tǒng)[18]、新冠肺炎檢測(cè)方案知識(shí)庫(kù)[27]、醫(yī)療設(shè)施與生物材料本體[28]等基于本體實(shí)現(xiàn)醫(yī)療服務(wù)資源的知識(shí)表示,提升了醫(yī)療資源描述的一致性,便于實(shí)現(xiàn)醫(yī)療服務(wù)知識(shí)的對(duì)比分析和集成,同時(shí)也為面向服務(wù)的醫(yī)療資源管理提供了參考。
醫(yī)療知識(shí)庫(kù)構(gòu)建策略方面,由于大量醫(yī)療數(shù)據(jù)來源于非結(jié)構(gòu)化的文本,基于文本的醫(yī)療知識(shí)庫(kù)構(gòu)建策略成為研究熱點(diǎn)。相關(guān)研究主要通過整合自然語言處理、文本挖掘、機(jī)器學(xué)習(xí)等方法實(shí)現(xiàn)概念與關(guān)系的提取,然后基于本體實(shí)現(xiàn)領(lǐng)域知識(shí)庫(kù)。具體上,基于TF-IDF的癥狀術(shù)語識(shí)別[29]、基于圖卷積網(wǎng)絡(luò)的實(shí)體對(duì)齊[21]、結(jié)合語義相似度和概念匹配的多本體融合[26]、基于自然語言處理和文本分析的多源數(shù)據(jù)集成[25]主要采用整合的人工智能方法為醫(yī)療知識(shí)庫(kù)構(gòu)建準(zhǔn)備數(shù)據(jù)和知識(shí),其中,詞袋模型、TF-IDF、文本聚類的組合策略常被用于術(shù)語提取、文本主題發(fā)現(xiàn)和術(shù)語分類[30],為基于文本的醫(yī)療本體知識(shí)庫(kù)構(gòu)建提供了方案支撐。在具體的本體知識(shí)庫(kù)實(shí)現(xiàn)方法方面,文獻(xiàn)[25]明確闡述了其結(jié)合本體編輯與檢索工具RDFlib和owlready2的本體自動(dòng)化填充策略,這一策略極大地提高了本體構(gòu)建效率,為大規(guī)模本體構(gòu)建提供了啟示。
綜上所述,相關(guān)研究主要采用本體進(jìn)行醫(yī)療數(shù)據(jù)的知識(shí)表示與知識(shí)融合,形成面向特定醫(yī)療服務(wù)的知識(shí)庫(kù)。在近年來突發(fā)公共衛(wèi)生事件頻發(fā)的背景下,大量醫(yī)療資源的管理與協(xié)調(diào)成為一個(gè)突出問題,但海量的多源異構(gòu)數(shù)據(jù)增加了高效醫(yī)療資源管理與決策的難度,相關(guān)研究較少以多源數(shù)據(jù)和知識(shí)為突破口,探究知識(shí)驅(qū)動(dòng)的突發(fā)公共衛(wèi)生事件醫(yī)療資源管理策略。
在制造服務(wù)資源領(lǐng)域,制造服務(wù)資源管理[31]、基于異構(gòu)信息的資源分配[32]、資源數(shù)據(jù)知識(shí)化與任務(wù)分發(fā)[33]、制造資源響應(yīng)[34]等通過本體知識(shí)庫(kù)驅(qū)動(dòng)靈活的制造任務(wù),提升了制造系統(tǒng)的性能,為醫(yī)療服務(wù)資源的知識(shí)建模提供了大量參考方案。本文借鑒基于本體的制造服務(wù)框架,從服務(wù)視角提取多源數(shù)據(jù)中的共性知識(shí),以知識(shí)驅(qū)動(dòng)突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)管理,進(jìn)而促進(jìn)高效的醫(yī)療服務(wù)決策。文章結(jié)合當(dāng)前疫情防控形勢(shì),采用基于詞向量的聚類和相似度方法,從官方新聞發(fā)布會(huì)、疫情防控指南、風(fēng)險(xiǎn)區(qū)域地理數(shù)據(jù)、在線本體知識(shí)庫(kù)等多源數(shù)據(jù)中提煉醫(yī)療服務(wù)知識(shí)體系,提出突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)架構(gòu),并整合本體自動(dòng)化策略構(gòu)建知識(shí)庫(kù),為類似事件實(shí)現(xiàn)醫(yī)療資源管理和快速分配提供可復(fù)用的知識(shí)框架。
知識(shí)庫(kù)的核心在于概念及概念之間的關(guān)系,即為知識(shí)表示奠定基礎(chǔ)的概念模型。根據(jù)知識(shí)庫(kù)構(gòu)建的基本思路[35],概念模型是從多源數(shù)據(jù)到形式化的知識(shí)體系的重要銜接部分,由概念和關(guān)系組成,是對(duì)現(xiàn)實(shí)世界中事物的抽象?;诋?dāng)前疫情應(yīng)急醫(yī)療服務(wù)情景和產(chǎn)生的大量數(shù)據(jù),本文從多源異構(gòu)數(shù)據(jù)中提取相關(guān)概念,從服務(wù)角度建模醫(yī)療資源,形成知識(shí)庫(kù)的基本概念框架。
圍繞新冠肺炎疫情防控,各地在實(shí)踐中積累了大量經(jīng)驗(yàn),基于這些經(jīng)驗(yàn)和歷史上的類似事件知識(shí),國(guó)家衛(wèi)生健康委員會(huì)和相關(guān)機(jī)構(gòu)出臺(tái)了一系列應(yīng)對(duì)指南和方案等規(guī)范性文件,這些文件涉及突發(fā)公共衛(wèi)生事件醫(yī)療措施的保障與組織形式。以相關(guān)文件為依據(jù),各地的疫情防控工作得以順利推進(jìn)。在疫情防控過程中,各地通過新聞發(fā)布會(huì)通報(bào)其疫情處置措施,說明該地在疫情處置中的醫(yī)療資源管理與利用過程。同時(shí),生物醫(yī)學(xué)領(lǐng)域存在大量醫(yī)療相關(guān)本體知識(shí)庫(kù),一些本體具備完備的知識(shí)體系而被大量研究和應(yīng)用認(rèn)可并借鑒。這些多源數(shù)據(jù)的整合為突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)知識(shí)庫(kù)的構(gòu)建提供了豐富的知識(shí)元素。醫(yī)療服務(wù)建模中的基本概念主要從上述多源數(shù)據(jù)中提取,以保證知識(shí)庫(kù)涉及概念的質(zhì)量和共識(shí)性。
為了從多源數(shù)據(jù)中提取突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)相關(guān)概念及概念間的關(guān)系,完成概念建模,本文采集了自2022年1月以來受新冠肺炎變異毒株奧密克戎影響較大的上海市、吉林省、北京市等地針對(duì)疫情防控工作的130余場(chǎng)新聞發(fā)布會(huì)的文本記錄數(shù)據(jù),如表1所示,將其構(gòu)建為語料庫(kù),采用Word2vec對(duì)語料庫(kù)進(jìn)行詞向量訓(xùn)練,通過余弦相似度提取醫(yī)療相關(guān)詞,并結(jié)合K-means聚類算法獲取各地疫情處置內(nèi)容的主題,為概念分類提供基本依據(jù)。醫(yī)療服務(wù)概念提取策略如圖1所示。
圖1 醫(yī)療服務(wù)概念提取策略
表1 本文采集的2022年疫情新聞發(fā)布會(huì)文本數(shù)據(jù)
表1中,根據(jù)新冠肺炎疫情形勢(shì),2022年以來國(guó)家和地方的衛(wèi)生健康委員會(huì)分別召開了一系列新聞發(fā)布會(huì),本文結(jié)合各地不同時(shí)間段的疫情嚴(yán)重程度,選取與疫情處置相關(guān)的發(fā)布會(huì),提取文本數(shù)據(jù)作為語料庫(kù)。相關(guān)數(shù)據(jù)覆蓋了2022年以來的疫情重災(zāi)區(qū)和對(duì)應(yīng)的時(shí)間區(qū)間,具有較強(qiáng)的代表性。
具體上,醫(yī)療服務(wù)概念體系涉及疫情新聞發(fā)布會(huì)文本數(shù)據(jù)和在線本體知識(shí)庫(kù)兩類異構(gòu)數(shù)據(jù),涉及的3個(gè)環(huán)節(jié)由圖1中3種不同背景樣式區(qū)分,官方指南作為參考。首先,發(fā)布會(huì)文本數(shù)據(jù)被預(yù)處理為語料庫(kù),并經(jīng)Word2vec提取醫(yī)療相關(guān)詞集。K-means算法被用于對(duì)詞向量進(jìn)行聚類,以獲取不同的防疫主題及對(duì)應(yīng)詞匯集。由于聚類中存在大量與醫(yī)療無關(guān)的詞,因此,相關(guān)詞集被用來對(duì)聚類中的無關(guān)詞進(jìn)行過濾,采用的過濾策略為編輯距離相似度,超過相似度閾值的詞被保留。其次,為了準(zhǔn)確確定各聚類詞之間的相互關(guān)系,并實(shí)現(xiàn)對(duì)現(xiàn)有知識(shí)庫(kù)中概念的重用,本文以聚類詞為關(guān)鍵詞,調(diào)用微軟機(jī)器翻譯API實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)翻譯,運(yùn)用本體知識(shí)檢索與編輯工具Owlready2對(duì)相關(guān)本體中的概念進(jìn)行檢索,然后采用標(biāo)簽?zāi):ヅ浍@取相近的概念和概念的層次關(guān)系,由此確定醫(yī)療服務(wù)的概念集。
在突發(fā)公共衛(wèi)生事件領(lǐng)域,存在大量成熟的生物醫(yī)學(xué)本體,這些本體知識(shí)庫(kù)中的大量概念被后續(xù)的研究與應(yīng)用反復(fù)借鑒和重用,同時(shí)也為醫(yī)療服務(wù)概念建模和知識(shí)庫(kù)構(gòu)建提供了大量的知識(shí)元素。
針對(duì)新聞發(fā)布會(huì)的文本數(shù)據(jù),本文首先運(yùn)用自然語言處理工具Jieba進(jìn)行文本分詞和去除停用詞等預(yù)處理,構(gòu)建語料庫(kù),然后運(yùn)用Word2vec訓(xùn)練模型,獲取全部詞語的詞向量,通過計(jì)算詞向量的余弦相似度獲取詞語之間的相似度。以“醫(yī)療”為主題詞,本文提取了與其最相關(guān)的500個(gè)詞語,形成相關(guān)詞集。在此基礎(chǔ)上,K-means聚類算法被用來對(duì)模型訓(xùn)練好的詞向量進(jìn)行聚類,獲取反映不同主題的詞匯集合。在聚類過程中,常用的肘點(diǎn)法和倫敦系數(shù)法被用來確定聚類數(shù)K的最佳值。針對(duì)聚類結(jié)果,編輯距離相似度算法被用來剔除聚類中的無關(guān)詞,以保證聚類的準(zhǔn)確性。肘點(diǎn)法和倫敦系數(shù)法獲得的誤差平方和及倫敦系數(shù)隨K值變化的折線圖如圖2所示。
肘點(diǎn)法和倫敦系數(shù)法確定的聚類數(shù)均為4,說明語料應(yīng)被聚類為4簇。獲取的去除無關(guān)詞后的聚類結(jié)果如圖3所示。
圖3 聚類結(jié)果
在圖3的4個(gè)聚類中,聚類1突出的是對(duì)病例的醫(yī)療救治,基于定點(diǎn)醫(yī)院和方艙醫(yī)院等醫(yī)療組織,在診療方案的指導(dǎo)下,結(jié)合中醫(yī)藥優(yōu)勢(shì)實(shí)施分類治療。聚類2反映的是感染控制,包括對(duì)無癥狀感染者、密切接觸者等群體的隔離,以有效切斷傳播鏈條。聚類3反映的主題是醫(yī)學(xué)篩查,通過核酸檢測(cè)、抗原檢測(cè)等形式加強(qiáng)對(duì)風(fēng)險(xiǎn)區(qū)域的篩查力度,促進(jìn)對(duì)感染者的早發(fā)現(xiàn)、早報(bào)告、早診斷、早隔離、早治療。聚類4的主題是感染預(yù)防,主要采樣疫苗接種實(shí)現(xiàn)重點(diǎn)人群的病毒感染預(yù)防和死亡率的控制。4個(gè)聚類為疫情醫(yī)療服務(wù)概念模型的構(gòu)建提供了關(guān)鍵線索。根據(jù)聚類結(jié)果,能夠作為醫(yī)療服務(wù)概念的相關(guān)詞語如表2所示。
表2 用于概念建模的聚類詞
聚類主題呈現(xiàn)出新冠肺炎傳染病醫(yī)療過程的4個(gè)環(huán)節(jié),與這4個(gè)環(huán)節(jié)相關(guān)聯(lián)的是各種醫(yī)療資源和醫(yī)療服務(wù)提供者、服務(wù)接受者等對(duì)象。這些概念是從大量的新冠疫情突發(fā)公共衛(wèi)生事件處置方案中提取,是具體事件的共性體現(xiàn),能夠作為突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)的概念元素。在被廣泛采用的基本形式本體(Basic Formal Ontology,BFO)知識(shí)框架下[36],具有動(dòng)作和變化狀態(tài)的概念被作為一個(gè)過程(Process)[37],這為醫(yī)療服務(wù)概念建模提供了依據(jù)。
為了獲取相關(guān)概念之間的層次關(guān)系,并實(shí)現(xiàn)概念復(fù)用,本文以外部知識(shí)為參考,通過在線本體資源平臺(tái)Ontobee(https://www.ontobee.org/)確定參考范圍,最終冠狀病毒傳染病本體(Coronavirus Infectious Disease Ontology,CIDO)、通用醫(yī)學(xué)本體(Ontology for General Medical Science,OGMS)和語義科學(xué)集成本體(Semanticscience Integrated Ontology,SIO)被作為源本體,以支持概念關(guān)系的提取。3種本體知識(shí)庫(kù)的基本信息如表3所示。
表3 本文3種源本體的基本信息
表3展示的3種源本體中,CIDO覆蓋了各種冠狀病毒傳染病病因、傳播、診斷、治療等基本概念。OGMS包含從疾病與診療相關(guān)文獻(xiàn)中提取的常規(guī)疾病概念和疾病相關(guān)的過程性概念,規(guī)模較小。SIO為物理、過程和信息實(shí)體的一致知識(shí)表示提供了一個(gè)簡(jiǎn)單、集成的上層知識(shí)體系,其包含的詞匯表通用性較強(qiáng)。這3種本體知識(shí)庫(kù)都從過程(Process)角度定義了醫(yī)療活動(dòng)的部分概念,且均能通過Owlready2被在線檢索。
基于Owlready2的概念匹配通過在線本體檢索實(shí)現(xiàn)本體概念標(biāo)簽的模糊匹配,共獲取30個(gè)相關(guān)概念。在標(biāo)簽匹配過程中,基于Owlready2的模糊匹配策略實(shí)現(xiàn)過程見算法1。
算法1:基于Owlready2的概念匹配Input: ontologyIRI,keywordOutput:concepts1: concepts=[]2: onto=get_ontology(ontologyIRI).load()3: T=onto.search(label=“?”+keyword+“?”)4: if T!=[]then5: concept=[]6: for object in T do7: term=object.label.first()8: superclass=object.is_a.first()9: father=superclass.label.first()10: concept=[object,term,father]11: concepts.append(concept)12: endfor13: endif14: return concepts
結(jié)合本文醫(yī)療服務(wù)主題的需要,概念被進(jìn)一步篩選,最終表4中的概念被重用于本文的知識(shí)庫(kù)中,形成相對(duì)完善的知識(shí)體系。算法1不僅提取了相關(guān)概念,也獲取了其層級(jí)關(guān)系,部分概念的層次關(guān)系被直接復(fù)用(如medical intervention和medical procedure),不能直接復(fù)用的通過人工檢索其更上一層概念,找到多個(gè)概念的公共父類,然后將這幾個(gè)概念作為同一層次的概念,如(assay、treatment和vaccination)。本文主要選取用于描述醫(yī)療過程的概念來界定突發(fā)公共衛(wèi)生事件中的醫(yī)療過程和醫(yī)療服務(wù),剩下描述醫(yī)療報(bào)告、病史等名詞性概念會(huì)應(yīng)用到后續(xù)針對(duì)個(gè)案病例的研究中。
表4 復(fù)用于突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)概念模型的概念
在表4確定的概念及其層次關(guān)系的基礎(chǔ)上,本文參考新冠肺炎診療方案、疫情防控方案和核酸檢測(cè)實(shí)施指南等官方文件,根據(jù)“疫情處置(服務(wù)需求)——醫(yī)療活動(dòng)(醫(yī)療過程)——具體措施(醫(yī)療服務(wù)提供)”的邏輯關(guān)系,設(shè)計(jì)基本的概念橫向關(guān)系,融合被復(fù)用的本體概念和聚類詞集,最終形成的突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)基本概念模型如圖4所示。通過最終對(duì)比,概念模型主要復(fù)用了源本體SIO、CIDO的部分概念,同時(shí),從疫苗本體(Vaccine Ontology,VO)和microRNA Target本體(Ontology for MIRNA Target,OMIT)復(fù)用了“感染預(yù)防”“感染控制”兩個(gè)概念。
概念模型為突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)涉及的服務(wù)項(xiàng)目、醫(yī)療活動(dòng)(服務(wù)用途)、需求方和供應(yīng)方的分類與基本關(guān)系構(gòu)建提供了依據(jù)。圖4中,被復(fù)用的概念的來源被標(biāo)識(shí),沒有來源標(biāo)識(shí)的概念來源于聚類詞集和官方方案與指南。基于概念模型,結(jié)合具體的醫(yī)療服務(wù)類型和需求特征,本文對(duì)相關(guān)概念及其屬性進(jìn)行了擴(kuò)展,以便于知識(shí)的擴(kuò)充、共享和推理。
圖4 突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)概念模型
知識(shí)庫(kù)構(gòu)建是基于概念模型進(jìn)行知識(shí)組織和表示的過程,是數(shù)據(jù)和信息的知識(shí)化環(huán)節(jié)。本文參考服務(wù)資源相關(guān)文獻(xiàn),結(jié)合突發(fā)公共衛(wèi)生事件醫(yī)療活動(dòng)特征,提出突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)架構(gòu)。根據(jù)知識(shí)庫(kù)架構(gòu)的分層實(shí)現(xiàn)方案和功能目標(biāo),醫(yī)療服務(wù)相關(guān)概念、規(guī)則、實(shí)例得以有序語義化,同時(shí),也為類似突發(fā)事件醫(yī)療決策提供知識(shí)驅(qū)動(dòng)的可復(fù)用方案。
在醫(yī)療服務(wù)概念模型的基礎(chǔ)上,本文參考智能制造服務(wù)資源框架[34],基于多源數(shù)據(jù),以本體為實(shí)現(xiàn)方法,提出知識(shí)驅(qū)動(dòng)的突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)資源架構(gòu),如圖5所示。醫(yī)療服務(wù)資源架構(gòu)將醫(yī)療服務(wù)知識(shí)庫(kù)的構(gòu)建劃分為5個(gè)層次,明確了數(shù)據(jù)整合、概念提取、知識(shí)表示與規(guī)則設(shè)計(jì)、服務(wù)資源實(shí)例填充的實(shí)現(xiàn)路徑。
圖5中,數(shù)據(jù)層主要功能是采集各地官方疫情新聞發(fā)布會(huì)數(shù)據(jù),借助自然語言處理完成數(shù)據(jù)預(yù)處理,構(gòu)建語料庫(kù)。同時(shí)借助Owlready2檢索在線本體,確定復(fù)用的本體范圍,采集并整理疫情統(tǒng)計(jì)數(shù)據(jù),為本體實(shí)例化做準(zhǔn)備。
圖5 基于本體的突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)架構(gòu)
概念層的功能主要是采用文本分析方法提取語料庫(kù)、官方方案和指南、本體知識(shí)庫(kù)等多源數(shù)據(jù)中的概念和關(guān)系,實(shí)現(xiàn)數(shù)據(jù)融合和概念化?;跀?shù)據(jù)層提取的醫(yī)療服務(wù)概念模型為知識(shí)表示和推理提供依據(jù),充當(dāng)數(shù)據(jù)與服務(wù)實(shí)現(xiàn)的橋梁。
知識(shí)層是通過基于OWL(Web Ontology Language)的本體對(duì)醫(yī)療服務(wù)資源相關(guān)模塊信息的語義化描述,形成醫(yī)療服務(wù)知識(shí)庫(kù)。知識(shí)庫(kù)構(gòu)建的依據(jù)是概念模型中的概念分類和概念之間關(guān)系。
規(guī)則層的功能是根據(jù)病例檢測(cè)或診療方案、醫(yī)療服務(wù)供需端共性條件等設(shè)計(jì)推理規(guī)則,如為保障核酸采樣效率和質(zhì)量,核酸檢測(cè)組織實(shí)施指南中提出的考慮人口、距離、檢測(cè)機(jī)構(gòu)分布的相關(guān)規(guī)定[38]。知識(shí)推理規(guī)則采用SWRL(Semantic Web Rule Language)設(shè)計(jì)實(shí)現(xiàn)。
資源層旨在實(shí)例化醫(yī)療過程涉及的醫(yī)療資源,面向醫(yī)療篩查、感染預(yù)防與控制、診療等醫(yī)療活動(dòng),構(gòu)建采樣檢測(cè)、醫(yī)學(xué)隔離、疫苗接種、病例治療等醫(yī)療服務(wù)的實(shí)例。醫(yī)療服務(wù)資源數(shù)據(jù)和信息經(jīng)過本體的明確、形式化描述,實(shí)現(xiàn)知識(shí)模型與應(yīng)用的分離,有利于知識(shí)的有效利用和共享。
由于核酸檢測(cè)仍是病例篩查最可靠的手段,在近期的疫情防控中,核酸檢測(cè)耗費(fèi)了大量的人力物力。根據(jù)多輪疫情實(shí)際情況,疫情嚴(yán)重時(shí)期的核酸檢測(cè)能力經(jīng)常不足,無論是鄭州市、長(zhǎng)春市還是近期的上海市,在新冠肺炎變異毒株奧密克戎的沖擊下,各地投入了大量的核酸采樣與檢測(cè)力量,甚至都難以及時(shí)完成病例篩查,而不得不尋求外部支援。因此,本文在醫(yī)療服務(wù)實(shí)例化與知識(shí)推理方面?zhèn)戎赜诤怂釞z測(cè)服務(wù)的知識(shí)表示和分配。
基于概念模型和多源數(shù)據(jù),本文采用Owlready2和RDFlib本體自動(dòng)化策略,以三元組形式完成醫(yī)療服務(wù)本體的自動(dòng)構(gòu)建。其中,為了便于后續(xù)的推理和類似醫(yī)療服務(wù)的擴(kuò)展,提升知識(shí)庫(kù)的泛化能力,促進(jìn)知識(shí)重用,本文以本體實(shí)例表示突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)具體項(xiàng)目,涉及的主要對(duì)象如表5所示。
表5 醫(yī)療服務(wù)涉及的主要實(shí)例
以突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)架構(gòu)為指引,RDFlib本體自動(dòng)化策略被用于數(shù)據(jù)層提取的概念和實(shí)例的構(gòu)建,相關(guān)數(shù)據(jù)被批量填充到醫(yī)療服務(wù)本體中。自動(dòng)構(gòu)建的醫(yī)療服務(wù)本體如圖6所示。
圖6 突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)本體
本體實(shí)現(xiàn)了醫(yī)療服務(wù)的知識(shí)組織,為服務(wù)的有效管理奠定了基礎(chǔ),此外,本體知識(shí)的互操作性和易于共享的特質(zhì)也使得所構(gòu)建的醫(yī)療服務(wù)知識(shí)庫(kù)能夠被應(yīng)用于同類事件中。
醫(yī)療服務(wù)本體知識(shí)庫(kù)實(shí)現(xiàn)了知識(shí)驅(qū)動(dòng)的醫(yī)療服務(wù)管理,通過推理規(guī)則對(duì)醫(yī)療知識(shí)進(jìn)行推理計(jì)算,能夠促進(jìn)醫(yī)療服務(wù)知識(shí)的充分利用,并為醫(yī)療服務(wù)的有效協(xié)調(diào)提供決策支持。本文基于國(guó)家衛(wèi)生健康委最新發(fā)布的《區(qū)域新型冠狀病毒核酸檢測(cè)組織實(shí)施指南(第三版)》(簡(jiǎn)稱《指南》)[38],圍繞封控區(qū)病例篩查需求和核酸檢測(cè)的布局指南,設(shè)計(jì)從核酸檢測(cè)機(jī)構(gòu)到封控區(qū)的檢測(cè)服務(wù)分配規(guī)則?!吨改稀诽岢觯瑧?yīng)綜合考慮人口數(shù)量、地理交通、檢測(cè)機(jī)構(gòu)分布等條件,合理規(guī)劃采樣點(diǎn)。首先,根據(jù)地點(diǎn)的人口數(shù)計(jì)算采樣人員的需求量。然后,根據(jù)醫(yī)療檢測(cè)機(jī)構(gòu)的分布,曼哈頓距離被用于地點(diǎn)到醫(yī)療檢測(cè)機(jī)構(gòu)的距離推算。最后,考慮人口數(shù)量、地點(diǎn)與檢測(cè)機(jī)構(gòu)距離的推理規(guī)則被用于實(shí)現(xiàn)核酸采樣服務(wù)的分配。
在《指南》中,區(qū)域內(nèi)全部核酸采樣任務(wù)原則上應(yīng)在6小時(shí)內(nèi)完成,并根據(jù)人口數(shù)測(cè)算和安排采樣檢測(cè)能力?!吨改稀诽岢龅牟蓸尤藛T需求量測(cè)算方式被表示如下:
(1)
根據(jù)《指南》,按照封控區(qū)被確定初期單人單管的采樣方式,通過人口數(shù)量即可計(jì)算當(dāng)天該地點(diǎn)的采樣人員需求數(shù)量rs。式(1)中,snum為封控區(qū)s的人口數(shù)量,由于難以獲取某地點(diǎn)準(zhǔn)確的人口數(shù)量,根據(jù)數(shù)據(jù)的可獲得性,本文通過該地點(diǎn)的戶均人口數(shù)和戶數(shù)的乘積得到該地點(diǎn)的人口數(shù)。如果掌握了各地點(diǎn)準(zhǔn)確人口數(shù)量,可以直接采用人口數(shù)量計(jì)算。根據(jù)地點(diǎn)狀態(tài),測(cè)算方案可以靈活調(diào)整。在此基礎(chǔ)上,本文設(shè)計(jì)了針對(duì)封控區(qū)核酸采樣所需人員的推理規(guī)則,如表6所示。
表6 基于人口數(shù)量的封控區(qū)采樣人數(shù)需求計(jì)算規(guī)則
表6中,人口閾值thd對(duì)應(yīng)于式(1)的720,戶均人數(shù)來自地點(diǎn)所屬區(qū)域第七次人口普查報(bào)告。為了滿足城市區(qū)域內(nèi)部醫(yī)療服務(wù)調(diào)配的實(shí)際情況,本文采用曼哈頓距離計(jì)算各個(gè)地點(diǎn)與醫(yī)療檢測(cè)機(jī)構(gòu)之間的距離,這樣同時(shí)考慮了機(jī)構(gòu)的分布和交通,計(jì)算方式見式(2)。
dij=(|lati-latj|+|lngi-lngj|)×r
(2)
曼哈頓距離采用地點(diǎn)和醫(yī)療檢測(cè)機(jī)構(gòu)的經(jīng)緯度的差值絕對(duì)值之和乘以1度的距離(即r=111km)計(jì)算得到,適合于城市內(nèi)部小范圍交通距離的計(jì)算。當(dāng)范圍擴(kuò)大時(shí),可以調(diào)整為兩點(diǎn)的直線地理距離?;谑?2),地點(diǎn)到檢測(cè)機(jī)構(gòu)的距離計(jì)算規(guī)則集如表7所示。規(guī)則集D_SO1中,A代表多個(gè)醫(yī)療機(jī)構(gòu)的集合。
表7 地點(diǎn)到醫(yī)療檢測(cè)機(jī)構(gòu)的距離計(jì)算規(guī)則
基于病例篩查需求和距離規(guī)則,本文通過SWRL設(shè)計(jì)了醫(yī)療服務(wù)用途、醫(yī)療服務(wù)供應(yīng)、基于服務(wù)用途和距離的服務(wù)分配規(guī)則,規(guī)則如表8所示。
表8 面向封控區(qū)醫(yī)療檢測(cè)服務(wù)的SWRL規(guī)則
基于以上15條SWRL規(guī)則(集),用于醫(yī)療服務(wù)分配決策的知識(shí)資源和決策信息能夠被自動(dòng)計(jì)算和提取,實(shí)現(xiàn)醫(yī)療資源分配。后續(xù)的研究中,可以繼續(xù)擴(kuò)充醫(yī)療服務(wù)機(jī)構(gòu)的服務(wù)能力、機(jī)構(gòu)資質(zhì)等信息,并針對(duì)多種醫(yī)療服務(wù)設(shè)計(jì)推理規(guī)則,實(shí)現(xiàn)知識(shí)庫(kù)功能的強(qiáng)化和實(shí)用性的提升。此外,將知識(shí)庫(kù)推理產(chǎn)生的動(dòng)態(tài)數(shù)據(jù)提供給適用性較強(qiáng)的優(yōu)化模型,實(shí)現(xiàn)推理和優(yōu)化模型的結(jié)合,將會(huì)實(shí)現(xiàn)更有效的資源分配。如式(3)~(6)所示,通過知識(shí)推理獲取不斷變化的地點(diǎn)與服務(wù)機(jī)構(gòu)的距離,為服務(wù)機(jī)構(gòu)均等分配任務(wù),能夠?qū)崿F(xiàn)任務(wù)分配的公平性,同時(shí)保證總距離最小化。
(3)
(4)
(5)
xij∈{0,1}
(6)
式(3)~(6)中,i為第i個(gè)醫(yī)療機(jī)構(gòu),j為第j個(gè)地點(diǎn)(如封控區(qū)),m是醫(yī)療檢測(cè)機(jī)構(gòu)總數(shù),n是地點(diǎn)的總數(shù),dij為醫(yī)療檢測(cè)機(jī)構(gòu)i與封控區(qū)j的距離。
本文以2022年4月20日上海市某區(qū)的疫情數(shù)據(jù)為例,采集劃定的封控區(qū)數(shù)據(jù),通過高德地圖API提取各個(gè)地點(diǎn)的經(jīng)緯度坐標(biāo),并結(jié)合各個(gè)地點(diǎn)所處行政區(qū)域獲取統(tǒng)計(jì)學(xué)人口數(shù)據(jù),最終獲取325個(gè)封控區(qū)地點(diǎn)的實(shí)例數(shù)據(jù)。通過RDFlib,325個(gè)實(shí)例被自動(dòng)填充到本體知識(shí)庫(kù)。SWRL的推理結(jié)果示例如圖7和圖8所示。
由圖7的推理結(jié)果可知,基于推理規(guī)則集N,推理確定了封控區(qū)site299急需進(jìn)行病例篩查,推理機(jī)根據(jù)該地點(diǎn)所處縣區(qū)的戶均人口數(shù)和戶數(shù)推理,計(jì)算得到該地點(diǎn)的人口數(shù)量,然后根據(jù)式(1)推理確定需要的采樣人數(shù)。最后,推理機(jī)根據(jù)SA1.A規(guī)則集,確定與site299最近的醫(yī)療機(jī)構(gòu),結(jié)合醫(yī)療機(jī)構(gòu)提供的服務(wù)及服務(wù)的用途,通過距離和功能進(jìn)行匹配推理,分配核酸檢測(cè)機(jī)構(gòu),使site299獲取對(duì)應(yīng)的醫(yī)療服務(wù)。圖中的藍(lán)色框?yàn)橥评斫Y(jié)果,通過知識(shí)推理,確定了site299與8個(gè)醫(yī)療檢測(cè)機(jī)構(gòu)的距離、人口數(shù)和所需核酸采樣人數(shù),最終為其分配了核酸采樣的服務(wù)方。
圖7 管控區(qū)推理結(jié)果示例
圖8是基于規(guī)則集SO和SA1.A的推理產(chǎn)生的結(jié)果。相關(guān)規(guī)則根據(jù)機(jī)構(gòu)org6的類型確定其能夠提供的服務(wù)種類,然后根據(jù)其服務(wù)用途、封控區(qū)的距離和需求實(shí)現(xiàn)服務(wù)匹配。圖8的藍(lán)色框中為通過推理為機(jī)構(gòu)org6匹配的服務(wù)對(duì)象及org6能夠提供的兩種服務(wù)。通過推理產(chǎn)生的實(shí)體對(duì)象之間的關(guān)系網(wǎng)絡(luò)示例如圖9所示。
圖8 醫(yī)療檢測(cè)機(jī)構(gòu)推理結(jié)果示例
規(guī)則推理將滿足約定條件的實(shí)體關(guān)聯(lián)起來,將服務(wù)知識(shí)中隱含的關(guān)系顯性化,進(jìn)而為醫(yī)療服務(wù)分配決策提供依據(jù)。圖9中,圍繞封控區(qū)site289,通過推理為其匹配到封控區(qū)急需的醫(yī)療處置措施,并基于相關(guān)服務(wù)的用途、醫(yī)療機(jī)構(gòu)的服務(wù)供應(yīng)和其與醫(yī)療機(jī)構(gòu)的距離,按照《指南》分配相應(yīng)的服務(wù)機(jī)構(gòu)和服務(wù)項(xiàng)目。圖9中帶星號(hào)的實(shí)例關(guān)系為推理產(chǎn)生。
圖9 基于SWRL推理產(chǎn)生的實(shí)體關(guān)系網(wǎng)絡(luò)
通過實(shí)際疫情數(shù)據(jù),本文構(gòu)建了突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)知識(shí)庫(kù),實(shí)現(xiàn)了基于多源數(shù)據(jù)的醫(yī)療服務(wù)知識(shí)表示,為應(yīng)急情景下的醫(yī)療服務(wù)管理提供了知識(shí)模型,并以核酸檢測(cè)服務(wù)為例,以《指南》為基本依據(jù),設(shè)計(jì)了15條SWRL推理規(guī)則和規(guī)則集,實(shí)現(xiàn)了針對(duì)病例篩查的核酸采樣服務(wù)分配。
突發(fā)公共衛(wèi)生事件防控與醫(yī)療救治中需要管理和協(xié)調(diào)大量醫(yī)療資源,對(duì)這些醫(yī)療資源的有效管理和分配對(duì)實(shí)現(xiàn)高效決策、提升事件處置能力意義重大。但海量的多源異構(gòu)數(shù)據(jù)增加了醫(yī)療資源管理和決策的難度。本文基于多源數(shù)據(jù),采用詞向量聚類、在線本體概念匹配等智能手段,從服務(wù)視角提取突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)共性知識(shí),參考制造服務(wù)架構(gòu),提出面向突發(fā)公共衛(wèi)生事件的醫(yī)療服務(wù)架構(gòu),為同類事件中的醫(yī)療資源管理和資源快速分配提供可復(fù)用的知識(shí)框架?;卺t(yī)療服務(wù)架構(gòu),本文構(gòu)建了突發(fā)公共衛(wèi)生事件醫(yī)療服務(wù)知識(shí)庫(kù),結(jié)合基于官方指南的SWRL知識(shí)推理規(guī)則,從服務(wù)供需角度實(shí)現(xiàn)了醫(yī)療資源的管理和分配。本文的策略為突發(fā)公共衛(wèi)生事件醫(yī)療資源管理提供了方案參考,同時(shí)也能為快速醫(yī)療服務(wù)響應(yīng)提供決策支持。
后續(xù)的研究將拓展醫(yī)療服務(wù)模型,使知識(shí)庫(kù)能夠適應(yīng)多種場(chǎng)景,為不同決策者提供醫(yī)療服務(wù)決策支持,同時(shí)復(fù)用醫(yī)療相關(guān)知識(shí)庫(kù),進(jìn)一步提升知識(shí)庫(kù)的互操作性,促進(jìn)醫(yī)療資源相關(guān)知識(shí)的共享。