◇仰恩大學(xué)工程技術(shù)學(xué)院 黃紫成
突發(fā)公共衛(wèi)生事件對(duì)人民群眾生命健康造成重大威脅,科學(xué)的應(yīng)急決策能最大程度降低其帶來的損失。通過計(jì)算傳染病的相似程度、構(gòu)建基于C4.5決策樹模型的方法,力圖為分析疫情爆發(fā)風(fēng)險(xiǎn)等級(jí)提供參照。突發(fā)公共衛(wèi)生事件決策模型根據(jù)一個(gè)地區(qū)的經(jīng)濟(jì)、醫(yī)療水平及氣候環(huán)境等因素判斷事件風(fēng)險(xiǎn)等級(jí),為防控疫情提供技術(shù)支持。
突發(fā)公共衛(wèi)生事件的風(fēng)險(xiǎn)評(píng)估,傳染病疫情的監(jiān)測(cè)預(yù)警,一直是專家學(xué)者的研究熱點(diǎn)。大數(shù)據(jù)、人工智能、云計(jì)算等數(shù)字技術(shù)在疫情檢測(cè)分析與防控發(fā)揮著重要的支撐作用[1-2]。本文探討在爆發(fā)公共傳染病疫情時(shí),與現(xiàn)有法定傳染病進(jìn)行相似性計(jì)算,并依據(jù)結(jié)果,選取相似度最高傳染病構(gòu)建基于C4.5決策樹模型,推測(cè)疫情爆發(fā)風(fēng)險(xiǎn)等級(jí),為防控疫情提供輔助決策。
截至2020年2月4日,國(guó)家法定傳染病共40種,其中甲類傳染病2種,乙類傳染病27種,丙類傳染病11種。通過收集這40種法定傳染病的基本信息,提取典型的特征屬性見表1。
表1 法定傳染病典型特征屬性
如甲類2種傳染?。菏笠?,癥狀:“發(fā)熱毒血癥癥狀淋巴結(jié)腫大肺炎出血”,病因:“鼠疫桿菌”,傳播途徑:“鼠蚤叮咬飛沫 皮膚傷口 消化道感染”,多發(fā)群體:“全員”,平均潛伏期:3天,2015-2019年平均發(fā)病率:0.00012/10萬,2015-2019年平均死亡率:0.00004/10萬;霍亂,癥狀:“突然腹瀉 繼而嘔吐血壓下降 脈搏微弱”,病因:“霍亂弧菌”,傳播途徑:“直接接觸間接接觸”,多發(fā)群體:“全員”,平均潛伏期:“2”,2015-2019年平均發(fā)病率:“0.00142/10萬”,2015~2019年平均死亡率:“0”。
在匹配目標(biāo)傳染病案例與歷史案例時(shí),需進(jìn)行屬性間的相似性的計(jì)算,本文采用如下幾個(gè)函數(shù)進(jìn)行計(jì)算[3-4]:
(1)相等函數(shù)。比較兩個(gè)屬性值是否相同,若相同,相似性計(jì)算為1,反之為0。
(2)間隔函數(shù)。定義標(biāo)準(zhǔn)間隔距離,計(jì)算兩個(gè)屬性值的距離絕對(duì)值,利用如下公式計(jì)算:
(3)余弦向量相似度。計(jì)算兩個(gè)屬性之間的夾角余弦來度量它們之間的相似性,公式如下:
本文在癥狀、病因、傳播途徑、多發(fā)群體四個(gè)屬性特征,采用余弦向量進(jìn)行相似度計(jì)算,平均潛伏期采用相等函數(shù)計(jì)算,平均發(fā)病率、平均死亡率采用間隔函數(shù)計(jì)算,間隔設(shè)定要大于兩個(gè)屬性距離之差的絕對(duì)值。
現(xiàn)假設(shè)泉州某個(gè)地區(qū)突發(fā)公共衛(wèi)生事件且傳染病為一種新型的病毒,患者主要癥狀有發(fā)熱、咳嗽、全身肌肉酸痛、乏力;傳播途徑主要通過飛沫、直接接觸和污染物品接觸傳播,全員皆可被傳染,平均潛伏期4天,通過統(tǒng)計(jì)該區(qū)當(dāng)前患者數(shù)據(jù),發(fā)病率為55.65572/10萬,死亡率0.007/10萬。為了不給群眾造成過度恐慌或者由于對(duì)該病毒認(rèn)知的偏少而貽誤最佳的隔離時(shí)機(jī)。首先通過計(jì)算與當(dāng)前法定傳染病相似性,計(jì)算結(jié)果顯示該類傳染病與底下三種法定傳染病最接近,相似度如表2所示。
表2 三種相似度最高的法定傳染病
從表2可以得到,流行性感冒與該種傳染病的相似度最高,而該種新型傳染病是否為大規(guī)模爆發(fā)由于缺乏有效數(shù)據(jù)還無法評(píng)定,借鑒該地區(qū)最相似的法定傳染病數(shù)據(jù),推測(cè)爆發(fā)的風(fēng)險(xiǎn)等級(jí)具有一定的借鑒意義。
由于傳染病疫情傳播風(fēng)險(xiǎn)等級(jí)通常和一個(gè)地區(qū)經(jīng)濟(jì)水平、醫(yī)療水平及氣候環(huán)境有很大的關(guān)系[5-6]。通過收集該種相似性最高的傳染病歷次觀測(cè)數(shù)據(jù),預(yù)測(cè)分析是否爆發(fā)大規(guī)模傳染的可能性。收集的數(shù)據(jù)由七部分特征組成為:疫情地區(qū)范圍、人口密集程度、GDP(元/人)、人均醫(yī)院床位、PM2.5、平均晝夜溫差、平均相對(duì)濕度。對(duì)收集的數(shù)據(jù)進(jìn)行等區(qū)間離散化處理,部分?jǐn)?shù)據(jù)如下所示。
表3 該區(qū)流行性感冒歷次監(jiān)測(cè)數(shù)據(jù)
C4.5算法采用信息增益率來構(gòu)建各個(gè)結(jié)點(diǎn),定義如下:
通過計(jì)算得到首次信息增益率見表4。
表4 各節(jié)點(diǎn)的信息增益率
通過選取最大信息增益率構(gòu)建根節(jié)點(diǎn)如圖1所示。
圖1 根結(jié)點(diǎn)決策圖
重復(fù)計(jì)算剩余節(jié)點(diǎn)的信息增益率構(gòu)建決策樹,最終得到如圖2所示的完整決策模型。
圖2 基于C4.5決策樹模型圖
通過圖2得到的決策樹模型,結(jié)合現(xiàn)有的人口聚集程度、疫情覆蓋范圍及經(jīng)濟(jì)環(huán)境因素便可以分析出當(dāng)前的新型傳染病疫情爆發(fā)風(fēng)險(xiǎn)等級(jí)。如:該地區(qū)現(xiàn)有人口密度大,恰逢秋冬交替,晝夜溫差大,并且整個(gè)地區(qū)已有較大覆蓋范圍,就可以推測(cè)出爆發(fā)大規(guī)模傳染病的疫情等級(jí)高,政府決策部門應(yīng)采取緊急聯(lián)動(dòng)措施應(yīng)對(duì)該公共衛(wèi)生事件[8-9]。
“依靠科學(xué)、專業(yè)處置”是《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》的六大原則之一,科學(xué)的決策可以有效降低突發(fā)公共衛(wèi)生事件帶來各種損失。新型傳染病具有眾多的未知性和不確定性,大數(shù)據(jù)、人工智能、云計(jì)算等數(shù)字技術(shù)為疫情檢防控提供了眾多的思路。本文利用傳染病的相似性計(jì)算,結(jié)合人口密度、經(jīng)濟(jì)環(huán)境因素構(gòu)建C4.5傳染病決策樹模型,該模型為分析疫情爆發(fā)風(fēng)險(xiǎn)等級(jí)提供一定的依據(jù)。