張 勉
上海市閔行中學(xué) 上海200240
1.1 研究背景及意義 目前,世界城鎮(zhèn)化率正在不斷提高。我國大約有一半人口聚集在城市中[1],而相同因素下,流行病在城市內(nèi)的傳播有著更高的效率,例如14世紀(jì)席卷歐洲的黑死病最先于佛羅倫薩爆發(fā)[2],并迅速蔓延,造成嚴(yán)重后果。2020年1月份以來,大范圍疫情正在席卷全球,在世界范圍內(nèi)加速擴(kuò)散,世界公民健康深受影響,全球經(jīng)濟(jì)也因此遭受負(fù)面沖擊。
高度的人口流動性,發(fā)達(dá)的交通又給流行病的遠(yuǎn)距離傳播提供了途徑,很容易發(fā)生流行病大規(guī)模傳播的情況,大規(guī)模疫情的蔓延正為此提供有力的事實(shí)依據(jù)??紤]到目前信息技術(shù)和機(jī)器學(xué)習(xí)已經(jīng)日漸成熟,智能技術(shù)在各領(lǐng)域正在被高效而廣泛地應(yīng)用,為人類提供可靠的解決方案。因此,機(jī)器學(xué)習(xí)也可以引入到流行病的防控和評估中,通過其科學(xué)的工作模式和分析手段,加強(qiáng)疫情防控的專業(yè)性,有效地提高公共衛(wèi)生服務(wù)質(zhì)量,從而減少疾病為人類帶來的各方面損失。
1.2 機(jī)器學(xué)習(xí)的發(fā)展及現(xiàn)狀 隨著人工智能產(chǎn)業(yè)的飛速發(fā)展,機(jī)器學(xué)習(xí)作為其核心部分,承載的作用也在與日俱增。機(jī)器學(xué)習(xí)提供的精準(zhǔn)數(shù)據(jù)分析在省時省力的同時,賦能智能化的處理與創(chuàng)新。本文將從機(jī)器學(xué)習(xí)的大前提出發(fā),通過具體的模型與算法間的相互結(jié)合與作用,分析疫情的風(fēng)險評估與預(yù)測。
2.1 支持向量機(jī) 機(jī)器學(xué)習(xí)經(jīng)過了數(shù)十年的發(fā)展,其結(jié)果已經(jīng)應(yīng)用于各種場景,但對于不同的方面,不同的算法有其不同的優(yōu)勢,其中,支持向量機(jī)已經(jīng)在人臉識別,圖像處理等方面廣泛應(yīng)用。支持向量機(jī)(SVM)是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,提出于1995年,是一種二分類模型,可以通過訓(xùn)練求解特征空間上兩類樣本之間間隔最大的超平面,支持向量就是距離這個超平面最近的點(diǎn)。
得到的分割面應(yīng)該具有以下兩點(diǎn)性質(zhì):
(1)兩類樣本應(yīng)該被分在決策面的兩側(cè)。
(2)兩側(cè)距離決策面最近的樣本到其距離最大,即魯棒性。
最基本的SVM 分類模型:
2.3 莫蘭指數(shù)(Moran’s Index)莫蘭指數(shù)是澳大利亞統(tǒng)計學(xué)家帕特里克·阿爾弗雷德·皮爾斯·莫蘭(Patrick Alfred Pierce Moran)在1950年提出的空間統(tǒng)計學(xué)中的概念,是用來衡量空間相關(guān)性的重要指標(biāo)。莫蘭指數(shù)(I∈[-1,1])當(dāng)I∈(0,1)時,空間內(nèi)某要素與空間信息呈正相關(guān)I∈(-1,0)時,空間內(nèi)某要素與空間信息呈負(fù)相關(guān)。I=0時則要素與空間無關(guān)系。
圖1 SIER示意圖
wij為地理單元相互之間鄰接關(guān)系的權(quán)重矩陣??臻g權(quán)重矩陣可以根據(jù)鄰接標(biāo)準(zhǔn)或距離標(biāo)準(zhǔn)來度量,鄰接標(biāo)準(zhǔn)將空間單元的1,把不連接的定義為0。距離標(biāo)準(zhǔn)是根據(jù)一定范圍內(nèi)的定義為1,把距離之外的定義為0[2]。
在大部分情況下流行病與空間傳播相關(guān)。目前已經(jīng)有利用核密度和全局莫蘭指數(shù)分析疫情的空間流行分布特征的例子[4]。
莫蘭指數(shù)在地理空間上的優(yōu)勢,可以用來評估不同地區(qū)之間傳染病傳染的速度。
現(xiàn)有的經(jīng)典的模型的預(yù)測結(jié)果大多是以數(shù)字的形式呈現(xiàn),無法精確到地區(qū)的增長。在大范圍如國家層面上,若對所有地區(qū)統(tǒng)計就難以考慮臨近地區(qū)的互相影響,因?yàn)樵撃P偷那疤峋褪窃摰貐^(qū)為封閉的。宏觀層面的結(jié)果展示無法準(zhǔn)確預(yù)測實(shí)際情況,現(xiàn)實(shí)情況往往復(fù)雜得多。不同地區(qū)的患者和健康人群比例不同,導(dǎo)致每日接觸和傳染的數(shù)量不同,現(xiàn)實(shí)情況中也不會有放任流行病傳播的情況出現(xiàn),政府的介入,群眾集體或自發(fā)的行為或者更極端的行為難以預(yù)測。經(jīng)典的預(yù)測模型已經(jīng)無法準(zhǔn)確高效地展示當(dāng)今日益復(fù)雜的流行病形勢,也日漸暴露出其局限性。機(jī)器學(xué)習(xí)的出現(xiàn)能夠在一定層面上解決這個問題。
3.1 評估 對于這套系統(tǒng)的建立,可以按照應(yīng)用的不同的尺度分為兩種不同方法。
對于應(yīng)用于城市層面上的系統(tǒng),考慮到城市內(nèi)基礎(chǔ)信息建設(shè)較為發(fā)達(dá),已經(jīng)具有較為成熟的數(shù)據(jù)平臺,況且由于其規(guī)模較小,更容易受到擾動,不適合使用SEIR模型??梢岳弥С窒蛄繖C(jī)的性質(zhì),以個體或者家庭,社區(qū)等小單位或者其它居住位置相近且具有相似行為習(xí)慣的群體的作為樣本,這些樣本的信息包括地理位置,病例數(shù)與全體人數(shù)之比,年齡,基礎(chǔ)衛(wèi)生建設(shè)等,先將這些數(shù)據(jù)上傳至平臺。經(jīng)過訓(xùn)練后的支持向量機(jī)可以對個體或群體進(jìn)行二分類,以達(dá)到高效率,同步地得到對于相對高風(fēng)險和低風(fēng)險地區(qū)的分割和更準(zhǔn)確地預(yù)測。
若是應(yīng)用到更大層面上的系統(tǒng),如果依然對每個個體或小單位進(jìn)行一一分析,海量的數(shù)據(jù)一定會超過系統(tǒng)的承受能力。所以本文認(rèn)為應(yīng)該在更加宏觀的層面上建立模型,比如國家層面上,可以在更小的單位上,例如縣級層面上應(yīng)用SEIR 模型。但由于各種不同地區(qū)的SEIR 模型可能感染者數(shù)量和感染者和其它人群比例類似,但最后卻因?yàn)槠渌匀辉驅(qū)е乱咔榘l(fā)展大相徑庭,所以不能僅僅將SEIR的模型數(shù)據(jù)作為樣本。同樣以預(yù)計的風(fēng)險分?jǐn)?shù)作為決策的標(biāo)準(zhǔn),這個參數(shù)與大量的不同因素有關(guān)聯(lián)性,例如樣本處在的環(huán)境和基礎(chǔ)醫(yī)療程度和控制力度有關(guān)。最后再利用支持向量機(jī)進(jìn)行二分類,能夠得到關(guān)于傳染病高低風(fēng)險分割。
在小層面上利用SEIR模型,然后利用支持向量機(jī)算法將每個地區(qū)之間進(jìn)行聯(lián)系,可以更加準(zhǔn)確地模擬出再傳染病開始爆發(fā)時的情況。這樣也可以減少大量的計算的同時保證準(zhǔn)確度,能夠做到同步更新數(shù)據(jù)得到最新結(jié)果。
3.2 預(yù)測 對于預(yù)測傳染,還需要引入另外一個傳染病學(xué)上的另外一個參數(shù)即基本傳染數(shù)R0(Basic Reproduction Nu mber),指人類對此種傳染病沒有免疫能力,一個人平均傳感給別人的數(shù)量,假設(shè)R0<1則該傳染病會自然消失,若其大于1,則需要政府醫(yī)院的介入才能消失。有效傳染數(shù)Rt(effective reproduction nu mber)則是在基本傳染數(shù)上加上了人為的介入,例如隔離等,可以科學(xué)家或者其它機(jī)構(gòu)會先計算出R0,而這個模型會根據(jù)這個值改變不同數(shù)量的已經(jīng)感染者周圍樣本的標(biāo)簽。并重復(fù)計算。具體步驟為應(yīng)用于大范圍
在大范圍上對不同地區(qū)進(jìn)行預(yù)測,其樣本在二維平面上的投影依然是它的地理位置,但是其第三個值則更加復(fù)雜,SVM 的訓(xùn)練樣本為此縣和周邊縣的近期的SEIR 模型和其病例上升曲線。當(dāng)交通,隔離情況不同時,外縣的風(fēng)險程度在計算中所占的比重也會有所不同。
在每個樣本內(nèi)部則進(jìn)行這樣的運(yùn)算:
(1)根據(jù)實(shí)際情況,例如隔離或人群進(jìn)行不同程度的防護(hù)措施對Rt的影響,調(diào)整SEIR模型的參數(shù)。
(2)統(tǒng)計不同時間內(nèi)病例的增長速度,通過比較得到情況是否在惡化或衰減。
(3)綜合兩個結(jié)果,得到描述此地的參數(shù)。
得到樣本后:
(1)統(tǒng)計各個樣本所在區(qū)域的病例數(shù),得到此樣本附近的莫蘭指數(shù)。
(2)根據(jù)隔離力度和莫蘭指數(shù),將其它臨近樣本按照不同比例計算。
(3)將得到的數(shù)據(jù)分成測試集和訓(xùn)練集,進(jìn)行訓(xùn)練。
(4)訓(xùn)練好的支持向量機(jī)對不同的樣本進(jìn)行預(yù)測。
3.3 監(jiān)控 大部分情況下很少會有大規(guī)模流行性疾病的傳播,而例如季節(jié)性流行病像呼吸道感染,艾滋病毒等是防控的重點(diǎn)。莫蘭指數(shù)在小范圍的疫情傳播中也有巨大的作用,可以利用莫蘭指數(shù)得到流行病傳播的空間分布規(guī)律特征,與支持向量機(jī)算法結(jié)合可以預(yù)測疫情的嚴(yán)重情況和重點(diǎn)區(qū)域未來的傳播結(jié)果,如果有新的大規(guī)模傳染病,很有可能會再剛被發(fā)現(xiàn)時認(rèn)為是已有的疾病,依靠著基于支持向量機(jī)的疾病防控系統(tǒng)可以提前地引起戒備。
3.4 隔離 隔離是防治傳染的一種有效方法,但是完全隔離需要大量的人力和物理對停轉(zhuǎn)的城市以及數(shù)千萬人口提供支持。傳統(tǒng)的統(tǒng)計方法只能對已有的數(shù)據(jù)被動地進(jìn)行防治。而引入了該模型之后可以通過支持向量機(jī)的模型將更多的資源集中在病情最容易發(fā)展的部分,以達(dá)到防患于未然的效果,可以減少大量的病例數(shù)量,以達(dá)到在保證完全隔離的效果的同時減少隔離帶來的損失。
4.1 核函數(shù) 支持向量機(jī)的基本模型為一種線性分割器,實(shí)際上,大部分樣本是無法線性分開的,對于這些數(shù)據(jù),可以通過將樣本向更高的維度映射的方法,所以引入了核函數(shù)。常見的核函數(shù)包括線性核,多項(xiàng)式核,高斯核等等,選擇多項(xiàng)式核函數(shù),通過將這些數(shù)據(jù)映射到高維空間中,解決原來空間中線性不可分的問題。其另外一個優(yōu)點(diǎn)在于可以主觀地設(shè)置維數(shù)達(dá)到不同的預(yù)期,但是維數(shù)越高計算量就越大。
對于第一個應(yīng)用于城市級別的評估系統(tǒng),其二維平面上每一個樣本都是樣本坐標(biāo)軸上的位置,坐標(biāo)系上的第三個值為U,若以人為樣本,則已感染為1,未感染為0;若以小群體為樣本,則該值和該群體近期的感染者增長率和該病毒有效傳染數(shù)值Rt有關(guān)。將U映射到更高維上,最后再利用支持向量機(jī)對不同的增長率進(jìn)行劃分,得到地區(qū)整體的風(fēng)險程度。對于應(yīng)用于更高層面上的評估系統(tǒng),其二維平面為其地理位置的投影,樣本以SEIR模型的模擬得到的傳染最高峰時的感染者與總?cè)藬?shù)之比和到達(dá)高峰的時間映射到更高維的空間。
4.2 軟間隔 然而在現(xiàn)實(shí)的數(shù)據(jù)中,情況將會更加地復(fù)雜,噪聲是不可避免的。而在流行病學(xué)中的情況則是:
(1)個別病例但對整體沒有明顯的效果。
(2)數(shù)量接近的低U值樣本和高U值樣本密集且復(fù)雜地聚集在一起。
而這時候,傳統(tǒng)的支持向量機(jī)就會發(fā)生過擬合,導(dǎo)致得到的結(jié)果雖然正確,但是卻沒有明顯的意義而且浪費(fèi)了大量的計算力。既然不能求得完全正確的決策,只能退而求其次,計算錯誤最少的情況。這就需要算法具有一定的容忍性。
軟間隔支持向量機(jī)需要引入松弛變量ζi(ζi>0),類似于給決策時留下一定的緩沖,所以滿足決策的條件從:
在放松了限制條件之后,為了得到更精確結(jié)果,還需要對噪聲或離群點(diǎn)進(jìn)行處罰,減小其對目標(biāo)的影響。
普通的軟間隔支持向量機(jī)依然是在線性分割的基礎(chǔ)上的優(yōu)化。也可以在核函數(shù)支持向量機(jī)中引入軟間隔,或者在硬間隔支持向量機(jī)引入pocket算法,此算法本質(zhì)是在搜索時不斷記錄結(jié)果同時并保存最好的準(zhǔn)確率。支持向量機(jī)可以和此算法結(jié)合,并能夠?qū)τ趶?fù)雜的數(shù)據(jù)進(jìn)行處理。在面對實(shí)際問題的時候這些方法都有自己不同的優(yōu)劣,需要結(jié)合實(shí)際情況考慮。
傳染病從過去都一直對人類的生存產(chǎn)生威脅,人類也一直致力于對對抗病毒的方法進(jìn)行改進(jìn)和創(chuàng)新。將機(jī)器學(xué)習(xí)和傳染病動力學(xué)結(jié)合起來的方式能夠?qū)δ壳皞魅静〉难芯?與防控提供一些新的思路,在以后的流行病發(fā)展進(jìn)程中,支持向量機(jī)的優(yōu)點(diǎn)在于能夠和其他的算法很好地結(jié)合在一起,有很大進(jìn)步的空間,也對有效防控流行病的傳播產(chǎn)生積極意義。相信在不久的將來,傳染病的防控不再是困擾人類社會的難題。