朱紅 徐州醫(yī)學(xué)院醫(yī)學(xué)信息學(xué)院,江蘇徐州 221000
時(shí)空預(yù)測(cè)在流行病預(yù)警中的應(yīng)用研究
朱紅 徐州醫(yī)學(xué)院醫(yī)學(xué)信息學(xué)院,江蘇徐州 221000
流行病的流行規(guī)律有明顯的隨時(shí)間和空間變化的特性,論文討論了當(dāng)前流行病預(yù)警中常用的時(shí)間預(yù)測(cè)模型、空間預(yù)測(cè)模型以及時(shí)空集成預(yù)測(cè)模型,對(duì)流行病預(yù)測(cè)的發(fā)展趨勢(shì)做了展望。
流行??;時(shí)空預(yù)測(cè)
流行病指可以感染眾多人口的傳染病,如流行性感冒、腦膜炎、霍亂等。它可以只是在某地區(qū)發(fā)生,亦可以是全球性的大流行,其特點(diǎn)是在適宜的環(huán)境下能在較短的時(shí)間內(nèi)廣泛蔓延,與其他傳染病相比,時(shí)空特性更為明顯。流行性疾病影響面廣,危害大,損失嚴(yán)重,和人民群眾的身體健康和生命安全密切相關(guān)。因此對(duì)流行病發(fā)病率、流行趨勢(shì)、危害程度等方面進(jìn)行預(yù)測(cè),了解流行病的時(shí)空傳播與流行規(guī)律,作出準(zhǔn)確預(yù)警,有著非常重要的意義[1]。
流行病預(yù)測(cè)就是根據(jù)流行病的發(fā)生、發(fā)展規(guī)律及有關(guān)因素,用分析判斷和數(shù)學(xué)模型等方法對(duì)可能發(fā)生的流行病的發(fā)生、發(fā)展和流行趨勢(shì)作出的預(yù)測(cè),是制定預(yù)防和控制傳染病的長(zhǎng)遠(yuǎn)或近期應(yīng)對(duì)策略的前提。自預(yù)測(cè)技術(shù)引入到醫(yī)學(xué)領(lǐng)域后,流行病預(yù)測(cè)便成了研究熱點(diǎn),并在流行病預(yù)警中起到重要作用。流行病的流行規(guī)律有明顯的隨時(shí)間和空間變化的特性,在預(yù)測(cè)方面有時(shí)間預(yù)測(cè)模型和空間預(yù)測(cè)模型以及時(shí)空集成預(yù)測(cè)模型。
時(shí)間預(yù)測(cè)模型假設(shè)預(yù)測(cè)對(duì)象的變化僅與時(shí)間有關(guān),根據(jù)它的變化特征,以慣性原理推測(cè)其未來(lái)狀態(tài)。時(shí)間預(yù)測(cè)模型主要包括回歸分析模型、B-J模型、馬爾科夫鏈模型、灰色動(dòng)態(tài)模型、基于控制圖的預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)等。此類統(tǒng)計(jì)模型的特點(diǎn)在于,根據(jù)過(guò)去一段時(shí)間監(jiān)測(cè)變量值的大小,利用上述統(tǒng)計(jì)模型預(yù)測(cè)未來(lái)該變量值的大小,按時(shí)間資料的分布特點(diǎn)確定備選預(yù)警閾值,并結(jié)合實(shí)際情況,調(diào)整預(yù)警閾值的大小。當(dāng)實(shí)際水平超過(guò)閾值,則發(fā)出警訊。
1.1 回歸分析模型[2]
回歸分析是定量研究應(yīng)變量對(duì)自變量的依賴程度、分析變量之間的關(guān)聯(lián)性并進(jìn)行預(yù)測(cè)、預(yù)報(bào)的基本方法,分為一元線性回歸方法和多元回歸方法。一元線性回歸是應(yīng)變量與自變量之間存在線性關(guān)系;多元回歸是應(yīng)變量與兩個(gè)或兩個(gè)以上自變量之間存在線性關(guān)系。也可以進(jìn)一步采用量化相關(guān)誤差項(xiàng)的線性回歸模型,用于長(zhǎng)時(shí)間收集的數(shù)據(jù)分析上。
1.2 Box - Jenkins 模型
Box- Jenkins 模型簡(jiǎn)稱B-J模型,是經(jīng)典的時(shí)間序列預(yù)測(cè)模型,也是精確度較高的短期預(yù)測(cè)模型之一[3]。其中自回歸滑動(dòng)平均混合模型ARIMA 是最重要的時(shí)間序列分析預(yù)測(cè)模型,它將預(yù)測(cè)對(duì)象隨時(shí)間變化形成的序列,看作是一個(gè)隨機(jī)序列,并呈現(xiàn)一定的規(guī)律性,可以用數(shù)學(xué)模型近似描述。此統(tǒng)計(jì)模型最大的特點(diǎn)在于模式僅以過(guò)去觀測(cè)值進(jìn)行分析與預(yù)測(cè),不需考慮其他外部數(shù)據(jù),以時(shí)間t綜合替代各種影響因素。但計(jì)算較為復(fù)雜,對(duì)數(shù)據(jù)的要求較高。但是正是由于未考慮影響被預(yù)測(cè)變量的相關(guān)因素,因此時(shí)間序列分析只適合于受被預(yù)測(cè)變量的相關(guān)因素影響較小的試點(diǎn)[4]。
1.3 馬爾科夫鏈預(yù)測(cè)模型
隨機(jī)過(guò)程是隨機(jī)現(xiàn)象變化的過(guò)程。當(dāng)參數(shù)集合為非整數(shù)集時(shí),隨機(jī)過(guò)程又稱隨機(jī)序列。馬爾可夫鏈就是一類特殊的隨機(jī)序列。馬爾可夫鏈的特點(diǎn)是系統(tǒng)未來(lái)時(shí)刻的情況只與現(xiàn)在有關(guān),而與過(guò)去的歷史無(wú)直接關(guān)系。馬爾可夫鏈模型預(yù)測(cè)方法必須建立在準(zhǔn)確完整的疫情報(bào)告的基礎(chǔ)上,該模型近期預(yù)測(cè)結(jié)果較好。此外,方法在疾病的流行環(huán)節(jié)和預(yù)防控制措施沒(méi)有發(fā)生根本變化的前提下是行之有效的。
1.4 灰色動(dòng)態(tài)模型
灰色動(dòng)態(tài)模型是我國(guó)學(xué)者鄧聚龍教授于1982年創(chuàng)立的,是一種微分方程的時(shí)間連續(xù)模型,它只需一個(gè)數(shù)列即可建模,以顏色的深淺代表系統(tǒng)信息的完備程度,我國(guó)的疾病監(jiān)測(cè)工作者也在嘗試將灰色系統(tǒng)理論引入到傳染病的預(yù)測(cè)中,灰色動(dòng)態(tài)模型對(duì)樣本容量和概率分布沒(méi)有嚴(yán)格要求,模型簡(jiǎn)單,預(yù)測(cè)效果好適合于對(duì)流行因素較穩(wěn)定的疾病進(jìn)行短期預(yù)測(cè)。
1.5 基于控制圖的預(yù)警模型
控制圖是一種將顯著性統(tǒng)計(jì)原理應(yīng)用于控制生產(chǎn)過(guò)程的圖形方法,由休哈特博士于1 9 2 4年首先提出,最早用于質(zhì)量控制。目前應(yīng)用較為普遍的控制圖法有移動(dòng)平均法、指數(shù)權(quán)重移動(dòng)平均法和累計(jì)和控制圖。
1.6 神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)具有獨(dú)特的信息存儲(chǔ)方式、良好的容錯(cuò)性、大規(guī)模的非線性并行處理方式以及強(qiáng)大的自學(xué)習(xí)和自適應(yīng)能力,從神經(jīng)網(wǎng)絡(luò)擬合模型的擬合值與實(shí)際值比較圖來(lái)看,擬合程度比較高,而且神經(jīng)網(wǎng)絡(luò)的確能以任意精度逼近任意函數(shù);再者其具有綜合能力強(qiáng)、對(duì)數(shù)據(jù)要求不高等優(yōu)點(diǎn)。
空間預(yù)警模型利用病例的空間地理信息,如行政區(qū)域名稱、家庭住址、工作單位等發(fā)現(xiàn)病例的地理聚集程度,及早識(shí)別傳染病的異常情況。目前廣泛使用的一種空間預(yù)警模型有廣義線性混合模型、小區(qū)域回歸分析檢驗(yàn)法空間掃描統(tǒng)計(jì)等模型。
2.1 廣義線性混合模型
廣義線性混合模型由Kleinman等人提出,該模型是一種基于Logistic回歸估算各區(qū)域內(nèi)監(jiān)測(cè)對(duì)象的日發(fā)病率的統(tǒng)計(jì)方法。由于各區(qū)域觀察人數(shù)不斷變化,簡(jiǎn)單Logistic回歸模型引入了收縮估計(jì)來(lái)計(jì)算各區(qū)域的人群密度。該模型可以用來(lái)量化同一對(duì)象在不同空間點(diǎn)上觀察值之間的相關(guān)性。
2.2 小區(qū)域回歸分析檢驗(yàn)法
小區(qū)域回歸分析檢驗(yàn)法是基于廣義線性混合模型的改良模型??紤]了季節(jié)效應(yīng)、周末效應(yīng)、社會(huì)趨勢(shì)、以及假期等因素。此模型中,廣義線性模型用于計(jì)算各郵政區(qū)域內(nèi)的日期望發(fā)病數(shù)。病例數(shù)的分布根據(jù)多重檢驗(yàn)的郵政編碼重新定義。一項(xiàng)研究表明SMART的統(tǒng)計(jì)效能略次于空間掃描統(tǒng)計(jì)。
2.3 空間掃描及其相關(guān)的統(tǒng)計(jì)方法
空間掃描統(tǒng)計(jì)由Kulldorff于1997年提出, 其主要原理是將一個(gè)地區(qū)劃分為一些較小的子區(qū)域,也即掃描窗口,不斷調(diào)整窗口的大小和位置,通過(guò)似然比檢驗(yàn)判別疾病病例的聚集程度,以此來(lái)判別該病發(fā)病數(shù)是否存在異常情況。此方法優(yōu)點(diǎn)在于其事先對(duì)聚集性的規(guī)模和位置沒(méi)有規(guī)定,能有效避免選擇偏倚,且易于根據(jù)人口密度或年齡等協(xié)變量進(jìn)行調(diào)整,消除因構(gòu)成不一致而引起的偏差。
時(shí)空預(yù)測(cè)技術(shù)從單獨(dú)的空間預(yù)測(cè)或時(shí)間預(yù)測(cè)發(fā)展而來(lái),由于它在處理既要考慮空間特征又要考慮時(shí)間特征的復(fù)雜數(shù)據(jù)時(shí)的良好性能,而在許多領(lǐng)域起到越來(lái)越重要的作用。時(shí)空預(yù)測(cè)研究大多是基于時(shí)間序列分析、空間統(tǒng)計(jì)分析等成熟的分析工具,然后將這些成熟工具分別擴(kuò)展到空間方面或時(shí)間方面。
時(shí)空集成預(yù)警模型通過(guò)綜合利用病例的發(fā)病時(shí)間、持續(xù)時(shí)間長(zhǎng)短以及發(fā)病的地理信息等因素對(duì)流行病進(jìn)行預(yù)測(cè)。目前使用較為普遍的有:WSARE、PANDA、時(shí)空掃描統(tǒng)計(jì)、基于遙感與地理信息系統(tǒng)的時(shí)空預(yù)測(cè)模型等。
3.1 WSARE
WSARE 采用貝葉斯網(wǎng)絡(luò)推導(dǎo)出基線數(shù)據(jù)的分布情況,分析數(shù)據(jù)的時(shí)間趨勢(shì)。WSARE的變量為多維,包括病例的時(shí)間、空間、地理等信息。采用基于關(guān)聯(lián)規(guī)則的技術(shù),將近期的病例數(shù)與基線數(shù)據(jù)進(jìn)行比較,通過(guò)檢驗(yàn),從近期數(shù)據(jù)中識(shí)別出有顯著性差異的亞組。一旦“異?!庇嵦?hào)發(fā)生時(shí)便會(huì)通過(guò)警示系統(tǒng),自動(dòng)通知公共衛(wèi)生與醫(yī)療相關(guān)人員。
3.2 時(shí)空掃描統(tǒng)計(jì)
時(shí)空掃描統(tǒng)計(jì)是空間掃描統(tǒng)計(jì)的擴(kuò)展。其基本思想同空間掃描統(tǒng)計(jì),考慮了時(shí)間和空間兩個(gè)因素,其掃描窗口相應(yīng)地變?yōu)閳A柱形,圓柱形的底對(duì)應(yīng)一定地理區(qū)域,而高對(duì)應(yīng)一定的時(shí)間長(zhǎng)度。圓柱形掃描窗口的大小和位置也是不斷變化的,因此時(shí)空掃描能夠?qū)膊“l(fā)病的時(shí)間、地點(diǎn)及其規(guī)模進(jìn)行深入的分析,有利于早期識(shí)別暴發(fā)。時(shí)空掃描統(tǒng)計(jì)可以利用歷史數(shù)據(jù)進(jìn)行回顧性分析,也可以每天、每周或每月重復(fù)進(jìn)行時(shí)間周期的前瞻性研究。時(shí)空掃描統(tǒng)計(jì)比單純時(shí)間或空間掃描統(tǒng)計(jì)的優(yōu)勢(shì)在于其不依賴人口數(shù)據(jù)。
3.3 基于遙感與地理信息系統(tǒng)的時(shí)空預(yù)測(cè)模型[5]
基于遙感與地理信息系統(tǒng)的時(shí)空預(yù)測(cè)模型利用遙感與地理信息系統(tǒng)技術(shù),分層次、分類型建立流行病地區(qū)的監(jiān)測(cè)體系,在不同的空間尺度和連續(xù)的時(shí)間序列上進(jìn)行監(jiān)測(cè)和制圖,建立基于遙感、地理信息系統(tǒng)、全球定位系統(tǒng)和時(shí)間空間統(tǒng)計(jì)學(xué)為一體的探測(cè)活躍傳播點(diǎn)的框架模型。
通過(guò)時(shí)間、空間和時(shí)空集成預(yù)測(cè)模型對(duì)流行病發(fā)病率、流行趨勢(shì)、危害程度等方面進(jìn)行預(yù)測(cè),了解流行病的時(shí)空傳播與流行規(guī)律,作出準(zhǔn)確預(yù)警,有著非常重要的意義。在實(shí)際運(yùn)用中更多地采用定性預(yù)測(cè)與定量預(yù)測(cè)相結(jié)合的方法。這種方法常常是將專家們?cè)u(píng)議的意見(jiàn)集中起來(lái)綜合評(píng)價(jià)、建模和分析, 考慮時(shí)間、空間等各種因素采用兩種以上的預(yù)測(cè)模型對(duì)傳染病進(jìn)行綜合預(yù)測(cè),克服了過(guò)去預(yù)測(cè)方法的單一性、籠統(tǒng)性,提高了預(yù)測(cè)結(jié)果的準(zhǔn)確性。綜合預(yù)測(cè)是現(xiàn)代統(tǒng)計(jì)預(yù)測(cè)方法本身發(fā)展的必然結(jié)果。
[1]聶紹發(fā),黃淑瓊.傳染病預(yù)測(cè)預(yù)警體系建設(shè)現(xiàn)狀研究[J].公共衛(wèi)生與預(yù)防醫(yī)學(xué).2010,21(4):1-3
[2]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:人民衛(wèi)生出版社.2002
[3]丁守鑾,康家琦.ARIMA模型在發(fā)病率預(yù)測(cè)中的應(yīng)用[J].中國(guó)醫(yī)院統(tǒng)計(jì).2003,10 (1):23-26
[4]董選軍,賈偉娜.ARIMA時(shí)間序列和BP神經(jīng)網(wǎng)絡(luò)在傳染病預(yù)測(cè)中的比較[J].現(xiàn)代實(shí)用醫(yī)學(xué).2010,22(2):142-143
[5]方立群,馬家奇,周曉農(nóng),等.國(guó)家自然科學(xué)基金重大項(xiàng)目“基于現(xiàn)代信息技術(shù)研究傳染病時(shí)空傳播與流行規(guī)律”研究成果綜述[J].中國(guó)科學(xué)基金.2011,(01):21-25
10.3969/j.issn.1001-8972.2011.10.153
朱紅(1970-)女,副教授,研究方向:機(jī)器學(xué)習(xí)。