王明齋,李佳,芮佳,王瑤,楊蒙,王琦琦,陳田木,鄭蓉蓉?
結(jié)核病是由結(jié)核桿菌引起的經(jīng)由呼吸道傳播的慢性傳染病。盡管多年來我國(guó)結(jié)核病防控已經(jīng)取得了很大進(jìn)展,但仍面臨諸多困難和挑戰(zhàn),實(shí)現(xiàn)結(jié)核病消除目標(biāo)仍任重道遠(yuǎn)。疫情統(tǒng)計(jì)預(yù)測(cè)對(duì)于結(jié)核病控制乃至制定規(guī)劃目標(biāo)具有重要參考價(jià)值。當(dāng)前,結(jié)核病疫情數(shù)學(xué)建模研究較多,如常微分方程模型和鏈二項(xiàng)分布模型等[1,2],但數(shù)學(xué)模型太過于復(fù)雜,不利于在基層公共衛(wèi)生部門推廣和運(yùn)用。為此,本文對(duì)11種常見的統(tǒng)計(jì)預(yù)測(cè)模型及其原理、模型擬合優(yōu)度檢驗(yàn)原理與最優(yōu)模型篩選等進(jìn)行介紹,并通過具體實(shí)例介紹操作方法,探討模型在結(jié)核病等傳染病疫情預(yù)測(cè)中的應(yīng)用價(jià)值。
模型方程為:Y=b0+(b1×t)。
該模型是線性回歸模型中最簡(jiǎn)單的一種,利用普通最小二乘法(Ordinary Least Squares,OLS)對(duì)回歸系數(shù)進(jìn)行參數(shù)估計(jì),其OLS估計(jì)量具有很好的統(tǒng)計(jì)學(xué)性質(zhì)[3],適用于進(jìn)行簡(jiǎn)單的疫情預(yù)測(cè)。但是由于直線回歸的局限性,在建立直線回歸模型的基礎(chǔ)上,隨著t逐漸遠(yuǎn)離,回歸模型的預(yù)測(cè)能力將顯著下降。
對(duì)解釋變量t進(jìn)行一定變化后化為線性模型,對(duì)該模型直接進(jìn)行OLS估計(jì),得到模型的參數(shù)估計(jì)值,以建立預(yù)測(cè)模型[3,4]。
(1)對(duì)數(shù)曲線模型(Logarithmic)模型方程為:Y=b0+(b1×ln(t))。
對(duì)數(shù)曲線圖形為一條單調(diào)遞增并且增長(zhǎng)速度逐漸減慢的曲線,理論上自然地區(qū)新發(fā)傳染病,其增長(zhǎng)趨勢(shì)較接近于對(duì)數(shù)曲線,因而在很多情況下對(duì)數(shù)曲線模型的擬合度更優(yōu)。
(2)反函數(shù)模型(Inverse)
模型方程為:Y=b0+(b1/t)。
也稱倒數(shù)模型,此類模型最顯著的特征是,當(dāng)t無限增大時(shí),函數(shù)模型將無限靠近其漸近線或極值[3]。而就傳染病而言,很難確定發(fā)病率或發(fā)病人數(shù)的閾值,因而反函數(shù)模型的應(yīng)用常被限制。
(3)二次函數(shù)(Quadratic)
模型方程為:Y=b0+(b1×t)+(b2×t2)
二次函數(shù)的典型特征為存在一個(gè)最值,當(dāng)發(fā)病人數(shù)呈現(xiàn)出典型的“單峰”變化趨勢(shì),可考慮使用二次函數(shù)。
(4)三次函數(shù)(Cubic)
模型方程為:Y=b0+(b1×t)+(b2×t2)+(b3×t3)。
與上述模型相比,非線性模型中的參數(shù)求解更為復(fù)雜,常利用曲線直線化方法來尋找曲線回歸模型中參數(shù)的最小二乘估計(jì)[5]。常見的非線性模型有以下四種。
(1)復(fù)合函數(shù)(Compound):Y=b0×(b1t)。
(2)冪函數(shù)(Power):Y=b0×(tb1)。
(3)指數(shù)曲線(Exponential):Y=b0×(eb1×t)。在應(yīng)用指數(shù)曲線時(shí)通常會(huì)兩邊同時(shí)取對(duì)數(shù)進(jìn)行數(shù)據(jù)處理,再進(jìn)行最小二乘估計(jì)。很多研究表明,大量事物的發(fā)展,其定量特征表現(xiàn)為隨時(shí)間按指數(shù)或接近指數(shù)規(guī)律增長(zhǎng)[6],因此,指數(shù)曲線具有較高的應(yīng)用價(jià)值。
(4)廣義S形曲線。曲線圖象呈現(xiàn)出初期較慢,中期發(fā)展迅速,后期趨緩并最終達(dá)到飽和的這種S形變化過程。常見的廣義S形曲線有以下三種函數(shù)形式:①S形曲線(S):Y=eb0+(b1/t);②生長(zhǎng)曲線
(Growth):Y=eb0+(b1×t);③Logistic曲線(Logistic):Y=1/(1/u+(b0×b1t))。在生物領(lǐng)域內(nèi)都存在大量S形技術(shù)指標(biāo),對(duì)這類指標(biāo)的統(tǒng)計(jì)分析常借助最小二乘估計(jì)進(jìn)行擬合、控制和預(yù)測(cè)[7]。
在上述的11種時(shí)間序列模型中,t為時(shí)間,是自變量,可以是日、周、月、年;Y為因變量,常為發(fā)病人數(shù)或患病人數(shù),t、Y均可根據(jù)研究者收集的數(shù)據(jù)類型來確定。本研究時(shí)間t以月為單位,因變量Y為每月報(bào)告新病例數(shù)。b0、b1、b2、b3、u是以數(shù)據(jù)進(jìn)行曲線擬合得到的模型系數(shù)[8]。時(shí)間序列分析是對(duì)變量隨時(shí)間發(fā)展變化的一種研究,并利用以往的統(tǒng)計(jì)數(shù)據(jù)建立外推預(yù)測(cè)方法的數(shù)學(xué)模型,上述的11種時(shí)間序列模型屬于趨勢(shì)外推法,常用于中短期的預(yù)測(cè)分析,但對(duì)于波動(dòng)性較大的序列不適合做精確預(yù)測(cè)[9]。利用趨勢(shì)外推模型可對(duì)傳染病的發(fā)病趨勢(shì)進(jìn)行簡(jiǎn)單的預(yù)測(cè),揭示傳染病流行、暴發(fā)的發(fā)展過程,揭示流行和發(fā)展規(guī)律,分析流行和暴發(fā)的原因,為制定預(yù)防控制策略和措施、合理配置醫(yī)療衛(wèi)生服務(wù)資源提供科學(xué)依據(jù)[10]。
采用決定系數(shù)R2來度量回歸線的擬合優(yōu)度,R2取值介于0 ~1之間,越接近1,模型的回歸效果越好,越接近0,模型的回歸效果越差,并對(duì)其進(jìn)行方差分析以求得顯著性水平[11]。
采用相對(duì)誤差ê和絕對(duì)誤差e進(jìn)行評(píng)價(jià)(對(duì)預(yù)測(cè)誤差取絕對(duì)值以消除正負(fù)號(hào)的影響),計(jì)算公式如下[11]:
其中,Ya和Yt分別表示實(shí)際數(shù)據(jù)和模型模擬數(shù)據(jù)。
通常而言,根據(jù)擬合優(yōu)度檢驗(yàn)結(jié)果選擇有統(tǒng)計(jì)學(xué)意義的模型,再通過準(zhǔn)確性評(píng)價(jià)進(jìn)行模型驗(yàn)證后篩選可靠的模型。即根據(jù)各模型決定系數(shù)大小依次排序結(jié)合P值進(jìn)行模型選擇,在P<0.05的模型中優(yōu)先選擇決定系數(shù)比較大的模型。 若通過以上兩個(gè)步驟未選擇合適的模型,則建模失敗,此時(shí)可以同過模型校正的方式重新建模和篩選直至篩選出合適的模型為止;若合適的模型存在多個(gè)時(shí),可以通過實(shí)際生物學(xué)意義進(jìn)行綜合判斷選擇最優(yōu)或者多個(gè)模型同時(shí)應(yīng)用。
該11個(gè)模型的優(yōu)缺點(diǎn)類似。主要優(yōu)點(diǎn)是模型原理簡(jiǎn)單、易于理解,操作簡(jiǎn)便(在SPSS軟件里簡(jiǎn)單操作即可),要求數(shù)據(jù)簡(jiǎn)單(僅需要發(fā)病率或發(fā)病數(shù)隨時(shí)間變化的數(shù)據(jù)即可),有利于基礎(chǔ)公共衛(wèi)生人員開展快速的發(fā)病趨勢(shì)預(yù)測(cè)。主要缺點(diǎn)是自變量為時(shí)間,即把疾病的發(fā)生歸因于時(shí)間,未考慮疾病的傳播機(jī)制,也未考慮環(huán)境與社會(huì)經(jīng)濟(jì)、干預(yù)措施等其他影響因素。
本研究以廈門市結(jié)核病報(bào)告疫情數(shù)據(jù)為例開展模型建立、擬合優(yōu)度檢驗(yàn)、模型篩選和預(yù)測(cè)研究。
收集《全國(guó)傳染病疫情報(bào)告管理信息系統(tǒng)》中2005年1月至2019年6月報(bào)告的廈門市結(jié)核病疫情數(shù)據(jù)。以2005年1月至2018年12月疫情數(shù)據(jù)為建模數(shù)據(jù)集,2019年1月至6月疫情數(shù)據(jù)為驗(yàn)證數(shù)據(jù)集。數(shù)據(jù)顯示,廈門市報(bào)告結(jié)核病疫情2005年相對(duì)其他年份較高,之后有逐年緩慢下降趨勢(shì),但在2018年起略有上升趨勢(shì)。
采用IBM SPSS 21.0軟件“分析”工具中的“曲線估計(jì)”功能開展11種模型的建模研究,因變量選擇已收集整理的廈門市2005年1月至2018年12月報(bào)告的結(jié)核病疫情數(shù)據(jù)(新發(fā)病例數(shù)),自變量選擇時(shí)間(time),以月為單位。
模型與數(shù)據(jù)擬合結(jié)果顯示,11種模型均有統(tǒng)計(jì)學(xué)意義(P<0.05)(表1)。其中R2最大為Cubic模型,其次為Quadratic模型和Logarithmic模型。
將擬合效果最優(yōu)的3個(gè)模型進(jìn)行模型驗(yàn)證。結(jié)果顯示,2019年實(shí)際報(bào)告數(shù)據(jù)有2個(gè)月份數(shù)據(jù)不在Cubic 模型95%CI之內(nèi),提示其驗(yàn)證效果欠佳(圖1)。Logarithmic模型和Quadratic 模型95%CI均能包含驗(yàn)證數(shù)據(jù)集,提示該兩個(gè)模型通過了模型驗(yàn)證,可以用于預(yù)測(cè)。Logarithmic模型平均絕對(duì)誤差為28、平均相對(duì)誤差為16.99%,Quadratic 模型平均絕對(duì)誤差為24、平均相對(duì)誤差為12.82%,提示Quadratic模型驗(yàn)證效果優(yōu)于Logarithmic模型。Quadratic模型預(yù)測(cè)2019年7 ~12月報(bào)告發(fā)病數(shù)分別為191(95%CI:124-259)、192(95%CI:124-260)、193(95%CI:125-261)、194(95%CI:126-262)、195(95%CI:127-263)和196(95%CI:128-264)。預(yù)測(cè)病例數(shù)略有上升趨勢(shì)。
表1 11種模型擬合優(yōu)度檢驗(yàn)結(jié)果
圖1擬合優(yōu)度較高的3個(gè)模型驗(yàn)證及預(yù)測(cè)情況
Logarithmic模型、Quadratic 模型和Cubic模型的方程如下:
本研究通過理論介紹和實(shí)例操作介紹了常見統(tǒng)計(jì)預(yù)測(cè)模型及其在結(jié)核病預(yù)測(cè)中的應(yīng)用。建模的關(guān)鍵點(diǎn)包括數(shù)據(jù)選擇、擬合優(yōu)度檢驗(yàn)和模型驗(yàn)證等。擬合優(yōu)度檢驗(yàn)在整個(gè)建模中具有最為關(guān)鍵的意義。曲線擬合是先根據(jù)專業(yè)知識(shí)、經(jīng)驗(yàn)或點(diǎn)分布趨勢(shì),選擇一個(gè)適合變量間關(guān)系的曲線類型,再用曲線直線化或其它數(shù)學(xué)方法,根據(jù)實(shí)測(cè)數(shù)據(jù)求出曲線回歸方程[5]。在許多研究中,對(duì)于同一組數(shù)據(jù),研究者通常會(huì)嘗試多種曲線類型進(jìn)行擬合,再通過比較其決定系數(shù)、顯著性水平及模型適用范圍來選擇較優(yōu)的曲線模型。在實(shí)際應(yīng)用時(shí)往往要用不同的方法互相補(bǔ)充,對(duì)計(jì)算的結(jié)果,結(jié)合有關(guān)影響因素進(jìn)行必要的修正,使預(yù)測(cè)結(jié)果更精確[12]。
總的來說,本文介紹的11種預(yù)測(cè)模型的優(yōu)點(diǎn)是模型簡(jiǎn)潔,可操作性強(qiáng),利用目前普及的具有曲線擬合能力的軟件(如SPSS)即可得出模型方程,適用于基層人員進(jìn)行簡(jiǎn)單預(yù)測(cè)。但是曲線擬合方程不能處理時(shí)間滯后變量,然而時(shí)間序列資料常常存在變量間時(shí)間滯后關(guān)系,因此采用普通線性模型和曲線擬合分析方法研究時(shí)間序列資料可能會(huì)產(chǎn)生一定的誤差[13]。模型擬合優(yōu)度結(jié)果顯示,雖然決定系數(shù)均有統(tǒng)計(jì)學(xué)意義,但其最大為0.487,說明僅用時(shí)間作為自變量的模型不能很好地解釋結(jié)核病的發(fā)病規(guī)律,這也是該類模型的最主要局限性。更多的影響因素如傳播特征、環(huán)境和社會(huì)經(jīng)濟(jì)因素、干預(yù)措施等在今后研究中應(yīng)給予進(jìn)一步考慮。
我國(guó)結(jié)核病感染率高,起病隱匿、發(fā)病緩慢,該特征使得觀測(cè)到的大量數(shù)據(jù)明顯滯后,因此相較于急性發(fā)病的傳染病,使用曲線擬合的方法對(duì)結(jié)核病進(jìn)行預(yù)測(cè)誤差更大。然而,影響結(jié)核病發(fā)病率的因素諸如地理、社會(huì)、耐藥等十分復(fù)雜,時(shí)間序列分析克服了影響預(yù)測(cè)對(duì)象的因素錯(cuò)綜復(fù)雜、不易分析和數(shù)據(jù)資料不易得到的難題,以時(shí)間t綜合替代各種影響因素,根據(jù)原始數(shù)列的特點(diǎn)選擇適宜的模型建立時(shí)序模型。其過程簡(jiǎn)便、經(jīng)濟(jì)、適用、短期預(yù)測(cè)精度較高[13]。因此,基層人員運(yùn)用基于時(shí)間序列分析的曲線擬合方法對(duì)結(jié)核病疫情進(jìn)行簡(jiǎn)單預(yù)測(cè)可行性高,具有較高的應(yīng)用價(jià)值。