趙耐青
復旦大學衛(wèi)生統(tǒng)計學教研室上海 200032
預報、預測和預警方法及其應用*
趙耐青
復旦大學衛(wèi)生統(tǒng)計學教研室上海 200032
預報;預測;預警;方法學研究
目前許多企業(yè)關(guān)心自己企業(yè)的經(jīng)濟學和產(chǎn)品指標在未來的變化,醫(yī)療研究機構(gòu)關(guān)心醫(yī)療指標在未來的變化,政府部門也關(guān)注國計民生的許多指標在未來的變化趨勢,許多政府職能部門成立應急辦公室,并且要制定預警方案和預警工作,上述工作都與預報、預測和預警方法學有關(guān),但是許多從事這方面研究的工作人員不僅不太熟悉相應的方法學,而且往往不能區(qū)分預報、預測和預警的差異,作者就上述相關(guān)的問題,簡單介紹預報、預測和預警的定義及其方法學的內(nèi)容。
預報 (forecast)通常是估計在某個時間段或某個時期的某類觀察目標將處于的狀況。
預測 (predictions)一般是僅關(guān)注某類觀察目標處于何種狀況,一般不考慮某類觀察現(xiàn)象將在何時處于何種狀況。
例如,天氣預報往往是預報某時刻的天氣如何,而不會稱天氣預測。因此,預報至少涉及 2個要素:觀察目標的狀況及其出現(xiàn)的時間,如果要求更高的預報,則往往會涉及觀察目標所出現(xiàn)的地點、觀察目標的狀況以及觀察目標狀況所出現(xiàn)的時間。如地震預報就涉及上述3個要素:地震的中心位置、地震的級別和地震發(fā)生的時間。對于疾病控制問題,有時只關(guān)注疾病會不會進展,特別是有些疾病如在初期得到控制,其以后發(fā)生進展的機會就很小了。如早期的乳癌手術(shù)患者,如果在術(shù)后 5 a內(nèi)不復發(fā)、轉(zhuǎn)移,則 5 a后出現(xiàn)復發(fā)或轉(zhuǎn)移的機會就非常小,因此,乳癌手術(shù)后的患者往往關(guān)注術(shù)后是否復發(fā)或轉(zhuǎn)移,而不是關(guān)注何時復發(fā)或轉(zhuǎn)移,因此,評價乳癌患者術(shù)后是否復發(fā)或轉(zhuǎn)移至關(guān)重要,這是對乳癌術(shù)后患者預后的預測,而不是對乳癌術(shù)后患者預后的預報。
預警 (early warning)沒有統(tǒng)一和明確的定義,通常是根據(jù)預警目的和預警目標制定預警規(guī)則,并且定義不同的預警級別,從預報或預測所提供的信息中發(fā)現(xiàn)預警目標的早期信號,同時根據(jù)預警規(guī)則發(fā)出相應級別的預警信息,為早期干預或預防工作提供服務(wù)。
2.1 預報的方法
其中{εt}是獨立同分布,稱為白噪聲,Var(εt)=σ2。ARMA模型要求時間序列{yt}的資料滿足寬平穩(wěn)性,即:E(yt)=μ是常數(shù)并且yt與yt+τ的自相關(guān)系數(shù)僅與τ有關(guān),與t無關(guān)。若{εt}是正態(tài)獨立同分布序列則更理想。特別當q=0時,ARMA(p,q)模型退化為下式的自回歸模型 (autoregression model,AR),簡稱AR(p)模型:
如果時間序列不滿足寬平穩(wěn)性,可以對時間序列{yt}進行差分dt=yt-yt-1,t=2,3,… ,然后對{dt}應用ARMA(p,q)。如果差分后還是不滿足寬平穩(wěn)性,還可以進行有限次差分。差分后再應用ARMA(p,q)的模型稱為ARI MA(p,d,q)模型,其中d就是對原始時間序列資料進行d次差分。由于絕大多數(shù)時間序列資料不直接滿足寬平穩(wěn)的條件,一般都需要進行有限次差分才滿足平穩(wěn)性,所以許多文獻就直接應用ARI MA(p,d,q)模型進行預報。由混沌(Chaos)理論已經(jīng)證明:不存在任何方法可以進行遠期預報,所以AR I MA(p,d,q)模型僅可以進行有限步預報。可以證明:在ARI MA(p,d,q)模型中的yt,yt-1,…,yt-p系數(shù)構(gòu)成特征方程λp-a1λp-1-…ap-1λ-ap=0的特征根的模越接近 1,則應用ARI MA(p,d,q)模型進行預報的效果會越好[3],反之特征根的模遠離 1,則預報的效果就越差。由于不是每一種時間序列{yt}都滿足線性預報模型,在 20世紀 90年代初,流行應用門限自回歸模型 (threshold autoregression model,TAR)進行預報工作。TAR模型是對時間序列{yt}建立分段的 AR模型,這種分段的AR模型對于短期預報往往可以獲得較好的預報效果。門限自回歸模型一般概念介紹如下:
設(shè){yt}為一個時間序列,則門限自回歸模型的定義如下:
上述AR I MA(p,d,q)系列模型的建模存在一個定階p,q,d的問題。1971年日本學者赤池(Akaike)提出了一種適用面非常廣泛的統(tǒng)計模型選擇準則,稱為最小信息準則 (Akaike infor mation criterion,A IC),運用這一準則可以在模型參數(shù)極大似然估計或最小二乘法基礎(chǔ)上估計AR I MA(p,q)模型的階數(shù)p和q,其作法是首先引入了以下所謂的 A I C準則函數(shù):
對于更一般的非線性預報模型,可以用廣義線性自回歸模型 (generalized linear autoregression),其定義如下:
其中f()為連接函數(shù)(link function)[4]。大多數(shù)情況下,f()是由研究問題的動力學背景給定的。
對于非平穩(wěn)的情況,往往采用混合時間序列模型進行分析和預報。線性的混合時間序列模型如下:
其中x1t,x2t,…,xqt為時間序列的自變量,y1,y2,…,yt為時間序列的因變量,{εt}為白噪聲。特別是當上述模型退化為下列模型時,稱為時間序列線性回歸模型:
其中f()為連接函數(shù),x1t,x2t,…,xqt為時間序列的自變量,y1,y2,…,yt為時間序列的因變量,{εt}為白噪聲,φ1(),φ2(),…,φr()可以為已知函數(shù),也可以是未知函數(shù)。對于未知函數(shù),用樣條函數(shù)(Spline function)進行擬合。目前 GAM+AR模型已經(jīng)廣泛應用于環(huán)境污染和氣溫對健康的效應評價。
2.2 預測的方法
預測方法通常就是對觀察目標進行估計的技術(shù),最普通的方法就是線性回歸模型、logistic模型及對數(shù)線性模型等,這類模型對于預測而言,一般要求用于擬合模型資料中的自變量資料范圍較大。如果預測的自變量在擬合模型的自變量資料范圍內(nèi),則稱這類預測值為內(nèi)插預測值,如果預測的自變量在擬合模型的自變量資料范圍外,則這類預測值為外推預測值。外推預測值需要對背景進行考證,以判斷預測自變量值是否仍然在擬合模型的適用范圍內(nèi),而且一般認為這種預測的誤差比內(nèi)插預測值的誤差大,所以在一般的統(tǒng)計學教材中,對進行線性回歸的預測往往要求自變量在擬合模型的自變量取值范圍內(nèi)。
絕大多數(shù)預測模型的預測值都是對反應變量的期望值進行估計,而不是對個體觀察值的估計。例如單因素線性回歸的預測值^y=a+bx是回歸方程μy|x=α+βx中的總體均數(shù)μy|x的點估計值,而不是回歸模型y=α+βx+ε中的y的點估計。對于反應變量y的估計一般只能采用區(qū)間估計。如單因素線性模型的反應變量的 95%可信區(qū)間估計為:
更一般的混合時間序列模型是在廣義相加模型(generalized additive model,GAM)[5]基礎(chǔ)上引入AR模型,具體的定義如下:
對于 Poisson回歸模型 ln(E(Y))=β0+β1x1+ β2x2+…+βpxp,用樣本擬合該模型后的回歸系數(shù)記為b0,b1,b2,…,bp,則反應變量取值的 95%范圍約為:
2.3 預警的方法
從本質(zhì)上講,預警是基于預警目的、預報或預測的可能結(jié)果,制定發(fā)出預警的規(guī)則或條例,當預報或預測的結(jié)果顯示存在一定的風險時,根據(jù)事先制定的預警規(guī)則或預警條例決定是否發(fā)出合適的預警。
預警方法與預警目的密切相關(guān),一般情況下,預警目的可以分為提示性預警和警示性預警。提示性預警主要的目的是事先做好準備工作,一般而言沒有太大風險,但出現(xiàn)這類風險的可能性相對較大;警示性預警則表示可能的結(jié)果往往存在一定風險,需要做好預防工作,減小面臨風險的可能性或者使風險造成的損失達到最小。雖然警示性預警是針對風險較大的目標,但由于風險大,所以即使發(fā)生的可能性較小,也需要發(fā)出警示,因此,可以理解為警示性預警的工作目標是及早發(fā)現(xiàn)面臨重大風險的早期信號,并根據(jù)發(fā)生風險的早期信號發(fā)出預警。
預警又可以根據(jù)不同預警對象歸為以下 3大類:①面對普通公眾的預警。例如,感冒預警指數(shù)就是告訴公眾患感冒的風險,起到某種提示作用,這類預警屬于提示性預警,告訴公眾可能面臨的風險;又如:當某些地區(qū)面臨某種疾病處于一定程度的流行狀況時,往往需要向公眾報告當前該疾病的流行狀況,并且告知公眾可能面臨的風險大小,甚至告知更嚴重狀況出現(xiàn)的可能性。這是一種警示性預警,一般需要根據(jù)事先制定的預警規(guī)則決定是否發(fā)出警示性預警。警示性預警的目的是告知公眾應該采取自我保護措施,減小個體面臨風險的可能性,同時提示管理部門和相關(guān)部門應做好各種預防和應對措施。②面對管理部門的預警。例如:根據(jù)天氣預報,寒潮即將來臨,發(fā)出預警,告知有關(guān)部門做好面臨寒潮的各種準備工作,這就是提示性預警。又如:根據(jù)天氣預報,近期可能會發(fā)生洪水災害,因此事先向管理部門報告出現(xiàn)洪水的可能性、可能到達的時間、嚴重程度以及持續(xù)時間,讓有關(guān)管理部門盡早作出決策并做好各種防范措施,使可能出現(xiàn)的洪水災害所造成的損失達到最小。這是一種警示性預警,這種預警的風險不一定會出現(xiàn),但一旦出現(xiàn)而沒有事先做好防范準備時往往會造成重大損失。因此,即使出現(xiàn)這類風險的可能性很小,也需要根據(jù)預警規(guī)則決定是否發(fā)出預警。③面對專業(yè)部門的預警。例如,瘧疾一般只發(fā)生在夏季,不會發(fā)生在冬季。根據(jù)現(xiàn)有歷史資料,在冬季 1 d內(nèi)發(fā)生瘧疾的人數(shù)最多只有 1例,但現(xiàn)在某地區(qū)觀察到某一天有 2例瘧疾病例發(fā)生。這種結(jié)果很異常,值得專業(yè)部門做進一步的調(diào)查和研究,但沒有風險,因此,應該發(fā)出提示性預警,告知各個專業(yè)部門應該密切注意這類異常情況的發(fā)展。又如:某地區(qū)從來沒有出現(xiàn)過流行性腦炎暴發(fā),而目前流行性腦炎的發(fā)病數(shù)已經(jīng)超過了歷史最高記錄,雖然還沒有達到暴發(fā)性流行的水平,這時根據(jù)預警規(guī)則,往往需要發(fā)出警示性預警,提示做好暴發(fā)性流行性腦炎出現(xiàn)的防范措施。根據(jù)現(xiàn)有信息,流行性腦炎呈暴發(fā)性流行的可能性非常小,作為專業(yè)部門,需要根據(jù)預警規(guī)則決定是否發(fā)出預警,決定是否應該啟動高級別的監(jiān)測手段和措施。
由于預警程序是基于預報或預測的結(jié)果來決定是否需要發(fā)出預警,而建立預報模型或預測模型的歷史資料可能沒有包含極端情況 (如:某類傳染疾病的暴發(fā)性流行),因此預測或預報模型對于極端情況的預報或預測往往不太敏感,甚至出現(xiàn)預報和預測結(jié)果誤差很大的情況,所以,在實際工作中要針對這類情況進行甄別,事先擬定預警規(guī)則。一旦出現(xiàn)異常情況,并且有出現(xiàn)極端不利情況的跡象,啟動和建立異常情況的動態(tài)預報模型,進行動態(tài)建模,加強一步預報或有限步預報的精度,使預報模型動態(tài)適合極端不利情況的觀察資料,提高極端不利情況的預報精度,為極端不利結(jié)局的預警提供盡可能高效準確的信息。
總之,以上的論述是基于作者從事預報、預測和預警研究工作的一些體會,可能論述的不夠全面,僅供各位研究者和讀者參考。
[1]Jeong HJ,HwangWT,Kim EH,et al.Statistical approaches to forecast gamma dose rates by using measurements from the atmosphere[J].Radiat ProtDosi metry,2008,131 (3):356
[2]Priestley HB.Spectral analysis and time series[M].New York:Academic Press,1981.
[3]安鴻志,陳兆國,杜金觀,等.時間序列的分析和應用[M].北京:科學出版社,1983.
[4]Lindsey JK.Applying generalized linear models[M].Berlin:Springer,1997:93
[5]Dominici F,McDer mottA,Zeger SL,et al.On the use of generalized additive models in ti me-series studies of air pollution and health[J].Am J Epidemiol,2002,156(3): 193
特約述評作者簡介
趙耐青,男,1954年 1月出生。教授,博士研究生導師。1983年畢業(yè)于復旦大學數(shù)學系,獲理學學士學位;1996年畢業(yè)于澳大利亞 Newcastle大學,獲生物統(tǒng)計學碩士學位。任上海市預防醫(yī)學會衛(wèi)生統(tǒng)計專業(yè)委員會主任委員、中國衛(wèi)生信息學會衛(wèi)生統(tǒng)計教學專業(yè)委員會副主任委員、中國衛(wèi)生信息學會常務(wù)理事、中國衛(wèi)生信息學會衛(wèi)生統(tǒng)計理論與方法專業(yè)委員會常務(wù)理事、國家食品和藥品監(jiān)督管理局藥品評審中心的專家數(shù)據(jù)庫成員、國際臨床流行病工作網(wǎng)成員、中國醫(yī)學數(shù)學會常務(wù)理事和上海市統(tǒng)計學會理事。主要研究方向:醫(yī)學研究中的統(tǒng)計方法學及其應用、時間序列分析和流行病學統(tǒng)計模型。作為研究骨干,參與國家“973”項目 2項;作為生物統(tǒng)計學研究者,參與國家“863”項目 2項和國家支撐項目 1項;作為生物統(tǒng)計學者,參加美國“N I H”項目 6項;目前作為主要研究者,承接國家自然科學基金資助項目《氣溫與上海市醫(yī)院兒科門急診人次關(guān)聯(lián)性及其預測模型的研究》,項目號為30972551。在國內(nèi)外雜志上發(fā)表論文 100余篇,主編和出版教育部“十·五”規(guī)劃教材《醫(yī)學統(tǒng)計學》、教育部“十一·五”規(guī)劃教材《衛(wèi)生統(tǒng)計學》和《臨床研究設(shè)計和數(shù)據(jù)分析》,副主編醫(yī)學統(tǒng)計類教材 3本,參編其他專業(yè)書籍 10余部。
*國家自然科學基金資助項目 30972551
(2009-12-07收稿 責任編輯趙秋民)