陳偉
移動平均法就是將數據按照時間排列,以一定的跨越期進行移動平均得出平均值進行預測的一種方法。該方法能夠消除時間序列中的偶然因素對預測結果的影響,突出反映趨勢性和周期性的變動,適用于一年期等短期預測,現已被廣泛應用于各種疾病及醫(yī)院統計預測中。本研究探討如何采用Excel函數的方法計算移動平均數(預測值),并繪制移動平均線,進行肺結核疫情預警分析。
疾病監(jiān)測信息報告管理系統中,報告日期為2006—2009年以及2010年上半年,報卡中患者現住址為合肥市(統計對象不限制患者戶籍所在地)的肺結核數據。
1.基礎數據處理
將已收集的報告日期為2006—2009年以及2010年上半年報卡現住址為合肥市的肺結核報告數據進行整理,去除已刪除卡、結核性胸膜炎及其他疾病,保留疾病診斷為涂陽、菌陰、未痰檢3類肺結核已終審卡數據。
在傳染病監(jiān)測預警分析中,目前一般以周為單位,步長采用2(即數據統計時變動范圍為前后2周)為宜[1]。因此,對整理后的2006—2009年數據,按照報告日期,劃分為全年52周,列出每周報告肺結核患者數,形成基礎數據表。
2.指標分類和意義
根據基礎數據表數據,按照周次和每周患病數,將2006—2009年4年數據形成患病數數列,利用Excel函數,計算該數列的殘差、標準差和回歸曲線方程(W=(其中W 為預測值為截距,μα為斜率,Si為預測年份累積周次),利用得到的回歸方程,代入預測年份(第5年)的累積周次,即第 209~260周(1年有52周,第5年為209~260周),得出的數據,即是預測年每周的預測患病數,并繼續(xù)計算2倍標準差(預警值)、3倍標準差(行動值),根據數據繪制相應的線圖。
正常情況下,實際預測年份每周患病數應在預測值的上下進行波動。當實際值超過預警值時,提示該周患者數超過預期,應予以關注,分析導致病例突然增高的原因,實施干預;當實際值超過行動值時,應立刻分析原因,判斷是否局部疫情暴發(fā),立即采取干預措施,控制疫情的發(fā)展。
3.統計學處理
將預測值數列利用K-S檢驗方法進行檢驗,取得Z值和P值,按α=0.05檢驗水準判斷數據資料是否符合正態(tài)分布。如符合正態(tài)分布,再用t檢驗比較2010年上半年實際值數列和預測值數列之間的差異是否具有統計學意義,從而判斷合肥市的肺結核疫情資料是否符合移動平均分布。
利用Excel表格計算2006—2009年每周患病數數列的回歸方程:W=-0.25Si+116.26,其中 W 為預測值,Si為預測年份累積周次,即第209~260周。
回歸方程相關數據見表1。
利用得到的回歸方程,代入預測年份(第5年)的累積周次(即第209~260周),得出的數據,即是預測年每周的預測患病數(預測值),并繼續(xù)計算每周患病數的2倍標準差為預警值,3倍標準差為行動值。詳細數據見表2。
將預測值、預警值、行動值3個系列數據填充至Excel數據表格中,繪制預警監(jiān)測圖。將2010年每周患病數錄入后,形成實際周患病數曲線,通過實際周患病數曲線在預測曲線、預警曲線、行動曲線之間的波動范圍,即可開展預警工作(詳細圖形判讀見方法中的指標分類和意義)。
1.將預測值數列利用K-S檢驗方法進行檢驗,得Z值為0.774,P=0.586,按α=0.05檢驗水準可認為數據資料符合正態(tài)分布。
表1 回歸方程數據
表2 合肥市2006—2009年肺結核周患病數情況及2010年預警分析
圖1 2010年合肥市結核病疫情預測圖
2.用t檢驗比較2010年上半年實際值數列和預測值數列之間差異是否具有統計學意義。得t(雙尾)值為2.02,P=0.07>0.05,按α=0.05檢驗水準可認為,2010年上半年實際報告組和預測組之間差異無統計學意義,預測值數列構成的移動平均線與實際疫情曲線擬合一致,能夠反映實際疫情發(fā)展的趨勢,可認為合肥市的肺結核疫情資料符合移動平均分布。
基線數據是決定預警效果的重要因素。自2005年以后,我市肺結核疫情呈顯著下降趨勢,在這種情況下,疫情預測基礎數據時間太長,會大大降低預警的敏感性[3]。所以,筆者選擇2006—2009年4年作為基礎數據時間,并以大疫情終審報卡為數據來源校正漏報率,以涂陽、菌陰、未痰檢三類疾病診斷校正病例定義的改變,同時去除刪除卡避免錯誤統計,保證基線數據的真實可靠。
為解決因數據數量可能偏少,一些統計指標的計算和數據模型的穩(wěn)定性有可能受到影響的問題,美國疾病預防控制中心作預警時,將預警時間單位向前和向后各移動2個單位,數據量增加,并證明這種處理方法是可行的[4]。本研究借用了這個方法,將2007年的原前2周數據,同時作為2006年的第53周和 54周數據;將 2006年的 51、52兩周數據作為2007年的前2周數據。以此類推,從而將每年的觀察周數增加至54周,并且可有效避免各年份之間人為劃分時間段對數據分析結果帶來的影響。
通常移動平均線期限愈長,愈能表現安定的特性,即移動平均線不輕易波動,必須趨勢真正明朗了,移動平均線才會延伸。而這恰恰符合肺結核疫情長期趨勢穩(wěn)定的特征:每年第13周左右為高峰期,后逐漸下降,至次年的第4周左右達到低谷。因此,采用移動平均線評價合肥市肺結核疫情的趨勢較為合適。
移動平均線主要依據某一時期及其相鄰時期內的時間序列數據的算術平均值數列進行繪制,因此存在數據慣性問題,即在疫情暴發(fā)早期監(jiān)測數據逐步抬升過程中,存在著滯后效應,對疫情的早期發(fā)現不敏感。這點必須引起疫情預警監(jiān)測人員的高度重視,可考慮采用求和自回歸移動平均(ARIMA)模型的方法提高早期預警的靈敏度。
[1]仝振東,林君芬,陳國水,等.應用移動平均數法開展傳染病疫情監(jiān)測預警的探討.疾病監(jiān)測,2007,22(8):523-525.
[2]胡躍強,龐志峰.移動平均數在金華市痢疾疫情監(jiān)測預警中的應用.現代預防醫(yī)學,2008,35(10):1809-1010.
[3]楊維中,邢慧嫻,王漢章,等.七種傳染病控制圖法預警技術研究.中華流行病學雜志,2004,25(12):1039-1041.
[4]Costagliola D, Flahaul t A , Galin ec D, et al . A routine tool fordetect ion and assessment of epidemics of influenza-like syndromesin France. Am J Public Health , 1991 , 81(1):97-99.