李旭,龔茂華
1.廣州市公安局水上分局,廣東廣州510235;2.汕頭市公安局,廣東汕頭515011
珠江主航道廣州段溺亡浮尸ARIMA 模型初探
李旭1,龔茂華2
1.廣州市公安局水上分局,廣東廣州510235;2.汕頭市公安局,廣東汕頭515011
目的根據(jù)2003—2012年10年間珠江主航道廣州段各季度法醫(yī)收集的溺亡浮尸數(shù)量生成時間序列,建立ARIMA模型,為水上法醫(yī)統(tǒng)計工作提供參考。方法利用Excel統(tǒng)計各年份每一季度浮尸數(shù)量,建立統(tǒng)計表,利用SAS軟件建立時間序列ARIMA模型并檢驗。結果通過重新選擇擬合模型,模型擬合定階為疏數(shù)模型ARIMA(2)0(2)結論成功建立ARIMA((2)0(2))疏數(shù)模型,利用第2013年前兩季度浮尸數(shù)量檢驗,發(fā)現(xiàn)獲得較好的實用效果。
ARIMA模型;浮尸;法醫(yī)
溺亡是一個常見致人死亡的原因,是傷害的重要組成部分,是人體呼吸道被水阻塞后,造成呼吸道氣體交互障礙,引起機體缺氧,導致死亡的現(xiàn)象。溺亡占全球總死亡率的10%,占所有與傷害有關死亡的7%。雖然國外文獻已經(jīng)有對特定區(qū)域溺亡的報道,但是國內很少有相關文獻對特定區(qū)域的溺亡進行全面的研究,主要都是集中在兒童溺亡的研究。在法醫(yī)學中主要是研究溺亡浮尸死后的變化與浮尸死亡性質的關系,還未有時間序列相關研究。為此,利用現(xiàn)有法醫(yī)學浮尸資料,該文對珠江主航道廣州段溺亡浮尸進行統(tǒng)計和分析,利用Excel統(tǒng)計各年份每一季度浮尸數(shù)量,建立統(tǒng)計表,利用SAS軟件建立時間序列ARIMA模型。利用時間序列模型和相關預測信息,為該地區(qū)法醫(yī)工作提供參考和幫助,現(xiàn)報道如下。
收集2003—2012年共計10年珠江主航道廣州段溺亡浮尸資料共2 291例,按照每個季度溺亡浮尸數(shù)據(jù),建立預測模型,并且計算該區(qū)域2013年第1和第2季度的溺亡浮尸發(fā)生數(shù)量,與實際值比較,顯示模型擬合有效。整理2003—2012年各季度溺亡浮尸數(shù)量,見表1。
表12003 —2012年各季度溺亡浮尸數(shù)量
2.1 平穩(wěn)性檢驗
第一步:根據(jù)表1數(shù)據(jù)繪制各月溺亡浮尸數(shù)量時間序列圖1,從該圖很難分辨該序列是否平穩(wěn),所以進行單根檢驗。
圖12003 —2012各季度溺亡浮尸數(shù)量分布時間序列圖
第二步:對2003—2012各季度溺亡浮尸數(shù)量進行單根檢驗,結果如表2所示(P<0.05)。該序列為平穩(wěn)序列,不需要進行季節(jié)差分和趨勢差分。
表22003 —2012年各季度溺亡浮尸數(shù)量單根檢驗結果
2.2 純隨機性檢驗
時間序列的純隨機性檢驗是時間序列能否建立模型的一項重要檢驗步驟。根據(jù)時間序列ARIMA模型建模步驟,序列通過平穩(wěn)性檢驗以后,需要對序列進行純隨機性檢驗,檢驗結果如表3所示。在顯著性水平取0.05的條件下,由于延遲6階的卡方統(tǒng)計量的P值小于0.0001,遠小于0.05,所以該序列為非白噪聲序列,序列內含有不容忽視的信息可以提取。序列平穩(wěn)性和純隨機性都通過檢驗,可以進行模型擬合。
表32003 —2012年各季度溺亡浮尸數(shù)量純隨機性檢驗結果
2.3 根據(jù)自相關圖和偏自相關圖進行模型擬合
觀察序列自相關圖2和偏自相關圖3擬合模型,見圖2、圖3。
根據(jù)該序列自相關圖和偏自相關圖顯示,可以對序列進行多階擬合。利用SAS程序對序列進行相對最優(yōu)定階,結果如表4所示。
圖22003 —2012各季度溺亡浮尸數(shù)量序列自相關圖
圖32003 —2012各季度溺亡浮尸數(shù)量偏自相關圖
表4 SAS程序對序列進行相對最優(yōu)定階
根據(jù)最小BIC準則顯示,模型選擇ARIMA(4,0,0)模型,但是經(jīng)過檢驗模型殘差不能通過白噪聲檢驗,證明模型擬合失敗,需要重新擬合。通過重新選擇擬合模型,模型擬合定階為疏數(shù)模型ARIMA((2)0(2))。
3.1 模型的有效性檢驗
根據(jù)擬合模型殘差白噪聲檢驗,P>0.05,判斷為白噪聲,說明該序列中的有效信息已經(jīng)被提取完全,擬合模型有效,見表5。
表5 擬合模型殘差白噪聲檢驗
3.2 參數(shù)的顯著性檢驗
根據(jù)SAS程序給出的條件最小二乘法估計,模型參數(shù)檢驗P<0.05,通過檢驗,參數(shù)顯著,見表6。
表6 擬合模型參數(shù)顯著性檢驗
3.3 模型計算檢驗
根據(jù)SAS模型預測計算2013年前兩季度溺亡浮尸人數(shù),如表7所示。第一季度的預測值和觀測值一樣,都為41人,準確率達到100%。第二季度相對誤差為14.04%,準確率也到達80%以上,見表7。模型預測效果較好,擬合模型ARIMA((2)0(2))有效。
表7 模型對2013年第1和第2季度溺亡浮尸數(shù)量的預測
第一,溺亡浮尸數(shù)據(jù)的特征以及ARIMA模型特點。ARIMA模型是建立在馬爾科夫隨機過程的基礎上,既吸取了回歸分析的優(yōu)點又發(fā)揮了移動平均的長處。在預測精度上,ARIMA模型對噪聲進行了分析處理,只留下當時和歷史無關的白噪聲,使其成為線性模型的最優(yōu)預測。傳統(tǒng)的趨勢模型外推預測方法,考慮了時間因素和各自變量之間的因果關系,事先必須明確所有的影響因素,收集所有影響因素的資料,但是很多事物的發(fā)展均受到外界各種因素的影響,難以明確所有的因素。因此,傳統(tǒng)線性模型只適合具有某一種典型趨勢性變化的預測[1]。ARIMA在國內外都被廣泛應用于交通運輸、經(jīng)濟以及公共事業(yè)領域的時間序列模型計算[2-4]。建立模型的溺亡浮尸發(fā)生是具有獨立空間、時間分布特點。未來溺浮尸的發(fā)生與現(xiàn)在和過去溺亡浮尸的發(fā)生有著某種內在的聯(lián)系,從以上講,溺亡浮尸的發(fā)生適合ARIMA模型。該模型在建立過程中嘗試過建立含有季節(jié)因子的ARIMA模型,但是并不成功。該文的模型在模型檢驗的時就已經(jīng)是平穩(wěn)模型,不需要通過差分運算進行數(shù)據(jù)變換,所以模型表達中的季節(jié)因子“I”為零,模型變換為ARMA模型。通過多次擬合以后,擬合疏數(shù)模型成功。推測不能建立以四季時間序列模型的原因是廣州地區(qū)處于熱帶,每年的四季并不分明,每個季度的溫度差距并不大,導致沒有明顯的周期性,所以可以不用考慮時間因子“I”。
第二,預測模型的意義及實用價值。通過對2003-2012年十年時間的溺亡浮尸序列的分析,擬合了該序列的季度序列模型。通過對2013年前兩個季度的溺亡浮尸人數(shù)計算比較顯示,該模型較好地預測了第1季度的溺亡浮尸數(shù)量,預測效果達到100%。第2季度溺亡浮尸數(shù)量的有效預測達到85.96%,超過80%,可以認為效果較好。該次研究為珠江主航道廣州段的溺亡浮尸研究提供以下幾點參考:①此次研究收集了該區(qū)域內溺亡浮尸數(shù)量,建立了預測模型,為進一步擴大該地區(qū)溺亡浮尸模型的研究分析奠定良好的基礎。在現(xiàn)有的條件下,有一定的實用價值。②此次模型的建立,為該轄區(qū)內溺亡浮尸管理者針對不同季節(jié)的工作人員安排提供了有意義的參考,提高工作效率。③此次模型是通過參考其他領域的建模與預測,選擇時間序列的方法進行建模,取得較好的預測效果。在以后的分析中可以嘗試選擇其他的方法進行建模預測。
該模型預測了2013年前2個季度的溺亡浮尸人數(shù),預測精度在第2個月開始降低,此情況和時間序列模型本身就是短期預測的特征相符,時間跨度越長模型的預測效果越差的特點相同。如果希望進行更長期的預測,則應在此基礎上引入更為敏感的參數(shù)或者輔助變量,用于進一步控制序列相關性的干擾,以保持模型的穩(wěn)定性同時提高模型的精確度[1]。針對模型的建立后預測精度下降,分析原因可能是①模型本身的特點。該次研究以季度為單位進行預測,降低了數(shù)據(jù)的時間單位跨度,因此呈現(xiàn)出一定的時間序列內部計數(shù)數(shù)據(jù)的序列相關性干擾[5],影響溺亡浮尸本身非負、隨機、整數(shù)的特點,在模型的準確度上即呈現(xiàn)長期預測準確度下降。②數(shù)據(jù)收集的準確程度。溺亡浮尸數(shù)量的記錄和歸檔是人工操作,有人為因素導致誤差的可能。該研究數(shù)據(jù)來源地域選取珠江主航道廣州段,在上下游交界處,有可能是非該區(qū)域內溺亡浮尸人群被發(fā)現(xiàn)或者是該區(qū)域內溺亡浮尸的人群在隨著潮汐的改變,順水漂流出該區(qū)域,導致統(tǒng)計溺亡浮尸數(shù)量的誤差。
[1]張路.重慶市某區(qū)交通事故流行病學分析及預測模型研究[D].重慶:第三軍醫(yī)大學,2006.
[2]Sharma P,Khare M.Application of intervention analysis for assessing the effectiveness of CO pollution control legislation in India[J].Transp Res,1999(4):427-432.
[3]Goh B.The dynamic effects of the Asian financial crisis on construction demand and tender price levels in Singapore[J]. Build Environ,2005,40(2):267-276.
[4]李琳,左其亭.城市用水量預測方法及應用比較研究[J].水資源與水工程學報,2005,16(3):6-10.
[5]Kedem B,F(xiàn)okianos K.Regression Models for Time Series Analysis[B].Wiley Interscience,Hoboken,NJ,2002.
PrimaryExplorationofDrownedBodiesARIMAModelFloatingin Guangzhou Section of the Main Channel of the Pearl River
LI Xu1,GONG Mao-hua2
1.Water branch of Bureau of Public Security of Guangzhou Municipality,Guangzhou,Guangdong Province,510235 China;2.Bureau of Public Security of Shantou,Shantou,Guangdong Province,515011 China
ObjectiveTo establish the ARIMA model according to the time sequence produced by the drowned bodies floating in Guangzhou section of the main channel of the Pearl River from 2003 to 2012 collected by the legal examiners in various seasons thus providing reference for the statistical work of water legal examiners.MethodsThe drown bodies in each season in each year were counted by excel,and the statistical list was established,and the ARIMA model of time sequence was established by SAS software and tested.ResultsThrough to select fitting model,model fitting fixed order of hydrophobic model ARIMA((2)0(2)).ConclusionThe ARIMA(2)0(2)model was successfully constructed,and the better effect is obtained by testing the drown bodies number in the first two seasons in 2013.
ARIMA model;Floater;Legal examiner
R7
A
1672-5654(2016)12(c)-0022-03
10.16659/j.cnki.1672-5654.2016.36.022
2016-09-29)
李旭(1982.9-),男,四川成都人,本科,主檢法醫(yī)師,研究方向:法醫(yī)學。