李 響
(遼寧師范大學(xué)附屬中學(xué) 大連 116023)
奧運(yùn)會是目前世界上影響力最大的體育盛會,從系統(tǒng)科學(xué)的觀點(diǎn)看,奧運(yùn)會賽事是一個動態(tài)復(fù)雜的大系統(tǒng),如何科學(xué)而準(zhǔn)確地建立比賽成績的預(yù)測模型,揭秘獎牌背后的規(guī)律,具有廣泛而深遠(yuǎn)的現(xiàn)實(shí)意義。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,越來越多的研究者們將不同的算法和工具應(yīng)用到奧運(yùn)會獎牌榜的分析、預(yù)測中,所建立的預(yù)測模型主要分為三類:時間序列預(yù)測模型、經(jīng)驗(yàn)?zāi)P图爸悄芑A(yù)測模型。如黃昌美、李坤等建立了灰色關(guān)聯(lián)模型對田徑、男籃等賽事進(jìn)行分析和預(yù)測[1~2];張龍、孟剛等進(jìn)行了奧運(yùn)會田徑項(xiàng)目金牌時空動態(tài)演變分析[3];王國凡、趙武等提出了遺傳算法與回歸分析相結(jié)合的奧運(yùn)會成績預(yù)測方法[4];龔劍等研究了基于人工神經(jīng)網(wǎng)絡(luò)的奧運(yùn)會中國男籃成績預(yù)測模型[5]。上述研究為本研究提供了借鑒和參考,但是這些研究所使用的實(shí)驗(yàn)環(huán)境大都是Matlab、SPSS之類的傳統(tǒng)工具,雖然這些工具在統(tǒng)計(jì)分析、繪圖展示等方面具有強(qiáng)大的功能,但是這些工具都不是開源免費(fèi)的,使得很多功能的使用受到了限制。為此,本研究選取免費(fèi)開源且具有豐富算法包的R語言作為實(shí)驗(yàn)環(huán)境,使用時間序列分析方法挖掘出歷屆奧運(yùn)會的歷史成績間的時序關(guān)聯(lián)關(guān)系,從而建立預(yù)測模型,預(yù)測后續(xù)奧運(yùn)會賽事的獎牌數(shù)。
時間序列是按時間順序的一組數(shù)字序列,時間序列分析就是利用這組數(shù)列,應(yīng)用定量的數(shù)理統(tǒng)計(jì)方法加以處理,以預(yù)測未來事物的發(fā)展[6]。它的基本原理是:承認(rèn)事物發(fā)展的延續(xù)性,應(yīng)用歷史數(shù)據(jù)可以推測事物的發(fā)展趨勢;考慮到事物發(fā)展的隨機(jī)性,任何事物發(fā)展都可能受到偶然因素影響。
2.2.1數(shù)據(jù)平穩(wěn)性檢驗(yàn)
時間序列分析的基礎(chǔ)是選擇合適的數(shù)據(jù),通常要求數(shù)據(jù)是平穩(wěn)的(或差分后平穩(wěn)),可以說平穩(wěn)是時間序列分析非常重要的假設(shè),只有基于平穩(wěn)時間序列的預(yù)測才是有效的,因此平穩(wěn)性檢驗(yàn)是時間序列分析的關(guān)鍵環(huán)節(jié)。
所謂時間序列平穩(wěn)指的是:假定某個時間序列由某一隨機(jī)過程生成,即假定時間序列{Xt}(t=1,2,…)的每一個數(shù)值都是從一個概率分布中隨機(jī)得到的。如果經(jīng)由該隨機(jī)過程所生成的時間序列滿足下列條件:
1)均值E(Xt)=m是與時間t無關(guān)的常數(shù);
2)方差Var(Xt)=s^2是與時間t無關(guān)的常數(shù);
3)協(xié)方差Cov(Xt,Xt+k)=gk 是只與時期間隔k有關(guān),與時間t無關(guān)的常數(shù);
則稱經(jīng)由該隨機(jī)過程而生成的時間序列是(弱)平穩(wěn)的。該隨機(jī)過程便是一個平穩(wěn)的隨機(jī)過程。
平穩(wěn)性檢驗(yàn)即單位根檢驗(yàn),就是檢驗(yàn)序列中是否存在單位根,如果不存在單位根則認(rèn)為序列是平穩(wěn)的,檢驗(yàn)方法主要包括adf檢驗(yàn)、kpss檢驗(yàn)、pp檢驗(yàn)等[7],adf檢驗(yàn)是最常用的方法。adf檢驗(yàn)的原假設(shè)是存在單位根(即序列不平穩(wěn)),檢驗(yàn)結(jié)果如果p值小于0.05則拒絕原假設(shè),認(rèn)為序列平穩(wěn);如果p值大于0.05則接受原假設(shè),認(rèn)為序列不平穩(wěn)。
2.2.2時間序列模型與模型參數(shù)的確定
常用的時間序列模型包括ar、ma、arma等,這些模型全部建立在時序平穩(wěn)的基礎(chǔ)上[8]。arma模型的全稱為Auto-Regressive and Moving Average Model,即自回歸滑動平均模型,它由自回歸模型(即ar模型)與滑動平均模型(即ma模型)為基礎(chǔ)混合構(gòu)成。實(shí)際應(yīng)用中考慮到原始數(shù)據(jù)序列未必穩(wěn)定,需要進(jìn)行差分處理,因此引入了改進(jìn)的arma模型—arima模型。arima模型的具體形式為arima(p,d,q),這里的d是對原時序進(jìn)行逐期差分的階數(shù),差分的目的是為了讓某些非平穩(wěn)(具有一定趨勢的)序列變換為平穩(wěn)的,通常來說d的取值一般為0,1,2。當(dāng)d、q為0時,arima(p,d,q)等價于ar(p)模型;當(dāng)p,d為0時,arima(p,d,q)等價于ma(q)模型,當(dāng)d為0時,arima(p,d,q)等價于arma(p,q)模型。參數(shù)p、q的值通常通過自相關(guān)圖(簡稱acf圖)和偏自相關(guān)圖(簡稱pacf圖)觀察判斷,具體方法將在本文的第3部分闡述。
R語言是用于統(tǒng)計(jì)分析、繪圖的開源數(shù)據(jù)分析軟件,由一個龐大且活躍的全球性研究型社區(qū)維護(hù)。與其它流行的統(tǒng)計(jì)軟件(如Excel、Matlab、SAS、SPSS)相比,R語言的優(yōu)勢主要體現(xiàn)在:開源免費(fèi)、易于擴(kuò)展、數(shù)據(jù)包豐富、可視化功能強(qiáng)大、可運(yùn)行于多種平臺。
本研究所使用的數(shù)據(jù)來自國際奧組委官方網(wǎng)站(www.olympic.org),研究中對中國、美國、俄羅斯、英國、法國、德國、意大利等奧運(yùn)強(qiáng)國的比賽成績進(jìn)行了初步分析,認(rèn)為法國的奧運(yùn)會獎牌數(shù)據(jù)最適合用來做時間序列預(yù)測研究。因?yàn)閺?948~2016年,法國每四年都會參加夏季奧運(yùn)會,從未間斷過,歷史數(shù)據(jù)最豐富且具有明顯的周期性,如表1所示。
表1 法國歷屆夏奧會獎牌數(shù)
我們將表1的數(shù)據(jù)保存到d:france.csv文件中作為實(shí)驗(yàn)數(shù)據(jù)。
3.2.1平穩(wěn)性檢驗(yàn)
根據(jù)前文所述的時間序列分析的基本原理,首先需要從定量的角度對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行平穩(wěn)性檢驗(yàn)[9]。在R語言中可以使用tseries包提供的adf.test()、kpss.test()、pp.test()等函數(shù)進(jìn)行平穩(wěn)性檢驗(yàn),通常選取一種檢驗(yàn)方法即可。平穩(wěn)性檢驗(yàn)的R語句如下:
1)讀入數(shù)據(jù)
mydata<-read.csv(“d:\france.csv”,header=T)
2)選取目標(biāo)列生成時間序列
表1中的gold、silver、bronze數(shù)據(jù)列分別代表金牌、銀牌、銅牌數(shù),可以任選一列生成時間序列。以silver這一列為例,使用ts()函數(shù)將silver列的數(shù)據(jù)生成時間序列:
ps<-ts(mydata$silver)
3)繪制時間序列圖,從形狀上大體判斷是否平穩(wěn)
使用下列語句可以繪制上述時間序列圖:
plot(ps,main=“silver”)
繪制出的時間序列圖如圖1所示。從圖1可以看出,銀牌數(shù)據(jù)近幾屆有明顯的上升趨勢,但也存在起伏,初步斷定原始數(shù)據(jù)并不平穩(wěn)。
圖1 法國歷屆夏奧會銀牌數(shù)時間序列
4)使用adf.test()函數(shù)檢驗(yàn)平穩(wěn)性
使用adf.test()可以進(jìn)一步從定量的角度明確數(shù)據(jù)序列是否平穩(wěn)。語句如下:
library(“tseries”)
adf.test(ps)
該命令的執(zhí)行結(jié)果為
Augmented Dickey-Fuller Test
data:ps
Dickey-Fuller=-1.558,Lag order=2,p-value=0.7407
alternative hypothesis:stationary
對于adf檢驗(yàn),我們可以通過判斷結(jié)果中的p-value值來確定序列是否平穩(wěn),如果p-value小于臨界值0.05則認(rèn)為序列是平穩(wěn)的。因此,silver列的原始數(shù)據(jù)不平穩(wěn)。
如果序列經(jīng)檢驗(yàn)后不平穩(wěn),則需要進(jìn)行差分,直到某階差分平穩(wěn)為止[10];如果最高階差分后仍不平穩(wěn),則認(rèn)為數(shù)據(jù)無規(guī)律,時間序列分析中止。因此需要對silver列的數(shù)據(jù)進(jìn)行差分處理,先做1階差分,語句如下:
d1<-diff(ps,1)
繪制差分后的時序圖:
plot(d1,main=“一階差分”)
運(yùn)行結(jié)果如圖2所示。
圖2 銀牌數(shù)據(jù)一階差分后的結(jié)果
對比圖1和圖2發(fā)現(xiàn),差分后的數(shù)據(jù)明顯比原始數(shù)據(jù)平穩(wěn)了很多。進(jìn)一步用adf.test()檢驗(yàn)差分后的數(shù)據(jù)是否平穩(wěn):
adf.test(d1)運(yùn)行結(jié)果為
Augmented Dickey-Fuller Test
data:d1
Dickey-Fuller=-3.6109,Lag order=2,p-value=0.04922
alternative hypothesis:stationary
從結(jié)果可以看出p-value小于臨界值0.05,可以認(rèn)為1階差分后的數(shù)據(jù)是平穩(wěn)的,差分的階數(shù)就是arima(p,d,q)模型中參數(shù)d的值,因此,可以斷定預(yù)測模型應(yīng)該是arima(p,1,q),下一步的任務(wù)是確定p和q的值。
做好綠色植保建設(shè)。以項(xiàng)目實(shí)施規(guī)模為以及,進(jìn)行了5盞太陽能殺蟲燈配備,安裝了2800黃板,藍(lán)板600張,食誘箱30個。
3.2.2根據(jù)自相關(guān)圖和偏自相關(guān)圖定階p、q
arima模型中參數(shù)p、q的確定其實(shí)是比較復(fù)雜的,在實(shí)際應(yīng)用中通常使用觀察法,也就是繪制自相關(guān)圖(acf圖)和偏自相關(guān)圖(pacf圖),如果acf圖在q+1處突然截?cái)?,則在q處截尾,可確定參數(shù)q;同理,如果pacf圖在p處截尾,則可確定參數(shù)p。
在R語言中可以使用forecast包或stats包中的acf()和pacf()函數(shù)來繪制自相關(guān)圖和偏自相關(guān)圖,對于上述一階差分后的平穩(wěn)數(shù)據(jù),使用如下語句:
acf(d1)
繪制出的自相關(guān)圖如圖3所示。從圖3可以看出,自相關(guān)圖在1階處超過臨界值,2階之后值逐漸減小,因此,認(rèn)為q取1比較合適。
圖3 自相關(guān)圖
接著使用pacf()函數(shù)繪制偏自相關(guān)圖:
pacf(d1)
圖4 偏自相關(guān)圖
3.2.3預(yù)測模型的構(gòu)建及檢驗(yàn)
確定好arima模型中的參數(shù)后,在R語言中可以使用stats包中的arima()函數(shù)構(gòu)建預(yù)測模型,語句如下:
model<-arima(ps,order=c(1,1,1))
構(gòu)建完模型后,需要對模型進(jìn)行檢驗(yàn),只有通過檢驗(yàn),才證明是可靠、有效的模型,才能用來進(jìn)行后續(xù)的預(yù)測。實(shí)質(zhì)上是對模型殘差序列進(jìn)行白噪聲檢驗(yàn)。若殘差序列不是白噪聲,說明還有一些重要信息沒被提取,應(yīng)重新設(shè)定模型[11]。通常對殘差序列進(jìn)行白噪聲檢驗(yàn)使用Ljung-Box檢驗(yàn),在R語言中可以使用stats包中的Box.test()函數(shù)進(jìn)行該項(xiàng)檢驗(yàn),語句如下:
Box.test(model$residuals)
model$residuals表示模型的殘差序列,檢驗(yàn)結(jié)果如下:
Box-Pierce test
data:model$residuals
X-squared=0.2588,df=1,p-value=0.6109
從結(jié)果可以看出,p-value大于臨界值0.05,所以認(rèn)為模型的殘差序列為白噪聲序列,模型通過檢驗(yàn),建立成功。
3.2.4使用模型進(jìn)行預(yù)測
模型建立成功后,可以用來進(jìn)行預(yù)測,比如預(yù)測下一次奧運(yùn)會法國的銀牌數(shù)目,在R語言下可使用如下語句:
predict(model,n.ahead=1)
預(yù)測結(jié)果如下:
$pred
Time Series:
Start=19
End=19
Frequency=1
[1]12.48319
$se
Time Series:
Start=19
End=19
Frequency=1
[1]2.95902
上面結(jié)果中,變量$pred表示預(yù)測值,變量$se為誤差。
本研究使用時間序列分析挖掘奧運(yùn)會歷史成績中存在的時序關(guān)聯(lián)關(guān)系,并以法國歷屆夏奧會的銀牌數(shù)為實(shí)驗(yàn)數(shù)據(jù),在R語言下根據(jù)時間序列分析原理,建立了預(yù)測模型并作了模型檢驗(yàn),成功預(yù)測出下一屆賽事法國的銀牌數(shù)。使用同樣的方法也可以對金牌數(shù)和銅牌數(shù)進(jìn)行預(yù)測。研究結(jié)果表明:
1)對于簡單、穩(wěn)定或周期性的數(shù)據(jù),使用時間序列分析建立預(yù)測模型具有較好的效果。但是,時間序列分析并不適用于任何數(shù)據(jù),比如,對于有明顯上升趨勢的中國體育競賽成績而言,使用時間序列預(yù)測,預(yù)測值可能會低于實(shí)際值。
2)奧運(yùn)會比賽成績的影響因素很多,除了可以從歷史數(shù)據(jù)中找尋規(guī)律外,還應(yīng)該全面考慮綜合國力、東道主效應(yīng)等其他因素,使用神經(jīng)網(wǎng)絡(luò)、遺傳算法等智能方法進(jìn)行更加完善的預(yù)測。這也是本研究的后續(xù)研究方向。
[1]黃昌美.奧運(yùn)會田徑運(yùn)動成績的灰預(yù)測建模及其變化發(fā)展趨勢分析[D].湘潭:湖南科技大學(xué),2012.HUANG ChangMei.Grey Prediction modeling and Development Trend Analysis ofOlympic Track and Field Events Achievement[D].Xiangtan:Hunan University of Science and Technology,2012.
[2]李坤.第29屆奧運(yùn)會中國男籃技術(shù)指標(biāo)的灰色關(guān)聯(lián)分析[D].北京:北京體育大學(xué),2010.LIKun.Grey Incidence Analysis of Technical Statistic of Chinese Men's Basketball Team in the 29th Olympic Games[D].Beijing:Beijing SportUniversity,2010.
[3]張龍,孟剛,郭朝廷.奧運(yùn)會田徑項(xiàng)目金牌時空動態(tài)演變分析[J].中國體育科技,2013,49(5):17-27.ZHANG Long,MENGGang,GUOChanting.Dynamic Evolution of Gold Medal Time and Space of Olympic Games Athletics[J].China Sport Science and Technology,2013,49(5):17-27.
[4]王國凡,趙武,劉徐軍,等.基于GA和回歸分析的奧運(yùn)會成績預(yù)測研究[J].中國體育科技,2011,47(1):4-8,16.WANG Guofan,ZHAO Wu,LIU Xujun,et al.Olympic Performance Prediction based on GA and Regression Analysis[J].China Sport Science and Technology,2011,47(1):4-8,16.
[5]龔劍.基于人工神經(jīng)網(wǎng)絡(luò)2008奧運(yùn)會中國男籃成績預(yù)測實(shí)驗(yàn)研究[D].武漢:武漢體育學(xué)院,2007.GONG Jian.An Empirical Analysis of The Chinese Men's Basketball Achievement PredictioninTheOlympic Games of 2008 Based on ANN[D].Wuhan:Wuhan Institute of Physical Education,2007.
[6]首招勇,楊媛媛.時間序列問題的建模方法和過程[J].數(shù)學(xué)理論與應(yīng)用,2012,32(1):112-120.SHOU Zhaoyong,YANG Yuanyuan.On the Modelling of Time Series[J].Mathematical Theory and Applications,2012,32(1):112-120.
[7]管河山,鄒清明,羅智超.時間序列平穩(wěn)性分類識別研究[J].統(tǒng)計(jì)與信息論壇,2016,31(4):3-8.GUAN Heshan,ZOU Qingming,LUO Zhichao.Study on Classification and Identification of Time Series Stationarity[J].Statistics&Information Forum,2016,31(4):3-8.
[8]王娜.時間序列建模、預(yù)報(bào)的原理[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2012,23(3):78-80.WANG Na.Time Series Modeling,F(xiàn)orecast Principle[J].Journalof Jilin Teachers Institute of Engineering and Technology,2012,23(3):78-80.
[9]劉羅曼.時間序列平穩(wěn)性檢驗(yàn)[J].沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,28(3):357-359.LIU Luoman.Checking of Time Series Stationarity[J].Journalof Shenyang Normal University(Natural Science),2010,28(3):357-359.
[10]麥鴻坤,肖堅(jiān)紅,吳熙辰,等.基于R語言的負(fù)荷預(yù)測ARIMA模型并行化研究[J].電網(wǎng)技術(shù),2015,39(11):3216-3220.MAI Hongkun,XIAO Jianhong,WU Xichen,et al.Research on ARIMA Model Parallelization in Load Prediction Based on R Language[J].Power System Technology,2015,39(11):3216-3220.
[11]劉瑤.基于ARMA模型的人民幣匯率預(yù)測研究——以人民幣兌美元匯率為例[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,16(2):53-58.LIU Yao.Research on RMB Exchange Rate Prediction Based on ARMA Model——A Case Study of RMB againstUSD[J].Journalof Lang fang Teachers University(Natural Science Edition),2016,16(2):53-58.