□ 王詩語(青島經(jīng)濟技術開發(fā)區(qū)第一中學 山東 青島 266580)
基于非線性回歸和BP神經(jīng)網(wǎng)絡的奧運會獎牌預測模型
□ 王詩語(青島經(jīng)濟技術開發(fā)區(qū)第一中學 山東 青島 266580)
本文通過考察各國上一屆獎牌數(shù)、總人口、人均GDP、社會制度和東道主等5個因素對奧運獎牌獲得能力的影響,并建立多元非線性回歸模型,經(jīng)參數(shù)優(yōu)化獲得最佳預測模型。同時在這些分類匯總數(shù)據(jù)的基礎上,建立BP神經(jīng)網(wǎng)絡預測模型,最后實現(xiàn)對2020年東京奧運會獎牌榜前十位的預測。
奧運獎牌預測 多元非線性回歸 人工神經(jīng)網(wǎng)絡
2016年8月,第三十一屆夏季奧林匹克運動在巴西里約熱內(nèi)盧成功舉行,中國代表隊取得了金牌第三,獎牌榜第二的好成績。奧運會期間,獎牌榜排名成為人們關注的焦點,而在奧運會開賽之前,很多數(shù)學家、經(jīng)濟學家以及體育數(shù)據(jù)統(tǒng)計公司紛紛推出各自預測模型和虛擬獎牌榜。
達特茅斯大學塔克商學院的研究者發(fā)布了一份關于2016年里約奧運會各代表團奪金、銀牌數(shù)的預測報告,其在Bernard-Busse模型的基礎上并根據(jù)國家(或地區(qū))人口、財富的相對水平、歷屆奧運會表現(xiàn)和主辦國的加成實現(xiàn)獎牌榜預測。而國內(nèi)在奧運獎牌預測領域也有著廣泛的研究,董琦等采用支持向量機非線性擴展樣本對時間序列模型定階,通過分析新樣本加入訓練集后支持向量集變化的情況,從而構建一種支持向量機的奧運金牌預測的模型。該模型的預測效果和傳統(tǒng)時間序列模型預測相比,具有主觀度低,預測精度高,預測穩(wěn)定性更好的優(yōu)點。郭愛民等基于灰色理論預測里約奧運會金牌榜次序,張玉華等基于線性回歸動態(tài)模型對里約奧運會獎牌數(shù)進行預測。通過對2020年東京奧運會獎牌的科學預測,可以提高各項體育工作的預見性,促進訓練工作的科學化。
在 Wikipedia(維基百科)All-time Olympic Games medal table詞條下,獲取到歷屆奧運會的獎牌數(shù)據(jù),用VLOOKUP函數(shù)進行獎牌數(shù)據(jù)的分類整理,從世界銀行數(shù)據(jù)庫獲得各國歷年的總人口數(shù)和人均GDP數(shù)據(jù),而對數(shù)量級較大的數(shù)據(jù)需進行對數(shù)處理。
首先將上述分類匯總后奧運獎牌數(shù)據(jù)整理成時間序列形式,通過自回歸分析來求解模型參數(shù)。再根據(jù)回歸分析結果中R2(擬合優(yōu)度)、SSE(殘差平方和)Significance F、P value(顯著性水平)等參數(shù)以及通過測試集獲得的ρ(相關系數(shù))和MSE(均方差)兩個指標進行權衡,對預測模型進一步的調(diào)優(yōu)。
利用Microsoft Excel軟件進行回歸分析,建立模型如式1所示。
式中A為各國獲得獎牌的能力(獎牌數(shù)占總獎牌數(shù)的比例),A0為各國獲得獎牌的能力,b為截距,P為總人口,G為人均GDP,S為社會制度,H為東道主,其中 S和 H均采用虛擬變量(0,1),P和G均取對數(shù)形式。
首先根據(jù)自回歸分析的結果分析:從表1,可以看出log(G)和S的P-value值都遠大于0.05,log(P)的P-value值小于 0.05但大于0.01,擬合優(yōu)度R2的值為0.9313,結果不夠理想。
表1 自回歸分析結果Table1 The results of autoregressive analysis
因此,通過減少相關性弱的模型參數(shù)來考察模型預測性能的變化,結果如下表2。
表2 模型變量的增減對模型性能的影響Table2 The effect of model variables on model performance
從上表可以看出,舍棄變量log(G)、log(P)和S后,模型性能測試的相關系模型性能測試的相關系數(shù)略增大,均方差略增大。
由于選取是排名前30位的國家,人均GDP水平和奧運獎牌獲得能力相關性不好(相關系數(shù)0.23),相比之下,總人口和奧運金(獎)牌獲得能力相關性較好(相關系數(shù)0.65),同時隨著全球化的趨勢,社會制度對奧運奪金(獎)能力影響日益減小,而且排名前三十的國家僅有兩個社會主義國家,因此從模型的穩(wěn)定性和拓展性上,考慮舍棄變量log(G)、S,保留變量log(P)。
經(jīng)過參數(shù)優(yōu)化后的預測模型如式1-2所示:
在模型參數(shù)方面,選用上一屆獲金(獎)牌數(shù)據(jù),總人口數(shù)、人均GDP、社會制度和東道主來衡量各個因素對金(獎)牌總數(shù)的影響,經(jīng)過模型參數(shù)的優(yōu)化,舍棄了人均GDP、社會制度兩個參數(shù),整體預測效果良好。
圖1 模型預測結果Fig1 The results of model prediction
從預測結果來看,里約奧運會上,中國顯然沒有取得預期的成績,俄羅斯由于禁賽事件,也未能達到預期,第十三位的巴西充分發(fā)揮東道主的優(yōu)勢,取得了高于預期的成績。
人工神經(jīng)網(wǎng)絡作為一種智能算法,它對于那些變量之間相互關系不清楚,很難用簡單的線性或非線性數(shù)學模型進行描述的復雜問題,具有獨特的優(yōu)越性,且有容易擴充的優(yōu)點。
BP神經(jīng)網(wǎng)絡模型拓撲結構包括輸入層、隱層和輸出層,如圖2所示。該BP網(wǎng)絡采用訓練方法是動量的梯度下降法。
圖2 BP神經(jīng)網(wǎng)絡模型Fig2 BP neural network model
(1)數(shù)據(jù)預處理。
主要包括的樣本數(shù)據(jù)的采集、分析和預處理。將匯總的120組數(shù)據(jù)隨機分為訓練集和預測集兩組,同時為了提高神經(jīng)網(wǎng)絡的訓練效率,需要對原始數(shù)據(jù)進行歸一化處理,使數(shù)值分布在[0,1]的區(qū)間上。
(2)網(wǎng)絡的創(chuàng)建。
將上一屆獲獎牌能力、總人口、人均GDP、社會制度和東道主等五個變量作為輸入變量,將本屆獲金(獎)牌能力作為輸出變量,隱層神經(jīng)元數(shù)為4,確定包括網(wǎng)絡層數(shù)的確定、網(wǎng)絡神經(jīng)元數(shù)確定、傳遞函數(shù)選取Sigmoid函數(shù)中的tansig函數(shù)、初始權值以取[0,l]之間的隨機數(shù)、學習率為0.1等。構建一個5-4-1型的三層BP神經(jīng)網(wǎng)絡。
(3)網(wǎng)絡的訓練。
采用訓練集數(shù)據(jù),對網(wǎng)絡進行訓練,訓練函數(shù)選為traingdm,動量因子設為0.9,最大迭代次數(shù)設為5000,最大迭代誤差為0.0001。
(4)網(wǎng)絡的測試。
訓練完成后,調(diào)用sim函數(shù)對預測集數(shù)據(jù)進行仿真預測,得到預測結果與實驗值的誤差情況,考察網(wǎng)絡的精度。進行多次訓練,根據(jù)測試集結果的相關系數(shù)和均方差選擇一個最優(yōu)的網(wǎng)絡保存并作為預測模型使用。部分測試結果如下表3所示:
表3 BP網(wǎng)絡模型測試結果Table3 Test results from BP net model
經(jīng)過訓練,選擇最優(yōu)的BP網(wǎng)絡進行預測,測試結果如圖3所示。
圖3 BP網(wǎng)絡模型預測結果Fig3 The results of BP net model prediction
人工神經(jīng)網(wǎng)絡預測模型能夠充分逼近復雜的非線性關系,快速進行大量運算,預測的精度也較高,適合作為奧運獎牌預測的模型。從預測結果來看,和多元非線性回歸模型獲得的信息基本一致。
為了實現(xiàn)對2020年奧運會獎牌的預測,現(xiàn)從世界銀行數(shù)據(jù)庫獲得2013-2015年的人口增長率和人均GDP增長率,計算平均值作為從2015-2020間的平均增長率,最終獲得2020年的總人口、人均GDP等數(shù)據(jù),加上里約奧運獎牌數(shù)據(jù),代入到式2中,并將結果轉化成2020年獎牌的預測值,匯總后如表4所示:
表4 多元非線性回歸模型預測奧運獎牌榜Table4 Olympic Medal standings from multivariate nonlinear regression model
以BP網(wǎng)絡模型對2020年奧運會各國獲獎牌能力進行預測,再將結果轉化為2020年各國的獎牌數(shù)據(jù),并進行排名,結果如表5所示。
表5 BP網(wǎng)絡模型預測奧運獎牌榜Table5 Olympic Medal standings from BP net model
利用多元非線性回歸模型和人工神經(jīng)網(wǎng)絡模型對2020年東京奧運會的獎牌榜前十名進行預測。
從模型的評價來看,多元非線性回歸模型和人工神經(jīng)網(wǎng)絡預測模型都適合作為奧運獎牌預測的模型,其中前者在預測精度方面表現(xiàn)更好,后者在建模時間和運算效率上占優(yōu),兩者均有不錯的提升空間和拓展能力。
從2020年東京奧運會獎牌榜的前十位的情況來看,日本由于是東道主,奧運會成績會有顯著的提升,美國、中國和英國依舊是三甲的有力競爭者,俄羅斯由于此次的禁賽事件的影響,預期成績有所下降,韓國由于在跆拳道和射箭項目上的強勢表現(xiàn),成績穩(wěn)定前十。
[1]Bernard A B,Busse M R.Who Wins the Olympic Games:Economic Resources and Medal Totals[J].Review of Economics&Statistics,2006,86(1).
[2]董琦,高峰.利用支持向量機方法預測2016年里約奧運會中國獎牌數(shù)目[J].運動,2016(3).
[3]張玉華.基于線性回歸動態(tài)模型的中國第31屆奧運會獎牌數(shù)預測[J].河南師范大學學報(自然科學版),2013,(02).
[4]郭愛民,趙明發(fā).基于灰色理論預測2016年夏季奧運會金牌榜次序[J].中國科技信息,2013(9).
[5]毛健,趙紅東,姚婧婧.人工神經(jīng)網(wǎng)絡的發(fā)展及應用[J].電子設計工程,2011,(24).
G80
A
1006-8902-(2017)-12-ZL