王國凡,趙 武,劉徐軍,豐淑慧,薛二劍,陳 林,王 波
目前,奧運(yùn)會成績預(yù)測方法主要有時間序列模型、以計量經(jīng)濟(jì)學(xué)原理建立的經(jīng)驗?zāi)P秃蜕窠?jīng)網(wǎng)絡(luò)模型。其中,基于計量經(jīng)濟(jì)學(xué)原理建立的回歸分析模型能綜合分析奧運(yùn)會成績的影響因素,為定量預(yù)測奧運(yùn)會成績提供了依據(jù),也最受廣大學(xué)者關(guān)注[8]。經(jīng)筆者研究發(fā)現(xiàn),單純運(yùn)用經(jīng)濟(jì)學(xué)原理提出的預(yù)測模型可能適合一個或若干個國家,但把它應(yīng)用到所有國家是缺乏依據(jù)的,其預(yù)測結(jié)果也往往不能令人滿意[9]。為此,本研究提出了一種將遺傳算法(Genetic Algorithm,簡稱 GA)、競技體育實力評估和回歸分析有機(jī)結(jié)合的預(yù)測方法。基于 GA對競技體育實力進(jìn)行動態(tài)優(yōu)化且實現(xiàn)有監(jiān)督評估,在此基礎(chǔ)上,依據(jù)回歸分析建立奧運(yùn)會成績預(yù)測模型。計算結(jié)果表明,該模型是一種較高精度的預(yù)測方法。
關(guān)于奧運(yùn)會成績預(yù)測模型的研究目前主要可歸納為基于時間序列預(yù)測模型、經(jīng)驗?zāi)P图吧窠?jīng)網(wǎng)絡(luò)模型。時間序列預(yù)測模型由于沒有考慮其他任何影響因素,預(yù)測結(jié)果偶然性大[8];神經(jīng)網(wǎng)絡(luò)預(yù)測模型雖優(yōu)于多元線性回歸模型[13],但神經(jīng)網(wǎng)絡(luò)模型容易陷入局部最優(yōu)和“黑箱”式學(xué)習(xí)模式等缺陷;基于計量經(jīng)濟(jì)學(xué)原理建立的經(jīng)驗?zāi)P褪钱?dāng)前國內(nèi)、外研究的熱點(diǎn)。奧運(yùn)會成績預(yù)測的計量經(jīng)濟(jì)學(xué)模型是基于計量經(jīng)濟(jì)學(xué)原理研究體育問題,根據(jù)影響因素集建立的經(jīng)驗?zāi)P?。較早關(guān)于這方面的研究成果有 Ball (1972)[11]、Grimes A Ray等 (1974)[15]和 Levine N (1974)[16],即根據(jù)國家性質(zhì)與經(jīng)濟(jì)水平等因素集研究對國家在奧運(yùn)會競賽中成績的影響。隨后的研究案例中,由Bernard與Busse(2004)[12]提出利用柯布—道格拉斯生產(chǎn)函數(shù)建立了獎牌數(shù)分部的多元非線性模型:
式中:
Me表示第i個國家在當(dāng)屆奧運(yùn)會取得的獎牌數(shù)(medalsi)與當(dāng)屆奧運(yùn)會總獎牌數(shù)(∑imedalsi)的比值。
(1)式中,t為時間趨勢;POP為當(dāng)年參賽國人口數(shù); PGDP為當(dāng)年參賽國人均 GDP;Home為虛擬變量,Home=1表示奧運(yùn)會主辦國,Home=0表示非主辦國;P為虛擬變量,P=1為社會主義國家,P=0為資本主義國家;β0為常數(shù);βj(j=1,…,5)為各解釋變量的系數(shù)。
此后,更多人們的目光聚集到該研究上,也使奧運(yùn)會成績預(yù)測一直為研究熱點(diǎn)[14]。王國凡等人(2010)[9]指出,傳統(tǒng)模型的缺陷在于:單純運(yùn)用經(jīng)濟(jì)學(xué)原理建立的預(yù)測模型可能適合一個或若干個國家,但把它應(yīng)用到所有國家是缺乏依據(jù)的,提出參賽國的競技體育實力對奧運(yùn)會成績存在重要的影響,并以此為依據(jù),在以Bernard與Busse的模型基礎(chǔ)上,建立了基于競技體育實力評估的多元非線性模型:
式中:C為參賽國競技體育實力等級,其他參數(shù)與式(1)、(2)相同;各個國家的競技體育實力等級C是利用聚類分析獲得的。研究結(jié)果表明,此方法比傳統(tǒng)的回歸分析預(yù)測精度高,具有較高的可行性。
從模型(3)可以發(fā)現(xiàn),參賽國競技體育實力評估是該預(yù)測研究的重點(diǎn)也是難點(diǎn)。但現(xiàn)有的關(guān)于競技體育實力評估均是無監(jiān)督聚類方法[1-4,6],此方法的缺陷在于利用什么的數(shù)據(jù)集作為聚類分析、選擇何種聚類分析方法、金牌與獎牌數(shù)評估是否等同、聚類數(shù)為多少等確定非常困難,往往只能根據(jù)經(jīng)驗估計確定,這些憑主觀估值的方法必將帶來算法精確度的下降。
考慮到以上案例存在的缺陷,筆者考慮使用 GA對競技體育實力進(jìn)行監(jiān)督評估,GA將目標(biāo)函數(shù)轉(zhuǎn)化為基因組群,以適應(yīng)度函數(shù)為優(yōu)化目標(biāo),通過基因操作得到下一代優(yōu)化基因組合,如此反復(fù)迭代,直到滿足最優(yōu)收斂目標(biāo)為止。
3.1 GA優(yōu)化競技體育實力評估總描述
GA能得以廣泛應(yīng)用的一個重要原因,是它的全局收斂性,由于 GA群體的多樣性,使其盡可能在全方向上搜索,這比以往的梯度法只在單方向上搜索有很大改進(jìn),而且 GA在優(yōu)化問題上無需有連續(xù)性和可微性的限制[17]。最終可實現(xiàn)競技體育實力等級評估的動態(tài)優(yōu)化,在此基礎(chǔ)上,依據(jù)競技體育實力的多元非線性模型進(jìn)行預(yù)測,保證了預(yù)測精度高、客觀性強(qiáng)。
本研究提出的基于 GA優(yōu)化競技體育實力評估的預(yù)測模型流程如圖1所示:
圖1 預(yù)測模型算法流程圖
GA是以擬合優(yōu)度 R2來評價競技體育實力評估的好壞及預(yù)測精度,并將此目標(biāo)函數(shù)轉(zhuǎn)化為適應(yīng)度函數(shù)。算法開始先隨機(jī)產(chǎn)生群體,群體中的每組染色體代表參賽國的競技體育實力等級,根據(jù)適應(yīng)度函數(shù)對每1組染色體進(jìn)行評價,得到相應(yīng)的適應(yīng)度值,染色體的適應(yīng)度越大,則染色體所代表的競技體育實力評估得到了優(yōu)化且預(yù)測效果越好。根據(jù)適應(yīng)值可以算出每一條染色體在選擇操作中被選中的概率。根據(jù)選擇概率,選擇使用隨機(jī)遍歷抽樣法選出一群染色體,構(gòu)成新種群。根據(jù)交叉概率,選擇染色體進(jìn)行 GA交叉操作,最后根據(jù)變異概率,對染色體上部分基因位進(jìn)行變異操作,該操作使得在整個搜索過程中染色體代表的競技體育實力等級集具有多樣性,對競技體育實力起到了優(yōu)化作用,從而保證能夠找到最優(yōu)解。算法的結(jié)束條件是設(shè)置一個最大迭代次數(shù) Epochmax,方能保證 GA在結(jié)束條件達(dá)到以后求得的解是最優(yōu)解。
3.2 染色體編碼方案
編碼是 GA求解問題的前提,本研究對競技體育實力等級采用整數(shù)型編碼。在進(jìn)行染色體編碼前,首先,應(yīng)確定所有參賽國競技體育實力等級數(shù) C值的范圍[Cmin, Cmax]。一般情況下,最佳的聚類數(shù)不會超過 Cmax≤(N為數(shù)據(jù)集總數(shù))[10],因而,C的取值范圍可以設(shè)定為[2,]。
每條染色體所代表的是參賽國競技體育實力等級集,染色體長度就是參賽國家數(shù),染色體中的基因表示競技體育實力等級,具有相同基因表示競技體育實力等級為同一類。在C的取值范圍內(nèi)取一個整數(shù)k,表示該集合中參賽國含有k個競技體育實力等級,染色體可表示為:
染色體:[Z1,Z2,Z3,…,ZN],0≤Zi≤k-1,且Zi為整數(shù)。
例如,在本研究中選取N=62個參賽國家作為研究對象(表3),故最佳競技體育實力等級數(shù)為2≤C≤8,若k= 6,那么,染色體編碼為:
3.3 適應(yīng)度函數(shù)
根據(jù)染色體的編碼,將此編碼轉(zhuǎn)換為虛擬變量,為了避免“虛擬變量陷阱”,利用k-1個虛擬變量D1,D2,…,D(k-1)分別表示k個類別(如表1所示),根據(jù)模型(3)進(jìn)行多元非線性回歸分析,將回歸模型擬合優(yōu)度R2轉(zhuǎn)化為如(4)所示的目標(biāo)函數(shù):
式中:yi為觀測值,^yi為擬合值,為均值[18]。
表1 參賽國競技體育實力等級的虛擬變量設(shè)定一覽表
適應(yīng)度函數(shù)通常是用于轉(zhuǎn)換目標(biāo)函數(shù)值為相對適應(yīng)度值。為了防止過早收斂,可根據(jù)目標(biāo)函數(shù)值在種群中的排序計算適應(yīng)度值。根據(jù)個體的目標(biāo)函數(shù)值obj由小到大的順序進(jìn)行排序,根據(jù)排序的序號,給每一個等級的個體一個適應(yīng)度值,具有相同排序的非支配解分配相同的適應(yīng)度值,適應(yīng)度值按式(5)計算出:
式中:MAX表示選擇壓差,一般為[1,2]之間;xi是個體i在有序種群中的位置;Nid為種群數(shù);FinV(i)表示i位置上個體的適應(yīng)度值。本研究中選擇壓差設(shè)定為MAX=2。
由于R2值越高,預(yù)測越準(zhǔn)[5],那么,適應(yīng)度函數(shù)對于最終預(yù)測結(jié)果好的染色體給予一個較高的適應(yīng)值;反之,預(yù)測精度效果不好的染色體給予一個較低的適應(yīng)值。利用 GA對預(yù)測進(jìn)行優(yōu)化時其實質(zhì)就是要使擬合優(yōu)度R2優(yōu)化。
3.4 選擇算子
選擇算子是確定如何從父代群體中根據(jù)設(shè)定的代溝GGAP選出一定數(shù)目的優(yōu)良個體遺傳到下一代群體中的一種 GA,為了提高全局收斂性和計算效率,選擇方法采用隨機(jī)遍歷抽樣(SUS)。SUS是具有零偏差和最小個體擴(kuò)展的單狀態(tài)抽樣算法,替代用于輪盤方法的單個選擇指針, SUS使用S個相等距離的指針,這里S是指要求選擇的個數(shù)。種群被隨機(jī)排列,S個指針[ptr,ptr+1,ptr+2,…,ptr+S-1]確定S個個體,指針ptr+i(i=0,1,…,S-1)由在[1/S,i+1/S]內(nèi)產(chǎn)生的隨機(jī)數(shù)確定。
假定從10個個體中選擇S=6個個體且第一個指針的隨機(jī)位置為0.04(圖2),那么,指針間的距離為1/6= 0.17,故可根據(jù)指針ptr的位置和累計概率區(qū)間即可確定被選中的個體為:1,2,3,4,7,8。
圖2 隨機(jī)遍歷抽樣示意圖
3.5 變異算子
采用均勻變異(Simple Mutation),其操作是指分別用符合某一范圍內(nèi)均勻分布的隨機(jī)數(shù),以某一較小的概率來替換個體編碼串中各個基因座上的原有基因值,即對父代個體依變異概率Pm進(jìn)行操作,目的是防止過早收斂產(chǎn)生局部最優(yōu)解而非整體最優(yōu)解。
均勻變異的具體操作過程是:
1.依次指定個體編碼串中的每個基因座為變異點(diǎn);
2.對每一個變異點(diǎn),以變異概率Pm從對應(yīng)基因的取值范圍內(nèi)取一隨機(jī)數(shù)來替代原有值。
3.6 交叉算子
采用單點(diǎn)交叉,是指在個體編碼串中只隨機(jī)設(shè)置一個交叉點(diǎn),然后,在該點(diǎn)相互交換兩個配對個體的部分染色體。這里首先對群體中的個體隨機(jī)設(shè)定一個交叉位置,根據(jù)交叉概率Pc進(jìn)行操作,對兩個相互配對的染色體在交叉位置按單點(diǎn)交叉相互交換其部分基因,通過交換產(chǎn)生新一代群體。圖3為單點(diǎn)交叉運(yùn)算的示意圖。
單點(diǎn)交叉的具體執(zhí)行過程:
1.對個體進(jìn)行兩兩隨機(jī)配對,若群體大小為M,則共有[M/2]對相互配對的個體組;
2.對每一對相互配對的個體,隨機(jī)設(shè)置某一基因座之后的位置為交叉點(diǎn),若染色體的長度為N,則共有N-1個可能的交叉點(diǎn)位置;
3.對每一對相互配對的個體,依設(shè)定的交叉概率Pc在其交叉點(diǎn)處相互交換兩個個體的部分染色體,從而產(chǎn)生出兩個新的個體。
圖3 單點(diǎn)交叉運(yùn)算示意圖
為了評價預(yù)測精度及模型優(yōu)劣,本研究引入以下幾種誤差:
1.均方根誤差:
2.平均絕對百分比誤差:
3.平均絕對誤差:
4.Pearson相關(guān)系數(shù):
式(6)~(9)中:yi,^yi分別為實際值和預(yù)測值。
本研究所采用的數(shù)據(jù)來源同文獻(xiàn)[9],利用1992—2004年奧運(yùn)會實際數(shù)據(jù)為樣本數(shù)據(jù),選取62個國家(地區(qū))作為研究對象,以2008年北京奧運(yùn)會成績檢驗預(yù)測模型的效果。
實現(xiàn)算法的軟件為MATLAB軟件,GA的各控制參數(shù)設(shè)置為:初始種群數(shù)M=50;染色體長度為N=62;交叉率Pc=0.7;變異率Pm=0.01;代溝為GGAP=0.9。
5.1 競技體育實力等級數(shù)確定
為了比較競技體育實力等級數(shù)對多元回歸模型的影響,采用 GA優(yōu)化多元回歸非線性模型計算出競技體育實力等級個數(shù)C范圍內(nèi)所有最優(yōu)擬合優(yōu)度R2,計算結(jié)果如圖4所示。
從圖4中可以看出,對于獎牌數(shù)預(yù)測,競技體育實力等級個數(shù)為C=7時,擬合優(yōu)度R2最大,即參賽國(地區(qū))獲獎牌數(shù)的最優(yōu)競技體育實力等級應(yīng)分為7類;對于金牌數(shù)預(yù)測,競技體育實力等級C=4時,擬合優(yōu)度R2最大,即參賽國(地區(qū))獲金牌數(shù)的最優(yōu)競技體育實力等級應(yīng)分為4類。
5.2 預(yù)測結(jié)果
根據(jù)上述分析,將參賽國(地區(qū))獎牌數(shù)預(yù)測模型的競技體育實力等級數(shù)設(shè)為7;金牌預(yù)測模型競技體育實力等級數(shù)設(shè)為4,對樣本數(shù)據(jù)進(jìn)行回歸分析(表2)。
圖4 競技體育實力等級數(shù)與擬合優(yōu)度R2的關(guān)系示意圖
表2 1992—2004年間奧運(yùn)會獎牌與金牌占有率回歸結(jié)果一覽表
根據(jù)表2的結(jié)果,可對2008年北京奧運(yùn)會獎牌數(shù)、金牌數(shù)進(jìn)行預(yù)測(表3)。
最后,分別計算文獻(xiàn)[9]的預(yù)測結(jié)果與本研究提出預(yù)測結(jié)果的預(yù)測能力評價指標(biāo)(表4)。
從表4中可以看出,本研究提出的預(yù)測模型在對獎牌預(yù)測能力方面有明顯優(yōu)勢;在對金牌預(yù)測結(jié)果中除MAE指標(biāo)略小,其他指標(biāo)均優(yōu)于前者。
從表4中可以發(fā)現(xiàn),對于FCM-regression模型,由于基于無監(jiān)督模糊C均值聚類的競技體育實力評估難以客觀地描述,從而對參賽國(地區(qū))競技體育實力有效優(yōu)化組合能力有限,其預(yù)測能力自然無法保證,使得預(yù)測精確度相對較低。
對于本研究所提出的 GA-regression模型通過 GA可實現(xiàn)對參賽國(地區(qū))競技體育實力等級進(jìn)行監(jiān)督計算,能動態(tài)挖掘最優(yōu)競技體育實力評估,使得基于競技體育實力的預(yù)測模型達(dá)到最優(yōu)化。同時,降低了預(yù)測模型的主觀性,在獎牌、金牌數(shù)預(yù)測中精度更高、穩(wěn)定性更好。
表3 各個國家(地區(qū))獎牌數(shù)、金牌數(shù)和競技體育實力歸類結(jié)果一覽表
表4 兩種模型預(yù)測統(tǒng)計指標(biāo)結(jié)果一覽表
1.本文提出的 GA-regression模型
通過 GA可實現(xiàn)對參賽國(地區(qū))競技體育實力等級進(jìn)行有效監(jiān)督計算,能動態(tài)挖掘最優(yōu)競技體育實力評估,使得基于競技體育實力的預(yù)測模型(3)達(dá)到最優(yōu)化。同時,提高了預(yù)測模型的客觀性,在獎牌(金牌)數(shù)預(yù)測中精度高、穩(wěn)定性好。
2.采用 GA優(yōu)化多元回歸非線性模型,能夠計算得出奧運(yùn)會參賽國(地區(qū))競技體育實力等級數(shù)。在參賽國(地區(qū))獎牌數(shù)預(yù)測中,其競技體育實力等級數(shù)為7;在參賽國(地區(qū))金牌數(shù)預(yù)測中,其競技體育實力等級數(shù)為4。
[1]白海波,郭權(quán).我國與奧運(yùn)強(qiáng)國競技體育實力的比較研究[J].沈陽體育學(xué)院學(xué)報,2004,23(2):163-117.
[2]鮑勇,劉新剛,劉偉.應(yīng)對第11屆全運(yùn)會我國主要?。ㄊ校﹨^(qū)域競技實力分析[J].北京體育大學(xué)學(xué)報,2009,32(2):127-128.
[3]陳紹艷,楊風(fēng)華.奧運(yùn)會對承辦國競技體育實力的影響[J].體育學(xué)刊,2006,13(4):119-121.
[4]高鴻輝.我國全運(yùn)會田徑競技實力各等級區(qū)域構(gòu)成的動態(tài)演變研究[J].西安體育學(xué)院學(xué)報,2009,26(1):86-91.
[5]古扎拉蒂.計量經(jīng)濟(jì)學(xué)[M].林少宮譯.北京:中國人民大學(xué)出版社,2000:333.
[6]雷英杰,張善文,李續(xù)武,等.MA TLAB遺傳算法工具箱及應(yīng)用[M].西安:西安電子科技大學(xué)出版,2005.
[7]李真.中國競技體育實力的地區(qū)格局分布與對比分析——對十運(yùn)會排行榜的分析[J].北京體育大學(xué)學(xué)報,2006,29(8):1137-1139.
[8]王國凡,唐學(xué)峰.奧運(yùn)會獎牌預(yù)測國內(nèi)、外研究動態(tài)及發(fā)展趨勢[J].中國體育科技,2009,45(6):3-7.
[9]王國凡,薛二劍,唐學(xué)峰.對大型國際綜合性運(yùn)動會獎牌數(shù)的預(yù)測研究——以北京奧運(yùn)會為例[J].天津體育學(xué)院學(xué)報,2010,25 (1):86-90.
[10]于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J].中國科學(xué)E輯,2002,32(2):274-280.
[11]BALL,DONALD W.Olympic games competition:structural correlates of national success[J].Int JComparative Soc,1972, 12:186-200.
[12]BERNARD,ANDREW B,M EGHAN R BUSSE.W ho w ins the olympic games:economic resources and medals totals[J].Rev Eco Statistics,2004,86(1):413-417.
[13]CONDON E M,GOLDEN B L,WASIL E A.Predicting the success of nations at the summer olympics using neural netwo rks[J].Computer Operations Res,1999,26:1243-1265.
[14]FORREST,DAV ID,SANZ,ISMAEL,TENA J D.Forecasting national team medal totals at the summer Olympic games[J]. Int J Forecasting,2010,26:576-588.
[15]GRIMES,A RA Y,W ILL IAM J KELLY,etal.A socioeconomic model of national Olympic performance[J].Soc Sci Q,1974, 55:777-782.
[16]LEV INE NED.Why do countries win olympic medals?some structural co rrelates of olympic games success:1972[J].Sociology Social Res,1974,58:353-360.
[17]LUCB,STEFAN S.Genetic algorithms:theory and application [J].J A,1997,38(2):13-23.
[18]Samp rit Chatterjee,A li S Hadi,Bertram Price.例解回歸分析(第3版)[M].鄭明,徐勤豐,胡瑾瑾譯.北京:中國統(tǒng)計出版社,2004.