王譯啟,趙泓潤(rùn),趙虹雯,徐熙晨
(南京信息工程大學(xué) a.長(zhǎng)望學(xué)院; b.自動(dòng)化學(xué)院, 南京 211800)
足球賽事在全球熱度高、受眾廣,對(duì)足球比賽結(jié)果的預(yù)測(cè)是各大體育賽訓(xùn)組與足球彩票的關(guān)注焦點(diǎn)。自1990年開(kāi)始,歐洲博彩公司就嘗試?yán)脭?shù)學(xué)模型對(duì)足球比賽結(jié)果進(jìn)行預(yù)測(cè),認(rèn)可度較高的有進(jìn)球率比較預(yù)測(cè)法、埃羅預(yù)測(cè)法和最近六場(chǎng)勝績(jī)預(yù)測(cè)法。隨著研究的深入,數(shù)學(xué)分析方法的價(jià)值不斷體現(xiàn),數(shù)理統(tǒng)計(jì)也開(kāi)始運(yùn)用于足球分析領(lǐng)域。比較具有代表性的有基于模糊綜合評(píng)價(jià)、決策樹(shù)、Logistic回歸分析模型、盤(pán)口數(shù)據(jù)、證據(jù)理論的足球賽事預(yù)測(cè)方法等。
國(guó)內(nèi)外學(xué)者針對(duì)該領(lǐng)域進(jìn)行了大量的研究。曹科樞運(yùn)用模糊綜合評(píng)價(jià)法,分析主客場(chǎng)戰(zhàn)績(jī)、球隊(duì)狀態(tài)、天氣等多重因素,得到綜合評(píng)價(jià)指標(biāo)體系,應(yīng)用最大隸屬法確定評(píng)價(jià)權(quán)數(shù),處理數(shù)據(jù)確定兩支隊(duì)伍勝負(fù)平的概率[1];閔芳等對(duì)數(shù)據(jù)集使用C4.5算法生成決策樹(shù),以獲得大致的勝負(fù)區(qū)間范圍,其數(shù)據(jù)集包括進(jìn)球率和球隊(duì)近5場(chǎng)積分2個(gè)屬性值[2];吳興群對(duì)球隊(duì)積分、進(jìn)失球等比賽數(shù)據(jù)進(jìn)行主成分分析,取出干擾因素后建立 Logistic 回歸模型,預(yù)測(cè)足球比賽結(jié)果[3];敖希琴等利用Python工具爬取比賽盤(pán)口賠率數(shù)據(jù),進(jìn)行預(yù)處理和相關(guān)分析并建模,最后用實(shí)際結(jié)果驗(yàn)證預(yù)測(cè)模型準(zhǔn)確率[4];楊彥超的證據(jù)理論方法可在輸入數(shù)據(jù)不全面或影響因素存在矛盾時(shí)也分析出比賽結(jié)果不確定性[5]。貝氏模型偏重歷史戰(zhàn)績(jī),變量較少;模糊綜合評(píng)價(jià)法偏重?cái)?shù)據(jù)獲取,原始數(shù)據(jù)繁雜;決策樹(shù)C4.5算法偏重勝負(fù)預(yù)測(cè);Logistic 回歸方法偏重考慮歷史比賽數(shù)據(jù);敖希琴等人選擇的盤(pán)口數(shù)據(jù)偏重于基于已綜合各種因素的結(jié)果性數(shù)據(jù)進(jìn)行分析。本文基于傳球網(wǎng)絡(luò)分析提取傳球因子,結(jié)合傷病、主客場(chǎng)等影響因子,搭建BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network, BPNN)模型對(duì)足球比賽的勝負(fù)預(yù)測(cè),并與隨機(jī)森林(Random Forest, RF)和梯度提升決策樹(shù)(Gradient Boosting Decision Tree, GBDT)進(jìn)行精度對(duì)比與結(jié)果分析。
社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis, SNA)是一種基于圖論等數(shù)學(xué)方法的社會(huì)學(xué)定量分析方法,是一種調(diào)查社會(huì)系統(tǒng)匯總的特征與聯(lián)系,并探討網(wǎng)絡(luò)關(guān)系特征的方法與技術(shù)[6-8]。網(wǎng)絡(luò)衡量節(jié)點(diǎn)及節(jié)點(diǎn)間的關(guān)系,社會(huì)網(wǎng)絡(luò)衡量社會(huì)行動(dòng)者及其相互影響[9-11]。對(duì)于足球而言,球員之間的交互通過(guò)傳球呈現(xiàn)。在社會(huì)網(wǎng)絡(luò)分析的視角下,球員被抽象成點(diǎn),球員間的傳球被抽象為線(xiàn)[12,13]。點(diǎn)的入度與出度表現(xiàn)了球員傳球與被傳球的次數(shù)。根據(jù)傳球網(wǎng)絡(luò)圖,可以利用網(wǎng)絡(luò)密度、最大中介中心度和EI指數(shù)度量球隊(duì)的傳球特征。各個(gè)指標(biāo)的具體定義如下網(wǎng)絡(luò)密度是整體網(wǎng)研究中心的概念,是用于度量網(wǎng)絡(luò)中整體節(jié)點(diǎn)關(guān)聯(lián)性的指標(biāo)。網(wǎng)絡(luò)密度越大,說(shuō)明節(jié)點(diǎn)聯(lián)系越緊密,網(wǎng)絡(luò)對(duì)行動(dòng)者產(chǎn)生的可能影響越大。在足球比賽視角下,網(wǎng)絡(luò)密度表示傳球網(wǎng)絡(luò)的疏密程度。足球傳球網(wǎng)絡(luò)為有向關(guān)系網(wǎng),網(wǎng)絡(luò)密度被定義為:
(1)
其中,d為已經(jīng)存在的傳球聯(lián)系數(shù),e為球員(行動(dòng)者)總數(shù),網(wǎng)絡(luò)中包含的關(guān)系理論最大值為e(e-1)。
中介中心度反映某一個(gè)節(jié)點(diǎn)位于聯(lián)系中心位置的程度[14]。節(jié)點(diǎn)的中介中心度越高,則越多的聯(lián)系會(huì)從這個(gè)節(jié)點(diǎn)經(jīng)過(guò),意味著這個(gè)節(jié)點(diǎn)有越大的可能是網(wǎng)絡(luò)中心點(diǎn)。在足球比賽的視角下,最大中介中心度意味著這支球隊(duì)最核心球員多大程度是傳球網(wǎng)絡(luò)的中心,即球隊(duì)對(duì)核心球員的依賴(lài)性。最大中介中心度公式為:
(2)
其中,Pjk表示j點(diǎn)與k點(diǎn)間傳球路徑數(shù),pjk(i)表示j與k間包含節(jié)點(diǎn)i的傳球路徑數(shù)。
EI指數(shù)反映整體網(wǎng)絡(luò)中子群的分派程度與凝聚性[15]。在足球比賽中,EI指數(shù)可以用來(lái)衡量各個(gè)位置在傳球時(shí)合作情況。EI指數(shù)越高,則說(shuō)明存在交互性較高的球員組合。
(3)
其中,EL表示參與傳球球員關(guān)系數(shù),IL表示總球員關(guān)系數(shù)。
BP神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。其主要特點(diǎn)是在信號(hào)前向傳遞的同時(shí),使誤差后向傳播,通過(guò)不斷調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)中的權(quán)重值,使得網(wǎng)絡(luò)的最終輸出與期望輸出盡可能接近,以達(dá)到訓(xùn)練的目的[16-18]。足球比賽預(yù)測(cè)問(wèn)題具有非線(xiàn)性特征,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)對(duì)于非線(xiàn)性特征的擬合效果較好。BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
(4)
(5)
3.1 數(shù)據(jù)來(lái)源
2020年美國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽發(fā)布了Huskies球隊(duì)某賽季的比賽數(shù)據(jù)。此數(shù)據(jù)集涵蓋Huskies球隊(duì)與19個(gè)對(duì)手進(jìn)行的38場(chǎng)比賽,其中涉及366位選手,23429次傳球以及59271次選手行為。
基于社會(huì)網(wǎng)絡(luò)分析,將球員抽象成點(diǎn),球員間的傳球抽象成線(xiàn),球員點(diǎn)的坐標(biāo)位于球員活動(dòng)范圍中心點(diǎn)。球員傳球/被傳球次數(shù)越多,網(wǎng)絡(luò)上點(diǎn)越大;球員之間傳球次數(shù)越多,連線(xiàn)越粗。圖2展示了第一場(chǎng)比賽的傳球網(wǎng)絡(luò)圖。
圖2 第一局傳球網(wǎng)絡(luò)圖
受到球員、教練和球場(chǎng)等影響,足球比賽勝負(fù)評(píng)價(jià)系統(tǒng)比較復(fù)雜。本文基于社會(huì)網(wǎng)絡(luò)分析的結(jié)果,以足球比賽勝率為目標(biāo)因子,以傳球因子、攻擊-防守因子、球員狀態(tài)因子為準(zhǔn)則因子,提出了由3個(gè)方面11個(gè)指標(biāo)組成的足球比賽勝負(fù)評(píng)價(jià)體系,如下表1所示。
本文設(shè)計(jì)的BP神經(jīng)網(wǎng)絡(luò)輸入層由11個(gè)神經(jīng)元構(gòu)成,分別代表11個(gè)指標(biāo)層因素。輸出層為1個(gè)神經(jīng)元,輸出值為0到1之間的實(shí)數(shù),代表足球比賽中Huskies隊(duì)的勝率。勝率大于0.5則預(yù)測(cè)本場(chǎng)Huskies隊(duì)獲勝,勝率小于0.5則預(yù)測(cè)本場(chǎng)Huskies隊(duì)落敗,勝率等于0.5則預(yù)測(cè)本場(chǎng)比賽為平局。隱含層神經(jīng)元的數(shù)量將直接影響神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果與穩(wěn)定性。過(guò)少的隱含層神經(jīng)元會(huì)導(dǎo)致過(guò)擬合,過(guò)多的隱含層神經(jīng)元會(huì)導(dǎo)致算法執(zhí)行時(shí)間過(guò)長(zhǎng)[19]。隱含層神經(jīng)元數(shù)量根據(jù)以下經(jīng)驗(yàn)公式確定[20]。
表1 足球比賽勝負(fù)評(píng)價(jià)指標(biāo)體系
(6)
其中,m為隱含層神經(jīng)元個(gè)數(shù),n=11為輸入層神經(jīng)元個(gè)數(shù),c=1為輸出層神經(jīng)元個(gè)數(shù)。確定隱含層神經(jīng)元數(shù)為4個(gè)。隨機(jī)取數(shù)據(jù)集的75%作為訓(xùn)練集,其余25%作為測(cè)試集,分別輸入BP神經(jīng)網(wǎng)絡(luò),隨機(jī)森林和梯度提升樹(shù)模型中進(jìn)行預(yù)測(cè)。
本文采用MATLAB中的神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò),通過(guò)mapminmax函數(shù)實(shí)現(xiàn)數(shù)據(jù)的最大最小值歸一化,通過(guò)newff函數(shù)建立神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)正則化與構(gòu)建神經(jīng)網(wǎng)絡(luò)部分語(yǔ)句如下:
1.%Normalization;
2.[input,ps1]=mapminmax([a;b;c;d;e;f;g;h;x;y;z;k]);
3.[target,ps2]=mapminmax([result]);
2021年第3期王譯啟,趙泓潤(rùn),趙虹雯,等:基于社會(huì)網(wǎng)絡(luò)分析與BP神經(jīng)網(wǎng)絡(luò)的足球比賽預(yù)測(cè)研究
4.%training;
5.net=newff(input,target,4,{‘purelin’,‘tansig’},‘trainlm’);
6.net.trainParam.epochs=100000;
7.net=train(net,input,target);
三種預(yù)測(cè)算法所得到的結(jié)果如下表所示:
表2 機(jī)器學(xué)習(xí)模型評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)結(jié)果表明,總體而言,BPNN的準(zhǔn)確率高于RF和GBDT,對(duì)測(cè)試集的擬合程度也相應(yīng)更高;RF雖然執(zhí)行時(shí)間較快,但在相關(guān)程度與均方根誤差方面較差;GBDT執(zhí)行較快,準(zhǔn)確率較高,但其均方根誤差較大,在面對(duì)平局較多的數(shù)據(jù)時(shí)會(huì)存在明顯不足。
在勝率確定因子模塊,在BPNN中查詢(xún)權(quán)重,得到最重要的2個(gè)因素為控球率與球員交互性;RF算法中,權(quán)重最高因素為球員交互性與進(jìn)攻防守策略,與BPNN較為相似。
在勝負(fù)平預(yù)測(cè)的混淆矩陣中,BPNN和RF模型對(duì)勝負(fù)平三種結(jié)果的預(yù)測(cè)準(zhǔn)確率較為均衡,而GBDT模型預(yù)測(cè)結(jié)果的絕對(duì)誤差較大,對(duì)勝局和負(fù)局的預(yù)測(cè)準(zhǔn)確率高于平局。
本文基于足球比賽場(chǎng)上球員行為與客觀(guān)條件,針對(duì)傳球因子、攻擊-防守因子與球員狀態(tài)因子的多源數(shù)據(jù),構(gòu)建了SNA-BPNN模型,對(duì)足球比賽勝負(fù)進(jìn)行了預(yù)測(cè),并針對(duì)已發(fā)布數(shù)據(jù)集進(jìn)行了驗(yàn)證。其中,BPNN的預(yù)測(cè)精度達(dá)到81.8%,均方根誤差僅為0.323,預(yù)測(cè)準(zhǔn)確率高,誤差小。結(jié)果表明,模型能夠較好地預(yù)測(cè)足球比賽勝率,能夠?yàn)樽闱蛸愑?xùn)、團(tuán)隊(duì)網(wǎng)絡(luò)分析等提供思路。目前,針對(duì)球員行為的足球比賽數(shù)據(jù)集較少。本文采用的數(shù)據(jù)集規(guī)模較小,建議在后續(xù)的研究中擴(kuò)大數(shù)據(jù)集,選取驗(yàn)證集確定超參數(shù),對(duì)足球比賽勝率預(yù)測(cè)進(jìn)行進(jìn)一步研究探討。