王白云,沈春根
(上海理工大學(xué) 理學(xué)院,上海 200093)
隨著社會(huì)的進(jìn)步,如今的電競早已不再是傳統(tǒng)意義上的電子游戲,它正朝著專業(yè)體育方向發(fā)展,成為一種產(chǎn)業(yè),推動(dòng)著科技的進(jìn)步,在現(xiàn)代社會(huì)創(chuàng)造了巨大的價(jià)值。電競與其他競技體育項(xiàng)目一樣,對數(shù)據(jù)的分析和應(yīng)用有著極高的要求,而機(jī)器學(xué)習(xí)作為現(xiàn)在數(shù)據(jù)處理和分析的一項(xiàng)主要技術(shù)在眾多學(xué)科領(lǐng)域發(fā)揮了不可估量的作用,其中也包括電競行業(yè)。目前國內(nèi)的電競行業(yè)正處在迅速發(fā)展階段,作為全球電競行業(yè)發(fā)展最快、最受關(guān)注的國家之一,中國對電競行業(yè)的機(jī)器學(xué)習(xí)研究和分析較為匱乏,使得電子競技在發(fā)展過程中缺少當(dāng)今最有力的數(shù)據(jù)參考。通過有序Lasso-Logistic模型分析電子競技角色選擇,為機(jī)器學(xué)習(xí)在電競分析上提供新的分析方法,使得電競行業(yè)從數(shù)據(jù)分析上獲得更多進(jìn)展。
該文以著名的電競游戲─刀塔2為例,采用有序Lasso-Logistic模型分析電競角色選擇,為其他電子競技角色選擇提供參考依據(jù),促進(jìn)職業(yè)選手在角色選擇上的策略分析,推動(dòng)電競行業(yè)向數(shù)據(jù)化發(fā)展。刀塔2主要操作方式是敵對雙方(各有五名玩家)之間的對抗,每名玩家從100多個(gè)英雄中選擇一個(gè)進(jìn)行操作,每個(gè)英雄在該局比賽中只能被選擇一次。刀塔2包含十余種游戲模式,三種游戲種類。
有序Lasso-Logistic模型包含了自變量對因變量發(fā)生具有不同重要性的先驗(yàn)信息,將其用于分析刀塔2以各個(gè)英雄為自變量,因變量是比賽結(jié)果的數(shù)據(jù),探索不同角色選擇對比賽的獲勝結(jié)果的影響,并進(jìn)行預(yù)測,通過與其他機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果進(jìn)行比較突出有序Lasso-Logistic模型良好的預(yù)測效果,展現(xiàn)數(shù)據(jù)自變量先驗(yàn)信息的重要性以及有序Lasso-Logistic模型在分類數(shù)據(jù)分析中的優(yōu)越性。
機(jī)器學(xué)習(xí)中也不乏分類模型,如邏輯回歸模型[1-2]、Lasso-Logistic模型[3]、支持向量機(jī)模型[4]、隨機(jī)森林模型[5]以及梯度增強(qiáng)決策樹模型[6]等在分類問題中表現(xiàn)出一定的分析能力和預(yù)測效果。在分析刀塔2的文章中可看到,許多作者通過玩家所選取的英雄采用不同的分類模型預(yù)測游戲結(jié)果,如:Semenov、Romov和Korolev等[7]將刀塔2采用了分解機(jī)模型分析所選取的英雄并預(yù)測刀塔2比賽勝負(fù),通過與其他分類器模型的預(yù)測結(jié)果相比較顯示出分解機(jī)模型良好的預(yù)測效果。Aznin、Diah和Abdullah[8]構(gòu)建一個(gè)基于規(guī)則的技術(shù)專家系統(tǒng)向刀塔2玩家推薦適合的英雄,但在系統(tǒng)測試上,作者采取用戶問卷調(diào)查的評估反饋測試系統(tǒng)的可用性價(jià)值,存在較多的不確定因素。Wang和Shang[9]用改進(jìn)的樸素貝葉斯分類器分析刀塔2玩家選取的陣容預(yù)測游戲結(jié)果,將預(yù)測結(jié)果與原樸素貝葉斯分類器的預(yù)測結(jié)果相比較發(fā)現(xiàn)準(zhǔn)確率比原樸素貝葉斯分類器至多高1%,雖然預(yù)測準(zhǔn)確率有所提高,但是并不明顯,同樣還有文獻(xiàn)[10]。另外,一些文獻(xiàn)從玩家的角度分析刀塔2,如文獻(xiàn)[11-12]。許晨波[13]則提出了改進(jìn)的LSTM陣容推薦模型和勝率預(yù)測模型并設(shè)計(jì)了相應(yīng)的系統(tǒng)幫助玩家完善陣容構(gòu)建,提高獲勝幾率。陳婷如[14]基于普羅普的功能和LeviStrauss二元對立理論,文本分析了刀塔2與玩家所建立的聯(lián)系。柯嘉鑫[15]根據(jù)K-means算法從刀塔2數(shù)據(jù)分析了電競選手。在眾多分類模型中發(fā)現(xiàn),少有模型包含自變量的先驗(yàn)信息,比如有序Lasso-Logistic模型中自變量對因變量發(fā)生的重要性具有排序的先驗(yàn)信息。在電子競技中不同角色能力強(qiáng)弱不一,這個(gè)信息在選手進(jìn)行角色選擇前便可得知并且對于隊(duì)伍陣容構(gòu)建和獲勝起到十分關(guān)鍵的作用,對于刀塔2同樣如此,但這在上述文章中少有用到。 基于這些原因,該文利用刀塔2中不同英雄選擇對比賽的獲勝結(jié)果存在差異的先驗(yàn)信息,通過有序Lasso-Logistic模型對電競角色選擇進(jìn)行分析。
有序Lasso-Logistic模型是一含有序約束條件的模型,模型中通過對自變量系數(shù)絕對值進(jìn)行排序形成有序約束條件。這鑒于考慮到在進(jìn)行數(shù)據(jù)收集時(shí),選取的自變量對因變量的重要性大小很多時(shí)候會(huì)存在一些先驗(yàn)性判斷,比如該文所采用的刀塔2數(shù)據(jù)中的自變量cluster ID、游戲模式和游戲類型在進(jìn)行一局完整的游戲戰(zhàn)斗是必不可少的,但就某個(gè)英雄而言則非必須,是可選可不選的,重要性較前三者有所降低。有序性約束條件是根據(jù)自變量對因變量的重要性大小排序形成,它們可以是根據(jù)專業(yè)知識或者經(jīng)驗(yàn)判斷,也可以通過變量間的相關(guān)性或者重要性計(jì)算而得知。有序Lasso-Logistic模型可用于解決自變量對因變量發(fā)生存在不同重要性且因變量是二分類的問題,模型結(jié)合了變量系數(shù)有序約束條件,對多變量分類數(shù)據(jù)進(jìn)行分析,使得眾多自變量對因變量發(fā)生的重要性大小體現(xiàn)得更加明顯,使其具體化、顯現(xiàn)化。
該文通過分析刀塔2英雄選擇作為具體例子,旨在表明有序Lasso-Logistic模型對電競角色選擇的分析效果,體現(xiàn)機(jī)器學(xué)習(xí)對電競行業(yè)的推進(jìn)作用,使得電子競技越來越科學(xué)化,也為其提供更多的理論支持。
在文章剩余部分將介紹以下幾方面內(nèi)容,一、用于分析電競角色選擇的模型,主要介紹有序Lasso-Logistic模型,簡要概述邏輯回歸模型、Lasso模型、SVM模型、梯度提升決策樹模型;二、描述文章采用的數(shù)據(jù)集,包括變量、數(shù)據(jù)特征等以及數(shù)據(jù)處理;三、分析有序Lasso-Logistic模型的變量選擇;四、將有序Lasso-Logistic模型的預(yù)測結(jié)果與其他模型的預(yù)測結(jié)果進(jìn)行比較并分析,得出結(jié)論。
二項(xiàng)邏輯回歸模型是處理因變量是二分類問題的回歸模型[16],在分析個(gè)人信用評估、醫(yī)學(xué)診斷、地質(zhì)災(zāi)害危險(xiǎn)區(qū)劃分等方面常用到。假設(shè)對于自變量的觀測矩陣X,因變量的觀測向量y,第i個(gè)觀測值表示為(xi,yi);i=1,2,…,N;xi=(xi1,xi2,…,xip);yi=0或者1,那么關(guān)于X的線性回歸模型可表示為:
g(x)=β0+xβ
(1)
將上式結(jié)合Sigmoid函數(shù):
(2)
得邏輯回歸模型如下:
(3)
p(X)=P(y=1|X)表示給定X時(shí)y=1的條件概率,β0,β是模型的參數(shù),其絕對值越大,相應(yīng)的自變量越重要,參數(shù)符號為正,表示自變量與因變量y=1的條件概率P(y=1|X)呈正相關(guān),符號為負(fù),則表示自變量與因變量y=0的條件概率P(y=0|X)呈正相關(guān)。邏輯回歸模型一般采用極大似然估計(jì)法進(jìn)行估計(jì),以下式子中用pi(x)表示p(xi)=P(yi=1|xi),由于觀測值(xi,yi)的似然函數(shù)是:
pi(x)yi[1-pi(x)]1-yi
(4)
所以N個(gè)觀測值的似然函數(shù)就是:
(5)
對上式取對數(shù)似然函數(shù)及其相反數(shù):
log(1+eβ0+βTxi))
(6)
Lasso(Least absolute shrinkage and selection operator)[17]近年來發(fā)展十分迅速,不僅在理論方面,在實(shí)際應(yīng)用上也是如此,特別是在處理變量很多的情況下或者稀疏性變量矩陣的處理上展現(xiàn)出明顯的優(yōu)勢。Lasso通過構(gòu)造罰函數(shù)讓一些變量的系數(shù)值等于零從而實(shí)現(xiàn)壓縮估計(jì),既可以簡化模型又可以避免過擬合,在如今的大數(shù)據(jù)趨勢下顯示出更重要的作用。Lasso的最小二乘形式目標(biāo)函數(shù)如下:
(7)
將上式結(jié)合式(6)可得Lasso-Logistic模型[10]的目標(biāo)函數(shù)如下:
(8)
在式(7)和式(8)中,λ≥0是可調(diào)整的參數(shù),它的大小與β的稀疏性有關(guān),通過調(diào)整λ的大小以篩選變量。
有序Lasso模型是2016年Tibshirani和Suo在文獻(xiàn)[18]提出的優(yōu)化問題并提出了相應(yīng)的解決算法。該模型是在一般Lasso模型的基礎(chǔ)上附加一個(gè)關(guān)于模型系數(shù)絕對值的單調(diào)有序約束條件,文獻(xiàn)還把有序Lasso模型應(yīng)用在時(shí)間序列問題上,通過仿真數(shù)據(jù)和臭氧數(shù)據(jù)等數(shù)值實(shí)驗(yàn)顯示出有序Lasso模型的參數(shù)估計(jì)值比一般Lasso模型的的參數(shù)估計(jì)值更接近真實(shí)值的良好效果。盡管有序Lasso模型是含有約束條件的模型,但是它更好地利用了自變量與因變量之間的先驗(yàn)信息,所以使得模型的擬合效果勝過一般Lasso模型。另外,有一些文獻(xiàn)將有序Lasso模型應(yīng)用到其他領(lǐng)域,比如Nguyen和Braun[19]將有序Lasso模型結(jié)合時(shí)間序列問題應(yīng)用于生物學(xué)的基因調(diào)控網(wǎng)絡(luò),探索基因表達(dá)在不同時(shí)間點(diǎn)的動(dòng)態(tài)變化,并將模型結(jié)合半監(jiān)督學(xué)習(xí)法探索出新的調(diào)控因子,在基因表達(dá)、基因調(diào)控網(wǎng)絡(luò)方面得到不錯(cuò)的結(jié)果。該文基于有序Lasso模型[17]將其應(yīng)用于因變量是二分類的數(shù)據(jù)上,充分利用了先驗(yàn)信息,顯現(xiàn)出自變量對因變量(P(y=1|X))的不同影響并取得了良好的預(yù)測效果,體現(xiàn)了含有單調(diào)有序約束條件的Lasso問題在分類問題上的實(shí)際應(yīng)用價(jià)值。
有序Lasso-Logistic模型可看作是有序Lasso模型[18]的擴(kuò)展,由Lasso-Logistic模型的目標(biāo)函數(shù)式(8)結(jié)合有序Lasso模型[17]得到有序Lasso-Logistic模型如下:
(9)
(10)
對于改進(jìn)后的目標(biāo)函數(shù)(10)將通過子問題式(11)求解,子問題如下:
(11)
其中:
X是N×p的自變量觀測矩陣,y是N×1的因變量觀測向量,p是由pi,i=1,2,…,N組成的向量。
SVM(support vector machine)模型[20]也是一種二分類模型,通過構(gòu)建一個(gè)超平面或超平面集,使得兩類樣本中離超平面最近的樣本間隔最大化,這些超平面對應(yīng)的向量就被稱為支持向量。支持向量機(jī)可以進(jìn)行線性分類和非線性分類,在解決小樣本,非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,但不太適用于較大的數(shù)據(jù)集,且不易選出正確的核函數(shù),其目標(biāo)函數(shù)是:
式子中yi={0,1},(xi,yi)是一對觀測值,w是超平面法向量,b是超平面的截距。
梯度提升決策樹模型(GBDT)是一種迭代的決策樹算法,由多棵決策樹組成,是廣義梯度提升模型(Generalized Boosted Regression Model)(GBM)其中的一種,所以同樣是將弱學(xué)習(xí)器變成強(qiáng)學(xué)習(xí)器的一種方法且基于boosting算法,而boosting算法是一種可用來減小監(jiān)督式學(xué)習(xí)中偏差的機(jī)器學(xué)習(xí)算法,大多數(shù)由許多基礎(chǔ)的分類模型組成,進(jìn)行迭代后根據(jù)不同模型分類的準(zhǔn)確率給予權(quán)重,產(chǎn)生一個(gè)較復(fù)雜的分類模型,借此強(qiáng)化模型的分類準(zhǔn)確率。由于模型是由多個(gè)基礎(chǔ)分類模型構(gòu)成,所以可以避免過擬合的情況,可用于回歸問題和分類問題,泛化能力和表達(dá)能力都很好,具有較好的可解釋性,有更高的性能上限,但只能處理低維稠密的數(shù)據(jù),對高維稀疏的數(shù)據(jù)表現(xiàn)較差,處理類別特征效果沒有數(shù)值特征好。
該文通過UCI機(jī)器學(xué)習(xí)庫獲取一份在線游戲刀塔2的數(shù)據(jù)集,該數(shù)據(jù)集是2016年8月份玩家進(jìn)行刀塔2在線游戲的記錄。每一個(gè)觀測為一局游戲記錄數(shù)據(jù),每一局的游戲時(shí)間不超過兩小時(shí)。數(shù)據(jù)變量如表1所示,包括獲勝隊(duì)伍,cluster ID(與玩家服務(wù)器位置有關(guān)),游戲模式,游戲種類以及113個(gè)英雄的id總共117個(gè)變量。
表1 變量說明
由表1可看出,刀塔2數(shù)據(jù)集包含了9種游戲模式和3種游戲種類,幾乎涵蓋了所有五對五的隊(duì)伍比賽模式和種類。該文重點(diǎn)在于探索不同角色選擇對比賽的獲勝結(jié)果的不同影響,所以將數(shù)據(jù)集中表示比賽結(jié)果的獲勝隊(duì)伍變量作為因變量y,其他變量作為自變量,除cluster ID外其余均為分類數(shù)據(jù)變量,其中id為28、112、117三個(gè)自變量與其他自變量存在共線性所以給予剔除。刀塔2游戲每一局都會(huì)有一個(gè)cluster ID,選定一種游戲模式和一種游戲種類,敵對雙方各選五個(gè)英雄進(jìn)行戰(zhàn)斗,每一局游戲中一個(gè)英雄只能被選擇一次。將進(jìn)行戰(zhàn)斗的兩個(gè)陣營分為1陣營和-1陣營,因此在每個(gè)觀測值中有五個(gè)id變量等于1和五個(gè)id變量等于-1代表此局被選中的英雄,而其他沒有被選中的id變量取值為0。
y取值1表示1陣營取勝,取值-1表示-1陣營取勝,為了方便模型分析,將游戲結(jié)果獲勝隊(duì)伍的值-1改為0,即yi={0,1},-1陣營選取的英雄id仍取值-1。所有的觀測值中沒有缺失值,每個(gè)觀測值有114個(gè)變量,只有其中的13個(gè)變量的數(shù)據(jù)取值非零,其余的變量均等于0,可知此數(shù)據(jù)集所形成的矩陣是一個(gè)稀疏性較強(qiáng)的矩陣,且自變量較多。該文主要考察不同角色對游戲獲勝結(jié)果P(y=1|X)的影響,因此暫不考慮不同英雄間的作用,并且通過計(jì)算各id變量間具有高度相關(guān)性(變量間相關(guān)性絕對值的閾值為0.75)的變量數(shù)量發(fā)現(xiàn)其值為零,顯然在這個(gè)數(shù)據(jù)集中只考察單個(gè)英雄對獲勝結(jié)果的影響是較合理的。為了比較有序Lasso-Logistic模型在不同樣本量中與其他模型的預(yù)測表現(xiàn),該文采用了三個(gè)樣本量(N=2 000,N=3 000,N=6 000)的數(shù)據(jù)進(jìn)行分析,并對所有模型進(jìn)行五折交叉檢驗(yàn)后計(jì)算出平均準(zhǔn)確率(ACC值)和平均ROC曲線下方面積值(AUC值),在三個(gè)樣本集中分別隨機(jī)取1 600個(gè),2 400個(gè),4 800個(gè)樣本作為訓(xùn)練集,剩余400個(gè),600個(gè),1 200個(gè)樣本作為測試集。在三個(gè)樣本量的數(shù)據(jù)中,1陣營獲勝的局?jǐn)?shù)分別是1 051局,1 588局,3 209局,-1陣營取勝的局?jǐn)?shù)分別是949局,1 412局,2 791局,可見樣本數(shù)據(jù)集分布比較對稱,不存在一方陣營獲勝局?jǐn)?shù)遠(yuǎn)遠(yuǎn)多于另一方陣營的情況。
Lasso在R語言中很容易通過加載glmnet程序包和lars程序包調(diào)用相應(yīng)的函數(shù)進(jìn)行模型分析,所以該文主要介紹有序Lasso-Logistic模型的變量選擇,選出樣本集N=2 000其中的一個(gè)訓(xùn)練集進(jìn)行變量篩選分析。
有序Lasso-Logistic模型的有序性約束條件主要通過關(guān)于自變量的先驗(yàn)信息所得,獲取先驗(yàn)信息的方法不一,可以是在收集數(shù)據(jù)時(shí)結(jié)合實(shí)際問題根據(jù)經(jīng)驗(yàn)和專業(yè)知識對自變量與因變量之間的關(guān)系有所了解而得之,也可以通過計(jì)算變量間的相關(guān)性或者進(jìn)行模型分析后對自變量進(jìn)行重要性排序獲得??傊?,有序性約束條件反映的是自變量對因變量(分類數(shù)據(jù)中是對因變量P(y=1|X)不同的重要性和影響程度。該文在有序Lasso-Logistic模型中約束條件的先驗(yàn)信息是通過邏輯回歸模型結(jié)合變量重要性排序所得,因主要考察各個(gè)英雄與獲勝隊(duì)伍y=1的關(guān)系并且表1中前4個(gè)自變量對于每一局游戲都是必不可少的變量,所以主要對id變量的重要性進(jìn)行由大到小排序,以此獲得所需的先驗(yàn)信息作為模型的有序約束條件。經(jīng)實(shí)驗(yàn),不同樣本量可能會(huì)使得對變量的重要性排序稍有差異但并不會(huì)有很大的變動(dòng)。
變量篩選在有序Lasso-Logistic模型中由含有參數(shù)λ的懲罰項(xiàng)控制,λ≥0的是可以調(diào)整的參數(shù),懲罰項(xiàng)通過調(diào)整λ值實(shí)現(xiàn)壓縮系數(shù)從而篩選變量的過程,不僅使模型復(fù)雜程度降低,也可以避免過擬合。λ取值不同產(chǎn)生的模型也不同,取值越大對模型的懲罰力度越大,模型獲得的變量越少,最終λ會(huì)在某個(gè)取值上使得模型獲得最佳性能和較少的變量。該文通過λmin=5*10-4λmax(R orderedLasso程序包)選取λ的取值范圍(λmax值與數(shù)據(jù)集的大小有關(guān)),選擇50個(gè)不同的λ值,用交叉驗(yàn)證法進(jìn)行計(jì)算,選擇出均方誤差(MSE)最小的λ值作為最優(yōu)模型的參數(shù)值。
圖1是有序Lasso-Logistic模型分析訓(xùn)練集N=1 600的樣本量數(shù)據(jù)對應(yīng)λ的不同取值與相應(yīng)模型的變量數(shù)目變化。在圖的上方橫軸是變量數(shù)目,左邊縱軸是不同λ值相應(yīng)的估計(jì)誤差MSE,中間的兩條灰色線位于左邊的線是估計(jì)誤差值最小對應(yīng)的λ值(lambda.min),所得到的模型性能最佳,右邊的線是lambda.min在一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)既維持了良好的模型性能又能使變量數(shù)達(dá)到最少的λ值(lambda.1se)。從圖中可以看到,在λ=lambda.min時(shí)變量數(shù)是106個(gè),而在保持模型良好性能的情況下,變量數(shù)可以篩選至83個(gè)。
圖1 lambda和變量數(shù)目的變化
圖2是隨著λ值的變化,自變量系數(shù)發(fā)生變化的過程,從圖中可看出一些變量的系數(shù)估計(jì)值隨著λ增大逐漸被壓縮至零,結(jié)合圖1這些系數(shù)相應(yīng)的變量將被剔除,只留下含有非零系數(shù)的變量,有序Lasso-Logistic模型隨著λ逐漸增大,非零系數(shù)在逐漸減少,變量數(shù)在逐漸減少,由此實(shí)現(xiàn)模型的壓縮估計(jì),篩選出一部分的變量。
圖2 lambda系數(shù)路徑變化
所有計(jì)算過程均在R-3.5.3進(jìn)行,其中邏輯回歸模型采用的stat程序包里的glm函數(shù)估計(jì)模型參數(shù),SVM模型調(diào)用的是e1071函數(shù),Lasso先采用cv.glmnet函數(shù)用五折交叉驗(yàn)證法得到lambda.min,再用glmnet函數(shù)結(jié)合lambda.min得系數(shù)估計(jì)值,GBDT模型則是采用gbm函數(shù)進(jìn)行參數(shù)估計(jì),其中用交叉驗(yàn)證法確定最佳迭代次數(shù)并調(diào)用coord函數(shù)得到最佳臨界值以此確定預(yù)測的類別。將有序Lasso-Logistic模型與另外四種機(jī)器模型對三個(gè)不同的樣本數(shù)據(jù)進(jìn)行五折交叉驗(yàn)證并計(jì)算預(yù)測結(jié)果的平均準(zhǔn)確率ACC值和平均AUC值。從計(jì)算結(jié)果看出,有序Lasso-Logistic模型在三個(gè)不同的樣本量中ACC值和AUC值均比其他四個(gè)模型高。表2是不同的樣本量中有序Lasso-Logistic模型與其他模型預(yù)測結(jié)果對比ACC和AUC值高出的最小值和最大值差異(邏輯回歸模型用LR表示)。
表2 預(yù)測結(jié)果差異表 %
從表2可知,在樣本量N=2 000時(shí)模型預(yù)測結(jié)果差異比較大,有序Lasso-Logistic模型的平均AUC值比其他模型最高高出9個(gè)百分點(diǎn),最低也高出4.5個(gè)百分點(diǎn),平均準(zhǔn)確率ACC值高出4個(gè)百分點(diǎn)左右。隨著樣本量增加,有序Lasso-Logistic模型預(yù)測結(jié)果比其他模型高出的差異有所減小但仍表現(xiàn)出一定的優(yōu)勢。在表2中,與有序Lasso-Logistic模型預(yù)測結(jié)果產(chǎn)生最小差異的分別是邏輯回歸模型和Lasso模型,產(chǎn)生最大差異的是SVM模型和GBDT模型。由此可以看出有序Lasso-Logistic模型的預(yù)測結(jié)果和模型的性能的確比其他模型好。為了更加直觀地比較各個(gè)模型的性能表現(xiàn),作出ROC曲線如圖3~圖5所示。
圖4 ROC曲線(N=3 000)
圖5 ROC曲線(N=6 000)
邏輯回歸模型在三個(gè)樣本量中的預(yù)測結(jié)果是其他四個(gè)機(jī)器學(xué)習(xí)模型中最好的,僅此于有序Lasso-Logistic模型。在處理二分類因變量數(shù)據(jù)集時(shí),邏輯回歸模型必然是首選,其優(yōu)點(diǎn)不言而喻,不僅容易解釋和實(shí)現(xiàn),而且計(jì)算速度快,但是發(fā)現(xiàn)在自變量很多的情況下容易使結(jié)果變得不準(zhǔn)確,這很有可能是因?yàn)樽兞窟^多而產(chǎn)生一些過擬合的現(xiàn)象。Lasso模型的預(yù)測結(jié)果與邏輯回歸模型不相上下,正好可以彌補(bǔ)邏輯回歸的缺陷,在處理變量較多,特別是變量矩陣具有稀疏性的情況下展現(xiàn)很強(qiáng)的優(yōu)勢,但是從實(shí)驗(yàn)結(jié)果來看會(huì)發(fā)現(xiàn),在模型變得簡練的同時(shí)也產(chǎn)生了一些誤差,損失了一些準(zhǔn)確性。從兩個(gè)模型的預(yù)測結(jié)果和優(yōu)缺點(diǎn)出發(fā),添加了有序約束條件進(jìn)行預(yù)測,預(yù)測結(jié)果得到明顯提高,即改進(jìn)后的模型的確是更好。另外兩個(gè)分類器模型SVM模型和GBDT模型在分類數(shù)據(jù)上也得到廣泛使用,然而在此數(shù)據(jù)集預(yù)測結(jié)果較差,原因之一很可能是數(shù)據(jù)的稀疏性導(dǎo)致,特別是GBDT模型。
該文通過分析刀塔2數(shù)據(jù)集并把預(yù)測結(jié)果與其他四種常見的機(jī)器學(xué)習(xí)模型進(jìn)行比較,可以看出有序Lasso-Logistic模型的預(yù)測結(jié)果比其他模型準(zhǔn)確率高,模型的性能更好。不僅如此,從有序Lasso-Logistic模型還可以通過有序約束條件推測出刀塔2的英雄id對比賽獲勝結(jié)果的不同影響。表3是對獲勝結(jié)果影響比較大的變量系數(shù)估計(jì)值,表4是對獲勝結(jié)果影響比較小的變量系數(shù)估計(jì)值。
表3 重要性較強(qiáng)的變量及其系數(shù)
表4 重要性較弱的變量及其系數(shù)
從表中綜合有序Lasso-Logistic模型對不同的樣本量的刀塔2分析所得,一些英雄如id是61,71,13,9,107,55,40,41,106,107等英雄對獲勝結(jié)果的影響始終比較大,而id是56,17,93,43,111,65,25,115,62,86等英雄對獲勝結(jié)果的影響比較小,對獲勝結(jié)果影響比較大的那些英雄在所有觀測中使用的頻數(shù)并沒有明顯較高,所以推測可能是更容易操作或者殺傷力更強(qiáng)。同樣,在其他電子競技上,那些表現(xiàn)出對獲勝結(jié)果影響比較大的角色可以令選手更加側(cè)重考慮,在陣容構(gòu)建上提供一定的參考。
該文將有序Lasso-Logistic模型引入到電競角色選擇分析和對結(jié)果的預(yù)測中,將預(yù)測結(jié)果與其他四種常見的機(jī)器學(xué)習(xí)模型相比較,最終發(fā)現(xiàn)有序Lasso-Logistic模型性能最好,預(yù)測準(zhǔn)確率最高。有序Lasso-Logistic模型采用了自變量系數(shù)絕對值的有序約束條件融合了Lasso-Logistic模型,其中有序約束條件包含了自變量對因變量發(fā)生的先驗(yàn)信息,反映了實(shí)際應(yīng)用問題中各個(gè)自變量與因變量P(y=1|X)之間的不同重要性。主要結(jié)論有:首先,有序Lasso-Logistic模型同樣適用于多變量數(shù)據(jù)集和稀疏性矩陣,可以對變量進(jìn)行壓縮估計(jì)從而篩選變量。其次,增加了先驗(yàn)信息的有序Lasso-Logistic模型在二分類數(shù)據(jù)上的表現(xiàn)比邏輯回歸模型和Lasso的預(yù)測準(zhǔn)確率更高,模型性能更好。最后,電子競技中不同角色能力存在差異,對取勝結(jié)果的重要性也不一樣,了解不同角色對取勝結(jié)果的不同影響有助于選手在訓(xùn)練或者比賽中考慮角色選擇策略而且對角色的選擇更有信心,促進(jìn)電子競技選手的訓(xùn)練和發(fā)展。另一方面,通過有序Lasso-Logistic模型對電子競技角色的分析不僅僅使得電子競技上得到數(shù)據(jù)化發(fā)展,也使得機(jī)器學(xué)習(xí)的分類模型得到進(jìn)一步擴(kuò)展,有序Lasso-Logistic模型不但可以應(yīng)用于電競行業(yè)分析,在其他領(lǐng)域分類問題上同樣可以充分利用變量的先驗(yàn)信息進(jìn)行分析以提高預(yù)測準(zhǔn)確率并提供相應(yīng)的策略支持。