朱文富
(重慶工商大學(xué)體育學(xué)院,重慶 400067)
如今體育比賽已經(jīng)成為人們生活中的重要內(nèi)容,從女排的五連冠到男足的韓日世界杯之旅,再到中國(guó)北京奧運(yùn)會(huì)的成功舉辦,中國(guó)體育事業(yè)的突飛猛進(jìn)已經(jīng)向世界證明東方巨龍巍然屹立在體育賽場(chǎng)上,五星紅旗高高飄揚(yáng)在競(jìng)技之顛。然而人們關(guān)注體育比賽的重要方面在于它的結(jié)果,比賽結(jié)果已經(jīng)成為體育比賽的焦點(diǎn)和集中點(diǎn)。如何對(duì)體育比賽進(jìn)行合理的、科學(xué)的預(yù)測(cè)是當(dāng)今廣大體育科研工作者廣泛關(guān)注的話題。在這個(gè)社會(huì)信息化高速發(fā)展的時(shí)代,KDD(Knowledge Discovery in Data-base)這項(xiàng)原本不為大家熟悉的技術(shù)現(xiàn)如今已受到極其廣泛的關(guān)注,同時(shí)也開(kāi)始了進(jìn)一步的研究,此外,此項(xiàng)技術(shù)已經(jīng)在很多相關(guān)的領(lǐng)域得到了運(yùn)用并且相當(dāng)成功[1-2]。從這一方面可以看出,KDD使用的目的不是單方面的,它不僅要在實(shí)踐中得出數(shù)據(jù),并在這些數(shù)據(jù)中通過(guò)進(jìn)一步的分析找出一部分具有重要價(jià)值的決策支持信息。所以,可以認(rèn)為KDD它不是研究某種具體的方法,而是主要著重于系統(tǒng)的實(shí)用性,是根據(jù)每一個(gè)用戶需求以及該研究領(lǐng)域的特點(diǎn),利用現(xiàn)在已經(jīng)掌握的技術(shù),在計(jì)算資源相當(dāng)有限的情況下,從實(shí)踐中得到的眾多數(shù)據(jù)中發(fā)現(xiàn)一些可運(yùn)用到研究中的各種有用的信息。在此就是針對(duì)此類非對(duì)壘式的,以每一位參加比賽的以個(gè)體的成績(jī)?yōu)橹饕芯繉?duì)象來(lái)進(jìn)行排定名次的體育競(jìng)賽和娛樂(lè)比賽,在這種情況下應(yīng)用KDD技術(shù)建模,制定出一個(gè)該類比賽的情況分析并且對(duì)最后比賽成績(jī)進(jìn)行預(yù)測(cè)。其意義就是要驗(yàn)證并且發(fā)現(xiàn)對(duì)該類別比賽成績(jī)有影響的各種因素,同時(shí)對(duì)最后比賽的結(jié)果進(jìn)行科學(xué)的預(yù)測(cè)。從而在對(duì)個(gè)體如何最有效的提高比賽成績(jī),安排其參加何種比賽較適合方面起著輔助決策作用。
在體育比賽中屬于非對(duì)壘式比賽或項(xiàng)目占了很大的比重,非對(duì)壘式比賽(即以個(gè)體成績(jī)?yōu)橹鞯拿闻判虮荣悾?duì)于該類比賽,平時(shí)的訓(xùn)練以及比賽前的準(zhǔn)備應(yīng)該注意對(duì)成績(jī)有意義的影響因素,要注意哪些問(wèn)題才有利于提高成績(jī);從另一方面來(lái)說(shuō),對(duì)于每一個(gè)個(gè)體如何科學(xué)的安排和合理的選擇參加什么比賽才能得到更理想的的名次?即要能根據(jù)個(gè)體的實(shí)際情況對(duì)比賽成績(jī)做出較為準(zhǔn)確的預(yù)測(cè)。以上的任務(wù)雖然是抽象具體的,但是意義卻是非常明確而重大的。不過(guò)此類比賽卻具有以下的特征和難點(diǎn):(1)一個(gè)隊(duì)伍中參加比賽的每一個(gè)參賽個(gè)體都要有自己相對(duì)獨(dú)立的模型。而針對(duì)某一方面的影響因素,或許它對(duì)參賽個(gè)體A有非常明顯的影響,而對(duì)參賽個(gè)體B的影響卻很小甚至沒(méi)有任何影響;很明顯在這種情況下對(duì)于最后比賽成績(jī)的預(yù)測(cè),不同的個(gè)體由于個(gè)體自身的差異性導(dǎo)致無(wú)法沿用同樣的模型來(lái)進(jìn)行最后結(jié)果的預(yù)測(cè)。(2)每個(gè)個(gè)體在某一具體比賽中最后取得的成績(jī)也與其臨場(chǎng)狀況有關(guān),也與其近階段比賽的歷史成績(jī)有一定關(guān)系。臨場(chǎng)狀況在這里指的是個(gè)體自身的各方面因素和此次比賽賽場(chǎng)的構(gòu)成、現(xiàn)場(chǎng)氣氛等可以影響比賽成績(jī)的各種客觀因素整體所構(gòu)成的情形。但這不包括由于人為因素故意降低比賽成績(jī)等情況,因?yàn)檫@是無(wú)法用科學(xué)的方法來(lái)進(jìn)行分析和預(yù)測(cè)的。(3)影響成績(jī)的關(guān)系錯(cuò)綜復(fù)雜,而且因素可能很多。(4)它取值不僅是基于模糊的,而且是主觀判斷的和定性概念的屬性,甚至有些還可能是非常重要屬性。例如,身體狀況問(wèn)題、情緒問(wèn)題等等。(5)時(shí)間的發(fā)展對(duì)參賽個(gè)體成績(jī)的預(yù)測(cè)也有影響。例如:某一運(yùn)動(dòng)員從高峰期開(kāi)始走向低峰期或反之,數(shù)據(jù)都會(huì)發(fā)生變化。此外,因?yàn)槊看伪荣悈①悅€(gè)體的模型具有多樣性多樣性,所以就會(huì)出現(xiàn)這樣一種情況:一些參賽個(gè)體的數(shù)據(jù)會(huì)經(jīng)過(guò)一段時(shí)間的積累才會(huì)得到相對(duì)準(zhǔn)確的結(jié)果。
2.1.1 可以用關(guān)聯(lián)規(guī)則探索或者是確定影響因素
此方法主要包括兩種類型:發(fā)現(xiàn)型挖掘和驗(yàn)證型挖掘。其中發(fā)現(xiàn)型挖掘一般是用于未被注意到的、發(fā)現(xiàn)新的或特定于某個(gè)體的影響因素。驗(yàn)證挖掘用于經(jīng)驗(yàn)所認(rèn)定的或已由專家驗(yàn)證認(rèn)定的因素。由于每次參加比賽的群體具有多樣性,所以最后得出的數(shù)據(jù)的可用性就不一定會(huì)很充分,而且又因?yàn)闀r(shí)間性相對(duì)來(lái)說(shuō)很強(qiáng),時(shí)間稍微早些的數(shù)據(jù)或許就已經(jīng)不能再用來(lái)研究。所以,每當(dāng)在預(yù)測(cè)建模的時(shí),為了在多種影響因素中選取最主要的因素,就需要對(duì)已經(jīng)發(fā)現(xiàn)的的影響因素進(jìn)行合理的調(diào)整,必要時(shí)還要進(jìn)行重新挖掘。而且,在挖掘的時(shí)候,為了選取主要的影響因素,要排除過(guò)雜過(guò)多的情形,此時(shí)置信度則可偏大些,在預(yù)測(cè)建模和影響因素挖掘之間構(gòu)成一個(gè)優(yōu)化的循環(huán)的過(guò)程。
2.1.2 用神經(jīng)網(wǎng)絡(luò)方法建立臨場(chǎng)狀況的描述和分類模型
把某一參賽個(gè)體的臨場(chǎng)狀況所表現(xiàn)出來(lái)的情況劃分為不同的級(jí)別,例如很優(yōu)、良、中、差、很差等等。
2.1.3 成績(jī)的預(yù)測(cè)
預(yù)測(cè)成績(jī):s=a1s1+a2s2a1+a2=1,其中s1=E(I)即是參賽個(gè)體I在同一比賽所能取得的成績(jī)的數(shù)學(xué)期望值,但必須保證參賽個(gè)體是在最近的一個(gè)時(shí)間段P內(nèi);s2是由回歸方程所獲得的成績(jī),該成績(jī)是預(yù)測(cè)成績(jī)預(yù)測(cè)。參數(shù)P視具體的個(gè)體情況和實(shí)際問(wèn)題而定,也就是說(shuō)由于個(gè)體自身情況不同或具體出現(xiàn)的問(wèn)題不同,P的取值就可能會(huì)出現(xiàn)變化。參數(shù)a1和a2可根據(jù)方程式結(jié)果進(jìn)行調(diào)整,其調(diào)整的具體方法和重要意義將會(huì)在本節(jié)稍后進(jìn)行進(jìn)一步論述。
由上可以得出一個(gè)結(jié)論,一個(gè)個(gè)體在即將要參加的同種比賽中預(yù)測(cè)取得的比賽成績(jī)會(huì)與他近一段時(shí)間的所取得的成績(jī)相差不大。例如,一個(gè)世界冠軍級(jí)別的運(yùn)動(dòng)員和一個(gè)平時(shí)成績(jī)非常一般的運(yùn)動(dòng)員進(jìn)行比賽,世界冠軍在緊接的比賽中被成績(jī)平平的運(yùn)動(dòng)員打敗的幾率是相當(dāng)小甚至是沒(méi)有這種可能的。所以,由于E(I)這一參考值是相對(duì)穩(wěn)定的,所以E(I)就成為預(yù)測(cè)比賽結(jié)果的一個(gè)比較科學(xué)而又有用的參考值。而回歸模型則是通過(guò)挖掘影響因素來(lái)建模,是利用通過(guò)挖掘已經(jīng)得到的各種影響因素,來(lái)通過(guò)逐步的回歸,分析相關(guān)系數(shù)和檢驗(yàn)其顯著性,從而進(jìn)一步明確最主要的因素,最后分析出它們之間所存在的相互聯(lián)系,在必要時(shí)還要挖掘相關(guān)聯(lián)規(guī)則,然后再重新建立出模型等。采用回歸方法,要考慮到對(duì)預(yù)測(cè)值的連續(xù)性、精度要求以及計(jì)算的效率等問(wèn)題。
2.1.4 對(duì)有關(guān)比賽信息的數(shù)據(jù)進(jìn)行存儲(chǔ)
對(duì)每一參賽者的每一比賽,增加存儲(chǔ)參數(shù)由神經(jīng)網(wǎng)絡(luò)模型得到的臨場(chǎng)狀況級(jí)別L,預(yù)測(cè)成績(jī)(包括s1、s2、s和名次),以及a1、a2值。
2.1.5 模型的評(píng)估
以排名為最終標(biāo)準(zhǔn),以成績(jī)?yōu)閰⒖紭?biāo)準(zhǔn)。假如能夠做到實(shí)際取得的成績(jī)與預(yù)測(cè)的成績(jī)完全相符,實(shí)際比賽的排名和賽前預(yù)測(cè)的排名相符,這當(dāng)然是最理想的??墒?,從另一方面來(lái)講要達(dá)到這種很理想的準(zhǔn)確程度是非常不容易的的。當(dāng)把比賽的成績(jī)來(lái)作為預(yù)測(cè)的直接結(jié)果時(shí)就具有不受參賽群體數(shù)量多少的限制,具有較好的可區(qū)分度和靈活性,但是要做到高準(zhǔn)確性和高精準(zhǔn)度卻是非常困難的。此外,對(duì)于某些比賽來(lái)說(shuō),更加看重,更加關(guān)心的結(jié)果可能會(huì)是比賽的名次。
2.1.6 修正或重建模型
獲取可變參數(shù)a1和a2值。
參數(shù)a1和a2除了對(duì)預(yù)測(cè)進(jìn)行修正和作為s1和s2的置信比度外,另一方面來(lái)說(shuō)它還具有以下的作用和重要的意義;如果出現(xiàn)兩個(gè)值當(dāng)中的其中一個(gè)值始終持續(xù)維持在某一低水平,這種情況就表明與個(gè)體參賽成績(jī)相關(guān)的預(yù)測(cè)值是不準(zhǔn)確的,出現(xiàn)此類情況后就說(shuō)明該模型就要進(jìn)行改進(jìn),在必要時(shí)還需要重新建模。此外,對(duì)a1值的變化還具有另外一效用即“趨勢(shì)發(fā)現(xiàn)”的效用,其值能顯示出此位參賽個(gè)體的發(fā)展在近期是提高了已進(jìn)入高峰期,還是由于某種原因下跌而進(jìn)入低潮期。很明顯,對(duì)a1、a2值的處理是便捷方便捷靈活的,通過(guò)系統(tǒng)就可以完全自動(dòng)實(shí)現(xiàn)。雖然,a1,a2值和狀況級(jí)別L值的存儲(chǔ)代價(jià)不是很高,但是它可以用于模型的進(jìn)一步改進(jìn)及重建。
根據(jù)以上在實(shí)際應(yīng)用時(shí)出現(xiàn)的問(wèn)題及其特征,在此將利用以下兩項(xiàng)原則和三條策略來(lái)解決此類問(wèn)題。原則:一定要能對(duì)模型的重建給出建議和自動(dòng)的給與提示,并且能為模型重建給出有用的信息;必須能夠方便、靈活且自動(dòng)地對(duì)已有的模型進(jìn)行修正。策略:對(duì)付主觀、模糊的概念屬性時(shí)用模糊的邏輯。經(jīng)研究發(fā)現(xiàn),處理復(fù)雜問(wèn)題時(shí)采用多方法、多模型是一種有實(shí)用性的策略,而且預(yù)測(cè)精度還可以得到很大程度的提高[3-4];而處理主觀、含糊的語(yǔ)言變量是運(yùn)用模糊邏輯則是非常有效而成熟的[5]。以多模型、多方法的組合/結(jié)合提高預(yù)測(cè)的準(zhǔn)確性并對(duì)付問(wèn)題的復(fù)雜性。當(dāng)把輕量級(jí)模型應(yīng)用于每個(gè)參賽個(gè)體時(shí),就必須要用自己獨(dú)特模型所附帶的對(duì)資源的特殊要求和效率問(wèn)題。
把以上方法有效地應(yīng)用于某一地區(qū)的賽車比賽中,首先確定出8個(gè)對(duì)比賽有影響的因素,它們分別為:決定性因素(賽程),賽車本身因素(重量、排量、輪胎性能),其他影響因素(賽車手排位、車輛出發(fā)排位、場(chǎng)地的性質(zhì)、天氣情況等)。問(wèn)題的客觀實(shí)際就基本上被精準(zhǔn)而簡(jiǎn)練的反映出來(lái)。運(yùn)用建模方法對(duì)此種比賽的50場(chǎng)比賽結(jié)果進(jìn)行預(yù)測(cè),預(yù)測(cè)的名次與實(shí)際名次相差在五名以內(nèi)的準(zhǔn)確率大概為85%。具有相當(dāng)高的準(zhǔn)確率。另外有專家也曾經(jīng)把以上方法應(yīng)用于賽馬娛樂(lè)項(xiàng)目,預(yù)測(cè)所得出的名次與實(shí)際比賽的名次相差在三名以內(nèi)的概率約為75%。但是,由于有一些商業(yè)方面上的特殊原因(比如其他預(yù)測(cè)系統(tǒng)的預(yù)測(cè):馬評(píng)家的觀測(cè)等),此類比賽的結(jié)果還不能與其他的同類預(yù)測(cè)相比較。另一方面,也考慮到一些參賽馬匹近期的真實(shí)歷史資料不太容易獲取和馬匹的不確定性等問(wèn)題,這就給預(yù)測(cè)增添了很大的難度,所以由于各方面的原因,該預(yù)測(cè)的準(zhǔn)確率也還是可以接受的。
通過(guò)對(duì)幾個(gè)參數(shù)進(jìn)行簡(jiǎn)單的分析處理,最后可以方便、自動(dòng)地修正已存在的模型、完善,把多模型的、輕量的和多種技術(shù)的組合/結(jié)合作為策略;研究問(wèn)題的主要特征而又兼顧到該問(wèn)題的各個(gè)方面,對(duì)非對(duì)壘式比賽類給出了一個(gè)分析以及預(yù)測(cè)的KDD建模方法,對(duì)比賽結(jié)果作出預(yù)測(cè),并對(duì)每個(gè)參賽者的比賽成績(jī)有影響的各種重要因素進(jìn)行分析和確定。同時(shí)參賽群體許多客觀的問(wèn)題也通過(guò)KDD建模方法得到了較好的解決,包括多種多樣的參賽群體、復(fù)雜的影響因素以及預(yù)測(cè)上的困難等一系列問(wèn)題。此外,KDD建模方法不僅能夠主動(dòng)對(duì)模型的改進(jìn)或重建給出合理的建議,還可以為模型的改進(jìn)或重建提供有用的信息。
[1]陸偉,吳朝暉.知識(shí)發(fā)現(xiàn)方法的比較研究[J].計(jì)算機(jī)科學(xué),2000,27(3):80-84
[2]歐陽(yáng)為民,鄭誠(chéng),張燕.國(guó)際知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘工具評(píng)述[J].計(jì)算機(jī)科學(xué),2001,28(3):101-108
[3]刁力力,胡可云,陸玉昌,等.數(shù)據(jù)挖掘與組合學(xué)習(xí),計(jì)算機(jī)學(xué)習(xí)[J].2001,28(7):73-78
[4]韓宏,楊靜宇.多分類器組合及其應(yīng)用[J].計(jì)算機(jī)科學(xué),2000,27(1):58-61
[5]SMITH E,ELOFF J.Cognitive fuzzy modeling for enhanced risk assess-ment in a health care institution[J].IEEE Intelligent Systems,2000,15(2):69-75
[6] NARENDA K S,MUKHOPADHYAY S.Adaptive Control ofnonlinearmulti-variable systems using neural networks[J].NeuralNetworks,1994,7(5):737-752
[7]張德培,羅蘊(yùn).應(yīng)用概率統(tǒng)計(jì)[M].北京:高等教育出版社,2000
[8]焦李成.神經(jīng)網(wǎng)絡(luò)系統(tǒng)理論[M].西安:西安電子科技大學(xué)出版社,1990