蔣雪辰,左小五,陳 勝,沈昱明
美國男子職業(yè)籃球聯(lián)賽(以下簡(jiǎn)稱“NBA”)之所以會(huì)成為世界最好的籃球聯(lián)賽,不僅在于其高度商業(yè)化和完美的運(yùn)營模式,更在于其籃球體制的不斷變革和完善。頂級(jí)的醫(yī)療體系延長了球員的職業(yè)生涯,豐富的戰(zhàn)術(shù)打法提高了賽場(chǎng)的觀賞性,科學(xué)的訓(xùn)練計(jì)劃保證了球員的競(jìng)技狀態(tài),完善的球探系統(tǒng)實(shí)現(xiàn)了人才的不斷涌流。此外,數(shù)據(jù)統(tǒng)計(jì)的完善更顯而易見。從聯(lián)盟初期通過手寫記錄球員得分、籃板等基礎(chǔ)數(shù)據(jù),到21世紀(jì)初使用數(shù)據(jù)庫統(tǒng)計(jì)球員進(jìn)攻防守貢獻(xiàn)、關(guān)鍵時(shí)刻表現(xiàn)等進(jìn)階數(shù)據(jù),再到如今的追蹤數(shù)據(jù)和可視化數(shù)據(jù)[1],NBA對(duì)數(shù)據(jù)的重視程度遠(yuǎn)高于其他聯(lián)賽。
在籃球史上,誕生過無數(shù)的頂級(jí)后衛(wèi):有攻守極佳的喬丹和科比;有傳球大師約翰遜和基德;有擅長投射的雷阿倫和雷吉米勒;更有以防守見長的加里佩頓。每一名球員都有自己熱衷的打球方式和渴望達(dá)成的目標(biāo)。對(duì)于不同類型的球員,從戰(zhàn)術(shù)安排到人員配置,教練員都需要不同的對(duì)待。筆者通過分析NBA得分后衛(wèi)的比賽數(shù)據(jù),對(duì)球員在球場(chǎng)上的作用和功能進(jìn)行聚類,為球隊(duì)挑選、使用和培訓(xùn)球員提供依據(jù)。
以2012—2013賽季到2018—2019賽季NBA得分后衛(wèi)為研究對(duì)象。以NBA數(shù)據(jù)查詢網(wǎng)站(https://www.basketball-refe-rence.com/)[2]中球員每36分鐘得分、籃板、助攻、搶斷等17項(xiàng)基礎(chǔ)數(shù)據(jù)以及有效投籃命中率、使用率、進(jìn)攻貢獻(xiàn)值等19項(xiàng)進(jìn)階數(shù)據(jù)[3]為原始數(shù)據(jù)??紤]到數(shù)據(jù)的真實(shí)性,僅選取單賽季出場(chǎng)次數(shù)超過30場(chǎng),場(chǎng)均出場(chǎng)超過25分鐘為依據(jù),得到總計(jì)271條球員數(shù)據(jù)[4]。
考慮到對(duì)得分后衛(wèi)的聚類分析,去除籃板球、蓋帽和犯規(guī)等通常定義內(nèi)線球員的數(shù)據(jù),同時(shí)失誤往往和助攻關(guān)聯(lián)在一起,通過兩者的比值衡量球員傳球穩(wěn)定性和助攻成功率,因此將失誤更換為助攻失誤比,最終將原始數(shù)據(jù)從36維降到25維。包括FGA、FG%、3PA、3P%、2PA、2P%、FT、FTA、AST、STL、PTS、TS%、3PAr、AST%、STL%、USG%、OWS、DWS、WS、WS/48、OBPM、DBPM、BPM、VORP 和 A/T(表1為部分進(jìn)階數(shù)據(jù)的解釋,以下均用縮寫表示)。為了便于不同單位或量級(jí)的特征能夠進(jìn)行比較和加權(quán),對(duì)數(shù)據(jù)進(jìn)行最大最小歸一化處理。
因子分析通過研究變量間的相關(guān)系數(shù)矩陣,把變量間錯(cuò)綜復(fù)雜的關(guān)系歸結(jié)成幾個(gè)潛在的綜合因子。因子分析不僅包含原始變量的大部分信息,還可以達(dá)到降維的效果。相比于其他降維方法,因子分析具有更強(qiáng)的可解釋性,有助于后續(xù)聚類的說明。在進(jìn)行因子分析之前,需要采用巴特利特球形檢驗(yàn)(Bartlett Test of Sphericity)和 KMO(Kaiser-Meyer-Olkin)檢驗(yàn),分析數(shù)據(jù)的相關(guān)性程度。
3.1.1 巴特利特球形檢驗(yàn)巴特利特球形檢驗(yàn)是以特征的相關(guān)系數(shù)矩陣為基礎(chǔ),假設(shè)相關(guān)系數(shù)矩陣為單位矩陣,檢測(cè)統(tǒng)計(jì)量Φ通過相關(guān)系數(shù)矩陣Ο的行列式得到結(jié)果。其計(jì)算公式為:
根據(jù)統(tǒng)計(jì)量觀測(cè)值和自由度查詢卡方分布表,近似得到對(duì)應(yīng)的相伴概率值,進(jìn)而通過顯著性水平值P與相伴概率值a的關(guān)系確定原始特征之間是否存在相關(guān)性。通常P小于a(0.05)就判定適合進(jìn)行因子分析。
3.1.2 KMO檢測(cè)KMO檢測(cè)通過比較特征間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù),分析數(shù)據(jù)集因子分析的適用性。當(dāng)特征的簡(jiǎn)單相關(guān)系數(shù)平方和遠(yuǎn)大于偏相關(guān)系數(shù)平方和,變量間相關(guān)性越強(qiáng),越適合因子分析[5]。取值區(qū)間為[0,1],大于0.7 即認(rèn)為適合。
KMO檢測(cè)和巴特利特球形檢測(cè)結(jié)果(見表2)均在合理區(qū)間,表明實(shí)驗(yàn)數(shù)據(jù)適用于因子分析[6]。
3.1.3 因子構(gòu)造公因子的選取使用主成分分析方法。根據(jù)方差貢獻(xiàn)值的大小決定該公因子的相對(duì)重要性,根據(jù)累積方差貢獻(xiàn)值決定公因子的選取數(shù)量,結(jié)果如表3所示??梢钥闯?,前6個(gè)公因子總方差貢獻(xiàn)率超過90%,因此認(rèn)為該6項(xiàng)公因子能有效反映球員的功能[7]。
表1 進(jìn)階數(shù)據(jù)解析
表2 KMO和巴特利特檢驗(yàn)
表3 特征值、累積方差貢獻(xiàn)一覽表
3.1.4 因子旋轉(zhuǎn)因子分析的結(jié)果需要每個(gè)因子都有實(shí)際意義,并且要具有解釋性。因此利用因子旋轉(zhuǎn),通過坐標(biāo)變換可以將原始特征在盡可能少的因子之間有更密切的關(guān)系,使因子系數(shù)向0或1靠近。使用方差最大化法進(jìn)行因子旋轉(zhuǎn),結(jié)果如表4所示。
如表4所示,第一個(gè)因子主要是由FGA、2PA、FT、FTA、PTS和USG%貢獻(xiàn)組成,可以定義為領(lǐng)袖因子。在六個(gè)因子中,球員的使用率無疑是體現(xiàn)球員在場(chǎng)上價(jià)值的重要指標(biāo),得分和投籃次數(shù)也體現(xiàn)了球員在隊(duì)內(nèi)的地位。
第二個(gè)因子主要是由 TS%、OWS、WS、WS/48、OBPM、BPM和VORP貢獻(xiàn)組成,可以定義為進(jìn)攻貢獻(xiàn)因子。球隊(duì)進(jìn)攻不僅需要球員自身的進(jìn)攻能力,更注重團(tuán)隊(duì)的戰(zhàn)術(shù)配合,因此相比TS%和VOPR更注重個(gè)人的能力。WS、WS/48和BPM包括球員的防守貢獻(xiàn);OWS和OBPM是進(jìn)攻貢獻(xiàn)因子最重要的兩項(xiàng)指標(biāo)。
第三個(gè)因子主要是由STL、STL%、DWS和DBPM貢獻(xiàn)組成,可以定義為防守貢獻(xiàn)因子。DWS和DBPM作為體現(xiàn)球員防守能力的進(jìn)階數(shù)據(jù),相比STL和STL%表現(xiàn)球員防守積極性,對(duì)防守貢獻(xiàn)因子占有更大的比重。
表4 旋轉(zhuǎn)后的成分矩陣
第四個(gè)因子主要是由3PA、3P%和3PAr貢獻(xiàn)組成,可以定義為三分能力因子。評(píng)價(jià)球員的三分能力,三分球命中率是關(guān)鍵,三分出手?jǐn)?shù)是保障。
第五個(gè)因子主要是由FG%、2P%和TS%貢獻(xiàn)組成,可以定義為投籃穩(wěn)定性因子。優(yōu)秀的投手不僅要有穩(wěn)定的中遠(yuǎn)距離的投籃能力,罰球命中率也相當(dāng)重要,因此真實(shí)命中率更能體現(xiàn)球員投籃的整體穩(wěn)定性。
第六個(gè)因子主要是由AST、AST%和A/T貢獻(xiàn)組成,可以定義為傳球能力因子。一個(gè)優(yōu)秀的傳球手,要保證在較多助攻數(shù)的情況下,較少失誤,提高傳球成功率。
基于以上對(duì)六個(gè)因子的定義與分析,對(duì)六維新特征進(jìn)行重構(gòu),計(jì)算公式如表5所示。
表5 新特征重構(gòu)方式
研究球員功能類型時(shí),采用K-Means聚類算法,以重構(gòu)的六維特征向量為基礎(chǔ),計(jì)算各特征向量間的歐氏距離。將距離接近的球員聚為一類,最終保證類內(nèi)間距與類間間距比值最小[8]。
假設(shè)數(shù)據(jù)樣本X,包含了271個(gè)對(duì)象Yi={Yi1,Yi2,Yi3,Yi4,Yi5,Yi6}。其中每個(gè)對(duì)象都具有 6 維度的特征,依據(jù)對(duì)象間的相似性聚集到指定的k個(gè)類簇中,每個(gè)對(duì)象屬于且僅屬于距離最小的類簇中。首先初始化 k 各聚類中心{C1,C2,C3,...,CK},1<k≦n;然后計(jì)算每個(gè)對(duì)象到每個(gè)聚類中心的歐氏距離。如下式所示:
上式中,Yi表示第i個(gè)對(duì)象(1≦i≦217);Cj表示第j個(gè)聚類中心(1≦j≦k);Yit表示第i個(gè)對(duì)象的第t個(gè)特征(1≦t≦6);Cjt表示第j個(gè)聚類中心的第t個(gè)特征。依次比較每個(gè)對(duì)象到每一聚類中心的距離,將對(duì)象分配給距離最近的聚類中心的類簇中,得到 K 個(gè)類簇{S1,S2,S3,...,SK}。每當(dāng)一個(gè)類簇添加一個(gè)新對(duì)象,該類的聚類中心也需相應(yīng)的更新。聚類中心的計(jì)算公式如下:
最終聚類模型的目標(biāo)是最小化平方誤差E(如下所示),以得到最佳的模型。
本數(shù)據(jù)集K值的選取使用輪廓系數(shù)法。計(jì)算所有樣本的平均輪廓系數(shù),來評(píng)價(jià)類內(nèi)的密集程度和類間的分離程度。平均輪廓系數(shù)取值范圍是[-1,1]。系數(shù)越大,類內(nèi)間距與類間間距比值越大,聚類效果越好。樣本點(diǎn)Yi的輪廓系數(shù)定義如下:
上式中,a為Yi同類其他樣本點(diǎn)的平均距離,稱為凝聚點(diǎn);b為Yi到平均距離最近的類簇的平均距離,稱為分離度。最近類簇定義如下[9]:
考慮到得分后衛(wèi)的功能類型,僅計(jì)算k在5—12之間的取值。取10次結(jié)果的平均值,結(jié)果如表6所示。當(dāng)k為8時(shí),平均輪廓系數(shù)最大,聚類效果最佳。
表6 平均輪廓系數(shù)
K-Means聚類算法流程圖如圖1所示。
表7為聚類模型的聚類中心。數(shù)值越大代表該項(xiàng)能力越強(qiáng)。表8為部分球員的聚類結(jié)果。圖2為各類球員能力雷達(dá)圖。
第一類球員六項(xiàng)指標(biāo)都十分優(yōu)秀,尤其是領(lǐng)導(dǎo)力、進(jìn)攻貢獻(xiàn)和傳球能力,屬于絕對(duì)核心。如2013年的韋德和科比、轉(zhuǎn)會(huì)火箭后的哈登等。作為球隊(duì)的領(lǐng)袖,既可以在球隊(duì)狀態(tài)不佳的時(shí)候自己得分,也可以在隊(duì)友狀態(tài)正佳時(shí),助攻隊(duì)友得分。具有出色的比賽閱讀能力,可以主導(dǎo)比賽的走勢(shì)。
第二類球員雖然對(duì)球隊(duì)的進(jìn)攻貢獻(xiàn)較低,投籃穩(wěn)定性不足,但出色的防守和穩(wěn)定的傳球也能贏得教練的信任,是不錯(cuò)的角色球員[10]。好的支配球的能力,可以有效地串聯(lián)球隊(duì),打出教練制定的戰(zhàn)術(shù);較少的持球進(jìn)攻,既不占用球權(quán),還能保證防守端的積極投入。如2013年的伊戈達(dá)拉,2017—2019年的斯瑪特。雖然不是球隊(duì)的核心球員,但在關(guān)鍵時(shí)刻總能獲得教練的信任,完成教練的安排。
第三類球員具備領(lǐng)袖氣質(zhì),有出色的三分投射,但傳球能力不足,防守意識(shí)薄弱。雖然個(gè)人得分能力出眾能夠保障球隊(duì)的進(jìn)攻,但較差的傳球意識(shí)和防守態(tài)度,經(jīng)常導(dǎo)致球隊(duì)在高得分的情況下輸球。如2017—2019年的德文布克,2016—2019年的比爾。雖然有不少高光時(shí)刻,具備明星球員的潛質(zhì),但如果想成為頂級(jí)球星,還需平衡進(jìn)攻和防守端的投入,以及傳球意識(shí),更好地融入球隊(duì)之中。
圖1 聚類算法流程圖
表7 聚類中心
表8 部分球員的聚類結(jié)果
圖2 各類球員能力雷達(dá)圖
第四類球員最突出的就是防守能力,屬于頂級(jí)側(cè)翼防守球員。得分手段少,傳球能力低,缺乏投射能力,但積極的防守和拼搶,既能帶動(dòng)全隊(duì)的士氣,也能激發(fā)球迷的吶喊助威。例如托尼阿倫。越到季后賽,越能體現(xiàn)防守球員對(duì)球隊(duì)的重要性。
第五類球員在攻防兩端對(duì)球隊(duì)的貢獻(xiàn)都不高,投籃穩(wěn)定性差,處理球的能力也不夠,僅有三分能力比較突出,屬于外線球員。這類球員通常只有指定的三分球戰(zhàn)術(shù),或者起到拉開空間的作用,對(duì)球隊(duì)的貢獻(xiàn)完全取決于在場(chǎng)狀態(tài)。比如JR史密斯,既能成為騎士隊(duì)的奪冠功臣,也能成為奪冠之路最薄弱的一環(huán)。
第六類球員作為球隊(duì)的領(lǐng)袖,攻防兩端的貢獻(xiàn)卻差強(qiáng)人意,僅有組織能力比較突出,屬于組織核心。生涯末期的科比和韋德依然是球隊(duì)的領(lǐng)袖,但無法像以前那樣以一己之力改變球隊(duì)的命運(yùn)。
第七類球員不但有頂級(jí)的三分球能力和出色的穩(wěn)定性,也有較強(qiáng)的防守能力,屬于“3D”球員(三分和防守)?!?D”球員適合打無球的配合,通過各種戰(zhàn)術(shù)擋拆,尋求空位三分的機(jī)會(huì),不占用球權(quán),攻防兩端都能體現(xiàn)自身的價(jià)值??巳R湯普森、丹尼格林和巴蒂爾都是頂級(jí)3D球員的代表。近幾年的冠軍球隊(duì),無一不擁有一名優(yōu)秀的3D球員。他們依然是爭(zhēng)冠隊(duì)伍的關(guān)鍵一環(huán)。
第八類球員有一定的球權(quán)占有率以及不錯(cuò)的三分投射能力,但攻防兩端貢獻(xiàn)太差,球場(chǎng)正負(fù)值極低,屬于華而不實(shí)型球員。這類球員可能有不錯(cuò)的進(jìn)攻能力,但缺乏戰(zhàn)術(shù)意識(shí),在關(guān)鍵時(shí)刻通常不會(huì)得到教練的重用,例如克拉克森和吉姆哈達(dá)威。
4.2.1 進(jìn)階數(shù)據(jù)的重要性基礎(chǔ)數(shù)據(jù)作為衡量球員能力最直觀也最易理解的數(shù)據(jù),是教練、球員、以及球迷都十分看中的,也是聯(lián)盟評(píng)比最佳陣容的重要依據(jù)。華麗的數(shù)據(jù)可以證明一名球員的個(gè)人能力,但不代表能幫助球隊(duì)取得勝利。補(bǔ)防、協(xié)防、積極拼搶、制造進(jìn)攻犯規(guī)等,都能體現(xiàn)球員的防守意識(shí),但卻無法呈現(xiàn)在基礎(chǔ)數(shù)據(jù)中。進(jìn)階數(shù)據(jù)作為從基礎(chǔ)數(shù)據(jù)引申出的更細(xì)粒度數(shù)據(jù),更全面也更注重反映球員與團(tuán)隊(duì)之間的配合效果。兩種數(shù)據(jù)的結(jié)合,才能更有效地反映球員的真實(shí)作用。
通過對(duì)表9數(shù)據(jù)(每36分鐘)對(duì)比發(fā)現(xiàn),從基礎(chǔ)數(shù)據(jù)方面分析,三名球員除了三分命中率偏差較大外,其他數(shù)據(jù)都很接近,很容易歸為一類球員。但從進(jìn)階數(shù)據(jù)方面分析,德羅贊在進(jìn)攻端對(duì)球隊(duì)的貢獻(xiàn)遠(yuǎn)高于米切爾和韋德。雖然米切爾在防守端的貢獻(xiàn)更高,但對(duì)球隊(duì)的整體貢獻(xiàn)還是遠(yuǎn)不如德羅贊,而韋德在高使用率的同時(shí),有著更高的助攻率,更多是起串聯(lián)球隊(duì)的作用?;@球是一項(xiàng)團(tuán)隊(duì)運(yùn)動(dòng),講究的是戰(zhàn)術(shù)配合。一味地追求個(gè)人數(shù)據(jù)有時(shí)不但不能幫助球隊(duì),反而會(huì)破壞球隊(duì)的整體性。因此分析一名球員,以基礎(chǔ)數(shù)據(jù)為基礎(chǔ),以進(jìn)階數(shù)據(jù)為保障更為合理。
4.2.2 聚類分析的意義首先,有效地聚類分析,能夠確保教練團(tuán)隊(duì)對(duì)球員狀態(tài)的準(zhǔn)確了解,避免依據(jù)幾項(xiàng)數(shù)據(jù)得出片面認(rèn)識(shí)。每位球員都有適合自身的定位和打法,教練使用是否恰當(dāng),都會(huì)從球員的數(shù)據(jù)體現(xiàn)出來,并通過聚類分析得出結(jié)論。其次,有效地聚類分析有助于球隊(duì)的合理運(yùn)營。每個(gè)賽季各球隊(duì)都會(huì)進(jìn)行裁員和引援。對(duì)球員合理地定位,可以避免球隊(duì)引入不合適的球員,也可將對(duì)內(nèi)作用重復(fù)的球員交易出去。新秀賽季的東契奇無疑打出了出色的一年,通過對(duì)數(shù)據(jù)的分析,將他歸類為絕對(duì)核心。小牛隊(duì)在休賽期圍繞東契奇組建球隊(duì),將全明星中鋒小喬丹,以及需要球權(quán)的丹尼斯史密斯送走,簽下了適合打無球的波爾津吉斯等。新賽季的東契奇在前20場(chǎng)比賽打出了接近30+10+10的場(chǎng)均準(zhǔn)三雙的數(shù)據(jù)(見表10),助攻率和OBPM值更是分別達(dá)到了47.7和11.1。出色穩(wěn)定的發(fā)揮也把小牛隊(duì)重新帶入了季后賽。
表9 米切爾、德羅贊、韋德數(shù)據(jù)對(duì)比表
表10 東契奇前兩個(gè)賽季數(shù)據(jù)表
NBA得分后衛(wèi)可以根據(jù)領(lǐng)袖因子、進(jìn)攻貢獻(xiàn)因子、防守貢獻(xiàn)因子、三分能力、投籃穩(wěn)定性和傳球能力可以分為8個(gè)類型:絕對(duì)核心、角色球員、外線核心、頂級(jí)側(cè)翼防守者、外線球員、組織核心、“3D”球員、和華而不實(shí)型球員。CBA也應(yīng)重視科學(xué)培養(yǎng)各位置、各類型的國內(nèi)球員,為國家隊(duì)的組建提供更多的搭配方案,也增強(qiáng)了各位置的競(jìng)爭(zhēng)性。避免國家隊(duì)挑選多名打法相似的球員,導(dǎo)致在大賽中面對(duì)特殊打法的球隊(duì)時(shí),面臨無人可換的窘境。
進(jìn)階數(shù)據(jù)對(duì)球員的評(píng)價(jià)更具有真實(shí)性,更能反映球員的作用。CBA作為國內(nèi)最頂級(jí)的籃球聯(lián)賽,應(yīng)當(dāng)對(duì)進(jìn)階數(shù)據(jù)產(chǎn)生足夠的重視。進(jìn)階數(shù)據(jù)分析一方面可以增強(qiáng)對(duì)球員的了解,突出球員的特點(diǎn),另一方面也有助于挖掘個(gè)人能力出眾的球員,也能發(fā)現(xiàn)基礎(chǔ)數(shù)據(jù)一般,但擅長團(tuán)隊(duì)配合的球員。
對(duì)于球隊(duì)的組建。首先,CBA各俱樂部應(yīng)當(dāng)基于國內(nèi)球員的類型選擇合適的外援。例如山東隊(duì)先后選擇了不需要大量球權(quán)的杰特和勞森,來搭配擅長持球進(jìn)攻的丁彥雨航;北京隊(duì)簽約組織能力更強(qiáng)的馬布里來培養(yǎng)擅長打無球的翟小川、朱彥西等年輕球員。正確的引援,不僅能保證球隊(duì)的戰(zhàn)績(jī),也有助于國內(nèi)球員潛力的開發(fā)。其次,CBA應(yīng)當(dāng)加快交易體制的改革,幫助球隊(duì)換來適合球隊(duì)打法的球員,也能讓得不到機(jī)會(huì)的球員有更多鍛煉和提升的機(jī)會(huì)。在減少人才流失的同時(shí),增強(qiáng)各球隊(duì)搭配的合理性和完整性,提升聯(lián)賽的競(jìng)爭(zhēng)力,助力中國籃球的長遠(yuǎn)發(fā)展。