胡海濤 喻 孜
體育數(shù)據(jù)分析中一元線性回歸的三種方法
胡海濤 喻 孜
(南京林業(yè)大學(xué) 體育教育部 理學(xué)院,江蘇 南京 210037)
一元線性回歸是體育數(shù)據(jù)分析中常用的一種數(shù)據(jù)處理方法。很多數(shù)據(jù)處理軟件內(nèi)置的一元線性回歸功能都是基于最小化方差(LS)的最小二乘法回歸。文章探討最小化點(diǎn)到直線距離(LD)的回歸和Theil-Sen(TS)回歸,作為國(guó)內(nèi)現(xiàn)有體育數(shù)據(jù)分析方法的補(bǔ)充。LS方法數(shù)學(xué)形式更為簡(jiǎn)潔,LD方法與作圖法采用的策略相同,TS方法計(jì)算量較大。以安踏體育在國(guó)內(nèi)市場(chǎng)占有率數(shù)據(jù)和高校學(xué)生體育課成績(jī)數(shù)據(jù)為例,比較了三種線性回歸算法的異同。在數(shù)據(jù)具有明顯的線性特征時(shí),三種回歸算法效果接近。當(dāng)數(shù)據(jù)有少數(shù)“離群值”時(shí),使用TS回歸效果更好。當(dāng)數(shù)據(jù)有“類橢圓”分布特征時(shí),LD方法最優(yōu)。
線性回歸;最小二乘法;Theil-Sen回歸
回歸分析是利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的函數(shù)表達(dá)式?;貧w分析中,當(dāng)研究的因果關(guān)系只涉及因變量和一個(gè)自變量,并且兩者的關(guān)系為線性時(shí),叫做一元線性回歸分析。一元線性回歸在體育數(shù)據(jù)分析中有廣泛的應(yīng)用[1-4]。很多體育數(shù)據(jù),往往是一個(gè)時(shí)間序列,具有趨勢(shì)性、周期性和隨機(jī)性。在分析這類數(shù)據(jù)時(shí),一元線性回歸分析能夠快速判斷出因變量隨自變量的變化趨勢(shì),從而為數(shù)據(jù)預(yù)測(cè)提供幫助。目前,體育統(tǒng)計(jì)學(xué)中經(jīng)常采用SPSS統(tǒng)計(jì)和EXCEL軟件進(jìn)行回歸分析[3-6],這些軟件所采用的一元線性回歸都是基于最小化方差的回歸。很多體育數(shù)據(jù)分析的文獻(xiàn)所討論的最小二乘法回歸,也都是基于最小化方差的回歸[7-8]。事實(shí)上,一元線性回歸還有其他的方法,當(dāng)數(shù)據(jù)呈現(xiàn)不同特征時(shí),不同的方法會(huì)有不同的效果。目前在體育數(shù)據(jù)分析領(lǐng)域中,對(duì)其他一元線性回歸方法的討論還比較少。文章將討論三種一元線性回歸方法,并對(duì)三種方法在物理實(shí)驗(yàn)中的應(yīng)用效果進(jìn)行比較。
上式中,i代表自變量和因變量的第i組數(shù)據(jù)。對(duì)目標(biāo)函數(shù)而言,方差(a,b)應(yīng)該取極小值。這樣,總的看起來,目標(biāo)函數(shù)與所有數(shù)據(jù)點(diǎn)的“貼合度”最高。后文將這種最小化方差(Least squaring)的回歸法簡(jiǎn)稱為L(zhǎng)S線性回歸。函數(shù)(a,b)極小值條件為,
假設(shè)共有n組數(shù)據(jù),(2)和(3)聯(lián)立求解即可得到a和b,
(8)式與(9)比較,消去a和b,可以得到
前述兩種方法都是通過極值方程的求解得到直線方程的參數(shù),Theil-Sen一元線性回歸(后文簡(jiǎn)稱為TS回歸)則是通過中值估計(jì)來得到方程參數(shù)。假設(shè)目標(biāo)直線斜率為a截距為b。TS回歸中a的值等于所有數(shù)據(jù)點(diǎn)之間斜率的中位數(shù),然后用同樣的方法確定b。
三種回歸算法中,LS方法的數(shù)學(xué)形式最為簡(jiǎn)潔清晰,并且可以直接得到方差估計(jì),因而被廣泛用于數(shù)據(jù)處理。LD方法數(shù)學(xué)推導(dǎo)最為復(fù)雜,然而LD方法采用的策略與作圖法一致,因此更容易理解。TS回歸法需要比較所有數(shù)據(jù)點(diǎn)之間的斜率,計(jì)算量較大。當(dāng)測(cè)量數(shù)據(jù)具有不同特征時(shí),三種回歸方法有不同的效果。本文通過三組數(shù)據(jù)來比較三種回歸算法之間的區(qū)別。
圖1 安踏體育在國(guó)內(nèi)體育用品市場(chǎng)的市場(chǎng)占有率隨時(shí)間的變化
圖1為2012年到2019年間安踏體育在國(guó)內(nèi)體育用品市場(chǎng)的占有率。增長(zhǎng)趨勢(shì)具有明顯的線性特征。如果增長(zhǎng)趨勢(shì)在短期內(nèi)可以延續(xù),則可以通過一元線性回歸法分析2012-2019年的數(shù)據(jù)增長(zhǎng)趨勢(shì),預(yù)測(cè)2020年的營(yíng)收數(shù)據(jù)。用三種回歸方法對(duì)2012-2019年的數(shù)據(jù)進(jìn)行處理,結(jié)果如圖1的回歸線所示。從圖1可以看到, TS法和LD法得到的直線幾乎重合,LS方法得到的直線斜率較另外兩種方法得到的直線斜率稍大。LS法、LD法和TS法預(yù)測(cè)得到的2020年的結(jié)果分別為,15.2%,15.1%和15.0%。圖1中方塊點(diǎn)代表了2020年的真實(shí)數(shù)據(jù),值為15.4%。三種方法的預(yù)測(cè)效果都比較準(zhǔn)確,差別不大。
圖中三角形代表2012年-2019年的數(shù)據(jù),方塊代表2020年的數(shù)據(jù)。基于2012年-2019年的數(shù)據(jù)采用三種不同的方法做回歸分析來預(yù)測(cè)2020年的數(shù)據(jù)。
圖2 安踏體育在國(guó)內(nèi)體育服飾市場(chǎng)的市場(chǎng)占有率隨時(shí)間的變化
圖中三角形代表2012年-2019年的數(shù)據(jù),方塊代表2020年的數(shù)據(jù)?;?012年-2019年的數(shù)據(jù)采用三種不同的方法做回歸分析來預(yù)測(cè)2020年的數(shù)據(jù)。
圖2為2012年到2019年間安踏體育在國(guó)內(nèi)體育服飾市場(chǎng)的占有率。與圖1類似,增長(zhǎng)趨勢(shì)具有線性特征。用三種方法對(duì)2012-2019年數(shù)據(jù)進(jìn)行回歸處理,預(yù)測(cè)2020年的市場(chǎng)占有率,結(jié)果如圖2的回歸線所示??梢钥吹?,LS方法和LD方法較為接近,此時(shí)TS方法得到的結(jié)果與這兩種方法明顯不同。LS法、LD法和TS法預(yù)測(cè)得到的2020年的結(jié)果分別為,21.7%,21.5%和22.7%。
圖1中方塊點(diǎn)代表了2020年的真實(shí)數(shù)據(jù),值為22.7%。與2020年的真實(shí)數(shù)據(jù)相比,TS方法明顯更為準(zhǔn)確。這是因?yàn)?017年的數(shù)據(jù)(如圖箭頭所標(biāo)識(shí)的數(shù)據(jù))較其他年份數(shù)據(jù)有較大差距,LS方法和LD方法受到了“離群”數(shù)據(jù)的干擾,回歸直線會(huì)偏向這個(gè)離群數(shù)據(jù)。而TS方法是通過中值估計(jì)來得到直線,抗干擾能力更強(qiáng)。
在高校體育課中,有部分學(xué)生會(huì)既選修足球課也參加八百米跑測(cè)試。圖3為某高校本科生足球課綜合成績(jī)和800m測(cè)試成績(jī)的分布圖。 從數(shù)據(jù)分布來看,總體趨勢(shì)是學(xué)生800m成績(jī)?cè)礁撸闱虺煽?jī)也越高。然而,由于調(diào)查樣本較多,數(shù)據(jù)比較離散,分布呈現(xiàn)了“類橢圓”特征??梢酝ㄟ^回歸直線法分析兩項(xiàng)成績(jī)的關(guān)聯(lián)趨勢(shì)。用三種回歸方法得到回歸線如圖3所示。此時(shí),TS方法和LS方法結(jié)果相近,與LD方法出現(xiàn)明顯差異。LD方法使得各點(diǎn)到目標(biāo)直線垂直距離最小,該方法得到的目標(biāo)直線更接近于“類橢圓”的主軸,體現(xiàn)了總的統(tǒng)計(jì)平均效果,結(jié)果更優(yōu)。
圖3 某高校本科生800m成績(jī)和足球課成績(jī)分布
體育數(shù)據(jù)分析中可以用到三種回歸算法。LS和LD方法都是采用數(shù)學(xué)極值法求解最佳直線。LS方法數(shù)學(xué)形式較為簡(jiǎn)潔,LD方法推導(dǎo)過程較為復(fù)雜。從幾何意義上來看,LD方法與作圖法采用的策略相同。LS和LD方法都會(huì)受到少數(shù)“離群數(shù)據(jù)”的干擾,而TS回歸法抗干擾能力更強(qiáng)。當(dāng)數(shù)據(jù)存在“離群”數(shù)據(jù)時(shí),可以考慮使用TS方法回歸。但是TS方法的計(jì)算量較大,因此,在數(shù)據(jù)呈現(xiàn)明顯線性特征并且沒有“離群數(shù)據(jù)”時(shí),可以選擇LS方法或者LD方法。另一方面,數(shù)據(jù)存在類橢圓分布特征時(shí),用LD方法效果更好。
現(xiàn)在很多數(shù)據(jù)處理軟件,包括origin、spss和Excel都含有直線擬合功能。很多研究[3-8]都對(duì)這兩種軟件在體育數(shù)據(jù)分析中的應(yīng)用進(jìn)行了討論,并建議使用這些軟件對(duì)數(shù)據(jù)進(jìn)行處理。然而,這些軟件默認(rèn)采用的都是LS方法回歸。本研究認(rèn)為,在處理離群數(shù)據(jù)或者類橢圓數(shù)據(jù)時(shí),LS方法效果并不理想。因此,在使用軟件時(shí),應(yīng)根據(jù)體育數(shù)據(jù)的特征進(jìn)行調(diào)整。本文對(duì)線性回歸算法的討論可以作為現(xiàn)有體育數(shù)據(jù)分析方法的一種補(bǔ)充。
[1]馬勇占.應(yīng)用線性回歸法評(píng)價(jià)身體形態(tài)、發(fā)育水平的幾個(gè)問題的探討[J].中國(guó)體育科技,2002, 38(1):56-58.
[2]姚道迪.體育產(chǎn)業(yè)上市公司資本結(jié)構(gòu)與經(jīng)營(yíng)績(jī)效關(guān)系的實(shí)證研究[J].皖西學(xué)院學(xué)報(bào),2013, 29(4):47-50.
[3]李傳偉. Excel多元線性回歸在體育統(tǒng)計(jì)學(xué)中的應(yīng)用[J].中國(guó)管理信息化,2011(19):65-66.
[4]王旭輝,敖運(yùn)忠. Excel 2000多元線性回歸在體育教學(xué)中的應(yīng)用[J].上饒師范學(xué)院學(xué)報(bào):自然科學(xué)版,2005.
[5]朱紅兵,何麗娟.在SPSS10.0中進(jìn)行數(shù)據(jù)資料正態(tài)性檢驗(yàn)的方法[J].首都體育學(xué)院學(xué)報(bào),2004, 16(3):123-125.
[6]王麗麗,王增輝.應(yīng)用SPSS軟件對(duì)速滑直道技術(shù)足底峰值壓強(qiáng)數(shù)據(jù)的主成分分析[J].吉林體育學(xué)院學(xué)報(bào),2010(1):58-59.
[7]王大愚.最小二乘法平滑技術(shù)在體育中運(yùn)用的嘗試[J].體育科研,1984(6):14-16.
[8]權(quán)小娟,盧春天.青少年體育鍛煉中的同伴效應(yīng)及性別差異[J].上海體育學(xué)院學(xué)報(bào),2020(4).
Three Methods of One-dimensional Linear Regression in Sports Data Analysis
HU Haitao, etal.
(Nanjing Forestry University, Nanjing 210037, Jiangsu, China)
江蘇省高校哲學(xué)社會(huì)學(xué)一般項(xiàng)目《高校體育線上線下課程評(píng)價(jià)體系研究》(2021SJA0124)。
胡海濤(1981—),碩士,講師,研究方向:體育數(shù)據(jù)分析。
喻孜(1981—),博士,副教授,研究方向:計(jì)算物理。