郝依寒
(河北省石家莊市正定實(shí)驗(yàn)中學(xué),石家莊 050800)
隨著時代的進(jìn)步,數(shù)學(xué)與人類的聯(lián)系也逐漸加深,如今人類活動更是離不開數(shù)學(xué)的幫助,統(tǒng)計(jì)學(xué)是應(yīng)用數(shù)學(xué)中與我們實(shí)際生活聯(lián)系較為緊密的一類分支,是幫助我們解決問題的工具。其中相關(guān)分析、回歸分析等在我們的生活中運(yùn)用也是十分廣泛的,本文通過研究相關(guān)分析與回歸分析的概念與分類,列舉回歸分析的具體應(yīng)用,分析相關(guān)分析與回歸分析的異同。
相關(guān)分析和生活往往是緊密相連的,小到買賣時錢財上的加加減減,大到應(yīng)用數(shù)學(xué)模型解決棘手復(fù)雜的問題。例如,我們走出家門踏上地鐵時,我們所乘車的路程與你需支付的乘車費(fèi)用便是一種相關(guān)關(guān)系即正相關(guān)。相關(guān)分析是研究隨機(jī)變量之間的依存關(guān)系,從而研究他們的相關(guān)程度即研究變量間的相關(guān)關(guān)系。
函數(shù)關(guān)系是我們經(jīng)常接觸的一種關(guān)系。當(dāng)一個或幾個變量取一定的值時,另一個變量有惟一確定的值與之相對應(yīng),那么我們就稱這種關(guān)系為函數(shù)關(guān)系。函數(shù)關(guān)系是一種確定性關(guān)系,自變量與因變量之間是一一對應(yīng)的,一個自變量只有一個惟一自變量的值與之對應(yīng)。例如,對于同一根彈簧來說(即彈性限度k相同),彈力(F)大小與其伸長量(Δx)的關(guān)系(F=kΔx)。
圖1 彈簧彈力與其伸長量關(guān)系圖
相關(guān)關(guān)系也指變量之間的相互關(guān)系,但在相關(guān)關(guān)系中,一個變量的值往往受多個變量的影響,即當(dāng)變量X取某個固定值時,變量還會受到其他因素的影響,導(dǎo)致變量取值不確定。所以這種相關(guān)關(guān)系不同于函數(shù)關(guān)系,它不能用函數(shù)關(guān)系精確表達(dá)。例如,一個人的工作效率與其是否熬夜的關(guān)系。一個人如果熬夜,那么他的工總效率不一定很低,因?yàn)楣ぷ餍蔬€會受到其他一些因素的影響。
相關(guān)關(guān)系有多種分類方法。按程度分,可分為完全相關(guān)、不完全相關(guān)和不相關(guān)。其中完全相關(guān)本質(zhì)上就是函數(shù)關(guān)系;不相關(guān)是指變量之間無影響,又稱零相關(guān);不完全相關(guān)是指變量之間存在不嚴(yán)格依存關(guān)系。在現(xiàn)實(shí)生活中,不完全相關(guān)關(guān)系出現(xiàn)較多,因?yàn)閷?shí)際生活中偶然因素對研究對象的影響較大,所以幾乎不可能出現(xiàn)完全相關(guān)關(guān)系。在相關(guān)分析中,不完全相關(guān)也是我們主要的研究對象。按方向可分為正相關(guān)和負(fù)相關(guān)。正相關(guān)是指一個變量隨另一個變量的增加(減少)而增加(減少),即兩者變化同方向,如數(shù)學(xué)上我們很熟悉的圓的周長L=2πr,L隨r的增大而增大;而負(fù)相關(guān)則反之。按相關(guān)的形式可分為線性相關(guān)和非線性相關(guān)。按變量多少可分為單相關(guān),偏相關(guān)和復(fù)相關(guān)。
相關(guān)系數(shù)是研究變量間線性相關(guān)程度的量。它最早由統(tǒng)計(jì)學(xué)家卡爾·皮爾遜提出,一般用r表示??枴て栠d在閱讀高爾頓的《自然遺傳》是對“相關(guān)”這一概念十分著迷,于是深入研究,才有了我們今天看到的相關(guān)系數(shù)。相關(guān)系數(shù)是大于等于-1小于等于1的。相關(guān)系數(shù)為-1時表示變量間完全負(fù)相關(guān);大于-1小于0表示變量之間為負(fù)相關(guān)關(guān)系;等于0時表示變量之間不相關(guān);大于零小于1時,表示變量之間呈正相關(guān)關(guān)系;等于1時,表示變量之間成完全正相關(guān)。相關(guān)系數(shù)的絕對值接近1表示變量之間相關(guān)程度越高。
除了相關(guān)系數(shù),相關(guān)表和相關(guān)圖可以更加直觀形象地反映兩變量間的相關(guān)關(guān)系及相關(guān)方向,但無法確切描述表現(xiàn)出兩變量間的相關(guān)程度,只能從圖中看出大致的趨勢,因此在相關(guān)分析中,相關(guān)系數(shù)能夠幫助我們更加精確的分析和研究變量之間的關(guān)系。
在統(tǒng)計(jì)學(xué)中,回歸分析指的是確定兩種及以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)方法,而“回歸”一詞是由英國著名生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓(Francis Galton,1822~1911.)在研究人類身高遺傳問題時提出來的。高爾頓搜集了1078對父親及其兒子的身高數(shù)據(jù)并通過研究發(fā)現(xiàn)這些數(shù)據(jù)的散點(diǎn)圖大致呈直線狀態(tài),即從整體上來看,父代身高與子代身高呈正相關(guān)關(guān)系。然后高爾頓對試驗(yàn)數(shù)據(jù)進(jìn)行了深入的分析研究,發(fā)現(xiàn)子代平均身高普遍具有接近父代平均身高的趨勢,于是高爾頓把這種現(xiàn)象成為回歸效應(yīng)。
現(xiàn)在我們所說的回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。研究兩個變量間的關(guān)系,需要我們確定預(yù)測的具體目標(biāo)即因變量,另一變量則為自變量,再通過調(diào)查得到數(shù)據(jù),接著對數(shù)據(jù)進(jìn)行分析從而確定兩變量間的關(guān)系;探究人壽命的長短與酗酒程度的關(guān)系時,我們可以把人的壽命長度看作因變量y,把酗酒程度當(dāng)作自變量x,通過走訪調(diào)查獲得足夠的數(shù)據(jù)資料,經(jīng)過嚴(yán)密的計(jì)算與分析得出結(jié)論。
回歸分析可以有多種分類方式:按照涉及變量多少,分為一元回歸分析和多元回歸分析;按照因變量多少,分為簡單回歸分析和多重回歸分析;按照自變量與因變量之間的關(guān)系類型,分為線性回歸和非線性回歸。但是在實(shí)際研究當(dāng)中,非線性回歸往往比較復(fù)雜。在研究初速度為0的物體的勻加速直線運(yùn)動的實(shí)驗(yàn)中,通過將實(shí)驗(yàn)數(shù)據(jù)畫出x-t圖像,得到的是一條曲線從圖像中無法精確判斷出其回歸方程。所以我們可以采用化曲為直的思想,用時間的平方代替時間,我們得到的就是一條直線。這樣就可以更直觀的展現(xiàn)出位移與時間的關(guān)系。但是很多時候無法將變量替換,或需將變量間原本的關(guān)系表現(xiàn)出來,所以并不是所有的回歸分析都需要表示非線性回歸,化曲為直的思想在統(tǒng)計(jì)學(xué)中是有局限性的,非線性回歸在統(tǒng)計(jì)學(xué)中也是有很重要的作用和意義的。
圖2 勻加速直線運(yùn)動x-t2圖像
圖3 勻加速直線運(yùn)動x-t圖像
人類回歸分析的研究已有很長時間,但是回歸分析在當(dāng)代仍然有其自己的意義與作用?;貧w分析一般通過分析現(xiàn)象間的具體形式確定其因果關(guān)系并用數(shù)學(xué)模型表現(xiàn)出來。在經(jīng)濟(jì)方面,回歸分析可以幫助我們了解經(jīng)濟(jì)市場的動向,幫助我們作出判斷,例如:現(xiàn)代的商人在采購銷售上往往會采用回歸分析的方式對以往的數(shù)據(jù)進(jìn)行分析處理,結(jié)合目前市場形式得出經(jīng)營的方法,從而減少自身損失的風(fēng)險;如果研究商品品質(zhì)與其銷量間的關(guān)系,從實(shí)踐上看,商品品質(zhì)會影響商品銷量,則我們可以以商品品質(zhì)為自變量,商品銷售量為因變量,運(yùn)用統(tǒng)計(jì)學(xué)方法分析變量,當(dāng)商品質(zhì)量提升時,商品的銷售量也會隨之提升。建立數(shù)學(xué)模型得出商品品質(zhì)與銷量間的回歸直線方程。在科學(xué)研究方面,回歸分析可以幫助我們更加準(zhǔn)確的得到兩個或者多個事物之間的聯(lián)系,為科學(xué)研究者提供思路與方向,在教育方面,我們可以借助回歸分析改進(jìn)教育方法等等。
對于相關(guān)分析與回歸分析,這二者之間是有一定聯(lián)系的。它們都是用來研究變量之間關(guān)系的統(tǒng)計(jì)學(xué)方法??梢哉f,相關(guān)分析是回歸分析的基礎(chǔ),回歸分析是相關(guān)分析的深入和繼續(xù)?,F(xiàn)實(shí)中,在分析數(shù)據(jù)時我們往往先通過相關(guān)分析來確定變量間的相關(guān)程度,再通過回歸分析深入研究建立數(shù)學(xué)模型。若使用回歸分析前沒有對變量進(jìn)行相關(guān)分析,則很難保證變量間有很強(qiáng)的相關(guān)關(guān)系,則此時進(jìn)行回歸分析時得出的結(jié)論往往不準(zhǔn)確,易造成錯誤,此時我們成這種錯誤為虛假回歸。如,欲研究手機(jī)待機(jī)時間與使用者年齡之間的關(guān)系時,倘若先不對其進(jìn)行相關(guān)分析而直接進(jìn)行回歸分析,則就會將這兩種毫無關(guān)系的變量強(qiáng)行聯(lián)系在一起,產(chǎn)生了虛假回歸,得到錯誤結(jié)論,對消費(fèi)者進(jìn)行誤導(dǎo)。故應(yīng)把這兩種分析方法結(jié)合使用,以達(dá)到準(zhǔn)確研究和分析的目的。
相關(guān)分析中,變量間關(guān)系對等,即不存在確定的因果關(guān)系,不存在一個變量因?yàn)榱硪粋€變量的變化而變化,也沒有自變量與因變量之分。而回歸分析變量間的關(guān)系不對等,變量與變量之間存在一定因果關(guān)系。相關(guān)關(guān)系只是用以確定變量之間是否存在一定的聯(lián)系,并簡單的研究這兩個變量間的相關(guān)關(guān)系,并不能確定具體的變量變化趨勢,所以我們說相關(guān)分析中無固定的自變量與因變量。而回歸分析中,自變量是確定的,而因變量是隨自變量的變化而變化的,且自變量與因變量的關(guān)系往往不能互換,一個自變量往往受到多個因變量的影響,且通過數(shù)據(jù)分析得到的回歸方程往往與實(shí)際不相等,存在一定的波動。相關(guān)分析的相關(guān)系數(shù)是惟一確定的,即對于相關(guān)分析來說只有一個衡量標(biāo)準(zhǔn),相關(guān)系數(shù)只有一個且惟一確定,而且我們在分析數(shù)據(jù)時只考慮相關(guān)系數(shù);而回歸分析中的變量關(guān)系并不惟一確定,回歸分析中往往會具有兩個或兩個以上的衡量標(biāo)準(zhǔn)?;貧w分析變量之間具有因果性,因變量會隨自變量的變化而變化,且因變量往往受多個自變量的影響,故可能出現(xiàn)多個回歸方程。
綜上所述,相關(guān)分析只是用來研究變量間相關(guān)關(guān)系的方法,不能定量分析數(shù)據(jù)而回歸分析為我們定量分析數(shù)據(jù)提供了一種方法比。在相關(guān)分析的基礎(chǔ)上對數(shù)據(jù)進(jìn)行回歸分析,比僅僅通過相關(guān)分析得出的結(jié)論更加準(zhǔn)確。所以這種建立回歸模型的方法也被應(yīng)用到我們?nèi)粘I畹脑S多地方中。不僅如此,隨著時代的發(fā)展,人們對回歸分析的研究還有望加深,從而改進(jìn)現(xiàn)在的建立應(yīng)用回歸模型的技術(shù)手段,所以,深入探究回歸分析也不乏具有一定現(xiàn)實(shí)意義。
[1] 張堯庭.多元統(tǒng)計(jì)分析引論[J].北京:科學(xué)出版社,2003(9).
[2] 張林泉.相關(guān)分析與回歸分析應(yīng)用辯解[J].哈爾濱職業(yè)技術(shù)學(xué)院學(xué)報,2010(4):123-124.
[3] 孫瑩,孫明濤.相關(guān)和回歸分析的關(guān)系及其預(yù)測價值研究[J].南北橋,2009(5).
[4] 王娟.對統(tǒng)計(jì)中相關(guān)分析與回歸分析的論述[J].經(jīng)管視線,2014(8):115.