程 鑫,石洪波
(山西財經(jīng)大學(xué)a.統(tǒng)計學(xué)院;b.信息管理學(xué)院,山西 太原 030031)
大數(shù)據(jù)時代的到來,給統(tǒng)計分析方法帶來了翻天覆地的沖擊,之前統(tǒng)計學(xué)是以樣本為基礎(chǔ)對總體進(jìn)行推斷,并用假設(shè)檢驗來驗證對總體描述的正確性。當(dāng)能夠被數(shù)據(jù)化的東西越來越多,并且存儲能力無限擴(kuò)大時,我們就可以獲得一個整體的數(shù)據(jù),不再需要通過樣本來進(jìn)行推斷,更多的時候數(shù)據(jù)量會大到經(jīng)典的統(tǒng)計方法無法處理。雖然大數(shù)據(jù)時代我們研究的重點(diǎn)發(fā)生了變化,但是統(tǒng)計學(xué)的思維顯得更加重要。在數(shù)據(jù)量足夠大了之后,我們會發(fā)現(xiàn)一切社會現(xiàn)象都有一定的統(tǒng)計規(guī)律,看似沒有關(guān)系的事物之間其實也是有普遍聯(lián)系的,這其實就是相關(guān)分析的思維。
越來越多的人認(rèn)識到,我們開始研究大數(shù)據(jù)集的一個途徑就是尋找屬性間的相關(guān)關(guān)系。我們現(xiàn)在需要運(yùn)用統(tǒng)計思維來把握萬物之間可能存在的聯(lián)系,而不是像以前一樣通過樣本分析來推斷總體,追求準(zhǔn)確的預(yù)測結(jié)果。
雖然,我們?nèi)匀恍枰揽拷y(tǒng)計學(xué)思維來發(fā)現(xiàn)總體的特征、規(guī)律并進(jìn)行總結(jié)和概率推斷,也需要運(yùn)用統(tǒng)計學(xué)來對大數(shù)據(jù)進(jìn)行清洗,選出有用的信息,但是傳統(tǒng)統(tǒng)計方法中的局限性也日益顯現(xiàn)。當(dāng)數(shù)據(jù)量足夠大時,我們期望捕捉到大量有趣的聯(lián)系,而這些聯(lián)系不會局限于傳統(tǒng)統(tǒng)計分析中常用的特殊函數(shù)模式(如線性關(guān)系、指數(shù)關(guān)系、周期性關(guān)系等)。而且傳統(tǒng)意義上我們只關(guān)注快變量,當(dāng)數(shù)據(jù)量足夠大時我們還需要關(guān)注慢變量,就是看起來沒有聯(lián)系,但是實際上卻隱含著深刻影響力的那些變量。如何更好的測度相關(guān)性,如何能準(zhǔn)確的發(fā)現(xiàn)屬性間隱含的聯(lián)系就成為了大數(shù)據(jù)時代我們急需解決的重要問題。
在統(tǒng)計學(xué)中,相關(guān)是指一個變量的數(shù)值與另一個變量的數(shù)值有連帶性,即一個變量的值隨著另一個變量的值的變化而變化。用一個統(tǒng)計值表示變量與變量之間的關(guān)系,稱之為相關(guān)測量法。大多數(shù)的相關(guān)系數(shù)以絕對值為0代表不相關(guān),以1代表完全相關(guān),介于0和1之間的數(shù)值越大則相關(guān)程度越強(qiáng)。對于定距變量和定比變量,還可以通過一個變量數(shù)值增加時,另一個變量的數(shù)值是否也增加來確定相關(guān)方向,同時增加即為正相關(guān);隨著一個變量數(shù)值的增加另一個變量數(shù)值減少,則為負(fù)相關(guān)。
統(tǒng)計計量有不同的層次,測量變量間的相關(guān)關(guān)系,首先要遵守測量層次準(zhǔn)則,其次是對稱或不對稱準(zhǔn)則。層次準(zhǔn)則,就是度量不同層次變量的相關(guān)性,在統(tǒng)計學(xué)中要采取不同的測量方法,高層次的測量具有低層次測量的所有性質(zhì),高層次測量可以作為低層的測量處理,詳見表1。
表1 分尺度的數(shù)學(xué)特性、集中趨勢離散趨勢
表1中的各種相關(guān)測量法是統(tǒng)計學(xué)中常用的,依據(jù)消減誤差比例(PRE)原理,運(yùn)用各類尺度的集中趨勢與離散趨勢來構(gòu)建的。分析兩個變量之間的關(guān)系時,我們首先會考慮強(qiáng)弱和方向這兩個性質(zhì),此外,還有因果關(guān)系。通常因果關(guān)系又稱為不對稱關(guān)系,要求我們事先分清變量間的原因和結(jié)果,如果變量之間不存在因果關(guān)系,則稱其存在對稱關(guān)系,各種測量方法的對稱性見表2。
表2 各相關(guān)測量方法的對稱性
上文總結(jié)了傳統(tǒng)統(tǒng)計學(xué)中幾種常用的相關(guān)測量方法,當(dāng)樣本量相對較小、分析的問題較簡單時,可以用傳統(tǒng)的相關(guān)測量法進(jìn)行變量間簡單的線性關(guān)系測量。但是,大數(shù)據(jù)時代我們所能獲得的數(shù)據(jù)越來越多,變量之間的關(guān)系也不會僅僅局限在線性或者可以用函數(shù)表示的幾種關(guān)系上,在處理海量數(shù)據(jù)時傳統(tǒng)相關(guān)分析方法存在的局限開始凸顯:
第一,不具有通用性。傳統(tǒng)統(tǒng)計中常用的這幾種相關(guān)分析方法都只能對變量之間可以用函數(shù)來表示的相關(guān)關(guān)系進(jìn)行分析,并且對變量之間的線性相關(guān)關(guān)系最為敏感,而對于其他非線性相關(guān)關(guān)系或者非函數(shù)相關(guān)關(guān)系不能進(jìn)行準(zhǔn)確的測算,不具有通用性。在實際數(shù)據(jù)中,相關(guān)性可以是任何形式的相關(guān),如何識別多種類別的相關(guān)性是大數(shù)據(jù)時代傳統(tǒng)相關(guān)分析所需要解決的第一個問題。
第二,不具有均等性。如果給不同相關(guān)形式的數(shù)據(jù)都加上類似水平的噪聲,用傳統(tǒng)相關(guān)分析方法進(jìn)行測量結(jié)果會差別很大。但是,通常我們認(rèn)為噪聲水平越大說明變量間相互聯(lián)系的緊密性越小,相同噪聲水平的數(shù)據(jù)相關(guān)分析結(jié)果應(yīng)該大致在同一水平。傳統(tǒng)相關(guān)測量法更容易受相關(guān)形式的影響卻不能準(zhǔn)確區(qū)分變量之間聯(lián)系的緊密性,說明不具有均等性。
例如,皮爾遜相關(guān)系數(shù)表示的是變量間的線性關(guān)系,它的大小說明不了相關(guān)程度,如果變量的關(guān)系不具有直線的性質(zhì),皮爾遜相關(guān)系數(shù)雖然等于0,但不能否認(rèn)其存在非線性相關(guān)關(guān)系的可能性。采用傳統(tǒng)的統(tǒng)計相關(guān)分析方法往往會忽視很多變量間隱含的邏輯關(guān)系,這些局限性也限制了傳統(tǒng)相關(guān)測量法在處理大數(shù)據(jù)問題時的應(yīng)用范圍。
大數(shù)據(jù)時代的到來使得相關(guān)分析需要達(dá)到的要求更高,針對傳統(tǒng)統(tǒng)計分析中的相關(guān)測量法存在的缺陷,大數(shù)據(jù)時代的相關(guān)分析首先滿足“通用性”和“均等性”兩個準(zhǔn)則,相關(guān)分析的結(jié)果應(yīng)該只與變量之間連動性的緊密程度有關(guān),而不應(yīng)受變量間相關(guān)形式的影響。近些年,國外已經(jīng)有很多學(xué)者開始注意到大數(shù)據(jù)時代相關(guān)分析方法的重要性,對如何改進(jìn)相關(guān)分析方法進(jìn)行了研究。Reshef等學(xué)者(2011)基于信息論中關(guān)于兩個事件集合的相關(guān)性信息度量提出了一種關(guān)于相關(guān)性分析的改進(jìn)方法--最大信息系數(shù)(Maximal Information Coefficient,MIC)的,可以對變量間的非函數(shù)相關(guān)關(guān)系進(jìn)行有效的識別。David Lopea-Paz等學(xué)者(2013)運(yùn)用Copula轉(zhuǎn)換提出了隨機(jī)相關(guān)系數(shù)(Randomized Dependence Coefficient,RDC),并與MIC方法進(jìn)行了對比,證明前者的時間復(fù)雜度更低。Hoang V.Nguyen等學(xué)者(2014)根據(jù)MIC方法,提出了更一般化的相關(guān)分析方法--最大相關(guān)分析(Maximal Correlation Analysis,MAC),擴(kuò)展了MIC方法的運(yùn)用范圍,可以對兩組變量之間的非函數(shù)相關(guān)關(guān)系進(jìn)行準(zhǔn)確的測量。
以上這些方法的改進(jìn)無一不在強(qiáng)調(diào)大數(shù)據(jù)時代我們進(jìn)行相關(guān)分析時對非線性、甚至是非函數(shù)相關(guān)關(guān)系的識是很重要的,單純的線性相關(guān)與否不再能說明變量間復(fù)雜的相關(guān)關(guān)系。這些改進(jìn)除了運(yùn)用傳統(tǒng)統(tǒng)計相關(guān)分析的思維,更重要的是將信息論、粗糙集理論、人工智能等領(lǐng)域的方法與傳統(tǒng)統(tǒng)計相關(guān)分析進(jìn)行了結(jié)合。所以,在大數(shù)據(jù)背景下,如何運(yùn)用其他領(lǐng)域的知識,對傳統(tǒng)相關(guān)分析進(jìn)行改進(jìn),使其能更加準(zhǔn)確、快速地識別變量之間的各種相關(guān)關(guān)系是傳統(tǒng)相關(guān)分析面臨的最大挑戰(zhàn)。
新興的相關(guān)分析方法在最近幾年涌現(xiàn),一方面是由于國內(nèi)外學(xué)者看到了大數(shù)據(jù)分析中傳統(tǒng)統(tǒng)計相關(guān)分析存在的缺陷,運(yùn)用傳統(tǒng)統(tǒng)計方法已經(jīng)無法滿足大數(shù)據(jù)時代數(shù)據(jù)分析的需求;更重要的在于,國內(nèi)外學(xué)者們都看到了大數(shù)據(jù)時代相關(guān)分析思維的重要性,看到了相關(guān)分析在特征選擇、變量依賴關(guān)系識別中的實用性。特征選擇幾乎在所有研究中都會用到,也是很多研究中模型構(gòu)建的第一步。例如,構(gòu)建指標(biāo)體系時我們需要分析兩兩變量間是否存在反映重復(fù)信息的問題,需要運(yùn)用相關(guān)分析進(jìn)行冗余信息的刪減,這樣即簡化了指標(biāo)體系又避免了有效信息丟失;文本圖像數(shù)據(jù)分析中我們可以運(yùn)用相關(guān)分析進(jìn)行特征的選取,使得文本圖像識別更準(zhǔn)確、快速。除此之外,運(yùn)用相關(guān)分析可以進(jìn)行變量依賴關(guān)系的識別,在實際問題的研究中具有很重要的作用,例如,企業(yè)目標(biāo)客戶的屬性依賴關(guān)系識別、超市商品銷售量的關(guān)聯(lián)性度量等都離不開相關(guān)分析。上文中提到:建立在相關(guān)分析法基礎(chǔ)上的預(yù)測才是大數(shù)據(jù)的核心。大數(shù)據(jù)時代,相關(guān)分析的運(yùn)用范圍之廣、重要性之大是我們不能忽略的,也是傳統(tǒng)相關(guān)分析所面臨的巨大機(jī)遇。如何以相關(guān)分析思路為起點(diǎn)探究新的分析方法,使統(tǒng)計相關(guān)分析方法能夠更順應(yīng)時代的變化,體現(xiàn)出傳統(tǒng)統(tǒng)計思維的經(jīng)典與先進(jìn),在大數(shù)據(jù)下能夠發(fā)揮作用,即是傳統(tǒng)相關(guān)分析面臨的挑戰(zhàn)也是機(jī)遇。
當(dāng)前,隨著數(shù)據(jù)處理能力和存儲能力的不斷提高,通過統(tǒng)計學(xué)方法來探索事物內(nèi)在的統(tǒng)計相關(guān)規(guī)律并進(jìn)行篩選總結(jié)是所有研究的第一步。統(tǒng)計相關(guān)分析的思想已經(jīng)滲透到了其他的學(xué)科,相關(guān)分析的思維在大數(shù)據(jù)時代越發(fā)顯得重要。但是,現(xiàn)有的傳統(tǒng)統(tǒng)計相關(guān)分析方法由于假定條件太多,不具有通用性、均等性,很多在大數(shù)據(jù)環(huán)境里都失去了原有的價值。在今后的研究中,還需要將統(tǒng)計思維與數(shù)據(jù)挖掘技術(shù)、粗糙集思想以及信息論等相結(jié)合,借鑒其他學(xué)科中的包含有相關(guān)分析思想的方法,對傳統(tǒng)的統(tǒng)計方法進(jìn)行調(diào)整,這樣傳統(tǒng)相關(guān)分析才能更好的應(yīng)對大數(shù)據(jù)時代帶來的機(jī)遇與挑戰(zhàn)。
[1]陸運(yùn)清.用Pearson’s卡方統(tǒng)計量進(jìn)行統(tǒng)計檢驗時應(yīng)注意的問題[J].統(tǒng)計與決策,2009,(15).
[2]姚寶璽.兩變量相關(guān)關(guān)系的度量[J].統(tǒng)計與決策,2007,(1).
[3]李沛良.社會研究的統(tǒng)計應(yīng)用[M].北京:社會科學(xué)文獻(xiàn)出版社,2002.
[4]吳喜之.統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論[M].北京:中國統(tǒng)計出版社,2004.
[5]張堯庭.我們應(yīng)該選用什么樣的相關(guān)性指標(biāo)[J].統(tǒng)計研究.2002,(9).
[6]Breiman L,F(xiàn)riedman J.Estimating Optimal Transformations for Multiple Regression and Correlation[J].Journal of the American Statistical Association.1985,391.
[7]Benjamini Y.Yekutieli D.The Control of the False Discovery Rate in Multiple Testing Under Dependency[J].The Annals of Statistics,2001,(4).
[8]Reshef D N,et al.Detecting Novel Associations in Large Data Sets[J].Science,2011,334.
[9]Delicado P,Smrekar M.Measuring Non-linear Dependence for Two Random Variables Distributed Along a Curve[J].Statistics and Computing,2009,(3).
[10]Staff S.Challenges and opportunities[J].Science,2011,331.
[11]涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社,2012.