郝詩(shī)佳
中通服咨詢(xún)?cè)O(shè)計(jì)研究院有限公司
當(dāng)今社會(huì),人類(lèi)活動(dòng)產(chǎn)生的各種痕跡生成數(shù)據(jù),通過(guò)不同渠道源源不斷地積累和記載于數(shù)據(jù)庫(kù)中。隨著大數(shù)據(jù)在當(dāng)今科學(xué)研究領(lǐng)域乃至社會(huì)的關(guān)注度與日俱增,人們對(duì)其理解不再僅限于數(shù)據(jù)本身的價(jià)值,而是更加關(guān)注數(shù)據(jù)背后呈現(xiàn)的關(guān)聯(lián)性,這就需要數(shù)據(jù)分析,構(gòu)建數(shù)據(jù)模型等相關(guān)技術(shù)手段來(lái)實(shí)現(xiàn)。
郵電業(yè)務(wù)是郵政和電信部門(mén)為社會(huì)各行各業(yè)和人民群眾提供各種產(chǎn)品和服務(wù)的總稱(chēng)。其設(shè)施和網(wǎng)絡(luò)遍布城鄉(xiāng)、聯(lián)通各地,是與經(jīng)濟(jì)發(fā)展和社會(huì)生活密切相關(guān)的基礎(chǔ)設(shè)施。對(duì)于地域經(jīng)濟(jì)發(fā)展而言,郵電業(yè)務(wù)主要用于滿(mǎn)足地區(qū)內(nèi)個(gè)體及社會(huì)團(tuán)體對(duì)各種信息的分享與交流需求,是必不可少的一個(gè)部門(mén)。因此在社會(huì)發(fā)展的過(guò)程當(dāng)中,人與人之間的關(guān)系越密切,研究郵電業(yè)務(wù)的作用和意義就越深遠(yuǎn)。本文基于2011~2015年江蘇省全省及各地市的郵電業(yè)務(wù)基礎(chǔ)情況數(shù)據(jù),運(yùn)用基于最大信息系數(shù)MIC的數(shù)據(jù)模型分析郵電業(yè)務(wù)數(shù)據(jù)內(nèi)部?jī)蓛芍笜?biāo)之間的關(guān)系,并提出相關(guān)決策的理論依據(jù)。
經(jīng)過(guò)郵政局和電信局受理承辦的各種業(yè)務(wù),統(tǒng)統(tǒng)稱(chēng)為郵電業(yè)務(wù),其中包括郵政、電信、互聯(lián)網(wǎng)等相關(guān)業(yè)務(wù)。本文選取江蘇省2016年統(tǒng)計(jì)年鑒中的郵電業(yè)務(wù)部分作為數(shù)據(jù)來(lái)源,該數(shù)據(jù)集中包含全省及13個(gè)地市關(guān)于郵政行業(yè)業(yè)務(wù)、電信業(yè)務(wù)總量及收入和快遞、長(zhǎng)途電話(huà)、移動(dòng)短信、長(zhǎng)途光纜線(xiàn)路長(zhǎng)度等35個(gè)指標(biāo),此數(shù)據(jù)樣本的時(shí)間跨度為2011~2015年。
該數(shù)據(jù)集屬性多樣,數(shù)據(jù)真實(shí)可靠,具有一定的可信度和研究?jī)r(jià)值。
(1)Pearson相關(guān)系數(shù)
Pearson相關(guān)系數(shù)(Pearson correlation coefficient) 也叫皮爾森積差相關(guān)系數(shù)(Pearson product-moment correlation coefficient),是用來(lái)反映兩個(gè)變量相似程度的統(tǒng)計(jì)量?;蛘哒f(shuō)可以用來(lái)計(jì)算兩個(gè)向量的相似度(在基于向量空間模型的文本分類(lèi)、用戶(hù)喜好推薦系統(tǒng)中都有應(yīng)用)。
皮爾森相關(guān)系數(shù)計(jì)算公式如下:
(2)互信息
互信息是信息論里一種有效的信息度量,它可以看成是一個(gè)隨機(jī)變量中包含另一個(gè)隨機(jī)變量的相關(guān)信息量,或者說(shuō)是一個(gè)隨機(jī)變量由另一個(gè)已知隨機(jī)變量而影響其自身的不穩(wěn)定性?;バ畔⒌亩x是,設(shè)兩個(gè)隨機(jī)變量 (X,Y)的聯(lián)合分布為p(x,y),邊際分布分別為 p(x),p(y) ,因此互信息I(X;Y)作為聯(lián)合分布p(x,y)與乘積分布p(x),p(y)的相對(duì)熵,即:
(3)最大信息系數(shù) MIC(Maximal Information Coef fi cient)
利用Pearson相關(guān)系數(shù)或者Spearman相關(guān)系數(shù)等可以有效地度量數(shù)據(jù)的線(xiàn)性相關(guān)性,甚至可以通過(guò)回歸分析確定線(xiàn)性關(guān)系和簡(jiǎn)單非線(xiàn)性關(guān)系的數(shù)學(xué)公式。然而由于自然規(guī)律的復(fù)雜性,現(xiàn)實(shí)世界中的數(shù)據(jù)之間即使有較強(qiáng)的相關(guān)關(guān)系,絕大多數(shù)也是非線(xiàn)性的而且無(wú)法用簡(jiǎn)單的數(shù)學(xué)公式表達(dá)。為了度量數(shù)據(jù)間非線(xiàn)性相關(guān)性的強(qiáng)弱,科學(xué)家們提出了基于閥值相關(guān)、相位同步相關(guān)、距離相關(guān)、互信息等的度量方法。
最大信息系數(shù)(The Maximal Information Coef fi cient,MIC)是在互信息的基礎(chǔ)上發(fā)展起來(lái)的,MIC方法能快速通過(guò)給不同類(lèi)型的關(guān)聯(lián)關(guān)系進(jìn)行評(píng)估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類(lèi)型。MIC可以檢測(cè)各種類(lèi)型的函數(shù)關(guān)系,比如。當(dāng)存在f使得Y=f(X)時(shí),MIC(X,Y)=1;如果X與Y相互獨(dú)立時(shí),那么MIC(X,Y)=0。
MIC與相關(guān)系數(shù)相比有以下兩個(gè)優(yōu)點(diǎn):
1、MIC穩(wěn)健性,即MIC不受異常值的影響,然而相關(guān)系數(shù)易受異常值的影響。
2、MIC普適性,可以檢測(cè)出相關(guān)系數(shù)無(wú)法識(shí)別的函數(shù)關(guān)系。
因此,本文將用MIC作為數(shù)據(jù)關(guān)聯(lián)性的主要衡量標(biāo)準(zhǔn)。
本節(jié)根據(jù)上文介紹的Pearson相關(guān)系數(shù)、最大信息系數(shù)MIC模型進(jìn)行對(duì)比,論證MIC作為數(shù)據(jù)特征度量的優(yōu)越性。并在此基礎(chǔ)上,結(jié)合兩個(gè)相關(guān)系數(shù),設(shè)計(jì)一種基于MIC的優(yōu)化模型用于分析郵電業(yè)務(wù)數(shù)據(jù)。
首先,為了驗(yàn)證MIC作為相關(guān)度量的優(yōu)越性,本文采用Pearson相關(guān)系數(shù)作為參考指標(biāo)進(jìn)行比較分析,運(yùn)用數(shù)據(jù)測(cè)試工具生成不同函數(shù)圖。其中一個(gè)關(guān)鍵性問(wèn)題是如何運(yùn)用相應(yīng)的程序評(píng)估捕捉完整的線(xiàn)性與非線(xiàn)性相關(guān)依賴(lài)。然而,如何檢測(cè)非線(xiàn)性信息依賴(lài)是一個(gè)問(wèn)題挑戰(zhàn),特別是處于噪聲的數(shù)據(jù)具有可用性時(shí)。因此,第二個(gè)關(guān)鍵問(wèn)題是如何使用評(píng)估技術(shù)檢測(cè)非線(xiàn)性的可靠有用的數(shù)據(jù)。同時(shí),也需要一個(gè)明確的測(cè)量方法去度量噪聲中可靠健壯的數(shù)據(jù)來(lái)確定數(shù)據(jù)間的非線(xiàn)性關(guān)系。
模型對(duì)比所運(yùn)用到的函數(shù)分別有:線(xiàn)性直線(xiàn),三角函數(shù),橢圓等;測(cè)試樣本容量為1000;置協(xié)方差系數(shù)分別為:1.0,0.8,0.4,0.0.-0.4,-0.8,-1.0。實(shí)驗(yàn)結(jié)果如圖1、圖2和圖3所示:
圖1 直線(xiàn)加噪旋轉(zhuǎn)測(cè)試MIC、Pearson相關(guān)系數(shù)
表1 圖1的MIC和Pearson相關(guān)系數(shù)實(shí)驗(yàn)結(jié)果(n為噪聲r(shí)為旋轉(zhuǎn))
圖1是表明在線(xiàn)性函數(shù)上進(jìn)行噪聲處理,對(duì)其相關(guān)性度量會(huì)有多大影響。因?yàn)樵趯?shí)際大型數(shù)據(jù)集中,數(shù)據(jù)是分散而無(wú)序的。而面對(duì)0.2比例的加噪,Pearson相關(guān)系數(shù)比MIC仍有較好的測(cè)量;但當(dāng)噪聲比例加到1時(shí),Pearson相關(guān)系數(shù)已無(wú)法檢測(cè)其相關(guān)性,此時(shí)的MIC值仍有0.1。這就說(shuō)明,面對(duì)噪聲極大的函數(shù),無(wú)論其是否是相關(guān)函數(shù),MIC的度量比pearson相關(guān)系數(shù)更可靠。
圖2 線(xiàn)性直線(xiàn)旋轉(zhuǎn)測(cè)試MIC、Pearson相關(guān)系數(shù)
表2 圖2的MIC和Pearson相關(guān)系數(shù)實(shí)驗(yàn)結(jié)果
根據(jù)圖2、表3對(duì)比可知,面對(duì)線(xiàn)性相關(guān)的函數(shù),MIC沒(méi)有Pearson相關(guān)系數(shù)準(zhǔn)確;但是作為互相關(guān)度量,兩個(gè)事件的互信息是對(duì)稱(chēng),即MIC(X,Y)=MIC(Y,X),所以函數(shù)的旋轉(zhuǎn)對(duì)于MIC沒(méi)有影響,而Pearson相關(guān)系數(shù)則會(huì)出現(xiàn)負(fù)值。這對(duì)于數(shù)據(jù)關(guān)聯(lián)性的測(cè)量具有較好的呈現(xiàn),即在對(duì)比分析時(shí),無(wú)需考慮正負(fù)差異和主因變因交換是否會(huì)影響分析結(jié)果。
圖3 其他函數(shù)加噪測(cè)試MIC、Pearson相關(guān)系數(shù)
表3 圖3的MIC和Pearson相關(guān)系數(shù)實(shí)驗(yàn)結(jié)果
圖3則是在非線(xiàn)性加噪函數(shù)模型上的相關(guān)性測(cè)量,MIC在面對(duì)加噪非線(xiàn)性相關(guān)函數(shù)呈現(xiàn)較好的度量,并且根據(jù)函數(shù)的線(xiàn)性關(guān)系數(shù)值增大或減小,如三角函數(shù)和橢圓就明顯比其余圖像的值更大。而Pearson相關(guān)系數(shù)則是全部為0。由此可見(jiàn),對(duì)于非線(xiàn)性度量,MIC也有很好的測(cè)量性。所以MIC相對(duì)于以Pearson相關(guān)系數(shù)為代表的線(xiàn)性相關(guān)性度量更適合面對(duì)大型非線(xiàn)性數(shù)據(jù)集的數(shù)據(jù)分析。
因?yàn)樽畲笮畔⑾禂?shù)MIC作為互信息基礎(chǔ)上發(fā)展出來(lái)的相關(guān)系數(shù),其本質(zhì)仍然是測(cè)量?jī)蓚€(gè)隨機(jī)變量之間的線(xiàn)性相關(guān)程度。對(duì)于非線(xiàn)性相關(guān),最大信息系數(shù)MIC并沒(méi)有非常好的表現(xiàn)。因此本文根據(jù)最大信息系數(shù)定義,結(jié)合皮爾森積差相關(guān)系數(shù),用于測(cè)試數(shù)據(jù)之間的非線(xiàn)性相關(guān),其公式為:
非線(xiàn)性相關(guān)系數(shù)= MIC(X,Y)-ρ^2 (X,Y)
其中:ρ(X,Y)為皮爾森積差相關(guān)系數(shù),且當(dāng)MIC(X,Y)-ρ^2(X,Y)>0時(shí),兩個(gè)變量間存在非線(xiàn)性關(guān)系。
根據(jù)前文的方法進(jìn)行特征度量并建立模型。首先,從江蘇省2016年鑒中選取郵電業(yè)務(wù)作數(shù)據(jù)集,將數(shù)據(jù)集中的郵電業(yè)務(wù)總量與郵電業(yè)務(wù)收入兩個(gè)指標(biāo)設(shè)為自變量,其他指標(biāo)作應(yīng)變量,輸出其MIC與MIC-ρ^2模型結(jié)果。然后,對(duì)兩項(xiàng)指標(biāo)的MIC與MIC-ρ^2 值進(jìn)行比較,篩選出相關(guān)數(shù)據(jù)。最后,對(duì)結(jié)果進(jìn)行討論以了解觀察到的差異,并針對(duì)改進(jìn)的方法提出了一些見(jiàn)解。
將與郵電業(yè)務(wù)總量MIC值最高的前14項(xiàng)指標(biāo)以表格的形式將其MIC和MIC-ρ^2值列出,如表4所示:
表4 郵電業(yè)務(wù)總量(億元)相關(guān)因素表
由表4可看出,MIC值分為0.99572和0.67713兩個(gè)檔,其中電信業(yè)務(wù)總量、電信業(yè)務(wù)收入、年末固定電話(huà)用戶(hù)、年末移動(dòng)電話(huà)用戶(hù)和固定寬帶接入用戶(hù)是MIC值最高的5項(xiàng)。這說(shuō)明該5項(xiàng)與郵電業(yè)務(wù)總量具有極大相關(guān)性,而針對(duì)這5項(xiàng)的MIC-ρ^2值進(jìn)行排序分析,可看出年末固定電話(huà)用戶(hù)與年末移動(dòng)電話(huà)用戶(hù)這兩項(xiàng)指標(biāo)是具有較大的非線(xiàn)性相關(guān),也就是數(shù)據(jù)之間內(nèi)部潛在的關(guān)聯(lián)性較高。由此,可得出推論:對(duì)于郵電業(yè)務(wù)總量,電信業(yè)務(wù)與其相關(guān)性極高,說(shuō)明電信業(yè)務(wù)的增長(zhǎng)能帶動(dòng)郵電業(yè)務(wù)總量的增長(zhǎng);其中,固定電話(huà)用戶(hù)與移動(dòng)電話(huà)用戶(hù)是最能刺激郵電業(yè)務(wù)總量的兩項(xiàng)指標(biāo),如果能對(duì)這兩項(xiàng)數(shù)據(jù)進(jìn)行有效提升,可大幅提高郵電業(yè)務(wù)總量。
將與郵電業(yè)務(wù)收入MIC值最高的前14項(xiàng)指標(biāo)以表格的形式將其MIC和MIC-ρ^2值列出,如表5所示:
表5 郵電業(yè)務(wù)收入(億元)相關(guān)因素表
同理分析表5,可看出MIC值主要分為0.99572、0.67713、0.49647和0.31781四個(gè)值,其中郵政行業(yè)業(yè)務(wù)收入、快遞是MIC值最高的2項(xiàng),并且MIC-ρ^2值皆為正。這說(shuō)明該2項(xiàng)與郵電業(yè)務(wù)收入具有數(shù)據(jù)內(nèi)部之間的極大相關(guān)性。而電信業(yè)務(wù)收入與郵政行業(yè)業(yè)務(wù)收入相比,無(wú)論是MIC值還是MIC-ρ^2值都沒(méi)有后者高,同理分析剩下的11項(xiàng)指標(biāo),由此可以得出推論:對(duì)于郵電業(yè)務(wù)收入,郵政行業(yè)業(yè)務(wù)收入,特別是快遞業(yè)務(wù)對(duì)其影響遠(yuǎn)高于其他指標(biāo)。如果能加大快遞業(yè)務(wù)的擴(kuò)展,提高快遞業(yè)務(wù)的規(guī)模,對(duì)郵電行業(yè)業(yè)務(wù)收入會(huì)有明顯的提高。
綜合郵電業(yè)務(wù)總量與郵電業(yè)務(wù)收入兩項(xiàng)相關(guān)因素表,不難看出,電信業(yè)務(wù)占郵電業(yè)務(wù)總量的主體,對(duì)郵電業(yè)務(wù)具有極大相關(guān)性的影響;但在郵電業(yè)務(wù)收入方面,郵政行業(yè)業(yè)務(wù)特別是快遞業(yè)務(wù)對(duì)郵電業(yè)務(wù)收入的影響巨大。因此針對(duì)郵電業(yè)務(wù)收入,可以著重發(fā)展快遞業(yè)務(wù),從而有效保證郵電業(yè)務(wù)收入指標(biāo)的提升;并同時(shí)對(duì)電信業(yè)務(wù)進(jìn)行維持與擴(kuò)展,從而保證郵電業(yè)務(wù)總量的穩(wěn)步增長(zhǎng)。
本文基于最大信息系數(shù)MIC的模型設(shè)計(jì)了一個(gè)優(yōu)化模型,并根據(jù)這兩個(gè)模型對(duì)江蘇省近5年來(lái)的郵電業(yè)務(wù)進(jìn)行了分析應(yīng)用,提出了關(guān)于郵電業(yè)務(wù)總量與郵電業(yè)務(wù)收入的相關(guān)建議。首先,列舉類(lèi)比了線(xiàn)性相關(guān)Pearson相關(guān)系數(shù)與最大信息系數(shù)MIC;然后根據(jù)MIC設(shè)計(jì)了一個(gè)數(shù)據(jù)內(nèi)部間非線(xiàn)性相關(guān)的度量模型MIC-ρ^2;最后選取江蘇省2016年統(tǒng)計(jì)年鑒中郵電業(yè)務(wù)的數(shù)據(jù),以MIC和MIC-ρ^2為相關(guān)性度量,提取特征值。分析研究結(jié)果顯示,郵電業(yè)務(wù)總量主要影響在于電信業(yè)務(wù),而郵電業(yè)務(wù)收入則主要影響在于郵政行業(yè)業(yè)務(wù)收入,特別是快遞業(yè)務(wù)。
基于MIC的新優(yōu)化模型更有利于用戶(hù)在數(shù)據(jù)分析的同時(shí),發(fā)現(xiàn)數(shù)據(jù)內(nèi)部之間的非線(xiàn)性相關(guān)性,這樣更有助于郵電業(yè)務(wù)從業(yè)者對(duì)關(guān)鍵影響因素指標(biāo)進(jìn)行分析定位。例如,郵電業(yè)務(wù)總量中,固定電話(huà)用戶(hù)與移動(dòng)電話(huà)用戶(hù)的MIC值一樣,此時(shí)就需要運(yùn)用MIC-ρ^2。通過(guò)對(duì)比得到:移動(dòng)電話(huà)用戶(hù)相較于固定電話(huà)用戶(hù)對(duì)郵電業(yè)務(wù)總量有更大的影響,從而幫助郵電業(yè)務(wù)從業(yè)者針對(duì)相關(guān)指標(biāo)作出更好的分析決策。