徐健 李春忠
摘要:從區(qū)域發(fā)展指標(biāo)體系下數(shù)據(jù)所蘊(yùn)含信息量的角度出發(fā),建立以信息熵為衡量標(biāo)準(zhǔn)的評(píng)價(jià)方式,研究如何利用模糊C均值聚類分類改進(jìn)數(shù)據(jù)信息量,并從理論證明和實(shí)證分析的角度驗(yàn)證了方法的有效性。采用皖北沿淮地區(qū)在綜合指標(biāo)體系下的面板數(shù)據(jù)進(jìn)行改進(jìn)實(shí)驗(yàn),結(jié)果表明在熵的標(biāo)準(zhǔn)下數(shù)據(jù)呈現(xiàn)多樣性,信息量得到了顯著提高,為后續(xù)采用數(shù)據(jù)挖掘方法進(jìn)行指標(biāo)討論奠定了更好的數(shù)據(jù)信息質(zhì)量。
關(guān)鍵詞:區(qū)域發(fā)展;面板數(shù)據(jù)質(zhì)量;信息熵;FCM;可行性論證
中圖分類號(hào):F224.9
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):
16721101(2015)02003605
Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.
Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration
在現(xiàn)代信息技術(shù)迅猛發(fā)展的背景下,越來越多的領(lǐng)域都采用數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行研究。應(yīng)運(yùn)而生的數(shù)據(jù)技術(shù)從傳統(tǒng)的統(tǒng)計(jì)分析到數(shù)據(jù)挖掘,再到現(xiàn)今的云計(jì)算和大數(shù)據(jù)都很好的給生產(chǎn)生活帶來更多的價(jià)值。但是隨之而來的數(shù)據(jù)量度和尺度都變得紛繁復(fù)雜,再加上各行業(yè)所取觀測(cè)指標(biāo)的不同使得數(shù)據(jù)在單位、量綱和指標(biāo)含義等客觀情況下呈現(xiàn)很大差異性和不確定性,特別是經(jīng)濟(jì)數(shù)據(jù)指標(biāo)的數(shù)值差距過大,因此給數(shù)據(jù)技術(shù)方法本身的可行性以及所得結(jié)果的可靠性帶來很大挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)預(yù)處理中多采用清理、變換和規(guī)約等方法來提高數(shù)據(jù)質(zhì)量[1,2],在大多數(shù)文獻(xiàn)中多采用Min-Max標(biāo)準(zhǔn)化[3,4]、Z-score標(biāo)準(zhǔn)化[4]、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化[5]以及Log和Atan函數(shù)轉(zhuǎn)化[6]來處理數(shù)據(jù),并不著重討論數(shù)據(jù)達(dá)到的質(zhì)量程度。但是由于標(biāo)準(zhǔn)化方法的一些理論局限性,容易在處理中降低數(shù)據(jù)的信息量。所以在研究中如何能夠判斷標(biāo)準(zhǔn)化后數(shù)據(jù)信息量的改變程度,這對(duì)采用的技術(shù)方法本身和后續(xù)結(jié)果分析將起到重要的作用。本文將嘗試探討數(shù)據(jù)信息量衡量熵標(biāo)準(zhǔn),并從理論層面和結(jié)合皖北沿淮區(qū)域經(jīng)濟(jì)發(fā)展數(shù)據(jù)做相應(yīng)的實(shí)證分析。
一、構(gòu)建熵標(biāo)準(zhǔn)下FCM分類改進(jìn)模型
(一)信息熵與FCM準(zhǔn)備
1.數(shù)據(jù)質(zhì)量的信息熵標(biāo)準(zhǔn)
熱力學(xué)第二定律表明孤立系統(tǒng)中任何變化都不可能減少熵值,1948年Shannon定義通信信號(hào)中平均信息量為熵[7],從此熵作為衡量信息量的一種方式被廣泛應(yīng)用。信息熵是數(shù)據(jù)含載信息程度的一種度量方式,當(dāng)信息熵越大時(shí)表明數(shù)據(jù)越無序,需要理清數(shù)據(jù)所需信息就越多,也說明數(shù)據(jù)的信息量越大。離散隨機(jī)變量的信息熵定義為自信息的平均值
H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)
其中I(x)為事件的自信息,Ep(x)表示對(duì)隨機(jī)變量的概率取平均運(yùn)算。其具有熵的非負(fù)性、對(duì)稱性、擴(kuò)展性和可加性等相關(guān)性質(zhì)。
2.模糊C均值聚類FCM
模糊C均值聚類[8,9](FCM)是由Bezdek在1981年提出的一種模糊分類方法,F(xiàn)CM需要根據(jù)類中距和類間距構(gòu)造分類準(zhǔn)則,利用預(yù)先給定的分類數(shù)C對(duì)所給樣本點(diǎn)進(jìn)行分類。即求解規(guī)劃問題:
minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,
s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;
0<∑Nk=1μik 通過求解上面規(guī)劃問題,利用得到的隸屬矩陣Uik=∑cj=1(dikdjk)-2m-1和聚類中心 Ci=∑nk=1umikXk∑nk=1umik,進(jìn)行迭代運(yùn)算得到分類結(jié)果。 (二) 熵標(biāo)準(zhǔn)下FCM分類改進(jìn)模型 由于熵值代表了數(shù)據(jù)的信息量,而通過衡量信息量可以產(chǎn)生評(píng)價(jià)策略,陳衍泰等在綜合評(píng)價(jià)方法分類的研究中總結(jié)了信息熵方法應(yīng)用在評(píng)價(jià)領(lǐng)域的情況[10],張樹森等將熵與聚類算法結(jié)合提出改進(jìn)的模糊聚類算法EFC[11],韓宇平等將最大熵原理用于評(píng)價(jià)區(qū)域水資源短缺問題[12],劉紅琴等將信息熵應(yīng)用到能源消費(fèi)的分配衡量中[13],本文考慮將信息熵引入到數(shù)據(jù)質(zhì)量的評(píng)價(jià)中。
再由于區(qū)域發(fā)展數(shù)據(jù)在數(shù)值上差距過大,如果僅僅統(tǒng)一進(jìn)行z-score標(biāo)準(zhǔn)化處理則可能帶來信息損失,本文考慮利用FCM方法將數(shù)據(jù)進(jìn)行分類標(biāo)準(zhǔn)化,這樣也同時(shí)帶來數(shù)據(jù)扁平化特征,而由離散最大熵定理[7]可知,數(shù)據(jù)出現(xiàn)概率越相同,那么數(shù)據(jù)的信息熵越大。
設(shè)n維數(shù)據(jù)集{xi}ni=1進(jìn)行z-score標(biāo)準(zhǔn)化后{xi-μσ}ni=1在D段中出現(xiàn)的概率為{Pj(x)}Dj=1,利用FCM對(duì)數(shù)據(jù)分C類后原始數(shù)據(jù)重新組合變?yōu)閧xij}i=1,…C,j=1…ni,在每個(gè)數(shù)據(jù)集中表轉(zhuǎn)化得到數(shù)據(jù)集{xij-μiσ}i=1,…C,j=1…ni在D段中出現(xiàn)的概率為{Qj(x)}Dj=1,當(dāng)分段數(shù)D足夠體現(xiàn)數(shù)據(jù)概率分布時(shí)Q(x)比P(x)更加趨近相同概率。利用P(x)對(duì)Q(x)的散度D(P//Q)非負(fù)特征,有如下推導(dǎo):
D(P//Q)=∑xP(x)logP(x)Q(x)=
∑xP(x)logP(x)-
∑xP(x)logQ(x)≥0
Hp(x)=-
∑xP(x)logP(x)≤
-∑xP(x)logQ(x)≤-
∑xQ(x)logQ(x)=HQ(x)
因此在分類標(biāo)準(zhǔn)化后的數(shù)據(jù)信息量比直接標(biāo)準(zhǔn)化的信息量要大。從分類的角度來看,分類后數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)值會(huì)產(chǎn)生比整體標(biāo)準(zhǔn)化更多的多樣性,從而帶來的信息量的增加,而數(shù)據(jù)信息量的增加也給后續(xù)的研究方法提供更好的數(shù)據(jù)質(zhì)量。
二、基于區(qū)域發(fā)展面板數(shù)據(jù)的實(shí)證分析
(一)指標(biāo)體系構(gòu)建與數(shù)據(jù)來源說明
1.區(qū)域發(fā)展指標(biāo)體系構(gòu)建
結(jié)合前期工作制定指標(biāo)體系[14]21,指標(biāo)的選取原則兼顧經(jīng)濟(jì)、生活、環(huán)境、社會(huì)、特征產(chǎn)業(yè)和可持續(xù)發(fā)展的指標(biāo)體系,構(gòu)建一級(jí)指標(biāo),細(xì)化二級(jí)指標(biāo)共選取5個(gè)一級(jí)指標(biāo)和69個(gè)二級(jí)指標(biāo)如圖1所示,并由此構(gòu)建整體指標(biāo)模型和各級(jí)別體系。
具體指標(biāo)表現(xiàn)為:(1)在經(jīng)濟(jì)發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)方面:GDP;城鎮(zhèn)固定資產(chǎn)投資額;出口總額;進(jìn)口總額;農(nóng)業(yè)總產(chǎn)值;工業(yè)總產(chǎn)值;建筑業(yè)鄉(xiāng)村從業(yè)人員數(shù);交通運(yùn)輸、倉儲(chǔ)及郵政業(yè)鄉(xiāng)村從業(yè)人員數(shù);鄉(xiāng)村私營企業(yè)從業(yè)人員數(shù);農(nóng)、林、牧、漁業(yè)鄉(xiāng)村從業(yè)人員數(shù);鄉(xiāng)村個(gè)體從業(yè)人員數(shù);工業(yè)從業(yè)人員年平均人數(shù);城鎮(zhèn)房地產(chǎn)開發(fā)投資額;(2)民生能力與生活質(zhì)量:職工工資總額;總戶數(shù);農(nóng)民人均純收入;城鄉(xiāng)居民儲(chǔ)蓄存款余額;社會(huì)消費(fèi)品零售總額;城鎮(zhèn)居民最低生活保障人數(shù);新型農(nóng)村合作醫(yī)療參合率;建成區(qū)綠化覆蓋率;城市出租汽車數(shù);公共汽(電)車客運(yùn)總量(市轄區(qū));人口自然增長率;城市公共汽(電)車客運(yùn)總量;城市每萬人擁有公共交通車輛數(shù);城市人口密度;人口密度;基本養(yǎng)老保險(xiǎn)基金支出;基本醫(yī)療保險(xiǎn)參保人數(shù);人均公園綠地面積;(3)政府管理與社會(huì)服務(wù):財(cái)政收入;財(cái)政支出;財(cái)政用于教育的支出;財(cái)政支出中衛(wèi)生經(jīng)費(fèi);等級(jí)公路里程;公路貨物周轉(zhuǎn)量;公路旅客周轉(zhuǎn)量;公路客運(yùn)量;鐵路客運(yùn)量;城市道路長度;城市供水總量;城市清掃保潔面積;城市天然氣供氣量;地質(zhì)災(zāi)害防治投資;城市公園數(shù);街道辦事處數(shù)量;(4)資源實(shí)力與可持續(xù)發(fā)展:降水量;人均水資源量;土地面積;林業(yè)用地面積;水田耕地面積;城市污水排放量;生活垃圾無害化處理率;城市排水管道長度;城市污水處理率;工業(yè)廢氣排放量;工業(yè)廢水排放量;“三廢”綜合利用產(chǎn)品產(chǎn)值;(5)教育產(chǎn)業(yè)與創(chuàng)新科技:財(cái)政用于教育的支出;普通高等學(xué)校數(shù);普通高等學(xué)校在校學(xué)生數(shù);普通高中在校學(xué)生數(shù);普通小學(xué)在校生數(shù);發(fā)明專利申請(qǐng)受理量;發(fā)明專利授權(quán)量;科技活動(dòng)人員數(shù);
圖1綜合區(qū)域發(fā)展指標(biāo)結(jié)構(gòu)圖
基于以上初步指標(biāo)體系充分涵蓋從經(jīng)濟(jì)發(fā)展到人民生活,從政府能力到社會(huì)服務(wù),從可持續(xù)發(fā)展到特色產(chǎn)業(yè)的方方面面,兼顧發(fā)展的效率、速度、質(zhì)量、潛力和能力。但是在數(shù)據(jù)收集中往往遇到很多實(shí)際情況需要做修正,對(duì)于少部分的數(shù)據(jù)遺漏采用數(shù)據(jù)擬合回歸和缺省值補(bǔ)充等傳統(tǒng)數(shù)據(jù)預(yù)處理方法進(jìn)行修整[1],對(duì)于大部分的數(shù)據(jù)遺漏則采用指標(biāo)替換的方式進(jìn)行變通。
2.面板數(shù)據(jù)來源說明
本文依托皖北沿淮地區(qū)6市39縣區(qū)的區(qū)域發(fā)展研究,因?yàn)樵谕畋毖鼗吹貐^(qū)中蚌埠市和淮南市具有相同的地緣特征和相似生活特征,所以對(duì)兩個(gè)地區(qū)指標(biāo)的衡量具有很好的實(shí)際意義,故而采用2005年到2012年蚌埠市和淮南市數(shù)據(jù),數(shù)據(jù)來源于中國知網(wǎng)提供的《中國統(tǒng)計(jì)年鑒》、《中國城市統(tǒng)計(jì)年鑒》和各地區(qū)發(fā)展統(tǒng)計(jì)年鑒等。同時(shí)本文數(shù)據(jù)屬于面板數(shù)據(jù),可以克服時(shí)間序列分析受多重共線性的困擾,能夠提供更多信息、變化、自由度和估計(jì)效率。
(二)具體實(shí)證分析
本文的具體實(shí)證分析分為以下三個(gè)方面:(1)對(duì)于原始數(shù)據(jù)的處理過程:按照論文前面介紹的科學(xué)指標(biāo)模型和數(shù)據(jù)采集來源,將兩個(gè)城市69個(gè)屬性從2005年到2012年共8年的數(shù)據(jù)進(jìn)行矩陣化,得到一個(gè)138行8列的原始數(shù)據(jù)矩陣,對(duì)于原始數(shù)據(jù)矩陣中的缺省值采用外插和內(nèi)插法進(jìn)行相應(yīng)的差值擬合得到完整的使用數(shù)據(jù)。(2)對(duì)于使用數(shù)據(jù)的分析過程:第一步根據(jù)本文前期工作[14]22通過對(duì)數(shù)據(jù)進(jìn)行譜系聚類、HCM和FCM三種聚類方法,采用Matlab2012b進(jìn)行編程,比較從分2類到分10類的由R方統(tǒng)計(jì)量和偽F統(tǒng)計(jì)量得到的半偏相關(guān)統(tǒng)計(jì)量SPRSQ數(shù)值,發(fā)現(xiàn)當(dāng)分三類時(shí)譜系聚類方法和HCM的SPRSQ數(shù)值達(dá)到最高值分別為0.400 1和0.023 9,而FCM的SPRSQ數(shù)值在分四類時(shí)達(dá)到最高值0.027 0,因此在進(jìn)行分類構(gòu)建信息熵時(shí),將分三類和分四類的情況均予以考慮。第二步根據(jù)論文前面討論的信息熵構(gòu)建過程進(jìn)行分類信息熵構(gòu)建,首先將利用FCM對(duì)數(shù)據(jù)分三類和分四類得到的數(shù)據(jù)集
{xij}i=1,…C,j=1…ni(其中C=3或者4),在每個(gè)數(shù)據(jù)集進(jìn)行z-score標(biāo)準(zhǔn)化:{xij-μiσi}i=1,…C,j=1…ni;然后討論這些數(shù)據(jù)在分D段中出現(xiàn)的概率{Qj(x)}Dj=1,其中分段數(shù)D的大小要足夠體現(xiàn)數(shù)據(jù)概率分布特征 [7,11]取D分別為10和20兩種情況,計(jì)算相關(guān)信息熵?cái)?shù)值H(X)=
EQ(x)[I(x)]=-∑xQ(x)logQ(x)
;最后通過和沒有進(jìn)行分段改進(jìn)的原始數(shù)據(jù)集的未標(biāo)準(zhǔn)化和統(tǒng)一標(biāo)準(zhǔn)化兩種情況進(jìn)行比較得到相關(guān)結(jié)論。(3)對(duì)于數(shù)值比較的分析結(jié)果:通過比較未標(biāo)準(zhǔn)化、普通的列統(tǒng)一標(biāo)準(zhǔn)化和采用FCM分三類和四類的類標(biāo)準(zhǔn)化的三種方法在取分段數(shù)為10和20下的信息熵大小,得到了相關(guān)的數(shù)值結(jié)果表1。
對(duì)表1中的相關(guān)數(shù)值做圖進(jìn)行直觀的表達(dá),可以得到在分10段情況下的圖2和分20段情況下的圖3,其中橫坐標(biāo)為從2005年到2012年每一年的數(shù)據(jù)情況,從圖中可以發(fā)現(xiàn)不論哪一年的數(shù)據(jù)數(shù)值在分類標(biāo)準(zhǔn)化后的熵值都高于圖中最下面的線,即統(tǒng)一標(biāo)準(zhǔn)化的數(shù)據(jù)熵值。
從以上圖表的結(jié)果來看,采用FCM算法對(duì)于數(shù)據(jù)分類標(biāo)準(zhǔn)化后得到的信息熵提升效果是明顯的,具體可以概括為以下的一些結(jié)論:
1.未標(biāo)準(zhǔn)化和統(tǒng)一標(biāo)準(zhǔn)化的結(jié)果數(shù)值完全一樣,這是因?yàn)閦-score標(biāo)準(zhǔn)化過程并不改變數(shù)據(jù)分布特征,因此他們擁有相同的概率分布,則信息熵也完全一致,故而數(shù)據(jù)所含信息不變,因此在作圖階段就不體現(xiàn)未標(biāo)準(zhǔn)化的結(jié)果圖形。
2.分段標(biāo)準(zhǔn)化后所有的數(shù)據(jù)結(jié)果均大于統(tǒng)一標(biāo)準(zhǔn)化的數(shù)據(jù)值,即信息熵在分段標(biāo)準(zhǔn)化后都有顯著提高,這和理論推導(dǎo)的結(jié)果一致。故而分段標(biāo)準(zhǔn)化的方法可以有效消除量綱差異,同時(shí)還能有效的提高數(shù)據(jù)信息熵,從而使得數(shù)據(jù)含有更好的信息量。
3.就分段標(biāo)準(zhǔn)化而言從所有列信息熵的總和數(shù)值可以發(fā)現(xiàn),在兩種最佳聚類數(shù)時(shí)信息熵的總和情況分別可以表示為:分10段3類時(shí)的9.07高于4類時(shí)的7.8,分20段3類時(shí)的12.19高于4類時(shí)的11;同時(shí)數(shù)據(jù)信息熵隨著分段的增大數(shù)值也在增大,這是信息熵本身性質(zhì)所決定的,因?yàn)榉侄卧蕉喔怕史植荚浇咏鶆蚍植?,由離散最大熵定理以及本文理論推導(dǎo)可知數(shù)據(jù)信息熵在增加。但是如果分段過多,甚至達(dá)到數(shù)據(jù)總量的一定比例,此時(shí)再高的信息熵?cái)?shù)值也并不能夠說明很好的信息量,所以在分段數(shù)的選取需要與數(shù)據(jù)總量相互匹配。
三、結(jié)論
根據(jù)以上論證發(fā)現(xiàn),從理論角度和實(shí)證分析都驗(yàn)證了分類標(biāo)準(zhǔn)化可以有效的提高數(shù)據(jù)信息量。所以在相應(yīng)數(shù)據(jù)分析方法使用之前,對(duì)于數(shù)據(jù)標(biāo)準(zhǔn)化處理階段可以嘗試采用分類標(biāo)準(zhǔn)化的方式,這樣既可以消除數(shù)據(jù)量綱差異,也可以有效的提高數(shù)據(jù)含載信息,為進(jìn)一步使用數(shù)據(jù)挖掘方法得到更好的數(shù)據(jù)結(jié)論提供較好的前期準(zhǔn)備。
同時(shí)由于在數(shù)據(jù)集統(tǒng)一標(biāo)準(zhǔn)化中均值唯一,相當(dāng)于只有一個(gè)中心節(jié)點(diǎn)。但是在分類標(biāo)準(zhǔn)化后,在不同類中都有相應(yīng)的均值作為中心節(jié)點(diǎn),所以分類標(biāo)準(zhǔn)化比傳統(tǒng)的統(tǒng)一標(biāo)準(zhǔn)化更符合現(xiàn)代互聯(lián)網(wǎng)思維,那就是去中心化和多節(jié)點(diǎn)多分類,以及扁平化結(jié)構(gòu)體系的相關(guān)思想。參考文獻(xiàn):
[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.
[2]韓京宇.數(shù)據(jù)質(zhì)量研究綜述[J].計(jì)算機(jī)科學(xué),2008(2):1-5.
[3]程惠芳,唐輝亮.開放條件下區(qū)域經(jīng)濟(jì)轉(zhuǎn)型升級(jí)綜合能力評(píng)價(jià)研究——中國31個(gè)省市轉(zhuǎn)型升級(jí)評(píng)價(jià)指標(biāo)體系分析[J].管理世界,2011(8):173-174.
[4]張鋼.長江三角洲16個(gè)城市政府能力的比較研究[J].管理世界,2004(8):18-27.
[5]安悅.基于微博客的手機(jī)供應(yīng)商排名推薦[J].數(shù)學(xué)的認(rèn)識(shí)與實(shí)踐,2013(10):23-29.
[6]汪冬華.我國滬深300股指期貨和現(xiàn)貨市場(chǎng)的交叉相關(guān)性及其風(fēng)險(xiǎn)[J].系統(tǒng)工程理論與實(shí)踐,2014(3):631-639.
[7]田寶玉.信息論基礎(chǔ)[M].北京:人民郵電出版社,2008:18-26.
[8]史小松,黃勇杰,劉永革.數(shù)據(jù)挖掘技術(shù)中聚類的幾種常用方法比較[J].中國科技信息,2009(20):99-105.
[9]諸克軍,蘇順華,黎金玲.模糊C均值中的最優(yōu)聚類與最佳聚類數(shù)[J].系統(tǒng)工程理論與實(shí)踐,2005(3):52-61.
[10]陳衍泰.綜合評(píng)價(jià)方法分類及研究進(jìn)展[J].管理科學(xué)學(xué)報(bào),2004(2):69-77.
[11]張樹森.改進(jìn)的基于熵的中心聚類算法[J].計(jì)算機(jī)與現(xiàn)代化,2014(3):53-56.
[12]韓宇平.基于最大熵原理的區(qū)域水資源短缺風(fēng)險(xiǎn)綜合評(píng)估[J].安徽農(nóng)業(yè)科學(xué),2011(1):397-399.
[13]劉紅琴.基于信息熵的省域內(nèi)能源消費(fèi)總量分配研究[J].長江流域資源與環(huán)境,2014(4):482-489.
[14]徐健.基于數(shù)據(jù)挖掘的區(qū)域發(fā)展指標(biāo)分析[J].渤海大學(xué)學(xué)報(bào):人文社科版,2014(5):21-35
.
[責(zé)任編輯:范君李麗]