王 俊(安徽省科學技術(shù)情報研究所,安徽合肥 230011)
安徽省高新技術(shù)統(tǒng)計關(guān)鍵指標關(guān)聯(lián)性研究
王 俊
(安徽省科學技術(shù)情報研究所,安徽合肥 230011)
在國內(nèi)外的研究基礎上,結(jié)合安徽特有的基本情況,根據(jù)安徽省“1+6”政策體系,建立了一套高新技術(shù)統(tǒng)計指標體系。以最大依賴性、最大相關(guān)性和最小冗余為準則建立模型,選擇過濾式特征選擇方法的代表算法之一mRMR來選擇特征子集,在眾多指標中抽取關(guān)鍵指標,并利用數(shù)據(jù)挖掘中聚類分析方法挖掘指標間潛在的關(guān)聯(lián)性,提出高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)培育情況是影響一個地區(qū)高新技術(shù)產(chǎn)業(yè)運行情況的重要指標。
高新技術(shù);數(shù)據(jù)挖掘;關(guān)鍵指標;相關(guān)度;安徽省
高新技術(shù)產(chǎn)業(yè)是在高強度研究開發(fā)基礎上發(fā)展起來的最具活力和潛力的知識和技術(shù)高度密集的產(chǎn)業(yè)群體,它的崛起和迅猛發(fā)展對經(jīng)濟和社會發(fā)展產(chǎn)生了深刻的影響[1],是經(jīng)濟發(fā)展的動力。隨著高新技術(shù)產(chǎn)業(yè)的逐步興起,相關(guān)國際組織以及國家政府部門和科研機構(gòu)為高新技術(shù)產(chǎn)業(yè)統(tǒng)計工作的開展做了大量工作[2],取得了一定成效。近年來,安徽省積極實施創(chuàng)新驅(qū)動發(fā)展工程,高新技術(shù)產(chǎn)業(yè)一直處于穩(wěn)中有進的發(fā)展態(tài)勢。高新技術(shù)產(chǎn)業(yè)數(shù)據(jù)統(tǒng)計工作也同樣得到了省政府的高度關(guān)注與重視,為推進安徽省高新技術(shù)產(chǎn)業(yè)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)調(diào)整提供了重要決策依據(jù)。2014年,安徽省出臺了“1+6”政策,提出了安徽省創(chuàng)新能力評價指標體系,明確將高新技術(shù)產(chǎn)業(yè)中的兩個相關(guān)指標(即“高新技術(shù)產(chǎn)品進出口總額占地方進出口總額的比重”和“高新技術(shù)產(chǎn)業(yè)增加值占GDP比重”)列入了考核內(nèi)容。但是,在日常工作中高新技術(shù)產(chǎn)業(yè)相關(guān)的統(tǒng)計指標卻多達十幾個,存在指標體系不夠健全、關(guān)鍵指標不突出、缺少指標間關(guān)聯(lián)分析等問題。本文將以安徽省創(chuàng)新能力評價中的高新技術(shù)指標為基礎,兼顧指標數(shù)據(jù)的可獲取性,選取了科技統(tǒng)計日常工作中使用的17個高新技術(shù)相關(guān)指標,并將數(shù)據(jù)挖掘和統(tǒng)計分析技術(shù)引入高新技術(shù)統(tǒng)計工作中,建立一套安徽省高新技術(shù)統(tǒng)計關(guān)鍵指標體系,形成一套高新技術(shù)關(guān)鍵指標分析框架和模型及可視化系統(tǒng),再利用數(shù)據(jù)挖掘技術(shù),深入分析和評價安徽省高新技術(shù)產(chǎn)業(yè)發(fā)展現(xiàn)狀。
在高新技術(shù)產(chǎn)業(yè)統(tǒng)計工作中,數(shù)據(jù)本身龐大高維,且往往摻雜著大量無關(guān)、冗余特征,影響數(shù)據(jù)信息的有效挖掘[3]。因此,要在多個指標中進行關(guān)鍵指標抽取。關(guān)鍵指標抽取研究適用于機器學習領(lǐng)域中的關(guān)鍵特征選擇和特征提取[4-6]。這里分別研究監(jiān)督學習條件下的特征選擇方法和無監(jiān)督學習條件下的特征提取方法對問題的適用性。
1.1 特征選擇的算法
從是否使用了目標變量的角度,可以將特征選擇算法分為有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。其中,有監(jiān)督的特征選擇方法是在數(shù)據(jù)具有標簽的前提下,通過評估特征和目標變量之間的相關(guān)性,選擇有判別性特征的指標,即得到哪些指標具有較強的標簽指示性。在實際應用中,很難得到有標簽的數(shù)據(jù),因此相比于有監(jiān)督的特征選擇方法,無監(jiān)督的特征選擇方法的研究受到更多的關(guān)注。而半監(jiān)督的特征選擇,即“小標記樣本問題”,使用目標變量的信息以及對應于標簽數(shù)據(jù)和無標簽數(shù)據(jù)之間的流形結(jié)構(gòu)[7-8]。
特征選擇算法有過濾器、包裝器和嵌入式3種。其中,過濾器算法是指定義一些準則,對特征進行評估,得到評估值,再對這些值進行排序,從而選出最好的若干個特征。相關(guān)的特征評估準則包括互信息、最大間距準則、內(nèi)核對齊和希爾伯特-施密特獨立性準則。過濾器采用多種準則來避免冗余,而mRMR(min-Redundancy and Max-relevance)是最具有代表性的算法,是以最大依賴性、最大相關(guān)性和最小冗余為準則。mRMR是為了找到一個特征子集,與目標變量具有最大的相關(guān)性,而特征子集中的特征之間具有最小的冗余[9-10]。
1.2 評估指標與標簽的相關(guān)性
其中, vx是特征x 的第j個屬性值,vx是特征
根據(jù)式(1),得到 SN特征集中所有特征的排序,即S′。在此排序的基礎上,我們選擇前k個特征,表示為:
1.3 評估指標間的相關(guān)性
考慮到mRMR算法所選出的特征子集能在使特征子集與類標簽之間的相關(guān)性最大化的同時,還能保證特征子集內(nèi)部冗余最小化,可以有效提升分類器的性能。因此,本文選擇了過濾式特征選擇算法的代表算法之一mRMR來選擇特征子集。首先給出mRMR的相關(guān)定義:
定義1 最小冗余:特征子集S內(nèi)部的冗余最小化
定義2 最大相關(guān):特征子集S與類標簽L保持最大的相關(guān)
假設已經(jīng)找到含 1n?個特征的子集1nS?,則查找第n個特征的過程是:(1)在集合中查找使φ最大的特征f;(2)將f添加到特征子集中,并把f從集合中去除;(3)重復步驟(1)和步驟(2)查找其他特征直到滿足停止條件,從而找到最優(yōu)特征子集。其中,步驟(1)的目標優(yōu)化式可以換成φ的等價形式
根據(jù)日常統(tǒng)計經(jīng)驗,選取了和高新技術(shù)產(chǎn)業(yè)相關(guān)的17個指標,涉及高新技術(shù)產(chǎn)業(yè)、高新技術(shù)企業(yè)、高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)、科技企業(yè)孵化器、高新技術(shù)產(chǎn)業(yè)基地和生產(chǎn)力促進中心等眾多方面,如表1所示。
通過查閱年鑒和相關(guān)公報,收集了2005—2014年的相關(guān)統(tǒng)計數(shù)據(jù)。對2005—2014年的原始數(shù)據(jù)進行離散化處理。離散化是將一組連續(xù)的數(shù)據(jù)值放入存儲桶的過程,以便得到可能狀態(tài)的離散數(shù)目,表2中顯示的就是通過離散化處理后,把原本“連續(xù)的”變量變成“1-5”5個離散的變量。然后再對兩兩指標進行相關(guān)性計算,得出結(jié)果如表3所示。
(1)相關(guān)度較高的指標有4對,其相關(guān)度大約在2.12,分別為:高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元)—累計畢業(yè)企業(yè)數(shù)(家);高新技術(shù)產(chǎn)業(yè)增加值占GDP的比重(%)—高新技術(shù)產(chǎn)業(yè)基地數(shù)(個);高新技術(shù)企業(yè)數(shù)(家)—高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元);高新技術(shù)企業(yè)數(shù)占規(guī)模以上企業(yè)比重(%)—高新技術(shù)產(chǎn)業(yè)增加值占全省工業(yè)增加值的比重(%)。
表1 基礎數(shù)據(jù)指標情況一覽表
(2)相關(guān)度次之的指標有4對,其相關(guān)度大約在1.952,分別為:上市高新技術(shù)企業(yè)數(shù)(家)—營業(yè)總收入(億元);高新技術(shù)產(chǎn)業(yè)基地數(shù)(個)—基地內(nèi)企業(yè)總收入(億元);生產(chǎn)力促進中心數(shù)(個)—高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元);累計畢業(yè)企業(yè)數(shù)(家)—高新技術(shù)產(chǎn)業(yè)產(chǎn)值(億元)。
表2 離散化結(jié)果
表3 相關(guān)度計算結(jié)果
相關(guān)度越大的指標,說明指標統(tǒng)計冗余度越高。由此可見,選取的17個高新技術(shù)指標中有一定的冗余度,可以進行篩選。
通過對2009—2014年合肥累計認定高新技術(shù)企業(yè)數(shù)、當年認定高新技術(shù)企業(yè)、高新技術(shù)產(chǎn)業(yè)總產(chǎn)值、高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)產(chǎn)業(yè)增加值占GDP比重等指標及處于中等位次排名信息進行分析,以中等位次排名為類標簽,基于互信息模型分析其余各指標對中等位次排名的影響程度,提取其中的關(guān)鍵指標。
分析結(jié)果顯示,對中等位次排名影響度從大到小的指標分別為高新技術(shù)產(chǎn)業(yè)增加值占GDP比重、高新技術(shù)產(chǎn)業(yè)增加值、累計認定高新技術(shù)企業(yè)數(shù)、高新技術(shù)產(chǎn)業(yè)總產(chǎn)值、當年認定高新技術(shù)企業(yè)數(shù),其重要度指標分別為1.45、1.12、1、1、0.46。從中可以看出,當年認定的高新技術(shù)企業(yè)數(shù)對中等位次排名的影響度不大,而高新技術(shù)產(chǎn)業(yè)增加值占GDP比重對排名影響較大。
此外,對合肥、淮北、亳州等16個地市近年來的統(tǒng)計指標(累計認定高新技術(shù)企業(yè)數(shù)、當年認定高新技術(shù)企業(yè)數(shù)、高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)數(shù)與規(guī)模以上工業(yè)企業(yè)數(shù)之比等指標)進行分析,分析哪些指標對高新技術(shù)產(chǎn)業(yè)總產(chǎn)值上升具有重要影響。
基于互信息模型進行相關(guān)性分析,結(jié)果顯示,對高新技術(shù)產(chǎn)業(yè)總產(chǎn)值上升影響力的重要度從大到小依次為:高新技術(shù)產(chǎn)業(yè)增加值占GDP比重、高新技術(shù)企業(yè)數(shù)與規(guī)模以上工業(yè)企業(yè)數(shù)之比、高新技術(shù)產(chǎn)業(yè)增加值、累計認定高新技術(shù)企業(yè)數(shù)、當年認定高新技術(shù)企業(yè)數(shù),其影響度分別為0.087、0.053、0.0403、0.0194、0.0194。由此可見,高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)培育情況是衡量一個地區(qū)高新技術(shù)產(chǎn)業(yè)運行情況的重要指標。
本文建立了一套高新技術(shù)統(tǒng)計體系指標,選取2005—2014年統(tǒng)計數(shù)據(jù)作為研究的原始數(shù)據(jù),抽取統(tǒng)計關(guān)鍵指標分析安徽省高新技術(shù)產(chǎn)業(yè)的發(fā)展情況。統(tǒng)計分析表明,“十二五”以來,安徽省高新技術(shù)產(chǎn)業(yè)處于穩(wěn)中有進的發(fā)展態(tài)勢,截至2016年年底,全省擁有高新技術(shù)企業(yè)3863家,占全省規(guī)模以上工業(yè)企業(yè)數(shù)的19.9%;全省高新技術(shù)產(chǎn)業(yè)實現(xiàn)增加值4094.9億元,占全省GDP 的17%。由于研究初期兼顧統(tǒng)計指標的可獲取性,研究結(jié)果可能存在一定的局限性,但對高新技術(shù)日常統(tǒng)計工作仍然具有一定的指導作用。研究結(jié)果表明,影響一個地區(qū)高新技術(shù)產(chǎn)業(yè)運行情況的重要指標有高新技術(shù)產(chǎn)業(yè)增加值和高新技術(shù)企業(yè)培育情況,從而提高了日常統(tǒng)計工作中高新技術(shù)產(chǎn)業(yè)數(shù)據(jù)的有效性,可更深層次地分析全省高新技術(shù)產(chǎn)業(yè)的發(fā)展。
[1] 張珍花,路正南.高新技術(shù)產(chǎn)業(yè)統(tǒng)計指標體系的構(gòu)建[J].統(tǒng)計與決策, 2015,187(4):13-14.
[2] 沈艷華,趙振寧.高新技術(shù)產(chǎn)業(yè)統(tǒng)計調(diào)研報告[J].商業(yè)研究, 2006, 346(14):204-206.
[3] SPOLAOR N, CHENRMAN E A, MONARD E A, et al. A comparison of multi-label feature selection methods using the problem transformation approach[J]. Electronic Notes in Theoretical Computer Science,2013,209:135-151.
[4] ZHANG M L, ZHOU Z H. A review on multi-label learning algorithms[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1819-1837.
[5] DENDAMRONGVIT S, VATEEKUL P, KUBAT M. Irrelevant attributes and imbalanced classes in multilabel text-categorization domains[J].Intelligent Data Anvlysis,2011,15(6):843-859.
[6] 周國靜, 李云.基于最小最大策略的集成特征選擇[J].南京大學學報(自然科學), 2014,50(4):457-465.
[7] 王婧.面向在線環(huán)境的數(shù)據(jù)編碼問題研究[D].合肥:合肥工業(yè)大學, 2015.
[8] 許堯.過濾式特征選擇算法研究[D].合肥:合肥工業(yè)大學, 2015.
[9] 姚明海, 王娜, 齊妙,等.改進的最大相關(guān)最小冗余特征選擇方法研究[J].計算機工程與應用, 2014,50(9): 116-122.
[10] 胡學鋼, 許堯,李培培,等.一種過濾式多標簽特征選擇算法[J].南京大學學報(自然科學版),2015, 51(4): 723-730.
Research for Correlation with the Statistics Key Indexes of New and High Technology in Anhui Province
WANG Jun
(Scientific and Technological Information Institute of Anhui Province, Hefei 230011)
Firstly, on the basis of research at home and abroad, and combining the basic situation of Anhui characteristics, this article establishes a set of index system of new and high technology industries. Secondly, to maximize the dependency, maximum correlation and minimum redundancy for the guidelines, this article establishes a model, chooses mRMR to select feature subset which is one of the representative algorithms of the filter, and extract the key indexes in many indexes. Thirdly, data mining the potential correlation between excavated index using the method of clustering analysis. At last, put forward that it is the added value of new and high technology industries and the enterprises which affect the high and new technology industry.
new and high technology, data mining, key indexes, relativity, Anhui province
C813;TP181
A
10.3772/j.issn.1674-1544.2017.02.013
王俊(1985—),女,安徽省科學技術(shù)情報研究所助理研究員,碩士,主要研究方向:科技統(tǒng)計。
安徽省科技攻關(guān)計劃項目“高新技術(shù)統(tǒng)計關(guān)鍵指標挖掘研究”(1301023012);國家創(chuàng)新發(fā)展司委托項目子課題“安徽省企業(yè)創(chuàng)新情況調(diào)查分析與研究”(ZLY2015123)。
2016年11月22日。