趙成,肖健華
(五邑大學(xué) 經(jīng)濟(jì)管理學(xué)院,廣東 江門 529020)
基于SVDD的全國科技進(jìn)步聚類分析
趙成1,肖健華2
(五邑大學(xué) 經(jīng)濟(jì)管理學(xué)院,廣東 江門 529020)
科技進(jìn)步是國家經(jīng)濟(jì)發(fā)展的強(qiáng)大動(dòng)力和堅(jiān)實(shí)基礎(chǔ),是影響國家綜合國力和國際競(jìng)爭(zhēng)力的決定性因素. 論文選取2008年中國31個(gè)省市科技進(jìn)步綜合指標(biāo)評(píng)價(jià)數(shù)據(jù),先標(biāo)準(zhǔn)化處理這些數(shù)據(jù),再采用因子分析法對(duì)樣本進(jìn)行降維,最后用支持向量數(shù)據(jù)描述模型聚類分析了2008年全國科技進(jìn)步的情況.
科技進(jìn)步;因子分析;支持向量數(shù)據(jù)描述
科技進(jìn)步是指國家堅(jiān)持科學(xué)發(fā)展觀,實(shí)施科教興國戰(zhàn)略,實(shí)行自主創(chuàng)新、重點(diǎn)跨越、支撐發(fā)展、引領(lǐng)未來的科學(xué)技術(shù)工作指導(dǎo)方針,構(gòu)建國家創(chuàng)新體系,建設(shè)創(chuàng)新型國家.[1]進(jìn)入新世紀(jì),世界各國政府都在思考和部署新的經(jīng)濟(jì)與社會(huì)發(fā)展戰(zhàn)略. 中國作為世界上最大的發(fā)展中國家,為了保持經(jīng)濟(jì)的持續(xù)快速健康發(fā)展,必須把加快科技進(jìn)步和創(chuàng)新置于經(jīng)濟(jì)與社會(huì)發(fā)展的優(yōu)先地位. 本文借鑒國內(nèi)學(xué)者已有的研究成果,選取2008年全國31個(gè)省市科技進(jìn)步綜合指標(biāo)評(píng)價(jià)數(shù)據(jù)(見中國國家統(tǒng)計(jì)局網(wǎng)站http://www.most.gov.cn/kjtj/tjbg/200907/P020090729400672549276.pdf),以“科技進(jìn)步評(píng)價(jià)指標(biāo)體系”的5個(gè)綜合指標(biāo)(科技進(jìn)步環(huán)境指數(shù)x1、科技促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展指數(shù)x2、科技活動(dòng)投入指數(shù)x3、科技活動(dòng)產(chǎn)出指數(shù)x4和高新技術(shù)產(chǎn)業(yè)化指數(shù)x5,具體見中國國家統(tǒng)計(jì)局網(wǎng)站http://www.most.gov.cn/kjtj/ tjbg/200806/P020090731393749062749.pdf)為原變量,先用因子分析法[2]對(duì)其降維,再用支持向量數(shù)據(jù)描述算法(support vector data description,SVDD)對(duì)其進(jìn)行聚類分析.
對(duì)于數(shù)據(jù)對(duì)象的樣本集X={x1,x2,…xn},SVDD的聚類方法就是通過尋找一個(gè)半徑最小的超球體把所有樣本包圍起來,數(shù)據(jù)描述的優(yōu)化問題可以表示為:
其中R為樣本集中全體樣本完全包圍所對(duì)應(yīng)的最小球體的半徑,a為最小球體的球心.
由式(1)和式(2)可得Lagrange函數(shù):
對(duì)式(3)中的R和a求偏微分并令它們等于0,可得:
由式(3~5),經(jīng)過簡(jiǎn)化,得:
此時(shí),與αi>0的這部分相對(duì)應(yīng)的樣本點(diǎn)構(gòu)成了樣本的邊界,將此樣本點(diǎn)稱為支持向量. 這時(shí)求出來的超球體可能失真,即所形成的區(qū)域不能準(zhǔn)確地反映實(shí)際樣本數(shù)據(jù)的分布特征,為此我們?cè)谏鲜鰞?yōu)化過程中引入核方法[3],即將(x1·x2)→K(x1,x2)代入式(6),得:
結(jié)合本文需要將核函數(shù)具體化,選取高斯徑向基核函數(shù):
則式(7)可表示成:
由此可見,引入高斯徑向基核函數(shù)在數(shù)據(jù)空間中可獲得較為理想的數(shù)據(jù)描述邊界.
對(duì)于同一個(gè)三維一類樣本分布,若采用常規(guī)方法進(jìn)行數(shù)據(jù)描述,其結(jié)果如圖1-a所示;若以高斯徑向基核函數(shù)作為核函數(shù)進(jìn)行數(shù)據(jù)描述,其結(jié)果如圖1-b所示. 可見采用核方法可獲得較為理想的數(shù)據(jù)描述邊界.
圖1 不同方法下獲得的數(shù)據(jù)描述邊界
2.1 科技進(jìn)步評(píng)價(jià)指標(biāo)的降維
對(duì)于原始數(shù)據(jù),由于不同指標(biāo)的評(píng)價(jià)標(biāo)準(zhǔn)不同,因此不同指標(biāo)間的數(shù)量級(jí)相差很大,為了排除數(shù)量級(jí)和量綱不同帶來的影響,首先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.
設(shè)有n個(gè)樣本,p項(xiàng)指標(biāo),可得數(shù)據(jù)矩陣X=(xij)n×p,i=1,2,…,n ;j=1,2,…,p;xij表示第i個(gè)樣本的第j項(xiàng)指標(biāo)值. 對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換:
2008年全國31個(gè)省市科技進(jìn)步綜合評(píng)價(jià)數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果見表1.
表1 5個(gè)綜合指標(biāo)原始數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果
根據(jù)因子分析方法的原理,運(yùn)用統(tǒng)計(jì)軟件可計(jì)算出各因子所對(duì)應(yīng)的特征值、貢獻(xiàn)率、累計(jì)貢獻(xiàn)率與各指標(biāo)變量方差最大(Varimax)正交旋轉(zhuǎn)后的因子載荷矩陣等,5個(gè)評(píng)價(jià)指標(biāo)的因子總方差分析如表2所示. 根據(jù)因子累計(jì)方差貢獻(xiàn)率超過85%的原則,從表2可以得出:提取x1和x2兩個(gè)主成分已足以表達(dá)原始數(shù)據(jù)的絕大多數(shù)信息.[4]故只選取科技進(jìn)步環(huán)境指數(shù)、科技促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展指數(shù)2個(gè)變量,原始數(shù)據(jù)降維后的結(jié)果見表3.
表2 因子總方差表
表3 科技進(jìn)步評(píng)價(jià)指標(biāo)降維后的結(jié)果
2.2 科技進(jìn)步的SVDD評(píng)價(jià)
選擇高斯徑向基核函數(shù),對(duì)表3中數(shù)據(jù)進(jìn)行聚類分析,所得結(jié)果如圖2所示.
分析圖2可大致得出:1)上海、北京為第1類,科技進(jìn)步水平最強(qiáng);2)天津?yàn)榈?類,科技進(jìn)步水平較強(qiáng);3)廣東、江蘇、浙江、遼寧為第3類,科技進(jìn)步水平為強(qiáng);4)山東、福建、陜西、湖北、重慶、吉林、黑龍江、四川、新疆、湖南、寧夏、河北、山西、內(nèi)蒙古、青海、甘肅、安徽、河南、海南、江西、貴州、云南和廣西為第4類,科技進(jìn)步水平一般;5)西藏為第5類,科技進(jìn)步水平最低. 此分類結(jié)果與原始分類十分吻合.
圖2 區(qū)域科技進(jìn)步SVDD評(píng)價(jià)結(jié)果
總體上看,科技進(jìn)步與經(jīng)濟(jì)發(fā)展程度有較強(qiáng)的相關(guān)性[5]. 作為第1類的北京、上海,科技進(jìn)步最強(qiáng),同時(shí)二者也是全國經(jīng)濟(jì)科技發(fā)展水平最高的地區(qū),其中北京市的科技活動(dòng)產(chǎn)出和科技活動(dòng)投入穩(wěn)居全國首位,但企業(yè)創(chuàng)新較弱,傾向于從國外獲取技術(shù). 為此,北京市應(yīng)提高企業(yè)科技創(chuàng)新能力,加強(qiáng)北京本地企業(yè)與高校、研究機(jī)構(gòu)的合作. 上海市各方面優(yōu)勢(shì)都很明顯,政府、企業(yè)科技投入都很高,高科技產(chǎn)業(yè)發(fā)達(dá)、技術(shù)市場(chǎng)興盛,國際合作很多,產(chǎn)學(xué)研水平很高,跨國公司是上海市企業(yè)發(fā)展研發(fā)的主體,但本地企業(yè)研發(fā)水平較低. 作為單獨(dú)一類的天津,近些年經(jīng)濟(jì)發(fā)展速度快,政府科技投入大,經(jīng)濟(jì)發(fā)展得益于外資作用,其科技進(jìn)步強(qiáng)的重要原因是位于沿海地區(qū),其改革開放領(lǐng)先于全國并為科技進(jìn)步提供了良好的體制框架和市場(chǎng)經(jīng)濟(jì)體系. 作為第3類的廣東、江蘇、浙江、遼寧歸為一類,其科技進(jìn)步得益于地處沿海地區(qū)以及國家(對(duì)東北老工業(yè)基地)的政策扶持,其中廣東經(jīng)濟(jì)發(fā)達(dá),宏觀經(jīng)濟(jì)水平、產(chǎn)業(yè)結(jié)構(gòu)水平、產(chǎn)業(yè)競(jìng)爭(zhēng)力和就業(yè)水平等均位居全國首位,政府、企業(yè)對(duì)科技投入絕對(duì)量大,但是總體研發(fā)強(qiáng)度較低,使得科技進(jìn)步發(fā)展與經(jīng)濟(jì)發(fā)展不符. 其余省份地處內(nèi)地,在開放程度、政策支持、政府企業(yè)對(duì)科技投入力度等方面均不高,使得科技進(jìn)步發(fā)展普遍較低.
本文借助SVDD對(duì)全國科技進(jìn)步進(jìn)行聚類分析,克服了傳統(tǒng)定量方法所采用的線性排序的不足.傳統(tǒng)線性排序在確定指標(biāo)權(quán)重的時(shí)候經(jīng)常依賴于決策者的主觀經(jīng)驗(yàn),往往未能客觀地反映各指標(biāo)的主次性,借助SVDD實(shí)現(xiàn)各地區(qū)科技進(jìn)步的聚類,不僅更客觀地綜合了科技進(jìn)步各方面的信息,而且聚類結(jié)果更形象合理,可以給決策者提供精準(zhǔn)的決策依據(jù).
[1] 全國人民代表大會(huì)常務(wù)委員會(huì). 中華人民共和國科學(xué)技術(shù)進(jìn)步法[M]. 北京:中國法制出版社,2008.
[2] 仲生仁. 因子分析方法及其在教學(xué)管理中的應(yīng)用[D]. 蘭州:蘭州大學(xué),2007.
[3] MULLER K R, MIKA S, RATSCHG, et al. An introduction to kernel-based learning algorithms[J]. IEEE Trans on Neural Networks, 2001, 12(2): 181-201.
[4] 蔣惠園,王晚香. 主成分分析法在綜合評(píng)價(jià)中的應(yīng)用[J]. 武漢理工大學(xué)學(xué)報(bào):交通科學(xué)與工程版,2004, 28(03): 467-470.
[5] 佚名. 2000全國科技進(jìn)步綜合評(píng)價(jià)[J]. 科技統(tǒng)計(jì),2002, 3(5): 27-29.
A SVDD-based Cluster Analysis of National Scientific and Technological Advancement
ZHAO Cheng1, XIAO Jian-hua2
(Wuyi University Economic Management School, Jiangmen 529020, China)
The scientific and technological progress of a country is a strong driving force and solid foundation for its economic development and decides the comprehensive national strength and international competitiveness. This paper selects the comprehensive index evaluation data of China’s 31 provinces, autonomous regions and municipalities in the year 2008 for science and technology progress evaluation and standard-processed the data in light of “science and technology advancement evaluation index system”. Then the paper uses the factor analysis to reduce the dimensions of the original data and the support vector data description model to evaluate the national scientific and technological progress of China in the year 2008.
scientific technological progress; factor analysis; support vector data description
G642.0;O29
A
1006-7302(2011)01-0065-05
2010-05-10
趙成(1984—),男,山東高唐人,碩士研究生,研究方向?yàn)殡娮由虅?wù);肖健華,教授,博士,碩士生導(dǎo)師,通信作者,研究方向?yàn)槿斯ぶ悄芾碚撆c應(yīng)用.