王 斌王文平費為銀
(1.安徽工程大學(xué)數(shù)理學(xué)院,安徽蕪湖241000;2.東南大學(xué)經(jīng)濟管理學(xué)院,江蘇南京211189)
經(jīng)濟投入產(chǎn)出系統(tǒng)能夠被構(gòu)建成產(chǎn)業(yè)網(wǎng)絡(luò),節(jié)點表示系統(tǒng)中的各個產(chǎn)業(yè)或企業(yè),鏈路表示相互之間的物質(zhì)、副產(chǎn)品和能量的循環(huán)流動.網(wǎng)絡(luò)分析方法能夠探討產(chǎn)業(yè)網(wǎng)絡(luò)的結(jié)構(gòu)和性質(zhì)[1],能夠測量網(wǎng)絡(luò)中各個節(jié)點之間的交流,而且能夠解釋相互之間的影響和信息流動[2-4],因而它是分析經(jīng)濟投入產(chǎn)出系統(tǒng)的一個有力工具.目前,產(chǎn)業(yè)網(wǎng)絡(luò)的構(gòu)建主要基于投入產(chǎn)出表所反映的信息,并據(jù)此研究產(chǎn)業(yè)網(wǎng)絡(luò)結(jié)構(gòu)特征及其演化,為產(chǎn)業(yè)結(jié)構(gòu)的優(yōu)化、以及產(chǎn)業(yè)的轉(zhuǎn)型升級提供合理的政策建議.如文獻[5—10]從整體的角度,以某個年份的投入產(chǎn)出表為基礎(chǔ),研究產(chǎn)業(yè)網(wǎng)絡(luò)的無標(biāo)度性、冪律分布和最大關(guān)聯(lián)樹等基本特征.文獻[11—15]從個體的角度,以幾個年份的投入產(chǎn)出表為基礎(chǔ),研究產(chǎn)業(yè)網(wǎng)絡(luò)內(nèi)的主導(dǎo)產(chǎn)業(yè),如何在國家產(chǎn)業(yè)結(jié)構(gòu)調(diào)整和優(yōu)化升級過程中發(fā)揮各自的優(yōu)勢和作用,以及探討產(chǎn)業(yè)網(wǎng)絡(luò)的演化,分析集群網(wǎng)絡(luò)之間的互動及部門角色的變動問題.可見,投入產(chǎn)出表對于研究產(chǎn)業(yè)網(wǎng)絡(luò)是多么的重要.但從時間維度看,基于投入產(chǎn)出表之上的產(chǎn)業(yè)網(wǎng)絡(luò),只是研究了某些年份的產(chǎn)業(yè)網(wǎng)絡(luò)結(jié)構(gòu)特征,而沒能克服借助靜態(tài)、歷史的數(shù)據(jù)研究產(chǎn)業(yè)網(wǎng)絡(luò)的局限.再從現(xiàn)實情況看,囿于編制投入產(chǎn)出表需要消耗大量的人力和物力,中國的投入產(chǎn)出表只是每五年編制一次,且表的公布年份距編表年份至少也會有2年~3年.較長的編表周期導(dǎo)致投入產(chǎn)出表注定是一種歷史數(shù)據(jù),那么分析以該表為基礎(chǔ)的產(chǎn)業(yè)網(wǎng)絡(luò),對于經(jīng)濟結(jié)構(gòu)變化較大的轉(zhuǎn)型經(jīng)濟體來說,數(shù)年的滯后可能會影響研究結(jié)果的正確性.因此,及時、準(zhǔn)確地預(yù)測產(chǎn)業(yè)網(wǎng)絡(luò)具有重要的意義.
若能克服投入產(chǎn)出表跨度大,不能及時、準(zhǔn)確反映產(chǎn)業(yè)網(wǎng)絡(luò)結(jié)構(gòu)變化的缺點,使得產(chǎn)業(yè)網(wǎng)絡(luò)的預(yù)測變得便捷可行,則能依據(jù)若干個年份的投入產(chǎn)出表,對產(chǎn)業(yè)網(wǎng)絡(luò)進行及時、動態(tài)的分析.事實上,隨著時間的演化,產(chǎn)業(yè)網(wǎng)絡(luò)中原有的鏈路可能消失或產(chǎn)生新的鏈路,從而表現(xiàn)出了較強的動態(tài)性和復(fù)雜性,處理如此問題選擇社會網(wǎng)絡(luò)分析法(SNA)十分適宜[16],鏈路預(yù)測又是網(wǎng)絡(luò)分析法中的重要任務(wù)之一.鏈路預(yù)測是指,依據(jù)已知的網(wǎng)絡(luò)結(jié)構(gòu)等信息,預(yù)測網(wǎng)絡(luò)中尚未鏈接的兩個節(jié)點之間將來產(chǎn)生鏈接可能性的大小,該理論已經(jīng)被廣泛應(yīng)用于各種網(wǎng)絡(luò)分析當(dāng)中[17-19].因此,鏈路預(yù)測是盡可能的推斷出兩個節(jié)點之間鏈接存在的可能性,具有重要的理論和實際意義.
在真實的網(wǎng)絡(luò)中,相比于用實驗結(jié)果去推斷兩個節(jié)點之間是否有相互作用關(guān)系,利用鏈路預(yù)測去預(yù)估節(jié)點將來的行為,或者識別兩個節(jié)點之間未來的鏈接,成本更為低廉.例如,在新陳代謝網(wǎng)絡(luò)與蛋白質(zhì)相互作用網(wǎng)絡(luò)中,需要通過大量實驗結(jié)果推斷節(jié)點之間是否存在相互作用關(guān)系[20],高額的實驗成本自然不可避免.降低實驗成本,并且不失準(zhǔn)確地推斷結(jié)論的理想方法,是針對這些網(wǎng)絡(luò)的結(jié)構(gòu)特性、設(shè)計出一套足夠精確的鏈路預(yù)測算法,然后實驗在預(yù)測結(jié)果的指導(dǎo)下進行.已經(jīng)有許多學(xué)者研究了鏈路預(yù)測的問題,這些研究主要是基于當(dāng)前網(wǎng)絡(luò)的結(jié)構(gòu)性質(zhì),預(yù)測任意兩個節(jié)點之間將來發(fā)生鏈接的概率,且研究的科學(xué)領(lǐng)域眾多.例如,Goldberg等[21]利用蛋白質(zhì)網(wǎng)絡(luò)的局部集聚性,預(yù)測了缺失的鏈接;Manning等[22]構(gòu)建了一個信息檢索網(wǎng)絡(luò),節(jié)點代表關(guān)鍵詞或分類文件,通過預(yù)測兩者之間的關(guān)系,區(qū)分了未經(jīng)辨識的文件.圖書推薦網(wǎng)絡(luò)是鏈路預(yù)測的另一個事例,Chen等[23]在用戶和書目之間建立了許多圖論測度,以期向用戶做圖書推薦.此系統(tǒng)是一個用戶—圖書的二部網(wǎng)絡(luò),鏈路表示用戶對某種圖書的偏好.鏈路預(yù)測也可以被用于分析演化網(wǎng)絡(luò),例如,Zhou等[24]利用鏈路預(yù)測理論分析了互聯(lián)網(wǎng)將來的形狀;Juszczyszyn等[25]利用馬爾科夫鏈構(gòu)建了一個鏈路預(yù)測模型,分析了大學(xué)郵箱網(wǎng)絡(luò)的子圖結(jié)構(gòu)隨時間的演化情況.解決鏈路預(yù)測問題一個最簡單的方法是所謂的得分算法,其中基于相似性的得分預(yù)測算法能夠得到很好的預(yù)測結(jié)果,并且網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)性質(zhì)能夠幫助選擇合適的相似性指標(biāo)[26,27].隨后,學(xué)者們又考慮了加權(quán)網(wǎng)絡(luò)上的鏈路預(yù)測問題,發(fā)現(xiàn)含權(quán)指標(biāo)的得分預(yù)測效果要好于無權(quán)的預(yù)測方法[28].這些研究都充分體現(xiàn)了得分預(yù)測算法的簡潔性,并且得分預(yù)測方法很容易和其他的方法相結(jié)合.例如,Aaron等[29]應(yīng)用層級結(jié)構(gòu)知識預(yù)測了丟失的鏈接,其中層級結(jié)構(gòu)可以解釋許多網(wǎng)絡(luò)所表現(xiàn)出的右偏態(tài)度分布、高集聚系數(shù)和最短路徑長度性質(zhì).Chungmok等[30]從網(wǎng)絡(luò)度分布的角度,用數(shù)學(xué)規(guī)劃方法預(yù)測了網(wǎng)絡(luò)將來的結(jié)構(gòu),其中,預(yù)測問題被轉(zhuǎn)化為整數(shù)規(guī)劃問題,這樣做的目的是以便最大化鏈路預(yù)測得分總和.Chen等[31]構(gòu)建了一個快速的相似性鏈路預(yù)測算法,并以真實的世界網(wǎng)絡(luò)進行了實證分析,結(jié)果表明新的算法比其他算法速度更快,而且精度更高.總之,學(xué)者們提出了諸多方法去解決鏈路預(yù)測問題,這些方法主要以測量節(jié)點之間相似性為基礎(chǔ).其中目前應(yīng)用最廣泛的測量方法、即相似性預(yù)測算法有結(jié)構(gòu)等價指標(biāo)CN、資源分配指標(biāo)RA、約旦系數(shù)指標(biāo)JC和阿達米克—亞達指標(biāo)AA[32-34].
但是,以上的研究較少涉及到產(chǎn)業(yè)網(wǎng)絡(luò)的鏈路預(yù)測問題,并且隨著時間的演化,產(chǎn)業(yè)網(wǎng)絡(luò)中原有的鏈路可能消失或產(chǎn)生新的鏈路.相似性鏈路預(yù)測算法,雖然可以根據(jù)當(dāng)前的產(chǎn)業(yè)網(wǎng)絡(luò),預(yù)測任意兩個產(chǎn)業(yè)將來發(fā)生鏈接的概率.但是,產(chǎn)業(yè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)隨時間而變化,產(chǎn)生了大量涉及節(jié)點和鏈路的動態(tài)信息,若能在鏈路預(yù)測的算法當(dāng)中體現(xiàn)出這些有用信息,則預(yù)測的精度會有進一步的提高.為了檢驗這個設(shè)想,本文以中國2005年、2007年、2010年和2012年的四個投入產(chǎn)出表為研究對象,首先構(gòu)建四個有權(quán)重的產(chǎn)業(yè)網(wǎng)絡(luò),然后基于權(quán)重網(wǎng)絡(luò)提出一種新的鏈路預(yù)測算法,建立基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測得分算法,識別兩個產(chǎn)業(yè)之間建立鏈接的可能性大小.與相似性預(yù)測算法相比,這種新的算法不僅考慮兩個節(jié)點之間的相似性程度,受到共同鄰居節(jié)點的影響(本文用控制變量α表示),而且考慮在前期網(wǎng)絡(luò)和當(dāng)前網(wǎng)絡(luò)中,鏈路權(quán)重的變化程度(本文用變化率r表示).在考慮了變化程度的基礎(chǔ)上,又進一步考慮了鏈路權(quán)重變化的方向,即權(quán)重的增減情況(本文分別用三個參數(shù)δ,η,θ表示).此外,為了測試本文提出的預(yù)測算法性能優(yōu)劣,又進一步引入了目前應(yīng)用最廣泛的相似性鏈路預(yù)測算法作為對比,結(jié)果顯示本文提出的鏈路預(yù)測模型的預(yù)測精度更高.因此,在預(yù)測產(chǎn)業(yè)網(wǎng)絡(luò)的鏈路時,不僅要考慮當(dāng)前產(chǎn)業(yè)網(wǎng)絡(luò)的鏈路情況,還要充分考慮產(chǎn)業(yè)網(wǎng)絡(luò)中鏈路的動態(tài)變化信息,這樣得出的結(jié)果才會更加準(zhǔn)確可靠.
產(chǎn)業(yè)網(wǎng)絡(luò)具有動態(tài)的演化結(jié)構(gòu),這些結(jié)構(gòu)隨時間的演化而變化,新的節(jié)點不斷產(chǎn)生,新的鏈路不斷形成,以及其上的權(quán)重不斷改變,使得產(chǎn)業(yè)網(wǎng)絡(luò)結(jié)構(gòu)具有動態(tài)性.針對產(chǎn)業(yè)網(wǎng)絡(luò)中鏈路動態(tài)變化的特性,并考慮到兩個節(jié)點鄰居的得分情況,本文提出的預(yù)測算法,在權(quán)重的特定比例上定義預(yù)測得分的增加或減少.
本文旨在研究產(chǎn)業(yè)網(wǎng)絡(luò)中的鏈路預(yù)測方法,因此,首先討論如何構(gòu)建產(chǎn)業(yè)網(wǎng)絡(luò),而投入產(chǎn)出表是構(gòu)建產(chǎn)業(yè)網(wǎng)絡(luò)的基礎(chǔ),且能準(zhǔn)確表達各個產(chǎn)業(yè)部門在生產(chǎn)與分配領(lǐng)域的經(jīng)濟聯(lián)系.本文分析的投入產(chǎn)出表,是以直接消耗系數(shù)為元素所構(gòu)成的矩陣.記A=(aij)n×n為直接消耗系數(shù)矩陣,其中aij,i,j=1,2,...,n為直接消耗系數(shù),且aij∈[0,1].直接消耗系數(shù)反映了產(chǎn)業(yè)部門生產(chǎn)一個單位的總產(chǎn)品所需要消耗其他部門產(chǎn)品的比例,它是一個無量綱的數(shù)值,恒在[0,1]區(qū)間變化,因此不會發(fā)生隨著經(jīng)濟的增長其絕對值隨之增加的情況,并且本文是根據(jù)歷年的投入產(chǎn)出情況,預(yù)測任意兩個產(chǎn)業(yè)部門之間未來的鏈接情況,而直接消耗系數(shù)既可以反映兩個部門之間有無聯(lián)系,又可以反映出聯(lián)系的緊密程度,其比值越接近于1,聯(lián)系越緊密;反之越稀疏.以直接消耗系數(shù)為鏈路,產(chǎn)業(yè)為節(jié)點構(gòu)建的產(chǎn)業(yè)網(wǎng)絡(luò)考慮的是任意兩個產(chǎn)業(yè)部門之間的鏈接情況,與方向無關(guān),因此本文研究無向網(wǎng)絡(luò).同時,考慮到鏈接的重要性,借鑒劉剛等[6]的處理方法,僅將兩鏈接量作均值處理,再將所有產(chǎn)業(yè)對鏈接量的均值設(shè)為閾值,閾值以上的值定為有效鏈接.
1)平均度
網(wǎng)絡(luò)的平均度定義為節(jié)點度數(shù)中心性的平均值,節(jié)點i的度數(shù)中心性表示與其相連邊的個數(shù)ki,其表達式為
其中Γ表示與節(jié)點i直接相連的節(jié)點組成的集合,亦稱為節(jié)點i的鄰居節(jié)點集.eij=1時表示節(jié)點i與j存在連邊,否則eij=0.度數(shù)中心性ki越大,表示產(chǎn)業(yè)部門i在產(chǎn)業(yè)網(wǎng)絡(luò)中與產(chǎn)業(yè)部門的聯(lián)系就越多,在相應(yīng)的投入產(chǎn)出表中作用就越重要,與其它產(chǎn)業(yè)部門進行的物質(zhì)、副產(chǎn)品和能量的交互往來就越多.
2)密度
網(wǎng)絡(luò)的密度ρ反映網(wǎng)絡(luò)節(jié)點間聯(lián)系的緊密程度,表達式定義為
其中L為網(wǎng)絡(luò)中實際存在的有效關(guān)聯(lián)數(shù),N為網(wǎng)絡(luò)中所有產(chǎn)業(yè)部門的個數(shù).ρ越大,表示在相應(yīng)的投入產(chǎn)出表中,產(chǎn)業(yè)部門間的聯(lián)系越緊密.
3)簇系數(shù)
在網(wǎng)絡(luò)中,網(wǎng)絡(luò)的簇系數(shù)是所有節(jié)點簇系數(shù)的均值,而節(jié)點的簇系數(shù)定義為
其中ei表示節(jié)點i的鄰居節(jié)點之間實際存在的邊的個數(shù),ki表示節(jié)點i的度數(shù)中心性.
網(wǎng)絡(luò)的簇系數(shù)表示的內(nèi)涵是,你的朋友圈或熟人圈中的每個人都是相互認(rèn)識的.事實上,因為你的朋友大部分是你的同事、同學(xué)和鄰居,所以他們互相認(rèn)識的概率自然應(yīng)該很大.
4)平均最短距離
平均最短距離d是網(wǎng)絡(luò)的一個重要結(jié)構(gòu)指標(biāo),網(wǎng)絡(luò)中所有節(jié)點之間的平均最短距離定義為
其中N為網(wǎng)絡(luò)中所有節(jié)點的個數(shù),dij為連接節(jié)點i和j最短路徑上的邊的個數(shù).
網(wǎng)絡(luò)中的搜索、路由等相關(guān)算法的高效實現(xiàn)皆與平均最短距離緊密相關(guān).在相應(yīng)的投入產(chǎn)出表中,平均最短距離越小,表示任意兩個產(chǎn)業(yè)部門之間的物質(zhì)、副產(chǎn)品和能量的流動就越便捷.
本文定義產(chǎn)業(yè)網(wǎng)絡(luò)中鏈路動態(tài)變化,為網(wǎng)絡(luò)中任意兩個節(jié)點之間物質(zhì)流從一種狀態(tài)到隨后另一種狀態(tài)的變化情況.觀察歷年的產(chǎn)業(yè)網(wǎng)絡(luò)可以發(fā)現(xiàn),節(jié)點之間的權(quán)重有衰減、保持不變和增加三種情形.由于節(jié)點對(u,v)之間的權(quán)重ω(u,v)往往隨著時間的變化而變化,因此可用ω(u,v,t),t∈[0,∞)表示網(wǎng)絡(luò)中節(jié)點對(u,v)之間的權(quán)重ω(u,v)是時間t的函數(shù).在產(chǎn)業(yè)網(wǎng)絡(luò)中,任意一對節(jié)點之間的權(quán)重增減數(shù)值各不相同,為了便于定義隨后的預(yù)測得分,本文引進變化率r(0<r<1),基于任一t1時刻的產(chǎn)業(yè)網(wǎng)絡(luò)中任意一對節(jié)點(u,v)之間的權(quán)重ω(u,v,t1)(0),定義三個集合E1=[0,(1-r)ω(u,v,t1)),E2=[(1-r)ω(u,v,t1),(1+r)ω(u,v,t1)),E3=[((1+r)ω(u,v,t1),∞),顯然然后,視權(quán)重ω(u,v,t),t>t1與三個集合的隸屬關(guān)系,把權(quán)重的演化情況分別分為衰減、保持不變和增加三種類型.
1)衰減
當(dāng)產(chǎn)業(yè)網(wǎng)絡(luò)從t1時刻的狀態(tài)演化到t時刻的狀態(tài)時,若節(jié)點對(u,v)之間的權(quán)重ω(u,v,t)較權(quán)重ω(u,v,t1)為減少,且ω(u,v,t)∈E1時,定義此時的衰減函數(shù)為
其中δ為負(fù)數(shù),表示權(quán)重在衰減.
由于節(jié)點對之間的權(quán)重從t1時刻的狀態(tài)演化到t時刻的狀態(tài)時,其變化過程中權(quán)重是連續(xù)變化的,因此衰減函數(shù)可用積分表示.
2)保持不變
當(dāng)產(chǎn)業(yè)網(wǎng)絡(luò)從t1時刻的狀態(tài)演化到t時刻的狀態(tài)時,若節(jié)點對(u,v)之間的權(quán)重ω(u,v,t)較權(quán)重ω(u,v,t1)變化不大,即ω(u,v,t)∈E2時,定義此時的不變函數(shù)為
其中η為非負(fù)數(shù),表示權(quán)重的變化細(xì)微,可以忽略不計.
3)增加
當(dāng)產(chǎn)業(yè)網(wǎng)絡(luò)從t1時刻的狀態(tài)演化到t時刻的狀態(tài)時,若節(jié)點對(u,v)之間的權(quán)重ω(u,v,t)較權(quán)重ω(u,v,t1)為增加,且ω(u,v,t)∈E3時,定義此時的增加函數(shù)為
其中θ為非負(fù)數(shù),表示權(quán)重在增加.
由以上的定義可知,參數(shù)θ,δ和η的關(guān)系應(yīng)為θ>η>δ,三者的數(shù)值將在評估預(yù)測算法的性能時確定,選擇預(yù)測精度最高的參數(shù)值.
與相似性預(yù)測算法不同,本文提出的算法不僅考慮兩個節(jié)點之間的相似性程度受共同鄰居節(jié)點的影響,而且考慮前期網(wǎng)絡(luò)和當(dāng)前網(wǎng)絡(luò)中,鏈路權(quán)重的變化程度,在考慮了變化程度的基礎(chǔ)上,又進一步考慮鏈路權(quán)重變化的方向,即權(quán)重的增減情況,來定義節(jié)點對(u,v)在區(qū)間[t1,t2],t2>t1上的預(yù)測得分score(u,v)為
其中P(u,v,t)=D(u,v,t)IE1+C(u,v,t)IE2+I(u,v,t)IE3,S(u,v,t)=+P(y,v,t)],Γ(u)表示節(jié)點u的鄰居節(jié)點的集合,IEi,i=1,2,3是Ei的示性函數(shù).
P(u,v,t)計算了產(chǎn)業(yè)網(wǎng)絡(luò)中節(jié)點對(u,v)從t1時刻的狀態(tài)演化到t時刻的狀態(tài)時的得分.假定節(jié)點y是節(jié)點u,v共同的鄰居節(jié)點,令S(u,v,t)表示分別與節(jié)點u,v相鄰的節(jié)點對(u,y)與(y,v),從t1時刻的狀態(tài)演化到t時刻的狀態(tài)時的所有得分之和.參數(shù)α是控制變量,表示鄰居節(jié)點影響到節(jié)點u和v之間關(guān)系的程度.score(u,v)就是基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測模型的得分計算公式.特別,在ω(u,v,t1)=0的情形下,若ω(u,v,t)=0,則設(shè)P(u,v,t)=0;若ω(u,v,t)?=0,則設(shè)P(u,v,t)=θ.由此構(gòu)建的式(8)包含了兩個節(jié)點間的相似性程度受共同鄰居節(jié)點的影響,節(jié)點間的鏈路權(quán)重變化程度,以及變化的方向等動態(tài)信息,其中利用三個連續(xù)區(qū)間E1、E2和E3,把投入產(chǎn)出表每五年更新一次,這種離散的跳躍,分別歸類到這三個區(qū)間,據(jù)此構(gòu)建連續(xù)變化性模型,來預(yù)測當(dāng)前產(chǎn)業(yè)網(wǎng)絡(luò)的鏈接情況.
2.4節(jié)提出的基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測模型,既考慮了兩個節(jié)點之間的相似性程度受共同鄰居節(jié)點的影響,又考慮了在前期網(wǎng)絡(luò)和當(dāng)前網(wǎng)絡(luò)中,鏈路權(quán)重的變化程度以及變化的方向.那么該模型的算法精度如何,本文將引入相關(guān)指標(biāo)作進一步分析.目前,共有三種衡量鏈路預(yù)測算法精度的指標(biāo),分別為AUC(area under the receiver operation characteristic curve),Precision和Ranking score[35].它們對預(yù)測精度衡量的側(cè)重點不同.由于本文以整個產(chǎn)業(yè)網(wǎng)絡(luò)為研究對象,因此使用AUC指標(biāo)從整體上來衡量算法的精度,并且產(chǎn)業(yè)網(wǎng)絡(luò)是小規(guī)模的網(wǎng)絡(luò),因此本文在計算AUC時,采用逐項遍歷方法,即每次從網(wǎng)絡(luò)中選取一條邊進行測試,余下的邊作為訓(xùn)練集,然后測試這條邊,得到一個相應(yīng)的預(yù)測精度.最后遍歷網(wǎng)絡(luò)中的每條邊,計算平均值,作為整個網(wǎng)絡(luò)的預(yù)測精度.同時,在基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測算法式(8)中,為了得到算法精度最優(yōu)的參數(shù)值,本文將采用正交試驗設(shè)計[36],及其統(tǒng)計方法確定所需的參數(shù),并分析數(shù)值模擬結(jié)果對相關(guān)參數(shù)的敏感性.
本文以中國投入產(chǎn)出表為例,選出2005年、2007年、2010年和2012年的中國投入產(chǎn)出直接消耗系數(shù)表作為研究對象,以直接消耗系數(shù)為鏈路,產(chǎn)業(yè)部門為節(jié)點構(gòu)建產(chǎn)業(yè)網(wǎng)絡(luò).由于本文提出的預(yù)測算法,主要考慮產(chǎn)業(yè)網(wǎng)絡(luò)中鏈路動態(tài)變化的情況,即在產(chǎn)業(yè)網(wǎng)絡(luò)中保持節(jié)點個數(shù)不變,考察隨著時間的演化,網(wǎng)絡(luò)中任意兩個節(jié)點之間鏈路的斷開或鏈接情況,然后據(jù)此預(yù)測下一期的產(chǎn)業(yè)網(wǎng)絡(luò).而在中國歷年的投入產(chǎn)出表中,產(chǎn)業(yè)部門的名稱和數(shù)目(網(wǎng)絡(luò)中的節(jié)點)并不是完全一致.因此,本文采用文獻[37]的處理方法,只對前后不統(tǒng)一的產(chǎn)業(yè)部門,即2005年的旅游業(yè),2007年、2010年、2012年的水利、環(huán)境和公共設(shè)施管理業(yè),對這兩個產(chǎn)業(yè)部門進行合并與整理,而其他的產(chǎn)業(yè)部門不會改動,因此在刪除這兩個產(chǎn)業(yè)部門后,對其余產(chǎn)業(yè)部門之間、產(chǎn)生的新鏈路或消失的鏈路影響甚微.鑒于此,把2005年投入產(chǎn)出表中旅游業(yè)所在的行與列刪除,把2007年、2010年、2012年投入產(chǎn)出表中的水利、環(huán)境和公共設(shè)施管理業(yè)所在的行與列刪除.利用前文構(gòu)建產(chǎn)業(yè)網(wǎng)絡(luò)的方法,得到四個年份的有權(quán)重的、且是無向的產(chǎn)業(yè)網(wǎng)絡(luò),如圖1所示,從左到右,從上到下分別是2005年、2007年、2010年和2012年的產(chǎn)業(yè)網(wǎng)絡(luò).
圖1 四個年份的中國產(chǎn)業(yè)網(wǎng)絡(luò)Fig.1 China’s industrial network in four years
利用式(1)~式(4),對各個年份產(chǎn)業(yè)網(wǎng)絡(luò)的結(jié)構(gòu)指標(biāo)進行分析,得到的結(jié)果如表1所示.
表1 各個年份產(chǎn)業(yè)網(wǎng)絡(luò)的參數(shù)Table 1 Parameters of industrial network in each year
由表1可知,平均度和密度逐年減小,平均最短距離逐年增大,而簇系數(shù)沒有明顯的變化規(guī)律.結(jié)果表明物質(zhì)、副產(chǎn)品和能量的循環(huán)流動可以到達更遠(yuǎn)的產(chǎn)業(yè)部門,資源的利用更加充分,但從數(shù)值上看,這種變化又不太顯著.四個年份的產(chǎn)業(yè)網(wǎng)絡(luò)的平均度、密度、簇系數(shù)和平均最短距離的標(biāo)準(zhǔn)差很小,各項指標(biāo)相似,說明四個產(chǎn)業(yè)網(wǎng)絡(luò)的結(jié)構(gòu)非常接近,因此可以構(gòu)建新的鏈路預(yù)測模型.
由于我國投入產(chǎn)出表每五年編制一次,中間年份再出一次延長表,分別于1997年、2002年、2007年和2012年四個年份出版,而2000年、2005年和2010年的表格是投入產(chǎn)出表的延長表.其中2005年以前的投入產(chǎn)出表距本文所預(yù)測的2015年投入產(chǎn)出關(guān)系已達十多年之久,對于預(yù)測結(jié)果無顯著的影響.因此,本文將用2005年、2007年、2010年和2012年的產(chǎn)業(yè)網(wǎng)絡(luò),去預(yù)測下一年份即2015年產(chǎn)業(yè)網(wǎng)絡(luò)的鏈接情況.這四個年份的結(jié)構(gòu)指標(biāo)在上節(jié)已做了詳細(xì)分析,結(jié)果非常接近.因此,可以利用基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測模型中的式(8),計算2015年產(chǎn)業(yè)網(wǎng)絡(luò)中任意兩個節(jié)點之間的得分,再利用2.1節(jié)中產(chǎn)業(yè)網(wǎng)絡(luò)模型的構(gòu)建方法,得到2015年的產(chǎn)業(yè)網(wǎng)絡(luò).進而,可將2015年產(chǎn)業(yè)網(wǎng)絡(luò)的預(yù)測結(jié)果、與過去幾年的真實數(shù)據(jù)相比較,分析產(chǎn)業(yè)的轉(zhuǎn)型升級、遷移等情況.下面將以產(chǎn)業(yè)網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)中的度數(shù)中心性為例,分析產(chǎn)業(yè)重要性的演化情況.利用式(1),計算預(yù)測得到的2015產(chǎn)業(yè)網(wǎng)絡(luò)中各個產(chǎn)業(yè)的度數(shù)中心性,再與2005年和2010年相比較,結(jié)果如表2所示.
從表2可以看出,批發(fā)和零售業(yè)度數(shù)中心性在2005年的網(wǎng)絡(luò)中居于第九位,2010年網(wǎng)絡(luò)中上升到第二位,最后來到了2015年網(wǎng)絡(luò)中的第一位,重要性可見一斑.事實上,批發(fā)和零售業(yè)是各個產(chǎn)業(yè)部門的產(chǎn)品實現(xiàn)價值的重要媒介,是連接商品生產(chǎn)和消費的主要環(huán)節(jié).除了批發(fā)和零售業(yè)以外,化學(xué)工業(yè)度數(shù)中心性的位置也在提升,由2005年的第七位,到2010年的第四位,最后上升到2015年的第二位,可見其在當(dāng)下產(chǎn)業(yè)網(wǎng)絡(luò)中的重要性.度數(shù)中心性發(fā)生顯著變化的還有金融業(yè),由2005年和2010年的前十位以外進入到2015年的第四位,它在產(chǎn)業(yè)網(wǎng)絡(luò)內(nèi)度數(shù)中心性位置的提升,說明了其是配置社會資源和融通資金作用的源動力,是現(xiàn)在經(jīng)濟生活的命脈和媒介.批發(fā)和零售業(yè)與金融業(yè)屬于第三產(chǎn)業(yè),“十二五”規(guī)劃結(jié)束后,第三產(chǎn)業(yè)的度數(shù)中心性在前十個產(chǎn)業(yè)中占到了六席,產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化調(diào)整的效應(yīng)從預(yù)測得到的產(chǎn)業(yè)網(wǎng)絡(luò)中得到了充分的體現(xiàn).為了得到預(yù)測方法精度,下節(jié)將給出計算預(yù)測算法精度的實驗設(shè)計和敏感性分析.
表2 三個年份度數(shù)中心性排在前十的產(chǎn)業(yè)部門Table 2 Three-year-degree centrality ranked in the top ten of the industry sector
實例數(shù)據(jù)來源于上節(jié)所構(gòu)建的2005年、2007年、2010年和2012年的產(chǎn)業(yè)網(wǎng)絡(luò),依據(jù)預(yù)測精度指標(biāo)AUC,通過正交試驗設(shè)計和對參數(shù)的敏感性分析,給出基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測模型參數(shù)的最優(yōu)設(shè)定值.
1)正交試驗設(shè)計
在基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測算法式(8)中,為了得到算法精度最優(yōu)的參數(shù)值,本文將采用正交試驗設(shè)計及其統(tǒng)計方法確定所需的參數(shù),并分析參數(shù)的敏感性.正交試驗設(shè)計(orthogonal experimental design)是多因素多水平的實驗設(shè)計方法[36],依據(jù)具體問題選擇合適的正交表是使用正交法的關(guān)鍵.在基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測算法中,共有五個參數(shù),依據(jù)各個參數(shù)所表示的不同意義,r、α和θ分別選取兩個水平,δ選取四個水平,η選取五個水平,在此基礎(chǔ)上設(shè)計正交表.然后,依據(jù)正交表進行仿真實驗,并將結(jié)果列表示意.α的兩個水平分別設(shè)為0.05和0.1,先分析α=0.05的情況,再分析α=0.1的情況.當(dāng)α=0.05時,利用網(wǎng)絡(luò)的兩個版本進行研究.一個是基于四個權(quán)重產(chǎn)業(yè)網(wǎng)絡(luò),當(dāng)變化率r設(shè)為25%,另一個變化率r設(shè)為50%.計算不同版本下的AUC值并列表顯示.當(dāng)變化率r設(shè)為25%,且α=0.05,θ=2時,通過MATLAB 7.0編程計算得到AUC值,如表3所示.當(dāng)變化率r設(shè)為25%,且α=0.05,θ=3時,AUC的值,如表4所示.
表3 變化率r設(shè)為25%時AUC的值(α=0.05,θ=2)Table 3 The AUC values underr=25%(α=0.05,θ=2)
表4 變化率r設(shè)為25%時AUC的值(α=0.05,θ=3)Table 4 The AUC values underr=25%(α=0.05,θ=3)
當(dāng)變化率r設(shè)為50%,且α=0.05,θ=2時,AUC的值,如表5所示;當(dāng)變化率r設(shè)為50%,且α=0.05,θ=3時,AUC的值,如表6所示.
從表3~表6可以看出,預(yù)測精度AUC最大是表5中的值0.979 3,相應(yīng)的參數(shù)δ,η,θ取值分別為-0.5,0.5,2,同時r=0.5.當(dāng)α=0.1時,仍然利用產(chǎn)業(yè)網(wǎng)絡(luò)的兩個版本進行研究.一個是基于四個權(quán)重產(chǎn)業(yè)網(wǎng)絡(luò),當(dāng)參數(shù)α變化率r設(shè)為25%,另一個變化率r設(shè)為50%,計算不同版本下的AUC值.計算的方法同α=0.05時的情況,這里就不再贅述.比較分析得到的結(jié)果發(fā)現(xiàn),當(dāng)α,r,δ,η和θ的取值分別為0.05、0.5、-0.5、0.5和2時,預(yù)測精度AUC最大.
表5 變化率r設(shè)為50%時AUC的值(α=0.05,θ=2)Table 5 The AUC values underr=50%(α=0.05,θ=2)
表6 變化率r設(shè)為50%時AUC的值(α=0.05,θ=3)Table 6 The AUC values underr=50%(α=0.05,θ=3)
2)參數(shù)的敏感性分析
由以上分析的結(jié)果可知,當(dāng)分別以r=0.5和r=0.25,α=0.05和α=0.1,對預(yù)測精度AUC進行變化分析時,得到鏈路預(yù)測算法中各個參數(shù)α,r,δ,η和θ的取值分別為0.05、0.5、-0.5、0.5和2時,預(yù)測精度AUC最大.為了研究數(shù)值模擬結(jié)果對這兩個參數(shù)的敏感性,在此做一個敏感性分析,以一定區(qū)間的取值范圍為參考,考慮r和α對預(yù)測精度AUC的變動趨勢.不失一般性,r的取值范圍為[0.1,0.8],間距設(shè)為0.05;α的取值范圍為[0,1.5],間距設(shè)為0.05,計算其對預(yù)測精度AUC的影響,得到趨勢圖2.當(dāng)r在[0.1,0.8]范圍內(nèi)取值時,得到預(yù)測精度AUC的極差為0.058 3,均值為0.960 3和標(biāo)準(zhǔn)差為0.018 6;而當(dāng)α在[0,1.5]范圍內(nèi)取值時,得到預(yù)測精度AUC的極差為0.161 3,均值為0.867 3和標(biāo)準(zhǔn)差為0.052 8.可見,預(yù)測精度對這些參數(shù)的變化不很敏感,但α比r的敏感性要高,說明在計算預(yù)測精度時,優(yōu)先考慮到兩個節(jié)點的關(guān)系受到鄰居節(jié)點的影響程度.
圖2 AUC的變化趨勢Fig.2 The change trend of AUC values
為了測試本文提出的預(yù)測算法性能的優(yōu)劣,進一步引入相似性鏈路預(yù)測算法作為對比.相似性鏈路預(yù)測算法指標(biāo)有兩類,一類是基于無權(quán)網(wǎng)絡(luò)的相似性指標(biāo),如式(9)~式(12)所示;另一類是基于權(quán)重網(wǎng)絡(luò)的指標(biāo),如式(13)~式(16)所示.它們分別為CN指標(biāo)(common neighbors,又稱結(jié)構(gòu)等價指標(biāo))、RA指標(biāo)(resource allocation指標(biāo),資源分配指標(biāo))、JC指標(biāo)(Jaccard’s coefficident指標(biāo),約旦系數(shù)指標(biāo))和AA指標(biāo)(Adamic-Adar指標(biāo),阿達米克-亞達指標(biāo))[32-34].這八個指標(biāo)的具體表示式為
其中Γ(u)和Γ(v)分別表示節(jié)點u和v的鄰居節(jié)點的集合,|Γ(z)|表示節(jié)點z的度,sz表示節(jié)點z的強度.
在文獻[32—34]中,沒有考慮節(jié)點u,v之間的權(quán)重ω(u,v)與時間的關(guān)系,因此式(13)~式(16)中只利用ω(u,v)表示節(jié)點u,v之間的權(quán)重,而本文提出的預(yù)測模型中考慮了節(jié)點u,v之間的權(quán)重ω(u,v,t)與時間相關(guān),并據(jù)此提出了基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測模型.許小可等[38]研究發(fā)現(xiàn),如果任意兩節(jié)點之間的最短距離長度大于等于2時,那么可以使用以上基于共同鄰居算法的八種鏈路預(yù)測算法.由于在2005年、2007年、2010年和2012年的產(chǎn)業(yè)網(wǎng)絡(luò)中,任意兩節(jié)點之間的最短距離長度大于等于2,因此,可以使用相似性鏈路預(yù)測算法作比較.
截至目前,由于2015年包含42部門的投入產(chǎn)出表,尚未對外公布,因此無法分析2015年產(chǎn)業(yè)網(wǎng)絡(luò)的真實情況.因此本文采用鏈路預(yù)測中的常用做法,再結(jié)合本文研究的產(chǎn)業(yè)網(wǎng)絡(luò)的特征,利用2.5節(jié)中所介紹的預(yù)測精度指標(biāo)AUC,去衡量本文算法與相似性鏈路預(yù)測算法哪個更加優(yōu)越.現(xiàn)將相似性鏈路預(yù)測算法的精度AUC,計算得到的結(jié)果,列于表7.
表7 相似性鏈路預(yù)測算法的精度AUCTable 7 The AUC values of prediction accuracy based on similarity link prediction algorithm
其中AUC的最大值為0.840 8,而基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)鏈路預(yù)測算法的精度為0.979 3.與相似性鏈路預(yù)測算法的精度相比較,顯然本文算法的預(yù)測精度最大.因此在預(yù)測產(chǎn)業(yè)網(wǎng)絡(luò)的鏈路時,不僅要考慮產(chǎn)業(yè)網(wǎng)絡(luò)當(dāng)前的鏈接情況,還要充分考慮產(chǎn)業(yè)網(wǎng)絡(luò)的演化情況,這樣得出的結(jié)果才會更加準(zhǔn)確可靠.
當(dāng)考慮了產(chǎn)業(yè)網(wǎng)絡(luò)的鏈路動態(tài)變化因素時,通過對中國2005年、2007年、2010年和2012年產(chǎn)業(yè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)及鏈路權(quán)重變化的分析,提出了一種新的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測算法模型.新的預(yù)測算法不僅考慮了產(chǎn)業(yè)網(wǎng)絡(luò)中鏈路的動態(tài)變化信息,而且考慮到兩個節(jié)點鄰居的得分情況,在權(quán)重的特定比例上定義預(yù)測得分的增加或減少,最后把每個變化過程的得分相加即得產(chǎn)業(yè)網(wǎng)絡(luò)的鏈路預(yù)測得分.實證結(jié)果表明,利用正交實驗設(shè)計方法,只要其中的參數(shù)選取合適,則新的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測算法模型具有理想的預(yù)測精度.并且相比于相似性鏈路預(yù)測算法,本文提出的基于鏈路動態(tài)變化的產(chǎn)業(yè)網(wǎng)絡(luò)預(yù)測模型的預(yù)測精度更加理想.因此鏈路上的動態(tài)變化信息對預(yù)測產(chǎn)業(yè)網(wǎng)絡(luò)具有重要意義.
為使產(chǎn)業(yè)網(wǎng)絡(luò)的預(yù)測更加準(zhǔn)確,研究者們應(yīng)該充分考慮過往信息對產(chǎn)業(yè)網(wǎng)絡(luò)鏈路預(yù)測的重要性.由于數(shù)據(jù)的易得性,本文僅僅考慮了中國產(chǎn)業(yè)網(wǎng)絡(luò)的演化情況.其實,產(chǎn)業(yè)網(wǎng)絡(luò)(產(chǎn)業(yè)共生網(wǎng)絡(luò))形態(tài)各異,既有宏觀上的產(chǎn)業(yè)網(wǎng)絡(luò),又有中觀或微觀上的產(chǎn)業(yè)網(wǎng)絡(luò),深入研究這些網(wǎng)絡(luò)的鏈路預(yù)測很有意義,可以指導(dǎo)產(chǎn)業(yè)的升級或遷移等問題.在將來的工作中,將更加注重這方面的研究.