趙鳳花,楊 波
(1.武漢理工大學(xué) 圖書館,湖北 武漢430070;2.武漢理工大學(xué) 自動化學(xué)院,湖北 武漢430070)
從20 世紀(jì)末開始,復(fù)雜網(wǎng)絡(luò)研究滲透到了數(shù)理學(xué)科、生命學(xué)科、工程學(xué)科、情報學(xué)科、軍事和工業(yè)應(yīng)用等眾多不同領(lǐng)域。對復(fù)雜網(wǎng)絡(luò)特性的科學(xué)理解,已經(jīng)成為網(wǎng)絡(luò)時代科學(xué)研究中的一個極為重要的課題。
對文獻(xiàn)相關(guān)信息構(gòu)成的復(fù)雜網(wǎng)絡(luò)的研究很早就有報道。早在1965 年,PRICE 指出引文復(fù)雜網(wǎng)絡(luò)的入度和出度都服從冪律分布[1]。1998 年,RENDNER 指出學(xué)者發(fā)表論文的被引用次數(shù)服從冪律分布[2]。NEWMAN 等在研究復(fù)雜網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)劃分算法時,提出用GN 算法研究科研合作網(wǎng)絡(luò)[3]。文獻(xiàn)[4 -5]采用社會網(wǎng)絡(luò)分析方法對論文作者合作關(guān)系進(jìn)行了研究。2004 年,NEWMAN 又分別對生物、物理、數(shù)學(xué)3 個領(lǐng)域的科研合作網(wǎng)絡(luò)進(jìn)行了研究[6],希望用這種方法研究有關(guān)科研合作模式的一系列問題。KAJIKAWA 等用FN 算法對引文網(wǎng)絡(luò)進(jìn)行聚類分析[7],研究能源領(lǐng)域的整體框架,追蹤可再生能源領(lǐng)域的新興技術(shù)。ZHU 等應(yīng)用介數(shù)指標(biāo)來探討關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò)所揭示的學(xué)科領(lǐng)域的研究熱點(diǎn)問題[8]。
上述研究主要集中在科研合作者網(wǎng)絡(luò)或者關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的基本特性及特征指標(biāo)上,未對這些網(wǎng)絡(luò)節(jié)點(diǎn)的重要性進(jìn)行深入研究。為此,通過復(fù)雜網(wǎng)絡(luò)的特性指標(biāo),探討關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中重要節(jié)點(diǎn)的判斷方法,并與詞頻統(tǒng)計方法進(jìn)行比較,探討其中異同。
常用的描述復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)特性指標(biāo)有度、介數(shù)和接近中心性等,但是根據(jù)單一的指標(biāo)評估節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度有很大的片面性。如度強(qiáng)調(diào)節(jié)點(diǎn)與鄰居節(jié)點(diǎn)連邊的數(shù)量,但是具有相同度的節(jié)點(diǎn),在網(wǎng)絡(luò)中的重要程度并不一定相同;介數(shù)基于最短路徑定義,但在很多網(wǎng)絡(luò)中,信息并非總是沿著最短路徑流動;節(jié)點(diǎn)接近中心性依賴于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)等。上述特性指標(biāo)分別從不同的方面評估節(jié)點(diǎn)在復(fù)雜網(wǎng)絡(luò)中的重要程度,均存在片面性。筆者提出了一種多屬性決策綜合評價方法,利用度中心性、介數(shù)中心性和接近中心性指標(biāo)進(jìn)行綜合計算,并與詞頻統(tǒng)計及單指標(biāo)方法進(jìn)行了對比分析。
復(fù)雜網(wǎng)絡(luò)以圖論理論為基礎(chǔ),一個具體網(wǎng)絡(luò)可以抽象為一個由點(diǎn)集合V和邊集E組成的圖G=(V,E)。節(jié)點(diǎn)數(shù)記為N= |V|,邊數(shù)記為M= |E|。E中每條邊都有V中一對點(diǎn)與之相對應(yīng)。如果任意點(diǎn)對(i,j)與(j,i)對應(yīng)同一條邊,則該網(wǎng)絡(luò)稱為無向網(wǎng)絡(luò),否則稱為有向網(wǎng)絡(luò)。
定義1 度中心性。復(fù)雜網(wǎng)絡(luò)的度是單獨(dú)節(jié)點(diǎn)屬性中簡單而又重要的概念。節(jié)點(diǎn)i的度ki定義為與該節(jié)點(diǎn)連接的其他節(jié)點(diǎn)的數(shù)目。度的中心性定義為節(jié)點(diǎn)i的度與該節(jié)點(diǎn)可能存在的最大邊數(shù)的比率。度中心性可由式(1)計算:
式中,N為復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的數(shù)量。度的中心性表示復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的局域連通性,數(shù)值越大,表示該節(jié)點(diǎn)在網(wǎng)絡(luò)中越重要。
定義2 介數(shù)中心性。節(jié)點(diǎn)i的介數(shù)定義為網(wǎng)絡(luò)中節(jié)點(diǎn)對j與k之間最短路徑經(jīng)過節(jié)點(diǎn)i的條數(shù)占所有最短路徑數(shù)的比例。若gjk(i)表示節(jié)點(diǎn)對j與k之間經(jīng)過節(jié)點(diǎn)i的條數(shù),njk表示節(jié)點(diǎn)對j與k之間存在的所有最短路徑的條數(shù),則介數(shù)中心性可表示為:
式中,N為節(jié)點(diǎn)數(shù)量,將介數(shù)歸一化,確保介數(shù)中心性的值bc(i)∈[0,1 ],介數(shù)中心性的值越大,表示該節(jié)點(diǎn)在網(wǎng)絡(luò)中的影響力越大。
定義3 接近中心性。節(jié)點(diǎn)i的接近中心性定義為其到網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)距離之和的倒數(shù)。實(shí)際情況中,關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò)并不都是完全連通的網(wǎng)絡(luò),很多文獻(xiàn)選取完全連通的子網(wǎng)絡(luò)進(jìn)行研究,間接地舍去了很多節(jié)點(diǎn),造成數(shù)據(jù)的不完整。因此將接近中心性用式(3)表示,同樣適合不連通復(fù)雜網(wǎng)絡(luò)的情形,其表達(dá)式為:
式中:N為節(jié)點(diǎn)數(shù)量;dij表示以節(jié)點(diǎn)i為起點(diǎn),以j為終點(diǎn)的最短路徑中所含邊的數(shù)量。節(jié)點(diǎn)的中心性越大,表示節(jié)點(diǎn)越居于復(fù)雜網(wǎng)絡(luò)的中心位置。
上述所定義的幾個指標(biāo)是評價網(wǎng)絡(luò)節(jié)點(diǎn)重要性的常用指標(biāo),采用不同指標(biāo)對同一網(wǎng)絡(luò)進(jìn)行分析時,盡管結(jié)果有所不同,但也不是完全獨(dú)立的,它們之間會有關(guān)聯(lián)性。為此,綜合這幾個評價指標(biāo),建立一個關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò)的多屬性評價指標(biāo)體系,用于探討某一學(xué)科領(lǐng)域的研究熱點(diǎn)問題。
假設(shè)復(fù)雜網(wǎng)絡(luò)中有N個節(jié)點(diǎn),用集合P={P1,P2,…,PN}表示,每個節(jié)點(diǎn)特性指標(biāo)有M個,用集合Q={Q1,Q2,…,QM}來表示,則第i個節(jié)點(diǎn)的第j個指標(biāo)可用Pi(Qj)(i=1,2,…,N,j=1,2,…,M)來表示,則節(jié)點(diǎn)的多屬性(指標(biāo))矩陣可表示為:
節(jié)點(diǎn)重要性指標(biāo)較多,且指標(biāo)量綱有所不同,為了便于比較、計算,將矩陣X進(jìn)行歸一化處理。因所選指標(biāo)(度中心性、介數(shù)中心性、接近中心性)均為效益型指標(biāo)(即值越大表示該節(jié)點(diǎn)越重要),因此對矩陣X可按式(5)作歸一化處理:
其中:Pi(Qj)max=max{Pi(Qj)|i=1,2,…,N};Pi(Qj)min=min{Pi(Qj)|i=1,2,…,N}。歸一化的矩陣可記為R=(rij)N×M。
通常根據(jù)一致性經(jīng)驗(yàn)為節(jié)點(diǎn)重要性多屬性評價模型的各個指標(biāo)賦予權(quán)重,對此無經(jīng)驗(yàn)可依時,多采用平均法加權(quán)規(guī)范化矩陣,即:
采用理想方案對每個節(jié)點(diǎn)的重要性進(jìn)行評估,計算公式如下:
其中,與可通過歐式范數(shù)計算得到:
經(jīng)過上述處理,將節(jié)點(diǎn)重要性進(jìn)行數(shù)值化與歸一化。因此Ki值越大,表示節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度越高。
以SCIE 收錄的某校材料學(xué)科領(lǐng)域相關(guān)文獻(xiàn)為研究對象,將2011 年收錄的110 篇文獻(xiàn)的關(guān)鍵詞進(jìn)行處理,合并同位詞、上位詞、下位詞,舍棄一些無意義的關(guān)鍵詞,共整理出關(guān)鍵詞309 個。將關(guān)鍵詞作為網(wǎng)絡(luò)的節(jié)點(diǎn),在同一篇文獻(xiàn)中出現(xiàn)的關(guān)鍵詞用邊連接,構(gòu)建關(guān)鍵詞同現(xiàn)復(fù)雜網(wǎng)絡(luò)。
將整理后的每個關(guān)鍵詞看作一個節(jié)點(diǎn),進(jìn)行編號,其出現(xiàn)的頻次構(gòu)成列向量,并進(jìn)行歸一化處理,使其值處于[0,1]之間。將每個關(guān)鍵詞對應(yīng)的列向量的值定義為該關(guān)鍵詞的詞頻中心性。
(1)選取Matlab 作為計算工具,計算關(guān)鍵詞詞頻中心性的列向量。
(2)根據(jù)式(1)~式(3)分別計算度中心性、介數(shù)中心性和接近中心性,并按式(5)進(jìn)行歸一化處理。
(3)按照式(4)~式(7)對節(jié)點(diǎn)的特性指標(biāo)的度中心性、介數(shù)中心性、接近中心性進(jìn)行加權(quán)計算,得到節(jié)點(diǎn)重要性的綜合性評價指標(biāo)Ki。
繪制介數(shù)中心性、接近中心性、詞頻中心性、度中心性及復(fù)雜網(wǎng)絡(luò)的綜合性評價指標(biāo)Ki的分布圖,如圖1 ~圖5 所示。
圖1 節(jié)點(diǎn)介數(shù)中心性指標(biāo)分布圖
圖2 節(jié)點(diǎn)接近中心性指標(biāo)分布圖
圖3 節(jié)點(diǎn)度中心性指標(biāo)分布圖
圖4 節(jié)點(diǎn)詞頻中心性指標(biāo)分布圖
圖5 節(jié)點(diǎn)綜合性評價指標(biāo)分布圖
由圖1 ~圖5 可以看出,這些指標(biāo)分布圖的分布存在較大相關(guān)性,然而細(xì)節(jié)復(fù)雜微妙。為了能夠深入分析細(xì)微區(qū)別,將每個指標(biāo)確定的前5%的節(jié)點(diǎn)列出,進(jìn)行對比分析,如表1 所示。
表1 不同方法獲取的重要關(guān)鍵詞前5%編號
由于是對文獻(xiàn)群關(guān)鍵詞重要性進(jìn)行探討,因此表1 僅給出關(guān)鍵詞序列的序號,比較幾種方法的異同。詞頻統(tǒng)計方法主要關(guān)注關(guān)鍵詞出現(xiàn)的頻次,關(guān)鍵詞同現(xiàn)復(fù)雜網(wǎng)絡(luò)中的各個指標(biāo)更在乎各節(jié)點(diǎn)之間的關(guān)系。其中介數(shù)中心性和接近中心性都通過最短路徑來定義,表1 中兩種方法獲取的前15 個關(guān)鍵詞有5 個相同,由此也驗(yàn)證了兩個指標(biāo)的相關(guān)性。
通過詞頻統(tǒng)計獲得的15 個重要關(guān)鍵詞與介數(shù)中心性法有6 個相同,與接近中心性法有4 個相同,與度中心性法僅有1 個相同。由此可以看出,介數(shù)中心性和接近中心性與詞頻密切相關(guān),而度中心性更加強(qiáng)調(diào)節(jié)點(diǎn)之間的關(guān)系。
關(guān)鍵詞同現(xiàn)復(fù)雜網(wǎng)絡(luò)多屬性決策的節(jié)點(diǎn)重要性綜合評價方法,將度中心性、接近中心性、介數(shù)中心性綜合考慮,通過調(diào)整修正各指標(biāo)權(quán)重,得到最優(yōu)結(jié)果。
采用節(jié)點(diǎn)多特性指標(biāo)綜合評價方法來評估關(guān)鍵詞同現(xiàn)復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)重要性,打破了傳統(tǒng)的單一指標(biāo)的局限性和片面性的束縛,并與詞頻統(tǒng)計及單指標(biāo)方法進(jìn)行比較分析,探討其相互關(guān)系。該方法簡單、有效,可以用于揭示某一團(tuán)體、某一時間段的研究熱點(diǎn)問題及趨勢。
[1] PRICE D J S. Networks of scientific papers[J]. Science,1965,3683(149):510 -515.
[2] RENDNER. A general theory of bibliometric and other cumulative advantage processes[J]. Journal of the American Society for Information Science,1998,27(5 -6):292 -306.
[3] NEWMAN M E J,GIRVAN M.Finding and evaluating community structure in networks[J]. Physical Review E,2004,69(2):1 -15.
[4] OTTE E,ROUSSEAU R. Social network analysis:a powerful strategy,also for the information sciences[J].Journal of Information Science,2002,28 (6):441-453.
[5] KRETSCHMER H. Author productivity and geodesic distance in bibliographic co-authorship networks,and visibility on the Web[J]. Scientometrics,2004,60(3):409 -420.
[6] NEWMAN M E J.Co-authorship networks and patterns of scientific collaboration[J]. Proceedings of the National Academy of Sciences of the United States of America,2004(101):5200 -5205.
[7] KAJIKAWA Y,YOSHIKAWA J,TAKEDA Y,et al.Tracking emerging technologies in energy research:toward a roadmap for sustainable energy[J]. Technological Forecasting and Social Change,2008,75(6):771-782.
[8] ZHU D H,WANG D B,HASSAN S U. Small -world phenomenon of keywords network based on complex network[J].Scientometrics,2013(97):435 -442.