馬振 賈保先
摘 要:選擇合適的相似性測度推斷共引網(wǎng)絡(luò),對于提升網(wǎng)絡(luò)的關(guān)聯(lián)性和真實性具有重要意義。然而,樣本量的大小對相似性測度選擇的影響尚未可知?;跇颖玖看笮〉拿舾行?,分別使用兩個常用的相似性測度Phi相關(guān)系數(shù)(簡稱Phi)和Ochiai系數(shù)(簡稱Och)推斷共引網(wǎng)絡(luò),通過網(wǎng)絡(luò)節(jié)點屬性和拓撲結(jié)構(gòu)對推斷的網(wǎng)絡(luò)質(zhì)量進行評價。結(jié)果顯示:與Phi相比,Och推斷的共引網(wǎng)絡(luò)對樣本量具有強魯棒性。隨著樣本量的變化,Och推斷的共引網(wǎng)絡(luò)一直都遵循小世界特性,而Phi則不符合此特性。研究結(jié)論可以推廣到其他遵循小世界特性的事務(wù)推斷網(wǎng)絡(luò)。同時,研究可以充實網(wǎng)絡(luò)技術(shù)研究領(lǐng)域的基礎(chǔ)理論。
關(guān)鍵詞:相似性測度;樣本量;共引網(wǎng)絡(luò);Ochiai系數(shù);Phi相關(guān)系數(shù)
中圖分類號:TP393.0 文獻標志碼:A
0 引言(Introduction)
共引網(wǎng)絡(luò)的節(jié)點交互是通過兩個文獻節(jié)點之間的共引關(guān)系推理得出的[1]。共引關(guān)系中的兩個節(jié)點可視為二元變量,計算共引關(guān)系實質(zhì)就是計算兩篇文獻節(jié)點之間的共引關(guān)聯(lián)性[2]。在共引網(wǎng)絡(luò)中,由于網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點屬性取決于節(jié)點間定義的連接索引,每一對節(jié)點之間的相似度是通過事務(wù)中的節(jié)點本身或共有鄰節(jié)點的度數(shù)進行相似性計算得到的,因此選擇合適的相似性測度是創(chuàng)建可靠、健壯的共引網(wǎng)絡(luò)的必要條件[3]。相似性測度通常選擇Phi相關(guān)系數(shù)(簡稱Phi)和Ochiai系數(shù)(簡稱Och)。Phi反映了兩個變量之間的線性關(guān)系,對值為零的節(jié)點非常敏感,會導致節(jié)點之間的低重疊;而Och對值為零的節(jié)點具有強免疫性[4-6]。
盡管學者對Phi和Och已經(jīng)有了充分研究與討論[7-8],然而前人的研究未考慮樣本量的大小對相似性測度選擇的影響。隨著樣本量的變化,節(jié)點本身及其相互間的關(guān)聯(lián)性都會發(fā)生變化,連接的邊也可能會受到事務(wù)數(shù)變化的影響。因此,有必要研究確定哪種相似性測度不受樣本量變化的影響。針對上述問題,本文選擇兩種常用的相似性測度,針對樣本量的敏感性,比較哪種相似性測度構(gòu)建的網(wǎng)絡(luò)具有強魯棒性,這對于提升共引網(wǎng)絡(luò)的質(zhì)量具有重要意義。
1 相關(guān)概念(Relevant concepts)
1.1 計算公式
通過定義連接節(jié)點的邊構(gòu)成網(wǎng)絡(luò)。共引網(wǎng)絡(luò)是要創(chuàng)建一個無向加權(quán)網(wǎng)絡(luò),定義包含相關(guān)節(jié)點的事務(wù),這些事務(wù)用于解釋兩個節(jié)點之間是否存在連接。由N 個事務(wù)發(fā)展而來的網(wǎng)絡(luò)G 用G=(D,E)表示,其中D 是一組d 節(jié)點,E 是一組e 邊,E?D×D。對稱的d×d 矩陣AG =(aij)(ij )∈D×D 稱為G 的鄰接矩陣。如果(i,j)∈E 是G 的邊,則aij>0;如果(i,j)?E,則aij=0;如果i=j,則aij=0。由于要比較Phi和Och推斷的共引網(wǎng)絡(luò),因此基于這兩個相似性測度定義了邊aij。在Phi網(wǎng)絡(luò)中,aij 表示PHIij,使用公式(1)計算得到:
由于很難找到Och的統(tǒng)計學定義,因此有學者利用相關(guān)系數(shù)檢驗顯著性的方法確定Och的閾值,具體步驟如下[8]。
Step1:對于每對節(jié)點,計算總體數(shù)據(jù)集(最大樣本量)的Ci、Cj、Cij、PHIij、t值和Ochij。
Step2:求節(jié)點對數(shù)q,t>2.58(即連接在α=0.01時顯著相關(guān))和Cij > ΣCij/p,其中p 是Cij >0的對數(shù)。
Step3:在給定的Cij > ΣCij/p 中,求出對數(shù)等于q 的Och閾值Sc。
Step4:使用Sc 作為閾值,在不同的樣本量中查找邊的數(shù)量。
由 于Step3中計算Sc 的對數(shù)等于Phi的最大對數(shù),因此該方法使用Phi和Och從最大樣本量中推斷的網(wǎng)絡(luò)邊數(shù)相同。
1.2 節(jié)點屬性和拓撲結(jié)構(gòu)
評價不同相似性測度推斷的網(wǎng)絡(luò)質(zhì)量可以從局部屬性和全局屬性兩個方面考慮,局部屬性主要根據(jù)的節(jié)點度量指標衡量每個節(jié)點,全局屬性根據(jù)拓撲結(jié)構(gòu)從整體上評價網(wǎng)絡(luò)質(zhì)量[9]。網(wǎng)絡(luò)節(jié)點的度量指標主要包括度中心性、加權(quán)度、中介中心性等。表1中列出了節(jié)點的度量指標定義。
聚類系數(shù)反映了網(wǎng)絡(luò)的連接緊密程度,是衡量網(wǎng)絡(luò)拓撲結(jié)構(gòu)普遍且重要的指標[12-14]。復雜網(wǎng)絡(luò)的拓撲結(jié)構(gòu)有很多種,通常比較常見的有隨機網(wǎng)絡(luò)、無標度網(wǎng)絡(luò)和小世界網(wǎng)絡(luò),拓撲結(jié)構(gòu)通常有隨機、無標度和小世界。如果一組節(jié)點之間的連接是以一定的概率隨機連接的,則稱為隨機網(wǎng)絡(luò),隨機網(wǎng)絡(luò)中節(jié)點的度中心性服從二項分布。當網(wǎng)絡(luò)中少數(shù)節(jié)點起主導作用時,稱為無標度網(wǎng)絡(luò),無標度網(wǎng)絡(luò)中節(jié)點的度服從冪律分布。當網(wǎng)絡(luò)中有多個節(jié)點簇使得節(jié)點之間的距離變小時,稱之為小世界網(wǎng)絡(luò),小世界網(wǎng)絡(luò)的度可以服從任意分布,其聚類性能高于隨機網(wǎng)絡(luò)和無標度網(wǎng)絡(luò)。通常使用特征路徑長度和聚類系數(shù)衡量小世界網(wǎng)絡(luò)。
2 數(shù)據(jù)采樣(Data sampling)
選取Web of Sicence數(shù)據(jù)庫中截至2022年12月31日的數(shù)據(jù)源。為了盡可能地確保研究結(jié)果的準確性,同時考慮到工作量,選擇Scientometrics 期刊,下載10個數(shù)量不同的論文題錄數(shù)據(jù)為樣本,涵蓋了從小到大10個不同數(shù)量的數(shù)據(jù)樣本。評估數(shù)據(jù)的質(zhì)量,清理數(shù)據(jù)(去除社論、校正、會議論文、書評、信函、提前發(fā)表論文等),然后分別使用Phi和Och推斷出20個共引網(wǎng)絡(luò)。
樣本包括(1)2008年發(fā)表的128篇論文;(2)2013年發(fā)表的255篇論文;(3)2020年發(fā)表的439篇論文;(4)2021—2022年發(fā)表的746篇論文;(5)2020—2022年發(fā)表的1 185篇論文;(6)2019—2022年發(fā)表的1 485篇論文;(7)2018—2022年發(fā)表的1 858篇論文;(8)2017—2022年發(fā)表的2 230篇論文;(9)2013—2022年發(fā)表的3 520篇論文;(10)2008—2022年發(fā)表的4 535篇論文。
創(chuàng)建20個共引網(wǎng)絡(luò),其中使用p<0.01的Phi推斷了10個共引網(wǎng)絡(luò),使用閾值為0.04的Och推斷了10個共引網(wǎng)絡(luò)。例如,使用樣本(8),Phi推斷的共引網(wǎng)絡(luò)有1 957條邊顯著相關(guān),Och推斷的共引網(wǎng)絡(luò)有3 894條邊顯著相關(guān)。
3 實證分析(Empirical analysis)
3.1 不同樣本量對網(wǎng)絡(luò)節(jié)點的影響
如圖1所示,隨著樣本量的增加,Phi推斷的網(wǎng)絡(luò)中相關(guān)邊數(shù)顯著增加。例如,樣本量為1 485時,Phi推斷的網(wǎng)絡(luò)包含1 265條邊;樣本量為746時,Phi推斷的網(wǎng)絡(luò)包含562條邊;樣本量減半時,Phi推斷的網(wǎng)絡(luò)邊數(shù)也接近減半。在Och推斷的網(wǎng)絡(luò)中,樣本量大于1 185時,Och推斷的網(wǎng)絡(luò)邊數(shù)變化比較緩慢;樣本量小于1 185時,Och推斷的網(wǎng)絡(luò)邊數(shù)變化較明顯。
網(wǎng)絡(luò)密度如圖2所示,Och推斷的網(wǎng)絡(luò)密度在所有樣本中基本保持不變;相反,在Phi推斷的網(wǎng)絡(luò)密度發(fā)生了較大的變化。這說明樣本量的變化對Och創(chuàng)建的共引網(wǎng)絡(luò)的網(wǎng)絡(luò)密度影響較小。
從圖3—圖8中可以觀察到,樣本量大小對共引網(wǎng)絡(luò)的其他網(wǎng)絡(luò)度量指標的影響。在Phi推斷的網(wǎng)絡(luò)中,平均度中心性、平均加權(quán)度中心性、平均中介中心性、平均緊密中心性、平均聚類系數(shù)及平均特征向量中心性都隨著樣本量的增加而增加。在Och推斷的網(wǎng)絡(luò)中,平均度中心性、平均加權(quán)度中心性、平均緊密中心性、平均聚類系數(shù)及平均特征向量中心性基本保持不變,直到樣本量減少到128時,指標才有所波動;此外,Och推斷的網(wǎng)絡(luò)的平均中介中心性是所有網(wǎng)絡(luò)度量中最不一致的,在樣本量減少到1 185時,平均中介中心性發(fā)生了明顯的變化??梢姡跇颖玖枯^小的情況下,平均中介中心性并不是一個有效的度量指標。
3.2 不同樣本量對網(wǎng)絡(luò)拓撲結(jié)構(gòu)的影響
當網(wǎng)絡(luò)中特征路徑長度很短且存在多個節(jié)點簇時,網(wǎng)絡(luò)具有小世界特性。特征路徑長度和聚類系數(shù)是小世界網(wǎng)絡(luò)的度量指標。節(jié)點i 和節(jié)點j 之間的距離dij 定義為連接這兩個節(jié)點的最短路徑上邊的數(shù)目。網(wǎng)絡(luò)的特征路徑長度P 就是任意兩個節(jié)點之間距離的平均值,計算公式如下:
對于具有小世界特性的網(wǎng)絡(luò),需要滿足條件n ?k ?ln n?1,確保網(wǎng)絡(luò)不會分割成多個子網(wǎng)絡(luò)。此外,必須滿足兩個條件:首先,網(wǎng)絡(luò)的特征路徑長度(共引網(wǎng)絡(luò)的特征路徑長度用Pcom 表示)與相同節(jié)點數(shù)n 和平均度k 的特征路徑長度(隨機網(wǎng)絡(luò)特征路徑長度用Prand 表示)大致相同;其次,網(wǎng)絡(luò)的聚類系數(shù)(共引網(wǎng)絡(luò)聚類系數(shù)用Ccom 表示)應(yīng)大于等價隨機網(wǎng)絡(luò)的聚類系數(shù)(等價隨機網(wǎng)絡(luò)聚類系數(shù)用Crand 表示)。
為了判斷網(wǎng)絡(luò)的小世界特性,本文將研究重點放在每個網(wǎng)絡(luò)的最大連通部分上,連通部分包含直接或間接連接的最大連接節(jié)點數(shù)。例如,樣本(8)創(chuàng)建的Phi網(wǎng)絡(luò)的最大連接組件包含473個節(jié)點,該最大連接組件的平均度為25,即n=473和k=25,Prand 和Crand 可分別通過公式(6)和公式(7)計算得到:Prand~1.91,Crand~0.053,Pcom 為2.452(大于Prand),Ccom 為0.641 4(大于Crand)。此外,滿足n?k?ln n?1(473?25?6.16?1)。因此,遵循小世界特性。
Prand~ln n/ln k (6)
Crand~k/n (7)
如圖9所示,隨著樣本量的增加,Phi推斷的網(wǎng)絡(luò)中最大連接集的節(jié)點數(shù)也隨之增加。然而,Och推斷的網(wǎng)絡(luò)中最大連接集的節(jié)點數(shù)量基本沒有變化,直到樣本量減少到255時才急劇減少。
關(guān)于網(wǎng)絡(luò)特征路徑長度的變化,如圖10和圖11所示,隨著樣本量的減小,Och推斷的網(wǎng)絡(luò)中的Prand 和Pcom 幾乎保持不變,但是Phi推斷的網(wǎng)絡(luò)顯示出一些不一致性。在Phi推斷的網(wǎng)絡(luò)中,Prand 隨著樣本量的增加逐漸增加,Pcom 在樣本量增加到439之前先增加,之后隨著樣本量的增加而減少。
在圖12和圖13中可以看到,聚類系數(shù)的變化也有類似趨勢:在Och推斷的網(wǎng)絡(luò)中,Crand 和Ccom 基本保持不變,而在Phi推斷的網(wǎng)絡(luò)中,Crand 隨樣本量的增加逐漸減少且變化差異較大,Ccom 隨樣本量的變化有輕微的隨機變化。
在Phi推斷的網(wǎng)絡(luò)中,樣本量為4 535時,滿足小世界特性。但是,隨著樣本量的減少,k 和ln n 之間的差異變小,這違反了小世界特性的條件要求,形成多個不連通的子網(wǎng)絡(luò)。此外,在Och推斷的網(wǎng)絡(luò)中,小世界特性始終存在??傮w而言,Och保留了網(wǎng)絡(luò)的整體拓撲結(jié)構(gòu),樣本量較小時也遵循小世界特性,而Phi則不符合這一特性。
4 結(jié)論(Conclusion)
本文分析了共引網(wǎng)絡(luò)中樣本量對相似性測度選擇的影響,分別使用兩個常用的相似性測度Phi相關(guān)系數(shù)和Ochiai系數(shù)推斷共引網(wǎng)絡(luò),通過網(wǎng)絡(luò)節(jié)點屬性和拓撲結(jié)構(gòu)對推斷的網(wǎng)絡(luò)質(zhì)量進行評價。結(jié)果表明:如果目標是尋找高度相關(guān)的節(jié)點,可以使用Phi;在樣本量較小的情況下,建議使用Och。本文研究可以豐富網(wǎng)絡(luò)技術(shù)研究領(lǐng)域的基礎(chǔ)理論,提升推斷關(guān)系網(wǎng)絡(luò)的關(guān)聯(lián)性和真實性。此外,研究結(jié)論可以推廣到神經(jīng)網(wǎng)絡(luò)、語言網(wǎng)絡(luò)、文本網(wǎng)絡(luò)等其他遵循小世界特性的通過事務(wù)推斷得出的網(wǎng)絡(luò)。
參考文獻(References)
[1] 邱均平. 文獻計量學[M]. 北京:科學出版社,2019:252-255.
[2] GUILFORD J P. Psychometric methods[M]. New York:McGraw-Hill Book Company,1936:13-22.
[3] 楊利軍,張良友. 期刊共被引相似性測度問題的實證研究[J].圖書情報工作,2010,54(18):139-144.
[4] 曾守楨,駱丹丹. 基于類Pearson綜合相關(guān)系數(shù)的概率語言TOPSIS多屬性決策方法[J]. 系統(tǒng)科學與數(shù)學,2021,41(1):126-143.
[5] 高繼平,丁堃,劉宇,等. 知識基礎(chǔ)與前沿載文間的知識流動分析:以信息領(lǐng)域中的Gerard Salton為例[J]. 情報雜志,2009,28(10):98-102.
[6] 康耀紅,CHANG K W. 關(guān)于Salton擴展布爾情報檢索模型的一個注記[J]. 情報學報,2002(2):164-166.
[7] CHARTIER J F,MONGEAU P,SAINT-CHARLES J.Predicting semantic preferences in a socio-semantic systemwith collaborative filtering:a case study[J]. InternationalJournal of Information Management,2020,51:102020.
[8] EGGHE L,LEYDESDORFF L. The relation between Pearson'scorrelation coefficient r and Salton's cosine measure[J].Journal of the American Society for Information Scienceand Technology,2009,60(5):1027-1036.
[9] 孫睿,羅萬伯. 網(wǎng)絡(luò)輿論中節(jié)點重要性評估方法綜述[J].計算機應(yīng)用研究,2012,29(10):3606-3608,3628.
[10] 胡思文,李兵,何鵬,等. 一種基于h指數(shù)的軟件網(wǎng)絡(luò)中重要類的度量方法[J]. 小型微型計算機系統(tǒng),2017,38(2):249-253.
[11] 劉向. 知識網(wǎng)絡(luò)的形成與演化[M]. 武漢:武漢大學出版社,2014:32-33.
[12] HERNáNDEZ SERRANO D,SáNCHEZ GóMEZ D.Centrality measures in simplicial complexes:applicationsof topological data analysis to network science[J]. AppliedMathematics and Computation,2020,382:125331.
[13] 馬夢珂,倪靜. 基于度值和聚類系數(shù)的跨單元調(diào)度問題優(yōu)化[J]. 計算機應(yīng)用研究,2021,38(9):2651-2656.
[14] 楊博,劉大有,金弟,等. 復雜網(wǎng)絡(luò)聚類方法[J]. 軟件學報,2009,20(1):54-66.
作者簡介:
馬 振(1984-),男,碩士,講師。研究領(lǐng)域:知識網(wǎng)絡(luò),數(shù)據(jù)挖掘。
賈保先(1982-),男,博士,副教授。研究領(lǐng)域:人工智能,大數(shù)據(jù)。