韓 儀,馮 鑫,周金連,吳 曄,肖井華
(1. 北京郵電大學(xué)理學(xué)院 北京 海淀區(qū) 100876;2. 燕山大學(xué)經(jīng)濟(jì)管理學(xué)院 河北 秦皇島 066004;3. 中山大學(xué)傳播與設(shè)計(jì)學(xué)院 廣州 510275;4. 北京師范大學(xué)計(jì)算傳播學(xué)研究中心 北京 海淀區(qū) 100875)
知識(shí)是在社會(huì)化合作進(jìn)程中的產(chǎn)物之一。在線問答社區(qū)是知識(shí)生成和交流的一種眾包平臺(tái),用戶可以在其中自主互動(dòng)。以在線問答平臺(tái)知乎為例,用戶可以根據(jù)個(gè)人認(rèn)知對(duì)問題進(jìn)行標(biāo)注。通過出現(xiàn)在同一個(gè)問題上的標(biāo)簽之間建立的連接,構(gòu)建出一個(gè)標(biāo)簽的共現(xiàn)網(wǎng)絡(luò)。標(biāo)簽信息具有可使用性,用其作為導(dǎo)航和推薦能有效挖掘出用戶的行為和偏好[1],提高個(gè)性化系統(tǒng)推薦的準(zhǔn)確性[2]。標(biāo)簽網(wǎng)絡(luò)是一種人工知識(shí)網(wǎng)絡(luò)[3],它反映了現(xiàn)實(shí)世界中知識(shí)單元間的復(fù)雜關(guān)系,通過運(yùn)用網(wǎng)絡(luò)分析的方法,找出社會(huì)知識(shí)系統(tǒng)中的一些特征。例如:度比較大的節(jié)點(diǎn)代表知識(shí)元素的核心,標(biāo)簽網(wǎng)絡(luò)中的度分布代表社會(huì)知識(shí)體系中的宏觀主題結(jié)構(gòu)等。此外,通過探索標(biāo)簽網(wǎng)絡(luò)的動(dòng)態(tài)演化機(jī)制,也可以進(jìn)一步發(fā)現(xiàn)知識(shí)網(wǎng)絡(luò)生成和演進(jìn)的規(guī)律。
復(fù)雜網(wǎng)絡(luò)的無標(biāo)度特性,即冪律分布主導(dǎo)著復(fù)雜網(wǎng)絡(luò),而非度分布的特定平均指標(biāo)。以往的研究大多使用抽樣數(shù)據(jù)來驗(yàn)證靜態(tài)標(biāo)簽網(wǎng)絡(luò)的無標(biāo)度特性,證明了高頻標(biāo)簽相對(duì)較少,而低頻標(biāo)簽則相反。文獻(xiàn)[4]從2004 年-2007 年間用戶在Flikr 平臺(tái)發(fā)布的照片中隨機(jī)抽取了5 200 萬張包含了至少一個(gè)標(biāo)簽的照片[2],證明標(biāo)簽頻率分布和每張照片的標(biāo)簽數(shù)量分布都遵循冪律分布。另外一項(xiàng)研究隨機(jī)選擇了20 萬個(gè)問題,發(fā)現(xiàn)大約50%的問題包含3 個(gè)或數(shù)量更多的標(biāo)簽[4]。文獻(xiàn)[5]對(duì)《美國國家科學(xué)院院刊》關(guān)鍵詞的統(tǒng)計(jì)特性和進(jìn)化性質(zhì)進(jìn)行了頻率分布、時(shí)間縮放行為和衰減因子分析等經(jīng)驗(yàn)研究,研究顯示1991-2006 年間所有關(guān)鍵詞出現(xiàn)的頻率近似遵循Zipf 定律,指數(shù)為0.86。文獻(xiàn)[6]從知乎和Quora 社區(qū)隨機(jī)抽取了100 萬個(gè)問題,觀察到問題標(biāo)簽遵循重尾Zipf 分布,其中98%以上的標(biāo)簽(Quora=99.02%,Zhihu=98.43%)出現(xiàn)次數(shù)不超過500 次。同時(shí),許多研究采用復(fù)雜網(wǎng)絡(luò)動(dòng)態(tài)建模的方法研究社會(huì)標(biāo)簽規(guī)模的增長(zhǎng)規(guī)律。其中,文獻(xiàn)[7]在del.icio.us(美味書簽)上研究了用戶對(duì)圖書的標(biāo)注行為,發(fā)現(xiàn)在平臺(tái)的早期,用戶的標(biāo)注行為在一定程度上呈現(xiàn)出隨機(jī)性。然而,隨著時(shí)間的推移,標(biāo)簽規(guī)模的分布服從Zipf 定律,基于用戶標(biāo)注行為相互模仿機(jī)制的模型能很好地解釋標(biāo)簽的分布特征。文獻(xiàn)[8]以del.ico.us 和BibSonomy 作為數(shù)據(jù)源,進(jìn)一步發(fā)現(xiàn)標(biāo)簽增長(zhǎng)符合Heaps 定律。即隨著新標(biāo)簽的增加,系統(tǒng)中不同標(biāo)簽的數(shù)量呈指數(shù)增長(zhǎng)。文獻(xiàn)[9]發(fā)現(xiàn)已有用戶的背景知識(shí)可以解釋標(biāo)簽增長(zhǎng)的Heaps 定律。事實(shí)上,Zipf 定律和Heaps 定律并不獨(dú)立,這兩個(gè)定律經(jīng)常同時(shí)出現(xiàn)。文獻(xiàn)[10]對(duì)Zipf 定律和Heaps 定律之間的關(guān)系進(jìn)行了清晰描述,即Heaps 定律是Zipf 定律的衍生現(xiàn)象。這類研究探索了網(wǎng)絡(luò)動(dòng)態(tài)演化過程,但主要關(guān)注的是標(biāo)簽網(wǎng)絡(luò)的增長(zhǎng)規(guī)律。
綜上所述,現(xiàn)有的標(biāo)簽網(wǎng)絡(luò)研究還存在兩個(gè)不足之處:一是大部分的研究使用了抽樣數(shù)據(jù),而在實(shí)際的社會(huì)系統(tǒng)和網(wǎng)絡(luò)中,社會(huì)標(biāo)簽的分類具有復(fù)雜、隨機(jī)、數(shù)據(jù)量巨大等特點(diǎn),采樣數(shù)據(jù)可能存在樣本代表性的問題;二是靜態(tài)網(wǎng)絡(luò)只能表示數(shù)據(jù)采集時(shí)間節(jié)點(diǎn)時(shí)的網(wǎng)絡(luò)的最終狀態(tài),不能反映標(biāo)簽網(wǎng)絡(luò)的動(dòng)態(tài)演化過程。而文獻(xiàn)[11]提出無標(biāo)度網(wǎng)絡(luò)的冪律特性可以由以下兩種機(jī)制產(chǎn)生:其一為增長(zhǎng),即實(shí)際的網(wǎng)絡(luò)并不是靜態(tài)的、不變的,而是通過不斷地加入新的節(jié)點(diǎn)進(jìn)行增長(zhǎng);其二為優(yōu)先連接,即在添加新節(jié)點(diǎn)時(shí),與舊節(jié)點(diǎn)的連接不是隨機(jī)的,而是一個(gè)存在優(yōu)先選擇的過程;從而提出了Barbési-Albert 模型(BA 模型)?;谶@兩種機(jī)制,BA 模型可以模擬無標(biāo)度網(wǎng)絡(luò)的動(dòng)態(tài)演化,因此被廣泛應(yīng)用于互聯(lián)網(wǎng)、科學(xué)引文網(wǎng)絡(luò)、短信通信網(wǎng)絡(luò)、演員合作網(wǎng)絡(luò)等。自其被提出以來,研究者們陸續(xù)在BA 模型基礎(chǔ)上提出了許多變種模型,主要是通過增加新影響因素來擬合復(fù)雜網(wǎng)絡(luò)的生成結(jié)構(gòu)和統(tǒng)計(jì)特征,其中文獻(xiàn)[12]提出可以調(diào)整優(yōu)先鏈接中節(jié)點(diǎn)被選中的概率來控制網(wǎng)絡(luò)結(jié)構(gòu);文獻(xiàn)[13]則從增加重連功能入手討論網(wǎng)絡(luò)變化;文獻(xiàn)[14]提出可增加節(jié)點(diǎn)老化特性來模擬節(jié)點(diǎn)隨著“年齡”增長(zhǎng)而競(jìng)爭(zhēng)力下降的情形,此外還有學(xué)者增加了復(fù)制特性來描述引文網(wǎng)絡(luò)中多重引用的情形[15]。
上述基于BA 模型的眾多衍生研究都表明,BA網(wǎng)絡(luò)作為一個(gè)基礎(chǔ)普適性模型意義重大且影響深遠(yuǎn),但在描述現(xiàn)實(shí)生活中一些具體網(wǎng)絡(luò)時(shí)卻不能較好地適配,知乎中的知識(shí)標(biāo)簽網(wǎng)絡(luò)就是一個(gè)典型例子,它是一種用戶生成的社會(huì)化知識(shí)標(biāo)簽網(wǎng)絡(luò),統(tǒng)計(jì)分析結(jié)果表明它存在無標(biāo)度特性,且其在動(dòng)態(tài)演化過程中也有增長(zhǎng)和優(yōu)先連接機(jī)制。因此,本文利用BA 模型模擬了標(biāo)簽網(wǎng)絡(luò)的形成過程。然而,基礎(chǔ)BA 模型只反映了復(fù)雜網(wǎng)絡(luò)演化的最基本特征。本文根據(jù)知乎平臺(tái)標(biāo)簽網(wǎng)絡(luò)演化的特點(diǎn)對(duì)模型進(jìn)行了以下改進(jìn):首先,新標(biāo)簽是以用戶提出問題的形式生成的,一個(gè)問題可以由多個(gè)新標(biāo)簽標(biāo)記,即一次可以在網(wǎng)絡(luò)中涉及多個(gè)標(biāo)記節(jié)點(diǎn),其中新標(biāo)記的數(shù)量并不一定是一個(gè)。其次,在生成連邊的過程中,多個(gè)標(biāo)簽之間都會(huì)產(chǎn)生連邊,而不是像傳統(tǒng)的BA模型,只在新節(jié)點(diǎn)和舊節(jié)點(diǎn)之間產(chǎn)生連邊。即知乎上問題的產(chǎn)生將改變網(wǎng)絡(luò)中舊標(biāo)簽的連接狀態(tài)。因此,本文研究主要涉及兩個(gè)方面:首先,以知乎平臺(tái)的數(shù)據(jù)為基礎(chǔ),驗(yàn)證標(biāo)簽數(shù)量的分布特征。然后,通過2011-2018 年共計(jì)9 年間年的數(shù)據(jù),探索標(biāo)簽網(wǎng)絡(luò)的動(dòng)態(tài)演化機(jī)制,由此探究社會(huì)化知識(shí)網(wǎng)絡(luò)的演化規(guī)律。
在知乎平臺(tái)上,每個(gè)問題都可用多個(gè)標(biāo)簽進(jìn)行標(biāo)記。由問題標(biāo)簽數(shù)據(jù)定義的標(biāo)簽網(wǎng)絡(luò)反映了標(biāo)簽間連接關(guān)系,節(jié)點(diǎn)代表標(biāo)簽,節(jié)點(diǎn)間邊代表標(biāo)簽共現(xiàn)關(guān)聯(lián),即兩個(gè)標(biāo)簽同時(shí)標(biāo)記某一問題其間會(huì)有連邊。為了獲得標(biāo)簽網(wǎng)絡(luò)的拓?fù)涮卣骱蜁r(shí)間演化規(guī)律,本文使用了完整的知乎數(shù)據(jù)集,包含問題創(chuàng)建時(shí)間和標(biāo)簽,涵蓋了2011-2018 年的問題。經(jīng)過清洗,一共有來自2 034 404 個(gè)問題的76 379 個(gè)不同標(biāo)簽。圖1 繪制了2011-2018 年問題的累計(jì)數(shù)量和不同標(biāo)簽累計(jì)數(shù)量的曲線,研究了數(shù)據(jù)集的拓?fù)涮卣骱蛣?dòng)態(tài)演化趨勢(shì),找出了數(shù)據(jù)的分布特征和演化特征,為建立合理模型提供統(tǒng)計(jì)支持。對(duì)知乎標(biāo)簽被使用次數(shù)與排名之間關(guān)系進(jìn)行分析,未呈現(xiàn)冪律關(guān)系,故不符合Zif 定律,如圖2 所示。再探索不同標(biāo)簽的數(shù)量與累積標(biāo)簽使用數(shù)間的關(guān)系,基本呈現(xiàn)冪律關(guān)系,符合Heaps 定律如圖3 所示。
圖2 知乎標(biāo)簽被使用次數(shù)與排名的的概率分布密度曲線圖
圖3 知乎不同標(biāo)簽的數(shù)量與累積標(biāo)簽使用數(shù)的概率分布密度曲線圖
度分布是圖理論和網(wǎng)絡(luò)科學(xué)中的一個(gè)重要概念[16],反映了網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)。網(wǎng)絡(luò)度分布p( k)一般定義為網(wǎng)絡(luò)中度為k的節(jié)點(diǎn)占比。在隨機(jī)網(wǎng)絡(luò)中,因其節(jié)點(diǎn)之間隨機(jī)連邊,度分布呈現(xiàn)泊松分布。無標(biāo)度網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)中另一種重要類型,其典型特點(diǎn)是網(wǎng)絡(luò)中大多數(shù)節(jié)點(diǎn)僅有極少邊,而少數(shù)節(jié)點(diǎn)具有大量邊,度分布為冪律分布,許多真實(shí)世界網(wǎng)絡(luò)屬于此類,如互聯(lián)網(wǎng)、金融系統(tǒng)網(wǎng)絡(luò)及社交網(wǎng)絡(luò)等。經(jīng)典的BA 模型用來解釋復(fù)雜網(wǎng)絡(luò)的無標(biāo)度特性。文獻(xiàn)[17]在對(duì)引文網(wǎng)絡(luò)的度分布進(jìn)行研究時(shí)指出PR 的引文網(wǎng)絡(luò)的度分布呈現(xiàn)對(duì)數(shù)正態(tài)分布。而在知乎標(biāo)簽網(wǎng)絡(luò)中出現(xiàn)了度分布從冪律分布到對(duì)數(shù)正態(tài)分布的演化,冪律分布是具有如下形式的概率分布,
盡管冪律分布很常見,但其檢測(cè)和描述仍是一個(gè)復(fù)雜問題,因其分布的尾部通常是波動(dòng)的。常用冪律分布數(shù)據(jù)分析方法,如最小二乘擬合,可能會(huì)產(chǎn)生明顯的估計(jì)參數(shù)不準(zhǔn)確的問題。本文使用python 工具包powerlaw 來解決此問題,它基于文獻(xiàn)[18-19]為了對(duì)復(fù)雜網(wǎng)絡(luò)的度分布進(jìn)行分析和擬合而提出的冪律分布分析方法構(gòu)建。在powerlaw中,可以使用distribution_compare 工具比較不同分布擬合數(shù)據(jù)的效果,返回值代表了不同的候選分布之間的對(duì)數(shù)似然比,如果返回值是整數(shù),代表更加符合第一種分布,負(fù)數(shù)代表更加符合第二種分布。當(dāng)使用這種方法法對(duì)比對(duì)數(shù)正態(tài)分布和stretched exponential 的擬合效果時(shí),返回值是7.435 918 718 516 159 5,代表對(duì)數(shù)正態(tài)分布的擬合效果更好。構(gòu)建一個(gè)全體數(shù)據(jù)的標(biāo)簽網(wǎng)絡(luò)如圖4所示。藍(lán)色星形標(biāo)記代表度分布數(shù)據(jù),不同顏色實(shí)線代表多種擬合方法結(jié)果,標(biāo)簽網(wǎng)絡(luò)的度分布(藍(lán)色星形曲線)明顯偏離了冪律分布而更加接近對(duì)數(shù)正態(tài)分布[20]。
圖4 2011-2018 年數(shù)據(jù)構(gòu)建的標(biāo)簽網(wǎng)絡(luò)的度分布和擬合結(jié)果圖
為了探究此現(xiàn)象成因,將數(shù)據(jù)按照時(shí)間以年為單位切片獲得8 個(gè)子網(wǎng)絡(luò),計(jì)算其網(wǎng)絡(luò)參數(shù),可得子網(wǎng)切片的度分布特征。比較不同切片間度分布的差別,觀察標(biāo)簽網(wǎng)絡(luò)演化和發(fā)展的動(dòng)態(tài)過程,為后續(xù)分析標(biāo)簽網(wǎng)絡(luò)的度分布與冪律分布的偏差提供線索。
對(duì)2011-2018 年各年標(biāo)簽網(wǎng)絡(luò)度分布進(jìn)行分析和擬合,如圖5 所示,黑色點(diǎn)代表度分布數(shù)據(jù),黑色實(shí)線代表冪律分布擬合結(jié)果,紅色實(shí)線代表對(duì)數(shù)正態(tài)分布擬合結(jié)果,前5 年更接近冪律分布,后3 年逐漸偏離更接近對(duì)數(shù)正態(tài)分布。綜上,在用真實(shí)知乎數(shù)據(jù)構(gòu)建的標(biāo)簽網(wǎng)絡(luò)中,總體網(wǎng)絡(luò)的度分布服從對(duì)數(shù)正態(tài)分布,對(duì)子網(wǎng)而言網(wǎng)絡(luò)度分布從冪律分布到對(duì)數(shù)正態(tài)分布的演變趨勢(shì)。
圖5 2011-2018 年年度標(biāo)簽網(wǎng)絡(luò)的度分布與擬合結(jié)果圖
用冪律分布對(duì)8 個(gè)年份的子網(wǎng)進(jìn)行擬合,可以觀察到冪律分布的指數(shù)變化,如圖6a 所示。可以發(fā)現(xiàn)知乎標(biāo)簽網(wǎng)絡(luò)的度分布的冪指數(shù)明顯小于BA模型所給出的冪指數(shù)3,同時(shí)可以發(fā)現(xiàn)每年的指數(shù)總體呈下降趨勢(shì),在powerlaw 工具中,當(dāng)使用冪律分布對(duì)結(jié)果進(jìn)行擬合時(shí),會(huì)同時(shí)給出冪律分布的擬合指數(shù)及標(biāo)準(zhǔn)差sigma,當(dāng)對(duì)8 年的度分布數(shù)據(jù)使用冪律分布擬合時(shí),標(biāo)準(zhǔn)差結(jié)果如表1 所示。
圖6 2011-2018 年8 個(gè)子網(wǎng)絡(luò)的冪律分布的指數(shù)和全局集聚系數(shù)的變化圖
表1 2011-2018 年冪律分布擬合指數(shù)的標(biāo)準(zhǔn)差
這說明度值極大的節(jié)點(diǎn)的占比逐漸增加,知乎標(biāo)簽網(wǎng)絡(luò)中度分布的異化情況逐漸減弱,度值的分布相較以往逐漸呈現(xiàn)一定的平均化趨勢(shì)。
網(wǎng)絡(luò)中,節(jié)點(diǎn)i 和j 的相互通信能力取決于其最短路徑,所有節(jié)點(diǎn)之間最短路徑的最大值定義為網(wǎng)絡(luò)直徑,在一定程度上反映網(wǎng)絡(luò)連通性。由計(jì)算得2011-2018 年的8 個(gè)子標(biāo)簽網(wǎng)絡(luò)直徑,如表2 所示知乎標(biāo)簽網(wǎng)絡(luò)中標(biāo)簽間距離相對(duì)較近,盡管隨網(wǎng)絡(luò)規(guī)模逐年擴(kuò)增,其直徑依舊基本穩(wěn)定在8 左右,說明標(biāo)簽間距離并未隨網(wǎng)絡(luò)規(guī)模增加而顯著增加,也從側(cè)面說明了網(wǎng)絡(luò)節(jié)點(diǎn)間連邊較為密集。
表2 2011-2018 年的8 個(gè)子標(biāo)簽網(wǎng)絡(luò)直徑
表2 給出的每年的網(wǎng)絡(luò)直徑,對(duì)每年計(jì)算了一個(gè)最短路徑等于直徑的通路,結(jié)果表3 所示。2016年開始,因?yàn)榫W(wǎng)絡(luò)規(guī)模極度增大,計(jì)算兩兩節(jié)點(diǎn)對(duì)之間的路徑算法復(fù)雜度很高,計(jì)算一個(gè)實(shí)例需要數(shù)十天,因此只計(jì)算了2011-2015 年的實(shí)例。
表3 tag 鏈條示例表
集聚系數(shù)常用來描述節(jié)點(diǎn)間聚集程度[21],也可以用于描述節(jié)點(diǎn)與鄰居的互連程度,可分為全局集聚系數(shù)和局部集聚系數(shù)兩種,前者可評(píng)價(jià)全網(wǎng)聚集程度,后者可度量每個(gè)節(jié)點(diǎn)局部聚集程度,如圖6b所示,集聚系數(shù)較大代表了網(wǎng)絡(luò)中節(jié)點(diǎn)較為密集,其下降代表明隨時(shí)間推移和網(wǎng)絡(luò)規(guī)模漸增,網(wǎng)絡(luò)逐漸變得稀疏。知乎標(biāo)簽網(wǎng)絡(luò)全局聚集系數(shù)呈逐年穩(wěn)步下降趨勢(shì)。
BA 模型基于增長(zhǎng)過程和優(yōu)先連接機(jī)制兩個(gè)假設(shè),其構(gòu)建過程為1)增長(zhǎng):從一個(gè)初始網(wǎng)絡(luò)G 開始,一次增加一個(gè)新節(jié)點(diǎn);2)連接:每個(gè)新節(jié)點(diǎn)都會(huì)連接到 m個(gè) 舊節(jié)點(diǎn)上;3)優(yōu)先連接: m個(gè)舊節(jié)點(diǎn)的選擇標(biāo)準(zhǔn)是度大優(yōu)先,即一個(gè)已有節(jié)點(diǎn)i的度是di,則新節(jié)點(diǎn)選擇它的概率是:
BA 模型給出了無標(biāo)度網(wǎng)絡(luò)生成機(jī)制簡(jiǎn)潔且合理的解釋,已被成功應(yīng)用于許多種實(shí)際網(wǎng)絡(luò),但卻只能生成度分布冪指數(shù)為3 的網(wǎng)絡(luò),故對(duì)知乎標(biāo)簽網(wǎng)絡(luò)而言并不適用。這是因?yàn)槎呱蓹C(jī)制不相符,且BA 模型難以解釋知乎標(biāo)簽網(wǎng)絡(luò)度分布指數(shù)取值以及從冪律分布到對(duì)數(shù)正態(tài)分布的演化。觀察知乎標(biāo)簽網(wǎng)絡(luò)生成過程及參數(shù)分布發(fā)現(xiàn):1)每個(gè)問題都被一組標(biāo)簽標(biāo)記;2)在一組標(biāo)簽中,新節(jié)點(diǎn)數(shù)量并不總是1;3)標(biāo)記了同一個(gè)問題的一組標(biāo)簽之間會(huì)產(chǎn)生連邊。
因此,基于BA 模型結(jié)合知乎標(biāo)簽網(wǎng)絡(luò)特點(diǎn),本文提出了知乎標(biāo)簽網(wǎng)絡(luò)生成模型。相比前者,新模型主要做出了以下調(diào)整:1)批量增長(zhǎng)(batch growing):網(wǎng)絡(luò)生成過程依賴新節(jié)點(diǎn)加入,但每次并非單一新節(jié)點(diǎn)加入而是有一組節(jié)點(diǎn)參與連接,總數(shù)為 m,其中新節(jié)點(diǎn)占比為p,故調(diào)整后新節(jié)點(diǎn)增量為mp,舊節(jié)點(diǎn)數(shù)量是m(1-p)。2)交叉連接(cross linking):所有 m個(gè)節(jié)點(diǎn)之間均可能產(chǎn)生連接,即新節(jié)點(diǎn)和新節(jié)點(diǎn)間、新節(jié)點(diǎn)和舊節(jié)點(diǎn)間、舊節(jié)點(diǎn)和舊節(jié)點(diǎn)間均可能產(chǎn)生連接,已有節(jié)點(diǎn)間連接關(guān)系可能發(fā)生改變。對(duì)比BA 模型新生邊必在新和舊節(jié)點(diǎn)間,即邊增長(zhǎng)只發(fā)生于新和舊節(jié)點(diǎn)間。3)優(yōu)先連接:舊節(jié)點(diǎn)的選擇準(zhǔn)則依舊和BA 模型保持一致,度越大的舊節(jié)點(diǎn)具有越高優(yōu)先度。基于上述改進(jìn),將新模型命名為“標(biāo)簽網(wǎng)絡(luò)優(yōu)先連接模型”。對(duì)比知乎標(biāo)簽網(wǎng)絡(luò)生成過程,從定性角度看,不難發(fā)現(xiàn)標(biāo)簽網(wǎng)絡(luò)有限連接模型與標(biāo)簽批量標(biāo)記和節(jié)點(diǎn)批量新增的機(jī)制更加吻合,也更能貼近真實(shí)地反映知乎標(biāo)簽網(wǎng)絡(luò)的生成過程。
如前所述,BA 模型生成的無標(biāo)度網(wǎng)絡(luò)與知乎標(biāo)簽網(wǎng)絡(luò)的度分布有所差異:1)冪指數(shù)不同,前者恒定為3,后者明顯小于3 且出現(xiàn)了減小趨勢(shì);2)度分布的分布類型發(fā)生了變化,后者在后期逐漸呈現(xiàn)了偏離冪律分布的對(duì)數(shù)正態(tài)分布。故為保證標(biāo)簽網(wǎng)絡(luò)有限連接模式的有效性,它必須能生成度分布滿足冪律分布且冪指數(shù)可以發(fā)生變化的無標(biāo)度網(wǎng)絡(luò),也必須能生成度分布符合對(duì)數(shù)正態(tài)分布的復(fù)雜網(wǎng)絡(luò)。
為了驗(yàn)證模型有效性,通過仿真來研究模型的特點(diǎn)。對(duì)于新模型,如果固定 m和p,可以生成一個(gè)符合冪律分布的網(wǎng)絡(luò),如圖7,使用不同的p 值產(chǎn)生的網(wǎng)絡(luò)的度分布和使用冪律分布擬合的結(jié)果。藍(lán)色圓形數(shù)據(jù)點(diǎn)代表度分布數(shù)據(jù),橙色實(shí)線代表使用冪律分布擬合的結(jié)果。而且冪律分布的指數(shù)可以通過p 進(jìn)行調(diào)整,如圖8a 所示。此外,如果在網(wǎng)絡(luò)生成過程中,新節(jié)點(diǎn)的比例p 逐漸減小,可以得到一個(gè)符合對(duì)數(shù)正態(tài)分布的網(wǎng)絡(luò),如圖8b 所示。這兩個(gè)仿真結(jié)果表明,本文提出的模型確實(shí)可以滿足知乎標(biāo)簽網(wǎng)絡(luò)的度分布特點(diǎn)。圖8a 為圖7 中冪律分布的指數(shù)的變化,圖8b 通過在仿真過程中逐漸減小p 值得到的網(wǎng)絡(luò)的度分布以及使用對(duì)數(shù)正態(tài)分布擬合的結(jié)果,其中的藍(lán)色圓形數(shù)據(jù)點(diǎn)代表度分布數(shù)據(jù),橙色實(shí)線代表使用對(duì)數(shù)正態(tài)分布擬合的結(jié)果。
圖7 度分布數(shù)據(jù)和使用冪律分布擬合
圖8 對(duì)數(shù)正態(tài)分布的網(wǎng)絡(luò)圖
為了進(jìn)一步驗(yàn)證提出的新生成模型適用于知乎標(biāo)簽網(wǎng)絡(luò),需要新模型能夠根據(jù)知乎標(biāo)簽網(wǎng)絡(luò)的參數(shù),生成仿真的復(fù)雜網(wǎng)絡(luò)。如果仿真的復(fù)雜網(wǎng)絡(luò)的度分布與知乎標(biāo)簽網(wǎng)絡(luò)的度分布一致,說明本文提出的模型符合知乎標(biāo)簽網(wǎng)絡(luò)的特點(diǎn),是有效的。
因此,本文使用從真實(shí)數(shù)據(jù)中提取的 m和 p 值進(jìn)行仿真,對(duì)比真實(shí)網(wǎng)絡(luò)的度分布和仿真網(wǎng)絡(luò)的度分布,結(jié)果如圖9,可以發(fā)現(xiàn)仿真網(wǎng)絡(luò)的度分布與真實(shí)網(wǎng)絡(luò)的度分布吻合較好。
圖9 度分布數(shù)據(jù)圖
使用從真實(shí)網(wǎng)絡(luò)中提取的p 值和 m值,對(duì)比通過仿真生成的網(wǎng)絡(luò)的度分布和真實(shí)網(wǎng)絡(luò)的度分布如圖9a~圖9h,圖中的紅色數(shù)據(jù)點(diǎn)代表真實(shí)網(wǎng)絡(luò)的度分布數(shù)據(jù),黑色數(shù)據(jù)點(diǎn)代表仿真網(wǎng)絡(luò)的度分布數(shù)據(jù)。知乎標(biāo)簽網(wǎng)絡(luò)的度分布從冪律分布逐漸向?qū)?shù)正態(tài)分布進(jìn)行演化,在此過程中冪律分布的冪指數(shù)也逐步下降。度分布呈現(xiàn)冪律分布代表了網(wǎng)絡(luò)的度分布呈現(xiàn)一種異化的分布類型,即大多數(shù)節(jié)點(diǎn)的度都很小,而極少量的節(jié)點(diǎn)具有很大的值。冪指數(shù)越大,度值較大的節(jié)點(diǎn)的占比越小,度分布的異化越明顯。知乎標(biāo)簽網(wǎng)絡(luò)的冪指數(shù)的下降以及從冪律分布到對(duì)數(shù)正態(tài)分布的演化都表明,知乎標(biāo)簽網(wǎng)絡(luò)的度分布在晚期相較早期有一定的均勻化趨勢(shì),度分布的異化程度逐漸降低。從知識(shí)演化的角度來看,這種變化也在一定程度上反映了社會(huì)群體對(duì)于知識(shí)點(diǎn)的關(guān)注從早期的集中化開始逐漸呈現(xiàn)了一定的平均化,也反映了隨著時(shí)間的發(fā)展社會(huì)群體的興趣逐漸呈現(xiàn)一定的多樣化趨勢(shì)。
通過圖中真實(shí)網(wǎng)絡(luò)的度分布與仿真網(wǎng)絡(luò)的度分布的對(duì)比,也可以看出根據(jù)模型仿真得到的結(jié)果十分貼近真實(shí)結(jié)果,說明了模型中提出的全連接和可變化的新節(jié)點(diǎn)比例的假設(shè)是有效的。綜上所述,該模型從定性和定量的角度都更加接近真實(shí)數(shù)據(jù),可以解釋知乎標(biāo)簽網(wǎng)絡(luò)的度分布以及演化規(guī)律。
本文基于2011-2018 年知乎2 034 404 條問答記錄的實(shí)證數(shù)據(jù),深入分析了其標(biāo)簽網(wǎng)絡(luò)生成特點(diǎn)和統(tǒng)計(jì)規(guī)律,總結(jié)出了知乎標(biāo)簽網(wǎng)絡(luò)“批量增長(zhǎng)”和“交叉連接”特性,并對(duì)經(jīng)典BA 模型假設(shè)進(jìn)行了符合上述特點(diǎn)的修改適配,提出了一種新的標(biāo)簽網(wǎng)絡(luò)優(yōu)先連接模型,能夠有效地解釋知乎標(biāo)簽網(wǎng)絡(luò)的度分布規(guī)律和動(dòng)態(tài)生成機(jī)制。
通過仿真模型和實(shí)證數(shù)據(jù)對(duì)比發(fā)現(xiàn),知乎標(biāo)簽網(wǎng)絡(luò)度分布從早期冪律分布逐漸趨于對(duì)數(shù)正態(tài)分布,因此經(jīng)典BA 模型難以解釋此演化過程,且其度分布冪指數(shù)也明顯小于恒為3 的BA 模型冪指數(shù),但本文提出的標(biāo)簽網(wǎng)絡(luò)優(yōu)先連接模型卻能很好地描述知乎標(biāo)簽網(wǎng)絡(luò)的動(dòng)態(tài)生成過程。該模型可以充分利用現(xiàn)有網(wǎng)絡(luò)節(jié)點(diǎn)和新舊節(jié)點(diǎn)間相互關(guān)系,實(shí)現(xiàn)批量交叉連接,能夠很好地?cái)M合知乎標(biāo)簽網(wǎng)絡(luò)的靜態(tài)結(jié)構(gòu)參數(shù)及動(dòng)態(tài)演化機(jī)制,這也表明其生成機(jī)制確實(shí)受到“批量增長(zhǎng)”及“交叉連接”這兩個(gè)特性的控制,且其知識(shí)標(biāo)簽的連接確實(shí)是不同類型節(jié)點(diǎn)間交叉組合連接兩兩互相連接,而非只有新舊節(jié)點(diǎn)間簡(jiǎn)單隨機(jī)連接。該模型揭示了標(biāo)簽網(wǎng)絡(luò)生成機(jī)制,還原了標(biāo)簽網(wǎng)絡(luò)生成過程,實(shí)現(xiàn)了調(diào)節(jié)參數(shù)來生成其演化過程中不同冪指數(shù)的冪律分布以及對(duì)數(shù)正態(tài)分布,它也適用于其他多種生成過程與標(biāo)簽網(wǎng)絡(luò)類似的共現(xiàn)網(wǎng)絡(luò),如:引文網(wǎng)絡(luò)和科學(xué)家合作網(wǎng)絡(luò)[22]等。
知乎標(biāo)簽網(wǎng)絡(luò)作為一種知識(shí)網(wǎng)絡(luò),它可以代表社會(huì)群體對(duì)于知識(shí)的關(guān)注,知乎標(biāo)簽網(wǎng)絡(luò)的度分布冪指數(shù)的減小以及從冪律分布到對(duì)數(shù)正態(tài)分布的演化在一定程度上可以代表人們對(duì)于知識(shí)的關(guān)注點(diǎn)從原本的集中化逐漸變得分散和多樣化。同時(shí)較小的網(wǎng)絡(luò)直徑和相對(duì)較大的集聚系數(shù)也代表著不同知識(shí)點(diǎn)和學(xué)科之間聯(lián)系比較緊密,在一定程度上體現(xiàn)了現(xiàn)在的學(xué)科融合和知識(shí)跨界的現(xiàn)象。對(duì)于這類知識(shí)網(wǎng)絡(luò)的研究可以幫助我們理解知識(shí)網(wǎng)絡(luò)的形成,為進(jìn)一步研究社會(huì)知識(shí)的生成,知識(shí)結(jié)構(gòu)的構(gòu)成、演化與變遷[23],社會(huì)關(guān)注點(diǎn)的變化,乃至輿情監(jiān)控[24]奠定基礎(chǔ)。