段慶鋒,陳紅,閆緒嫻,劉東霞
(山西財經(jīng)大學管理科學與工程學院,太原 030006)
學科新興主題是科技競爭的關(guān)注焦點,對國家、企業(yè)及研發(fā)人員獲取科技優(yōu)勢至關(guān)重要[1]。然而,相比于其他一般主題,新興主題涌現(xiàn)時間短、數(shù)量稀少,從快速增長的海量文獻中快速、準確地發(fā)現(xiàn)具有科技決策價值的新興主題并非易事[2-3]。這種挑戰(zhàn)性主要源于學科知識的復雜動態(tài)性,跨學科知識交叉融合,知識更迭日益加速,均增加了把握學科趨勢規(guī)律難度。由此,學科新興主題發(fā)現(xiàn)的根本在于深刻認知知識演化規(guī)律,尤其是通過知識之間的關(guān)聯(lián)模式揭示主題涌現(xiàn)的關(guān)鍵特征。
學科主題分析通??梢越⒃谀撤N網(wǎng)絡(luò)形式之上[4]。共詞分析是常見的知識網(wǎng)絡(luò)工具,將涌現(xiàn)的關(guān)鍵詞聚類視為新興主題[5],這些關(guān)鍵詞集合通過共現(xiàn)關(guān)系形成緊密聯(lián)系結(jié)構(gòu),并指向相同的主題范疇[6]。共詞網(wǎng)絡(luò)背景下,主題探測建立在連接模式上,新穎獨特的知識嵌入成為學科新興主題的發(fā)現(xiàn)邏輯。另外,建立在引用關(guān)系之上的多種類型網(wǎng)絡(luò)(常見有共引網(wǎng)絡(luò)、耦合網(wǎng)絡(luò)、引用網(wǎng)絡(luò))也被用于新興主題探測[7],具有相同主題內(nèi)容的學術(shù)文獻通過連接關(guān)系形成聚集結(jié)構(gòu),文獻間引用關(guān)系模式成為主題發(fā)現(xiàn)的關(guān)鍵依據(jù)[8-9]。由此可見,不論何種形式的主題建模,網(wǎng)絡(luò)拓撲都是揭示學科格局不可缺少的工具,而知識結(jié)構(gòu)層面的動態(tài)變化更是識別新興主題的關(guān)鍵。
然而,從復雜多變的知識結(jié)構(gòu)演化中發(fā)現(xiàn)新興主題并非易事。挑戰(zhàn)性很大程度上源于準確捕捉拓撲動態(tài):一是龐大的知識網(wǎng)絡(luò)規(guī)模帶來的計算成本,二是拓撲動態(tài)比較的困難。知識網(wǎng)絡(luò)演化不但是要素節(jié)點的增減,更是網(wǎng)絡(luò)關(guān)系的變化,兩者共同影響形成復雜的網(wǎng)絡(luò)演化與結(jié)構(gòu)動態(tài)。主題分析需要考慮大范圍的知識嵌入特征,新興主題更強調(diào)動態(tài)變化[10],結(jié)構(gòu)動態(tài)成為亟須有效揭示的關(guān)鍵環(huán)節(jié)。
反映網(wǎng)絡(luò)拓撲的方法及模型在新興主題研究領(lǐng)域得到了廣泛應(yīng)用。面對網(wǎng)絡(luò)結(jié)構(gòu),社會網(wǎng)絡(luò)分析與復雜網(wǎng)絡(luò)理論方法被引入科技情報分析[11-12]。多種基于結(jié)構(gòu)嵌入的特征指標被用于探索新興主題,如反映微觀嵌入的度中心性、反映中觀結(jié)構(gòu)的社區(qū)特征、反映宏觀特征的網(wǎng)絡(luò)密度[13]。這些面向網(wǎng)絡(luò)的指標或模型能夠揭示主題格局分布,但基本是靜態(tài)反映,對于網(wǎng)絡(luò)拓撲的動態(tài)刻畫不足。動態(tài)成長性是新興主題區(qū)別于其他類型主題的最重要特征[14],只有通過知識拓撲動態(tài)才能從根本上捕捉主題涌現(xiàn)。值得注意的是,近年來,鏈路預測被用于新興主題趨勢分析,通過對知識關(guān)系的預測反映主題動態(tài)趨勢[15-16]。這種面向未來的刻畫能力具有較大應(yīng)用潛力,但眾多指標差異較大,面臨指標選取及場景優(yōu)化問題。另外,以LDA(latent Dirichlet allocation)為代表的統(tǒng)計模型在主題分析中取得了良好效果[17],尤其是考慮時間的動態(tài)模型能夠刻畫主題知識的分布演化過程[18],但是文本表示的“詞袋”模型忽視了主題之間的關(guān)聯(lián)性,無法揭示主題知識結(jié)構(gòu)特征。上述定量指標及方法在一定程度上揭示了主題涌現(xiàn)過程的某些側(cè)面,但面對大規(guī)模的學科知識網(wǎng)絡(luò)演化的復雜動態(tài)性,仍存在諸多局限性,尤其是在拓撲動態(tài)比較方面對人工經(jīng)驗及觀察判斷的依賴程度依然較高,能夠有效反映知識網(wǎng)絡(luò)拓撲動態(tài)特征的研究不夠充分。
本文旨在通過知識結(jié)構(gòu)突變的探討,形成具有知識結(jié)構(gòu)動態(tài)感知能力的學科新興主題識別方案。針對主題涌現(xiàn)過程的結(jié)構(gòu)特征,構(gòu)建基于知識網(wǎng)絡(luò)拓撲的主題結(jié)構(gòu)突變率指標與主題影響力增長指標,基于此,形成學科新興主題的二維識別框架,并通過綜合性識別方案,發(fā)現(xiàn)具有戰(zhàn)略價值的學科新興主題。
主題是凝練與抽象的特定內(nèi)容,可以表現(xiàn)為知識要素的某種組合或分布[19],且這些要素存在廣泛關(guān)聯(lián),并形成知識網(wǎng)絡(luò)[20]。主題知識網(wǎng)絡(luò)不斷動態(tài)演化,如知識元素的生滅重組、關(guān)系模式的重構(gòu)以及知識群落的融合分裂[21],動態(tài)變化之中蘊藏了影響學科未來的新興主題。新興主題的價值在于巨大的潛在影響力,如理論突破可以引發(fā)科學范式的顛覆,重大科學發(fā)現(xiàn)能夠引發(fā)技術(shù)革命進而推動人類社會的進步??茖W范式的變化在知識層面更大程度地體現(xiàn)為結(jié)構(gòu)突變,不僅涉及元素與關(guān)系的數(shù)量增減,更是知識結(jié)構(gòu)的重組重構(gòu)[22]。因此,知識結(jié)構(gòu)突變成為嵌入視角下新興主題的重要特征,更成為刻畫新興主題的有效手段?;诖?,可以將發(fā)生結(jié)構(gòu)突變或新穎結(jié)構(gòu)涌現(xiàn)的知識網(wǎng)絡(luò)界定為學科新興主題,其拓撲結(jié)構(gòu)的改變不但程度劇烈,而且時間短促,即知識結(jié)構(gòu)突變越迅猛,越可能預示著高影響力、高價值新興主題的涌現(xiàn)。
結(jié)構(gòu)觀視角下,知識結(jié)構(gòu)突變成為新興主題識別過程中的關(guān)鍵環(huán)節(jié),需要對結(jié)構(gòu)突變性開展有效度量。網(wǎng)絡(luò)結(jié)構(gòu)是學科探測與知識發(fā)現(xiàn)領(lǐng)域關(guān)注的內(nèi)容,如節(jié)點中心性、最短路徑、社區(qū)探測等[23],已有大量文獻說明網(wǎng)絡(luò)分析指標及算法在結(jié)構(gòu)揭示方面的有效性。然而,這些常用指標及方法大多基于靜態(tài)分析,并不善于揭示網(wǎng)絡(luò)結(jié)構(gòu)在多大程度上發(fā)生了改變,或者缺乏對拓撲差異性給出有效度量。網(wǎng)絡(luò)拓撲的動態(tài)比較是較為困難的任務(wù),制約了知識結(jié)構(gòu)突變的探測與新興主題的發(fā)現(xiàn)能力。
圖同構(gòu)(graph isomorphism)是判斷兩個圖(網(wǎng)絡(luò))是否具有相同拓撲結(jié)構(gòu)的研究領(lǐng)域[24],是可以揭示主題知識網(wǎng)絡(luò)拓撲動態(tài)的有效方法。主題知識網(wǎng)絡(luò)在不同時期的同構(gòu)性越低,則結(jié)構(gòu)變化的程度越大,即結(jié)構(gòu)突變的可能性越大;反之,亦然。借助圖同構(gòu)分析,可以有效刻畫知識網(wǎng)絡(luò)的結(jié)構(gòu)突變性。雖然已有大量文獻采用網(wǎng)絡(luò)嵌入指標及模型對知識網(wǎng)絡(luò)演化開展研究,但鮮有針對知識網(wǎng)絡(luò)動態(tài)場景開展的圖同構(gòu)分析及應(yīng)用解決方案[25]。據(jù)此,非常有必要采用圖同構(gòu)方法,通過知識網(wǎng)絡(luò)的同構(gòu)性分析刻畫結(jié)構(gòu)突變,進而捕捉新興主題涌現(xiàn)的結(jié)構(gòu)特征,以推動對新興主題的探測能力。
具體地,從知識網(wǎng)絡(luò)的微觀和宏觀兩個層面分析新興主題的結(jié)構(gòu)特征,如圖1所示。以關(guān)鍵詞為節(jié)點、共現(xiàn)關(guān)系為邊構(gòu)建的共詞網(wǎng)絡(luò)能夠反映知識分布模式[26]。主題詞i的知識網(wǎng)絡(luò)嵌入體現(xiàn)在兩個層面:一是由焦點主題詞i和其鄰居節(jié)點(與焦點主題存在共現(xiàn)關(guān)系的主題詞)共同構(gòu)成的個體知識網(wǎng)(Egoi),反映了主題i的局部嵌入;二是包含所有主題詞的整體知識網(wǎng)(Net),反映了主題的全局嵌入。個體知識網(wǎng)和整體知識網(wǎng)體現(xiàn)不同層級結(jié)構(gòu),前者針對某個主題個體,通過存在鄰居關(guān)系的主題詞集合,反映焦點主題的知識嵌入;后者面向?qū)W科整體,反映學科主題的全局知識體系。另外,兩者的用途不同,個體知識網(wǎng)旨在通過知識嵌入刻畫焦點主題的結(jié)構(gòu)性涌現(xiàn)特征;整體知識網(wǎng)反映學科知識的全局嵌入,旨在揭示主題在學科整體層面的影響力。
圖1 局部和全局的主題知識網(wǎng)絡(luò)嵌入
本文基于知識網(wǎng)絡(luò)拓撲動態(tài)特征,構(gòu)建識別框架,如圖2所示。具體地,分別從知識網(wǎng)絡(luò)的局部和全局視角出發(fā),構(gòu)建主題結(jié)構(gòu)突變指標和影響力增長指標;綜合兩個指標特征,形成知識結(jié)構(gòu)動態(tài)視角下新興主題的二維識別方案。在動態(tài)演化視角下,個體知識網(wǎng)隨時間的改變反映了焦點主題的知識嵌入變化,這種變化越急促、越劇烈,意味著新穎知識的結(jié)構(gòu)性涌現(xiàn)越強烈。因此,基于個體知識網(wǎng)拓撲改變程度,構(gòu)建主題結(jié)構(gòu)突變指標,度量主題知識的結(jié)構(gòu)涌現(xiàn)。另外,基于主題在整體知識網(wǎng)的嵌入地位,構(gòu)建主題影響力增長指數(shù),反映主題對學科的貢獻與影響。這兩個指標均基于知識網(wǎng)絡(luò)拓撲動態(tài)形成度量,但分別從知識嵌入和外在影響力兩個層面揭示新興主題在知識網(wǎng)絡(luò)演化過程的結(jié)構(gòu)性特征。基于這兩個指標,構(gòu)建二維識別方法,通過知識結(jié)構(gòu)涌現(xiàn)的局部和全局視角綜合,形成較為平衡的探測結(jié)果。
圖2 基于知識結(jié)構(gòu)突變的學科新興主題識別框架
1.2.1 WL子樹圖核
圖核(graph kernel)是旨在解決圖同構(gòu)問題的核方法,將圖對象映射至Hilbert空間,通過內(nèi)積運算度量圖的拓撲結(jié)構(gòu)相似性[27]。具體地,圖核是定義在圖空間上的對稱正定函數(shù),表示為Hilbert空間的內(nèi)積運算。給定圖集合上G的映射函數(shù)k:G×G→R,若存在從圖空間到Hilbert空間的特征映射?:G→Hk,滿足條件其中代表內(nèi)積運算,則稱函數(shù)k為圖核。
WL(Weisfeiler-Lehman)子樹核是經(jīng)典的圖核算法,主要思想是將圖分解為多個不同的子樹,通過比較子樹之間的相似程度反映圖的相似性[28]。WL子樹圖核算法主要過程如下:對于給定節(jié)點標簽的圖,首先,對每個節(jié)點鄰居進行聚合并排序,節(jié)點標簽與完成排序后的鄰居標簽共同構(gòu)成多重集合(multiset);其次,將每個節(jié)點的多重集合映射至一個新的未曾出現(xiàn)的標簽,這些標簽成為節(jié)點的新標簽,節(jié)點標簽的更新意味著一次迭代完成;最后,據(jù)此進行節(jié)點標簽的多輪迭代,直至結(jié)束。節(jié)點標簽的更新映射關(guān)系在所有圖之間是共享的,若兩個圖的所有節(jié)點標簽數(shù)量相同,則認為兩者同構(gòu);否則,標簽數(shù)量差異越大,同構(gòu)性越低。定量地,將迭代h次的WL子樹核定義為
其中,ci(G,σij)表示第i次迭代中標簽j出現(xiàn)的次數(shù)。
1.2.2 主題結(jié)構(gòu)突變指標
由上文所述的知識結(jié)構(gòu)觀定義可知,新穎知識結(jié)構(gòu)的涌現(xiàn)是學科新興主題的體現(xiàn),這種結(jié)構(gòu)性改變的程度與快慢直接反映主題新興涌現(xiàn)的強烈程度。個體知識網(wǎng)體現(xiàn)了焦點主題的嵌入分布,通過比較不同時期個體知識網(wǎng)的結(jié)構(gòu)差異,構(gòu)建主題結(jié)構(gòu)突變指標。因網(wǎng)絡(luò)演化既有節(jié)點也有網(wǎng)絡(luò)連接的增減,故網(wǎng)絡(luò)結(jié)構(gòu)的比較是具有挑戰(zhàn)性的任務(wù)。知識網(wǎng)絡(luò)拓撲結(jié)構(gòu)差異程度可以通過圖同構(gòu)加以刻畫。圖核方法主要有3大類:基于路徑圖核、基于子圖圖核以及基于子樹圖核。其中,作為子樹圖核經(jīng)典算法的WL子樹核應(yīng)用廣泛,獲得了學界主流的共識,在圖分類及比較的文獻中表現(xiàn)不俗[29]。因此,本文采用WL子樹核度量知識網(wǎng)絡(luò)的結(jié)構(gòu)突變程度,并基于此構(gòu)建主題結(jié)構(gòu)突變性指標。
值得注意的是,WL子樹核算法一般流程中并沒有明確如何確定節(jié)點標簽,需要在實際應(yīng)用中給節(jié)點賦予標簽??紤]到網(wǎng)絡(luò)結(jié)構(gòu)是關(guān)注點,采用Louvain社區(qū)算法對個體知識網(wǎng)探測社區(qū)結(jié)構(gòu),并將反映結(jié)構(gòu)嵌入的社區(qū)編號作為節(jié)點標簽,用于WL子樹核算法。個體知識網(wǎng)除了以焦點主題詞為核心的星型連接之外,其鄰居節(jié)點之間可能存在相互語義依賴并形成連接,由此形成相對連接稠密的不同知識社區(qū),每個社區(qū)代表特定的內(nèi)涵語義,通過社區(qū)結(jié)構(gòu)可以揭示焦點主題的微觀知識結(jié)構(gòu)。新興主題是知識嵌入不斷深化的過程,也是向日益復雜的社區(qū)結(jié)構(gòu)演化的過程,如圖3所示??梢钥闯?,稠密、規(guī)模化的知識社區(qū)動態(tài)呈現(xiàn)是新興主題成長過程的重要特征。Louvain算法是主流的社區(qū)探測方法,通過啟發(fā)式算法尋找最優(yōu)的網(wǎng)絡(luò)社區(qū)劃分,以實現(xiàn)模塊度的最大化目標,模塊度已經(jīng)被證實是衡量社區(qū)劃分合理性的有效度量,基于模塊度尋優(yōu)的算法能夠有效揭示主題的知識社區(qū)分布[30]。
圖3 個體知識網(wǎng)社區(qū)結(jié)構(gòu)演化示意圖
首先,基于WL子樹核算法,定義主題i相鄰兩期個體知識網(wǎng)的結(jié)構(gòu)相似性S為
其中,t為時間;kWL(Gi,t-1,Gi,t)為采用WL子樹核度量的網(wǎng)絡(luò)Gi,t-1和Gi,t的結(jié)構(gòu)相似性,由式(1)計算獲得,事實上為通過子樹核將知識網(wǎng)絡(luò)Gi,t-1和Gi,t映射為Hilbert空間向量后的內(nèi)積結(jié)果。為了比較方便,對相似性進行歸一化處理,式(3)采用了余弦公式形式,其中分母部分的計算與分子部分同理。指標Si度量了主題i個體知識網(wǎng)的鄰期同構(gòu)性,即知識結(jié)構(gòu)相似性。
其次,基于指標Si,構(gòu)建反映主題i涌現(xiàn)程度的結(jié)構(gòu)突變度指標Di,即
該指標刻畫了知識網(wǎng)絡(luò)拓撲的跨期差異性,反映了主題i發(fā)生的結(jié)構(gòu)變化強烈程度,反映個體知識網(wǎng)結(jié)構(gòu)變化強度。指標D數(shù)值區(qū)間為[0,1],D=0,說明主題的知識結(jié)構(gòu)保持不變;D=1,說明發(fā)生了完全的結(jié)構(gòu)變化。
最后,以結(jié)構(gòu)突變度D為基礎(chǔ),通過差分運算,構(gòu)建指標主題結(jié)構(gòu)突變率ΔDi,即
指標ΔD度量了主題結(jié)構(gòu)突變度的變化率,反映了主題知識結(jié)構(gòu)變化的加速度,取值為正,說明結(jié)構(gòu)突變呈加速狀態(tài);反之,則呈減速狀態(tài)。結(jié)構(gòu)突變度D和結(jié)構(gòu)突變率ΔD分別度量了結(jié)構(gòu)變化的不同側(cè)面,前者刻畫拓撲變化程度,而后者是拓撲變化的更高階度量,通過結(jié)構(gòu)突變度D的差分運算進一步提升甄別能力,能夠更敏銳地揭示結(jié)構(gòu)動態(tài)的加減速態(tài)勢,進而反映主題未來趨勢。
具有決策價值的學科新興主題不但體現(xiàn)為新穎知識,更要對學科發(fā)展具有潛在的重大影響力。主題嵌入整體知識網(wǎng),通過相互語義依賴,形成學科知識影響力。隨著知識網(wǎng)絡(luò)演化,外部影響力的快速增長是新興主題的重要特征?;谝陨戏治鲞壿?,采用PageRank算法度量主題在整體知識網(wǎng)的影響力,通過影響力的變化構(gòu)建新興主題影響力增長指標。PageRank算法依據(jù)網(wǎng)絡(luò)連接拓撲度量節(jié)點的相對重要性,在科技情報領(lǐng)域獲得廣泛應(yīng)用,是揭示節(jié)點網(wǎng)絡(luò)影響力的經(jīng)典方法,其分析思想為,若節(jié)點連接重要的鄰居,則其重要性亦較高[31]。以整體知識網(wǎng)絡(luò)為背景,主題i在第t期的影響力PR定義為
其中,j為主題i的鄰居Γ(i);Dj表示主題j的度中心性;α為取值區(qū)間[0,1]的阻尼系數(shù),本文設(shè)定為常見的0.85。
基于靜態(tài)指標PR,構(gòu)建影響力動態(tài)指標-主題影響力增長率ΔPR,即
其中,Nit和Ni,t-1分別是在t期和t-1期包含主題i的學術(shù)文獻數(shù)量;為權(quán)重,表示主題出現(xiàn)文獻年均數(shù)量的對數(shù)值。指標的加權(quán)設(shè)計旨在形成更加平衡的識別能力,期望識別出的新興主題既呈現(xiàn)較高水平的影響力增長率,又具有一定水平的影響力規(guī)模。因為影響力增長率是相對指標,可能會過度傾向于鄰居節(jié)點稀少的主題,不利于發(fā)現(xiàn)真正具有高潛力影響力的新興主題。通過權(quán)重的調(diào)節(jié),有助于增強識別分析的魯棒性。
主題結(jié)構(gòu)突變率和影響力增長率分別從內(nèi)在結(jié)構(gòu)和外在影響力兩個層面揭示了新興主題涌現(xiàn)動態(tài)特征,由此形成學科新興主題識別的綜合研判。以上述兩個指標為維度,構(gòu)建坐標體系,形成二維識別空間,如圖4所示。按照維度水平的兩兩組合,大致形成4種主題類型,即新興型、增長型、穩(wěn)定型和演變型。其中,新興型主題具有結(jié)構(gòu)突變率和影響力增長率的雙高特征,是新興主題的高發(fā)集聚區(qū)域;增長型主題表現(xiàn)為穩(wěn)定知識結(jié)構(gòu)和高增長影響力,是新興主題的備選區(qū)域;穩(wěn)定型主題具有二維特征的雙低表現(xiàn),內(nèi)在結(jié)構(gòu)與外在影響力呈現(xiàn)雙穩(wěn)定,該區(qū)域出現(xiàn)新興主題的概率低;演變型主題表現(xiàn)為穩(wěn)定影響力和較高結(jié)構(gòu)變化率,這類主題通常反映傳統(tǒng)主題穩(wěn)定發(fā)展態(tài)勢下仍蘊藏著持續(xù)創(chuàng)新潛力,對于這種具有旺盛生命力的重要主題應(yīng)給與長期關(guān)注??傊?,通過二維組合特征的綜合考量,能夠區(qū)分衡量不同主題類型,為研判學科前沿動態(tài)提供決策支撐。
圖4 新興主題二維識別模型
實證以情報學為學科領(lǐng)域,以Web of Science(WoS)文獻數(shù)據(jù)庫為數(shù)據(jù)來源。情報學是典型復合應(yīng)用導向?qū)W科,尤其是最新信息技術(shù)在情報領(lǐng)域深度融合,驅(qū)動新興議題不斷涌現(xiàn)。WoS數(shù)據(jù)庫收錄學術(shù)文獻質(zhì)量高且覆蓋面廣,是捕捉學科動態(tài)的常用數(shù)據(jù)源。檢索策略為,通過代表性期刊獲得學科領(lǐng)域文獻,包含Journal of the Association for In‐formation Science and Technology、Scientometrics、Journal of Informetrics、Information & Management、Information Processing & Management、Journal of In‐formation Science,這些期刊學科認可度高,所刊載學術(shù)文獻基本能夠代表情報學領(lǐng)域前沿。檢索上述期刊在2018—2020年發(fā)表的文獻,從中篩選出類型為article的文獻,得到查詢結(jié)果2508條;從中抽取指標構(gòu)建及識別分析需要的主要元數(shù)據(jù),包括DOI(digital object unique identifier)號(DI)、作者關(guān)鍵詞(DE)、補充關(guān)鍵詞(ID)、標題(TI)、摘要(AB)、年份(PY)。
主題詞抽取是研究的基礎(chǔ),獲取代表性強且覆蓋率高的備選主題詞集是關(guān)鍵。主題詞來源有3個途徑,包括作者關(guān)鍵詞、補充關(guān)鍵詞和非結(jié)構(gòu)化文本。作者關(guān)鍵詞質(zhì)量最高,是主題詞的首選;補充關(guān)鍵詞是數(shù)據(jù)庫的后續(xù)補充,準確性不如前者,刪除代表性低的詞語后,加入主題詞集合;為了提高主題詞的覆蓋率,采用NLP(natural language pro‐cessing)方法從文獻標題和摘要中抽取命名實體,從中挑出遺漏的重要詞語加入主題詞集。從2135個備選主題詞中,經(jīng)過多輪篩選及處理(包括刪除偶發(fā)性低頻主題詞、明顯高頻傳統(tǒng)主題詞,同類合并),最終獲得250個主題詞作為重點識別對象。
學科知識網(wǎng)絡(luò)以主題詞為節(jié)點,共現(xiàn)關(guān)系為邊,形成無向非加權(quán)網(wǎng)絡(luò)。從整體和個體層面分別得到全局知識網(wǎng)和個體知識網(wǎng),前者包含所有主題詞節(jié)點,而后者節(jié)點由焦點主題詞和其存在共現(xiàn)關(guān)系的主題詞共同組成。以年份為時間單位構(gòu)造知識網(wǎng)絡(luò)時間序列,每年可以得到250個個體知識網(wǎng)與1個全局知識網(wǎng)。選取典型網(wǎng)絡(luò)指標分析知識網(wǎng)絡(luò)結(jié)構(gòu)動態(tài),如表1所示。節(jié)點數(shù)和邊數(shù)反映網(wǎng)絡(luò)規(guī)模,不論是整體還是個體層面均呈現(xiàn)先降后升的波動。網(wǎng)絡(luò)密度(density)反映了知識網(wǎng)絡(luò)連接緊密程度,個體知識網(wǎng)密度基本保持相當,而全局知識網(wǎng)網(wǎng)絡(luò)密度在2020年呈現(xiàn)小幅度上升。集聚系數(shù)(clustering coefficient)刻畫了三角關(guān)系嵌入傾向,是社區(qū)結(jié)構(gòu)的反映,可以發(fā)現(xiàn)兩種網(wǎng)絡(luò)均呈現(xiàn)先升后降的模式。從整體上看,規(guī)模性指標(節(jié)點數(shù)、邊數(shù))與結(jié)構(gòu)性指標(集聚系數(shù))呈現(xiàn)相反變化態(tài)勢,反映知識網(wǎng)絡(luò)的演化過程復雜性、規(guī)模性與結(jié)構(gòu)性特征存在較大差異。值得注意的是,相較于2019年,2020年主題詞與外部產(chǎn)生了更多的語義關(guān)聯(lián),而社區(qū)結(jié)構(gòu)嵌入?yún)s明顯下降,說明穩(wěn)定的知識語義社區(qū)聚集還未形成,新的知識結(jié)構(gòu)耦合在不斷嘗試,很大程度上是新興主題蘊藏涌動的體現(xiàn)。
表1 主題知識網(wǎng)絡(luò)描述性統(tǒng)計
采用知識網(wǎng)絡(luò)序列數(shù)據(jù),依據(jù)式(4)、式(5)和式(7)分別構(gòu)建面向主題的指標——結(jié)構(gòu)突變度D、結(jié)構(gòu)突變率ΔD和影響力增長率ΔPR。厘清這些指標之間關(guān)系及表征能力是構(gòu)建識別方案的基礎(chǔ)。由此,通過相關(guān)性分析揭示指標特征,表2給出了指標間的Pearson相關(guān)系數(shù)。為了全面性,表2還考慮了非加權(quán)的影響力增長率ΔPR′和指標文獻增長率ΔA。文獻增長率ΔA反映主題的呈現(xiàn)規(guī)模變化,其定義為焦點主題的文獻數(shù)量增長率,并將關(guān)鍵詞包含焦點主題的文獻界定為主題文獻。
表2 指標相關(guān)性分析
通過相關(guān)性分析,可以發(fā)現(xiàn)以下基本特征:①主題知識結(jié)構(gòu)變化與文獻增長負向相關(guān)。結(jié)構(gòu)突變度D與文獻增長率ΔA在5%水平下顯著負相關(guān),兩者反映不同層面特征,主題文獻增長越多,個體知識網(wǎng)結(jié)構(gòu)變化則越少;反之,亦然。新興主題出現(xiàn)初期,少數(shù)引領(lǐng)文獻引發(fā)知識結(jié)構(gòu)發(fā)生顯著變化,隨著學界共識加大,主題內(nèi)涵趨向穩(wěn)定,后續(xù)大量衍生應(yīng)用文獻出現(xiàn)。②主題影響力增長與文獻增長呈正向相關(guān)。主題影響力增長率ΔPR與文獻增長率在1%水平下顯著正相關(guān),說明兩者形成正反饋,主題文獻增多,意味著更多領(lǐng)域曝光與學界認可,進而產(chǎn)生更多語義聯(lián)系的可能,形成廣泛影響力。③主題知識結(jié)構(gòu)變化與影響力增長具有一定程度正向相關(guān)。結(jié)構(gòu)突變率ΔD雖然與影響力增長率ΔPR的相關(guān)性并不顯著,但是與非加權(quán)指標ΔPR′在5%水平下顯著正相關(guān)。④結(jié)構(gòu)突變度D和結(jié)構(gòu)突變率ΔD的刻畫能力存在明顯差異性。雖然兩個指標都以刻畫知識結(jié)構(gòu)變化為目的,但相關(guān)分析結(jié)果——相關(guān)性并不顯著,說明兩者事實上反映了知識結(jié)構(gòu)動態(tài)的不同側(cè)面,反映了主題的不同動態(tài)趨勢,這種差異是不同指標內(nèi)涵定義的體現(xiàn)。
綜上所述,得到以下基本結(jié)論:①主題知識結(jié)構(gòu)變化與影響力增長具有一定程度正相關(guān),同時呈現(xiàn)高水平狀態(tài)的主題應(yīng)是探測關(guān)注重點。②結(jié)構(gòu)突變率ΔD是反映主題涌現(xiàn)的新型指標,刻畫了主題知識涌現(xiàn)過程的結(jié)構(gòu)動態(tài),與反映主題文獻增長的指標具有互補性,豐富拓展了新興主題的認知途徑。③結(jié)構(gòu)突變度D和結(jié)構(gòu)突變率ΔD是不同的知識結(jié)構(gòu)動態(tài)度量指標,從不同角度反映主題結(jié)構(gòu)變化。
為了細粒度地展示指標識別能力,表3給出了按照各個指標逆序排名前15位的主題。表中指標整體上均展現(xiàn)出對新興主題的敏感性,尤其是以covid-19和bolckchain為代表的近期新穎主題都排名前列。從指標排序結(jié)果比較可以看出不同指標識別偏好的差異性。例如,主題結(jié)構(gòu)突變度D與主題結(jié)構(gòu)突變率ΔD的排序結(jié)果差異大,反映了其對主題動態(tài)捕捉能力的差異,結(jié)構(gòu)突變率更利于反映主題知識結(jié)構(gòu)變化的態(tài)勢。另外,主題影響力增長率的加權(quán)與非加權(quán)指標結(jié)果差異不大,說明權(quán)重的設(shè)置只是對指標結(jié)果進行了微調(diào),在捕捉影響力增長的同時對數(shù)量增長特征給與適度兼顧。例如,通過加權(quán)指標,以deep learning、interdisciplinarity為代表的文獻較多且影響力快速增長的主題得到更高排名,該結(jié)果具有合理性。
表3 各指標排名前15位主題列表
以結(jié)構(gòu)突變率為橫軸,影響力增長率為縱軸,構(gòu)建新興主題識別二維空間,如圖5所示。為了更直觀、清晰地展示主題分布模式,坐標軸采用對數(shù)形式。本文選擇結(jié)構(gòu)突變率作為反映主題結(jié)構(gòu)變化的橫軸,而非結(jié)構(gòu)突變度,主要原因在于:①結(jié)構(gòu)突變率是在結(jié)構(gòu)突變度基礎(chǔ)上的差分計算,對于拓撲結(jié)構(gòu)的細微變動更加敏銳,這對發(fā)現(xiàn)處于涌現(xiàn)初期而增長幅度不明顯的新興主題十分重要;②新興主題的戰(zhàn)略價值在于未來可能性,不但期望知識結(jié)構(gòu)的新穎變動(結(jié)構(gòu)突變度),更加看重知識結(jié)構(gòu)內(nèi)涵創(chuàng)新的未來態(tài)勢,而能夠反映突變加減速態(tài)勢的結(jié)構(gòu)變動率更適于挖掘發(fā)展?jié)摿薮蟮男屡d主題。
圖5 基于二維空間的識別結(jié)果
由圖5可知,開展識別分析得到以下主題識別結(jié)果:①第一象限。顯而易見,分布于右上角的主題deep learning、covid-19、blockchain遠離主題群落,指標組合呈現(xiàn)雙高特征,是當前學科發(fā)展?jié)摿薮蟮男屡d主題。另外,第一象限的其他主題雖然不如上述3個主題的新興趨勢顯著,但大多呈現(xiàn)高增長狀態(tài),也是新興主題探測的重要區(qū)域。例如,以convolutional neural network、interdisciplinarity、link prediction為代表的主題具有較高新穎性,發(fā)展勢頭迅猛,也是重要的新興主題。②第二象限。該區(qū)域為增長型熱門主題,以熱門的模型及方法為主,以complex networks、research assessment、text classification為代表的模型及方法雖然日益成熟、穩(wěn)定,但是其探討及應(yīng)用日益深入熱烈,學科影響力亦不斷增長。③第三象限。該區(qū)域為穩(wěn)定型主題,指標組合呈現(xiàn)雙低模式,這些主題表現(xiàn)不夠活躍,出現(xiàn)新興主題的概率較低,屬于低關(guān)注區(qū)域。④第四象限。該區(qū)域為演變型主題,大多為情報學領(lǐng)域傳統(tǒng)主題,如journal impact factor、citation network、PageRank,雖然其相關(guān)研究已非常成熟深入,但仍占據(jù)學科核心地位,而且隨著學科演化其亦不斷發(fā)展,衍生出新問題、新場景、新方法驅(qū)動下的不斷創(chuàng)新。例如,g-index已被提出約15年,不再是熱門議題,但對其方法改進優(yōu)化的探討研究依然持續(xù),這種主題演化在指標上體現(xiàn)為較高的結(jié)構(gòu)突變率。
在大范圍篩選基礎(chǔ)之上,對重點主題開展深入討論,以進一步檢驗識別結(jié)果。①新型冠狀病毒肺炎(COVID-19)是出現(xiàn)于2019年的全球性重大公共衛(wèi)生事件,情報學界響應(yīng)及時,最早于2020年出現(xiàn)4篇相關(guān)文獻采用科技情報工具對疫情進行了分析及預測,與research quality、healthcare policy、forecasting、diffusion models等主題嵌入形成個體知識網(wǎng)。主題covid-19是2020年突然涌現(xiàn)的學科議題,表現(xiàn)出最高水平的結(jié)構(gòu)突變率,劇烈的新穎知識結(jié)構(gòu)涌現(xiàn)是識別該新興主題的重要特征。雖然相關(guān)文獻不多且個體知識網(wǎng)稀疏單薄,尚處于萌芽階段,但可以預期該主題會成為近幾年科技情報領(lǐng)域的重要議題。②區(qū)塊鏈(blockchain)技術(shù)雖然2008年就已應(yīng)用于比特幣,但最近幾年其應(yīng)用價值才得到廣泛共識,情報學領(lǐng)域發(fā)表相關(guān)文獻1篇(2019年)和5篇(2020年),主要對不同場景下采用區(qū)塊鏈架構(gòu)的信息處理機制及架構(gòu)開展深入探討,該主題經(jīng)過兩年發(fā)展,圍繞fake news、trust management、game theory、decentralization等關(guān)聯(lián)內(nèi)容形成獨特研究范疇,反映出該技術(shù)在情報領(lǐng)域的重要應(yīng)用前景。③深度學習(deep learning)是近年來人工智能領(lǐng)域的重大突破性技術(shù),在情報學領(lǐng)域的應(yīng)用熱度火爆,從2019年的5篇猛增至2020年的29篇,結(jié)合情報學問題場景形成深入融合創(chuàng)新發(fā)展,形成bert、word embedding、transfer learning、graph neural network等相關(guān)議題嵌入的知識網(wǎng)。作為科技情報領(lǐng)域的重要方法工具型議題,主題deep learning表現(xiàn)出最高水平的影響力增長率,廣泛深入的學科應(yīng)用不斷提升其學科影響力。
值得注意的是,新興主題呈現(xiàn)不同程度的知識結(jié)構(gòu)突變。圖6給出了3個最具代表性新興主題的知識嵌入演化過程,通過2019—2020年的個體知識網(wǎng)對比,可揭示主題涌現(xiàn)的知識結(jié)構(gòu)動態(tài)機制。為了便于清晰展示拓撲形態(tài),圖6中知識網(wǎng)絡(luò)為刪減低頻連接的結(jié)果。①主題covid-19從無到有,短期突然涌現(xiàn),形成初具社區(qū)特征的知識嵌入結(jié)構(gòu)。這種突然的知識網(wǎng)絡(luò)涌現(xiàn)對學科知識體系形成最為強烈的結(jié)構(gòu)性影響,應(yīng)給予最高的結(jié)構(gòu)突變率評分,通過結(jié)構(gòu)突變率可以及時敏感地發(fā)現(xiàn)這種規(guī)模小但新穎度高的學科主題。②主題blockchain處于知識嵌入的快速演化階段,從2019年的5個節(jié)點構(gòu)成簡單網(wǎng)絡(luò)快速演化為2020年的26個節(jié)點嵌入的多社區(qū)結(jié)構(gòu)知識網(wǎng)絡(luò),反映內(nèi)涵的不斷豐富與語義清晰化。③主題deep learning的知識網(wǎng)絡(luò)由社區(qū)聚集向生態(tài)化演進,顯著表現(xiàn)就是規(guī)模猛增,從簡單網(wǎng)絡(luò)向復雜網(wǎng)絡(luò)演化,主題生態(tài)群落的逐步形成意味著該主題知識網(wǎng)絡(luò)趨向穩(wěn)定,且通過復雜的外部耦合形成日益廣泛的學科影響力??傊鲜?個主題呈現(xiàn)了處于不同涌現(xiàn)階段的知識嵌入特征,均展現(xiàn)出強烈的知識結(jié)構(gòu)改變,這種動態(tài)特征為揭示新興主題內(nèi)在動力機制提供了有力佐證,更為識別新興主題形成客觀依據(jù)。
當然,除了上述令人矚目的新興主題之外,也存在其他值得關(guān)注主題。例如,第一象限中的con‐volution neural network、information security、inter‐disciplinarity、twitter等也表現(xiàn)不俗,其內(nèi)在結(jié)構(gòu)突變與外在影響力都呈明顯上升勢頭,也是不可忽視的學科新興主題。總之,基于知識結(jié)構(gòu)動態(tài)的指標展現(xiàn)了良好的識別效果,能夠從結(jié)構(gòu)層面為學科趨勢提供獨特視角。
學科新興主題是新穎知識的涌現(xiàn),體現(xiàn)為知識網(wǎng)絡(luò)結(jié)構(gòu)的根本性改變,并成為新興主題的識別特征。針對已有研究在知識結(jié)構(gòu)動態(tài)定量化方面的研究缺口,本文借助圖同構(gòu)分析刻畫主題知識演化,采用WL子樹核度量知識網(wǎng)絡(luò)的拓撲突變,并基于此構(gòu)建主題結(jié)構(gòu)突變率指標,并采用PageRank算法構(gòu)建主題影響力增長率指標,由此通過指標組合構(gòu)建學科新興主題二維識別方案。實證研究有效檢驗了基于知識結(jié)構(gòu)動態(tài)識別方法的有效性,不論整體分析還是個體解析,均反映出通過知識拓撲識別學科新興主題的邏輯合理性,檢驗了所設(shè)計指標的知識拓撲動態(tài)刻畫能力及對學科新興主題的捕捉能力。該方法以知識拓撲特征為切入點,透視學科新興主題的涌現(xiàn)動力機制,通過圖同構(gòu)分析深化了主題知識網(wǎng)絡(luò)動態(tài)刻畫能力,彌補了新興主題結(jié)構(gòu)動態(tài)分析方面的不足。
本文識別方法具有以下特點:①提出旨在刻畫知識結(jié)構(gòu)變動程度的指標——主題結(jié)構(gòu)突變率。該指標反映了知識網(wǎng)絡(luò)的拓撲變動,采用WL子樹核度量不同時期的知識網(wǎng)絡(luò)結(jié)構(gòu)差異程度,這種拓撲比較算法建立在網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)基礎(chǔ)之上。一般來說,網(wǎng)絡(luò)拓撲比較很大程度上依賴于人工觀察,而該指標提供了拓撲動態(tài)的定量分析,為理解新興主題形成機理提供結(jié)構(gòu)視角,具有良好應(yīng)用價值和潛力。②提出基于主題知識拓撲的學科新興主題識別方案。從結(jié)構(gòu)突變和影響力增長兩個方面特征構(gòu)建識別空間,前者反映主題的知識嵌入變化,后者反映主題的外部影響力增長,形成知識網(wǎng)絡(luò)動態(tài)視角的新興主題識別能力。③借助知識網(wǎng)絡(luò)刻畫學科新興主題,個體知識網(wǎng)絡(luò)嵌入反映焦點主題內(nèi)涵范疇,知識網(wǎng)絡(luò)動態(tài)反映新興主題涌現(xiàn)過程,從知識拓撲突變視角捕捉新興主題關(guān)鍵特征,有助于深化學科主題動態(tài)演化規(guī)律的認知和把握。
結(jié)構(gòu)突變度和結(jié)構(gòu)突變率是本文提出的主題結(jié)構(gòu)動態(tài)指標,兩者既有緊密聯(lián)系,又存在明顯差異。這兩個指標均是基于WL子樹核算法,旨在反映主題知識的結(jié)構(gòu)動態(tài)性。兩者的區(qū)別主要體現(xiàn)為:①內(nèi)涵差異。結(jié)構(gòu)突變度度量知識拓撲的變化程度,旨在反映主題結(jié)構(gòu)突變強度,結(jié)構(gòu)突變率是對知識拓撲變化的更高階度量,通過知識突變度的差分計算揭示主題突變的加減速態(tài)勢,更能體現(xiàn)未來趨勢規(guī)律。②適用性差異。結(jié)構(gòu)突變度揭示拓撲改變的大小程度,結(jié)構(gòu)突變率則更強調(diào)拓撲的改變態(tài)勢,相對而言,前者可以探測具有規(guī)模優(yōu)勢的熱門主題,而后者更善于發(fā)現(xiàn)尚處萌發(fā)初期,且未來發(fā)展?jié)摿Υ蟮男屡d主題。研究結(jié)果亦初步說明結(jié)構(gòu)突變率在新興主題識別場景的良好適用性。知識結(jié)構(gòu)探測是科技情報領(lǐng)域的重要研究問題,基于拓撲比較的指標及算法在該領(lǐng)域具有重要應(yīng)用前景。
本文得到了實證檢驗支撐,但仍存在一定局限性。圖同構(gòu)問題具有挑戰(zhàn)性,面對主題知識涌現(xiàn)的拓撲結(jié)構(gòu)識別,需要進一步深入探索包括WL子樹核在內(nèi)的多種圖同構(gòu)方法比較。另外,主題涌現(xiàn)是復雜多因素過程,將知識結(jié)構(gòu)指標與文獻計量指標相結(jié)合應(yīng)用是未來可探討的方向之一。