陳亮,余池,尚瑋姣,許海云,呂世炅,陳利利
(1. 中國科學技術(shù)信息研究所,北京 100038;2. 中國林業(yè)科學研究院林業(yè)科技信息研究所,北京 100091;3. 山東理工大學管理學院,淄博 255000)
了解科技發(fā)展的歷史過程、研究現(xiàn)狀是規(guī)劃科技發(fā)展戰(zhàn)略和預測科技發(fā)展趨勢的重要手段。當前,學科知識更替加速、不同學科之間日漸交融,科技文獻和科研數(shù)據(jù)的規(guī)模、類型不斷增加,傳統(tǒng)的以信息檢索和文獻綜述等方式進行科技知識脈絡梳理易受分析人員主觀偏見、知識局限的影響,而且分析過程耗時較長、對專家知識依賴較大,方法難以推廣。近年來,主路徑分析方法逐漸成為科技領(lǐng)域知識脈絡發(fā)現(xiàn)的重要方法,其采用引文網(wǎng)絡來表示文獻之間知識的傳播通道,采用網(wǎng)絡遍歷計數(shù)來表示引文關(guān)系在知識傳播過程中的重要程度,進而從引文網(wǎng)絡中提取重要文獻之間的骨架結(jié)構(gòu)來表示該科技領(lǐng)域的主要發(fā)展過程,幫助研究者快速了解科技領(lǐng)域發(fā)展過程,為國家科技政策制定和產(chǎn)業(yè)發(fā)展方向選擇提供決策支持。
但是這種無涉文獻內(nèi)容的引文分析方法存在明顯不足:基于路徑遍歷權(quán)重的主路徑篩選方法會錯過地位重要但分屬不同子領(lǐng)域的其他主路徑。對此,陳亮等[1]將文獻內(nèi)容納入主路徑分析法的考量范圍之內(nèi),以施引文獻和被引文獻之間的文本相似度作為引文連線權(quán)重,從而產(chǎn)生多條能夠反映不同子領(lǐng)域知識脈絡的主路徑;并進一步提出一套新的主路徑分析框架,即語義主路徑分析方法[2]。該方法除了將文本相似度和遍歷權(quán)重相結(jié)合以形成復合連線權(quán)重外,還利用文本聚類技術(shù)將引文網(wǎng)絡中的候選主路徑劃分到不同聚簇,進而從每個聚簇中選出遍歷權(quán)重最大的候選主路徑以作為代表相應子領(lǐng)域知識脈絡的主路徑;在實證分析中,該方法能夠準確抽取電動汽車領(lǐng)域三大核心模塊,即電池、電機和電控的技術(shù)發(fā)展軌跡,并取得了良好的分析效果[2]。
然而,Chen等[2]認為,這種以遍歷權(quán)重為標準從每個聚簇中選擇主路徑的做法仍然存在明顯不足:①所選主路徑的位置可能偏離聚簇中心,其能否代表這一子領(lǐng)域的知識脈絡存疑;②不同聚簇的主路徑可能彼此相近,影響不同主路徑之間的主題區(qū)分度。本文在綜合考量路徑的遍歷權(quán)重及其所在聚簇位置的基礎(chǔ)上,提出一種基于密度聚類算法改進的主路徑分析方法,對上述不足加以改進。實證階段,除沿用Chen等[2]的電動汽車相關(guān)領(lǐng)域?qū)@麛?shù)據(jù)用于對比分析之外,還選用材料科學領(lǐng)域高影響力的論文數(shù)據(jù)集用于驗證本文方法在不同領(lǐng)域、不同類型數(shù)據(jù)上的適用性。實驗結(jié)果表明,改進后的語義主路徑分析法抽取的主路徑不僅在路徑聚類圖上的分布更加合理,而且選中不適合路徑(如路徑節(jié)點較少、拓撲權(quán)重較低)的可能性也大大降低。
本文其他部分安排如下:第1節(jié)總結(jié)主路徑分析方法的相關(guān)研究進展,第2節(jié)對基于改進密度聚類算法的主路徑優(yōu)化分析方法展開敘述,第3節(jié)分別使用電動汽車鋰離子電池專利數(shù)據(jù)集和材料科學領(lǐng)域高影響力論文數(shù)據(jù)進行實證說明,第4節(jié)對論文整體進行總結(jié)和前瞻。
主路徑分析方法是一種基于文獻引文信息的知識演化路徑抽取方法,用于對領(lǐng)域知識發(fā)生的各種變化進行總結(jié)、歸納與展示[3]。相比于其他使用主題詞、SAO(subject-action-object)結(jié)構(gòu)、問題-解決方案二元組等信息的知識演化路徑抽取方法,主路徑分析法具有成本低、效率高、可移植性和可復用性好等諸多優(yōu)點,備受科技情報用戶青睞,尤其是知名社會網(wǎng)絡分析軟件Pajek[4]實現(xiàn)了主路徑分析法的多個變體,進一步推廣了這種知識演化路徑抽取方法的應用范圍。
主路徑分析法最早由Hummon等[5]于1989年提出,他們發(fā)現(xiàn)引文網(wǎng)絡中連線的重要程度并不相等,有些引文關(guān)系充當重要角色,若將其移除,會改變引文網(wǎng)絡中的整個知識流動過程,而有些引文關(guān)系產(chǎn)生的影響則小得多。這些充當重要角色的引文關(guān)系構(gòu)成了引文網(wǎng)絡中的“主路徑”,而主路徑分析法就是從引文網(wǎng)絡中識別出這些重要引文關(guān)系,并按照先后順序展示該領(lǐng)域的重要文獻及其知識的傳承過程[6]。在當前海量科技文獻數(shù)據(jù)所造成的信息過載環(huán)境下,主路徑分析方法提供了一種基于連通性降低引文網(wǎng)絡復雜程度并從中識別關(guān)鍵路徑的定量方法,在知識發(fā)展路徑抽取中具有重要意義[7]。在算法層面,主路徑被定義為非循環(huán)網(wǎng)絡中從源點(即入度為0的節(jié)點)到匯點(即出度為0的節(jié)點)的一條通路,該通路上所有弧的權(quán)重之和具有最高遍歷權(quán)重[8]。雖然主路徑分析方法在長期發(fā)展中形成了規(guī)模龐大的家族體系,但總體而言這些家族成員仍然遵從圖1所示的統(tǒng)一流程框架:在從文獻數(shù)據(jù)庫中獲取數(shù)據(jù)并生成引文網(wǎng)絡后,首先,計算引文網(wǎng)絡中每條連線的遍歷權(quán)重;其次,搜索自源點至終點之間的候選路徑,所謂源點,即只有出度沒有入度的節(jié)點,反之,則為終點[9];最后,將每條候選路徑上的連線權(quán)重累加起來,并將符合條件(如遍歷權(quán)重最大)的路徑篩選出來作為主路徑,下文將分別對主路徑分析法的各個重要環(huán)節(jié)展開詳細介紹。
圖1 當前主路徑分析的方法步驟
在從文獻數(shù)據(jù)庫中獲取數(shù)據(jù)集并構(gòu)建引文網(wǎng)絡后,需要根據(jù)引文連線在引文網(wǎng)絡中的重要程度為其賦予權(quán)重。連線重要性一般根據(jù)引文網(wǎng)絡中與該連線相關(guān)的路徑數(shù)量統(tǒng)計得到。比如,SPNP(search path node pair)指標就是通過統(tǒng)計經(jīng)過某條邊的路徑數(shù)量來測度這條邊的重要程度,還有類似指標SPLC(search path link count)和NPPC(node pair projection count)[5,10],但它們在篩選路徑方式上有所不同;Batagelj[11]認為這些路徑權(quán)重指標計算方式過于復雜、低效,他將直接引用和間接引用同時納入考量范圍,形成了更加高效的連線權(quán)重指標SPC(search path count)。當前,常用連線權(quán)重指標的詳細情況如表1[12]所示。Liu等[10,13]深入剖析了這些權(quán)重指標之間的區(qū)別:在SPC中引文網(wǎng)絡的中間節(jié)點只具有知識傳導的作用;而在SPNP中,引文網(wǎng)絡的中間節(jié)點則是一個知識存儲單元;相比之下,SPLC更接近實際情況——中間節(jié)點不僅在知識擴散的過程中具有中轉(zhuǎn)站的作用,它還引入了新的知識;計算NPPC指標的時間復雜度較高,極少在實際場景中使用。基于以上原因可以發(fā)現(xiàn),Xu等[14]、Huang等[15]和Lai等[16]學者傾向使用SPLC指標,盡管Batagelj[11]、Martinelli[17]、Chen等[2]注意到不同遍歷權(quán)重指標下產(chǎn)生的主路徑結(jié)果幾乎一致。
表1 主路徑方法中主要的弧權(quán)重指標[12]
近年來出現(xiàn)了一些關(guān)于此類指標的新觀點,包括無法反映知識傳播時所產(chǎn)生的信息損失[10]、基于這些指標的主路徑上各個文獻的主題一致性較弱等[19-20]。Liu等[21]將知識傳播中的延遲效應納入考量范圍,并形成SPAD(search-path arithmetic de‐cay)、SPGD(search-path geometric decay)和SPHD(search-path harmonic decay)等一系列新指標,以緩解信息損失。至于主路徑上文獻主題不一致的問題,目前主要解決思路是將文獻的文本信息納入連線權(quán)重計算之中,使主路徑分析法在搜索主路徑時能夠確保同一路徑上文獻具有較高的主題相似度[1,22],也有研究者進一步將文獻本身重要性[20]、引用結(jié)構(gòu)相似性、引用情感等信息與主題相似度相結(jié)合[23],以提升主路徑的主題一致性。夏紅玉等[24]認為已有研究忽略了同一引用關(guān)系在全文的出現(xiàn)頻次以及出現(xiàn)位置,而這兩個因素同樣對引文權(quán)重產(chǎn)生重要影響;Jiang等[25]將引用動機引入引文網(wǎng)絡,使得引文連線對應不同分析目的。Oh等[26]運用SAO和DEMATEL(decision mak‐ing trial and evaluation laboratory)方法捕捉專利引用所隱藏的因果關(guān)系,并將其量化后賦值于專利引文連線,用于識別能反映技術(shù)因果關(guān)系的主路徑。
一旦連線權(quán)重準備完畢,下一步就是在源點和終點之間搜索候選路徑,以便從中篩選出最終的主路徑結(jié)果。為了方便表述,本文將該步驟簡稱為“候選路徑生成”。當前路徑搜索主要有兩種策略,即貪心策略和窮舉策略。其中,前者從源點出發(fā),使用貪心法游走引文網(wǎng)絡,即在由當前節(jié)點發(fā)出的連線中,選取最大權(quán)重連線作為通路行進至下一節(jié)點,直至遇到終點[27];后者則窮舉出引文網(wǎng)絡中所有可能的路徑,進而選取路徑權(quán)重最高的路徑作為結(jié)果輸出[28]。
由于貪心策略并不保障搜索結(jié)果為全局最優(yōu)路徑,所以也被稱為局部搜索策略。與此相對,窮舉策略被稱為全局搜索策略。根據(jù)搜索方向的不同,這些策略還能進一步被細分為由源點到終點的前向局部搜索、前向全局搜索,以及由終點到源點的后向局部搜索、后向全局搜索[29]。Liu等[29]觀察到,無論局部搜索策略還是全局搜索策略,所產(chǎn)生的主路徑均無法確保包含引文網(wǎng)絡中遍歷權(quán)重最大的連線;因此,他們建議使用一種新的路徑搜索策略,即關(guān)鍵路徑搜索(key-route search)。所謂關(guān)鍵路徑搜索就是先找出引文網(wǎng)絡中遍歷權(quán)重最大的連線并將其作為種子,進而從種子出發(fā)向前搜索直至遇到終點、向后搜索直至遇到源點,最終輸出一條新的主路徑。馬瑞敏等[30]注意到,候選路徑搜索算法基于連線權(quán)重展開,而將同樣值得關(guān)注的節(jié)點重要性排除在外;為此,他們將Pathfinder算法作為候選路徑搜索算法,針對重要節(jié)點、最大信息承載量和關(guān)鍵關(guān)系,構(gòu)建更具綜合性和包含性的主路徑。
從路徑搜索角度來看,主路徑上出現(xiàn)文獻主題不一致現(xiàn)象的一個重要原因是,算法只根據(jù)當前節(jié)點信息選擇下一節(jié)點而遺忘當前節(jié)點的前趨節(jié)點?;诖耍琘eo等[27]使用二階馬爾科夫鏈對候選路徑展開2跳(2-hop)搜索,用于對抗因遺忘前趨節(jié)點所帶來的語義漂移問題。與此不同的是,Tu等[31]通過將主路徑上主題類似的文獻加以合并來區(qū)分不同主題,并形成一種新的主路徑形式——概念路徑;沿著該研究方向,Kim等[20]進一步集成PageRank算法[32]和引文影響力模型(citation influence model,CIM)[33-34]來改善路徑的主題一致性,進而抽取蛋白質(zhì)p53領(lǐng)域的多條主路徑。
早期的主路徑分析方法主要選取路徑長度最長或者連線累加權(quán)重最大的單條路徑作為主路徑[27]。然而,單條路徑由于覆蓋面較小,在探索領(lǐng)域知識演化脈絡時受限很大[34],同時容易遺失重要節(jié)點、連線和路徑[19]。為此,Verspagen[28]將路徑選擇條件放寬,若同時存在多條連線累計權(quán)重并列第一的路徑,則將其全部納入進來以形成主路徑網(wǎng)絡;Fon‐tana等[35]更進一步,將連線累計權(quán)重排名第二、第三的候選路徑擴充至主路徑網(wǎng)絡。由于這些主路徑網(wǎng)絡不僅包含了連線累計權(quán)重最大的路徑,還包含了排名靠后的其他路徑,因此,Liu等[34]稱這種新方法為多主路徑分析法。
然而,在多主路徑分析法中,遍歷權(quán)重最大的連線仍然可能未被包含在主路徑網(wǎng)絡結(jié)果中。一方面,Xiao等[36]將關(guān)鍵路徑搜索策略引入多主路徑分析法中。具體來說,他們將遍歷權(quán)重排名靠前的連線作為種子,對每個種子執(zhí)行關(guān)鍵路徑搜索策略以產(chǎn)生多條主路徑,并將這些主路徑合并后得到最終結(jié)果。由于加持了關(guān)鍵路徑搜索策略的多主路徑方法在展示科技領(lǐng)域知識演化細節(jié)上的良好表現(xiàn),該方法得到了學者們的廣泛關(guān)注[14,36-37]。例如,萬小萍等[38]將多主路徑分析方法推廣到多源前向局部路徑搜索、多匯反向路徑搜索、全局組合路徑,用于提升路徑的多樣性和重要節(jié)點的包含性。
另一方面,Kim等[19]和Yu等[37]將研究焦點投向從主路徑上旁生的重要分支。具體來說,他們首先采用社區(qū)探測算法將引文網(wǎng)絡劃分為若干子網(wǎng),繼而利用傳統(tǒng)主路徑分析法從每個子網(wǎng)中抽取子主路徑,將全部子主路徑合并后即可用于主路徑分支分析。Martinelli[17]提出另一種策略,即固定文獻的起始年份而改變文獻的終止年份,通過篩選符合條件的文獻集合形成不同時間段所對應的引文網(wǎng)絡,在對不同引文網(wǎng)絡進行路徑抽取并拼接成總主路徑后,就可以分析不同時間段上的知識發(fā)展變化情況。Chen等[2]發(fā)現(xiàn)遍歷權(quán)重排名靠前的多主路徑通常由于具有相同主題而缺乏多樣性,他們將候選路徑轉(zhuǎn)化為文本向量后進行聚類,并抽取每個聚簇中遍歷權(quán)重最大的路徑代表這一子領(lǐng)域的知識發(fā)展路徑,有效解決了多主路徑方法的主題單一問題。
語義主路徑分析方法雖然將引文節(jié)點所依附的文本信息納入連線權(quán)重計算之中,以優(yōu)化主路徑上文獻的主題一致性,但是在使用聚類算法從候選路徑所形成的聚簇中選擇主路徑時,直接選取最大遍歷權(quán)重路徑的做法可能導致主路徑偏離聚簇中心,無法展示該聚簇所隱藏的知識演化過程,同時減弱不同子領(lǐng)域主路徑之間的主題差異。對此,本文提出一種基于改進密度聚類算法的語義主路徑分析方法,除了將語義信息融入主路徑以提升節(jié)點的語義相似度外,更重要的是將聚簇中候選路徑所在節(jié)點的密度和候選路徑的遍歷權(quán)重疊加起來形成復合密度,并重新進行密度聚類和輸出位于新聚簇中心的主路徑。該方法的技術(shù)路線如圖2所示,下文將對其中主要步驟進行詳細說明。
圖2 技術(shù)路線
本文需要兩種類型數(shù)據(jù):一是文獻之間的引用信息;二是引文網(wǎng)絡中每個節(jié)點所依附的文本信息。對于前者,需要在構(gòu)建引文網(wǎng)絡時去除孤立節(jié)點、網(wǎng)絡碎片和引文回路;對于后者,需要通過文本預處理完成大小寫轉(zhuǎn)換、抽詞干、詞形還原、去停用詞等一系列操作,從文本集合中匯集詞匯、形成詞典并完成文本向量化,即采用向量空間模型將文本轉(zhuǎn)化為向量,從而形成文檔-詞匯權(quán)重矩陣。由于詞典規(guī)模較大,每個文本向量化后的維度會很高,對應的文檔-詞匯矩陣非常稀疏,因此,需要使用LSI(latent semantic index)[39]、LDA(latent Dirichelet allocation)[40]等主題模型對其降維以節(jié)省存儲空間和計算時間,繼而在文檔主題表示基礎(chǔ)上采用余弦公式計算文本之間的相似度。
在計算引文連線時,本文將傳統(tǒng)遍歷權(quán)重與語義權(quán)重相結(jié)合,形成連線綜合權(quán)重,即
其中,weight(i,j)表示節(jié)點i和節(jié)點j之間的綜合權(quán)重,由節(jié)點i和節(jié)點j之間的遍歷權(quán)重weightt(i,j)和語義權(quán)重weights(i,j)組成。語義權(quán)重由節(jié)點i和節(jié)點j上文檔的主題相似度計算得到;遍歷權(quán)重根據(jù)1.2節(jié)中連線權(quán)重指標計算得到;α是一個取值區(qū)間為[0,1] 的超參數(shù),用于調(diào)整連線上語義權(quán)重和遍歷權(quán)重的占比。
與此同時,路徑的權(quán)重計算方式也做了調(diào)整。傳統(tǒng)主路徑分析方法將路徑上所有連線的權(quán)重進行累加,將其作為路徑的權(quán)重。然而,這種方法被應用于語義權(quán)重會導致路徑搜索過程中發(fā)生語義漂移。所謂語義漂移是指在一條路徑中,直接相連的兩個文檔之間的主題具有一致性,但相隔較遠的、間接相連的文檔之間主題并不一致。以圖3中的路徑為例,節(jié)點1和節(jié)點2、節(jié)點2和節(jié)點3、節(jié)點3和節(jié)點4所依附的文本之間主題高度相似,但節(jié)點1和節(jié)點4的主題完全偏離。
圖3 路徑語義偏移示意圖
為了解決這一問題,本文提出了一種新的路徑權(quán)重計算方法,具體表示為
即在計算路徑遍歷權(quán)重時仍然沿用傳統(tǒng)的連線權(quán)重累加方法,具體表示為
但在計算路徑語義權(quán)重時,將該路徑上所有節(jié)點兩兩配對,并將其主題相似度進行累加,表示為
由于路徑語義權(quán)重和遍歷權(quán)重的取值區(qū)間處于不同量級,因此,在計算路徑綜合權(quán)重時,需要將其規(guī)范化使其處于同一區(qū)間。本文選擇常用的minmax規(guī)范化方法,最終路徑的綜合權(quán)重計算方法為
其中,Wp表示綜合路徑權(quán)重;min(weightp,s)和max(weightp,s)分別表示路徑語義權(quán)重的最小值和最大值;min(weightp,t)和max(weightp,t)分別表示路徑遍歷權(quán)重的最小值和最大值;超參數(shù)β用于調(diào)節(jié)歸一化處理后路徑遍歷權(quán)重與語義權(quán)重的比值,取值范圍為[0,1] 。
所謂主路徑選擇,是指在利用路徑搜索算法獲取由每個源點引出的最大權(quán)重路徑后,從這些最大權(quán)重路徑集合中篩選主路徑的過程。原語義主路徑分析方法[2]使用基于聚類的主路徑選擇思路:①將候選路徑上全部節(jié)點所依附的文本拼接起來,并采用向量表示,用于完成候選路徑的向量化;②對候選路徑向量應用密度聚類算法[41],并將其劃分到不同聚簇中;③從每個聚簇所代表的子領(lǐng)域中遍歷權(quán)重最大的候選路徑代表這一聚簇的知識發(fā)展路徑。但是,這種以遍歷權(quán)重為標準的主路徑選擇方法可能導致所選主路徑處于聚簇的邊緣位置,無法代表這一聚簇的知識發(fā)展路徑。
對此,本文將聚簇中代表候選路徑的節(jié)點的密度和節(jié)點所在候選路徑的遍歷權(quán)重進行疊加,形成節(jié)點的復合密度,即
其中,ρ'表示節(jié)點復合密度,ρ表示節(jié)點原始密度,通過統(tǒng)計某節(jié)點周圍單位面積中所包含的節(jié)點數(shù)量計算得到;weightp,t表示節(jié)點所在候選路徑的遍歷權(quán)重;γ表示用于調(diào)解原始密度與路徑遍歷權(quán)重的平衡參數(shù),取值范圍為[0,+∞)。本文方法的主路徑選擇過程是,在密度聚類算法框架下,使γ值從0開始逐步遞增,并實時刷新復合密度下各個聚簇中心的變化情況,當聚簇中心的變化趨于穩(wěn)定后,將各條位于不同聚簇中心的候選路徑作為主路徑結(jié)果輸出。
為展開對比分析以驗證本文方法的有效性,本文沿用Chen等[2]使用的電動汽車鋰離子電池專利數(shù)據(jù)集開展實證分析,并在3.4節(jié)的實驗結(jié)果分析中輔以材料科學領(lǐng)域高影響力作者論文數(shù)據(jù)集,用于展示本文方法在不同學科領(lǐng)域和數(shù)據(jù)類型上的適用性。
本文數(shù)據(jù)集的數(shù)據(jù)來源為德溫特創(chuàng)新索引數(shù)據(jù)庫(Derwent Innovation Index Database),采用Zhang等[42]提出的檢索式得到初步專利數(shù)據(jù),經(jīng)領(lǐng)域?qū)<液Y選、前向引用和后向引用擴充、專利家族合并、最大連通子圖抽取后,得到包含3603個專利家族的獨立引文網(wǎng)絡,分為1248個源點、1085個中間節(jié)點和1270個終點。專利家族數(shù)量隨基本專利發(fā)布年份的分布情況如圖4所示??梢钥吹?,電動汽車鋰離子電池專利最早出現(xiàn)于1975年,1990年以后為快速發(fā)展時期。
圖4 基于基本專利公開年份的專利家族數(shù)量分布
本文遵循主路徑方法的基礎(chǔ)假設,即路徑的遍歷權(quán)重反映了經(jīng)過該路徑的知識流量。為使本文方法產(chǎn)生的主路徑能夠反映引文網(wǎng)絡中的主要知識發(fā)展路徑,這些主路徑的遍歷權(quán)重應該盡量接近傳統(tǒng)主路徑分析方法的路徑遍歷權(quán)重,同時融入盡可能多的語義信息以提升主路徑的語義權(quán)重。需要說明的是,傳統(tǒng)主路徑方法是語義主路徑方法β=0即不考慮語義信息的特殊情況,為調(diào)節(jié)超參數(shù)β達到上述目的,β不可能偏離原點較遠。本文將β取值范圍[0,1] 按0.01的單位步長進行劃分,并將每個值分配給β以生成對應候選路徑。由于引文網(wǎng)絡中包含1248個源點,因此,每個β對應由1248條候選路徑所組成的路徑集合。圖5展示了不同β取值下候選路徑集合的最大遍歷權(quán)重、最大語義權(quán)重以及平均綜合權(quán)重變化情況。從圖5a可以發(fā)現(xiàn),最大遍歷路徑權(quán)不隨β取值不同發(fā)生變化,即無論β如何取值,語義主路徑搜索得到的遍歷權(quán)重最大的路徑是穩(wěn)定的,它與傳統(tǒng)主路徑分析法輸出主路徑以及遍歷權(quán)重保持一致;當β=0.05(圖5中的垂直虛線)時,能夠滿足β在距離源點較近的前提下候選路徑的兩種類型權(quán)重的變化處于相對穩(wěn)定狀態(tài),因此,將其作為β的數(shù)值,并生成相應的候選路徑。
圖5 不同路徑權(quán)重隨β值的變化情況
此外,考慮到公式(5)中引入語義路徑權(quán)重的目的在于對多主路徑各自的主題聚焦程度進行優(yōu)化,為驗證該公式的正確性,本文分別取β=0,0.05,1來考察當語義路徑權(quán)重的重要性不斷提升時,所抽取多主路徑的變化情況。具體來說,本文將不同β值分別代入語義主路徑分析法,并基于節(jié)點上的文本信息將抽取的多主路徑連同其所在的引文網(wǎng)絡分別投射到3個二維語義平面,如圖6所示??梢园l(fā)現(xiàn),隨著β的增加,各條主路徑越發(fā)聚焦于單一子領(lǐng)域,這表明了公式(5)的正確性。
圖6 不同β值下的多主路徑在語義空間的分布
在改進密度聚類算法以選擇主路徑時,本文選取的改進對象是密度峰值聚類算法[41]。該聚類算法假設每個聚簇中心被具有較低局部密度的鄰居包圍,并且與具有較高局部密度的其他數(shù)據(jù)點的距離相對較大,因此,可以通過對比數(shù)據(jù)點的局部密度及其與較高密度數(shù)據(jù)點的距離來獲得聚類數(shù)量和每個聚簇的中心點[43]。該算法的另一個優(yōu)點是聚類過程不包含隨機操作,因此,在相同配置下每次執(zhí)行不會產(chǎn)生不同結(jié)果。
在使用公式(6)優(yōu)化主路徑的選取過程中,將γ的初始值設置為0,步長設定為1,根據(jù)每次γ增加后的候選路徑密度與距離來更新各個聚簇中心,具體如表2所示??梢园l(fā)現(xiàn):①聚簇中心并不隨γ值持續(xù)變化,而是當γ值位于臨界點即表2第一列時,發(fā)生突然跳躍;②不同聚簇中心的跳躍并不同步,例如,當γ值由2增加到3時,編號為1的候選路徑替代編號為160的候選路徑成為路徑1的聚簇中心,而其他聚簇中心保持不變;當γ值由172增加到173時,編號為62的候選路徑替代編號為251的候選路徑成為路徑4的聚簇中心,而其他聚簇中心同樣保持不變;③γ值的臨界點數(shù)量有限,當γ取值超過最大臨界點后,聚簇中心不再發(fā)生變化;④隨著γ值的增加,各條位于聚簇中心的候選路徑的路徑長度和遍歷權(quán)重不斷提升,多主路徑選擇結(jié)果得到持續(xù)優(yōu)化。
表2 中心路徑隨γ值的變化情況
同時,不同主路徑的跳躍距離也存在很大區(qū)別。為了清楚展示這一現(xiàn)象,分別使用3種主路徑選擇策略:直接以聚簇中心所在候選路徑作為主路徑(簡稱“策略1”),如圖7a所示;以聚簇中遍歷權(quán)重最大的候選路徑作為主路徑(簡稱“策略2”),若有多個并列權(quán)重最大的候選路徑則將其全部輸出,如圖7b所示;使用改進密度聚類算法在最大臨界點,即γ=896時篩選出的主路徑(簡稱“策略3”),如圖7c所示??梢园l(fā)現(xiàn),相比于圖7a中的各個聚簇中心點,即采用改進密度聚類算法時各條主路徑的初始位置,優(yōu)化結(jié)束后路徑1、路徑2和路徑3的位置相對穩(wěn)定,路徑5略有變化,路徑4變化最大。
圖7 不同路徑選擇策略下的主路徑分布
本節(jié)深入分析主路徑上文獻的文本內(nèi)容,對本文方法的正確性、有效性及其與顛覆性技術(shù)之間的關(guān)系展開進一步探究。同時,為驗證本文方法在不同科技領(lǐng)域和不同類型數(shù)據(jù)上的普適性,選取材料科學作為實證領(lǐng)域,對該領(lǐng)域高影響力作者論文引文網(wǎng)絡展開主路徑分析。
3.4.1 改進方法的正確性驗證
本文調(diào)研了相關(guān)文獻并獲取電動汽車的主要架構(gòu),如圖8[43]所示;本文提出的語義主路徑的輸出結(jié)果如圖9所示,其含義如表3中策略3對應條目所示??梢园l(fā)現(xiàn),本文方法成功識別了大多數(shù)關(guān)于電池的電動汽車汽車組件,如路徑1和路徑2識別的電池控制器、路徑3和路徑4識別的電池設計技術(shù)以及路徑5所識別的電機控制器。進一步地,由于每條主路徑主題之間的區(qū)別較大,用戶可以使用語義主路徑分析法觀察針對同一組件的不同研究方向,比如,盡管路徑1和路徑2都在討論電池控制器,但路徑1討論的是溫度控制技術(shù),而路徑2討論的是充放電時電壓、電流的控制技術(shù)和剩余電量的測度技術(shù)。根據(jù)文獻調(diào)研可知,這些路徑反映了電池管理系統(tǒng)(battery man‐agement system,BMS)中兩個關(guān)鍵技術(shù),即溫度控制和充放電控制的發(fā)展軌跡[44-45]。此外,雖然路徑5的遍歷權(quán)重最小,但這并不意味著電機控制技術(shù)不重要,相反地,它是圖8中電動汽車主要架構(gòu)的組成部分,相較于鋰離子電池,這部分內(nèi)容相對獨立。路徑4與路徑1雖然看起來內(nèi)容較為相似,但是路徑1主要描述電池的外在組件,例如,電池固定結(jié)構(gòu)、電池保護套或者電池之間用到的冷卻介質(zhì)分配板;而路徑4主要是基于電池組結(jié)構(gòu)設計來達到電池冷卻目的的技術(shù)路線。兩條路徑雖然均與電池技術(shù)相關(guān),但是側(cè)重點不同。上述實驗結(jié)果和真實情況的相互印證,驗證了本文方法的正確性。
表3 不同選擇策略下的主路徑主題匯總
圖8 電動汽車架構(gòu)示意圖[43]
圖9 語義主路徑抽取結(jié)果
3.4.2 改進方法的有效性及其能力驗證
首先,分析三類策略所產(chǎn)生主路徑的主題差異。從主路徑在語義空間的布局(圖7)可以看出,策略1的主路徑結(jié)果經(jīng)策略2調(diào)整后,路徑1和路徑5在保持路徑主題沒有發(fā)生變化或發(fā)生較小變化的情況下,提升了路徑長度和遍歷權(quán)重,路徑2保持穩(wěn)定不變,這表明Chen等[2]提出的語義主路徑分析方法具備一定的主路徑優(yōu)化能力。路徑3和路徑4遷移至各自聚簇的邊緣位置(圖7b)。結(jié)合表3和表4可知,雖然路徑3和路徑4的長度和遍歷權(quán)重得到了提升,兩者主題相比于聚簇中心主題已經(jīng)發(fā)生了較大變化:路徑3的主題由“鋰離子二級電池正極材料合成技術(shù)”轉(zhuǎn)變?yōu)椤半娮?、電氣設備的二級電池技術(shù)”,路徑4的主題由“電池冷卻結(jié)構(gòu)”轉(zhuǎn)變?yōu)椤颁嚩夒姵丶夹g(shù)和電池包技術(shù)”;而這些主題均處于各自聚簇的邊緣位置,難以代表各自的知識發(fā)展脈絡。需要說明的是,表3中主路徑的主題采用人工方式提取,先獲取主路徑上所有節(jié)點所依附的文獻摘要,再從中解讀出主路徑的主題內(nèi)容。
表4 不同選擇策略下主路徑的統(tǒng)計信息
使用本文提出的策略3對策略1的主路徑結(jié)果進行調(diào)整后,主路徑的總體布局(圖7c)相對于各個聚簇中心(圖7a)基本保持穩(wěn)定,只有路徑4發(fā)生較大偏移。與策略2類似,經(jīng)過策略3調(diào)整后,除路徑2保持不變外,其他主路徑的路徑長度和遍歷權(quán)重均取得了顯著提升,但該策略帶來的提升幅度弱于策略2。比如,路徑3的遍歷權(quán)重經(jīng)過策略2調(diào)整后由1.07×10-4提升至4.76×10-3,但經(jīng)策略3調(diào)整后提升至6.60×10-4;路徑4的遍歷權(quán)重經(jīng)過策略2調(diào)整后提升至0.24,但經(jīng)策略3調(diào)整后提升至0.22。從路徑主題來看,策略3能夠維持主路徑的主題穩(wěn)定。仍然以路徑3和路徑4為例,在策略3下,路徑3的主題由“鋰離子二級電池正極材料合成技術(shù)”轉(zhuǎn)變?yōu)椤鞍嚦煞值碾姵卣龢O材料合成技術(shù)”,路徑4的主題由“電池冷卻結(jié)構(gòu)”轉(zhuǎn)變?yōu)椤盎陔姵亟M結(jié)構(gòu)設計的電池冷卻技術(shù)”,這些主路徑的主題并未發(fā)生變化。由此可見,本文方法(策略3)可以在保持主路徑主題和聚簇中心主題一致的前提下,對路徑長度和遍歷權(quán)重進行優(yōu)化,使主路徑能夠反映聚簇內(nèi)的知識發(fā)展路徑,且能夠避免出現(xiàn)策略2中過于強調(diào)路徑長度和遍歷權(quán)重導致主路徑主題發(fā)生偏離的問題。
3.4.3 主路徑與顛覆性創(chuàng)新的關(guān)系探究
主路徑是否包含顛覆式創(chuàng)新是一個值得探究的問題。其中顛覆性測度選用CD指數(shù)[46],該指標從后續(xù)引用角度,通過局域引用結(jié)構(gòu)衡量專利對已有知識的替代作用和對未來專利的影響程度,并以此定義顛覆性。CD指數(shù)自2017年被提出后,分別于2019年和2022年被應用于兩篇Nature文章中的顛覆性研究[47-48],引起科學界廣泛關(guān)注與認可。本文采用CD指數(shù)測度實證專利的顛覆性,時間窗口按慣例設置為5年,從實證數(shù)據(jù)中共獲得CD5=1的顛覆性專利家族121個(下文簡稱“顛覆性專利”),其公開年份分布如圖10所示,不同策略下各條主路徑上所包含的顛覆性專利數(shù)量如表5所示。在3種策略下,5條主路徑包含的顛覆性專利數(shù)量極少,分別為1、1、2。
表5 不同選擇策略下主路徑的顛覆性專利家族數(shù)量
圖10 專利家族及其顛覆性專利的數(shù)量分布
繪制不同年份顛覆性專利在語義空間的位置分布(圖11),能夠在一定程度上解釋主路徑上顛覆性專利稀少的原因。在圖11中,從出現(xiàn)顛覆性專利的20個年份中較平均地選取了6個年份。對于每個年份,以1982年為例,在將實證數(shù)據(jù)集中公開年份在1982年及其之前的專利匯總后,利用MDS(multi-dimension scaling)方法將這些專利的文本信息投射到二維平面,并將1982年出現(xiàn)的顛覆性專利用灰底黑邊方框凸顯出來。從圖11可見,在該數(shù)據(jù)集的前半階段,即1982年、1986年和1995年,突破式革新技術(shù)因與傳統(tǒng)技術(shù)在語義上差異較大,相應專利會出現(xiàn)在聚簇邊緣位置,而且這些專利與同時期其他專利的語義相似度較弱,削弱了這個突破式專利進入主路徑的可能性;在該數(shù)據(jù)集的后半階段,雖然突破性專利同樣難以進入主路徑,但由于這一時期專利數(shù)量急劇增加,以及專利中技術(shù)公開的制度要求和申請者避免競爭對手發(fā)現(xiàn)、模仿己方技術(shù)之間的矛盾,專利中存在大量同義詞、近義詞、模糊術(shù)語、上下位概念替換等語言現(xiàn)象,使得顛覆性專利即使創(chuàng)造性很強,仍可能在語義空間上處于聚簇的中心位置,如圖11d~圖11f所示。
圖11 不同年份顛覆性專利在語義空間的位置分布
3.4.4 材料科學領(lǐng)域?qū)嵶C分析
材料科學是一門多學科交叉的應用科學領(lǐng)域,在推動經(jīng)濟發(fā)展、社會建設和科技進步上應用廣泛、潛力巨大。本文基于美國科學信息研究所(In‐stitute for Scientific Information,ISI)制定的高被引作者遴選方法[49],創(chuàng)建包含該領(lǐng)域中18569篇論文的高影響力作者論文引文網(wǎng)絡,這些論文的發(fā)表時間為1964—2021年。其中,最大獨立子網(wǎng)包括18504篇論文和119384條引文關(guān)系,該獨立子網(wǎng)與電動汽車鋰離子電池專利引文網(wǎng)絡在常見網(wǎng)絡指標上的描述性統(tǒng)計如表6所示,可以發(fā)現(xiàn)這兩個網(wǎng)絡存在顯著差別:在節(jié)點數(shù)量上差距約為5倍,在連線數(shù)量上差距約為20倍。由此可見,論文引文網(wǎng)絡的節(jié)點之間關(guān)聯(lián)密切,其連線的稠密程度遠高于專利引文網(wǎng)絡,從而導致前者的層次數(shù)量雖然高于后者,但前者的網(wǎng)絡直徑和網(wǎng)絡傳遞性卻低于后者。
表6 兩個引文網(wǎng)絡的網(wǎng)絡指標統(tǒng)計
通過執(zhí)行策略2和策略3,對原語義主路徑方法和改進后的方法展開對比分析。這兩種策略產(chǎn)生的主路徑的位置分布如圖12所示,統(tǒng)計信息和主題含義如表7和表8所示,路徑詳情如圖13所示。從表7可以看到,兩種策略下得到的路徑2、路徑3和路徑4完全相同。路徑1中僅在初始的少許節(jié)點上存在差別,導致改進后的方法在該路徑的長度上減少了1,但在路徑遍歷權(quán)重和主題上保持不變。路徑5完全不同,在原語義主路徑方法的主路徑選擇結(jié)果中,路徑4和路徑5在語義空間上距離過近,結(jié)合表7和表8可以看出,這兩條路徑均涉及電池電極制造,缺乏主題區(qū)分度,且路徑5中僅包含3個節(jié)點、路徑遍歷權(quán)重為2.87×10-3,并不適合展示該領(lǐng)域中的知識發(fā)展脈絡;經(jīng)過本文方法優(yōu)化后,路徑5的節(jié)點數(shù)量增加至12,路徑遍歷權(quán)重增加至0.23(表7),更易于反映該領(lǐng)域的知識發(fā)展,同時該主路徑在語義空間的位置與其他主路徑距離較遠(圖12b),其主題為“基于金屬鹵化物的鈣鈦礦材料研究,可用于太陽能光伏發(fā)電”(表8),與其他路徑主題存在明顯區(qū)分度。
表7 不同策略下主路徑的統(tǒng)計信息
表8 不同策略下主路徑的主題匯總
圖12 不同策略下主路徑在語義空間的布局
圖13 不同策略下的主路徑詳情
主路徑分析法因追蹤領(lǐng)域知識發(fā)展脈絡的強大能力,而被廣泛用于科技情報領(lǐng)域,以確定科學、技術(shù)的主要發(fā)展過程。當引文網(wǎng)絡規(guī)模龐大、結(jié)構(gòu)復雜時,主路徑分析法顯著減輕了用戶從過載信息中查找文獻并將其梳理歸納為知識發(fā)展脈絡的工作負擔。然而,當政府管理者面臨科技發(fā)展政策規(guī)劃和戰(zhàn)略方向判斷、高校院所科研人員面臨科技創(chuàng)新機會發(fā)現(xiàn)和研究計劃制訂、企業(yè)研發(fā)人員面臨技術(shù)路線選擇和未來態(tài)勢研判時,傳統(tǒng)主路徑分析方法側(cè)重于單一知識發(fā)展脈絡抽取、全景覆蓋能力羸弱的特點,使之難以應對這些應用場景;語義主路徑分析法則給出一套更為科學、合理、有效的解決方案,但其在主路徑選擇時,偏重于路徑遍歷權(quán)重的做法使得部分主路徑偏離聚簇中心,不僅在能否代表這一子領(lǐng)域知識發(fā)展脈絡方面存疑,而且不同主路徑的主題可能相互重疊,區(qū)分并不明顯。對此,本文提出一種基于改進密度聚類算法的語義主路徑分析方法,即把候選路徑聚簇密度和路徑遍歷權(quán)重進行疊加形成復合密度,通過調(diào)節(jié)復合密度中兩個要素的比重來優(yōu)化主題聚簇中心的定位;聚簇中心的位置變化收斂后,將位于不同主題聚簇中心的路徑作為結(jié)果輸出。
為驗證本文方法的有效性和普適性,本文選取兩個完全不同領(lǐng)域、不同類型的數(shù)據(jù)集展開實證分析,即電動汽車鋰離子電池專利數(shù)據(jù)集和材料科學高影響力作者論文引文數(shù)據(jù)集。研究結(jié)果表明,在這兩類數(shù)據(jù)集中,本文方法均可以顯著優(yōu)化部分主路徑偏離聚簇中心的現(xiàn)象,避免了其在語義空間和路徑遍歷權(quán)重之間的失衡。然而,該方法仍然存在可優(yōu)化之處,在復合密度調(diào)節(jié)過程中,聚簇中心的數(shù)量會發(fā)生變化,因此,需要人工干預以使聚簇中心的數(shù)量保持不變;如何在徹底避免人工干預的情況下實現(xiàn)主路徑的優(yōu)化選取,是未來重要研究任務之一。當前,各類主路徑分析方法使用的引文網(wǎng)絡通常聚焦于某領(lǐng)域的局部引文網(wǎng)絡,在構(gòu)建網(wǎng)絡過程中,難免出現(xiàn)數(shù)據(jù)遺漏或者噪聲現(xiàn)象,影響主路徑的結(jié)果;而基于全局引文網(wǎng)絡的測度指標如CD指數(shù),則給出了良好的啟發(fā),即形成基于全局引文網(wǎng)絡的節(jié)點或連線重要性測度指標,以獲得更加穩(wěn)健的主路徑分析結(jié)果。本文還發(fā)現(xiàn),主路徑難以將高顛覆性文獻納入其中;然而,顛覆性是測度文獻創(chuàng)造性和影響力的重要指標,因此,如何將顛覆性測度指標與主路徑分析方法相結(jié)合,形成由最具顛覆性的文獻串聯(lián)起來的知識發(fā)展脈絡,也是未來重要研究方向之一。