劉智鋒 馬永強 楊金慶
(1.北京大學(xué)信息管理系,北京 100871;2.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
隨著學(xué)術(shù)大數(shù)據(jù)時代的到來,學(xué)術(shù)論文數(shù)量呈現(xiàn)指數(shù)增長[1]??蒲腥藛T已經(jīng)不能單靠人力對學(xué)術(shù)論文進行逐一閱讀來識別研究熱點與研究前沿,如何快速從海量的文獻中獲取所需的知識和梳理領(lǐng)域知識脈絡(luò),成為當(dāng)今科研社區(qū)的一個重要挑戰(zhàn)[2]。由于關(guān)鍵詞是由作者選取表征文章的主要研究內(nèi)容的規(guī)范化學(xué)術(shù)詞匯[3],科學(xué)計量學(xué)等領(lǐng)域的學(xué)者把學(xué)術(shù)論文中的關(guān)鍵詞作為表示研究主題的重要計量對象。關(guān)鍵詞作為研究主題與方法等的外化表現(xiàn),與研究主題存在共生關(guān)系,會隨著研究主題的變化而變化。具體而言,當(dāng)研究主題保持一定的熱度,相應(yīng)的關(guān)鍵詞可能會存在較長的時間;當(dāng)研究主題熱度衰減,相應(yīng)的關(guān)鍵詞可能會減少,甚至消失。目前,學(xué)者們主要采用共詞分析以及詞頻統(tǒng)計等方法,分析學(xué)科領(lǐng)域的研究熱點與前沿[4],鮮有學(xué)者從關(guān)鍵詞生命周期視角揭示其內(nèi)在規(guī)律與影響因素。
因此,本文聚焦于關(guān)鍵詞生命周期的量化分析,以期對研究主題演化和研究熱點研究有一定的啟發(fā)作用。學(xué)術(shù)論文關(guān)鍵詞表征論文的主要內(nèi)容,可以表示論文的研究問題,亦可以表示論文的研究方法,即關(guān)鍵詞在論文內(nèi)容的表示中具有不同的功能[5]。如“基于深度卷積神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)混合圖像檢測”論文中,關(guān)鍵詞“混合圖像檢測”表示論文的研究問題,而關(guān)鍵詞“深度卷積神經(jīng)網(wǎng)絡(luò)”表示論文的研究方法。在本研究中,將學(xué)術(shù)論文的詞匯功能定義為詞匯在學(xué)術(shù)論文上下文環(huán)境下所對應(yīng)的內(nèi)容或用途。因此,在詞匯功能視角下,能夠區(qū)分具有不同語義功能的關(guān)鍵詞,如研究問題、研究方法等;在此基礎(chǔ)上,結(jié)合關(guān)鍵詞的生存分析,可以更加細(xì)粒度地對學(xué)科領(lǐng)域的問題類關(guān)鍵詞與方法類關(guān)鍵詞的生命周期進行測度和對關(guān)鍵詞生存的影響因素進行分析,以更好地理解和把握關(guān)鍵詞的演化規(guī)律,對研究主題演化和研究脈絡(luò)梳理等相關(guān)研究,具有一定的借鑒意義。
學(xué)術(shù)文本的詞匯功能是指詞匯在學(xué)術(shù)文本上下文環(huán)境下所對應(yīng)的內(nèi)容或者用途,其內(nèi)涵和NLP領(lǐng)域的語義角色不同。一般情況下,學(xué)術(shù)文本的詞匯功能包含研究問題、研究方法、研究領(lǐng)域、研究對象等。隨著自然語言處理技術(shù)和學(xué)術(shù)文本的獲取更加容易,國內(nèi)外不少學(xué)者開始關(guān)注如何利用自然語言處理的技術(shù),自動從學(xué)術(shù)文本中識別出問題、方法、技術(shù)等實體及其之間的關(guān)系[6]。在早期的研究中,學(xué)者們主要應(yīng)用文獻計量學(xué)、共詞分析等方法,粗略地獲取學(xué)科領(lǐng)域的研究主題[7]。然而,這些研究并不能深入地解決諸如特定的研究問題和特定的研究方法的演化情況。因此,學(xué)者們開始探索學(xué)術(shù)文本詞匯功能的分類及其自動識別。
學(xué)術(shù)文本詞匯功能的分類研究,是進行詞匯功能自動識別及其應(yīng)用的前提,在學(xué)術(shù)文本詞匯功能分類框架的基礎(chǔ)上,大部分學(xué)者將學(xué)術(shù)文本詞匯功能的識別轉(zhuǎn)化為分類問題,并采用不同的方法進行研究。Kondo T等[8]將學(xué)術(shù)論文標(biāo)題詞匯功能分為研究主題、研究方法、研究目的和其他,并根據(jù)從標(biāo)題中得到的規(guī)則,對這4類詞匯進行識別。隨后,Nanba H等[9]將論文的標(biāo)題和摘要中出現(xiàn)的詞匯分為技術(shù)和效果兩大類,其中技術(shù)包含有算法、工具、數(shù)據(jù)等,效果由屬性和相應(yīng)的屬性值組成,并構(gòu)建相應(yīng)的特征,用傳統(tǒng)機器學(xué)習(xí)的方法進行自動識別。Gupta S等[10]將摘要中的詞匯功能分為話題、技術(shù)和領(lǐng)域,其中,話題指的是論文的貢獻,而技術(shù)是指使用的方法和工具,領(lǐng)域指的是論文的應(yīng)用領(lǐng)域,并采用模式學(xué)習(xí)的方法進行自動識別。Dan S等[11]將計算語言學(xué)領(lǐng)域?qū)W術(shù)論文詞匯語義功能分為技術(shù)和領(lǐng)域。Mesbah S等[12]將學(xué)術(shù)論文中的詞匯功能分為方法、軟件、數(shù)據(jù)集、目標(biāo)和結(jié)果。最近,Heffernan K等[13]將科學(xué)研究定義為提出問題和解決問題的過程,并將詞匯語義功能分為問題和方法兩大類。
國內(nèi)學(xué)者亦對詞匯功能進行初步的探索,趙洪等[14]對《情報學(xué)報》發(fā)表論文中的理論和方法實體進行標(biāo)注,并采用條件隨機場等方法對論文標(biāo)題和摘要中的理論術(shù)語進行識別。程齊凱[15]在總結(jié)以往研究的基礎(chǔ)上,提出了較為完整的學(xué)術(shù)文本詞匯功能框架,將詞匯功能分為領(lǐng)域無關(guān)詞匯功能和領(lǐng)域相關(guān)詞匯功能,其中,領(lǐng)域無關(guān)詞匯功能分為研究問題和研究方法,并采用條件隨機場和機器排序算法進行識別。劉智鋒等[5]制定了信息計量學(xué)領(lǐng)域的關(guān)鍵詞語義功能分類框架,包含研究主題、研究方法、數(shù)據(jù)、領(lǐng)域范圍、研究對象以及其他6類,并構(gòu)建了語義功能標(biāo)注數(shù)據(jù)集。程齊凱等[6]通過構(gòu)建標(biāo)引規(guī)則自動從學(xué)術(shù)文獻標(biāo)題中識別研究問題和研究方法,從而構(gòu)建了一個標(biāo)準(zhǔn)的詞匯功能標(biāo)注數(shù)據(jù)集。周笑盈[16]將數(shù)字圖書館領(lǐng)域的關(guān)鍵詞語義功能分為研究背景、研究領(lǐng)域、研究熱點和研究對象4類,并對國際圖聯(lián)大會收錄的文章關(guān)鍵詞進行標(biāo)注,構(gòu)建不同語義功能的關(guān)鍵詞數(shù)據(jù)集,以揭示數(shù)字圖書館的研究熱點。
本研究參考Heffernan K等的觀點,將科學(xué)研究視作提出問題和解決問題的過程,因此將詞匯功能分為研究問題、研究方法和其他3類。此外,以往的詞匯功能識別主要采用基于規(guī)則抽取、條件隨機場等方法,而隨著深度學(xué)習(xí)和自然語言處理技術(shù)的快速發(fā)展,將深度學(xué)習(xí)等方法應(yīng)用到學(xué)術(shù)文本關(guān)鍵詞語義功能的自動識別中可以得到更高的準(zhǔn)確率。
不同的關(guān)鍵詞具有不同的生命周期,其生命周期受到很多因素的共同影響。關(guān)鍵詞是反映論文語義內(nèi)容的規(guī)范化術(shù)語,可以將關(guān)鍵詞看成知識單元,根據(jù)知識擴散理論和信息老化理論,在關(guān)鍵詞生命周期中,隨著時間的推移,知識單元不斷對外進行擴散,同時會伴隨著知識單元價值的衰減,最終失去價值,走向消亡。知識單元的生命周期不僅受到自身屬性的影響,亦會受到擴散因素的影響。本研究重點關(guān)注論文發(fā)表的期刊等級、是否基金資助、作者合作規(guī)模和參考文獻數(shù)量等內(nèi)部因素以及論文被引頻次、下載次數(shù)等擴散因素對關(guān)鍵詞生存時間的影響。
1.2.1 論文內(nèi)部因素
期刊等級指的是數(shù)據(jù)庫或者機構(gòu)根據(jù)期刊的影響因子等因素將期刊劃分成的不同層級。不同等級的期刊對論文的評審有不同的標(biāo)準(zhǔn),因此不同等級期刊收錄的論文質(zhì)量會存在差異,從而期刊在學(xué)術(shù)社區(qū)的認(rèn)可度也不同。此外,不同期刊的受眾亦會存在一定的差異,導(dǎo)致發(fā)表在不同期刊的論文關(guān)鍵詞可能會有不同的生存時間。劉智鋒等[17]以圖書情報領(lǐng)域為例,研究發(fā)現(xiàn)圖情領(lǐng)域權(quán)威期刊《中國圖書館學(xué)報》和《情報學(xué)報》關(guān)鍵詞的生存時間比其他核心期刊的關(guān)鍵詞生存時間還長,且具有顯著性差異。計算機學(xué)科領(lǐng)域和圖書情報學(xué)科領(lǐng)域存在一定的區(qū)別,因此有必要推廣到計算機學(xué)科,進一步驗證。
獲得基金資助可以看作是對研究項目的一種認(rèn)可,論文作為研究項目的重要產(chǎn)出,基金資助的論文亦可能會受到更加廣泛的關(guān)注。以往不少研究分析基金資助對論文影響力的影響,大部分結(jié)果表明,基金資助的論文相比于非基金資助的論文可獲得更多的被引頻次[18-20]、具有更高的即時影響力[21]與傳播力[22]??芍?,論文是否受基金資助對于論文的認(rèn)可度和關(guān)注度等具有顯著的影響,從而可能影響論文關(guān)鍵詞的生存時間。石磊[23]采用生存分析中的Cox回歸方法,發(fā)現(xiàn)論文是否受基金資助對論文的零被引生存狀況具有顯著影響。然而,至今鮮有研究分析基金資助對論文關(guān)鍵詞生存狀況的影響。因此,本研究將論文分為基金資助論文和非基金資助論文兩類,研究基金資助因素對論文關(guān)鍵詞生存時間的影響。
學(xué)者合作解決復(fù)雜的科學(xué)問題已經(jīng)越來越普遍,隨著合作研究的盛行,關(guān)于最佳合作規(guī)模與學(xué)術(shù)論文影響力之間的關(guān)系等問題,受到科學(xué)計量學(xué)等相關(guān)領(lǐng)域?qū)W者的廣泛關(guān)注。馬榮康等[24]以Financial Times TOP45商學(xué)院期刊論文為例,發(fā)現(xiàn)多作者論文比單作者論文獲得更多的被引次數(shù),論文的被引次數(shù)和論文的影響力之間存在倒U型關(guān)系,其中轉(zhuǎn)折點大約為3人。楊瑞仙等[25]發(fā)現(xiàn),作者合作與論文影響力存在正相關(guān)關(guān)系,同時發(fā)現(xiàn)科學(xué)合作最佳規(guī)模為2~4人??梢?,論文作者合作規(guī)模的大小對論文的影響力具有顯著影響;不同作者合作規(guī)模亦可能影響論文的認(rèn)可度,從而影響論文關(guān)鍵詞的生存時間。然而,未有學(xué)者對作者合作規(guī)模是否會對論文關(guān)鍵詞生存時間產(chǎn)生影響進行研究;本文將對作者合作規(guī)模與論文關(guān)鍵詞生存時間之間的關(guān)系進行分析。
參考文獻是論文的重要知識基礎(chǔ),參考文獻的數(shù)量在一定程度上可以反映一篇論文的知識流入量,亦可以在一定程度上反映一篇論文的質(zhì)量。陳仕吉等[26]采用Tobit多元回歸模型對參考文獻數(shù)量和論文被引頻次之間的關(guān)系進行探析,發(fā)現(xiàn)參考文獻數(shù)量對被引次數(shù)有積極的影響。肖學(xué)斌等[27]同樣發(fā)現(xiàn)參考文獻數(shù)與論文被引次數(shù)存在正相關(guān)??芍?,參考文獻數(shù)會對論文的采納產(chǎn)生一定的影響,從而可能會影響關(guān)鍵詞的生存時間,本文將對參考文獻數(shù)對論文關(guān)鍵詞生存時間的影響進行研究。
1.2.2 論文擴散因素
科學(xué)知識通過引用關(guān)系發(fā)生擴散,其可以記錄科學(xué)知識的演化過程[28]。論文被引作為科學(xué)知識擴散的重要途徑之一,可以通過論文的被引頻次來反映該論文知識的擴散情況。論文的被引次數(shù)越多,說明論文所蘊含的科學(xué)知識更多地被其他論文所采納,論文的科學(xué)知識擴散的范圍更廣。論文的關(guān)鍵詞可以看作是論文的知識單元[29],論文的科學(xué)知識擴散范圍越廣,關(guān)鍵詞的生存時間可能越長,而零被引或者被引次數(shù)少的論文擴散范圍窄,論文的關(guān)鍵詞生存時間可能會比較短。因此,有必要對論文的被引頻次與關(guān)鍵詞生存時間之間的關(guān)系進行分析,揭示知識單元擴散對關(guān)鍵詞生存時間的影響機制。此外,科研相關(guān)人員通過下載論文,之后進行閱讀、學(xué)習(xí)、傳遞、引用等[30];因此,除了論文的被引情況,論文的下載情況亦能反映論文的擴散情況。本研究將采用知網(wǎng)記錄的論文被下載次數(shù)來表示論文的下載情況,分析論文的下載次數(shù)與論文關(guān)鍵詞生存時間之間的關(guān)系。
計算機學(xué)科領(lǐng)域作為當(dāng)前的重點研究領(lǐng)域之一,學(xué)科知識不斷更新迭代,適合于研究學(xué)科知識的生存情況,可促進對該領(lǐng)域研究主題演化的理解;且該學(xué)科領(lǐng)域論文的研究問題或研究方法常見于關(guān)鍵詞,有利于研究不同詞匯功能關(guān)鍵詞的生存時間差異。因此,本研究以國內(nèi)計算機學(xué)科領(lǐng)域為例,選取《中文核心期刊要目總覽》第八版目錄下的TP自動化技術(shù)、計算機技術(shù)類別下的32本期刊作為本文的數(shù)據(jù)來源,構(gòu)建數(shù)據(jù)集?!吨形暮诵钠诳靠傆[》是由北京大學(xué)圖書館和北京十幾所高校圖書館合作的研究項目成果[31],是我國重要的核心期刊分類目錄之一,其中TP類目涵蓋了我國計算機學(xué)科研究的重點領(lǐng)域,因此,該數(shù)據(jù)集具有較好的代表性。本文根據(jù)期刊名稱從中國知網(wǎng)進行數(shù)據(jù)采集,采集的數(shù)據(jù)字段主要包含論文發(fā)表年份、發(fā)表期刊、標(biāo)題、作者、機構(gòu)、摘要、關(guān)鍵詞、基金資助、專輯、專題、分類號、被引頻次、下載次數(shù)、頁數(shù)以及參考文獻數(shù),采集時間為2020年12月15日—2021年1月15日。
本數(shù)據(jù)集一共包含355 502篇論文,剔除征稿啟事、報告、簡介等非學(xué)術(shù)論文以及缺少關(guān)鍵詞等字段的論文,最后一共有298 631篇論文,發(fā)表時間在1982—2020年之間。論文的關(guān)鍵詞總數(shù)為1 277 017個,篇均關(guān)鍵詞數(shù)為4.276個。其中,作者規(guī)模大小、參考文獻數(shù)、被引次數(shù)和下載次數(shù)分布如圖1所示。論文數(shù)量和關(guān)鍵詞數(shù)量時間分布如圖2(a)所示。從圖中可知,論文數(shù)和關(guān)鍵詞數(shù)都呈現(xiàn)先快速增長、后有所下降的趨勢。由于部分期刊在2010年之后出現(xiàn)刊期和載文減少的現(xiàn)象,導(dǎo)致2010年之后論文數(shù)呈現(xiàn)下降趨勢。
圖1 作者規(guī)模大小、參考文獻數(shù)、被引次數(shù)和下載次數(shù)分布圖
本研究基于詞匯功能顯現(xiàn)機理和詞匯功能分類框架,將關(guān)鍵詞的詞匯功能分為研究問題、研究方法和其他3類,并采用陸偉等提出的BERT和LSTM關(guān)鍵詞詞匯功能標(biāo)注方法,對關(guān)鍵詞的詞匯功能進行標(biāo)注,分別構(gòu)建問題類關(guān)鍵詞集和方法類關(guān)鍵詞集,該方法將論文的摘要和關(guān)鍵詞作為輸入,采用BERT預(yù)訓(xùn)練模型對文本進行向量化表示,隨后輸入LSTM網(wǎng)絡(luò)中間層,最終使用Softmax分類器進行標(biāo)簽的預(yù)測,結(jié)果表明,準(zhǔn)確率、召回率和F1值分別達到0.83、0.87和0.85,優(yōu)于傳統(tǒng)的方法[32]。最終本研究一共得到問題類關(guān)鍵詞63 327個,方法類關(guān)鍵詞596 366個,表明計算機學(xué)科領(lǐng)域一個問題會采用不同的方法進行研究,關(guān)鍵詞更多的表示論文的研究方法;問題類關(guān)鍵詞數(shù)和方法類關(guān)鍵詞數(shù)時間分布如圖2(b)所示。從圖中可知,問題類關(guān)鍵詞數(shù)量隨著時間不斷增長,而方法類關(guān)鍵詞先增加,后減少。
此外,為了生成可以直接用于生存分析的數(shù)據(jù)格式,本研究做了如下處理:
1)確定生存分析的起始觀察年份n,通過與第n年之前發(fā)表的論文關(guān)鍵詞進行逐年匹配,獲得在第n年之前未出現(xiàn)過的關(guān)鍵詞,構(gòu)建起始觀察年的新生關(guān)鍵詞;同時通過與第n年之后t年內(nèi)發(fā)表的論文關(guān)鍵詞進行逐年匹配,獲得第n年新生關(guān)鍵詞在之后t年的生存狀態(tài)。
2)為了避免分析一年數(shù)據(jù)的結(jié)果存在偶然性,同時考慮前面有足夠的年份用于確定新生關(guān)鍵詞和觀察新生關(guān)鍵詞的生存狀況,本研究選取2007—2009年3年的新生關(guān)鍵詞作為整體,分析其在隨后10年內(nèi)的生存狀況,即觀察期分別為2008—2017年、2009—2018年和2010—2019年,并選取關(guān)鍵詞最后一次出現(xiàn)的時間點,來計算關(guān)鍵詞的生存時間。
3)分別對論文的期刊等級、是否基金資助、作者合作規(guī)模、參考文獻數(shù)、被引頻次和下載次數(shù)6個字段進行結(jié)構(gòu)化處理,并根據(jù)各個字段內(nèi)容的類型和分布情況,構(gòu)建相應(yīng)的自變量,用于研究關(guān)鍵詞生存時間影響因素。
生存分析統(tǒng)計方法主要包含壽命表、Kaplan-Meier曲線和Cox回歸3種生存分析統(tǒng)計方法。其中,Kaplan-Meier曲線由Kaplan和Meier于1958年提出,橫軸為生存時間,縱軸為生存率,可以直觀地展示生存分析的結(jié)果,適合于單個因素的組間對比分析。因此,本研究將Kaplan-Meier曲線應(yīng)用于關(guān)鍵詞生存時間單因素影響分析,并采用Log-Rank和Wilcoxon(Gehan-Breslow)對兩組或多組生存曲線差異進行顯著性檢驗。此外,Cox回歸適用于研究多個因素對生存時間的影響,因此,本研究同時采用Cox回歸對關(guān)鍵詞生存時間多影響因素進行分析。
中國計算機協(xié)會(CCF)2020年首次發(fā)布了《CCF推薦中文科技期刊目錄》,從347本中文期刊中遴選37本推薦期刊,并將其分為A、B、C共3類期刊。CCF作為中國計算機科學(xué)領(lǐng)域重要的學(xué)術(shù)團體,其發(fā)布的推薦期刊目錄具有較強的權(quán)威性。因此,本研究根據(jù)期刊類型將32本期刊分為兩類,分別為A類期刊和非A類期刊,分析期刊等級對論文關(guān)鍵詞生存時間的影響。
不同等級期刊的問題類關(guān)鍵詞生存函數(shù)如圖3(a)所示,可知來自A類期刊的問題類關(guān)鍵詞生存時間略長于非A類期刊,A類期刊的問題類關(guān)鍵詞平均生存時間為2.322年,而非A類期刊的為2.268年,根據(jù)Log Rank和Breslow檢驗結(jié)果顯示,兩者之間差異不顯著。不同等級期刊的方法類關(guān)鍵詞生存函數(shù)如圖3(b)所示,同樣來自A類期刊的方法類關(guān)鍵詞生存時間長于來自非A類期刊的關(guān)鍵詞,比來自非A類期刊的方法類關(guān)鍵詞長0.301年。可見,期刊等級與論文問題類關(guān)鍵詞生存時間不存在相關(guān)關(guān)系,而與方法類關(guān)鍵詞生存時間存在顯著相關(guān)關(guān)系。
圖3 按期刊等級分組的生存曲線
本研究根據(jù)論文是否受基金資助,將論文分為兩組,分別為基金資助和非基金資助。是否基金資助論文的問題類和方法類關(guān)鍵詞生存函數(shù)如圖4(a)和圖4(b)所示。實驗結(jié)果表明,基金資助論文和非基金資助論文的問題類關(guān)鍵詞生存時間相近。基金資助論文的方法類關(guān)鍵詞生存時間比非基金資助論文的方法類關(guān)鍵詞生存時間更長。在0.05置信度水平下,基金資助論文和非基金資助論文的問題類關(guān)鍵詞生存時間不存在顯著性差異;而方法類關(guān)鍵詞生存時間存在顯著性差異。
本研究中的論文作者合作規(guī)模分布情況(圖1(a)),作者合作規(guī)模主要集中在1~5人之間,其中作者數(shù)為3人的論文最多。根據(jù)楊瑞仙等[25]的研究發(fā)現(xiàn),作者合作規(guī)模2~4人為最佳,本研究擬將作者合作規(guī)模分為3組,作者合作規(guī)模為1對應(yīng)組1,作者合作規(guī)模為2~4對應(yīng)組2,作者合作規(guī)模大于等于5歸為組3,分析論文不同作者合作規(guī)模與論文關(guān)鍵詞生存時間的相關(guān)關(guān)系。
由圖5(a)所示,當(dāng)作者合作規(guī)模為2~4時,論文問題類關(guān)鍵詞的生存時間為最長,達到2.338年;其次為作者合作規(guī)模大于等于5時,其生存時間為2.232年;最短的為作者合作規(guī)模為1時。由圖5(b)可得,作者合作規(guī)模為大于等于5的論文方法類關(guān)鍵詞平均生存時間最長,略長于作者合作規(guī)模為2~4的論文方法類關(guān)鍵詞生存時間,只有1個作者的論文方法類關(guān)鍵詞生存時間最短。作者合作規(guī)模與問題類關(guān)鍵詞生存時間不存在相關(guān)關(guān)系;而作者合作規(guī)模為1的論文方法類關(guān)鍵詞和作者合作規(guī)模為2~4與大于等于5的論文方法類關(guān)鍵詞的生存時間具有顯著性差異。
圖4 按是否基金資助分組的生存曲線
圖5 按作者合作規(guī)模分組的生存曲線
根據(jù)論文參考文獻數(shù)分布(圖1(b))可知,大部分論文的參考文獻數(shù)小于20。基于此,本研究擬將參考文獻數(shù)為0~20的劃分為組1,將參考文獻數(shù)大于等于20的劃分為組2,以研究不同參考文獻數(shù)與論文關(guān)鍵詞生存時間的相關(guān)關(guān)系。
不同參考文獻數(shù)的論文問題類關(guān)鍵詞生存時間差異如圖6(a)和圖6(b)所示,可知參考文獻數(shù)大于等于20的論文問題類和方法類關(guān)鍵詞生存時間,均大于參考文獻數(shù)小于20的論文問題類和方法類關(guān)鍵詞生存時間。通過Log Rank和Breslow檢驗發(fā)現(xiàn),論文參考文獻數(shù)與論文問題類關(guān)鍵詞生存時間不具有顯著的相關(guān);而在0.05置信度水平下,與方法類關(guān)鍵詞生存時間存在顯著的相關(guān)關(guān)系。
圖6 按參考文獻數(shù)分組的生存曲線
論文被引頻次分布符合冪律分布特征(圖1(c)),被引頻次在0~10之間的論文數(shù)快速下降,而被引頻次大于等于30的論文數(shù)趨于穩(wěn)定。因此,本文擬將論文的被引頻次分為3組,被引頻次在0~10之間的為低被引組,被引頻次在10~30之間的為中被引組,被引頻次大于等于30的為高被引組。
從圖7(a)和圖7(b)可得,不同被引頻次論文的問題類和方法類關(guān)鍵詞的生存時間長短為:高被引論文>中被引論文>低被引論文,且高被引論文關(guān)鍵詞生存時間和中被引論文關(guān)鍵詞生存時間之間的差異,大于中被引論文關(guān)鍵詞生存時間和低被引論文關(guān)鍵詞生存時間之間的差異。具體而言,高被引論文問題類關(guān)鍵詞生存時間比低被引論文的長1.264年;高被引論文方法類關(guān)鍵詞生存時間比低被引論文的長0.977年。高被引論文、中被引論文和低被引論文的關(guān)鍵詞生存時間兩兩均存在顯著性差異??梢姡撐臄U散廣度與論文關(guān)鍵詞的生存時間存在正相關(guān)。
圖7 按被引頻次分組的生存曲線
由論文下載次數(shù)的分布情況(圖1(d))可知,隨著下載次數(shù)的增加,相應(yīng)的論文數(shù)先增加,后不斷減少;下載次數(shù)約為100時,論文數(shù)量最大,當(dāng)下載次數(shù)大于等于300時,論文數(shù)逐漸趨于穩(wěn)定。本研究根據(jù)下載次數(shù)分布情況將論文分為3組,分別為:下載次數(shù)小于100為低下載組、下載次數(shù)介于100和300之間為中下載組、下載次數(shù)大于等于300為高下載組。研究不同下載次數(shù)的論文關(guān)鍵詞生存時間是否存在一定的差異。
不同下載次數(shù)論文的問題類和方法類關(guān)鍵詞生存情況如圖8(a)和圖8(b)所示,高下載論文的問題類和方法類關(guān)鍵詞生存曲線始終在最上方,而低下載論文的問題類和方法類關(guān)鍵詞生存曲線始終在最下方,中下載論文的生存曲線介于兩者之間,即高下載論文的問題類和方法類關(guān)鍵詞的平均生存時間最長,低下載論文的平均生存時間最短,中下載論文的平均生存時間介于兩者之間。此外,高下載論文問題類和方法類關(guān)鍵詞生存時間和中下載論文問題類和方法類關(guān)鍵詞生存時間之間的差異,大于中下載論文問題類和方法類關(guān)鍵詞生存時間和低下載論文問題類和方法類關(guān)鍵詞生存時間之間的差異。高下載論文、中下載論文和低下載論文兩兩之間的關(guān)鍵詞生存時間均存在顯著性差異。進一步驗證了論文擴散與論文關(guān)鍵詞生存時間存在正相關(guān)的關(guān)系。
圖8 按下載次數(shù)分組的生存曲線
Kaplan-Meier曲線僅能對生存時間的單個影響因素進行分析,且無法具體量化影響因素單位值變化對生存情況的影響大??;而Cox回歸比例風(fēng)險模型則可以建立生存時間的多影響因素模型,考察多個變量對關(guān)鍵詞生存時間的影響。因此,本研究采用Cox回歸方法更加精確地分析關(guān)鍵詞的多因素生存風(fēng)險。關(guān)鍵詞Cox回歸分析的自變量和因變量與上述分析保持一致,具體如表1所示。
表1 關(guān)鍵詞生存時間的影響因素與賦值說明
本研究先以全部關(guān)鍵詞為分析對象,研究關(guān)鍵詞的多因素生存風(fēng)險;再分別對問題類和方法類關(guān)鍵詞進行多因素生存風(fēng)險分析。全部關(guān)鍵詞的Cox回歸比例風(fēng)險模型如表2所示,在0.05置信度水平下,是否基金資助、被引頻次和下載次數(shù)與關(guān)鍵詞生存時間存在顯著的相關(guān)關(guān)系,且這3個變量的系數(shù)B均小于0,表明基金資助論文的關(guān)鍵詞生存風(fēng)險小于非基金資助論文的關(guān)鍵詞生存風(fēng)險,即基金資助論文的關(guān)鍵詞生存時間長于非基金資助論文關(guān)鍵詞生存時間。同理,高被引論文的關(guān)鍵詞生存風(fēng)險小于低被引論文的,中被引論文的關(guān)鍵詞生存風(fēng)險亦小于低被引論文的;高下載和中下載論文的關(guān)鍵詞生存風(fēng)險小于低下載論文的關(guān)鍵詞生存風(fēng)險。此外,作者合作規(guī)模為2~4人的論文關(guān)鍵詞生存時間長于作者合作規(guī)模為1人的論文關(guān)鍵詞生存時間。
表2 全部關(guān)鍵詞生存時間Cox回歸模型
問題類關(guān)鍵詞的Cox回歸結(jié)果如表3所示,在0.05置信度水平下,論文的被引頻次和下載次數(shù)與關(guān)鍵詞的生存時間具有顯著的相關(guān)關(guān)系,其中,高被引論文的問題類關(guān)鍵詞生存風(fēng)險為低被引論文的問題類關(guān)鍵詞生存風(fēng)險的0.840倍,高下載論文的問題類關(guān)鍵詞的生存風(fēng)險為低下載論文的問題類關(guān)鍵詞生存風(fēng)險的0.850倍,而結(jié)果表明,論文內(nèi)部因素對于問題類關(guān)鍵詞的生存時間不具有相關(guān)關(guān)系。進一步地,將論文擴散因素排除之后,構(gòu)建新的Cox回歸模型結(jié)果表明,A類期刊、基金資助、作者合作規(guī)模大于1人和參考文獻數(shù)大于等于20等因素,可以降低問題類關(guān)鍵詞的生存風(fēng)險,然而仍然不具有顯著性。
表3 問題類關(guān)鍵詞生存時間Cox回歸模型
方法類關(guān)鍵詞的Cox回歸模型如表4所示,從表中可得,論文擴散因素中的被引頻次和下載次數(shù)與論文方法類關(guān)鍵詞的生存時間具有顯著的相關(guān)關(guān)系,其中高被引和中被引論文的方法類關(guān)鍵詞生存風(fēng)險分別為低被引論文的方法類關(guān)鍵詞生存風(fēng)險的0.869倍和0.946倍,高下載和中下載論文的方法類關(guān)鍵詞生存風(fēng)險分別為低下載論文的方法類關(guān)鍵詞生存風(fēng)險的0.867倍和0.936倍。此外,基金資助論文的方法類關(guān)鍵詞生存時間長于非基金資助論文的方法類關(guān)鍵詞生存時間;方法類關(guān)鍵詞的多因素生存風(fēng)險分析結(jié)果與全部關(guān)鍵詞的多因素生存風(fēng)險分析結(jié)果一致。
表4 方法類關(guān)鍵詞生存時間Cox回歸模型
同樣地,將論文的擴散因素排除,構(gòu)建新的Cox回歸模型,結(jié)果顯示,在0.05置信度水平下,期刊等級、是否基金資助和作者合作規(guī)模與方法類關(guān)鍵詞的生存時間具有顯著的相關(guān)關(guān)系,其中A類期刊論文的方法類關(guān)鍵詞的生存風(fēng)險為非A類期刊論文的方法類關(guān)鍵詞生存風(fēng)險的0.949倍,基金資助論文的方法類關(guān)鍵詞的生存風(fēng)險為非基金資助論文的方法類關(guān)鍵詞生存風(fēng)險的0.970倍,作者合作規(guī)模為2~4人的論文方法類關(guān)鍵詞生存風(fēng)險為作者合作規(guī)模只有1人的0.951倍,作者合作規(guī)模為5人及以上論文的方法類關(guān)鍵詞的生存風(fēng)險為作者合作規(guī)模只有1人的0.933倍。而參考文獻數(shù)與方法類關(guān)鍵詞的生存時間仍不具有顯著的相關(guān)關(guān)系。
本研究從關(guān)鍵詞詞匯功能的視角出發(fā),構(gòu)建了關(guān)鍵詞生存時間影響因素模型,并分別從單因素和多因素兩個視角,探究了不同影響因素與不同詞匯功能的關(guān)鍵詞生存時間的相關(guān)關(guān)系。研究結(jié)果表明,論文的擴散因素包含論文的被引頻次和下載次數(shù),這兩個因素與問題類和方法類關(guān)鍵詞生存時間存在顯著的正相關(guān)關(guān)系,具體表現(xiàn)為高被引論文關(guān)鍵詞生存時間>中被引論文關(guān)鍵詞生存時間>低被引論文關(guān)鍵詞生存時間,高下載論文關(guān)鍵詞生存時間>中下載論文關(guān)鍵詞生存時間>低下載論文關(guān)鍵詞生存時間;論文的內(nèi)部因素中,期刊等級、是否基金資助、作者合作規(guī)模和參考文獻數(shù)與方法類關(guān)鍵詞生存時間存在顯著的相關(guān)關(guān)系,具體表現(xiàn)為A類期刊論文方法類關(guān)鍵詞生存時間>非A類期刊論文方法類關(guān)鍵詞生存時間;基金資助論文方法類關(guān)鍵詞生存時間>非基金資助論文方法類關(guān)鍵詞生存時間;作者合作規(guī)模為2~4人論文方法類關(guān)鍵詞生存時間>作者合作規(guī)模大于等于5人論文方法類關(guān)鍵詞生存時間>作者合作規(guī)模為1人論文方法類關(guān)鍵詞生存時間;參考文獻數(shù)大于20論文方法類關(guān)鍵詞生存時間>參考文獻數(shù)小于等于20論文方法類關(guān)鍵詞生存時間。
本研究在詞匯功能視角下,將生存分析方法應(yīng)用于關(guān)鍵詞的分析,探究了論文內(nèi)部因素和擴散因素與關(guān)鍵詞生存時間的相關(guān)關(guān)系。本研究尚屬于探索階段,存在一定的不足,如本研究通過深度學(xué)習(xí)方法僅構(gòu)建計算機學(xué)科領(lǐng)域的問題類和方法類關(guān)鍵詞集,詞匯功能自動識別的方法和技術(shù)有待進一步完善,以支撐構(gòu)建更多學(xué)科領(lǐng)域的數(shù)據(jù)集。此外,關(guān)鍵詞生存時間可能受到復(fù)雜因素的影響,后續(xù)將采用因果推斷等方法,探究關(guān)鍵詞生存時間的其他影響因素以及其他學(xué)科領(lǐng)域的關(guān)鍵詞生存規(guī)律,并進一步應(yīng)用于熱點識別等研究。