段慶鋒 陳 紅 劉東霞 閆緒嫻 張紅兵
(山西財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,山西 太原 030006)
新興主題已經(jīng)成為科技情報(bào)學(xué)界持續(xù)關(guān)注的熱點(diǎn)和難點(diǎn)。代表科技趨勢(shì)的學(xué)科新興主題能夠?yàn)閲?guó)家科技戰(zhàn)略規(guī)劃、企業(yè)增強(qiáng)科技競(jìng)爭(zhēng)力、研發(fā)人員尋找技術(shù)機(jī)會(huì)提供關(guān)鍵的決策依據(jù),具有極高的戰(zhàn)略價(jià)值。成長(zhǎng)性是新興主題的重要表現(xiàn),更是識(shí)別新興主題的關(guān)鍵。通過(guò)梳理相關(guān)文獻(xiàn)可以發(fā)現(xiàn),盡管新興主題識(shí)別采用的邏輯依據(jù)各有不同,但出現(xiàn)最多的就是成長(zhǎng)性(Growth)特征[1]。通過(guò)捕捉成長(zhǎng)性特征發(fā)現(xiàn)新興主題識(shí)別領(lǐng)域的基本共識(shí)。然而,成長(zhǎng)性具有鮮明的動(dòng)態(tài)屬性,學(xué)科趨勢(shì)面臨諸多不確定性,預(yù)測(cè)甚至洞見(jiàn)學(xué)科未來(lái)存在挑戰(zhàn)性。
以深度神經(jīng)網(wǎng)絡(luò)及鏈路預(yù)測(cè)為代表的信息技術(shù)前沿進(jìn)展為新興主題識(shí)別提供了有力工具。已有研究采用的方法多樣,以曲線擬合分析、時(shí)間序列預(yù)測(cè)、網(wǎng)絡(luò)分析等為代表的模型工具得到廣泛應(yīng)用,但在識(shí)別有效性及預(yù)見(jiàn)能力方法仍存探討空間。LSTM具有很強(qiáng)的時(shí)序依賴分析預(yù)測(cè)能力,有助于捕捉新興主題快速增長(zhǎng)態(tài)勢(shì);鏈路預(yù)測(cè)能夠通過(guò)網(wǎng)絡(luò)依賴關(guān)系預(yù)測(cè)二元關(guān)系形成幾率,有助于從網(wǎng)絡(luò)演化視角揭示新興主題的成長(zhǎng)性。兩種模型從不同層面形成趨勢(shì)預(yù)見(jiàn)能力,通過(guò)它們的融合分析,有助于提升學(xué)科新興主題成長(zhǎng)性的綜合識(shí)別能力,進(jìn)而推進(jìn)學(xué)科新興主題領(lǐng)域研究。
關(guān)于學(xué)科新興主題識(shí)別的文獻(xiàn)豐富且探討相對(duì)深入。學(xué)科主題的內(nèi)涵理解與外延邊界把握是識(shí)別分析的基礎(chǔ),以LDA、BERT等為代表的語(yǔ)義分析模型及工具極大地促進(jìn)了文本語(yǔ)義理解能力[2-3],與基于主題詞的定性化分析形成效能互補(bǔ)[3]。新興特征的準(zhǔn)確捕捉與有效區(qū)分成為影響識(shí)別效果的關(guān)鍵。從思路上看,識(shí)別邏輯大致可以分為兩大類:一是主題特征序列視角的新興演化,強(qiáng)調(diào)時(shí)間維度下的主題狀態(tài)演化趨勢(shì)規(guī)律;二是結(jié)構(gòu)視角的關(guān)系變化,通過(guò)知識(shí)結(jié)構(gòu)變化揭示新興過(guò)程中的主題要素關(guān)系(如引用關(guān)系、共現(xiàn)關(guān)系)規(guī)律,通過(guò)聚類分析、社區(qū)探測(cè)等方法揭示主題簇的涌現(xiàn)或知識(shí)模式的呈現(xiàn)[4-6]。
近年隨著機(jī)器學(xué)習(xí)理論及算法的不斷成熟,面向主題的定量化預(yù)測(cè)模型及算法開(kāi)始受到關(guān)注[7],尤其深度學(xué)習(xí)的應(yīng)用趨勢(shì)最為明顯。例如,Liang Z T等[8]融合深度神經(jīng)網(wǎng)絡(luò)模型和文獻(xiàn)計(jì)量指標(biāo)用于預(yù)測(cè)新興主題。霍朝光等[9]構(gòu)建基于LSTM神經(jīng)網(wǎng)絡(luò)的學(xué)科主題熱度預(yù)測(cè)模型(TPP-LSTM),反映了LSTM對(duì)于主題熱度時(shí)間序列的良好預(yù)測(cè)能力。朱光等[10]將LDA主題模型和LSTM模型相結(jié)合,構(gòu)建主題預(yù)測(cè)模型,并對(duì)科學(xué)基金主題趨勢(shì)開(kāi)展了預(yù)測(cè)分析。陳偉等[11]利用LDA主題模型捕捉技術(shù)主題聚類,結(jié)合應(yīng)用包含雙重隨機(jī)過(guò)程的隱馬爾可夫模型(HMM)開(kāi)展未來(lái)技術(shù)趨勢(shì)的定量預(yù)測(cè)。Xu S等[12]構(gòu)建了融合多種機(jī)器學(xué)習(xí)模型的新興主題預(yù)測(cè)識(shí)別方法。許學(xué)國(guó)等[13]構(gòu)建結(jié)合經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition)和LSTM模型的時(shí)間序列技術(shù)主題預(yù)測(cè)模型,通過(guò)與Clarivate Analytics機(jī)構(gòu)2018年報(bào)告的比對(duì)驗(yàn)證,說(shuō)明了方法的有效性。李靜等[14]對(duì)比分析了BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和LSTM模型在熱點(diǎn)趨勢(shì)預(yù)測(cè)應(yīng)用方面的異同。值得注意的是,近年鏈路預(yù)測(cè)開(kāi)始成為主題識(shí)別的分析工具。比如,Huang L等[15]基于鏈路預(yù)測(cè)指標(biāo)構(gòu)建共詞網(wǎng)絡(luò)演化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,基于預(yù)測(cè)網(wǎng)絡(luò)設(shè)計(jì)4個(gè)識(shí)別指標(biāo),以識(shí)別新興主題。Cho J H等[16]采用基于鏈路預(yù)測(cè)的機(jī)器學(xué)習(xí)方法預(yù)測(cè)技術(shù)主題的融合模式。黃璐等[17]將鏈路預(yù)測(cè)方法引入主題識(shí)別問(wèn)題領(lǐng)域,基于加權(quán)鏈路預(yù)測(cè)和神經(jīng)網(wǎng)絡(luò),圍繞主題新穎性和影響力兩方面,構(gòu)建識(shí)別預(yù)測(cè)模型。另外,融合多種類型媒介數(shù)據(jù)的主題預(yù)測(cè)方法也成為不可忽視趨勢(shì)。比如,Akella A P等[18]證實(shí)了以替代計(jì)量指標(biāo)為代表的社交媒介在學(xué)科預(yù)測(cè)及時(shí)性方面的優(yōu)勢(shì);段慶鋒等[19]構(gòu)建融合社交媒介和出版媒介的新興主題識(shí)別指標(biāo),基于此構(gòu)建更加高敏感的新興趨勢(shì)預(yù)見(jiàn)與主題識(shí)別方法。
綜上所述,LSTM模型和鏈路預(yù)測(cè)已經(jīng)被科技情報(bào)學(xué)界關(guān)注,開(kāi)始將其引入并應(yīng)用于學(xué)科新興主題研究領(lǐng)域。然而,還鮮有結(jié)合兩種模型預(yù)測(cè)優(yōu)勢(shì)構(gòu)建的新興主題研究。LSTM模型并未考慮不同主題之間的內(nèi)在關(guān)系,而面向二元關(guān)系的鏈路預(yù)測(cè)則彌補(bǔ)了LSTM時(shí)序模型在主題網(wǎng)絡(luò)演化方面的局限。本文結(jié)合兩者特征,針對(duì)學(xué)科新興主題成長(zhǎng)性識(shí)別問(wèn)題,構(gòu)建新型組合模型,提升成長(zhǎng)性特征的動(dòng)態(tài)刻畫與預(yù)測(cè)能力。
新興主題的成長(zhǎng)性成為識(shí)別的關(guān)鍵依據(jù)。按照生命周期理論,新生、新興、成熟、衰退、消亡依序構(gòu)成發(fā)展過(guò)程,新興階段通常表現(xiàn)出的高增長(zhǎng)性成為趨向成熟過(guò)程中呈現(xiàn)的外部可觀察特征[20],更重要的是當(dāng)前的新興狀態(tài)是實(shí)現(xiàn)未來(lái)成熟的不可避免歷程,這種新興特征很大程度上為將來(lái)狀態(tài)提供了重要啟示,是科學(xué)預(yù)見(jiàn)的客觀基礎(chǔ)。
新興主題不但具有成為未來(lái)熱門主題的潛力,更應(yīng)該在未來(lái)學(xué)科知識(shí)體系中承擔(dān)重要地位與影響力。由此,主題成長(zhǎng)性可以從兩方面加以考察:熱度和影響力。一是聚焦于主題本身的發(fā)展規(guī)律,開(kāi)展時(shí)序預(yù)測(cè),從數(shù)量層面反映其狀態(tài)預(yù)期;二是通過(guò)主題間關(guān)系演化,開(kāi)展網(wǎng)絡(luò)預(yù)測(cè),從關(guān)系結(jié)構(gòu)層面反映其未來(lái)影響力預(yù)期?;谮厔?shì)預(yù)測(cè)的思路,結(jié)合主題新興階段的生命周期特征,設(shè)計(jì)學(xué)科新興主題識(shí)別方法流程,如圖1所示。
圖1 基于組合預(yù)測(cè)的學(xué)科新興主題識(shí)別流程
首先,構(gòu)建結(jié)合文獻(xiàn)計(jì)量指標(biāo)與Altmetrics指標(biāo)的主題熱度指標(biāo),并采用長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)LSTM,預(yù)測(cè)主題未來(lái)的熱度狀態(tài);其次,采用鏈路預(yù)測(cè)方法,預(yù)測(cè)未來(lái)的主題詞共現(xiàn)網(wǎng)絡(luò),通過(guò)PageRank算法揭示主題的未來(lái)影響力;最后,基于預(yù)測(cè)結(jié)果,將預(yù)測(cè)狀態(tài)與歷史狀態(tài)進(jìn)行比較刻畫,揭示主題熱度的增長(zhǎng)性預(yù)期與影響力演化預(yù)期,由此通過(guò)二維動(dòng)態(tài)特征的綜合研判,形成學(xué)科新興主題的識(shí)別依據(jù)。
2.2.1 主題熱度指標(biāo)
主題熱度指主題在學(xué)科領(lǐng)域的受關(guān)注或者流行程度[21],可以從兩個(gè)層面加以考察,一是狹義學(xué)術(shù)層面;二是廣義社會(huì)層面。在狹義學(xué)術(shù)層面,主題內(nèi)容在學(xué)科領(lǐng)域的發(fā)表曝光程度體現(xiàn)了主題在學(xué)術(shù)層面的流行熱度,反映學(xué)者對(duì)主題的關(guān)注程度,可以通過(guò)主題所出現(xiàn)的文獻(xiàn)數(shù)量加以衡量[22]。在廣義社會(huì)層面,主題通過(guò)更廣泛多樣社會(huì)媒介加以傳播,主題內(nèi)容受到更多相關(guān)利益者的關(guān)注、討論,體現(xiàn)了主題在更廣泛社會(huì)層面的流行熱度,更多地反映了社會(huì)大眾對(duì)于主題內(nèi)容的興趣與關(guān)注程度。主題在廣義社會(huì)層面的傳播熱度可以通過(guò)Altmetrics指標(biāo)加以衡量。作為科學(xué)計(jì)量學(xué)的新型度量工具,Altmetrics指標(biāo)捕捉了作為主題內(nèi)容載體的學(xué)術(shù)文獻(xiàn)在多種網(wǎng)絡(luò)媒介(尤其學(xué)術(shù)社交媒介)的傳播及交互事件(如點(diǎn)贊、轉(zhuǎn)發(fā)、提及等),通過(guò)相關(guān)事件計(jì)量的方式刻畫了學(xué)術(shù)內(nèi)容的社會(huì)關(guān)注程度[23],非常適用于刻畫主題在社會(huì)層面的流行關(guān)注程度。
考慮到學(xué)科主題熱度是不同媒介層面的綜合體現(xiàn),由此構(gòu)建第i個(gè)主題的加權(quán)熱度總指標(biāo)H:
Hi=α·Pi+(1-α)·Ai
(1)
其中,α為權(quán)重系數(shù),且0≤α≤1,這里將其設(shè)定為0.8。指標(biāo)P代表主題出現(xiàn)的文獻(xiàn)篇數(shù),指標(biāo)A代表主題在社會(huì)媒體受到的關(guān)注程度,其定義為:
Ai=Altmetricsj·Iij
(2)
其中,Altmetricsj為第j篇文獻(xiàn)的替代計(jì)量指標(biāo)值,Iij為指示變量,將其定義為:
(3)
指標(biāo)P和A通過(guò)計(jì)量方式分別刻畫了主題在學(xué)術(shù)文獻(xiàn)和大眾媒介的傳播與關(guān)注程度,從不同層面體現(xiàn)了主題熱度??紤]到指標(biāo)P和A分別來(lái)源于不同媒介,數(shù)值存在明顯的量級(jí)差別,因此采用極大極小法對(duì)兩個(gè)指標(biāo)分別進(jìn)行歸一化處理,消除指標(biāo)量綱。
2.2.2 主題熱度預(yù)測(cè)模型
長(zhǎng)短期記憶模型LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò),相關(guān)文獻(xiàn)已證實(shí)其在時(shí)序序列預(yù)測(cè)方面的優(yōu)異性能,能夠很好地滿足主題熱度預(yù)測(cè)任務(wù)[14]。首先,以年份為時(shí)間單元,計(jì)算主題熱度指標(biāo)H,形成包含若干主題的面板數(shù)據(jù);其次,以跨度T年為時(shí)間窗口,前T-1期指標(biāo)數(shù)據(jù)為輸入,第T期為輸出,構(gòu)造LSTM預(yù)測(cè)模型,如圖2所示。通過(guò)訓(xùn)練集樣本進(jìn)行模型學(xué)習(xí)訓(xùn)練,考察損失函數(shù)、AUC等性能指標(biāo),經(jīng)過(guò)多輪更新迭代,直至得到性能滿意的LSTM擬合模型;最后,采用擬合模型預(yù)測(cè)主題未來(lái)熱度值。
圖2 基于LSTM的主題熱度預(yù)測(cè)模型
共現(xiàn)關(guān)系是刻畫主題語(yǔ)義結(jié)構(gòu)的重要途徑,能夠揭示學(xué)科知識(shí)分布及演化規(guī)律,已成為情報(bào)科學(xué)領(lǐng)域的成熟范式。主題間相互作用關(guān)系及拓?fù)浣Y(jié)構(gòu)嵌入是個(gè)體相對(duì)影響力的重要體現(xiàn)。預(yù)測(cè)主題間潛在共現(xiàn)關(guān)系能夠?yàn)橹黝}影響力演化提供前瞻性啟示。
鏈路預(yù)測(cè)利用拓?fù)浣Y(jié)構(gòu)信息預(yù)測(cè)二元關(guān)系的形成或消失,能夠被用于預(yù)測(cè)主題間共現(xiàn)關(guān)系的涌現(xiàn)?;诖?,使用鏈路預(yù)測(cè)相似性指標(biāo)構(gòu)建主題共現(xiàn)網(wǎng)絡(luò)預(yù)測(cè)模型,并基于未來(lái)主題網(wǎng)絡(luò),通過(guò)PageRank算法識(shí)別學(xué)科主題的潛在影響力。整體上,主題影響力預(yù)測(cè)包括3個(gè)階段:主題共現(xiàn)網(wǎng)絡(luò)構(gòu)建;主題共現(xiàn)關(guān)系預(yù)測(cè);主題潛在影響力。
2.3.1 主題共現(xiàn)網(wǎng)絡(luò)構(gòu)建
如果兩主題至少共同出現(xiàn)在同一篇學(xué)術(shù)文獻(xiàn)的標(biāo)題、關(guān)鍵詞及摘要,則認(rèn)為兩者存在共現(xiàn)關(guān)系。采用Ochiai系數(shù)法[24],將主題i和j的共現(xiàn)強(qiáng)度wij定義為:
(4)
其中Oij代表主題i和j共同出現(xiàn)的文獻(xiàn)篇數(shù),Oi.代表主題i與其他所有主題共現(xiàn)篇數(shù)的加總求和,O.j的定義同理。共現(xiàn)強(qiáng)度反映了主題間語(yǔ)義關(guān)系的緊密程度,取值范圍為0~1之間,取值越大,語(yǔ)義連接越緊密,否則相反;當(dāng)取值為0時(shí),代表主題無(wú)語(yǔ)義關(guān)聯(lián)。以主題為節(jié)點(diǎn),共現(xiàn)強(qiáng)度為連接權(quán)重,構(gòu)建形成主題共現(xiàn)網(wǎng)絡(luò)。
2.3.2 主題共現(xiàn)網(wǎng)絡(luò)預(yù)測(cè)
1)加權(quán)鏈路預(yù)測(cè)指標(biāo)
網(wǎng)絡(luò)環(huán)境下,節(jié)點(diǎn)之間形成連接的可能性可以通過(guò)一系列相似性指標(biāo)加以估計(jì)預(yù)測(cè),即相似性越高,形成鏈路的幾率越高。目前,常見(jiàn)的鏈路預(yù)測(cè)指標(biāo)方法大多針對(duì)非加權(quán)網(wǎng)絡(luò),只有少數(shù)學(xué)者基于加權(quán)網(wǎng)絡(luò)對(duì)加權(quán)網(wǎng)絡(luò)鏈路預(yù)測(cè)問(wèn)題開(kāi)展探討。借鑒呂琳媛等的研究[25],采用18個(gè)基于加權(quán)網(wǎng)絡(luò)的鏈路預(yù)測(cè)相似性指標(biāo),用于鏈路預(yù)測(cè)。整體上,依據(jù)指標(biāo)原理,主要分為4大類,即基于局部信息、路徑、隨機(jī)游走及其他類型,如表1所示。局部信息主要指共同鄰居,加權(quán)網(wǎng)絡(luò)下體現(xiàn)為與共同鄰居鏈路的加權(quán)和,共同鄰居多的節(jié)點(diǎn)間容易形成連接是預(yù)測(cè)鏈路的基本出發(fā)點(diǎn);基于路徑的指標(biāo)考慮了三階路徑(LP指標(biāo))或者更高階路徑(Katz指標(biāo)),彌補(bǔ)了基本共同鄰居(相當(dāng)于二階路徑)指標(biāo)信息有限的不足;基于隨機(jī)游走的指標(biāo)主要利用隨機(jī)游走過(guò)程工具考察節(jié)點(diǎn)間的距離,通常認(rèn)為路徑步數(shù)越短,節(jié)點(diǎn)越相似;另外,MFI指數(shù)以矩陣森林理論(Matrix-Forest Theory)為基礎(chǔ)構(gòu)建,自洽轉(zhuǎn)移相似性指數(shù)Tr基于節(jié)點(diǎn)間相似性可傳遞假設(shè)來(lái)刻畫節(jié)點(diǎn)的間接相似程度。上述不同類型相似性指標(biāo)具有互補(bǔ)優(yōu)勢(shì),將其加入預(yù)測(cè)模型更有利于適用復(fù)雜網(wǎng)絡(luò)環(huán)境并提高預(yù)測(cè)精度。
表1 加權(quán)鏈路預(yù)測(cè)指標(biāo)
2)鏈路預(yù)測(cè)模型
采用鏈路預(yù)測(cè)指標(biāo),構(gòu)建預(yù)測(cè)主題共現(xiàn)的BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)通過(guò)信息前向信息傳播、梯度后向傳播的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)連接權(quán)重,能夠擬合逼近任意非線性函數(shù),具有極強(qiáng)大的數(shù)據(jù)學(xué)習(xí)能力,是擬合主題間鏈路相似性指標(biāo)與主題共現(xiàn)強(qiáng)度之間規(guī)律的有效工具。具體地,搭建三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:以表1中主題相似性指標(biāo)為輸入,形成18個(gè)節(jié)點(diǎn)構(gòu)成的輸入層;輸出層只包含1個(gè)節(jié)點(diǎn),代表主題共現(xiàn)網(wǎng)絡(luò)關(guān)系;依據(jù)以往經(jīng)驗(yàn)及相關(guān)文獻(xiàn)確定隱藏層節(jié)點(diǎn)數(shù)量,設(shè)定包含36個(gè)隱節(jié)點(diǎn)。同時(shí),設(shè)定隱藏層激活函數(shù)為ReLU,輸出層激活函數(shù)為Sigmod。
針對(duì)輸出節(jié)點(diǎn)的二元分類取值,設(shè)定基于交叉熵的損失函數(shù)為:
(5)
其中yi表示第i個(gè)樣本的實(shí)際取值(1代表存在主題共現(xiàn)關(guān)系,否則為0),表示第i個(gè)樣本的模型估計(jì)值。泛化能力是模型設(shè)定與選取的參考依據(jù),這里主要考察指標(biāo)AUC,其量化了ROC曲線的分類能力,取值越大分類效果越好,輸出概率越合理。另外,AUC表示隨機(jī)抽取一個(gè)正樣本和一個(gè)負(fù)樣本,分類器正確給出正樣本的score高于負(fù)樣本的概率。因此,參考Lü L等[26]的計(jì)算方法,采用擬合模型,針對(duì)隨機(jī)選取的存在鏈接關(guān)系樣本與不存在鏈接關(guān)系樣本分別進(jìn)行預(yù)測(cè),則AUC取值為:
(6)
其中n表示總共隨機(jī)抽樣比較次數(shù),n1表示存在鏈接關(guān)系樣本取值大于不存在鏈接關(guān)系樣本的次數(shù),n2為兩者數(shù)量相同次數(shù)。
3)數(shù)據(jù)處理
出于機(jī)器學(xué)習(xí)算法需要,按照時(shí)間先后順序,將學(xué)科文獻(xiàn)數(shù)據(jù)依次劃分為3個(gè)子集。采用式(4),針對(duì)不同數(shù)據(jù)子集,分別構(gòu)建主題共現(xiàn)網(wǎng)絡(luò),即N1、N2、N3。3個(gè)網(wǎng)絡(luò)具有相同的主題節(jié)點(diǎn),但擁有不同連接權(quán)重。網(wǎng)絡(luò)N1為訓(xùn)練集、N2為測(cè)試集、N3為待預(yù)測(cè)網(wǎng)絡(luò)。
作為神經(jīng)網(wǎng)絡(luò)輸入節(jié)點(diǎn),加權(quán)鏈路相似性指標(biāo)具有完全不同量綱,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。采用極大極小法,對(duì)18個(gè)輸入指標(biāo)進(jìn)行歸一化,得到0~1區(qū)間的統(tǒng)一量綱數(shù)據(jù)。另外,每個(gè)樣本的輸出為二元分類標(biāo)簽,主題間存在共現(xiàn)關(guān)系(共現(xiàn)強(qiáng)度不為0)取值1,否則取值0。
不平衡數(shù)據(jù)是影響模型分類性能的不可忽視因素。主題共現(xiàn)網(wǎng)絡(luò)是典型稀疏網(wǎng)絡(luò),存在鏈接的正例樣本只占很小比例,分類算法過(guò)多關(guān)注于負(fù)例樣本,導(dǎo)致鏈路預(yù)測(cè)分類性能下降。因此,采用基于隨機(jī)過(guò)采樣的SMOTE算法修正不平衡數(shù)據(jù),通過(guò)對(duì)少數(shù)正例樣本的分析,合成新正例樣本加入數(shù)據(jù)集,以實(shí)現(xiàn)正負(fù)樣本的基本平衡。
采用上述方法,以數(shù)據(jù)集N1為訓(xùn)練集,數(shù)據(jù)集N2為測(cè)試集,經(jīng)過(guò)多輪訓(xùn)練及測(cè)試,直至得到滿意的預(yù)測(cè)模型。
2.3.3 鏈路預(yù)測(cè)與主題潛在影響力預(yù)測(cè)
將訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型用于鏈路預(yù)測(cè),預(yù)測(cè)主題網(wǎng)絡(luò)N3的潛在主題共現(xiàn)機(jī)會(huì)。以主題網(wǎng)絡(luò)N3中不存在共現(xiàn)關(guān)系的主題對(duì)為預(yù)測(cè)對(duì)象,估計(jì)這些主題對(duì)在未來(lái)構(gòu)建新關(guān)系的可能性。預(yù)測(cè)模型輸出節(jié)點(diǎn)表示二元關(guān)系形成概率,因此將預(yù)測(cè)值大于0.5的主題對(duì)判定為潛在新關(guān)系(網(wǎng)絡(luò)邊)?;诖?,將新的共現(xiàn)關(guān)系加入主題網(wǎng)絡(luò)N3,借鑒黃璐等[17]的研究,預(yù)測(cè)網(wǎng)絡(luò)邊的權(quán)重計(jì)算公式為:
(7)
其中Si為預(yù)測(cè)概率值,max(S)為預(yù)測(cè)得分最大值,max(W)為網(wǎng)絡(luò)中存在邊的權(quán)重最大值。預(yù)測(cè)網(wǎng)絡(luò)邊與原有網(wǎng)絡(luò)合并形成主題未來(lái)網(wǎng)絡(luò)N′3,用于主題影響力預(yù)測(cè)。
主題未來(lái)網(wǎng)絡(luò)是在當(dāng)前數(shù)據(jù)基礎(chǔ)上對(duì)主題未來(lái)趨勢(shì)的最新預(yù)測(cè),而主題節(jié)點(diǎn)所處的中心位置及嵌入環(huán)境狀態(tài)也反映了其潛在發(fā)展趨勢(shì)。因此,通過(guò)挖掘分析預(yù)測(cè)網(wǎng)絡(luò)可以發(fā)現(xiàn)主題個(gè)體的未來(lái)可能。網(wǎng)絡(luò)理論認(rèn)為節(jié)點(diǎn)的影響力可以通過(guò)其嵌入環(huán)境(如鄰居節(jié)點(diǎn))加以刻畫,即認(rèn)為如果某節(jié)點(diǎn)以高影響力節(jié)點(diǎn)為鄰居,則其亦應(yīng)擁有較高影響力。PageRank算法是度量這種網(wǎng)絡(luò)節(jié)點(diǎn)影響力的經(jīng)典算法,能夠定量刻畫主題共現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)的相對(duì)影響力?;谥黝}預(yù)測(cè)網(wǎng)絡(luò)N′3,采用加權(quán)的PageRank算法,主題i潛在影響力的預(yù)測(cè)值PRi計(jì)算公式如下:
(8)
其中節(jié)點(diǎn)j為i的鄰居Γ(i),Wij為i與j連邊的網(wǎng)絡(luò)權(quán)重,Dj表示j的度中心性,α為取值0~1區(qū)間的阻尼系數(shù),這里設(shè)定為常見(jiàn)的0.85。
借鑒相關(guān)研究可知,未來(lái)狀態(tài)趨勢(shì)通常成為判定新興主題的關(guān)鍵依據(jù),對(duì)主題動(dòng)態(tài)的預(yù)測(cè)把握是捕捉新興特征的基本思路。高速成長(zhǎng)通常是主題新興階段的外在呈現(xiàn),這種特征可以通過(guò)未來(lái)狀態(tài)與當(dāng)前狀態(tài)的動(dòng)態(tài)變化加以描述和刻畫?;谥黝}熱度和影響力的預(yù)測(cè)值,構(gòu)建其增長(zhǎng)率指標(biāo),以反映動(dòng)態(tài)成長(zhǎng)性特征。
1)主題熱度增長(zhǎng)率定義為:
(9)
2)主題影響力增長(zhǎng)率定義為:
(10)
其中PR(N3)和PR(N′3)分別為基于當(dāng)前網(wǎng)絡(luò)N3和未來(lái)預(yù)測(cè)網(wǎng)絡(luò)N′3計(jì)算得到的主題影響力,反映指標(biāo)PR的預(yù)測(cè)值與當(dāng)前值,ΔPR反映了指標(biāo)預(yù)測(cè)值相對(duì)當(dāng)前值的增長(zhǎng)率,是對(duì)增長(zhǎng)趨勢(shì)的定量預(yù)測(cè)。
熱度增長(zhǎng)率是新興主題的數(shù)量層面體現(xiàn),影響力增長(zhǎng)率是新興主題的結(jié)構(gòu)層面體現(xiàn),綜合兩者狀態(tài)有助于更全面把握新興主題本質(zhì)規(guī)律?;谏鲜鰞煞矫嬷笜?biāo),構(gòu)建二維識(shí)別空間,綜合判定主題新興性,即兩個(gè)指標(biāo)水平越高,則認(rèn)為主題新興趨勢(shì)越強(qiáng)烈。
研究選取情報(bào)學(xué)學(xué)科為實(shí)證領(lǐng)域,相關(guān)數(shù)據(jù)包括兩部分:科學(xué)文獻(xiàn)元數(shù)據(jù)和Altmetrics指標(biāo)。首先,文獻(xiàn)元數(shù)據(jù)來(lái)源于WoS數(shù)據(jù)庫(kù),通過(guò)選定檢索策略,獲得查詢結(jié)果,并從中抽取實(shí)證所需元數(shù)據(jù),主要包括DOI號(hào)(DI)、關(guān)鍵詞(DE)、標(biāo)題(TI)、摘要(AB)、期刊(SO)、年份(PY)。借鑒相關(guān)文獻(xiàn),篩選出情報(bào)學(xué)代表性期刊,包括《Journal of the Association for Information Science and Technology》《Information Processing & Management》《Scientometrics》《Information & Management》《Journal of Informetrics》,這些期刊是本學(xué)科高影響力代表且議題新穎活躍,是探測(cè)學(xué)科新興主題的最佳載體。具體地,以情報(bào)學(xué)領(lǐng)域代表期刊為線索,檢索得到跨度8年(2013—2020)且文獻(xiàn)類型為Article的記錄共計(jì)6 326條,查詢時(shí)間為2021年6月。
其次,Altmetrics指標(biāo)來(lái)源于網(wǎng)站Altmetric.com。該網(wǎng)站成立于2011年,具有數(shù)據(jù)免費(fèi)、開(kāi)源、覆蓋率高、指標(biāo)豐富等優(yōu)點(diǎn),是目前主流的Altmetrics服務(wù)提供商,尤其提供面向科研用途的公開(kāi)查詢API,能夠滿足本文數(shù)據(jù)需要。Altmetrics指標(biāo)具有不同類型,本文從中選取了總指標(biāo)Altmetric Mention Score,其為多種不同來(lái)源及社交媒介指標(biāo)的加權(quán)和,能夠綜合地反映文獻(xiàn)在社交媒介關(guān)注程度。DOI是科學(xué)文獻(xiàn)的唯一標(biāo)識(shí)符,因此以文獻(xiàn)DOI號(hào)為線索,一對(duì)一地查詢獲得每篇文獻(xiàn)的Altmetrics指標(biāo)。具體地,采用Python程序查詢文獻(xiàn)的Altmetrics指標(biāo),刪去指標(biāo)缺失的文獻(xiàn),最終獲得用于實(shí)證的3 208條記錄,其基本統(tǒng)計(jì)特征如表2所示。
表2 采集文獻(xiàn)基本統(tǒng)計(jì)特征
主題抽取與共現(xiàn)網(wǎng)絡(luò)構(gòu)建是開(kāi)展實(shí)證分析的基礎(chǔ)。首先,從文獻(xiàn)元數(shù)據(jù)的DE字段,提取主題詞,作為備選主題,這些主題詞由文獻(xiàn)作者給出,能夠精準(zhǔn)地表達(dá)文獻(xiàn)核心內(nèi)容。為了進(jìn)一步縮小目標(biāo)搜索范圍,過(guò)濾掉探測(cè)意義不大的極低頻主題,根據(jù)樣本分布特征,選取出現(xiàn)頻率前250個(gè)主題作為備選主題集。其次,以主題為節(jié)點(diǎn),共現(xiàn)關(guān)系為邊,共現(xiàn)強(qiáng)度為權(quán)重,構(gòu)建主題共現(xiàn)網(wǎng)絡(luò)。分別以2013—2015年、2016—2017年、2018—2020年數(shù)據(jù)為子集,構(gòu)建主題共現(xiàn)網(wǎng)絡(luò)N1、N2、N3。
依據(jù)式(1)~(3),計(jì)算主題熱度指標(biāo)P、A和H,各個(gè)指標(biāo)的年度均值如表3所示。從時(shí)間維度看,主題熱度H均值隨著時(shí)間逐步增高,直至2018年達(dá)到最大值,這種數(shù)據(jù)膨脹很大程度上是近年社交媒介平臺(tái)用戶規(guī)??焖贁U(kuò)張導(dǎo)致的,比如作為構(gòu)成部分的指標(biāo)A采用替代計(jì)量指標(biāo)計(jì)算得到,亦呈現(xiàn)同樣數(shù)據(jù)特征。因此,應(yīng)用于時(shí)間序列預(yù)測(cè)模型,本文將指標(biāo)H歸一化處理,采用極大極小法得到[0,1]區(qū)間的數(shù)值分布,以保證時(shí)間維度可比性。
表3 主題熱度指標(biāo)年度均值
針對(duì)不同階段主題共現(xiàn)網(wǎng)絡(luò),分別計(jì)算相應(yīng)的相似性指標(biāo),其基本統(tǒng)計(jì)特征如表4所示。整體上,數(shù)據(jù)分布特征差異較大,除simRank指標(biāo)之外,其余指標(biāo)取值都偏小,比如基于局部信息的指標(biāo)幾乎都集中于0~0.1之間。因此,將指標(biāo)導(dǎo)入模型之前,進(jìn)行了歸一化處理。
表4 加權(quán)鏈路相似性指標(biāo)基本數(shù)據(jù)特征
使用Python語(yǔ)言,編程實(shí)現(xiàn)面向主題熱度預(yù)測(cè)的時(shí)間序列LSTM模型。具體地,基于主題熱度指標(biāo)H,以2013—2019年數(shù)據(jù)為輸入,以2020年數(shù)據(jù)為輸出,調(diào)用Keras模塊中的LSTM函數(shù),構(gòu)建面向時(shí)間序列的神經(jīng)網(wǎng)絡(luò)模型。選取均方誤差MSE為誤差函數(shù),使用隨機(jī)梯度下降算法SGD,進(jìn)行多輪模型訓(xùn)練,結(jié)果如圖3所示。經(jīng)過(guò)大約10輪訓(xùn)練之后,可以看到訓(xùn)練誤差和測(cè)試誤差都穩(wěn)定地下降到很小數(shù)值,說(shuō)明模型擬合參數(shù)達(dá)到收斂狀態(tài),完成主題熱度預(yù)測(cè)模型訓(xùn)練任務(wù)。
圖3 主題熱度預(yù)測(cè)模型訓(xùn)練
表5給出了模型在測(cè)試集上的預(yù)測(cè)表現(xiàn)。ARIMA模型是常見(jiàn)的時(shí)間序列分析工具,這里用作基準(zhǔn)模型作為參照對(duì)比。通過(guò)比較可以發(fā)現(xiàn),不論是平均絕對(duì)誤差MAE還是均方誤差MSE,本文采用的LSTM模型都明顯優(yōu)于ARIMA模型,LSTM模型適用于主題熱度指標(biāo)序列的預(yù)測(cè)任務(wù)。
表5 模型性能比較
類似地,使用Keras模塊實(shí)現(xiàn)主鏈路預(yù)測(cè)模型。具體地,由主題網(wǎng)絡(luò)N1和N2得到訓(xùn)練集和測(cè)試集,采用隨機(jī)梯度下降算法SGD,以二元交叉熵BinaryCrossentropy為損失函數(shù),進(jìn)行多輪訓(xùn)練,結(jié)果如圖4所示。大約經(jīng)過(guò)150輪訓(xùn)練之后,訓(xùn)練誤差和測(cè)試誤差都呈現(xiàn)穩(wěn)定收斂狀態(tài),數(shù)值上小于0.05,反映模型擬合良好;而AUC指標(biāo)在訓(xùn)練集合測(cè)試集上非常接近,都達(dá)到0.98,反映了滿意的預(yù)測(cè)性能。
圖4 主題影響力預(yù)測(cè)模型訓(xùn)練
為了檢驗(yàn)指標(biāo)的選取合理性,分別使用4種類型指標(biāo)(基于局部信息、基于路徑、基于隨機(jī)游走及其他)進(jìn)行鏈路預(yù)測(cè)模型訓(xùn)練,與本文基于全部指標(biāo)的訓(xùn)練結(jié)果進(jìn)行比較,如表6所示。可見(jiàn),采用全部指標(biāo)的鏈路預(yù)測(cè)性能基本都處于較明顯優(yōu)勢(shì),只有在準(zhǔn)確率方面比基于隨機(jī)游走指標(biāo)的結(jié)果略低??傮w上,包含全部18個(gè)指標(biāo)的鏈路預(yù)測(cè)模型能夠取得較為滿意預(yù)測(cè)性能。
表6 不同指標(biāo)的鏈路預(yù)測(cè)性能比較
采用訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)主題未來(lái)狀態(tài),包括主題熱度與影響力。將2014—2020年主題熱度指標(biāo)輸入熱度預(yù)測(cè)模型,得到主題的熱度預(yù)測(cè)值H2021;使用鏈路預(yù)測(cè)模型,預(yù)測(cè)主題網(wǎng)絡(luò)N3的潛在鏈接,得到主題未來(lái)網(wǎng)絡(luò)N′3,并計(jì)算得到主題節(jié)點(diǎn)的影響力預(yù)測(cè)值PR′。為了進(jìn)一步展示主題動(dòng)態(tài)趨勢(shì),分別計(jì)算了兩個(gè)指標(biāo)預(yù)測(cè)值相對(duì)于當(dāng)前值的增長(zhǎng)率。
表7給出了按照上述4個(gè)指標(biāo)降序排列的主題。通過(guò)對(duì)比,可以顯然發(fā)現(xiàn)兩個(gè)基于增長(zhǎng)率的指標(biāo)對(duì)于新興主題表現(xiàn)出更強(qiáng)的敏感性。對(duì)于主題熱度與影響力指標(biāo),排名前列的大都是熱門主題,既包含了持續(xù)創(chuàng)新且熱度不斷的成熟主題(bibliometrics、citation analysis、patent等),也包含了近年興起受到普遍關(guān)注的新興主題(altmetrics、scopus、social media等)。對(duì)于基于增長(zhǎng)率的指標(biāo),排名前列主題不但包含了一般新興主題,更重要的是篩選出了更多高價(jià)值主題——出現(xiàn)時(shí)間相對(duì)短暫但創(chuàng)新潛力巨大的新興主題,比如COVID-19、blockchain、convolutional neural network、Internet of things,這些主題未出現(xiàn)在表2的主題熱度與影響力排行榜之中,但都進(jìn)入主題熱度增長(zhǎng)率和影響力增長(zhǎng)率排行榜,甚至COVID-19和blockchain的熱度增長(zhǎng)率預(yù)測(cè)值排名分別達(dá)到了第1和第3。
表7 按不同指標(biāo)預(yù)測(cè)值降序排序的主題詞(前15名)
總之,可以看出基于增長(zhǎng)率的指標(biāo)(熱度增長(zhǎng)率和影響力增長(zhǎng)率)比規(guī)模性指標(biāo)(熱度和影響力)更適用于新興主題識(shí)別任務(wù),前者能夠更早地發(fā)現(xiàn)新興主題的增長(zhǎng)潛力,這些主題雖然當(dāng)前關(guān)注程度相對(duì)較小,但后續(xù)發(fā)展動(dòng)能強(qiáng)勁,這種前瞻優(yōu)勢(shì)對(duì)于科技決策者具有重要參考價(jià)值。
為了形成對(duì)新興主題的綜合研判,以主題熱度增長(zhǎng)率預(yù)測(cè)值為縱軸,影響力增長(zhǎng)率預(yù)測(cè)值為橫軸,繪制主題散點(diǎn)圖,如圖5所示。其中,散點(diǎn)大小正比于指標(biāo)P,反映主題在文獻(xiàn)的呈現(xiàn)熱度。二維識(shí)別空間中,除了成熟主題bibliometrics和citation analysis之外,其他主題位于橫軸之上,具有正向的熱度增長(zhǎng)率預(yù)測(cè)值,反映情報(bào)學(xué)領(lǐng)域較高的活躍性預(yù)期。近半主題位于縱軸右側(cè),具有正向的影響力增長(zhǎng)預(yù)測(cè)值,反映了這些主題持續(xù)增長(zhǎng)的影響力預(yù)期,它們將不斷與本領(lǐng)域知識(shí)元素相互融合嵌入并通過(guò)網(wǎng)絡(luò)連接形成增長(zhǎng)擴(kuò)散的影響力??梢园l(fā)現(xiàn),第1象限主題具有“兩高一低”特征,即出現(xiàn)頻率低(散點(diǎn)面積偏小)和兩指標(biāo)(熱度增長(zhǎng)率預(yù)測(cè)和影響力增長(zhǎng)率預(yù)測(cè))取值高,更符合新興主題早期階段屬性,是探測(cè)高潛力新興主題的重點(diǎn)觀察區(qū)域。
采用聚類分析,可以得到3個(gè)相對(duì)聚集的主題群落。聚類1位于第1象限上方,屬于關(guān)注熱度高增長(zhǎng)型,具有出現(xiàn)時(shí)間較短但關(guān)注程度增長(zhǎng)迅猛的特點(diǎn),是發(fā)現(xiàn)新興主題的高概率區(qū)域;聚類2位于第1象限右下方,屬于影響力高增長(zhǎng)型,具有影響力增長(zhǎng)迅速特點(diǎn),意味著這些主題日益融入領(lǐng)域知識(shí)網(wǎng)絡(luò),與越多的主題形成語(yǔ)義連接,并通過(guò)網(wǎng)絡(luò)嵌入形成更大的主題影響力,同樣也是新興主題的重要探測(cè)區(qū)域;聚類3主要位于第2象限,呈現(xiàn)關(guān)注熱度高且增長(zhǎng)快,但知識(shí)網(wǎng)絡(luò)影響力偏低甚至下降的特征,主要以熱門主題為主,新興主題相對(duì)偏少。
聚類1包含3個(gè)主題,COVID-19、blockchain、deep learning都是具有重要價(jià)值的領(lǐng)域新興主題。為了揭示主題的爆發(fā)性增長(zhǎng)態(tài)勢(shì),表8給出了不同年度的主題相關(guān)文獻(xiàn)數(shù)量。①主題COVID-19出現(xiàn)時(shí)間最短暫,卻被預(yù)測(cè)出最強(qiáng)烈的增長(zhǎng)態(tài)勢(shì),情報(bào)學(xué)界對(duì)2019年暴發(fā)的新冠肺炎疫情(COVID-19)給出了積極的學(xué)術(shù)反饋,比如2020年只有7篇相關(guān)文獻(xiàn),而2021年卻猛增至27篇,意味著將來(lái)極可能成為領(lǐng)域重點(diǎn)關(guān)注的“明星”主題;②主題blockchain近兩年開(kāi)始受到情報(bào)學(xué)領(lǐng)域重視,作為分布式共享賬本和數(shù)據(jù)庫(kù),區(qū)塊鏈(blockchain)具有去中心化、不可篡改、全程留痕、可以追溯等獨(dú)特優(yōu)勢(shì),相關(guān)文獻(xiàn)從2020年的6篇增至2021年的25篇,是其在情報(bào)組織與數(shù)據(jù)管理等方面巨大應(yīng)用潛力的集中體現(xiàn);③主題deep learning從2018年開(kāi)始形成穩(wěn)定的快速增長(zhǎng)路徑,相關(guān)文獻(xiàn)在2020年增至47篇,反映了隨著深度學(xué)習(xí)理論與技術(shù)的不斷成熟,其多元應(yīng)用不斷擴(kuò)展深化,同樣也成為情報(bào)學(xué)領(lǐng)域的關(guān)注熱點(diǎn),日益成為情報(bào)體系的方法要素,推動(dòng)情報(bào)方法的智能化發(fā)展。總之,本文基于機(jī)器學(xué)習(xí)方法的預(yù)測(cè)程序準(zhǔn)確地揭示了上述主題的爆發(fā)式增長(zhǎng),對(duì)2021年的熱度預(yù)測(cè)與現(xiàn)實(shí)吻合程度高,體現(xiàn)了該方法對(duì)于新興主題動(dòng)態(tài)特征的敏感捕捉能力。
表8 聚類1主題的年度文獻(xiàn)分布
聚類2包含10個(gè)主題,基本上都涉及信息技術(shù)方法,其共同表現(xiàn)出影響力高增長(zhǎng)特征。通過(guò)綜合分析,進(jìn)一步分為兩個(gè)子群落,即以convolutional neural network、artificial intelligence、internet of things、link prediction為代表的新興技術(shù),與以topic models、complex networks、sentiment analysis為代表的常見(jiàn)領(lǐng)域熱門技術(shù)。主題熱度方面,前者雖然出現(xiàn)時(shí)間相對(duì)更短,但快速吸引情報(bào)領(lǐng)域關(guān)注,整體擁有更高的熱度增長(zhǎng)潛力。主題影響力方面,除convolutional neural network之外,大部分新興技術(shù)都比傳統(tǒng)熱門技術(shù)擁有相對(duì)較低的影響力增長(zhǎng)性預(yù)期,此現(xiàn)象反映了兩者技術(shù)擴(kuò)散能力的差異,領(lǐng)域?qū)τ趥鹘y(tǒng)熱門技術(shù)的接受程度更高,更利于傳統(tǒng)技術(shù)主題與更多不同領(lǐng)域及方向知識(shí)要素建立并形成語(yǔ)義關(guān)聯(lián),而新興技術(shù)更多地處于技術(shù)導(dǎo)入應(yīng)用初期,還未形成明顯的知識(shí)網(wǎng)絡(luò)影響力優(yōu)勢(shì)。
聚類3基本為情報(bào)學(xué)領(lǐng)域核心熱門主題,數(shù)量眾多,成熟度較高。相對(duì)于典型成熟主題(如citation impact、h-index、information retrieval),以twitter、altmetrics、social networks為代表主題表現(xiàn)出一定新興特征;但是,這些主題不如聚類1主題的新穎性與熱度增長(zhǎng)性高,也不如聚類2中新興主題的影響力增長(zhǎng)性顯著。顯然,該領(lǐng)域主題新興特征偏低,篩選出的3個(gè)新興主題雖然仍為情報(bào)學(xué)領(lǐng)域值得重點(diǎn)關(guān)注的未來(lái)方向,但其已呈現(xiàn)出相對(duì)平穩(wěn)傾向,不再表現(xiàn)為爆發(fā)性增長(zhǎng)態(tài)勢(shì),而是開(kāi)始趨于穩(wěn)定發(fā)展模式。
通過(guò)二維識(shí)別空間的綜合性聚類分析,識(shí)別出3類不同特征的新興主題:一是高新穎、高增長(zhǎng)潛力的新興主題群,包括COVID-19、blockchain、deep learning,位于識(shí)別空間上方位置(聚類1),以高熱度增長(zhǎng)率預(yù)期為基本判別特征,成為學(xué)科關(guān)注“新星”;二是以convolutional neural network等為代表的新興主題群,內(nèi)容上聚焦于信息技術(shù)方法,位于識(shí)別空間右下位置(聚類2),以高影響力增長(zhǎng)預(yù)期為基本判別特征;三是以altmetrics等為代表的預(yù)期穩(wěn)定型新興主題群,位于識(shí)別空間左側(cè)位置(聚類3),呈現(xiàn)關(guān)注熱度和影響力都趨于相對(duì)穩(wěn)定的發(fā)展模式??梢钥闯?,構(gòu)建的預(yù)測(cè)性指標(biāo)能夠有效識(shí)別新興主題成長(zhǎng)性,而且對(duì)于不同類型新興主題形成良好區(qū)分能力。
表9給出了采用不同模型方法的識(shí)別結(jié)果比較,識(shí)別出的主題按照成長(zhǎng)趨勢(shì)程度降序排列。①直接預(yù)測(cè)主題指標(biāo)趨勢(shì)是最常見(jiàn)的分析方法,ARIMA模型和LSTM模型給出的新興主題各有側(cè)重,不過(guò)ARIMA沒(méi)有識(shí)別出以blockchain、deep learning為代表的最新議題,總體上看LSTM模型的識(shí)別結(jié)果更加精準(zhǔn);②網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)與PageRank算法是網(wǎng)絡(luò)關(guān)系嵌入環(huán)境的常見(jiàn)分析方法,分別采用兩個(gè)度量指標(biāo)(度中心性Degree和PageRank指標(biāo))進(jìn)行新興主題成長(zhǎng)識(shí)別,與本文鏈路預(yù)測(cè)+PageRank方法進(jìn)行比較。顯然,基于度中心性的結(jié)果相對(duì)較差,雖然也能將以word embedding為代表的多數(shù)新興主題篩選發(fā)現(xiàn),但是對(duì)于短期萌發(fā)的主題敏感度不夠,尤其沒(méi)有識(shí)別出近兩年發(fā)展的主題COVID-19和blockchain??梢钥闯觯瑔渭兓赑ageRank方法與鏈路預(yù)測(cè)+PageRank方法相比,識(shí)別召回的新興主題范疇基本相差不大,但是對(duì)于短期新興主題的敏感性存在差異,以COVID-19、blockchain為代表的萌芽主題在后者采用鏈路預(yù)測(cè)的識(shí)別結(jié)果中被賦予了更高的優(yōu)先級(jí),更利于發(fā)現(xiàn)時(shí)間短、頻次低、潛力大的新興主題,顯然更吻合新興主題的識(shí)別初衷。此種結(jié)果也反映了鏈路預(yù)測(cè)在趨勢(shì)前瞻方面的優(yōu)勢(shì),非常適應(yīng)于發(fā)現(xiàn)高成長(zhǎng)價(jià)值新興主題;③本文采用了指標(biāo)時(shí)序和影響力相結(jié)合的二維識(shí)別方法,雖然與基于影響力的一維識(shí)別方法(鏈路預(yù)測(cè)+PageRank)相比結(jié)果基本相同,但是通過(guò)二維識(shí)別空間能夠?qū)χ笜?biāo)進(jìn)行類型細(xì)分,比如識(shí)別出“學(xué)科‘新星’”與“學(xué)科方法工具”兩類新興主題,它們存在差異化的增長(zhǎng)動(dòng)力與新興特征??梢?jiàn),本文方法具有更精細(xì)的主題成長(zhǎng)性識(shí)別能力,這種敏銳分析能力有助于加深學(xué)科新興主題的把握洞見(jiàn)。
表9 不同模型識(shí)別結(jié)果比較
把握未來(lái)成長(zhǎng)潛力是識(shí)別學(xué)科新興主題的關(guān)鍵。本文從熱度和影響力兩個(gè)方面,對(duì)學(xué)科新興主題開(kāi)展組合預(yù)測(cè)與綜合研判。熱度方面,設(shè)計(jì)融合文獻(xiàn)計(jì)量和替代計(jì)量的主題熱度指標(biāo),并構(gòu)建基于LSTM的熱度時(shí)間序列預(yù)測(cè)模型,旨在預(yù)測(cè)主題未來(lái)熱度增長(zhǎng)性;影響力方面,基于主題共現(xiàn)網(wǎng)絡(luò),采用PageRank算法刻畫主題節(jié)點(diǎn)的學(xué)科知識(shí)網(wǎng)絡(luò)影響力,并使用加權(quán)網(wǎng)絡(luò)鏈路預(yù)測(cè)指標(biāo),構(gòu)建主題影響力預(yù)測(cè)模型,旨在預(yù)測(cè)主題未來(lái)影響力增長(zhǎng)性。以熱度和影響力的增長(zhǎng)率為未來(lái)成長(zhǎng)性的刻畫指標(biāo),構(gòu)建二維識(shí)別空間,形成對(duì)新興主題高成長(zhǎng)特征的綜合研判,并通過(guò)聚類分析揭示新興主題的不同類型特征。
針對(duì)情報(bào)學(xué)學(xué)科的實(shí)證研究充分檢驗(yàn)了方法的有效性。實(shí)證結(jié)果發(fā)現(xiàn),反映成長(zhǎng)性的預(yù)測(cè)指標(biāo)能夠有效捕捉新興特征,例如高熱度增長(zhǎng)率預(yù)期基本成為判定新興主題的必要條件,而高影響力增長(zhǎng)預(yù)期則成為識(shí)別“方法類型”新興主題的重要條件。進(jìn)一步通過(guò)二維識(shí)別空間的聚類分析,可以對(duì)新興主題形成更加細(xì)致區(qū)分,主要包括3種子類型:以COVID-19為代表的熱度高增長(zhǎng)預(yù)期新興主題群、以convolutional neural network為代表的影響力高增長(zhǎng)預(yù)期新興主題群、以altmetrics為代表的預(yù)期穩(wěn)定型新興主題群。不同類型新興主題具有特定的內(nèi)在創(chuàng)新特征和演化趨勢(shì),細(xì)粒度的類型區(qū)分為深入理解把握學(xué)科趨勢(shì)提供了有效洞見(jiàn)。總之,分析結(jié)果說(shuō)明,本文構(gòu)造的成長(zhǎng)性預(yù)測(cè)性指標(biāo)對(duì)新興主題具有良好的識(shí)別能力,不但能夠?qū)⑿屡d主題從包含各種干擾信號(hào)的海量數(shù)據(jù)中篩選出來(lái),而且能夠通過(guò)聚類分析分辨出新興主題的不同子類型特征,反映了基于成長(zhǎng)性預(yù)測(cè)性指標(biāo)的識(shí)別方法對(duì)于新興主題具有良好適用性。
不同于基于客觀證據(jù)的主觀性預(yù)測(cè),本文借助機(jī)器學(xué)習(xí)算法,構(gòu)建預(yù)測(cè)模型,直接對(duì)主題的發(fā)展趨勢(shì)開(kāi)展客觀預(yù)測(cè),進(jìn)而形成基于新興特征預(yù)期的識(shí)別方法。該方法聚焦于主題未來(lái)預(yù)期,充分借助基于機(jī)器學(xué)習(xí)算法的大數(shù)據(jù)預(yù)測(cè)能力,更適應(yīng)于知識(shí)快速迭代并復(fù)雜演化的學(xué)科場(chǎng)景,有助于為決策者提供更具前瞻性的科技戰(zhàn)略決策支持。隨著機(jī)器學(xué)習(xí)算法的不斷進(jìn)化和科技大數(shù)據(jù)的日益豐富細(xì)化,數(shù)據(jù)驅(qū)動(dòng)的科技預(yù)測(cè)能力不斷提升,前瞻性學(xué)科情報(bào)探測(cè)及趨勢(shì)分析必然成為重要發(fā)展方向。