段慶鋒 陳 紅 閆緒嫻 劉東霞
(山西財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院 太原 030006)
反映學(xué)科趨勢的新興主題是科技競爭焦點(diǎn),對(duì)于科技決策者至關(guān)重要。面對(duì)學(xué)科領(lǐng)域交叉融合與動(dòng)態(tài)演化的復(fù)雜情形,準(zhǔn)確認(rèn)知甚至前瞻預(yù)測學(xué)科新興趨勢日益困難。當(dāng)前,大數(shù)據(jù)技術(shù)為洞穿表象而直達(dá)內(nèi)在本質(zhì)提供了高效工具,富含豐富信息的海量學(xué)科數(shù)據(jù)更為揭示新興主題提供底層基礎(chǔ)。然而,大數(shù)據(jù)往往具有不同來源、不同媒介,甚至不同結(jié)構(gòu)[1],數(shù)據(jù)范疇的最大化擴(kuò)展盡管有助于提升分析能力,但由此伴隨的數(shù)據(jù)結(jié)構(gòu)內(nèi)在沖突也給分析建模帶來挑戰(zhàn)。因此,探索多元異質(zhì)學(xué)科數(shù)據(jù)的融合分析與建模已經(jīng)成為學(xué)界的重要研究內(nèi)容。
縱觀科技情報(bào)相關(guān)文獻(xiàn),用于學(xué)科探測的數(shù)據(jù)主要體現(xiàn)為兩大類。一是指標(biāo)型數(shù)據(jù),反映實(shí)體對(duì)象的個(gè)體狀態(tài),如文獻(xiàn)計(jì)量指標(biāo)、altmetrics指標(biāo)等[2];二是關(guān)系型(或網(wǎng)絡(luò)型)數(shù)據(jù),反映實(shí)體對(duì)象個(gè)體之間的關(guān)系狀態(tài),這些關(guān)系呈現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu),比如主題共現(xiàn)、文獻(xiàn)共引等[3]。這樣兩種數(shù)據(jù)呈現(xiàn)不同結(jié)構(gòu)定義,它們?cè)趯W(xué)科新興主題探測研究中發(fā)揮不可或缺作用,通過主題指標(biāo)(指標(biāo)型數(shù)據(jù))的時(shí)序分析可以從縱向揭示學(xué)科新興狀態(tài),通過主題間橫向關(guān)系模式(關(guān)系型數(shù)據(jù))可以揭示涌現(xiàn)狀態(tài)??梢?此兩種數(shù)據(jù)從不同視角及層面反映了學(xué)科主題狀態(tài),它們相互補(bǔ)充且不可替代。因此,全面揭示學(xué)科規(guī)律需要以指標(biāo)型數(shù)據(jù)與關(guān)系型數(shù)據(jù)的深度融合為基礎(chǔ),因?yàn)閷W(xué)科發(fā)展既表現(xiàn)為主題知識(shí)的個(gè)體狀態(tài)動(dòng)態(tài)演化,同時(shí)又存在主題間知識(shí)關(guān)聯(lián)與相互影響,不論何種類型數(shù)據(jù)的缺失都可能會(huì)導(dǎo)致分析視角不全面,更影響學(xué)科理解的深入性??傊?把握學(xué)科新興主題需要且離不開異構(gòu)數(shù)據(jù)的集成融合。
然而,目前科技情報(bào)學(xué)界對(duì)于異構(gòu)數(shù)據(jù)融合研究還不夠充分,仍不能完全滿足學(xué)科探測對(duì)于全景大數(shù)據(jù)的統(tǒng)一集成分析需求。面對(duì)指標(biāo)型數(shù)據(jù)與關(guān)系型數(shù)據(jù),已有研究大多將源于不同數(shù)據(jù)分析的結(jié)果通過集結(jié)方式實(shí)現(xiàn)綜合分析[4],這樣雖然獲得全面性,但是缺乏數(shù)據(jù)的統(tǒng)一建模利用,分析效率與深度都受到限制。究其原因,結(jié)構(gòu)上的差異阻礙了信息的深度融合。例如,在探測新興主題場景中常用的預(yù)測模型通常只能將指標(biāo)型時(shí)序數(shù)據(jù)作為輸入對(duì)象,而作為非歐式數(shù)據(jù)的關(guān)系型數(shù)據(jù)難以被導(dǎo)入模型,這樣意味著學(xué)科主題預(yù)測結(jié)果只能利用主題個(gè)體在時(shí)間縱向上的動(dòng)態(tài)規(guī)律,而忽略了主題橫向間存在的相互依賴與作用關(guān)系,顯然重要信息維度的缺失會(huì)直接降低預(yù)測能力,嚴(yán)重?fù)p害主題知識(shí)發(fā)展規(guī)律的深度揭示。因此,指標(biāo)型數(shù)據(jù)與關(guān)系型數(shù)據(jù)的異構(gòu)融合已經(jīng)成為制約學(xué)科新興主題發(fā)現(xiàn)的不可忽視環(huán)節(jié),是促進(jìn)學(xué)科探測研究的重要內(nèi)容。
針對(duì)上述研究缺口,本文將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于學(xué)科新興主題探測領(lǐng)域,通過異構(gòu)數(shù)據(jù)的深度融合構(gòu)建全景數(shù)據(jù)驅(qū)動(dòng)的學(xué)科新興主題預(yù)測模型。卷積神經(jīng)網(wǎng)絡(luò)模型(GCN)是專門針對(duì)圖結(jié)構(gòu)的學(xué)習(xí)模式,能夠克服傳統(tǒng)模型對(duì)于非歐式數(shù)據(jù)(關(guān)系數(shù)據(jù))學(xué)習(xí)能力不足問題,尤其能夠?qū)⒐?jié)點(diǎn)特征(指標(biāo)數(shù)據(jù))與節(jié)點(diǎn)關(guān)系(關(guān)系數(shù)據(jù))融合學(xué)習(xí),非常適合于異構(gòu)學(xué)科數(shù)據(jù)的融合場景。具體地,構(gòu)建基于GCN的多維特征與共現(xiàn)關(guān)系的融合表示學(xué)習(xí)模型,獲得主題向量;然后,基于主題向量時(shí)序樣本,構(gòu)建基于與LSTM的主題趨勢預(yù)測模型;最后,以圖書情報(bào)學(xué)領(lǐng)域?yàn)槔?開展實(shí)證研究,以檢驗(yàn)方法有效性。
新興主題戰(zhàn)略價(jià)值關(guān)鍵在于面向未來的趨勢與影響力,因此揭示主題狀態(tài)趨勢的預(yù)測方法成為最常用分析工具。在學(xué)科主題預(yù)測方面,基于指標(biāo)型數(shù)據(jù)和關(guān)系型數(shù)據(jù)的研究方法具有鮮明不同之處,各自形成分析范式。
基于指標(biāo)型數(shù)據(jù)的預(yù)測方法。反映主題趨勢的方法有增長型指數(shù)法[5]、S型增長曲線擬合法[6]、主題聚類變化[7]等。值得注意的是,近年以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)理論及算法不斷成熟,成為新興主題預(yù)見的熱門方法。霍朝光等[8]構(gòu)建基于LSTM模型的學(xué)科主題熱度預(yù)測模型。朱光等[9][10]融合深度神經(jīng)網(wǎng)絡(luò)模型和文獻(xiàn)計(jì)量指標(biāo)用于預(yù)測新興主題。陳偉等[11]采用包含雙重隨機(jī)過程的隱馬爾可夫模型預(yù)測未來技術(shù)趨勢。許學(xué)國和桂美增[12]構(gòu)建采用LSTM模型和經(jīng)驗(yàn)?zāi)B(tài)分解EMD的技術(shù)主題預(yù)測,并通過Clarivate Analytics機(jī)構(gòu)發(fā)布的年度年報(bào)告對(duì)比說明方法有效性。Xu等[13]構(gòu)建了融合多種機(jī)器學(xué)習(xí)模型的新興主題預(yù)測識(shí)別方法。雖然這些預(yù)測模型采用了最新預(yù)測技術(shù),但是主要基于時(shí)序特征數(shù)據(jù)分析主題趨勢,對(duì)關(guān)系模式的抽取與分析不足。
基于關(guān)系數(shù)據(jù)(網(wǎng)絡(luò)結(jié)構(gòu))的預(yù)測方法。鏈路預(yù)測能夠預(yù)測節(jié)點(diǎn)連接幾率,為主題分析提供結(jié)構(gòu)視角方案[14]。然而,鏈路預(yù)測建立在拓?fù)涮卣髦笜?biāo)之上,缺乏網(wǎng)絡(luò)關(guān)系學(xué)習(xí)能力[15]。值得注意的是,圖神經(jīng)網(wǎng)絡(luò)GNN克服了網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的難題,開始得到學(xué)界廣泛重視。作為GNN典型代表的圖卷積神經(jīng)網(wǎng)絡(luò)GCN已在命名實(shí)體識(shí)別[16]、異質(zhì)鏈路預(yù)測[17]、輿情分析[18]、文本分類[19]、多維學(xué)科知識(shí)網(wǎng)絡(luò)融合[20]等多個(gè)場景取得研究進(jìn)展。例如,劉非凡等[21]使用深度圖神經(jīng)網(wǎng)絡(luò)探測學(xué)科領(lǐng)域主題知識(shí)結(jié)構(gòu),該方法能夠有效融合文獻(xiàn)的文本內(nèi)容特征信息以及其引用關(guān)系特征信息,提升結(jié)果精準(zhǔn)性。Kong等[22]使用圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建技術(shù)主題收斂識(shí)別模型。張思凡等[23]提出了基于GCN的文獻(xiàn)被引量預(yù)測模型。GCN模型對(duì)網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)能力開始已經(jīng)得到廣泛應(yīng)用,尤其同時(shí)利用節(jié)點(diǎn)特征與網(wǎng)絡(luò)關(guān)系的表示學(xué)習(xí)能力更體現(xiàn)了分析優(yōu)勢。
基于主題指標(biāo)數(shù)據(jù)與關(guān)系數(shù)據(jù)的研究都已相當(dāng)成熟,但融合兩種類型數(shù)據(jù)的集成探測相對(duì)不足。普通神經(jīng)網(wǎng)絡(luò)雖然能夠?qū)崿F(xiàn)不同來源及類型數(shù)據(jù)的特征自學(xué)習(xí),但是無法實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)上的學(xué)習(xí),難以將關(guān)系數(shù)據(jù)與特征數(shù)據(jù)融合學(xué)習(xí)。近年發(fā)展迅速的圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)模型在圖結(jié)構(gòu)上學(xué)習(xí),能夠達(dá)成節(jié)點(diǎn)特征與網(wǎng)絡(luò)關(guān)系的信息融合,生成表示向量[24]。圖表示學(xué)習(xí)模型事實(shí)上實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的信息融合與統(tǒng)一表達(dá),能夠?yàn)槊嫦蛑黝}分析的異構(gòu)數(shù)據(jù)集成利用與統(tǒng)一建模提供基礎(chǔ)。
數(shù)據(jù)來源于兩部分:一是WoS數(shù)據(jù)庫;二是altmetrics網(wǎng)站平臺(tái)。其一,WoS是主流文獻(xiàn)題錄數(shù)據(jù)庫,收錄文獻(xiàn)能夠反映學(xué)科前沿,是主題探測的常用數(shù)據(jù)源。圖書情報(bào)學(xué)為實(shí)證領(lǐng)域,是典型復(fù)合型學(xué)科,前沿信息技術(shù)不斷引入并融入圖情場景,新興主題不斷活躍涌現(xiàn),復(fù)雜動(dòng)態(tài)的學(xué)科前沿非常適合用于檢驗(yàn)學(xué)科探測方法。檢索策略為查詢代表性期刊文獻(xiàn),包括Scientometrics、Journal of the Association for Information Science and Technology、Journal of Informetrics、Information Processing &Management、Information &Management。具體地,采用上述檢索策略可以得到文獻(xiàn)類型為article的文獻(xiàn)記錄共計(jì)6326條,其時(shí)間跨度為8年(2013-2020)。其二,網(wǎng)站altmetric.com是目前主流的altmetrics服務(wù)提供商,具有開源免費(fèi)、指標(biāo)豐富、覆蓋率高等優(yōu)點(diǎn),完全滿足數(shù)據(jù)采集需要。具體地,采用python爬蟲工具,以文獻(xiàn)DOI號(hào)為線索爬取altmetrics數(shù)據(jù),經(jīng)過多輪數(shù)據(jù)清洗,最終獲得3448條匹配記錄。
主題詞是分析基礎(chǔ),從文獻(xiàn)關(guān)鍵詞、標(biāo)題及摘要當(dāng)中通過分析程序抽取獲得,經(jīng)過多輪數(shù)據(jù)清洗、篩選、檢驗(yàn)從中挑選出250個(gè)高頻主題詞。對(duì)于備選主題詞,定義250×250的共現(xiàn)矩陣A,其任意元素Aij∈{0,1},當(dāng)主題i和j存在共現(xiàn)關(guān)系,則Aij取值為1,否則為0。共現(xiàn)關(guān)系是揭示主題語義模式的重要工具,如果兩個(gè)主題詞共同出現(xiàn)在同一篇學(xué)術(shù)文獻(xiàn)之中,則認(rèn)為兩者存在共現(xiàn)關(guān)系。按照年份計(jì)算,由此得到共8年(2013-2020)的主題共現(xiàn)矩陣時(shí)序數(shù)據(jù)。
為了全面揭示主題狀態(tài),分別構(gòu)建文獻(xiàn)熱度、引用熱度、社交熱度三個(gè)主題指標(biāo)。這些指標(biāo)是學(xué)科知識(shí)形成傳播演變的不同視角揭示,涵蓋了學(xué)科主題在文獻(xiàn)媒介、引用媒介、社交媒介的多維特征體現(xiàn)。首先,主題的文獻(xiàn)熱度Di定義為包含主題i的學(xué)術(shù)文獻(xiàn)數(shù)量。學(xué)術(shù)文獻(xiàn)是學(xué)科主題形成與傳播的關(guān)鍵主要載體,主題出現(xiàn)的次數(shù)越多,反映其關(guān)注程度越高,文獻(xiàn)媒介熱度亦越高。
其次,從引用視角,定義主題引用熱度Ci為
(1)
其中變量citedj表示學(xué)術(shù)文獻(xiàn)j的被引數(shù),Iij表示指標(biāo)變量,反映了主題i是否出現(xiàn)在文獻(xiàn)j,其定義為:
(2)
被引數(shù)是反映文檔學(xué)術(shù)價(jià)值的最常見和經(jīng)典的文獻(xiàn)計(jì)量指標(biāo),通常認(rèn)為被引越高,則學(xué)術(shù)影響力越高。主題是文檔內(nèi)容的總結(jié)凝練,引用實(shí)質(zhì)上也對(duì)相關(guān)主題的指向。因此,主題引用熱度某種程度上亦反映了主題的學(xué)術(shù)影響力,體現(xiàn)了學(xué)者關(guān)注程度,取值越大,說明主題越具有學(xué)術(shù)價(jià)值。
最后,從社交媒介視角,構(gòu)建主題社交熱度指標(biāo)Ai。借鑒段慶鋒等[25]提出的社交媒介關(guān)注指標(biāo),其定義為:
(3)
其中變量altmetricsj表示學(xué)術(shù)文檔j的替代計(jì)量指標(biāo),Iij表示指標(biāo)變量,定義見公式(2)。主題社交熱度指標(biāo)建立在替代計(jì)量指標(biāo)基礎(chǔ)之上,是主題獲得的社交媒體關(guān)注數(shù)量累積,反映主題在網(wǎng)絡(luò)環(huán)境的關(guān)注熱度。替代計(jì)量指標(biāo)是文獻(xiàn)計(jì)量指標(biāo)的補(bǔ)充和擴(kuò)展,刻畫了更加廣泛的學(xué)術(shù)影響力。主題社交熱度指標(biāo)越高,說明該主題在社交媒體上獲得越高的關(guān)注和傳播,尤其反映了社交網(wǎng)絡(luò)層面的熱度。
由此,指標(biāo)集(D,C,A)構(gòu)成三維特征,250個(gè)主題形成250×3的特征矩陣X。特征矩陣反映了主題的多維特征,這些特征源于不同媒介,構(gòu)成多源數(shù)據(jù)。多維特征矩陣X與共現(xiàn)矩陣A具有不同結(jié)構(gòu)形式,共同組成了多源異構(gòu)數(shù)據(jù),并作為異構(gòu)數(shù)據(jù)融合模型的輸入
GCN模型具有強(qiáng)力的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)能力,并可以實(shí)現(xiàn)關(guān)系數(shù)據(jù)與特征數(shù)據(jù)的擬合與自學(xué)習(xí)?;贕CN模型獲得的主題表示向量,采用LSTM模型預(yù)測新興主題。整體上由兩部分模型組合而成,一是用于圖表示學(xué)習(xí)的GCN模型,二是用于新興主題預(yù)測的LSTM模型,如圖1所示。
圖1 融合多維特征和共現(xiàn)關(guān)系的學(xué)科新興主題探測框架
多源異構(gòu)數(shù)據(jù)。多維指標(biāo)與共現(xiàn)關(guān)系分別反映主題的不同數(shù)據(jù),蘊(yùn)含互補(bǔ)信息,都能夠?yàn)橹黝}趨勢預(yù)測提供信息支撐。將兩種異構(gòu)數(shù)據(jù)同時(shí)用于預(yù)測模型以提升預(yù)見能力是研究的邏輯出發(fā)點(diǎn)。
數(shù)據(jù)融合模型。采用GCN模型實(shí)現(xiàn)異構(gòu)主題數(shù)據(jù)的融合,得到用于趨勢預(yù)測的主題表示向量。GCN模型設(shè)定中,節(jié)點(diǎn)屬性通過多維特征加以刻畫,節(jié)點(diǎn)關(guān)系通過共現(xiàn)矩陣加以表現(xiàn)。
預(yù)測模型。LSTM預(yù)測模型以融合多源異構(gòu)數(shù)據(jù)的主題時(shí)序向量為輸入,輸出為反映是否為新興主題的二元標(biāo)簽。
圖卷積神經(jīng)網(wǎng)絡(luò)最早于2017年由Kipf和Welling提出[26],以圖數(shù)據(jù)為樣本,對(duì)節(jié)點(diǎn)關(guān)系進(jìn)行表示學(xué)習(xí),基于拉普拉斯矩陣的圖上卷積運(yùn)算是算法核心,理論扎實(shí)且性能優(yōu)異。雖然,以DeepWalk、Node2Vec為代表的圖神經(jīng)網(wǎng)絡(luò)模型能夠在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行學(xué)習(xí),但采用的隨機(jī)采樣策略存在信息丟失問題[27]。GCN模型克服了上述問題,通過圖上卷積運(yùn)算將節(jié)點(diǎn)表示為低維實(shí)向量,該向量是針對(duì)網(wǎng)絡(luò)關(guān)系與節(jié)點(diǎn)特征的學(xué)習(xí)輸出結(jié)果。
a.模型架構(gòu)。自編碼結(jié)構(gòu)是神經(jīng)網(wǎng)絡(luò)分布式表示學(xué)習(xí)常用框架,整體上包括編碼器(encoder)和解碼器(decoder)兩部分,如圖2所示。編碼器部分由兩層GCN模塊串聯(lián)而成,負(fù)責(zé)將共現(xiàn)矩陣A和多維特征X構(gòu)成的異構(gòu)數(shù)據(jù)轉(zhuǎn)化為表示向量Z,解碼器部分負(fù)責(zé)基于表示向量Z實(shí)現(xiàn)網(wǎng)絡(luò)還原。中間向量Z就是需要的主題表示結(jié)果,期望該向量能夠盡可能地學(xué)習(xí)得到網(wǎng)絡(luò)關(guān)鍵特征。
圖2 基于GCN的主題表示向量學(xué)習(xí)模型
b.編碼器部分。兩層GCN模塊連接組成。研究指出GCN模型不需要堆疊多層就可以取得不錯(cuò)效果[28]。具體地,公式(4)和(5)給出了GCN模塊的正向傳播過程。
(4)
(5)
(5)
采用LSTM模型,從主題歷史狀態(tài)數(shù)據(jù)中學(xué)習(xí)動(dòng)態(tài)演化規(guī)律,并基于擬合模型預(yù)測主題未來新興狀態(tài)。GCN模型輸出的表示向量Z融合了源于主題多維特征與共現(xiàn)關(guān)系信息,能夠充分表征主題狀態(tài),此主題向量時(shí)間序列被用于預(yù)測模型。長短期記憶模型LSTM是一種典型的循環(huán)神經(jīng)網(wǎng)絡(luò),優(yōu)點(diǎn)在于通過包括遺忘門、輸入門、輸出門的模型機(jī)制克服了訓(xùn)練過程中的梯度爆炸及消失問題,能夠更有效地從序列數(shù)據(jù)中捕捉特征。
預(yù)測模型主要包括4大部分:輸入層、LSTM層、全連層和輸出層,如圖3所示。模型通過前T年向量數(shù)據(jù)預(yù)測第T+1年主題是否呈現(xiàn)新興狀態(tài)。為了獲得訓(xùn)練集樣本標(biāo)簽,采用突發(fā)性檢測算法(Burst Detection)[29],對(duì)主題的新興狀態(tài)序列進(jìn)行二元標(biāo)注,若某主題第t年處于新興狀態(tài)則將其標(biāo)注為1,否則標(biāo)注為0。以損失最小為優(yōu)化目標(biāo),采用隨機(jī)梯度下降法,通過多輪次迭代,可以得到擬合效果滿意的估計(jì)模型。
圖3 基于LSTM的新興主題預(yù)測模型
為了說明設(shè)計(jì)合理性,需通過與其他基準(zhǔn)模型的比較,檢驗(yàn)融合模型的預(yù)測性能優(yōu)勢。在設(shè)計(jì)策略方面,有3個(gè)關(guān)鍵環(huán)節(jié)需要考慮,一是是否采用數(shù)據(jù)融合策略(融合數(shù)據(jù)v.s.非融合數(shù)據(jù));二是采用何種融合模型(GCN v.s.其他GNN);三是采用何種預(yù)測模型(LSTM v.s. GRU)。由此,通過不同模型設(shè)計(jì)策略方式組合,形成除本文模型(模型7)之外的其他6個(gè)參考模型用于性能比較。對(duì)于這些監(jiān)督學(xué)習(xí)模型,選取5個(gè)常用的模型評(píng)估指標(biāo)進(jìn)行分析,包括Accuracy、Precision、Recall、F1、AUC,通過多個(gè)指標(biāo)的綜合研判有助于全面揭示模型優(yōu)劣勢。采用10折交叉驗(yàn)證法劃分訓(xùn)練集與測試集,基于此開展模型預(yù)測性能比較,見表1。
a.融合數(shù)據(jù)v.s.非融合數(shù)據(jù)。本文模型7采用了多維特征與共現(xiàn)關(guān)系的融合數(shù)據(jù),模型1只采用多維特征數(shù)據(jù),模型2只采用共現(xiàn)關(guān)系數(shù)據(jù)。模型設(shè)計(jì)方面,模型1直接采用多維特征X數(shù)據(jù)進(jìn)行預(yù)測模型訓(xùn)練與測試;模型2將GCN模型中輸入特征X設(shè)定為全1向量,相當(dāng)于只采用關(guān)系數(shù)據(jù)進(jìn)行預(yù)測。通過比較可以看出,模型7在各個(gè)指標(biāo)上都全面優(yōu)于其他2個(gè)模型。結(jié)果支持了最初的判斷,即多源異構(gòu)數(shù)據(jù)有助于提升分析預(yù)測能力,將包含互補(bǔ)信息的多維特征與共現(xiàn)關(guān)系數(shù)據(jù)融合表示,能夠?yàn)樾屡d主題趨勢認(rèn)知提供更有效的數(shù)據(jù)支撐,這也是本文新興主題探測優(yōu)勢的關(guān)鍵所在。
b.GCN v.s.其他GNN模型。GCN是圖神經(jīng)網(wǎng)絡(luò)GNN的一種,與其他圖神經(jīng)網(wǎng)絡(luò)類型進(jìn)行比較,能夠說明選用GCN的合理性。這里選用3種GNN模型作為對(duì)比模型,包括Node2Vec、GAT、GraphSAGE。Node2Vec模型原理源于詞嵌入方法,在DeepWalk基礎(chǔ)上進(jìn)一步優(yōu)化了采樣效果,采用了不同的隨機(jī)游走方式;GAT模型則在GCN基礎(chǔ)上加入了注意力機(jī)制,具有更強(qiáng)自適應(yīng)能力;GraphSAGE則是一種inductive式學(xué)習(xí),相對(duì)于GCN模型transductive式學(xué)習(xí)的有限擴(kuò)展,能夠?qū)⒁延?xùn)練模型靈活地應(yīng)用于未知新數(shù)據(jù)。分別采用上述3種模型作為主題向量學(xué)習(xí)模塊,而主題預(yù)測部分保持固定,由此得到采用Node2Vec的模型4、采用GAT的模型5,采用GraphSAGE的模型6。將本文模型7與上述3個(gè)模型進(jìn)行比較,可以發(fā)現(xiàn)它們的準(zhǔn)確率和AUC差距不大,而召回率差距最為明顯。其中,模型4表現(xiàn)最差,可能受到Node2Vec算法采樣隨機(jī)性的制約影響?;贕AT的模型5和基于GraphSAGE的模型6在各項(xiàng)指標(biāo)上各有優(yōu)劣,但仍與基于GCN的模型7存在差距。模型6有很高的分類精度,但召回率很低。綜上所述,基于GCN的模型7表現(xiàn)最佳,GCN在新興主題預(yù)測中表現(xiàn)優(yōu)于其他3種對(duì)比模型,說明圖特征提取能力優(yōu)異的GCN模型是合適的圖學(xué)習(xí)模型選擇。
c.LSTM v.s. GRU。模型3改用GRU作為預(yù)測模塊,圖表示學(xué)習(xí)部分保持不變。GRU模型結(jié)構(gòu)相對(duì)簡單,采用重置門和更新門實(shí)現(xiàn)對(duì)歷史數(shù)據(jù)的遺忘和更新,與LSTM模型同屬循環(huán)神經(jīng)網(wǎng)絡(luò),都是當(dāng)前應(yīng)用廣泛的時(shí)間序列模型。通過比較可以看出,模型3明顯劣于本文模型7,尤其在預(yù)測分類精度和召回率方面水平較低。由此,LSTM模型比GRU模型更加適用于新興主題的前瞻探測任務(wù),LSTM模型的選用具有合理性。
綜上所述,比較結(jié)果說明GCN與LSTM的模型組合方案具有相對(duì)優(yōu)勢,能夠在出準(zhǔn)確率之外的指標(biāo)上保持領(lǐng)先,展現(xiàn)出良好預(yù)測能力。良好性能表現(xiàn)也反映了基于融合數(shù)據(jù)模型設(shè)計(jì)的合理性,一方面,GCN模型對(duì)異構(gòu)數(shù)據(jù)展現(xiàn)出良好的深度信息融合能力,尤其將主題多維指標(biāo)特征與共現(xiàn)關(guān)系實(shí)現(xiàn)深度信息融合,形成表征能力強(qiáng)的表示向量,該向量同時(shí)包含了主題個(gè)體特征與橫向關(guān)聯(lián)特征,這種信息豐富度的最大化為學(xué)科分析提供了有力數(shù)據(jù)基礎(chǔ);另一方面,LSTM模型負(fù)責(zé)接收融合數(shù)據(jù)并從中學(xué)習(xí)獲得趨勢預(yù)測能力,其與GCN模型形成的組合方案中表現(xiàn)出良好適配性,耦合良好的模型設(shè)計(jì)有助于充分挖掘融合數(shù)據(jù)的內(nèi)在豐富內(nèi)涵,形成面向?qū)W科預(yù)見的一體化模型。
進(jìn)一步結(jié)合學(xué)科背景檢驗(yàn)新興主題預(yù)測有效性。具體地,將2017―2020年數(shù)據(jù)導(dǎo)入擬合模型,預(yù)測各個(gè)主題2021年的新興涌現(xiàn)程度。通過主題預(yù)測,從中篩選出潛在新興主題,揭示這些主題的學(xué)術(shù)價(jià)值與學(xué)科啟示,可以檢驗(yàn)異構(gòu)融合數(shù)據(jù)預(yù)測模型在學(xué)科探測場景的應(yīng)用性。
表2給出模型預(yù)測出的涌現(xiàn)潛力前20名主題,是重點(diǎn)考察分析對(duì)象。雖然通過預(yù)測年份文獻(xiàn)資料回溯分析可以比較檢驗(yàn)上述主題的涌現(xiàn)特征,但這些主題是否真正反映學(xué)科復(fù)雜動(dòng)態(tài)及未來趨勢,甚至具有遠(yuǎn)期的科技戰(zhàn)略價(jià)值,需要綜合分析并多方求證,尤其需要借助專家的豐富經(jīng)驗(yàn)形成學(xué)科主題洞見。這里期望篩選出的主題不僅具有預(yù)期的高增長潛力,更希望這些主題剛剛興起--因?yàn)榧霸绨l(fā)現(xiàn)涌現(xiàn)不久的主題才更具決策價(jià)值。因此,為了判斷主題的新鮮程度,表2同時(shí)標(biāo)出了主題最早出現(xiàn)的年份(限于樣本跨度2013-2020年)。
表2 高潛力學(xué)科新興主題列表
基于以上思路,依據(jù)主題新鮮度(最早出現(xiàn)年份),表2中主題可劃為兩大類。一類是以知識(shí)表達(dá)(knowledge representation)、科研評(píng)估(research assessment)等為代表的熱門主題,通常出現(xiàn)時(shí)間較久,有的甚至遠(yuǎn)早于樣本年份,基本成為近10年圖情領(lǐng)域的主流熱點(diǎn)之一,它們雖然相對(duì)新鮮度不夠高,但依然保持較高的學(xué)科活躍度和生命力,尤其隨著學(xué)科發(fā)展其內(nèi)涵及外延不斷變化,甚至呈現(xiàn)階段性漲落,持續(xù)推動(dòng)學(xué)科創(chuàng)新前行。另一類則是新鮮涌現(xiàn)的新興主題(其涌現(xiàn)年份以粗體標(biāo)示),這些主題不但體現(xiàn)學(xué)科前沿最新變化,更暗示學(xué)科領(lǐng)域的發(fā)展新方向。從內(nèi)容上,這些新興主題進(jìn)一步細(xì)分為兩種。一是新興信息技術(shù)推動(dòng)下的情報(bào)學(xué)應(yīng)用,包括區(qū)塊鏈(blockchain)、物聯(lián)網(wǎng)(Internet of things)、詞嵌入(word embedding)、深度學(xué)習(xí)(deep learning)、鏈路預(yù)測(link prediction),這些新興主題是學(xué)科交叉融合的典型體現(xiàn),近年信息技術(shù)的重大突破都快速進(jìn)入并影響圖情領(lǐng)域面貌,從方法工具層面極大地推動(dòng)并改變著該學(xué)科方法范式,而且這種影響是長期深遠(yuǎn)的,值得學(xué)者高度關(guān)注;二是反映新研究議題的新冠疫情(covid-19),作為爆發(fā)于2019年的全球性重大公共衛(wèi)生事件對(duì)全球社會(huì)各個(gè)層面帶來了巨大深遠(yuǎn)影響,同樣圖情學(xué)科亦做出了及時(shí)重點(diǎn)關(guān)注。檢索樣本期刊發(fā)現(xiàn)該主題論文發(fā)表分布為7篇(2020年)、67篇(2021年)、50篇(2022年),可見其突發(fā)性涌現(xiàn)特征明顯,也成為模型對(duì)其2021年的高突發(fā)性預(yù)測的有力印證,而且這種活躍性在隨后年份也得到了延續(xù),凸顯了作為高價(jià)值新興主題對(duì)學(xué)科未來的巨大影響力。這些新興主題的學(xué)術(shù)價(jià)值日益獲得領(lǐng)域?qū)W者的關(guān)注認(rèn)同,其高漲學(xué)術(shù)影響趨勢也能夠通過新近學(xué)術(shù)文獻(xiàn)得到證據(jù)支撐,說明了模型在學(xué)科預(yù)見場景的有效應(yīng)用。
總之,本文模型不但展現(xiàn)良好預(yù)測性能,更能夠給出頗具學(xué)科啟發(fā)價(jià)值的新興主題,體現(xiàn)應(yīng)用價(jià)值。尤其值得注意的是,本文方法能夠及時(shí)敏感地發(fā)現(xiàn)以covid-19、blockchain為代表的新鮮高價(jià)值主題,其時(shí)間短、數(shù)量相對(duì)少但具有高增長潛力,這些特征通常給探測任務(wù)帶來困難。這里,面向未來的學(xué)科趨勢探測建立在異構(gòu)數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)預(yù)測能力之上,結(jié)合新鮮程度有助于將高價(jià)值新興主題從包括熱門主題的干擾信號(hào)中進(jìn)一步細(xì)分甄別。
多維特征與共現(xiàn)網(wǎng)絡(luò)互為異構(gòu)數(shù)據(jù),雖然都是主題探測依賴的數(shù)據(jù)基礎(chǔ),但難以融合用于新興主題分析。針對(duì)異構(gòu)數(shù)據(jù)融合難題,借助GCN模型對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的信息提取能力,實(shí)現(xiàn)主題多維特征與共現(xiàn)網(wǎng)絡(luò)的融合表達(dá),并獲得融合異構(gòu)數(shù)據(jù)的主題表示向量。基于此,以該融合向量為輸入,利用LSTM時(shí)序模型,預(yù)測學(xué)科主題的新興狀態(tài)涌現(xiàn)趨勢。以圖書情報(bào)學(xué)為領(lǐng)域開展實(shí)證研究,對(duì)GCN+LSTM的模型框架進(jìn)行性能比較和結(jié)果檢驗(yàn),以驗(yàn)證本文方法的有效性。
本文探測方法表現(xiàn)出良好新興主題預(yù)測能力,具有應(yīng)用價(jià)值。a.研究說明融合模型的預(yù)測能力優(yōu)于非融合模型,預(yù)測能力的提升主要來源于異構(gòu)數(shù)據(jù)融合而獲得的信息豐富度。將應(yīng)用廣泛但難以集成分析的計(jì)量指標(biāo)與共現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行深度圖學(xué)習(xí),以獲得蘊(yùn)含全息特征的主題嵌入向量,該向量能夠更好地捕捉主題內(nèi)在規(guī)律,不但能夠用于發(fā)現(xiàn)新興主題,而且具有更加廣闊的應(yīng)用場景,例如主題演化、主題語義等。b.研究說明圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系具有極強(qiáng)學(xué)習(xí)捕捉能力,有助于深刻把握學(xué)科領(lǐng)域的復(fù)雜性,能夠?qū)⑵鋺?yīng)用擴(kuò)展至其他對(duì)象,比如引用網(wǎng)絡(luò)、學(xué)術(shù)合作等。另外,雖然鏈路預(yù)測及社會(huì)網(wǎng)絡(luò)指標(biāo)也被應(yīng)用于主題分析,但他們?nèi)狈D卷積神經(jīng)網(wǎng)絡(luò)擁有的圖學(xué)習(xí)能力,更無法實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的多元融合。本文貢獻(xiàn)在于借助圖卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)以往難以集成利用的異構(gòu)數(shù)據(jù)融合,通過GCN+LSTM的模型設(shè)計(jì)為更加全面深刻把握學(xué)科主題新興規(guī)律提供有益探索。
雖然方法科學(xué)性與適用性得到有力支撐,但也存在局限性。本文選擇了主題共現(xiàn)進(jìn)行融合分析,但還有其他反映主題狀態(tài)的重要網(wǎng)絡(luò)關(guān)系,比如語義關(guān)聯(lián)、主題引用等,這些數(shù)據(jù)的綜合集成分析值得下一步深入探討。另外,非結(jié)構(gòu)化的文獻(xiàn)全文蘊(yùn)含更豐富主題信息,將其與網(wǎng)絡(luò)關(guān)系的深度融合也是有待探索方向。