張素芳 劉慧敏
華南師范大學(xué)經(jīng)濟(jì)與管理學(xué)院 廣州 511400
科學(xué)系統(tǒng)包含了大量元素和鏈接,研究者對(duì)學(xué)術(shù)論文的引文動(dòng)態(tài)和科學(xué)演變?cè)絹碓礁信d趣。被引頻次在一定程度上反映了論文受到的關(guān)注程度,然而通常只有少數(shù)的研究論文積累了絕大多數(shù)的被引頻次,而其他大多數(shù)論文只吸引了少數(shù)的其它論文的引用[1]。也就是說,一些研究論文比其他研究論文更有可能吸引研究者的注意。對(duì)于不斷增長(zhǎng)的文獻(xiàn)數(shù)量,預(yù)測(cè)哪篇論文更有可能引起學(xué)術(shù)界的關(guān)注是很重要的。因此,被引頻次預(yù)測(cè)成為目前文獻(xiàn)計(jì)量領(lǐng)域的一個(gè)新的研究方向。該研究主題已經(jīng)涌現(xiàn)了不少的論文,在研究建模過程中,一些研究人員被大量的低被引頻次的論文所困擾,方法和影響因素特征的選擇多樣化,導(dǎo)致研究的重復(fù)累贅,盡管已經(jīng)有學(xué)者對(duì)該主題進(jìn)行系統(tǒng)性的綜述,但是主要集中在影響因素和研究方法上,還未有學(xué)者從研究人員如何介入該領(lǐng)域研究提出有效的解決方案?;诖?,本文梳理了論文被引頻次的影響因素,面向預(yù)測(cè)任務(wù),將被引頻次預(yù)測(cè)分為回歸任務(wù)和分類任務(wù),闡述這兩個(gè)方面單篇論文被引頻次的研究方法、論文的研究對(duì)象形式和預(yù)測(cè)周期等,最后根據(jù)現(xiàn)有研究中的普遍問題提出一些方案,以期為后續(xù)研究者提供借鑒和參考。本文主要的梳理框架如圖1所示:
圖1 綜述框架
學(xué)術(shù)論文的被引頻次預(yù)測(cè)已經(jīng)被廣泛地研究,在這些被引頻次預(yù)測(cè)的研究中,研究人員往往關(guān)注什么因素會(huì)影響論文的被引量,從而篩選重要的影響因素來對(duì)引文的被引量進(jìn)行預(yù)測(cè)。F. Didegah和M. Thelwall[2]認(rèn)為,論文引用動(dòng)機(jī)復(fù)雜,引用者對(duì)論文的智力認(rèn)知是論文被引量的內(nèi)在因素,其可以通過訪談和問卷進(jìn)行調(diào)查,但是其具有耗時(shí)的缺點(diǎn),并且由于引用動(dòng)機(jī)的復(fù)雜性和學(xué)科依賴性,這種定性研究通常只涉及一小部分學(xué)者樣本,而外部因素可以大規(guī)模地量化和計(jì)算,因此可以用來預(yù)測(cè)未來的引文影響。影響被引率的外在因素包括被引用論文的作者、摘要、期刊、領(lǐng)域和參考文獻(xiàn)以及論文本身等屬性特征。本文研究?jī)H局限于外部動(dòng)機(jī),將這些因素歸納為論文本身、作者、期刊、其他四大類。
在與論文相關(guān)的影響因素中,與被引頻次相關(guān)的主要因素之一是論文的主題,論文的主題是論文研究?jī)?nèi)容的核心,它可以用來預(yù)測(cè)論文未來被引頻次[3]。論文的內(nèi)容可以從三個(gè)維度進(jìn)行評(píng)價(jià)——論文所研究的主題的關(guān)注度、主題新穎性、主題的多樣性。熱門的主題通常也會(huì)吸引更多的關(guān)注和更多其它論文的引用[4],論文主題新穎也會(huì)增強(qiáng)其影響力和被引率[5],論文主題越有吸引力和新穎性越高,它被引頻次可能就會(huì)越多。此外,所研究的主題范圍和主題領(lǐng)域?qū)⒂绊懕灰l次,論文研究主題的多樣性會(huì)給論文的被引頻次帶來影響[6]。
在主題的識(shí)別研究中,大多數(shù)研究者都是使用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型或其衍生模型進(jìn)行主題識(shí)別,進(jìn)而計(jì)算其主題的關(guān)注度/熱度、新穎性、多樣性等指標(biāo)。主題關(guān)注度的測(cè)度主要從累計(jì)被引的角度進(jìn)行計(jì)算,多樣性的測(cè)度主要從信息熵的角度進(jìn)行計(jì)算,新穎性的測(cè)度主要從同行評(píng)議、引用、內(nèi)容三個(gè)角度進(jìn)行計(jì)算[7],除去同行評(píng)議,另外兩種方法(引用對(duì)的共現(xiàn)頻率和主題內(nèi)容的共現(xiàn)頻率)都是基于一種共現(xiàn)思想進(jìn)行考慮的。關(guān)于內(nèi)容新穎程度的研究有許多,但其研究的角度大致相同。
參考文獻(xiàn)的數(shù)量、權(quán)威度以及論文中參考文獻(xiàn)的多樣性也會(huì)增加論文的被引頻次[8]。參考文獻(xiàn)數(shù)量多的研究與較高的被引率相關(guān)[9]。平均參考文獻(xiàn)年份越年輕的論文,可能獲得更多的被引量,引用“舊出版物”的論文被引量明顯減少[10],因?yàn)檎撐男畔㈦S著時(shí)間的流逝會(huì)過時(shí)[11]。一般來說,在發(fā)表后的前幾年,被引頻次達(dá)到峰值,隨著時(shí)間的推移,被引頻次逐漸減少。此外,參考文獻(xiàn)的權(quán)威度(累計(jì)被引頻次[12])和多樣性(施引文獻(xiàn)所屬研究領(lǐng)域[6]和跨國(guó)籍[2])也會(huì)對(duì)論文引文率產(chǎn)生影響。
還有研究發(fā)現(xiàn),某些類型的文檔比其他類型的文檔獲得更多的被引,如綜述論文比研究論文的被引用更多[13]?;鹳Y助是科學(xué)研究的重要經(jīng)濟(jì)來源,充足的經(jīng)費(fèi)可以使研究得到較好的物質(zhì)保障,一般來說,獲得更高水平資助的研究項(xiàng)目的論文能比未受資助的論文獲得更多的被引[8]。在一些研究中,論文早期被引率及其速度也被認(rèn)為是其未來被引的預(yù)測(cè)因素[6]。論文早期被引是科學(xué)界對(duì)這篇論文的早期反饋,其被引速率在一定程度上反映了論文在科學(xué)界的傳播速度。論文的長(zhǎng)度(其頁數(shù))也是增加被引頻次的因素之一[8],因?yàn)檩^長(zhǎng)的論文包含了更多的信息[14]。論文的標(biāo)題是整篇論文內(nèi)容最濃縮的概括,也是研究學(xué)者搜索論文最先看到的內(nèi)容,因此也有研究學(xué)者對(duì)這方面的內(nèi)容進(jìn)行了研究,H. R. Jamali和M. Nikzad[15]認(rèn)為,一個(gè)信息豐富的標(biāo)題可以增加論文的被引次數(shù),但標(biāo)題長(zhǎng)度和被引之間沒有顯著的相關(guān)性,相對(duì)于被引頻次,標(biāo)題特征對(duì)下載次數(shù)的影響更大[16]。開放獲取是指論文的可訪問性和可見性,能夠閱讀全文作者才能從該篇論文中獲取自己需要引用的內(nèi)容,因此發(fā)表在開放獲取期刊上的論文,往往比發(fā)表在非開放獲取期刊上的論文被引量更多[817]。
與論文相關(guān)的影響因素研究范圍非常廣泛,除了以上研究得比較多的影響因素,國(guó)外學(xué)者還對(duì)論文的方法論/研究設(shè)計(jì)、章節(jié)特征、是否使用數(shù)據(jù)/附錄等方面進(jìn)行了詳細(xì)的研究[18]。盡管有論文研究這些因素在某些領(lǐng)域上與被引率是有相關(guān)性的,但在不同領(lǐng)域的研究中,這些因素與被引率不一定產(chǎn)生關(guān)系,或者只有微弱的關(guān)系。這些研究經(jīng)常忽略不同學(xué)科的差異[19],其實(shí)一些影響因素都是具有明顯的學(xué)科領(lǐng)域特征的,因此,構(gòu)建普適性的綜合指標(biāo)并不是很好的選擇。筆者對(duì)以上綜述的影響因素進(jìn)行了整體歸納,如表1所示:
表1 論文相關(guān)影響因素及描述
與作者相關(guān)的因素也會(huì)對(duì)論文的被引頻次產(chǎn)生影響。作者的數(shù)量是一種表明研究合作程度的衡量標(biāo)準(zhǔn)。高質(zhì)量的論文往往涉及多個(gè)科研人員的合作,作者合著(特別是國(guó)際上的合作[20])能增加論文的被引率[21]。然而,有一些研究卻發(fā)現(xiàn)了相反的結(jié)果,證明國(guó)際合作與論文被引頻次之間并無特別的聯(lián)系[8]。隨著引文時(shí)間窗口變長(zhǎng),作者數(shù)量與引文之間的相關(guān)性也會(huì)減弱[22]。但也有研究報(bào)告指出,不同領(lǐng)域的作者合作能增加論文的被引率[23]。因此,作者之間的合作是否影響論文的被引頻次存在著較大的分歧。
此外,論文作者數(shù)量和自引數(shù)呈正比的關(guān)系[24],但是,有研究發(fā)現(xiàn),自引率與非自引率的比例隨著論文積累的總被引頻次的增加而降低,自引往往集中出現(xiàn)在論文出版后的很短的時(shí)間內(nèi)[25]。因此從宏觀角度看,在分析論文被引時(shí)不需要在分析中排除自引[26]。
著名作者在其研究領(lǐng)域有著較高的聲望,其論文往往會(huì)有較高的被引量[27]。馬太效應(yīng)使具有高被引特征的作者發(fā)表的論文比具有低被引特征的作者發(fā)表的論文更能獲得其它論文的引用[12]。因此,作者之前的論文的被引頻次可以被認(rèn)為是對(duì)未來論文被引的一個(gè)很好的預(yù)測(cè)因素[28]。H指數(shù)是用來衡量科學(xué)界研究者能力的最常用的標(biāo)準(zhǔn)[29],聲望高的作者H指數(shù)往往很高,因此,在研究作者某一個(gè)領(lǐng)域的聲望對(duì)論文被引量的影響時(shí),常用H指數(shù)作為一個(gè)計(jì)量的指標(biāo)。作者所屬機(jī)構(gòu)的聲望很大部分依賴于作者。一般來說,排名高的學(xué)校的論文會(huì)有更多的被引量[30]。
除此之外,關(guān)于作者的人口統(tǒng)計(jì)學(xué)特征也被納入到測(cè)量指標(biāo)之中。有研究發(fā)現(xiàn),白人和男性比非白人和女性有更高的影響力[31]。但也有研究表明人口統(tǒng)計(jì)學(xué)特征對(duì)于論文是否被引并無顯著性的影響[32]。
筆者對(duì)作者相關(guān)的影響因素做了以下的歸納,如表2所示:
表2 作者相關(guān)影響因素及描述
除了與論文與作者相關(guān)方面的影響外,有研究發(fā)現(xiàn)論文的被引頻次的主要決定因素是期刊層面的因素[33]。論文在出版期刊上獲得的平均被引量可以預(yù)測(cè)論文未來的被引量[6]。研究者在發(fā)表論文時(shí)往往會(huì)更傾向于發(fā)表在具有高影響力的刊物上,以提高他們論文的可見性,從而獲得更高的被引量。研究證明,在具有高影響力的期刊上發(fā)表論文能比在低影響力的期刊上發(fā)表的論文更容易獲得高被引[34]。盡管大量研究都證明了期刊的影響力與論文的被引量存在正相關(guān)關(guān)系,但是也有一些研究發(fā)現(xiàn),期刊影響因子不一定是被引頻次預(yù)測(cè)的影響指標(biāo)[35]。也有研究者使用出版物的總被引量、生產(chǎn)力(刊載論文數(shù))作為研究的影響因素之一[36]。除此之外,部分研究認(rèn)為期刊的語種對(duì)于論文被引率來說也是有一定的影響的[32],特別是英語期刊[12],會(huì)積累更多的被引量。以下是本文對(duì)期刊相關(guān)影響因素的歸納,如表3所示:
表3 期刊相關(guān)影響因素及描述
隨著研究的不斷深入,出現(xiàn)了社交網(wǎng)絡(luò)、時(shí)間等因素等新的研究視角。研究者開始分析社會(huì)網(wǎng)絡(luò)活動(dòng)和文獻(xiàn)計(jì)量學(xué)之間的潛在聯(lián)系[37]??琢岬萚38]在歸納相關(guān)影響因素時(shí),增加了替代計(jì)量角度的因素,但替代計(jì)量因素針對(duì)的是開放學(xué)術(shù)網(wǎng)絡(luò)平臺(tái)及社交網(wǎng)站進(jìn)行研究,與傳統(tǒng)的學(xué)術(shù)論文網(wǎng)站存在一定的區(qū)別。除了社交網(wǎng)絡(luò)外,學(xué)術(shù)引文網(wǎng)絡(luò)也是一個(gè)很重要的因素。為了衡量作者的社交性,R. Yan等建立了一個(gè)作者協(xié)作網(wǎng)絡(luò),并用PageRank遞歸地計(jì)算了社交性[39]。由于學(xué)術(shù)論文的引用具有半衰期屬性,所以時(shí)間因素對(duì)于論文的被引頻次預(yù)測(cè)來說也是一個(gè)非常具有研究?jī)r(jià)值的因素。E. Butun和M.Kaya將作者的引文網(wǎng)絡(luò)和時(shí)間因素相結(jié)合,引入一個(gè)時(shí)間鏈路指標(biāo),考慮作者引文網(wǎng)絡(luò)的演化趨勢(shì),利用復(fù)雜網(wǎng)絡(luò)中的局部和全局拓?fù)浣Y(jié)構(gòu),根據(jù)引文網(wǎng)絡(luò)中的鏈路來預(yù)測(cè)鏈接的權(quán)重,這是第一個(gè)使用定向、加權(quán)和時(shí)間引文網(wǎng)絡(luò)來進(jìn)行被引頻次預(yù)測(cè)的研究[40]。
筆者對(duì)其他類因素進(jìn)行了歸納,如表4所示:
表4 其他影響因素及描述
隨著科學(xué)計(jì)量的發(fā)展,眾多的研究方法被引進(jìn)到被引頻次預(yù)測(cè)研究中。從任務(wù)導(dǎo)向出發(fā),可以將預(yù)測(cè)問題定義為回歸問題,也可以將預(yù)測(cè)問題定義為分類問題。回歸問題中,主要的研究方法分為以下三類:傳統(tǒng)的回歸分析方法、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法。而分類問題,則主要是使用機(jī)器學(xué)習(xí)的方法進(jìn)行研究。在引入的多種方法中,每種研究方法都有其特性和適用性。
將被引頻次預(yù)測(cè)定義為回歸問題,是指利用一篇論文的相關(guān)特征,預(yù)測(cè)這篇論文在某個(gè)時(shí)間節(jié)點(diǎn)的被引頻次[41]。回歸是目前最常用的一種預(yù)測(cè)方法[42]。本文將從傳統(tǒng)的回歸方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法三個(gè)方面梳理論文的被引頻次預(yù)測(cè)研究現(xiàn)狀。
3.1.1 傳統(tǒng)回歸預(yù)測(cè)
在預(yù)測(cè)回歸問題上,早期研究人員更多地使用傳統(tǒng)的線性回歸方法進(jìn)行擬合研究,C.Lokker等[43]人使用了17個(gè)參考文獻(xiàn)相關(guān)特征和3個(gè)期刊相關(guān)特征來預(yù)測(cè)臨床論文兩年被引頻次,其多元回歸預(yù)測(cè)結(jié)果訓(xùn)練集的決定系數(shù)r2為0.60,測(cè)試集的決定系數(shù)r2為0.56,在進(jìn)行被引頻次預(yù)測(cè)敏感度分析時(shí),被引頻次排名前半部分和前三分之一的論文特異性為72%和82%,回歸預(yù)測(cè)對(duì)于高被引論文的預(yù)測(cè)效果更好,該結(jié)論并不僅僅在這篇文章中得到體現(xiàn),G. Abramo等[44]的研究中也有提及,其反映的事實(shí)是絕大多數(shù)論文是低被引的,只有少部分論文是高被引的[36]。T. Yu等[28]采用多元逐步回歸的方法,從論文的外部特征、作者的特征、發(fā)表期刊的特征和被引論文的特征中選擇好的特征變量,建立一個(gè)描述特征與引文影響之間關(guān)系的模型,用于預(yù)測(cè)論文發(fā)表5年后的被引頻次。L. Bornmann等[45]使用了WoS數(shù)據(jù)庫(kù)中1980年發(fā)表的所有論文,涵蓋各個(gè)學(xué)科,總計(jì)約50萬篇學(xué)科文獻(xiàn),以發(fā)表后的第31年被引頻次作為因變量,進(jìn)行論文的長(zhǎng)期影響預(yù)測(cè),研究發(fā)現(xiàn),只有論文發(fā)表后前幾年的被引頻次能顯著提高論文的長(zhǎng)期影響預(yù)測(cè),同樣的研究結(jié)果也被G. Abramo等發(fā)現(xiàn)。G. Abramo等[44]使用了兩種線性回歸模型,預(yù)測(cè)的平均準(zhǔn)確性對(duì)于兩年以上的引文時(shí)間窗口是良好的,三年的引文時(shí)間窗口足夠預(yù)測(cè)科學(xué)文獻(xiàn)的長(zhǎng)期影響,該模型對(duì)于低被引的科學(xué)文獻(xiàn)預(yù)測(cè)準(zhǔn)確率較低,并且不同學(xué)科的準(zhǔn)確率也不同。程子軒等[46]使用逐步回歸的方法,對(duì)圖書情報(bào)期刊論文發(fā)表后的第七年被引頻次進(jìn)行預(yù)測(cè),實(shí)驗(yàn)發(fā)現(xiàn)了10個(gè)與學(xué)術(shù)論文被引頻次呈顯著相關(guān)的影響因素。
傳統(tǒng)的回歸分析方法是基于統(tǒng)計(jì)學(xué)進(jìn)行的,這類模型對(duì)于小數(shù)據(jù)量、簡(jiǎn)單的關(guān)系很有效,并且有直觀的理解和解釋,但是對(duì)于數(shù)據(jù)分布的要求十分高,對(duì)于結(jié)構(gòu)復(fù)雜的數(shù)據(jù)其處理精準(zhǔn)度并不是很高。傳統(tǒng)回歸方法預(yù)測(cè)論文被引頻次的部分論文如表5所示:
表5 傳統(tǒng)回歸方法預(yù)測(cè)論文被引頻次的部分論文(回歸問題)
3.1.2 機(jī)器學(xué)習(xí)預(yù)測(cè)
隨著科學(xué)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)開始出現(xiàn)在被引頻次預(yù)測(cè)研究中,R. Yan等[47]利用高被引論文的基本特征,使用了多種機(jī)器學(xué)習(xí)方法進(jìn)行比較,預(yù)測(cè)每種文獻(xiàn)的被引頻次,其最佳預(yù)測(cè)模型CART分類回歸樹在預(yù)測(cè)10年內(nèi)的被引頻次其決定系數(shù)r2平均預(yù)測(cè)性能為0.786,其研究發(fā)現(xiàn),作者的專業(yè)知識(shí)和期刊的影響力是該研究的顯著影響因素,孤立的內(nèi)容特征無法進(jìn)行被引頻次預(yù)測(cè)。T. Chakraborty等[6]則認(rèn)為,大多數(shù)的回歸方法存在一個(gè)潛藏的假設(shè),即所有發(fā)表論文的引文模式都具有相似的特征,該假設(shè)在一定程度上影響了預(yù)測(cè)的準(zhǔn)確性,為此,他提出使用分層學(xué)習(xí)的方法,將論文分為了6種引文模式,分別對(duì)不同模式的論文使用支持向量機(jī)模型進(jìn)行回歸模擬,其研究證明,分層學(xué)習(xí)是有效的,但該方法僅對(duì)于平均每年被引頻次大于1的論文有效。J. Chen和C. Zhang基于6種內(nèi)容特征和10項(xiàng)作者特征,引入IBM模型提取內(nèi)容特征計(jì)算論文主題之間的關(guān)聯(lián)概率,并使用二部網(wǎng)絡(luò)投影得到作者協(xié)作網(wǎng)絡(luò),使用梯度增強(qiáng)回歸樹(GBRT)來預(yù)測(cè)論文的引文計(jì)數(shù),實(shí)驗(yàn)結(jié)果表明,GBRT的“內(nèi)容特征”組在KDDCUP數(shù)據(jù)集上的性能最高[48]。然而,在X. Zhu和Z. Ban[36]的研究中,其使用ArnetMiner數(shù)據(jù)集,引入學(xué)術(shù)網(wǎng)絡(luò)特征進(jìn)行研究,發(fā)現(xiàn)作者的特征更重要,支持向量機(jī)SVM的r2最高,達(dá)到88.87%。機(jī)器學(xué)習(xí)方法預(yù)測(cè)論文被引頻次的部分論文見表6。
表6 機(jī)器學(xué)習(xí)方法預(yù)測(cè)論文被引頻次的部分論文(回歸問題)
3.1.3 深度學(xué)習(xí)預(yù)測(cè)
最近幾年,神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法開始被應(yīng)用于被引頻次預(yù)測(cè)。深度學(xué)習(xí)模型是一種特殊的機(jī)器學(xué)習(xí),它允許模型通過多個(gè)處理層學(xué)習(xí)具有多個(gè)抽象層次的數(shù)據(jù)[49]。在深度學(xué)習(xí)中,RNN、LSTM、GRU等時(shí)間序列神經(jīng)網(wǎng)絡(luò)可以預(yù)測(cè)未來一段時(shí)間的序列值,BP神經(jīng)網(wǎng)絡(luò)和CNN對(duì)于特征值處理更加有效。
A. Abrishami等[50]利用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)論文的引文序列從而預(yù)測(cè)未來引文序列,但是在進(jìn)行預(yù)測(cè)過程中,僅僅使用了論文發(fā)表后早期引文特征,并未將其他信息源如作者的功能、論文的內(nèi)容等作為數(shù)據(jù)進(jìn)行輸入。LSTM模型是RNN模型的變種,S. Yuan等[51]結(jié)合了論文的內(nèi)在質(zhì)量、老化效應(yīng)、馬太效應(yīng)和近期效應(yīng)4種現(xiàn)象,提出了基于RNN和LSTM的論文被引頻次預(yù)測(cè)模型,但也僅是使用時(shí)間序列進(jìn)行預(yù)測(cè),未使用作者、期刊、論文等相關(guān)特征。與前文多提到的研究相比,J. Wen等[52]則提取了用于預(yù)測(cè)論文被引頻次的特征,然后將這些特征輸入到GRU神經(jīng)網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)。將預(yù)測(cè)結(jié)果與其他回歸模型進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,該模型預(yù)測(cè)精度高,收斂速度快。引文計(jì)數(shù)的時(shí)間序列預(yù)測(cè)優(yōu)于現(xiàn)有的方法。
區(qū)別于時(shí)間序列數(shù)據(jù)預(yù)測(cè)方法,X. Ruan等[42]使用四層反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)論文未來某個(gè)時(shí)間段總被引頻次,其研究結(jié)果發(fā)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)的性能明顯優(yōu)于6個(gè)基線模型(XGBoost、RF、LR、SVR、KNN、RNN)。在預(yù)測(cè)效果方面,低被引論文的準(zhǔn)確率高于高被引論文。J. Xu等[53]則提出了一種以數(shù)據(jù)為中心的方法,結(jié)合許多文獻(xiàn)特征,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預(yù)測(cè)長(zhǎng)期的科學(xué)影響。
與依賴于統(tǒng)計(jì)學(xué)的線性回歸模型不同,深度學(xué)習(xí)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)的分布沒有嚴(yán)格的要求。神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果通常是具有魯棒性的。此外,淺層機(jī)器學(xué)習(xí)模型的性能取決于特征工程的質(zhì)量,特征工程質(zhì)量越好,模型的學(xué)習(xí)效率往往會(huì)越高。然而,特征工程的構(gòu)建、選擇和提取并非易事。相比之下,深度神經(jīng)網(wǎng)絡(luò)在其特征學(xué)習(xí)方面具有優(yōu)勢(shì)——自動(dòng)特征工程[49],即它可以通過多層次和非線性變換,將初始的“底部”特征表示自動(dòng)轉(zhuǎn)換為“高級(jí)特征”[42]。深度學(xué)習(xí)方法預(yù)測(cè)論文被引頻次的部分論文如表7所示。
表7 深度學(xué)習(xí)方法預(yù)測(cè)論文被引頻次的部分論文(回歸問題)
3.1.4 小結(jié)
上述提及的預(yù)測(cè)研究大部分都有對(duì)論文進(jìn)行篩選處理,即刪除低被引論文后,再進(jìn)行預(yù)測(cè)。其原因是低被引論文在回歸預(yù)測(cè)上的效果并不明顯,回歸預(yù)測(cè)在很多情況下僅適合預(yù)測(cè)高被引論文,然而,一篇新出版的論文,我們并不知道其是否屬于高被引論文,因此預(yù)測(cè)效果與實(shí)際應(yīng)用會(huì)產(chǎn)生較大的差別。Y. DONG等[54]認(rèn)為被引頻次預(yù)測(cè)具有長(zhǎng)尾效應(yīng),不適合采用回歸方式進(jìn)行預(yù)測(cè),即預(yù)測(cè)的有效性從根本上受到被引頻次的冪律分布的限制,低被引論文普遍存在,而高被引論文則相對(duì)罕見。由于絕大多數(shù)文獻(xiàn)積累的被引頻次很少,傳統(tǒng)的回歸分析將很難度量論文的被引頻次。為了解決這種困難,通過提取高被引論文的特征,并將這些特征映射到論文的被引頻次上,可以一定程度上提高被引頻次的預(yù)測(cè)效率,但是由于低被引論文的數(shù)量太多,導(dǎo)致高被引論文的特征并不非常明顯,這將會(huì)使得實(shí)際應(yīng)用數(shù)據(jù)集的預(yù)測(cè)效果大大降低。
被引頻次預(yù)測(cè)問題從回歸轉(zhuǎn)化為分類問題,盡管預(yù)測(cè)粒度變粗,但是預(yù)測(cè)結(jié)果更加符合引文數(shù)據(jù)分布規(guī)律,使得模型更加具有泛化性[41]。相比于回歸問題的預(yù)測(cè)方法,將預(yù)測(cè)任務(wù)視為分類問題的研究方法則比較單一,主要是使用各種機(jī)器學(xué)習(xí)的方法進(jìn)行分類預(yù)測(cè)。由于分類任務(wù)是有監(jiān)督的學(xué)習(xí),因此這類研究方法需要設(shè)定一個(gè)分類閾值,用以確定每篇文獻(xiàn)的標(biāo)簽。常用來進(jìn)行論文被引頻次預(yù)測(cè)的分類方法有支持向量機(jī)(SVM)、貝葉斯網(wǎng)絡(luò)(NB)、K最近鄰(KNN)、邏輯回歸(LRC)、決策樹、梯度提升決策樹(GBRT)、袋裝法(BAG)、隨機(jī)森林(RF)、XGBoost、AdaBoost算法等。
A. Ibanez等[55]將論文分為三類——很少被引(被引頻次小于等于1)、一些被引(被引頻次2-4)和許多被引(被引頻次超過4),采用機(jī)器學(xué)習(xí)方法,如樸素貝葉斯、邏輯回歸、決策樹和k最近鄰(KNN),來預(yù)測(cè)從第一年到第四年的被引頻次,結(jié)果表明,邏輯回歸算法和樸素貝葉斯算法的準(zhǔn)確率最高。L. Fu和C.Aliferis[4]使用支持向量機(jī)(SVM) 在生物醫(yī)學(xué)領(lǐng)域預(yù)測(cè)一篇論文發(fā)表10年后被引量是否高于某個(gè)閾值(20、50、100、500),模型的預(yù)測(cè)AUC(Area Under Curve,線下曲線面積)為0.857-0.918。M. Wang等[56]將天文學(xué)和天體物理學(xué)領(lǐng)域的219篇論文分為高、中、低三組,使用了一個(gè)由5個(gè)決策樹分類器組成的多分類器系統(tǒng)來進(jìn)行預(yù)測(cè),并獲得了較高的分類能力,其研究表明,論文的內(nèi)部質(zhì)量和外部特征(主要表現(xiàn)為作者和期刊的聲譽(yù)),有助于提高論文的被引頻次預(yù)測(cè)。Y. Dong等[54]的研究發(fā)現(xiàn),作者出版文獻(xiàn)的主題和刊載期刊決定一篇論文是否將貢獻(xiàn)其主要作者的h指數(shù),發(fā)表文獻(xiàn)的主題受歡迎程度和合著者的影響與預(yù)測(cè)目標(biāo)無關(guān),在預(yù)測(cè)一篇論文是否會(huì)在5年內(nèi)對(duì)其主要作者的h指數(shù)有貢獻(xiàn)時(shí),其最佳模型具有87.5%以上的準(zhǔn)確度。耿騫等[41]通過大量實(shí)驗(yàn)分析發(fā)現(xiàn) GBDT、XGBoost和隨機(jī)森林的預(yù)測(cè)能力較強(qiáng),且預(yù)測(cè)的時(shí)間段越長(zhǎng),效果也就相對(duì)越好。
機(jī)器學(xué)習(xí)的方法在識(shí)別高影響力或高被引論文上具有較高的準(zhǔn)確度。但是,分類模型的分類標(biāo)準(zhǔn)并沒有進(jìn)行統(tǒng)一的界定,往往是研究人員根據(jù)所使用的論文數(shù)據(jù)集進(jìn)行自定義界定,甚至同一研究人員在不同研究時(shí)期的分類標(biāo)準(zhǔn)都不一樣,顯示出分類方法具有粗粒度的缺點(diǎn),該缺點(diǎn)限制了論文研究成果的普及應(yīng)用[42];其次,分類結(jié)果是某一段時(shí)間內(nèi)的被引總量,是論文被引量的簡(jiǎn)化處理[42],因此無法判斷論文隨時(shí)間變化而產(chǎn)生的被引趨勢(shì)變化。
機(jī)器學(xué)習(xí)可以處理兩類預(yù)測(cè)問題,即回歸問題和分類問題。在眾多的研究中,集成的機(jī)器學(xué)習(xí)方法和支持向量機(jī)都有比較好的預(yù)測(cè)效果。相比于預(yù)測(cè)回歸值,機(jī)器學(xué)習(xí)在分類回歸上有更好的表現(xiàn)。盡管分類預(yù)測(cè)粒度較粗,但是更能符合實(shí)際的應(yīng)用數(shù)據(jù),可以減少低被引數(shù)據(jù)在分類過程中的影響。機(jī)器學(xué)習(xí)方法預(yù)測(cè)論文被引頻次的部分論文如表8所示:
表8 機(jī)器學(xué)習(xí)方法預(yù)測(cè)論文被引頻次的部分論文(分類問題)
綜合來看,不論是將預(yù)測(cè)研究定義為回歸問題還是分類問題,在研究過程中都存在著一些共性的問題,本文將會(huì)對(duì)這些存在的問題進(jìn)行分析。
影響因素與被引頻次之間更多的是相關(guān)性研究,兩者之間是相關(guān)的并不意味著在預(yù)測(cè)模型中有較好的效果。由于被引頻次相關(guān)的影響因素眾多,關(guān)于被引頻次預(yù)測(cè)的影響因素研究已有較多的成果,各方面的影響因素均有涉及與研究,總體來說主要是論文/內(nèi)容相關(guān)的影響因素、作者相關(guān)的影響因素、期刊相關(guān)的影響因素,還有一些其他影響因素,包括但不限于時(shí)間因素、替代計(jì)量因素、網(wǎng)絡(luò)特征因素等。但是不同的數(shù)據(jù)集中,不同的影響因素可能會(huì)產(chǎn)生不同的效果,如KDDCUP數(shù)據(jù)集中,J.Chen和C. Zhang研究發(fā)現(xiàn)內(nèi)容特征更重要[48],而在ArnetMiner數(shù)據(jù)集中,X. Zhu和Z. Ban發(fā)現(xiàn)作者特征更加重要[36]。
被引頻次預(yù)測(cè)研究的樣本數(shù)據(jù)相對(duì)單一,使用的數(shù)據(jù)集大多是關(guān)于理工科和醫(yī)學(xué)類科學(xué)文獻(xiàn)。盡管有些研究中,有進(jìn)行學(xué)科之間的對(duì)比,但是學(xué)科領(lǐng)域并未跳脫自然科學(xué)和人文科學(xué)之間的界限,因此研究缺乏全面性。ArnetMiner學(xué)術(shù)數(shù)據(jù)集和AMiner數(shù)據(jù)集是使用較多的關(guān)于計(jì)算機(jī)領(lǐng)域的科學(xué)文獻(xiàn)公開數(shù)據(jù)集,此外生物醫(yī)學(xué)類的數(shù)據(jù)集也比較多,人文社科類數(shù)據(jù)集非常少,并且使用的數(shù)據(jù)集大多數(shù)來源于外文數(shù)據(jù)庫(kù)。這種現(xiàn)象值得我們思考,已有的研究發(fā)現(xiàn),不同領(lǐng)域的研究數(shù)據(jù)集之間差異比較大,因此,將這些被引頻次預(yù)測(cè)的研究方法遷移到國(guó)內(nèi)數(shù)據(jù)集或人文社會(huì)數(shù)據(jù)集是否依然適用有待驗(yàn)證。
預(yù)測(cè)未來長(zhǎng)期影響最終目的還是落實(shí)到應(yīng)用中,但是大多數(shù)論文并未對(duì)多長(zhǎng)的周期是適用的進(jìn)行闡述。在以上眾多研究中,預(yù)測(cè)的周期長(zhǎng)短不一。它們的研究目的是預(yù)測(cè)論文的短期或長(zhǎng)期影響,以未來一定時(shí)間段的被引頻次來衡量,該時(shí)間段在不同的研究中設(shè)定不一,如1年、5年、10年甚至31年的長(zhǎng)度等。不同研究者使用的數(shù)據(jù)不同,造成研究的周期不同,但在多數(shù)研究論文中,并未闡述論文所研究的周期有何依據(jù)。只有少數(shù)論文對(duì)整體數(shù)據(jù)進(jìn)行了研究,再劃分出有效的引文時(shí)間窗口。引文時(shí)間窗口又引申了一個(gè)實(shí)用性問題,過長(zhǎng)的引文時(shí)間窗口會(huì)出現(xiàn)信息的滯后性,導(dǎo)致預(yù)測(cè)結(jié)果無效,過短的引文時(shí)間窗口可能會(huì)造成模型準(zhǔn)確度下降。
被引頻次預(yù)測(cè)需要一個(gè)評(píng)價(jià)標(biāo)準(zhǔn)來對(duì)模型的好壞進(jìn)行評(píng)估,常用的評(píng)估方法有決定系數(shù)r2、均方誤差MSE、平均絕對(duì)誤差MAE、準(zhǔn)確率ACC等,但是在許多研究中,僅給出了評(píng)估方法的值大小以判斷模型的好壞,對(duì)值大小并未進(jìn)行詳細(xì)的解釋,這是這類研究的通病。事實(shí)上,模型評(píng)估方法的值大小是基于實(shí)際值和預(yù)測(cè)值進(jìn)行計(jì)算的,如MAE是平均絕對(duì)誤差,在進(jìn)行值大小判斷時(shí),應(yīng)該與真實(shí)值的大小進(jìn)行比較,看誤差值在真實(shí)值多大范圍內(nèi),而不僅僅是比較不同方法產(chǎn)生的誤差值大小。
針對(duì)第4部分提出的被引預(yù)測(cè)研究中存在的共性問題,本文提出了一些建議,希望能夠給相關(guān)研究人員提供一些參考,以提高研究的質(zhì)量。
上述綜述已經(jīng)從各個(gè)方面綜合闡述了影響論文的因子,這些影響因子最終都有可能成為建立模型的特征之一。但是如何使這些特征因子更能表達(dá)出模型所需要的信息,我們需要從微觀的具體操作方法的角度進(jìn)行創(chuàng)新和應(yīng)用。
在提取高級(jí)語義特征學(xué)習(xí)引文時(shí)間序列的研究中[57],其研究的核心是從元數(shù)據(jù)文本中獲取語義信息,使用Doc2Vec算法對(duì)元數(shù)據(jù)文本中的句子進(jìn)行編碼,然后進(jìn)一步通過Bi-LSTM和注意機(jī)制從句子嵌入中提取高級(jí)(段落級(jí))語義特征,最后通過整合早期的引文來學(xué)習(xí)引文預(yù)測(cè)任務(wù)。該研究證明元數(shù)據(jù)語義特征對(duì)提高被引預(yù)測(cè)性能是有用的,為引文預(yù)測(cè)提供了一種很有前途的方法。
與主題相關(guān)的特征研究也是基于文本內(nèi)容(標(biāo)題、摘要等文本內(nèi)容)進(jìn)行挖掘的,但該研究與之不同的地方在于特征挖掘的粒度不同。主題特征描述的是整篇文檔的特征,常用的提取方法是LDA及其改進(jìn)模型,所形成的是在語料庫(kù)中通過參數(shù)調(diào)整得到的數(shù)量一定的主題,粒度相對(duì)較粗,少部分論文不一定能找到相對(duì)合適的主題。而元數(shù)據(jù)語義特征在Doc2Vec算法的基礎(chǔ)上,進(jìn)一步使用Bi-LSTM和注意機(jī)制進(jìn)行語義挖掘,其粒度相對(duì)較細(xì),使每一篇論文都能找到其特定的語義特征。
在被引頻次預(yù)測(cè)研究中,大多數(shù)研究通常使用單一數(shù)據(jù)集,因此研究得出的結(jié)果并不都適用于其他數(shù)據(jù)集。已有研究也表明,不同研究領(lǐng)域的數(shù)據(jù)集之間被引頻次預(yù)測(cè)差異較大,因此為了使研究結(jié)果更具有普遍性和泛化性,應(yīng)該使用更加全面的數(shù)據(jù)集,對(duì)差異較大的領(lǐng)域進(jìn)行比較研究,分析影響不同預(yù)測(cè)結(jié)果的原因,使得研究更加嚴(yán)謹(jǐn)、全面。
在G. Abramo等[44]的研究中,使用123128篇WoS網(wǎng)站中的意大利出版文獻(xiàn)進(jìn)行研究,發(fā)現(xiàn)不同學(xué)科對(duì)預(yù)測(cè)模型的適用性不同。該研究對(duì)所有的文獻(xiàn)進(jìn)行研究主題分類,共分為“生物學(xué)”“生物醫(yī)學(xué)”“化學(xué)”“臨床醫(yī)學(xué)”“地球與空間科學(xué)”“經(jīng)濟(jì)學(xué)”“工程學(xué)”“法律、政治和社會(huì)學(xué)”“數(shù)學(xué)”“交叉科學(xué)”“物理學(xué)”“心理學(xué)”12個(gè)主題學(xué)科。其研究結(jié)果顯示,“經(jīng)濟(jì)學(xué)”在兩個(gè)預(yù)測(cè)模型中,早期引用具有最大的權(quán)重值,而“心理學(xué)”則相反;生命科學(xué)領(lǐng)域(“生物醫(yī)學(xué)研究”“化學(xué)”“生物學(xué)”“臨床醫(yī)學(xué)”)的平均早期引用權(quán)重系數(shù)各不相同;“法律、政治和社會(huì)學(xué)”“工程學(xué)”和“交叉科學(xué)”都反映了明顯的早期影響。
有時(shí)在解決實(shí)際問題的過程中,現(xiàn)實(shí)問題過于復(fù)雜,為了使復(fù)雜問題簡(jiǎn)單化,研究者會(huì)附加一定的前提條件,并在此前提條件下解決部分的問題。當(dāng)去掉這個(gè)前提條件后,會(huì)出現(xiàn)什么樣的問題,所研究的方法在實(shí)際操作中是否還能復(fù)現(xiàn),值得我們思考和研究。
在使用動(dòng)態(tài)異構(gòu)信息網(wǎng)絡(luò)對(duì)新出版論文進(jìn)行引文時(shí)間序列預(yù)測(cè)的研究中[58],研究者認(rèn)為以往的引文預(yù)測(cè)依賴論文發(fā)表后的頭幾年觀察到的引文(即領(lǐng)先的引文價(jià)值),即通過頭幾年的被引量來預(yù)測(cè)長(zhǎng)期的被引頻次。然而現(xiàn)實(shí)情況是,許多論文在發(fā)表后的頭幾年其引用影響已經(jīng)達(dá)到峰值,因此這些論文并未能體現(xiàn)出它的領(lǐng)先價(jià)值。在出版物更新頻率非??斓念I(lǐng)域(諸如機(jī)器學(xué)習(xí))領(lǐng)域,等待3-5年才能預(yù)測(cè)影響是不現(xiàn)實(shí)的?;诖藛栴},該研究提出了一個(gè)挑戰(zhàn):為沒有任何領(lǐng)先價(jià)值的新發(fā)表論文生成引文時(shí)間序列,解決時(shí)間序列任務(wù)中的“冷啟動(dòng)”問題。因此,他們提出了端到端的框架,即異構(gòu)信息網(wǎng)絡(luò)到時(shí)間序列,以此來預(yù)測(cè)單篇論文的被引頻次。
該研究的核心思想是一種轉(zhuǎn)化思想:通過學(xué)習(xí)由關(guān)鍵詞、作者、出版地點(diǎn)和論文所構(gòu)成的異構(gòu)網(wǎng)絡(luò),估算出一個(gè)偽前導(dǎo)值,并將其映射為論文未來的引用時(shí)間序列,即將異構(gòu)網(wǎng)絡(luò)信息轉(zhuǎn)換成時(shí)間序列信息,實(shí)現(xiàn)時(shí)間序列的預(yù)測(cè)。
由于前面所總結(jié)的基于經(jīng)驗(yàn)主義的調(diào)參式機(jī)器學(xué)習(xí)、深度學(xué)習(xí)建模方法缺少數(shù)學(xué)工具去診斷和測(cè)評(píng)神經(jīng)網(wǎng)絡(luò)特征表達(dá)能力,缺乏可解釋性,因此在這個(gè)建模過程中,可以根據(jù)自己研究的需求尋找合適的建模方法。數(shù)學(xué)建模思維是在現(xiàn)實(shí)情境中從數(shù)學(xué)視角出發(fā),分析問題、提出問題、建立模型、確定參數(shù)、求解模型、并最終解決實(shí)際問題的一種思維方法。以下的建模方法充分地體現(xiàn)了建模過程的數(shù)學(xué)思維,并使用了數(shù)學(xué)工具對(duì)模型進(jìn)行量化解釋,充分地展示了模型的可解釋性。
在論文的引文動(dòng)力學(xué)機(jī)制研究中,M. Wang等[56]從“論文引文模式能否預(yù)測(cè)長(zhǎng)期影響”問題出發(fā),首先確定了驅(qū)動(dòng)論文被引用的三個(gè)基本機(jī)制:高被引論文比低被引論文更有可能被再次引用;論文具有老化效應(yīng),每篇論文的新穎性最終都會(huì)消失;論文存在內(nèi)在差異。結(jié)合這三個(gè)因素,推導(dǎo)出論文被引用的概率模型:其中η解釋了論文的內(nèi)在差異,i因?yàn)檎撐牡膬?nèi)在差異如新穎性、重要性等取決于多種無形和主觀的維度,該研究忽略了評(píng)估一篇論文內(nèi)在價(jià)值的必要性,并將合適的ηi視為一篇論文在研究總樣本中內(nèi)在差異的綜合衡量標(biāo)準(zhǔn);是論文i在發(fā)表后t時(shí)獲得的引用;是論文i在發(fā)表后t時(shí)的衰減率。論文累計(jì)總被引頻次可通過微積分的方式求解出。
該研究的創(chuàng)新點(diǎn)在于將引用預(yù)測(cè)視為一種連續(xù)型概率問題,通過推導(dǎo)概率密度函數(shù),求得概率分布,以此求出論文的未來引用。相比于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等數(shù)學(xué)建模方法,在模型準(zhǔn)確度大致相同的情形下,該種建模方式可解釋性更強(qiáng)。
綜上所述,在大數(shù)據(jù)、人工智能的時(shí)代下,引用預(yù)測(cè)研究?jī)?nèi)容不斷更新,產(chǎn)生了新的影響因素指標(biāo)和預(yù)測(cè)方法。本文從“影響因素”到“研究對(duì)象”“研究方法”進(jìn)行了系統(tǒng)梳理,并在前人的研究中,總結(jié)了目前引用預(yù)測(cè)研究存在的問題,并提出了相應(yīng)的建議。
未來應(yīng)該深入理論研究,加強(qiáng)影響因素指標(biāo)和研究方法的合理運(yùn)用,找到合理的研究周期,建立統(tǒng)一的評(píng)價(jià)系統(tǒng),完善研究的理論基礎(chǔ),并且在完善的理論研究基礎(chǔ)上,著力于解決實(shí)際問題,充分運(yùn)用宏觀的數(shù)學(xué)建模思維,落實(shí)微觀的具體操作方法,運(yùn)用轉(zhuǎn)化的思想,將復(fù)雜的實(shí)際問題轉(zhuǎn)化為多個(gè)簡(jiǎn)單的問題,并逐一進(jìn)行解決,使得模型能在實(shí)際問題中得到充分的應(yīng)用。