霍朝光,董 克,魏瑞斌
(1.中國(guó)人民大學(xué)信息資源管理學(xué)院,北京 100872;2.武漢大學(xué)信息管理學(xué)院,武漢 430072;3.安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,蚌埠 233030)
學(xué)術(shù)影響力(scientific impact)是衡量科研成果與科研工作者學(xué)術(shù)貢獻(xiàn)和學(xué)術(shù)影響的重要指標(biāo),強(qiáng)調(diào)從影響力的角度評(píng)估科研產(chǎn)出的學(xué)術(shù)價(jià)值、科研主體的研究貢獻(xiàn)以及學(xué)術(shù)地位等[1-2]。例如,論文影響力、期刊影響力、學(xué)者影響力、機(jī)構(gòu)影響力、項(xiàng)目影響力、專利影響力以及軟件影響力等[3]。學(xué)術(shù)影響力預(yù)測(cè)(prediction of scientific impact)是指在相關(guān)學(xué)術(shù)影響力指標(biāo)的基礎(chǔ)上,解析和利用科學(xué)發(fā)展的規(guī)律,預(yù)測(cè)相關(guān)學(xué)術(shù)實(shí)體的未來影響力。根據(jù)預(yù)測(cè)對(duì)象的不同,主要分為論文影響力預(yù)測(cè)(paper impact prediction)[4]、期 刊 影 響 力 預(yù) 測(cè)(journal impact prediction)、學(xué)者影響力預(yù)測(cè)(schol‐ar impact prediction)[5]、機(jī)構(gòu)影響力預(yù)測(cè)(institu‐tion impact prediction)[6]、項(xiàng)目影響力預(yù)測(cè)(project impact prediction)以及專利影響力預(yù)測(cè)(patent im‐pact prediction)[7]等。學(xué)術(shù)影響力預(yù)測(cè)旨在追蹤科學(xué)研究前沿,為優(yōu)化科研資源配置提供支撐,為科研管理賦能[8]。
學(xué)術(shù)影響力預(yù)測(cè)是數(shù)據(jù)驅(qū)動(dòng)科學(xué)學(xué)預(yù)測(cè)(pre‐diction in science of science)的重要組成部分[9]。21世紀(jì)以前,針對(duì)科學(xué)的預(yù)測(cè)主要依賴于專家的決策,由于數(shù)據(jù)限制側(cè)重定性預(yù)測(cè),但是如今科學(xué)作為一個(gè)不斷演化的生態(tài)系統(tǒng),承載著上千萬(wàn)的學(xué)者,覆蓋上百種學(xué)科,每年都有海量的科研成果產(chǎn)出,面對(duì)海量的科研數(shù)據(jù),定性專家預(yù)測(cè)成本巨大,并且傳統(tǒng)的領(lǐng)域?qū)<覜Q策在及時(shí)性和有效性方面勢(shì)必也大打折扣[8]?,F(xiàn)代學(xué)術(shù)影響力預(yù)測(cè)強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng)的量化預(yù)測(cè)研究,強(qiáng)調(diào)如何協(xié)同多維海量數(shù)據(jù)提升預(yù)測(cè)水平[10]。本文從研究對(duì)象角度,總結(jié)了期刊影響力預(yù)測(cè)、論文影響力預(yù)測(cè)、學(xué)者影響力預(yù)測(cè)、機(jī)構(gòu)影響力預(yù)測(cè)、項(xiàng)目影響力預(yù)測(cè)以及專利影響力預(yù)測(cè)六個(gè)方面的研究進(jìn)展,進(jìn)一步從預(yù)測(cè)指標(biāo)、預(yù)測(cè)方法和預(yù)測(cè)特征三個(gè)維度依次進(jìn)行歸納,以期揭示學(xué)術(shù)影響力預(yù)測(cè)研究范式的內(nèi)在特征,主要研究框架如圖1所示。
論文影響力預(yù)測(cè)(paper impact prediction)旨在預(yù)測(cè)論文未來可能產(chǎn)生的影響,提前從海量的學(xué)術(shù)論文中準(zhǔn)確地識(shí)別出具有參考價(jià)值的高質(zhì)量論文,從而實(shí)現(xiàn)揭示最新的研究動(dòng)態(tài)、掌握最新的研究方法、促進(jìn)科研創(chuàng)新的目標(biāo)[4,11]。論文影響力的產(chǎn)生存在時(shí)滯特征,相關(guān)研究表明,“睡美人”(Sleep‐ing Beauty)論文在各個(gè)領(lǐng)域均是存在的[12],論文影響力預(yù)測(cè)則可提前預(yù)測(cè)“睡美人”論文的存在。目前,論文影響力預(yù)測(cè)主要借助引證指標(biāo)和替代計(jì)量指標(biāo)開展。
(1)基于引證指標(biāo)的論文影響力預(yù)測(cè)。基于引證指標(biāo)的論文影響力預(yù)測(cè),強(qiáng)調(diào)將論文影響力預(yù)測(cè)轉(zhuǎn)化為引文預(yù)測(cè)(citation prediction),綜合各方面的特征構(gòu)建模型,預(yù)測(cè)引證的數(shù)量。例如,Bai等[13]從論文內(nèi)在質(zhì)量、論文影響力衰退狀況、論文早期被引數(shù)量以及早期引用者的學(xué)術(shù)影響四個(gè)方面,構(gòu)建論文潛力指數(shù)(paper potential index,PPI)模型,對(duì)論文的被引量進(jìn)行預(yù)測(cè)。但是,科學(xué)論文的引文分布形式參差不同,并且會(huì)受到各種各樣因素的影響[4],單純從引文歷史序列數(shù)據(jù)很難解析引文的變化規(guī)律,因此,研究人員一般綜合其他特征預(yù)測(cè)論文引文的變化。例如,Xu等[14]和Li等[15]分別在多維文獻(xiàn)計(jì)量特征和大規(guī)模文獻(xiàn)計(jì)量特征基礎(chǔ)上,設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型,對(duì)引文量進(jìn)行回歸和預(yù)測(cè)。Yuan等[16]則針對(duì)出版物的內(nèi)在質(zhì)量(intrinsic quality)、老化效應(yīng)(aging effect)、馬太效應(yīng)(Matthew effect)、近因效應(yīng)(recency ef‐fect)等因素,借助時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)構(gòu)建了出版物長(zhǎng)期引證數(shù)量預(yù)測(cè)模型。Abrishami等[17]借助人工神經(jīng)網(wǎng)絡(luò)(arti‐ficial neural network),構(gòu)建了論文的長(zhǎng)期被引量預(yù)測(cè)模型,將RNN與自編碼器(auto encoder)結(jié)合,進(jìn)一步提升了預(yù)測(cè)的準(zhǔn)確率。基于引證指標(biāo)的論文影響力預(yù)測(cè),雖然預(yù)測(cè)目標(biāo)十分明確,但是預(yù)測(cè)難度卻不可小覷,不同模型對(duì)不同學(xué)科論文的泛化能力也有待進(jìn)一步驗(yàn)證。
(2)基于替代計(jì)量指標(biāo)的論文影響力預(yù)測(cè)。替代計(jì)量(altmetrics,alternative metrics)強(qiáng)調(diào)追蹤科學(xué)文獻(xiàn)在網(wǎng)絡(luò)社交媒體、學(xué)術(shù)型或通用性網(wǎng)站平臺(tái)和學(xué)術(shù)型社交媒體平臺(tái)等傳播和熱議狀態(tài),反映科學(xué)成果的影響力[18],與引證指標(biāo)相比,時(shí)效性更高。例如,Eysenbach[19]以Journal of Medical Internet Research期刊上的論文為例,證實(shí)眾多論文在Tweets中的不同狀態(tài),有助于對(duì)三天后高被引論文的預(yù)測(cè)。Hassan等[20]以論文在Twitter中的正負(fù)情感來預(yù)測(cè)研究成果的早期影響力,發(fā)現(xiàn)情感與被引量呈顯著正相關(guān),人們?cè)谏缃幻襟w中關(guān)于研究成果討論的情感極性和情感值有助于綜合預(yù)測(cè)論文的影響力。也有研究證實(shí),替代計(jì)量指標(biāo)與被引數(shù)量的弱相關(guān)性,質(zhì)疑基于替代計(jì)量指標(biāo)進(jìn)行影響力預(yù)測(cè)的效力[21-22]。不過李綱等[23]則反向驗(yàn)證了論文、作者、期刊等特征,對(duì)于學(xué)術(shù)論文的社交媒體可見性預(yù)測(cè)的重要性。由此可見,替代計(jì)量指標(biāo)和引證指標(biāo)對(duì)論文影響力預(yù)測(cè)均具有一定的作用。
論文影響力預(yù)測(cè)的相關(guān)特征。論文影響力相關(guān)特征是論文影響力變化的自變量,是對(duì)論文影響力的外在表征,主要涉及學(xué)術(shù)論文、論文作者、載文期刊以及其他屬性特征等。其中,論文特征主要包括論文主題的成熟度[11]、論文題目長(zhǎng)度、論文長(zhǎng)度、論文參考文獻(xiàn)數(shù)等[24-25];作者特征主要包括作者影響因子(author impact factor)、署名作者數(shù)量(the number of authors)、作者所在機(jī)構(gòu)的國(guó)度(country)、作者權(quán)威性(authority)等[26];期刊特征主要包括期刊的總被引數(shù)、期刊影響因子(jour‐nal impact factor)、期刊的主題分布等[27];其他屬性的特征主要有機(jī)構(gòu)的學(xué)術(shù)排名、機(jī)構(gòu)的聲譽(yù)以及論文是否以特刊形式發(fā)表等[28-29]。詳細(xì)情況如表1所示。
表1 論文影響力預(yù)測(cè)相關(guān)特征
學(xué)者影響力預(yù)測(cè)(scholar impact prediction),也稱學(xué)者學(xué)術(shù)表現(xiàn)預(yù)測(cè)(author performance predic‐tion),強(qiáng)調(diào)對(duì)學(xué)者的學(xué)術(shù)發(fā)展和學(xué)術(shù)成就進(jìn)行預(yù)測(cè)[30]。傳統(tǒng)研究中,主要是學(xué)者影響力評(píng)估方面的研究,預(yù)測(cè)研究相對(duì)較少,比較有代表性的預(yù)測(cè)研究工作主要圍繞學(xué)者影響因子(author impact fac‐tor,AIF)[31]、H-index[32]、Q-value[33]以及引文數(shù)量等量化指標(biāo)開展,相關(guān)指標(biāo)和預(yù)測(cè)模式如圖2所示。該預(yù)測(cè)模式旨在量化學(xué)術(shù)數(shù)據(jù),結(jié)合學(xué)者發(fā)表的論文、研究的方向、所在團(tuán)隊(duì)以及學(xué)術(shù)年齡等特征構(gòu)建AIF、H-index、Q-value等指標(biāo),從而進(jìn)行評(píng)估和預(yù)測(cè)。
圖2 基于量化指標(biāo)的學(xué)者影響力評(píng)價(jià)與預(yù)測(cè)框架
(1)基于學(xué)者影響因子的學(xué)者影響力預(yù)測(cè)。學(xué)者影響因子借鑒期刊影響因子發(fā)展而來,用于評(píng)估和預(yù)測(cè)學(xué)者未來的影響力。Bornmann等[34]以272921位學(xué)者發(fā)表的6495715篇論文數(shù)據(jù)為例,驗(yàn)證了期刊影響因子在評(píng)估和預(yù)測(cè)學(xué)者方面的有效性,同時(shí),也反映出不能單獨(dú)用期刊影響因子作為評(píng)價(jià)標(biāo)準(zhǔn),需要綜合考慮學(xué)者研究的新穎性和重要性、學(xué)術(shù)聲譽(yù)以及先前所在機(jī)構(gòu)的聲譽(yù)。學(xué)者影響因子指標(biāo)基于引證的思想,在研究中往往通過限定3~5年的時(shí)間窗口進(jìn)行預(yù)測(cè),但是研究表明,學(xué)者發(fā)表的最具影響力的學(xué)術(shù)成果在其學(xué)術(shù)生涯中是隨機(jī)分布的[33],面對(duì)隨機(jī)分布的、限定時(shí)間窗口的學(xué)者影響因子預(yù)測(cè)存在一定的局限。
(2)基于H-index、Q-value等指數(shù)的學(xué)者影響力預(yù)測(cè)。H-index側(cè)重從學(xué)術(shù)質(zhì)量視角對(duì)學(xué)者的影響力進(jìn)行量化,最早由Hirsch[35]提出,是學(xué)者影響力預(yù)測(cè)的一項(xiàng)重要指標(biāo)?;贖-index指標(biāo),Acuna等[36]通過機(jī)器學(xué)習(xí)方法,在3293個(gè)學(xué)者數(shù)據(jù)集上驗(yàn)證了預(yù)測(cè)的效度。Ayaz等[37]則以計(jì)算機(jī)領(lǐng)域210萬(wàn)篇論文的作者為例,通過回歸的方法檢驗(yàn)不同特征組合下的預(yù)測(cè)準(zhǔn)確率。Mistele等[38]在H-index指標(biāo)基礎(chǔ)上進(jìn)一步整合引文數(shù)量(citation count)形成新指標(biāo),通過神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)學(xué)者未來的表現(xiàn)。但是H-index也同樣存在時(shí)間窗口的問題,因此,Sinatra等[33]提出了Q量化隨機(jī)模型,解析學(xué)者科研產(chǎn)量、個(gè)人能力以及運(yùn)氣對(duì)學(xué)者影響力的作用,為每個(gè)學(xué)者定義唯一的Q值,衡量學(xué)者在學(xué)術(shù)生涯中隨機(jī)發(fā)表的成果,從而預(yù)測(cè)學(xué)者影響力的演化。
(3)基于引文數(shù)量的學(xué)者影響力預(yù)測(cè),多憑借引文數(shù)目單一指標(biāo)反映學(xué)者的影響力。例如,Ne‐zhadbiglari等[39]以總被引量來衡量學(xué)者的流行度(popularity),以計(jì)算機(jī)領(lǐng)域的50萬(wàn)學(xué)者為例,通過計(jì)算學(xué)者以及其他學(xué)術(shù)特征與流行趨勢(shì)聚類中心(cluster centroids)的距離,訓(xùn)練分類模型預(yù)測(cè)學(xué)者的流行度。Panagopoulos等[40]則在引文數(shù)量的基礎(chǔ)上,進(jìn)一步提出學(xué)者KPIs(key performance indica‐tors)指標(biāo),綜合社交性(sociability)、中心性(centrality)、加權(quán)合作影響(weighted collaboration impact)等合作方面的特征和冪率圖方面的特征(power graph feature),通過構(gòu)建無監(jiān)督學(xué)習(xí)聚類模型,預(yù)測(cè)學(xué)術(shù)新星(rising stars)。
(4)基于網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)者影響力預(yù)測(cè)。強(qiáng)調(diào)從學(xué)者所在的異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)角度衡量其在網(wǎng)絡(luò)中的地位和重要性,并用于預(yù)測(cè)學(xué)者的影響力和探測(cè)學(xué)術(shù)新星[3]。例如,Zhang等[41]借助結(jié)構(gòu)洞和信息熵理論,闡述學(xué)者在學(xué)術(shù)網(wǎng)絡(luò)中位置的重要性,利用AIRank(author impact rank)方法挖掘具有多學(xué)科特性影響力較大的學(xué)者。Zhang等[42]綜合考慮作者的被引數(shù)、作者之間的相互影響以及不同學(xué)術(shù)實(shí)體之間相互強(qiáng)化對(duì)學(xué)者的影響,提出了ScholarRank方法評(píng)價(jià)學(xué)術(shù)新人的影響力。Zhang等[43]根據(jù)學(xué)者變化狀態(tài)的不同,將其劃分為不同的類型,提出PeP‐SI(personalized prediction of scholars’impact)學(xué)者影響力預(yù)測(cè)模型,對(duì)不同類型學(xué)者分別應(yīng)用改進(jìn)的隨機(jī)游走算法進(jìn)行預(yù)測(cè),充分利用了學(xué)術(shù)網(wǎng)絡(luò)的動(dòng)態(tài)變化對(duì)學(xué)者影響力的作用。
學(xué)者影響力預(yù)測(cè)的相關(guān)特征如表2所示。學(xué)者影響力預(yù)測(cè)主要涉及學(xué)者、學(xué)者發(fā)表的論文、刊載成果的期刊以及社會(huì)特征四類。在學(xué)者特征方面,主要涉及學(xué)者在某一主題方面的權(quán)威性、學(xué)者的生產(chǎn)能力、學(xué)者的社交能力、學(xué)者當(dāng)前H-index等,強(qiáng)調(diào)學(xué)者自身的屬性和能力;在論文特征方面,主要涉及學(xué)者論文的發(fā)文時(shí)間、署名以及共同署名的論文數(shù)、論文的衰退情況等[36],強(qiáng)調(diào)由論文狀態(tài)的變化所引發(fā)的學(xué)者狀態(tài)變化;在期刊特征方面,主要涉及學(xué)者在權(quán)威期刊上的發(fā)文數(shù)、成果所在的期刊數(shù)、期刊水平等,強(qiáng)調(diào)學(xué)者在權(quán)威期刊上的發(fā)文能力和被認(rèn)可程度;在社會(huì)特征方面,學(xué)者在合作網(wǎng)絡(luò)中的中心性、位置等合作特征(collaborative features)以及冪率圖特征(power graph features)方面,分析學(xué)者在學(xué)術(shù)圈內(nèi)聲望和地位的社會(huì)特征也受到眾多關(guān)注[40,44],關(guān)于學(xué)者影響力預(yù)測(cè)研究中所使用的相關(guān)特征,詳細(xì)情況如表2所示。
表2 學(xué)者影響力預(yù)測(cè)相關(guān)特征
1)機(jī)構(gòu)影響力預(yù)測(cè)
機(jī)構(gòu)影響力預(yù)測(cè)(institution impact prediction),強(qiáng)調(diào)對(duì)機(jī)構(gòu)的學(xué)術(shù)表現(xiàn)進(jìn)行預(yù)測(cè)。機(jī)構(gòu)影響力預(yù)測(cè)常常以機(jī)構(gòu)的論文為指標(biāo),將機(jī)構(gòu)影響力預(yù)測(cè)轉(zhuǎn)化為對(duì)論文數(shù)目的預(yù)測(cè)。Sandulescu等[45]以Microsoft Academic Graph數(shù)據(jù)為例,分別驗(yàn)證了概率預(yù)測(cè)模型、線性回歸預(yù)測(cè)模型、梯度增強(qiáng)決策樹(gradi‐ent boosted decision trees)等不同模型以及綜合模型對(duì)機(jī)構(gòu)論文數(shù)目預(yù)測(cè)的效度,研究發(fā)現(xiàn)機(jī)構(gòu)的影響力具有較強(qiáng)的延續(xù)性,機(jī)構(gòu)先前的影響力很大程度上決定了機(jī)構(gòu)未來的影響力。由此可見,機(jī)構(gòu)的影響力更加持久、穩(wěn)定和綜合,一旦得以樹立影響就會(huì)很長(zhǎng)遠(yuǎn),打造學(xué)術(shù)團(tuán)隊(duì)、樹立機(jī)構(gòu)權(quán)威意義深遠(yuǎn)。Xie[46]將研究機(jī)構(gòu)影響力預(yù)測(cè)的任務(wù)轉(zhuǎn)化為時(shí)間序列回歸問題,通過對(duì)機(jī)構(gòu)下一年被錄論文數(shù)目的預(yù)測(cè)來預(yù)估機(jī)構(gòu)未來的影響力,驗(yàn)證了機(jī)構(gòu)論文排名特征(paper-rank features)、項(xiàng)目委員會(huì)會(huì)員特征(program committee membership features)等對(duì)機(jī)構(gòu)影響力的作用,研究發(fā)現(xiàn),簡(jiǎn)單的線性模型比復(fù)雜的預(yù)測(cè)模型更穩(wěn)健。Bai等[6]以機(jī)構(gòu)署名的錄用論文數(shù)為指標(biāo),利用相關(guān)特征提取方法驗(yàn)證機(jī)構(gòu)的地理位置(geographic location of institution)、當(dāng)?shù)谿DP(gross domestic product)等特征與機(jī)構(gòu)影響力的關(guān)系,構(gòu)建了新型機(jī)構(gòu)影響力預(yù)測(cè)模型,發(fā)現(xiàn)不同出版物在錄用論文時(shí),對(duì)機(jī)構(gòu)重要性的考量機(jī)制不同,機(jī)構(gòu)特征的重要性仍然是相對(duì)有限的。受機(jī)構(gòu)影響力有效指標(biāo)的限制和機(jī)構(gòu)影響力預(yù)測(cè)多元復(fù)雜的困擾,目前,關(guān)于機(jī)構(gòu)影響力預(yù)測(cè)的研究相對(duì)處于初步發(fā)展階段。
2)期刊影響力預(yù)測(cè)
期刊影響力預(yù)測(cè)(journal impact prediction),側(cè)重于對(duì)期刊影響因子、影響指數(shù)等預(yù)測(cè)。Wu等[47]以期刊影響因子(journal impact factor)為目標(biāo),利用論文的被引頻次預(yù)測(cè)期刊的影響力,并以Sci‐ence、Nature以 及LIS(library and information sci‐ence)領(lǐng)域期刊數(shù)據(jù)為例,驗(yàn)證了該模型的有效性,在確保準(zhǔn)確率的前提下,將預(yù)測(cè)結(jié)果提前官方數(shù)據(jù)4個(gè)月。李秀霞等[48]從作者特征維度,構(gòu)建了反應(yīng)期刊內(nèi)部特征信息的作者特征空間向量,利用曲線回歸的方法對(duì)期刊影響力進(jìn)行預(yù)測(cè),實(shí)驗(yàn)證明,該期刊影響力預(yù)測(cè)模型與4年后對(duì)應(yīng)期刊的影響因子具有較好的吻合度,從作者層面可以提取有效的特征輔助,對(duì)期刊影響力的預(yù)測(cè)。張耀輝等[49]借鑒學(xué)術(shù)跡劃分狀態(tài)的方法,構(gòu)建馬爾科夫模型預(yù)測(cè)期刊的發(fā)展情況,動(dòng)態(tài)定量地表達(dá)了學(xué)術(shù)期刊未來的學(xué)術(shù)穩(wěn)定性,為期刊提供了一種有效的預(yù)測(cè)分析方法,但是其對(duì)于期刊狀態(tài)的劃分標(biāo)準(zhǔn)和通用性還有待進(jìn)一步加強(qiáng),依托轉(zhuǎn)移概率矩陣的預(yù)測(cè)方法,在更大的數(shù)據(jù)集上效果可能更好。丁筠[50]借助學(xué)術(shù)期刊影響力指數(shù)(journal clout index),構(gòu)建BP(back propagation)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,以綜合性人文、社會(huì)科學(xué)類的632本期刊為訓(xùn)練集,預(yù)測(cè)了19種圖情領(lǐng)域核心期刊的CI(clout index)值。期刊作為學(xué)術(shù)成果的一種載體,對(duì)期刊影響力的預(yù)測(cè)更多的是回歸到論文層面,通過論文影響力預(yù)測(cè)實(shí)現(xiàn)對(duì)期刊影響力的預(yù)測(cè)。但是,從期刊層面來講,期刊的刊發(fā)周期、審稿周期、刊載量以及被收錄情況都是影響期刊影響力的因素,因此,對(duì)期刊影響力的預(yù)測(cè)不僅要把握論文這一主要因素,還應(yīng)綜合上述其他相關(guān)因素。
3)項(xiàng)目影響力預(yù)測(cè)
項(xiàng)目影響力預(yù)測(cè)(project impact prediction),強(qiáng)調(diào)對(duì)項(xiàng)目未來的影響力進(jìn)行預(yù)測(cè),從眾多科研項(xiàng)目申請(qǐng)書中篩選出能取到較大成果的項(xiàng)目,以最小的財(cái)政支出最大化科研產(chǎn)出[51]。項(xiàng)由于項(xiàng)目評(píng)估本身就是對(duì)項(xiàng)目的可行性和未來產(chǎn)出等進(jìn)行預(yù)估,從而資助比較有潛力的項(xiàng)目,因此,目影響力預(yù)測(cè)是項(xiàng)目評(píng)估的重要內(nèi)容。以往關(guān)于項(xiàng)目影響力的預(yù)測(cè),多借助專家對(duì)申請(qǐng)書等材料的定性分析來進(jìn)行。例如,從項(xiàng)目的創(chuàng)新提升(promoting innovation)、合作培養(yǎng)(fostering collaboration)、戰(zhàn)略地位(posit‐ing in strategic areas)等方面預(yù)估項(xiàng)目未來的影響力[51]。朱衛(wèi)東等[52]綜合科研項(xiàng)目的評(píng)估指標(biāo)體系和選擇流程,提出了一種系統(tǒng)性的基于證據(jù)推理規(guī)則的科學(xué)基金項(xiàng)目評(píng)估決策模型,用歷史評(píng)估結(jié)果準(zhǔn)確性衡量專家評(píng)價(jià)信息的可靠性,分別賦予不同評(píng)估權(quán)重和等級(jí),并以1225項(xiàng)目國(guó)家自然科學(xué)基金管理學(xué)部項(xiàng)目為例,驗(yàn)證了該預(yù)估模型的有效性。限于基金以及項(xiàng)目數(shù)據(jù)的可獲得性,目前,量化項(xiàng)目影響力預(yù)測(cè)研究相對(duì)較少。但是,隨著國(guó)家自然科學(xué)、社會(huì)科學(xué)等基金數(shù)據(jù)的開放,未來基于客觀基金產(chǎn)出數(shù)據(jù)的項(xiàng)目評(píng)估和預(yù)測(cè)將會(huì)得到迅速的發(fā)展,從數(shù)據(jù)層面揭示優(yōu)秀項(xiàng)目的特征,從基金主持者、參與者、前期研究成果、學(xué)術(shù)團(tuán)隊(duì)、學(xué)術(shù)機(jī)構(gòu)、學(xué)術(shù)資源、國(guó)際交流、項(xiàng)目選題熱度、項(xiàng)目意義等信息中提取相關(guān)特征,構(gòu)建項(xiàng)目影響力預(yù)測(cè)模型,提升對(duì)項(xiàng)目影響力的預(yù)測(cè)。
4)專利影響力預(yù)測(cè)
專利影響力預(yù)測(cè)(patent impact prediction),強(qiáng)調(diào)對(duì)專利未來的價(jià)值進(jìn)行預(yù)測(cè)。鑒于眾多學(xué)者會(huì)將其提出的新方法和新技術(shù)成果申請(qǐng)為專利,因此,在學(xué)術(shù)領(lǐng)域,專利也是一種重要的學(xué)術(shù)產(chǎn)出。專利影響力是專利價(jià)值的重要表現(xiàn)之一,預(yù)測(cè)專利的影響力有助于引導(dǎo)資本迅速將技術(shù)轉(zhuǎn)化為生產(chǎn)力,有助于從專利角度反映學(xué)者以及機(jī)構(gòu)的學(xué)術(shù)表現(xiàn)。專利文獻(xiàn)與科學(xué)文獻(xiàn)均具有引證關(guān)系,故相應(yīng)引文預(yù)測(cè)方法同樣也適用于專利預(yù)測(cè)[7]。同時(shí),專利也具有類似共詞網(wǎng)絡(luò)的相似網(wǎng)絡(luò)。例如,馬瑞敏等[53]在專利相似網(wǎng)絡(luò)領(lǐng)域細(xì)分的基礎(chǔ)上,根據(jù)同類預(yù)測(cè)準(zhǔn)則,以4年內(nèi)被引頻次、同族專利數(shù)、專利寬度、權(quán)利要求數(shù)、科學(xué)關(guān)聯(lián)度5個(gè)指標(biāo)作為預(yù)測(cè)指標(biāo),構(gòu)建支持向量機(jī)模型對(duì)核心專利進(jìn)行預(yù)測(cè)。目前,關(guān)于專利的研究更多的是集中在評(píng)價(jià)方面,預(yù)測(cè)方面的研究相對(duì)較少。專利在未來能否取得較大的影響或產(chǎn)出,不僅取決于專利本身的屬性,更與市場(chǎng)、產(chǎn)業(yè)、社會(huì)等發(fā)展緊密相關(guān),因此,對(duì)專利影響力的預(yù)測(cè),不僅要綜合考量專利本身的特征,還應(yīng)綜合市場(chǎng)需求、產(chǎn)業(yè)背景、技術(shù)發(fā)展、國(guó)民教育等各方面因素,在追蹤專利影響的基礎(chǔ)上,提高對(duì)專利影響力預(yù)測(cè)的精度。
5)相關(guān)特征
機(jī)構(gòu)、期刊、項(xiàng)目、專利等影響力預(yù)測(cè)具體涉及的特征如表3所示。雖然學(xué)術(shù)實(shí)體之間是相互影響的,在預(yù)測(cè)某一種實(shí)體時(shí)互為特征,但是不同學(xué)術(shù)實(shí)體的影響力預(yù)測(cè)也有其獨(dú)特之處。其中,機(jī)構(gòu)影響力預(yù)測(cè)特征主要涉及被錄論文的排名特征(ac‐cepted paper-rank features)、項(xiàng)目委員會(huì)成員特征(program committee membership features)、機(jī)構(gòu)在不同刊物中的表現(xiàn)特征(cross conference features)、機(jī)構(gòu)在不同階段的表現(xiàn)特征(cross phase fea‐tures)[46]、機(jī)構(gòu)歷史得分(historical scores of institu‐tion)、作者影響因子、機(jī)構(gòu)先前得分的加權(quán)移動(dòng)平均等特征[31,45]。期刊影響力預(yù)測(cè)特征主要涉及作者數(shù)、第一作者、作者發(fā)文數(shù)、作者論文被引頻次、期刊被引頻次、期刊論文下載量、期刊的基金論文比以及期刊的歷史表現(xiàn)等特征[47-48,50]。項(xiàng)目影響力預(yù)測(cè)主要涉及項(xiàng)目的被資助者、期刊影響因子、資助成果等方面的特征。而專利影響力預(yù)測(cè)主要涉及專利寬度、同族專利數(shù)、科學(xué)關(guān)聯(lián)度、科研資源、學(xué)術(shù)機(jī)構(gòu)水平、私營(yíng)機(jī)構(gòu)合作質(zhì)量等特征。
表3 其他學(xué)術(shù)實(shí)體影響力預(yù)測(cè)相關(guān)特征
隨著數(shù)據(jù)驅(qū)動(dòng)科學(xué)預(yù)測(cè)模式的發(fā)展,近年來,關(guān)于學(xué)術(shù)影響力預(yù)測(cè)的研究呈現(xiàn)出井噴式的發(fā)展?fàn)罹?,從Science[8-9]、Nature[36]、PNAS[54]等國(guó)際交叉學(xué)科頂刊,到Journal of Informetrics、JASIST、Sciento‐metrics等LIS領(lǐng)域較好的期刊,均有一定的學(xué)術(shù)影響力預(yù)測(cè)研究成果發(fā)表,學(xué)術(shù)影響力研究逐漸步入數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)新階段。總結(jié)學(xué)術(shù)影響力預(yù)測(cè)研究的核心內(nèi)容,主要包括學(xué)術(shù)影響力預(yù)測(cè)指標(biāo)體系、學(xué)術(shù)影響力預(yù)測(cè)方法體系以及學(xué)術(shù)影響力預(yù)測(cè)特征體系等三大體系。
1)學(xué)術(shù)影響力預(yù)測(cè)指標(biāo)體系
在預(yù)測(cè)指標(biāo)方面,引證指標(biāo)、影響因子、發(fā)文量、被引量、學(xué)者獎(jiǎng)勵(lì)等均是量化科學(xué)的有效指標(biāo),但這些指標(biāo)也存在著一定的不足[9]。基于引證的相關(guān)指標(biāo)存在著周期長(zhǎng)、時(shí)間滯后等不足。替代計(jì)量指標(biāo)相對(duì)具有較強(qiáng)的時(shí)效性,其測(cè)度樣本范圍更廣,測(cè)度也更加多樣和開放[55],在一定程度上可以規(guī)避假引用、馬太效應(yīng)等形成的高被引現(xiàn)象,是衡量科學(xué)文獻(xiàn)等影響力的新途徑和指標(biāo)[56],但是替代計(jì)量指標(biāo)也存在數(shù)據(jù)覆蓋比例、數(shù)據(jù)質(zhì)量、數(shù)據(jù)來源等方面的問題[57-58]。只有整合兩類指標(biāo)的優(yōu)勢(shì),在確保質(zhì)量和穩(wěn)定性的前提下,融合同行評(píng)議與社會(huì)影響力等新維度綜合開展學(xué)術(shù)評(píng)價(jià)和預(yù)測(cè),才能揭示不同科學(xué)領(lǐng)域各自科研系統(tǒng)生態(tài)的發(fā)展規(guī)律。
此外,各類指標(biāo)之間具有較強(qiáng)的依附關(guān)系,學(xué)者、期刊、機(jī)構(gòu)等影響力根源于論文的學(xué)術(shù)影響力,論文影響力增強(qiáng),學(xué)者影響力也會(huì)增加,相應(yīng)機(jī)構(gòu)也會(huì)獲得提升,學(xué)者、期刊、機(jī)構(gòu)等共同組成了一個(gè)個(gè)小的學(xué)術(shù)共同體,構(gòu)建了包含知識(shí)創(chuàng)造者、知識(shí)傳播媒介、學(xué)術(shù)資源、學(xué)術(shù)團(tuán)隊(duì)在內(nèi)的學(xué)術(shù)生態(tài)。只有各學(xué)術(shù)實(shí)體的綜合影響力,才能表征學(xué)術(shù)共同體的整體水準(zhǔn),任何單一指標(biāo)由于自身缺陷均,難以達(dá)到學(xué)術(shù)影響力評(píng)價(jià)和預(yù)測(cè)的要求。例如,Hirsch批評(píng)自己提出的H-index學(xué)者學(xué)術(shù)影響力評(píng)價(jià)指標(biāo),反思了該評(píng)價(jià)指標(biāo)對(duì)學(xué)術(shù)創(chuàng)新的不利影響,以及由于學(xué)術(shù)評(píng)價(jià)所導(dǎo)致的學(xué)術(shù)資源傾斜問題,并建議綜合學(xué)科領(lǐng)域、作者署名位置、合作者數(shù)量等各方面情況綜合評(píng)價(jià)學(xué)者[59-60]。由此可見,過分倚重單一指標(biāo)極易扼殺學(xué)術(shù)創(chuàng)新,綜合衡量各學(xué)術(shù)實(shí)體的整體水平,構(gòu)建成熟的學(xué)術(shù)共同體評(píng)價(jià)指標(biāo),才是評(píng)價(jià)和預(yù)測(cè)科學(xué)影響力的關(guān)鍵。
2)學(xué)術(shù)影響力預(yù)測(cè)方法體系
統(tǒng)計(jì)回歸類方法和機(jī)器學(xué)習(xí)方法,是學(xué)術(shù)影響力預(yù)測(cè)的兩大主要方法體系。統(tǒng)計(jì)回歸類方法強(qiáng)調(diào)利用學(xué)術(shù)實(shí)體自身的變化規(guī)律,合理選擇自變量,確定因變量與自變量的關(guān)系,通過回歸擬合的方式,預(yù)測(cè)影響力的變化,其方法體系如圖3所示??梢园l(fā)現(xiàn),統(tǒng)計(jì)回歸類方法常采用線性函數(shù)以及多項(xiàng)式函數(shù)表示變量與自變量的關(guān)系。例如,線性回歸(linear regression)[36]、分位數(shù)回歸(quantile regression)[28]、半連續(xù)回歸(semi-continuous regression)[61]、梯度增強(qiáng)回歸樹(gradient boosted regression trees)[62]、逐步回歸(stepwise regression)[25]、ARIMA(autoregres‐sive integrated moving average mode)時(shí)間序列模型以及VAR(value at risk)等多元時(shí)間序列模型(mul‐tivariate time series)[46]。與機(jī)器學(xué)習(xí)方法相比,統(tǒng)計(jì)回歸方法沒有特征輔助,將能夠影響學(xué)術(shù)影響力的因素看作自變量,通過分析和挖掘自變量以及自變量與因變量的關(guān)系,構(gòu)建回歸模型,擬合學(xué)術(shù)影響力的歷史序列數(shù)據(jù)[63],用模型表征影響力的波動(dòng)規(guī)律,提升對(duì)學(xué)術(shù)實(shí)體未來影響力的預(yù)測(cè)。由于統(tǒng)計(jì)回歸類方法一般對(duì)自變量有著較為明確的定義,數(shù)學(xué)推理過程嚴(yán)格[30],因此,模型解釋簡(jiǎn)單直觀,但也存在無法處理高維數(shù)據(jù)、無法囊括大量自變量等問題,預(yù)測(cè)能力和準(zhǔn)確率較為有限。
圖3 學(xué)術(shù)影響力預(yù)測(cè)的統(tǒng)計(jì)回歸方法體系
機(jī)器學(xué)習(xí)方法強(qiáng)調(diào)從學(xué)術(shù)實(shí)體自身以及其他相關(guān)信息中提取特征,從而訓(xùn)練相關(guān)機(jī)器學(xué)習(xí)模型或者深度學(xué)習(xí)模型,在特征輔助下對(duì)學(xué)術(shù)影響力進(jìn)行預(yù)測(cè),機(jī)器學(xué)習(xí)方法體系如圖4所示。機(jī)器學(xué)習(xí)方法沒有將與學(xué)術(shù)影響力相關(guān)的因素直接作為自變量構(gòu)建到模型中,而是將所有影響到學(xué)術(shù)影響力變化的因素統(tǒng)稱為特征,其認(rèn)為特征與預(yù)測(cè)指標(biāo)之間存在復(fù)雜的非線性關(guān)系。機(jī)器學(xué)習(xí)方法沒有直觀的模型,每個(gè)特征與預(yù)測(cè)指標(biāo)之間的具體關(guān)系無從得知,也無法解釋各個(gè)特征對(duì)預(yù)測(cè)指標(biāo)的作用大小,只能通過特征組合驗(yàn)證最終的準(zhǔn)確率。機(jī)器學(xué)習(xí)方法強(qiáng)調(diào)通過學(xué)術(shù)大數(shù)據(jù)提取論文、學(xué)者、期刊、項(xiàng)目、機(jī)構(gòu)、專利等多維特征,適用于大數(shù)據(jù)場(chǎng)景,并且數(shù)據(jù)量越大越有利于特征的提取和模型的提升。在以往研究中,用到的算法和模型主要包括梯度增強(qiáng)決策樹(gradient boosting decision trees,GB‐DT)[45]、XGBoot、支持向量機(jī)(support vector ma‐chine,SVM)、隨機(jī)森林(random forest)[28]、K最近鄰(Knearest neighbor,KNN)、神經(jīng)網(wǎng)絡(luò)(neu‐ral network)[38]、BP神經(jīng)網(wǎng)絡(luò)[50]等機(jī)器學(xué)習(xí)模型,以及CNN(convolutional neural networks)、1D CNN、LSTM(long short-term memory)等深度學(xué)習(xí)預(yù)測(cè)模型[14-15]等。與統(tǒng)計(jì)回歸類方法相比,機(jī)器學(xué)習(xí)方法具有較高的準(zhǔn)確率。
圖4 學(xué)術(shù)影響力機(jī)器學(xué)習(xí)預(yù)測(cè)方法體系
3)學(xué)術(shù)影響力預(yù)測(cè)特征體系
傳統(tǒng)的學(xué)術(shù)影響力預(yù)測(cè)涉及的特征多聚焦于論文、學(xué)者、期刊、機(jī)構(gòu)、項(xiàng)目等學(xué)術(shù)實(shí)體的本身屬性和關(guān)系,彼此之間互為特征。例如,預(yù)測(cè)論文的影響力時(shí),往往利用學(xué)者以及期刊的特征,預(yù)測(cè)學(xué)者時(shí)又往往利用論文、期刊等方面的特征。此類研究常常將別的特征視作相對(duì)不變的依據(jù),忽略了互為特征一同演化的客觀事實(shí)。與傳統(tǒng)學(xué)術(shù)影響力預(yù)測(cè)研究相比,數(shù)據(jù)驅(qū)動(dòng)的學(xué)術(shù)影響力預(yù)測(cè)更加強(qiáng)調(diào)從海量數(shù)據(jù)中提取相關(guān)特征來構(gòu)建協(xié)同預(yù)測(cè)模型,而有效的特征體系則是該協(xié)同預(yù)測(cè)模式研究中的重點(diǎn)。
以學(xué)術(shù)異構(gòu)網(wǎng)絡(luò)(bibliographic heterogeneous network)表示各學(xué)術(shù)實(shí)體特征之間的動(dòng)態(tài)協(xié)同演化情況如圖5所示。圖5中以節(jié)點(diǎn)表示學(xué)術(shù)實(shí)體,以節(jié)點(diǎn)的面積表示學(xué)術(shù)實(shí)體的影響力,以時(shí)間片的形式表示學(xué)術(shù)實(shí)體的動(dòng)態(tài)演化。隨著時(shí)間的推移,學(xué)術(shù)實(shí)體在不同時(shí)間片時(shí)影響力發(fā)生了變化,有的影響力減弱(節(jié)點(diǎn)面積變?。?,有的影響力增強(qiáng)(節(jié)點(diǎn)面積變大),不同學(xué)術(shù)實(shí)體協(xié)同演化,或互相促進(jìn)增強(qiáng),或一同衰落消亡;連邊表示了不同實(shí)體之間的關(guān)系。圖5描述了不同學(xué)術(shù)實(shí)體之間的復(fù)雜關(guān)系,沿著學(xué)術(shù)實(shí)體之間的真實(shí)關(guān)系,快速找到影響目標(biāo)對(duì)象的因素,能夠有效提升學(xué)術(shù)影響力的預(yù)測(cè)質(zhì)量。
圖5 不同學(xué)術(shù)實(shí)體特征之間的動(dòng)態(tài)協(xié)同演化概念圖
本文系統(tǒng)地梳理了論文、學(xué)者、機(jī)構(gòu)、期刊、項(xiàng)目和專利六個(gè)方面的學(xué)術(shù)影響力預(yù)測(cè)研究進(jìn)展,概括了學(xué)術(shù)影響力預(yù)測(cè)研究的指標(biāo)體系、方法體系和特征體系三大體系。隨著數(shù)據(jù)生產(chǎn)要素化、數(shù)據(jù)開放與數(shù)據(jù)共享的進(jìn)一步推動(dòng),有望形成新的綜合性指標(biāo)。在科學(xué)衡量學(xué)術(shù)影響力的基礎(chǔ)上,為預(yù)測(cè)提供新的目標(biāo);隨著特征提取技術(shù)和時(shí)間序列預(yù)測(cè)方法的發(fā)展,有望形成新的學(xué)術(shù)影響力預(yù)測(cè)模式,完善學(xué)術(shù)影響力預(yù)測(cè)方法體系;隨著結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)學(xué)術(shù)數(shù)據(jù)的融合,有望從海量學(xué)術(shù)數(shù)據(jù)中進(jìn)一步提取有效特征,豐富學(xué)術(shù)影響力預(yù)測(cè)特征體系,進(jìn)一步提升學(xué)術(shù)影響力預(yù)測(cè)的準(zhǔn)確性。
(1)數(shù)據(jù)要素化促成新的學(xué)術(shù)影響力綜合性指標(biāo)。在學(xué)術(shù)影響力預(yù)測(cè)指標(biāo)體系方面,其一,相關(guān)引證指標(biāo)和替代計(jì)量指標(biāo)因各自存在的問題制約了其獨(dú)立進(jìn)行評(píng)價(jià)和預(yù)測(cè)的可行性,只有整合兩項(xiàng)指標(biāo),才能在確保質(zhì)量和穩(wěn)定性的前提下,融合社會(huì)影響力新維度綜合進(jìn)行學(xué)術(shù)評(píng)價(jià)和預(yù)測(cè),破除SCI至上的學(xué)術(shù)觀,提高指標(biāo)對(duì)新興領(lǐng)域和創(chuàng)新觀點(diǎn)的敏感性。其二,應(yīng)綜合社會(huì)認(rèn)同、同行認(rèn)同、專家認(rèn)同、期刊認(rèn)同等及時(shí)反饋影響力情況,分階段進(jìn)行針對(duì)性的科學(xué)預(yù)測(cè),結(jié)合領(lǐng)域和學(xué)科特點(diǎn),揭示不同學(xué)科領(lǐng)域各自科研系統(tǒng)生態(tài)的發(fā)展規(guī)律。例如,在機(jī)構(gòu)影響力預(yù)測(cè)方面,所使用的指標(biāo)相對(duì)比較單一,過于倚重論文數(shù)目和質(zhì)量,缺乏衡量機(jī)構(gòu)綜合實(shí)力的有效指標(biāo)。機(jī)構(gòu)影響力應(yīng)該在學(xué)術(shù)影響力評(píng)估的基礎(chǔ)上,綜合考慮社會(huì)影響力,全方面考核機(jī)構(gòu)績(jī)效,并以此為指標(biāo),探索相關(guān)的影響因素,預(yù)測(cè)機(jī)構(gòu)未來可能產(chǎn)生的影響。其三,論文、學(xué)者、機(jī)構(gòu)、期刊、項(xiàng)目以及專利等以學(xué)術(shù)共同體的形式存在,共同構(gòu)成了包含知識(shí)創(chuàng)造者、知識(shí)傳播媒介、學(xué)術(shù)資源和學(xué)術(shù)團(tuán)隊(duì)在內(nèi)的學(xué)術(shù)生態(tài),只有各學(xué)術(shù)實(shí)體的綜合影響力,才能更有效地表征學(xué)術(shù)共同體的整體水準(zhǔn);只有良好的學(xué)術(shù)生態(tài),才能確保學(xué)術(shù)研究的有序發(fā)展。
隨著數(shù)據(jù)生產(chǎn)要素化的深入發(fā)展,各個(gè)領(lǐng)域勢(shì)必會(huì)進(jìn)一步加強(qiáng)對(duì)各個(gè)維度數(shù)據(jù)的積累和存儲(chǔ),因此,未來在學(xué)術(shù)影響力指標(biāo)方面,應(yīng)強(qiáng)化對(duì)學(xué)術(shù)共同體整體影響力的評(píng)估,充分利用各個(gè)領(lǐng)域積累的關(guān)于學(xué)術(shù)的多維數(shù)據(jù),規(guī)避論文、學(xué)者、機(jī)構(gòu)、期刊等單一指標(biāo)表征學(xué)術(shù)影響力的不足,整合多維數(shù)據(jù)和指標(biāo),構(gòu)建能夠代表各個(gè)學(xué)術(shù)共同體的綜合性指標(biāo),為整體學(xué)術(shù)影響力預(yù)測(cè)提供可靠依據(jù)。
(2)特征提取技術(shù)和時(shí)間序列預(yù)測(cè)方法促成學(xué)術(shù)影響力預(yù)測(cè)新模式。統(tǒng)計(jì)回歸方法體系和機(jī)器學(xué)習(xí)方法體系都有各自的優(yōu)勢(shì)和發(fā)展空間,但是隨著數(shù)據(jù)的開放和積累,隨著數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)模式的成熟,機(jī)器學(xué)習(xí)方法體系將會(huì)發(fā)揮更大的作用,尤其是以機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、廣度學(xué)習(xí)(broad learn‐ing)等為代表的相關(guān)模型。例如,計(jì)算機(jī)領(lǐng)域逐漸發(fā)展成熟的長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)、圖 神 經(jīng) 網(wǎng) 絡(luò)(graph neural networks,GNN)[64]、Time2Graph[65]時(shí)間序列模型等,新的預(yù)測(cè)模型在學(xué)術(shù)影響力預(yù)測(cè)方面的應(yīng)用有望進(jìn)一步提升預(yù)測(cè)精度。
與此同時(shí),深度學(xué)習(xí)等相關(guān)模型不僅是預(yù)測(cè)的有效方法,也是特征提取的有力工具。研究證明,基于深度學(xué)習(xí)的特征提取算法有效提升了學(xué)術(shù)實(shí)體在文本、網(wǎng)絡(luò)等方面的特征提取工作,尤其是近年發(fā)展起來的廣度學(xué)習(xí),可為多源異構(gòu)學(xué)術(shù)數(shù)據(jù)融合和協(xié)同預(yù)測(cè)提供一系列的規(guī)則和算法[66],有望融合多源異構(gòu)學(xué)術(shù)特征甚至跨越學(xué)科隔閡,為論文、學(xué)者、期刊、項(xiàng)目、機(jī)構(gòu)等學(xué)術(shù)實(shí)體影響力的預(yù)測(cè),提供了一種新的協(xié)同預(yù)測(cè)模式,整合特征提取技術(shù)和時(shí)間序列預(yù)測(cè)方法形成學(xué)術(shù)影響力預(yù)測(cè)新模式,完善學(xué)術(shù)影響力預(yù)測(cè)方法體系。
(3)進(jìn)一步融合多源異構(gòu)學(xué)術(shù)數(shù)據(jù),豐富學(xué)術(shù)影響力預(yù)測(cè)特征體系。論文、學(xué)者、期刊、機(jī)構(gòu)、項(xiàng)目等學(xué)術(shù)實(shí)體互為特征,面對(duì)海量的動(dòng)態(tài)協(xié)同演化的特征實(shí)體,如何提取有效特征來構(gòu)建協(xié)同預(yù)測(cè)模型,是學(xué)術(shù)影響力預(yù)測(cè)研究的重點(diǎn)。特征提取的前提是有效的特征刻畫,在于如何利用結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的學(xué)術(shù)數(shù)據(jù),雖然以往在學(xué)術(shù)異構(gòu)網(wǎng)絡(luò)、科學(xué)知識(shí)圖譜方面已有大量研究,但是如何將海量學(xué)術(shù)實(shí)體之間復(fù)雜的真實(shí)關(guān)系刻畫出來,如何將不同領(lǐng)域甚至跨學(xué)科的學(xué)術(shù)實(shí)體有效地融合在一起,并提取出有效的特征,是學(xué)術(shù)大數(shù)據(jù)面對(duì)的棘手問題。例如,可以利用圖神經(jīng)網(wǎng)絡(luò),在更廣泛的學(xué)科范圍內(nèi)進(jìn)行多源異構(gòu)網(wǎng)絡(luò)融合,通過廣度學(xué)習(xí)網(wǎng)絡(luò)對(duì)齊、網(wǎng)絡(luò)嵌入等框架將不同領(lǐng)域的學(xué)術(shù)實(shí)體整合在一起[67-68],將多維數(shù)據(jù)融合在一起,構(gòu)建囊括多學(xué)科數(shù)據(jù)的異構(gòu)網(wǎng)絡(luò),在動(dòng)態(tài)刻畫的基礎(chǔ)上,為預(yù)測(cè)對(duì)象提供盡可能豐富和全面的特征池,由此從特征層面提升相關(guān)機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)等預(yù)測(cè)模型的性能。
(4)規(guī)避偏見,預(yù)見美好。學(xué)術(shù)影響力是大科學(xué)時(shí)代學(xué)術(shù)分工細(xì)化的產(chǎn)物,但是作為科研政策工具和評(píng)價(jià)指標(biāo),如何衡量學(xué)術(shù)影響力自始至終存在著許多爭(zhēng)議和偏見[69]?;趯W(xué)術(shù)影響力計(jì)算之上的預(yù)測(cè)勢(shì)必也存在一定的不足,因此,如何規(guī)避關(guān)于學(xué)術(shù)影響力的爭(zhēng)議,如何規(guī)避預(yù)測(cè)的偏見,強(qiáng)化對(duì)邊緣化弱勢(shì)群體的保護(hù),強(qiáng)化對(duì)新穎想法和研究思路的包容度,才能大力鼓勵(lì)跨學(xué)科研究,才能鼓勵(lì)開拓新的研究領(lǐng)域[9,70]。鑒于此,學(xué)術(shù)影響力預(yù)測(cè)應(yīng)著重為科學(xué)研究提供更多選擇,幫助科研工作者提前發(fā)現(xiàn)未來具有較大影響力的方向或選題,應(yīng)強(qiáng)調(diào)為科研決策提供支持,強(qiáng)化預(yù)見美好,這樣才能盡力規(guī)避學(xué)術(shù)影響力評(píng)估中的負(fù)面影響,只為預(yù)見科學(xué)之美。