閆曉慧 鄧三鴻 張藝煒 張 琪 胡昊天 馬博聞
(1.南京大學(xué)信息管理學(xué)院,南京,210023; 2.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,南京,210023)
黨的十九大報(bào)告指出“創(chuàng)新是引領(lǐng)發(fā)展的第一動(dòng)力,是建設(shè)現(xiàn)代化經(jīng)濟(jì)體系的戰(zhàn)略支撐”。2020年9月,習(xí)近平總書(shū)記在科學(xué)家座談會(huì)上也強(qiáng)調(diào)“讓科技創(chuàng)新成果源源不斷涌現(xiàn)出來(lái)”[1]。當(dāng)前,隨著高校/科研單位和企業(yè)合作的深度進(jìn)展,科研成果技術(shù)轉(zhuǎn)化得到重視和加快,對(duì)于具有高度創(chuàng)新性成果的扶持促進(jìn)了整體研究領(lǐng)域的進(jìn)步。學(xué)術(shù)論文是科研人員學(xué)術(shù)成果產(chǎn)出的重要表現(xiàn)形式之一,其質(zhì)量主要由創(chuàng)新度來(lái)體現(xiàn)。對(duì)于學(xué)術(shù)論文創(chuàng)新度的及時(shí)評(píng)價(jià),有助于科研管理機(jī)構(gòu)更加有效、準(zhǔn)確地給予科學(xué)資助,促使科學(xué)技術(shù)快速發(fā)展[2]。
“創(chuàng)新”本身具有高度的復(fù)雜性,一般指在一定的領(lǐng)域內(nèi),創(chuàng)立或者發(fā)展了比原先更加有價(jià)值的理論、專業(yè)、方法、技術(shù)等,也指把前人的成果或理論等進(jìn)行加工、整理、提煉、發(fā)掘出新的想法,給予新的結(jié)論[3]。Uzzi 等人[4]認(rèn)為科學(xué)創(chuàng)新是將新觀念進(jìn)行原創(chuàng)組合來(lái)產(chǎn)生新的科學(xué)成果,創(chuàng)新度就是將其具體創(chuàng)新程度進(jìn)行直觀化的數(shù)字表示。根據(jù)數(shù)值大小,創(chuàng)新被分為“無(wú)創(chuàng)新” “漸進(jìn)性創(chuàng)新”“突破性創(chuàng)新”三種[5]。
對(duì)于學(xué)術(shù)論文的創(chuàng)新度測(cè)量主要有基于同行評(píng)議的定性方法和基于信息計(jì)量學(xué)的定量方法兩種。同行評(píng)議是一種對(duì)于學(xué)術(shù)論文創(chuàng)新度檢測(cè)的過(guò)濾機(jī)制,是當(dāng)前認(rèn)可度較高的定性評(píng)價(jià)方法之一,在科學(xué)進(jìn)步中起著至關(guān)重要的作用。在學(xué)術(shù)論文的評(píng)價(jià)工作中,同行評(píng)議發(fā)揮了十分重要的作用,在學(xué)術(shù)論文的發(fā)表之前就需要經(jīng)過(guò)不止一次的同行評(píng)議[6]?;谛畔⒂?jì)量方法的學(xué)術(shù)論文評(píng)價(jià)類(lèi)型相對(duì)較多:一是針對(duì)學(xué)術(shù)論文的外部特征進(jìn)行創(chuàng)新度分析,如基于作者的H指數(shù)[7]和期刊的影響因子[8]等單個(gè)指標(biāo)進(jìn)行評(píng)價(jià),將學(xué)術(shù)論文的創(chuàng)新度和影響力同等看待并把影響力高的學(xué)術(shù)論文直接判定為高創(chuàng)新度論文[9],通過(guò)分析學(xué)術(shù)論文在引文網(wǎng)絡(luò)中的出入度構(gòu)建創(chuàng)新度指標(biāo)S指數(shù)[10],還有一些研究從引文角度進(jìn)行成果創(chuàng)新度研究[4,11-16];二是針對(duì)學(xué)術(shù)論文的內(nèi)容特征進(jìn)行創(chuàng)新度研究,通過(guò)自然語(yǔ)言處理方法,對(duì)學(xué)術(shù)論文的內(nèi)容進(jìn)行創(chuàng)新度評(píng)價(jià),如一些研究[17-23]采用向量空間模型進(jìn)行學(xué)術(shù)論文內(nèi)容的創(chuàng)新度測(cè)量,還有一些研究[24-31]從學(xué)術(shù)論文關(guān)鍵詞、主題詞和具體詞頻等角度進(jìn)行文本創(chuàng)新度研究。除此以外,還有一些學(xué)者分析了學(xué)術(shù)論文創(chuàng)新度的影響因素,如王曉慧等分析了多種學(xué)術(shù)影響力指標(biāo)之間的關(guān)系[32];Vieira等得出學(xué)術(shù)論文的作者數(shù)量、具體成果的篇幅、引文數(shù)量、載體的影響因子以及參與的學(xué)術(shù)機(jī)構(gòu)數(shù)量等多個(gè)方面都能夠直接影響學(xué)術(shù)論文的創(chuàng)新度[33];Bornmann 等證明學(xué)術(shù)論文的發(fā)表時(shí)間、期刊、成果本身、作者、成果所屬的學(xué)科和他人獲取的難易程度都會(huì)影響其學(xué)術(shù)論文的創(chuàng)新度[34];賀婉瑩證實(shí)學(xué)術(shù)論文作者本身的聲望、引文、期刊、合著、與內(nèi)容相關(guān)等內(nèi)在因素都會(huì)對(duì)學(xué)術(shù)論文的創(chuàng)新度造成直接影響[35]。
雖然當(dāng)前對(duì)于學(xué)術(shù)論文的創(chuàng)新度測(cè)量已經(jīng)有了豐碩的成果,但是仍然存在一些不足之處。主要是測(cè)度的方法比較單一,大部分研究從單個(gè)角度進(jìn)行考量,參考維度比較少,還有一些方法要求使用人員具備一定的技術(shù)基礎(chǔ)。索傳軍等人建議從定量和定性全面分析,再結(jié)合其他相關(guān)數(shù)據(jù)進(jìn)行整體判斷[36]。因此,本文圍繞學(xué)術(shù)論文的創(chuàng)新度測(cè)量展開(kāi)研究,通過(guò)對(duì)國(guó)內(nèi)外研究情況的調(diào)研,總結(jié)了當(dāng)前學(xué)術(shù)論文創(chuàng)新度測(cè)量的研究現(xiàn)狀及問(wèn)題,并就學(xué)術(shù)論文創(chuàng)新度測(cè)量模型構(gòu)建的一些基本問(wèn)題進(jìn)行探究。在此基礎(chǔ)上,本文構(gòu)建了一種基于“作者前期積累(Basic,簡(jiǎn)稱B)”“載體影響因子(Journal,簡(jiǎn)稱J)”“被認(rèn)可程度(Recognized,簡(jiǎn)稱R)”“內(nèi)容相似度(Content,簡(jiǎn)稱C)”四個(gè)方面定量和定性相結(jié)合的學(xué)術(shù)論文創(chuàng)新度測(cè)量模型,并進(jìn)行了數(shù)據(jù)驗(yàn)證。
學(xué)術(shù)論文是學(xué)者對(duì)于特定的研究領(lǐng)域中的特定問(wèn)題進(jìn)行深入研究后,通過(guò)科學(xué)表述得到具有學(xué)術(shù)性、科學(xué)性、創(chuàng)造性的成果,是科研工作者的研究對(duì)象、工具和思路等所有智慧的集中體現(xiàn),是正式學(xué)術(shù)交流的重要媒介之一。學(xué)術(shù)創(chuàng)新并不是一蹴而就的,每一位科研人員本身的前期知識(shí)積累是其后期進(jìn)行科研創(chuàng)作不可或缺的財(cái)富。同一主題下,前期的學(xué)術(shù)論文越多,可視為該科研人員在該主題下具有越多的的經(jīng)驗(yàn)和知識(shí)積累,具備更高的能力從不同方面審視主題研究?jī)?nèi)容,相對(duì)而言后期相應(yīng)科研成果的創(chuàng)新度也就更高[37]。
長(zhǎng)期以來(lái),學(xué)術(shù)界對(duì)于期刊影響因子有著很高的崇拜[38],雖然飽受詬病,但是影響因子是期刊上刊載的所有學(xué)術(shù)論文的長(zhǎng)期積累,在一定程度上具有很大的借鑒意義,金碧輝等人的研究指出,影響因子對(duì)于學(xué)術(shù)論文的創(chuàng)新度和期刊的整體學(xué)術(shù)水平具有很直接的關(guān)系,是學(xué)術(shù)評(píng)價(jià)的重要指標(biāo)[39]。具體到學(xué)術(shù)論文發(fā)表的過(guò)程中,各個(gè)期刊編輯部參考自己預(yù)先設(shè)立的算法,根據(jù)投稿論文的內(nèi)容選擇合適的評(píng)審專家。同行評(píng)議制度的不斷完善,促使其中的不正之風(fēng)以及同行不是“小同行”的現(xiàn)象逐漸減少。隨著科學(xué)交流的日益頻繁,學(xué)科之間的界限變得越來(lái)越模糊,同一主題下的學(xué)術(shù)論文會(huì)發(fā)表在不同學(xué)科的期刊上,給不同學(xué)科的研究人員提供了便利。同時(shí),隨著國(guó)內(nèi)外學(xué)術(shù)道德規(guī)范建設(shè)的不斷進(jìn)展,國(guó)際學(xué)術(shù)出版界和科學(xué)共同體對(duì)各類(lèi)科研不端行為、發(fā)表論文質(zhì)量參差不齊、以及掠奪性期刊等方面的問(wèn)題采取了多種措施,包括技術(shù)防范手段、建立和維護(hù)高質(zhì)量期刊“白名單”、科學(xué)共同體共同發(fā)現(xiàn)和清理有問(wèn)題文獻(xiàn)、利用法律手段制裁掠奪性期刊等,有效改善了學(xué)術(shù)發(fā)表環(huán)境,提升了學(xué)術(shù)期刊及發(fā)表論文的質(zhì)量[40]。
一篇學(xué)術(shù)論文被引用次數(shù)的多少在一定程度上可以體現(xiàn)該學(xué)術(shù)論文被認(rèn)可程度的大小[41]。從引用角度來(lái)講,學(xué)術(shù)論文之間并不是孤立存在的,科學(xué)的不斷發(fā)展是科學(xué)研究者在前人研究成果的基礎(chǔ)上繼續(xù)努力的結(jié)果,參考文獻(xiàn)是這些智慧傳遞的途徑,也是連接不同學(xué)術(shù)論文之間知識(shí)的橋梁[42]。參考文獻(xiàn)的數(shù)據(jù)是動(dòng)態(tài)變化的,會(huì)隨時(shí)間發(fā)展不停地變化,加菲爾德針對(duì)論文之間的引證和被引證的關(guān)系進(jìn)行分析,由此總結(jié)概括為引文分析法[43]。一般情況下,引用表示對(duì)其內(nèi)容的掌握,換句話說(shuō),引用了某一學(xué)術(shù)論文表示對(duì)該學(xué)術(shù)論文的了解,相互引用是知識(shí)傳遞的充分表現(xiàn)[44]。一般情況下,學(xué)術(shù)論文的創(chuàng)新度越高,收到的關(guān)注度也越高,也更容易被同行認(rèn)可,得到的引用次數(shù)也就較多[45]。并且,隨著引文規(guī)范的實(shí)行,各種大型的學(xué)術(shù)數(shù)據(jù)庫(kù)(Web of Science、CNKI等)都提供有引文下載功能,為引文分析奠定了堅(jiān)實(shí)的科研基礎(chǔ)。科學(xué)研究已經(jīng)能夠正確地使用引文數(shù)據(jù),這使得引文分析有著強(qiáng)有力的前提[46]。學(xué)術(shù)引用可以直接表示論文間知識(shí)的流動(dòng),所以引文分析可以應(yīng)用于展現(xiàn)論文之間的知識(shí)流動(dòng)。有研究顯示,高創(chuàng)新度的學(xué)術(shù)論文具有較為重要的橋梁作用,在科學(xué)發(fā)展中起到承上啟下作用[24]。
每篇學(xué)術(shù)論文包含著題目、摘要、關(guān)鍵詞、正文和參考文獻(xiàn)等部分,其中,題目、摘要和關(guān)鍵詞是每篇學(xué)術(shù)論文的精煉,是從正文中提煉出來(lái)的簡(jiǎn)短的、能夠準(zhǔn)確反映其主旨內(nèi)容的濃縮[47],這些內(nèi)容在一定程度上能夠完整反映整個(gè)學(xué)術(shù)論文的研究主題和內(nèi)容。一般情況下,當(dāng)一篇學(xué)術(shù)論文的這些內(nèi)容同其他學(xué)術(shù)論文之間的相似度越小的話,該篇論文的創(chuàng)新度可能比較高[48]。對(duì)學(xué)術(shù)論文中題目、摘要和關(guān)鍵詞等內(nèi)容進(jìn)行具體分析,可以有效地識(shí)別其具體的創(chuàng)新度。
除了以上四個(gè)角度以外,還有學(xué)者從學(xué)術(shù)論文引用前期成果時(shí)是否進(jìn)行跳躍性引用角度進(jìn)行創(chuàng)新度分析[49]。但該方法需要所選擇論文數(shù)量足夠大,在引文網(wǎng)絡(luò)節(jié)點(diǎn)中重要的中心節(jié)點(diǎn)可能不屬于同一個(gè)研究主題,所以對(duì)于從是否跳躍引用來(lái)進(jìn)行論文創(chuàng)新度評(píng)價(jià)可能會(huì)有一定的不穩(wěn)定性。另外,還有實(shí)驗(yàn)得出跨學(xué)科研究有助于科學(xué)創(chuàng)新[50],但是涉及學(xué)科的多少對(duì)創(chuàng)新度大小的影響目前并沒(méi)有很明確的結(jié)論[51]。
根據(jù)上述研究角度,本文擬從“作者前期積累(Basic,簡(jiǎn)稱B)”“載體影響因子(Journal,簡(jiǎn)稱J)”“被認(rèn)可程度(Recognized,簡(jiǎn)稱R)”“內(nèi)容相似度(Content,簡(jiǎn)稱C)”四個(gè)方面構(gòu)建學(xué)術(shù)論文創(chuàng)新度測(cè)量模型,即BJRC模型。模型的具體內(nèi)容分析如下:
不論一篇學(xué)術(shù)論文是獨(dú)著還是合著的,都是所有作者的通力合作。每一篇學(xué)術(shù)論文的出版都是所有作者前期知識(shí)儲(chǔ)備的集合,論文的所有作者都對(duì)該論文的創(chuàng)作提供了支持,學(xué)術(shù)論文的合作有助于科學(xué)創(chuàng)新[52]。因此,本文在分析作者對(duì)學(xué)術(shù)論文創(chuàng)新度影響因素的時(shí)候,綜合了所有作者前期在該主題下所有的前期學(xué)術(shù)儲(chǔ)備。作者前期積累對(duì)于學(xué)術(shù)論文創(chuàng)新度的分析具體見(jiàn)公式1,其中,i表示具體的論文,Bi表示第i篇論文中所有作者在該主題下前期所有的學(xué)術(shù)儲(chǔ)備,Ai表示該篇學(xué)術(shù)論文的作者前期知識(shí)積累。
Bi=∑Ai
(1)
學(xué)術(shù)論文的載體一般是期刊,每一種期刊都有著變化的影響因子。作者在進(jìn)行投稿之前,一般情況下都會(huì)以期刊的影響因子以及分區(qū)進(jìn)行參考。但是不同的期刊影響因子之間的數(shù)量相對(duì)關(guān)系會(huì)有些懸殊,本文將根據(jù)每年的期刊影響因子進(jìn)行歸一化處理。具體見(jiàn)公式2,其中,Ji表示第i篇論文的載體影響因子對(duì)論文創(chuàng)新度的影響,Pi表示第i篇論文發(fā)表的期刊在發(fā)表年的影響因子,Pmax表示每年該主題下論文刊登期刊的影響因子的最大數(shù)。
(2)
“被引用”是學(xué)術(shù)論文被認(rèn)可的一種很重要的方式,Ri表示第i篇論文發(fā)表后被引用的次數(shù),由于本文進(jìn)行的是同年度學(xué)術(shù)論文創(chuàng)新度的測(cè)量工作,所以暫時(shí)無(wú)需考慮由于發(fā)表時(shí)間長(zhǎng)短造成被引頻次變化的問(wèn)題。
在內(nèi)容分析的角度下,本文把同年的所有學(xué)術(shù)論文的摘要(題目,關(guān)鍵詞,摘要等)通過(guò)余弦相似度公式進(jìn)行計(jì)算,進(jìn)行學(xué)術(shù)論文的創(chuàng)新度排序,用Ci表示論文內(nèi)容的相似度,相似度越小的論文的創(chuàng)新度越高[53]。
為了將這四個(gè)方面的數(shù)據(jù)更好地集成在一起,本文給各個(gè)方面的數(shù)據(jù)賦予不同的權(quán)重。即Ii=α×Bi+β×Ji+γ×Ri+δ×Ci,且α+β+γ+δ=1,其中Ii表示學(xué)術(shù)論文i的創(chuàng)新度(Innovation,簡(jiǎn)稱I)。本文邀請(qǐng)信息計(jì)量領(lǐng)域的十位專家進(jìn)行兩輪的賦值,經(jīng)過(guò)計(jì)算,最后得出α∶β∶γ∶δ=0.33∶0.38∶0.53;(-0.24)。因此,得到的學(xué)術(shù)論文i的創(chuàng)新度BJRC模型見(jiàn)公式3:
Ii=0.33×Bi+0.38×Ji+0.53×Ri-0.24×Ci
(3)
“人工智能”是當(dāng)前比較熱門(mén)的主題,而且學(xué)術(shù)論文和專利之間的交流也比較多。故本文選取的數(shù)據(jù)為WoS(Web of Science)核心合集數(shù)據(jù)庫(kù)中主題為“人工智能”的學(xué)術(shù)論文,以“人工智能”為主題(檢索式為“TS="artificial intelligence" or "inteligencia artificial" or "ai" or "artifitial intelligence" or "artificial intelligent" or "artificial intelligence" or "artificial inteligence" or "artifical intelligence" or "intelligence artificielle" or "artificial intellegence"”)進(jìn)行檢索。在Web of Science核心合集數(shù)據(jù)庫(kù)中,由于創(chuàng)新度測(cè)量的是“研究型論文”,而非其他類(lèi)型的成果,所以本文只選擇了檢索結(jié)果中“article”格式論文。檢索日期為2021年6月11日。由于Finardi U[54]和覃佳慧等人[55]都得出了同一主題下的學(xué)術(shù)論文被專利引用的時(shí)間滯后大約為3—4年。因此,本文選取2015—2017年的數(shù)據(jù)進(jìn)行實(shí)證分析。首先是建立數(shù)據(jù)庫(kù),從Web of Science數(shù)據(jù)庫(kù)中下載上述檢索得到文獻(xiàn)的帶有制表分隔符的txt格式數(shù)據(jù);然后進(jìn)行數(shù)據(jù)抽取,選取其中的“作者”“參考文獻(xiàn)”“數(shù)據(jù)對(duì)象標(biāo)識(shí)符(簡(jiǎn)稱DOI值)”“來(lái)源出版物”“出版年”“被引頻次合計(jì)”“影響因子”“摘要”和“關(guān)鍵詞”等字段。接著進(jìn)行數(shù)據(jù)清理,主要包括兩方面,一方面為了實(shí)現(xiàn)對(duì)摘要等內(nèi)容的分析、精確地度量?jī)善獙W(xué)術(shù)論文之間的相似度,需要將摘要等文本中的停用詞剔除,接著進(jìn)行同義詞消歧,統(tǒng)一化后再做相似度計(jì)算;另一方面,由于計(jì)算學(xué)術(shù)論文前期積累需要將所有作者在該領(lǐng)域下的論文進(jìn)行累加,數(shù)據(jù)清理工作需要根據(jù)作者的地址或者郵箱等信息進(jìn)行同名處理,最后再進(jìn)行計(jì)算。
經(jīng)過(guò)數(shù)據(jù)處理后的2015—2017年“人工智能”主題研究論文的具體數(shù)據(jù)結(jié)果見(jiàn)表1。本文以學(xué)術(shù)論文的DOI標(biāo)識(shí)號(hào)作為唯一的標(biāo)志,得出這3年的研究型論文3741篇,分別為2015年1087篇、2016年1145篇、2017年1509篇,成果呈逐年遞增的情況。去重后得出,2015—2017年“人工智能”主題下的學(xué)術(shù)論文共發(fā)表在1598種期刊上,涉及到131個(gè)學(xué)術(shù)研究方向和219個(gè)Web of Science學(xué)科類(lèi)別。從數(shù)量上講,這三年的數(shù)據(jù)能夠?yàn)楹罄m(xù)的科學(xué)研究提供有力的數(shù)據(jù)保障。
表1 “人工智能”學(xué)術(shù)論文年份分析
本部分的內(nèi)容主要是為了驗(yàn)證本文構(gòu)建的BJRC模型是否可以進(jìn)行準(zhǔn)確評(píng)價(jià)。專利,尤其是發(fā)明性專利,具有很高的創(chuàng)新度,專利是當(dāng)前科技創(chuàng)新的重要成果,是當(dāng)前主流技術(shù)創(chuàng)新的重要體現(xiàn)。很多研究顯示,論文和專利之間的相互引用的發(fā)生越來(lái)越普遍,科學(xué)與技術(shù)之間的聯(lián)系也越來(lái)越緊密[56-58]。其中,學(xué)術(shù)論文成為專利的前向引文,創(chuàng)新度較高,具有十分重要的情報(bào)意義[59]。論文被專利引用是變革性研究的早期識(shí)別信號(hào)之一[60],專利文獻(xiàn)中的參考學(xué)術(shù)論文經(jīng)常被用來(lái)追蹤創(chuàng)新的來(lái)源[61]。因此,學(xué)術(shù)論文被專利引用可以在一定程度上體現(xiàn)學(xué)術(shù)論文的高創(chuàng)新度。
本文在Plum Analytics網(wǎng)站上檢索確定學(xué)術(shù)論文是否被專利引用及被引次數(shù),利用python程序以上面下載的WoS“人工智能”主題下每篇學(xué)術(shù)論文的DOI識(shí)別碼開(kāi)展檢索。2015—2017年內(nèi)“人工智能”主題下被專利引用的學(xué)術(shù)論文一共有40篇,其DOI碼和被專利引用次數(shù)的具體情況見(jiàn)表2。
表2 2015—2017年“人工智能”主題下的學(xué)術(shù)論文被專利引用的情況
本文構(gòu)建的BJRC模型是從作者前期積累、載體影響因子、被認(rèn)可程度、內(nèi)容相似度四個(gè)方面組合進(jìn)行研究的,因此需要將各年的各篇學(xué)術(shù)論文進(jìn)行四個(gè)方面分別計(jì)算。其中,“被引次數(shù)(R)”和“期刊的影響因子(J)”可以從WoS數(shù)據(jù)庫(kù)中直接得出;“前期學(xué)術(shù)基礎(chǔ)(B)”需要把每篇學(xué)術(shù)論文的每位作者的前期成果進(jìn)行分別統(tǒng)計(jì),然后進(jìn)行計(jì)算;“內(nèi)容相似度(C)”需要將每篇學(xué)術(shù)論文的摘要、題目、關(guān)鍵詞等內(nèi)容進(jìn)行拆分,根據(jù)每年的論文內(nèi)容進(jìn)行訓(xùn)練,使得每篇摘要拆分為詞向量,最后再進(jìn)行全年所有論文的相似度比較。最后將四個(gè)方面的計(jì)算結(jié)果綜合在一起,得出各年的論文的創(chuàng)新度排名,2015—2017三年內(nèi)的各年的“人工智能”主題下創(chuàng)新度前1%的論文見(jiàn)表3。
表3 BJRC模型識(shí)別出的三年內(nèi)的“人工智能”主題下前1%的高創(chuàng)新度學(xué)術(shù)論文
根據(jù)本文構(gòu)建的BJRC模型,得到2015—2017三年的“人工智能”主題下創(chuàng)新度前1%的論文共36篇(2015年10篇、2016年11篇、2017年15篇)。識(shí)別出來(lái)的36篇論文中被專利引用的一共有12篇(2015年3篇、2016年4篇、2017年5篇),分別占這三年所有被專利引用論文的75.00%、36.36%、31.25%,占比逐年減少的原因很大程度上是由于專利引用學(xué)術(shù)論文中存在的時(shí)間延遲問(wèn)題導(dǎo)致的。
本文構(gòu)建的BJRC模型能夠準(zhǔn)確識(shí)別出來(lái)三年內(nèi)被專利引用次數(shù)最多的學(xué)術(shù)論文,2015年的10.1038/ncomms7269論文被專利引用了2次,在模型測(cè)度后的排名為5;2016年的論文10.1038/nature16961的年度排名為1,被專利引用次數(shù)為10;2017年的3篇論文10.1038/nature21056、10.1109/JPROC.2017.2761740、10.1073/pnas.1611835114都被專利引用了8次,排名分別為1、4、10名。綜合看來(lái),被專利引用的學(xué)術(shù)論文中,其本身的被引頻次和所在期刊的影響因子兩個(gè)指標(biāo)中至少有一個(gè)的值在所有論文中相對(duì)比較突出,有些成果的前期儲(chǔ)備較多,有些的儲(chǔ)備比較少,學(xué)術(shù)論文在內(nèi)容相似度方面,相對(duì)沒(méi)有前三個(gè)維度的區(qū)別大。
2015年,未被識(shí)別出的論文10.1016/j.artint.2015.07.005屬于計(jì)算機(jī)學(xué)科分類(lèi),其被引頻次為40,沒(méi)有被識(shí)別出來(lái)的原因有可能是因?yàn)槠渌谄诳挠绊懸蜃佑行┨停瑑H為4.7多,大概率屬于那種起初并未被識(shí)別的創(chuàng)新學(xué)術(shù)論文。2016年,除論文10.1049/iet-cps.2016.0027是因?yàn)闆](méi)有被其他成果引用之外,其他未被識(shí)別的論文同2015年未識(shí)別論文的原因是相同的。2017年的所有被專利引用的學(xué)術(shù)論文在本文構(gòu)建的BJRC模型得出的排名都在前10%左右,結(jié)果是比較合理的。
雖然本文構(gòu)建的BJRC模型不能完全把所有的被專利引用的論文識(shí)別出來(lái),但是可以相對(duì)簡(jiǎn)單地計(jì)算出學(xué)術(shù)論文的創(chuàng)新度排名,能夠在最大程度上得出年度具創(chuàng)新度的學(xué)術(shù)論文,為下一步的高創(chuàng)新度論文識(shí)別節(jié)省時(shí)間。
為了進(jìn)一步證明本文構(gòu)建的BJRC模型的準(zhǔn)確性和科學(xué)性,我們還將本文構(gòu)建的創(chuàng)新度測(cè)量模型從兩個(gè)方面進(jìn)行了比較論證:一是將本文構(gòu)建的綜合模型和單一指標(biāo)進(jìn)行對(duì)比,二是將本文構(gòu)建的模型同當(dāng)前學(xué)術(shù)界同類(lèi)型創(chuàng)新度測(cè)量模型進(jìn)行比較。
3.4.1 同單一指標(biāo)的比較分析
本文提出的模型可以視作一種綜合指標(biāo),可以將模型涉及的四個(gè)方面視為四項(xiàng)單一評(píng)價(jià)指標(biāo),即,學(xué)術(shù)論文的Bi(作者前期積累)、Ji(載體影響因子)、Ri(被認(rèn)可程度)、Ci(內(nèi)容相似度)四個(gè)角度均可以單獨(dú)用以識(shí)別高創(chuàng)新度論文。5個(gè)指標(biāo)分別識(shí)別出來(lái)的年度前1%高創(chuàng)新度論文被專利引用的結(jié)果具體見(jiàn)表4。
具體分析表4,可以發(fā)現(xiàn),單一指標(biāo)模型中被認(rèn)可程度Ri計(jì)算出來(lái)的結(jié)果數(shù)是除綜合指標(biāo)BJRC模型Ii之外最多的;五個(gè)模型中,只有綜合指標(biāo)BJRC模型Ii可以將當(dāng)年被專利引用頻次最高的論文全部識(shí)別出來(lái),單一指標(biāo)Ri識(shí)別出來(lái)的數(shù)量緊隨其后,其他三個(gè)單一指標(biāo)模型在識(shí)別最具有創(chuàng)新度論文的能力上相對(duì)較弱一些;并且各個(gè)單一指標(biāo)模型對(duì)于年度被專利引用次數(shù)最多的論文識(shí)別也不如綜合模型BJRC的效果好。因此得出,綜合模型BJRC比單一指標(biāo)模型具有一定的優(yōu)越性。
表4 綜合模型和單一指標(biāo)模型識(shí)別出來(lái)的前1%高創(chuàng)新度論文結(jié)果表
3.4.2 與同類(lèi)型創(chuàng)新度指標(biāo)的比較分析
將本文構(gòu)建的BJRC模型與當(dāng)前主流的創(chuàng)新度識(shí)別指標(biāo)進(jìn)行對(duì)比。這些主流指標(biāo)主要有兩大類(lèi),一類(lèi)是學(xué)術(shù)論文的外部特征測(cè)量指標(biāo),包括:作者的H指數(shù)、期刊的影響因子、論文在引文網(wǎng)絡(luò)中的節(jié)點(diǎn)重要程度等;第二類(lèi)是學(xué)術(shù)論文內(nèi)部特征測(cè)量指標(biāo),如用自然語(yǔ)言處理進(jìn)行文本分析后討論學(xué)術(shù)論文的創(chuàng)新度。本文構(gòu)建的BJRC模型和其他指標(biāo)模型識(shí)別出來(lái)的前1%高創(chuàng)新度的論文結(jié)果,具體見(jiàn)表5。
表5 BJRC模型和其他指標(biāo)模型識(shí)別的前1%高創(chuàng)新度論文結(jié)果情況表
從表5可以得出,根據(jù)作者的H指數(shù)和學(xué)術(shù)論文在引文網(wǎng)絡(luò)中的中間中心性、接近中心性、特征向量中心性和點(diǎn)度中心性進(jìn)行高創(chuàng)新度學(xué)術(shù)論文的識(shí)別結(jié)果都沒(méi)有本文構(gòu)建的BJRC模型好,并且對(duì)于年度被專利引用次數(shù)最多的學(xué)術(shù)論文的識(shí)別能力也沒(méi)有BJRC模型強(qiáng)。學(xué)術(shù)論文在引文網(wǎng)絡(luò)的中心性比較是不同的學(xué)者根據(jù)自己的研究需要進(jìn)行選擇的,可以發(fā)現(xiàn)中間中心性和接近中心性的識(shí)別效果要相對(duì)好一些。外部特征中的學(xué)術(shù)論文的“期刊的影響因子”和“影響力(引文次數(shù))”即J和R,在3.4.1已經(jīng)進(jìn)行了比較,其識(shí)別能力也低于本文的BJRC模型。對(duì)于學(xué)術(shù)論文內(nèi)容特征方面,很多學(xué)者利用自然語(yǔ)言處理方法,對(duì)學(xué)術(shù)論文中的創(chuàng)新詞或者創(chuàng)新句進(jìn)行內(nèi)容層面的研究,但本文認(rèn)為自然語(yǔ)言處理前期需要一定的人工標(biāo)記,處理難度要更加大一些,用自然語(yǔ)言處理方法識(shí)別高創(chuàng)新度的學(xué)術(shù)論文更加適合大量論文處理之后的小部分論文的仔細(xì)篩選工作。
由此可見(jiàn),本文構(gòu)建的BJRC模型相較于當(dāng)前的主流模型,結(jié)合了外部特征和內(nèi)容特征兩個(gè)方面,操作相對(duì)要簡(jiǎn)單一些,并且識(shí)別高創(chuàng)新度學(xué)術(shù)論文的能力也要更強(qiáng)一些。
為了在海量的學(xué)術(shù)論文中快速找出創(chuàng)新度較高的成果,更好地計(jì)算不同學(xué)術(shù)論文的創(chuàng)新度,本文構(gòu)建出包含學(xué)術(shù)論文的作者前期積累、載體影響因子、被認(rèn)可程度、內(nèi)容相似度四個(gè)方面的BJRC學(xué)術(shù)論文創(chuàng)新度測(cè)量模型。我們用2015—2017年的“人工智能”主題下的學(xué)術(shù)論文被專利引用的情況作為實(shí)證研究,得出BJRC模型在原理上是科學(xué)合理的。在與單一指標(biāo)和同類(lèi)型的評(píng)價(jià)指標(biāo)分別進(jìn)行對(duì)比后,可以發(fā)現(xiàn)本文構(gòu)建的BJRC模型具有一定的優(yōu)越性,有助于對(duì)創(chuàng)新度較高的學(xué)術(shù)論文進(jìn)行識(shí)別,計(jì)算方式相對(duì)比較簡(jiǎn)單,可以在一定程度上為學(xué)術(shù)論文的定量化評(píng)價(jià)提供支持。
本文提出的測(cè)度模型對(duì)于學(xué)術(shù)論文的創(chuàng)新度測(cè)量和學(xué)術(shù)評(píng)價(jià)具有一定的實(shí)踐意義,對(duì)于科研資助機(jī)構(gòu)具有一定的參考價(jià)值。如,評(píng)價(jià)研究成果的創(chuàng)新性時(shí),可以考慮采用BJRC模型對(duì)研究成果提及的已發(fā)表的學(xué)術(shù)論文進(jìn)行快速評(píng)價(jià);又如面對(duì)大量的科研基金申請(qǐng),BJRC模型可以幫助減少項(xiàng)目評(píng)價(jià)前期的一部分工作量,有助于簡(jiǎn)單直接地識(shí)別出創(chuàng)新度比較高的學(xué)術(shù)內(nèi)容。