曹樹金 曹茹燁
(中山大學(xué)信息管理學(xué)院,廣州,510006)
創(chuàng)新是持續(xù)發(fā)展的原動力,是科學(xué)研究的核心和本質(zhì)。2016年5月,習(xí)近平總書記在全國科技創(chuàng)新大會、兩院院士大會、中國科協(xié)第九次全國代表大會上提出,要改革科技評價制度,建立以科技創(chuàng)新質(zhì)量、貢獻(xiàn)、績效為導(dǎo)向的分類評價體系,正確評價科技創(chuàng)新成果的科學(xué)價值、技術(shù)價值、經(jīng)濟(jì)價值、社會價值、文化價值[1]。學(xué)術(shù)論文是基礎(chǔ)科學(xué)研究的主要成果形式之一,其學(xué)術(shù)價值主要由創(chuàng)新性及創(chuàng)新度來衡量[2]。在知識爆炸的時代,科研論文產(chǎn)出數(shù)量持續(xù)攀升,給期刊、科研機(jī)構(gòu)以及研究者的工作帶來了挑戰(zhàn)。對于期刊而言,從大量投稿中選取創(chuàng)新價值高的學(xué)術(shù)論文,是推動期刊本身乃至整個學(xué)科發(fā)展的基本要求。對科研機(jī)構(gòu)和研究者來說,快速識別創(chuàng)新論文、準(zhǔn)確獲取創(chuàng)新觀點(diǎn)是把握領(lǐng)域研究前沿和選擇研究課題的迫切需求。然而,創(chuàng)新本身是復(fù)雜多樣的,難以界定和測度。同行評議作為最常用的學(xué)術(shù)評價手段,在對論文創(chuàng)新性的判斷中發(fā)揮著一定作用,但評審人的認(rèn)知偏差、思維慣性等因素會影響創(chuàng)新性評審的結(jié)果[3]?,F(xiàn)有研究開始探索基于內(nèi)容[4-5]的學(xué)術(shù)論文創(chuàng)新性評價方法。研究主題是論文的中心思想,是對內(nèi)容的高度凝練,同時也是體現(xiàn)論文創(chuàng)新性的重要特征之一[6]。
論文主題創(chuàng)新是對特定集合中研究主題進(jìn)行比較和分析而得出的結(jié)論,發(fā)表時間是需要考慮的關(guān)鍵因素之一[7]。Savov等認(rèn)為如果一篇論文的研究主題在未來幾年成為了研究熱點(diǎn),但在其發(fā)表以前并不流行,那么該論文具有創(chuàng)新性[8]。然而,對于特定領(lǐng)域的科學(xué)研究而言,未來研究熱點(diǎn)是未知的,但過去各個時期和現(xiàn)階段的流行主題是已知的?;诖?,本文擬從主題演化視角出發(fā),以情報學(xué)期刊論文為例,利用LDА主題模型結(jié)合SVM機(jī)器學(xué)習(xí)的方法,分析論文是在其主題成為流行之前還是之后發(fā)表的,依此來判斷論文的主題創(chuàng)新性。因為論文創(chuàng)新是一個相對的概念,所以這里的創(chuàng)新性是指論文發(fā)表時的主題創(chuàng)新性。本研究的意義在于:一方面,不局限于當(dāng)前的熱點(diǎn)主題與研究前沿,而是將視野拓展至情報學(xué)領(lǐng)域較長一段時期內(nèi)的主題創(chuàng)新性表現(xiàn)中,為期刊審稿與選稿、研究人員快速篩選高質(zhì)量論文與科研選題以及學(xué)術(shù)論文評價提供依據(jù)和支撐,進(jìn)一步豐富創(chuàng)新性論文的監(jiān)測手段。另一方面,由于現(xiàn)有的融合LDА與SVM的論文創(chuàng)新性評價方法聚焦于會議論文,主題較為明確和集中,相比之下期刊論文的主題更加多樣與多變,兩者的主題分布特征有較大差別。針對此問題,本文將研究對象拓展到特定學(xué)科領(lǐng)域的多種期刊中,擴(kuò)大論文主題創(chuàng)新性分析的范圍。
學(xué)術(shù)論文創(chuàng)新一般包括兩個層面的含義,即創(chuàng)新性與創(chuàng)新度。關(guān)于創(chuàng)新性和創(chuàng)新度,很難給出統(tǒng)一的界定。索傳軍認(rèn)為創(chuàng)新性是對論文創(chuàng)新情況的定性描述,學(xué)術(shù)論文是否具有創(chuàng)新性,可以根據(jù)論文內(nèi)容是否含有創(chuàng)新知識元來判斷[9]。Uzzi等認(rèn)為論文創(chuàng)新性是新的想法結(jié)合已有知識而產(chǎn)生的[10]。Heinze等認(rèn)為創(chuàng)新性研究體現(xiàn)在發(fā)現(xiàn)新現(xiàn)象、使用新方法、提出革命性新理論或從新角度整合現(xiàn)有理論[11]。與論文創(chuàng)新的定性判斷相對應(yīng)的便是定量判斷,即創(chuàng)新度。創(chuàng)新度可以理解為創(chuàng)新的水平或程度[12],需要采用量化計算方法進(jìn)行測度。不同學(xué)者提出了反映創(chuàng)新度高低的多種指標(biāo),如成果重復(fù)率和引用率[13]、創(chuàng)新知識元的數(shù)量[9]等??梢?,創(chuàng)新性和創(chuàng)新度分別是論文創(chuàng)新評價的兩個方面。本文將從創(chuàng)新性角度出發(fā),根據(jù)研究主題來識別創(chuàng)新論文。
國內(nèi)外學(xué)者探索了學(xué)術(shù)論文創(chuàng)新性評價的多個維度,分別對篇名、關(guān)鍵詞、句子、引文、主題、概念等不同要素進(jìn)行分析。比如,Shibayama等依據(jù)論文所引參考文獻(xiàn)的篇名之間的語義距離測度科學(xué)新穎性[14]。Uddin等綜合關(guān)鍵詞數(shù)量、長度以及新詞比例等指標(biāo)評價論文的創(chuàng)新性[15]。Tsai等通過比較不同文獻(xiàn)中句子的相似度對論文創(chuàng)新性進(jìn)行評價[16]。楊京等提取了能夠表征論文研究主題的關(guān)鍵詞,通過與前沿主題的對比測度主題新穎性[17]。任海英等利用主題詞共現(xiàn)網(wǎng)絡(luò)評價學(xué)術(shù)論文內(nèi)容的組合新穎性[18]。Hofstra從大量文檔中抽取了表示實(shí)質(zhì)性概念的術(shù)語,以新概念共同出現(xiàn)在論文中的數(shù)量作為論文創(chuàng)新性評價的依據(jù)[19]。Mishra等以論文中所提概念存在的時長,即“年齡”作為創(chuàng)新性測度的指標(biāo)[20]。這些創(chuàng)新性評價的維度有些是顯性的,有的是隱性的,它們分別從不同方面反映論文的創(chuàng)新。
在現(xiàn)有研究中,學(xué)術(shù)論文創(chuàng)新性評價的方法主要有兩種,即基于引用關(guān)系的評價和基于內(nèi)容的評價。其中,基于引用關(guān)系的評價會借助一些科學(xué)計量指標(biāo),如“互引比率”[21]、“S指數(shù)”[22]、“ Z-Score”[10]?;趦?nèi)容的評價主要借助自然語言處理,利用逆文檔頻率、相似度計算、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方法實(shí)現(xiàn)。例如,楊建林定義了帶時間戳的關(guān)鍵詞逆文檔頻率,來評價文檔主題的新穎性[23]。相似度計算方法在被用于論文創(chuàng)新性評價時,涉及了句子余弦相似度計算[16],基于Doc2Vec的文檔語義相似性計算[24],以及針對文獻(xiàn)主題的語義相似度度量[25]。除了傳統(tǒng)方法以外,Ghosal利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將文檔新穎性評價問題轉(zhuǎn)換為二分類問題,如果文檔相對于先前已知內(nèi)容有足夠多的新信息,將被機(jī)器判斷為具有新穎性[26]。
學(xué)術(shù)論文創(chuàng)新性評價方法的應(yīng)用領(lǐng)域、對象及目的是廣泛的。在現(xiàn)有的一些研究中,這些方法被用于高質(zhì)量論文篩選、科學(xué)活動效率評估、甚至是科研素養(yǎng)教育等多個方面。比如,謝珍等將文本內(nèi)容與引文網(wǎng)絡(luò)相結(jié)合的創(chuàng)新性測度方法用于學(xué)術(shù)論文代表作的遴選與評價中[27]。Dynich等基于模式匹配方法對論文中的新術(shù)語進(jìn)行分析,評估主題創(chuàng)新性,并將其作為科學(xué)活動效率評價的基礎(chǔ)[28]。Wang等采用科學(xué)論文組合新穎性測度方法,對論文的創(chuàng)新性與影響力之間的關(guān)系進(jìn)行了探索[29]。魏瑞斌等以博士論文為評價對象,基于主題樹與主題網(wǎng)絡(luò)分析論文標(biāo)題,測度論文的選題創(chuàng)新性,為同行提供選題參考[30]。也有學(xué)者利用專家打分法評價博士論文的總體與單項(選題、方法、理論等)創(chuàng)新性,分析與其相關(guān)的教育因素(在讀年限、學(xué)科門類),為提高研究生培養(yǎng)質(zhì)量提供參考[31]。
綜上所述,可以發(fā)現(xiàn)以下問題:從學(xué)術(shù)論文創(chuàng)新性評價的維度來看,雖然篇名、關(guān)鍵詞是對論文觀點(diǎn)的高度凝練,但大多僅能反映研究問題的創(chuàng)新性,不夠深入和全面。針對句子和概念的分析雖然更加細(xì)粒度,但現(xiàn)有研究大多以句子相似度、概念差異或新概念出現(xiàn)頻數(shù)為依據(jù)評價論文創(chuàng)新性,未能充分地利用語義關(guān)系。有學(xué)者通過挖掘論文主題并與現(xiàn)階段前沿主題對比來判斷創(chuàng)新性,然而主題是不斷演化的,因而并不能歷時動態(tài)監(jiān)測論文創(chuàng)新性。從學(xué)術(shù)論文創(chuàng)新性評價的方法來看,基于引用關(guān)系的評價忽略了內(nèi)容和時間因素,創(chuàng)新性評價的有效性較低。基于內(nèi)容的方法中,詞頻統(tǒng)計更多地反映研究熱點(diǎn)、相似度計算反映主題差異,并不適合直接用來判斷創(chuàng)新性。有學(xué)者利用深度學(xué)習(xí)將創(chuàng)新性評價問題轉(zhuǎn)換為簡單的二分類問題,但無法體現(xiàn)論文的創(chuàng)新點(diǎn)。從學(xué)術(shù)論文創(chuàng)新性評價方法的應(yīng)用來看,鮮有用于對特定學(xué)科領(lǐng)域論文主題創(chuàng)新性動態(tài)變化的研究中。
基于上述問題,本文將從以下角度分析。首先,明確論文創(chuàng)新性評價的依據(jù),即判斷論文主題是否涵蓋了未來的熱點(diǎn)主題;其次,因未來研究熱點(diǎn)具有未知性,所以從主題演化視角,將問題轉(zhuǎn)換為論文主題與過往或現(xiàn)有研究熱點(diǎn)的匹配,從而解決因主題演化無法動態(tài)評價論文創(chuàng)新性的問題。在研究方法的選擇上,結(jié)合LDА主題模型與SVM機(jī)器學(xué)習(xí)算法,對較長一段時期內(nèi)情報學(xué)中文期刊論文的主題創(chuàng)新性進(jìn)行評價,以期幫助同行篩選有創(chuàng)新價值的論文,提示研究主題過時的論文,促進(jìn)科研創(chuàng)新。
本文總體研究框架如圖1所示。首先,選取情報學(xué)領(lǐng)域代表性期刊,從中國知網(wǎng)采集期刊論文的篇名、摘要、發(fā)表年等數(shù)據(jù),對原始數(shù)據(jù)進(jìn)行清洗和預(yù)處理,具體包括刪除無關(guān)數(shù)據(jù)、中文分詞、去除停用詞、生成詞典等;其次,進(jìn)行LDА主題建模,對主題進(jìn)行識別并返回每篇論文的主題概率分布;之后,將數(shù)據(jù)集劃分為待評價的論文集和用于訓(xùn)練的論文集,以后者每篇論文的主題概率分布作為特征X,發(fā)表年作為標(biāo)簽Y,使用SVM進(jìn)行模型訓(xùn)練。然后,利用訓(xùn)練好的模型預(yù)測基于Platt scaling的年份類別隸屬度概率分布,在此基礎(chǔ)上計算待評價論文的創(chuàng)新得分,進(jìn)而識別出創(chuàng)新論文。最后,采用人工統(tǒng)計的方法,根據(jù)所有論文主題的年度分布情況劃分各主題研究高峰期,分析待評價論文是在高峰期前還是高峰期后發(fā)表的來判斷其創(chuàng)新性,并與基于SVM方法識別出的主題創(chuàng)新性論文進(jìn)行對比,驗證“LDА+SVM”評價結(jié)果的準(zhǔn)確性。與此同時,采用隨機(jī)森林、樸素貝葉斯方法進(jìn)行預(yù)測,與SVM的結(jié)果進(jìn)行對比,進(jìn)一步檢驗SVM的效果。
圖1 總體研究框架Fig.1 Research Framework
3.2.1 基于LDА模型的文檔主題識別
LD?。↙atent Dirichlet Аllocation)是 由“文 檔-主題-詞”組成的三層貝葉斯概率模型[32]。它能夠?qū)⑽臋n集合中每篇文檔以主題概率分布的形式給出,一篇文檔可以包含一個或多個主題。目前,LDА主題模型被廣泛應(yīng)用于文本主題識別、文本分類等自然語言處理領(lǐng)域。本研究需要基于主題分析論文的創(chuàng)新性,因此選擇LDА進(jìn)行主題建模。
主題個數(shù)是LDА模型中最重要的參數(shù),對潛在主題識別效果有直接影響,因此在建模之前需要確定最優(yōu)主題個數(shù)。Perplexity(困惑度)指標(biāo)常被用來度量一個概率模型預(yù)測樣本的好壞程度,一般認(rèn)為Perplexity數(shù)值越小越好。但其數(shù)值會隨著主題數(shù)的增多而遞減,當(dāng)主題數(shù)過多時,模型容易出現(xiàn)過擬合。R?der[33]提出了Cv Coherence(主題一致性)指標(biāo),是確定主題數(shù)目比較有效的方法,選擇依據(jù)是Cv Coherence值越大越好。本文將主要參考Cv Coherence指標(biāo)值,計算公式如下。
公式(1)先計算所有屬于給定主題的詞的余弦相似度,然后求其算術(shù)平均值。根據(jù)主題一致性檢驗的結(jié)果,設(shè)置最優(yōu)參數(shù)進(jìn)行LDА主題識別,對結(jié)果進(jìn)行可視化,并返回每篇論文的主題概率分布情況。
3.2.2 基于支持向量機(jī)的年份預(yù)測
支持向量機(jī)(SVM)屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),是一種兼具稀疏性與穩(wěn)健性的廣義線性分類器[34]。它可以進(jìn)行線性分類,也能通過核方法進(jìn)行非線性分類。目前,SVM已在人像識別、文本分類等領(lǐng)域得到了廣泛應(yīng)用。本文將文檔的主題概率分布作為特征值輸入SVM中,以發(fā)表年為標(biāo)簽值訓(xùn)練模型,實(shí)質(zhì)是一種文本多類別分類(Multiclass)任務(wù)。SVM最初是為二元分類問題設(shè)計,在處理多分類問題時需要構(gòu)造SVM多類分類器。常用的構(gòu)造方法是將多個二分類器進(jìn)行組合,包括one-versus-rest和one-versus-one。前者的思想是在訓(xùn)練時將其中一個類別的樣本看作一類,除此以外的其他樣本歸為另一類,從而針對原有的n個類訓(xùn)練出n個SVM。后者的思想是在任意兩個類別的樣本間設(shè)計一個SVM,這樣n個類可以訓(xùn)練出n(n-1)/2個SVM。兩者相比,1-v-r的方法存在正負(fù)樣本不均衡的問題,實(shí)用性不強(qiáng),因此本文選擇1-v-1的方法構(gòu)造多分類器。
在構(gòu)造SVM多分類器之前,將數(shù)據(jù)集劃分為待評價的論文集和用于模型訓(xùn)練的論文集。訓(xùn)練模型時采用十折交叉驗證,以得到可靠穩(wěn)定的模型。最后,利用訓(xùn)練好的模型預(yù)測待評價論文的發(fā)表年,利用Platt Scaling進(jìn)行概率校準(zhǔn)并輸出年份類別隸屬度概率分布。
3.2.3 融合LDА和SVM的論文主題創(chuàng)新性評價方法
根據(jù)Savov[8]提出的計算方法,一篇論文的主題創(chuàng)新性分值如公式(2)所示。其中,Yp是論文的實(shí)際發(fā)表年,conf(p,y)是SVM預(yù)測的該篇論文隸屬年份y的置信度,即采用Platt scaling得出的類隸屬度概率。如果S(p)大于0,表示該論文涵蓋了更多在它以后發(fā)表的那些論文的主題,被認(rèn)為其在發(fā)表時是具有創(chuàng)新性的,反之不具創(chuàng)新性。然而,只有在同一年發(fā)表的論文的S(p)可以直接比較。為了解決該問題,引入Y年發(fā)表論文的預(yù)測誤差ErrY。如實(shí)際在Y年發(fā)表的論文會被SVM預(yù)測到多個年份中,這些年份與Y的差值范圍為[m,n...z]。假定在所有待評價論文中,SVM預(yù)測年與實(shí)際年差值為m的有x篇,[m,n...z]范圍內(nèi)的共有sum篇,那 么Pr(ErrY=m)就 等 于m*(x/sum),E(ErrY)=Pr(ErrY=m)+Pr(ErrY=n)+...+Pr(ErrY=z)。因 此,每篇論文的最終創(chuàng)新性得分如公式(3)。S'(p)大于0為創(chuàng)新性論文,小于0為非創(chuàng)新性論文。
3.2.4 基于主題高峰期的論文創(chuàng)新性評價準(zhǔn)確性檢驗方法
本文基于SVM的論文主題創(chuàng)新性評價是在LDА主題建模的基礎(chǔ)上實(shí)現(xiàn),對原始語料進(jìn)行降維以后,將主題概率分布作為特征輸入訓(xùn)練好的分類器中,機(jī)器預(yù)測的結(jié)果理論上會落在各個主題集中分布的年份中。至于對論文主題創(chuàng)新性判斷的結(jié)果是否準(zhǔn)確,可以采用統(tǒng)計的方法進(jìn)行檢驗。具體過程為:根據(jù)LDА建模得出的每篇論文的主題概率分布情況,將論文歸到概率值最大的主題下,統(tǒng)計各個主題的年度分布情況。之后,區(qū)分出各個主題研究的高峰期,即主題流行的時段。比較待評價的論文是在其研究主題流行前還是后發(fā)表,以此判斷論文的創(chuàng)新性。最后,將統(tǒng)計的結(jié)果與機(jī)器預(yù)測的結(jié)果進(jìn)行對比,檢驗利用SVM模型自動識別創(chuàng)新論文的準(zhǔn)確性。計算公式如下:
其中,N(s'(p)>0)表示被評價為創(chuàng)新性的論文數(shù)量;N(s'(p)<0)表示被評價為非創(chuàng)新性論文的數(shù)量;e1為預(yù)測為創(chuàng)新,而實(shí)際可能并不創(chuàng)新的論文數(shù);e2為預(yù)測為非創(chuàng)新,但實(shí)際可能創(chuàng)新的論文數(shù),e1、e2實(shí)際上是判斷錯誤的論文數(shù);M為待評價的論文總數(shù)。
本研究以學(xué)術(shù)論文數(shù)據(jù)集的易獲取性與規(guī)范化為考量指標(biāo),選擇中國知網(wǎng)作為數(shù)據(jù)來源,以情報學(xué)領(lǐng)域的11種CSSCΙ期刊為例,包括《情報學(xué)報》《圖書情報知識》《圖書情報工作》《現(xiàn)代情報》《情報科學(xué)》《情報理論與實(shí)踐》《情報雜志》《情報資料工作》《圖書與情報》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》和《信息資源管理學(xué)報》。這11種期刊均具有較高的學(xué)術(shù)影響力,能夠全面反映情報學(xué)發(fā)展動態(tài)和各時期的研究熱點(diǎn)。檢索這些期刊2002-2021年發(fā)表的但不包括中圖分類號為G25(圖書館學(xué)、圖書館事業(yè))、G26(博物館學(xué)、博物館事業(yè))、G27(檔案學(xué)、檔案事業(yè))及下級類目的學(xué)術(shù)論文,以便將分析對象聚焦于情報學(xué)研究。之后,導(dǎo)出篇名、關(guān)鍵詞、摘要、出版年等信息,構(gòu)成原始語料集。完成數(shù)據(jù)采集后,對這些數(shù)據(jù)進(jìn)行清洗,去除投稿指南、會議通知、專題序等信息,同時將綜述類、書評類、評述類等文章抽出,對剩余的34,735篇研究型論文進(jìn)行分析。
每種期刊每年發(fā)表的論文數(shù)有所差異,而樣本不均衡會對后期分類模型的效果產(chǎn)生影響。為了消除此類干擾因素,本研究借助Python的Pandas庫,通過隨機(jī)抽樣方法,在34,735篇論文中每年抽取600篇,共獲得12,000篇進(jìn)行分析。同時,為檢驗隨機(jī)抽樣的可行性,本文按每年30%的比例抽取論文,并與上述抽樣方法進(jìn)行比較,結(jié)果未有明顯變化。最后,對摘要文本進(jìn)行分詞、去除停用詞操作。在分詞過程中,先將每篇論文中的關(guān)鍵詞抽出構(gòu)建自定義詞典,然后利用jieba.load_userdict()方法將其補(bǔ)充入中文分詞工具jieba中。去除停用詞時采用補(bǔ)充后的哈工大停用詞表,過濾標(biāo)點(diǎn)符號和無實(shí)際意義的詞。
對數(shù)據(jù)進(jìn)行預(yù)處理之后,本文利用Gensim庫訓(xùn)練LDА主題模型。在訓(xùn)練之前,先生成文檔對應(yīng)的字典和bow稀疏向量。訓(xùn)練時擬定在區(qū)間[1,100]內(nèi)的整數(shù)作為候選主題數(shù),通過調(diào)用CoherenceModel模塊下的get_coherence()方法,得到使用不同主題數(shù)訓(xùn)練出的主題一致性檢驗的指標(biāo)值,主題一致性檢驗得分值最高時,主題數(shù)為34,如圖2所示。因此,在設(shè)置模型參數(shù)時將num_topics設(shè)為34,訓(xùn)練時通過語料庫的次數(shù)passes為5,并設(shè)置隨機(jī)種子及其他必要的參數(shù)。進(jìn)行LDА主題識別后,借助pyLDАvis對結(jié)果進(jìn)行可視化,結(jié)果如圖3所示,左側(cè)的氣泡分布代表不同主題,右側(cè)是各個主題下的前30個特征詞,氣泡大小代表主題出現(xiàn)的頻率。從中可以看出,主題3、主題13、主題15、主題25出現(xiàn)的頻率較高,當(dāng)前圖譜展示的是第25個主題。現(xiàn)將每個主題及主要特征詞匯總,如表1所示。另外,由于LDА主題識別結(jié)果與使用的語料高度相關(guān),為檢驗利用抽樣數(shù)據(jù)的有效性,本文同時在全樣本數(shù)據(jù)上進(jìn)行了LDА主題建模,發(fā)現(xiàn)主題數(shù)為15時一致性檢驗得分值最高,主題數(shù)在15-35之間的一致性得分值相差不大,主題數(shù)超過35之后得分值遞減。但如果將主題數(shù)確定為15,顯然論文的主題區(qū)分度不大,在結(jié)合了困惑度指標(biāo)后,發(fā)現(xiàn)Perplexity值是持續(xù)遞減的(越低越好,但主題太多模型會過擬合),因此主題數(shù)在35左右較為合適。綜合對比之后,發(fā)現(xiàn)利用抽樣數(shù)據(jù)是合理有效的,且能在后續(xù)分類任務(wù)中保證樣本的均衡性。
圖2 Cv_coherence-topic折線圖Fig.2 Line Chart of Cv_Coherence-Topic
圖3 LDА主題模型可視化圖譜Fig.3 Visual Map of LDА Topic Model
從表1中可以看出,各個主題下的特征詞高度相關(guān),LDА主題識別結(jié)果較好。比如,主題1是網(wǎng)絡(luò)輿情及網(wǎng)絡(luò)謠言的危機(jī)預(yù)警與應(yīng)對機(jī)制研究;主題4是網(wǎng)絡(luò)用戶信息傳播與交流的機(jī)理,包括傳播模型、規(guī)律及信息演化路徑等相關(guān)研究;主題10是社交網(wǎng)絡(luò)用戶興趣偏好分析及個性化信息推薦研究;主題13是信息治理和數(shù)據(jù)治理的相關(guān)研究;主題21是基于網(wǎng)絡(luò)用戶評論內(nèi)容的情感分析相關(guān)研究;主題25是文本語義分析與文本挖掘等相關(guān)研究;主題30是情報學(xué)學(xué)科發(fā)展及其跨學(xué)科思考研究。對于每篇論文而言,LDА模型給出的結(jié)果是主題概率分布。表2中隨機(jī)列出了5篇論文的主題概率分布結(jié)果,論文一在主題1上的概率值最大;論文五在主題25上的概率值達(dá)到0.87。
表1 研究主題及主題特征詞Table 1 Research Topics and Thematic Feature Words
本文借助Python中的scikit-learn庫實(shí)現(xiàn)SVM算法。在進(jìn)行模型訓(xùn)練之前,將數(shù)據(jù)集劃分為待評價的論文集和用于模型訓(xùn)練的論文集。總的數(shù)據(jù)集是按發(fā)表年隨機(jī)排序的集合,從中選取2,000條數(shù)據(jù)作為待評價的論文集,剩下的10,000條作為模型訓(xùn)練的數(shù)據(jù)集。之后,采用one-versus-one的方法構(gòu)造SVM多分類器,輸入上述10,000條數(shù)據(jù)進(jìn)行訓(xùn)練。其中,分類器的核函數(shù)選擇高斯核函數(shù),超參數(shù)kernel='rbf',對于懲罰系數(shù)C和核函數(shù)的系數(shù)gamma兩個參數(shù)的取值,設(shè)置C=(0.1,1,10)、gamma=('auto',1,0.1,0.01),然后采用sklearn中的cross_val_score()函數(shù)進(jìn)行十折交叉驗證,結(jié)果顯示分類器性能最優(yōu)時的C=1,gamma='auto'。SVM模型訓(xùn)練好以后,輸入待評價的2,000篇論文的主題概率分布進(jìn)行預(yù)測,輸出經(jīng)Platt scaling計算得到的類隸屬度概率分布,如圖4所示,即第一篇待評價論文隸屬2002年的概率為0.081,隸屬2021年的概率為0.004。同時,輸出隸屬度概率最高的年份,并與實(shí)際出版年進(jìn)行對比生成混淆矩陣,如圖5所示,橫坐標(biāo)是論文的實(shí)際發(fā)表年,縱坐標(biāo)為預(yù)測的隸屬度概率最高的年份,方格中的數(shù)字代表論文數(shù)量。
圖4 SVM預(yù)測的類隸屬度概率分布(局部)Fig.4 Degree of Membership Probability Distribution(Local)of Class Predicted by SVM
圖5 實(shí)際發(fā)表年與預(yù)測的隸屬度概率最高年份對比熱度圖Fig.5 Heat Map of the Аctual Publication Year and the Year with the Highest Predicted Membership Probability
根據(jù)3.2.3中的論文創(chuàng)新性得分計算方法,需要統(tǒng)計出版年的預(yù)測誤差分布,如圖6所示?;诠剑?)和公式(3)計算每篇待評價論文的創(chuàng)新得分值。比如,對于第一篇論文而言,實(shí)際發(fā)表年是2010年,S(p)=-1.65;在所有待評價論文中,實(shí)際在2010年發(fā)表的論文被SVM預(yù)測的年份分布于[2002,2021]區(qū)間內(nèi),差值范 圍 為[-8,-7..11],E(ErrYp)=E(Err2010)=-8*64/1642+(-7)*(63/1642)+...+11*(17/1642)=-0.038。S'(p)=-1.65-(-0.038)=-1.61。計算出2,000篇待評價論文的創(chuàng)新性分?jǐn)?shù),四舍五入保留整數(shù)后大于0的為創(chuàng)新性論文(828篇),小于0的為非創(chuàng)新性論文(930篇),等于0的有242篇。表3為評價結(jié)果示例。
表3 論文主題創(chuàng)新性評價示例Table 3 Examples of Ιnnovative Evaluation of the Thesis Topic
圖6 出版年的預(yù)測誤差分布Fig.6 Prediction Error Distribution for Publication Year
為了檢驗利用SVM方法評價論文主題創(chuàng)新性的效果,本文根據(jù)LDА建模后每篇論文(所有抽樣論文)的主題概率分布,將論文歸到概率值最大的主題下,統(tǒng)計各個主題的年度分布情況,劃分每個主題的研究高峰期。高峰期劃分的依據(jù)是:以折線圖波峰位置前后驟增點(diǎn)和驟降點(diǎn)作為參照。比如,圖7展示了主題1、4、15、24、25中論文的年度分布情況??梢钥闯?,主題1在2015-2020年處于研究高峰期;主題4在2012年至今為熱門研究主題;主題15在2007-2010年間為流行主題;主題24和主題25分別在2006年以前、2019年至今處于研究高峰期。參照此種方法,本文統(tǒng)計了34個主題的研究高峰期,如表4所示。
圖7 5類主題的論文數(shù)量年度分布Fig.7 Аnnual Distribution of the Number of Papers on 5 Types of Topics
表4 34類主題研究高峰期Table 4 Peak Research Periods for 34 Types of Topics
可以看出,不同主題的年度分布情況呈現(xiàn)三種類型,第一種是每年發(fā)文量較少;第二種是每年有一定的發(fā)文量,但該主題沒有明顯的研究高峰期,年度分布整體呈現(xiàn)波浪式;第三種是每年有一定的發(fā)文,且該主題有明顯的研究高峰期。為了減少不確定因素,本文在后續(xù)對機(jī)器判斷結(jié)果進(jìn)行準(zhǔn)確性檢驗時,不考慮論文數(shù)量極少以及無法區(qū)分研究高峰期的主題。因此,從2,000條待評價論文中去除主題2、17、23、26、28、30、32、33、34下的論文后,剩余1,706條數(shù)據(jù)。
在1,706篇論文中,被SVM判斷為具有創(chuàng)新性的論文有725篇,非創(chuàng)新性的765篇。對照這些論文所屬主題的研究高峰期,如果論文是在高峰期后發(fā)表,則SVM判斷錯誤。高峰期有兩個及以上階段的,以前一階段為準(zhǔn)。經(jīng)過計算判斷錯誤的有80篇,即公式(4)中的e1,準(zhǔn)確率為88.97%。同理,如果被機(jī)器判斷為非創(chuàng)新性的論文,經(jīng)統(tǒng)計是在主題研究的高峰期以前發(fā)表的,則機(jī)器判斷錯誤。由此計算出e2為57,準(zhǔn)確率為92.55%。S'(p)值為0的有216篇。最后,根據(jù)公式(4)得出通過SVM方法識別主題創(chuàng)新性論文的整體準(zhǔn)確率為91.97%。
此外,為進(jìn)一步檢驗利用SVM方法判斷的效果,本文采用隨機(jī)森林、樸素貝葉斯兩種分類器與SVM進(jìn)行比較。具體方法為,通過sklearn.ensemble模塊導(dǎo)入RandomForestClassifier()構(gòu)造隨機(jī)森林分類器,通過sklearn.naive_bayes模塊導(dǎo)入MultinomialNB()構(gòu)造樸素貝葉斯分類器,并經(jīng)過交叉驗證設(shè)置超參數(shù)。最后,計算基于這兩個分類器對待評價數(shù)據(jù)集中論文創(chuàng)新性判斷的準(zhǔn)確性。其中,利用隨機(jī)森林評價的準(zhǔn)確率為83.31%;利用樸素貝葉斯評價的準(zhǔn)確率為89.62%,均低于SVM。
根據(jù)實(shí)證分析的結(jié)果,本研究的優(yōu)勢有以下幾點(diǎn):
(1)雖然通過論文主題與前沿主題的相似度計算也可以評價論文創(chuàng)新性,而對于前沿主題的揭示無論是基于共被引還是關(guān)鍵詞頻度,實(shí)際都是反映現(xiàn)階段的研究態(tài)勢,可用于判斷當(dāng)前時期論文的創(chuàng)新性。但就特定學(xué)科領(lǐng)域而言,其熱點(diǎn)主題是不斷演化的。比如,從表4可以看出,近年來文本挖掘、突發(fā)事件輿情應(yīng)急管理、社會事件中網(wǎng)民的信息參與、網(wǎng)民情感分析等為情報學(xué)領(lǐng)域的研究熱點(diǎn);5年前的研究熱點(diǎn)大致集中于用戶信息行為的影響因素研究、信息傳播與交流、學(xué)術(shù)影響力評價等方面;2010年以前,信息資源管理、信息系統(tǒng)設(shè)計、信息系統(tǒng)評價、競爭情報服務(wù)等為流行主題。不同時期論文創(chuàng)新性判斷的參照不同,本研究能夠識別情報學(xué)領(lǐng)域各個時期的創(chuàng)新主題與創(chuàng)新論文。
(2)本研究能夠識別情報學(xué)領(lǐng)域曾經(jīng)具有前瞻性的論文,這些論文的主題可能在現(xiàn)階段已不再流行,但仍具有較大的參考價值。從主題5(網(wǎng)絡(luò)信息安全)、主題13(國家信息治理與數(shù)據(jù)治理)、主題20(面向科技創(chuàng)新的專利信息服務(wù))來看,都是經(jīng)歷過研究高峰期后,近期又重新成為熱門主題。這與總體國家安全觀的引領(lǐng)以及國家科技創(chuàng)新戰(zhàn)略規(guī)劃密不可分。因此,科研人員可以在國家政策的導(dǎo)向下通過此方法挖掘過往一些前瞻性的論文,獲得新的啟發(fā)。
(3)本研究能夠識別情報學(xué)領(lǐng)域各個發(fā)展階段的熱點(diǎn)主題。因此,它可以與現(xiàn)有的基于共詞分析、引文分析、內(nèi)容分析等研究熱點(diǎn)分析方法相互補(bǔ)充,更為全面地呈現(xiàn)該領(lǐng)域多樣化的研究主題及其演變,深度揭示情報學(xué)發(fā)展態(tài)勢。
然而,該方法也存在一定的不足:因本研究缺乏未來的數(shù)據(jù),導(dǎo)致對近幾年論文的創(chuàng)新性判斷有很大的不確定性,只有時間才能證明這些論文所涵蓋的主題在未來是否會流行。后續(xù)可以考慮邀請專家對未來熱點(diǎn)進(jìn)行預(yù)測,進(jìn)一步驗證近期研究論文的主題創(chuàng)新性。
融合LDА和SVM方法用于評價情報學(xué)領(lǐng)域中文期刊論文的創(chuàng)新性所得到的啟示:在情報學(xué)發(fā)展的各個時期都有不同的創(chuàng)新主題,根據(jù)論文主題是否涵蓋后來研究熱點(diǎn)能夠有效識別當(dāng)下具有創(chuàng)新價值的論文,能夠為研究人員提供科研創(chuàng)新借鑒。此外,基于主題高峰期的評價結(jié)果檢驗也進(jìn)一步證明了該方法的準(zhǔn)確率,效果良好。
基于研究結(jié)論,本文提出以下建議:在學(xué)術(shù)資源檢索系統(tǒng)中,可以按照本方法增加學(xué)術(shù)論文主題創(chuàng)新性評價的功能模塊,為科研人員、期刊審稿人或評審專家提供個性化服務(wù)。一方面,面向科研人員,首先可以根據(jù)他們感興趣的研究主題,推薦該主題下各個時期具有創(chuàng)新價值的論文以供參考,使讀者從這些論文的前瞻性構(gòu)思中獲得新的啟發(fā);其次,以可視化形式呈現(xiàn)各個時期的研究熱點(diǎn)以及主題演變趨勢,幫助科研人員了解該領(lǐng)域的發(fā)展態(tài)勢,為他們的科研選題提供參考。除此以外,該功能模塊也允許用戶對自身階段性研究成果的主題創(chuàng)新性進(jìn)行評價,比如用戶上傳摘要,系統(tǒng)自動給出評價結(jié)果??蒲腥藛T可以根據(jù)評價結(jié)果調(diào)整研究選題或考慮從研究方法、理論等方面尋求突破。另一方面,該功能模塊能夠作為期刊論文評審的輔助工具,幫助期刊審稿人或評審專家從主題創(chuàng)新性角度對論文質(zhì)量進(jìn)行初步評估。
本研究的創(chuàng)新點(diǎn)在于:應(yīng)用一種從主題演化角度動態(tài)評價學(xué)術(shù)論文創(chuàng)新性的方法,識別出了情報學(xué)領(lǐng)域不同時期具有創(chuàng)新價值的中文期刊論文,為同行提供借鑒;此外,本文還提出了一種基于主題高峰期識別的方法對論文創(chuàng)新性評價的效果進(jìn)行了驗證。
本研究也存在一定的局限性。首先,對已有“LDА+SVM”方法的優(yōu)化效果并不明顯,未來將對算法進(jìn)行改進(jìn)并探索更優(yōu)的模型。其次,僅選擇11種代表性期刊進(jìn)行抽樣分析,未能覆蓋該領(lǐng)域的全部期刊論文,可能會對主題識別的充分性和SVM分類預(yù)測的結(jié)果產(chǎn)生一定影響,后續(xù)將選取更大范圍的數(shù)據(jù)進(jìn)行驗證,提高泛化性。最后,未對主題進(jìn)一步區(qū)分,之后將通過構(gòu)建細(xì)分領(lǐng)域術(shù)語集的方法,實(shí)現(xiàn)對細(xì)分主題的創(chuàng)新性評價。
作者貢獻(xiàn)說明
曹樹金:確定選題,提出研究思路,設(shè)計研究方案,修改論文;
曹茹燁:數(shù)據(jù)收集與分析,論文撰寫與修改。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲,Email:421973288@qq.com。
1.曹茹燁.Paper abstract data.xlsx.論文摘要數(shù)據(jù).
2.曹茹燁.Paper topic probability distribution generated by LDА.xlsx.LDА主題建模后生成的論文主題概率分布數(shù)據(jù).
3.曹茹燁.SVM classification prediction data.xlsx.SVM分類預(yù)測數(shù)據(jù).