李雅倩 孫玉玲 趙婉雨
1. 中國科學院文獻情報中心 北京 100090
2. 中國科學院大學經濟與管理學院圖書情報與檔案管理系 北京 100049
隨著科學研究第四范式的興起,數據驅動下的科學研究正從知識層下沉到數據層,制定科技發(fā)展計劃和相關政策需要緊隨科研動態(tài)。文獻作為知識流動的重要載體,是識別學科主題的重要數據來源。面對海量文本數據,如何科學有效地從中發(fā)掘新興研究主題,是科研管理者和科研人員研究方向布局和調整的重要參考依據[1]。同時,學科主題發(fā)展具有“慣性”與“相關性/延續(xù)性”,即學科主題時間序列變化發(fā)展具有延續(xù)性并且是相互聯(lián)系的,一定時期內存在可預測的發(fā)展變化規(guī)律。新興主題的識別和趨勢預測,有助于科研工作者了解研究動態(tài),有利于基金資助組織和決策者優(yōu)化創(chuàng)新資源分配,進一步促進有發(fā)展?jié)摿Φ难芯糠较虻陌l(fā)展。
與新興主題相似的概念較多,諸如熱點主題、前沿主題和顛覆式主題等,并由此演化出一般創(chuàng)新主題、新興前沿主題和科學前沿等概念,在研究和應用中容易出現(xiàn)概念邊界的模糊不清[2]。H. Xu等計量“新興主題”相關概念族群的研究熱度和發(fā)展趨勢,指出族群概念間存在差異和交叉,相比于前沿主題和顛覆式主題等,學者們對于新興主題的研究興趣增長更快[3]。新興主題相關概念的差別主要體現(xiàn)在時間維度和創(chuàng)新維度,熱點主題、新興主題和前沿主題在時間指向上,分別表征過去、現(xiàn)在和未來的重要研究主題,其創(chuàng)新程度隨時間發(fā)展逐漸增強,預測難度也逐漸增大[4]。
在新興主題的識別方法上,學者們主要利用共詞分析[5]、引文分析[6]和文本挖掘分析[7]等相關技術方法,從科學文獻中提取和識別新興主題。近幾年,針對新興主題特征的討論越來越多,大多數學者聚焦于文獻的外部歷史性特征,如文本主題的歷史演化和引用情況等,而對于未來發(fā)展趨勢的考慮較少[8]。王山[2]認為,新興主題代表著研究領域的未來趨勢,對其趨勢的分析解讀尤為重要。隨著相關研究熱度持續(xù)增長,識別方法也日益多元化和科學化,但是在新興研究主題的明確概念定義與擬定的可操作性指標之間仍然缺乏良好的聯(lián)系[9]。因此,如何挖掘新興主題與特征之間的關聯(lián)關系,采取有效的特征方案,通過構建科學嚴謹的預測模型和使用合適的分析方法進而提取長期關聯(lián)變量,可以為新興主題識別提供一些參考。筆者從新興主題的全面特征出發(fā),利用自然語言處理和時間序列趨勢模型方法,綜合分析文本和特征數據,進行新興主題識別及特征關聯(lián)分析。
新興主題識別可以及時跟蹤科學發(fā)展動態(tài),盡早捕捉相關領域未來的發(fā)展契機和可能的變化趨勢[10]。梳理新興主題概念和識別方法研究,相關進展大致可分為3類:面向新興主題定義及其特征的研究討論、面向新興主題識別方法的融合創(chuàng)新和面向主題趨勢分析的綜合運用。
1965年,D. J. De Solla Price[11]開創(chuàng)性地定義了研究前沿,認為這是一種處于正在成長階段的新穎性研究。新興主題起源于對研究前沿的關注[12],在新興主題完整概念提出前,主題特征識別處在萌芽階段,主要表現(xiàn)為采用多指標計量進行特征識別,如R. L. Ohniwa等[12]認為主題詞增長性和豐富性是表征新興主題的重要信息;Y. N. Tu等[13]認為新穎性和研究熱度是新興主題最顯著的特征。
2015年,D. Rotolo等[14]對新興技術主題提出了全面的特征定義,考慮到技術和科學的差異性,Q. Wang[15]對新興主題進行了定義,即新興主題是具有新穎性和一定連貫性、能產生較大科學影響力且發(fā)展速度相對較快的主題,其4個主要的特征分別為:新穎性、增長性、一致連貫性和科學影響力。伴隨完整概念的提出,新興主題特征分析邁入新階段。H. Xu等[3]提出針對新興主題的多維科學計量指標評價方案,其中,新穎性和增長被認為是新興主題的最重要指標,這兩個指標被視為閾值指標,在確保新穎性和增長的前提下,考慮了對社會和經濟以及對社區(qū)網絡結構的顯著影響的潛力。新興主題的研究價值來源于其未來的增長潛力或科學影響潛力[2]。S. Xu等關注新興主題的未來趨勢,通過分析主題特征走勢并預見新興的研究主題[9]。新興主題特征定義被提出后,新興主題研究取得了新的進展,一方面有關學者不斷探索新的定義以及新的識別方法,另一方面一些學者致力于開發(fā)一系列的識別指標[3]。
經過不斷發(fā)展和創(chuàng)新,新興主題識別方法經歷由單一方法到機器學習、文本挖掘等多元化方法的融合。H. Small[16]首次提出利用共引識別新興主題,C. Chen[17]將引文與詞法分析結合,聯(lián)合引文分析和爆破檢測識別新興主題。文本挖掘可以細粒度地挖掘大規(guī)模語料庫中的文本關系特征[18],M. Blei等先后提出的主題模型[19]和動態(tài)影響模型[20]等,可根據概率突發(fā)和關聯(lián)規(guī)則識別領域新興主題[21],獲得了較為廣泛的使用。
近年來,學者們在文本挖掘方法的基礎上,探索基于新興主題特征的多維特征的識別方法。李靜等根據內外部文本特征構建新興主題綜合識別公式[22];白敬毅等[23]將主題新穎性、增長性、影響力等特征指標依次賦權疊加,利用多維尺度繪制主題分布矩陣識別新興主題;S. Xu等[9]利用動態(tài)影響模型提取主題結構及增長性和影響力等指標,使用多任務最小二乘支持向量機區(qū)分不同主題的特征表現(xiàn)等。如能融合多維特征構建綜合識別方案,將有助于更好地實現(xiàn)新興主題識別。
在新興主題識別的研究中,越來越多的學者關注到主題的趨勢特征。A. Kontostathis等[24]觀測詞頻趨勢判定新興主題;C. Lee等[25]使用多層神經網絡來捕獲一定時段內關聯(lián)指標間的非線性關系,開發(fā)了兩個衡量主題趨勢的定量指標。針對主題時間序列數據,岳麗欣等利用 ARIMA(Autoregressive Integrated Moving Average model)模型分別預測了熱點主題[26]和主要研究主題[27]的未來趨勢;劉自強等[28]運用ARDL模型度量主題趨勢和擴散滯后效應,可見,時間序列分析方法已經取得了一些應用。
目前新興主題概念及特征已經較為清晰,雖然不少學者考慮到趨勢因素,但主要為了對研究現(xiàn)狀進行分析解讀,而對未來趨勢變化的預測稍顯不足。在新興主題識別中,普遍采用綜合識別公式等方法,一定程度上壓縮了主題特征,對主題特征的動態(tài)變化過程有待進一步研究。筆者在Q. Wang等[15]提出的新興主題基本定義的基礎上,加入時間序列分析對主題趨勢進行預測,作為潛在高成長性特征,結合全局主成分分析,從全領域視角分析各個主題的特征水平,系統(tǒng)地構建影響力和增長性的綜合評價指標體系,結合時間序列方法進一步分析主題成分的動態(tài)特征,以對相關領域主題的特征表現(xiàn)情況及其深層次的關系進行剖析。
筆者提出的新興主題識別與分析框架主要分為4個部分(見圖1)。針對文本數據,利用LDA主題識別生成主題時間序列,結合ARIMA模型和全局主成分量化主題特征,構建新興主題識別方案。在新興主題識別的基礎上,綜合采用面板協(xié)整分析和格蘭杰因果推斷,挖掘觀測變量間的長期關系和關聯(lián)效應,分析新興主題及其特征的長期關聯(lián)關系。
圖1 研究技術路線
筆者主要使用python語言進行摘要文本數據分詞、清洗和詞形還原,在與作者關鍵詞、文章關鍵詞合并去重后,通過LDA主題模型獲取主題概率分布。選擇主題數量為1-175個的模型,經一致性比較和人工核驗,確定最優(yōu)主題數量。根據主題模型導出分布結果,計算主題各維度數據。
目標領域主題的發(fā)展存在多種多樣的外在體現(xiàn),筆者從新興主題定義出發(fā),確定了基于新興主題特征的量化指標識別體系,即在一致連貫性和新穎性指數基礎上,采用ARIMA模型對主題未來成長潛力的預測結果,聯(lián)合影響力和增長性特征時序立體表進行創(chuàng)新的全局主成分分析,刻畫主題發(fā)展的動態(tài)特征與綜合表現(xiàn),綜合各維度特征完成新興主題的識別,如圖2所示:
圖2 新興主題多維特征識別體系
3.2.1 未來高成長性
未來高成長性是指主題在未來具有良好的發(fā)展?jié)摿?。本文主要采用ARIMA模型,從主題強度數據出發(fā)預測其未來趨勢。ARIMA(p,d,q)模型包括AR過程、MA過程和差分整合過程,內含3個主要參數分別為:p為自回歸項數,d為平穩(wěn)差分階數,q為滑動平均項數[31]。ARIMA模型可以表示為:
在公式(1)中,L是滯后算子,d∈整數,d>0。
3.2.2 新穎性
新穎性的度量是新穎主題識別的關鍵部分。Y. N. Tu等[13]利用發(fā)文時間測算新穎性指數。白敬毅等[23]增加主題生命周期理論,定義新穎性,如公式(2)所示:
其中,t為主題生命周期,F(xiàn)Y為主題初次出現(xiàn)年份??紤]到濕地領域存在長生命周期主題,為保證區(qū)分度采用主題平均年齡,計算公式為:
3.2.3 一致連貫性
一致連貫性是指主題已經出現(xiàn)一段時間,且擁有持續(xù)穩(wěn)定發(fā)展的趨勢。Q. Wang等[15]將主題連貫性定義為主題鏈接的松散程度,通過領域內引文數與發(fā)文數量之比(一致性指數)來測量,并將閾值取為1。S. Xu[9]認為連貫性取決于主題提取方法是否可以確保提取的主題足夠連貫。白如江等[29]認為,可以通過時間切片,在連續(xù)時間區(qū)間達到設定標準的主題,即為滿足連貫性要求。本文綜合采用相鄰時間劃片以及一致性指數計算方法,度量一致連貫性特征。
3.2.4 科學影響力及增長性
科學影響力評估范式包括數量、質量和效果論,涉及研究成果產生條件、呈現(xiàn)載體和傳播3個維度,以及研究強度、研究績效、研究支撐能力、研究機構多樣化程度和研究成果的傳播能力等指標[30]。對于新興主題科學影響力的分析存在單一和多種指標的情況,如Q. Wang等[15]利用主題被引次數計算科學影響力;G.González-Alcaide等[31]分析研究主題領域文獻發(fā)布情況、合作者特征(作者、機構和國家)和施引文獻等影響傳播特征,評估研究成果在研究領域的影響。本研究立足于科學影響典型評價范式,選擇引文數量、作者數量、機構規(guī)模以及學科豐富性等作為科學影響力的綜合觀測指標。
主題增長是一個增量的概念,可以從多個角度來衡量,如Q. Wang等[15]采用發(fā)文數量增長,H. Guo等[32]分析突發(fā)關鍵詞、作者數量以及跨學科性等特征變化。結合相關研究內容,兼顧指標的實用性和可獲得情況,筆者圍繞主題影響力和增長性兩方面的內涵,主要選擇能夠體現(xiàn)主題使用熱度、研究參與熱度、研究關注熱度和研究增長情況方面的指標,在通過全局主成分分析的適宜性檢驗后,最終選取主題強度、主題引用、主題作者、主題機構和學科數量5項主題影響力評價指標,以及主題增長評價的5個增量指標,包括主題強度增長率,主題文獻引用增長率、作者增長率、機構增長率和學科增長率,通過時序全局主成分分析得到評價綜合影響力和綜合增長性的兩個主成分。針對主題特征的綜合分析涉及多維面板數據的處理。全局主成分分析在處理此類數據上可以保留主題的動態(tài)特征,更具穩(wěn)健性和代表性[33]。
具體指標計算方法如下:
(1)主題引用指標。筆者認為,主題引用指標(Topic Citation,TCI)可以反映主題所擁有的關注度和傳播熱度,計算公式如下:
(2)主題作者數量指標。主題作者數量(Topic Author index ,TAT)指標測量的是某特定年份下,參與某個主題研究的學者的規(guī)模,也能在一定程度上反映出主題的熱度。計算公式如下:
(3)主題學科數量指標。主題學科數量(Topic Category index,TCG)可以反映出主題學科跨度和學科交叉程度,筆者在增長性等指標設計上增加學科交差性等指標。計算公式如下:
(4)主題機構數量指標。主題機構數量(Topic Institution index,TIS)可以反映出學術機構對該領域的參與度,這也能反映出機構的研究方向選擇和支持力度。該指標越大說明科研機構中在該主題下的布局越多。計算公式如下:
(5)主題強度指標。主題強度(Topic Indensity,TI)反映科技文獻數據的研究熱度,由各個文檔的主題及其權重分布計算得到。B.Chen等[34]研究發(fā)現(xiàn),研究主題k在t時間的主題強度TIk,t,計算公式為:
(6)增長性的度量。增長性體現(xiàn)在引文增長、作者增長、機構規(guī)模擴大TI以及不同學科的匯集等方面,其度量方式為相鄰時間數據的變化。通過計算,得到TI-G、TIS-G、TCI-G、TCG-G和TAT-G,分別表征相應特征的增長。以主題強度增長為例,度量公式為:
增長性的計算方案如圖3所示:
圖3 主題強度增長計算演示
為了深度挖掘目標領域新興主題發(fā)展的內在發(fā)展規(guī)律,本研究采用主題特征關聯(lián)分析方法。2003年諾貝爾獲獎者C. W. J. Granger提出基于“預測”的協(xié)整分析與格蘭杰因果檢驗方法,對變量間的長期作用關系提出統(tǒng)計學上的檢驗,判斷變量間的因果關聯(lián)關系[35]。對于包含截面?zhèn)€體特征與時間維度變化特征的面板數據,C. W. Kao等提出面板協(xié)整檢驗的方法[36],E. I. Dumitrescu和C. Hurlin[37]拓展了面板數據格蘭杰因果關系的檢驗方法,從而可以更好地分析自變量與被解釋變量的關聯(lián)效用作用機制。針對新興主題特征關聯(lián)效應的分析,本研究主要采用上述方法。
筆者利用“濕地”領域研究論文數據開展實證分析,在Web of Science平臺核心合集的SCIE數據庫(SCI-Expanded)和SSCI數據庫(Social Sciences Citation Index)中進行檢索。梳理濕地的不同類型和表達,并利用相關關鍵詞設計檢索策略,將標題、摘要、作者關鍵字和關鍵字作為識別字段,以TI=((wetlands or wetland or “wet land” or “wet lands” or marsh or swamp* or peatland* or “peat land*”or bog or bogs or mire or mires or fen or fens or everglade* or mangrove*)) not TS=(“swamp crayfish*” or “marsh sandpiper” or “marsh mallow” or “marsh harbour”)作為檢索式進行主題檢索,檢索年代范圍限制在2000年1月1日到2020年12月31日,檢索時間為2020年9月,選取文獻類型為“article”和“review”的文章,共計檢索得到濕地領域相關文獻24 449篇。論文年度分布情況見圖4,態(tài)勢發(fā)展良好,增量穩(wěn)步上升。
圖4 濕地領域文獻數據
筆者利用python進行主題識別,選擇主題數量為1-175個的模型,綜合比較困惑度(perplexity)和一致性的表現(xiàn)。其中,困惑度是利用概率計算某個主題模型在測試集上的表現(xiàn),其值越低,則說明這個主題模型越好。困惑度分析結果表明,困惑度指標區(qū)分度不顯著。C_v、U_mass、C_npmi和 C_uci coherence 均為一致性指標,衡量主題內詞語之間是否為相互支撐關系,在一致性指標結果中,主題數目為26個時最優(yōu),見圖5。
圖5 主題一致性可視化
通過分詞和主題模型等自然語言處理后導出主題—關鍵詞分布,得到濕地領域的26個研究主題(見表1)。結合人工判讀并翻譯,濕地領域包括人工濕地再生、濕地生態(tài)監(jiān)測、環(huán)境氣候變化響應、濕地污染成分分析、濕地生物多樣性保護、濕地氣體排放通量模型與監(jiān)測、退化濕地系統(tǒng)恢復、濕地循環(huán)系統(tǒng)分析、區(qū)域濕地管理、濕地恢復標準技術和濕地生態(tài)防護等主題。
表1 濕地領域研究主題—關鍵詞列表
續(xù)表1
4.3.1 一致連貫性分析
為了檢測濕地領域主題的一致連貫性,通過時間劃片并計算2016-2020年和2011-2015年的主題一致性指數,結果見圖6。主題一致連貫性指數的橫坐標代表主題序號,縱坐標代表主題一致性指數計算結果。相鄰時間區(qū)間內主題一致性指數均遠高于設定閾值,說明利用主題模型確定的26個研究主題連接緊密,滿足一致連貫性要求。
圖6 主題一致連貫性指數
4.3.2 潛在高成長力分析
針對潛在高成長力,筆者通過構建ARIMA模型來預測主題未來趨勢。為避免潛在的自相關和異方差問題,預先對數據進行對數化處理,然后進行平穩(wěn)性檢驗。檢驗類型上,分為趨勢截距(c,t)、無趨勢有截距(c,0)和無趨勢無截距(0,0)3種類型,根據顯著性確定檢驗類型,平穩(wěn)性檢驗結果見表2。在主題強度序列中,進行差分處理后,主題1、5、6、12、21和23序列穩(wěn)定,其余均為平穩(wěn)序列,因此可以建模。
表2 主體強度序列檢驗結果
經過單位根檢驗,PCF圖、PACF圖定階,結合信息準則(即AIC、SC和HQ最小個數最多原則)和參數比較,確定了ARIMA模型形式。由于建模期間過程數據較多,下面僅以表3展示最終模型參數定階結果,并以主題5為例,展示建模流程。
表3 ARIMA時間序列模型搭建
如圖7所示,主題5自相關圖3階截尾,偏自相關圖1階截尾,模型參數p應取0-3階,參數q應取0-1,可能存在8種可能的組合。通過信息準則比較,確定了模型的最優(yōu)形式(見圖8)。據此展開主題趨勢擬合和預測分析,圖9左側為基于ARIMA模型擬合的2000-2018年主題強度走勢,呈現(xiàn)增長;右側為Topic5未來5年主題走勢預測結果,表現(xiàn)平穩(wěn)。
圖7 主題5建模PAC和PACF圖
圖8 主題5模型信息準則及參數
圖9 主題5基于ARIMA的趨勢擬合預測
4.3.3 影響力和增長性分析
時序全局主成分分析利用綜合變量來取代原有的全局變量,能抓住主要影響特征[38]。通過計算2001-2018各年度度量指標,得到260×18的時序數據表,共4 680條數據,指標間存在相關性(見圖10)。為消除量綱的影響,采取標準化處理,巴特利球度檢驗統(tǒng)計量為9 135.283,p值接近0,KMO檢驗值大于0.7,適合主成分分析。
圖10 影響力和增長性各成分相關性分析
計算全局主成分分析的初始解及因子解情況,依據特征值大于1的原則,選取主成分F1和F2,二者分別攜帶43.375%和32.519%的原始數據信息。第一主成分中5項影響力指標均為正值且有較大的載荷,構成影響力綜合因子。第二主成分更多地反映了主題增長性情況,構成增長性因子。
利用成分得分系數得到兩類主成分的解析表達式,如下所示:
根據累計貢獻度歸一化處理,計算綜合評價指標權重,可以進一步得到新興主題影響力和增長性綜合評價的表達式,如下所示:
為了更好地解釋主成分的現(xiàn)實意義,可以通過數據標準化和各主成分得分計算觀察主題二維分布情況,如圖11所示。主題7、13、16、23、24、25和26等呈現(xiàn)出高增長與高影響的協(xié)同發(fā)展效應,表現(xiàn)高增長新興主題可以取得更多的科學影響力;主題1、2、4、5、6、10、11、12、14、18、19和21等,其增長性和影響力呈現(xiàn)出一定的替代效應;主題3、8、9、12和15等分布接近原點,影響力和增長性特征發(fā)展較為穩(wěn)定。
圖11 濕地領域主題增長性及影響力因子動態(tài)分布
4.3.4 新興主題識別結果
綜合濕地領域主題各維度的特征,可以發(fā)現(xiàn):①通過主題模型計算得到的26個主題均滿足一致連貫性特征的要求。②潛在高成長性分析結果顯示,在2000-2018年里,主題強度大部分呈現(xiàn)平穩(wěn)或上升的態(tài)勢;在未來5年中,主 題 5、6、7、9、13、14、15、16、17、18、22、23、25和26擁有顯著的潛在高成長力,預計發(fā)展態(tài)勢向好。③新穎度方面表現(xiàn)良好的主題包括主題 2、7、9、11、12、13、15、16、17、23和25。④聯(lián)合分析增長性和影響力,主題 3、7、13、16、17、23、24、25和 26擁 有具有較好的特征表現(xiàn)。
新興主題多維識別結果如圖12所示,結果表明,在濕地領域符合新興主題定義的主題為主題7、13、15、16、17和25,即退化濕地系統(tǒng)恢復、濕地微生物基因研究、濕地物質平衡/濕地生態(tài)補償、濕地定量勘查研究、濕地菌群系統(tǒng)治理分析和濕地生態(tài)對氣候變化響應分析。
圖12 新興主題特征維度分析
新興主題具有發(fā)展成為未來熱點主題的趨勢[39],是前沿主題孵化的基床[40]。在新興主題識別的基礎上,深度挖掘新興主題關聯(lián)特征的長期關系,可以更好地認識新興主題,具有一定的現(xiàn)實意義。
本文立足于科學評價體系,選取能反映研究強度、研究績效、研究機構多樣化程度和成果傳播能力的主要計量指標,針對新興主題組成的面板數據,進行主題特征(包括引文特征、作者特征、機構規(guī)模以及學科豐富性等)關聯(lián)分析。為規(guī)避可能存在的異方差情況,對數據進行對數化處理后,完成LLC平穩(wěn)性檢驗,其中,主題多學科特征存在單位根過程,即一階單整,其余變量均為零階單整。
由于采用的數據并非同階單整,需要經協(xié)整檢驗確定長期穩(wěn)定關系。在Kao-test協(xié)整檢驗中,原假設為主題強度與主題特征數據不存在協(xié)整關系。根據DF和調整的ADF等5個檢驗統(tǒng)計量的顯著性比較,結論均為拒絕原假設(見表4),即存在協(xié)整關系,主題強度序列與主題各維度外部特征之間存在長期穩(wěn)定關系,可以對觀測變量進行進一步的因果關系分析診斷。
表4 Kao-test協(xié)整檢驗
根據協(xié)整方程可得:主題機構的增長、主題作者數量的增長和主題被引頻次的增加,與主題強度在長呈現(xiàn)正向的均衡關系;主題學科豐富性的增加與主題強度在長期呈現(xiàn)負向的均衡關系,如表5所示:
表5 協(xié)整方程
格蘭杰因果檢驗是一種預測能力的檢驗,其基本原理為:假設變量甲和乙間存在互相影響,如果甲的滯后期變量對乙有顯著影響,那么甲是乙的格蘭杰原因,反之則反[41]。確認主題強度與各維度特征之間存在協(xié)整關系后,由于作用方向不明,筆者首先利用Pvar模型確定最優(yōu)滯后階數為3,接著采用A. Juodis等[42]提出的格蘭杰因果檢驗方法對變量的外生性進行檢驗,確定主題各維度特征對主題強度是否擁有解釋能力,若無則需調整。
原假設為被解釋變量主題聯(lián)合維度特征對主題強度無顯著性影響,檢驗結果見表6,機構、作者、引用和學科豐富性對主題強度的三階滯后項對主題強度的影響顯著性水平有所差異,但其聯(lián)合作用的臨界值小于0.05,說明4個變量的聯(lián)合變化是主題強度變化的內生因素。為研究變量之間具體的因果關系,筆者進行進一步的格蘭杰因果檢驗,結果見表7。
表6 格蘭杰外生性檢驗
表7 Granger因果關系檢驗結果
分析表7Granger因果關系檢驗結果,可得出如下結論:
(1)對于濕地領域的新興主題而言,主題強度和主題機構數量、主題作者數量之間存在雙向的格蘭杰因果關系。這說明,領域內研究學者的增長促進了領域新興主題的發(fā)展,主題強度的增長也吸引了新的一批學者展開相關的研究,結果驗證了集群效應,說明人才發(fā)展與主題發(fā)展屬于相輔相成的主動模式。這從側面反映出濕地領域相關研究支持機構制定研究激勵政策的有效性,在未來發(fā)展學科主題時應考慮項目為先、人才為本的執(zhí)行思路。
(2)在濕地領域中,主題強度和主題學科豐富性數量、主題引用間存在單向的因果關系,即主題強度的良好發(fā)展是主題學科豐富性的原因,但學科豐富性不是主題強度良好發(fā)展的原因;主題強度增長是主題引用頻次增加的原因,而主題引用頻次增加是主題強度變化的原因。其現(xiàn)實含義為,主題強度對主題豐富性有著單方面作用,主題強度隨著時間發(fā)展而不斷擴張,促進了濕地領域學科的多元化發(fā)展;然而,濕地領域學科豐富性的發(fā)展并沒有明顯優(yōu)化主題強度的增長,這說明,通過促進學科豐富性的增加并不能夠直接地促進該領域主題強度的良性發(fā)展,在濕地領域內盲目追求學科豐富性,可能導致主題分散化較為嚴重,難以做到“大而精”。此外,引用情況在一定程度上代表著主題關注度的轉移,主題強度增長對于引用的拉動作用在短期內因果關系不顯著,反觀主題引用頻次對主題強度發(fā)展的影響,可以發(fā)現(xiàn),引用頻次增加對主題強度發(fā)展的促進效果顯著,是該領域主題強度發(fā)展的“風向標”。
從論文數據中,筆者提出了一套基于新興主題特征的識別與關聯(lián)分析方法。在特征提取方面,結合新興主題相關理論與實踐,在新穎性等方面做出了改良,加入潛在高成長性指標,并針對影響力和增長性選取了較為全面的特征考量方案。本研究通過主題模型提取研究主題與主題分布,采用趨勢預測模型與分析方法分析主題未來趨勢,結合全局主成成分析刻畫主題增長性和影響力動態(tài)發(fā)展路徑,根據主題綜合表現(xiàn)情況完成新興主題的識別。為更好地識別新興主題,筆者利用協(xié)整分析和格蘭杰因果檢驗,針對新興主題的特征關聯(lián)關系進行挖掘,研究發(fā)現(xiàn),主題強度與機構數量、作者規(guī)模間存在雙向的關聯(lián)效應,主題引用頻次對主題發(fā)展存在正向的影響,主題強度對主題多樣性產生單向的促進作用,由此,筆者提出應堅持項目為先、人才為本的創(chuàng)新政策執(zhí)行思路,以及關于如何發(fā)展新興主題的一些思考。筆者在特征科學性和識別全面性上進行了反復考量,綜合選用自然語言處理、多元統(tǒng)計分析和時間序列分析方法,確定了新興主題識別與特征分析方法,該方法對于客觀認識領域內研究主題動態(tài)、展開科研布局決策等具有一定的參考價值。
筆者提出的新興主題識別分析方法主要從科學文獻角度展開,由于新興主題是一個領域內研究內容的全面特征,其研究價值體現(xiàn)在科技、政策和經濟等各個方面,而文獻只是反映研究主題創(chuàng)新變化的一個重要對象,除科學文獻外,還包括政策文本和專利數據等研究對象。因此,未來研究可以嘗試將多源文本融合進行綜合的新興主題識別研究。