劉自強 岳麗欣* 朱承寧 劉春江
(1.南京師范大學新聞與傳播學院,江蘇 南京 210023;2.中國科學院成都文獻情報中心,四川 成都 610041;3.中國科學院大學經(jīng)濟與管理學院,北京 100190)
隨著計算機和互聯(lián)網(wǎng)技術的不斷進步,全球范圍內科學研究和經(jīng)濟社會獲得了新的發(fā)展契機,大數(shù)據(jù)、深度學習等新興技術加速了世界各國(地區(qū))邁向數(shù)據(jù)科學時代。數(shù)據(jù)科學時代,知識創(chuàng)新過程必須依賴科學研究與技術研發(fā)活動的有效開展,知識創(chuàng)新往往來源于現(xiàn)有學術成果的融合、重組和升華,但是當前學術成果數(shù)量爆發(fā)式增長,知識創(chuàng)新主體在研發(fā)活動中的機會和選擇更加復雜。
在此背景下,世界各國(地區(qū))科技創(chuàng)新活動已然呈現(xiàn)出新特征,科技情報分析與研究的問題往往更為綜合,涉及要素更為多元的同時也更為細化,導致單一數(shù)據(jù)不能滿足分析的要求。研究前沿識別、熱點發(fā)現(xiàn)、科技評價等工作都需要在充分搜集多種數(shù)據(jù)的基礎上進行分析,以便為科技創(chuàng)新決策提供更有力的情報支撐。但是,現(xiàn)有研究大都針對論文數(shù)據(jù)[1-2],部分研究者關注利用多種數(shù)據(jù)(基金項目、論文等科技文獻)[3-4],但缺少對不同數(shù)據(jù)內在關聯(lián)的考慮。基金項目、論文等科技文獻之間存在著直接或間接關聯(lián)關系,厘清這些關系對于把握研究主題擴散演化(科學知識流動)規(guī)律,促進研究前沿識別、新興趨勢檢測等科技情報分析實踐工作具有重要意義。
在目前研究的基礎上,本文提出一種基金項目和論文主題擴散演化路徑識別及可視化方法,旨在定量、可視化識別基金項目和論文研究主題之間的擴散演化路徑,輔助探索科學知識在基金項目和論文數(shù)據(jù)之間的流動規(guī)律,以期能夠應對不斷深化的科技情報分析需求,為科研人員選題、企業(yè)科技研發(fā)和科研管理部門制定戰(zhàn)略規(guī)劃等提供一定的參考、借鑒。
無論是波普爾提出“偽證主義”(亦稱批判理性主義)的科學發(fā)展模式理論,還是庫恩提出的基于范式理論的科學發(fā)展模式,都是從科學發(fā)展的宏觀層面上用不同的形式描述了科學研究內容的發(fā)展演化過程[5]。從主題演化的角度來看,科學發(fā)展是新研究主題不斷產(chǎn)生和舊研究主題不斷消失的過程,同時包含著研究主題的交叉和融合。波普爾通過《科學發(fā)現(xiàn)的邏輯》《猜想與反駁:科學知識的增長》和《客觀知識:一個演化論的研究》等著作系統(tǒng)論述了科學哲學論,并且較為全面地闡述了“證偽主義”[6]和“三個世界”[7]學說,他在研究中指出,知識的發(fā)展同生物的進化有著驚人的相似[8],客觀知識發(fā)展、進化是通過非自然的、非自發(fā)的或人為的選擇進行的,具有遺傳、繼承、變異等特征[9-10]。庫恩在《科學革命的結構》一書中提出科學發(fā)展模式理論[11-12],從歷史主義方法論出發(fā),以范式為核心概念,采用四段圖式(問題—猜想—反駁—新的問題)表示科學發(fā)展模式,認為科學發(fā)展是一個革命過程并永無止境不斷發(fā)展,逐漸向真理逼近,并將科學范式定義為“某一學科領域的共同約定”。
科技文獻作為科學知識的主要載體,其中蘊含的文本內容(主題詞、主題等)會隨著科學領域的發(fā)展發(fā)生動態(tài)關聯(lián)演變:在某一段時期來看,科學知識結構趨于穩(wěn)定,整體研究處于相對穩(wěn)定的漸進式發(fā)展,伴隨著少量新詞、新主題的出現(xiàn)、關聯(lián)和消失等現(xiàn)象;在較長時期來看,科學發(fā)展的基本模式就是知識的產(chǎn)生、發(fā)展、成熟、消亡的動態(tài)過程,也可以認為是研究主題的動態(tài)演化過程[13]。通過上述分析可知,某學科領域發(fā)展過程中基金項目、論文等科技文獻中蘊含的研究主題的發(fā)展演化過程同樣符合科學發(fā)展模式理論,在某一短時期來看,研究主題作為某學科領域中近期產(chǎn)生的、受到研究者關注的科學知識不會憑空產(chǎn)生,而是來源于前期研究內容的交叉、融合和延伸,因此,基金項目和論文主題擴散演化路徑識別在理論上來講是可行、合理的。
由于科學技術的發(fā)展是連續(xù)的、累積式的,作為研究內容概括性描述的研究主題,在時間維度會呈現(xiàn)出一定的隱性脈絡和路徑,可以通過定量計算、數(shù)據(jù)挖掘和可視化等技術方法將對這些主題演化路徑進行識別、揭示。為有效揭示特定學科領域的主題演化路徑并進行可視化,國內外研究者提出了眾多卓有成效的方法。
Rosvall M等基于沖積圖設計了一種關鍵詞社區(qū)演化可視化方法,首先利用關鍵詞聚類識別學科主題,然后以不同顏色的條帶表示主題演化路徑[14]。微軟亞洲研究院網(wǎng)絡圖形組的Cui W等利用直觀的流式圖形可視化表示主題演化路徑,能夠有效揭示主題演變趨勢、關鍵事件和關鍵詞相關性[15]。王曉光等提出了一種新的學科主題演化路徑識別與可視化方法,并研發(fā)設計了相應的軟件工具Neviewer(一款基于共詞網(wǎng)絡的學科主題演化過程可視化分析軟件),能夠以沖積圖可視化主題演化路徑[16],后續(xù)部分研究者使用該工具進行了學科領域主題演化路徑可視化實證研究[17-19]。劉自強等進行了多維度視角下的學科主題演化路徑可視化研究,以人工標注方法對關鍵詞進行語義角色分類,然后通過聚類算法識別主題并設計了3種科學知識圖譜進行可視化分析[20]。岳麗欣等提出了領域核心研究主題演化路徑可視化方法,利用主題河流圖展示主題演化過程,通過對我國醫(yī)療健康信息領域的實證驗證了方法的可行性和有效性[21]。王康等以時間加權修正后提取的關鍵詞為知識單元,在關鍵詞、關鍵詞關聯(lián)和主題關聯(lián)3個階度進行科學主題演化路徑可視化分析,以圖書情報領域大數(shù)據(jù)研究論文為研究對象進行了實證研究,指出該方法框架能夠展示各主題之間的融合、擴散、突現(xiàn)、消亡等復雜關系[22]。
概括來說,當前研究主要基于單一論文或專利數(shù)據(jù)進行學科領域主題演化路徑識別與可視化研究,缺乏對基金項目和論文等不同科技文獻數(shù)據(jù)隱含主題關聯(lián)的考慮,特別是定量、可視化揭示基金項目、論文主題擴散、流動路徑問題有待于進一步探索,該問題的解決對于促進研究前沿識別、新興趨勢檢測等科技情報分析實踐工作具有重要意義。
因此,針對現(xiàn)有研究中的不足,本文提出基金項目和論文主題擴散演化路徑識別及其可視化方法,基于LDA主題模型識別基金項目和論文中的研究主題,利用余弦相似度算法構建主題演化路徑,并基于Web前端可視化技術設計基金項目和論文主題演化路徑可視化方案,從而提升主題演化路徑可視化結果的準確性和可讀性,最終通過實證研究驗證該方法的可行性和有效性。
基金項目和論文主題擴散演化路徑可視化方法框架,主要可以分為數(shù)據(jù)獲取與預處理、主題識別、主題關聯(lián)構建和主題演化路徑可視化4個步驟,如圖1所示。
圖1 方法步驟
第一步,數(shù)據(jù)獲取與預處理。該步驟主要是獲得所需的科技文獻數(shù)據(jù)集,本研究中需要獲取基金項目和論文數(shù)據(jù),一般通過數(shù)據(jù)庫公司和國家(地區(qū))、機構的在線檢索系統(tǒng)獲取。預處理階段主要是為了對上一步中獲取到的基金項目和論文數(shù)據(jù)進行數(shù)據(jù)清洗、文本預處理等,進而有效提高基金項目和論文數(shù)據(jù)的質量,為下一步主題識別奠定數(shù)據(jù)基礎。
第二步,基金項目和論文主題識別。首先根據(jù)檢索得到的基金項目和論文數(shù)據(jù)進行時間窗口劃分,即根據(jù)數(shù)據(jù)的時間標簽劃分到不同時間窗口下。然后利用LDA主題模型分別識別不同時間窗口下的基金項目和論文主題。
第三步,基金項目和論文主題關聯(lián)構建。基金和論文主題關聯(lián)構建是分析基金與論文主題擴散演化路徑的關鍵步驟,LDA主題模型雖然能夠識別各個時間窗口下的主要研究主題,但無法直接計算相鄰時間窗口下基金項目和論文主題的關聯(lián)關系,本文利用余弦相似度算法計算主題相似度來構建基金項目和論文主題的關聯(lián)關系。
第四步,基金項目和論文主題演化路徑可視化。本文基于Javascript語言的Web前端可視化技術進行基金項目和論文主題擴散演化路徑可視化圖譜制作,具體利用D3.js工具基于桑基圖樣式設計可視化方案,以有效可視化揭示基金項目和論文主題擴散演化路徑。
下面對主要步驟進行具體介紹:
數(shù)據(jù)獲取階段的主要目標是獲得所需的科技文獻數(shù)據(jù)集,本研究中需要獲取基金項目和論文數(shù)據(jù),主要包括以下步驟:首先,選擇合適的數(shù)據(jù)庫,根據(jù)研究需求明確檢索策略、構建檢索式,包括檢索方式、檢索詞、檢索范圍、檢索數(shù)據(jù)類型等。然后,根據(jù)檢索式從數(shù)據(jù)庫中檢索文獻并獲取所需字段,保存至本地以備后續(xù)研究使用。
數(shù)據(jù)預處理階段的主要目標是對上一步中獲取到的基金項目和論文數(shù)據(jù)進行關鍵字段抽取、清洗、加工,從而提高數(shù)據(jù)質量,保證后續(xù)數(shù)據(jù)處理步驟的順利進行,主要包括以下步驟:首先,對獲取到的基金項目和論文初始數(shù)據(jù)(可能存在數(shù)據(jù)不完整、數(shù)據(jù)重復、數(shù)據(jù)值為空等)進行清洗。然后,將獲取的基金項目和論文文本進行去除標點符號、數(shù)字剔除、過濾停用詞、構建詞袋等數(shù)據(jù)預處理步驟,以提高基金項目和論文數(shù)據(jù)的質量,為下一步主題識別奠定數(shù)據(jù)基礎。
LDA模型最早由Blei D M等提出[23-24],與潛在語義索引[25](Latent Semantic Analysis,LSA)、概率性潛在語義索引[26](Probabilistic Latent Semantic Analysis,pLSA)模型相比,不僅可以得到訓練集文本的主題分布,還可以準確得到非訓練集文本的主題分布,目前廣泛應用于科學與技術主題識別相關研究中[27-29]。本研究具體使用Python的Gensim工具包進行基金項目和論文主題識別。其中,LDA主題模型的聯(lián)合分布概率如式(1)所示。
(1)
其中,M為文檔數(shù)目,K為主題數(shù)目,N表示第m個文檔的單詞數(shù)目,θ為參數(shù)α的Dirichlet分布采樣,z表示主題,w表示主題詞,φ為參數(shù)為β的Dirichlet分布采樣。
數(shù)據(jù)庫中提供的基金項目和論文數(shù)據(jù)在文本結構、數(shù)據(jù)特征上既有聯(lián)系又有區(qū)別,比如:題名、項目主持人(作者)、摘要等是基金項目和論文數(shù)據(jù)共有的字段,但是關鍵詞、參考文獻等字段是論文數(shù)據(jù)所獨有的。其中題名、摘要是兩者共有的關鍵文本字段,所以,本文在篩選基金項目和論文數(shù)據(jù)中提名、摘要等共有文本字段基礎上,基于LDA模型進行基金項目和論文主題識別。
基金和論文主題關聯(lián)構建是分析基金和論文主題擴散演化路徑的關鍵步驟,LDA主題模型雖然能夠識別各個時間窗口下的主要研究主題,但由于某學科領域的各個研究主題并不是孤立的,特別從科學研究的延續(xù)性、繼承性角度來看,學科領域內各個主題之間應該存在或明顯或隱含的聯(lián)系,而這種聯(lián)系可以通過研究主題文本內容來反映,即如果某兩個研究主題包含大量相同的文本內容(大量重復的主題詞),說明這兩個主題之間具有一定的知識關聯(lián),因此,本文通過計算研究主題的文本相似性來構建基金和論文主題的關聯(lián)關系。
目前,文本相似性計算主要有基于字符串(String-based)、語料庫(Corpus-based)和知識(Knowledge-based)的方法等,其中,基于字符串的方法也稱作“字面相似度方法”,以字符(Character-Based)串或詞語(Term-Based)的共現(xiàn)和重復程度為相似度的衡量標準[30]等,由于研究主題主要由若干主題詞組成,所以研究者主要利用余弦相似度、Dice系數(shù)、漢明距離、歐式距離等基于字符串的文本相似度計算方法進行主題關聯(lián)構建。
本文擬利用余弦相似度算法計算主題相似度,即通過計算主題之間相似度來判定基金和論文主題之間的關聯(lián)關系。具體步驟:①向量空間模型(Vector SpaceModel,VSM)構造,由于主題由若干主題詞組成(上一步LDA主題識別結果),因此可以將各個研究主題表示成向量,先將主題表示為Topic={w1,w2,w3,…,wn};②主題向量計算,兩兩計算研究主題向量的余弦相似度(介于0和1之間,值越大表示兩個主題越相似),基于余弦距離的主題相似度計算方法,見式(2):
(2)
其中,分子表示兩個向量的點乘積,分母表示兩個向量的模的積,權重w由主題詞概率表示。
基金和論文主題之間的擴散演化是一個較為抽象的過程,僅憑研究者肉眼觀測數(shù)據(jù)難以對其進行分析,在具體研究,如何定量、準確地分析基金與論文主題的擴散演化過程十分關鍵,因此,為有效分析某學科領域基金和論文研究主題之間擴散演化的復雜過程,本文基于Javascript語言的Web前端可視化技術,對基金和論文關聯(lián)的主題擴散演化路徑可視化設計,設計目的是可視化描繪基金和論文主題之間的擴散演化時序脈絡并揭示其中的主要路徑,以期基于可視化技術對基金與論文關聯(lián)的主題擴散演化過程進行定量化、可視化揭示,幫助后續(xù)研究中快速消化、理解其關鍵路徑。
其中,基金與論文關聯(lián)的主題擴散演化路徑可視化中存在兩個關鍵問題:
1)基金與論文主題的位置分布。通過對比垂直分布與水平分布,具體采用從左至右的水平分布方式展示基金與論文主題時序變化過程,可以根據(jù)關聯(lián)主題在基金和論文路徑上分布時間的先后,發(fā)現(xiàn)主題擴散演化的具體方向以及時差。
2)基金與論文主題的關聯(lián)閾值。為了防止主題擴散演化路徑可視化圖譜顯示不清晰、雜亂,需要根據(jù)具體情況設定主題關聯(lián)閾值,即將關聯(lián)度高于一定閾值的基金主題和論文主題判定為存在關聯(lián)關系構建演化脈絡。
本文設計的基金項目與論文主題擴散演化路徑可視化方案,后端數(shù)據(jù)為主題關聯(lián)數(shù)據(jù),主題關聯(lián)數(shù)據(jù)主要由主題數(shù)據(jù)、時間標簽和關聯(lián)路徑(主題相似度)數(shù)據(jù)構成,網(wǎng)頁前端接收后端的主題關聯(lián)數(shù)據(jù)進行可視化。下面對后端數(shù)據(jù)的3種基本屬性:節(jié)點、路徑(邊)和時間標簽進行具體介紹,如表1所示。
表1 主題關聯(lián)數(shù)據(jù)
在主題數(shù)據(jù)、時間標簽和關聯(lián)路徑(主題相似度)數(shù)據(jù)基礎上,為展示基金與論文關聯(lián)的主題擴散演化路徑的復雜過程,本文基于Javascript語言的Web前端可視化技術對主題擴散演化路徑可視化進行設計,關鍵設計代碼及其說明如表2所示。
表2 關鍵設計代碼
代碼處理思路是首先根據(jù)后端提供的主題數(shù)據(jù)、時間標簽和關聯(lián)路徑(主題相似度)數(shù)據(jù)轉換為繪制桑基圖所需要的數(shù)據(jù);然后利用這些數(shù)據(jù)結合SVG元素(rect)繪制矩形節(jié)點,結合路徑元素(path)可以繪制主題擴散演化路徑,基本圖譜樣式如圖2所示。
圖2中,橫坐標表示時間窗口Time;縱坐標表示主題,并分為了上下兩個部分,所有的論文主題lwTn位于下部分,所有的基金項目主題nsfTn位于上部分;矩形表示主題,灰色連接表示擴散演化路徑,粗細由主題相似度決定。
圖2 基金項目和論文主題擴散演化路徑可視化基本圖譜
為了驗證本文提出的基金項目和論文主題擴散演化路徑可視化方法的可行性、有效性,以美國納米農(nóng)業(yè)領域為例進行實例驗證。目前,納米農(nóng)業(yè)領域相關理論、方法與技術在學術界、企業(yè)界和國家(地區(qū))間受到了廣泛關注(產(chǎn)生了大量科技文獻數(shù)據(jù),數(shù)據(jù)可獲取),此外,采用納米技術與新材料等前沿科技推動農(nóng)業(yè)科技原始創(chuàng)新,有利于實現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展,對于我國未來的加速發(fā)展有著重大的戰(zhàn)略意義。
1)基金數(shù)據(jù):選擇美國國家自然科學基金委員會(National Natural Science Foundation,NSF)數(shù)據(jù)庫作為基金數(shù)據(jù)檢索數(shù)據(jù)源。NSF數(shù)據(jù)庫收錄歷年來資助的基金項目數(shù)據(jù),包括資助基金項目的題名、摘要、資助時間、資助金額和項目主持人等關鍵信息。本文為準確、全面獲取美國納米農(nóng)業(yè)領域的基金數(shù)據(jù),通過領域專家的介入、指導構建了檢索策略。
具體采用高級檢索方式,檢索式主要為(篇幅所限,部分檢索式)TI=((“molecul*motor*” OR “molecul*ruler*” OR “molecul*wir*” OR “molecul*devic*” OR “molecular engineering” OR “molecular electronic*” OR “single molecul*” OR fullerene*OR buckyball OR buckminsterfullerene OR C60 OR “C-60” OR methanofullerene OR metallofullerene OR SWCNT OR MWCNT OR “coulomb blockad*” OR bionano*OR “l(fā)angmuir-blodgett” OR Coulombstaircase*OR “PDMS stamp*” OR graphene OR “dye-sensitized solar cell” OR DSSC OR ferrofluid*OR “core-shell”)NOT nano*)AND TS=(breed*or dry farm*or irrigat*farm*or soil improv*or irrigat*ditch*or irrigat*channel or weed*or plough*or fallow*or harrow*or plant*or plantout*or seed*or sow*or graft*or reap*or mow*or ensile*)and TS=AGRICULTURE AND AD=USA。
時間范圍:資助時間(EffDate)為2000年1月1日—2019年12月31日;檢索日期:2020年1月11日;導出格式:全紀錄,XML格式。
2)論文數(shù)據(jù):選擇Web of Science(WOS)數(shù)據(jù)庫作為論文檢索數(shù)據(jù)源。WOS數(shù)據(jù)庫收錄自然科學、工程技術等諸多領域內的近萬種學術期刊,包括題名、作者、關鍵詞、摘要和參考文獻等關鍵信息,是目前進行相關研究的主要數(shù)據(jù)源。本文為準確、全面獲取美國納米農(nóng)業(yè)領域的基金數(shù)據(jù),通過領域專家的介入、指導構建了檢索策略。
具體采用高級檢索方式,檢索式主要為(篇幅所限,部分檢索式)TS=(nano*)AND TS=(Farm*or husbandry*or animal*husbandry*or animal*breed*or dairy*farm*or crop product*or market garden*or planting industry*or arboricult*or silvicultur*or livestock*or horticultur*or livestock*or agricultur*product*or farm*product*or foodstuff*or dairy*produc*or dairy product*)and(SU=AGRICULTURE or TS=AGRICULTURE)。
國家限定:USA;文獻類型:Article;時間范圍:出版年份(Publication Year)為2000年1月1日—2019年12月31日;檢索日期:2020年1月11日;導出格式:全記錄,TXT格式。
根據(jù)上述檢索策略對美國納米農(nóng)業(yè)領域的基金和論文數(shù)據(jù)進行檢索、獲取,共得到基金數(shù)據(jù)1 074條,論文數(shù)據(jù)5 068條。按照年度時間窗口進行統(tǒng)計,得到基金和論文數(shù)據(jù)的時間分布、比例及其增長趨勢情況,如圖3所示。
圖3 美國納米農(nóng)業(yè)領域基金和論文數(shù)據(jù)情況
由圖3分析可知,美國納米農(nóng)業(yè)領域的基金和論文數(shù)量總體呈穩(wěn)定增長趨勢,雖然論文數(shù)據(jù)在2019年略有回落,但整體呈現(xiàn)上升態(tài)勢,說明美國納米農(nóng)業(yè)研究領域受到美國政府和研究人員的重視,并且正處于快速發(fā)展階段。
3)數(shù)據(jù)預處理:數(shù)據(jù)清洗的目的是對后續(xù)主題識別所需的題名、摘要等文本字段進行清洗與規(guī)范,從而有效保證數(shù)據(jù)清洗的效果質量,保證后續(xù)數(shù)據(jù)處理步驟的順利進行。美國納米農(nóng)業(yè)領域基金和論文的數(shù)據(jù)清洗工作主要包括以下步驟:首先,對獲取到的基金項目和論文初始數(shù)據(jù)(可能存在數(shù)據(jù)不完整、數(shù)據(jù)重復、數(shù)據(jù)值為空等)進行清洗,進行刪除包含空值的記錄、格式變換、去重、去雜和精簡日期信息只保留年份等操作后,得到所需的基金項目和論文數(shù)據(jù)集。然后,將獲取的基金項目和論文文本進行去除標點符號、數(shù)字剔除、過濾停用詞、構建詞袋數(shù)據(jù)預處理等步驟,以提高基金項目和論文數(shù)據(jù)的質量,為下一步主題識別奠定數(shù)據(jù)基礎。
美國納米農(nóng)業(yè)領域基金和論文主題識別,旨在識別蘊含在基金和論文中的主要研究主題。首先,將上一步數(shù)據(jù)預處理得到美國納米農(nóng)業(yè)領域待分析數(shù)據(jù)集,按照年份劃分到20個時間窗口下,然后,基于LDA模型分別對不同年份美國納米農(nóng)業(yè)領域的基金和論文數(shù)據(jù),具體利用Python的Gensim工具包進行LDA主題識別。
具體利用一致性模型CoherenceModel函數(shù)計算主題最優(yōu)個數(shù),并結合人工判讀確定最終主題個數(shù),分別確定各個時間窗口下的基金和論文主題數(shù)量,然后基于LDA模型對美國納米農(nóng)業(yè)領域的基金和論文文本進行主題識別,最后得到20個時間窗口(2000年—2019年)下基金和論文的主題識別結果數(shù)量分布情況,如表3所示。
由表3分析可知,經(jīng)過LDA模型處理20個時間窗口下的美國納米農(nóng)業(yè)領域基金和論文文本,得到基金主題131個,論文主題228個。其中,2019年論文主題及其下位主題詞識別結果,如表4所示,限于篇幅基金和論文主題及其下位主題詞,在文中一一展示美國納米農(nóng)業(yè)領域基金和論文主題識別結果。
表3 基金項目和論文主題數(shù)量時間分布
表4 美國納米農(nóng)業(yè)領域論文主題—主題詞結果(2010年部分)
在美國納米農(nóng)業(yè)領域基金項目和論文主題識別結果基礎上,利用cosine余弦相似度算法計算進行主題關聯(lián)構建。具體過程是:首先,將各個時間窗口下的主題表示成短文本;然后,利用cosine余弦相似度算法兩兩計算主題文本的相似度(取值范圍為0≤sim≤1),得到初始主題相似度結果后去除相似度為0的主題對,由于本小節(jié)主要分析基金和論文主題之間的擴散演化關系,從而幫助揭示出基金和論文主題的相互影響,因此篩選出基金——論文主題對,且將主題關聯(lián)的時間間隔設定為5年,即基金和論文主題的時間差異≤5年;最后,選擇合適的主題相似度閾值(防止基金與論文主題關聯(lián)過多掩蓋真實、有效的演化關聯(lián)),最終確定相似度閾值γ為0.39,即基金主題和論文主題相似度大于0.37判定為同一主題在基金和論文之間發(fā)生擴散演化關聯(lián),最終得到1735個基金和論文主題關聯(lián)構建結果,部分結果如表5所示。
表5 基金與論文主題關聯(lián)構建結果(部分)
表5中,sim表示基金和論文主題相似度結果(結果已保留小數(shù)點后兩位),nsf-time和nsfT分別表示基金項目主題的時間標簽和主題標號,同理,lw-time和lwT分別表示論文主題的時間標簽和主題標號,滯后時間表示基金和論文主題擴散演化的時間間隔。
本文將利用上述美國納米農(nóng)業(yè)領域基金和論文主題關聯(lián)構建結果進行主題擴散演化路徑可視化分析,利用本文設計的基金項目和論文主題擴散演化路徑可視化方案,加載美國納米農(nóng)業(yè)領域基金和論文主題關聯(lián)構建結果,進行可交互的主題擴散演化可視化圖譜繪制(可以在線訪問),以輔助具體內容維度的基金項目和論文主題擴散演化路徑分析,具體可以細分為5個滯后窗口(滯后1年—滯后5年窗口,指基金項目主題和論文主題擴散演化的時差),圖中基金主題(nsfTn)向論文主題(lwTn)的擴散演化路徑添加了黃色標記,可交互版本已上傳網(wǎng)站https://www.informationscience.top/agriculture/nsflw.html。部分結果如圖4所示。
圖4 美國納米農(nóng)業(yè)領域基金和論文主題擴散演化路徑可視化結果
在分析圖4的基礎上,選取納米顆粒在農(nóng)作物代謝過程中誘導應激機制為樣例主題,分析該主題的主要內容在基金項目和論文數(shù)據(jù)中的擴散演化過程。
納米顆粒在農(nóng)作物代謝過程中誘導應激機制,值得關注的主題詞有:nanoparticle、crop、cellular、cyanobacterium、iron、polymer、Oxidative、cell、surface、metabolic、stress、interaction、plant、impact、bioenergy等。該研究主題關注生物納米粒子在農(nóng)作物細胞水平上的獨特作用及其對工業(yè)有用分子生產(chǎn)的影響,全面了解TiO2和Fe等金屬納米顆粒在農(nóng)作物中的作用,將對推進生物能源、環(huán)境安全修復、納米聚合物和生物傳感等多個方向的發(fā)展具有深遠的意義。
該主題起源于基金項目主題nsfT1(2000)在2001年向論文主題lwT0(2001)和論文主題lwT4(2001)擴散演化nsfT1(2000)——lwT4(2001),隨著研究的拓展和深化,該主題不斷在基金項目和論文中擴散、融合和交叉,逐漸發(fā)展出多條子路徑,其中,TiO2和Fe等納米粒子由于其高度的化學反應性而吸附在農(nóng)作物細胞表面,并能產(chǎn)生氧化應激導致代謝變化是一個重要路徑nsfT0(2002)——lwT1(2003)。此外,零價鐵納米顆粒如何誘導氧化應激,并影響光合色素沉著、蛋白質調節(jié)和脂質分布相關研究主題也是一條重要路徑nsfT2(2008)——lwT2(2009)。涉及的研究內容主要有:評估納米顆粒誘導的應力對農(nóng)作物細胞中活性氧和色素積累的影響;利用大數(shù)據(jù)分析破譯納米處理二倍體中的抗氧化酶的差異蛋白質調節(jié);綜合二維氣相色譜分析和傅里葉變換離子回旋共振質譜分析獨特的脂肪酸甲酯和極性脂質。此外,金屬和金屬氧化物納米顆粒對全球重要糧食作物生長和生理的影響有關研究也屬于該主題的主要演化路徑lwT5(2018)——nsfT8(2019):由于納米顆粒產(chǎn)品需求的增加,工程金屬和金屬氧化物納米顆粒(NPs)的濃度在環(huán)境中增加,金屬和金屬氧化物NPs影響重要農(nóng)作物的生長、產(chǎn)量和質量,NPs改變了礦物營養(yǎng)、光合作用并引起了氧化應激,誘導了農(nóng)作物的基因毒性。在低NPs毒性下抗氧化酶的活性增加,而在作物中更高的NPs毒性下降。由于農(nóng)作物對NPs的接觸,NPs濃度在不同的植物部位,包括可能轉移到食物鏈中的水果和谷物增加,對人體健康構成威脅。大多數(shù)NP對生理、形態(tài)、生化和分子水平的作物都有正面和負面的影響。NPs對作物植物的影響隨著農(nóng)作物種類、生長階段、生長條件、方法、劑量和NPs暴露的持續(xù)時間以及其他因素而變化很大,TiO2和Fe等納米粒子被認為是優(yōu)異的吸附劑和高效的光催化劑,能夠降解農(nóng)作物中蘊含大量的全有機氯及其毒性代謝產(chǎn)物。
通過對近20年美國納米農(nóng)業(yè)領域基金項目和論文數(shù)據(jù)的實證研究,在一定程度上可以驗證本文提出方法的可行性和有效性。此外,與現(xiàn)有學科領域主題演化路徑可視化分析方法相比,本文提出的基金項目和論文主題擴散演化路徑可視化分析方法,不僅能夠分析單一數(shù)據(jù)的主題演化過程,還能夠有效識別基金項目和論文主題之間的擴散演化路徑并實現(xiàn)演化路徑的可視化,可在一定程度上提高主題擴散演化路徑結果的直觀性和可讀性;此外,由于該圖譜基于Web前端可視化設計,因此具有可交互、直觀等特點,并且適用于處理海量數(shù)據(jù),相較于本地軟件工具更加具有拓展性。
本文在調研總結現(xiàn)有學科領域主題演化路徑可視化方法的基礎上,提出了基金項目和論文主題擴散演化路徑識別及其可視化方法,可以用來分析某學科領域的基金項目和論文主題之間的擴散演化路徑。創(chuàng)新之處主要有兩點:一是研究探索了基金項目和論文等不同科技文獻主題擴散演化路徑;二是利用Web前端技術實現(xiàn)了對基金項目和論文主題隱含關系的定量化、可視化揭示。最后以美國納米農(nóng)業(yè)領域近20年的基金項目和論文數(shù)據(jù)為例進行了實證研究,繪制了交互式美國納米農(nóng)業(yè)領域基金項目和論文主題擴散演化路徑可視化圖譜并進行了解讀分析,證明了本文提出的方法是可行、有效的。
但是,本文提出的基金項目和論文主題擴散演化路徑可視化方法還存在兩點不足:一是基金項目和論文主題難以有效解讀,專業(yè)領域的分析需要領域專家的介入并且依賴情報分析人員的學科背景知識,否則只能概覽描述,難以準確揭示基金項目與論文之間的關聯(lián)機理;二是基金和論文主題關聯(lián)關系丟失,依賴于主題相似度而建立的關聯(lián)有一定意義但是并不充分,在未來研究中,將嘗試探索結合神經(jīng)網(wǎng)絡技術,從語義層面結合上下文信息揭示主題之間隱含的關聯(lián)關系。因此,接下來的工作將結合語義分析技術,提升基金項目和論文主題擴散演化路徑可視化結果的易用性和可解讀性。