• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于引文內容挖掘的科技創(chuàng)新路徑識別方法與開源工具研究

      2018-07-25 09:10:30廖君華陳軍營白如江山東理工大學科技信息研究所山東淄博255049
      現代情報 2018年7期
      關鍵詞:可視化文獻文本

      廖君華 陳軍營 白如江(山東理工大學科技信息研究所,山東 淄博 255049)

      當今社會,科技創(chuàng)新已經成為決定一個國家在復雜的國際競爭環(huán)境里取得成功的基礎和關鍵因素。由于歷史、經濟等原因,中國科技創(chuàng)新事業(yè)在世界舞臺上一直扮演著“跟跑者”的角色。可喜的是,在科技創(chuàng)新全球化的背景下,國內科技和經濟的快速增長給各學科領域科技創(chuàng)新帶來新生機。我國逐步從“跟跑者”轉變到“并行者”甚至成為“領跑者”。角色的轉變更加需要及時、準確把握未來科技創(chuàng)新發(fā)展趨勢??萍嘉墨I是知識的載體,蘊含著科技創(chuàng)新發(fā)展的整體脈絡。因此,如何利用科技文獻,挖掘和提煉出科學創(chuàng)新、技術沿革、知識流動的具體過程,準確高效的描繪出科技創(chuàng)新路徑成為情報學研究的熱點話題之一。

      為應對日益增加的海量學術文獻挑戰(zhàn),尋求利用計算機技術自動、準確識別科技創(chuàng)新路徑方法,為科技決策者提供基于數據的參考和依據,本文梳理了科技創(chuàng)新路徑研究主要相關理論、方法以及相關實現開源工具,分析了科技創(chuàng)新路徑識別研究的未來發(fā)展趨勢。

      1 科技創(chuàng)新路徑識別主要方法

      1.1 基于引文分析的科技創(chuàng)新路徑識別方法

      1.1.1 利用天然引文網絡識別科技創(chuàng)新路徑

      1964年,Garfield E首次提出了科學引文索引(SCI)[1],并利用文獻間的引用關系構建了某研究領域的引文網絡(Citation Network)。文獻之間的引用關系主要有:直接引用(Direct Citation)、文獻耦合(Bibliographic Coupling,M.M.kessler,1963)和同被引(Co-Citation,H.Small,1973)。文獻之間3種類型的引用關系既可以反映知識的擴散方向又可以追根溯源識別某研究領域的知識源頭,進而構成原始的天然科技創(chuàng)新路徑。

      隨著時間的推移,各類科技文獻數量不斷增加、知識不斷豐富,引文關系網絡逐漸復雜,形成了許多需要進一步深入挖掘研究的大樣本數據引文網絡。為有效判別某領域內科技創(chuàng)新的發(fā)展動向,科研工作者希望借助復雜的引文關系網絡來預測科技創(chuàng)新熱點、前沿和發(fā)展趨勢。Price D最早提出了“科學前沿”的概念,指出領域科學前沿的瞬時性特征[2]。而后,相關學者進行了相關實證研究,其中代表性研究有:Small H提出一種基于同被引聚類的方法對科技創(chuàng)新發(fā)展路徑進行了預測,并以某領域高被引論文為實驗數據證明了該方法的有效性[3];Morris S等運用文獻耦合聚類的方法識別出了學科領域的研究熱點[4];借助文獻的直接引證關系的直觀性,Shibata N等[5]構建了氮化鎵(Galliumnitride GaN)領域復雜引文網絡;Takeda Y等[6]構建了光學領域相關文獻的引文網絡,隨后分別探測了相關領域的科技創(chuàng)新發(fā)展方向。科技創(chuàng)新路徑識別研究方法逐步發(fā)展并且形成了直接引文分析、同被引聚類和文獻耦合聚類3種分析方法,如圖1所示。

      注:直接引用,ac、ad、ae、bc、cf、ed、ef;文獻耦合,acd、ace、ade、edf;同被引,abc、cef、aed。圖1 3種引文關系

      3種引文分析方法對應構建的引文網絡性質不同,國內外有關學者分別針對3種識別方法進行了對比研究,代表性研究成果見表1:

      表1 3種識別科技創(chuàng)新路徑的引文分析方法對比研究

      經對比分析,直接引用由于其網絡結構內容最豐富、最接近完整的科技創(chuàng)新前沿網絡,準確性最好。隨后的改進工作使得科技創(chuàng)新路徑識別的方法變得更精確有效。但是,龐大而復雜的引文網絡蘊含大量信息,僅僅從上述的3種識別方法本身難以有效判斷科技創(chuàng)新的重點網絡群簇以及網絡群簇中突出的個體。

      為有效分析和研究科技創(chuàng)新路徑形成的網絡特征和屬性,相關學者在前人的研究基礎上將社會網絡分析(Social Network Analysis,SNA)法引入到科技創(chuàng)新路徑的識別中來。具有代表性的分析方法有結構洞(Structural Holes)分析和凝聚子群(Gathering Subgroup)分析。

      1.1.2 利用結構洞分析識別科技創(chuàng)新路徑中的關鍵節(jié)點

      Burt R S[11]于1992年首先提出了結構洞理論(Structural Holes),即:缺少直接聯(lián)系的雙方,需要通過第三者的幫助來聯(lián)系彼此,那么第三者就在關系網絡中擁有一個結構洞。Burt認為個體在網絡的位置比關系的強弱更重要,在網絡中的位置越好,個體的信息交流、資源獲取與決策能力就越強。顯然,在科技創(chuàng)新路徑中,結構洞越多的文獻或文獻集合可以視為其在某科研領域的創(chuàng)新性和代表性越強。情報人員通過對結構洞的分析可以從大量繁雜的文獻中快速了解領域科技創(chuàng)新知識聚集體的結構和特征[12]。

      在科技創(chuàng)新路徑識別研究早期,隨著結構洞理論的發(fā)展,應用的學科范圍(經濟學、計算機科學、社會科學等)不斷擴大,有關結構洞測度和應用的實際問題亟待解決。結構洞有兩種測度方法:一種是根據Burt的結構洞指數進行測算;另一種是利用Freeman的中介中心性理論對結構洞的相關屬性進行測算。為評估這兩種算法的不同特點,汪丹[13]通過實驗對比結構約束算法和中介中心性算法發(fā)現,中介中心性大小與結構約束系數以及網絡有效規(guī)模大小和結構約束性關系存在確定聯(lián)系,兩種算法得到的結果不謀而合。但在算法有效性方面,中介中心性的實驗結果更具有說服力。姜鑫[14]結合結構洞指數和中介中心性指數兩個方面總結了結構洞的測度方法(見表2),并進行了實驗驗證。而后,結構洞的理論和方法漸漸成熟,有關學者從不同角度進行了嘗試性應用。郭秋萍等[15]以結構洞的視角對人際情報領域進行科技創(chuàng)新路徑網絡構建,發(fā)現了網絡中的問題并提出了應對策略。

      表2 兩種結構洞測度方法

      注:結構洞指數中,i、q、j代表行動者個體,t為i的連線數(中心點除外),n和N代表i的個體網規(guī)模,C/N代表各節(jié)點限制度均值。在中介中心性指數中,N代表網絡規(guī)模,ni、nj、nk表示節(jié)點,gik表示ni與nk之間的測地線數目,gjk(ni)表示nj和nk之間存在的經過ni測地線的數目,CBmax代表最大中介中心性。

      結合表3分析可知,在情報學領域結構洞分析在識別科技創(chuàng)新路徑中的應用可以剔除掉無關網絡,加強對所研究重點網絡結構或關鍵節(jié)點的分析,判定重點科技創(chuàng)新演化網絡中的重要個體,為科技創(chuàng)新路徑識別研究奠定基礎。

      1.1.3 利用凝聚子群分析識別科技創(chuàng)新路徑中的重點主題

      凝聚子群(Cohesive Subgroup)分析又被稱為“小團體分析”,在社會網絡中某些個體聯(lián)系密切、具有較強關系且交流頻繁,就會形成凝聚子群。研究人員通過分析網絡中子群個數、子群中個體的特征關系、一個子群中的個體與其他子群的個體之間的關系、子群中個體之間的關系來更好的了解子群聚集的內部屬性。凝聚子群的分類方法有兩種[16]:第一種是基于距離的分類方法,即以網絡中節(jié)點的“距離”來劃分得到不同的凝聚子群;第二種是基于關聯(lián)度的分類方法,即以網絡節(jié)點中的“鄰點”個數來劃分得到不同凝聚子群(詳見表3)。

      表3 凝聚子群分類

      運用凝聚子群的方法對網絡(社會網絡、合著網絡、共詞網絡等)進行分類,通過調節(jié)子網絡的范圍,可以識別出科技創(chuàng)新路徑中的焦點網絡,揭示熱點研究群體。韓毅等[17]利用主路徑分析方法和凝聚子群分析方法將WOS數據庫中引文網絡領域的引文數據以“主題島”的形式進行了演化可視化呈現,使情報人員可以更直接的了解不同時期不同維度下的科技創(chuàng)新路徑的表現形式。k-核分析方法在共詞網絡中的應用,為研究主題的確定提供了幫助。姜鑫[18]利用Ucinet軟件的k-核凝聚子群分析功能,通過調節(jié)k的取值識別出了以“微博”為研究主題科技創(chuàng)新路徑中的核心關鍵詞和次級核心關鍵詞。李綱等[19]利用萬方數據庫中的31種期刊論文數據結合度數中心度分析方法和k-核分析方法識別出了腫瘤學科的科技創(chuàng)新路徑研究主題。

      基于引文網絡分析法、結構洞分析和凝聚子群分析方法都為科技創(chuàng)新路徑識別提供了很好的研究思路,研究人員據此取得了大量研究成果。但是,基于引文分析的識別方法在操作過程中需要一定的時間周期來等待引文網絡的形成,在識別科技創(chuàng)新路徑時不可避免的存在時滯性問題。而且,在對科技創(chuàng)新路徑進行識別分析時,引文方法忽略了文獻的文本內容本身。因此,相關研究人員開辟了直接深入文本內容中識別科技創(chuàng)新路徑的方法。

      1.2 基于文本內容分析的科技創(chuàng)新路徑識別方法

      基于文本內容分析的科技創(chuàng)新路徑識別方法可以對文獻題名、關鍵詞、摘要和正文等進行挖掘分析,使處在引文網絡節(jié)點上文獻的具體創(chuàng)新內容得以顯現。隨著時間軸的引入,還可以將科技創(chuàng)新內容在時間維度進行演化展示。彌補了單憑引文信息數據進行聚類分析的不足,使得科技創(chuàng)新路徑更加的豐富、飽滿。

      研究人員往往用關鍵詞或者主題詞來描述一篇文獻所帶有的特征,表示某文獻所研究的具體內容,進而進行科技創(chuàng)新演化預測研究。1997年,美國海軍研究所(ONR)的Kostoff R N[20]博士提出數據庫內容結構分析技術(Database Tomography,簡稱DT),用來發(fā)現科技創(chuàng)新主題并預測演化趨勢。2004年,Mane KK[21]首先運用Kleinberg突破檢測算法提取高頻詞做共詞分析,然后通過繪制知識圖譜來判定科技創(chuàng)新主題的發(fā)展變化趨勢。為更準確有效的識別科技創(chuàng)新主題,社區(qū)發(fā)現算法被引入到共詞分析中來。2009年,Wallace M L等[22]研究發(fā)現社區(qū)發(fā)現算法在科技創(chuàng)新主題識別上具有天然的優(yōu)勢。2013年,程齊凱等[23]研究了關鍵詞共詞網絡的社區(qū)現象,利用網絡社區(qū)表征學科研究主題,研究表明共詞網絡中社區(qū)的演化揭示了科技創(chuàng)新主題的演化過程。同年,白如江等[24]的研究也驗證了社區(qū)演化方法的科學性。

      由于關鍵詞與文檔之間的語義關系不明確,僅僅以關鍵詞代表整篇論文的研究主題存在語義模糊、主題不準確性等問題。因此,葉春蕾等[25]對關鍵詞共詞分析的方法提出質疑,認為基于詞頻、共詞分析的主題演化識別分析方法欠缺語義關系,提出運用LDA模型的進行科技創(chuàng)新路徑主題識別。2006年,Blei D M[26]利用LDA模型處理具有時間戳記的文檔數據集,實現了科技創(chuàng)新路徑動態(tài)主題的識別與追蹤。2011年,單斌等[27]基于LDA模型提出了一種演化識別方法,避免了同類話題之間的重復演化計算。為增強對文本內容的語義理解,2015年,祝娜等[28]提出了利用改進LDA模型進行科技創(chuàng)新主題演化路徑識別方法,并分析了3D打印領域創(chuàng)新主題的動態(tài)演化過程。為解決將不同屬性的關鍵詞等同看待的問題,識別出關鍵詞所代表的語義角色(理論、方法和研究對象等),2016年,劉自強等[29]利用LDA模型結合社區(qū)算法對我國圖情領域大數據的科技創(chuàng)新主題進行識別和演化分析。

      雖然基于文本內容分析的科技創(chuàng)新路徑識別方法對科技論文的內容進行了深入和有效挖掘,揭示了科技文本內容中包含的科技創(chuàng)新的主題和語義關聯(lián)信息。但是該方法脫離了科技文獻之間的天然引文關系,不能精確地深入到施引文獻引用原文獻的具體句子中揭示科技創(chuàng)新的角色、作者施引情感傾向等。因此,有關專家對基于引文內容分析的科技創(chuàng)新路徑研究方法重視起來。

      1.3 基于引文內容分析的科技創(chuàng)新路徑識別方法

      基于引文內容分析的識別方法比基于科技文獻文本內容挖掘的識別方法在研究內容上主題粒度更加細化。區(qū)別于基于文本內容(運用基于全文本的LDA模型等處理方法)的識別方法,基于引文內容的識別方法側重于深入到施引文獻引用被引文獻的具體內容來進行挖掘分析。該方法首先通過信息抽取技術將引文內容從整篇文檔中抽取出來。然后,對抽取出的內容進行語義標注(語義角色標注、事件抽取等)、主題識別(主題模型LDA、特征詞提取技術、C-Value等)、動機分析(情感分析技術)等一系列挖掘分析,進而準確、深入地揭示科技創(chuàng)新路徑的具體內容。

      1.3.1 基于引文內容分析識別科技創(chuàng)新路徑研究進展

      引文內容分析(Citation Content Analysis,CCA)的方法是以引文分析方法為基礎發(fā)展而來,區(qū)別于傳統(tǒng)的引文著錄分析(見表4),引文內容分析強調運用數據挖掘、自然語言處理和可視化等技術方法,結合施引文獻的引用內容(施引文獻引用被引文獻的句子和上下文),對作者的引用行為、動機等進行探測、歸納和分析的一種情報分析方法。

      20世紀50年代,Berelson在其著作《內容分析:傳播研究的一種工具》中首次將內容分析作為一種工具方法進行應用。由于早期的期刊數據庫以PDF格式文本居多并且計算機技術相對落后,相關學者只能采用人工判讀的方法對施引文獻中引用該引文的具體語句信息及其上下文內容進行經驗性的歸納總結。例如:1962年,Garfield E[30]詳細閱讀了某領域文獻全文,對作者的引用行為進行了分類。1975年,Moravcsik M J等[31]通過對引文內容進行人工判讀,解釋了作者的引用情感傾向、被引文獻的引用作用和重要程度。隨著計算機技術的發(fā)展,利用自然語言處理技術可以實現對PDF格式的文本數據進行內容抽取。2012年,Zhang G等[32]設計了一個引用內容分析(Citation Content Analysis,CCA)的研究框架,指出引文內容分析是下一代引文分析的方向。2014年,祝青松等[33]以碳納米管領域的高被引論文(PDF格式)為研究對象,利用C-value算法識別出引文內容中的研究主題,研究表明基于引文內容分析的主題識別結果比基于關鍵詞、摘要等題錄數據的識別方法準確性更高。

      表4 引文內容分析和引文著錄分析區(qū)別

      1.3.2 引文內容數據源

      早期數據庫文獻數據的格式大都是非結構化數據(例如:CAJ、PDF等),由于數據機讀性差,引文內容分析(Citation Content Analysis,CCA)最早是通過人工判讀的方法對文獻不同章節(jié)的引文內容進行抽取標記,來解釋文獻引用的各種現象。Moravcsik M J[31]作為先行者首先調研了高能物理領域的30篇文獻,并歸納總結了作者的引用動機。隨后,許多研究者用該方法進行了引文內容的科研研究。但人工判讀的方法效率低、主觀性強、調研文獻量少,不久便受到有關專家的質疑。隨著自然語言處理技術的發(fā)展,1998年,結構化格式數據XML問世,XML是一種標識語言,可以標記引文位置和相關的引文內容,機讀性優(yōu)越,彌補了人工判讀的缺陷。隨著近幾年開放獲取(Open Access,OA)運動的發(fā)展,越來越多的數據庫提供XML全文格式,表5列出了部分提供XML全文格式的數據庫。

      表5 提供XML全文數據庫

      PubMed、Springe Open和Springer BioMed數據庫的XML的全文數據均可以免費獲得。隨著數據挖掘和自然語言處理技術的發(fā)展,使得從文獻內容中抽取出不同結構層次(引文位置)的引文內容信息進行引用動機識別、情感分析和可視化分析等成為可能,能夠解決引文分析存在的將所有引文等同看待的問題。

      由上所述,從方法和數據源的角度看來,通過獲取全文數據抽取引文內容,利用引文網絡分析方法、文本內容分析方法和引文內容分析方法,可以達到結合文獻天然引文路徑識別出創(chuàng)新性的理論、方法、技術等并揭示其在相應載體上隨時間變化而演化發(fā)展的目的。因此,基于引文內容挖掘的科技創(chuàng)新路徑識別研究在方法和數據源方面前景廣闊。

      2 實現基于引文內容挖掘的科技創(chuàng)新路徑識別開源工具

      科技創(chuàng)新路徑識別過程中少不了集成了各種算法的軟件工具的支持,在數據預處理、數據分析、可視化等數據處理過程中,有時一款軟件就能勝任(如:綜合平臺Knime),有時則需要幾款軟件的配合才能完成,例如:利用Python中的Jieba分詞包對文檔數據進行分詞,然后用Knime進行數據預處理,最后運用Gephi實現關鍵詞共現網絡可視化呈現。因此,本文將基于引文內容挖掘的科技創(chuàng)新路徑實現開源工具分為文本挖掘和科技創(chuàng)新路徑可視化兩類。

      2.1 文本挖掘開源工具

      在數據挖掘領域里,文本挖掘工具主要功能首先是對目標數據文本進行有效抓取、存儲;其次是對文本數據進行特征詞(主題模型識別和句法分析)的識別或標注等。文本挖掘方法應用廣泛,是對文本數據進行深入挖掘的基礎步驟。通過文本挖掘開源工具可以實現抽取科技文獻全文中的引文內容,對抽取出的引文內容進行關鍵詞識別、主題識別、關系抽取等一系列挖掘工作,達到識別引用動機、引用意圖等目的。通過前期長時間的調研,常用的文本挖掘開源工具主要有:Mallet、Knime、NLTK(基于Python語言的自言語言工具包)等,見表6。

      表6 文本挖掘工具對比

      Mallet[34]是一款基于java語言的工具包,需要JDK環(huán)境的支持,專門用于機器學習。通過Mallet工具,可以進行自然語言處理、文本分類、主題建模、文本聚類、信息抽取等操作。通過下達具體指令語言不但可以對文本數據進行分詞、除去停用詞等數據預處理工作,還可以通過主題建模的功能(基于分層LDA模型、基于采樣的狄利赫雷分布等)分析大量未知屬性文本,提取出具有一定特征的主題。

      Knime[35](Konstanz Information Miner)數據挖掘工具是一款基于Eclipse開發(fā)環(huán)境的開源數據分析平臺,可以擴展使用Weka中的挖掘算法。采用類似數據流(Data Flow)的方式來建立數據分析流程。數據流程由一系列功能節(jié)點(Node)組成,節(jié)點之間的連接線需要用鼠標拖拽進行連接,每個節(jié)點有輸入或輸出端口(Port)用來接收數據或導出結果。直接用鼠標拖拽連接端口來進行節(jié)點之問的連接。其中每個節(jié)點都帶有交通信號燈,用于指示該節(jié)點的狀態(tài)(未連接、未配置、缺乏輸入數據時為紅燈,準備執(zhí)行為黃燈,執(zhí)行完畢后為綠燈)。PLDA的主題識別功能對文檔進行并行式處理,效率高、準確性好。同時,Knime還具有相似度計算功能,用以測算不同時期主題間的相似程度,判斷演化趨勢。在句法分析方面有TF-IDF算法功能,可以進行引文內容中語句特征詞的提取。

      NLTK[36](Natural Language Toolit,簡稱NLTK)是一種基于Python編程語言的開源庫,包含了大量的軟件、數據和文檔,在文本挖掘和自然語言處理中有很好的應用。它定義了使用Python進行自然語言處理編程的基礎工具,提供了相關數據表示的基本類,詞性標注、文法分析、文本分類等任務接口,通過這些接口可以訪問超過50個語料庫和詞匯資源(如WordNet),以及用于分類、標記化、詞干標記、解析和語義推理的文本處理庫,可以自由組合以解決復雜問題。

      在科技創(chuàng)新路徑識別研究中,離不開上述文本挖掘工具的支持。基于引文內容挖掘的科技創(chuàng)新路徑識別具體流程如圖2所示。首先,利用文本挖掘工具將關鍵信息(施引文獻ID、被引文獻ID、引用位置、引文內容等)從XML全文數據中抽取出來。此部分工作可以利用NLTK工具通過正則表達式實現抽取。然后,將抽取出的數據導入到數據挖掘工具中,進行相關的挖掘分析工作。通過詞性標注、命名實體識別、關系抽取、句法分析、語義角色標注等方法挖掘出引文內容中蘊含的主題特征等內容,進而實現引用情感分析。此部分工作可以利用Mallet或Knime主題模型工具實現。

      2.2 科技創(chuàng)新路徑可視化開源工具

      經過對引文內容抽取挖掘后,通過可視化的手段將科技創(chuàng)新路徑展示出來就離不開可視化開源工具的幫助??梢暬_源工具不僅能實現關鍵詞、作者合作網絡的構建,還能對科技創(chuàng)新路徑中的關鍵節(jié)點進行標記、展示,從而對某學科領域的研究追根溯源。目前運用較多的工具有Pajek、Ucinet、Gephi、D3.js、VOSViewer等,幾種工具的對比見表7。

      表7 社會網絡和可視化工具對比

      Pajek[37]是一款基于windows的免費社會網絡分析工具,擁有出色的大型網絡處理能力。該工具擁有17個菜單按鈕,網絡分析功能全面,在大型網絡進行分類劃區(qū)之后,還可以從不同區(qū)域入手,縮小研究的網絡范圍實現小網絡細致研究,同時具有結構洞探測分析以及凝聚子群的K-核分析功能,因其強大的網絡分析功能,普遍被網絡分析研究人員所看好,其部分功能被集成到Ucinet中。

      圖2 文本挖掘工具應用流程示意圖

      Ucinet[38]是由加州大學的相關研究人員研發(fā)的一款社會網絡分析軟件。該工具集成了NetDraw(進行一維、二維數據分析)等程序來實現數據處理和可視化功能。Ucinet在5 000節(jié)點以下分析速度較快,否之則運行緩慢。該工具可以對社會網絡數據進行密度分析(路徑:網絡→凝聚力→密度→密度)、中心性分析(Path:Analysis→Centrality Measures)、結構洞分析(Path:網絡→個體中心網絡→結構洞)、凝聚子群分析(Path:網絡→角色&位置→結構→CONCOR)等。

      Gephi[39]是由法國研究機構合作研發(fā)的一款開源的社會網絡分析工具,在Netbeans平臺上開發(fā),其可視化引擎OpenGL確保了Gephi運行的高效性,支持CSV、GDF、GML等多種數據格式,能夠實現關鍵詞共現網絡、人際關系網絡等多種網絡結構的分析,另外還可以進行路徑標記,使得網絡的演化走向更加清晰的呈現出來。

      D3[40](Data-Driven Documents,簡稱D3)是一種數據驅動下的可視化JavaScript的函數庫,由于其本質是JavaScript(文件后綴為.js),所以也稱D3為D3.js。D3之所以可視化功能強大,受到各行業(yè)可視化工作人員的親睞,是因為D3簡化了復雜的函數框架,使得操作者只需要輸入簡單的數據,借助瀏覽器就能夠將數據完美表達成圖形。D3支持多種數據格式,如JSON、XML、CSV、HTML等,其功能的實現機制是將數據庫中的數據與HTML、SVG、CSS結合起來,讓原本的二維數據在立體展示空間內形成緊密連接的立體數據體系,能夠揭示出數據信息之間的深層次結構關聯(lián),使數據信息擁有具象的可視化效果[41]。D3可以實現對社會網絡數據(網絡關系圖)以及主題演化數據(桑吉圖等)的可視化呈現。

      VOSViewer[42]是雷登大學的研究人員開發(fā)的一款免費知識圖譜可視化工具。該軟件使用Java程序語言編寫,運行VOSviewer前,要安裝最新的Java環(huán)境。VOSviewer可下載安裝,也可直接點擊launch在線運行。VOSViewer只能對map和network進行直接處理,因此,在處理CNKI或者WOS數據的時候,需要借助SAINT Toolkit等軟件進行格式的轉化。VOSViewer主要運用于文獻計量網絡的分析(如共引網絡、關鍵詞網絡圖),構建的網絡圖清晰且能夠通過節(jié)點大小、距離、顏色等彰顯不同的網絡關系(被引次數、密度、學科領域),簡單明了。

      圖3給出了一個利用D3實現的科技創(chuàng)新路徑主題演化示意圖,圖中每一個Node代表一個主題,圓圈的大小代表主題的強度,數據流的寬度代表路徑演化的強度(相似度)。通過該圖可以清晰的展示出某一研究領域的科技創(chuàng)新主題演化過程。

      圖3 科技創(chuàng)新路徑主題演化示意圖

      圖4給出了一個利用Gephi制作的科技創(chuàng)新過程中引用動機網絡,圖中每個節(jié)點代表一篇文獻,節(jié)點的大小表示被引用次數的多少,節(jié)點間的連線,不同顏色表示不同引用動機,比如紅色表示正向積極引用,黃色代表中立引用等。通過該圖可以展示出科技創(chuàng)新過程中哪些論文起到積極作用,哪些論文可能起到負面引用效果。

      圖4 科技創(chuàng)新路徑情感演化示意圖

      通過對文本挖掘開源工具和科技創(chuàng)新路徑可視化展示開源工具的分析,結合對數據源格式和挖掘方法的研究,可以發(fā)現基于引文內容挖掘的科技創(chuàng)新路徑識別研究具有廣闊的發(fā)展空間。通過基于引文內容挖掘的科技創(chuàng)新路徑識別可以更加充分的展示領域科技創(chuàng)新的軌跡,反映根本創(chuàng)新內容,為決策者研判領域發(fā)展趨勢和制定科技計劃時提供決策支持。

      3 結束語

      本文調研分析了科技創(chuàng)新路徑識別研究的主要方法以及實現開源工具。指出了基于引文內容挖掘的科技創(chuàng)新路徑識別研究是結合引文網絡分析方法、文本內容分析方法以及引文內容分析方法,運用自然語言處理技術和可視化技術,對科技文本進行的一系列準確、高效的分析和處理,以求透視出科技創(chuàng)新路徑中蘊含的具有科學價值的內容。

      猜你喜歡
      可視化文獻文本
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      基于CGAL和OpenGL的海底地形三維可視化
      在808DA上文本顯示的改善
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      厦门市| 宜都市| 峨边| 赣榆县| 新和县| 文成县| 恩施市| 永善县| 高台县| 珲春市| 汉沽区| 兴安盟| 宿迁市| 明光市| 上饶市| 兴国县| 霞浦县| 奉化市| 武义县| 建德市| 突泉县| 安顺市| 桑植县| 乐陵市| 云霄县| 安泽县| 洛扎县| 陆良县| 招远市| 南昌市| 马边| 进贤县| 额敏县| 曲靖市| 家居| 阳春市| 昔阳县| 株洲市| 泊头市| 长阳| 峡江县|