陸浩 孫星愷 劉文禮 趙學(xué)亮 王飛躍
1.中國科學(xué)院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點實驗室北京100190 2.國防科技大學(xué)軍事計算實驗與平行系統(tǒng)技術(shù)研究中心湖南長沙410073
互聯(lián)網(wǎng)和信息技術(shù)的迅猛發(fā)展,帶來情報數(shù)據(jù)幾何倍數(shù)式的增長,使得情報的發(fā)展在經(jīng)歷了一戰(zhàn)前的人員情報(Human Intelligence,HI),二戰(zhàn)期間的信號情報(Signal Intelligence,SI)和冷戰(zhàn)前后的圖像情報(Image Intelligence,II)后,來到當(dāng)今的開源情報(Open Source Intelligence,OSI)時代[1].在網(wǎng)絡(luò)時代的大數(shù)據(jù)洪流沖擊下,開源情報呈現(xiàn)出動態(tài)性、海量性和多源異構(gòu)等特性,如何利用離散分布的開源情報進(jìn)行知識獲取、傳播、創(chuàng)造、利用,并在知識的產(chǎn)生方式上實現(xiàn)變革[2?3],逐漸成為當(dāng)今世界各國政府部門、安全部門、科研機(jī)構(gòu)與商業(yè)組織重點關(guān)注的課題.當(dāng)前,科研機(jī)構(gòu)和學(xué)術(shù)組織常常利用公開的期刊數(shù)據(jù)、圖書館庫、文摘數(shù)據(jù)庫等數(shù)據(jù)資源來分析各自所關(guān)注的領(lǐng)域.互聯(lián)網(wǎng)公開數(shù)據(jù)源不斷增加,為開源情報在科技情報分析領(lǐng)域進(jìn)行大數(shù)據(jù)解析提供了充足的數(shù)據(jù)土壤.而利用開源數(shù)據(jù),系統(tǒng)地對國內(nèi)情報學(xué)研究狀況進(jìn)行解析,能夠快速掌握領(lǐng)域態(tài)勢的定量依據(jù),以數(shù)據(jù)說話,為科研人員和機(jī)構(gòu)制定并調(diào)整研究動向,以及與領(lǐng)域關(guān)鍵人員機(jī)構(gòu)建立合作提供有效的支撐.
近年來,國內(nèi)情報學(xué)者利用公開數(shù)據(jù)對本學(xué)科的熱點探索研究做了許多重要的工作.南開大學(xué)王芳教授等利用《情報學(xué)報》1999年~2008年的數(shù)據(jù)進(jìn)行了計量分析[4],然而數(shù)據(jù)相對單一.武漢大學(xué)邱均平教授[5]利用內(nèi)容分析法原理是對文獻(xiàn)內(nèi)容所含信息量及其變化進(jìn)行分析,從而達(dá)到對文獻(xiàn)內(nèi)容進(jìn)行可再現(xiàn)的、有效的推斷.南京理工大學(xué)王曰芬博士[6]對文獻(xiàn)計量法與內(nèi)容分析法的綜合研究進(jìn)行了探討,從定性和定量相結(jié)合的角度分析情報學(xué)科發(fā)展變化趨勢.隨后有學(xué)者使用社會網(wǎng)絡(luò)分析法在作者合作、關(guān)鍵詞共現(xiàn)、共引等方面進(jìn)行了研究.近幾年,由于科學(xué)知識圖譜能夠很好地顯示科學(xué)知識的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系,知識圖譜與數(shù)據(jù)可視化在情報學(xué)研究中的應(yīng)用逐漸增多[7?8].面對開源情報的大數(shù)據(jù)時代,化柏林教授[9]等提出如何把繁雜的大數(shù)據(jù)進(jìn)行合理的分析,認(rèn)為“大數(shù)據(jù)更需要清洗”.在網(wǎng)絡(luò)海量信息環(huán)境下,情報研究的方法體系面臨新的挑戰(zhàn)[10].同時,情報學(xué)領(lǐng)域研究的方法眾多,需要特定的方法體系在開源情報的環(huán)境下快速集成,從多維角度綜合反映領(lǐng)域研究狀況的宏觀、微觀原貌.2012年,王飛躍提出了知識產(chǎn)生方式和科技決策支持的重大變革—–面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務(wù)[3],提供了集快速獲取文獻(xiàn)數(shù)據(jù)并支持半自動化的從多維角度進(jìn)行文獻(xiàn)解析的框架,其中,該框架包含了ASKE(Application Specific Knowledge Engine)[11]與科研協(xié)作[12]等采集、解析方法與框架.該框架已成功地系統(tǒng)[11]應(yīng)用于在智能交通領(lǐng)域的學(xué)科動態(tài)分析中[13],為該領(lǐng)域科研人員提供良好的交互服務(wù).
本文基于ASKE方法框架,提出了“面向情報領(lǐng)域的知識解析引擎”,對情報領(lǐng)域的研究人員,研究機(jī)構(gòu)及研究熱點進(jìn)行解析,如圖1所示.本文在第3節(jié)分析了數(shù)據(jù)源及基本解析結(jié)果,第4節(jié)對情報學(xué)科領(lǐng)域近5年的研究狀況進(jìn)行了實驗,分析了國內(nèi)情報學(xué)研究的熱點及潛在的研究熱點.
圖1 情報學(xué)研究信息聚集鏡
基于ASKE方法框架融合了智能數(shù)據(jù)采集、領(lǐng)域本體、數(shù)據(jù)解析、數(shù)據(jù)存儲庫及數(shù)據(jù)可視化5大主體部分(如圖2所示),可以對特定領(lǐng)域的開源情報進(jìn)行系統(tǒng)有效的采集與統(tǒng)一化的處理,并融合多種情報分析方法對采集數(shù)據(jù)進(jìn)行多維度的解析,形成相關(guān)領(lǐng)域包括關(guān)鍵人物與機(jī)構(gòu)產(chǎn)出、研究熱點與趨勢、合作網(wǎng)絡(luò)、引文統(tǒng)計等多類解析結(jié)果.本文基于ASKE方法框架進(jìn)行數(shù)據(jù)采集方法、數(shù)據(jù)解析及可視化方面的改良與完善,提出了“面向情報領(lǐng)域的知識解析引擎”框架,分為5個主要的模塊:數(shù)據(jù)獲取模塊,數(shù)據(jù)儲存庫,領(lǐng)域本體,數(shù)據(jù)分析模塊,數(shù)據(jù)可視化模塊.
數(shù)據(jù)獲取模塊的基本思路是創(chuàng)造一系列的網(wǎng)絡(luò)爬蟲,它們可以從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù),建立語義數(shù)據(jù)存儲庫,并使用一個知識配置文件(Knowledge Configure File,KCF)來指定主題,關(guān)鍵字,搜索序列和時間表查詢處理.通過聚焦爬蟲、深度網(wǎng)采集、動態(tài)網(wǎng)采集、數(shù)據(jù)過濾等技術(shù)有效地獲取領(lǐng)域書籍、期刊、文獻(xiàn)、會議、專利等全方位的開源情報.
數(shù)據(jù)庫由兩層(底層與上層)數(shù)據(jù)庫組成.底層數(shù)據(jù)庫存儲那些由數(shù)據(jù)采集程序獲取的原始數(shù)據(jù),上層數(shù)據(jù)庫存儲那些由系統(tǒng)通過領(lǐng)域本體與數(shù)據(jù)處理抽取的更具體的領(lǐng)域相關(guān)數(shù)據(jù)信息.高層數(shù)據(jù)庫主要包括:①領(lǐng)域期刊相關(guān)信息;②領(lǐng)域基礎(chǔ)知識(文章關(guān)鍵詞、核心作者、機(jī)構(gòu)等);③通過網(wǎng)絡(luò)分析等形成的作者、機(jī)構(gòu)合作網(wǎng)絡(luò)關(guān)系、研究熱點等;④通過引文數(shù)據(jù)分析獲得的相關(guān)引用數(shù)據(jù).
領(lǐng)域本體(Domain-specific Ontology)就是對學(xué)科概念的一種描述,可以表示某一特定領(lǐng)域范圍內(nèi)的特定知識.由于知識具有顯著的領(lǐng)域特性,所以領(lǐng)域本體能夠更為合理而有效地進(jìn)行知識的表示.這里的“領(lǐng)域”是根據(jù)本體構(gòu)建者的需求來確立的,它可以是一個學(xué)科領(lǐng)域,可以是某幾個領(lǐng)域的一種結(jié)合,也可以是一個領(lǐng)域中的一個小范圍.為了構(gòu)建領(lǐng)域本體,需要識別出本學(xué)科領(lǐng)域與研究主題相關(guān)的概念,我們從領(lǐng)域相關(guān)文獻(xiàn)或出版物等多種不同的領(lǐng)域知識中抽取那些出現(xiàn)頻率比較高的學(xué)科關(guān)鍵詞,然后再通過人工過濾的方式構(gòu)建出一定量的領(lǐng)域本體知識.
數(shù)據(jù)分析模塊對獲取的開源情報進(jìn)行深度解析及挖掘,構(gòu)建相關(guān)領(lǐng)域人物、組織、機(jī)構(gòu)的復(fù)雜網(wǎng)絡(luò),分析挖掘其核心群體、關(guān)鍵人物,依照時空多維度分析科技傳播態(tài)勢,構(gòu)建全方位的情報分析指標(biāo)體系.常用的文獻(xiàn)情報分析方法包括文獻(xiàn)計量法、社會網(wǎng)絡(luò)分析方法與內(nèi)容分析法.通過用戶需要獲取內(nèi)容,我們使用特定的分析方法來分析相關(guān)領(lǐng)域數(shù)據(jù),比如通過關(guān)鍵詞分析獲取領(lǐng)域研究熱點,通過熱點的分布獲知領(lǐng)域研究趨勢,通過作者分析獲取領(lǐng)域關(guān)鍵人物等.
數(shù)據(jù)可視化模塊對分析結(jié)果的可視化采用圖表與知識圖譜相結(jié)合的方式,根據(jù)不同的結(jié)果展示需要選擇相應(yīng)的算法生成具體的矩陣、關(guān)系等文件,再通過調(diào)用可視化工具生成相應(yīng)的知識圖譜,進(jìn)而更好地揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實的、有價值的參考.目前用于知識圖譜分析的主流工具包括CiteSpace、VOSviewer與Pajek,它們各具特色.本文根據(jù)生成圖效果選用相應(yīng)工具分別構(gòu)建情報學(xué)關(guān)鍵詞與作者、機(jī)構(gòu)等圖譜.
圖2 面向情報領(lǐng)域的知識解析引擎框架
本文選取的文獻(xiàn)信息數(shù)據(jù)是使用ASKE框架的數(shù)據(jù)獲取方法,在有效定義相關(guān)網(wǎng)絡(luò)數(shù)據(jù)源后進(jìn)行自動采集的相關(guān)文獻(xiàn)基礎(chǔ)數(shù)據(jù)信息.情報學(xué)文獻(xiàn)采用2012年北大中文核心期刊定義的19種中文期刊近5年的情報學(xué)相關(guān)的文章.其中《情報學(xué)報》文章從萬方數(shù)據(jù)庫中采集,其余18種期刊的文章從CNKI中采集獲得,數(shù)據(jù)采集結(jié)果如表1所示.
數(shù)據(jù)包含2008年至2012年5年間19本期刊文獻(xiàn)14914篇,通過ASKE采集程序采集,經(jīng)過數(shù)據(jù)清洗,過濾掉非研究類文章獲得12458篇文章.由于本文主要關(guān)注情報學(xué),在這些文章中再通過中國圖書分類號,篩選出分類號為G35(情報學(xué))的相關(guān)文章共計2013篇.然后進(jìn)一步采集這2013篇文章的引文數(shù)據(jù)13958條.
對作者合作網(wǎng)絡(luò)的實證分析可對當(dāng)前情報學(xué)等領(lǐng)域的合作模式進(jìn)行直觀了解.本文使用作者共現(xiàn)方法對文章作者合作關(guān)系進(jìn)行統(tǒng)計分析,生成相應(yīng)共現(xiàn)矩陣并進(jìn)行合作關(guān)系可視化展示.首先對論文的作者與機(jī)構(gòu)信息進(jìn)行規(guī)范化處理,根據(jù)相關(guān)信息中作者的機(jī)構(gòu)標(biāo)號進(jìn)行作者與機(jī)構(gòu)的對應(yīng).通過上述方法在2013篇論文中抽取有效作者2704個.其中,有61.8%的文章有兩個及以上的作者.然后計算作者的共現(xiàn)矩陣,共抽取有效合作關(guān)系3159對,形成近5年國內(nèi)情報文章的作者合作網(wǎng)絡(luò)圖譜,如圖3所示.圖中共包含2704個節(jié)點,節(jié)點的大小由作者發(fā)文量及合作關(guān)系數(shù)共同決定.兩個節(jié)點的距離越近,說明他們的合作關(guān)系越緊密.同顏色的節(jié)點表明這些作者合作關(guān)系較多,為一個聚群,有可能來自同一個機(jī)構(gòu).
由圖3可以看出,當(dāng)前國內(nèi)在情報領(lǐng)域較為活躍的研究者,其中最大的連通合作群體包含620個作者,其中較為明顯的研究群體代表節(jié)點作者有邱均平、鄭彥寧、王知津、蘇新寧、裘江南、朱慶華、冷伏海、方安、林鴻飛等,且邱鄭群體與王知津、蘇新寧、裘江南與朱慶華等之間的合作關(guān)系較為密切,這些作者在合作網(wǎng)絡(luò)圖中處于核心位置.從整體上看,國內(nèi)本領(lǐng)域的作者合作已經(jīng)形成了一定的規(guī)模,最大合作群體包含的作者占到了總作者數(shù)的將近1/4.
表1 國內(nèi)情報學(xué)科近5年核心期刊文獻(xiàn)數(shù)據(jù)
圖3 國內(nèi)情報學(xué)科作者合作網(wǎng)絡(luò)圖
我們對每個作者的發(fā)文量、APS指數(shù)以及合作網(wǎng)絡(luò)參數(shù)(度、中介性)進(jìn)行了統(tǒng)計與計算,根據(jù)發(fā)文量列出前十位研究者,如表2所示.
從發(fā)文量來看,前十位研究者的發(fā)文量都在15篇以上,其中前三位研究者的發(fā)文量在30篇以上.同時,對他們的第一作者發(fā)文量進(jìn)行統(tǒng)計,邱均平、王知津的第一作者發(fā)文量占其總發(fā)文量的90%以上,體現(xiàn)出其在情報領(lǐng)域的研究中處于相對比較活躍的狀態(tài).從作者所在機(jī)構(gòu)看,武漢大學(xué)與南開大學(xué)各有3位,體現(xiàn)出兩家機(jī)構(gòu)在情報學(xué)領(lǐng)域擁有的核心人物相較其他機(jī)構(gòu)要多.從APS指數(shù)與發(fā)文量的比較來看,蘇新寧、馬費成、楊思洛與邱均平的文章合作作者相對較少或獨立發(fā)文量較多,其對文章的貢獻(xiàn)相對較大.合作參數(shù)我們主要統(tǒng)計了兩個參數(shù):度與中介性.從度來看,前三位作者以及冷伏海、馬費成度相對較高,相較其他作者有較高的合作關(guān)系數(shù).從中介性來看,鄭彥寧的中介度最高,遠(yuǎn)遠(yuǎn)超出其他作者,說明其在合作網(wǎng)絡(luò)中的作用和影響力最大,起著最為核心的地位.其次是邱均平與冷伏海.
此外,通過對每位作者歷年的文章數(shù)統(tǒng)計可以發(fā)現(xiàn),前十位作者中韓正彪的22篇文章與周鵬的16文章分別有21篇與15篇是在2011年與2012年發(fā)表,且兩人均為2010屆南開大學(xué)在讀博士,屬于近兩年在情報學(xué)領(lǐng)域較為活躍的年輕研究人員.其他作者5年內(nèi)的年發(fā)文量相對比較平均,尤其前三位作者2011年與2012年每年的文章數(shù)都在10篇以上,體現(xiàn)出他們在情報學(xué)領(lǐng)域依舊保持著較高的研究熱情與產(chǎn)出水平.
對2103篇文章引文數(shù)據(jù)進(jìn)行采集,共獲取13958條相關(guān)數(shù)據(jù),然后對其進(jìn)行處理后,從中抽取相關(guān)引用文獻(xiàn)、書籍、作者與期刊,得到高引文章和作者的前十名,如表3.
表2 國內(nèi)情報學(xué)科關(guān)鍵作者
表3 近兩年國內(nèi)情報學(xué)科引用文章數(shù)量排名
引用次數(shù)前十名文章中,有6篇外文文獻(xiàn),4篇中文文獻(xiàn).從文章所研究內(nèi)容來看,h指數(shù)及其衍生指數(shù)相關(guān)文獻(xiàn)就有5篇,作者共引研究有2篇,而其他3篇中文章分別是對共詞分析、期刊評價體系與人際情報網(wǎng)絡(luò)的綜述性文章.引用次數(shù)最高的是“An index to quantify an individual0s scientific research output”,其引用次數(shù)高達(dá)58次.
對引文文獻(xiàn)的作者進(jìn)行統(tǒng)計排名,引用文獻(xiàn)中作者引用次數(shù)排名前五見表4:
表4 國內(nèi)情報學(xué)科文章引用人物前五名
從表4可以看出,引文次數(shù)最多的作者是來自武漢大學(xué)的邱均平,高達(dá)182次;其次是南開大學(xué)的王知津,也有107次的被引次數(shù).前五名引用最高的作者有兩名來自武漢大學(xué),體現(xiàn)出其在國內(nèi)情報學(xué)領(lǐng)域的強(qiáng)大實力.
論文關(guān)鍵詞作為文章內(nèi)容的濃縮與提煉,對其分布頻次和特征進(jìn)行統(tǒng)計分析可以把握研究領(lǐng)域的總體特征、發(fā)展脈絡(luò)與領(lǐng)域研究熱點.在對關(guān)鍵詞出現(xiàn)頻次進(jìn)行統(tǒng)計之外,我們使用關(guān)鍵詞共現(xiàn)分析法進(jìn)行分析,其思想來源于文獻(xiàn)計量學(xué)的引文耦合與共被引概念,即當(dāng)兩個能夠表達(dá)某一學(xué)科領(lǐng)域研究主題或研究方向的關(guān)鍵詞在同一篇文獻(xiàn)中出現(xiàn)時,表明這兩個詞之間具有一定的內(nèi)在關(guān)系,并且出現(xiàn)的次數(shù)越多,表明關(guān)系越密切、距離越近[14].
我們共抽取有效關(guān)鍵詞4236個,為了便于通過可視化工具顯示,過濾掉只出現(xiàn)一次的關(guān)鍵詞后共得到974個關(guān)鍵詞.然后對于每一對關(guān)鍵詞,我們計算它們在一篇文章中同時出現(xiàn)的次數(shù).基于共現(xiàn)矩陣,我們利用VOSviewer構(gòu)建一個關(guān)鍵詞圖譜見圖4.
圖4這個詞譜圖中974個關(guān)鍵詞的定位是由它們?nèi)我鈨蓚€詞之間的距離來確定,詞間距反映了詞之間的關(guān)聯(lián)程度.詞的顏色用來指示詞的聚群或聚類.從圖4可以看出,近5年國內(nèi)情報領(lǐng)域的研究中“情報學(xué)”、“競爭情報”、“引文分析”、“信息檢索”、“社會網(wǎng)絡(luò)分析”、“文獻(xiàn)計量”等幾個點相對研究較多.其中“引文分析”、“文獻(xiàn)計量”、“社會網(wǎng)絡(luò)分析”、“復(fù)雜網(wǎng)絡(luò)”等關(guān)系較為緊密,體現(xiàn)出當(dāng)今情報領(lǐng)域的研究較為重視情報分析的相關(guān)工作.重點圍繞文獻(xiàn)計量、引文分析與社會網(wǎng)絡(luò)分析.采用這些情報分析方法在除了傳統(tǒng)的圖書情報之外,與競爭情報的關(guān)聯(lián)度也說明有部分研究人員在競爭情報的分析工作中采用這些方法進(jìn)行分析.
圖4 國內(nèi)情報學(xué)科關(guān)鍵字圖譜
由于每篇文章標(biāo)注的關(guān)鍵詞即使對于同一個點也會略有不同,為了更準(zhǔn)確地看出相關(guān)研究熱點及其相關(guān)文章數(shù)等屬性,我們再對文章關(guān)鍵詞進(jìn)行歸一統(tǒng)計.例如,把“文獻(xiàn)計量”、“文獻(xiàn)計量學(xué)”、“文獻(xiàn)計量分析”等表述同一研究點的關(guān)鍵詞合為一個研究熱點“文獻(xiàn)計量”.然后把“文獻(xiàn)計量”、“計量分析”等與計量有關(guān)的點合成一個研究點“計量”.根據(jù)研究熱點的文章數(shù)進(jìn)行排名取前十名見表5:
從表5可以看出,前十個研究熱點中有4個研究點相關(guān)文章數(shù)都在100篇以上,其中計量相關(guān)研究的文章數(shù)最多,達(dá)到218篇,這其中很大一部分是關(guān)于文獻(xiàn)計量相關(guān)理論、方法與應(yīng)用.此外,“情報學(xué)理論與情報研究”與“競爭情報”研究篇數(shù)超過100篇.在前十個研究熱點中,“計量”、“引文分析”、“可視化與知識圖譜”、“社會網(wǎng)絡(luò)”、“h指數(shù)”與“共詞分析”這6個研究熱點可以歸屬于情報分析,體現(xiàn)了當(dāng)今國內(nèi)研究人員近年來比較重視以上述主流方法對各類情報進(jìn)行分析,從而對特定領(lǐng)域與范圍內(nèi)的期刊、人物或研究機(jī)構(gòu)進(jìn)行科學(xué)評價的工作.
為了更直觀地看出這些研究點在近5年的研究趨勢,我們對以上研究熱點關(guān)鍵詞在這5年中的相關(guān)文章數(shù)進(jìn)行統(tǒng)計,從中可以看出它們的研究文章變化趨勢,見圖5.
通過圖5可以看出,研究熱點的相關(guān)文章數(shù)整體呈現(xiàn)逐年遞增的趨勢,尤其是“社會網(wǎng)絡(luò)”發(fā)文量的增長趨勢較為明顯,年增長率最快,由2008年的3篇增長到2012年的37篇.此外,“可視化與知識圖譜”文章數(shù)由2008年的6篇增長到2012年的36篇,由此可見,最近幾年文獻(xiàn)情報分析中應(yīng)用社會網(wǎng)絡(luò)分析法對相關(guān)關(guān)鍵詞共現(xiàn)、作者合作等方面的研究得到較多的關(guān)注.可視化相關(guān)理論與方法及相關(guān)工具在文獻(xiàn)計量分析中生成相應(yīng)的知識圖譜也在近兩年的研究中增速明顯.
表5 國內(nèi)情報學(xué)科研究熱點
圖5 國內(nèi)情報學(xué)科研究熱點文章數(shù)年份變化
除了使用高頻詞聚類分析找出情報領(lǐng)域的研究熱點之外,我們通過對突發(fā)詞進(jìn)行監(jiān)測尋找潛在的研究熱點.突發(fā)詞監(jiān)測與高頻詞分析不同,前者主要是從關(guān)注詞自身的發(fā)展變化出發(fā),關(guān)注單個詞發(fā)展的階段性,而后者主要是對領(lǐng)域中各個詞的增長勢頭進(jìn)行比較[15].我們對所有文章關(guān)鍵詞相關(guān)文章數(shù)分年進(jìn)行統(tǒng)計.通過機(jī)器過濾加人工挑選相結(jié)合的方法,挑選出年發(fā)表文章增速較為明顯的6個文章關(guān)鍵詞(突發(fā)詞)作為潛在研究熱點,其歷年文章數(shù)及總數(shù)見表6.
由表6可以看出,這幾個研究點都是在2008年至2010年沒有相關(guān)文章或只有1~3篇,而在2011年與2012年兩年的發(fā)文量在10篇及以上.其中“網(wǎng)絡(luò)輿情/開源情報”的增速較為明顯,從2008年沒有相關(guān)文章到2012年18篇相關(guān)文章,表明越來越多的人開始關(guān)注開源情報的價值.此外,由于隱性知識在知識經(jīng)濟(jì)時代成為人們參與競爭的重要資源,對隱性知識的挖掘以及合理轉(zhuǎn)化為能被人們掌握、利用的有用知識是成為研究者近兩年開始關(guān)注的熱點.
我們選取“網(wǎng)絡(luò)輿情/開源情報”進(jìn)行統(tǒng)計分析,關(guān)鍵詞涉及網(wǎng)絡(luò)輿情的文章有32篇,對文章關(guān)鍵詞、作者與機(jī)構(gòu)進(jìn)行處理與抽取,共獲取關(guān)鍵詞92個,作者62個與機(jī)構(gòu)22個.對關(guān)鍵詞進(jìn)行關(guān)聯(lián)矩陣計算并生成相關(guān)研究點分布見圖6:
由圖6可以看出,網(wǎng)絡(luò)輿情/開源情報相關(guān)研究點包括話題挖掘、熱點發(fā)現(xiàn)、文獻(xiàn)分析、自動標(biāo)引、知識圖譜、網(wǎng)絡(luò)情緒、突發(fā)異常、預(yù)警、信息采集與微博客.相比以往的研究,隨著微博作為日益重要的輿情來源,已經(jīng)有部分學(xué)者在近兩年開展相關(guān)的研究,主要圍繞對微博中的輿情信息進(jìn)行采集與分析,以及其作為重要的輿情來源對企業(yè)進(jìn)行競爭情報的研究的影響等.此外,還有學(xué)者對潛在輿論話題識別、輿情演化、開源情報、情感分析、無標(biāo)度網(wǎng)絡(luò)等網(wǎng)絡(luò)輿情相關(guān)點進(jìn)行了研究.
本文針對情報學(xué)科領(lǐng)域科研動態(tài)的開源情報有效監(jiān)測與挖掘問題,提出一種基于ASKE框架的“面向情報領(lǐng)域的知識解析引擎方法”,該方法可以有效地對多源異構(gòu)的學(xué)科領(lǐng)域?qū)I(yè)文獻(xiàn)情報進(jìn)行采集與處理,并集成多種情報分析方法對領(lǐng)域核心人物機(jī)構(gòu)、研究熱點進(jìn)行解析,并通過近5年國內(nèi)情報學(xué)文獻(xiàn)進(jìn)行了實驗驗證.
表6 國內(nèi)情報學(xué)科潛在研究熱點
圖6 網(wǎng)絡(luò)輿情/開源情報相關(guān)研究點分布
“面向情報領(lǐng)域的知識解析引擎方法”實現(xiàn)了面向大數(shù)據(jù)的開源科技情報獲取與解析方法的有效集成,提供靈活的可擴(kuò)展性與配置,可適用于各個領(lǐng)域,以快速全面了解領(lǐng)域進(jìn)展,實現(xiàn)專家、機(jī)構(gòu)資料知識庫的半自動構(gòu)建,打通研究人員交流溝通的鴻溝.隨著大數(shù)據(jù)海量般地不斷增加,相信不久的將來,每個研究領(lǐng)域都需要依靠特定的深度精確的解析引擎系統(tǒng)來了解領(lǐng)域內(nèi)科研態(tài)勢并進(jìn)行價值轉(zhuǎn)化,實現(xiàn)各個領(lǐng)域知識獲取、傳播、創(chuàng)造、利用、產(chǎn)生的重大變革.