高勁松 黃梅 付家煒
收稿日期:2020-06-03
基金項目:中央高?;究蒲袠I(yè)務費自由探索項目“面向用戶的文物信息資源知識服務研究”(項目編號:CCNU20A06025);華中師范大學信息管理學院研究生自主科研項目“電子商務相似用戶評論推薦研究”。
作者簡介:高勁松(1966-),女,教授,博士生導師,研究方向:情報學、圖書館學。黃梅(1992-),女,碩士研究生,研究方向:可視化。付家煒(1994-),男,博士研究生,研究方向:知識管理與知識服務。
摘? 要:[目的/意義]能以簡潔的可視化來追蹤某學科研究熱點隨時間的變化趨勢,對于掌握學科研究熱點的動向具有重要意義。詞頻分析法是學科研究熱點分析方法之一,目前存在眾多的基于詞頻分析的可視化工具,但是這些可視化工具能夠以簡潔的可視化形式清晰地展現(xiàn)年度熱點關鍵詞存在局限性。[方法/過程]因此本文提出通過學科領域年度發(fā)文量與學科全部發(fā)文量的比值來衡量年度熱點關鍵詞對總年度熱點關鍵詞貢獻率的可視化方法:基于年度貢獻率與二八定律設定并調整閾值參數(shù)來控制年度高頻關鍵詞的呈現(xiàn)數(shù)量,將選取的年度高頻關鍵詞按照詞頻大小與年份依次排序以實現(xiàn)研究熱點可視化。[結果/結論]以“關聯(lián)數(shù)據(jù)”領域為例進行實證研究,通過分析本文方法提取的高頻關鍵詞與現(xiàn)有高頻詞閾值算法的匹配情況,對比本文方法與Citespace共現(xiàn)圖譜的可視化呈現(xiàn)效果,對本文方法的可行性進行檢驗與評價。
關鍵詞:可視化;高頻關鍵詞;詞頻分析;研究熱點;趨勢分析
DOI:10.3969/j.issn.1008-0821.2020.12.013
〔中圖分類號〕G250.252? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)12-0130-10
Research on Hot Spot Extraction and Visualization
Based on Annual High-frequency Keywords
Gao Jinsong? Huang Mei? Fu Jiawei
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]It is of great significance to follow the trend of research hotspots in a subject with simple visualization in order to grasp the trend of research hotspots in a subject.Word frequency analysis is one of the hotspot analysis methods of subject research.Currently,there are many visualization tools based on word frequency analysis,but there are limitations that these visualization tools can clearly display the annual hot keywords in a concise visual form.[Method/Process]Therefore,this paper proposed a visualization method to measure the contribution rate of annual hot keywords to the total annual hot keywords by the ratio of the annual amount of articles in the subject area to the total amount of articles in the subject:based on the annual contribution rate and the 80/20 law,the threshold parameters were set and adjusted to control the number of annual high-frequency keywords presented,and the selected annual high-frequency keywords were sorted in order of word frequency and year to achieve visualization of research hotspots.[Result/Conclusion]Taking the field of“l(fā)inked data”as an example to conduct empirical research,by analyzing the matching of the extracted high-frequency keywords with the existing high-frequency keyword extraction methods and comparing the visualization method presented in this paper with Citespaces co-occurrence knowledge map,Test and evaluate the feasibility of this method was.
Key words:visualization;high frequency keywords;word frequency analysis;research hotspots;trend analysis
信息可視化通過可視化圖形的表現(xiàn)形式揭示數(shù)據(jù)中隱含的信息和規(guī)律以增強人的認知能力[1]。隨著各個學科研究的不斷深入,科技研究文獻不斷增多,在浩如煙海的科技文獻資源中用可視化的形式展現(xiàn)研究熱點與發(fā)展趨勢,為科研人員進行研究決策提供了便利。文獻關鍵詞是文獻核心內(nèi)容的高度概括,濃縮并提煉了文獻的主題、內(nèi)容與研究方法。研究人員的研究多數(shù)需要參考前人的研究成果,通常某學科關鍵詞在短時間內(nèi)不會憑空產(chǎn)生與消失,而是處于動態(tài)變化的過程,詞頻的波動與社會現(xiàn)象和情報現(xiàn)象之間存在著內(nèi)在的聯(lián)系,一定的社會現(xiàn)象和情報現(xiàn)象要引起一定的詞頻波動現(xiàn)象[2-3]。如果某一關鍵詞或主題詞在其所在領域的文獻中反復出現(xiàn),則可反映出該關鍵詞或主題詞所表現(xiàn)的研究主題是該領域的研究熱點[4]。通過統(tǒng)計關鍵詞、主題詞、篇名詞等核心詞匯在某一類學術文獻中所出現(xiàn)的頻次,可以判別該學術領域的研究熱點、知識結構和發(fā)展趨勢[5]。因此一般認為,某時段學術論文的高頻關鍵詞即是該時段的研究熱點[6,13]。
目前已經(jīng)有很多可視化工具以關鍵詞為基礎來分析學科領域研究熱點與發(fā)展趨勢,如Citespace、Ucinet、SciMAT、NEViewer等,對學科領域研究熱點與發(fā)展趨勢分析有重要的幫助,并取得了優(yōu)秀成果。雖然這些工具在文獻計量學的詞頻分析與可視化方面較為完善,但是仍然存在可視化呈現(xiàn)的不足之處,如可視化顯示信息過多且復雜,用戶感知存在困難等。
因此本文用每年發(fā)文量與全部發(fā)文量比值來權衡年度高頻關鍵詞對研究熱點的貢獻,統(tǒng)計年度文獻的關鍵詞詞頻并排序,然后截取一定量的高頻關鍵詞,按照頻次的高低依次從上往下排序并嵌入時間進行可視化呈現(xiàn)來分析學科研究熱點與發(fā)展趨勢。
1? 相關研究
1.1? 詞頻分析
詞頻分析法是利用能夠解釋或表達文獻核心內(nèi)容的關鍵詞或主題詞,在某一研究領域文獻中出現(xiàn)的頻次高低來確定該領域研究熱點和發(fā)展動向的文獻計量方法[4]。詞頻分析法是情報分析方法之一,已經(jīng)在文獻計量學相關研究上得到了廣泛的應用。傅柱等[7]使用詞頻分析法分析國內(nèi)外知識研究熱點。歐陽博等[8]使用關鍵詞詞頻分析綜述國外信息系統(tǒng)持續(xù)使用模型應用現(xiàn)狀。邱均平等[9]與鞏永強等[10]嘗試使用詞頻率,即年度關鍵詞詞頻與年度總文獻數(shù)量之比來分析熱點關鍵詞的變化趨勢。奉國和等[11]對關鍵詞賦予時間權值來研究學科熱點關鍵詞與變化趨勢。
基于詞頻分析法衍生出來的共詞分析、聚類分析等研究熱點的方法受到了眾多學者的關注。共現(xiàn)分析的研究主要包括:陳勇躍等[12]劃分各時間段分別提取臨床醫(yī)學高頻關鍵詞,使用Ucinet 6.0工具分別對各時間段進行共現(xiàn)網(wǎng)絡可視化追蹤臨床醫(yī)學研究熱點與趨勢的變化;盧新元等[13]使用Citespace將國內(nèi)知識轉移的高頻關鍵詞進行共現(xiàn)網(wǎng)絡圖與時區(qū)網(wǎng)絡圖來分析研究熱點;劉自強等[14]基于關鍵詞的時間標簽分層構建共詞網(wǎng)絡圖譜,實現(xiàn)時序共詞網(wǎng)絡的動態(tài)可視化,并以國內(nèi)圖情領域“數(shù)據(jù)挖掘”為例進行實證研究。聚類分析的研究主要包括:高勁松等[15]使用SPSS對高頻關鍵詞進行聚類來分析國內(nèi)外關聯(lián)數(shù)據(jù)的研究主題;劉自強等[2]通過關鍵詞群總頻次與年度發(fā)文量的比重情況構建時間序列,然后以可視化形式追蹤關鍵詞群的發(fā)展趨勢,并以“競爭情報”領域為例進行實證研究;施蕭蕭等[16]使用SPSS、Ucinet工具分別進行共現(xiàn)與主題聚類來分析國外顛覆性創(chuàng)新研究熱點。
近年來,多數(shù)學者集中于對高頻關鍵詞的共現(xiàn)網(wǎng)絡與主題聚類的相關研究,而對單個關鍵詞的變化趨勢與可視化的相關研究相對較少。聚類分析是在高頻關鍵詞共現(xiàn)關系的基礎上進行的聚類,關鍵詞共現(xiàn)關系體現(xiàn)了研究內(nèi)容的耦合,即兩兩關鍵詞同時出現(xiàn)在同一篇文獻,各種聚類算法在不同程度上存在一定的不足導致聚類結果存在偏差、信息過度擬合等問題,而研究學科領域的研究熱點與變化趨勢僅以研究熱點的共現(xiàn)與主題分析有些不合理,單個關鍵詞的變化也應當被考慮,從而更加充分地分析學科研究熱點與變化趨勢。
1.2? 文本可視化
文本可視化旨在將文本中復雜的或者難以通過文字表達的內(nèi)容和規(guī)律以視覺符號的形式表達出來,通過與視覺信息的交互,使人們能夠快速地獲取文本可視圖中所隱含的關鍵信息[17]?,F(xiàn)有的文本詞頻可視化技術已經(jīng)相當成熟,其中以標簽云為代表的詞頻可視化已經(jīng)得到了較好的應用。標簽云[18]圖采用TF-IDF來計算詞頻的重要性,文字的大小表示詞語的重要性,然后按照一定的規(guī)律排列,如關鍵詞的頻度遞減來進行布局。另一種常用的文本可視化即樹圖(TreeMap)[19],使用嵌套的長方形來表示不同層次,以長方形的方向表示不同層次的變換,并以長方形的大小來表示節(jié)點的重要性,例如在Web of Science數(shù)據(jù)庫中對選中的文獻采用了TreeMap可視化展現(xiàn)的形式。
為了體現(xiàn)文本的變化趨勢,有學者結合時間與詞頻可視化方式來呈現(xiàn)熱點詞隨時間變化的情況。將標簽云與時間相結合形成可視化的主要有:Text Flow標簽云時間軸模型圖、主題河流圖、SparkClouds圖等[17,20]。Text Flow標簽云時間軸模型圖與主題河流圖[21]是將主題標簽云與時間模型相結合,是文本流系統(tǒng)(Text Flow)中的其中兩種詞頻可視化形式。SparkClouds圖[22]即在標簽云的每個詞語下方引入折線圖以表示每個詞語隨著時間的使用頻度而變化。
綜上所述,詞頻分析法在研究熱點與發(fā)展趨勢方面的應用非常普遍,但是詞頻演變可視化的相關研究相對較少。為了彌補基于高頻關鍵詞分析研究熱點與趨勢變化可視化的不足,本文將時間年度與現(xiàn)有詞頻文本可視化方式相結合來探討熱點關鍵詞的發(fā)展態(tài)勢,期望能夠豐富基于時間的詞頻可視化呈現(xiàn)形式,為研究學科熱點與趨勢提供一定的參考。
2? 基于年度高頻關鍵詞的研究熱點提取與可視化方法
本文結合時間年度與詞頻可視化來追蹤學科領域研究熱點關鍵詞的變化,采用研究熱點關鍵詞所在時間節(jié)點的詞頻高低與位次來展現(xiàn)學科領域的研究熱點的發(fā)展動態(tài)。文本詞頻可視化一般經(jīng)過信息收集、數(shù)據(jù)預處理、知識表示、視覺呈現(xiàn)、用戶與信息圖的交互等過程[17,23]。本文提出的年度高頻關鍵詞可視化方法也遵循這樣的過程,其主要包括3個部分:高頻關鍵詞提取、可視化呈現(xiàn)、可視化分析。本文提出的可視化方法過程如圖1所示。
2.1? 高頻關鍵詞提取
學科領域文獻的關鍵詞頻次越高則說明學者對該關鍵詞研究方向關注度就越高,通過獲得高頻關鍵詞的發(fā)展趨勢可以掌握學科領域文獻研究熱點的變化。界定高頻關鍵詞的數(shù)量來判斷研究熱點的方法有很多,如自定義選取、齊普夫第二定律、普賴斯公式等,自定義選取的方法雖然存在主觀性,但是使用較多,而齊普夫第二定律與普賴斯公式較為客觀,但是也存在不適用的情況[24]。有學者發(fā)現(xiàn)關鍵詞每年的累積頻次都達到或超過當年關鍵詞總頻次的20%,符合集中分散的二八定律[25]。楊愛青等[26]嘗試使用g指數(shù)來截取研究熱點高頻關鍵詞的數(shù)量并用二八定律與齊普夫第二定律對截取的高頻關鍵詞進行驗證。劉奕杉等[24]通過對個人知識管理領域的研究熱點高頻關鍵詞閥值選取進行實證分析發(fā)現(xiàn),二八定律相對于其他方法截取高頻關鍵詞更合適。多數(shù)研究者采用傳統(tǒng)熱點關鍵詞界定的方式提取總文獻高頻關鍵詞進行熱點研究,而關鍵詞具有繼承性,傳統(tǒng)研究熱點界定方式很少考慮每年文獻數(shù)量對熱點關鍵詞的影響。在不同年份學科領域的文獻數(shù)量存在變動的情況下,隨著文獻數(shù)量的變動,高頻關鍵詞的頻次會發(fā)生相應的改變,高頻關鍵詞的數(shù)量也會有所不同。通過收集與歸納文獻的關鍵詞發(fā)現(xiàn):一般情況下,學科領域在年度發(fā)文數(shù)量與對應的年度高頻關鍵詞數(shù)量存在正向關系。因此本文將時間年度與研究熱點相結合,將每年文獻數(shù)量與總文獻數(shù)量比值作為每年高頻關鍵詞對研究熱點的貢獻值,但是可視化關鍵詞數(shù)量有限,還需要設定參數(shù)閾值α使其能夠按照年度貢獻值的比例來計算年度高頻關鍵詞的選取數(shù)量,在此基礎上根據(jù)總年度高頻關鍵詞的二八定律來調整閾值α的取值,使得提取的所有年度高頻關鍵詞能與總年度高頻關鍵詞詞頻總和占全部關鍵詞的詞頻總和約為20%的高頻關鍵詞匹配。年度高頻關鍵詞的熱點關鍵詞數(shù)量選取表達式為:
x=αniN(100≤α≤N)
其中,ni表示收集文獻第i年度的發(fā)文數(shù)量,N表示收集文獻的總數(shù)量,α為參數(shù),x為第i年可視化關鍵詞個數(shù)。
2.2? 可視化呈現(xiàn)
人類從外界獲得的信息大約有80%以上來自于視覺系統(tǒng)[27-28]。在大數(shù)據(jù)環(huán)境下,可視化表達對情報產(chǎn)品的數(shù)據(jù)表達的便利性、易讀性、生動性和可傳播性方面具有很大的應用潛力[29]。在浩如煙海的文獻資料中,一張圖勝千言、一張圖讀懂系列等可視化案例對于科學人員對學科領域追蹤研究熱點與發(fā)展趨勢具有重要作用。文本可視化呈現(xiàn)重要的任務就是將處理過后的文本數(shù)據(jù)采用合適的視覺編碼來呈現(xiàn)文本信息的特征,文本內(nèi)容的視覺編碼主要包括尺寸、顏色、形狀、方位等[17]。在文本可視化中詞語的頻度通常用字體大小來表示,不同的文本使用不同的顏色加以區(qū)分。本文在提取年度高頻關鍵詞并按照頻次大小依次排序,然后分別根據(jù)每年高頻關鍵詞的貢獻值選取適合的α參數(shù)閾值并計算呈現(xiàn)的關鍵詞數(shù)量,將選取的年度高頻關鍵詞按照詞頻大小與對應字體大小進行展現(xiàn),頻次越高則對應的字體就越大,相同的關鍵詞采用相同的顏色,不同關鍵詞使用不同的顏色加以區(qū)分,最后在時間軸上分別將年度高頻關鍵詞按照詞頻大小依次進行排列展現(xiàn)。
2.3? 可視化分析
由于科學人員的研究需要參考前人的研究成果,而關鍵詞是文獻核心內(nèi)容的高度概括,一般情況下短時間內(nèi)某學科領域研究熱點關鍵詞不會憑空產(chǎn)生與消失,而是隨著時間呈現(xiàn)動態(tài)的變化,因此學科領域研究熱點關鍵詞具有繼承性,所以能通過學科領域研究熱點關鍵詞的變化來預測研究熱點的發(fā)展趨勢[2]。本文提出基于時間的高頻關鍵詞可視化方法是按年度提取高頻關鍵詞,而年度高頻關鍵詞的年度分布、頻次大小與排序的位次的變化則反應了研究熱點關鍵詞的變化,因此對學科領域年度高頻關鍵詞可視化分析內(nèi)容主要包括高頻關鍵詞分類分析、高頻關鍵詞的年度分布分析、高頻關鍵詞的熱度分析等,進而掌握學科領域研究熱點與發(fā)展趨勢。
3? 實證研究
3.1? 數(shù)據(jù)收集與預處理
為了對本文提出的基于年度高頻關鍵詞的研究熱點可視化方法進行驗證,以近10年來國內(nèi)關聯(lián)數(shù)據(jù)領域的研究熱點發(fā)展趨勢為例進行可視化展示。在CNKI數(shù)據(jù)庫中以“關聯(lián)數(shù)據(jù)”進行關鍵詞檢索,文獻類型選擇期刊、學位和會議論文,時間跨度為2010—2019年。通過對初始收集的文獻進行清洗,共收集了899篇文獻,圖2為“關聯(lián)數(shù)據(jù)”的年度發(fā)文量與文獻分布情況。由圖2所示,互聯(lián)網(wǎng)與信息技術的快速發(fā)展,推動了關聯(lián)數(shù)據(jù)領域的相關研究,2010—2013年關聯(lián)數(shù)據(jù)的相關研究文獻快速逐年增長,到2013之后增長速度有所放慢,2016年達到了頂峰。2017年關聯(lián)數(shù)據(jù)的相關研究開始出現(xiàn)下降的趨勢,說明科研人員對關聯(lián)數(shù)據(jù)的研究關注度有所減弱。因此追蹤關聯(lián)數(shù)據(jù)研究熱點的變化趨勢,科學合理地分析研究熱點的變化對于今后的研究具有重要的意義。
將收集的文獻根據(jù)年份劃分,使用Bicomb2分別對每年的文獻進行關鍵詞提取、清洗并統(tǒng)計排序,依據(jù)本文提出選取關鍵詞的公式分別計算每年顯示關鍵詞個數(shù),再根據(jù)總年度高頻關鍵詞頻次總和前20%的關鍵詞可得α=120。由于使用“關聯(lián)數(shù)據(jù)”進行關鍵詞檢索,因此本次呈現(xiàn)的可視化去除了“關聯(lián)數(shù)據(jù)”,則每年顯示關鍵詞的詞頻與數(shù)量如表1所示。
3.2? 關聯(lián)數(shù)據(jù)領域年度高頻關鍵詞可視化
本文使用Python中的Matplotlib包將經(jīng)過處理之后的年度熱點關鍵詞數(shù)據(jù),按照關鍵詞頻次高低依次在時間軸上排列,即關鍵詞頻次較高的在上方,關鍵詞頻次較低的在下方。關鍵詞詞頻的高低與顯示的關鍵詞字體大小相對應,即關鍵詞頻次高顯示的字體就大,而關鍵詞頻次低則顯示的字體就小,不同關鍵詞使用不同的顏色,呈現(xiàn)結果如圖3所示。
由圖3可知,關聯(lián)數(shù)據(jù)研究領域每年關鍵詞的排列長短反應了這段時間內(nèi)每年發(fā)文量的一個變化趨勢,2016年的發(fā)文總量在這10年中是最多的,2010年發(fā)文量最少。2010—2016年關聯(lián)數(shù)據(jù)研究領域逐年增長,到2016年達到了頂峰,之后發(fā)文量開始下降。關聯(lián)數(shù)據(jù)領域的發(fā)文趨勢反應了科研人員對這個領域關注的變化,而關鍵詞的頻次與位次的變化,則反應具體研究方向的變化。根據(jù)圖3對關聯(lián)數(shù)據(jù)領域進行如下分析。
3.2.1? 關聯(lián)數(shù)據(jù)領域高頻關鍵詞的分類分析
圖3中的高頻關鍵詞具有明顯的類別特征,這些關鍵詞大致可分為應用領域與研究方向兩大類。從表征應用領域的關鍵詞:圖書館、數(shù)字圖書館、機構知識庫、數(shù)字人文、非物質文化遺產(chǎn)等可以看出關聯(lián)數(shù)據(jù)主要應用在這些領域。表征研究方向又可分為兩大類,一類是關聯(lián)數(shù)據(jù)基礎理論與技術,如語義網(wǎng)的相關技術、RDF等。另一類是具有目標性的關鍵詞,如資源整合、知識組織、知識服務、發(fā)現(xiàn)知識、關聯(lián)數(shù)據(jù)發(fā)布等,這些目標性關鍵詞主要是使用關聯(lián)數(shù)據(jù)的技術和思想開展相關的研究。
3.2.2? 關聯(lián)數(shù)據(jù)領域高頻關鍵詞的分布分析
在關聯(lián)數(shù)據(jù)研究領域中語義網(wǎng)始終貫穿于近10年間,在2014年語義網(wǎng)的字體最大說明頻次最高,在2010—2017年語義網(wǎng)是每年出現(xiàn)頻次最高的關鍵詞,直到2018年被知識圖譜取代,2019年被本體取代,但是相對其他關鍵詞頻次還是比較高。本體在2012年開始出現(xiàn),在后來的相關研究中出現(xiàn)頻次相對其他關鍵詞都比較高。由此得出語義網(wǎng)、本體等熱點關鍵詞與關聯(lián)數(shù)據(jù)關系密切,這些關鍵詞是關聯(lián)數(shù)據(jù)領域研究的基礎。圖書館、數(shù)字圖書館等關鍵詞相對其他應用領域關鍵詞年度分布較為均勻且頻次都比較高,由此說明了基于關聯(lián)數(shù)據(jù)的相關研究很大程度上應用于圖書館、數(shù)字圖書館領域。表征研究方向的關鍵詞如知識組織、知識服務、知識發(fā)現(xiàn)、資源整合等關鍵詞頻次與分布較為均勻,但是知識組織、資源整合相對于知識服務、知識發(fā)現(xiàn)出現(xiàn)頻次較高,由此得出基于關聯(lián)數(shù)據(jù)的相關研究方向主要為知識組織、資源整合等。分析高頻關鍵詞的年度分布與頻次,可以得出關聯(lián)數(shù)據(jù)領域相關研究的側重點,期望給今后從事關聯(lián)數(shù)據(jù)研究人員提供參考。
3.2.3? 關聯(lián)數(shù)據(jù)領域高頻關鍵詞的熱度分析
通過年度高頻關鍵詞基于時間的排序與詞頻變化來揭示關鍵詞的熱度。根據(jù)文獻關鍵詞具有繼承性,本文將關鍵詞熱度主要劃分為新興型、穩(wěn)定型、衰退型3大類。
1)新興型關鍵詞。新興狀態(tài)的關鍵詞表現(xiàn)為近一段時間突然出現(xiàn)的關鍵詞或是這段時間持續(xù)出現(xiàn)。在本文關聯(lián)數(shù)據(jù)可視化圖中發(fā)展狀態(tài)較好的關鍵詞主要包括BTBFRME(The Bibliographic Framework Initiative)、大數(shù)據(jù)、數(shù)字人文、知識圖譜、非物質文化遺產(chǎn)等,其中BTBFRME、數(shù)字人文、知識圖譜這些關鍵詞在近幾年出現(xiàn)并且頻次相對較高或排序相對靠前則表現(xiàn)明顯的新興型特征。BTBFRME是國際上新的編目規(guī)則,在近年來受到學者的關注?;陉P聯(lián)數(shù)據(jù)對圖書館資源的組織和整合體現(xiàn)了優(yōu)勢,因此更多學者借鑒關聯(lián)數(shù)據(jù)在圖書館的應用將關聯(lián)數(shù)據(jù)應用于數(shù)字人文,組織、整合數(shù)字人文的相關數(shù)據(jù)。近年來隨著知識圖譜的不斷應用與發(fā)展,學者注重將關聯(lián)數(shù)據(jù)組織、整合的信息或知識通過知識圖譜來呈現(xiàn),便于用戶理解、發(fā)現(xiàn)和快速吸收信息或知識。
2)穩(wěn)定型關鍵詞。穩(wěn)定狀態(tài)的關鍵詞表現(xiàn)為在整個分析時間段關鍵詞的頻次與排序相對穩(wěn)定。在本文關聯(lián)數(shù)據(jù)可視化圖中有代表穩(wěn)定狀態(tài)的關鍵詞主要有語義網(wǎng)、本體、圖書館、數(shù)字圖書館、知識組織等,而語義網(wǎng)、本體、圖書館呈現(xiàn)穩(wěn)定狀態(tài)較為明顯。雖然眾多學者致力于將關聯(lián)數(shù)據(jù)與語義網(wǎng)、本體相結合來組織和整合圖書館資源,但是由于圖書館資源龐大且復雜,而用戶不斷追求圖書館服務、服務的質量與水平等,因此在相關研究中關聯(lián)數(shù)據(jù)與語義網(wǎng)、本體、圖書館的關系相對穩(wěn)定。
3)衰退型關鍵詞。衰退狀態(tài)的關鍵詞表現(xiàn)為在開始前幾年出現(xiàn)或是在前幾年持續(xù)出現(xiàn)一段時間而后幾年就消失了,呈現(xiàn)衰退狀態(tài)的關鍵詞主要有網(wǎng)絡數(shù)據(jù)、科學數(shù)據(jù)等。近年來隨著計算機的快速發(fā)展,網(wǎng)絡數(shù)據(jù)呈現(xiàn)爆炸式增長,網(wǎng)絡數(shù)據(jù)已經(jīng)成為常態(tài)化,而研究者更多關注于對網(wǎng)絡大數(shù)據(jù)的分析。而科學數(shù)據(jù)是一門新興學科,但是由于相關的理論、技術基礎還比較薄弱,因此較少受到學者的關注。
由以上可視化與分析可知關聯(lián)數(shù)據(jù)在10年內(nèi)研究熱點關鍵詞處于動態(tài)變化的過程,年度高頻關鍵詞的頻次與排序呈現(xiàn)上下波動的形式,通過本文提出可視化方法來追蹤學科領域熱點關鍵詞的發(fā)展態(tài)勢,希望能為科學人員的選題提供一定的參考意義。但是本文提出的可視化方法僅是基于統(tǒng)計方式并在此基礎上進行的分析,由于篇幅有限未能對本文可視化方法與內(nèi)容分析法相結合進行全面的論述。
3.3? 本文方法可行性分析
1)高頻關鍵詞提取方法的可行性
為了驗證本文提取高頻關鍵詞方法的可行性,對本文提取高頻關鍵詞的方法與現(xiàn)有其他方法進行分析。將收集的關聯(lián)數(shù)據(jù)領域的全部文獻,使用Bicomb2工具進行關鍵詞的提取,對初始提取的關鍵詞進行清洗。由于本實驗是以“關聯(lián)數(shù)據(jù)”為檢索詞進行的檢索,因此高頻關鍵詞選取過程中不考慮該詞詞頻。高頻關鍵詞選取的方法主要包括齊普夫第二定律、普賴斯公式、二八定律、g指數(shù)等[21,23]。使用齊普夫第二定律獲取的高頻關鍵詞數(shù)量為5,使用普賴斯公式獲取的高頻關鍵詞數(shù)量為94,使用g指數(shù)獲得的高頻關鍵詞數(shù)量為25,根據(jù)二八定律獲取的高頻關鍵詞數(shù)量為32,由此可知本次實驗根據(jù)齊普夫第二定律獲取的高頻關鍵詞數(shù)量偏少,根據(jù)普賴斯公式獲得的高頻關鍵詞數(shù)量過多,而g指數(shù)與二八定律獲取的高頻關鍵詞數(shù)量較為合適,但相對于g指數(shù)、二八定律獲取的高頻關鍵詞相對較多、涵蓋的范圍比較廣,因此本文選取二八定律來分析本文提出年度高頻關鍵詞的研究熱點方法的可行性。選取高頻關鍵詞的詞頻之和占所有關鍵詞總詞頻的20.05%可得32個高頻關鍵詞,即關鍵詞詞頻大于等于10,詞頻總和為743,截取的高頻關鍵詞如表2所示。
通過對圖3與表2的熱點關鍵詞對照發(fā)現(xiàn):表2中語義網(wǎng)、本體、圖書館、RDF、數(shù)字圖書館、書目數(shù)據(jù)、知識組織等頻次都比較高,在圖3中這些關鍵詞分布的年份較為均勻,但是頻次與位次會發(fā)生不同程度的變動。本文可視化方法中展現(xiàn)的高頻關鍵詞都能與表2中統(tǒng)計的高頻關鍵詞與之匹配,即本文提出的可視化方法設定參數(shù)閾值α控制高頻關鍵詞與二八定律獲取的高頻關鍵詞能匹配,如果出現(xiàn)兩者間有少量不匹配的關鍵詞則可通過再次合并相似關鍵詞或者適當調整閾值α來提高匹配度,由此可以得出本文提出的年度高頻關鍵詞方法具有一定的可行性。
2)研究熱點可視化方法的可行性
為了檢驗本文可視化的可行性,將本文可視化與Citespace工具繪制的共現(xiàn)知識圖譜中的高頻關鍵詞的研究熱點進行對比分析。對收集的文獻數(shù)據(jù)使用Citespace工具對關鍵詞基于詞頻的共現(xiàn)展示,詞頻閾值選擇2,得到關鍵詞共現(xiàn)知識圖譜如圖4所示。在關鍵詞共現(xiàn)知識圖譜中,節(jié)點與標簽字體大小代表關鍵詞共現(xiàn)頻次大小,節(jié)點間連線的粗細代表關鍵詞之間共現(xiàn)關系的強弱,節(jié)點間連線的顏色代表關鍵詞之間建立共現(xiàn)的年份,由共現(xiàn)知識圖譜(圖4)可以看出在關聯(lián)數(shù)據(jù)領域高頻關鍵詞主要有語義網(wǎng)、圖書館、本體、RDF、數(shù)字圖書館、知識組織、資源聚合、知識服務、知識發(fā)現(xiàn)、BIBFRAME、書目數(shù)據(jù)等,與網(wǎng)絡數(shù)據(jù)共現(xiàn)的關鍵詞連線顏色較深則表明了網(wǎng)絡數(shù)據(jù)共現(xiàn)年份出現(xiàn)較早,與數(shù)字人文、非物質文化遺產(chǎn)共現(xiàn)的關鍵詞連線顏色比較淺則表明了數(shù)字人文、非物質文化遺產(chǎn)等關鍵詞是近年來新出現(xiàn)的研究熱點,語義網(wǎng)、數(shù)字圖書館、圖書館、知識組織、知識服務、知識發(fā)現(xiàn)等關鍵詞共現(xiàn)連線顏色有深有淺則代表了這些關鍵詞在前后年份都有分布,這與本文可視化研究熱點結果基本一致,這表明了本文可視化方法具有一定的可行性。雖然本文可視化方法不僅能追蹤年度高頻關鍵詞研究熱點的變化,還能展示學科領域文獻數(shù)量的分布,但是本文可視化方法未能充分體現(xiàn)關鍵詞之間的共現(xiàn)關系。
4? 結? 語
本文以基于年度高頻關鍵詞的研究熱點提取與可視化方法為主要研究內(nèi)容,在對近年來詞頻分析與文本可視化領域研究現(xiàn)狀進行深入探析的基礎上,發(fā)現(xiàn)相關領域對于詞頻演變趨勢和研究熱點變遷可視化的研究有所不足。因而本文提出了將時間要素與頻度要素相結合的研究熱點分析策略,首先構建基于年度高頻關鍵詞進行領域研究熱點分析的過程模型,在計算關鍵詞高頻閾值的基礎上,通過尺寸、顏色、形狀、方位等要素對年度高頻關鍵詞進行視覺編碼,并通過年度高頻詞在時間軸下的視覺呈現(xiàn)實現(xiàn)研究熱點的提取與可視化。在過程模型構建的基礎上,本文以近10年來國內(nèi)“關聯(lián)數(shù)據(jù)”領域的研究熱點演變趨勢為例,對提出的研究熱點提取與可視化方法進行驗證。實驗結果表明,本文提出的基于年度高頻關鍵詞的研究熱點可視化方法與以Citespace為代表的詞頻可視化工具相比,在關鍵詞高頻閾值計算和年度熱點詞的視覺呈現(xiàn)等方面均體現(xiàn)一定的優(yōu)勢和較強的可行性。但是,本文提出的研究熱點可視化方法對于高頻關鍵詞之間的共現(xiàn)關系未能進行全面充分挖掘地,因此在未來的研究中,還需對本方法進行進一步優(yōu)化與完善。
參考文獻
[1]任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學報,2014,25(9):1909-1936.
[2]劉自強,王效岳,白如江.基于時間序列模型的研究熱點分析預測方法研究[J].情報理論與實踐,2016,39(5):27-33.
[3]鄧珞華.詞頻分析——一種新的情報分析研究方法[J].大學圖書館通訊,1988,(2):18-25.
[4]邱均平,溫芳芳.近五年來圖書情報學研究熱點與前沿的可視化分析——基于13種高影響力外文源刊的計量研究[J].中國圖書館學報,2011,37(2):51-60.
[5]張勤.詞頻分析法在學科發(fā)展動態(tài)研究中的應用綜述[J].圖書情報知識,2011,(2):95-98,128.
[6]余豐民,林彥汝.基于關鍵詞詞頻統(tǒng)計的學科研究熱點漂移程度模型構建及實證分析[J].情報理論與實踐,2020,43(2):100-105.
[7]傅柱,王曰芬,陳必坤.國內(nèi)外知識流研究熱點:基于詞頻的統(tǒng)計分析[J].圖書館學研究,2016,(14):2-12,21.
[8]歐陽博,劉坤鋒,楊海娟.國外信息系統(tǒng)持續(xù)使用模型應用研究綜述[J].現(xiàn)代情報,2017,37(8):171-177.
[9]邱均平,丁敬達.1999—2008年我國圖書館學研究的實證分析(下)[J].中國圖書館學報,2009,35(6):79-87,118.
[10]鞏永強,劉莉.基于詞頻分析法的情報學研究熱點透析[J].圖書館學研究,2011,(13):9-13.
[11]奉國和,孔泳欣.基于時間加權關鍵詞詞頻分析的學科熱點研究[J].情報學報,2020,39(1):100-110.
[12]陳勇躍,田文芳,吳金紅.主題領域研究熱點跟蹤及趨勢預測的可視化分析方法研究[J].情報理論與實踐,2017,40(6):117-121.
[13]盧新元,張恒,王馨悅,等.基于科學計量學的國內(nèi)企業(yè)知識轉移研究熱點和前沿分析[J].情報科學,2019,37(3):169-176.
[14]劉自強,岳麗欣,許海云,等.時序共詞網(wǎng)絡構建及其動態(tài)可視化研究[J].情報學報,2020,39(2):186-198.
[15]高勁松,劉洪秋.基于知識圖譜的國內(nèi)外關聯(lián)數(shù)據(jù)研究分析[J].情報科學,2018,36(3):117-124.
[16]施蕭蕭,張慶普.基于共詞分析的國外顛覆性創(chuàng)新研究現(xiàn)狀及發(fā)展趨勢[J].情報學報,2017,36(7):748-759.
[17]唐家渝,劉知遠,孫茂松.文本可視化研究綜述[J].計算機輔助設計與圖形學學報,2013,25(3):273-285.
[18]Viégas F B,Wattenberg M.Timelines Tag Clouds and the Case for Vernacular Visualization[J].interactions,2008,15(4):49-52.
[19]Johnson B,Shneiderman B.Tree-maps:A Space-filling Approach to the Visualization of Hierarchical Information Structures[M].IEEE,1991.
[20]湯斯亮,程璐,邵健,等.基于概率主題建模的新聞文本可視化綜述[J].計算機輔助設計與圖形學學報,2015,27(5):771-782.
[21]Cui W,Liu S,Tan L,et al.Textflow:Towards Better Understanding of Evolving Topics in Text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.
[22]Lee B,Riche N H,Karlson A K,et al.Sparkclouds:Visualizing Trends in Tag Clouds[J].IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182-1189.
[23]馬創(chuàng)新,陳小荷.文本的可視化知識表示[J].情報科學,2017,35(3):122-127.
[24]劉奕杉,王玉琳,李明鑫.詞頻分析法中高頻詞閾值界定方法適用性的實證分析[J].數(shù)字圖書館論壇,2017,(9):42-49.
[25]邱均平,丁敬達,周春雷.1999—2008年我國圖書館學研究的實證分析(上)[J].中國圖書館學報,2009,35(5):72-79.
[26]楊愛青,馬秀峰,張風燕,等.g指數(shù)在共詞分析主題詞選取中的應用研究[J].情報雜志,2012,31(2):52-55,74.
[27]Ren L.Research on Interaction Techniques in Information Visualization[Ph.D.Thesis].Beijing:The Chinese Academy of Sciences,2009(in Chinese with English Abstract).
[28]Card S K,Mackinlay J D,Shneiderman B.Readings in Information Visualization:Using Vision To Think[J].San Francisco:Morgan-Kaufmann Publishers,1999:1-712.
[29]張迪,趙亞娟,趙慧敏,等.情報產(chǎn)品可視化展示模式和方法研究[J].情報理論與實踐,2020,43(2):66-71.
(責任編輯:陳? 媛)