李曉明+宮啟生+謝靜靜
摘 要:為客觀反映我國檔案數(shù)字化研究的相關情況,促進數(shù)字檔案館建設,運用文獻計量和可視化分析方法,對CNKI收錄的2001年以來有關檔案數(shù)字化研究的期刊論文從時間、來源、作者、機構、主題和熱點等角度,結合CiteSpace繪制的知識圖譜進行統(tǒng)計及可視化分析。結果表明,檔案數(shù)字化期刊論文持續(xù)增長,高發(fā)文作者數(shù)量較少,作者及機構間合作不多,檔案數(shù)字化、對策、高校檔案等是研究的熱點。
關鍵詞:檔案數(shù)字化;計量分析;可視化分析;CiteSpace;知識圖譜;CNKI;2001~2013
1 引言
檔案數(shù)字化是將傳統(tǒng)的紙質(zhì)檔案、圖像照片、聲像檔案和縮微膠片等通過掃描、攝錄、采集等手段轉(zhuǎn)化為數(shù)字形式的計算機文件的過程。[1]檔案數(shù)字化對提高檔案信息利用效果、確保傳統(tǒng)載體檔案安全、節(jié)省存儲空間、實現(xiàn)檔案精細化和自動化管理、建設現(xiàn)代新型檔案館等具有重要意義,是檔案信息化、網(wǎng)絡化的要求,更是數(shù)字檔案館建設的首要任務。[2]
上世紀后期,我國開始了檔案數(shù)字化的研究和實踐,隨著時代的發(fā)展和技術的進步,特別是國家相關政策、標準的陸續(xù)完善,有力地促進了檔案數(shù)字化工作。國家檔案局2005年發(fā)布了標準《紙質(zhì)檔案數(shù)字化技術規(guī)范》(DA/T 31-2005),2011年印發(fā)了《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》,要求“加快推進傳統(tǒng)載體檔案數(shù)字化”。[3]為加快檔案數(shù)字化,推進數(shù)字檔案館建設,去年10月,國家檔案局局長楊冬權在全國數(shù)字檔案館(室)建設推進會上發(fā)表了重要講話,將“按照‘存量數(shù)字化的要求,大力推進傳統(tǒng)載體檔案數(shù)字化”作為實現(xiàn)未來15年我國數(shù)字檔案館(室)建設目標必須重點抓好的第一項工作。[2]
為客觀總結我國檔案數(shù)字化研究的情況,探析研究熱點、前沿和趨勢,本文以從中國知網(wǎng)(CNKI)收集的有關期刊文獻為數(shù)據(jù)源,利用計量和可視化方法對檔案數(shù)字化相關研究進行統(tǒng)計和知識圖譜分析。
2 文獻來源、數(shù)據(jù)處理與研究工具
以檢索式“TI=‘檔案 /AFT 0 數(shù)字化 OR KY=‘檔案 /AFT 0 數(shù)字化 OR KY=‘檔案*數(shù)字化”對中國知網(wǎng)的學術期刊網(wǎng)絡出版總庫、特色期刊、學術輯刊三個庫進行專業(yè)檢索,時間范圍為2001年~2013年,檢索時間為2014年1月15日,檢索結果為1716篇。
為確保分析結果準確,作者對檢索獲取的所有文獻的篇名、作者、機構、關鍵詞等字段逐一進行了核對,剔除了重復文獻和消息、動態(tài)、講話、書評等非學術研究類文獻,相關性不強且內(nèi)容僅1頁的文獻。經(jīng)整理后,用于分析的文獻共計1369篇。
研究工具采用自編的數(shù)據(jù)統(tǒng)計軟件和美籍華人陳超美開發(fā)的信息可視化軟件CiteSpace Ⅲ(版本號3.7.R7),該軟件可用于探測和分析學科研究前沿隨著時間相關的變化趨勢以及研究前沿與其知識基礎之間的關系,辨識出學科前沿的演化路徑及學科領域的經(jīng)典基礎文獻。[4]由于CNKI的數(shù)據(jù)沒有參考文獻,因而無法充分利用CiteSpace的一些功能。
盡管CiteSpace可對CNKI下載的題錄數(shù)據(jù)通過轉(zhuǎn)換進行處理,但由于用于分析的數(shù)據(jù)量較大,難以從中剔除無效數(shù)據(jù),同時也無法對關鍵詞、機構、地域等進行規(guī)范處理,無法補充部分可以完善的缺項,無法區(qū)分同名作者。為此,作者利用自編的程序?qū)?shù)據(jù)進行了相應處理,生成了可供CiteSpace利用的數(shù)據(jù)格式文件,導入軟件生成知識圖譜進行分析。
3 文獻相關統(tǒng)計和知識圖譜分析
運用相關計算機軟件和可視化工具,對文獻分布、作者和機構發(fā)文、關鍵詞等進行統(tǒng)計與分析,可以開展知識發(fā)展脈絡、熱點前沿等研究。為更好地促進國內(nèi)檔案數(shù)字化研究,對已有研究成果進行總結,這對我國加快檔案數(shù)字化進程,實現(xiàn)數(shù)字檔案館的建設目標具有一定的參考價值。本研究中利用自編軟件對機構名稱、機構地域、關鍵詞進行了統(tǒng)一和規(guī)范,對同名作者進行了區(qū)分,相關統(tǒng)計數(shù)據(jù)也由自編軟件統(tǒng)計得出,同時利用CiteSpace軟件繪制了作者合著網(wǎng)絡圖譜、機構合著網(wǎng)絡圖譜和研究熱點主題圖譜。
3.1 文獻的時間分布與來源分布。本文中用于分析的文獻年度分布如圖1所示,圖中清晰地顯示出國內(nèi)檔案數(shù)字化研究的文獻數(shù)量逐年增長,2007年發(fā)文數(shù)量超過100篇,近兩年更是突破了200篇。
圖1 分析文獻數(shù)量的年度分布(單位:篇)
經(jīng)統(tǒng)計,以上文獻來源于413種期刊,表1列示了載文前20位的期刊和發(fā)文量。發(fā)文5篇及以下的刊物多達372種(其中僅1篇的280種,2篇的55種),發(fā)文超過10篇的28種期刊的發(fā)文數(shù)達746篇,占發(fā)文總數(shù)的54.5%,可見國內(nèi)檔案數(shù)字化的研究成果大量集中在檔案及相關期刊上,檔案類核心期刊的發(fā)文量都在前20位,是發(fā)文的主體。
表1 發(fā)文數(shù)量前20位期刊統(tǒng)計表(單位:篇)
3.2 文獻的作者分布。利用自編軟件區(qū)分同名作者后統(tǒng)計,1369篇文獻由1624位作者獨自或合作貢獻,發(fā)文作者共計1770人次,篇均作者1.29人,其中獨著文獻1084篇,兩人合著201篇,3人合著61篇。將處理生成的數(shù)據(jù)導入CiteSpace,選擇網(wǎng)絡節(jié)點為Author,設置相關閾值,運行后得到作者合著網(wǎng)絡共現(xiàn)圖譜(圖2,左上角為調(diào)試后設定的參數(shù),下同),圖中作者姓名后的字母為區(qū)分同名作者的標記。
圖2 作者合著網(wǎng)絡圖譜
圖中圓內(nèi)的色環(huán)和連線的顏色對應上方的時區(qū)色帶所表示的年份(年輪,本文中時區(qū)均為1年);圓為作者節(jié)點,圓越大,表明作者發(fā)文越多,如張照余、項文新、卞咸杰等;圓中不同的色環(huán)體現(xiàn)的是相應年份的發(fā)文量,色環(huán)越厚,對應年份的發(fā)文越多;節(jié)點間連線的顏色對應的是作者間首次合作相關論文的時區(qū),線條粗細與其聯(lián)系緊密程度成正比。[5]從圖中還可看出,整個合著網(wǎng)絡比較零散,作者間的連線較少,表明作者多為獨立研究,作者間的合作不多。
表2列示了高產(chǎn)作者及發(fā)文量(“+”號后為第二作者發(fā)文數(shù)),與圖2基本一致。圖2中個別圓環(huán)較大但未列在表2中的作者,是由于非第一作者發(fā)文數(shù)較多所致,CiteSpace不區(qū)分作者排序,只計算發(fā)文數(shù)量,如趙紅穎、史江在CiteSpace中統(tǒng)計的發(fā)文總數(shù)為4篇,但以第一作者的發(fā)文數(shù)均為1篇。
表2 高發(fā)文作者及發(fā)文量(單位:篇)
3.3 文獻的機構分布。利用自編軟件對機構規(guī)范后進行統(tǒng)計,1369篇文獻由1056個機構的作者獨自或合作貢獻,可見發(fā)文機構比較分散。將處理生成的數(shù)據(jù)導入CiteSpace,選擇網(wǎng)絡節(jié)點為Institution,設置相關閾值,得到機構合著網(wǎng)絡共現(xiàn)圖譜(圖3)。
圖3 機構合著網(wǎng)絡圖譜
圖中圓內(nèi)的不同色環(huán)對應上方時區(qū)色帶所代表的年份;圓為機構節(jié)點,圓越大,表明發(fā)文越多,如蘇州大學、中國人民大學、云南大學等;圓中色環(huán)呈現(xiàn)的是相應年份的發(fā)文量,色環(huán)越厚,對應年份發(fā)文越多。圖中節(jié)點間沒有連線,表明機構間沒有合作(如調(diào)低閾值,有連線)。高發(fā)文機構及發(fā)文量統(tǒng)計如表3所示,發(fā)文量靠前的機構中高等院校比重較大。
表3 高發(fā)文機構及發(fā)文數(shù)量(單位:篇)
表4列示了第一作者機構類型及發(fā)文統(tǒng)計。統(tǒng)計文獻中,高等院校及其檔案館發(fā)文量較多,加上高校圖書館,發(fā)文量占四成多;各級各類檔案館發(fā)文量也較多,表明這些檔案館都關注檔案數(shù)字化工作。
表4 第一作者機構類型及發(fā)文數(shù)量(單位:篇)
3.4 主題與熱點分析。關鍵詞是從文獻的標題和正文中抽取的最能夠反映文獻內(nèi)容的詞,通過分析關鍵詞的變化可以全面把握該學科發(fā)展的動態(tài)過程、特點和規(guī)律,反映科研的研究熱點和發(fā)展動向。CiteSpace不僅能進行詞頻統(tǒng)計,并能以圖譜顯示和體現(xiàn)詞間的共現(xiàn)關系,而且還可對關鍵詞進行中心性計算,突出顯示關鍵點,便于辨析和進行深度分析。
選用關鍵詞進行主題分析時,未使用機標關鍵詞。選擇網(wǎng)絡節(jié)點為Keyword,設置相關閾值,運行CiteSpace后得到研究熱點主題圖譜(圖4)。圖中圓表示關鍵詞節(jié)點,圓越大,說明對應主題出現(xiàn)的頻次越高;圓內(nèi)色環(huán)越厚,表明該顏色對應年份出現(xiàn)的頻次越高;圓間連線的顏色對應關鍵詞間首次共現(xiàn)的時間,連線粗細體現(xiàn)出關鍵詞間共現(xiàn)的次數(shù)。圖中部分節(jié)點出現(xiàn)了不同厚度的紫色外環(huán),表明它們的突顯度或中心性高,如檔案數(shù)字化、對策、高校檔案等。
圖4 檔案數(shù)字化研究熱點主題圖譜
表5列出了20個高頻關鍵詞及其中心性。對比表5的中心性值和詞頻可以發(fā)現(xiàn),除管理、企業(yè)檔案、城建檔案、紙質(zhì)檔案、信息、掃描、檔案信息6個關鍵詞外,其余14個關鍵詞的中心性均大于0.1,且除這14個關鍵詞外,在CiteSpace導出的相關數(shù)據(jù)統(tǒng)計表中再無中心性大于0.1的關鍵詞。詞頻和中心性高的關鍵詞可以認為是研究的熱點,根據(jù)這些熱點可以歸納出檔案數(shù)字化研究的主題大類包括:檔案數(shù)字化、檔案數(shù)字化建設的問題與對策、高校檔案數(shù)字化、檔案數(shù)字化與管理、檔案數(shù)字化與信息化。
表5 高頻關鍵詞的中心性及詞頻數(shù)
值得注意的是,CiteSpace導出的數(shù)據(jù)統(tǒng)計表中“對策、掃描、信息資源(詞頻為12)”三個關鍵詞具有突變性,突變值分別為3.73、2.82和2.92。出現(xiàn)頻次增長率快速增加的專業(yè)術語將被確定為研究前沿術語,[6]可以據(jù)此預測,檔案數(shù)字化對策、數(shù)字化掃描相關問題和數(shù)字化檔案信息資源的管理與利用應當是檔案數(shù)字化的研究前沿。
4 總結
檔案數(shù)字化的實質(zhì)是將紙質(zhì)、音像等傳統(tǒng)載體檔案加工成數(shù)字形態(tài)的電子檔案。檔案數(shù)字化已成為當前我國各級各類檔案機構的一項迫切任務。本文通過利用自編軟件及CiteSpace軟件對國內(nèi)期刊文獻進行計量分析和可視化分析,可以得出以下結論。
1.2001年以來,有關檔案數(shù)字化的期刊論文發(fā)文量逐年上升,檔案類期刊特別是核心期刊是發(fā)文的主體,表明檔案數(shù)字化是檔案研究和檔案工作實踐的重要內(nèi)容。
2.檔案數(shù)字化研究高發(fā)文作者和機構數(shù)量偏少,作者及機構間的合作次數(shù)不多,說明缺乏一批專注于檔案數(shù)字化相關研究的作者或機構,自由探索式的分析與研究多。
3.具有較強科研能力的專業(yè)教育機構及其下屬機構發(fā)文數(shù)量多,高校是檔案數(shù)字化研究的主力;各級各類檔案館發(fā)文數(shù)量也較多,表明全國檔案界對檔案數(shù)字化工作高度重視,積極開展相關研究和實踐。
4.從高詞頻和高中心性關鍵詞看,檔案數(shù)字化、高校檔案、數(shù)字化建設、檔案管理、高等學校、信息化、數(shù)字檔案、數(shù)字化管理等關鍵詞所涉及的研究是檔案數(shù)字化的研究熱點,而對策、掃描、檔案信息等關鍵詞所涉及的研究是檔案數(shù)字化的研究前沿。
2013年10月全國數(shù)字檔案館(室)建設推進會的召開,無疑將更加有力地推動全國的檔案數(shù)字化工作。借鑒已有的研究成果,總結檔案數(shù)字化的經(jīng)驗,更加深入地研究檔案數(shù)字化中遇到的各類問題,尋求數(shù)字化外包的安全之策、完善數(shù)字化的過程管理和數(shù)據(jù)管理、數(shù)字化掃描質(zhì)量的保障、云技術等嶄新的信息技術的應用將是未來幾年檔案數(shù)字化建設實踐和研究的重點內(nèi)容。加快完成各類檔案的數(shù)字化,迎接大數(shù)據(jù)時代的挑戰(zhàn),是檔案界共同的使命與責任。
*本文系中央高?;究蒲袠I(yè)務費資助項目“檔案數(shù)字化的管理與應用研究”(BESTI-JBKY-201104)成果之一。
參考文獻:
[1]張照余. 檔案信息化理論與實踐[M]. 北京:中國檔案出版社,2007:229.
[2]楊冬權.在全國數(shù)字檔案館(室)建設推進會上的講話[N].中國檔案報,2013-10-18(1).
[3]國家檔案局,中央檔案館. 關于印發(fā)《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]劉則淵,陳悅,侯海燕,等. 科學知識圖譜:方法與應用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾進,等. 2009年中國情報學研究熱點的知識圖譜分析[J]. 情報雜志,2011,30(5):33~37.
[6]陳超美. CiteSpace Ⅱ:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學報,2009(3):401~421.
(作者單位:北京電子科技學院圖書館(檔案館) 來稿日期:2014-04-07)
表2列示了高產(chǎn)作者及發(fā)文量(“+”號后為第二作者發(fā)文數(shù)),與圖2基本一致。圖2中個別圓環(huán)較大但未列在表2中的作者,是由于非第一作者發(fā)文數(shù)較多所致,CiteSpace不區(qū)分作者排序,只計算發(fā)文數(shù)量,如趙紅穎、史江在CiteSpace中統(tǒng)計的發(fā)文總數(shù)為4篇,但以第一作者的發(fā)文數(shù)均為1篇。
表2 高發(fā)文作者及發(fā)文量(單位:篇)
3.3 文獻的機構分布。利用自編軟件對機構規(guī)范后進行統(tǒng)計,1369篇文獻由1056個機構的作者獨自或合作貢獻,可見發(fā)文機構比較分散。將處理生成的數(shù)據(jù)導入CiteSpace,選擇網(wǎng)絡節(jié)點為Institution,設置相關閾值,得到機構合著網(wǎng)絡共現(xiàn)圖譜(圖3)。
圖3 機構合著網(wǎng)絡圖譜
圖中圓內(nèi)的不同色環(huán)對應上方時區(qū)色帶所代表的年份;圓為機構節(jié)點,圓越大,表明發(fā)文越多,如蘇州大學、中國人民大學、云南大學等;圓中色環(huán)呈現(xiàn)的是相應年份的發(fā)文量,色環(huán)越厚,對應年份發(fā)文越多。圖中節(jié)點間沒有連線,表明機構間沒有合作(如調(diào)低閾值,有連線)。高發(fā)文機構及發(fā)文量統(tǒng)計如表3所示,發(fā)文量靠前的機構中高等院校比重較大。
表3 高發(fā)文機構及發(fā)文數(shù)量(單位:篇)
表4列示了第一作者機構類型及發(fā)文統(tǒng)計。統(tǒng)計文獻中,高等院校及其檔案館發(fā)文量較多,加上高校圖書館,發(fā)文量占四成多;各級各類檔案館發(fā)文量也較多,表明這些檔案館都關注檔案數(shù)字化工作。
表4 第一作者機構類型及發(fā)文數(shù)量(單位:篇)
3.4 主題與熱點分析。關鍵詞是從文獻的標題和正文中抽取的最能夠反映文獻內(nèi)容的詞,通過分析關鍵詞的變化可以全面把握該學科發(fā)展的動態(tài)過程、特點和規(guī)律,反映科研的研究熱點和發(fā)展動向。CiteSpace不僅能進行詞頻統(tǒng)計,并能以圖譜顯示和體現(xiàn)詞間的共現(xiàn)關系,而且還可對關鍵詞進行中心性計算,突出顯示關鍵點,便于辨析和進行深度分析。
選用關鍵詞進行主題分析時,未使用機標關鍵詞。選擇網(wǎng)絡節(jié)點為Keyword,設置相關閾值,運行CiteSpace后得到研究熱點主題圖譜(圖4)。圖中圓表示關鍵詞節(jié)點,圓越大,說明對應主題出現(xiàn)的頻次越高;圓內(nèi)色環(huán)越厚,表明該顏色對應年份出現(xiàn)的頻次越高;圓間連線的顏色對應關鍵詞間首次共現(xiàn)的時間,連線粗細體現(xiàn)出關鍵詞間共現(xiàn)的次數(shù)。圖中部分節(jié)點出現(xiàn)了不同厚度的紫色外環(huán),表明它們的突顯度或中心性高,如檔案數(shù)字化、對策、高校檔案等。
圖4 檔案數(shù)字化研究熱點主題圖譜
表5列出了20個高頻關鍵詞及其中心性。對比表5的中心性值和詞頻可以發(fā)現(xiàn),除管理、企業(yè)檔案、城建檔案、紙質(zhì)檔案、信息、掃描、檔案信息6個關鍵詞外,其余14個關鍵詞的中心性均大于0.1,且除這14個關鍵詞外,在CiteSpace導出的相關數(shù)據(jù)統(tǒng)計表中再無中心性大于0.1的關鍵詞。詞頻和中心性高的關鍵詞可以認為是研究的熱點,根據(jù)這些熱點可以歸納出檔案數(shù)字化研究的主題大類包括:檔案數(shù)字化、檔案數(shù)字化建設的問題與對策、高校檔案數(shù)字化、檔案數(shù)字化與管理、檔案數(shù)字化與信息化。
表5 高頻關鍵詞的中心性及詞頻數(shù)
值得注意的是,CiteSpace導出的數(shù)據(jù)統(tǒng)計表中“對策、掃描、信息資源(詞頻為12)”三個關鍵詞具有突變性,突變值分別為3.73、2.82和2.92。出現(xiàn)頻次增長率快速增加的專業(yè)術語將被確定為研究前沿術語,[6]可以據(jù)此預測,檔案數(shù)字化對策、數(shù)字化掃描相關問題和數(shù)字化檔案信息資源的管理與利用應當是檔案數(shù)字化的研究前沿。
4 總結
檔案數(shù)字化的實質(zhì)是將紙質(zhì)、音像等傳統(tǒng)載體檔案加工成數(shù)字形態(tài)的電子檔案。檔案數(shù)字化已成為當前我國各級各類檔案機構的一項迫切任務。本文通過利用自編軟件及CiteSpace軟件對國內(nèi)期刊文獻進行計量分析和可視化分析,可以得出以下結論。
1.2001年以來,有關檔案數(shù)字化的期刊論文發(fā)文量逐年上升,檔案類期刊特別是核心期刊是發(fā)文的主體,表明檔案數(shù)字化是檔案研究和檔案工作實踐的重要內(nèi)容。
2.檔案數(shù)字化研究高發(fā)文作者和機構數(shù)量偏少,作者及機構間的合作次數(shù)不多,說明缺乏一批專注于檔案數(shù)字化相關研究的作者或機構,自由探索式的分析與研究多。
3.具有較強科研能力的專業(yè)教育機構及其下屬機構發(fā)文數(shù)量多,高校是檔案數(shù)字化研究的主力;各級各類檔案館發(fā)文數(shù)量也較多,表明全國檔案界對檔案數(shù)字化工作高度重視,積極開展相關研究和實踐。
4.從高詞頻和高中心性關鍵詞看,檔案數(shù)字化、高校檔案、數(shù)字化建設、檔案管理、高等學校、信息化、數(shù)字檔案、數(shù)字化管理等關鍵詞所涉及的研究是檔案數(shù)字化的研究熱點,而對策、掃描、檔案信息等關鍵詞所涉及的研究是檔案數(shù)字化的研究前沿。
2013年10月全國數(shù)字檔案館(室)建設推進會的召開,無疑將更加有力地推動全國的檔案數(shù)字化工作。借鑒已有的研究成果,總結檔案數(shù)字化的經(jīng)驗,更加深入地研究檔案數(shù)字化中遇到的各類問題,尋求數(shù)字化外包的安全之策、完善數(shù)字化的過程管理和數(shù)據(jù)管理、數(shù)字化掃描質(zhì)量的保障、云技術等嶄新的信息技術的應用將是未來幾年檔案數(shù)字化建設實踐和研究的重點內(nèi)容。加快完成各類檔案的數(shù)字化,迎接大數(shù)據(jù)時代的挑戰(zhàn),是檔案界共同的使命與責任。
*本文系中央高校基本科研業(yè)務費資助項目“檔案數(shù)字化的管理與應用研究”(BESTI-JBKY-201104)成果之一。
參考文獻:
[1]張照余. 檔案信息化理論與實踐[M]. 北京:中國檔案出版社,2007:229.
[2]楊冬權.在全國數(shù)字檔案館(室)建設推進會上的講話[N].中國檔案報,2013-10-18(1).
[3]國家檔案局,中央檔案館. 關于印發(fā)《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]劉則淵,陳悅,侯海燕,等. 科學知識圖譜:方法與應用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾進,等. 2009年中國情報學研究熱點的知識圖譜分析[J]. 情報雜志,2011,30(5):33~37.
[6]陳超美. CiteSpace Ⅱ:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學報,2009(3):401~421.
(作者單位:北京電子科技學院圖書館(檔案館) 來稿日期:2014-04-07)
表2列示了高產(chǎn)作者及發(fā)文量(“+”號后為第二作者發(fā)文數(shù)),與圖2基本一致。圖2中個別圓環(huán)較大但未列在表2中的作者,是由于非第一作者發(fā)文數(shù)較多所致,CiteSpace不區(qū)分作者排序,只計算發(fā)文數(shù)量,如趙紅穎、史江在CiteSpace中統(tǒng)計的發(fā)文總數(shù)為4篇,但以第一作者的發(fā)文數(shù)均為1篇。
表2 高發(fā)文作者及發(fā)文量(單位:篇)
3.3 文獻的機構分布。利用自編軟件對機構規(guī)范后進行統(tǒng)計,1369篇文獻由1056個機構的作者獨自或合作貢獻,可見發(fā)文機構比較分散。將處理生成的數(shù)據(jù)導入CiteSpace,選擇網(wǎng)絡節(jié)點為Institution,設置相關閾值,得到機構合著網(wǎng)絡共現(xiàn)圖譜(圖3)。
圖3 機構合著網(wǎng)絡圖譜
圖中圓內(nèi)的不同色環(huán)對應上方時區(qū)色帶所代表的年份;圓為機構節(jié)點,圓越大,表明發(fā)文越多,如蘇州大學、中國人民大學、云南大學等;圓中色環(huán)呈現(xiàn)的是相應年份的發(fā)文量,色環(huán)越厚,對應年份發(fā)文越多。圖中節(jié)點間沒有連線,表明機構間沒有合作(如調(diào)低閾值,有連線)。高發(fā)文機構及發(fā)文量統(tǒng)計如表3所示,發(fā)文量靠前的機構中高等院校比重較大。
表3 高發(fā)文機構及發(fā)文數(shù)量(單位:篇)
表4列示了第一作者機構類型及發(fā)文統(tǒng)計。統(tǒng)計文獻中,高等院校及其檔案館發(fā)文量較多,加上高校圖書館,發(fā)文量占四成多;各級各類檔案館發(fā)文量也較多,表明這些檔案館都關注檔案數(shù)字化工作。
表4 第一作者機構類型及發(fā)文數(shù)量(單位:篇)
3.4 主題與熱點分析。關鍵詞是從文獻的標題和正文中抽取的最能夠反映文獻內(nèi)容的詞,通過分析關鍵詞的變化可以全面把握該學科發(fā)展的動態(tài)過程、特點和規(guī)律,反映科研的研究熱點和發(fā)展動向。CiteSpace不僅能進行詞頻統(tǒng)計,并能以圖譜顯示和體現(xiàn)詞間的共現(xiàn)關系,而且還可對關鍵詞進行中心性計算,突出顯示關鍵點,便于辨析和進行深度分析。
選用關鍵詞進行主題分析時,未使用機標關鍵詞。選擇網(wǎng)絡節(jié)點為Keyword,設置相關閾值,運行CiteSpace后得到研究熱點主題圖譜(圖4)。圖中圓表示關鍵詞節(jié)點,圓越大,說明對應主題出現(xiàn)的頻次越高;圓內(nèi)色環(huán)越厚,表明該顏色對應年份出現(xiàn)的頻次越高;圓間連線的顏色對應關鍵詞間首次共現(xiàn)的時間,連線粗細體現(xiàn)出關鍵詞間共現(xiàn)的次數(shù)。圖中部分節(jié)點出現(xiàn)了不同厚度的紫色外環(huán),表明它們的突顯度或中心性高,如檔案數(shù)字化、對策、高校檔案等。
圖4 檔案數(shù)字化研究熱點主題圖譜
表5列出了20個高頻關鍵詞及其中心性。對比表5的中心性值和詞頻可以發(fā)現(xiàn),除管理、企業(yè)檔案、城建檔案、紙質(zhì)檔案、信息、掃描、檔案信息6個關鍵詞外,其余14個關鍵詞的中心性均大于0.1,且除這14個關鍵詞外,在CiteSpace導出的相關數(shù)據(jù)統(tǒng)計表中再無中心性大于0.1的關鍵詞。詞頻和中心性高的關鍵詞可以認為是研究的熱點,根據(jù)這些熱點可以歸納出檔案數(shù)字化研究的主題大類包括:檔案數(shù)字化、檔案數(shù)字化建設的問題與對策、高校檔案數(shù)字化、檔案數(shù)字化與管理、檔案數(shù)字化與信息化。
表5 高頻關鍵詞的中心性及詞頻數(shù)
值得注意的是,CiteSpace導出的數(shù)據(jù)統(tǒng)計表中“對策、掃描、信息資源(詞頻為12)”三個關鍵詞具有突變性,突變值分別為3.73、2.82和2.92。出現(xiàn)頻次增長率快速增加的專業(yè)術語將被確定為研究前沿術語,[6]可以據(jù)此預測,檔案數(shù)字化對策、數(shù)字化掃描相關問題和數(shù)字化檔案信息資源的管理與利用應當是檔案數(shù)字化的研究前沿。
4 總結
檔案數(shù)字化的實質(zhì)是將紙質(zhì)、音像等傳統(tǒng)載體檔案加工成數(shù)字形態(tài)的電子檔案。檔案數(shù)字化已成為當前我國各級各類檔案機構的一項迫切任務。本文通過利用自編軟件及CiteSpace軟件對國內(nèi)期刊文獻進行計量分析和可視化分析,可以得出以下結論。
1.2001年以來,有關檔案數(shù)字化的期刊論文發(fā)文量逐年上升,檔案類期刊特別是核心期刊是發(fā)文的主體,表明檔案數(shù)字化是檔案研究和檔案工作實踐的重要內(nèi)容。
2.檔案數(shù)字化研究高發(fā)文作者和機構數(shù)量偏少,作者及機構間的合作次數(shù)不多,說明缺乏一批專注于檔案數(shù)字化相關研究的作者或機構,自由探索式的分析與研究多。
3.具有較強科研能力的專業(yè)教育機構及其下屬機構發(fā)文數(shù)量多,高校是檔案數(shù)字化研究的主力;各級各類檔案館發(fā)文數(shù)量也較多,表明全國檔案界對檔案數(shù)字化工作高度重視,積極開展相關研究和實踐。
4.從高詞頻和高中心性關鍵詞看,檔案數(shù)字化、高校檔案、數(shù)字化建設、檔案管理、高等學校、信息化、數(shù)字檔案、數(shù)字化管理等關鍵詞所涉及的研究是檔案數(shù)字化的研究熱點,而對策、掃描、檔案信息等關鍵詞所涉及的研究是檔案數(shù)字化的研究前沿。
2013年10月全國數(shù)字檔案館(室)建設推進會的召開,無疑將更加有力地推動全國的檔案數(shù)字化工作。借鑒已有的研究成果,總結檔案數(shù)字化的經(jīng)驗,更加深入地研究檔案數(shù)字化中遇到的各類問題,尋求數(shù)字化外包的安全之策、完善數(shù)字化的過程管理和數(shù)據(jù)管理、數(shù)字化掃描質(zhì)量的保障、云技術等嶄新的信息技術的應用將是未來幾年檔案數(shù)字化建設實踐和研究的重點內(nèi)容。加快完成各類檔案的數(shù)字化,迎接大數(shù)據(jù)時代的挑戰(zhàn),是檔案界共同的使命與責任。
*本文系中央高?;究蒲袠I(yè)務費資助項目“檔案數(shù)字化的管理與應用研究”(BESTI-JBKY-201104)成果之一。
參考文獻:
[1]張照余. 檔案信息化理論與實踐[M]. 北京:中國檔案出版社,2007:229.
[2]楊冬權.在全國數(shù)字檔案館(室)建設推進會上的講話[N].中國檔案報,2013-10-18(1).
[3]國家檔案局,中央檔案館. 關于印發(fā)《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》的通知[EB/OL](2011-01-14)[2014-01-15]. http://61.135.203. 75/zt/2011-01/14/content_12721.htm.
[4]劉則淵,陳悅,侯海燕,等. 科學知識圖譜:方法與應用[M]. 北京:人民出版社,2008:167~168.
[5]宗乾進,等. 2009年中國情報學研究熱點的知識圖譜分析[J]. 情報雜志,2011,30(5):33~37.
[6]陳超美. CiteSpace Ⅱ:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學報,2009(3):401~421.
(作者單位:北京電子科技學院圖書館(檔案館) 來稿日期:2014-04-07)