• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞頻分析及常用工具比較研究*

      2016-07-25 11:12:54左麗華
      圖書館學刊 2016年6期
      關鍵詞:題錄詞頻檢索

      左麗華

      (浙江工業(yè)大學圖書館,浙江 杭州 310023)

      ?

      詞頻分析及常用工具比較研究*

      左麗華

      (浙江工業(yè)大學圖書館,浙江 杭州 310023)

      [摘要]首先梳理了詞頻分析的一般過程并對現(xiàn)有詞頻分析工具總結(jié)歸類。在此基礎上,從軟件基本信息、支持數(shù)據(jù)類型、數(shù)據(jù)預處理、數(shù)據(jù)分析與結(jié)果導出等方面對國內(nèi)常用詞頻分析工具Bibexcel、CiteSpace和SATI進行了比較分析。并以WOS數(shù)據(jù)庫為數(shù)據(jù)源,對3個軟件實際分析結(jié)果進行比較,以期為科研人員使用詞頻分析方法提供有益的幫助。

      [關鍵詞]詞頻分析BibexcelCiteSpaceSATI

      1 詞頻分析及現(xiàn)狀

      詞頻分析是文獻計量學中傳統(tǒng)的和具有代表性的一種內(nèi)容分析方法,基本原理是通過詞出現(xiàn)頻次多少的變化,來確定熱點及其變化趨勢[1],目前已經(jīng)在各學科領域得到廣泛應用。筆者通過對國內(nèi)文獻調(diào)研發(fā)現(xiàn),國內(nèi)研究人員多運用一種分析工具對特定學科領域某個時間段的文獻所使用的關鍵詞進行分析,依據(jù)分析結(jié)果確定特定學科研究熱點。已有的研究成果側(cè)重特定詞頻分析工具在具體領域的應用,對詞頻分析過程及分析工具本身的探討較少。由于詞頻分析工具眾多且分析過程各有差異,利用不同的分析軟件處理相同的數(shù)據(jù)所得結(jié)果也不盡相同。因此有必要對詞頻分析的過程進行梳理,并對詞頻分析工具進行對比研究。該研究有助于研究人員在定性判斷領域研究熱點基礎上,快速地選擇詞頻分析工具對領域研究熱點進行一個量的判斷。

      2 詞頻分析過程

      詞頻分析一般的過程主要分為數(shù)據(jù)檢索、清洗加工、詞匯提取、統(tǒng)計分析等階段。其中數(shù)據(jù)檢索包括確定檢索目的并明確是對國際或國外某一學科領域進行分析還是側(cè)重對國內(nèi)某一學科領域進行分析;確定檢索范圍,有的通過檢索學科領域的核心期刊對某一學科進行分析,有的通過篩選檢索詞,用經(jīng)過簡化和精煉的檢索詞來搜索相關領域的研究成果;選擇檢索平臺,目前國內(nèi)外各類大型文獻數(shù)據(jù)庫為大批量下載數(shù)據(jù)提供了方便,分析的目的不同所選用的數(shù)據(jù)來源也不同;制定檢索策略,同一檢索主題即使是同一數(shù)據(jù)庫采用不同的檢索方法獲得的檢索結(jié)果也會相差很大,因此檢索策略的制定對最后的結(jié)果分析有直接影響;檢索并評估檢索結(jié)果,如果首次檢索結(jié)果不理想需重新調(diào)整檢索策略再次進行檢索;數(shù)據(jù)采集下載,通過人工判讀刪除無用數(shù)據(jù),然后下載數(shù)據(jù)。數(shù)據(jù)清洗加工,詞頻分析最終結(jié)果的可靠性很大程度上依賴于原始數(shù)據(jù)的準確性,清洗對下載的數(shù)據(jù)進行篩選、去重和勘誤,常常需要人工識別。最后是數(shù)據(jù)分析,借助分析工具對下載的題錄數(shù)據(jù)進行抽取,從標題、摘要或關鍵詞抽取的詞匯,根據(jù)關鍵詞的詞頻數(shù),選定高頻關鍵詞,對高頻關鍵詞詳細分析,除了統(tǒng)計分析還可以進行深入的文本挖掘和可視化。這些過程結(jié)束之后對結(jié)果進行解釋并得到一些結(jié)論。

      3 詞頻分析工具類型

      計量分析中常用的詞頻分析工具可分為3類:①研究人員自主開發(fā)軟件,編寫程序?qū)崿F(xiàn)相關題錄信息的處理,如《基于詞頻分析的國內(nèi)情報學研究熱點》[2]一文,作者選用了Java語言編程實現(xiàn)關鍵詞抽取和統(tǒng)計。這種方法要求研究人員具有一定的編程水平。②利用SPSS、Excel、NoteExpress等非專門用于詞頻分析的統(tǒng)計工具中的相關功能實現(xiàn)詞頻提取和分析,例如《基于詞頻分析的近10年知識管理的研究熱點和研究方法》[3]一文運用了NoteExpress軟件中的文件夾信息統(tǒng)計功能。這些工具多用于簡單的詞頻分析,對進一步進行詞的共現(xiàn)或者可視化分析則比較困難。③利用各種專門的知識圖譜繪制工具分析詞頻。目前我國研究人員常用的詞頻分析軟件有Bibexcel、CiteSpace、TDA、WordSmithTools等。這些專門開發(fā)的計量分析工具功能較強大,除了進行詞頻分析,還可以分析引文、合作者、機構(gòu)等并可將分析結(jié)果以圖譜的形式展現(xiàn)。

      4 詞頻分析工具比較

      筆者通過文獻調(diào)研發(fā)現(xiàn)國內(nèi)最常用的詞頻分析工具有Bibexcel、CiteSpace和SATI?,F(xiàn)依據(jù)詞頻分析過程,重點對這三款免費詞頻分析的計量工具進行比較研究,分析它們的優(yōu)缺點和不同之處,以期為國內(nèi)開展詞頻分析提供借鑒。

      4.1基本信息

      Bibexcel[4]軟件可在其開發(fā)者Olle Persson的個人網(wǎng)站上免費下載,每次下載的軟件都是當前最新版本,因為該網(wǎng)站總是會及時用新版本更換舊版本。Windows系統(tǒng)、Linux系統(tǒng)都可以運行該軟件。CiteSpace[5]也可在網(wǎng)站上免費下載最新版本和英文用戶手冊,其運行環(huán)境要求是在安裝Java運行環(huán)境的Windows系統(tǒng)。SATI[6]是由國內(nèi)學者開發(fā)的一款兼顧處理國內(nèi)期刊題錄數(shù)據(jù)和國際WOS題錄數(shù)據(jù)的信息統(tǒng)計分析軟件。

      4.3支持的數(shù)據(jù)類型

      文獻計量分析中數(shù)據(jù)采集常用的方法是檢索特定數(shù)據(jù)庫,通過檢索得到詳細記錄,然后下載檢索結(jié)果中相關題錄信息。計量分析常用數(shù)據(jù)主要來源數(shù)據(jù)庫有CNKI、CSSCI、WOS、SCoups等。不同計量分析工具支持不同數(shù)據(jù)格式。因此使用不同軟件進行詞頻分析時,首先要明確這些軟件可以支持的數(shù)據(jù)類型。

      Bibexcel可處理的數(shù)據(jù)集中在Web of Knowledge平臺上的數(shù)據(jù)庫,包括WOS數(shù)據(jù)庫、Derwent專利數(shù)據(jù)庫、Medline數(shù)據(jù)庫等。從WOS下載的數(shù)據(jù)要以純文本格式保存。Bibexcel可處理CSSCI數(shù)據(jù)庫中的數(shù)據(jù),但需要進行格式轉(zhuǎn)換,用的比較多的轉(zhuǎn)換軟件是劉盛博開發(fā)的CSSCIREC。導入Bibexcel的數(shù)據(jù)都要先創(chuàng)建成OUT文件,OUT文件是使用BibExcel軟件進行計量分析的起點。創(chuàng)建OUT文件時,要確定使用書目記錄中的哪個字段創(chuàng)建文件,如進行詞頻分析,則需要選擇關鍵詞字段來創(chuàng)建OUT文件。以OUT文件為起點,根據(jù)分析目的生成多種中間文件,如.doc、.out、.cit、.oux、.xls等。Bibexcel產(chǎn)生的書目數(shù)據(jù)可進一步導入Excel、SPSS、UCinet、Pajek等軟件,用于完成更多的計量分析工作。

      CiteSpace支持的數(shù)據(jù)源包括WOS、Arxiv、CNKI(Ref-Work)、CSSCI、Derwent、NSF、Scopus、SDSS、ProjectDX等數(shù)據(jù)庫。CiteSpace雖支持中文數(shù)據(jù)的導入,但有局限性,其必須使用相應的插件對數(shù)據(jù)進行轉(zhuǎn)化。如對于CNKI數(shù)據(jù)庫,選擇檢索結(jié)果使用“導出/參考文獻”,以“Refworks”格式下載題錄信息,以download開始命名文件,然后使用CiteSpace中 CNKI(Refworks)按鈕轉(zhuǎn)換CNKI數(shù)據(jù)文件。

      SATI是一個專門分析國內(nèi)期刊論文題錄信息的軟件,同時擁有分析WOS題錄數(shù)據(jù)功能。支持EndNote、NoteExpress、HTML和CSSCI格式的題錄數(shù)據(jù),軟件開發(fā)者推薦Endnote格式使用中國知網(wǎng)導出的EndNote格式的題錄數(shù)據(jù);NoteExpress格式使用萬方數(shù)據(jù)庫提供的NoteExpress格式題錄數(shù)據(jù),因為對應數(shù)據(jù)較為完整;HTML(WOS)格式是WOS數(shù)據(jù)庫平臺導出的HTML格式題錄數(shù)據(jù);CSSCI格式是南京大學CSSCI檢索題錄數(shù)據(jù)格式。

      3個軟件對英文數(shù)據(jù)庫,特別是WOS數(shù)據(jù)庫都有很好的支持。Bibexcel和CiteSpace雖然支持中文數(shù)據(jù)庫,但分析之前需要做格式或者編碼的轉(zhuǎn)換。這兩款軟件主要是針對國外數(shù)據(jù)庫平臺開發(fā)的,對國內(nèi)的數(shù)據(jù)庫數(shù)據(jù)不能直接處理。SATI能很好地支持對中文數(shù)據(jù)庫的分析,兼顧國內(nèi)外題錄數(shù)據(jù)。

      4.4數(shù)據(jù)預處理

      數(shù)據(jù)預處理是計量分析過程中最為重要的一個步驟,在詞頻分析的過程中,特別是英文詞頻分析存在單復數(shù)變化、拼寫錯誤、美式英式拼寫差異時,如果對這些數(shù)據(jù)不加以整理合并,統(tǒng)計時會發(fā)生巨大差異,進而影響分析結(jié)果的準確性。如果輸入的是不可靠的數(shù)據(jù),那么無論軟件的分析功能多么強大,最后都無法保證結(jié)果的正確性。因此,先對數(shù)據(jù)進行整理是十分必要的。

      Bibexcel允許對文本數(shù)據(jù)有不同的預處理方法,如英語單詞的詞干提取,重復詞的刪除。Citespace在數(shù)據(jù)統(tǒng)計中以詞頻為主要計算方法,同時以閾值調(diào)節(jié)控制結(jié)果,可以刪除和合并同類詞。SATI可對英文關鍵詞、主題詞、標題和摘要字段進行斷詞、停用詞、詞干提取的預處理操作,對中文題錄標題、摘要進行中文分析和停用詞處理。對于國際文獻,利用文本預處理技術,進行Tokenization與Stemming操作,即只進行形變處理(標點符號、大小寫、單復數(shù)及詞干提取)。對于國內(nèi)文獻題錄關鍵詞并沒有進行刪減或?qū)νx相似詞的詞頻進行合并等操作。

      4.5數(shù)據(jù)分析與結(jié)果導出

      Bibexcel在進行數(shù)據(jù)分析之前,需將下載的數(shù)據(jù)轉(zhuǎn)換成Bibexcel可處理的Doc文件格式。Doc文件格式中包含很多字段,進行詞頻分析需要從Doc文件中將關鍵詞字段單獨抽取出來,保存為Out文件。選擇工具欄analyze菜單下的相關功能菜單,得到后綴名.frg的文件,統(tǒng)計得出關鍵詞的詞頻;.coc文件則是關鍵詞共現(xiàn)文件,可進一步得到共詞矩陣,導入其他軟件中進行可視化分析。

      CiteSpace具備統(tǒng)計突顯關鍵詞的功能,即將某時間段高被引的關鍵詞加以突顯,顯示某段時間的研究熱點。其采用的是一種“突發(fā)詞檢測”算法來確定研究前沿中的概念,基本原理就是統(tǒng)計相關領域論文的標題和摘要中詞匯頻率,根據(jù)這些詞匯的增長率來確定哪些是研究前沿的熱點詞匯。最終以圖譜方式顯示關鍵詞間的引用關系,節(jié)點的大小表示關鍵詞頻次的高低。

      SATI對輸入的題錄數(shù)據(jù)進行文本預處理后,將其自動轉(zhuǎn)化為SATI專用數(shù)據(jù)文件XML格式文件。隨后即可抽取字段信息,從關鍵詞、主題詞、摘要等字段中抽取詞匯,并保存為. txt文本文件,在此基礎上進行下一步統(tǒng)計分析。此外還可以按照時間和期刊對數(shù)據(jù)進行限定,生成相應頻次統(tǒng)計文檔,并保存為.txt文本文件。SATI的另一大功能就是構(gòu)建知識矩陣,可生成詞條共現(xiàn)、頻率分布和文檔詞條3類矩陣。在SATI生成的Excel格式和txt文本格式的知識矩陣數(shù)據(jù)后,可將相應的矩陣文檔導入SPSS、Ucinet、Netdraw中以生成各種基本圖表、聚類圖、多維尺度分析圖、共現(xiàn)網(wǎng)絡知識圖譜等。

      4.6實例分析

      由于3個軟件都能很好地支持WOS數(shù)據(jù)庫中的數(shù)據(jù),不需要其他軟件對數(shù)據(jù)進行轉(zhuǎn)換,筆者選擇WOS數(shù)據(jù)庫為數(shù)據(jù)源,檢索近5年發(fā)表的高校圖書館論文。以(university librar*)OR(college librar*)OR(academic librar*)為主題,文獻類型限制為ARTICLE,時間跨度是2011~2015年,共檢索出文獻3088篇。將下載的數(shù)據(jù)分別導入3個軟件進行詞頻分析。

      Bibexcel分析結(jié)果如圖1所示,從分析結(jié)果可以看出,近5年關于高校圖書館研究的高頻詞匯是信息素養(yǎng)、數(shù)字圖書館、開放獲取、元分析、用戶研究、電子資源、圖書館員、館際互借等。此外,Bibexcel產(chǎn)生的詞頻數(shù)據(jù)可復制到Excel表格中,抽取高頻詞后,再拷貝到Bibexcel中進行高頻詞共現(xiàn)分析。

      圖1 BibExcel詞頻分析結(jié)果

      SATI分析結(jié)果如圖2所示,SATI對詞語進行了詞干提取,其分析結(jié)果與Bibexcel分析結(jié)果詞頻排序大致相同,但詞頻數(shù)存在差異,如數(shù)字圖書館(Digital libraries),Bibexcel得出的詞頻數(shù)是60,而SATI得出的結(jié)果為66。其他詞語也存在類似情況。

      圖2 SATI詞頻分析結(jié)果

      CiteSpace分析結(jié)果如圖3所示,可見CiteSpace分析出來的詞頻跟前兩個工具分析的結(jié)果在數(shù)量和排序上都存在差異,如教育(Education),Bibexcel分析的詞頻數(shù)是24,SATI經(jīng)過詞干提取后結(jié)果是39,而CiteSpace詞頻結(jié)果卻是84,可能與CiteSpace從多個題錄中抽取詞有關。

      圖3 CiteSpace詞頻分析結(jié)果

      雖然不同軟件分析得出的詞頻排序在大趨勢上相同,但每個詞具體的排序卻不盡相同,可見不同詞頻分析軟件其分析結(jié)果存在差異。從上面三幅結(jié)果圖也可以看出,BibExcel 和SATI以很簡單的界面呈現(xiàn)結(jié)果,如果進一步進行共詞可視化分析BibExcel和SATI需要借助其他軟件,而CiteSpace直接將可視化結(jié)果呈現(xiàn)出來,可通過對圖譜的進一步分析獲得其他結(jié)果。由此可見,在詞頻分析方面,BibExcel和SATI強大的功能主要體現(xiàn)在字段抽取和共現(xiàn)矩陣的共現(xiàn)上,CiteSpace主要是圖譜呈現(xiàn)。

      5 結(jié)語

      詞頻分析作為文獻計量學中一種常用分析方法,其分析過程遵循計量分析的一般步驟。實際研究工作中有多種類型的工具可進行詞頻分析,常用的詞頻分析軟件Bibexcel、CiteSpace和SATI三款軟件在數(shù)據(jù)預處理、數(shù)據(jù)分析和結(jié)果導出等各環(huán)節(jié)都存在差異,即使對同一數(shù)據(jù)源數(shù)據(jù)進行詞頻統(tǒng)計結(jié)果也會各有異同,因此在進行統(tǒng)計分析時,各軟件之間可互相參照,互相驗證,同時互相補充。

      參考文獻:

      [1]湯建民.基于文獻計量的卓越科研機構(gòu)描繪方法研究——以國內(nèi)教育學科為例[J].情報雜志,2010(4):5-9,35.

      [2]肖明,李國俊,楊楠.基于詞頻分析的國內(nèi)情報學研究熱點(1998~2007)[J].情報雜志,2009(8):21-25.

      [3]儲節(jié)旺,錢倩.基于詞頻分析的近10年知識管理的研究熱點及研究方法[J].情報科學,2014(10):156-160.

      [4]PERSSON OLLE.Bibexcel[EB/OL].[2015-11-26].http://homepage.univie.ac.at/juan.gorraiz/bibexcel/index.html.

      [5]CHAOMEICHEN.CiteSpace[EB/OL].[2015-12-05].http://cluster.cis.drexel.edu/~cchen/citespace/.

      [6]DOWNLOADBOUND.Refviz[EB/OL].[2015-12-06].http:// www.downloadbound.com/refviz-2.1-crack-serial-keygendownload.html.

      左麗華女,1989年生。碩士,助理館員。研究方向:文獻計量學。

      [分類號]G252.8

      收稿日期:(2016-03-14;責編:楊新寬。)

      *本文系浙江省圖書館學會2015年度學術研究課題“詞頻分析工具的比較研究”(項目編號:Ztx2015 B-10)成果之一。

      猜你喜歡
      題錄詞頻檢索
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      2019年第4-6期便捷檢索目錄
      近刊題錄
      近刊題錄
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      NoteExpress 在撰寫文章綜述時的技巧解析
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      第18次全國焊接學術會議論文題錄
      定陶县| 宁化县| 竹北市| 吴桥县| 民和| 菏泽市| 射阳县| 刚察县| 界首市| 吴堡县| 黔西县| 兴安盟| 上栗县| 三亚市| 神池县| 淮南市| 沐川县| 民和| 文成县| 蕉岭县| 申扎县| 普洱| 青海省| 读书| 正镶白旗| 二连浩特市| 开化县| 胶州市| 淮安市| 安义县| 嘉兴市| 那坡县| 吉林省| 鞍山市| 明溪县| 平塘县| 广东省| 无为县| 红桥区| 志丹县| 济阳县|