• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Matlab的共詞矩陣構(gòu)造

      2017-05-12 23:59:30陳道蘭趙恒軍
      合作經(jīng)濟(jì)與科技 2017年9期
      關(guān)鍵詞:共詞詞頻頁面

      陳道蘭+趙恒軍

      [提要] 共詞分析在文獻(xiàn)研究中被廣泛采用,共詞分析方法最關(guān)鍵的環(huán)節(jié)是共詞矩陣的構(gòu)造。本文詳細(xì)介紹基于中國知網(wǎng)數(shù)據(jù)庫的關(guān)鍵詞原始數(shù)據(jù)采集具體過程,利用Excel的分列功能和數(shù)據(jù)透視表功能進(jìn)行關(guān)鍵詞的分離和詞頻的統(tǒng)計(jì),以及高頻關(guān)鍵詞提取的預(yù)處理技巧,給出共詞矩陣構(gòu)造的算法及其Matlab程序。算例表明:文中所給共詞矩陣的構(gòu)造實(shí)施方便快捷、簡單易行。

      關(guān)鍵詞:共詞矩陣;構(gòu)造;高頻關(guān)鍵詞;預(yù)處理;Matlab

      基金項(xiàng)目:重慶市教委科研項(xiàng)目:“基于曲率的無參考圖像清晰度評(píng)價(jià)研究”(項(xiàng)目編號(hào):KJ1401127);重慶文理學(xué)院科研項(xiàng)目:“共詞矩陣的構(gòu)造及其在文獻(xiàn)聚類分析方法中的應(yīng)用”(項(xiàng)目編號(hào):Z2016TS72)

      中圖分類號(hào):G350 文獻(xiàn)標(biāo)識(shí)碼:A

      收錄日期:2017年3月3日

      一、引言

      文獻(xiàn)計(jì)量學(xué)是采取定量手段來分析知識(shí)載體的交叉科學(xué),關(guān)鍵詞共詞分析作為通用的文獻(xiàn)計(jì)量法,主要是通過統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在同一篇文獻(xiàn)中共同出現(xiàn)的次數(shù),并以此進(jìn)行聚類進(jìn)而分析預(yù)測(cè)特定學(xué)科的研究熱點(diǎn)。關(guān)鍵詞共詞一般可分為以下幾個(gè)環(huán)節(jié):采集原始數(shù)據(jù)→統(tǒng)計(jì)關(guān)鍵詞詞頻→提取高頻關(guān)鍵詞→構(gòu)造共詞矩陣→構(gòu)造相異矩陣→關(guān)鍵詞聚類→結(jié)果分析。在整個(gè)分析過程中,最后一步至關(guān)重要,它體現(xiàn)了研究的結(jié)論和價(jià)值,而最關(guān)鍵的一步則是共詞矩陣的構(gòu)造。共詞矩陣會(huì)直接影響到相異矩陣的構(gòu)造進(jìn)而影響聚類的結(jié)果,對(duì)研究的結(jié)論起著不可忽視的作用。

      國內(nèi)學(xué)者對(duì)關(guān)鍵詞聚類分析主要表現(xiàn)在利用共詞矩陣對(duì)所研究的主題進(jìn)行預(yù)測(cè),而對(duì)共詞矩陣如何構(gòu)造,大多數(shù)文獻(xiàn)只是略微提及。鑒于此,儲(chǔ)節(jié)旺等提出了利用Excel進(jìn)行共詞矩陣的構(gòu)造,他提出的方法在關(guān)鍵詞詞頻的統(tǒng)計(jì)、高頻關(guān)鍵詞的提取方面有較好的便利,但在共詞矩陣的具體構(gòu)造這一環(huán)節(jié),由于只是單純用Excel軟件處理,在清除低頻關(guān)鍵詞、關(guān)鍵詞組對(duì)等環(huán)節(jié)需要人工操作,導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)容易出錯(cuò)。因此,簡化關(guān)鍵詞的預(yù)處理和共詞矩陣構(gòu)造的過程是值得研究的課題。

      Matlab是由美國Mathworks公司發(fā)布的數(shù)學(xué)軟件??紤]到Matlab軟件在數(shù)值計(jì)算方面的強(qiáng)大功能,本文提出以Matlab為編程軟件,編寫構(gòu)造共詞矩陣的Matlab文件。通過Matlab程序的編寫,簡省了低頻關(guān)鍵詞的清除過程和高頻關(guān)鍵詞的組對(duì)過程,降低了關(guān)鍵詞預(yù)處理的難度,簡化了共詞矩陣的構(gòu)造過程。Matlab算例表明編寫的Matlab程序?qū)苍~矩陣構(gòu)造實(shí)施方便快捷,簡單易行。

      二、數(shù)據(jù)的采集與處理方法

      (一)數(shù)據(jù)的采集

      第一步:選擇文獻(xiàn)。在中國知網(wǎng)搜索頁面下,按照一定的數(shù)據(jù)采集標(biāo)準(zhǔn)進(jìn)行搜索得到檢索的文獻(xiàn),然后在所顯示的第一頁頁面中勾選所顯示的文獻(xiàn),點(diǎn)擊“下一頁”,再勾選第二頁顯示的文獻(xiàn),直到勾選完所有文獻(xiàn)。

      第二步:數(shù)據(jù)輸出準(zhǔn)備。在勾選文獻(xiàn)的最后一頁點(diǎn)擊“導(dǎo)出/參考文獻(xiàn)”按鈕,在彈出的頁面中再次勾選剛才選擇的所有文獻(xiàn),再次點(diǎn)擊“導(dǎo)出/參考文獻(xiàn)”按鈕(很重要),然后出現(xiàn)標(biāo)題為“文獻(xiàn)管理中心_文獻(xiàn)輸出”頁面。在該頁面的左下方有“CAJ-CD”、“查新”、“CNKI-E-Study”等按鈕。點(diǎn)擊不同的按鈕,在頁面的右下方會(huì)顯示不同的結(jié)果,也可以點(diǎn)擊“自定義”按鈕,此時(shí)在頁面的右上方會(huì)顯示可供選擇的輸出字段,然后可以勾選所需要選擇輸出的字段即可。

      第三步:數(shù)據(jù)輸出。在“文獻(xiàn)管理中心_文獻(xiàn)輸出”頁面中點(diǎn)擊按鈕“XLS”,在彈出的“文件下載”對(duì)話框中點(diǎn)擊“保存”按鈕后,在“另存為”對(duì)話框中選擇所需要保存的路徑和文件名,得到原始數(shù)據(jù)Excel表格。

      說明:當(dāng)采集的數(shù)據(jù)超過500篇文獻(xiàn)時(shí),需要在完成前三步后,清除所勾選的文獻(xiàn),然后再選擇余下的文獻(xiàn),重復(fù)上述三個(gè)步驟,直到采集完所有文獻(xiàn)為止。

      (二)數(shù)據(jù)的預(yù)處理

      第一步:提取數(shù)據(jù)。復(fù)制關(guān)鍵詞所在列,將其拷貝到一張新的空白Excel文件中,將文件命名為”keywords.xls”。

      第二步:分離關(guān)鍵詞。選擇文件keywords.xls的第一列所有的數(shù)據(jù),利用查找替換功能將關(guān)鍵詞的分隔符統(tǒng)一用單個(gè)分號(hào)進(jìn)行分隔。再次選中所有數(shù)據(jù),利用數(shù)據(jù)的分列功能將關(guān)鍵詞進(jìn)行分離到單一單元格中。

      第三步:刪除單一關(guān)鍵詞。將分列得到的工作表按第二列進(jìn)行降序排列,將單一關(guān)鍵詞所在的行下移到了末尾,刪去這些單一關(guān)鍵詞所在的行,然后保存文件”keywords.xls”,得到關(guān)鍵詞表。

      第四步:提取高頻關(guān)鍵詞。將關(guān)鍵詞表“Keywords.xls”的內(nèi)容復(fù)制到一個(gè)新的Excel文件中,文件命名為高頻關(guān)鍵詞統(tǒng)計(jì)表“Hfkw_count.xls”。在“Hfkw_count.xls”中,將所有單元格的內(nèi)容復(fù)制到第一列,然后進(jìn)行降序排列,將所有的空白單元格刪去。

      在第一行前插入一行,在新的第一行依次輸入“關(guān)鍵詞”,“頻數(shù)”。從第二列的第二行起,每個(gè)單元格中輸入數(shù)字“1”。利用Excel數(shù)據(jù)透視表功能統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的頻數(shù)。將得到的數(shù)據(jù)透視表的第二列按降序排列,此時(shí)第二列數(shù)值較大的單元格所對(duì)應(yīng)的第一列的關(guān)鍵詞即為高頻關(guān)鍵詞。保存文件“Hfkw_count.xls”。

      將頻數(shù)較高的關(guān)鍵詞復(fù)制,利用“選擇性粘貼——轉(zhuǎn)置”,粘貼到一個(gè)新的Excel文件中的第一行,將文件命名為高頻關(guān)鍵詞表“Hfkw.xls”。

      三、共詞矩陣的Matlab程序?qū)崿F(xiàn)

      (一)共詞矩陣的算法。共詞矩陣主要是統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在同一篇文章中出現(xiàn)的篇數(shù)。將關(guān)鍵詞錄入Excel表格后,同一篇文獻(xiàn)的關(guān)鍵詞出現(xiàn)在同一行。但Excel表格中的數(shù)據(jù)不能直接作為Matlab的數(shù)組,因此應(yīng)先將Excel數(shù)據(jù)導(dǎo)入到Matlab文件變?yōu)镸atlab數(shù)組。從而統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在同一篇文章中出現(xiàn)的篇數(shù)就變?yōu)榱私y(tǒng)計(jì)兩個(gè)關(guān)鍵詞在數(shù)組中同一行出現(xiàn)的次數(shù)。在高頻關(guān)鍵詞數(shù)組中任意抽取兩個(gè)關(guān)鍵詞,逐行統(tǒng)計(jì)兩個(gè)關(guān)鍵詞同行的次數(shù),將結(jié)果保存在共詞數(shù)組中,再將所得結(jié)果輸出到Excel表格中。

      基于以上分析,共詞矩陣的算法可表述如下:第一步:讀取關(guān)鍵詞和高頻關(guān)鍵詞Excel數(shù)據(jù),并保存到OriginalData和TargetSet變量中;第二步:設(shè)置共詞矩陣大小,初值默認(rèn)為零矩陣;第三步:構(gòu)造關(guān)鍵詞同行次數(shù)計(jì)數(shù)函數(shù)countMatrix(Number1,Number2,Matrix)。從高頻關(guān)鍵詞TargetSet數(shù)組中任意抽取第i個(gè)和第j個(gè)元素,統(tǒng)計(jì)它們?cè)陉P(guān)鍵詞OriginalData數(shù)組中同一行出現(xiàn)的次數(shù)Output(i,j)。具體方案為:使用函數(shù)ismember(a,Vector)對(duì)每一行都進(jìn)行判斷,如果a出現(xiàn)在Vector中,返回結(jié)果為1;否則為0。如果兩個(gè)關(guān)鍵詞的ismember結(jié)果都為1,則表示這兩個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在這一行中,因此同行次數(shù)增加1;第四步:將關(guān)鍵詞同行的次數(shù)保存在共詞矩陣中,并將所得結(jié)果輸出到Excel表格中進(jìn)行顯示。

      (二)共詞矩陣的Matlab程序。根據(jù)前述關(guān)于共詞矩陣的算法,利用Matlab 7.0軟件,編制構(gòu)造共詞矩陣的Matlab代碼如下:

      將上述代碼錄入到Matlab M-File窗口,然后以Cowordmatrix.m為文件名進(jìn)行保存。

      (三)Matlab程序的運(yùn)行。假設(shè)Matlab安裝在電腦的如下目錄:d:\Program Files\MATLAB7,則將前面按照關(guān)鍵詞數(shù)據(jù)的采集和預(yù)處理方法得到兩個(gè)Excel文件“Keywords.xls”和“Hfkw.xls”,以及前述的共詞矩陣構(gòu)造的Matlab文件Cowordmatrix.m一起復(fù)制到d:\Program Files\MATLAB7\work目錄下。

      打開Matlab程序,在Matlab命令窗口Command window中鍵入Cowordmatrix,回車,等待數(shù)分鐘后就會(huì)在d:\Program Files\MATLAB7\work目錄下出現(xiàn)共詞矩陣Excel文件Output.xls,打開該文件所顯示的內(nèi)容即為共詞矩陣。

      四、共詞矩陣的Matlab算例

      下面以中國知網(wǎng)數(shù)據(jù)庫為數(shù)據(jù)源,對(duì)國內(nèi)的共詞分析的研究進(jìn)行共詞矩陣的構(gòu)造。以篇名為“共詞”進(jìn)行搜索,檢索時(shí)間為2016年8月26日,共搜索到553篇文獻(xiàn),按前述方法提取它們的關(guān)鍵詞,分列并刪去單一關(guān)鍵詞后得到關(guān)鍵詞表“Keywords.xls”。然后使用Excel表格的數(shù)據(jù)透視功能統(tǒng)計(jì)關(guān)鍵詞的頻次,得到高頻關(guān)鍵詞表“Hfkw.xls”。本文選取詞頻大于等于10的關(guān)鍵詞列表(其中剔除了“共詞分析法”、“共詞分析”、“共詞”等三個(gè)關(guān)鍵詞),具體頻次為:聚類分析(128)、社會(huì)網(wǎng)絡(luò)分析(36)、共詞聚類分析(20)、文獻(xiàn)計(jì)量(16)、研究熱點(diǎn)(91)、共詞聚類(26)、關(guān)鍵詞(19)、文獻(xiàn)計(jì)量學(xué)(16)、知識(shí)圖譜(53)、可視化(25)、 戰(zhàn)略坐標(biāo)(19)、共詞矩陣(14)、多維尺度分析(42)、共詞網(wǎng)絡(luò)(22)、詞頻分析(17)、共詞可視化(13)、因子分析(37)、研究主題(21)、SPSS(16)、知識(shí)管理(10)。

      將得到的兩個(gè)Excel文件“Keywords.xls”、“Hfkw.xls”以及編程得到的Matlab文件Cowordmatrix.m復(fù)制到Matlab工作目錄d:\Program Files\MATLAB7\work目錄下。打開Matlab,在Maltab命令窗口輸入Matlab命令:Cowordmatrix,回車,出現(xiàn)的共詞矩陣結(jié)果(左上10×10部分)見表1。(表1)

      五、結(jié)語

      通過上述編寫的Matlab程序,研究者只需要對(duì)所研究的主題進(jìn)行關(guān)鍵詞原始數(shù)據(jù)的采集和預(yù)處理,形成兩個(gè)Excel文件即可,大大簡化了原始數(shù)據(jù)的預(yù)處理和共詞矩陣的構(gòu)造過程,輸出的Excel顯示結(jié)果直觀。算例表明本文所編寫的Matlab程序?qū)苍~矩陣的構(gòu)造實(shí)施方便快捷,簡單易行。

      主要參考文獻(xiàn):

      [1]鄒美辰.基于共詞分析和社會(huì)網(wǎng)絡(luò)分析的國內(nèi)外關(guān)聯(lián)數(shù)據(jù)研究探析[J].現(xiàn)代情報(bào),2016.3.

      [2]陸慧雯.基于共詞分析的我國近十年行業(yè)與戰(zhàn)略情報(bào)研究[J].情報(bào)科學(xué),2016.5.

      [3]周麗英,冷伏海,左文革.引文耦合增強(qiáng)的共詞分析方法改進(jìn)研究——以ESI農(nóng)業(yè)科學(xué)研究主題劃分為例[J].情報(bào)理論與實(shí)踐,2015.11.

      [4]俞仙子,高英蓮,馬春霞等.提取核心特征詞的懲罰性矩陣分解方法——以共詞分析為例[J].現(xiàn)代圖書情報(bào)技術(shù),2014.3.

      [5]王玉林,王忠義.細(xì)粒度語義共詞分析方法研究[J].圖書情報(bào)工作,2014.21.

      [6]儲(chǔ)節(jié)旺,郭春俠.共詞分析法的基本原理及EXCEL實(shí)現(xiàn)[J].情報(bào)科學(xué),2011.6.

      [7]張圣勤.MATLAB 7.0實(shí)用教程[M].北京:機(jī)械工業(yè)出版社,2015.

      猜你喜歡
      共詞詞頻頁面
      大狗熊在睡覺
      刷新生活的頁面
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      基于突變檢測(cè)與共詞分析的深閱讀新興趨勢(shì)分析
      基于共詞知識(shí)圖譜技術(shù)的國內(nèi)VLC可視化研究
      基于關(guān)鍵詞共詞分析的我國親子關(guān)系熱點(diǎn)研究
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      基于共詞分析的近十年國內(nèi)網(wǎng)絡(luò)團(tuán)購研究熱點(diǎn)分析
      宜兴市| 读书| 托克托县| 大化| 福鼎市| 吉林省| 广丰县| 卢龙县| 南靖县| 南乐县| 响水县| 万盛区| 辽阳市| 泾川县| 镇雄县| 平顶山市| 台东市| 诏安县| 淄博市| 朝阳市| 师宗县| 昂仁县| 钟祥市| 荃湾区| 谢通门县| 吉隆县| 集安市| 砚山县| 大庆市| 容城县| 青海省| 长垣县| 城固县| 双桥区| 扎囊县| 友谊县| 海晏县| 江口县| 淳安县| 海阳市| 砀山县|