王芙艷,邵 清
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
融合WK和CSK Co-word Model的共詞分析法
王芙艷,邵 清
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
基于關(guān)鍵詞的共詞分析方法是利用關(guān)鍵詞在文獻(xiàn)中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點(diǎn)的方法。傳統(tǒng)的基于關(guān)鍵詞的共詞分析方法只是簡單的統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的絕對次數(shù),忽略了關(guān)鍵詞以及文獻(xiàn)的內(nèi)在特性以及關(guān)鍵詞在概念上的重復(fù)性,造成結(jié)果的不準(zhǔn)確性。文中提出了一種融合關(guān)鍵詞加權(quán)模型(WK Co-word Model)和同義關(guān)鍵詞合并模型(CSK Co-word Model)的共詞分析法,該方法根據(jù)關(guān)鍵詞自身的特征以及關(guān)鍵詞所在載體文獻(xiàn)的特征對關(guān)鍵詞進(jìn)行加權(quán)處理,同時以同義詞詞林為基礎(chǔ),計(jì)算關(guān)鍵詞之間的詞語相似度,合并同義關(guān)鍵詞。該方法既強(qiáng)調(diào)了關(guān)鍵詞之間權(quán)重的不同,又消除了同義詞對結(jié)果準(zhǔn)確性造成的影響。仿真實(shí)驗(yàn)表明,該方法提高了共詞分析的準(zhǔn)確性。
關(guān)鍵詞;加權(quán);共詞分析;同義詞;相似度
進(jìn)入信息時代以來,各個學(xué)科領(lǐng)域的研究成果不斷增加,文獻(xiàn)的發(fā)表數(shù)量也呈指數(shù)級增長依靠各個領(lǐng)域?qū)<覍ΜF(xiàn)有研究熱點(diǎn)進(jìn)行品評是不夠全面和精準(zhǔn)的[1]。但是與此同時,各個領(lǐng)域的科研人員又希望能夠運(yùn)用簡單可靠的方法全面、直觀地了解該學(xué)科的研究現(xiàn)狀和研究熱點(diǎn),系統(tǒng)地掌握學(xué)科的發(fā)展?fàn)顩r,以及未來的發(fā)展趨勢。
基于上述原因,許多國內(nèi)外學(xué)者使用基于關(guān)鍵詞的共詞分析方法,對各個領(lǐng)域的熱點(diǎn)和未來的發(fā)展趨勢進(jìn)行挖掘,加拿大蒙特利爾大學(xué)的Robert Dalpé教授,1997年完成了一份關(guān)于世界納米科技研究狀況的計(jì)量分析報(bào)告[2],該報(bào)告采用共詞分析的方法,分析了世界各國納米技術(shù)專利的分布。趙麗紅以MEDLINE光盤數(shù)據(jù)庫作為數(shù)據(jù)來源,對2001~2006年7月的與老年病學(xué)相關(guān)的1 261篇文獻(xiàn)進(jìn)行了共詞分析,從而獲得了老年病學(xué)研究活動的熱點(diǎn)[3]。
傳統(tǒng)的共詞分析法(UWKWA )是直接統(tǒng)計(jì)文獻(xiàn)中自引用關(guān)鍵詞出現(xiàn)的絕對頻率,即當(dāng)文獻(xiàn)中某一關(guān)鍵詞出現(xiàn)一次,該關(guān)鍵的頻次就增加1,以此累加,用此方法統(tǒng)計(jì)該關(guān)鍵字在所有文獻(xiàn)中出現(xiàn)的總的次數(shù)。這種統(tǒng)計(jì)關(guān)鍵詞的方法會影響之后的共詞矩陣和聚類分析,造成結(jié)果失真[4]。原因如下:(1)關(guān)鍵詞“同量不同權(quán)重[5]”,是指關(guān)鍵詞在文中出現(xiàn)的位置,詞性等不同,關(guān)鍵詞的重要性就不同;(2)文獻(xiàn)“同量不同權(quán)重[6]”,是指關(guān)鍵詞所在的文獻(xiàn)不同,關(guān)鍵詞的重要性就不同;(3)關(guān)鍵詞“同義不同詞”,是指由于每篇文獻(xiàn)的作者不同,每個作者有不同的描述習(xí)慣而造成的同一個關(guān)鍵詞有不同表示。
目前,許多學(xué)者對基于關(guān)鍵詞的共詞分析提出了很多改進(jìn)的方法,并取得了一些研究成果。比如鐘偉金[7]提出在文獻(xiàn)的自標(biāo)引關(guān)鍵詞中存在主要主題詞和次要主題詞的差別,提出共現(xiàn)頻率計(jì)算時應(yīng)對主要主題詞進(jìn)行加權(quán)計(jì)算(WKWA)。唐曉波和肖璐[8]指出自標(biāo)引的關(guān)鍵詞不能全面描述論文的主題內(nèi)容,提出了依照一定的規(guī)則對關(guān)鍵詞進(jìn)行增補(bǔ)的思想。吳清強(qiáng)和趙亞娟[9]針對關(guān)鍵詞所在的文獻(xiàn)進(jìn)行加權(quán)。Guo Chen, Lu Xiao, Chang-ping Hu, Xue-qin Zhao[10]從分析對象選擇方面優(yōu)化共詞分析,作者認(rèn)為分析一個研究領(lǐng)域熱點(diǎn)時,不能只孤立地看它自身情況;而是要把它放在更大的背景內(nèi)考察,國外學(xué)者Leydesdorff[11]也強(qiáng)調(diào)了關(guān)鍵詞的差異性。以上這幾種方法雖然對基于關(guān)鍵詞的共詞分析做了一定程度的改進(jìn),但是都僅僅對關(guān)鍵詞的某一特性進(jìn)行加權(quán),并且以上方法均沒有考慮由于各種客觀原因造成的關(guān)鍵詞的同義問題,沒有對同義關(guān)鍵詞進(jìn)行合并。針對上述基于關(guān)鍵詞的共詞分析方法存在的問題,本文提出了一種融合加權(quán)思想和同義關(guān)鍵詞合并的共詞分析法,該方法根據(jù)關(guān)鍵詞自身的特征以及關(guān)鍵詞所在載體文獻(xiàn)的特征對關(guān)鍵詞進(jìn)行加權(quán)處理,同時以同義詞詞林為基礎(chǔ),計(jì)算關(guān)鍵詞之間的詞語相似度,合并同義關(guān)鍵詞。該方法既強(qiáng)調(diào)了關(guān)鍵詞之間權(quán)重的不同,又消除了同義詞對結(jié)果準(zhǔn)確性造成的影響。
正如本文前面敘述的,只是簡單統(tǒng)計(jì)關(guān)鍵詞在文獻(xiàn)庫中出現(xiàn)的次數(shù),而不考慮關(guān)鍵詞權(quán)重的共詞分析方法,會對分析結(jié)果造成嚴(yán)重的失真。為此,本文提出了對關(guān)鍵詞進(jìn)行加權(quán)的共詞模型( WK Co-word Model ),這種模型以鍵詞自身特性為基礎(chǔ),并結(jié)合關(guān)鍵詞的載體文獻(xiàn)對關(guān)鍵詞進(jìn)行加權(quán)。
1.1 根據(jù)關(guān)鍵詞自身特質(zhì)加權(quán)
關(guān)鍵詞的自身特性是指關(guān)鍵詞所在文獻(xiàn)中的位置、跨度、以及關(guān)鍵詞的詞性。根據(jù)關(guān)鍵詞自身特質(zhì)加權(quán)即根據(jù)關(guān)鍵詞在文獻(xiàn)中位置不同、跨度不同、詞性不同賦予關(guān)鍵詞不同的權(quán)重,從而解決關(guān)鍵詞“同量不同權(quán)重”的問題。
1.1.1 關(guān)鍵詞所處的位置加權(quán)
在一篇文獻(xiàn)中不同位置的句子重要性有很大的差異。文獻(xiàn)的標(biāo)題、摘要毋庸置疑對于一篇文獻(xiàn)的主題具有高度概括的作用。同樣的,文獻(xiàn)的首段、尾段、以及文獻(xiàn)的每一段的第一句都有概括作用,都是文獻(xiàn)主題的重要組成成分。由此可知,在關(guān)鍵詞詞頻統(tǒng)計(jì)時候,關(guān)鍵詞出現(xiàn)的位置不同,被賦予的權(quán)值也不一樣。具體如下
1.1.2 關(guān)鍵詞的詞性加權(quán)
名詞關(guān)鍵詞相比于其他詞性的關(guān)鍵詞更能表達(dá)文獻(xiàn)的主題,因此在設(shè)置權(quán)重時,將名詞關(guān)鍵詞的權(quán)重與其他關(guān)鍵詞權(quán)重的詞語區(qū)別對待,具體如表1所示。
1.1.3 關(guān)鍵詞的跨度加權(quán)
一個詞的跨段落情況表明了這個詞是描述局部的還是描述全文的??缍螖?shù)越多,說明該詞重要,全局性越強(qiáng)。
公式式(1)下所示,其中P表示詞語出現(xiàn)的段落數(shù);P表示文獻(xiàn)總的段落,關(guān)鍵詞的跨度Span為
Span=p/P
(1)
1.2 根據(jù)關(guān)鍵詞載體加權(quán)
對不同被引用次數(shù)的文獻(xiàn),本文設(shè)定了不同的權(quán)值,關(guān)鍵詞的載體是指關(guān)鍵詞所在的文獻(xiàn),文獻(xiàn)的重要程度不同,反映了該文獻(xiàn)上的關(guān)鍵詞的重要性不同。文獻(xiàn)的重要程度主要體現(xiàn)在文獻(xiàn)發(fā)表的期刊來源、文獻(xiàn)發(fā)表時間、文獻(xiàn)被引用的次數(shù)等,具體如表1所示。
另外,文獻(xiàn)的被引用次數(shù),代表著文獻(xiàn)的被關(guān)注度,被引用次數(shù)高,說明文獻(xiàn)所表達(dá)的內(nèi)容是當(dāng)前眾多學(xué)者所關(guān)注的研究熱點(diǎn)。具體如表1所示。
表1 關(guān)鍵詞加權(quán)規(guī)則表
2.1 根據(jù)詞語相似度合并同義關(guān)鍵詞
漢語博大精深,對概念的表達(dá)靈活、自由,使得不同的作者對相同的概念有不同的表達(dá),這樣就造成了關(guān)鍵詞中存在許多同義不同詞的表達(dá),這些同義詞如果不進(jìn)行合并,那么統(tǒng)計(jì)得到關(guān)鍵詞的頻次就不準(zhǔn)確。本文對同義關(guān)鍵詞進(jìn)行合并這將關(guān)鍵詞統(tǒng)計(jì)從詞語的層面上面提升到了概念的層面。首先計(jì)算關(guān)鍵詞之間的相似度,目前,國內(nèi)外計(jì)算詞語之間的相似度的主要方法是根據(jù)語義詞典計(jì)算詞語相似度?;谕x詞林的詞語相似度算法得到的結(jié)果與人們思維習(xí)慣的詞語相似度非常接近。因此需要先以同義詞林為依據(jù)對關(guān)鍵詞進(jìn)行合并。
同義詞林按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織在一起,把詞匯分成大、中、小共3類,大類有12個,中類有97個,小類1 400個。每個小類都有很多詞,這些詞又根據(jù)詞義的遠(yuǎn)近和相關(guān)性分成了若干個詞群[12]。同義詞林詞典分類采用層次結(jié)構(gòu),一共5層層次結(jié)構(gòu)如圖1所示。
圖1 同義詞詞林5層結(jié)構(gòu)
本文根據(jù)同義詞詞林的編排特點(diǎn),利用同義詞詞林的義項(xiàng)計(jì)算關(guān)鍵詞相似度。主要算法思想是:利用同義詞詞林結(jié)構(gòu),得到關(guān)鍵詞在詞林中的編號,根據(jù)兩個關(guān)鍵詞的語義距離,計(jì)算出兩個關(guān)鍵詞的相似度[13]。
兩個關(guān)鍵詞A、B的相似度用 表示,根據(jù)A,B在同義詞詞林的位置不同, 有不同的表示,具體如下:
(1)兩個義項(xiàng)不在同一棵樹上,Sim(A、B)=f;
(2)兩個義項(xiàng)在同一棵樹上:在第2層分支,系數(shù)為a
Sim(A、B)=1×a×cos(n×π/180)(n-k+1)/n
在第3層分支,系數(shù)為b
Sim(A、B)=1×1×b×cos(n×π/180)(n-k+1)/n
在第4層分支,系數(shù)為c
Sim(A、B)=1×1×c×cos(n×π/180)(n-k+1)/n
在第5層分支,系數(shù)為d
Sim(A、B)=1×1×d×cos(n×π/180)(n-k+1)/ni
此外,為了確定相似度的閥值,本文通過實(shí)驗(yàn)證明當(dāng)兩個詞語相似度>0.9時[14],兩個詞語之間可以相互代替。所以在本文中設(shè)置閥值為0.9,當(dāng)相似度>0.9時,即認(rèn)為兩個關(guān)鍵詞是相同的,可以予以合并為其中一個。該關(guān)鍵詞的詞頻也變?yōu)閮蓚€關(guān)鍵詞詞頻之和。
2.2 基于同義關(guān)鍵詞合并構(gòu)造共詞模型
如果按照兩兩詞語之間都要計(jì)算相似度的方法,那么將耗費(fèi)大量的時間,整個程序效率就會非常低,這是不可取的。因此本文提出一種基于同義詞合并的共詞模型(CSK Co-word Model),此模型先根據(jù)同義詞林的編排及語義特點(diǎn)計(jì)算詞語相似度,同時又解決了不同詞性的詞語對之間的相似度很低,并且詞頻較低的詞語對計(jì)算結(jié)果影響也較低[15]的問題。所以在本文中只計(jì)算詞頻大于某個事先設(shè)定好的閥值,并且相同詞性之間的相似度。這樣可以有效地減少比較的次數(shù),從而大幅提高了相似度算法的效率。具體流程如圖2所示。
圖2 CSK Co-word Model 流程圖
融合關(guān)鍵詞加權(quán)和同義詞合并的共詞分析算法包括以下3步,算法的流程描述如下:
(1)根據(jù)WK Co-word Model對關(guān)鍵詞進(jìn)行加權(quán),得到關(guān)鍵詞的頻次集合L1={s1,s2,s3,…,sN};
(3)根據(jù)CSK Co-word Model,對集合L中的關(guān)鍵詞進(jìn)行同義關(guān)鍵詞合并。其中詞性為名詞的關(guān)鍵詞集合用Ln={s1,s2,s3,…,sn}表示。計(jì)算集合Ln中每兩個關(guān)鍵詞的相似度Sim(A,B),當(dāng)Sim(A,B)>0.9,合并關(guān)鍵詞A,B為同義個關(guān)鍵詞;
(4)把同義關(guān)鍵詞的頻次相加Sim(A,B),得到最終的高頻關(guān)鍵詞集合Sum(A,B)。
4.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)數(shù)據(jù)來自Medline數(shù)據(jù)庫[16],以“代謝組學(xué)”、“蛋白質(zhì)組”、“非編碼RNA”、“基因組學(xué)”、“糖類”、“糖蛋白類” 、“多糖類”、 “癌癥”、 “糖尿病”、“毒物學(xué)研究”、“輸血”、“貧血癥”、“髓膜炎”和“肝炎”為主題詞得到15類文獻(xiàn),并標(biāo)記出每類文獻(xiàn)的80個能反映文獻(xiàn)主題內(nèi)容的關(guān)鍵詞,同時對這80 個關(guān)鍵詞重要性進(jìn)行排序。
4.2 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證基于本文WKWAIKW、UWKWA 、WKWA的3種方法。實(shí)驗(yàn)中,分別用以上3種方法選出前80個關(guān)鍵詞。
4.3 評價標(biāo)準(zhǔn)
在本研究中,采用召回率R和準(zhǔn)確率p作為算法性能評價指標(biāo)。
定義1 召回率(Recall):用計(jì)算機(jī)找到關(guān)鍵詞的個數(shù)與人工標(biāo)記的80個關(guān)鍵詞相同的比值。表達(dá)式為
R=B/A
(2)
定義2 準(zhǔn)確率(Precision):計(jì)算機(jī)找出的關(guān)鍵詞與人工標(biāo)記的關(guān)鍵詞相同且排序也相同的比例。它體現(xiàn)了準(zhǔn)確程度。表達(dá)式為
P=C/A
(3)其中,A表示專家人工抽取的關(guān)鍵詞并按重要性排好序的關(guān)鍵詞集合;B表示通過計(jì)算機(jī)抽取的關(guān)鍵詞并且與A中相同的關(guān)鍵詞集合;C表示通過計(jì)算機(jī)抽取的關(guān)鍵詞并且該關(guān)鍵詞的排序與A中相同的集合。
4.4 實(shí)驗(yàn)結(jié)果及分析
表2給出基于本文的融合關(guān)鍵詞加權(quán)和同義關(guān)鍵詞合并的共詞分析法(WKWAIKW)與傳統(tǒng)的基于未加權(quán)的關(guān)鍵詞共詞分析方法(UWKWA )以及鐘偉金等人提出的基于關(guān)鍵詞加權(quán)但是沒有合并同義關(guān)鍵詞的共詞分析法(WKWA)3種方法分別得到的數(shù)據(jù)。表5分別為以“代謝組學(xué)”與“蛋白質(zhì)組”為搜索主題詞得到的前10個高頻關(guān)鍵詞。圖3和圖4分別是WKWAIKW、UWKWA、WKWA的R、P的折線圖。
表2 分別用WKWAIKW、UWKWA、WKWA得到的高頻關(guān)鍵詞
圖3 WKWAIKW、UWKWA、WKWA的P值對比
圖4 WKWAIKW、UWKWA、WKWA的R值對比
圖3~圖4的數(shù)據(jù)可以看出,本文所提出的方法無論是準(zhǔn)確率、召回率都比未加權(quán)的共詞分析方法有顯著的提高,接近人工標(biāo)記的結(jié)果。這說明融合了關(guān)鍵詞加權(quán)和同義關(guān)鍵詞合并的方法能更準(zhǔn)確的找到反應(yīng)文獻(xiàn)內(nèi)容的關(guān)鍵詞,提高了所提取關(guān)鍵詞的質(zhì)量。比傳統(tǒng)的僅統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的次數(shù),決定哪些詞是文獻(xiàn)的熱點(diǎn)詞匯更有說服力。
本文結(jié)合關(guān)鍵詞自身的特征以及關(guān)鍵詞的載體文獻(xiàn)的特征,對關(guān)鍵詞進(jìn)行加權(quán),突破了傳統(tǒng)基于共詞分析方法在關(guān)鍵詞詞頻統(tǒng)計(jì)時只是簡單的累加關(guān)鍵詞出現(xiàn)的次數(shù),將詞頻較高的關(guān)鍵詞就作為該類文獻(xiàn)的特征詞,同時,對關(guān)鍵詞中的同義詞進(jìn)行合并,消除了由于漢語的靈活性及文獻(xiàn)作者不同等客觀因素造成的同義不同詞的現(xiàn)象。實(shí)驗(yàn)證明,融合了關(guān)鍵詞加權(quán)及同義詞合并的共詞分析方法在抽取能夠表達(dá)文獻(xiàn)意義的關(guān)鍵詞時,有更高的正確率。
當(dāng)然,這種方法也存在不足和需要改進(jìn)的地方,比如本文只考慮了關(guān)鍵詞的加權(quán)與相似度計(jì)算,但是并沒有考慮在構(gòu)造共現(xiàn)矩陣時,關(guān)鍵詞對的絕對的共現(xiàn)頻率也無法準(zhǔn)確表達(dá)關(guān)鍵字之間的相互關(guān)系?;蛟S也需要對關(guān)鍵詞對進(jìn)行加權(quán)。這也是本文后續(xù)需要研究完善的地方。
[1] 王林,冷伏海.學(xué)術(shù)論文的關(guān)鍵詞與引文共現(xiàn)關(guān)系分析及實(shí)證研究[J].情報(bào)理論與踐,2014,35(12):82-86.
[2] Dalpé R, Gauthier E, Ippersiel M P. The state of nanotechnology research[C].Report to the National Research Council of Canada,1997.
[3] 李穎,賈二鵬.國內(nèi)外共詞分析研究綜述[J]新世紀(jì)圖書館,2012(1):23-27.
[4] 邵作運(yùn), 李秀霞. 共詞分析中作者關(guān)鍵詞規(guī)范化研究——以圖書館館個性化信息服務(wù)研究為例[J]. 情報(bào)科學(xué), 2012, 30(5):731-735.
[5] 李綱,李軼.一種基于關(guān)鍵詞加權(quán)的共詞分析方法[J].情報(bào)科學(xué),2011 (3):321-324.
[6] Vaughan L,Yang R,Tang J.Web co-word analysis for business intelligence in the Chinese environment[J].Aslib Proceedings, 2012, 64 (6):653-667.
[7] 鐘偉金. 基于主要主題詞加權(quán)的共詞聚類分析法效果研究[J].情報(bào)學(xué)報(bào), 2009, 28(2): 214-219.
[8] 唐曉波,肖璐.融合關(guān)鍵詞增補(bǔ)和領(lǐng)域本體的共詞分析方法 [J].現(xiàn)代圖書館情報(bào)技術(shù),2013, 29 (11): 60-67 .
[9] 吳清強(qiáng),趙亞娟.基于論文屬性進(jìn)行加權(quán)共詞模型探討 [J].情報(bào)學(xué)報(bào),2008(1): 89-92.
[10] Onoda T,Sakai M,Yamada S.Careful seeding method based on independent components analysis for k - means clustering[J].Journal of Emerging Technologies in Web Intelligence,2012,4(1):51-59.
[11] Leydesdorff L. Why words and Co-words cannot map the development of the sciences [J].Journal of the American Society for Information Science,1997,48(5):417-428 .
[12] 梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林 [M].上海:上海辭書出版社, 1993.
[13] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2010(6):602-608.
[14] 楊霞.基于同義詞詞林的微博客評論情感分類研究[J]. 電子科技,2014,27(7):134-136.
[15] 秦春秀,趙捧未,劉懷亮.詞語相似度計(jì)算研究[J].情報(bào)理論與實(shí)踐,2007(1):105-108.
Co-word Analysis Combining the WK and CSK Co-word Models
WANG Fuyan, SHAO Qing
(School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)
Co-word cluster analysis based on keyword is a method for determining the research focus point in a field by the times keywords appear in the literature. Traditional co-word cluster analysis based keyword method simply calculates the absolute times keywords appear, ignoring the inherent characteristics of keywords and literature as well as the repeated keywords in concept, thus inaccurate results. This paper proposes a new co-word cluster analysis method that merges the keyword weighted model (WK Co-word Model) with synonymous keywords combined model (CSK Co-word Model). The method weights the keyword according to characteristics of keywords and the literature that keywords appear, and calculates the similarity of the keywords and combined synonymous keywords, which not only emphasize the different weight between the keywords, but also eliminates the effects caused by synonyms keywords. Experiment shows that the new method improves the accuracy of co-word cluster analysis.
keyword; weighted; co-word analysis; synonyms; similarity
2016- 03- 28
國家自然科學(xué)基金資助項(xiàng)目(61170277);上海市教委科研創(chuàng)新基金資助項(xiàng)目(02120557)
王芙艷(1989-),女,碩士研究生。研究方向:網(wǎng)絡(luò)智能等。邵清(1970-),女,博士,副教授。研究方向:網(wǎng)絡(luò)智能等。
10.16180/j.cnki.issn1007-7820.2017.02.029
G354
A
1007-7820(2017)02-110-05