黃月 王鑫
摘要:[目的/意義]基于文獻(xiàn)對(duì)某一領(lǐng)域的知識(shí)結(jié)構(gòu)進(jìn)行識(shí)別是文獻(xiàn)計(jì)量分析的一個(gè)重要任務(wù),可以揭示該領(lǐng)域的研究特征。[方法/過(guò)程]傳統(tǒng)知識(shí)結(jié)構(gòu)識(shí)別是二步式的,即首先基于某種分析思想構(gòu)建同種元素間的關(guān)聯(lián)程度矩陣,然后再對(duì)該矩陣進(jìn)行結(jié)構(gòu)識(shí)別。本研究構(gòu)建一個(gè)直接基于“文獻(xiàn)一關(guān)鍵詞”矩陣進(jìn)行高維稀疏聚類(lèi)來(lái)識(shí)別知識(shí)結(jié)構(gòu)的方法,然后以2009-2018年國(guó)內(nèi)數(shù)據(jù)挖掘領(lǐng)域期刊論文為例,與傳統(tǒng)基于關(guān)鍵詞共現(xiàn)進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別方法進(jìn)行了對(duì)比分析。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,基于高維稀疏聚類(lèi)探測(cè)知識(shí)結(jié)構(gòu)是有效的,并且該方法可以獲得差異度較大的子類(lèi),結(jié)果解讀可以獲取更多信息。
關(guān)鍵詞:知識(shí)結(jié)構(gòu);識(shí)別;高維稀疏;聚類(lèi);共詞分析;數(shù)據(jù)挖掘
DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .009
[中圖分類(lèi)號(hào)]G201 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821( 2019) 12-0072-09
文獻(xiàn)是科學(xué)知識(shí)的載體,基于文獻(xiàn)對(duì)某一個(gè)領(lǐng)域的知識(shí)結(jié)構(gòu)進(jìn)行識(shí)別是信息計(jì)量學(xué)領(lǐng)域的一個(gè)重要任務(wù)。探尋一個(gè)領(lǐng)域的知識(shí)結(jié)構(gòu)不但能夠揭示該領(lǐng)域的基本特征,而且對(duì)該領(lǐng)域研究人員也有重要指導(dǎo)作用。
知識(shí)結(jié)構(gòu)( Intellectual Structure),指根據(jù)某一領(lǐng)域的科學(xué)文獻(xiàn)進(jìn)行分析,通過(guò)對(duì)基于某種關(guān)系構(gòu)成的文獻(xiàn)矩陣進(jìn)行聚類(lèi)而得到的組群及其關(guān)系。其中,每一組群對(duì)應(yīng)該領(lǐng)域的一個(gè)研究子領(lǐng)域(或稱(chēng)研究主題)。
利用文獻(xiàn)探尋知識(shí)結(jié)構(gòu)方法大約可以分為3類(lèi):基于共被引分析、基于耦合分析和基于共詞分析。1)基于共被引分析的方法。1973年,美國(guó)情報(bào)學(xué)家Small H首次提出了文獻(xiàn)共被引(Co - cita-tion)的概念[1],最早用來(lái)測(cè)度文獻(xiàn)之間的關(guān)系程度,后被用來(lái)研究特定領(lǐng)域的知識(shí)結(jié)構(gòu)[2]。1981年White H D等提出了作者共被引分析(Author Co-citation Analysis,ACA)[3],也可以用來(lái)探測(cè)知識(shí)結(jié)構(gòu)[4-5]。2)基于耦合分析的方法。1963年Kessler提出了文獻(xiàn)耦合分析(Bibliographic Cou-pling Analysis,BCA)[6],將引證同一篇論文的兩篇或多篇論文稱(chēng)為耦合論文( Coupled Papers),并將文獻(xiàn)之間的這種關(guān)系稱(chēng)為文獻(xiàn)耦合。國(guó)內(nèi)外均有實(shí)證研究表明文獻(xiàn)耦合能夠揭示某個(gè)研究領(lǐng)域的知識(shí)結(jié)構(gòu)[7-8]。2008年Zhao D等提出作者文獻(xiàn)耦合分析( Author Bibliographic Coupling Analysis, AB-CA)[9],將文獻(xiàn)耦合的方法擴(kuò)展到作者層次,不但能夠用于揭示作者研究?jī)?nèi)容之間的關(guān)系、作者之間的關(guān)系,也能用于知識(shí)結(jié)構(gòu)識(shí)別[9-11]。由于通過(guò)共同的詞語(yǔ)( Term)聯(lián)系到一起的文獻(xiàn)可能表示一個(gè)共同的研究主題( Research Topic)[12],近年來(lái)又出現(xiàn)了作者關(guān)鍵詞耦合分析( Author KeywordCoupling Analysis,AKCA),與ACA相比,更能反映目前的研究現(xiàn)狀,不必等文獻(xiàn)被引才建立關(guān)系。3)基于共詞分析的方法。關(guān)鍵詞是論文作者對(duì)文獻(xiàn)研究主題的一種人為專(zhuān)業(yè)術(shù)語(yǔ)標(biāo)引,相對(duì)于作者、期刊、機(jī)構(gòu)等元素而言更能表達(dá)文獻(xiàn)內(nèi)容。共詞分析法( Co - term Analysis)認(rèn)為兩個(gè)關(guān)鍵詞在同一篇文獻(xiàn)中出現(xiàn)表明二者之間具有一定的內(nèi)在關(guān)系,并且出現(xiàn)的次數(shù)越多表明它們的關(guān)系越密切[13]。采用共詞分析法能夠?qū)崿F(xiàn)對(duì)文獻(xiàn)微觀層面的分析,實(shí)證研究也表明共詞分析可以用來(lái)揭示國(guó)內(nèi)外知識(shí)管理知識(shí)結(jié)構(gòu)[13-4]。
無(wú)論基于上述何種分析思想,知識(shí)結(jié)構(gòu)的識(shí)別過(guò)程整體上是二步式的,即首先要構(gòu)建相似性矩陣,然后對(duì)該矩陣進(jìn)行結(jié)構(gòu)識(shí)別。分析方法不同,導(dǎo)致所建立的矩陣類(lèi)型和矩陣元素取值規(guī)則均不相同,例如,采取文獻(xiàn)共被引思想構(gòu)建文獻(xiàn)耦合強(qiáng)度矩陣、利用作者文獻(xiàn)耦合思想建立作者耦合強(qiáng)度矩陣。進(jìn)而基于構(gòu)建的矩陣?yán)靡蜃臃治?、層次聚?lèi)分析、多維尺度分析等多元統(tǒng)計(jì)技術(shù)進(jìn)行結(jié)構(gòu)分析,但是這3種分析方法不適宜對(duì)包含過(guò)多0模塊的矩陣進(jìn)行操作,針對(duì)這一問(wèn)題,使用基于三角形不等式原理和最小生成樹(shù)算法的Pathfinder算法[10]可以有效規(guī)避0模塊的影響[10.15]。近十幾年來(lái)各種知識(shí)圖譜軟件[16]逐步盛行,繪制的知識(shí)圖譜節(jié)點(diǎn)規(guī)模較上述的多元統(tǒng)計(jì)分析方法提高很多,而且可以直觀表示領(lǐng)域的知識(shí)結(jié)構(gòu),因此備受關(guān)注和推廣。但是利用此類(lèi)軟件進(jìn)行領(lǐng)域知識(shí)結(jié)構(gòu)識(shí)別的本質(zhì)并沒(méi)有深刻改變,仍然要先選擇使用何種相似性矩陣分析方法,再輔以利用社會(huì)網(wǎng)絡(luò)分析或復(fù)雜網(wǎng)絡(luò)分析的中心性分析、社團(tuán)發(fā)現(xiàn)等方法進(jìn)行分析[17]。然而文獻(xiàn)是由多元素構(gòu)成的,包含作者、關(guān)鍵詞、期刊、機(jī)構(gòu)等,但上述方法一般建立的都是單模方陣,即矩陣的取值表明同類(lèi)元素之間的相似程度。當(dāng)從兩種元素進(jìn)行分析時(shí),首先將其關(guān)系轉(zhuǎn)化為一種元素之間的關(guān)系,在這一轉(zhuǎn)化過(guò)程中,信息受到了損失,轉(zhuǎn)化方法有時(shí)也較為主觀。
聚類(lèi)分析,作為一項(xiàng)基本的數(shù)據(jù)挖掘任務(wù),能夠發(fā)現(xiàn)海量數(shù)據(jù)中未知的對(duì)象類(lèi),本質(zhì)與從文獻(xiàn)數(shù)據(jù)中探測(cè)知識(shí)結(jié)構(gòu)是一致的。關(guān)鍵詞是每篇文獻(xiàn)由其作者認(rèn)為最能反映其內(nèi)在內(nèi)容的,因此從這個(gè)角度可以認(rèn)為文獻(xiàn)是由關(guān)鍵詞來(lái)標(biāo)識(shí)的。很顯然,“文獻(xiàn)一關(guān)鍵詞”矩陣必定具有高維性和稀疏性。本文探索利用高維稀疏聚類(lèi)方法進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的有效性,以我國(guó)近十年(2009-2018年)數(shù)據(jù)挖掘領(lǐng)域期刊論文為例進(jìn)行實(shí)證研究,并與基于關(guān)鍵詞共現(xiàn)分析進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的結(jié)果進(jìn)行對(duì)比分析。
1 研究方法
1.1 高維稀疏聚類(lèi)算法介紹
高維稀疏聚類(lèi)問(wèn)題是指每個(gè)對(duì)象有很大一部分屬性取值為0的高維聚類(lèi)問(wèn)題。本文將要面對(duì)的“文獻(xiàn)一關(guān)鍵詞”矩陣,是一個(gè)二值矩陣,因此擬定使用專(zhuān)門(mén)用于求解二態(tài)變量高維稀疏聚類(lèi)問(wèn)題的CABOSFV(Clustering Algorithm Based On SparseFeature Vector)算法[18],即基于CABOSFV來(lái)進(jìn)行后續(xù)的知識(shí)結(jié)構(gòu)識(shí)別。
CABOSFV是一種基于稀疏特征向量的聚類(lèi)算法,該算法針對(duì)二態(tài)變量,通過(guò)定義“稀疏差異度( Sparse Feature Distance,SFD)”描述集合內(nèi)對(duì)象間的相似程度,通過(guò)定義“集合的稀疏特征向量( Sparse Feature Vector,SFV)”概括一個(gè)對(duì)象集合所包含的全部聚類(lèi)相關(guān)信息,為數(shù)據(jù)的有效壓縮提供了重要的手段。此外,該算法只對(duì)數(shù)據(jù)庫(kù)進(jìn)行一次掃描,大大提高了聚類(lèi)的效率。下面給出結(jié)合本文使用場(chǎng)景“文獻(xiàn)一關(guān)鍵詞”的稀疏差異度、稀疏特征向量的具體定義和算法的具體步驟。
定義1(文獻(xiàn)集合的稀疏差異度):假設(shè)有n個(gè)文獻(xiàn),描述每個(gè)文獻(xiàn)的關(guān)鍵詞有m個(gè),X為其中的一個(gè)文獻(xiàn)子集,其中的文獻(xiàn)個(gè)數(shù)記為X,在該子集中所有文獻(xiàn)稀疏特征取值皆為1的關(guān)鍵詞個(gè)數(shù)為a,稀疏特征取值不全相同的關(guān)鍵詞個(gè)數(shù)為e,文獻(xiàn)集合的稀疏差異度SFD(X)定義為:
一個(gè)文獻(xiàn)集合的稀疏差異度表明了該集合內(nèi)部各文獻(xiàn)間的差異程度。差異度越大,文獻(xiàn)之間越不相似;差異度越小,文獻(xiàn)之間越相似。文獻(xiàn)集合的稀疏差異度是高維稀疏聚類(lèi)算法進(jìn)行相似度計(jì)算和數(shù)據(jù)壓縮的基礎(chǔ)。
當(dāng)文獻(xiàn)集合X中只包含一個(gè)文獻(xiàn)時(shí),文獻(xiàn)的個(gè)數(shù)|X|為1,該惟一文獻(xiàn)稀疏特征取值為1的關(guān)鍵詞序號(hào)集合為S,稀疏特征取值不全相同的關(guān)鍵詞序號(hào)集合NS為空集φ,稀疏差異度SFD( X)為0,那么稀疏特征向量SFV(X)=|1,S,φ,0|。
給定某領(lǐng)域的學(xué)術(shù)研究論文集合L=(P,K),其中P是該領(lǐng)域所有學(xué)術(shù)研究論文文獻(xiàn)的集合,K是論文包含的關(guān)鍵詞的集合。使用二維表對(duì)高維稀疏聚類(lèi)的輸人數(shù)據(jù)進(jìn)行表示(表1),行代表文獻(xiàn)集合;列代表關(guān)鍵詞集合。表中的“1”表示該文獻(xiàn)使用過(guò)該關(guān)鍵詞,例如文獻(xiàn)P1關(guān)鍵詞列表中沒(méi)有K1但有關(guān)鍵詞K2。
假設(shè)有n個(gè)文獻(xiàn),一個(gè)文獻(xiàn)類(lèi)內(nèi)文獻(xiàn)集合的稀疏差異度SFD(X)上限為6,則基于高維稀疏聚類(lèi)算法CABOSFV進(jìn)行文獻(xiàn)聚類(lèi)的具體過(guò)程是:由每一個(gè)文獻(xiàn)建立一個(gè)集合,用稀疏特征向量SFV(X)描述各集合。從第一個(gè)SFV(X)開(kāi)始進(jìn)行數(shù)據(jù)掃描,在掃描的過(guò)程中完成文獻(xiàn)類(lèi)的創(chuàng)建和文獻(xiàn)集合的歸并。首先創(chuàng)建文獻(xiàn)類(lèi)1,將文獻(xiàn)1歸人文獻(xiàn)類(lèi)1,然后考察是否可以將文獻(xiàn)2并人文獻(xiàn)類(lèi)1(若文獻(xiàn)2并人文獻(xiàn)類(lèi)1后形成的新SFD( X)大于6,則認(rèn)為文獻(xiàn)2并入文獻(xiàn)類(lèi)1不可行;否則,認(rèn)為可行)。如果可行,則將文獻(xiàn)2并入文獻(xiàn)類(lèi)1;否則,創(chuàng)建一個(gè)新的文獻(xiàn)類(lèi),將文獻(xiàn)2歸人該新文獻(xiàn)類(lèi)。然后考察是否可以將文獻(xiàn)3并入已存在的文獻(xiàn)類(lèi)1或文獻(xiàn)類(lèi)2中,將文獻(xiàn)3加入使得歸人后的SFD(X)最小的那個(gè)文獻(xiàn)類(lèi)中;否則,創(chuàng)建一個(gè)新的文獻(xiàn)類(lèi),將文獻(xiàn)3歸人該新文獻(xiàn)類(lèi)。依此類(lèi)推,直到所有對(duì)象掃描結(jié)束。這樣,通過(guò)對(duì)論文數(shù)據(jù)的一次掃描就完成了全部文獻(xiàn)類(lèi)的創(chuàng)建和文獻(xiàn)到文獻(xiàn)類(lèi)的歸并??梢钥吹剑町惗壬舷?在聚類(lèi)過(guò)程中起著十分重要的作用,6可以通過(guò)式(1)來(lái)估算。
1.2 基于高維稀疏聚類(lèi)的知識(shí)結(jié)構(gòu)識(shí)別方法
利用高維稀疏聚類(lèi)方法直接對(duì)原始文獻(xiàn)數(shù)據(jù)進(jìn)行聚類(lèi),需要將每一篇文獻(xiàn)使用關(guān)鍵詞進(jìn)行標(biāo)識(shí),即算法輸入是“文獻(xiàn)一關(guān)鍵詞”矩陣。根據(jù)常識(shí),每一篇文獻(xiàn)作者所使用的關(guān)鍵詞一般不超過(guò)10個(gè),因此這個(gè)“文獻(xiàn)一關(guān)鍵詞”矩陣是十分稀疏的,即使利用專(zhuān)門(mén)針對(duì)高維稀疏聚類(lèi)的算法也會(huì)失效。因此,提出如下基于高維稀疏聚類(lèi)算法對(duì)“文獻(xiàn)一關(guān)鍵詞”矩陣進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的迭代方法。
輸入:“文獻(xiàn)一關(guān)鍵詞”矩陣。
步驟1:根據(jù)式(1)估算文獻(xiàn)集合的稀疏差異度上限6,計(jì)算CABOSFV算法輸入。
步驟2:運(yùn)行CABOSFV聚類(lèi)算法,得到文獻(xiàn)聚類(lèi)結(jié)果。
步驟3:針對(duì)文獻(xiàn)聚類(lèi)結(jié)果,反查每個(gè)類(lèi)對(duì)應(yīng)的關(guān)鍵詞,根據(jù)關(guān)鍵詞分布情況判斷文獻(xiàn)類(lèi)之間的相似性是否很高:如果很高,繼續(xù)步驟4;如果不高,算法結(jié)束,將此時(shí)的文獻(xiàn)聚類(lèi)結(jié)果作為最終的知識(shí)結(jié)構(gòu)。
步驟4:將聚類(lèi)結(jié)果轉(zhuǎn)換為新一輪算法的輸入,跳轉(zhuǎn)到步驟1。
1.3 研究工具
為了分析利用高維稀疏聚類(lèi)對(duì)“文獻(xiàn)一關(guān)鍵詞”矩陣進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的有效性,采用基于關(guān)鍵詞共現(xiàn)進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別對(duì)比。為了排除其他因素影響,擬定這兩種方法的輸入文獻(xiàn)規(guī)模大小盡可能一致,均根據(jù)詞頻來(lái)選擇,選取前100位的關(guān)鍵詞。基于CABOSFV算法的知識(shí)結(jié)構(gòu)識(shí)別采用自編的C++程序和Python程序來(lái)實(shí)現(xiàn)。另外,本文選擇的是文獻(xiàn)計(jì)量網(wǎng)絡(luò)可視化軟件VOSviewer[19],它提供的默認(rèn)聚類(lèi)算法是一種基于距離的聚類(lèi),聚類(lèi)結(jié)果采用圖譜顯示,圖譜中各個(gè)節(jié)點(diǎn)距離是依據(jù)共現(xiàn)關(guān)系的強(qiáng)度通過(guò)整體相加計(jì)算而生成,圖譜中節(jié)點(diǎn)之間的距離反映著兩者之間的相似性,相似性高的兩個(gè)節(jié)點(diǎn)之間距離很近。此聚類(lèi)算法結(jié)果表示方式為[20],為每個(gè)節(jié)點(diǎn)提供一個(gè)分值,通過(guò)節(jié)點(diǎn)的顏色、大小、聚類(lèi)群組劃分情況可以判讀不同群組的強(qiáng)度及其相互作用關(guān)系。
2 實(shí)驗(yàn)數(shù)據(jù)獲取
2.1 原始數(shù)據(jù)獲取及探查
在中國(guó)知網(wǎng)CNKI上搜索以“數(shù)據(jù)挖掘”為關(guān)鍵詞的文獻(xiàn),選定范圍為期刊,將時(shí)間設(shè)定為近十年,即2009-2018年,檢索得到18 712條結(jié)果。為了防止下載一種格式文件會(huì)出現(xiàn)數(shù)據(jù)不一致的情況,將數(shù)據(jù)下載成Refworks、NoteExpress和Excel
3 種格式進(jìn)行數(shù)據(jù)探查。
由于共詞分析和高維稀疏聚類(lèi)都是關(guān)于關(guān)鍵詞的分析,因此將所有數(shù)據(jù)中沒(méi)有關(guān)鍵詞的數(shù)據(jù)都刪除。此時(shí)就利用自編的Python對(duì)題錄之中K1(即關(guān)鍵詞)為空的內(nèi)容刪除,最終驗(yàn)證到所有題錄的K1(即關(guān)鍵詞)沒(méi)有為空的。因此可以直接使用數(shù)據(jù)進(jìn)行接下來(lái)的分析。
2.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備的任務(wù)是確定使用高維稀疏聚類(lèi)的矩陣維度及基于此構(gòu)建“文獻(xiàn)一關(guān)鍵詞”矩陣。本文選取量級(jí)為百維量級(jí)的關(guān)鍵詞,最終得出頻次排在前100位的關(guān)鍵詞一共有104個(gè)(表2)。其中,“數(shù)據(jù)挖掘”出現(xiàn)16 711次,和其他關(guān)鍵詞出現(xiàn)頻次差距太大,在后來(lái)分析中的關(guān)聯(lián)性很強(qiáng),對(duì)實(shí)驗(yàn)分析影響較大,所以在后續(xù)實(shí)驗(yàn)中會(huì)把關(guān)鍵詞“數(shù)據(jù)挖掘”刪除。
3 實(shí)驗(yàn)結(jié)果
3.1 基于關(guān)鍵詞共現(xiàn)分析的知識(shí)結(jié)構(gòu)識(shí)別結(jié)果
利用VOSviewer軟件選擇共詞分析對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理,對(duì)其詞頻前100位關(guān)鍵詞進(jìn)行知識(shí)圖譜繪制。同樣地,此處去除了關(guān)鍵詞“數(shù)據(jù)挖掘”。經(jīng)過(guò)測(cè)試,將每一類(lèi)的最小規(guī)模設(shè)定為5,其余參數(shù)默認(rèn),得到2009-2018年國(guó)內(nèi)數(shù)據(jù)挖掘研究的知識(shí)圖譜(圖1),可以歸納為8個(gè)研究主題。
第1個(gè)研究主題可以歸納為“大數(shù)據(jù)應(yīng)用研究”,類(lèi)規(guī)模為27,關(guān)鍵詞主要包括:大數(shù)據(jù)( Big Data)、數(shù)據(jù)分析、電子商務(wù)、應(yīng)用。
第2個(gè)研究主題可以歸納為“時(shí)間序列與預(yù)測(cè)研究”,類(lèi)規(guī)模為19,關(guān)鍵詞主要包括:神經(jīng)網(wǎng)絡(luò)、預(yù)測(cè)、時(shí)間序列、遺傳算法、粗糙集。
第3個(gè)研究主題可以歸納為“聚類(lèi)算法研究”,類(lèi)規(guī)模為18,關(guān)鍵詞主要包括:聚類(lèi)分析、聚類(lèi)。
第4個(gè)研究主題可以歸納為“關(guān)聯(lián)規(guī)則研究”,類(lèi)規(guī)模為13,關(guān)鍵詞主要包括:關(guān)聯(lián)規(guī)則、Apriori算法。
第5個(gè)研究主題可以歸納為“數(shù)據(jù)倉(cāng)庫(kù)與商務(wù)智能”,類(lèi)規(guī)模為8,關(guān)鍵詞主要包括:數(shù)據(jù)倉(cāng)庫(kù)、決策支持系統(tǒng)、商務(wù)智能。
第6個(gè)研究主題可以歸納為“分類(lèi)算法研究”,類(lèi)規(guī)模為7,關(guān)鍵詞主要包括:決策樹(shù)、id3算法。
第7個(gè)研究主題可以歸納為“基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)藥應(yīng)用研究”,類(lèi)規(guī)模為7,關(guān)鍵詞主要包括:用藥規(guī)律、組方規(guī)律。
第8個(gè)研究主題可以歸納為“云計(jì)算研究”,類(lèi)規(guī)模為5,關(guān)鍵詞主要包括:云計(jì)算。
3.2 基于高維稀疏聚類(lèi)的知識(shí)結(jié)構(gòu)識(shí)別結(jié)果
經(jīng)探測(cè)發(fā)現(xiàn),很多文獻(xiàn)都是由“數(shù)據(jù)挖掘”和其他某一個(gè)關(guān)鍵詞標(biāo)識(shí),則可以用來(lái)聚類(lèi)文獻(xiàn)的有效關(guān)鍵詞個(gè)數(shù)太少。所以,本文首先將關(guān)鍵詞“數(shù)據(jù)挖掘”去掉,再統(tǒng)計(jì)表示每篇文獻(xiàn)的關(guān)鍵詞個(gè)數(shù),去掉為0和1的文獻(xiàn),最終得到第一輪高維稀疏聚類(lèi)算法的輸入為3 508條文獻(xiàn)。
第一輪:
步驟1:根據(jù)式(1)估算差異度上限b。這里為了取b為最大上限,因此保證e最大,X最小,所以e取100,X取2。a的取值依據(jù)按照關(guān)鍵詞詞頻統(tǒng)計(jì)結(jié)果來(lái)確定(見(jiàn)表3),除去被0個(gè)和1個(gè)關(guān)鍵詞標(biāo)注的文獻(xiàn),還剩余3 508篇文獻(xiàn)??梢?jiàn),當(dāng)a為b或者7所代表對(duì)象太少,因此當(dāng)a取5時(shí)合適,經(jīng)計(jì)算,按照式(1),得到第一輪的b取值為10。
步驟2:按照b=10,運(yùn)行CABOSFV,得到57個(gè)類(lèi)(見(jiàn)表4)。
步驟3:利用自編的Python程序,獲得每一類(lèi)的文獻(xiàn)名稱(chēng)集合。查看文獻(xiàn)名稱(chēng)及對(duì)應(yīng)關(guān)鍵詞,發(fā)現(xiàn)類(lèi)之間的相似性很高,還需要進(jìn)行第二輪聚類(lèi)。
步驟4:將聚類(lèi)結(jié)果轉(zhuǎn)換為第二輪算法輸入。由表4知第二輪算法輸入的對(duì)象個(gè)數(shù)是57,維度是100。利用自編Python程序,得到下一輪算法輸入。
第二輪:
步驟1:為估算差異度上限b,進(jìn)行關(guān)鍵詞詞頻統(tǒng)計(jì)(見(jiàn)表5)??梢?jiàn)a的值在0-5之中選擇較為合適。當(dāng)a為2時(shí)有2個(gè)類(lèi),對(duì)象數(shù)相對(duì)較少,a為3時(shí)有6個(gè)類(lèi)更為合適,也可以讓差異度6盡可能大。因此取a為3合適,經(jīng)計(jì)算,按照上述公式,得到第二輪的6取值為16。
步驟2:按照b=16,運(yùn)行CABOSFV,得到16個(gè)類(lèi)(見(jiàn)表6)。
步驟3:利用自編的Python程序,獲得每一類(lèi)的文獻(xiàn)名稱(chēng)集合。查看文獻(xiàn)名稱(chēng)及對(duì)應(yīng)關(guān)鍵詞,發(fā)現(xiàn)類(lèi)之間的相似性很高,還需要進(jìn)行第三輪聚類(lèi)。
步驟4:將聚類(lèi)結(jié)果轉(zhuǎn)換為第三輪算法輸入。由表6知第三輪算法輸入的對(duì)象個(gè)數(shù)是16,維度是100。利用自編Python程序,得到下一輪算法輸入。
第三輪:
步驟1:類(lèi)似地,為估算差異度上限b,獲得第三輪聚類(lèi)時(shí)關(guān)鍵詞詞頻統(tǒng)計(jì)(見(jiàn)表7)??梢?jiàn),a選擇在1-10之中選擇比較合適,為了使6達(dá)到最大,a盡可能取得最小值,關(guān)鍵詞共現(xiàn)詞頻在a中分別為9、9、8、6、3、2。因此此時(shí)應(yīng)該選擇中位數(shù)合適,定a為6,經(jīng)計(jì)算,得到第三輪的6取值為9。
步驟2:按照b=9,運(yùn)行CABOSFV,得到7個(gè)類(lèi)(表8)。
步驟3:對(duì)聚類(lèi)結(jié)果分析得到每一類(lèi)的文獻(xiàn)名稱(chēng)集合。統(tǒng)計(jì)每一個(gè)文獻(xiàn)類(lèi)對(duì)應(yīng)的關(guān)鍵詞及詞頻(見(jiàn)表9),可見(jiàn),此時(shí)聚類(lèi)可以終止。
結(jié)合反查得到的這些關(guān)鍵詞對(duì)應(yīng)的文獻(xiàn)標(biāo)題,將上述7個(gè)類(lèi)的研究主題歸納如下。
第1類(lèi)研究主題可以歸納為“基于數(shù)據(jù)挖掘技術(shù)的各類(lèi)應(yīng)用”,包含基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行的商業(yè)銷(xiāo)售,基于關(guān)聯(lián)規(guī)則挖掘的Weka數(shù)據(jù)挖掘應(yīng)用,基于改進(jìn)遺傳算法的K - means聚類(lèi)分析,這類(lèi)研究很少涉及單純的數(shù)據(jù)挖掘方法改進(jìn),往往是結(jié)合領(lǐng)域進(jìn)行應(yīng)用。
第2類(lèi)研究主題可以歸納為“數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理中的應(yīng)用”,包含基于數(shù)據(jù)挖掘的客戶(hù)智能分析和研究、數(shù)據(jù)挖掘細(xì)分客戶(hù)群等文獻(xiàn)。
第3類(lèi)研究主題可以歸納為“推薦算法及分類(lèi)算法研究”,這類(lèi)文獻(xiàn)用到了“分類(lèi)算法”、“個(gè)性化推薦”等,這類(lèi)還包含了數(shù)據(jù)挖掘在高校圖書(shū)館個(gè)性化推薦服務(wù)中的有效應(yīng)用
第4類(lèi)研究主題可以歸納為“時(shí)間序列研究及大數(shù)據(jù)應(yīng)用”,這類(lèi)文獻(xiàn)用到了“大數(shù)據(jù)時(shí)代”、“時(shí)間序列”等,這類(lèi)還包含了序列模式挖掘在教學(xué)管理上的應(yīng)用、基于時(shí)間序列的模式挖掘研究、大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)研究等文獻(xiàn)。
第5類(lèi)研究主題可以歸納為“中醫(yī)數(shù)據(jù)挖掘”,這類(lèi)文獻(xiàn)用到了“用藥規(guī)律”、“中醫(yī)傳承輔助平臺(tái)”、“組方規(guī)律”、“醫(yī)案”等,研究基于數(shù)據(jù)挖掘方法的用藥規(guī)律。
第6類(lèi)研究主題可以歸納為“商務(wù)智能”,其中聯(lián)機(jī)分析處理( OLAP)是數(shù)據(jù)倉(cāng)庫(kù)中的一種分析方法,而商務(wù)智能本身也是依托于數(shù)據(jù)倉(cāng)庫(kù)發(fā)展起來(lái)的。第7類(lèi)研究主題可以歸納為“推薦系統(tǒng)與物聯(lián)網(wǎng)應(yīng)用”。
3.3 結(jié)果對(duì)比分析
基于關(guān)鍵詞共現(xiàn)分析的知識(shí)結(jié)構(gòu)識(shí)別和基于高維數(shù)據(jù)聚類(lèi)的知識(shí)結(jié)構(gòu)識(shí)別,兩種方法都可以將文獻(xiàn)從不同角度進(jìn)行聚類(lèi),并且聚類(lèi)的效果與數(shù)據(jù)挖掘研究普遍認(rèn)識(shí)符合度均較好。其中,基于關(guān)鍵詞共現(xiàn)分析獲得了數(shù)據(jù)挖掘研究主要包括8個(gè)類(lèi)別,分別為:1)大數(shù)據(jù)應(yīng)用研究;2)時(shí)間序列與預(yù)測(cè)研究;3)聚類(lèi)算法研究;4)關(guān)聯(lián)規(guī)則研究;5)數(shù)據(jù)倉(cāng)庫(kù)與商務(wù)智能;6)分類(lèi)算法研究;7)基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)藥應(yīng)用研究;8)云計(jì)算研究;基于高維稀疏聚類(lèi)獲得了數(shù)據(jù)挖掘研究主要包括7個(gè)類(lèi)別,分別為:1)基于數(shù)據(jù)挖掘技術(shù)的各類(lèi)應(yīng)用;2)數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理中的應(yīng)用;3)推薦算法及分類(lèi)算法研究;4)時(shí)間序列研究及大數(shù)據(jù)應(yīng)用;5)中醫(yī)數(shù)據(jù)挖掘;6)商務(wù)智能;7)推薦系統(tǒng)與物聯(lián)網(wǎng)應(yīng)用??梢?jiàn),兩種結(jié)果中識(shí)別出來(lái)的研究主題中大部分都是一致的,兩種分類(lèi)都有大數(shù)據(jù)應(yīng)用研究、中醫(yī)數(shù)據(jù)挖掘、聚類(lèi)研究、分類(lèi)研究、時(shí)間序列研究、基于數(shù)據(jù)倉(cāng)庫(kù)的商務(wù)智能應(yīng)用,并且基于關(guān)鍵詞共現(xiàn)分析的類(lèi)(1)與基于高維稀疏聚類(lèi)的類(lèi)(1)大體是一致的。
但是,經(jīng)過(guò)比較亦可發(fā)現(xiàn),基于關(guān)鍵詞共現(xiàn)分析獲得的某些類(lèi)比基于高維稀疏聚類(lèi)獲得的文獻(xiàn)類(lèi)更為詳細(xì)。例如,高維稀疏聚類(lèi)中的大數(shù)據(jù)應(yīng)用類(lèi)包含關(guān)聯(lián)分析、分類(lèi)算法研究等基于關(guān)鍵詞共現(xiàn)析已有的其他類(lèi)別。但是高維稀疏聚類(lèi)對(duì)于差異度特別大的類(lèi)區(qū)分更加仔細(xì),例如數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理中的應(yīng)用、商務(wù)智能、推薦系統(tǒng)與物聯(lián)網(wǎng)應(yīng)用都能夠進(jìn)行單獨(dú)區(qū)分出來(lái)。
此外,基于高維稀疏聚類(lèi)探測(cè)知識(shí)結(jié)構(gòu)的時(shí)候,需要觀察論文題目來(lái)進(jìn)行分類(lèi),但是如果因?yàn)檎撐念}目較多,最后通過(guò)論文題目直接總結(jié)分類(lèi)難度較大,最終解讀聚類(lèi)會(huì)借助每種類(lèi)別文獻(xiàn)的高頻關(guān)鍵詞來(lái)分析,所以和基于關(guān)鍵詞共現(xiàn)分析相比,可以用來(lái)解讀分析結(jié)果的可用信息更多。
4 結(jié)論
已有進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的方法首先基于某種分析思想構(gòu)建同質(zhì)元素間的關(guān)聯(lián)程度矩陣,然后再對(duì)該矩陣進(jìn)行結(jié)構(gòu)識(shí)別。本文使用高維稀疏聚類(lèi)的方法對(duì)“文獻(xiàn)一關(guān)鍵詞”矩陣直接進(jìn)行學(xué)科結(jié)構(gòu)識(shí)別,采用迭代策略,首先利用詞頻來(lái)估計(jì)高維稀疏聚類(lèi)算法參數(shù)和輸入,然后運(yùn)行高維稀疏聚類(lèi)算法,最后通過(guò)統(tǒng)計(jì)聚類(lèi)結(jié)果各個(gè)類(lèi)的關(guān)鍵詞重合情況來(lái)判斷算法是否停止。通過(guò)與基于關(guān)鍵詞共現(xiàn)分析知識(shí)結(jié)構(gòu)識(shí)別效果來(lái)對(duì)比分析,最終發(fā)現(xiàn)基于高維稀疏聚類(lèi)進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別是有效的,并且該方法可以獲得差異度較大的子類(lèi),而且進(jìn)行結(jié)果解讀可以獲取更多信息。在未來(lái)研究中,在維度進(jìn)一步提升的同時(shí),希望能夠進(jìn)一步探測(cè)對(duì)象的輸入順序是否對(duì)聚類(lèi)結(jié)果有影響及不同的差異度上限估算方式,從而得到更準(zhǔn)確的結(jié)果分析。
參考文獻(xiàn)
[1] Small H.Co-citation in the Scientific Literature:A New Measureof the Relationship Between Two Documents[J].Joumal of the A—merican SocietY for information Science, 1973, 24 (4): 265 - 269.
[2]馬瑞敏,邱均平.基于CSSCI的論文同被引實(shí)證計(jì)量研究——以圖書(shū)館學(xué)、情報(bào)學(xué)為例[J].圖書(shū)情報(bào)知識(shí),2005,(5):77-79.
[3] White H D,Griffith B C.Author Cocitation:A Literature Measureof Intellectual Structure[J].Joumal of the American Societv forInformation Science,
1981, 32(3):163-171.
[4]馬瑞敏,倪超群.基于作者同被引分析的我國(guó)圖書(shū)情報(bào)學(xué)知識(shí)結(jié)構(gòu)及其演變研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2011. 37( 6): 17-26.
[5]馬費(fèi)成,宋恩梅.我國(guó)情報(bào)學(xué)研究分析:以ACA為方法[J].情報(bào)學(xué)報(bào),2006, 25 (3):259-268.
[6] Kessler M M. Bibliographic Coupling Between Scientific Papers[J]. American Documentation,1963,14(1):10-25.
[7]肖明,李國(guó)俊,袁浩,基于引文耦合的數(shù)字圖書(shū)館研究結(jié)構(gòu)可視化分析[J].圖書(shū)情報(bào)工作,2010. (7):51-54.
[8] Jameving B.Bibliographic Coupling and Its Application to Research-front and Other Core Documents[J].Joumal of Informetrics,2007,l(4):287-307.
[9] Zhao D, Strotmann A.Evolution of Research Activities and Intel-lectual Influences in Information Science 1996-2005: ImroducingAuthor Bibliographic-coupling Analysis[J].Journal of the Ameri-can Societv for Information Science and Technology, 2008, 59( 13):2070-2086.
[10]馬瑞敏,倪超群,作者耦合分析:一種新學(xué)科知識(shí)結(jié)構(gòu)發(fā)現(xiàn)方法的探索性研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2012. 38 (2):4 -11.
[11]王知津,周鵬,謝麗娜,用ABCA方法識(shí)別和闡釋我國(guó)當(dāng)代情報(bào)學(xué)研究領(lǐng)域[J].情報(bào)學(xué)報(bào),2013. 32 (1):4-12.
[12] Morris S A, Yen G G.Crossmaps: Visualization of OverlappingRelationships in Collections of Journal Papers[J]. Proceedings ofthe National Academv of Sciences, 2004, 101 (1): 5291-5296.
[13]張勤,馬費(fèi)成,國(guó)內(nèi)知識(shí)管理研究結(jié)構(gòu)探討——以共詞分析為方法[J].情報(bào)學(xué)報(bào),2008, 27(1):93-101.
[14]張勤,徐緒松,共詞分析法與可視化技術(shù)的結(jié)合:揭示國(guó)外知識(shí)管理研究結(jié)構(gòu)[J].管理工程學(xué)報(bào),2008, 22 (4):30- 35.
[15]孫海生.作者關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)及實(shí)證研究[J].情報(bào)雜志,2012, 31 (9):63-67.
[16] Chen C. CiteSpace Ⅱ: Detecting and Visualizing EmergingTrends and Transient Pattems in Scientific Literature[ J]. Joumalof the American Socieiy for Information Science and Technology,2006, 57 (3):359-377.
[17]丁晟春,王楠,吳靚嬋媛.基于關(guān)鍵詞共現(xiàn)和社區(qū)發(fā)現(xiàn)的微博熱點(diǎn)主題識(shí)別研究[J].現(xiàn)代情報(bào),2018, 38 (3):10-18.
[18]武森,高學(xué)東,M.巴斯蒂安.高維稀疏聚類(lèi)知識(shí)發(fā)現(xiàn)[M].北京:冶金工業(yè)出版社,2003: 38-54.
[19]N Van Eck, Waltman L VOS:A New Method for VisualizingSimilarities Between Objects[C]//Advances in Data Analysis:Proceedings of the 30th Annual Conference of the German Oassifi- cation Society. 2007: 299-306.
[20]李杰.科學(xué)知識(shí)圖譜原理及應(yīng)用-VOSviewer和CitNetEx-plorer初學(xué)者指南[M].北京:高等教育出版社,2018:49 - 52.
(責(zé)任編輯:郭沫含)
收稿日期:2019-07-19
基金項(xiàng)目:教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“面向語(yǔ)言學(xué)的文獻(xiàn)計(jì)量及知識(shí)可視化分析”(項(xiàng)目編號(hào):17YJCZH069);全國(guó)高等院校計(jì)算機(jī)基礎(chǔ)教育研究會(huì)2018年度計(jì)算機(jī)基礎(chǔ)教育教學(xué)研究項(xiàng)目“教育數(shù)據(jù)聚類(lèi)分析及個(gè)性化推薦”(項(xiàng)目編號(hào):2018-AFCEC- 176);北京語(yǔ)言大學(xué)院級(jí)科研項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)專(zhuān)項(xiàng)資金資助)“基于文獻(xiàn)計(jì)量的不同學(xué)科差異分析”(項(xiàng)目編號(hào):19YJ040001);北京市級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)計(jì)劃項(xiàng)目支持(項(xiàng)目批準(zhǔn)號(hào):201910032038)。
作者簡(jiǎn)介:黃月(1986-),女,副教授,博士,研究方向:數(shù)據(jù)挖掘、信息計(jì)量。王鑫(1995 -),男,學(xué)士,研究方向:聚類(lèi)分析。