• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于共現(xiàn)關(guān)系的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建研究

    2022-10-09 00:42:08熊回香陳子薇葉佳鑫
    知識(shí)管理論壇 2022年4期
    關(guān)鍵詞:層次結(jié)構(gòu)詞典詞語(yǔ)

    熊回香 陳子薇 葉佳鑫

    華中師范大學(xué)信息管理學(xué)院 武漢 430079

    1 引言

    科技文獻(xiàn)主要包括題名、關(guān)鍵詞、摘要、全文等重要內(nèi)容,其中關(guān)鍵詞是最常用的表示科技文獻(xiàn)內(nèi)容特征的知識(shí)單元,相較于題名來(lái)說(shuō)關(guān)鍵詞能表示文本內(nèi)容特征的不同側(cè)面,與摘要相比關(guān)鍵詞表示的知識(shí)則更為濃縮,相較于全文來(lái)說(shuō)關(guān)鍵詞則具有利用便捷、高效的特點(diǎn)[1-3]。由此關(guān)鍵詞成為目前應(yīng)用范圍最廣、最受關(guān)注的科技文獻(xiàn)知識(shí)單元。

    對(duì)于關(guān)鍵詞的開(kāi)發(fā)利用,主要是在關(guān)鍵詞間相關(guān)性挖掘的基礎(chǔ)上,借助關(guān)鍵詞來(lái)表征文本、資源或者使用關(guān)鍵詞的用戶的特征,進(jìn)而通過(guò)關(guān)鍵詞之間的關(guān)聯(lián)來(lái)建立文本間、資源間以及用戶間的聯(lián)系,實(shí)現(xiàn)知識(shí)關(guān)聯(lián)、資源推薦等工作。早期,關(guān)鍵詞間相關(guān)性的挖掘主要依賴(lài)于對(duì)詞典資源的利用,但因詞典存在更新速度慢、覆蓋面有限等問(wèn)題,關(guān)鍵詞間相關(guān)性的挖掘逐步轉(zhuǎn)向于從大規(guī)模的語(yǔ)料庫(kù)中學(xué)習(xí)并構(gòu)建關(guān)鍵詞特征,通常采用向量特征來(lái)計(jì)算關(guān)鍵詞間相似度[4]。然而,關(guān)鍵詞間存在著同義、上下義、反義、同形異義等多種關(guān)系,目前的研究常將這些復(fù)雜的關(guān)系以單一的相似度數(shù)值來(lái)度量,例如基于關(guān)鍵詞共現(xiàn)關(guān)系的詞間相似度挖掘,這種方法并未對(duì)不同關(guān)系進(jìn)行區(qū)分,缺少對(duì)關(guān)鍵詞語(yǔ)義信息的深入挖掘,也導(dǎo)致在效果上存在一定不足[5-6]。筆者從科技文獻(xiàn)價(jià)值開(kāi)發(fā)的角度出發(fā),在關(guān)鍵詞共現(xiàn)分析的基礎(chǔ)上結(jié)合對(duì)詞本身分布特征的分析,建立能反映關(guān)鍵詞間研究范圍上下位關(guān)系的關(guān)鍵詞層次結(jié)構(gòu),以更好地對(duì)關(guān)鍵詞進(jìn)行挖掘利用,推動(dòng)相關(guān)研究進(jìn)展。

    2 相關(guān)研究

    2.1 詞語(yǔ)相關(guān)性挖掘

    (1)基于詞典的挖掘?;谠~典對(duì)詞語(yǔ)進(jìn)行相關(guān)性挖掘主要是依據(jù)構(gòu)建詞典時(shí)的分類(lèi)規(guī)則來(lái)挖掘詞語(yǔ)之間的語(yǔ)義聯(lián)系。WordNet是最常見(jiàn)的用于挖掘英文詞語(yǔ)間相關(guān)性的語(yǔ)義詞典,通過(guò)WordNet可有效挖掘詞語(yǔ)之間概念關(guān)系,并用于文檔或圖像等資源間相似度的計(jì)算[7];同義詞詞林是一本包含詞語(yǔ)間同義關(guān)系的語(yǔ)義詞典,其按照詞語(yǔ)概念的遞進(jìn)分為5層樹(shù)狀結(jié)構(gòu),基于詞林的樹(shù)狀結(jié)構(gòu)能對(duì)詞語(yǔ)關(guān)系進(jìn)行挖掘[8];HowNet也是常見(jiàn)的用于挖掘中文詞語(yǔ)相關(guān)性的詞典,區(qū)別于應(yīng)用詞林時(shí)基于詞典結(jié)構(gòu),在利用HowNet進(jìn)行詞語(yǔ)間相關(guān)性挖掘時(shí)主要是依據(jù)描述詞語(yǔ)概念的義原[9];此外,同時(shí)借助多種詞典進(jìn)行詞語(yǔ)相關(guān)性挖掘,相較于借助單一詞典能在一定程度上擴(kuò)大可計(jì)算詞語(yǔ)的范圍并提升相關(guān)性挖掘的準(zhǔn)確性[10]。

    (2)基于大規(guī)模語(yǔ)料的挖掘。相較于基于詞典的方法,基于大規(guī)模語(yǔ)料的挖掘效果主要取決于文本特征的學(xué)習(xí)與表示方法,且其囊括的詞語(yǔ)范圍遠(yuǎn)高于基于詞典的范圍。目前,文本特征的學(xué)習(xí)與表示,主要是將文本特征經(jīng)過(guò)訓(xùn)練轉(zhuǎn)換為詞向量,常見(jiàn)的主要有基于CBOW、Skip-gram等算法訓(xùn)練得到Word2vec詞向量[11],以及目前較為流行的基于CNN、LSTM與BERT等模型訓(xùn)練得到詞向量或挖掘文本特征[12-13]。田星等將Jaccard與Word2vec相結(jié)合,在訓(xùn)練得到Word2vec詞向量后,將詞向量融入到Jaccard方法中,進(jìn)行短文本間相關(guān)性挖掘,有效提升了挖掘效果[14];E. L. Pontes等使用CNN解析單詞的局部上下文,使用LSTM分析句子的全局上下文,對(duì)文本信息進(jìn)行有效保留以提高相關(guān)性挖掘效果[15];M. M. Sanjeev等借助BERT實(shí)現(xiàn)詞、句子間語(yǔ)義相關(guān)性的挖掘,并將其應(yīng)用于郵件查找工作中[16]。

    在詞語(yǔ)相關(guān)性挖掘方法中,基于詞典的方法對(duì)詞語(yǔ)之間關(guān)系的挖掘較為全面,詞語(yǔ)相關(guān)性挖掘的效果通常較好,但存在詞典更新困難、計(jì)算范圍有限的問(wèn)題;而基于大規(guī)模語(yǔ)料的方法,雖然能顯著提升計(jì)算范圍,并能實(shí)現(xiàn)對(duì)詞語(yǔ)關(guān)系的自動(dòng)挖掘,但這類(lèi)方法通常對(duì)語(yǔ)料的質(zhì)量要求較高,且對(duì)部分詞語(yǔ)如低頻詞、凸現(xiàn)詞的挖掘效果較差[17]。

    2.2 詞語(yǔ)層次關(guān)系挖掘

    詞語(yǔ)層次關(guān)系挖掘主要是對(duì)詞語(yǔ)之間的上下位關(guān)系進(jìn)行挖掘與呈現(xiàn),即在詞語(yǔ)相關(guān)性挖掘的基礎(chǔ)上進(jìn)一步得出詞語(yǔ)之間的上下級(jí)關(guān)系并建立相應(yīng)的詞語(yǔ)結(jié)構(gòu),目前常見(jiàn)的挖掘?qū)ο笾饕獮樯缃痪W(wǎng)絡(luò)上的標(biāo)簽類(lèi)詞語(yǔ)以及學(xué)術(shù)文獻(xiàn)中的關(guān)鍵詞類(lèi)詞語(yǔ)。G. Tibély等以蛋白質(zhì)功能標(biāo)簽與電影標(biāo)簽為對(duì)象,基于復(fù)雜網(wǎng)絡(luò)理論,通過(guò)網(wǎng)絡(luò)加權(quán)與共現(xiàn)關(guān)系從網(wǎng)絡(luò)中提取出了標(biāo)簽層次關(guān)系[18];S. Li等基于學(xué)術(shù)關(guān)鍵詞的共現(xiàn)關(guān)系以及詞組中詞的組合順序建立了關(guān)鍵詞層次結(jié)構(gòu)[19];熊回香等依據(jù)圖書(shū)標(biāo)簽的概念范圍及共現(xiàn)關(guān)系進(jìn)行了標(biāo)簽層次關(guān)系建立[20-21]。

    在詞語(yǔ)層次關(guān)系構(gòu)建研究中,以往的研究多以共現(xiàn)關(guān)系為基礎(chǔ)進(jìn)行詞語(yǔ)之間層次關(guān)系的挖掘,但在挖掘時(shí)僅考慮了詞語(yǔ)是否共現(xiàn),沒(méi)有對(duì)詞語(yǔ)的語(yǔ)義類(lèi)型與功能進(jìn)行區(qū)分,因而難以說(shuō)明層次關(guān)系是按照何種規(guī)則進(jìn)行層次遞進(jìn),也導(dǎo)致了構(gòu)建的層次關(guān)系在應(yīng)用上存在一定的局限。

    3 研究框架與關(guān)鍵步驟

    3.1 研究框架

    為了更好地挖掘詞語(yǔ)相關(guān)性,筆者借助詞典的思想,對(duì)詞語(yǔ)間共現(xiàn)情況進(jìn)行深入挖掘來(lái)半自動(dòng)地構(gòu)建能反映詞語(yǔ)間上下位關(guān)系的詞語(yǔ)層次結(jié)構(gòu),并將建立好的層次結(jié)構(gòu)與基于語(yǔ)料的方法結(jié)合,以拓展相關(guān)性挖掘的范圍,提高挖掘結(jié)果質(zhì)量。因?qū)W術(shù)關(guān)鍵詞具有規(guī)范、精煉、語(yǔ)義明確等特點(diǎn),筆者選擇研究的詞語(yǔ)為學(xué)術(shù)關(guān)鍵詞,其按語(yǔ)義類(lèi)型及功能的不同可以分為研究方法類(lèi)、研究主題類(lèi)、研究范圍類(lèi)等不同類(lèi)型的關(guān)鍵詞[22]。其中,研究方法類(lèi)關(guān)鍵詞反映的是科技文獻(xiàn)所用研究方法,通過(guò)挖掘不同科技文獻(xiàn)在研究方法上存在的異同之處可以較好地挖掘文獻(xiàn)之間的聯(lián)系,并且通過(guò)研究方法之間的關(guān)聯(lián)可以有效擴(kuò)充研究方法的適用范圍。因此,筆者在挖掘詞語(yǔ)相關(guān)性時(shí)以研究方法類(lèi)學(xué)術(shù)關(guān)鍵詞作為主要研究對(duì)象,通過(guò)挖掘研究方法類(lèi)關(guān)鍵詞與其他類(lèi)型關(guān)鍵詞間的共現(xiàn)關(guān)系來(lái)構(gòu)建研究方法類(lèi)關(guān)鍵詞層次結(jié)構(gòu),若某一研究方法類(lèi)關(guān)鍵詞與多種研究主題或研究范圍類(lèi)關(guān)鍵詞具有共現(xiàn)關(guān)系,則可推斷該方法適用于多種主題,具有較為廣泛的應(yīng)用范圍,以此為基礎(chǔ)構(gòu)建研究方法類(lèi)關(guān)鍵詞的層次結(jié)構(gòu),則可按關(guān)聯(lián)的主題與研究范圍大小進(jìn)行關(guān)鍵詞層次遞進(jìn),使構(gòu)建的層次結(jié)構(gòu)具有更好的應(yīng)用價(jià)值。按此思路構(gòu)建的研究框架共分為數(shù)據(jù)收集與預(yù)處理、關(guān)鍵詞相似度計(jì)算、建立關(guān)鍵詞層次結(jié)構(gòu)3個(gè)步驟,如圖1所示:

    圖1 基于共現(xiàn)關(guān)系的研究方法類(lèi)關(guān)鍵詞層次構(gòu)建框架

    3.2 關(guān)鍵步驟

    3.2.1 數(shù)據(jù)收集與預(yù)處理

    從文獻(xiàn)數(shù)據(jù)庫(kù)中采集相關(guān)科技文獻(xiàn)關(guān)鍵詞數(shù)據(jù),對(duì)采集到的關(guān)鍵詞數(shù)據(jù)進(jìn)行篩選與統(tǒng)計(jì)工作之后,按照參考文獻(xiàn)[3]與參考文獻(xiàn)[22]所述標(biāo)準(zhǔn)將關(guān)鍵詞劃分為研究方法類(lèi)關(guān)鍵詞與非研究方法類(lèi)關(guān)鍵詞。然后,對(duì)于非研究方法類(lèi)關(guān)鍵詞,按照詞頻排序,選擇詞頻數(shù)較高的部分研究主題類(lèi)與研究范圍類(lèi)關(guān)鍵詞作為特征項(xiàng)關(guān)鍵詞,用以在后續(xù)研究中描述研究方法類(lèi)關(guān)鍵詞的特征。

    3.2.2 關(guān)鍵詞相似度計(jì)算

    基于關(guān)鍵詞共現(xiàn)矩陣計(jì)算關(guān)鍵詞間相似度。關(guān)鍵詞間的共現(xiàn)可分為直接共現(xiàn)情況與間接共現(xiàn)情況兩種,在本文中直接共現(xiàn)情況是指兩個(gè)研究方法類(lèi)關(guān)鍵詞出現(xiàn)在同一科技文獻(xiàn)中,即在該科技文獻(xiàn)中兩個(gè)研究方法類(lèi)關(guān)鍵詞被用于同一研究;間接共現(xiàn)情況則是指兩個(gè)研究方法類(lèi)關(guān)鍵詞被用于同一個(gè)研究主題或者研究范圍中。筆者構(gòu)建研究方法類(lèi)關(guān)鍵詞之間的共現(xiàn)矩陣用以反映研究方法類(lèi)關(guān)鍵詞間的直接共現(xiàn)情況,構(gòu)建研究方法類(lèi)關(guān)鍵詞與特征項(xiàng)關(guān)鍵詞之間的共現(xiàn)矩陣用以反映研究方法類(lèi)關(guān)鍵詞間的間接共現(xiàn)情況,并在共現(xiàn)矩陣的基礎(chǔ)上利用余弦相似度算法計(jì)算研究方法類(lèi)關(guān)鍵詞之間的向量余弦距離,得到研究方法類(lèi)關(guān)鍵詞之間的直接共現(xiàn)相似度與間接共現(xiàn)相似度,此外,考慮到本文研究重點(diǎn)為關(guān)鍵詞層次結(jié)構(gòu)的構(gòu)建,故直接對(duì)兩種相似度進(jìn)行加權(quán)整合得到研究方法類(lèi)關(guān)鍵詞綜合共現(xiàn)相似度。

    3.2.3 建立關(guān)鍵詞層次結(jié)構(gòu)

    研究方法類(lèi)關(guān)鍵詞層次結(jié)構(gòu)的建立主要可以分為概念范圍度量、確立根節(jié)點(diǎn)、選定概念范圍閾值、確立子節(jié)點(diǎn)與層級(jí)遞進(jìn)5個(gè)步驟。

    (1)概念范圍度量。研究方法類(lèi)關(guān)鍵詞概念范圍是通過(guò)其與特征項(xiàng)關(guān)鍵詞之間的共現(xiàn)關(guān)系度量,在本文中特征項(xiàng)關(guān)鍵詞是反映文獻(xiàn)研究主題、研究對(duì)象等特征的詞,若相關(guān)的特征項(xiàng)關(guān)鍵詞越多,則表明研究方法類(lèi)關(guān)鍵詞可適用于更多的研究主題或?qū)ο螅哂休^大的概念范圍。

    (2)確立根節(jié)點(diǎn)。根節(jié)點(diǎn)概念范圍越大,則與其相關(guān)的關(guān)鍵詞層次結(jié)構(gòu)也能具有更大的適用范圍,因此在度量研究方法類(lèi)關(guān)鍵詞概念范圍之后選擇概念范圍較大的關(guān)鍵詞作為層次結(jié)構(gòu)的根節(jié)點(diǎn)。

    (3)制定概念范圍閾值。為使概念范圍接近的關(guān)鍵詞盡可能位于同一層級(jí),其處于上下層級(jí)的關(guān)鍵詞間概念范圍存在一定差異,使得概念范圍隨著層級(jí)遞進(jìn)呈現(xiàn)逐層遞減,需要控制不同層級(jí)中關(guān)鍵詞的概念范圍。故在建立層次結(jié)構(gòu)時(shí),應(yīng)在對(duì)關(guān)鍵詞概念范圍進(jìn)行度量的基礎(chǔ)上,分析關(guān)鍵詞概念范圍的分布,并以此制定每個(gè)層級(jí)的概念范圍閾值。

    (4)確立子節(jié)點(diǎn)。確立根節(jié)點(diǎn)并制定概念范圍閾值之后,按照根節(jié)點(diǎn)關(guān)鍵詞與其他關(guān)鍵詞之間的關(guān)系確立可加入層次結(jié)構(gòu)的子節(jié)點(diǎn)關(guān)鍵詞。首先,加入層次結(jié)構(gòu)的子節(jié)點(diǎn)應(yīng)與根節(jié)點(diǎn)具有一定的相關(guān)性,在本文中即子節(jié)點(diǎn)與根節(jié)點(diǎn)之間的綜合共現(xiàn)相似度應(yīng)達(dá)到一定值;其次,子節(jié)點(diǎn)應(yīng)與某一父節(jié)點(diǎn)具有一定的相關(guān)性,在本文中即子節(jié)點(diǎn)與父節(jié)點(diǎn)之間的直接共現(xiàn)相似度或間接共現(xiàn)相似度應(yīng)達(dá)到一定值;最后,子節(jié)點(diǎn)的概念范圍應(yīng)達(dá)到對(duì)應(yīng)層級(jí)的概念范圍閾值。

    (5)層級(jí)遞進(jìn)。確立根節(jié)點(diǎn)后,為根節(jié)點(diǎn)加入子節(jié)點(diǎn)作為層次結(jié)構(gòu)的第二層級(jí);隨后,將加入的子節(jié)點(diǎn)作為第三層級(jí)關(guān)鍵詞的父節(jié)點(diǎn)并為其加入對(duì)應(yīng)的子節(jié)點(diǎn),并通過(guò)衡量關(guān)鍵詞之間的相似度以及關(guān)鍵詞概念范圍是否達(dá)到對(duì)應(yīng)的閾值來(lái)向?qū)哟谓Y(jié)構(gòu)中逐漸加入新的節(jié)點(diǎn),每個(gè)關(guān)鍵詞僅能加入層次結(jié)構(gòu)1次,若子節(jié)點(diǎn)同時(shí)與多個(gè)父節(jié)點(diǎn)間的相似度達(dá)到閾值,則將其與相似度最大的父節(jié)點(diǎn)建立層次關(guān)系,且子節(jié)點(diǎn)概念范圍應(yīng)低于父節(jié)點(diǎn)。

    4 實(shí)證研究與結(jié)果分析

    4.1 數(shù)據(jù)收集及預(yù)處理

    考慮到學(xué)科內(nèi)的研究方法在較短年限內(nèi)不會(huì)發(fā)生太大變化以及期刊在選題上具有一定的連貫性,因此選取《圖書(shū)情報(bào)工作》《情報(bào)理論與實(shí)踐》《情報(bào)雜志》 《情報(bào)科學(xué)》《情報(bào)學(xué)報(bào)》《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》6種與研究方法較為相關(guān)的期刊[23]作為數(shù)據(jù)來(lái)源期刊,選擇“實(shí)驗(yàn)法”“實(shí)證研究”“統(tǒng)計(jì)分析”等55個(gè)使用頻次最高的研究方法類(lèi)關(guān)鍵詞[23]作為研究對(duì)象。

    在中國(guó)知網(wǎng)上構(gòu)造檢索表達(dá)式,設(shè)置源期刊為《圖書(shū)情報(bào)工作》等6種情報(bào)學(xué)核心期刊,包含關(guān)鍵詞為“實(shí)驗(yàn)法”或“實(shí)證研究”等55個(gè)關(guān)鍵詞,發(fā)表時(shí)間為2016年7月至2021年6月,共檢索到相關(guān)文獻(xiàn)1 489篇,如表1所示(僅展示關(guān)鍵詞與題名信息):

    表1 科技文獻(xiàn)數(shù)據(jù)

    收集數(shù)據(jù)后,對(duì)關(guān)鍵詞進(jìn)行標(biāo)準(zhǔn)化與篩選等工作。首先將關(guān)鍵詞進(jìn)行同義詞標(biāo)準(zhǔn)化,例如將“K-means”“k-means聚類(lèi)”與“K-means算法”統(tǒng)一表述為“K-means”;隨后進(jìn)行詞頻統(tǒng)計(jì),由于詞頻數(shù)較低的詞構(gòu)建層次關(guān)系時(shí)會(huì)使得關(guān)鍵詞相關(guān)性難以挖掘,因此去除詞頻數(shù)在5以下的研究方法類(lèi)關(guān)鍵詞;最后根據(jù)詞頻選擇作為特征項(xiàng)的關(guān)鍵詞,選取詞頻數(shù)達(dá)到9的非研究方法類(lèi)關(guān)鍵詞作為特征項(xiàng)。對(duì)關(guān)鍵詞進(jìn)行篩選與選擇后共有40個(gè)研究方法類(lèi)關(guān)鍵詞、48個(gè)特征項(xiàng)關(guān)鍵詞,分別如表2和表3所示:

    表2 研究方法類(lèi)關(guān)鍵詞詞頻

    對(duì)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)與篩選后,應(yīng)用Co-Occurrence6.7(COOC6.7)[24]構(gòu)建關(guān)鍵詞共現(xiàn)矩陣。根據(jù)表1構(gòu)建表2中研究方法類(lèi)關(guān)鍵詞之間的共現(xiàn)矩陣;基于表1并依據(jù)表2中研究方法類(lèi)關(guān)鍵詞與表3中的特征項(xiàng)關(guān)鍵詞間的共現(xiàn)關(guān)系,構(gòu)建研究方法類(lèi)關(guān)鍵詞與特征項(xiàng)關(guān)鍵詞共現(xiàn)矩陣。

    表3 特征項(xiàng)關(guān)鍵詞詞頻

    4.2 直接共現(xiàn)相似度

    基于研究方法類(lèi)關(guān)鍵詞的共現(xiàn)矩陣,以余弦相似度算法計(jì)算研究方法類(lèi)關(guān)鍵詞向量之間的余弦距離,通過(guò)余弦距離來(lái)度量關(guān)鍵詞之間的直接共現(xiàn)相似度,結(jié)果如表4所示:

    表4 研究方法類(lèi)關(guān)鍵詞直接共現(xiàn)相似度

    4.3 間接共現(xiàn)相似度

    根據(jù)研究方法類(lèi)關(guān)鍵詞與特征詞的共現(xiàn)矩陣,以余弦相似度算法計(jì)算研究方法類(lèi)關(guān)鍵詞向量之間的余弦距離,通過(guò)余弦距離來(lái)度量關(guān)鍵詞之間的間接共現(xiàn)相似度,結(jié)果如表5所示:

    表5 研究方法類(lèi)關(guān)鍵詞間接共現(xiàn)相似度

    4.4 綜合共現(xiàn)相似度

    得到直接共現(xiàn)相似度與間接共現(xiàn)相似度后,通過(guò)調(diào)整加權(quán)平均的權(quán)值進(jìn)行多次實(shí)驗(yàn),當(dāng)權(quán)值均為0.5時(shí)實(shí)驗(yàn)效果最好,故對(duì)表4與表5中的相關(guān)性矩陣進(jìn)行求和并取均值,得到研究方法類(lèi)關(guān)鍵詞綜合共現(xiàn)相似度,如表6所示:

    表6 研究方法類(lèi)關(guān)鍵詞綜合共現(xiàn)相似度

    4.5 層次結(jié)構(gòu)建立

    按照3.2.3小節(jié)所述步驟進(jìn)行研究方法類(lèi)關(guān)鍵詞層次結(jié)構(gòu)的建立。根據(jù)研究方法類(lèi)關(guān)鍵詞與特征項(xiàng)關(guān)鍵詞的共現(xiàn)矩陣,若關(guān)鍵詞與特征項(xiàng)共現(xiàn)次數(shù)在1及以上則認(rèn)為其具有相關(guān)性。由此,統(tǒng)計(jì)與研究方法類(lèi)關(guān)鍵詞有關(guān)的特征項(xiàng)關(guān)鍵詞個(gè)數(shù),以表示該研究方法類(lèi)關(guān)鍵詞的概念范圍,結(jié)果如圖2所示:

    圖2 研究方法類(lèi)關(guān)鍵詞概念閾值分布

    依據(jù)圖2所示結(jié)果,“知識(shí)圖譜”具有較大的概念范圍,因此筆者選擇“知識(shí)圖譜”作為根節(jié)點(diǎn)進(jìn)行研究方法類(lèi)關(guān)鍵詞層次結(jié)構(gòu)的構(gòu)建。此外,考慮到層級(jí)中關(guān)鍵詞數(shù)量以及關(guān)鍵詞概念范圍的分布情況,筆者構(gòu)建了具有4層層次關(guān)系的層次結(jié)構(gòu)。對(duì)圖2中關(guān)鍵詞的概念范圍分布情況進(jìn)行分析,發(fā)現(xiàn)概念閾值在22、15、8等值附近波動(dòng)較為明顯,同時(shí)考慮到每一層級(jí)中的關(guān)鍵詞節(jié)點(diǎn)數(shù),設(shè)置第一層級(jí)的概念范圍閾值為22,第二層級(jí)的概念范圍閾值為15,第三層級(jí)的概念范圍閾值為8,第四層級(jí)的概念范圍閾值為1。

    在加入子節(jié)點(diǎn)時(shí)基于對(duì)表6中相似度結(jié)果的分析,設(shè)置與根節(jié)點(diǎn)“知識(shí)圖譜”綜合共現(xiàn)相似度達(dá)到0.15,即與根節(jié)點(diǎn)具有一定相關(guān)性的關(guān)鍵詞能加入層次結(jié)構(gòu);基于對(duì)表4與表5中相似度結(jié)果的分析,設(shè)置與父節(jié)點(diǎn)間直接相似度或間接相似度達(dá)到0.5,即與父節(jié)點(diǎn)具有較強(qiáng)相關(guān)性的關(guān)鍵詞作為其子節(jié)點(diǎn)加入層次結(jié)構(gòu)?;诒?中的結(jié)果,可以發(fā)現(xiàn)在39個(gè)研究方法類(lèi)關(guān)鍵詞中與根節(jié)點(diǎn)“知識(shí)圖譜”綜合共現(xiàn)相似度達(dá)到0.15,可以加入層次結(jié)構(gòu)的關(guān)鍵詞共有24個(gè)?;诖耍瑥母?jié)點(diǎn)“知識(shí)圖譜”開(kāi)始依次向?qū)哟谓Y(jié)構(gòu)中加入子節(jié)點(diǎn),根節(jié)點(diǎn)“知識(shí)圖譜”作為層次結(jié)構(gòu)的第一層級(jí)共有3個(gè)子節(jié)點(diǎn),第二層級(jí)的3個(gè)節(jié)點(diǎn)共有6個(gè)子節(jié)點(diǎn),第三層級(jí)的6個(gè)節(jié)點(diǎn)共有5個(gè)子節(jié)點(diǎn),即可以加入層次結(jié)構(gòu)的24個(gè)關(guān)鍵詞中共有14個(gè)關(guān)鍵詞加入層次結(jié)構(gòu),另有10個(gè)關(guān)鍵詞與所有父節(jié)點(diǎn)均不滿足相似度條件,故未加入層次結(jié)構(gòu)。最后構(gòu)建的以“知識(shí)圖譜”為根節(jié)點(diǎn)的層次結(jié)構(gòu)如圖3所示:

    圖3 “知識(shí)圖譜”層次結(jié)構(gòu)

    4.6 層次結(jié)構(gòu)構(gòu)建結(jié)果分析

    為了與筆者提出的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建方法進(jìn)行對(duì)比,以“知識(shí)圖譜”為根節(jié)點(diǎn),分別基于方法類(lèi)關(guān)鍵詞間直接共現(xiàn)相似度和間接共現(xiàn)相似度構(gòu)建層次結(jié)構(gòu)。結(jié)果如圖4所示:

    圖4 基于直接共現(xiàn)相似度和間接共現(xiàn)相似度的層次結(jié)構(gòu)

    比較圖3和圖4可以看出,基于單一共現(xiàn)指標(biāo)的構(gòu)建效果并不太理想,基于綜合共現(xiàn)相似度的層次結(jié)構(gòu)更為豐富,子節(jié)點(diǎn)較多,有利于建立完善的關(guān)鍵詞層次結(jié)構(gòu)。同時(shí),圖3所構(gòu)建的層次結(jié)構(gòu)將研究范圍相似度較高的關(guān)鍵詞聯(lián)系起來(lái),并且與同一研究主題相關(guān)度較高的關(guān)鍵詞也聚集到一起,各關(guān)鍵詞被分入到了合適的等級(jí)結(jié)構(gòu)中。

    5 結(jié)語(yǔ)

    筆者以研究方法類(lèi)關(guān)鍵詞為研究對(duì)象,綜合考慮關(guān)鍵詞直接共現(xiàn)關(guān)系和間接共現(xiàn)關(guān)系,在關(guān)鍵詞共現(xiàn)關(guān)系挖掘的基礎(chǔ)上,分析與關(guān)鍵詞關(guān)聯(lián)的研究范圍大小,建立了關(guān)鍵詞層次結(jié)構(gòu)。通過(guò)實(shí)例數(shù)據(jù)證明,筆者所提出的方法相較基于單一共現(xiàn)指標(biāo)的方法,能夠構(gòu)建更為完善、關(guān)聯(lián)更為緊密的關(guān)鍵詞等級(jí)結(jié)構(gòu)。但是,本文仍具有以下局限性:①關(guān)鍵詞間間接共現(xiàn)存在多種情況,而本文僅考慮了兩個(gè)研究方法類(lèi)關(guān)鍵詞應(yīng)用于同一研究主題或研究范圍的情況,未來(lái)將進(jìn)一步探索多種間接關(guān)系的特點(diǎn)及其對(duì)關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建的影響;②受限于數(shù)據(jù)量,本文僅選用具有代表性的實(shí)例進(jìn)行論證,如果選擇的樣本數(shù)據(jù)量較大,則更能充分體現(xiàn)關(guān)鍵詞間的相互關(guān)系,那么層次結(jié)構(gòu)構(gòu)建的效果可能會(huì)更好。未來(lái),筆者將在較大數(shù)據(jù)集合中對(duì)此層次結(jié)構(gòu)構(gòu)建方法予以驗(yàn)證。

    猜你喜歡
    層次結(jié)構(gòu)詞典詞語(yǔ)
    容易混淆的詞語(yǔ)
    基于級(jí)聯(lián)網(wǎng)絡(luò)和語(yǔ)義層次結(jié)構(gòu)的圖像自動(dòng)標(biāo)注方法
    找詞語(yǔ)
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    論立法修辭功能的層次結(jié)構(gòu)
    法律方法(2017年2期)2017-04-18 09:00:37
    詞語(yǔ)欣賞
    建構(gòu)利益相關(guān)者管理的三層次結(jié)構(gòu)分析
    一枚詞語(yǔ)一門(mén)靜
    报价| 赤峰市| 嵩明县| 阿拉善右旗| 毕节市| 旌德县| 眉山市| 海林市| 巨鹿县| 横山县| 兰坪| 汨罗市| 崇文区| 开化县| 常山县| 孟村| 临猗县| 长岭县| 云霄县| 永春县| 虎林市| 绵竹市| 滨州市| 兰州市| 那曲县| 当雄县| 忻城县| 米易县| 自贡市| 中阳县| 德钦县| 鄂尔多斯市| 图木舒克市| 亚东县| 资兴市| 永新县| 潼关县| 韶关市| 密山市| 南靖县| 建阳市|