• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      知識群落在文獻(xiàn)資源動態(tài)主題聚類中的有效性

      2019-12-16 06:14:28徐漢青王思茗孫熊蘭滕廣青東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院
      圖書館理論與實踐 2019年11期
      關(guān)鍵詞:頻度群落關(guān)聯(lián)

      徐漢青,王思茗,孫熊蘭,滕廣青(東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院)

      隨著科學(xué)技術(shù)的進(jìn)步,各種科技文獻(xiàn)數(shù)量與日俱增,科研工作者面臨的文獻(xiàn)資源篩選困難的難題更加突出。圖書館如何在海量科技文獻(xiàn)中識別科學(xué)研究主題及其演變模式、實現(xiàn)有效的知識組織,成為學(xué)術(shù)界共同關(guān)注的重點(diǎn)。目前,通過引文網(wǎng)絡(luò)分析[1]和共詞網(wǎng)絡(luò)分析等方法,幫助人們快速從海量科技文獻(xiàn)中提取出具有代表性的文獻(xiàn)以及知識概念,并采用聚類分析等方法識別領(lǐng)域知識主題的研究成果已經(jīng)屢見不鮮。然而,傳統(tǒng)主題聚類主要從靜態(tài)知識組織分析的角度出發(fā),已無法適應(yīng)知識快速發(fā)展演化的當(dāng)今科技環(huán)境。本研究將復(fù)雜網(wǎng)絡(luò)分析方法(Complex Network Analysis,CNA)[2]融入關(guān)鍵詞知識網(wǎng)絡(luò),基于社群發(fā)現(xiàn)算法和關(guān)聯(lián)頻度提取層次知識群落,結(jié)合時間序列因素,對知識群落在文獻(xiàn)資源動態(tài)主題聚類中的有效性進(jìn)行研究。

      1 相關(guān)研究現(xiàn)狀

      在圖書情報學(xué)領(lǐng)域,對于知識主題的探測主要通過兩種途徑。其一是在宏觀層面上將領(lǐng)域知識劃分為遠(yuǎn)近有別的層級,這種層級思想在杜威十進(jìn)制分類法(DDC) 和主題詞表中均有體現(xiàn);另一種則是根據(jù)不同的聚類算法將領(lǐng)域知識劃分為不同的知識群落。X.Qin 等以“Corporate social responsibility”為檢索詞提取WoS 數(shù)據(jù)庫詞間關(guān)系,其研究工作將關(guān)鍵詞知識網(wǎng)絡(luò)分為核心層、中間層以及邊緣層,以三個層級當(dāng)中的關(guān)鍵詞作為該領(lǐng)域的研究熱點(diǎn)和前沿。[3]L.Xiao 等以CJFTD 為基礎(chǔ)數(shù)據(jù)來源,根據(jù)知識節(jié)點(diǎn)之間的聚類系數(shù)和密度的不同,采用社會網(wǎng)絡(luò)分析當(dāng)中的k-core 分解方法,將關(guān)鍵詞網(wǎng)絡(luò)劃分為4 個不同的層級(基礎(chǔ)層、中間層、細(xì)節(jié)層、邊緣層),并據(jù)此呈現(xiàn)知識節(jié)點(diǎn)分布狀況和捕捉領(lǐng)域知識中不同的研究主題。[4]

      綜上所述,基于知識群落發(fā)現(xiàn)和識別領(lǐng)域知識主題聚類已經(jīng)得到學(xué)術(shù)界的普遍認(rèn)可。然而,在圖書館知識組織與服務(wù)的實踐中,繁雜的參考信息和推薦信息會一定程度上增加讀者的認(rèn)知負(fù)擔(dān)。因此,如何在海量數(shù)據(jù)中以更高效簡潔的方法提取知識主題同時兼顧科學(xué)知識發(fā)展的動態(tài)變遷,成為圖書館知識組織與服務(wù)工作需要解決的現(xiàn)實問題。

      2 理論框架

      近年來,學(xué)術(shù)界在領(lǐng)域知識發(fā)展的相關(guān)研究中開始注重知識之間的結(jié)構(gòu)關(guān)系。如,在圖書情報學(xué)界,學(xué)者們在知識網(wǎng)絡(luò)的宏觀結(jié)構(gòu)層面發(fā)現(xiàn)了小世界(Small World)網(wǎng)絡(luò)以及無標(biāo)度(Scale Free)網(wǎng)絡(luò)的特征,[10]在微觀結(jié)構(gòu)層面則發(fā)現(xiàn)了知識網(wǎng)絡(luò)當(dāng)中的模體(Motif)演化特征。[11]而知識群落則是介于宏觀結(jié)構(gòu)與微觀結(jié)構(gòu)之間的網(wǎng)絡(luò)結(jié)構(gòu),知識群落在時間序列上的演化變遷,為揭示領(lǐng)域知識主題的演化進(jìn)程、潛在模式以及對于新興主題的探測具有至關(guān)重要的意義。

      在圖書情報學(xué)領(lǐng)域,對于某一知識領(lǐng)域的研究主題識別和發(fā)現(xiàn)研究中,傳統(tǒng)的文獻(xiàn)計量學(xué)方法是:齊普夫第二定律選取法、普賴斯公式選取法、自選取方法等,確定高頻關(guān)鍵詞與低頻關(guān)鍵詞的選定界限,根據(jù)所選定的高頻知識節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系采用相似性算法以及相關(guān)聚類方法,最終凝聚若干個知識群落用于探測領(lǐng)域研究主題。這種靜態(tài)的分析方法對知識主題的動態(tài)變化具有一定的局限性,也無法檢測新誕生的、規(guī)模較小的潛力主題?;诟哳l詞的聚類分析,容易導(dǎo)致一些重要知識概念以及知識關(guān)聯(lián)關(guān)系的遺失。如,知識網(wǎng)絡(luò)當(dāng)中的結(jié)構(gòu)洞(Structural Holes) 知識節(jié)點(diǎn),盡管往往頻次較低,但是在領(lǐng)域知識中起到非常重要的橋接作用。依靠知識概念的出現(xiàn)頻次無法獲取不同知識之間的結(jié)構(gòu)關(guān)系,甚至?xí)谏w領(lǐng)域知識中知識關(guān)聯(lián)和結(jié)構(gòu)的一些重要信息,無法準(zhǔn)確跟蹤和掌握相關(guān)知識領(lǐng)域的核心主題及其發(fā)展變遷。

      2004 年,M. E. J. Newman 等提出了測量網(wǎng)絡(luò)社群聚類程度的模塊度算法,[12]該方法對關(guān)聯(lián)程度不同的網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行有效聚類進(jìn)而劃分群落,并將該方法擴(kuò)展至加權(quán)網(wǎng)絡(luò)。在此基礎(chǔ)上,V. D. Blondel 等對該方法加以改進(jìn),動態(tài)考察海量數(shù)據(jù)背景下群落節(jié)點(diǎn)的流入流出以及節(jié)點(diǎn)間關(guān)聯(lián)關(guān)系的改變,學(xué)術(shù)界稱為Louvain 算法,[13]具體如公式(1)所示。

      研究工作將采用Louvain 算法識別領(lǐng)域知識群落,并以其表征文獻(xiàn)資源的主題聚類。課題組在之前的研究工作中發(fā)現(xiàn),即使通過社群發(fā)現(xiàn)算法將領(lǐng)域知識劃分成不同的知識群落,但是在領(lǐng)域知識演化生長過程中會充斥著大量頻度僅為1 次的關(guān)系。此類結(jié)構(gòu)關(guān)系中難免帶有一定程度的偶然性或隨機(jī)性,不利于領(lǐng)域知識主題聚類與主題演化分析。為了排除這種偶然性或隨機(jī)性,研究工作基于關(guān)聯(lián)頻度提取一定閾值水平之上的知識群落,將低頻度的關(guān)聯(lián)關(guān)系剔除,使知識群落更加緊密和更具有代表性,從而探測和驗證知識群落在文獻(xiàn)資源主題聚類中的有效性。

      3 研究數(shù)據(jù)與流程

      3.1 研究數(shù)據(jù)

      研究工作以中國知網(wǎng)(CNKI)文獻(xiàn)數(shù)據(jù)庫為基礎(chǔ)數(shù)據(jù)來源,以“Folksonomy OR 社會化標(biāo)注OR 社會標(biāo)注OR 大眾分類”為檢索式進(jìn)行高級檢索。期刊級別鎖定為CSSCI,檢索時間跨度從2002-2018 年,累計獲取相關(guān)文獻(xiàn)194 篇,關(guān)鍵詞數(shù)量369 個,關(guān)鍵詞關(guān)聯(lián)關(guān)系1,019 對。具體數(shù)據(jù)如表1 所示。

      在表1 中,以自然年份為時間刻度,從2002 年至2018 年劃分為t1-t17 共17 個時間窗口,統(tǒng)計出歷年時間窗口下文獻(xiàn)、關(guān)鍵詞、關(guān)鍵詞關(guān)聯(lián)關(guān)系的累計值以及單年增長量,通過累計值可以初步了解該領(lǐng)域知識整體生長演化的趨勢。通過單年增長量則可以觀察該知識領(lǐng)域中相鄰時間窗口的增長情況。以關(guān)鍵詞為節(jié)點(diǎn),以關(guān)鍵詞關(guān)聯(lián)關(guān)系為連線構(gòu)建時間序列領(lǐng)域知識網(wǎng)絡(luò)。結(jié)合表1 中的數(shù)據(jù)發(fā)現(xiàn),t1-t17 時間區(qū)間內(nèi),除t1-t3 時段外,文獻(xiàn)、關(guān)鍵詞、關(guān)鍵詞關(guān)聯(lián)關(guān)系數(shù)量隨著時間軸的延展一直處于增長狀態(tài)。這一現(xiàn)象驗證了知識網(wǎng)絡(luò)具有許多真實復(fù)雜網(wǎng)絡(luò)共同具有的生長特性。[14]由于t1-t3 時間窗口領(lǐng)域知識無生長變化,下文的相關(guān)研究中將把該時間段合并進(jìn)行測算。需要說明的是,研究中構(gòu)建的領(lǐng)域知識網(wǎng)絡(luò)以關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系頻度作為連線權(quán)重,所構(gòu)建的知識網(wǎng)絡(luò)為無向加權(quán)網(wǎng)絡(luò)。

      表1 文獻(xiàn)及相關(guān)數(shù)據(jù)

      3.2 關(guān)聯(lián)頻度演化分析

      領(lǐng)域知識網(wǎng)絡(luò)的構(gòu)建主要以知識單元和知識關(guān)聯(lián)關(guān)系為基礎(chǔ),其中知識單元構(gòu)成網(wǎng)絡(luò)的節(jié)點(diǎn),知識關(guān)聯(lián)關(guān)系則以節(jié)點(diǎn)之間的連線表示。如果兩個知識單元之間存在高頻度關(guān)聯(lián),則視為這一知識領(lǐng)域中重要的知識關(guān)聯(lián)。研究工作首先對時間序列知識網(wǎng)絡(luò)的關(guān)聯(lián)頻度進(jìn)行統(tǒng)計分析,統(tǒng)計結(jié)果如表2 所示。

      按照 GB/T 16291.1—2012中的方法選拔和培訓(xùn)評價員[19]。根據(jù)200名西南大學(xué)本科生的興趣動機(jī)、健康狀況、表達(dá)能力及可用性等情況,篩選出60人在感官分析實驗室進(jìn)行感官靈敏度、感官能力和描述能力的測試。對選出的20人進(jìn)行50 h的感官描述性分析培訓(xùn),培訓(xùn)內(nèi)容包括感官分析基礎(chǔ)知識的講解、長期感官記憶的訓(xùn)練、感官描述詞語義及標(biāo)度的學(xué)習(xí)等。由5名考核合格的評價員組成怪味胡豆的感官描述分析小組[20] 。

      表2 時間序列知識關(guān)聯(lián)頻度分布

      表2 中的數(shù)據(jù)表明,在時間序列知識網(wǎng)絡(luò)中,關(guān)聯(lián)頻度最高為8 次,最低為1 次。隨著領(lǐng)域知識的發(fā)展生長,不同頻度的關(guān)聯(lián)關(guān)系關(guān)數(shù)量一直在發(fā)生變化。其中,頻度為1 的知識關(guān)聯(lián)關(guān)系數(shù)量增長幅度較大,關(guān)聯(lián)頻度大于等于2 的知識關(guān)聯(lián)關(guān)系增長緩慢,這說明在領(lǐng)域知識網(wǎng)絡(luò)的生長演化過程中,網(wǎng)絡(luò)中核心的知識關(guān)聯(lián)關(guān)系(高頻度關(guān)聯(lián)關(guān)系)趨于相對穩(wěn)定狀態(tài)。以關(guān)聯(lián)頻度F=2 為分界線可以明顯地觀察出知識網(wǎng)絡(luò)演化過程核心知識關(guān)聯(lián)的發(fā)展過程。同時,表2 中的數(shù)據(jù)還表明,關(guān)聯(lián)頻度數(shù)值越大,其占有的比重就越小,符合領(lǐng)域知識關(guān)聯(lián)頻度分布呈現(xiàn)冪律(Power Law)分布的知識網(wǎng)絡(luò)特征。[15]因此,研究工作基于關(guān)聯(lián)頻度對知識網(wǎng)絡(luò)進(jìn)行提取層次知識群落,能夠有效保證領(lǐng)域知識中結(jié)構(gòu)關(guān)系的代表性與顯著性,也使得網(wǎng)絡(luò)中重要的主題聚類得以凸顯。

      3.3 知識群落動態(tài)演化提取

      研究中采用Louvain 算法對所構(gòu)建的時間序列知識網(wǎng)絡(luò)進(jìn)行聚類,對網(wǎng)絡(luò)中潛在的知識群落進(jìn)行識別(見表3)。該算法能夠兼顧網(wǎng)絡(luò)節(jié)點(diǎn)以及節(jié)點(diǎn)之間的關(guān)聯(lián)頻度的改變,結(jié)合時間序列分析,可以有效地探測出領(lǐng)域知識網(wǎng)絡(luò)中知識群落及其演進(jìn)狀況。

      表3 時間序列原始知識群落演化數(shù)據(jù)

      由表3 可見,原始知識群落數(shù)量的變化趨勢與網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量以及關(guān)聯(lián)關(guān)系數(shù)量的增加情況并非完全一致。關(guān)鍵詞數(shù)量或關(guān)聯(lián)關(guān)系的增加并不意味著知識群落數(shù)量一定增加?,F(xiàn)實工作中,參與主題聚類的文獻(xiàn)數(shù)量越多,對領(lǐng)域知識主題的解析也就越復(fù)雜。出于減少主題聚類復(fù)雜程度的目的,進(jìn)一步基于關(guān)聯(lián)關(guān)系頻度對原始知識網(wǎng)絡(luò)進(jìn)行提取,通過關(guān)聯(lián)頻度閾值提取知識網(wǎng)絡(luò)中具有代表性和顯著性的網(wǎng)絡(luò)結(jié)構(gòu),從而提高數(shù)據(jù)的價值密度?;陉P(guān)聯(lián)頻度(F=2) 提取的時間序列層次知識群落如表4 所示。

      表4 中,通過關(guān)聯(lián)頻度閾值水平F=2 進(jìn)行提取之后,所形成的層次知識群落數(shù)量明顯降低,節(jié)點(diǎn)和關(guān)聯(lián)關(guān)系數(shù)量也大幅度減少。同時,原始知識網(wǎng)絡(luò)中一些顯著的演化特征被保留。t10-t11、t12-t13、t13-t17時間段中層次知識群落的演化特征與表3 中原始知識群落的演化特征一致。在數(shù)據(jù)價值密度得以改善的情況下,層次知識群落在演化特征方面與原始知識群落等效,能夠有效精簡圖書館知識組織與知識推薦的復(fù)雜性,從而降低用戶的認(rèn)知負(fù)擔(dān)。研究工作進(jìn)一步對原始知識群落與所提取的層次知識群落演化細(xì)節(jié)進(jìn)行比較分析,并對層次知識群落在文獻(xiàn)資源主題聚類中的有效性進(jìn)行驗證。

      表4 時間序列層次知識群落演化數(shù)據(jù)

      4 分析結(jié)果

      4.1 知識群落演化分析

      研究工作在原始知識群落總體演化趨勢(參見表3)的基礎(chǔ)上,進(jìn)一步深入分析每個時間窗口中各個原始知識群落的節(jié)點(diǎn)屬性特征。以知識節(jié)點(diǎn)度值為橫坐標(biāo),以知識節(jié)點(diǎn)在群落中的度分布概率為縱坐標(biāo)建立直角坐標(biāo)系,得到時間序列原始知識群落中節(jié)點(diǎn)的度序列分布情況(見下圖)。

      圖 原始知識群落度序列分布

      上圖中,相同形狀的節(jié)點(diǎn)為處于同一個知識群落中的節(jié)點(diǎn)。隨著領(lǐng)域知識的發(fā)展,知識群落數(shù)量在總體上呈現(xiàn)增長態(tài)勢,群落內(nèi)部知識節(jié)點(diǎn)的度序列分布逐漸向近似于冪律分布的長尾狀態(tài)趨近。即群落內(nèi)大多數(shù)知識節(jié)點(diǎn)擁有較低的知識關(guān)聯(lián)關(guān)系,少部分知識節(jié)點(diǎn)擁有較多的知識關(guān)聯(lián)關(guān)系,這一結(jié)果與知識網(wǎng)絡(luò)整體的度序列分布較為近似。結(jié)合各個知識群落的規(guī)模數(shù)據(jù)還發(fā)現(xiàn),知識網(wǎng)絡(luò)的Hub 節(jié)點(diǎn)并非存在于節(jié)點(diǎn)數(shù)量最多的知識群落,縱觀全序列中所有時間窗口的知識群落,都體現(xiàn)出這一現(xiàn)象。盡管擁有眾多知識關(guān)聯(lián)的Hub 節(jié)點(diǎn)能夠依據(jù)A-L. Barabási 等刊發(fā)于《Science》雜志的論文中提出的擇優(yōu)連接(Preferential Connectivity)機(jī)制,[14]吸附更多的知識關(guān)聯(lián)關(guān)系,但針對知識群落的分析數(shù)據(jù)卻表明Hub 知識節(jié)點(diǎn)并不具備良好的成團(tuán)優(yōu)勢。這一現(xiàn)象表明在知識群落層面上,如果以單純以高度值知識節(jié)點(diǎn)表征該領(lǐng)域知識主題,一些低頻關(guān)聯(lián)的知識也將在主題聚類中凸顯。

      此外,研究中還發(fā)現(xiàn)全時間序列中,始終存在個別知識群落規(guī)模在時間序列上沒有發(fā)生變化的現(xiàn)象,這一結(jié)果意味著領(lǐng)域知識網(wǎng)絡(luò)中存在若干完全不生長的知識群落。靜止與生長的差異在以往的靜態(tài)分析中通常被忽略,即使在以往大多數(shù)全網(wǎng)層面的動態(tài)分析中也難以體現(xiàn),研究工作基于這一現(xiàn)象將知識群落分為兩種類型:靜止型知識群落和生長型知識群落。靜止型知識群落意味著在知識發(fā)展進(jìn)程中主題穩(wěn)定不發(fā)生變化;而生長型知識群落則意味著主題演化變遷,是動態(tài)分析需要關(guān)注的重點(diǎn)。在篩選剔除上述完全不生長的知識群落后,原始知識網(wǎng)絡(luò)中生長型知識群落數(shù)量如表5所示。

      表5 中,剔除完全不生長的靜止型知識群落之后,網(wǎng)絡(luò)中的知識群落數(shù)量有所減少,同時發(fā)現(xiàn),t12 時間窗口仍然是群落數(shù)量比較突出的時間窗口。研究工作進(jìn)一步以F=2 為關(guān)聯(lián)頻度閾值提取層次知識群落,力求以更少量的知識節(jié)點(diǎn)表征知識主題,以降低知識組織與服務(wù)實踐中用戶的認(rèn)知負(fù)擔(dān)。

      表5 知識群落數(shù)量對比

      研究中發(fā)現(xiàn),由于關(guān)聯(lián)頻度閾值F=2 剔除了大量頻度較低的知識關(guān)聯(lián)關(guān)系,一些在原始知識網(wǎng)絡(luò)中表現(xiàn)突出的高度值節(jié)點(diǎn)的度值優(yōu)勢被壓縮,而一些原本在知識網(wǎng)絡(luò)中度值較低卻擁有高頻關(guān)聯(lián)的知識節(jié)點(diǎn)被凸顯出來。而且知識群落內(nèi)部同樣表現(xiàn)出較強(qiáng)的異配性。層次知識群落在弱化長尾分布的同時,知識節(jié)點(diǎn)之間強(qiáng)關(guān)系的作用得以浮現(xiàn),K. Popper 當(dāng)年對于知識關(guān)聯(lián)關(guān)系重要性的論斷得以體現(xiàn)。[16]

      4.2 主題聚類有效性驗證

      層次知識群落相比原始知識群落,在精簡了大量知識節(jié)點(diǎn)的同時,彰顯了知識節(jié)點(diǎn)之間強(qiáng)關(guān)系的作用。為了驗證提取后的層次知識群落在主題聚類中的有效性,這部分研究從兩個角度進(jìn)行比較分析:一是檢測層次知識群落表征的主題聚類包含的高度值知識節(jié)點(diǎn)(通常視為核心知識節(jié)點(diǎn))占原始知識網(wǎng)絡(luò)中高度值節(jié)點(diǎn)數(shù)量的比重;二是層次知識群落表征的主題聚類中的知識節(jié)點(diǎn)是否能夠有效關(guān)聯(lián)原始知識網(wǎng)絡(luò)中的生長型知識群落(反映領(lǐng)域知識的生長性)。研究工作首先對主題聚類實際節(jié)點(diǎn)數(shù)量和群落中高度值的節(jié)點(diǎn)數(shù)量進(jìn)行測算,即主題聚類包含的N 個節(jié)點(diǎn)中有多少個節(jié)點(diǎn)的度值排在原始知識網(wǎng)絡(luò)的前N 位。測算結(jié)果如表6 所示。

      表6 主題聚類中高度值節(jié)點(diǎn)數(shù)量

      由表6 可見,t1-t5 時間窗口由于數(shù)據(jù)稀疏性的原因,以層次知識群落表征的主題聚類中僅有的2 個節(jié)點(diǎn)并非高度值的節(jié)點(diǎn)。在其后的時間窗口中,主題聚類的知識節(jié)點(diǎn)涵蓋高度值節(jié)點(diǎn)的比率始終保持在65.5%以上。以t17 時間窗口為例,該時刻主題聚類共包含53 個知識節(jié)點(diǎn),其中41 個知識節(jié)點(diǎn)在原始知識網(wǎng)絡(luò)中的度值排名在前53 位。另一方面,通過對主題聚類包含的節(jié)點(diǎn)數(shù)與原始知識網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)的對比可知,各個時間窗口主題聚類的節(jié)點(diǎn)數(shù)量在原始知識網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)中占比<18.2%,即層次知識群落表征的主題聚類以低于18.2%的節(jié)點(diǎn)數(shù)量囊括了高達(dá)65.5%的高度值知識節(jié)點(diǎn),數(shù)據(jù)的價值密度得到有效的改善??紤]到生長型知識群落在演化進(jìn)程中的重要性,進(jìn)一步對層次知識群落表征的主題聚類中的知識節(jié)點(diǎn)對原始知識網(wǎng)絡(luò)中生長型群落的關(guān)聯(lián)情況進(jìn)行測算(見表7)。

      表7 主題聚類對生長型群落的關(guān)聯(lián)

      表7 中,領(lǐng)域知識演化初期,主題聚類中的節(jié)點(diǎn)沒能很好地關(guān)聯(lián)到原始知識網(wǎng)絡(luò)中所有的生長型知識群落。隨著領(lǐng)域知識的發(fā)展,主題聚類與越來越多的生長型知識群落建立有效關(guān)聯(lián)。從t13 時間窗口開始,主題聚類中的知識節(jié)點(diǎn)與原始知識網(wǎng)絡(luò)中所有生長型知識群落建立了有效關(guān)聯(lián),這意味著建基于高頻關(guān)聯(lián)關(guān)系和少量知識節(jié)點(diǎn)的層次知識群落,在承載知識網(wǎng)絡(luò)演化特征的同時,能夠表征原始知識網(wǎng)絡(luò)中全部具備成長性的主題聚類。

      5 結(jié)論與討論

      研究工作基于復(fù)雜網(wǎng)絡(luò)的理論方法融合時間序列因素,對特定領(lǐng)域的相關(guān)文獻(xiàn)及文獻(xiàn)當(dāng)中的關(guān)鍵詞、關(guān)鍵詞關(guān)聯(lián)關(guān)系進(jìn)行抓?。灰宰匀荒攴轂闀r間刻度,構(gòu)建時間序列領(lǐng)域知識網(wǎng)絡(luò);采用社群發(fā)現(xiàn)算法識別網(wǎng)絡(luò)中的知識群落,并基于關(guān)聯(lián)頻度提取層次知識群落;對知識群落展開時間序列動態(tài)分析,并對知識群落在圖書館動態(tài)主題聚類方面的有效性進(jìn)行了驗證?;谏鲜龇治鲞^程和結(jié)果,初步可以得出以下結(jié)論。

      (1) 層次知識群落能夠凸現(xiàn)知識之間的強(qiáng)關(guān)系。研究結(jié)果表明,基于關(guān)聯(lián)頻度提取的層次知識群落剔除了大量低頻度的知識關(guān)聯(lián)關(guān)系,使得知識網(wǎng)絡(luò)中度值較低卻擁有高頻關(guān)聯(lián)的知識節(jié)點(diǎn)凸顯出來。高頻關(guān)聯(lián)代表著知識之間的強(qiáng)關(guān)聯(lián)關(guān)系,基于大量文獻(xiàn)產(chǎn)生的高頻度同現(xiàn)關(guān)系,也意味著這類關(guān)聯(lián)關(guān)系得到學(xué)術(shù)界的普遍認(rèn)可。建基于高頻關(guān)聯(lián)的層次知識群落相比單純依靠關(guān)聯(lián)數(shù)量組成的群落可以獲得更高質(zhì)量的主題聚類,也更能夠體現(xiàn)J. Gleick 在《信息簡史》中強(qiáng)調(diào)的知識連通的重要性。[17]

      (2)層次知識群落能夠有效表征文獻(xiàn)資源動態(tài)主題聚類。研究中的實驗數(shù)據(jù)表明,層次知識群落僅需要領(lǐng)域中少量的知識節(jié)點(diǎn)(<18.2%)就涵蓋了領(lǐng)域中大量的核心知識內(nèi)容(>65.5%),能夠有效提高知識網(wǎng)絡(luò)動態(tài)分析中數(shù)據(jù)的價值密度。同時,剔除了大量節(jié)點(diǎn)的層次知識群落能夠與原始生長型知識群落建立有效的關(guān)聯(lián),并且隨著領(lǐng)域知識的發(fā)展,達(dá)到與全部生長型知識群落建立關(guān)聯(lián)的穩(wěn)定狀態(tài)。保持和呈現(xiàn)領(lǐng)域知識的生長特性,為基于層次知識群落探測知識主題的動態(tài)演化分析提供了有力的支撐與可行的途徑。

      研究工作基于知識關(guān)聯(lián)頻度提取層次知識群落,極大地簡化了原有的知識網(wǎng)絡(luò)規(guī)模,并且凸顯了原始網(wǎng)絡(luò)中所有生長型知識群落和高頻知識關(guān)聯(lián),有助于在海量的文獻(xiàn)資源中,快速精準(zhǔn)定位知識領(lǐng)域當(dāng)中的核心知識族群和具有潛力的知識簇。但同時研究工作也存在局限性,固定閾值在知識群落的動態(tài)演化分析中尚不能很好地揭示知識衰退問題。未來的研究中,將采用更加靈活的動態(tài)閾值提取方法,進(jìn)一步保障和提升知識群落在文獻(xiàn)資源主題聚類中的有效性。

      猜你喜歡
      頻度群落關(guān)聯(lián)
      大學(xué)生牙齦炎齦上菌斑的微生物群落
      合成微生物群落在發(fā)酵食品中的應(yīng)用研究
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      眨眼頻度可判斷煙癮大小
      婦女之友(2017年3期)2017-04-20 09:20:00
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      銅綠假單胞菌MIC分布敏感百分?jǐn)?shù)與抗菌藥物使用頻度相關(guān)性研究
      春季和夏季巢湖浮游生物群落組成及其動態(tài)分析
      長期施用復(fù)合微生物肥對農(nóng)田土壤微生物群落的影響
      河南科技(2014年18期)2014-02-27 14:14:54
      語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
      山丹县| 黑龙江省| 昂仁县| 龙海市| 镇平县| 甘肃省| 仁怀市| 望城县| 达孜县| 济阳县| 庆云县| 毕节市| 新竹市| 慈溪市| 湘西| 西青区| 金昌市| 玛多县| 彰化县| 台中县| 布拖县| 康平县| 确山县| 南华县| 楚雄市| 札达县| 肃南| 安康市| 姜堰市| 东乡族自治县| 梅州市| 常山县| 江安县| 峨眉山市| 新营市| 吐鲁番市| 长泰县| 电白县| 蕲春县| 延安市| 威远县|