胡玉寧 李小濤 朱學(xué)芳
(1.濱州醫(yī)學(xué)院醫(yī)學(xué)人文研究中心 煙臺 264003;2.南京航空航天大學(xué)科技信息研究所 南京 210016;3.南京大學(xué)信息管理學(xué)院 南京 210023)
隨著科學(xué)研究進(jìn)入第四范式時代,各領(lǐng)域科學(xué)家與計算機科學(xué)家協(xié)同研究工作需求,從科學(xué)數(shù)據(jù)中發(fā)現(xiàn)理論與知識,推動和豐富科學(xué)發(fā)現(xiàn)成為這一新型科研范式的特點[1]。知識發(fā)現(xiàn)作為知識情報服務(wù)的表現(xiàn)形式之一,旨在通過對大量信息的科學(xué)、有效、定量分析,獲取和揭示相關(guān)學(xué)科或領(lǐng)域知識的生產(chǎn)與流動、離散與重組、交叉與融合特征和過程,以輔助學(xué)科領(lǐng)域的科學(xué)研究工作者或科研管理工作人員熟悉、掌握知識發(fā)展脈絡(luò)軌跡,識別學(xué)科領(lǐng)域的研究熱點,探測研究前沿和發(fā)展趨勢,并作出科學(xué)評價以輔助決策過程[2]。鑒于知識本身的復(fù)雜系統(tǒng)性和學(xué)科交叉滲透的資源融合性,如果采取單一方法、單一視角進(jìn)行知識發(fā)現(xiàn)分析,只能獲取對分析對象的局部或者片面的認(rèn)知。如何更加科學(xué)、全面、客觀、準(zhǔn)確地描述和揭示科學(xué)知識結(jié)構(gòu)的特征和知識主題的演化規(guī)律,確保知識發(fā)現(xiàn)能夠最大程度地回歸和呈現(xiàn)科學(xué)研究的真實世界,成為情報人員優(yōu)化和提升情報服務(wù)工作的目標(biāo)和追求。圖情學(xué)界近來愈發(fā)認(rèn)識到多源數(shù)據(jù)融合的關(guān)鍵性和重要性,關(guān)于融合(又或復(fù)合、混合)方法的研究逐漸受到關(guān)注,在新方法、新技術(shù)方面進(jìn)行了有益的探索和研究。但整體來看,多源數(shù)據(jù)融合方法在具體的實踐中還有很多細(xì)節(jié)需要探討,在理論探索和數(shù)據(jù)優(yōu)化的方法創(chuàng)新方面仍有較大的提升空間。
通過文獻(xiàn)回顧性分析發(fā)現(xiàn),圖情領(lǐng)域已形成了以傳統(tǒng)的文獻(xiàn)計量學(xué)方法為發(fā)端,以科學(xué)知識圖譜方法為支撐,進(jìn)一步深化和突出文本挖掘和復(fù)雜網(wǎng)絡(luò)方法的發(fā)展軌跡,科學(xué)知識圖譜方法逐步向共詞、共引及各種可視化技術(shù)、數(shù)據(jù)挖掘技術(shù)相融合的方向發(fā)展,未來科學(xué)知識圖譜方法的發(fā)展趨勢是多方法、多源數(shù)據(jù)和多數(shù)據(jù)處理方法的融合[3]。近年來,融合引文特征和內(nèi)容特征的知識發(fā)現(xiàn)方法成為學(xué)界研究的重點,比利時研究者P.Glenisson等認(rèn)為融合內(nèi)容分析和引文分析的方法是一種有價值的工具,利用參考文獻(xiàn)的信息能夠進(jìn)一步提高科學(xué)結(jié)構(gòu)劃分的準(zhǔn)確程度[4]。比利時研究者F.Janssens等利用統(tǒng)計方法將獲取的參考文獻(xiàn)-文獻(xiàn)矩陣和詞-文獻(xiàn)矩陣進(jìn)行了融合,證明將引文和內(nèi)容兩類特征融合一起的方法提高了領(lǐng)域主題分類或知識結(jié)構(gòu)劃分的效果[5],并利用期刊數(shù)據(jù)集對基本科學(xué)指標(biāo)數(shù)據(jù)庫(Essential Science Indicators,ESI)分類進(jìn)行了研究[6]。國內(nèi)學(xué)者張琳等基于“文本-引文”的混合聚類方法,選取了“心理學(xué)、社會學(xué)和教育學(xué)領(lǐng)域”用于科學(xué)結(jié)構(gòu)研究,在期刊核心聚類的基礎(chǔ)上抽取源于子類期刊文獻(xiàn)的標(biāo)題、摘要和關(guān)鍵詞的詞條進(jìn)行標(biāo)注,將引文信息和文獻(xiàn)內(nèi)容特征進(jìn)行了融合分析[7]。韓毅等在對引文網(wǎng)絡(luò)分析方法的整合研究進(jìn)展中提到,期刊網(wǎng)絡(luò)是對科學(xué)知識交流系統(tǒng)的載體化表征,參考文獻(xiàn)則代表了相關(guān)研究內(nèi)容和主題的背景知識,因此可以通過期刊網(wǎng)絡(luò)和參考文獻(xiàn)的交叉集合來定義一個研究領(lǐng)域或者專業(yè),將引文和內(nèi)容詞相結(jié)合對知識結(jié)構(gòu)進(jìn)行細(xì)分和揭示,可以彌補二者各自的不足[8]。
以上研究為進(jìn)一步深化知識發(fā)現(xiàn)融合分析方法的相關(guān)研究帶來諸多啟示,但需要關(guān)注的是,在具體的選擇不同來源、不同類型數(shù)據(jù)融合后的知識網(wǎng)絡(luò)往往數(shù)據(jù)規(guī)模龐大,大規(guī)模節(jié)點的聚類分析不僅對人類視覺系統(tǒng)帶來較大負(fù)擔(dān),也導(dǎo)致數(shù)據(jù)可視化展示的質(zhì)量和效果難以保證。在圖情領(lǐng)域的相關(guān)知識圖譜可視化的應(yīng)用研究中,大都依賴于可視化工具本身的聚類算法,相關(guān)的參數(shù)選擇和設(shè)定在很大程度上依賴專家經(jīng)驗的主觀判別,且往往受限于特定分析對象,缺乏一定的普適性。因此,在數(shù)據(jù)預(yù)處理的環(huán)節(jié),如何對數(shù)據(jù)集進(jìn)行優(yōu)化以最大程度地減少對有價值信息的折損,這是融合數(shù)據(jù)方法進(jìn)行知識發(fā)現(xiàn)研究的重要基礎(chǔ)和關(guān)鍵核心。本文通過選取兩類不同的文獻(xiàn)特征項,即文獻(xiàn)的主題詞和引文信息,通過數(shù)理方法“并行”融合,并對融合后的知識網(wǎng)絡(luò)進(jìn)行量化測度研究,以期在知識網(wǎng)絡(luò)的數(shù)據(jù)優(yōu)化、量化測度方面進(jìn)行方法學(xué)的探索,為進(jìn)一步提高知識發(fā)現(xiàn)服務(wù)的科學(xué)性、有效性提供方法學(xué)借鑒。
本文選取期刊文獻(xiàn)的主題詞和引文兩種實體特征項作為數(shù)據(jù)融合的來源,圖1展示了融合主題詞-引文的知識發(fā)現(xiàn)過程。首先,實現(xiàn)文獻(xiàn)主題詞和引文兩類特征項的數(shù)據(jù)融合過程,基于隸屬關(guān)系構(gòu)建兩類一模知識網(wǎng)絡(luò),即文獻(xiàn)-主題詞關(guān)聯(lián)的一模知識網(wǎng)絡(luò)和文獻(xiàn)-引文關(guān)聯(lián)的一模知識網(wǎng)絡(luò),再次,基于耦合關(guān)系和矩陣轉(zhuǎn)換實現(xiàn)主題詞-引文二模知識網(wǎng)絡(luò)的構(gòu)建,第三階段采用熵值方法定義耦合熵指數(shù),并利用耦合熵指數(shù)對主題詞-引文知識耦合系統(tǒng)進(jìn)行量化和測度,第四階段是選取實證案例,開展基于主題詞-引文耦合熵的知識演化實證分析,包括對系統(tǒng)耦合因子交互作用的量化測度、識別強鏈接耦合因子團體,并利用可視化技術(shù)和工具繪制知識圖譜,進(jìn)行案例的知識可視化及量化解讀(見圖1)。
圖1融合主題詞-引文的知識發(fā)現(xiàn)過程圖
本文以生物醫(yī)學(xué)數(shù)據(jù)庫PubMed和科睿唯安WOS為基礎(chǔ)數(shù)據(jù)源,以“乳腺小葉癌病因?qū)W”主題的文獻(xiàn)數(shù)量906篇為原始數(shù)據(jù)集,提取引文和主題元數(shù)據(jù)分別得到了3 089種刊名簡寫和1 695個主題詞組成的變量集合(包含4 784個變量,占據(jù)5 235 855個數(shù)據(jù)元素)。對主題詞集的基礎(chǔ)數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),詞頻小于10次的主題詞共1 501個,占整個主題詞變量集合的88.6%,頻次在51-100之間的主題詞占整個主題詞集比例8.7%,選取頻次大于10次的主題詞集,同時剔除對文獻(xiàn)內(nèi)容的揭示能力相對有限的特征詞,最終獲取177個主題詞作為進(jìn)一步分析的數(shù)據(jù)集。
2.3.1定義耦合熵指數(shù)
由主題詞集和引文刊集構(gòu)成的2-模知識網(wǎng)絡(luò)是一個知識耦合系統(tǒng),系統(tǒng)要素包含主題詞和引文期刊名稱,要素之間通過共現(xiàn)關(guān)系形成了一個復(fù)雜交互的耦合系統(tǒng),每個主題詞和引文期刊之間可視作一項耦合因子。為規(guī)避混合2-模矩陣聚類分析時對耦合強度取值規(guī)模的依賴,同時為了進(jìn)一步量化和測度耦合因子之間的交流和聯(lián)系程度,本文基于信息熵相關(guān)理論和熵值方法,提出“耦合熵”指標(biāo),用來測度耦合因子之間的耦合強度,系統(tǒng)熵流來源于主題詞-引文期刊這個知識耦合系統(tǒng)中的各項耦合因子。設(shè)主題詞集V中有m個主題詞,引文期刊集C中有n種期刊,由主題詞和引文期刊構(gòu)成的混合2-模矩陣中每個矩陣元素代表一項耦合因子,耦合強度數(shù)值表示為Xij(i=1,2,3,…,m;j=1,2,3,…,n)。那么,在指定的年度y里,對于每一項耦合因子(Vi,Cj)的耦合強度表示為(Xij,y)。
采用熵值方法進(jìn)行計算應(yīng)注意以下兩個問題,第一,熵值方法具有一定的應(yīng)用范圍和限制條件,由于確定各指標(biāo)數(shù)據(jù)的差異性是熵值法的核心,這就要求客觀數(shù)據(jù)具有較高的準(zhǔn)確性與完整性,因此具有完整的樣本數(shù)據(jù)集是使用熵值法進(jìn)行評價的前提條件,否則就無法根據(jù)各指標(biāo)數(shù)據(jù)所反映的信息差異確定其熵值[9]。第二,針對于本研究的樣本數(shù)據(jù),由主題詞和引文期刊構(gòu)成知識耦合系統(tǒng)中,耦合強度數(shù)值越大,耦合因子的熵流越大,由于熵值方法要保留原始數(shù)據(jù)之間的差異性,需要對熵值進(jìn)行歸一化處理,歸一化的方法就是除以耦合因子對最大值的對數(shù)。因此,耦合熵指數(shù)的數(shù)學(xué)計算公式可以表示為:
(1)
2.3.2融合主題詞-引文知識耦合系統(tǒng)的知識演化分析
為了揭示和展現(xiàn)乳腺小葉癌案例文獻(xiàn)的高頻主題詞的時間演化特征,描述和呈現(xiàn)主題詞和引文之間的耦合交互和交叉關(guān)系,基于耦合熵指數(shù)量化呈現(xiàn)高頻主題詞集的時間演化圖譜,以洞察高頻詞集在整個窗口的演化特征,為進(jìn)一步準(zhǔn)確探測學(xué)科知識演化主題特異詞做數(shù)據(jù)準(zhǔn)備。具體步驟如下:
a.選取主題詞集,解析主題詞-引文耦合二模知識網(wǎng)絡(luò)。首先,根據(jù)前文所述,選取主題詞頻次大于10次的194個高頻詞集,剔除17個特征詞,以剩余177個主題詞為進(jìn)一步分析的主題詞數(shù)據(jù)集。其次,采用自編程序?qū)θ橄傩∪~癌案例文獻(xiàn)集六個時間窗口的主題詞-引文刊名二模初始矩陣進(jìn)行解析,以177個高頻詞組成的主題詞集作為從初始矩陣析出新矩陣的行變量源,分別生成對應(yīng)時間窗口的主題詞-引文刊名二模子矩陣。在這個過程中,定義行變量源主題詞集m={m1,m2,…,mi},其中i={1,177}。定義時間窗口主題詞-引文刊名二模初始矩陣為M= {M1,M2,…,Mi},解析后的六個子矩陣表示為M'={M'1,M'2,…,M'j},其中j={1,6}。定義六個子矩陣的主題詞集m'={m'1a,m'2b,m'2c,m'4d,m'5e,m'6f},其中a={1,739},b={1,670},c={1,565},d={1,624},e={1,535},f={1,337}。子矩陣解析規(guī)則為,以2013年度子矩陣為例,若m'1a∈m,m'1a所在矩陣結(jié)構(gòu)保留,m'1a¢m,m'1a所在矩陣結(jié)構(gòu)消除。
b.計算耦合熵指數(shù)。為分析177個高頻詞組成的主題詞集中,每個詞符隨時間進(jìn)程與引文的耦合交互和交叉關(guān)系,計算每個主題詞分別在六個時間窗口內(nèi)的耦合熵指數(shù),用來表示每個主題詞在某年度與引文期刊耦合交互和交叉作用的程度。根據(jù)前文中對耦合熵指數(shù)的定義和數(shù)學(xué)原理,耦合熵取值范圍應(yīng)在0到1之間。
c.耦合熵指數(shù)分級劃分。將每個主題詞在六個時間窗口內(nèi)的耦合熵指數(shù)的數(shù)值分布劃分為六個區(qū)間,定義色階圖例規(guī)則,繪制熱力圖。
按照以上步驟和要求,計算得出乳腺小葉癌案例文獻(xiàn)主題詞集中177個高頻主題詞的年度耦合熵指數(shù),按照頻序降序排列位于前10位的主題詞耦合熵指數(shù)如表1所示。為了更加直觀、清晰地探測和研究177個核心主題詞在整個時間窗的時序演化規(guī)律,按照時間切片對主題詞的耦合熵指數(shù)進(jìn)行等級劃分并繪制圖譜。
表1 全部時間窗主題詞耦合熵指數(shù)(頻序排名前10)
按照定義的耦合熵指數(shù)分級劃分規(guī)則,運用熱力圖譜進(jìn)行了可視化展示,描述和呈現(xiàn)了主題詞和引文之間的耦合交互和交叉關(guān)系,較為直觀地展示了融合主題詞和引文刊名的二模知識系統(tǒng)的時間演化特征。
熱力圖是以特殊高亮的形式呈現(xiàn)區(qū)域特征分布的一種制圖形式,在本研究中,按照定義的耦合熵指數(shù)分級劃分規(guī)則,可以運用熱力圖譜進(jìn)行可視化展示,用來直觀地描述和呈現(xiàn)主題詞和引文之間的耦合交互和交叉關(guān)系,展示融合主題詞和引文刊名的二模知識系統(tǒng)的時間演化特征。比如,可以用2013-2018年六個時間窗口作為橫坐標(biāo)軸,以乳腺小葉癌主題詞集中177個高頻詞的頻序號碼作為縱坐標(biāo)軸,這樣就能構(gòu)建出一個熱力圖譜。具體來說,從圖譜面板的橫向分析,每條色階演化圖譜代表了每個主題詞在六年內(nèi)與引文期刊的耦合熵指數(shù)變化情況,色階的顏色深淺程度代表了主題詞-引文期刊耦合因子對之間的熵流情況。顏色強弱變換表明由主題詞所表征的學(xué)科主題類別與引文期刊所映射的學(xué)科類別之間的耦合強度變化程度強弱。那么如何根據(jù)熱力圖中區(qū)域顏色的變化來理解它所表現(xiàn)出來的知識演化特征呢?
如果區(qū)域的顏色較深,就表明主題詞所表征的學(xué)科主題類別與引文期刊所映射的學(xué)科類別耦合程度較強,在共同揭示學(xué)科主題和表征科學(xué)知識結(jié)構(gòu)方面吻合度較高,具有較高的一致性,二者形成的學(xué)科組合就代表了該研究領(lǐng)域較為成熟和穩(wěn)定的學(xué)科子類和知識結(jié)構(gòu)。圖譜中顏色分布不均勻的區(qū)域就表明了主題詞所表征的學(xué)科主題類別與引文期刊所映射的學(xué)科類別耦合程度隨時間進(jìn)度呈現(xiàn)不同程度的波動情況,說明主題詞和引文期刊共同揭示學(xué)科主題和表征科學(xué)知識結(jié)構(gòu)的一致性存在差異和分化現(xiàn)象,這可能預(yù)示著學(xué)科主題類別正處于演化過程,包括存在一定程度的突變、轉(zhuǎn)向、交叉等特征,以及逐漸形成新的、穩(wěn)定的主題。從圖譜面板縱向分析,可以了解各年度的熱詞分布情況。比如,可以用白色的色階表示某個主題詞在相應(yīng)年度中沒有出現(xiàn),那么結(jié)合橫軸的時間演化進(jìn)程就可以得知,從白色到漸進(jìn)色的轉(zhuǎn)變就能夠表明了一個主題詞逐漸成為研究熱點,進(jìn)入穩(wěn)定的知識結(jié)構(gòu)的過程,相反的,從漸進(jìn)色轉(zhuǎn)變?yōu)榘咨?,表明一個學(xué)科研究主題的逐漸衰落和消亡過程。
綜合上文所述,耦合熵指數(shù)越大,表明主題詞所表征的學(xué)科主題類別與引文期刊所映射的學(xué)科類別耦合程度越強,在共同揭示學(xué)科主題和表征科學(xué)知識結(jié)構(gòu)方面吻合度越高,具有較高耦合熵指數(shù)的主題詞-刊名耦合因子對就代表了該研究領(lǐng)域較為成熟和穩(wěn)定的學(xué)科子類和知識結(jié)構(gòu)。對于學(xué)科知識演化分析研究而言,那些具有潛在突變性的耦合因子對更加具有揭示潛在研究前沿、探測科學(xué)知識結(jié)構(gòu)的功能,對這部分突變性的耦合因子對的識別和分析更加具有情報分析價值。因此,考慮到對學(xué)科新興主題探測和知識結(jié)構(gòu)動態(tài)描述的情報分析需求,應(yīng)重點關(guān)注識別和捕捉學(xué)科知識演化中的突變主題。
對于一個獨立的主題詞而言,其耦合熵指數(shù)在時間維度上的變化體現(xiàn)了該主題詞與所有刊名耦合因子對耦合程度的變化規(guī)律,表明了由主題詞所表征的學(xué)科主題類別與引文期刊所映射的學(xué)科類別之間的耦合程度。對于兩個或多個主題詞而言,耦合熵指數(shù)的數(shù)據(jù)離散程度體現(xiàn)了不同主題詞與刊名耦合因子對耦合程度的差異狀況,表明了由主題詞所表征的學(xué)科主題類別與引文期刊所映射的學(xué)科類別共同揭示學(xué)科主題結(jié)構(gòu)一致性水平。其中,耦合熵指數(shù)的離散程度較大表明相關(guān)耦合因子對共同揭示的學(xué)科主題和知識結(jié)構(gòu)一致性水平較低。從知識演化角度分析,這種具有突變性的耦合因子對可能表征和揭示了相關(guān)學(xué)科主題和知識結(jié)構(gòu)的突變、轉(zhuǎn)向、交叉和融合。那么,如何衡量和識別學(xué)科知識演化過程中具有潛在突變性的耦合因子對呢?
2.4.1耦合熵指數(shù)的數(shù)據(jù)離散程度分析:突變性耦合因子對的初步識別
a.基于離散系數(shù)的耦合熵指數(shù)離散程度描述。數(shù)據(jù)的離散程度與集中趨勢是統(tǒng)計學(xué)中描述數(shù)據(jù)分布的兩個特征,離散程度反映的是各變量值遠(yuǎn)離其中心值的程度,本文選取離散系數(shù)對主題詞耦合熵指數(shù)的數(shù)據(jù)離散程度進(jìn)行描述和分析,以實現(xiàn)突變性耦合因子對的初步識別,乳腺小葉癌案例的177個主題詞集耦合熵指數(shù)的統(tǒng)計指標(biāo)量化數(shù)據(jù)如表2所示。
表2 乳腺小葉癌案例主題詞耦合熵指數(shù)相關(guān)統(tǒng)計指標(biāo)量化一覽表(部分展示)
表2展示了乳腺小葉癌案例主題詞集中15個主題詞耦合熵指數(shù)的相關(guān)統(tǒng)計指標(biāo)量化數(shù)據(jù)。將主題詞按照耦合熵指數(shù)離散系數(shù)大小排序,并定義V(r)為離散系數(shù)的秩序。在選取的15個主題詞中,1-10號主題詞離散系數(shù)秩序也相應(yīng)位居前十,在177個高頻詞集中的頻序f(r)分布在{139,175}之間,這表明離散系數(shù)較大的主題詞可能較為集中地分布在詞集中的較低頻次序段范圍。但同時要注意到以下現(xiàn)象,11-13號主題詞離散系數(shù)秩序分別為52、58、61,在177個高頻詞集中的頻序f(r)分別為33、46、47。14-15號主題詞離散系數(shù)秩序分別為129、138,在177個高頻詞集中的頻序f(r)分別為154、176。從11-15號主題詞離散系數(shù)秩序與所在詞集的頻序分布情況,可知某些具有較高離散系數(shù)秩序的主題詞在詞集中同樣具有較高的頻序,某些具有較低離散系數(shù)秩序的主題詞在詞集中的頻序也較低。
從主題詞耦合熵指數(shù)離散系數(shù)秩序和主題詞集頻序分布的情況,帶給我們這樣的啟示和思考:基于離散系數(shù)衡量主題詞-引文刊名耦合熵指數(shù)的變異程度,雖然可以衡量不同主題詞耦合熵指數(shù)的數(shù)據(jù)離散程度,能夠識別出一些具有潛在突變性的耦合因子對,比如發(fā)現(xiàn)了諸如序號1-10號這類離散系數(shù)較大的主題詞集中地分布在詞集中的較低頻次序段范圍,但是不能很好的解釋“某些具有較高離散系數(shù)秩序的主題詞在詞集中同樣具有較高的頻序(如11-13號)”,“某些具有較低離散系數(shù)秩序的主題詞在詞集中的頻序也較低(如14-15號)”這兩種“數(shù)據(jù)失靈”的情況。序號11-13號所代表的一類主題詞,本身屬于詞集高頻詞匯,雖然離散系數(shù)絕對值較大,但反映了其突變的相對差異較小。而那些本身分布在頻序相對較低的主題詞,雖然離散系數(shù)絕對值較小,但反映了其突變的相對差異較大??梢?,主題詞-引文刊名耦合因子對是否具有潛在突變性,不僅與離散系數(shù)有關(guān),還與主題詞在詞集的頻域分布有關(guān)。因此,對全面、精準(zhǔn)識別潛在突變性耦合因子而言,離散系數(shù)并不是一個理想、穩(wěn)定的指標(biāo),頻序是一個不容忽視的影響因素。
b. 突變系數(shù):一個有效識別突變性耦合因子對的測量指標(biāo)。為解決離散系數(shù)識別潛在突變性耦合因子對時“數(shù)據(jù)失靈”的情況,本文提出“突變系數(shù)”并進(jìn)行如下定義:突變系數(shù)CM(Coefficient of Mutation)為主題詞詞頻頻序與主題詞耦合熵指數(shù)離散系數(shù)秩序的比值。數(shù)學(xué)表達(dá)式為:
(2)
由數(shù)學(xué)表達(dá)式可以看出,CM是個非零值。若f(r)>V(r),則CM>1,表明主題詞的耦合熵指數(shù)離散系數(shù)越大,在詞集頻域分布中越是靠近低頻區(qū)域,突變系數(shù)越大,耦合因子對具有潛在突變性的可能性越大。若f(r) 按照突變系數(shù)的計算方法,計算乳腺小葉癌案例的177個主題詞的突變系數(shù),有77個主題詞的突變系數(shù)在1-10之間,占詞集的43.5%。突變系數(shù)大于1的主題詞共92個,占詞集比例大約為52%。根據(jù)突變系數(shù)的定義,系數(shù)取值大于1作為判定是否具有潛在突變性的臨界值,因此,系數(shù)取值大于1的主題詞及其相應(yīng)引文刊名即是通過突變系數(shù)識別得出的具有潛在突變性的耦合因子對。表3列舉了突變系數(shù)排名前15的主題詞集列表,從主題詞所屬學(xué)科類別來看,主要涵蓋研究技術(shù)(流行病學(xué)相關(guān)研究設(shè)計和方法)、遺傳學(xué)過程(基因表達(dá)調(diào)控、遺傳結(jié)構(gòu))、心理生理學(xué)、腫瘤、指示劑和試劑、治療學(xué)、信息科學(xué)等多學(xué)科主題。 表3 乳腺小葉癌案例高突變系數(shù)主題詞集列表(排名前15) 根據(jù)突變系數(shù)所識別的由92個主題詞及其相應(yīng)引文刊名組成的具有潛在突變性的耦合因子對,分別析出乳腺小葉癌案例的主題詞-引文刊名耦合二模矩陣。相關(guān)矩陣信息如表4所示,可以看出,2013年度的矩陣規(guī)模最大,數(shù)據(jù)元素數(shù)據(jù)為87 740個。 表4 突變性耦合因子對(主題詞-刊名)矩陣基本信息表 2.4.2融合主題詞-引文的乳腺小葉癌案例學(xué)科知識的可視化呈現(xiàn) 通過突變系數(shù)有效識別突變性耦合因子對(主題詞-刊名)矩陣,基于獲取的不同時間窗的主題詞-刊名耦合二模矩陣,作為學(xué)科知識可視化的基本數(shù)據(jù)源。表5呈現(xiàn)了部分2013-2018年主題詞-引文刊名突變性耦合因子對組成的10×10的矩陣列表。知識網(wǎng)絡(luò)的“?!笔侵腹?jié)點的集合,模數(shù)則指網(wǎng)絡(luò)中所包含節(jié)點集合類型的種數(shù)。在2-模網(wǎng)中,不同于1-模網(wǎng)“因果性”分析的思路,它提供了一種“交互”的視角,凸顯雙向交互作用,這種研究方式是溝通現(xiàn)象與本質(zhì)、變化與動力的橋梁[10],啟示我們要通過關(guān)注節(jié)點之間“關(guān)系”的角度進(jìn)行知識網(wǎng)絡(luò)分析。 在可視化過程中,設(shè)置圖譜中圓形節(jié)點為主題詞,方形節(jié)點為期刊,兩種節(jié)點間的連線表述主題詞與期刊間的耦合強度,耦合強度越高,連線越粗,選取知識圖譜工具Netdraw采用K-core提取網(wǎng)絡(luò)中最核心的區(qū)域。圖2展示了2013-2018年六年時間窗乳腺小葉癌病因?qū)W研究的靜態(tài)知識圖譜,也可以按照時間分年度呈現(xiàn)知識圖譜,形成的知識圖譜是基于融合主題詞-刊名2-模耦合網(wǎng)絡(luò),圖3呈現(xiàn)了2018年乳腺小葉癌病因?qū)W方面的知識圖譜,通過分析,可以發(fā)現(xiàn)融合主題詞-刊名的2-模知識網(wǎng)絡(luò)呈現(xiàn)以下特點: 表5 2013-2018年突變性耦合因子對(主題詞-引文刊名)二模矩陣(10×10) 圖2 乳腺小葉癌案例融合主題詞-刊名高耦合矩陣的知識圖譜(2013-2018年) 圖3 乳腺小葉癌案例融合主題詞-刊名高耦合矩陣的知識圖譜(2018年) a.圖譜中存在以主題詞為中心和以期刊名稱為中心的兩種不同類型聚類分布。以期刊名稱為中心的聚類較多,以主題詞為中心的聚類較少,兩個類型的聚類分布在圖譜中呈現(xiàn)錯落交叉,具有高耦合強度的期刊和主題詞之間形成了線條較粗的鏈接。 b.圖譜中存在“連接橋”性質(zhì)的節(jié)點。關(guān)系網(wǎng)絡(luò)中的“橋(bridge)”用來描述和界定兩點之間存在這樣的關(guān)系:如果去掉該關(guān)系連接,整個網(wǎng)絡(luò)將分割成為兩個獨立的子網(wǎng)絡(luò)結(jié)構(gòu),即兩個子網(wǎng)絡(luò)結(jié)構(gòu)代表的群體之間僅通過唯一關(guān)系相連接。在現(xiàn)實的網(wǎng)絡(luò)中,橋往往是信息的通道,作為資源交換的關(guān)節(jié)點,能夠控制資源的傳輸,具有重要的意義。“橋”屬于網(wǎng)絡(luò)結(jié)構(gòu)中弱關(guān)系的一種表現(xiàn)形式,這種弱關(guān)系的重要性主要體現(xiàn)為在不同的群體、網(wǎng)絡(luò)、成員之間建立了紐帶關(guān)系,搭建了信息傳輸?shù)耐ǖ?,可以使更大的網(wǎng)絡(luò)達(dá)到結(jié)構(gòu)上的凝聚性。網(wǎng)絡(luò)結(jié)構(gòu)中的強關(guān)系往往存在于群體、網(wǎng)絡(luò)結(jié)構(gòu)的內(nèi)部,因此將一個網(wǎng)絡(luò)中的不同群體、子網(wǎng)絡(luò)、成員凝結(jié)在一起的關(guān)系類型主要是弱關(guān)系[11]。如圖4呈現(xiàn)的2018年度知識圖譜中就存在“J CLIN ONCOL”“Radiotherapy, Adjuvant”“Computational Biology”的橋節(jié)點。期刊類型的橋節(jié)點表示相應(yīng)的期刊是網(wǎng)絡(luò)中的重要信息傳播樞紐,不同的主題詞通過期刊橋節(jié)點連接在一起,表示與該期刊相連的期刊-主題詞組合共同組成了以該期刊為中心的學(xué)科主題融合群,顯示出學(xué)科融合的趨勢。主題詞類型的橋節(jié)點表示相應(yīng)的主題詞是網(wǎng)絡(luò)中的重要信息傳播樞紐,不同的期刊刊名通過主題詞橋節(jié)點連接在一起,表示與該主題詞相連的主題詞-期刊刊名組合共同組成了以該主題詞為中心的學(xué)科主題交叉群,顯示出學(xué)科交叉擴散的趨勢。關(guān)注具有連接橋性質(zhì)的節(jié)點,能夠在一定程度上了解學(xué)科融合和交叉發(fā)展的趨勢。 為驗證和評價本文提出的融合主題詞-引文的知識發(fā)現(xiàn)方法在揭示科學(xué)知識結(jié)構(gòu)和知識主題演化規(guī)律方面的效果,本研究運用專家訪談法,采取面對面訪談、電話和電子郵件等途徑,選取6位國內(nèi)三甲醫(yī)院的乳腺腫瘤方面的臨床專家,進(jìn)行專家訪談。專家意見表明,通過2013—2018年檢索的有關(guān)期刊、主題詞的分析,基本符合目前乳腺癌臨床研究的發(fā)展趨勢。本研究案例乳腺小葉癌病因?qū)W知識演化分析圖譜顯示基本涵蓋了乳腺腫瘤領(lǐng)域的動態(tài)進(jìn)展,目前乳腺腫瘤研究領(lǐng)域的重點在腫瘤干細(xì)胞研究、免疫治療、腫瘤微環(huán)境、腫瘤遺傳、治療抵抗,尋找新的治療靶點和開發(fā)靶向治療藥物等方面,相關(guān)研究已經(jīng)從早期的流行病學(xué)層面的病因?qū)W延伸到了基因組學(xué)層面,對于治療的藥物也從化學(xué)藥物往針對于特定突變基因的靶向藥物方向發(fā)展,提示了人們對疾病的認(rèn)識及治療更上了一個新的臺階,也為今后的科研和臨床治療帶來一定啟示。 本文構(gòu)建了融合主題詞-引文的知識發(fā)現(xiàn)理論模型,提出耦合熵指數(shù)的概念,對主題詞-引文知識耦合系統(tǒng)進(jìn)行量化測度,選取乳腺小葉癌案例開展了基于主題詞-引文耦合熵的演化分析,提出一個有效識別突變性耦合因子對的測量指標(biāo)——突變系數(shù)。研究發(fā)現(xiàn),耦合熵指數(shù)可作為2-模知識耦合系統(tǒng)的量化測度指標(biāo),突變系數(shù)可有效識別具有潛在突變性的耦合因子對,兩項指標(biāo)對數(shù)據(jù)的優(yōu)化處理能有效降低2-模知識耦合網(wǎng)絡(luò)的復(fù)雜性;具有較高耦合熵指數(shù)的主題詞-刊名耦合因子對代表了較為成熟和穩(wěn)定的學(xué)科子類和知識結(jié)構(gòu),具有突變性的耦合因子對表征和揭示了相關(guān)學(xué)科主題和知識結(jié)構(gòu)的突變、轉(zhuǎn)向、交叉和融合。 科學(xué)知識圖譜作為揭示學(xué)科發(fā)展脈絡(luò)、評估學(xué)科領(lǐng)域發(fā)展情況的一種工具,對結(jié)果本身的理解和判讀需要借助專家經(jīng)驗進(jìn)行判讀,因此,對科學(xué)知識圖譜結(jié)果本身的評估缺乏統(tǒng)一的金標(biāo)準(zhǔn)。這一現(xiàn)象出現(xiàn)的根本原因是“真實數(shù)據(jù)(ground truth)”的缺乏,即現(xiàn)實情況下也不存在知識圖譜的“標(biāo)準(zhǔn)答案”。即便是領(lǐng)域?qū)<?,專家意見和?jīng)驗也存在主觀差異,每個專家對心目中領(lǐng)域知識圖譜的結(jié)構(gòu)和細(xì)節(jié)也不盡相同。雖然科學(xué)知識圖譜結(jié)果的精確定量評估缺乏統(tǒng)一的方法和工具,但從本研究融合主題詞-引文的知識發(fā)現(xiàn)方法的結(jié)果分析,專家反饋結(jié)果良好,融合主題詞-引文的知識發(fā)現(xiàn)方法可以從宏觀、中觀、微觀多種維度了解學(xué)科知識演化特征、規(guī)律和趨勢,是對已有的知識發(fā)現(xiàn)和分析方法的有效補充。2.5 結(jié)果的專家反饋和評估
3 結(jié)語和展望