,,
科技領(lǐng)域前沿知識(shí)的概念最早來源于普賴斯提出的“研究前沿”這一概念。隨著科學(xué)研究范圍不斷擴(kuò)大與更新,目前已有多個(gè)概念與前沿知識(shí)的概念相近或類似,如研究前沿(Research Fronts)、新興趨勢(shì)(Emerging Trend)、新興研究領(lǐng)域(Emerging Research Domains、Emerging Research Area、Emerging Fields、Emerging Knowledge Domains)以及新興主題(Emerging Topics)、研究熱點(diǎn)(Research hotspot)、熱點(diǎn)主題(Hot Topics)等。因此,有些學(xué)者在研究前沿知識(shí)時(shí)往往借鑒或采用了測(cè)度新興或熱點(diǎn)主題的某些計(jì)算方法,并取得了較好的研究結(jié)果。根據(jù)學(xué)術(shù)界有對(duì)“前沿”概念的界定[1],前沿知識(shí)的內(nèi)涵主要包括“前沿”與“知識(shí)”兩個(gè)方面,“前沿”說明其具有前瞻性和先導(dǎo)性,“知識(shí)”說明其具有理論性與探索性。
前沿知識(shí)代表了某一學(xué)科領(lǐng)域現(xiàn)在以及未來一段時(shí)期的發(fā)展方向,對(duì)學(xué)科發(fā)展具有引領(lǐng)作用。及時(shí)發(fā)現(xiàn)并準(zhǔn)確識(shí)別前沿知識(shí),為領(lǐng)域?qū)<姨峁┭芯繀⒖寂c情報(bào)支持,可避免重復(fù)勞動(dòng)和節(jié)約科研資源,可輔助科研管理部門制定科研規(guī)劃、組織立項(xiàng)等科研管理工作?;陬I(lǐng)域?qū)<业摹邦^腦風(fēng)暴”定性發(fā)現(xiàn)前沿知識(shí)的過程,容易受領(lǐng)域?qū)<抑R(shí)背景、研究興趣等主觀因素的影響。因此,對(duì)前沿知識(shí)的定量研究逐漸受到各領(lǐng)域的關(guān)注。目前前沿知識(shí)的定量研究主要采用引文分析法[2-7]、共詞分析法[8]、文本挖掘法[9-10]、社會(huì)網(wǎng)絡(luò)分析法[11-12]等單一維度分析法以及多維度分析法。單一維度分析法的相關(guān)研究興起時(shí)間較早,具有一定的理論支撐,研究成果豐富,在學(xué)術(shù)界得到了一定的應(yīng)用,如湯森路透集團(tuán)的ESI數(shù)據(jù)庫即采用引文分析的方法表征研究前沿。然而,無論是“粗粒度”的引文分析法或“細(xì)粒度”的文本挖掘法,還是具有良好可視化效果的社會(huì)網(wǎng)絡(luò)分析法,均以發(fā)現(xiàn)前沿知識(shí)為主,未能揭示前沿知識(shí)的顯著特征,如先導(dǎo)性、高關(guān)注度等。文本挖掘方法可以在知識(shí)內(nèi)容的新穎性方面發(fā)現(xiàn)前沿知識(shí),但僅限于單一特征,未能挖掘出前沿知識(shí)專有特征。雖然基于復(fù)合關(guān)系的方法[1]將引文分析與共詞分析進(jìn)行了結(jié)合,以發(fā)揮兩種方法的優(yōu)點(diǎn),彌補(bǔ)各自的不足,但在確定前沿知識(shí)特征方面尚顯不足。
相比利用引文集合、詞頻等單一屬性發(fā)現(xiàn)前沿知識(shí)的研究而言,多種屬性相結(jié)合能更加準(zhǔn)確地挖掘與定位前沿知識(shí),有利于揭示前沿知識(shí)的特征與演化規(guī)律?;诖耍疚脑谝延醒芯炕A(chǔ)上,首先確定了前沿知識(shí)的多維度特征,繼而提出了醫(yī)學(xué)領(lǐng)域前沿知識(shí)發(fā)現(xiàn)的研究框架
前沿知識(shí)的多維度分析法綜合運(yùn)用引文分析、共現(xiàn)分析、文本挖掘以及熱點(diǎn)話題探測(cè)方法,試圖從多個(gè)維度對(duì)前沿知識(shí)進(jìn)行分析,以揭示前沿知識(shí)不同方面的特征,特別是專有特征,現(xiàn)已經(jīng)成為前沿知識(shí)測(cè)度的主要研究思路。
吳菲菲等[13]從創(chuàng)新性和學(xué)科交叉性2個(gè)維度探測(cè)了研究前沿的模型,它由創(chuàng)新性特征識(shí)別階段、學(xué)科交叉性特征識(shí)別階段以及前沿主題提煉階段“三階段”構(gòu)成,各階段分別使用文獻(xiàn)引文分析、共現(xiàn)分析和文本挖掘方法??梢?,創(chuàng)新性、學(xué)科交叉性是前沿知識(shí)的重要特性。張麗華等[14]從時(shí)效性、突破性、跨學(xué)科性和繼承性4個(gè)方面對(duì)早期前沿知識(shí)的特征及其演化過程進(jìn)行了研究,發(fā)現(xiàn)突破性指數(shù)對(duì)前沿影響最大,其次為跨學(xué)科性和時(shí)效性,繼承性對(duì)前沿的影響最小。黃魯成等[15]從新興主題的關(guān)注度、成長潛力度以及關(guān)聯(lián)度3個(gè)屬性測(cè)度了新興主題的特點(diǎn),發(fā)現(xiàn)新興主題具有高關(guān)注度、高成長潛力度及高關(guān)聯(lián)度。賀亮等[16]提出了文獻(xiàn)主題詞發(fā)現(xiàn)和趨勢(shì)分析的方法,該方法利用LDA話題模型抽取科技文獻(xiàn)的話題,并計(jì)算了話題的強(qiáng)度和影響力。Le等[17]構(gòu)建的一個(gè)新興主題探測(cè)模型綜合考慮了科技文獻(xiàn)中主題的多種特征,利用7×10×2的神經(jīng)網(wǎng)絡(luò)識(shí)別新興概念,且該模型適用于不同的科學(xué)研究領(lǐng)域。Guo等[18]使用特殊詞突然增加的頻率、作者關(guān)注新興領(lǐng)域的人數(shù)和增加速度、參考文獻(xiàn)交叉學(xué)科的變化3個(gè)指標(biāo),構(gòu)建了用于描述和預(yù)測(cè)新興研究領(lǐng)域關(guān)鍵結(jié)構(gòu)和動(dòng)態(tài)特性的混合模型。
雖然多維度分析方法可測(cè)度前沿知識(shí)的多種特征,但仍存在不足。一是對(duì)前沿知識(shí)專有特征挖掘不足?,F(xiàn)有研究往往將“前沿”、“熱點(diǎn)”、“突發(fā)”、“新興”等描述知識(shí)特殊狀態(tài)的詞混淆,使得在挖掘與測(cè)度前沿知識(shí)特征時(shí)容易受其他知識(shí)測(cè)度方法的影響。二是對(duì)前沿知識(shí)的解讀缺乏語義環(huán)境。現(xiàn)有研究中,缺乏對(duì)知識(shí)的語義描述。前沿知識(shí)是基于一定語義環(huán)境出現(xiàn)的,只有準(zhǔn)確描述前沿知識(shí)產(chǎn)生與存在的語義環(huán)境以及不同詞語間的語義關(guān)聯(lián),才能更準(zhǔn)確地定位前沿知識(shí),并對(duì)其進(jìn)行正確解讀。
Bun等[19]認(rèn)為,新聞中任何一個(gè)熱點(diǎn)話題都不可能無限“熱”下去,都會(huì)經(jīng)歷一個(gè)產(chǎn)生、增長、成熟和消亡的過程,于是將生命周期理論用于探測(cè)研究新聞熱點(diǎn)話題。隨后,Chen[20]、趙迎光等[21]按照生命周期理論,分別設(shè)定了新聞熱點(diǎn)詞與文獻(xiàn)熱點(diǎn)詞的能量值、生命值、變化率等指標(biāo),并根據(jù)生命值指數(shù)確定每個(gè)時(shí)間窗內(nèi)的熱點(diǎn)詞。實(shí)驗(yàn)結(jié)果證明,利用生命周期理論可以較好地識(shí)別新聞及文獻(xiàn)熱點(diǎn)詞。前沿知識(shí)作為主題的一種,比一般知識(shí)具有更強(qiáng)的生命周期特征,應(yīng)表現(xiàn)出明顯的分期過程。因此,通過研究主題在生命周期內(nèi)特征的變化,可以監(jiān)測(cè)并識(shí)別前沿知識(shí)。
綜上所述,在時(shí)間維度上,前沿知識(shí)應(yīng)具有生命周期特征;在空間維度上,前沿知識(shí)主要具有權(quán)威性、普遍認(rèn)可性、創(chuàng)新性和學(xué)科交叉性4項(xiàng)特征。只有同時(shí)具備上述4項(xiàng)特征和具有生命周期特征的知識(shí),能認(rèn)為是前沿知識(shí)?;诖?,本文確定文獻(xiàn)領(lǐng)域的前沿知識(shí)需同時(shí)滿足如下條件:前沿知識(shí)具有生命周期特征;前沿知識(shí)的出現(xiàn)頻次高,即具有普遍認(rèn)可性;前沿知識(shí)來源期刊影響因子較高,即具有權(quán)威性;前沿知識(shí)與已有知識(shí)的相似度不高,即具有創(chuàng)新性;前沿知識(shí)來源于多種學(xué)科領(lǐng)域,即具有學(xué)科交叉性。前沿知識(shí)表示公式如下:
前沿知識(shí)=(普遍認(rèn)可性+權(quán)威性+創(chuàng)新性+學(xué)科交叉性)∩ 生命周期特征
(1)
對(duì)前沿知識(shí)特征進(jìn)行維度劃分可以看出,普遍認(rèn)可性、權(quán)威性、創(chuàng)新性屬于前沿知識(shí)自身的屬性,共同構(gòu)成前沿知識(shí)的內(nèi)部屬性。學(xué)科交叉性雖是前沿知識(shí)自身具有的屬性,但學(xué)科交叉涉及多個(gè)學(xué)科之間的交流與測(cè)度,因此本研究認(rèn)為學(xué)科交叉性是前沿知識(shí)的外部屬性。前沿知識(shí)的內(nèi)部屬性可以深入內(nèi)容層面細(xì)粒度地描述與測(cè)度前沿知識(shí),外部屬性可以在知識(shí)來源廣度上說明前沿知識(shí)的特征。綜合考量前沿知識(shí)的內(nèi)外部屬性,可以較為全面地測(cè)度前沿知識(shí),實(shí)現(xiàn)準(zhǔn)確發(fā)現(xiàn)前沿知識(shí)的目的。與基于復(fù)合關(guān)系的方法不同,多維特征識(shí)別方法在前沿知識(shí)發(fā)現(xiàn)過程中,更強(qiáng)調(diào)對(duì)前沿知識(shí)自身特征的描述與判斷。
目前關(guān)于醫(yī)學(xué)領(lǐng)域前沿主題挖掘的研究較多,并開發(fā)了TDA、CiteSpace等成熟工具輔助識(shí)別前沿主題。但現(xiàn)有研究對(duì)前沿主題的主要特征認(rèn)識(shí)不足,更缺乏從知識(shí)內(nèi)外屬性綜合測(cè)度前沿知識(shí)的研究。此外,相關(guān)研究較少涉及研究主題的語義類型,對(duì)結(jié)果的解讀主要依賴領(lǐng)域?qū)<?,降低了方法的可用性。根?jù)上面對(duì)前沿知識(shí)多維特征的定義與測(cè)度方法分析,為保證識(shí)別前沿知識(shí)的準(zhǔn)確性與方法的可用性,本文提出了醫(yī)學(xué)領(lǐng)域前沿知識(shí)發(fā)現(xiàn)研究框架(圖1)。
圖1 基于多維特征識(shí)別的醫(yī)學(xué)領(lǐng)域前沿知識(shí)發(fā)現(xiàn)研究框架
數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)分析、知識(shí)挖掘非常重要。本文利用豐富的醫(yī)學(xué)知識(shí)組織體系(如MeSH超級(jí)詞表)及權(quán)威可靠的語義分析工具M(jìn)etaMap,將從文獻(xiàn)數(shù)據(jù)庫獲取的醫(yī)學(xué)文獻(xiàn)中的主題詞進(jìn)行概念映射,抽取映射后的主題詞及其語義類型。經(jīng)過數(shù)據(jù)預(yù)處理,將各種醫(yī)學(xué)術(shù)語變體統(tǒng)一為標(biāo)準(zhǔn)的MeSH術(shù)語主題詞,既方便后續(xù)對(duì)分析結(jié)果的解讀,又提高了分析的準(zhǔn)確率。
根據(jù)公式(1)逐項(xiàng)測(cè)度數(shù)據(jù)預(yù)處理后抽取主題詞。每項(xiàng)指標(biāo)的測(cè)度方法如下。
2.3.1 生命周期特征測(cè)度
主題詞的生命周期可以反映其在時(shí)間上的變化趨勢(shì)。Chen等[22]提出了新聞事件的生命周期模型,將新聞事件按照生命周期分為4個(gè)階段,并提出了能量函數(shù)的概念以跟蹤事件的生命周期。該模型在主題探測(cè)與跟蹤領(lǐng)域得到了廣泛應(yīng)用。已有研究證明[21],文獻(xiàn)領(lǐng)域的主題詞具備生命周期特征,因此可以利用生命周期理論,測(cè)度主題詞在時(shí)間上的變化情況,并與其他指標(biāo)結(jié)合,共同揭示主題在時(shí)間上的特征。根據(jù)生命周期理論,文獻(xiàn)領(lǐng)域主題詞的能量值、生命值、變化率等指標(biāo)的計(jì)算公式如下。
主題詞K在時(shí)間窗t內(nèi)得到的能量值公式如下:
式中A、B、C、D的代表含義如表1所示。
表1 能量值計(jì)算公式中部分參數(shù)的取值
某一主題詞的生命值公式如下:
GFk,t=InGEk,t(4)
式中,GFk,t為主題詞K在時(shí)間窗t上的生命值,GFk,t為主題詞K在t時(shí)間窗內(nèi)得到的能量值。
根據(jù)公式(2)、(3)、(4)的測(cè)度主題詞的能量值、生命值等指標(biāo)的結(jié)果后,計(jì)算主題詞在每個(gè)時(shí)間窗生命值的變化率:
式中,N為給定時(shí)間段內(nèi)時(shí)間窗的個(gè)數(shù),GFk,t是t時(shí)間窗K主題詞的生命值,GF是K在所有時(shí)間窗內(nèi)的生命值均值。在某一時(shí)間窗內(nèi),主題詞的生命值變化率越大,其生命周期性越強(qiáng)。
2.3.2 普遍認(rèn)可性測(cè)度
主題詞出現(xiàn)的頻次越高,其普遍認(rèn)可性越大,越容易成為前沿知識(shí)。目前,用于測(cè)度主題詞頻次的方法很多(如詞頻統(tǒng)計(jì)法、TFIDF方法、詞共現(xiàn)方法等),但每種方法又有其局限性。例如,TFIDF方法使用的是TF(詞頻)與IDF(倒排文檔率)乘積表示詞權(quán)重,使那些出現(xiàn)頻率高和出現(xiàn)在多篇文檔中的主題詞的權(quán)重較小。事實(shí)上,當(dāng)主題詞處于其生命周期的中后期時(shí),不僅出現(xiàn)頻次高,而且文檔數(shù)量也較多,導(dǎo)致TFIDF值較小,無法完全揭示具有生命周期特征的主題詞。
Bun等[19]糾正了計(jì)算詞權(quán)重的TFIDF算法在區(qū)分詞分布方面的不足,使用TFPDF算法計(jì)算每個(gè)詞的權(quán)重。TFPDF算法對(duì)于出現(xiàn)頻次高和出現(xiàn)文檔多的詞賦予較大權(quán)重,對(duì)主題詞的生命周期特征具有一定的揭示意義。因此,本文使用TFPDF方法計(jì)算主題詞的普遍認(rèn)可性,其公式如下:
式中,|Fk,c|是詞K在c中出現(xiàn)的頻次,nk,c是出現(xiàn)詞K的文檔的數(shù)量,W是c中所有詞的數(shù)量,|C|是文獻(xiàn)集合中期刊數(shù)量。因此如果一個(gè)詞的詞頻越大,并且包含該詞的期刊越多,TFXPDF值就越大。
2.3.3 權(quán)威性測(cè)度
影響因子是目前期刊評(píng)價(jià)與人才評(píng)價(jià)的重要指標(biāo)。該指標(biāo)雖然有其本身的缺陷,但在國際科技評(píng)價(jià)領(lǐng)域的作用仍很重要。一般而言,高影響因子學(xué)術(shù)期刊刊載的論文較同領(lǐng)域低影響因子期刊刊載的論文更容易獲得較高的學(xué)科關(guān)注度,具有更高的領(lǐng)域權(quán)威性。因此,領(lǐng)域高影響因子學(xué)術(shù)期刊是前沿知識(shí)的產(chǎn)生地與聚集地。當(dāng)然,并不是所有刊載在高影響因子期刊上的論文或主題就一定具有權(quán)威性和成長為前沿知識(shí),只是成為前沿知識(shí)的可能性更大而已。因此,可以利用期刊影響因子測(cè)量文獻(xiàn)主題詞的權(quán)威性[15],公式如下:
2.3.4 創(chuàng)新性測(cè)度
主題詞的創(chuàng)新性一般可以主題詞出現(xiàn)時(shí)間和主題詞內(nèi)容的創(chuàng)新性兩個(gè)維度分別測(cè)量。從科技文獻(xiàn)老化的角度來說,社會(huì)的發(fā)展和知識(shí)的更新,必然會(huì)影響人們對(duì)新舊文獻(xiàn)的選擇。一般來說,舊有文獻(xiàn)的使用頻次將逐漸降低,讓位于新生的文獻(xiàn)。但出現(xiàn)時(shí)間并不能準(zhǔn)確定位前沿知識(shí),更多的是用于對(duì)新興主題的探測(cè)研究。因此,本文使用主題詞內(nèi)容的創(chuàng)新性測(cè)度前沿知識(shí)。
主題詞內(nèi)容的創(chuàng)新性是指對(duì)給定的文獻(xiàn)集,按時(shí)間序列排序,比較新到來的相關(guān)文獻(xiàn)主題與已有文獻(xiàn)主題的冗余度,確定新到來的文本主題是否新穎。目前廣泛使用的文本創(chuàng)新性測(cè)量方法主要有基于向量空間模型的文本創(chuàng)新性探測(cè)和基于語言模型的文本創(chuàng)新性探測(cè)兩大類[23]。其中,基于向量空間模型的內(nèi)容創(chuàng)新性探測(cè)方法的主要步驟為:文本主題詞的抽取與映射→構(gòu)建文檔的向量空間模型→利用某一方法計(jì)算內(nèi)容創(chuàng)新性。本文采用Zhang[24]使用的向量余弦值方法測(cè)度主題詞內(nèi)容的創(chuàng)新性。計(jì)算方法如下:
式中,CNVk代表主題詞K內(nèi)容上的創(chuàng)新性,CNVk值越大,該主題詞K內(nèi)容上的創(chuàng)新性越強(qiáng)。cos(dl,di)計(jì)算了文檔dl,di余弦相似度值,n代表該時(shí)間窗內(nèi)擁有主題詞K的文檔數(shù)量,m代表前一時(shí)間窗內(nèi)所有文檔的數(shù)量,di代表前一時(shí)間窗的文檔i所對(duì)應(yīng)的向量,q代表向量維度。
2.3.5 學(xué)科交叉性測(cè)度
中科院院士路甬祥[25]曾指出:“學(xué)科交叉點(diǎn)往往就是科學(xué)新的生長點(diǎn)、新的科學(xué)前沿,這里最有可能產(chǎn)生重大的科學(xué)突破,使科學(xué)發(fā)生革命性變化。”多項(xiàng)研究[26-27]表明,世界上最具權(quán)威和最負(fù)盛名的科學(xué)獎(jiǎng)項(xiàng)——諾貝爾自然科學(xué)獎(jiǎng)中的學(xué)科交叉研究成果豐富,說明了現(xiàn)代科學(xué)技術(shù)的重大發(fā)現(xiàn)與發(fā)明多是學(xué)科交叉的成果??茖W(xué)和技術(shù)上的重大突破,新的生長點(diǎn)和新學(xué)科的產(chǎn)生,往往是在不同學(xué)科彼此交叉和相互滲透的過程中形成的,說明跨學(xué)科研究具有重大意義。
許海云等[28]對(duì)學(xué)科交叉性測(cè)度方法進(jìn)行了研究,將學(xué)科交叉性測(cè)度屬性主要分為學(xué)科多樣性(diversity)和學(xué)科聚合性(cohesion)兩種。學(xué)科多樣性描述交叉領(lǐng)域所涉及學(xué)科的數(shù)量統(tǒng)計(jì)特征,包括學(xué)科數(shù)量多少(豐富度)、分布特征(平衡性)和個(gè)體間差異性(差異度);學(xué)科聚合性表征了研究領(lǐng)域所涉及各個(gè)學(xué)科所構(gòu)成的整體網(wǎng)絡(luò)的聯(lián)系緊密程度和各學(xué)科在網(wǎng)絡(luò)中地位的差異程度,包括核心-邊緣度、網(wǎng)絡(luò)分派度、網(wǎng)絡(luò)密度和網(wǎng)絡(luò)中心勢(shì)。
Stirling[29]較為詳細(xì)地闡述了學(xué)科多樣性的普遍存在,指出了學(xué)科多樣性豐富性、平衡性和差異性3個(gè)屬性,并提出了用于測(cè)度學(xué)科交叉性的Rao-Stirling指標(biāo)。該指標(biāo)不僅考慮了學(xué)科分類間的平均分布程度,即平衡性,又考慮了學(xué)科分類間的差異性。張金柱等[30]、許海云等[31]均利用該指標(biāo)對(duì)圖書情報(bào)學(xué)領(lǐng)域的學(xué)科交叉性進(jìn)行了度量。
考慮到指標(biāo)的全面性與操作的簡單性,本文使用Rao-Stirling指標(biāo)測(cè)度主題詞的學(xué)科交叉性,其計(jì)算公式如下:
式中,pi與pj是不同學(xué)科的概率分布,dij是學(xué)科間的距離,可以用余弦相似度進(jìn)行計(jì)算α, β為計(jì)量參數(shù),取值為0-1。當(dāng)α、β取值不同時(shí),測(cè)度了學(xué)科間的不同屬性(表2)。Rao-Stirling值越大,該主題的學(xué)科交叉性越強(qiáng)。
表2 Rao-Stirling指標(biāo)中參數(shù)取值不同時(shí)
2.3.6 前沿性測(cè)度
根據(jù)以上5個(gè)指標(biāo),設(shè)計(jì)主題詞的“前沿性”指標(biāo):
Front=aVt+bTFPDFk+cPAk+dCNVk+eRS(12)
式中,a、b、c、d、e系數(shù)應(yīng)根據(jù)上述指標(biāo)的特點(diǎn)及其在發(fā)現(xiàn)前沿知識(shí)時(shí)的作用與區(qū)分度確定。
從統(tǒng)計(jì)學(xué)角度看,公式(12)為前沿性指標(biāo)的多元線性回歸模型。普通最小二乘估計(jì)、最大似然估計(jì)等是常用的參數(shù)估計(jì)方法,用于確定式中的a、b、c、d、e參數(shù)值。隨著多元線性回歸模型應(yīng)用的逐步推廣,為滿足學(xué)科領(lǐng)域發(fā)展需要,提出了參數(shù)估計(jì)的自適應(yīng)動(dòng)態(tài)更新機(jī)制,DE算法[32]、粒子群算法[33]等新的方法逐步用于參數(shù)估計(jì)研究中。醫(yī)學(xué)領(lǐng)域由多個(gè)子學(xué)科組成,本文雖利用統(tǒng)一的前沿知識(shí)特征指標(biāo)對(duì)前沿知識(shí)進(jìn)行識(shí)別,但同一特征在確定不同子學(xué)科前沿知識(shí)的重要性時(shí)可能有所不同。因此,目前尚無法給出各參數(shù)的具體估算與動(dòng)態(tài)更新方法,需要通過大量不同學(xué)科的實(shí)驗(yàn),確定適用于某一具體學(xué)科的前沿性參數(shù)組合。
考慮到各個(gè)主題并非孤立存在而具有一定的關(guān)聯(lián)關(guān)系,明確主題間的相關(guān)關(guān)系更有利于對(duì)前沿知識(shí)的準(zhǔn)確解讀。依據(jù)前沿性指標(biāo)篩選權(quán)重較大的主題詞,利用詞共現(xiàn)理論與技術(shù)、社會(huì)網(wǎng)絡(luò)分析技術(shù)生成前沿知識(shí)網(wǎng)絡(luò)。判斷生成的知識(shí)網(wǎng)絡(luò)中節(jié)點(diǎn)重要性的指標(biāo)有很多,如中心度、聲望等。雖然這些指標(biāo)可以揭示節(jié)點(diǎn)的全局重要性,但無法揭示節(jié)點(diǎn)在某一社區(qū)的重要程度。本文通過前沿性指標(biāo)測(cè)度了節(jié)點(diǎn)的全局重要性,在知識(shí)網(wǎng)絡(luò)分析中則需要判斷節(jié)點(diǎn)的局部重要性,從而實(shí)現(xiàn)對(duì)某一知識(shí)網(wǎng)絡(luò)所代表主題的解讀。本文使用Guimera等[34]提出的Z-Value值計(jì)算節(jié)點(diǎn)的局部重要性,Z-Value方法可以測(cè)度網(wǎng)絡(luò)節(jié)點(diǎn)與其他節(jié)點(diǎn)聯(lián)系的緊密性,根據(jù)指標(biāo)值大小確定計(jì)算節(jié)點(diǎn)的局部重要性。
準(zhǔn)確識(shí)別知識(shí)網(wǎng)絡(luò)中的重要社區(qū),對(duì)揭示學(xué)科發(fā)展規(guī)律和描述學(xué)科內(nèi)部關(guān)聯(lián)等具有積極作用。Wallace等[35]的研究證明了應(yīng)用社區(qū)發(fā)現(xiàn)方法識(shí)別知識(shí)網(wǎng)絡(luò)中的重要社區(qū)是可行有效的。計(jì)算機(jī)學(xué)界基于圖論提出了多種社區(qū)識(shí)別算法,最有代表性的方法是基于優(yōu)化網(wǎng)絡(luò)模塊度的方法。該方法根據(jù)邊的中介性和模塊度的變化進(jìn)行社區(qū)識(shí)別。本文利用模塊度方法,對(duì)前沿知識(shí)形成的多個(gè)社區(qū)進(jìn)行識(shí)別,確定不同社區(qū)的重要性,并發(fā)現(xiàn)重要社區(qū)中節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,從而描述前沿知識(shí)結(jié)構(gòu)。
最后,利用數(shù)據(jù)預(yù)處理階段提取的主題詞的語義類型,對(duì)代表性節(jié)點(diǎn)與關(guān)鍵社區(qū)中的主題詞進(jìn)行解讀,可以準(zhǔn)確發(fā)現(xiàn)某一醫(yī)學(xué)研究領(lǐng)域涉及的疾病、基因、藥物、治療方法等方面前沿知識(shí)的概況,以指導(dǎo)研究人員更針對(duì)性地開展相關(guān)研究。
為了準(zhǔn)確識(shí)別醫(yī)學(xué)領(lǐng)域的前沿知識(shí),本文提出了一種基于多維度特征識(shí)別的醫(yī)學(xué)領(lǐng)域前沿知識(shí)發(fā)現(xiàn)研究框架,并給出了框架中核心部分的研究思路與關(guān)鍵步驟。本文將生命周期理論、社會(huì)網(wǎng)絡(luò)理論等多種理論與方法共同用于前沿知識(shí)的發(fā)現(xiàn)研究中,強(qiáng)調(diào)從知識(shí)的內(nèi)外部兩個(gè)方面共同測(cè)度前沿知識(shí)。此外,根據(jù)不同知識(shí)的語義類型,可以有針對(duì)性地解讀前沿知識(shí)。后續(xù)研究中,我們將進(jìn)一步驗(yàn)證本文所提方案的有效性,重點(diǎn)解決以下問題。
一是指標(biāo)閾值的選取與確定。能量值、生命值、學(xué)科交叉性、前沿性等指標(biāo)閾值的大小,直接決定最終識(shí)別的前沿知識(shí)的內(nèi)容。目前尚無統(tǒng)一的閾值選擇標(biāo)準(zhǔn),仍需經(jīng)過大量實(shí)驗(yàn)確定具體指標(biāo)的參數(shù)值,以提高指標(biāo)與模型的適用性。
二是醫(yī)學(xué)領(lǐng)域前沿知識(shí)的語義關(guān)聯(lián)分析。本文結(jié)合語義類型實(shí)現(xiàn)了對(duì)前沿知識(shí)的解讀,但對(duì)不同類型間知識(shí)的語義關(guān)聯(lián)缺乏深入研究。醫(yī)學(xué)研究領(lǐng)域比其他領(lǐng)域具有更加完備的知識(shí)組織體系與語義關(guān)系。目前國外已開發(fā)了一些數(shù)據(jù)庫用于存儲(chǔ)基因與疾病之間的關(guān)系(例如CTDTM[36],OMIM?[37]和GAD[38]),開發(fā)了DisGeNET[39]平臺(tái)用以集成基因疾病關(guān)聯(lián)(GDAs)中多個(gè)公共數(shù)據(jù)源和文獻(xiàn)信息,該平臺(tái)包括17 181種基因與14 619種疾病的429 111種關(guān)系。因此,建立醫(yī)學(xué)領(lǐng)域前沿知識(shí)間的語義關(guān)聯(lián)和揭示醫(yī)學(xué)知識(shí)間的語義關(guān)系,對(duì)疾病的預(yù)防、發(fā)現(xiàn)與治療具有積極影響。