,,, ,
文獻是科研工作者獲取科學(xué)假設(shè)與跟蹤領(lǐng)域進展的重要途徑,從大量文獻集中識別出前沿?zé)狳c對科學(xué)研究具有重要的理論和實踐意義??萍记閳蠊ぷ鞯幕A(chǔ)就是要抓住前沿?zé)狳c,掌握前沿發(fā)展的動態(tài),密切跟蹤研究進展,但前沿?zé)狳c的定義并沒有科研人員一致公認(rèn)的標(biāo)準(zhǔn)[1]。領(lǐng)域熱點存在兩個最主要的特征:一是相關(guān)領(lǐng)域近年的文獻集呈現(xiàn)出的熱點主題,二是圍繞熱點主題使未來短期內(nèi)能形成大量新的研究內(nèi)容。目前各個學(xué)科領(lǐng)域的科研人員提出了很多熱點主題的識別方法,以便領(lǐng)域?qū)<铱偨Y(jié)未來短期內(nèi)的研究方向,但研究內(nèi)容的預(yù)測及對預(yù)測結(jié)果的評價仍是一個開放的問題。
要從已有文獻中獲得新的研究內(nèi)容,首先需要從文獻集中發(fā)現(xiàn)隱含的聯(lián)系以形成科學(xué)假設(shè)。越來越多的文獻挖掘研究嘗試從文獻集構(gòu)建關(guān)聯(lián)知識網(wǎng)絡(luò),以便進一步深入地挖掘新的關(guān)聯(lián)知識[2],而網(wǎng)絡(luò)的拓?fù)涮卣鲿谝欢ǔ潭壬嫌绊懢W(wǎng)絡(luò)的演化發(fā)展[3]。因此,本文主要基于文獻的知識發(fā)現(xiàn)模型,從關(guān)聯(lián)知識網(wǎng)絡(luò)的特征變化預(yù)測領(lǐng)域熱點,并通過1種評價預(yù)測結(jié)果的方法驗證其可預(yù)測性。
基于文獻的知識發(fā)現(xiàn)(Literature-based Discovery, LBD)通過潛在的關(guān)聯(lián)挖掘推斷出新的科學(xué)假設(shè)。如果有兩類文獻集As和Cs,其中As討論了概念A(yù)和概念B之間的關(guān)系,而Cs討論了概念C和概念B之間的關(guān)系,但是沒有任何文獻討論概念A(yù)和概念C的關(guān)系,那么A與C之間通過B存在某種關(guān)系,這就可能是一個新的科學(xué)發(fā)現(xiàn)[4-5]。根據(jù)文獻知識發(fā)現(xiàn)理論模型,如果基于近期文獻集,從概念A(yù)能夠推斷出較多的新假設(shè),那么概念A(yù)很可能是近期文獻集呈現(xiàn)出的某個熱點主題,能衍生出大量新的研究內(nèi)容。
利用圖對關(guān)聯(lián)知識建模,是目前相關(guān)領(lǐng)域最常用的方法。通常一個簡單的無向無權(quán)網(wǎng)絡(luò),可記為G=(V ,E),其中集合 V 稱為節(jié)點集,V={V1,V2,…,Vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應(yīng)一個節(jié)點的二元組:ex=(Vi,Vj),E是V×V的一個子集。本文將文獻集中的內(nèi)容相關(guān)性轉(zhuǎn)化為基于關(guān)聯(lián)信息存在的圖結(jié)構(gòu)數(shù)據(jù)模型,即根據(jù)文獻中的概念實體及其關(guān)聯(lián)信息,對文獻中所蘊含的知識進行網(wǎng)絡(luò)結(jié)構(gòu)化,構(gòu)建文獻關(guān)聯(lián)知識網(wǎng)絡(luò)。在關(guān)聯(lián)知識網(wǎng)絡(luò)G=(V, E) 中,節(jié)點集V 是各種從生物醫(yī)學(xué)文獻中提取而來的實體的集合,如基因、蛋白質(zhì)、化合物或疾病等,邊集E 是實體之間的關(guān)聯(lián)集合。關(guān)聯(lián)知識網(wǎng)絡(luò)把文獻集中的知識以網(wǎng)絡(luò)形式表示出來,這既表示出知識之間的聯(lián)系,也過濾了冗余知識,為發(fā)現(xiàn)對象間的隱含關(guān)系提供了方便。本文基于句子共現(xiàn)提取實體關(guān)聯(lián)[6],用以進行測試分析,基本過程如下。
識別出句子的實體NP(Noun Phrase)及其位置。如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián)(NP1,NP2),(NP1,NP3),(NP2,NP3)。如文獻標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice. 提取得到實體及其位置的列表為:[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]
進一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222 ),(β1-syntrophin modulation , mdx mouse),( miR-222, mdx mouse)
將兩個實體首次共現(xiàn)的時間(年份),作為關(guān)系的T屬性。
給定關(guān)聯(lián)知識網(wǎng)絡(luò)G=(V,E),對于任意節(jié)點v∈V,定義其節(jié)點度的增長率為:
其中dT為T時節(jié)點的度,即T時節(jié)點的所有關(guān)聯(lián)數(shù)量,且T1 綜合來看,筆者更傾向于第一種浪形的劃分。因為從時間和大周期結(jié)構(gòu)的角度來看,時間不支持走一輪完整的12345浪了。 文獻知識發(fā)現(xiàn)的實施主要包括3個重要部分,分別是概念實體A、B和C的識別、關(guān)聯(lián)的抽取以及間接關(guān)聯(lián)的相關(guān)度計算,用戶輸入概念A(yù),計算A-B-C之間的關(guān)聯(lián)強度獲得按關(guān)聯(lián)強度由大到小的有序列表[7]。對于一個文獻知識發(fā)現(xiàn)系統(tǒng)來說,返回的候選結(jié)果的數(shù)量比較大時,排在前面的結(jié)果通常是用戶最關(guān)心的。因此,給定每一個A-B-C間接關(guān)聯(lián),計算其(A-B-C)的一個分值SAC,利用SAC對所有候選結(jié)果集從大到小排序之后,在有序的結(jié)果列表中,確保排序靠前的多是全局關(guān)聯(lián)強度較好的結(jié)果,即只關(guān)注于分值最高的前L條關(guān)系鏈(A-B-C)的準(zhǔn)確度P(Precision),P越大效果越好。 1.3.1 準(zhǔn)確率P的計算 給定測試文獻數(shù)據(jù)集,將文獻數(shù)據(jù)集按時間分成訓(xùn)練集Ttrain和測試集Ttest,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。從N1中隨機選擇m個詞作為種子詞項集A,其中A取訓(xùn)練網(wǎng)絡(luò)與測試網(wǎng)絡(luò)中共同擁有的詞項,即A∈N1∩N2。 在訓(xùn)練網(wǎng)絡(luò)G1中,以種子集A中的節(jié)點為起點提取其間接節(jié)點,得到間接節(jié)點集C,計算所有關(guān)系鏈(A-Btrain-C)的一個分值SAC,對結(jié)果集C按SAC值從大到小排序,取有序結(jié)果集CSorted中前L個詞項,得到CSorted_TopL={c1,c2,…cL}。 在測試網(wǎng)絡(luò)G2中,以種子節(jié)點集A中的節(jié)點為起點提取其直接關(guān)聯(lián)節(jié)點,得到關(guān)聯(lián)節(jié)點集Btest。 計算有序結(jié)果集CSorted前L個詞項集CSorted_TopL的準(zhǔn)確率P: 其中CSorted_TopL∩Btest指CSorted_TopL和Btest的交集,即共同擁有的詞項,|CSorted_TopL∩Btest|為交集的節(jié)點數(shù)量,|Btest|指Btest集的節(jié)點數(shù)量。 為了驗證熱點的可預(yù)測性,在Ttrain時期的訓(xùn)練集篩選近3年關(guān)聯(lián)增長率最大的前N個詞項作為熱點詞項集Ahot,同時隨機選取N個詞項作為隨機詞項集Arandom,分別作為種子詞項集,基于Ttest時期的測試集,計算與比較兩種情況下的準(zhǔn)確率Phot與Prandom。如果Phot顯著大于Prandom,說明Ahot詞項一定程度上表達(dá)了短期內(nèi)的熱點主題,如圖1所示。 圖1 利用熱點詞項與隨機詞項預(yù)測新關(guān)聯(lián)的 1.3.3 A-B-C間接關(guān)聯(lián)SAC的計算 目前已有多種指標(biāo)用于評價A-B-C三者之間的關(guān)聯(lián)性[8]。本文選擇常用的絕對詞頻(Absolute Word Frequency,AWF)來計算A-B-C之間的潛在關(guān)聯(lián)性SAC,以輔助計算與比較準(zhǔn)確率Phot與Prandom,具體如下。 SAC=min(w(A,B),w(B,C)) 其中,w(A,B)與w(B,C)分別為A與B、B與C的共現(xiàn)次數(shù)。 以關(guān)鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結(jié)果,取標(biāo)題數(shù)據(jù),將數(shù)據(jù)集按時間分成訓(xùn)練集和測試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。以2012年為分開點,2013-2015年的文獻數(shù)據(jù)作為Ttest測試集,2010-2012年作為訓(xùn)練集Ttrain。從訓(xùn)練集中隨機選取50個關(guān)鍵詞作為種子詞項Arandom,同時給定T2=2012,T1=2010,從訓(xùn)練集中選取50個近3年增長率最大的節(jié)點作為熱點節(jié)點Ahot。 取 L=0.1,0.2,0.3,…,1,即取有序結(jié)果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項時,計算熱點詞項與隨機詞項的準(zhǔn)確率P的結(jié)果如圖2所示。 圖2 L=0.1,0.2,… ,1.0時熱點詞項與隨機 進一步取靠前的區(qū)間,取 L=0.01,0.02,0.03,…,0.1,即取有序結(jié)果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項時,計算準(zhǔn)確率P的結(jié)果如圖3所示。 圖3 L=0.01,0.02,…,0.1時熱點詞項與隨機詞項的準(zhǔn)確率P的比較 綜合圖2、圖3的測試結(jié)果可以發(fā)現(xiàn),基于文獻知識發(fā)現(xiàn)模型,對結(jié)果集進行關(guān)聯(lián)置優(yōu)排序,利用熱點詞項計算得到的準(zhǔn)確率Phot顯著高于由隨機詞項獲得的準(zhǔn)確率Prandom。這一方面說通過篩選節(jié)點度增長率大的詞項,可以獲得更多的新關(guān)聯(lián),即度增長率大的節(jié)點在短期內(nèi)能衍生出較多的新研究內(nèi)容;另一方面說明,能夠在未來短期內(nèi)形成的大量新關(guān)聯(lián)都與節(jié)點度快速增長的詞項密切相關(guān)。因此,節(jié)點度快速增長的詞項在一定程度上能夠表達(dá)相關(guān)領(lǐng)域近期的熱點主題,即文獻知識網(wǎng)絡(luò)的節(jié)點度變化對領(lǐng)域熱點具有一定的預(yù)測作用。 面對大數(shù)據(jù)時代知識獲取的需求與挑戰(zhàn),基于文獻的知識發(fā)現(xiàn)研究對完成從文獻到知識的轉(zhuǎn)化具有重要作用,已成為醫(yī)學(xué)情報分析與輔助科研的一種重要理論與方法?;谖墨I的知識發(fā)現(xiàn)是一個啟發(fā)式的過程,如何保證在已有的文獻集中,篩選出更多更有效的潛在關(guān)聯(lián),仍是該領(lǐng)域研究的熱點問題之一。 本文基于文獻知識發(fā)現(xiàn)模型,探討了文獻知識網(wǎng)絡(luò)中節(jié)點度變化對近期熱點的預(yù)測性,測試實驗顯示度增長率大的節(jié)點在未來形成新關(guān)聯(lián)的準(zhǔn)確率顯著大于一般節(jié)點,表明節(jié)點度變化對領(lǐng)域熱點具有一定預(yù)測性。在實際科研過程中,不同時期、不同領(lǐng)域都存在相應(yīng)的熱點內(nèi)容,準(zhǔn)確地識別領(lǐng)域前沿?zé)狳c是進行情報跟蹤的基礎(chǔ)。如果在文獻知識發(fā)現(xiàn)具體實施過程中的種子概念實體取自于熱點主題,可以顯著提升知識發(fā)現(xiàn)準(zhǔn)確率和篩選效率,輔助科研人員獲得更多的科學(xué)假設(shè)。1.3 評價方法
2 數(shù)據(jù)實驗
2.1 數(shù)據(jù)準(zhǔn)備
2.2 結(jié)果與討論
3 總結(jié)