• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文章發(fā)表時間對生物醫(yī)學(xué)文獻知識發(fā)現(xiàn)的影響

      2017-03-21 01:08:16,,,
      關(guān)鍵詞:詞項生物醫(yī)學(xué)關(guān)聯(lián)

      , , ,,

      科技文獻是科研工作者獲取科學(xué)假設(shè)的重要途徑。如何更好地基于文獻進行知識發(fā)現(xiàn),是未來知識服務(wù)的重要方向。傳統(tǒng)的檢索平臺能夠幫助用戶快速查找文獻,但檢索的文獻數(shù)量龐大,要從候選文獻集中獲得有效的知識,費時費力?;谖墨I的知識發(fā)現(xiàn)研究通過間接關(guān)聯(lián)的挖掘來獲得科學(xué)假設(shè),影響間接關(guān)聯(lián)挖掘的因素研究是目前該領(lǐng)域的熱點之一。

      通過間接關(guān)聯(lián)的挖掘來獲得科學(xué)假設(shè),即如果A與B存在關(guān)聯(lián),同時B與C也存在聯(lián)系,得到A與C可能通過B存在間接聯(lián)系的假設(shè)[1]。目前生物醫(yī)學(xué)領(lǐng)域開發(fā)的一些文獻知識發(fā)現(xiàn)系統(tǒng),如Arrowsmith[2],F(xiàn)acta+[3],CoPub[4]等,具有較強的可操作性,但由于無法明確間接關(guān)聯(lián)的語義關(guān)系,導(dǎo)致混雜的候選關(guān)系數(shù)成指數(shù)遞增,從中篩選出真正有效的關(guān)系變得困難?,F(xiàn)有方法不斷強化對關(guān)聯(lián)的語義性評價,而關(guān)聯(lián)性強弱只是影響發(fā)現(xiàn)用戶感興趣的特異性關(guān)聯(lián)的因素之一。研究文獻知識發(fā)現(xiàn)過程中影響間接關(guān)聯(lián)挖掘的因素,以便篩選出更多更有效的間接關(guān)聯(lián)。因此,本文利用PubMed的文獻數(shù)據(jù),分析不同時期的文獻在間接關(guān)聯(lián)挖掘中的作用,探討時間因素在生物醫(yī)學(xué)文獻知識發(fā)現(xiàn)過程中的影響,這對科研人員探索文獻知識發(fā)現(xiàn)關(guān)聯(lián)篩選的新方法具有重要意義。

      1 研究設(shè)計

      文獻知識發(fā)現(xiàn)的實施主要包括概念實體A、B和C的識別,關(guān)聯(lián)的抽取及間接關(guān)聯(lián)的相關(guān)度計算3個部分。對于一個文獻知識發(fā)現(xiàn)系統(tǒng)來說,用戶輸入概念A(yù),計算A-B-C之間的關(guān)聯(lián)強度,獲得按關(guān)聯(lián)強度由大到小排序的有序列表[5]。返回的候選結(jié)果的數(shù)量較大時,排在前面的結(jié)果通常是用戶最關(guān)心的。因此,給定每一個A-B-C間接關(guān)聯(lián),計算其關(guān)聯(lián)性評價的分值SAC,利用SAC對所有候選結(jié)果集進行排序,確保排序靠前的多是關(guān)聯(lián)性較好的結(jié)果,即只關(guān)注分值最高的靠前關(guān)聯(lián)集的準確度P(Precision),P越大效果越好。

      為了探索文章發(fā)表時間對生物醫(yī)學(xué)文獻知識發(fā)現(xiàn)的影響,將給定文獻集按發(fā)表時間(年份)分成訓(xùn)練集Ttrain和Ttest(圖1),并在y12時間點將訓(xùn)練集Ttrain分成T1和T2兩部分(其中T1

      圖1 文獻集按時間劃分為訓(xùn)練集Ttrain和測試集Ttest

      1.1 關(guān)聯(lián)建模

      利用圖對關(guān)聯(lián)知識進行建模,是目前相關(guān)領(lǐng)域最常用的方法。通常一個簡單的無向無權(quán)網(wǎng)絡(luò),可記為G=(V ,E),其中集合V稱為節(jié)點集,V={v1,v2,…,vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應(yīng)一個節(jié)點的二元組:ex=(vi,vj),E是V×V的一個子集。筆者根據(jù)文獻中的語義單元即概念實體及其關(guān)聯(lián),對文獻中蘊含的知識進行網(wǎng)絡(luò)結(jié)構(gòu)化,構(gòu)建文獻關(guān)聯(lián)知識網(wǎng)絡(luò)。因此,在生物醫(yī)學(xué)文獻關(guān)聯(lián)知識網(wǎng)絡(luò)G=(V,G)中,節(jié)點集V是從生物醫(yī)學(xué)文獻中提取的實體集合(如基因、蛋白質(zhì)、化合物或疾病等各類概念實體),邊集E 是實體之間來自文獻的信息關(guān)聯(lián)的集合。

      1.2 關(guān)聯(lián)提取

      基于句子共現(xiàn)的方法進行實體關(guān)聯(lián)的提取[6],利用NLTK(www.nltk.org)自然語言處理包實現(xiàn)文獻文本處理與關(guān)聯(lián)提取(包括分詞、詞性標注、分塊及名詞短語提取),并利用MeSH(Medical Subject Headings)醫(yī)學(xué)主題詞表輔助進行詞干化,主要過程如下。

      識別出句子的實體NP(Noun Phrase)及其位置:

      如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián):(NP1,NP2),(NP1,NP3),(NP2,NP3)。

      例如,文獻標題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice.提取得到實體及其位置的列表為:

      [(β1-syntrophin modulation,1),(miR-222,4),(mdx mouse,6)]

      進一步得到關(guān)聯(lián):(β1-syntrophin modulation,miR-222),(β1-syntrophin modulation,mdx mouse),( miR-222,mdx mouse)。

      在實體識別過程中,未對提取到的名詞詞項進行語義限定與分類,即得到的關(guān)聯(lián)知識網(wǎng)絡(luò)不是一個由特定實體構(gòu)成的關(guān)聯(lián)網(wǎng)絡(luò),而是盡量收集文獻中出現(xiàn)的各類實體,以滿足通用性和覆蓋率的要求。雖然生物醫(yī)學(xué)文獻中出現(xiàn)的同義詞項、縮寫詞及實體識別算法本身的假陽性率會帶來一定的噪聲,但從總體富集的效果來觀察,不會影響結(jié)果的整體表現(xiàn)。

      1.3 間接關(guān)聯(lián)的評價

      目前已有多種指標用于評價A-B-C三者之間的關(guān)聯(lián)性[7]。筆者選擇常用的絕對詞頻(Absolute Word Frequency,AWF)計算A-B-C之間的潛在關(guān)聯(lián)性SAC,以輔助比較不同時期文獻用于實施知識發(fā)現(xiàn)時的準確率:

      SAC=min(w(A,B),w(B,C))

      其中,w(A,B)與w(B,C)分別為A與B、B與C的共現(xiàn)次數(shù)。

      1.4 計算準確率

      給定測試文獻數(shù)據(jù)集,將文獻數(shù)據(jù)集按時間分成訓(xùn)練集和測試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。從N1中隨機選擇m個詞作為種子詞項集A,其中A取訓(xùn)練網(wǎng)絡(luò)與測試網(wǎng)絡(luò)中共同擁有的詞項,即A∈N1∩N2。

      在訓(xùn)練網(wǎng)絡(luò)G1中,以種子集A中的節(jié)點為起點提取其間接節(jié)點,得到間接節(jié)點集C,計算所有關(guān)系鏈(A-Btrain-C)的一個分值SAC。對結(jié)果集C按SAC值從大到小排序,取有序結(jié)果集CSorted中前L個詞項,得到CSorted_TopL={c1,c2,…cL}。

      在測試網(wǎng)絡(luò)G2中,以種子節(jié)點集A中的節(jié)點為起點提取其直接關(guān)聯(lián)節(jié)點,得到關(guān)聯(lián)節(jié)點集Btest。

      計算有序結(jié)果集CSorted前L個詞項集CSorted_TopL的準確率P:

      其中,CSorted_TopL∩Btest指CSorted_TopL和Btest的交集即共同擁有的詞項,|CSorted_TopL∩Btest|為交集的節(jié)點數(shù)量,|Btest|指Btest集的節(jié)點數(shù)量。

      2 數(shù)據(jù)測試

      2.1 數(shù)據(jù)準備

      以關(guān)鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結(jié)果,將標題數(shù)據(jù)集按時間分成訓(xùn)練集和測試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。以2012年為分開點,2013-2015年的文獻數(shù)據(jù)作為Ttest測試集,2003-2012年的文獻數(shù)據(jù)作為Ttrain訓(xùn)練集。其中將訓(xùn)練集以2009年為中間點,2003-2009年作為T1時間段的訓(xùn)練集,2010-2012年作為T2時間段的訓(xùn)練集。從T1時間段訓(xùn)練集中隨機選取50個關(guān)鍵詞作為種子詞項A1,從T2時間段訓(xùn)練集中隨機選取50個關(guān)鍵詞作為種子詞項A2。

      此外,在計算T1時間段的準確率時,必須從Ttest中去除A1在T2時間段中已經(jīng)形成的關(guān)聯(lián),才能保證剩下的新關(guān)聯(lián)是在Ttest時期形成的。

      2.2 測試結(jié)果

      取L=0.1,0.2,0.3,…,1,即取有序結(jié)果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項時,計算T1和T2的準確率P,結(jié)果如圖2所示。

      圖2 L=0.1,0.2,0.3,… ,1.0時T1和T2的準確率P

      進一步取靠前的區(qū)間,取 L=0.01,0.02,0.03,…,0.1,即取有序結(jié)果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項時,計算T1和T2的準確率P,結(jié)果如圖3所示。

      圖3 L=0.01,0.02,0.03,…,0.1時T1和T2的準確率P

      根據(jù)圖2與圖3的測試結(jié)果,觀察不同時期的文獻用于間接關(guān)聯(lián)挖掘時的表現(xiàn),發(fā)現(xiàn)由T2時期文獻獲得的準確率顯著大于T1時期文獻所獲得的準確率,即近期文獻集相比早期文獻集在知識發(fā)現(xiàn)時獲得的準確率要高,表明文章發(fā)表時間對生物醫(yī)學(xué)文獻知識發(fā)現(xiàn)具有積極影響。因此,在實際文獻知識發(fā)現(xiàn)時,科研人員多是基于特定領(lǐng)域文獻實施知識發(fā)現(xiàn)的研究,在間接關(guān)聯(lián)性評價過程中考慮時間因素,可以顯著提升知識發(fā)現(xiàn)工作的效率。此外,從整體上看,利用T1與T2時期的文獻集都未能獲得較高的準確率,一方面是因為實體抽取時未過濾那些寬泛概念,如“cell”“gene”“miRNA”等,這些概念存在大量的關(guān)聯(lián),但在具體關(guān)聯(lián)發(fā)現(xiàn)過程中無實際意義;另一方面,不同時間段內(nèi)相關(guān)領(lǐng)域都存在相應(yīng)的熱點研究內(nèi)容,種子詞的選擇對結(jié)果的準確率影響很大,如果選擇熱點種子詞項,會顯著提升準確率。

      3 總結(jié)與討論

      面對大數(shù)據(jù)時代知識獲取的需求與挑戰(zhàn),基于文獻的知識發(fā)現(xiàn)研究對完成從文獻到知識的轉(zhuǎn)化具有重要作用,已成為醫(yī)學(xué)情報分析與輔助科研的一種重要理論與方法。筆者探討了時間因素在生物醫(yī)學(xué)文獻知識發(fā)現(xiàn)過程中對間接關(guān)聯(lián)挖掘的影響。從測試實驗的結(jié)果來看,近期文獻比早期文獻在知識發(fā)現(xiàn)過程中獲得有效新關(guān)聯(lián)的效果要好,表明文章發(fā)表時間對生物醫(yī)學(xué)知識發(fā)現(xiàn)具有一定積極影響,即更新的文獻對下一步科研假設(shè)的形成具有非常重要的促進作用。

      由于文獻知識發(fā)現(xiàn)是一個啟發(fā)式的過程,利用知識發(fā)現(xiàn)工具輔助科研時篩選出的關(guān)聯(lián)仍然是需要進一步確證的假設(shè)。因此,在不斷提高文獻文本中實體及其關(guān)系提取質(zhì)量的同時,間接關(guān)聯(lián)篩選的新方法探索變得越來越重要。研究時間因素在文獻知識發(fā)現(xiàn)過程中對間接關(guān)聯(lián)挖掘的作用,能為新方法的探索提供一種新視角、新思路,不失為一種積極而有意義的嘗試。

      猜你喜歡
      詞項生物醫(yī)學(xué)關(guān)聯(lián)
      芻議“生物醫(yī)學(xué)作為文化”的研究進路——兼論《作為文化的生物醫(yī)學(xué)》
      靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
      “一帶一路”遞進,關(guān)聯(lián)民生更緊
      自然種類詞項二難、卡茨解決與二維框架
      國外生物醫(yī)學(xué)文獻獲取的技術(shù)工具:述評與啟示
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
      英語詞項搭配范圍及可預(yù)見度
      依據(jù)語篇中多層次信息的句法分析方法
      大家(2011年9期)2011-08-15 00:45:37
      淳化县| 拜泉县| 宣威市| 松原市| 扶余县| 郴州市| 新化县| 宣城市| 资溪县| 六盘水市| 西盟| 济阳县| 紫金县| 盐源县| 桑植县| 镇宁| 宾阳县| 乌兰浩特市| 乌拉特中旗| 临清市| 忻城县| 四川省| 和政县| 兴宁市| 洪雅县| 会东县| 舒城县| 成安县| 靖安县| 西乡县| 高要市| 黎平县| 卢龙县| 河津市| 榆社县| 准格尔旗| 甘洛县| 渭源县| 南郑县| 鄂温| 泗水县|