• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文本挖掘在基因組注釋中的應用

      2017-03-21 10:50:06,
      中華醫(yī)學圖書情報雜志 2017年3期
      關(guān)鍵詞:生物醫(yī)學基因組工具

      ,

      基因組注釋是指利用生物信息學方法對基因組中所有基因的生物學功能進行高通量注釋,包括核苷酸級別的注釋、蛋白質(zhì)級別的注釋以及流程級別的注釋[1]。目前,常規(guī)的基因組注釋方法存在步驟過于繁瑣、需要借助高精尖設(shè)備、人工操作存在誤差、 “同源-功能相似”只是一種假說、模體本身具有的層次性以及涉及的分析工具較多無法自動化操作等問題,得到的結(jié)果存在誤差[2]。隨著計算機技術(shù)的發(fā)展以及關(guān)于基因研究的生物醫(yī)學文獻數(shù)量的不斷增加,利用文本挖掘技術(shù)[3]對生物醫(yī)學文獻分析來實現(xiàn)對基因組注釋成為一種新的研究趨勢。

      1 材料和方法

      筆者利用WOS數(shù)據(jù)庫中的文獻作為研究的樣本來源,檢索策略為:TS=(gene annotation* OR genomic* annotation*) AND TS=(text mining OR literature mining),檢索時間為2016年10月19日,限定時間段在2000-2016年之間,得到328篇相關(guān)文獻。利用書目共現(xiàn)分析軟件BICOMB抽取相關(guān)文獻中的引文,選取出現(xiàn)頻次在15次及以上的引文,共得到16篇高被引論文(表1)。利用BICOMB構(gòu)建高被引論文——來源文獻矩陣(該矩陣可反映高被引論文在來源文獻中的分布情況),然后將詞篇矩陣導入聚類分析軟件gCluto中進行高被引論文的同被引聚類分析。

      表1 328篇來源文獻中的高被引論文(n=16,f>=15)

      2 結(jié)果與分析

      將同被引聚類分析結(jié)果用可視化圖像表示,山峰圖見圖1,棋盤圖見圖2。圖1中16篇高被引論文根據(jù)其在328篇來源文獻中的被引情況可分成3個大類;圖2中行聚類是對于高被引論文的聚類,列聚類是對于來源文獻的聚類。圖2中行聚類結(jié)果也表明該16篇高被引論文可分為3類,表示文本挖掘技術(shù)在基因組注釋中的3個應用方向。各大類對應的高被引論文見表2。其中每個大類的內(nèi)容可根據(jù)該大類中包含的高被引論文及其間的樹狀關(guān)系進行總結(jié),通過對每個大類對應的列聚類中描述度較高的來源文獻(即每個類的類標簽文獻)的閱讀研究進一步把握各大類的內(nèi)容。本文結(jié)合同被引論文聚類分析結(jié)果和各類中高被引論文,將文本挖掘技術(shù)在基因組注釋方面的應用分為權(quán)威工具的使用、文本挖掘工具和算法的開發(fā)、文本挖掘工具的檢驗3類。

      圖1 高被引論文聚類分析的山峰圖

      圖2 高被引論文聚類分析的棋盤圖

      表2 3類對應的高被引論文

      一是權(quán)威工具的使用。通過對Cluster 1中相關(guān)高被引文獻以及類標簽文獻的分析,總結(jié)出在基因組注釋的相關(guān)研究中,收錄有基因組及基因產(chǎn)物相關(guān)序列、結(jié)構(gòu)或功能信息的數(shù)據(jù)庫和軟件工具以及與基因相關(guān)的受控詞匯表被廣泛利用,如京都基因和基因組百科全書(Kyoto Encyclopedia of Genomes, KEGG)[4-5]、一體化醫(yī)學語言系統(tǒng)(The Unified Medical Language System, UMLS)[6-7]、基因本體(Gene Ontology, GO)[8]、基本局域聯(lián)配搜索工具(Basic Local Alignment Tool, BLAST)等。這些數(shù)據(jù)庫、軟件將已知的基因相關(guān)信息匯總、整理并組織起來,提供給科研人員使用和查詢。Taniya T等人[9]在尋找特定復雜疾病新的候選基因的研究中利用了京都基因和基因組百科全書、基因本體以及其他一些數(shù)據(jù)庫中的信息來獲取與類風濕性關(guān)節(jié)炎和前列腺癌相關(guān)的已知致病基因。

      然而這些數(shù)據(jù)庫或軟件工具中有些關(guān)于基因、蛋白質(zhì)等物質(zhì)的注釋信息基本依賴于專家人工從文獻集中獲得。隨著生物醫(yī)學科技文獻數(shù)量的增加以及用戶需求的增加,這種數(shù)據(jù)收集方法缺乏靈活性,其收錄信息的范圍也受到限制。因此從文獻中自動提取信息的計算機算法被開發(fā)出來作為人工開發(fā)數(shù)據(jù)庫的補充,尤其是基因概念之間的關(guān)聯(lián)研究及應用[10-11]。

      二是文本挖掘工具和算法的開發(fā)。對Cluster 2中相關(guān)高被引文獻進行分析,五篇高被引論文的研究方向都是對于文本挖掘工具的介紹,包括基因和蛋白質(zhì)等相關(guān)實體的識別工具[12-13]、基因共現(xiàn)網(wǎng)絡(luò)創(chuàng)建工具[14]、利用基因與蛋白作為鏈接點構(gòu)建文獻網(wǎng)絡(luò)的信息系統(tǒng)[15]等等。在此基礎(chǔ)上再對Cluster 2中的類標簽文獻進行分析,我們總結(jié)出在基因組注釋中,相關(guān)文本挖掘工具和算法的開發(fā)與利用是文本挖掘技術(shù)在基因組注釋方面的一大重要應用。

      在分子生物學及相關(guān)領(lǐng)域,大規(guī)模高通量實驗技術(shù)的發(fā)展和生物信息學工具的使用產(chǎn)生了大量的數(shù)據(jù)并促進了科學文獻的增長,但也使得許多顯性或隱性知識被掩蓋在文獻中難以被科研人員利用,這促進了文本挖掘工具和算法的發(fā)展與利用[16]。通過Rodriguez-Esteban R等人[17]與Krallinger M等人[18]對于生物醫(yī)學領(lǐng)域文本挖掘技術(shù)的論述,我們可以總結(jié)出文本挖掘技術(shù)涉及到命名實體識別、關(guān)系檢測、知識發(fā)現(xiàn)等多個階段,在各個階段中都有相關(guān)的文本挖掘工具或應用程序被開發(fā)出來。比如在命名實體識別階段,有Whatizit系統(tǒng)(一個文本處理系統(tǒng),可以識別文本中的分子生物學術(shù)語,并將其鏈接到公共可用的數(shù)據(jù)庫中)、ABNER程序(A Biomedical Named Entity Recognizer,生物醫(yī)學命名實體識別器,是一個可以識別蛋白質(zhì)、DNA、RNA、細胞系和細胞類型這五種術(shù)語的開源軟件工具)等工具;在關(guān)系檢測階段,有MedGene(一種全面估計和總結(jié)Medline中所有人類基因——疾病關(guān)系相對強度的文本挖掘工具)等工具,并且基因本體和蛋白質(zhì)相互作用網(wǎng)絡(luò)也能分別展示相關(guān)基因、蛋白質(zhì)的親疏遠近關(guān)系;在知識發(fā)現(xiàn)階段,有Arrowsmith(一個免費的、基于公共網(wǎng)絡(luò)的兩節(jié)點搜索工具,允許用戶在PubMed中識別任何兩組文章集之間有生物學意義的連接)等工具。

      三是文本挖掘工具的檢驗。對Cluster 0中相關(guān)高被引文獻進行分析,6篇高被引論文中有5篇文獻的主要內(nèi)容是對于BioCreative(Critical Assessment of Information Extraction systems in Biology,生物學中信息提取系統(tǒng)的嚴格評價)評估的描述[19-23],再結(jié)合對Cluster 0中描述度較高的類標簽文獻的分析,發(fā)現(xiàn)文本挖掘在基因組注釋中的一大應用是進行文本挖掘競賽以檢驗各文本挖掘工具。

      在生物醫(yī)學領(lǐng)域,已有很多關(guān)于基因、蛋白等物質(zhì)的注釋數(shù)據(jù)庫被開發(fā)。隨著生物醫(yī)學領(lǐng)域科技文獻量的增長,依靠專家人工從文獻中提取有用信息策展相關(guān)數(shù)據(jù)庫在時間上已經(jīng)有很大的局限性,這促進了生物醫(yī)學領(lǐng)域文本挖掘技術(shù)尤其是自然語言處理技術(shù)的發(fā)展,也使得BioCreative評估應運而生。 BioCreative評估建立于2004年,主要目的在于評估應用于生物醫(yī)學領(lǐng)域的文本挖掘技術(shù)的最高水平。除此之外,該評估還促進了相關(guān)數(shù)據(jù)庫開發(fā)者與文本挖掘研究人員之間的交流,有利于自動化的文本挖掘技術(shù)與人工策展相結(jié)合共同進行數(shù)據(jù)庫的開發(fā)。 從2004年開始,BioCreative評估用來檢驗各文本挖掘工具的任務多圍繞文獻中基因、蛋白質(zhì)等相關(guān)實體的提取、基因標準化、利用基因本體或蛋白質(zhì)相互作用網(wǎng)絡(luò)在全文中提取基因或蛋白質(zhì)的功能注釋等方面展開,在這期間還邀請文本挖掘工具最終用戶參與進來,加強文本挖掘工具解決生物醫(yī)學研究中實際問題的能力[18,24-26]。

      3 討論

      本文通過對WOS中有關(guān)文本挖掘與基因組注釋的相關(guān)文獻的檢索、篩選、聚類和閱讀研究,發(fā)現(xiàn)文本挖掘技術(shù)在基因組注釋方面的應用大致分為權(quán)威工具的使用、文本挖掘工具和算法的開發(fā)、文本挖掘工具的檢驗3方面。伴隨著生物醫(yī)學文獻量的不斷增加、高通量實驗技術(shù)的不斷進步以及科研人員對于信息提取工具需求的增加,相信會有越來越多的文本挖掘工具被開發(fā)出來。與此同時,隨著文本挖掘工具競賽的舉辦,其研發(fā)會越來越貼近科研人員的現(xiàn)實需要。對于依靠人工從文本集中收集有用信息的數(shù)據(jù)庫等工具的研發(fā),未來的發(fā)展趨勢應該會將文本挖掘技術(shù)整合進相關(guān)開發(fā)流程,更加依賴文本挖掘技術(shù)來提取信息以充實數(shù)據(jù)庫。當然,除了在基因組注釋方面,文本挖掘技術(shù)在藥物重定位研究、藥物靶向位點研究等其他生物醫(yī)學領(lǐng)域也會發(fā)揮越來越重要的作用。

      猜你喜歡
      生物醫(yī)學基因組工具
      芻議“生物醫(yī)學作為文化”的研究進路——兼論《作為文化的生物醫(yī)學》
      科學與社會(2022年4期)2023-01-17 01:20:04
      靈長類生物醫(yī)學前沿探索中的倫理思考
      科學與社會(2021年4期)2022-01-19 03:29:50
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      波比的工具
      波比的工具
      國外生物醫(yī)學文獻獲取的技術(shù)工具:述評與啟示
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      LED光源在生物醫(yī)學中的應用分析
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      有趣的植物基因組
      世界科學(2014年8期)2014-02-28 14:58:31
      巴林右旗| 隆昌县| 宜川县| 香港| 瑞金市| 平凉市| 柏乡县| 宜兴市| 瓮安县| 蓝田县| 印江| 吉木萨尔县| 吉林市| 故城县| 英超| 库尔勒市| 平阴县| 辽宁省| 大同市| 灵武市| 吉首市| 沁水县| 岫岩| 定安县| 青阳县| 长春市| 达拉特旗| 环江| 牟定县| 濉溪县| 石嘴山市| 灵宝市| 呼图壁县| 洞头县| 和田县| 曲阳县| 恩施市| 英超| 房山区| 教育| 吕梁市|