• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Bioperl實現(xiàn)遠程自動獲取抗逆基因序列

      2014-11-14 07:11:00張曉婧潘偉民曹興芹
      生物信息學 2014年3期
      關鍵詞:格式文件檢索遠程

      張曉婧,潘偉民,曹興芹

      (新疆師范大學生命科學學院,新疆烏魯木齊830054)

      Perl語言是所有編程語言中最擅長文字處理的語言[1],BioPerl不僅具有 Perl語言的所有優(yōu)點,而且此模塊中還包含大量獲取分析生物數據的小模塊,對于現(xiàn)在的研究者來說,不論是在生物領域還是計算機科學領域,都是一個非常棒的工具。

      近幾年來,關于抗逆基因的研究越來越受研究者們的關注,無論對于惡劣環(huán)境地區(qū)植物的生長,還是對于動植物抗病害來說,都是非常重要的。一般情況下,想要獲取全面準確的抗逆基因數據,現(xiàn)行的方法只有手動去NCBI搜索或者手工記錄(例如:DRASTIC INSIGHTS網站中的抗逆基因數據都是通過手工記錄搜集的[2]),一般搜索出的數據都是幾萬條,甚至幾十萬條,這其中大部分還不符合條件,需費時去篩選,最后才能下載,是一件耗時又耗力的工作;而對于需要搭建生物抗逆基因二次數據庫的項目來說[3],這又是必須要實現(xiàn)的前提,只有保證數據源全面準確,才可稱為有價值的二次數據庫。目前也有類似解決這個問題的研究[4-6],但并沒有達到很好的效果。

      相比之下,利用 BioPerl使用 NCBI提供的 EUtilities編程接口,全面結合抗逆基因關鍵詞來編寫的程序,可以快速有效地遠程自動獲取抗逆基因,數據比較全面準確。在程序方法設計時,以LEA基因為例(其他抗逆基因類似,只需將對應的關鍵詞換掉即可)。

      1 程序設計

      1.1 程序運行環(huán)境

      程序環(huán)境:Windows XP+ActivePerl5.16.1 Build+BioPerl 1.6.1,以上的安裝配置均參照BioPerl網站中 Installing BioPerl on Windows文件[7]。

      1.2 關鍵詞的篩選

      關鍵詞即本程序的檢索條件,為了獲得更全面、更準確的序列,一定要篩選出最合適、最全面的關鍵詞。首先得到的關鍵詞,是從抗逆基因的定義及特征中總結出的,共10個,2012年白琳的碩士學位論文《植物抗逆基因資源平臺的構建與分析》中也提到了這幾個關鍵詞[6],證明此處關鍵詞的準確性;其次,在大量的抗逆基因文獻中[8-9],提取出了較完整的抗逆基因種類,從中可以總結出所有抗逆基因種類直接描述的關鍵詞,共29個,可靠性可以得到保證;最后是關于LEA基因的關鍵詞,現(xiàn)今對LEA基因的研究越來越多,相關文獻也涌現(xiàn)出許多,在這些文獻中將LEA基因家族進行分類[10-11],其中有兩個LEA 基因族,文獻中有提到過它們的別名,即LEA2族也被稱作dehydrin(脫水素),LEA4族也被稱作seed maturation protein,由此又得到兩個關鍵詞,且這兩個關鍵詞在LEA基因序列中也得到驗證,如 AF031248.1、AY044271.1等。具體關鍵詞列表(見表1)。

      表1 關鍵詞列表Table 1 Keywords list

      1.3 程序方法設計

      LEA蛋白基因(late embryogenesis abundant proteins,LEA)是一類具有重要抗逆功能的抗逆基因,特別是在抗干旱、高鹽、高溫等環(huán)境脅迫方面顯示出強大的保護功能[10-11]。程序以LEA基因為例,源代碼見圖1。

      圖1 程序代碼Fig.1 The code of program

      程序具體實現(xiàn)過程如下:第一步,調用esearch服務端程序,此服務端程序的作用是可以根據給定條件來查詢序列[12],這里用“LEA[ALL]OR late embryogenesis abundant proteins[ALL]OR dehydrin[ALL]OR seed maturation protein[ALL]AND 0:3000[SLEN]”作為關鍵詞條件,“0:3000[SLEN]”這個條件將檢索范圍縮小到長度為0~3 000 bp的序列,由于esearch只能進行檢索序列的工作,而不具有下載功能,所以在程序后半部分需要用到另一個服務端程序efetch。第二步,在用efetch程序之前,需要一個中間變量,儲存上一步的檢索數據,為下一步提供下載的原始記錄,這里先將esearch程序中“-usehistory”參數設為“y”[13],保存歷史瀏覽記錄(注意這里只是緩存數據,并沒有直接下載到本地),將歷史瀏覽數據賦值給中間變量$hist,為下步做好準備;第三步,用到efetch服務端程序,將歷史數據以‘genbank’格式下載到本地。

      2 結果與討論

      2.1 程序結果

      本文設計的程序為實現(xiàn)遠程自動獲取大量基因序列提供了一種較好的解決辦法。程序在Windows XP平臺下經測試運行穩(wěn)定,跨平臺移植性好。該程序從 NCBI中獲取 LEA基因序列共47 061條(3 000 bps以內的序列),截止2013年11月12日。

      此程序將遠程獲取的序列數據存儲到‘leakeyword.gb’文件中,在這里可以注意到本文程序可以大量自動下載到‘genbank’格式文件,而以往在BioPerl中用到E-Utilities這個接口時,只能大量下載到‘fasta’或‘xml’格式的文件,要下載‘genbank’格式文件只能是小量下載(即給定gi號來下載),筆者也曾試過用下‘fasta’格式文件的方法來下載‘genbank’格式文件,雖然是下載成功了,可是‘genbank’文件中的結構已經完全不同了(見圖2),內容雖然完整,可是格式完全變了,作為數據庫的源數據是不可能的,fasta格式中又不包含特征表的內容,而xml格式更不適合,白琳的碩士學位論文《植物抗逆基因資源平臺的構建與分析》中[6],下載到的便是xml格式文件,她之后還需要從中提取出gi號,再根據這個下載‘genbank’格式文件,程序變得很復雜。所以本文的程序至少有兩點好處:一是打破以往只能小量下載‘genbank’文件的限制,二是不需要中間轉換程序,便捷、靈巧。

      圖2 Genbank文件Fig.2 Genbank document

      本程序中用到的關鍵詞條件,是目前查詢條件中較全面、準確的條件,不僅涵蓋了表面意思中得到的關鍵詞,還考慮到基因本身功能及基因分類之后的別名,使得自動獲取的抗逆基因更加全面、準確,為生物二次數據庫的構建打好了堅實的基礎。

      2.2 討 論

      2009年5月,NCBI創(chuàng)建了Eutilities編程接口之后,BioPerl便添加了Bio::DB::Eutilities對象包,此對象包可以使Perl調用Eutilities所包含的所有功能,可遠程操作NCBI中的序列數據,為生物信息學的發(fā)展帶來了福音。Eutilities包括8個服務端程序:efetch、esearch、einfo、egquery、esummary、elink、espell、epost[13],這 些 服 務 端 程 序 不 僅 可 以 檢 索NCBI數據庫,從中遠程下載序列,還可以向數據庫提交序列,返回序列中所有相關數據庫信息等,并且還可以檢索PubMed數據庫,大家都知道PubMed數據庫中的信息量非常龐大,且具有很高的利用價值,但卻不容易提取出來,Eutilities為它提供了可能性。同時,Perl語言是最強大的文本處理程序語言,有這兩者的結合,相信不久的將來PubMed中的數據也能被廣泛的利用。

      利用BioPerl可以處理大部分序列分析的工作,例如它可以讀取大量的序列格式,F(xiàn)asta、Genbank、EMBL、PIR、GCG等,可以遠程獲取序列數據,不僅免去了格式轉化的麻煩,還解決了手工獲取序列時費時費勁的不便。且Bio::SeqIO對象包不僅能讀取多種格式,包括 Fasta、EMBL、GenBank、PIR、Swissprot、GCG、SCF、phd/phred、Ace、fastq、exp、chado以及raw(plainsequence)等,還可以閱讀一個大文件(其中包含許多序列信息),將其中每條序列信息讀出,對于分析生物數據來說解決了許多費時費力的工作。

      3 結束語

      雖然本文程序解決了遠程自動獲取大量序列的問題,但是由于使用關鍵詞來作為檢索條件,還是屬于模糊查詢范疇,在下載的結果中,或多或少會存在一些不太正確的序列,這并不是關鍵詞的問題,因為關鍵詞只是一類序列的簡單描述,并沒有從深層面去考慮序列的特征,例如我們也許可以從序列的特征表出發(fā),應該可以做到精確查詢。還有一點就是,本文程序查詢的數據庫比較單一,如果以后能將PubMed文獻數據庫加以利用[14],一定能比現(xiàn)在達到更好的效果。

      BioPerl一直以來都是生物信息學家的首選工具,它不僅具有上文所說的序列格式轉化功能、遠程下載功能,并且BioPerl還能識別限制性酶切位點,可分析blast的結果,可操作系統(tǒng)發(fā)育樹等等,大部分在生物中要需要分析的功能,基本上都包含了。再加上Bio::DB::Eutilities對象包,對于BioPerl來說真是如虎添翼,這些在很大程度上,推動了生物信息學這門新興交叉學科的發(fā)展,并為這門學科做出了很卓越的貢獻,是人們在研究這塊領域時,首先選擇的工具。

      References)

      [1] TOM P.Perl語言入門(第六版)[M].盛春譯.江蘇:東南大學出版社,2012:130-179.TOM P.Introduction to the Perl language[M].SHENG Chun.Jiangsu:Southeast university press,2012:130 -179.

      [2] Gary L.Drastic insights[EB/OL].http://www.drastic.org.uk/,2014 -6 -16.

      [3] 邢仲璋,林王源,林毅申.基于bioperl的生物二次數據庫建立及應用[J].計算機系統(tǒng)應用,2004,11(11):58 -60.XING Zhongzhang,LIN Wangyuan,LIN Yishen.Based on the bioperl biological secondary database establishment and the application[J]. The Computer System Application,2004,11(11):58 -60.

      [4] 向福,余龍江,栗茂騰.用 bioperl實現(xiàn)種子植物18srRNA基因序列的大規(guī)模獲?。跩].華中農業(yè)大學學報,2005,24(4):330 -333.XIANG Fu,YU Longjiang,JIA Maoteng.By bioperl implementation of seed plant large-scale access srrna gene sequences of 18[J].Journal of Huazhong Agricultural University,2005,24(4):330 -333.

      [5] 向福,余龍江,陳悟.基于Bioperl的基因序列獲取的程序設計與實現(xiàn)[J].生物技術,2004,14(6):64 -66.XIANG Fu,YU Longjiang,CHEN Wu.Based on the bioperl gene sequence for program design and implementation[J].Biotechnology,2004,14(6):64 -66.

      [6] 白琳.植物抗逆基因資源平臺的構建與分析[D].浙江:浙江大學生命科學學院,2012:7-9.BAI Lin.Plants to genetic resources platform construction and analysis[D].Zhejiang:Zhejiang University College of Life Science,2012:7 -9.

      [7] BioPerl.Installation[EB/OL].http://www.bioperl.org/wiki/Installing_BioPerl,2014 -4 -19.

      [8] 高銀.植物抗逆機制與基因工程研究進展[J].內蒙古農業(yè)科技,2007,6(5):75 -78.GAO Yin.Plants to mechanisms and gene engineering are reviewed[J].Inner Mongolia Agricultural Science and Technology,2007,6(5):75 -78.

      [9] 楊柳,張振乾,宋繼金.植物抗逆基因研究進展[J].作物研究,2010,4(1):126 -129.YANG Liu,ZHANG Zhenqian,SONG Jijin.Plants gene research progress[J].Crop Research,2010,4(1):126 -129.

      [10]李樂,許紅亮,楊興露.大豆 LEA基因家族全基因組鑒定、分類和表達[J].中國農業(yè)科學,2011,5(5):3945-3954.LI Le,XU Hongliang,YANG Xinglu.Soybean LEA gene families genome-wide identification,classification and expression[J].Scientia Agricultural Sinica,2011,5(5):3945-3954.

      [11]白永琴,楊青川.LEA蛋白研究進展[J].生物技術通報,2009,9(9):1 -5.BAI Yongqin,YANG Qingchuan.LEA proteins is reviewed[J].Biological Technical Bulletin,2009,9(9):1 -5.

      [12]夏武青,葛芬,宋霞.基于 NCBI開放編程接口的局域網PubMed檢索平臺設計與實現(xiàn)[J].中華醫(yī)學圖書情報雜志,2012,21(8):66 -69.XIA Wuqing,GE Fen,SONG Xia.Local area network(LAN)based on NCBI open programming interfaces PubMed retrieval platform design and implementation[J].The Chinese Medicine Books Intelligence Magazine,2012,21(8):66 -69.

      [13]許丹,朱斐.從PubMed數據庫中挖掘生物醫(yī)學中的十大熱點話題[J].計算機與現(xiàn)代化,2013,1(1):192 -199.XU Dan,ZHU Fei.In the biomedical PubMed database mining top ten hot topic[J].Computer and Modern,2013,1(1):192 -199.

      [14]PHILIPPE T,JOHANNES S,ALEXANDER V.GeneV-iew[J].Nucleic Acids Research,2012,6(6):585 -591.

      猜你喜歡
      格式文件檢索遠程
      讓人膽寒的“遠程殺手”:彈道導彈
      軍事文摘(2022年20期)2023-01-10 07:18:38
      遠程工作狂綜合征
      英語文摘(2021年11期)2021-12-31 03:25:18
      使用“格式文件”將徠卡儀器數據導出成cass 格式的方法
      2019年第4-6期便捷檢索目錄
      遠程詐騙
      學生天地(2018年19期)2018-09-07 07:06:30
      編寫徠卡TS02型全站儀格式文件的方法探索
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      回歸基礎 到底什么是RAW格式文件?
      基于Office Open XML格式文件的電子取證方法研究
      警察技術(2015年6期)2015-02-27 15:38:18
      國際標準檢索
      蒙山县| 宜都市| 廉江市| 西藏| 岐山县| 内江市| 静乐县| 油尖旺区| 镶黄旗| 依兰县| 明星| 原平市| 淳安县| 浦城县| 清远市| 县级市| 杭锦后旗| 沁源县| 曲周县| 大港区| 阿瓦提县| 保山市| 卓资县| 大兴区| 乌兰县| 皮山县| 新丰县| 江都市| 星座| 崇仁县| 怀来县| 靖边县| 普兰店市| 阿克陶县| 温州市| 两当县| 永嘉县| 怀化市| 苗栗县| 密云县| 墨江|