• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用爬蟲構(gòu)建生物細(xì)胞器基因組數(shù)據(jù)庫

    2019-06-11 09:54:12陳琦吉嘉銘徐逸卿
    電子技術(shù)與軟件工程 2019年7期
    關(guān)鍵詞:細(xì)胞器鍵值字段

    文/陳琦 吉嘉銘 徐逸卿

    本研究以物種細(xì)胞器基因組數(shù)據(jù)為對象做分析,在不損壞原始數(shù)據(jù)的情況下大批量整合,提供一種完善且高效的基因數(shù)據(jù)獲取、分析方式。細(xì)胞器指細(xì)胞內(nèi)具有特定功能的子單元。在真核細(xì)胞中有著不同種類的細(xì)胞器,而原核生物本身不具有細(xì)胞器,但有些則含有基于蛋白質(zhì)的細(xì)菌微室,被認(rèn)為是原始的細(xì)胞器。

    葡萄Vitis vinifera是最古老的果樹種之一,與多個(gè)物種存在遺傳進(jìn)化關(guān)系,對葡萄的基因分析有助于了解其進(jìn)化發(fā)育和其他相近物種遺傳特征。國內(nèi)外學(xué)者使用線粒體DNA和葉綠體DNA的分子生物學(xué)分析獲取細(xì)胞器基因組的特征,對細(xì)胞器基因組的分析是理解其遺傳進(jìn)化的重要途徑。線粒體基因組具有高拷貝數(shù)、高替代率、母系遺傳等特點(diǎn),線粒體DNA被廣泛用作許多領(lǐng)域的工具。葉綠體基因組編碼蛋白質(zhì)對光合作用功能非常重要,人們在研究其基因序列的時(shí)候發(fā)現(xiàn)它在物種的進(jìn)化、遺傳、系統(tǒng)發(fā)育關(guān)系等方面具有重要的作用。

    基因組數(shù)據(jù)庫為基因研究提供所需的物種種屬、細(xì)胞器類別、基因序列等重要數(shù)據(jù)。隨著生產(chǎn)完整基因組序列的效率提高,難以使用原始文獻(xiàn)進(jìn)行廣泛比較?,F(xiàn)有的物種數(shù)據(jù)庫沒有標(biāo)準(zhǔn)化且存在錯(cuò)誤數(shù)據(jù)導(dǎo)致沒有能夠承擔(dān)該任務(wù)的工具,通常還缺乏充分利用這些數(shù)據(jù)的描述符。曾被許多生物學(xué)家所使用的GOBASE數(shù)據(jù)庫,組織并整合了與細(xì)胞器相關(guān)的分子序列、RNA二級結(jié)構(gòu)和遺傳圖譜,以及所有真核物種的分類信息,該數(shù)據(jù)庫于2010年8月停止維護(hù)更新。行業(yè)中缺少一個(gè)專用于細(xì)胞器基因組的數(shù)據(jù)庫,也缺乏對基于細(xì)胞器基因組相關(guān)研究的后續(xù)支持。

    1 材料與方法

    1.1 數(shù)據(jù)庫與數(shù)據(jù)格式

    選用NCBI的Genome庫獲取物種的細(xì)胞器基因組數(shù)據(jù),相應(yīng)的數(shù)據(jù)文件以GenBank的格式被提供下載和訪問。NCBI自1992年以來一直負(fù)責(zé)提供GenBank DNA序列數(shù)據(jù)庫,并與個(gè)別實(shí)驗(yàn)室和其他序列數(shù)據(jù)庫進(jìn)行協(xié)調(diào),為每種生物體分配了唯一的標(biāo)識符以供識別。同時(shí)提供了一個(gè)序列相似性搜索程序用于在生物體中找到與查詢序列相似的序列,可在15秒內(nèi)在數(shù)據(jù)庫內(nèi)完成序列比較[8]。GenBank序列數(shù)據(jù)庫收集了所有公開可用的核苷酸序列、蛋白質(zhì)序列和基因圖譜等信息。GenBank數(shù)據(jù)庫包含序列文件,索引文件等,對其所含的數(shù)據(jù)和基因序列進(jìn)行分析、拆離和存儲是本研究的重點(diǎn)。

    1.2 信息抓取流程

    使用相關(guān)數(shù)據(jù)接口和爬蟲處理來自NCBI中細(xì)胞器基因組數(shù)據(jù),對核苷酸序列和蛋白序列等序列進(jìn)行特征識別和提取,最終構(gòu)建物種的細(xì)胞器基因組數(shù)據(jù)庫,為做進(jìn)一步的生物學(xué)相關(guān)研究提供了數(shù)據(jù)支持。細(xì)胞器基因組是NCBI參考序列項(xiàng)目的一部分,該項(xiàng)目為本研究提供了源數(shù)據(jù)。本研究的數(shù)據(jù)處理以葡萄的葉綠體基因組(NC_007957.1)和線粒體基因組(NC_012119.1)為例作為分析對象。每個(gè)物種的細(xì)胞器基因組都被分配了一個(gè)唯一可識別的索引編號。根據(jù)已獲得的編號序列,以統(tǒng)一資源定位符的格式獲取資源拼接出完整可訪問的資源路徑(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“編號序列”&rettype=gb&retmode=text)。

    設(shè)計(jì)爬蟲訪問拼接后的路徑地址,通過索引編號的檢索逐個(gè)獲取。再以同樣的方式下載線粒體基因組數(shù)據(jù)。分析文本特征之后將其中功能不同的數(shù)據(jù)和序列提取出來分別存儲,該特征模式適用于幾乎所有物種。以葡萄為例如下圖1所示,圖中左側(cè)字段的層級關(guān)系,將被程序分離處理轉(zhuǎn)換為數(shù)據(jù)庫中對應(yīng)的鍵間關(guān)系。文件轉(zhuǎn)化為數(shù)組對象,利用不同區(qū)域的特征確定該字段所在層級。在此基礎(chǔ)上建立文本分析模型。使用程序?qū)⒄麄€(gè)文本劃分為層次分明的數(shù)個(gè)字符串,提取字段為鍵,緊跟在后的字符串為值填充數(shù)據(jù)庫。枚舉空白字符數(shù)為0的鍵值,獲得一級目錄的最大深度。使用正則式匹配無縮進(jìn)字符串,結(jié)果如圖1中紅框所示。以此類推,以縮進(jìn)層次為特征分別枚舉出第二層級(圖1中藍(lán)框)和第三層級(圖1中綠框)的關(guān)鍵字和對應(yīng)信息。第四層級到達(dá)了堿基序列和蛋白質(zhì)序列的層次,單獨(dú)使用不同的算法對其進(jìn)行處理,“/”后的字段是第四層的鍵值,遍歷所有文件,獲得第四級目錄字段出現(xiàn)的深度。從中再次提取出關(guān)鍵字如source下的/organism、/organelle、/mol_type等鍵值。

    分塊取值并填充到鍵值樹,將結(jié)果插入數(shù)據(jù)庫。按照生成的鍵值樹結(jié)構(gòu)建立數(shù)據(jù)庫,并根據(jù)字段和屬性自動(dòng)生成數(shù)據(jù)表,編寫程序?qū)⒏鲗蛹壍逆I值插入到數(shù)據(jù)表中。一至三級存放文件索引字段及相對應(yīng)的信息,第四級存放如核苷酸序列、蛋白質(zhì)序列的長文本。分離層次后在數(shù)據(jù)庫中建立相對應(yīng)的數(shù)據(jù)表。便于相關(guān)研究對不同序列的要求,對數(shù)據(jù)庫中的數(shù)據(jù)信息進(jìn)行了分類和導(dǎo)出。分別生成相應(yīng)的文本文件和基因示意圖,以文件樹的結(jié)構(gòu)存放在服務(wù)器中供研究人員下載調(diào)取。整體目錄結(jié)構(gòu)、文件信息、序列數(shù)據(jù)等將被自動(dòng)化腳本定期更新后上傳至服務(wù)器供訪問。將分析結(jié)果用算法實(shí)現(xiàn)并與下載用的爬蟲程序整合,將流程自動(dòng)化,使其能夠自動(dòng)訪問NCBI下載并更新細(xì)胞器基因組的數(shù)據(jù),按照特征分析、分類,生成對應(yīng)的數(shù)據(jù)表及相應(yīng)的字段,寫入數(shù)據(jù)庫。為相關(guān)基于細(xì)胞器基因組的研究,例如構(gòu)建系統(tǒng)發(fā)育樹、基因共線性分析等提供了數(shù)據(jù)條件。

    2 結(jié)果與分析

    功能完備且便于使用的細(xì)胞器基因組數(shù)據(jù)庫的出現(xiàn)為相關(guān)生物學(xué)研究提供了極大的助力。至2019年初,本研究建立的數(shù)據(jù)庫共收錄相關(guān)細(xì)胞器基因組數(shù)據(jù)共12130組,其中線粒體基因組9185個(gè),葉綠體基因組2374個(gè),質(zhì)體571個(gè)。如圖2自1990年以來各細(xì)胞器基因組通過測序收錄的數(shù)量,線粒體基因組的測序數(shù)量自2000年后數(shù)量大幅增長,自2005年至今新增加的通過測序的線粒體基因組數(shù)量已翻了十倍。葉綠體基因組和質(zhì)體基因組自2005年起每年新增測序數(shù)量也有明顯增長。由于葉綠體僅出現(xiàn)在大部分高等植物細(xì)胞和藻類中、質(zhì)體僅出現(xiàn)在植物細(xì)胞中,能獲取到葉綠體或質(zhì)體樣本的物種有限,導(dǎo)致了葉綠體基因組和質(zhì)體基因組測序數(shù)量增長速度受到了限制。

    基因測序技術(shù)的發(fā)展是使測序數(shù)量大幅增長的原因之一。其中線粒體基因組的增長趨勢尤為突出,這是由線粒體的本身生物特性導(dǎo)致的。線粒體在生物體中分布廣泛,可輕松獲取大量樣本。動(dòng)物線粒體DNA比核遺傳標(biāo)記發(fā)展更快,同時(shí)也是系統(tǒng)發(fā)育和進(jìn)化生物學(xué)的支柱。本研究結(jié)合了來自NCBI的細(xì)胞器基因組數(shù)據(jù)及相關(guān)計(jì)算機(jī)算法,設(shè)計(jì)構(gòu)建了一個(gè)更易于研究使用的專業(yè)細(xì)胞器基因組數(shù)據(jù)庫,分析了不同細(xì)胞器基因組測序研究的組成與發(fā)展趨勢,為相關(guān)生物學(xué)研究提供了數(shù)據(jù)依據(jù),為更好地發(fā)展如構(gòu)建系統(tǒng)發(fā)育樹等研究項(xiàng)目打下了基礎(chǔ)。

    圖1:基因文件四層級分級示意圖

    圖2:不同年份細(xì)胞器基因組的總測序數(shù)量

    猜你喜歡
    細(xì)胞器鍵值字段
    圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
    我國科學(xué)家繪制“生命暗物質(zhì)”圖譜
    非請勿進(jìn) 為注冊表的重要鍵值上把“鎖”
    細(xì)胞器
    植物細(xì)胞器DNA的新功能
    ——可作為磷酸鹽庫再利用!
    蔬菜(2018年12期)2018-01-16 05:27:32
    一鍵直達(dá) Windows 10注冊表編輯高招
    電腦愛好者(2017年9期)2017-06-01 21:38:08
    CNMARC304字段和314字段責(zé)任附注方式解析
    無正題名文獻(xiàn)著錄方法評述
    關(guān)于CNMARC的3--字段改革的必要性與可行性研究
    注冊表值被刪除導(dǎo)致文件夾選項(xiàng)成空白
    睢宁县| 大丰市| 炉霍县| 武隆县| 汉中市| 罗甸县| 诸暨市| 登封市| 金川县| 商河县| 门头沟区| 东乡| 耿马| 云龙县| 和田市| 罗甸县| 镶黄旗| 内江市| 奈曼旗| 马边| 徐州市| 吉林省| 康保县| 伊金霍洛旗| 衡水市| 大理市| 平舆县| 通渭县| 高安市| 嫩江县| 兰溪市| 临江市| 红安县| 石屏县| 德庆县| 邯郸县| 霸州市| 靖宇县| 博罗县| 宣恩县| 卓尼县|