• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      固有無序蛋白質(zhì)無序區(qū)和有序區(qū)氨基酸組成偏好性分析

      2014-07-11 05:13:17王紅梅等
      江蘇農(nóng)業(yè)科學(xué) 2014年4期
      關(guān)鍵詞:序列分析

      王紅梅等

      摘要:以固有無序蛋白質(zhì)為研究對(duì)象,通過CD-HIT對(duì)數(shù)據(jù)進(jìn)行去冗余處理,然后利用編程軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù)。對(duì)所有無序區(qū)及有序區(qū)的氨基酸含量進(jìn)行對(duì)比,認(rèn)為氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結(jié)構(gòu)的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結(jié)構(gòu)的偏好性。研究結(jié)論有助于進(jìn)一步挖掘固有無序蛋白質(zhì)的序列特征,并為固有無序蛋白質(zhì)的預(yù)測(cè)提供一些借鑒。

      關(guān)鍵詞:固有無序蛋白質(zhì);功能位點(diǎn);無序區(qū);序列分析

      中圖分類號(hào): Q516 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1002-1302(2014)04-0038-02

      收稿日期:2013-08-23

      基金項(xiàng)目:山東省自然科學(xué)基金(編號(hào):ZR2010CQ041)。

      作者簡(jiǎn)介:王紅梅(1974—),女,山東德州人,碩士,副教授,主要從事生物信息學(xué)的研究。E-mail:whm_2327@126.com。蛋白質(zhì)是生物體中最重要的兩類大分子之一,傳統(tǒng)思想認(rèn)為蛋白質(zhì)要實(shí)現(xiàn)其生物功能,必須先折疊成一個(gè)穩(wěn)定的三維結(jié)構(gòu),因此形成了蛋白質(zhì)結(jié)構(gòu)決定其功能的主流觀點(diǎn)[1]。然而隨著基因工程方法和實(shí)驗(yàn)技術(shù)的發(fā)展以及基因組計(jì)劃的開展,在20世紀(jì)90年代初,人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分區(qū)域在生理?xiàng)l件下不具有一個(gè)確定的三維結(jié)構(gòu),但是依然能夠正常行使生物學(xué)功能。進(jìn)一步研究發(fā)現(xiàn)的這類蛋白質(zhì)越來越多,并逐漸形成了一種新的蛋白質(zhì)類型,稱為固有無序蛋白質(zhì)(intrinsically disordered proteins,簡(jiǎn)稱為IDPs)[1-3]。對(duì)目前存在的大量基因庫數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn):蛋白質(zhì)的無序結(jié)構(gòu)與蛋白質(zhì)功能之間關(guān)系密切,無序蛋白質(zhì)在諸如轉(zhuǎn)錄、翻譯、調(diào)控細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)、蛋白質(zhì)磷酸化及小分子存儲(chǔ)等過程中發(fā)揮著重要的作用;另一方面,無序蛋白質(zhì)又經(jīng)常與多種疾病聯(lián)系在一起。與人類癌癥相關(guān)的蛋白質(zhì)中,無序蛋白質(zhì)的含量高達(dá)79%;在心血管疾病有關(guān)的蛋白質(zhì)中,無序蛋白質(zhì)的含量也高達(dá)57%。無序區(qū)是固有無序蛋白質(zhì)發(fā)揮功能的主要區(qū)域,功能位點(diǎn)大多分布在該區(qū)域,因此預(yù)測(cè)蛋白質(zhì)的無序區(qū)成為判斷蛋白質(zhì)是否無序的熱點(diǎn)問題。Romero 等在1997年首次對(duì)蛋白質(zhì)無序區(qū)域進(jìn)行預(yù)測(cè),他們預(yù)測(cè)的準(zhǔn)確性達(dá)到70%,此后無序蛋白質(zhì)的預(yù)測(cè)方法得到了迅速發(fā)展,目前應(yīng)用于無序蛋白質(zhì)序列預(yù)測(cè)的方法已經(jīng)超過50種,并且這些預(yù)測(cè)方法的準(zhǔn)確性普遍達(dá)到85%以上。

      本研究基于序列分析的方法,以DisProt數(shù)據(jù)庫中的固有無序蛋白質(zhì)為研究對(duì)象,通過CD-HIT程序?qū)?shù)據(jù)進(jìn)行去冗余處理,將處理后的數(shù)據(jù)利用編程軟件Matlab 7.0進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù);對(duì)新數(shù)據(jù)進(jìn)行分析,通過編程把序列的無序區(qū)和有序區(qū)分別提取出來,再分析無序區(qū)和有序區(qū)氨基酸組成的偏好性。本研究有助于進(jìn)一步挖掘固有無序蛋白質(zhì)的序列特征,從而為固有無序蛋白質(zhì)的預(yù)測(cè)提供借鑒。

      1數(shù)據(jù)來源及去冗余處理

      1.1數(shù)據(jù)來源

      本研究以固有無序蛋白質(zhì)數(shù)據(jù)庫DisProt(版本6.01)[4](http://www.disprot.org/index.php)為研究對(duì)象(發(fā)布日期為2012年10月15日),下載數(shù)據(jù)庫中最新的固有無序蛋白質(zhì)進(jìn)行研究,共有無序蛋白質(zhì)684個(gè),無序區(qū)1 513個(gè)。

      1.2去冗余處理

      由于蛋白質(zhì)序列數(shù)據(jù)庫中都含有大量的冗余序列,它們通常不能提供更多的信息,而且不利于數(shù)據(jù)的統(tǒng)計(jì)分析,并且由于冗余序列要占用更多的計(jì)算機(jī)存儲(chǔ)和處理資源,因此去除這些冗余信息具有很高的實(shí)用價(jià)值,不但可以減小數(shù)據(jù)庫的大小、提高序列搜索的速度,而且有助于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)對(duì)數(shù)據(jù)進(jìn)行處理,將相似度閾值設(shè)為30%。結(jié)果顯示:去冗余前,固有無序蛋白質(zhì)共有684條序列;去冗余后,蛋白質(zhì)共有549條序列。

      2固有無序蛋白質(zhì)無序區(qū)和有序區(qū)的氨基酸組成偏好性分析

      用Matlab編程對(duì)全部序列(去冗余后)提取無序區(qū)和有序區(qū)。無序區(qū)包括112個(gè)全部無序區(qū)(如DisProtDP00001,108個(gè)氨基酸都是無序的)以及非全部無序蛋白質(zhì)(蛋白質(zhì)中含有無序片段)序列中的各條無序區(qū);無序區(qū)的氨基酸總數(shù)為64 243,約占固有無序蛋白質(zhì)氨基酸總數(shù)的28.67%。因此可以看出:固有無序蛋白質(zhì)中有序區(qū)的氨基酸數(shù)大約是無序區(qū)氨基酸數(shù)的3.5倍。結(jié)果表明,固有無序蛋白質(zhì)的氨基酸在有序區(qū)的含量要大大高于無序區(qū),即固有無序蛋白質(zhì)的大部分組分都是有序部分。

      對(duì)固有無序蛋白質(zhì)中的所有無序區(qū)及有序區(qū)的氨基酸個(gè)數(shù)和含量進(jìn)行對(duì)比,以分析每種氨基酸的偏好性。通過 Matlab 軟件進(jìn)行處理得到了固有無序蛋白質(zhì)中的無序區(qū)和有序區(qū)的所有氨基酸含量及差值,詳見表1。

      3結(jié)論

      本研究以DisProt數(shù)據(jù)庫中的固有無序蛋白質(zhì)為研究對(duì)象,先通過程序CD-HIT對(duì)數(shù)據(jù)進(jìn)行去冗余處理,然后利用編程軟件Matlab7.0對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行分析。結(jié)果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結(jié)構(gòu)的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結(jié)構(gòu)的偏好性。

      無序蛋白質(zhì)具有獨(dú)特的氨基酸組成特點(diǎn),這些獨(dú)特的氨基酸序列決定了其無序的結(jié)構(gòu)。無序蛋白質(zhì)的研究將促進(jìn)人們重新認(rèn)識(shí)蛋白質(zhì)的結(jié)構(gòu)和功能關(guān)系,也將為蛋白質(zhì)的全新設(shè)計(jì)和疾病的治療提供新的思路。相信隨著研究數(shù)據(jù)的增加,對(duì)固有無序蛋白質(zhì)的研究將更深入和全面,從而能夠進(jìn)一步加深對(duì)這類蛋白質(zhì)的認(rèn)識(shí)。

      參考文獻(xiàn):

      [1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.

      [2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.

      [3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18

      [4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.

      [5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.

      [6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.

      [7]黃永棋,劉志榮. 天然無序蛋白質(zhì):序列-結(jié)構(gòu)-功能的新關(guān)系[J]. 物理化學(xué)學(xué)報(bào)2010,26(8):2061-2072.劉思言,高瑋,夏海豐,等.

      摘要:以固有無序蛋白質(zhì)為研究對(duì)象,通過CD-HIT對(duì)數(shù)據(jù)進(jìn)行去冗余處理,然后利用編程軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù)。對(duì)所有無序區(qū)及有序區(qū)的氨基酸含量進(jìn)行對(duì)比,認(rèn)為氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結(jié)構(gòu)的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結(jié)構(gòu)的偏好性。研究結(jié)論有助于進(jìn)一步挖掘固有無序蛋白質(zhì)的序列特征,并為固有無序蛋白質(zhì)的預(yù)測(cè)提供一些借鑒。

      關(guān)鍵詞:固有無序蛋白質(zhì);功能位點(diǎn);無序區(qū);序列分析

      中圖分類號(hào): Q516 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1002-1302(2014)04-0038-02

      收稿日期:2013-08-23

      基金項(xiàng)目:山東省自然科學(xué)基金(編號(hào):ZR2010CQ041)。

      作者簡(jiǎn)介:王紅梅(1974—),女,山東德州人,碩士,副教授,主要從事生物信息學(xué)的研究。E-mail:whm_2327@126.com。蛋白質(zhì)是生物體中最重要的兩類大分子之一,傳統(tǒng)思想認(rèn)為蛋白質(zhì)要實(shí)現(xiàn)其生物功能,必須先折疊成一個(gè)穩(wěn)定的三維結(jié)構(gòu),因此形成了蛋白質(zhì)結(jié)構(gòu)決定其功能的主流觀點(diǎn)[1]。然而隨著基因工程方法和實(shí)驗(yàn)技術(shù)的發(fā)展以及基因組計(jì)劃的開展,在20世紀(jì)90年代初,人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分區(qū)域在生理?xiàng)l件下不具有一個(gè)確定的三維結(jié)構(gòu),但是依然能夠正常行使生物學(xué)功能。進(jìn)一步研究發(fā)現(xiàn)的這類蛋白質(zhì)越來越多,并逐漸形成了一種新的蛋白質(zhì)類型,稱為固有無序蛋白質(zhì)(intrinsically disordered proteins,簡(jiǎn)稱為IDPs)[1-3]。對(duì)目前存在的大量基因庫數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn):蛋白質(zhì)的無序結(jié)構(gòu)與蛋白質(zhì)功能之間關(guān)系密切,無序蛋白質(zhì)在諸如轉(zhuǎn)錄、翻譯、調(diào)控細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)、蛋白質(zhì)磷酸化及小分子存儲(chǔ)等過程中發(fā)揮著重要的作用;另一方面,無序蛋白質(zhì)又經(jīng)常與多種疾病聯(lián)系在一起。與人類癌癥相關(guān)的蛋白質(zhì)中,無序蛋白質(zhì)的含量高達(dá)79%;在心血管疾病有關(guān)的蛋白質(zhì)中,無序蛋白質(zhì)的含量也高達(dá)57%。無序區(qū)是固有無序蛋白質(zhì)發(fā)揮功能的主要區(qū)域,功能位點(diǎn)大多分布在該區(qū)域,因此預(yù)測(cè)蛋白質(zhì)的無序區(qū)成為判斷蛋白質(zhì)是否無序的熱點(diǎn)問題。Romero 等在1997年首次對(duì)蛋白質(zhì)無序區(qū)域進(jìn)行預(yù)測(cè),他們預(yù)測(cè)的準(zhǔn)確性達(dá)到70%,此后無序蛋白質(zhì)的預(yù)測(cè)方法得到了迅速發(fā)展,目前應(yīng)用于無序蛋白質(zhì)序列預(yù)測(cè)的方法已經(jīng)超過50種,并且這些預(yù)測(cè)方法的準(zhǔn)確性普遍達(dá)到85%以上。

      本研究基于序列分析的方法,以DisProt數(shù)據(jù)庫中的固有無序蛋白質(zhì)為研究對(duì)象,通過CD-HIT程序?qū)?shù)據(jù)進(jìn)行去冗余處理,將處理后的數(shù)據(jù)利用編程軟件Matlab 7.0進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù);對(duì)新數(shù)據(jù)進(jìn)行分析,通過編程把序列的無序區(qū)和有序區(qū)分別提取出來,再分析無序區(qū)和有序區(qū)氨基酸組成的偏好性。本研究有助于進(jìn)一步挖掘固有無序蛋白質(zhì)的序列特征,從而為固有無序蛋白質(zhì)的預(yù)測(cè)提供借鑒。

      1數(shù)據(jù)來源及去冗余處理

      1.1數(shù)據(jù)來源

      本研究以固有無序蛋白質(zhì)數(shù)據(jù)庫DisProt(版本6.01)[4](http://www.disprot.org/index.php)為研究對(duì)象(發(fā)布日期為2012年10月15日),下載數(shù)據(jù)庫中最新的固有無序蛋白質(zhì)進(jìn)行研究,共有無序蛋白質(zhì)684個(gè),無序區(qū)1 513個(gè)。

      1.2去冗余處理

      由于蛋白質(zhì)序列數(shù)據(jù)庫中都含有大量的冗余序列,它們通常不能提供更多的信息,而且不利于數(shù)據(jù)的統(tǒng)計(jì)分析,并且由于冗余序列要占用更多的計(jì)算機(jī)存儲(chǔ)和處理資源,因此去除這些冗余信息具有很高的實(shí)用價(jià)值,不但可以減小數(shù)據(jù)庫的大小、提高序列搜索的速度,而且有助于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)對(duì)數(shù)據(jù)進(jìn)行處理,將相似度閾值設(shè)為30%。結(jié)果顯示:去冗余前,固有無序蛋白質(zhì)共有684條序列;去冗余后,蛋白質(zhì)共有549條序列。

      2固有無序蛋白質(zhì)無序區(qū)和有序區(qū)的氨基酸組成偏好性分析

      用Matlab編程對(duì)全部序列(去冗余后)提取無序區(qū)和有序區(qū)。無序區(qū)包括112個(gè)全部無序區(qū)(如DisProtDP00001,108個(gè)氨基酸都是無序的)以及非全部無序蛋白質(zhì)(蛋白質(zhì)中含有無序片段)序列中的各條無序區(qū);無序區(qū)的氨基酸總數(shù)為64 243,約占固有無序蛋白質(zhì)氨基酸總數(shù)的28.67%。因此可以看出:固有無序蛋白質(zhì)中有序區(qū)的氨基酸數(shù)大約是無序區(qū)氨基酸數(shù)的3.5倍。結(jié)果表明,固有無序蛋白質(zhì)的氨基酸在有序區(qū)的含量要大大高于無序區(qū),即固有無序蛋白質(zhì)的大部分組分都是有序部分。

      對(duì)固有無序蛋白質(zhì)中的所有無序區(qū)及有序區(qū)的氨基酸個(gè)數(shù)和含量進(jìn)行對(duì)比,以分析每種氨基酸的偏好性。通過 Matlab 軟件進(jìn)行處理得到了固有無序蛋白質(zhì)中的無序區(qū)和有序區(qū)的所有氨基酸含量及差值,詳見表1。

      3結(jié)論

      本研究以DisProt數(shù)據(jù)庫中的固有無序蛋白質(zhì)為研究對(duì)象,先通過程序CD-HIT對(duì)數(shù)據(jù)進(jìn)行去冗余處理,然后利用編程軟件Matlab7.0對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行分析。結(jié)果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結(jié)構(gòu)的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結(jié)構(gòu)的偏好性。

      無序蛋白質(zhì)具有獨(dú)特的氨基酸組成特點(diǎn),這些獨(dú)特的氨基酸序列決定了其無序的結(jié)構(gòu)。無序蛋白質(zhì)的研究將促進(jìn)人們重新認(rèn)識(shí)蛋白質(zhì)的結(jié)構(gòu)和功能關(guān)系,也將為蛋白質(zhì)的全新設(shè)計(jì)和疾病的治療提供新的思路。相信隨著研究數(shù)據(jù)的增加,對(duì)固有無序蛋白質(zhì)的研究將更深入和全面,從而能夠進(jìn)一步加深對(duì)這類蛋白質(zhì)的認(rèn)識(shí)。

      參考文獻(xiàn):

      [1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.

      [2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.

      [3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18

      [4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.

      [5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.

      [6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.

      [7]黃永棋,劉志榮. 天然無序蛋白質(zhì):序列-結(jié)構(gòu)-功能的新關(guān)系[J]. 物理化學(xué)學(xué)報(bào)2010,26(8):2061-2072.劉思言,高瑋,夏海豐,等.

      摘要:以固有無序蛋白質(zhì)為研究對(duì)象,通過CD-HIT對(duì)數(shù)據(jù)進(jìn)行去冗余處理,然后利用編程軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù)。對(duì)所有無序區(qū)及有序區(qū)的氨基酸含量進(jìn)行對(duì)比,認(rèn)為氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結(jié)構(gòu)的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結(jié)構(gòu)的偏好性。研究結(jié)論有助于進(jìn)一步挖掘固有無序蛋白質(zhì)的序列特征,并為固有無序蛋白質(zhì)的預(yù)測(cè)提供一些借鑒。

      關(guān)鍵詞:固有無序蛋白質(zhì);功能位點(diǎn);無序區(qū);序列分析

      中圖分類號(hào): Q516 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1002-1302(2014)04-0038-02

      收稿日期:2013-08-23

      基金項(xiàng)目:山東省自然科學(xué)基金(編號(hào):ZR2010CQ041)。

      作者簡(jiǎn)介:王紅梅(1974—),女,山東德州人,碩士,副教授,主要從事生物信息學(xué)的研究。E-mail:whm_2327@126.com。蛋白質(zhì)是生物體中最重要的兩類大分子之一,傳統(tǒng)思想認(rèn)為蛋白質(zhì)要實(shí)現(xiàn)其生物功能,必須先折疊成一個(gè)穩(wěn)定的三維結(jié)構(gòu),因此形成了蛋白質(zhì)結(jié)構(gòu)決定其功能的主流觀點(diǎn)[1]。然而隨著基因工程方法和實(shí)驗(yàn)技術(shù)的發(fā)展以及基因組計(jì)劃的開展,在20世紀(jì)90年代初,人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分區(qū)域在生理?xiàng)l件下不具有一個(gè)確定的三維結(jié)構(gòu),但是依然能夠正常行使生物學(xué)功能。進(jìn)一步研究發(fā)現(xiàn)的這類蛋白質(zhì)越來越多,并逐漸形成了一種新的蛋白質(zhì)類型,稱為固有無序蛋白質(zhì)(intrinsically disordered proteins,簡(jiǎn)稱為IDPs)[1-3]。對(duì)目前存在的大量基因庫數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn):蛋白質(zhì)的無序結(jié)構(gòu)與蛋白質(zhì)功能之間關(guān)系密切,無序蛋白質(zhì)在諸如轉(zhuǎn)錄、翻譯、調(diào)控細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)、蛋白質(zhì)磷酸化及小分子存儲(chǔ)等過程中發(fā)揮著重要的作用;另一方面,無序蛋白質(zhì)又經(jīng)常與多種疾病聯(lián)系在一起。與人類癌癥相關(guān)的蛋白質(zhì)中,無序蛋白質(zhì)的含量高達(dá)79%;在心血管疾病有關(guān)的蛋白質(zhì)中,無序蛋白質(zhì)的含量也高達(dá)57%。無序區(qū)是固有無序蛋白質(zhì)發(fā)揮功能的主要區(qū)域,功能位點(diǎn)大多分布在該區(qū)域,因此預(yù)測(cè)蛋白質(zhì)的無序區(qū)成為判斷蛋白質(zhì)是否無序的熱點(diǎn)問題。Romero 等在1997年首次對(duì)蛋白質(zhì)無序區(qū)域進(jìn)行預(yù)測(cè),他們預(yù)測(cè)的準(zhǔn)確性達(dá)到70%,此后無序蛋白質(zhì)的預(yù)測(cè)方法得到了迅速發(fā)展,目前應(yīng)用于無序蛋白質(zhì)序列預(yù)測(cè)的方法已經(jīng)超過50種,并且這些預(yù)測(cè)方法的準(zhǔn)確性普遍達(dá)到85%以上。

      本研究基于序列分析的方法,以DisProt數(shù)據(jù)庫中的固有無序蛋白質(zhì)為研究對(duì)象,通過CD-HIT程序?qū)?shù)據(jù)進(jìn)行去冗余處理,將處理后的數(shù)據(jù)利用編程軟件Matlab 7.0進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù);對(duì)新數(shù)據(jù)進(jìn)行分析,通過編程把序列的無序區(qū)和有序區(qū)分別提取出來,再分析無序區(qū)和有序區(qū)氨基酸組成的偏好性。本研究有助于進(jìn)一步挖掘固有無序蛋白質(zhì)的序列特征,從而為固有無序蛋白質(zhì)的預(yù)測(cè)提供借鑒。

      1數(shù)據(jù)來源及去冗余處理

      1.1數(shù)據(jù)來源

      本研究以固有無序蛋白質(zhì)數(shù)據(jù)庫DisProt(版本6.01)[4](http://www.disprot.org/index.php)為研究對(duì)象(發(fā)布日期為2012年10月15日),下載數(shù)據(jù)庫中最新的固有無序蛋白質(zhì)進(jìn)行研究,共有無序蛋白質(zhì)684個(gè),無序區(qū)1 513個(gè)。

      1.2去冗余處理

      由于蛋白質(zhì)序列數(shù)據(jù)庫中都含有大量的冗余序列,它們通常不能提供更多的信息,而且不利于數(shù)據(jù)的統(tǒng)計(jì)分析,并且由于冗余序列要占用更多的計(jì)算機(jī)存儲(chǔ)和處理資源,因此去除這些冗余信息具有很高的實(shí)用價(jià)值,不但可以減小數(shù)據(jù)庫的大小、提高序列搜索的速度,而且有助于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)對(duì)數(shù)據(jù)進(jìn)行處理,將相似度閾值設(shè)為30%。結(jié)果顯示:去冗余前,固有無序蛋白質(zhì)共有684條序列;去冗余后,蛋白質(zhì)共有549條序列。

      2固有無序蛋白質(zhì)無序區(qū)和有序區(qū)的氨基酸組成偏好性分析

      用Matlab編程對(duì)全部序列(去冗余后)提取無序區(qū)和有序區(qū)。無序區(qū)包括112個(gè)全部無序區(qū)(如DisProtDP00001,108個(gè)氨基酸都是無序的)以及非全部無序蛋白質(zhì)(蛋白質(zhì)中含有無序片段)序列中的各條無序區(qū);無序區(qū)的氨基酸總數(shù)為64 243,約占固有無序蛋白質(zhì)氨基酸總數(shù)的28.67%。因此可以看出:固有無序蛋白質(zhì)中有序區(qū)的氨基酸數(shù)大約是無序區(qū)氨基酸數(shù)的3.5倍。結(jié)果表明,固有無序蛋白質(zhì)的氨基酸在有序區(qū)的含量要大大高于無序區(qū),即固有無序蛋白質(zhì)的大部分組分都是有序部分。

      對(duì)固有無序蛋白質(zhì)中的所有無序區(qū)及有序區(qū)的氨基酸個(gè)數(shù)和含量進(jìn)行對(duì)比,以分析每種氨基酸的偏好性。通過 Matlab 軟件進(jìn)行處理得到了固有無序蛋白質(zhì)中的無序區(qū)和有序區(qū)的所有氨基酸含量及差值,詳見表1。

      3結(jié)論

      本研究以DisProt數(shù)據(jù)庫中的固有無序蛋白質(zhì)為研究對(duì)象,先通過程序CD-HIT對(duì)數(shù)據(jù)進(jìn)行去冗余處理,然后利用編程軟件Matlab7.0對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)而得到新的數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行分析。結(jié)果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結(jié)構(gòu)的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結(jié)構(gòu)的偏好性。

      無序蛋白質(zhì)具有獨(dú)特的氨基酸組成特點(diǎn),這些獨(dú)特的氨基酸序列決定了其無序的結(jié)構(gòu)。無序蛋白質(zhì)的研究將促進(jìn)人們重新認(rèn)識(shí)蛋白質(zhì)的結(jié)構(gòu)和功能關(guān)系,也將為蛋白質(zhì)的全新設(shè)計(jì)和疾病的治療提供新的思路。相信隨著研究數(shù)據(jù)的增加,對(duì)固有無序蛋白質(zhì)的研究將更深入和全面,從而能夠進(jìn)一步加深對(duì)這類蛋白質(zhì)的認(rèn)識(shí)。

      參考文獻(xiàn):

      [1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.

      [2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.

      [3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18

      [4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.

      [5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.

      [6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.

      [7]黃永棋,劉志榮. 天然無序蛋白質(zhì):序列-結(jié)構(gòu)-功能的新關(guān)系[J]. 物理化學(xué)學(xué)報(bào)2010,26(8):2061-2072.劉思言,高瑋,夏海豐,等.

      猜你喜歡
      序列分析
      石榴果皮DHQ/SDH基因的克隆及序列分析
      三個(gè)小麥防御素基因的克隆及序列分析
      山葡萄DFR基因全長(zhǎng)cDNA的克隆與序列分析
      麻風(fēng)樹油質(zhì)蛋白JcOle16.6基因克隆及序列分析
      人參CYP716A53v2基因的克隆與序列分析
      木薯MeCWINV4啟動(dòng)子的克隆及其活性分析
      黃粉甲翅芽生長(zhǎng)因子基因的克隆及表達(dá)分析
      纖維素酶系基因的克隆與序列分析
      阿勒泰羊脂肪酸合成酶及脂蛋白酯酶基因的序列分析
      柴達(dá)木盆地梭梭耐鹽相關(guān)基因PrxQ的克隆及其蛋白結(jié)構(gòu)預(yù)測(cè)
      米泉市| 格尔木市| 台北县| 德阳市| 连云港市| 通州区| 安图县| 河曲县| 上蔡县| 綦江县| 平南县| 舞钢市| 大名县| 淮阳县| 浦江县| 阿克陶县| 武定县| 洪雅县| 吉水县| 屏东县| 呼图壁县| 韶关市| 抚州市| 通江县| 翁牛特旗| 武宁县| 中牟县| 卢湾区| 永吉县| 黎川县| 枣庄市| 亳州市| 胶州市| 渭源县| 永善县| 上思县| 轮台县| 喜德县| 衡阳市| 廊坊市| 腾冲县|