• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多維液相色譜質(zhì)譜組合分析的痢疾桿菌蛋白質(zhì)基因組學(xué)

      2016-02-09 00:29:46趙麗娜李巍偉賀寶玲
      關(guān)鍵詞:痢疾桿菌液相質(zhì)譜

      趙麗娜,李巍偉,賀寶玲,胡 芬,王 洋,余 源,高 爽

      基于多維液相色譜質(zhì)譜組合分析的痢疾桿菌蛋白質(zhì)基因組學(xué)

      趙麗娜,李巍偉,賀寶玲,胡 芬,王 洋,余 源,高 爽

      目的 應(yīng)用多維液相色譜質(zhì)譜組合體系為基礎(chǔ)的蛋白質(zhì)組學(xué)方法對(duì)福氏痢疾桿菌基因組注釋進(jìn)行完善。方法痢疾桿菌福氏2a型301株(Sf2a301)的全菌蛋白經(jīng)胰酶消化,二維液相色譜分離后進(jìn)行MALDI-TOF/TOF和ESI-MS/MS組合鑒定,質(zhì)譜數(shù)據(jù)分別應(yīng)用MASCOT和SEQUEST軟件檢索基于Sf2a301全基因組構(gòu)建的6個(gè)讀碼框數(shù)據(jù)庫(kù),完成對(duì)原基因組注釋的驗(yàn)證和補(bǔ)充。結(jié)果研究表明多維液相色譜質(zhì)譜組合體系能夠增加鑒定蛋白的覆蓋率,共鑒定Sf2a301的1 231個(gè)蛋白編碼基因產(chǎn)物,涵蓋了COGs 數(shù)據(jù)庫(kù)22個(gè)功能分類組中的20個(gè),包含306個(gè)功能未知的假定蛋白。發(fā)現(xiàn)了9個(gè)未注釋的基因,得到RT-PCR和Northern blot的進(jìn)一步驗(yàn)證。新基因大多數(shù)是重疊基因,包含3個(gè)嵌套基因。結(jié)論多維液相色譜質(zhì)譜組合體系相對(duì)于單一的串聯(lián)質(zhì)譜技術(shù)能夠更加有效驗(yàn)證、補(bǔ)充痢疾桿菌的基因組注釋,更新后的基因組注釋庫(kù)為今后開展痢疾桿菌功能研究提供更多的靶點(diǎn)。

      福氏痢疾桿菌;基質(zhì)輔助激光解吸電離;電噴霧電離;蛋白質(zhì)基因組學(xué);基因組注釋

      Supported by the National Natural Science Foundation of China (No. 81302323), the Science and Technology Research Project of the higher Education Institutions in Hebei Province (No. QN20131059), the Training Foundation of North

      China University of Science and Technology (No. GP201518) and the PhD Research Startup Foundation of North China University of Science and Technology

      痢疾桿菌(Shigella)是一種引起人類和靈長(zhǎng)類動(dòng)物細(xì)菌性痢疾的革蘭氏陰性桿菌。細(xì)菌性痢疾是世界上尤其是發(fā)展中國(guó)家高發(fā)的急性腸道傳染病,每年有超過(guò)100萬(wàn)人死亡。福氏痢疾桿菌(S.flexneri)是發(fā)展中國(guó)家引起菌痢的主要菌種,在我國(guó)福氏痢疾桿菌引起的感染占60%[1]。我國(guó)于2001年首先完成了福氏痢疾桿菌優(yōu)勢(shì)血清型2a代表株301(S.flexneri2a str.301,Sf2a301) 的全基因組測(cè)序和注釋工作,應(yīng)用計(jì)算機(jī)軟件預(yù)測(cè)Sf2a301全基因組包含4 443個(gè)開放閱讀框(open reading frames, ORFs)[2]。

      目前認(rèn)為計(jì)算機(jī)概率算法預(yù)測(cè)基因由于其內(nèi)在局限性會(huì)引起一定的錯(cuò)誤率,迫切需要實(shí)驗(yàn)室方法進(jìn)行驗(yàn)證。近些年興起的應(yīng)用蛋白質(zhì)數(shù)據(jù)注釋基因組的蛋白質(zhì)基因組學(xué)(proteogenomics)是通過(guò)質(zhì)譜鑒定的肽為來(lái)源于蛋白編碼基因產(chǎn)物的存在提供了最直接證據(jù),與其它基因組注釋手段相比有著不可替代的作用。蛋白質(zhì)基因組學(xué)已經(jīng)被應(yīng)用于許多經(jīng)過(guò)測(cè)序的原核生物的重新注釋中[3-5],然而目前最大的問(wèn)題是相對(duì)較低的蛋白鑒定率直接影響了基因組注釋的覆蓋度和準(zhǔn)確度,因此發(fā)展快速、高通量的蛋白質(zhì)基因組學(xué)技術(shù)方法仍是一項(xiàng)富有挑戰(zhàn)性的工作。

      基質(zhì)輔助激光解吸附電離 (matrix-assisted laser desorption ionization,MALDI)和電噴霧電離(electrospray ionization,ESI)是兩種不同的離子化方式,以往的研究表明兩種質(zhì)譜聯(lián)用可以提高鑒定蛋白的覆蓋率[6],但至今未見(jiàn)這種方法在基因組注釋中的應(yīng)用。本研究以痢疾桿菌Sf2a301為研究對(duì)象,酶解的全菌蛋白經(jīng)二維液相色譜(two-dimensional liquid chromatography,2D LC)分離后進(jìn)行基質(zhì)輔助激光解吸附電離飛行時(shí)間串聯(lián)質(zhì)譜(MALDI-time of flight tandem mass spectrometry,MALDI-TOF/TOF)和電噴霧串聯(lián)質(zhì)譜(ESI-tandem mass spectrometry,ESI-MS/MS)的多維液相色譜質(zhì)譜組合體系分析,以期從驗(yàn)證已注釋基因、發(fā)現(xiàn)新基因等方面對(duì)痢疾桿菌基因組注釋進(jìn)行全面和精確的驗(yàn)證和補(bǔ)充。

      1 材料與方法

      1.1 材料

      1.1.1 菌株Sf2a301菌株由中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所惠贈(zèng)。

      1.1.2 主要試劑與儀器 色譜級(jí)乙腈(ACN)、三氟乙酸(TFA)等生化試劑購(gòu)自Sigma公司;測(cè)序級(jí)胰蛋白酶等酶試劑購(gòu)自Roche公司;反轉(zhuǎn)錄試劑盒等購(gòu)于Promega 公司。Ultimate 3 000高壓液相色譜購(gòu)自Dionex公司;Ultraflex Ⅲ型MALDI-TOF/TOF質(zhì)譜儀購(gòu)自Bruker公司;LCQ Deca XP plus阱質(zhì)譜儀購(gòu)自Thermo公司;PTC-100 PCR儀購(gòu)自Bio-Rad公司。

      1.2 蛋白樣品制備 從含0.01%剛果紅的TSB培養(yǎng)基平板上挑取Sf2a301的單菌落接入5 mL不含抗生素的TSB培養(yǎng)基中,200 r/min,37 ℃培養(yǎng)過(guò)夜。過(guò)夜培養(yǎng)菌液以1∶100稀釋到無(wú)抗性TSB培養(yǎng)基中,37 ℃,200 r/min振蕩培養(yǎng),選擇細(xì)菌生長(zhǎng)旺盛的對(duì)數(shù)生長(zhǎng)周期收集菌體。全菌蛋白樣品制備操作步驟參見(jiàn)文獻(xiàn)[7],提取的蛋白通過(guò)BCA法測(cè)定濃度。

      1.3 還原烷基化和溶液內(nèi)酶切 具體操作步驟參見(jiàn)文獻(xiàn)[8]。部分酶切樣品溶于100 μL甲酸(FA)進(jìn)行ESI鑒定,其余樣品溶于100 μL 0.1% TFA后續(xù)進(jìn)行MALDI鑒定。14 000 r/min, 4 ℃離心10 min, 取上清進(jìn)行質(zhì)譜分析。

      1.4 二維液相色譜分離質(zhì)譜鑒定

      1.4.1 2D LC-MALDI-TOF/TOF分離鑒定 取上述20 μL酶解肽段混合物(0.1% TFA)通過(guò)Ultimate 3 000高效液相色譜進(jìn)行分離,分11個(gè)NaCl濃度梯度對(duì)第一維強(qiáng)陽(yáng)離子柱(SCX)進(jìn)行洗脫,分別為0.5 mmol/L,1 mmol/L,2 mmol/L,3 mmol/L, 5 mmol/L,10 mmol/L,25 mmol/L,50 mmol/L,100 mmol/L,200 mmol/L,500 mmol/L。洗脫下的樣品在二維毛細(xì)管反相柱中以同樣的梯度進(jìn)行洗脫,流速為2 μL/min,流動(dòng)相是A液(100% H2O+0.05% TFA)、B液(80% ACN+0.04% TFA)。洗脫條件參見(jiàn)文獻(xiàn)[7]:分離的液相餾分點(diǎn)樣在自動(dòng)點(diǎn)靶儀的PAC靶上,PAC靶放入MALDI-TOF/TOF質(zhì)譜儀進(jìn)行分析。質(zhì)譜加速電壓是20 kv,串聯(lián)質(zhì)譜加速電壓是9 kv,質(zhì)量掃描范圍為 m/z 700-4 000 Da。

      1.4.2 2D LC-ESI-MS/MS分離鑒定 上述的20 μL解肽片段混合物(5% FA)通過(guò)ESI離子肼質(zhì)譜(LCQ Deca XP plus)進(jìn)行分析。分15個(gè)NH4Cl濃度梯度對(duì)第一維SCX進(jìn)行洗脫,洗脫下的樣品通過(guò)二維反相柱的流速為200 μL/min, 流動(dòng)相是A液(100% H2O+0.15% FA)和B液(100% ACN+0.15% FA)。參見(jiàn)文獻(xiàn)[8]從反相柱上洗脫下來(lái)的肽段以流速為200 nL/min經(jīng)電噴霧進(jìn)入質(zhì)譜檢測(cè), 條件為噴霧電壓為1.8 kV,一級(jí)質(zhì)譜的質(zhì)量掃描范圍m/z 400-1 500 Da, 選取離子強(qiáng)度最強(qiáng)的3個(gè)離子進(jìn)行二級(jí)質(zhì)譜掃。

      1.5 質(zhì)譜數(shù)據(jù)分析 MALDI和ESI質(zhì)譜數(shù)據(jù)分別通過(guò)MASCOT 2.0搜索引擎和SEQUEST 3.3軟件檢索Sf2a301的6個(gè)讀碼框數(shù)據(jù)庫(kù)。MASCOT的檢索條件:允許一個(gè)酶切位點(diǎn)遺漏,動(dòng)態(tài)修飾為甲硫氨酸氧化,肽段質(zhì)量誤差±0.3 Da,二級(jí)質(zhì)量誤差±0.5 Da,大于95% 置信水平的蛋白鑒定結(jié)果有統(tǒng)計(jì)學(xué)意義。在控制假陽(yáng)性率<1%條件下,SEQUEST篩選條件:ΔCn≥0.1,+1價(jià)肽,Xcorr≥1.9,+2價(jià)肽,Xcorr≥2.2,+3價(jià),肽Xcorr≥3.75。

      1.6 構(gòu)建Sf2a301的6個(gè)讀碼框數(shù)據(jù)庫(kù) NCBI中下載Sf2a301完整的FASTA格式的全基因組序列,其染色體及大質(zhì)粒pCP301的核苷酸序列GenBank登記號(hào)分別為AE005674和AF386526。利用Perl程序?qū)f2a301全基因組序列按照“六位移碼翻譯”策略,根據(jù)所有可能的ORFs翻譯成相應(yīng)的氨基酸序列(保留氨基酸序列大于15的ORFs)。

      1.7 細(xì)菌總RNA提取及RT-PCR 按照Promega 公司總RNA提取試劑盒說(shuō)明提取Sf2a301的RNA,測(cè)定提取的總RNA的濃度和純度。根據(jù)Primer Premier 5.0軟件設(shè)計(jì)要驗(yàn)證新基因的引物序列(表1)。RT-PCR擴(kuò)增體系參照Promega公司反轉(zhuǎn)錄試劑盒說(shuō)明書。反應(yīng)條件:95 ℃變性5 min,94 ℃變性1 min;退火53 ℃, 45 s,72 ℃延伸1 min,30個(gè)循環(huán),72 ℃延伸8 min。PCR產(chǎn)物純化后直接測(cè)序,如果是小于100 bp短序列采用PCR產(chǎn)物T載體克隆后測(cè)序。

      1.8 Northern blot 針對(duì)嵌套基因設(shè)計(jì)的探針序列(表1)。按上述方法提取細(xì)菌總RNA,RNA樣品中加入1倍體積的2×Loading Buffer中,95 ℃水浴 5 min變性,冰浴1 min。30 μg總RNA樣品在6%聚丙烯酰胺凝膠變性膠中進(jìn)行電泳分離,轉(zhuǎn)膜,將膜置于UV交聯(lián)儀中自動(dòng)交聯(lián), 80 ℃下干烤2 h,加入6~10 mL ULRAhyb到雜交管中,42 ℃預(yù)雜交1~4 h。標(biāo)記探針,將變性的探針加入到預(yù)雜交液中,37 ℃雜交過(guò)夜, 低嚴(yán)緊性洗膜,再高嚴(yán)緊性洗膜,壓片顯影。

      2 結(jié) 果

      2.1Sf2a301的6個(gè)讀碼框數(shù)據(jù)庫(kù)Sf2a301全基因組序列按照“六位移碼翻譯”策略翻譯的6個(gè)讀碼框數(shù)據(jù)庫(kù)包含90 330個(gè)條目的氨基酸序列(每個(gè)序列均大于15個(gè)氨基酸)。

      2.2 蛋白編碼基因的表達(dá)驗(yàn)證及功能分析 37 ℃條件下于對(duì)數(shù)生長(zhǎng)期(OD600≈1.0)收集Sf2a301菌體。MALDI和ESI串聯(lián)質(zhì)譜數(shù)據(jù)分別通過(guò)MASCOT和SEQUEST軟件搜索Sf2a301的6個(gè)讀碼框數(shù)據(jù)庫(kù),圖1顯示兩種不同質(zhì)譜方法鑒定得到的肽和蛋白數(shù)目。MALDI鑒定到2 677個(gè)肽,ESI鑒定到1 958個(gè)肽,總共鑒定結(jié)果為3 794個(gè)肽(圖1A);MALDI鑒定出960個(gè)ORFs,ESI鑒定729個(gè),最終鑒定得到1 231個(gè)ORFs的編碼產(chǎn)物(圖1B)。檢索結(jié)果再與NCBI中Sf2a301的蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行比對(duì),共驗(yàn)證了Sf2a301的1 222個(gè)已注釋蛋白。MALDI鑒定的蛋白匹配肽的個(gè)數(shù)為2.8,ESI是2.7,組合鑒定后單個(gè)蛋白匹配的肽段數(shù)增加至3.1;MALDI和ESI蛋白鑒定的平均氨基酸序列覆蓋率分別為14.3%和13.9%,組合鑒定后升高為16.0%。

      表1 RT-PCR引物和Northern Blot探針

      Tab.1 Primers and probes used in RT-PCR and Northern Blot

      GenetagLength(bp)Sequenceofprimerandprobe(5′-3′)BIO01608118F:TGAACCCAATATCTTTCCTTAGCR:AACGACCAACTCCAGAGCACABIO2349654F:ATGCGGCCCAATTTACTGCTR:TCAGTTTATCGAACAAACCCATBIO0723578F:ATGTTCGGGTCGCAGCATCGR:TTATTGTTCCTTCCTACGCAACBIO43803140F:GCCGCGCTTGTTGAAAACR:CGCACAATCGCGAGCAACBIO50043444F:GGGCATATTCGCTTCCACGR:GGCTACTTCGGTCGCCTCTTBIO00681189F:TGCCATTCTATTTCAGGAAGGR:TCAGCGCAGCACCTCCTGipaD588F:CCTTACTATGCTCAACGACACCR:TGAGATACCTTGCCGATTGTTCnegativecontrol-F:ACCGAGGAATGAATAAAGAAR:TACGAAAACCAGTATTAACCACBIO42245150CGATTTTCGGTCTGACTCGTGGGGT?GAACGCTAABIO32212126TTTCTCAATGTGATTACTTCCGTACCGC?CCACCACBIO6007263GCCTTTTCTGCACAATCATTGGCTGAATC5srRNA118GCCTGGCAGTTCCCTACTCTCGCATGG

      A: Distribution comparision of peptides identified by MALDI and ESI; B:Distribution comparision of proteins identified by MALDI and ESI.圖1 不同質(zhì)譜方法識(shí)別的肽和蛋白的數(shù)目Fig.1 Identification of peptides and proteins by different mass spectrometry methods

      根據(jù)蛋白質(zhì)直系同源簇(clusters of orthologous groups of proteins,COGs)數(shù)據(jù)庫(kù)對(duì)Sf2a301的已鑒定蛋白進(jìn)行功能分類,結(jié)果顯示(圖2)所鑒定的蛋白涵蓋了Sf2a301的COGs 數(shù)據(jù)庫(kù)中22個(gè)功能分類組中的20個(gè),即鑒定蛋白幾乎參與了痢疾桿菌的所有生物學(xué)過(guò)程。其中包含306個(gè)功能未知的假定(hypothetical)蛋白(S組)。

      圖2 鑒定蛋白的功能分類Fig.2 Function classification of protein identified

      2.3 新蛋白編碼基因的鑒定及功能分析 將串聯(lián)質(zhì)譜獲得的肽段檢索Sf2a301的6個(gè)讀碼框數(shù)據(jù)庫(kù),所得鑒定產(chǎn)物若在現(xiàn)有注釋庫(kù)中無(wú)同源物,則作為候選的新基因。本研究綜合MALDI和ESI鑒定結(jié)果共發(fā)現(xiàn)9個(gè)未注釋的新基因,新基因基本特征見(jiàn)表2。應(yīng)用BLASTP對(duì)未注釋基因進(jìn)行其它血清型痢疾桿菌或大腸桿菌的同源蛋白比對(duì),結(jié)果顯示在其它腸道菌中能夠找到同源蛋白的有4個(gè)基因,找不到任何同源蛋白的有5個(gè)基因。新基因具有兩個(gè)突出特征:一是序列短,基因編碼產(chǎn)物平均由128個(gè)氨基酸組成,其中有5個(gè)ORFs的蛋白編碼產(chǎn)物少于50個(gè)氨基酸;二是基因重疊,除了BIO01608和 BIO00681,大多數(shù)新基因與已注釋的蛋白編碼基因有重疊現(xiàn)象。

      對(duì)于那些與已注釋基因無(wú)重疊或部分重疊的新基因,應(yīng)用RT-PCR驗(yàn)證其轉(zhuǎn)錄產(chǎn)物的存在。RT-PCR擴(kuò)增結(jié)果(圖3)所示,6個(gè)基因BIO23496、BIO07235、BIO01608、BIO43803、BIO00681和 BIO50043擴(kuò)增結(jié)果均為陽(yáng)性,與PCR產(chǎn)物預(yù)期大小一致。并對(duì)相應(yīng)的PCR產(chǎn)物進(jìn)行測(cè)序,測(cè)序結(jié)果與NCBI上預(yù)測(cè)的核苷酸序列一致。

      對(duì)于編碼序列完全包含在對(duì)側(cè)已知更長(zhǎng)基因編碼序列范圍內(nèi)(nested C)的嵌套基因,應(yīng)用Northern blot驗(yàn)證其轉(zhuǎn)錄產(chǎn)物的存在。結(jié)果顯示(圖4),除陽(yáng)性對(duì)照5S rRNA 外,3個(gè)基因均出現(xiàn)雜交信號(hào),分別是BIO42245、BIO32212和 BIO60072,并且雜交條帶的大小與預(yù)測(cè)值相近。

      表2 9個(gè)新基因的基本特征

      Tab.2 Characteristics of nine novel genes

      GenetagGenelocationLength(aa)Overlaps?AnnotationinotherenterobacteriaVerificationBIO006811938609-193842162NoputativebacteriophageproteinRT?PCRBIO01608135438-13568080NohypotheticalproteinRT?PCRBIO500432538118-2537021365PartialSsulfatetransportersubunitRT?PCRBIO438034577512-4576022496PartialChypotheticalproteinRT?PCRBIO234962533103-253315617PartialSNoneRT?PCRBIO072351784677-178475425PartialSNoneRT?PCRBIO422454131171-413132049NestedCNoneNorthernblotBIO32212856749-85687441NestedCNoneNorthernblotBIO600723846510-384644820NestedCNoneNorthernblot

      Note: * No. ORFs not overlapping other genes; Partial S: ORFs partially overlapping known genes on the same strand; Partial C: ORFs partially overlapping known genes on the complementary strand; Nested C: ORFs completely contained within known genes on the complementary strand.

      M: DNA Marker; 1: BIO23496; 2: BIO07235; 3: BIO01608; 4: BIO43803; 5: BIO00681; 6: BIO50043; 7: negative control (cDNA as template); negative control (genomic DNA as template); positive control (housekeeping gene ipaD).圖3 新基因的RT-PCR擴(kuò)增Fig.3 RT-PCR amplification of novel genes

      M: RNA Marker; 1: BIO42245;2:BIO32212;3: positive control 5S rRNA;4: BIO60072.圖4 Northern blot檢測(cè)新基因轉(zhuǎn)錄產(chǎn)物Fig.4 Validating transcriptional products using Northern blot analysis

      應(yīng)用生物信息學(xué)軟件預(yù)測(cè)新基因編碼產(chǎn)物的功能結(jié)構(gòu)域,只有BIO01608和BIO50043的蛋白產(chǎn)物具有特定功能的結(jié)構(gòu)域。BIO01608具有YmgB超家族結(jié)構(gòu)域,與生物膜合成和對(duì)酸的抵抗性有關(guān);BIO50043具有ABC-CysA-硫酸鹽保守轉(zhuǎn)運(yùn)結(jié)構(gòu)域,與硫酸鹽轉(zhuǎn)運(yùn)有關(guān)。

      3 討 論

      蛋白質(zhì)基因組學(xué)是將質(zhì)譜鑒定的肽段定位到用6個(gè)讀碼框翻譯策略構(gòu)建的全基因組骨架上,識(shí)別的肽段分為兩類,一類是來(lái)源于已注釋蛋白數(shù)據(jù)庫(kù)可用于驗(yàn)證已注釋基因的結(jié)構(gòu)與表達(dá);另一類是與6個(gè)讀碼框數(shù)據(jù)庫(kù)的核酸序列相匹配,卻不包含于已注釋蛋白數(shù)據(jù)庫(kù)中,可以用于發(fā)現(xiàn)新的基因或修正已注釋基因的結(jié)構(gòu)[9]。目前研究表明蛋白質(zhì)基因組學(xué)只是作為一種補(bǔ)充手段對(duì)已注釋基因組進(jìn)行完善,還不能在全基因組水平上進(jìn)行基因注釋。原因在于其高度依賴蛋白質(zhì)組學(xué)技術(shù)的特性使其具有難以克服的內(nèi)在缺陷,如果不能獲得高覆蓋率的質(zhì)譜數(shù)據(jù)就不能對(duì)基因組進(jìn)行全面的注釋,因此蛋白質(zhì)組學(xué)技術(shù)方法上的改進(jìn)和提高勢(shì)在必行。本研究考慮到單一質(zhì)譜的局限性,應(yīng)用2D LC-MALDI-TOF/TOF和2D LC-ESI-MS/MS的多維液相色譜質(zhì)譜組合體系從蛋白水平上共驗(yàn)證Sf2a301的1 231個(gè)ORFs的表達(dá),其中包含1 222個(gè)已注釋基因的表達(dá)產(chǎn)物,占Sf2a301總基因組已注釋的4 443個(gè)ORFs編碼產(chǎn)物的28.0%, 與以往研究相比[7-8]這是迄今為止福氏痢疾桿菌驗(yàn)證蛋白表達(dá)基因數(shù)目最多的結(jié)果。本實(shí)驗(yàn)結(jié)果顯示, MALDI和ESI對(duì)肽和蛋白的鑒定結(jié)果既相互確認(rèn)又互相補(bǔ)充,組合鑒定相對(duì)于單一質(zhì)譜鑒定能夠很大程度上提高了鑒定蛋白的數(shù)量和可信程度,這與以往的研究結(jié)論一致[10-11],從而能夠更為全面的完善基因組注釋。因此,多維液相色譜質(zhì)譜組合體系可以作為今后完善基因組注釋可供借鑒的技術(shù)平臺(tái)。

      在任何一個(gè)細(xì)菌的基因組中,大概有30%~50%的ORFs編碼產(chǎn)物是功能未知的假定蛋白。由于沒(méi)有可供比對(duì)的實(shí)驗(yàn)驗(yàn)證的蛋白產(chǎn)物,假定蛋白注釋過(guò)程中相對(duì)于已知功能的蛋白注釋出錯(cuò)率更高,所以更加需要實(shí)驗(yàn)室驗(yàn)證假定的ORFs是否能夠翻譯成蛋白質(zhì)[12]。Sf2a301在NCBI已注釋蛋白數(shù)據(jù)庫(kù)中包括1 944個(gè)保守的假定蛋白,本研究共驗(yàn)證了306個(gè)假定ORFs產(chǎn)物的表達(dá),占預(yù)測(cè)的假定ORFs編碼產(chǎn)物的16.0% 左右[13]。分析假定蛋白的鑒定率(16.0%)要低于已注釋蛋白(28.0%),考慮可能有相當(dāng)比例注釋為假定蛋白的基因其實(shí)并不存在,只不過(guò)是對(duì)基因的錯(cuò)誤注釋而已[14]。

      蛋白質(zhì)基因組學(xué)不僅能對(duì)已注釋基因進(jìn)行表達(dá)驗(yàn)證,還可以發(fā)現(xiàn)新的未注釋基因。本研究鑒定的新基因具有序列短和與已注釋基因有重疊的特征,進(jìn)一步分析發(fā)現(xiàn)這兩個(gè)特征恰恰是新基因無(wú)法被計(jì)算機(jī)軟件預(yù)測(cè)的原因。以往研究表明對(duì)短基因(尤其是小于150個(gè)核苷酸組成的基因)的預(yù)測(cè)一直以來(lái)是計(jì)算機(jī)預(yù)測(cè)方法難以解決的瓶頸;而對(duì)于重疊基因的預(yù)測(cè)由于一定的篩選閾值的設(shè)定,往往是相對(duì)長(zhǎng)的基因而非短基因保留下來(lái)而被注釋[15]。為了進(jìn)一步證實(shí)新基因的存在,本研究通過(guò)分子生物學(xué)方法RT-PCR和Northern blot分別驗(yàn)證了與已注釋基因無(wú)、部分重疊的新基因和與已注釋基因完全重疊的嵌套基因表達(dá),從而從轉(zhuǎn)錄和翻譯兩個(gè)水平證實(shí)了新基因的表達(dá)。以往研究發(fā)現(xiàn)細(xì)菌中基因重疊的序列比較短,超過(guò)80%以上重疊的核苷酸數(shù)目小于30 bp,嵌套基因則更少[16]。一般嵌套基因編碼區(qū)都是包含于對(duì)側(cè)已知基因的編碼序列內(nèi),如福氏2a痢疾桿菌的setBA /pic[17]、大腸桿菌的ins5B/ins5A[18]和熒光假單孢菌的Pfl01_0939/cosA基因?qū)19],我們的研究結(jié)果發(fā)現(xiàn)的3個(gè)嵌套基因均符合這樣的基因排列方式。嵌套基因的存在增加了基因組結(jié)構(gòu)的復(fù)雜性,常規(guī)的基因預(yù)測(cè)算法和標(biāo)準(zhǔn)對(duì)判別多個(gè)核苷酸重疊的基因有效性差,嵌套基因根本無(wú)法通過(guò)這種方法進(jìn)行預(yù)測(cè)。本研究結(jié)果表明蛋白質(zhì)基因組學(xué)是在蛋白水平對(duì)嵌套基因進(jìn)行實(shí)驗(yàn)室驗(yàn)證的非常有效方式。

      本研究對(duì)新基因的功能預(yù)測(cè)結(jié)果顯示大多數(shù)基因編碼產(chǎn)物沒(méi)有發(fā)現(xiàn)特定功能的結(jié)構(gòu)域。文獻(xiàn)報(bào)道原核生物的基因重疊結(jié)構(gòu)往往與基因表達(dá)的調(diào)節(jié)機(jī)制有關(guān),嵌套基因的功能往往與其宿主基因的功能有關(guān)聯(lián)[20]。因此,探討新基因的生物學(xué)功能有待于今后的進(jìn)一步研究。

      [1] Liu Y, Hu L, Pan L. Prevalence of plasmid-mediated quinolone resistance determinants in association with β-lactamases, 16S rRNA methylase genes and integrons amongst clinical isolates of Shigella flexneri[J]. J Med Microbiol, 2012, 61(pt8): 1174-1176. DOI: 10.1099/jmm.0.042580-0

      [2] Jin Q, Yuan Z, Xu J, et al. Genome sequence ofShigellaflexneri2a: insights into pathogenicity through comparison with genomes ofEscherichiacoliK12 and O157[J]. Nucleic Acids Res, 2002, 30(20): 4432-4441. DOI: 10.1093/nar/gkf566

      [3] Muller SA, Findeiβ S, Pernitasch SR, et al. Identification of new protein coding sequences and signal peptidase cleavage sites ofHelicobacterpyloristrain 26695 by proteogenomics[J]. J Proteomics, 2013, 86(6): 27-42. DOI: 10.1016/j.jprot.2013.04.036

      [4] Armengaud J, Hartmann EM, Bland C. Proteogenomics for environmental microbiology[J]. Proteomics, 2013, 13(18/19): 2731-2742. DOI: 10.1002/pmic.201200576

      [5] Castellana N, Bafna V. Proteogenomics to discover the full coding content of genomes: a computational perspective[J]. J Proteomics, 2010 73(11), 2124-2135. DOI: 10.1016/j.jprot.2010.06.007

      [6] Suzuki T, Maeda T, Grant S, et al. Confirmation of fructans biosynthesized in vitro from [1-13C]glucose in asparagus tissues using MALDI-TOF MS and ESI-MS[J]. J Plant Phsiol, 2013, 170(80):715-722. DOI: 10.1016/j.jplph.2012.12.005

      [7] Zhao L, Liu L, Leng W, et al. A proteogenomic analysis ofShigellaflexneriusing 2D LC-MALDI TOF/TOF[J]. BMC genomics, 2011, 12: 528. DOI: 10.1186/1471-2164-12-528

      [8] Zhu L, Zhao G, Stein R, et al. The proteome ofShigellaflexneri2a 2457T grown at 30 and 37 ℃[J]. Mol Cell Proteom, 2010, 9(6): 1209-2020. DOI: 10.1074/mcp.M900446-MCP200

      [9] Zhang K, Wang LH, Chi H, et al. Proteogenomics: Improving genomes annotation by proteomics[J]. Prog Biochem Biophys, 2013, 40(4): 297-308. (in Chinese)

      張昆, 王樂(lè)珩, 遲浩, 等. 蛋白質(zhì)基因組學(xué): 運(yùn)用蛋白質(zhì)組技術(shù)注釋基因組[J]. 生物化學(xué)與生物物理進(jìn)展, 2013, 40(4): 297-308.

      [10] Bodnar WM, Blackburn RK, Krise JM, et al. Exploiting the complementary nature of LC/MALDI/MS/MS and LC/ESI/MS/MS for increased proteome coverage[J]. J Am Soc Mass Spectrom, 2003, 14(9): 971-979. DOI: 10.1016/s1044-0305(03)00209-5

      [11] Medzihradszky KF, Leffler H, Baldwin MA, et al. Protein identification by in-gel digestion, high-performance liquid chromatography, and mass spectrometry: peptide analysis by complementary ionization techniques[J]. J Am Soc Mass Spectrom, 2001, 12(2): 215-221. DOI: 10.1016/S1044-0305(00)00214-2

      [12] Ansong C, Purvine SO, Adkins JN, et al. Proteogenomics: needs and roles to be filled by proteomics in genome annotation[J]. Brief Funct Genomic Proteomic, 2008, 7(1): 50-62. DOI: 10.1093/bfgp/eln010

      [13] Ishino Y, Okada H, Ikeuchi M, et al. Mass spectrometry-based prokaryote gene annotation[J]. Proteomics, 2007, 7(22): 4053-4065. DOI:10.1002/pmic.200700080

      [14] Jaffe JD, Berg HC. Church GM: Proteogenomic mapping as a complementary method to perform genome annotation[J]. Proteomics, 2004, 4(1): 59-77. DOI:10.1002/pmic.200300511

      [15] Payne SH, Huang ST. Pieper R: A proteogenomic update toYersinia: enhancing genome annotation[J]. BMC Genomics 2010, 11: 460. DOI: 10.1186/1471-2164-11-460

      [16] Johnson ZI, Chisholm SW. Properties of overlapping genes are conserved across microbial genomes[J]. Genome Res, 2004, 14(11): 2268-2272. DOI: 10.1101/gr.2433104

      [17] Al-Hasani K, Rajakumar K, Bulach D, et al. Genetic organization of the she pathogenicity island inShigellaflexneri2a[J]. Microb Pathog, 2001, 30(1): 1-8. DOI: 10.1006/mpat.2000.0404

      [18] Delaye L, Deluna A, Lazcano A, et al. The origin of a novel gene through overprinting inEscherichiacoli[J]. BMC Evol Biol, 2008, 8: 31. DOI: 10.1186/1471-2148-8-31

      [19] Silby MW, Levy SB. Overlapping protein-encoding genes inPseudomonasfluorescensPf0-1[J]. PLoS Genet 2008, 4(6): e1000094. DOI: 10.1371/journal.pgen.1000094

      [20] Jaworski DM, Beem-Miller M, Lluri G, et al. Potential regulatory relationship between the nested gene DDC8 and its host gene tissue inhibitor of metalloproteinase-2[J]. Physiol Genomics, 2007, 28(2): 168-178. DOI: 10.1152/physiolgenomics.00160.2006

      Proteogenomics analysis ofShigellaby combined multidimensional liquid chromatography tandem mass spectrometry

      ZHAO Li-na, LI Wei-wei, HE Bao-ling, HU Fen, WANG Yang, YU Yuan, GAO Shuang

      (CollegeofLifeSciences,NorthChinaUniversityofScienceandTechnology,Tangshan063000,China)

      To apply proteomics method based on the combined multidimensional liquid chromatography mass spectrometry to the genome annotation ofS.flexneri, bacterial proteins ofS.flexneri2a str. 301 (Sf2a301) were digested with trypsin, and peptides were separated by using two-dimensional liquid chromatography, and subsequently identified by using MALDI-TOF/TOF and ESI-MS/MS. Spectra data were searched respectively with MASCOT and SEQUEST against all possible six-frame translation database generated from whole genome sequences ofS.flexnerito confirm and complement the genome annotation ofSf2a301. The research showed that proteome coverage could be greatly improved under the combination analysis of multi-dimensional liquid chromatography mass spectrometry. A total of 1 231 proteins ofSf2a301 were unambiguously identified in this research, involved in 20 groups of 22 functional groups in COGs. Meanwhile, 306 hypothetical proteins were validated. Nine novel genes were discovered. Furthermore, novel genes were confirmed by RT-PCR or Northern blot experiment. Most of novel genes were overlapping genes, three even nested within the coding region of other known genes. Compared to any single tandem mass spectrometry, combined multidimensional liquid chromatography mass spectrometry can better validate and complement the genome annotation ofS.flexneri. The updated database could provide more targets for those interested inShigellato perform functional studies.

      Shigellaflexneri; MALDI; ESI; proteogenomics; genome annotation

      10.3969/j.issn.1002-2694.2016.012.005

      國(guó)家自然科學(xué)基金(No. 81302323);河北省高等學(xué)??茖W(xué)技術(shù)研究項(xiàng)目(No. QN20131059);華北理工大學(xué)培育基金項(xiàng)目(No. GP201518);華北理工大學(xué)博士科研啟動(dòng)基金聯(lián)合資助

      華北理工大學(xué)生命科學(xué)學(xué)院,唐山 063000

      R378.25

      A

      1002-2694(2016)12-1064-06

      2016-06-15;

      2016-09-14

      猜你喜歡
      痢疾桿菌液相質(zhì)譜
      高效液相色譜法測(cè)定水中阿特拉津
      氣相色譜質(zhì)譜聯(lián)用儀在農(nóng)殘檢測(cè)中的應(yīng)用及維護(hù)
      反相高效液相色譜法測(cè)定食品中的甜蜜素
      白頭翁湯對(duì)痢疾桿菌的體外抑菌作用研究
      吹掃捕集-氣相色譜質(zhì)譜聯(lián)用測(cè)定水中18種揮發(fā)性有機(jī)物
      兒童產(chǎn)超廣譜β-內(nèi)酰胺酶痢疾桿菌的耐藥性分析
      反相高效液相色譜法快速分析紫脲酸
      棗霜化學(xué)成分的色譜質(zhì)譜分析
      Modeled response of talik development under thermokarst lakes to permafrost thickness on the Qinghai-Tibet Plateau
      超高效液相色譜法測(cè)定藻油中的DPA和DHA
      香格里拉县| 阳谷县| 广东省| 凉城县| 本溪市| 莱西市| 青州市| 清镇市| 嘉义市| 金塔县| 襄汾县| 南靖县| 长宁县| 班戈县| 泾源县| 闸北区| 永丰县| 岳池县| 休宁县| 石台县| 云浮市| 宁南县| 忻城县| 桑植县| 竹山县| 全州县| 布尔津县| 石阡县| 铜鼓县| 呼伦贝尔市| 柳河县| 娄烦县| 阿鲁科尔沁旗| 和田市| 望江县| 莫力| 定安县| 乳山市| 渑池县| 司法| 儋州市|