楊悅,杜欣軍,梁彬,郭季冬,程曉真,王碩
(天津科技大學(xué)食品營養(yǎng)與安全重點實驗室,天津300457)
第三代DNA測序及其相關(guān)生物信息學(xué)技術(shù)發(fā)展概況
楊悅,杜欣軍,梁彬,郭季冬,程曉真,王碩*
(天津科技大學(xué)食品營養(yǎng)與安全重點實驗室,天津300457)
本文介紹了第三代DNA測序的技術(shù)原理及應(yīng)用現(xiàn)狀,并對相關(guān)的生物信息學(xué)技術(shù)進(jìn)行了綜述。第三代測序技術(shù)以單分子測序為主要特點,目前已廣泛應(yīng)用于食品科學(xué)及生命科學(xué)研究的各個領(lǐng)域,其代表有Heliscope BioScience公司的SMS技術(shù)、Pacific BioSciences公司的SMRT技術(shù)等。本文同時歸納總結(jié)了基因組學(xué)相關(guān)的生物信息學(xué)發(fā)展?fàn)顩r及常用的數(shù)據(jù)庫。
基因組學(xué);第三代DNA測序技術(shù);生物信息學(xué);數(shù)據(jù)庫
1986年美國科學(xué)家Thomas Roderick首次提出基因組學(xué)的概念,基因組學(xué)包括核苷酸測序及序列分析、基因定位、基因功能分析等內(nèi)容[1]?;蚪M學(xué)始于人類基因組圖譜繪制和測序的提出,這一偉大的理想在2004年完成,使基因組學(xué)成為生命科學(xué)領(lǐng)域中最重要和最基礎(chǔ)的研究領(lǐng)域之一[2],如今也廣泛于食品科學(xué)、環(huán)境科學(xué)等眾多研究領(lǐng)域。
基因組學(xué)的迅速發(fā)展離不開DNA測序技術(shù)與生物數(shù)據(jù)處理手段-生物信息學(xué)。從上世紀(jì)六、七十年代開始,由最初的人工DNA測序到現(xiàn)在的第三代測序技術(shù)-單分子實時測序技術(shù),DNA測序技術(shù)經(jīng)歷了翻天覆地的變化,同時,DNA測序獲得的大量數(shù)據(jù)促進(jìn)了生物信息學(xué)的產(chǎn)生和發(fā)展,利用生物信息學(xué)的方法分析和處理序列數(shù)據(jù)對認(rèn)識和揭示基因組序列中蘊(yùn)含的信息至關(guān)重要。本文旨在闡述第三代DNA測序技術(shù)的技術(shù)原理及應(yīng)用情況,同時介紹了與之相關(guān)的生物信息學(xué)的研究內(nèi)容及一些常用的數(shù)據(jù)庫,為基因組測序及后續(xù)分析工作提供參考。
目前正在興起的第三代測序是單分子測序[3-6],這種技術(shù)無需PCR擴(kuò)增,這種方法測序通量更高,操作過程更簡單,成本更低。另外它還具有3個顯著的特點:第一,單分子測序技術(shù)可以直接對RNA進(jìn)行序列,這樣大幅度降低體外逆轉(zhuǎn)錄產(chǎn)生的系統(tǒng)誤差;第二,可以直接檢測甲基化的DNA序列,為表觀遺傳學(xué)研究奠定了基礎(chǔ);第三,可以對特定序列的SNP進(jìn)行檢測,實現(xiàn)對稀有突變及其頻率的測定。目前市面上單分子測序平臺有Heliscope BioScience公司的SMS(true single molecular sequencing)技術(shù)[7-8],Pacific BioSciences公司的SMRT(single molecule real-time)技術(shù)[9],VisiGen Biotechnologies公司的FRET(fluorescence resonance energy transfer)技術(shù)[10]以及Oxford Nanopore Nechnologies公司的納米孔技術(shù)[11]。
1.1SMS測序平臺
SMS技術(shù)仍然建立在合成測序的基礎(chǔ)之上,只是檢測方法更加靈敏。它是利用電場的作用以采集與聚合酶結(jié)合的標(biāo)記核苷酸的熒光特征進(jìn)行測序[12]。其原理如圖1所示[13]。
圖1 SMS技術(shù)原理Fig.1The principle of SMS technology
(1)將待測的DNA序列隨機(jī)打斷并在3'末端加上polyA,利用末端轉(zhuǎn)移酶進(jìn)行熒光標(biāo)記和阻斷,阻斷的目的是防止在測序過程中核苷酸在模板的3'末端進(jìn)行延伸;(2)將這些標(biāo)記好的小片段與帶有polyT引物的平板雜交并精確定位;(3)逐一加入A、C、G、T4種熒光修飾的dNTP及聚合酶,當(dāng)堿基互補(bǔ)延伸后,利用全內(nèi)反射顯微鏡(total internal reflection microscopy,TIRM)進(jìn)行單色成像,之后切開熒光染料和抑制基團(tuán),洗滌,加帽,允許下一個核苷酸的摻入;(4)如此反復(fù)循環(huán),就可以實現(xiàn)實時測序采集熒光信號獲得堿基信息。數(shù)十個循環(huán)后,將測得的DNA序列拼接,即得到完整的基因序列,目前已有所應(yīng)用[14-15]。SMS測序技術(shù)的優(yōu)點是:文庫制備簡單,不需要PCR擴(kuò)增或連接酶,尤其適合RNA直接測序,無需傳統(tǒng)的cDNA合成步驟,從而避免了體外逆轉(zhuǎn)錄產(chǎn)生的錯誤;缺點是初始讀長較短,僅有35 bp,準(zhǔn)確率較低,同時單分子測序成本較高,阻礙著這項技術(shù)的推廣應(yīng)用。
1.2SMRT測序平臺
SMRT測序技術(shù)的單分子熒光檢測設(shè)備采用零模式波導(dǎo)技術(shù),以SMRT芯片為載體進(jìn)行測序反應(yīng),其原理如圖2所示[16-17]。
圖2 SMRT技術(shù)原理Fig.2The principle of SMRT technology
測序的大致流程如下:(1)將待測的DNA樣品隨機(jī)打斷,制成液滴后將其分散到SMRT芯片中;(2)MRT芯片是包含成千上萬的納米孔(Zero-Mode Waveguides,ZMWs)的金屬片,這些納米孔的直徑短于激光的單個波長并且內(nèi)部錨定有DNA聚合酶,測序時待測的DNA單鏈進(jìn)入ZMW被DNA聚合酶捕獲后,四種不同熒光標(biāo)記的dNTP加在反應(yīng)孔的上端,當(dāng)dNTP與待測的DNA模板互補(bǔ)延伸時,DNA聚合酶首先捕獲與模板匹配的dNTP,在熒光檢測區(qū)被激光束激發(fā)出熒光,進(jìn)而識別核苷酸的種類;(3)在熒光脈沖結(jié)束后,被標(biāo)記的磷酸集團(tuán)被切割并釋放,DNA聚合酶轉(zhuǎn)移到下一個位置,下一個待測的堿基連接到位點上開始釋放熒光脈沖,進(jìn)行下一個循環(huán)。SMRT測序技術(shù)是實際意義上的實時測序,完全依靠DNA聚合酶的作用,使測序速度明顯提高,同時DNA聚合酶自身的延續(xù)性也能夠保證了測序的讀長,降低了測序的時間及費(fèi)用;但是不足之處是會由于堿基摻入速度過快而出現(xiàn)插入和缺失錯誤,從而影響測序的準(zhǔn)確性。
1.3FRET測序平臺
FRET技術(shù)基本原理是利用熒光共振能量轉(zhuǎn)移(fluorescence resonance energy transfer)現(xiàn)象,具體是指在進(jìn)行測序時被熒光受體標(biāo)記的4種脫氧核苷酸分子隨著測序引物的延伸會發(fā)出特異性的微光,以達(dá)到對DNA的堿基序列進(jìn)行連續(xù)、快速檢測的目的[10]。其測序原理如圖3[18-19]。
圖3 FRET技術(shù)原理Fig.3The principle of FRET technology
測序流程如下:(1)將被供體熒光基團(tuán)修飾的DNA聚合酶及待測的DNA模板分子固定在載玻片上;(2)向其加入含引物、4種dNTP(其磷酸上標(biāo)記特異的熒光受體基團(tuán))測序緩沖液,測序過程中,當(dāng)dNTP靠近含熒光供體基團(tuán)的聚合酶時,后者就能釋放能量激光并發(fā)出特異的熒光(即FRET信號),從而識別相應(yīng)的堿基類型;(3)當(dāng)dNTP被識別后,熒光基團(tuán)就會隨著磷酸離開,保證下一個dNTP能繼續(xù)反應(yīng),從而達(dá)到測序的目的。FRET測序技術(shù)最明顯的優(yōu)勢是測序過程簡單直接,速度較快,如同看電影一般[20],其測序速度有望達(dá)到1百萬堿基/秒;但是缺乏相應(yīng)的技術(shù)參數(shù)從而限制了其廣泛應(yīng)用。
1.4納米孔測序平臺
納米孔技術(shù)是一種純物理學(xué)的方法,是利用不同的堿基通過納米孔時產(chǎn)生的電信號變化來對其進(jìn)行測序[21]。其技術(shù)原理類似于電泳,如圖4所示[22-24]。
一線教師的付出是辛勞的,不僅僅是腦力勞動,同時還有體力勞動,費(fèi)心費(fèi)力。備課、上課、批改作業(yè)和試卷,還要反思教學(xué),針對個別學(xué)生補(bǔ)缺補(bǔ)差,很少有休息時間??墒?,作為一名教師,只有用心教學(xué)才能贏得家長的尊重和理解,在工作中,只有家長和學(xué)校相互配合,教師和家長之間互相理解和尊重,才能共同的把孩子教育好。應(yīng)該說,我們需要家長的配合,理解和支持,讓學(xué)生學(xué)好是共同的期待,這需要我們用心與家長溝通、交流,做家長的朋友。得到了家長的理解和支持,我們才能教出成績,從而收獲快樂,提升幸福感。
圖4 納米孔技術(shù)原理Fig.4The principle of Oxford Nanopore technology
大致過程為:待測的DNA序列在核酸外切酶的作用下迅速的逐一切割其脫氧核糖核苷酸分子,切下的核苷酸落入直徑非常小的納米孔(Nanopore)中,由于這種孔的直徑只允許單一的核苷酸通過,當(dāng)其通過納米孔時,就會產(chǎn)生不同的電流變化幅度,從而區(qū)分不同的堿基,進(jìn)而推測出待測DNA的序列信息。納米孔單分子測序技術(shù)相對于其他的單分子測序技術(shù)而言,無需傳統(tǒng)的DNA聚合酶、連接酶或者dNTPs,樣本處理簡單,同時也不需要復(fù)雜的光學(xué)探測系統(tǒng)(如激光發(fā)射器和CCD信號采集系統(tǒng)等),因此大大降低了測序成本,另外由于其測序的對象為單個核苷酸,所以這種技術(shù)有很好的持續(xù)性和準(zhǔn)確性,還可以直接對RNA樣品進(jìn)行測序;缺點就是單個核苷酸通過納米孔的速度及納米孔的厚度可能引起電流差異特征性的不明顯,從而降低測序的精確度。
測序技術(shù)不斷的更新?lián)Q代,與前代產(chǎn)品相比,第三代測序技術(shù)具有比不可比擬的優(yōu)點,不僅大幅度降低了高昂的測序費(fèi)用,而且使得對更多的物種進(jìn)行測序成為可能,這些都將對分子生物學(xué)、基因組學(xué)和進(jìn)化生物學(xué)的研究產(chǎn)生深遠(yuǎn)的影響。另一方面,第二代測序和第三代測序技術(shù)并駕齊驅(qū)使基因組測序的成本迅速下降,這將會給食品、醫(yī)療衛(wèi)生等行業(yè)帶來里程碑式的變革。
2.1生物信息學(xué)
生物信息學(xué)(Bioinformatics)是以計算機(jī)為工具對生物遺傳信息進(jìn)行加工處理以獲得所需信息的科學(xué)[25]。這一門新興的交叉學(xué)科以信息學(xué)、統(tǒng)計學(xué)、生物學(xué)、計算機(jī)為主要研究手段,在當(dāng)今的生命科學(xué)和自然科學(xué)領(lǐng)域應(yīng)用十分廣泛。生物信息學(xué)起源于20世紀(jì)70年代,各種生物信息學(xué)的基本理論逐漸誕生,其中最重要的突破是Kimura提出的分子鐘假說[26]。生物信息學(xué)發(fā)展成為一門獨(dú)立的學(xué)科是在80年代,在這期間逐漸形成自己獨(dú)特的理論體系和解決問題的方法,例如序列比對中的經(jīng)典算法和FASTA家族的數(shù)據(jù)庫搜索算法[27]。
2.2基因組測序相關(guān)生物信息學(xué)技術(shù)
過去30年,基因組DNA測序技術(shù)發(fā)展迅猛,應(yīng)用領(lǐng)域也不斷擴(kuò)展,各種物種基因組測序的完成只是基因組計劃的第一步,從基因組序列中提取有用信息,進(jìn)而揭示其蘊(yùn)含的全部意義,才是這些基因組計劃的最終目標(biāo)。在各種物種基因組被逐步破解的過程中,生物信息學(xué)能夠通過信息學(xué)、統(tǒng)計學(xué)、計算機(jī)等手段對基因組測序所產(chǎn)生的海量數(shù)據(jù)進(jìn)行科學(xué)的處理及分析,因此其在基因組及后基因組時代逐漸承擔(dān)起越來越重要的角色。本文將生物信息學(xué)在基因組學(xué)方面的應(yīng)用歸納為以下幾個方面:
第二,基因區(qū)域及功能預(yù)測。經(jīng)過序列拼接后能夠得到完整的基因組序列信息,但是如果想要研究每個基因的功能就需要分析和解讀核酸序列中所表達(dá)的結(jié)構(gòu)與功能的生物信息。在真核生物中,并不是所有的基因都能夠行使功能,例如在人類的基因組中,編碼基因僅占總序列的3%~5%。所謂基因區(qū)域的預(yù)測,一般是指預(yù)測DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。預(yù)測外顯子的基本算法有ORF(open reading frame)法、核苷酸語匯(nucleotide words)及線性判別分析(Linear Discriminant Analysis,LDA)等。找到這些編碼基因后,就要進(jìn)行基因功能的預(yù)測,基本方法是序列同源比較,尋找蛋白質(zhì)家族保守順序,常用的算法有Smit-Waterman算法,F(xiàn)ASTA算法和BLAST算法。
第三,代謝網(wǎng)絡(luò)建模的分析。將分析得到的某種生物的基因組序列根據(jù)功能進(jìn)行分類及其代謝組學(xué)的研究是近幾年的研究前沿方向,將基因定位到代謝網(wǎng)絡(luò)中(其涉及到生化反應(yīng)途徑,基因調(diào)控,信號轉(zhuǎn)導(dǎo)過程等),這種后基因組時代的研究涉及到大規(guī)模網(wǎng)絡(luò)的生命過程,又叫做“網(wǎng)絡(luò)生物研究”[30]。如今,利用生物信息學(xué)技術(shù)開發(fā)專門軟件工具來自動分析大規(guī)模網(wǎng)絡(luò)系統(tǒng)的物理屬性,提供路徑導(dǎo)航、模式搜索、圖形簡化等分析手段以及基于代謝控制分析原理,使用常微分方程來求解反應(yīng)速率,已經(jīng)成為一種研究熱點。
第四,數(shù)據(jù)庫的建設(shè)及整合。生物數(shù)據(jù)庫是進(jìn)行生物信息學(xué)研究的基礎(chǔ),盡管目前已有許多公共的數(shù)據(jù)庫可供使用,如Genbank等,這些都凝聚了大量生物信息學(xué)的工作。但我們進(jìn)行專項研究時,往往需要根據(jù)具體分析內(nèi)容構(gòu)建新的數(shù)據(jù)庫。要建立自己的數(shù)據(jù)庫,就必須分析數(shù)據(jù)庫的儲存形式和復(fù)雜程度,設(shè)計相應(yīng)的分析程序及算法,實現(xiàn)并行計算和先進(jìn)的內(nèi)存管理以提高數(shù)據(jù)庫的速度等,這些都需要通過生物信息學(xué)來實現(xiàn)。另外,生物信息學(xué)技術(shù)還可以將多個數(shù)據(jù)庫整合在一起提供綜合服務(wù),實現(xiàn)數(shù)據(jù)庫的一體化和集成環(huán)境,能夠使用戶共享不同數(shù)據(jù)庫,達(dá)到資源共享。
2.3生物信息學(xué)的常用數(shù)據(jù)庫
隨著第一代測序儀的全面推廣,基因組測序數(shù)據(jù)量快速增加,使數(shù)據(jù)庫的容量逐漸擴(kuò)大,因此基因的預(yù)測和比對將生物信息學(xué)帶入了一個嶄新的時期,加速了各種數(shù)據(jù)庫的誕生。
2.3.1生物信息學(xué)數(shù)據(jù)庫的分類
根據(jù)建庫方式,生物信息學(xué)中的數(shù)據(jù)庫大致分為四類[31]:一級數(shù)據(jù)庫、二級數(shù)據(jù)庫、專家?guī)旒罢蠑?shù)據(jù)庫。一級數(shù)據(jù)庫最基礎(chǔ),一般是由國家或國際組織建設(shè)和維護(hù),例如GenBank、EMBL及DDBJ等;二級數(shù)據(jù)庫是在一級數(shù)據(jù)庫的基礎(chǔ)上,結(jié)合特殊的需要將部分?jǐn)?shù)據(jù)從一級數(shù)據(jù)庫中取出,經(jīng)過重新組合(包括一定的修正或調(diào)整)而成的數(shù)據(jù)庫,其專一性很強(qiáng),數(shù)據(jù)量相對較少,如KEGG、CAZY及COG等;專家?guī)焓且环N特殊的二級數(shù)據(jù)庫,它是通過有經(jīng)驗的專家經(jīng)過人工校對標(biāo)識之后建立的,這類數(shù)據(jù)庫的優(yōu)點是質(zhì)量高,使用方便可靠,但是更新和發(fā)展比較緩慢,如Unipro-Swiss-Prot等。整合數(shù)據(jù)庫是將不同數(shù)據(jù)庫的內(nèi)容按照一定的要求整合而成,如商業(yè)及內(nèi)部數(shù)據(jù)庫。
2.3.2常用生物信息學(xué)數(shù)據(jù)庫
熟練掌握常用數(shù)據(jù)庫及軟件對基因組拼接和分析至關(guān)重要,下面簡要介紹幾個常用的數(shù)據(jù)庫。
三個一級核酸數(shù)據(jù)庫GenBank、EMBL和DDBJ在生命科學(xué)中占據(jù)著不可動搖的重要地位,是生物信息學(xué)中不可或缺的數(shù)據(jù)資源與分析工具。GenBank由美國國立衛(wèi)生研究院下屬的國立生物技術(shù)信息中心(national center for biotechnology information,NCBI)建立[32-33],這個數(shù)據(jù)庫匯集并注釋了所有公開的核酸序列,Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫,或下載積累的新數(shù)據(jù),NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),官方網(wǎng)址為http://www.ncbi.nlm.nih.gov/genbank。EMBL全稱為European molecular biology laboratory,是由歐洲生物信息研究所創(chuàng)建的歐洲分子生物學(xué)實驗室核苷酸數(shù)據(jù)庫,該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護(hù),查詢檢索可以通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成[34],官方網(wǎng)址為http://www.embl.org/。DDBJ的英文全稱為DNA data bank of Japan,是日本DNA數(shù)據(jù)庫系統(tǒng),人們可以使用其主頁上提供的SAS工具進(jìn)行數(shù)據(jù)檢索和分析[35],官方網(wǎng)址為http://www. ddbj.nig.ac.jp/。這三個數(shù)據(jù)庫都是國際核苷酸序列數(shù)據(jù)庫合作的成員,他們定期進(jìn)行數(shù)據(jù)交換,互通有無,同步更新。
重要的二級數(shù)據(jù)庫有KEGG、CAZY和COG等。KEGG即Kyto Encyclopeida of Genes and Genomes,譯為京都基因與基因組百科全書,是全面破譯基因組的數(shù)據(jù)庫,將基因組序列信息、化學(xué)、藥物和基因的功能信息有機(jī)地結(jié)合起來,其特色是代謝途徑的分析,對于獲得全基因組序列的物種,只要輸入其全部的蛋白質(zhì)序列,通過計算機(jī)化處理,就可以預(yù)測出該物種的代謝網(wǎng)絡(luò)途徑。該數(shù)據(jù)庫的官方網(wǎng)址是http://www. genome.jp/kegg/,更新版本為Release 69.0,最近更新日期是2014年1月1日。CAZY是Carbohydrate-Active enzymes Database的縮寫,是有關(guān)碳水化合物酶類的數(shù)據(jù)庫,依據(jù)對糖苷鍵的作用將其分類,這些作用包括形成、降解及修飾,該數(shù)據(jù)庫對物種的初級代謝研究具有重要的意義,其官方網(wǎng)址為http://www.cazy.org/,最近更新日期為2014年1月14日。COG全稱為Clusters of Orthologous Groups of proteins,是直系同源蛋白質(zhì)聚類數(shù)據(jù)庫,可以根據(jù)系統(tǒng)進(jìn)化關(guān)系將測序完成的各種生物中的編碼蛋白進(jìn)行分類,每個COG都有功能注釋,對于預(yù)測單個蛋白質(zhì)的功能或者新物種的功能都非常有用,該數(shù)據(jù)庫的官方網(wǎng)址為http://www. ncbi.nlm.nih.gov/COG/。
專家?guī)霼nipro-Swiss-Prot是目前世界上規(guī)模較大的蛋白質(zhì)數(shù)據(jù)庫,由歐洲生物信息研究所和瑞士生物信息研究所共同維護(hù)的,這個數(shù)據(jù)庫盡可能減少了冗余序列,并與其它30多個數(shù)據(jù)建立了交叉引用,功能比較強(qiáng)大,官方網(wǎng)址為http://www.uniprot.org/[36],更新版本為UniProt release 2014_01,最近更新日期是2014年1月22日。
近十幾年來,隨著高通量DNA自動測序技術(shù)的廣泛應(yīng)用,越來越多的物種包括動物、植物及微生物的基因組測序完成,DNA的數(shù)據(jù)量也以指數(shù)速度增長。但是常用的高通量測序儀如Solexa和SOLiD平臺測出的序列讀長都較短,需要進(jìn)行拼接和注釋才能得到完整的基因組信息,此刻生物信息學(xué)技術(shù)就顯得尤為關(guān)鍵。相信在不久的將來,成本不斷降低的高通量測序技術(shù)與數(shù)據(jù)處理能力不斷提高的生物信息學(xué)技術(shù)能夠更好的結(jié)合并成為一項常規(guī)的實驗手段,成為促進(jìn)整個生物學(xué)發(fā)展的強(qiáng)大動力。
[1]Peakall D,Shugar L.The human genome Projeet(HGP)[J].Ecotoxicology,2002,11(1):7-9
[2]International Human Genome Sequencing Consortium.Finishing the euchromatic sequence of the human genome[J].Nature,2004,431(7011):931-945
[3]Chan E Y.Advances in sequencing technology[J].Mutat Res,2005,573(1/2):13-40
[4]Mardis E R.Next-generation DNA sequencing methods[J].Annu RevGenomics Hum Genet,2008,9:387-402
[5]Schuster S C.Next-generation sequencing transforms todaypsbiology[J].Nat methods,2008,5:16-18
[6]解增言,林俊華,譚軍,等.DNA測序技術(shù)的發(fā)展歷史與最新進(jìn)展[J].生物技術(shù)通報,2010(8):64-71
[7]Bowers J,Mitchell J,Beer E,et al.Virtual terminator nucleotides for next-generation DNA sequencing[J].Nat Methods,2009,6:593-595
[8]TesslerL A,Reifenberger J G,Mitra R D.Protein quantification in complex mixtures by solid phase single-molecule counting[J].Anal Chem,2009,81:7141-7148
[9]Pacific B,PacBio M.USA on World Wide Web URL:http://www. pacificbiosciences.com
[10]Roy R,Hohng S,Ha T.A practical guide to single-molecule FRET[J].Nat methods,2008,5(6):507-516
[11]Clarke J,Wu H C,Jayasinghe L,et al.Continuous base identification for single-molecule nanopore DNA sequencing[J].Nat Nanotechnol,2009,4:265-270
[12]Ashkenasy N,Sanchez-Quesada J,Bayley H,et al.Recognizing a single base in an individual DNA strand:a step toward DNA sequencing in nanopores[J].Angew Chem Int Ed Engl,2005,44(9):1401-1404
[13]Harris T D,Buzby P R,Babcock H,et al.Single-molecule DNA sequencing of a viral genome[J].Science,2008,320(5872):106-109
[14]Pastor W A,Pape U J,Huang Y,et al.Genome-wide mapping of 5-hydroxymethylcytosine in embryonic stem cells[J].Nature,2011,473(7347):394-397
[15]Goren A,Ozsolak F,Shoresh N,et al.Chromatin profiling by directly sequencing small quantities of immunoprecipitated DNA[J].Nat Methods,2010,7(1):47-49
[16]Astier Y,Braha O,Bayley H.Toward single molecule DNA sequencing:direct identification of ribonucleoside and deoxyribonucleoside 5'-monophosphates by using an engineered protein nanopore equipped with a molecular adapter[J].J Am Chem Soc,2006,128(5):1705-1710
[17]Eid J,F(xiàn)ehr A,Gray J,et al.Real-time DNA sequencing from single polymerase molecules[J].Science,2009,323(5910):133-138
[18]Flusberg B A,Webster D R,Lee J H,et al.Direct detection of DNA methylation during single-molecule,real-time sequencing[J].Nat. Methods,2010,7(6):461-465
[19]Hardin S,Gao X L,Briggs J,et al.Methods for real-time single molecule sequence determination[P].US Patent 7329492,2008
[20]Gupta P K.Single-molecule DNA sequencing technologies for future genomics research[J].Trends Biotechnol,2008,26(11):602-611
[21]Rhee M,Burns M.Nanopore sequencing technology:research trends and applications[J].Trends Biotechnol,2006,24(12):580-586
[22]Clarke J,Wu H C,Jayasinghe L,et al.Continuous base identification for single-molecule nanopore DNA sequencing[J].Nat Nanotechnol.,2009,4(4):265-270
[23]Stoddart D,Heron A J,Mikhailova E,et al.Single-nucleotide discrimination in immobilized DNA oligonucleotides with a biological nanopore[J].Proc Natl Acad Sci U S A,2009,106(19):7702-7707
[24]Schadt E E,Turner S,Kasarskis A.A window into third-generation sequencing[J].Hum Mol Genet,2010,19(R2):R227-R240
[25]Cantor C R,Lim H A.Electrophoresis,Supercomputing and the Human genomes[M].World Scientific Publishing Co,1991
[26]Motoo K,Tomoko O.On Some Principles Governing Molecular Evolution[J].Proc Natl Acad Sci U S A,1974,71(7):2848-2852
[27]Wilbur W J,Lipman D J.Rapid similarity searches of nucleic acid and protein data banks[J].Proc Natl Acad Sci U S A,1983,80(3):726-730
[28]張春霆.生物信息學(xué)的現(xiàn)狀與展望[J].世界科技研究與發(fā)展,2000,22(6):17-20
[29]Rudert F G,Ilag L.Functional genomicswith protein-protein interactions[J].Biotechnol Annul Rev,2000,5:45-86
[30]Barabasi A-L,Oltvai Z N.Network Biology:Understanding The Cell’s Function Organization[J].Nat Rev Genet,2004.5:101-113
[31]姜鑫.生物信息學(xué)數(shù)據(jù)庫及其利用方法[J].現(xiàn)代情報,2005,25(6):185-187
[32]維斯特海德,帕里什,特懷曼.生物信息學(xué)(中譯本)[M].北京:科學(xué)出版社,2004
[33]蔣彥,王小行,曹毅,等.基礎(chǔ)生物信息學(xué)及應(yīng)用[M].北京:清華大學(xué)出版社,2003
[34]鐘楊,張亮,趙瓊.簡明生物信息學(xué)[M].北京:高等教育出版社,2001
[35]張曉東,張傳富,彭科峰,等.生物信息學(xué)數(shù)據(jù)庫研究進(jìn)展[J].生物信息學(xué),2006,4(3):143-145
[36]Berman H M,Westbrook J,F(xiàn)eng Z,et al.The Protein Data Bank[J].Nucleic Acids Res,2000,28(1):235-242
Development of the Third Generation Sequencing Technologies and Related Bioinformatics
YANG Yue,DU Xin-jun,LIANG Bin,GUO Ji-dong,CHENG Xiao-zhen,WANG Shuo*
(Key Laboratory of Food Nutrition and Safety,Tianjin University of Science and Technology,Tianjin 300457,China)
In the present study,the principles and applications of the third generation of DNA sequencing technology were summerized,as well as the progresses of bioinformatics involved genome sequencing.The third generation DNA sequencing technology was characterized by single DNA molecular and had been used in many fields of food science and life science research,for instance,SMS from Heliscope BioScience and SMRT from Pacific BioSciences.Meanwhile,the developement of bioinformatics and the main bioinformatics databases were summarized in the paper.
genomics;the third DNA sequencing technology;bioinformatics;database
10.3969/j.issn.1005-6521.2015.10.038
2014-01-28
楊悅(1984—),女(漢),博士研究生,研究方向:食品微生物。
王碩,男,教授,博士,研究方向:食品安全與食品微生物。