孫 瑜,蔡小寧,陳德富,高 山*
(1.南開(kāi)大學(xué)生命科學(xué)學(xué)院,天津300071;2.南京曉莊學(xué)院,南京 211171)
?
NgAgo-gDNA基因組編輯系統(tǒng)的成功及啟示
孫 瑜1,蔡小寧2,陳德富1,高 山1*
(1.南開(kāi)大學(xué)生命科學(xué)學(xué)院,天津300071;2.南京曉莊學(xué)院,南京 211171)
韓春雨等發(fā)明的DNA指導(dǎo)的基因組編輯系統(tǒng)NgAgo-gDNA,比原有的RNA指導(dǎo)的基因組編輯系統(tǒng)CRISPR-Cas9在靶向特異性(防脫靶),反應(yīng)可控性和基因組編輯范圍等方面都有顯著的改進(jìn)。NgAgo-gDNA不是一項(xiàng)簡(jiǎn)單的改進(jìn),是一項(xiàng)具有開(kāi)拓性的工作,沿著這條研究路線,可以繼續(xù)開(kāi)發(fā)出更先進(jìn)的基因組編輯系統(tǒng)。該研究充分體現(xiàn)了生物信息學(xué),特別是大數(shù)據(jù)挖掘在未來(lái)生命科學(xué)研究中的重要地位。本文僅從生物信息學(xué)角度,談?wù)勥@項(xiàng)研究的價(jià)值、意義以及可能引發(fā)的相關(guān)研究方向。
基因組編輯;NgAgo;CRISPR;Cas9;RNAi;全長(zhǎng)轉(zhuǎn)錄組;PacBio
2016年5月2日,Nature Biotechnology報(bào)道了韓春雨等發(fā)明的DNA指導(dǎo)的基因組編輯(Genome editing)系統(tǒng)NgAgo-gDNA[1],NgAgo是格氏嗜鹽堿桿菌(Natronobacterium gregoryi)AGO蛋白(Argonaute)的簡(jiǎn)稱,其本質(zhì)是一種核酸內(nèi)切酶。NgAgo酶根據(jù)指導(dǎo)DNA的定位,可以有效地對(duì)基因組目標(biāo)區(qū)域進(jìn)行編輯。這項(xiàng)研究不能僅僅看作是對(duì)現(xiàn)有的RNA指導(dǎo)的基因組編輯系統(tǒng)CRISPR-Cas9的技術(shù)改進(jìn),其能否商業(yè)化以替代CRISPR-Cas9也不是最重要的。NgAgo-gDNA只是一個(gè)新的開(kāi)始,沿著這條研究路線,很可能開(kāi)發(fā)出更先進(jìn)的基因組編輯系統(tǒng)。一項(xiàng)研究的意義在于研究者的原始出發(fā)點(diǎn)以及在實(shí)驗(yàn)和分析中體現(xiàn)的智慧,更為重要的是它能否拓寬相關(guān)領(lǐng)域的研究思路并開(kāi)辟新的研究方向。結(jié)合作者在多個(gè)項(xiàng)目中的實(shí)際工作經(jīng)驗(yàn),本文談?wù)勥@項(xiàng)研究的意義以及未來(lái)的發(fā)展方向。
一個(gè)基因組編輯系統(tǒng),可以簡(jiǎn)單分為負(fù)責(zé)識(shí)別(目標(biāo))靶序列的一段核酸(DNA或RNA)序列和負(fù)責(zé)切割的酶兩個(gè)部分(見(jiàn)圖1)。CRISPR-Cas9系統(tǒng)中是單鏈RNA(Single-stranded guide RNA,簡(jiǎn)稱sgRNA或gRNA)指導(dǎo)Cas9蛋白切割;NgAgo-gDNA系統(tǒng)中是5’端磷酸化的單鏈DNA(Single-stranded guide DNA,簡(jiǎn)稱gDNA)指導(dǎo)AGO蛋白切割。靶序列識(shí)別的特異性是關(guān)鍵問(wèn)題,酶的效率雖然也重要但是次要問(wèn)題。NgAgo-gDNA主要的技術(shù)進(jìn)步(按照重要性)包括以下幾點(diǎn):
1) 5'端磷酸化的單鏈DNA在哺乳動(dòng)物細(xì)胞中幾乎不存在,這保證了NgAgo不會(huì)被內(nèi)源的DNA序列誤導(dǎo),靶向錯(cuò)誤的基因組位點(diǎn),稱作脫靶(off-target)。點(diǎn)評(píng):這說(shuō)明轉(zhuǎn)基因技術(shù)并不是絕對(duì)安全;另外引出一個(gè)問(wèn)題,古細(xì)菌內(nèi)是否有單鏈DNA,如果沒(méi)有,這個(gè)酶在古細(xì)菌中是怎么工作的?
2) gDNA一旦與NgAgo結(jié)合,就不允許其他DNA片段插進(jìn)來(lái)替換,這又從另一方面保證了不脫靶。點(diǎn)評(píng):工作極為嚴(yán)謹(jǐn),考慮到了酶與底物的動(dòng)態(tài)作用關(guān)系。
3) NgAgo-gDNA系統(tǒng)中的gDNA是24 bp長(zhǎng)度,CRISPR-Cas9系統(tǒng)中的sgRNA是19 bp長(zhǎng)度,24 bp大大提高了目標(biāo)位點(diǎn)在基因組上的特異度。點(diǎn)評(píng):21 bp以上長(zhǎng)度的序列才能保證其在大型基因組中的唯一性,19 bp實(shí)用價(jià)值很低,PCR引物設(shè)計(jì)通常也要21 bp以上;現(xiàn)在各類升級(jí)版的CRISPR-Cas9系統(tǒng)已出現(xiàn),但NgAgo-gDNA起點(diǎn)高于CRISPR-Cas9。
4) 在NgAgo-gDNA系統(tǒng)中,指導(dǎo)序列-靶序列錯(cuò)配容忍度很低,錯(cuò)配一個(gè)堿基即減少73%~100%的酶切效率,三個(gè)錯(cuò)配則完全沒(méi)效果。另外,有實(shí)驗(yàn)證明gDNA的第8到11 bp位置最重要,這個(gè)有待NgAgo的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)(見(jiàn)圖2)來(lái)解釋。點(diǎn)評(píng):前四點(diǎn)從多個(gè)角度最小化脫靶可能性。
5) CRISPR-Cas9系統(tǒng)中的sgRNA需要由質(zhì)粒轉(zhuǎn)入細(xì)胞并表達(dá),而后形成一定結(jié)構(gòu)才能工作,可控性很差。舉一個(gè)最典型例子,如果crRNA富含GC堿基,它會(huì)在單鏈內(nèi)形成堿基互補(bǔ)配對(duì),即莖環(huán)結(jié)構(gòu),GC堿基配對(duì)之間形成三個(gè)氫鍵,因此莖環(huán)很難打開(kāi),嚴(yán)重影響crRNA與靶序列結(jié)合(圖1a)。NgAgo-gDNA系統(tǒng)中的gDNA直接轉(zhuǎn)入細(xì)胞,時(shí)間和濃度較CRISPR-Cas9系統(tǒng)更可控,但是,NgAgo酶依然要通過(guò)表達(dá)載體導(dǎo)入,其表達(dá)效率等問(wèn)題依然存在。gDNA理論上不會(huì)產(chǎn)生莖環(huán)結(jié)構(gòu)(這個(gè)還有待深入研究),有實(shí)驗(yàn)證明NgAgo-gDNA系統(tǒng)在富含GC堿基區(qū)域表現(xiàn)更好(原文獻(xiàn)[1]中圖4f)。點(diǎn)評(píng):向大量細(xì)胞遞送gDNA不是那么簡(jiǎn)單,影響RNAi進(jìn)入臨床的一個(gè)主要問(wèn)題就是遞送(Delivery)問(wèn)題。
6) Cas酶僅僅是剪開(kāi)雙鏈DNA(圖1b),NgAgo酶不僅剪開(kāi)DNA,而且同時(shí)去除幾個(gè)堿基,徹底讓這個(gè)基因的功能喪失。點(diǎn)評(píng):細(xì)胞內(nèi)有一些連接酶,可能會(huì)把切斷的地方連接上,使基因得到恢復(fù)。
7) CRISPR-Cas9系統(tǒng)要求指導(dǎo)序列后面有一個(gè)特征三堿基序列(即PAM序列)才能工作,限制了它的作用范圍。點(diǎn)評(píng):NgAgo-gDNA系統(tǒng)不要求PAM序列,因而擴(kuò)大了可以編輯的區(qū)域,這點(diǎn)改進(jìn)最不重要。
該研究起始于另外兩個(gè)AGO蛋白(TtAgo和PfAgo),它們需要在65 ℃工作。韓春雨等首先通過(guò)生物信息學(xué)常用的比對(duì)軟件PSI-BLAST,根據(jù)TtAgo和PfAgo的已知序列,搜索NCBI NR非冗余蛋白質(zhì)序列數(shù)據(jù)庫(kù)[2],找到了很多相似的蛋白質(zhì)序列,都是來(lái)自不同物種的AGO蛋白。而后,通過(guò)一系列生物信息分析和少量實(shí)驗(yàn),最終找到了可以在37 ℃工作的NgAgo酶。點(diǎn)評(píng):這就是典型的大數(shù)據(jù)挖掘,這個(gè)數(shù)據(jù)還不夠大,第二代測(cè)序和第三代測(cè)序數(shù)據(jù)更是海量。PSI-BLAST得到的相似蛋白質(zhì)序列可能成千上萬(wàn),不可能逐個(gè)去做實(shí)驗(yàn),必須通過(guò)生物信息學(xué)方法進(jìn)行初步篩選,初步篩選后得到的少量候選蛋白質(zhì)才可能進(jìn)行實(shí)驗(yàn)驗(yàn)證,文章沒(méi)有介紹這個(gè)篩選過(guò)程,估計(jì)應(yīng)該是經(jīng)驗(yàn)方法,沒(méi)有采用當(dāng)前主流的機(jī)器學(xué)習(xí)算法。如果篩選找不到符合條件的酶,還可以走這條路線:找到溫度最接近37 ℃的AGO酶,設(shè)計(jì)點(diǎn)突變改造。具體來(lái)說(shuō),就是將酶上每個(gè)氨基酸位點(diǎn)當(dāng)做特征,構(gòu)建數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)分類或擬合,再通過(guò)特征選擇篩選出關(guān)鍵位點(diǎn)進(jìn)行突變?cè)O(shè)計(jì)[3-8]。點(diǎn)評(píng):酶的改造或設(shè)計(jì)對(duì)生物信息學(xué)依賴很大。gDNA的24 bp長(zhǎng)度的確定(原文獻(xiàn)[1]中圖3d),得益于巧妙地利用了質(zhì)粒中增強(qiáng)型綠色熒光蛋白(Enhanced green fluorescent protein,簡(jiǎn)稱EGFP)的亮度變化來(lái)指示酶切割效率,從20~27 bp幾種長(zhǎng)度中選擇了亮度最低(即切割效率最高的)的24 bp長(zhǎng)度。這個(gè)實(shí)驗(yàn)設(shè)計(jì)非常簡(jiǎn)單,僅使用了蛋白質(zhì)印跡法(Western blot)精度就夠了,但24 bp與25 bp結(jié)果亮度差異不大。無(wú)論是蛋白質(zhì)印跡法還是定量PCR方法都受實(shí)驗(yàn)條件和人工操作影響較大,高通量測(cè)序可以獲得更為精準(zhǔn)的比較結(jié)果。
(a) sgRNA的結(jié)構(gòu) (b) sgRNA結(jié)合到目標(biāo)基因 圖1 CRISPR-Cas9簡(jiǎn)單原理Fig. 1 How CRISPR-Cas9 works
注:A:sgRNA(single-stranded guide RNA)包括至少一個(gè)crRNA(CRISPR-derived RNA,紅色)和一個(gè)tracrRNA (trans-activating crRNA,藍(lán)色)。如果crRNA中GC含量過(guò)高,會(huì)形成莖環(huán)結(jié)構(gòu),嚴(yán)重影響sgRNA結(jié)合到基因組目標(biāo)區(qū)域;B:sgRNA(紅色)指導(dǎo)Cas9酶在與crRNA配對(duì)的靶序列(黑色)剪切雙鏈DNA。sgRNA要求目標(biāo)基因后面有一個(gè)特征三堿基序列(即PAM序列)才能工作。
Notes:A:a sgRNA (single-stranded guide RNA) contains at least one crRNA (CRISPR-derived RNA, in red color) and one tracrRNA (trans-activating crRNA, in blue color). A stem-loop structure may form from a crRNA due to its high GC content, which could prevent the binding of sgRNA to the target region on the genome.
B:a sgRNAs (in red color) guides an Cas9 enzyme to cleave double stranded DNA of the target gene (black). This system requires a featured three base (PAM) sequence to work.
下一步生物信息工作可以立刻展開(kāi),南開(kāi)大學(xué)阮吉壽、楊建益和高山等通過(guò)串線法(Threading)解析了NgAgo酶的結(jié)構(gòu)(見(jiàn)圖2),沿著這條研究路線,可以深入了解gDNA指導(dǎo)以及靶序列切割的機(jī)制;通過(guò)序列比對(duì)以及結(jié)構(gòu)比對(duì),阮吉壽等又獲得了很多有相似功能的酶,這些工作幾天內(nèi)即可完成,這是傳統(tǒng)單純使用實(shí)驗(yàn)手段望塵莫及的。當(dāng)務(wù)之急是找到更多具有相似功能的酶,利用這個(gè)已經(jīng)成熟的流程或許會(huì)有更多新的發(fā)現(xiàn)。點(diǎn)評(píng):國(guó)內(nèi)的生物信息研究團(tuán)隊(duì)或者個(gè)人應(yīng)該搶先進(jìn)行大數(shù)據(jù)挖掘,充分發(fā)揮我們國(guó)家人多的特點(diǎn),保持這一領(lǐng)域優(yōu)勢(shì),防止國(guó)外高水平實(shí)驗(yàn)室搶在前面。另外,實(shí)驗(yàn)的跟進(jìn)也很重要,南開(kāi)大學(xué)陳德富等根據(jù)韓春雨提供的NgAgo酶的動(dòng)物表達(dá)載體構(gòu)建了植物表達(dá)載體。
CRISPR-Cas9與NgAgo-gDNA中用到的生物學(xué)機(jī)制,普遍認(rèn)為是來(lái)自細(xì)菌和古細(xì)菌在長(zhǎng)期演化過(guò)程中形成的一種適應(yīng)性免疫防御機(jī)制,即識(shí)別并切割入侵的病毒或外源DNA。NgAgo-gDNA中使用了AGO蛋白,與RNA干涉(RNA interference,簡(jiǎn)稱RNAi)有相似機(jī)制,這是更早獲得廣泛研究的機(jī)制,也認(rèn)為是細(xì)胞對(duì)于外源病毒的一種防御機(jī)制。NgAgo-gDNA是gDNA指導(dǎo)切割外源的雙鏈DNA;RNAi是小干擾RNA (Small interfering RNA,簡(jiǎn)稱siRNA)指導(dǎo)切割外源的雙鏈RNA。細(xì)胞內(nèi)還有更多相似的機(jī)制,從這個(gè)角度繼續(xù)挖掘,是一個(gè)很重要的研究方向。相關(guān)的基礎(chǔ)問(wèn)題有AGO酶作用的核酸復(fù)合體種類的特異性(DNA-DNA、DNA-RNA或RNA-RNA);序列特異性(互補(bǔ)、回文以及兩端的堿基種類和修飾);細(xì)胞內(nèi)還有更多的酶切割作用,例如miRNA成熟需要切割單鏈RNA中的莖環(huán)結(jié)構(gòu),都有什么普遍規(guī)律?AGO蛋白的故事還沒(méi)有完,與AGO具有相同結(jié)構(gòu)域(Domain)或模體(Motif)的DNA或RNA結(jié)合蛋白(DNA-binding or RNA-binding proteins)還有多少?有沒(méi)有RNA指導(dǎo)的AGO酶切割雙鏈DNA?是否存在某些生物利用AGO酶對(duì)自身基因組進(jìn)行編輯?AGO從低等生物到高等生物中的廣泛存在,又賦予了它進(jìn)化上的巨大研究?jī)r(jià)值。例如,切割雙鏈RNA病毒的AGO酶和切割雙鏈DNA病毒的AGO酶的宿主是否和病毒存在共進(jìn)化關(guān)系?當(dāng)前,普遍認(rèn)為宿主利用AGO對(duì)病毒切割是一種免疫機(jī)制,反之,病毒是否利用AGO切割宿主以整合進(jìn)自己的某些片段?
圖2 通過(guò)串線法預(yù)測(cè)的NgAgo酶結(jié)構(gòu)Fig. 2 The structure of NgAgo predicted using the threading method
這里再介紹兩個(gè)RNAi相關(guān)研究的新方向,都是基于當(dāng)前高通量測(cè)序技術(shù)的。第一個(gè)是新的病毒檢測(cè)方法。2009年,國(guó)際馬鈴薯中心的Jan Kreuz首先在國(guó)際上提出small RNA高通量測(cè)序可以作為一種通用手段來(lái)檢測(cè)動(dòng)植物DNA或RNA病毒[9]。這種方法具有靈敏度高、能夠檢測(cè)新病毒、不需要已知序列信息和不需要純化培養(yǎng)等優(yōu)點(diǎn)。康奈爾大學(xué)費(fèi)章君和高山等開(kāi)發(fā)了第一個(gè)基于small RNA高通量測(cè)序的病毒檢測(cè)軟件,可以大規(guī)模自動(dòng)化檢測(cè)動(dòng)植物攜帶的病毒組[10-13]。南開(kāi)大學(xué)高山在2013年國(guó)際微生物大會(huì)(WCM 2013)上提出small RNA測(cè)序可以用于臨床病毒檢測(cè)[14],并通過(guò)大數(shù)據(jù)挖掘檢測(cè)到六類嚴(yán)重危害人類健康的病毒[15],分別是EBV、HBV、HCV、HIV、HPV和SMRV。另一個(gè)研究方向是通過(guò)RNAi中產(chǎn)生的siRNA雙鏈體(siRNA duplex),尋找病毒影響細(xì)胞的機(jī)制。費(fèi)章君等發(fā)現(xiàn)病毒siRNA片段主要集中于21、22、23和24 bp長(zhǎng)度,其中21和22 bp來(lái)自病毒,23和24 bp來(lái)自宿主[10];高山等分析植物siRNA duplexes主要集中于21 bp而且有對(duì)稱的2 bp突出(Overhang);根據(jù)昆蟲(chóng)small RNA測(cè)序大數(shù)據(jù)挖掘結(jié)果,高山等發(fā)現(xiàn)動(dòng)物可能還存在以33 bp為中心的RNA降解或切割機(jī)制(未發(fā)表)。
CRISPR-Cas9中的crRNA發(fā)現(xiàn)于1987年,日本微生物學(xué)家石野良純(Yoshizumi Ishino)在克隆大腸桿菌堿性磷酸酶同工酶(Isozymes of alkaline phosphatase,簡(jiǎn)稱Iap)基因編碼序列時(shí),意外發(fā)現(xiàn)iap基因的3’端側(cè)翼區(qū)(Flanking region)存在一個(gè)稱作間隔串聯(lián)重復(fù)(Spaced tandem repeat)的DNA片段,它包括五個(gè)包含29個(gè)保守堿基的重復(fù)片段,這些重復(fù)片段之間由32個(gè)堿基的居間序列(Intervening sequence,簡(jiǎn)稱IVS)隔開(kāi)。由于受技術(shù)和認(rèn)識(shí)限制,很長(zhǎng)一段時(shí)間內(nèi),基因組研究的重點(diǎn)集中于可以轉(zhuǎn)錄的區(qū)域(轉(zhuǎn)錄組),轉(zhuǎn)錄組研究的重點(diǎn)又集中于編碼蛋白質(zhì)的序列,導(dǎo)致基因組中重復(fù)序列(Repeat)被忽視。因此,后來(lái)才知道這個(gè)重復(fù)序列不僅表達(dá),而且有如此重要的功能。
根據(jù)南開(kāi)大學(xué)卜文俊和高山等利用最新的PacBio流程在國(guó)際上首次對(duì)昆蟲(chóng)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序[16]的結(jié)果發(fā)現(xiàn),基因組中很多過(guò)去認(rèn)為的不轉(zhuǎn)錄的重復(fù)序列、控制序列、假基因以及各種垃圾序列(Junk DNA)都是轉(zhuǎn)錄的,基因組可轉(zhuǎn)錄區(qū)域由于受二代測(cè)序技術(shù)限制被低估了[17]。江西師范大學(xué)張帆濤、南開(kāi)大學(xué)陳德富和高山在研究水稻(日本晴)轉(zhuǎn)錄組時(shí)發(fā)現(xiàn)了一些新的可變剪接模式,以及大量雙向的反義轉(zhuǎn)錄本(Antisense transcripts)被誤判為一個(gè)方向轉(zhuǎn)錄。南開(kāi)大學(xué)劉林和高山等通過(guò)單細(xì)胞測(cè)序技術(shù)發(fā)現(xiàn),大部分過(guò)去認(rèn)為不表達(dá)或無(wú)功能的假基因在干細(xì)胞或腫瘤細(xì)胞中高度表達(dá),并且很可能是有功能的。卜文俊和高山等的研究證實(shí)了通過(guò)PacBio全長(zhǎng)轉(zhuǎn)錄組測(cè)序可以獲得完整的成熟體、轉(zhuǎn)錄前體和部分原始轉(zhuǎn)錄本,有助于了解RNA從初始轉(zhuǎn)錄、加工到成熟以及編輯等方面的機(jī)制,也是認(rèn)識(shí)一些非編碼RNA(Non-coding RNAs)功能的強(qiáng)有力手段[18]。更多PacBio全長(zhǎng)轉(zhuǎn)錄組測(cè)序方面的內(nèi)容,參見(jiàn)南開(kāi)大學(xué)高山等編著的《PacBio單分子測(cè)序指南》。
第一點(diǎn),該研究的專業(yè)歸屬問(wèn)題。該研究只用到了非?;镜姆肿由飳W(xué)實(shí)驗(yàn)方法,其核心工作就是從已有數(shù)據(jù)庫(kù)中尋找線索,而后對(duì)系統(tǒng)進(jìn)行優(yōu)化,這些屬于生物信息學(xué)的研究?jī)?nèi)容。第二點(diǎn),生命科學(xué)的研究?jī)?nèi)容包括了一些分子層面的基本作用元素,簡(jiǎn)單說(shuō)就是酶的切割連接、合成降解、堿基互補(bǔ)、核酸與蛋白質(zhì)以及蛋白質(zhì)與蛋白質(zhì)幾個(gè)層面的相互作用。在不同物種和系統(tǒng)中,一些規(guī)律相同或非常相似,通過(guò)信息整合再進(jìn)行實(shí)驗(yàn)測(cè)試,不僅大大提高效率,而且能夠發(fā)現(xiàn)一些更高層次的共性或產(chǎn)生更深入的理解。第三點(diǎn),生物信息學(xué)未來(lái)研究方向,必須從大數(shù)據(jù),特別是高通量數(shù)據(jù)出發(fā)。NgAgo-gDNA系統(tǒng)的成功對(duì)生物信息學(xué)研究者的最大啟發(fā)就是當(dāng)前積累的生物數(shù)據(jù)沒(méi)有充分利用,有巨大潛力可以挖掘。
當(dāng)前,也有一些“專家”對(duì)NgAgo-gDNA系統(tǒng)的原創(chuàng)性提出質(zhì)疑,其中一個(gè)重量級(jí)的證據(jù)就是馴鹿生物科學(xué)公司(Caribou Biosciences)的專利(WO 2014/189628 A1),它保護(hù)了一種DNA指導(dǎo)的AGO酶系統(tǒng),并且專利保護(hù)擴(kuò)展到了具有一定同一性(identity)的蛋白質(zhì)序列。點(diǎn)評(píng):專利只是停留在紙上(很多專利是擴(kuò)展保護(hù),其實(shí)并沒(méi)有相應(yīng)技術(shù)),開(kāi)發(fā)一個(gè)可以實(shí)用的基因組編輯系統(tǒng)的原創(chuàng)性不容置疑,現(xiàn)在如果能找到工作在更低溫度的AGO酶(植物轉(zhuǎn)基因所需)依然是原創(chuàng)性工作。況且,基因組方面的專利保護(hù),涉及到基因或蛋白序列,基本上毫無(wú)可操作性。第一,基因組學(xué)研究的對(duì)象是自然界存在的天然物質(zhì)(注意與計(jì)算機(jī)軟硬件的人工產(chǎn)物不同),測(cè)序序列雖然是勞動(dòng)產(chǎn)物,但是其包含的信息難以納入私人產(chǎn)權(quán),況且這些結(jié)果包括了大量前人公開(kāi)的成果或數(shù)據(jù)(例如引物可能來(lái)自NCBI數(shù)據(jù)庫(kù))。曾經(jīng)多次有人試圖將人類基因組測(cè)序結(jié)果納入專利保護(hù),最終還是失敗了。第二,即使可以將某些增量信息(例如新發(fā)現(xiàn)一條突變序列)納入專利保護(hù),也沒(méi)有一個(gè)標(biāo)準(zhǔn)可以參考。舉個(gè)簡(jiǎn)單例子,某人測(cè)了一條AGO蛋白,并且首次發(fā)現(xiàn)它有某個(gè)功能A,可以用于基因組編輯,但不能把AGO蛋白注冊(cè)為他的。自然界相似的蛋白質(zhì)序列數(shù)量驚人,即使能夠注冊(cè)了這條蛋白質(zhì)序列,當(dāng)然可以允許它設(shè)定一個(gè)同一性閾值擴(kuò)展保護(hù),那么這個(gè)閾值如何設(shè),沒(méi)有標(biāo)準(zhǔn)可以參考,設(shè)90%可否?對(duì)于一個(gè)非常保守的蛋白質(zhì),90%的同一性,可能從脊椎動(dòng)物跨越到無(wú)脊椎動(dòng)物。再舉一個(gè)例子,某人發(fā)現(xiàn)一個(gè)蛋白,本身可能是無(wú)法實(shí)際應(yīng)用的(例如要求65 ℃才能工作),另外一個(gè)人做幾個(gè)點(diǎn)突變就可以實(shí)際應(yīng)用(例如可以在常溫下工作),同一性可能保持99%,如果第一個(gè)人的專利獲批了,就阻止了后人的技術(shù)開(kāi)發(fā)。NgAgo酶的序列來(lái)自NCBI,其工作條件37 ℃等天然屬性是韓春雨等發(fā)現(xiàn)的,專利保護(hù)可以覆蓋以37 ℃為中心一定范圍內(nèi)工作的AGO酶么?或保護(hù)全部與gDNA一起工作的AGO酶么?唯一能保護(hù)的就是實(shí)驗(yàn)或臨床工作時(shí)的流程或相關(guān)技術(shù)(比如大規(guī)模細(xì)胞的遞送技術(shù))。專利保護(hù)的邏輯悖論就是,不注冊(cè)專利沒(méi)人知道,仿造不出來(lái);去注冊(cè)專利會(huì)導(dǎo)致技術(shù)泄密。在科研成果保護(hù)方面,中國(guó)不要跟隨西方體制,盲目崇拜專利。對(duì)于大的壟斷公司,核心技術(shù)往往首選技術(shù)保密,其次才去申請(qǐng)專利,沒(méi)什么實(shí)用價(jià)值的再去發(fā)論文,論文發(fā)出來(lái),大家都學(xué)會(huì)了方法,也就沒(méi)法保護(hù)了。專利保護(hù)更適合大家都看得見(jiàn)的外觀設(shè)計(jì)等非核心技術(shù)方面。另外,歐美大公司為了實(shí)現(xiàn)技術(shù)壟斷,圍繞一個(gè)技術(shù)寫(xiě)很多關(guān)系不大的東西,把有可能想到的實(shí)際做不出來(lái)的都保護(hù)上,目的就是阻止落后國(guó)家開(kāi)發(fā)新技術(shù)。況且,專利注冊(cè)消耗的精力太大,CRISPR-Cas9的發(fā)明者消耗了大量精力搶奪CRISPR-Cas9專利,才給了其他人發(fā)明新基因組編輯系統(tǒng)的機(jī)會(huì)。因此,本文作者建議對(duì)于我國(guó)重要的達(dá)到國(guó)際一流的技術(shù)采取專項(xiàng)經(jīng)費(fèi)支持,走技術(shù)保密路線,既不發(fā)表英文論文也不申請(qǐng)專利,避免與發(fā)達(dá)國(guó)家產(chǎn)生技術(shù)糾紛。
致謝:感謝科學(xué)網(wǎng)各位老師對(duì)這項(xiàng)工作的評(píng)論與傳播,主要有孫學(xué)軍、許培揚(yáng)、丁廣進(jìn)、侯成亞、杜立智、戴德昌、王毅翔、張憶文、劉立、牛登科、陸綺、徐曉、姬揚(yáng)、曾泳春、李春杰、田云川、呂洪波、王濤、姚伯元、任文龍、張鈁、馬志超、趙保明、史曉雷、王偉、石磊、羅教明、袁海濤、秦逸人、羅湘南、孟凡、張洋、沈律、陳方銳、黃彬彬、張超、劉建彬、黃秀清、王林平、李紅雨和邵鵬等。
References)
[1]GAO F, SHEN X, JIANG F, et al. DNA-guided genome editing using the Natronobacterium gregoryi Argonaute[J].Nature Biotechnology, 2016, advance online publication. DOI: 10.1038/nbt.3547.
[2]高山, 歐劍虹,肖凱.R語(yǔ)言與Bioconductor生物信息學(xué)應(yīng)用[M]. 天津: 天津科技翻譯出版公司,2014.
GAO Shan, OU Jianhong, XIAO Kai. Using R and bioconductor in bioinformatics (in Chinese) [M]. Tianjin: Tianjin Science and Technology Translation Publishing Co., 2014.
[3]GAO S, ZHANG N, DUAN G, et al. Prediction of function changes associated with single-point protein mutations using support vector machines (SVMs)[J]. Human Mutation, 2009,30(8): 1161-1166.
[4]GAO S ,FANG J.Predicting kinase-specific phosphorylation sites using a multitask classification framework[J]. in 2011 IEEE International Conference on Bioinformatics and Biomedicine, BIBM 2011, November 12, 2011. Atlanta, GA, United states: IEEE Computer Society. DOI:10.1109/BIBM.2011.57.
[5]GAO S,XU S,FANG Y,et al.Using multitask classification methods to investigate the kinase-specific phosphorylation sites[J]. Proteome Science, 2012, 10(Suppl 1): S7.
[6]ZHANG N, LI B, GAO S, et al. Computational prediction and analysis of protein γ-carboxylation sites based on a random forest method[J]. Molecular Biosystems, 2012,8(11):2946-2955.
[7]FANG Y, GAO S, TAI D, et al. Identification of properties important to protein aggregation using feature selection[J]. Bmc Bioinformatics, 2013(14): 314.
[8]ZHANG N, GAO S, CHEN L, et al. Using multitask learning methods to investigate signal peptides and signal anchors[J]. Current Bioinformatics, 2013,8(5): 533-538.
[9]Kreuze J F, PEREZ A, UNTIVEROS M, et al. Complete viral genome sequence and discovery of novel viruses by deep sequencing of small RNAs: a generic method for diagnosis, discovery and sequencing of viruses [J].Virology, 2009, 388(1): 1-7.
[10]LI R, GAO S, HERNANDEZ A G, et al. Deep sequencing of small RNAs in tomato for virus and viroid identification and strain differentiation [J]. PLoS ONE, 2012, 7(5): e37127.
[11]LI R, GAO S, FEI Z, et al. Complete genome sequence of a new tobamovirus naturally infecting tomatoes in mexico[J]. Genome Announcements, 2013,1(5): e00794-13.
[12]PADMANABHAN C, GAO S, LI R, et al. Complete genome sequence of an emerging genotype of tobacco streak virus in the United States [J]. Genome Announcements, 2014,2(6): e01138-14.
[13]LI R, GAO S, BERENDSEN S, et al. Complete genome sequence of a novel genotype of squash mosaic virus[J]. Genome Announcements, 2015,3(1): e01583-14.
[14]GAO S, LI R, LING K, et al. A novel method to detect Virome based on small RNA deep sequencing technologies[J]. in BIT’s 3rd Annual World Congress of Microbes , WCM 2013, July 30, 2013. Wuhan, HuBei, China: WCM 2013. DOI:10.1016/j.jcv.2014.06.013.
[15]WANG Fang, SUN Yu, RUAN Jishou, et al. Using small RNA deep sequencing to detect human viruses[J]. BioMed Research International, 2016,2016(2016): 9. http://dx.Doi.org/10.1155/2016/2596782.
[16]任毅鵬, 張佳慶, 孫瑜, 等. 基于PacBio平臺(tái)的全長(zhǎng)轉(zhuǎn)錄組測(cè)序[J]. 科學(xué)通報(bào), 2016,61(11): 1250-1254.
REN Yipeng, ZHANG Jiaqing, SUN Yu, et al. The study of full-length transcriptome sequencing on PacBio platform (in Chinese)[J]. Chinese Science Bulletin, 2016, 61(11): 1250-1254.
[17]劉圣, 馮祖仁, 高山, 下一代測(cè)序數(shù)據(jù)的質(zhì)量控制研究[J]. 軍事醫(yī)學(xué), 2014(005): 377-380.
LIU Sheng, FENG Zuren, GAO Shan, et al. Study on quality control of the next-generation sequencing data[J]. Military Medicine, 2014(005): 377-380.
[18]GAO S, REN Y, SUN Y, et al. PacBio Full-length transcriptome profiling of insect mitochondrial gene expression[J]. RNA Biology, 2016, 13(6): 635. DOI: 10.1080/15476286.2016.1197481.
NgAgo-gDNA will stimulate the development of genome editing systems
SUN Yu1,CAI Xiaoning2,CHEN Defu1,GAO Shan1*
(1.CollegeofLifeSciences,NankaiUniversity,Tianjin300071,China;2.NanjingXiaozhuangUniversity,Nanjing211171,China)
A new genome editing system named NgAgo-gDNA was invented using 5’ phosphorylated single-stranded guide DNA (gDNA) of 24 nucleotides and Natronobacterium gregoryi Argonaute (NgAgo). This system outperformed the RNA-guided genome editing system CRISPR-Cas9 on several features. The success of the NgAgo-gDNA project demonstrated the importance of bioinformatics in biological research and will stimulate the development of genome editing systems. The NgAgo-gDNA project was initiated from searching homologs of TtAgo and PfAgo, two other enzymes from the AGO protein family. The authors used the software PSI-BLAST against the NCBI NR database to retrieve homologous protein sequences. After further analysis and filtering, they found the NgAgo protein (GenBank: AFZ73749.1), which works at the temperature of 37 ℃. The key step in the NgAgo-gDNA project is to narrow down a great number of AGO homologous protein sequences to several candidates using bioinformatics methods for experimental validation of their functions. These bioinformatics methods were not explained in the published paper but could belong to the empirical methodology. An alternative but advanced methodology is to use machine learning algorithms (e.g. support vector machine or random forest) to modify AGO proteins which work at a temperature close to 37 ℃. The future studies can be conducted in several fields using bioinformatics methods. First, the structural information of the NgAgo protein can be used to reveal the mechanism of the DNA and protein interaction. The sequence with structure comparison between NgAgo and TtAgo & PfAgo or other AGO proteins will help understand their molecular functions. Second, using the sequence or structure similarities, more RNA-or DNA-binding proteins can be retrieved from the public databases to help design new genome editing systems. Third, since RNAi (RNA interference) uses AGO to cleave double stranded RNAs, the guide-target complexes of AGO proteins need be studied to reveal the common mechanisms and differences between genome editing and RNAi. Fourth, a great number of AGO genes from lower to higher organisms can be used to study the evolution of AGO and the coevolution between the viruses and the hosts.
Genome editing; NgAgo; CRISPR; Cas9; RNAi;Full-length transcriptome; PacBio
2016-06-03;
2016-06-23.
中央高?;究蒲袠I(yè)務(wù)費(fèi)(南開(kāi)大學(xué))
孫瑜,男,碩士研究生,研究方向:生物信息學(xué);E-mail:sun_yu@mail.nankai.edu.cn.
*通信作者:高山,男,副教授、碩導(dǎo),研究方向:生物信息學(xué);E-mail:gao_shan@mail.nankai.edu.cn.
10.3969/j.issn.1672-5565.2016.03.07
Q786
A
1672-5565(2016)03-167-06