尤 琪,吳文文,姜 藝
(教育部植物功能基因組學(xué)重點(diǎn)實(shí)驗(yàn)室/江蘇省作物基因組學(xué)和分子育種重點(diǎn)實(shí)驗(yàn)室/江蘇省糧食作物現(xiàn)代產(chǎn)業(yè)技術(shù)協(xié)同創(chuàng)新中心,揚(yáng)州大學(xué) 農(nóng)學(xué)院,江蘇 揚(yáng)州 225009)
基因編輯技術(shù)是當(dāng)前科學(xué)界研究的熱點(diǎn),自問世之初已經(jīng)歷了至少三代的技術(shù)變革,并于2020年獲得了諾貝爾化學(xué)獎(jiǎng)。它不僅是基礎(chǔ)科學(xué)的一種研究工具,也是我們農(nóng)業(yè)發(fā)展、醫(yī)療進(jìn)步的重要手段,可廣泛運(yùn)用于動(dòng)植物遺傳育種、醫(yī)療衛(wèi)生、疾病防御以及其他諸多領(lǐng)域[1]。
CRISPR(clustered regularly interspaced short palindromic repeats)是細(xì)菌基因組內(nèi)一種成簇規(guī)則的間隔短回文重復(fù)序列,是一個(gè)用于對(duì)抗病毒的系統(tǒng)[2]。CRISPR核酸酶可以通過在雙鏈DNA斷裂(DSB)位點(diǎn)產(chǎn)生突變的方法,對(duì)目標(biāo)區(qū)域進(jìn)行基因編輯,包括基因敲除、插入和替換等[3]。目前已有的基因編輯方法包括鋅指蛋白(zinc finger proteins,ZNFs)、轉(zhuǎn)錄激活因子樣效應(yīng)物核酸酶(transcription activator-like effector nucleases,TALENS)和CRISPR核酸酶等工具[4-7]。與ZNF和TALENS相比,CRISPR-Cas[CRISPR相關(guān)蛋白(Cas)系統(tǒng)]利用RNA引導(dǎo)核酸酶,對(duì)靶位點(diǎn)具有較好的特異性。因此,CRISPR-Cas系統(tǒng)作為一種革命性的基因組編輯工具已被廣泛應(yīng)用于疾病治療和作物育種中[6-9]。該系統(tǒng)中CRISPR-Cas9和CRISPR-Cpf1(Cas12)編輯體系運(yùn)用最為廣泛,前者編輯區(qū)尾需富含G堿基的5′-NGG-3′的基序(PAM),后者則需在5’端富含T堿基的PAM[10-12]。
基因編輯效果的鑒定主要包含突變類型檢測(cè)和編輯效率的檢測(cè)兩方面。隨著高通量測(cè)序技術(shù)的日漸成熟,其憑借低成本、高覆蓋率和精確定量的優(yōu)勢(shì),已大量用于基因編輯效果的評(píng)估。然而,高通量數(shù)據(jù)無法通過一般統(tǒng)計(jì)軟件直接分析,因此一些用于分析高通量測(cè)序結(jié)果的生物信息學(xué)工具應(yīng)運(yùn)而生。例如Hi Tom[13]、CLiCKAR[14]和Cpf1-Database[15]是可視化和分析集合篩查數(shù)據(jù)的網(wǎng)絡(luò)平臺(tái),AGEseq[16]、CRISPR-DAV[17]、Batch-GE[18]和Cas-Analyzer[19]等是編輯實(shí)驗(yàn)數(shù)據(jù)的本地化分析獨(dú)立軟件。目前,這些工具還存在局限性。例如,網(wǎng)絡(luò)平臺(tái)缺乏對(duì)批量樣本的分析,高通量CRISPR-Cas9和CRISPR-Cpf1系統(tǒng)的編輯數(shù)據(jù)不能同時(shí)處理和比較,以及基因編輯實(shí)驗(yàn)的突變效率和準(zhǔn)確性評(píng)估沒有得到很好的總結(jié)和可視化等。
為此,我們使用Python腳本開發(fā)了一個(gè)自動(dòng)化的獨(dú)立工具包,命名為作物基因編輯效果可視化鑒定軟件。這是一個(gè)集測(cè)序讀段比對(duì)、統(tǒng)計(jì)讀段數(shù)、計(jì)算突變頻率(即插入和缺失)、評(píng)估基因編輯的效率和準(zhǔn)確性以及結(jié)果可視化等分析步驟于一體的軟件包。為了滿足不同平臺(tái)使用者的需求,該軟件支持Windows、Linux和MacOS等多種操作系統(tǒng)安裝使用。并且,我們包裝了GUI可視化程序界面,用戶只需點(diǎn)擊選擇即可完成數(shù)據(jù)的導(dǎo)入、分析和結(jié)果的查看,為非編程人員提供了便利。該軟件可以同時(shí)分析一組CRISPR-Cas9和CRISPR-Cpf1樣本數(shù)據(jù),從而比較基因組編輯內(nèi)切酶的效率和準(zhǔn)確性。在該軟件中,我們提供了簡(jiǎn)單的示例文件來幫助用戶使用,包括樣品信息表、目標(biāo)編輯序列和測(cè)序數(shù)據(jù)。通過導(dǎo)入這些文件,軟件就會(huì)自動(dòng)輸出圖像結(jié)果和文本結(jié)果。此外,我們還提供了軟件安裝和使用的視頻教學(xué),方便使用者快速掌握軟件的安裝和使用要點(diǎn)。
作物基因編輯效果可視化鑒定軟件基于Python腳本開發(fā),專門用于CRISPR-Cas9和CRISPR-Cpf1兩種核酸酶基因編輯效果的鑒定。該軟件除了對(duì)編輯效率的分析之外,還包含了高通量數(shù)據(jù)預(yù)處理功能,即雙端測(cè)序數(shù)據(jù)合并和混池測(cè)序結(jié)果拆分(圖1)。使用該軟件計(jì)算編輯效率,需要提供3種信息文件,即基因編輯樣品組信息表(圖2-A)、樣本信息表(圖2-B)和目標(biāo)編輯區(qū)域序列(圖2-C)。其中,基因編輯樣品組信息表需要提供該組數(shù)據(jù)中處理組和對(duì)照組相關(guān)信息,包括組數(shù)據(jù)的組名稱(group)、編輯后處理的樣品名稱(包括重復(fù),rep1-rep3)、對(duì)照樣品名稱(control)、編輯區(qū)域序列名稱(gene)、編輯區(qū)始正負(fù)鏈(strand)以及gRNA編輯區(qū)始末位點(diǎn)(start和end)。樣本信息表需要提供每個(gè)樣品的詳細(xì)信息,包括樣品排序號(hào)(Index)、樣品所在文件夾名稱(Sample)、載體名稱(Vector,可填可不填)、樣品名稱(Note,必須跟圖2-A的基因編輯樣品組信息表中的rep1、rep2、rep3和control列對(duì)應(yīng)的名稱一致)、編輯區(qū)域序列名稱(gene)、編輯區(qū)始正負(fù)鏈(strand)以及gRNA編輯區(qū)始末位點(diǎn)(start和end)。示例文件放在軟件的sample_test目錄下。
首先需要將數(shù)據(jù)進(jìn)行比對(duì)。目前主流測(cè)序采用雙端測(cè)序,因此進(jìn)行編輯效率計(jì)算前,需要將測(cè)序結(jié)果預(yù)處理。這里,可以使用“Merge Sequence”即拼接界面(圖1-B),輸入雙端測(cè)序(paired-end)的結(jié)果,選取輸出路徑,設(shè)置拼接后的結(jié)果文件名稱,即可得到拼接以后的結(jié)果。此過程通過內(nèi)置的FLASH軟件實(shí)現(xiàn)[20]。所有雙端測(cè)序結(jié)果預(yù)處理后,根據(jù)編輯效率計(jì)算界面(圖1-C)的計(jì)算窗口提示,依次選取基因編輯樣品組信息表、樣本信息表和目標(biāo)編輯區(qū)域序列(圖2)3個(gè)信息文件,設(shè)置好測(cè)序數(shù)據(jù)輸入和結(jié)果輸出路徑,即可實(shí)現(xiàn)編輯效果的批量計(jì)算。該程序通過集成BWA、Picard和SamTools軟件包實(shí)現(xiàn)數(shù)據(jù)的比對(duì)和索引。
圖1 作物基因編輯效果可視化鑒定軟件工作流程圖
A,基因編輯樣品組信息表;B,樣本信息表;C,目標(biāo)編輯區(qū)域序列。
其次,定義需要計(jì)算的編輯區(qū)域。基于兩種CRISPR編輯系統(tǒng)核酸酶的識(shí)別區(qū)的特點(diǎn),我們內(nèi)置計(jì)算的兩個(gè)核酸酶的編輯區(qū)為:(1)Cas9區(qū)域包含gRNA目標(biāo)區(qū)域上游10個(gè)堿基和下游10個(gè)堿基;(2)Cpf1區(qū)域包含crRNA目標(biāo)區(qū)域上游10個(gè)堿基和下游30個(gè)堿基。
最后,檢測(cè)突變類型和計(jì)算編輯效率。對(duì)于定義的編輯區(qū)域比對(duì)上的測(cè)序讀段(read),我們整合了Pysam程序檢測(cè)其突變的不同類型(即缺失和插入),然后自行編寫腳本統(tǒng)計(jì)。我們?cè)O(shè)置了統(tǒng)一標(biāo)準(zhǔn)對(duì)每一條比對(duì)上的測(cè)序讀段進(jìn)行分類:當(dāng)測(cè)序讀段只存在缺失情況時(shí),它被劃分為缺失組;當(dāng)測(cè)序讀段只存在插入時(shí),它被劃分為插入組;當(dāng)一條測(cè)序讀段同時(shí)存在插入和缺失型突變時(shí),它屬于插入和缺失組。因此,我們將比對(duì)到編輯區(qū)域的讀段分為上述3組突變類型進(jìn)行頻率計(jì)算。最后,整合matplotlib模塊包繪制各位點(diǎn)突變頻率和基因組編輯效率的細(xì)節(jié)。
相關(guān)軟件已提交到GitHub軟件平臺(tái),MacOS和Linux系統(tǒng)用戶可以自行下載安裝。下載地址為:https://github.com/zhangtaolab/CRISPRMatchGUI。Windows系統(tǒng)用戶可以下載虛擬機(jī)VirtualBox,然后下載我們配置好的鏡像即可直接使用。鏡像地址:https://pan.baidu.com/s/1L8KPij9SP2Mp9v7RYgS5_w,提取碼:CPF1。視頻解說也上傳到優(yōu)酷平臺(tái),詳細(xì)地址在GitHub的用戶手冊(cè)中可以查詢。因此,用戶可以通過視頻更直觀地學(xué)習(xí)了解軟件使用方式。
用戶可在Windows、Linux和MacOS 3種主流操作環(huán)境中安裝和使用軟件,相關(guān)軟件使用手冊(cè)及程序包已上傳至GitHub軟件平臺(tái),詳細(xì)的使用教程視頻已上傳至優(yōu)酷平臺(tái)(詳見GitHub的用戶手冊(cè))。
作物基因編輯效果可視化鑒定軟件的結(jié)果頁面(圖3-A)提供4種類型結(jié)果的查詢。第一,獲得單個(gè)樣品缺失突變結(jié)果柱狀圖(圖3-B)。該圖對(duì)基因編輯結(jié)果進(jìn)行更加整體直觀的評(píng)估,軟件后臺(tái)使用Pysam和獨(dú)立Python腳本統(tǒng)計(jì)了每個(gè)樣本靶位點(diǎn)的缺失率,并繪制成對(duì)應(yīng)的分布圖。該圖將PAM區(qū)標(biāo)紅,并且提供放大查詢區(qū)域、變換柱狀圖顏色和自定義調(diào)整結(jié)果保存等功能(圖4)。該圖可以直觀表示出主要編輯區(qū)范圍,即柱狀圖越高代表該位點(diǎn)缺失可能性越大。第二,獲得單個(gè)樣品突變結(jié)果的fasta格式文件和矩陣格式(圖3-C)。其中,fasta格式文件顯示了每個(gè)靶基因區(qū)的堿基組成,左上角數(shù)字代表讀段出現(xiàn)的次數(shù),而彩色矩陣是將突變類型可視化展示。橫坐標(biāo)為靶基因區(qū)檢測(cè)到的reads的堿基排列情況,每條序列前的數(shù)字代表該種讀段出現(xiàn)次數(shù)。4種堿基ATCG分別用不同顏色表示。其中以白色標(biāo)記的堿基為發(fā)生替換的堿基,白色“-”表示的是該位點(diǎn)發(fā)生了堿基缺失。該結(jié)果與圖3-B結(jié)果相對(duì)應(yīng),即白色缺失越多,圖3-B中柱子越高。第三,缺失頻率比對(duì)圖(圖3-D)。該圖橫向評(píng)估了基因組編輯實(shí)驗(yàn)的效率,即比較了被編輯樣本和對(duì)照樣本(control)。其中編輯樣本取值為多組重復(fù)結(jié)果的平均值。如圖3所示,處理和對(duì)照之間的缺失頻率具有明顯差異。該圖也可實(shí)現(xiàn)圖像的編輯區(qū)大小縮放和圖像顏色的更改,并保存自定義更改后的結(jié)果。第四,缺失長(zhǎng)度分布圖(圖3-E)。軟件統(tǒng)計(jì)了編輯樣本測(cè)序讀段的缺失長(zhǎng)度,并繪制成了分布圖。該圖也支持圖像的縮放和顏色的更改。
A,結(jié)果匯總頁面,上部分為單個(gè)樣品的編輯結(jié)果匯總結(jié)果鏈接、下部為實(shí)驗(yàn)組和對(duì)照組橫向比較結(jié)果鏈接;B,單樣品(樣品AsCpf1-OsPDS-crRNA01_rep1)缺失結(jié)果統(tǒng)計(jì)直方圖,橫坐標(biāo)為靶基因區(qū)堿基排列情況,紅色的為實(shí)驗(yàn)設(shè)定的PAM區(qū)域,縱坐標(biāo)為缺失頻率;C,彩色矩陣圖的橫坐標(biāo)為靶基因區(qū)檢測(cè)到的讀段的堿基排列情況,每條序列前的數(shù)字代表該種等位基因出現(xiàn)次數(shù),4種堿基ATCG分別用不同顏色表示,下面為比對(duì)結(jié)果fasta格式文件的截圖,顯示了每個(gè)靶基因區(qū)的堿基組成,左上角數(shù)字代表讀段出現(xiàn)的次數(shù);D,實(shí)驗(yàn)組(重復(fù))樣品缺失結(jié)果統(tǒng)計(jì)直方圖,對(duì)比展示基因組編輯樣本和對(duì)照樣本(AsCpf1-OsPDS-crRNA01 control)之間的缺失頻率;E,靶位點(diǎn)(樣本AsCpf1-OsPDS-crRNA01)缺失長(zhǎng)度分布情況。橫坐標(biāo)為靶基因序列缺失長(zhǎng)度,縱坐標(biāo)為缺失長(zhǎng)度的頻率。
該軟件支持編輯結(jié)果格式自定義更改??煞糯罂s小查看編輯區(qū)域,也可以更改顏色配比。更改后的結(jié)果可直接保存成pdf格式。
我們將作物基因編輯可視化鑒定軟件與其他主流基因編輯分析工具進(jìn)行比較。它們包括Hi-TOM、Cas-Analyzer、CLiCKAR、AGEseq和BATCH-GE,其主要特點(diǎn)列于表1。其中,Cas-Analyzer和CLiCKAR為網(wǎng)絡(luò)在線工具。受到平臺(tái)和網(wǎng)絡(luò)的限制,它們不利于或者無法實(shí)現(xiàn)多個(gè)樣本批量和并行分析。因此,不能滿足擁有大量重復(fù)數(shù)據(jù)的用戶的需求。Hi-TOM可以實(shí)現(xiàn)多樣品分析,但是它的輸出結(jié)果是表格形式的數(shù)據(jù),無法直接可視化,降低了直觀獲取信息的效率。另外,Hi-TOM也是網(wǎng)絡(luò)平臺(tái),對(duì)于保密數(shù)據(jù)、容量較大的實(shí)驗(yàn)數(shù)據(jù),仍存在網(wǎng)絡(luò)限制和數(shù)據(jù)上傳失敗、外泄等風(fēng)險(xiǎn)。此外,AGEseq是具有圖形用戶界面的工具,可以支持大量的高通量測(cè)序數(shù)據(jù)和一代測(cè)序數(shù)據(jù)(Sanger測(cè)序法)的分析,但是它缺乏可視化的輸出結(jié)果,需要用戶獲取結(jié)果信息后自行繪制圖表。BATCH-GE使用前需要安裝一系列依賴包,分析過程相對(duì)復(fù)雜,使用方便性還有待提高。
表1 作物基因編輯效果可視化編輯軟件與其他軟件的功能比較
基于以上問題,作物基因編輯可視化鑒定軟件在這些方面進(jìn)行了優(yōu)化和提高,實(shí)現(xiàn)了用戶友好性。軟件具體優(yōu)勢(shì)方面如下:一、具有可視化界面。對(duì)于無服務(wù)器使用背景的用戶,僅需觀看4個(gè)簡(jiǎn)短的軟件使用視頻,即可掌握軟件的使用,包括打開軟件、加載數(shù)據(jù)和查看結(jié)果。相比其他軟件,視頻使用手冊(cè)更為直觀。此外,結(jié)果提供了所有突變類型的效率概括圖、比較圖(處理和對(duì)照比較)以及每條測(cè)序讀段具體位點(diǎn)突變情況。這樣,用戶可直觀查看編輯結(jié)果,也可根據(jù)自身喜好調(diào)整更改編輯結(jié)果圖,以及查看具體編輯結(jié)果。相比其他軟件,我們將它們的優(yōu)勢(shì)整合在了本軟件中,提高了數(shù)據(jù)分析的便捷性和可操控性。二、計(jì)算資源無特殊要求。對(duì)于無服務(wù)器的用戶,使用常用個(gè)人筆記本電腦安裝虛擬機(jī),即可輕松實(shí)現(xiàn)外接硬盤中編輯數(shù)據(jù)的計(jì)算(視頻已講解如何配置外置USB設(shè)備)。相比其他本地或者網(wǎng)絡(luò)平臺(tái)軟件,只需要可移動(dòng)筆記本和數(shù)據(jù)硬盤,即可隨時(shí)隨地計(jì)算數(shù)據(jù)。不受數(shù)據(jù)大小、地區(qū)、平臺(tái)維護(hù)和網(wǎng)絡(luò)速度所限制。三、運(yùn)行時(shí)間可控。本軟件計(jì)算時(shí)間受測(cè)序數(shù)據(jù)深度影響,用戶可根據(jù)自己的設(shè)備情況,選擇不同的CPU數(shù)量(例如計(jì)算界面1B)提高計(jì)算效率。四、結(jié)果準(zhǔn)確度有保障。本軟件計(jì)算結(jié)果和對(duì)應(yīng)實(shí)驗(yàn)驗(yàn)證結(jié)果,已在多篇高影響因子的論文中發(fā)表[21-22],因此計(jì)算準(zhǔn)確度和結(jié)果合理性有保障。
該軟件支持用戶批量并行計(jì)算多種基因編輯高通量測(cè)序數(shù)據(jù),可以一步實(shí)現(xiàn)目的編輯區(qū)突變類型和突變效率的檢測(cè),自動(dòng)比較處理組和對(duì)照組差異,并同時(shí)提供結(jié)果文本文件和可視化可修改圖像,提高數(shù)據(jù)分析和軟件使用的效率。以上分析,操作步驟簡(jiǎn)單,沒有繁雜參數(shù)設(shè)置。軟件提供了中文版安裝手冊(cè)說明和簡(jiǎn)短使用視頻,非編程用戶僅需安裝虛擬機(jī),即可快速學(xué)會(huì)使用該軟件。此外,軟件不受物種的限制,支持多物種基因編輯效果的評(píng)估。
CRISPR核酸酶編輯系統(tǒng)目前已廣泛用于動(dòng)植物基因組編輯。高通量測(cè)序技術(shù)的引入,為提高編輯系統(tǒng)的效率和準(zhǔn)確度提供了基礎(chǔ)。然而,高通量測(cè)序結(jié)果數(shù)據(jù)量大、計(jì)算方式較為復(fù)雜,需要開發(fā)操作簡(jiǎn)單、計(jì)算方便、結(jié)果易懂的工具來輔助評(píng)估編輯結(jié)果。
作物基因編輯效果可視化鑒定軟件實(shí)現(xiàn)了CRISPR基因編輯高通量數(shù)據(jù)的自動(dòng)化鑒定流程。與現(xiàn)有的CRISPR分析工具相比,軟件支持CRISPR-Cas9和CRISPR-Cpf1樣本的批量處理,可實(shí)現(xiàn)突變效率檢測(cè)、編輯準(zhǔn)確性評(píng)估,不同基因組編輯系統(tǒng)的效率評(píng)估,以及結(jié)果可視化等功能。此外,軟件支持Windows、Linux和MacOS等多種操作系統(tǒng)安裝,使用和結(jié)果都是可視化界面,無需代碼輸入。除了測(cè)序數(shù)據(jù),軟件計(jì)算時(shí)僅需提供樣本信息文件和目標(biāo)編輯區(qū)序列,這些文件都是文本文件,信息錄入和編輯較為方便。軟件輸出文件都是圖(pdf/jpg)表格式,便于檢查和查看基因組編輯效率的細(xì)節(jié)。先前,該軟件的核心代碼已成功分析了多組水稻基因編輯數(shù)據(jù),數(shù)據(jù)結(jié)果也得到實(shí)驗(yàn)驗(yàn)證并在線發(fā)表。因此,軟件結(jié)果具有可靠性。
綜上所述,作物基因編輯效果可視化鑒定軟件具有操作簡(jiǎn)單、多平臺(tái)使用、高效分析等特點(diǎn),適用于主流基因編輯系統(tǒng)數(shù)據(jù)計(jì)算。并且借鑒已有軟件在使用界面、計(jì)算所需資源、計(jì)算時(shí)間和準(zhǔn)確性上的不足,綜合提高了軟件使用性能。希望該軟件為優(yōu)化現(xiàn)代分子育種提供支持。