湯怡潔,李貝,周子健,朱燕,趙鍇,馬麗麗,吳躍偉,石正麗*
1. 中國(guó)科學(xué)院武漢文獻(xiàn)情報(bào)中心,武漢 430071
2. 中國(guó)科學(xué)院武漢病毒研究所,武漢 430071
數(shù)據(jù)庫(kù)(集)基本信息簡(jiǎn)介
據(jù)統(tǒng)計(jì),引起全球各地病毒性新發(fā)傳染病疫情的病原體70%以上來(lái)自野生動(dòng)物源性病毒的跨種感染。當(dāng)新發(fā)傳染病暴發(fā)時(shí),由于我們對(duì)野生動(dòng)物病毒的背景缺乏系統(tǒng)性的研究,因此嚴(yán)重制約了對(duì)所引發(fā)疾病病原的診斷、溯源、防治及采取有效的防控措施。基于武漢病毒研究所及項(xiàng)目負(fù)責(zé)人團(tuán)隊(duì)在前期科研過程中獲取和積累的大量以蝙蝠和鼠為主的野生動(dòng)物樣本以及病毒病原數(shù)據(jù),按照科學(xué)大數(shù)據(jù)工程的標(biāo)準(zhǔn)規(guī)范、服務(wù)體系進(jìn)行系統(tǒng)的加工和整理,建設(shè)野生動(dòng)物攜帶病毒病原特色數(shù)據(jù)庫(kù);通過服務(wù)網(wǎng)站實(shí)現(xiàn)生物資源和信息的綜合管理及信息共享,建成穩(wěn)定的技術(shù)支撐和服務(wù)隊(duì)伍,以發(fā)揮該科學(xué)數(shù)據(jù)資源的科學(xué)和應(yīng)用價(jià)值。
在此前,雖然國(guó)內(nèi)外已有多個(gè)病毒病原相關(guān)的數(shù)據(jù)庫(kù),如The Database of Bat-associated Viruses(http://www.mgc.ac.cn/DBatVir/),以及病毒資源數(shù)據(jù)庫(kù)(http://www.viruses.nsdc.cn/vri.jsp)等,但這些數(shù)據(jù)庫(kù)/集卻是以病毒為主體,只關(guān)注某個(gè)特定的病原或者特定物種攜帶的病毒種類,并不涉及病毒在野生動(dòng)物群體間的分布與流行,也與時(shí)間上的跨度與季節(jié)性流行分布的特性無(wú)關(guān)。本項(xiàng)目的野生動(dòng)物病毒病原數(shù)據(jù)庫(kù)在這些病毒病原數(shù)據(jù)庫(kù)的基礎(chǔ)上,有效融入了病毒流行性分布與調(diào)查的相關(guān)信息,可對(duì)項(xiàng)目負(fù)責(zé)人關(guān)注的野生動(dòng)物樣品采集區(qū)的病毒和病原的溯源、分布以及流行情況提供有利的信息支撐。
目前,本項(xiàng)目整體收集整理加工的蝙蝠和鼠源樣本數(shù)據(jù)達(dá)2萬(wàn)多條,數(shù)據(jù)覆蓋多個(gè)國(guó)家以及中國(guó)的多個(gè)省市地區(qū)。通過建設(shè)野生動(dòng)物病毒病原數(shù)據(jù)庫(kù)服務(wù)平臺(tái),實(shí)現(xiàn)了后臺(tái)數(shù)據(jù)管理和前臺(tái)數(shù)據(jù)服務(wù)各項(xiàng)功能,已經(jīng)初步具備對(duì)外提供數(shù)據(jù)服務(wù)的能力。項(xiàng)目組制定了相關(guān)的數(shù)據(jù)加工審核流程和規(guī)范的病毒病原元數(shù)據(jù)描述規(guī)范,并依托中國(guó)科技網(wǎng)武漢分中心實(shí)現(xiàn)了數(shù)據(jù)庫(kù)和平臺(tái)持續(xù)有效服務(wù)的目標(biāo)。
本數(shù)據(jù)集的數(shù)據(jù)一部分來(lái)源于項(xiàng)目負(fù)責(zé)人在科研過程中獲取和積累的大量蝙蝠和鼠樣本以及病毒病原數(shù)據(jù),另一部分來(lái)源于國(guó)外權(quán)威機(jī)構(gòu)公開發(fā)布的病毒數(shù)據(jù)庫(kù)/數(shù)據(jù)集(http://www.mgc.ac.cn/DBatVir/,http://www.mgc.ac.cn/DRodVir/)。針對(duì)前一部分?jǐn)?shù)據(jù),按照以下1.1和1.2中的內(nèi)容處理。后面來(lái)源的一部分?jǐn)?shù)據(jù),依據(jù)設(shè)計(jì)的數(shù)據(jù)元格式整合到本庫(kù)中,最終建立由蝙蝠樣品病毒病原庫(kù)和鼠樣品病毒病原庫(kù)共同組成的野生動(dòng)物攜帶病毒病原特色數(shù)據(jù)庫(kù)(以下簡(jiǎn)稱BatVirus系統(tǒng))。
1.1.1 樣品采集
蝙蝠動(dòng)物樣品均由專業(yè)實(shí)驗(yàn)人員采集,樣品類型具體包括:糞便樣品,肛、咽拭子,以及對(duì)蝙蝠進(jìn)行解剖所采集的心、肝、脾、肺、腎、腸、腦等組織樣品。其中糞便樣品通過隔夜拾取的方法采集,樣品采集后立即置于液氮保存[1]。以上采集的樣品都置于實(shí)驗(yàn)室?80℃冰箱長(zhǎng)期保存。同時(shí)采集樣品地理信息及物種形態(tài)學(xué)信息。
1.1.2 RNA提取
對(duì)野生動(dòng)物樣品進(jìn)行解凍渦旋離心處理,對(duì)野生動(dòng)物的組織進(jìn)行低溫研磨離心處理取上清,用Qiagen公司購(gòu)買的病毒核酸提取試劑盒,并根據(jù)試劑盒中提供的方法對(duì)樣本中的病毒核酸進(jìn)行提取。
1.1.3 病毒數(shù)據(jù)獲取
按照ICTV(The International Committee on Taxonomy of Viruses)分類,依據(jù)文獻(xiàn)中報(bào)道的各個(gè)病毒科的 Pan-PCR(Pan-Polymerase Chain Reaction)方法[2-3]來(lái)對(duì)蝙蝠和鼠源樣品的病毒核酸進(jìn)行檢測(cè),對(duì)目的條帶進(jìn)行一代測(cè)序,在 NCBI(https://www.ncbi.nlm.nih.gov/)中使用 blast(Basic Local Alignment Search Tool)工具進(jìn)行在線比對(duì),從而確定樣品攜帶的病毒種類。
BatVirus系統(tǒng)根據(jù)蝙蝠和鼠源樣品采集、檢測(cè)及保藏過程中產(chǎn)生的數(shù)據(jù),建立了標(biāo)準(zhǔn)的元數(shù)據(jù)描述規(guī)范,樣品信息和檢測(cè)病毒信息依據(jù)元數(shù)據(jù)描述規(guī)范進(jìn)行組織并通過系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化的攝入。在數(shù)據(jù)加工過程中,對(duì)數(shù)據(jù)采樣獲取的數(shù)據(jù)依據(jù)制定的元數(shù)據(jù)描述規(guī)范設(shè)計(jì)了樣品和病毒數(shù)據(jù)模板,通過對(duì)數(shù)據(jù)的整理加工,形成最終的樣品和病毒數(shù)據(jù)表,利用BatVirus系統(tǒng)中的數(shù)據(jù)攝入功能存儲(chǔ)到數(shù)據(jù)庫(kù)中。在數(shù)據(jù)管理過程中,BatVirus系統(tǒng)分別建立了蝙蝠和鼠源樣品數(shù)據(jù)管理模塊和病毒病原數(shù)據(jù)管理模塊,同時(shí),在兩類數(shù)據(jù)間建立了數(shù)據(jù)關(guān)聯(lián)。每個(gè)模塊的數(shù)據(jù)錄入、校驗(yàn)、存儲(chǔ)均由系統(tǒng)統(tǒng)一控制,規(guī)范數(shù)據(jù)的格式和內(nèi)容,確保數(shù)據(jù)錄入的準(zhǔn)確性。
數(shù)據(jù)樣本以已發(fā)表的蝙蝠樣品病毒數(shù)據(jù)為例。其記錄的信息包括樣品ID,樣品組織類型,動(dòng)物類型,來(lái)源物種,物種分子鑒定,收集日期,國(guó)家,省份,城市,GPS信息,是否高通量測(cè)序,是否病毒分離,出版,備注,檢測(cè)方法,病毒名稱,檢測(cè)結(jié)果,blast結(jié)果,病毒分類,病毒序列,相似度,序列長(zhǎng)度,序列編碼的基因(表1)。
表1 蝙蝠樣品病毒數(shù)據(jù)展示
數(shù)據(jù)元名稱示例images/BZ_109_444_392_599_441.pngbtcov HKU9images/BZ_109_446_469_596_518.pngHKU9images/BZ_109_446_545_596_595.png詳見參考文獻(xiàn)images/BZ_109_465_622_577_671.png94%images/BZ_109_446_699_596_748.png398bpimages/BZ_109_390_776_652_825.png Partial RdRp
本數(shù)據(jù)庫(kù)的蝙蝠源和鼠源樣品數(shù)據(jù)主要來(lái)源于實(shí)驗(yàn)室樣本采集保藏工作的各個(gè)環(huán)節(jié)。首先制定了針對(duì)蝙蝠和鼠源樣本采集保藏的標(biāo)準(zhǔn)規(guī)范,如由專業(yè)實(shí)驗(yàn)員制定的樣本采集方案,明確規(guī)定了采集過程中產(chǎn)生的各個(gè)數(shù)據(jù)元,如樣品ID編寫、收集地點(diǎn)、GPS信息等。
其次在樣品處理過程中,提取的核酸的濃度可以通過NanoDrop ND-1000分光光度計(jì)進(jìn)行測(cè)定,260/280的比率應(yīng)該在1.8–2.1范圍內(nèi)。對(duì)于PAN-PCR擴(kuò)增得到的病毒陽(yáng)性條帶進(jìn)行Sanger法測(cè)序,通過ABI文件對(duì)峰值圖質(zhì)量進(jìn)行控制,對(duì)于不可信的序列,進(jìn)一步克隆測(cè)序,以得到可信度高的序列,其中部分病毒相關(guān)序列已上傳至NCBI(美國(guó)國(guó)立生物技術(shù)信息中心)中。
在BatVirus系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)階段,利用數(shù)據(jù)字典對(duì)元數(shù)據(jù)描述信息進(jìn)行規(guī)范化管理,有效把控錄入數(shù)據(jù)的質(zhì)量。數(shù)據(jù)字典是系統(tǒng)數(shù)據(jù)模型中各類數(shù)據(jù)描述的集合,例如在病毒名稱字典中,我們規(guī)范整理出各種標(biāo)準(zhǔn)的病毒名稱字典數(shù)據(jù)。在實(shí)際應(yīng)用中,用戶在通過數(shù)據(jù)模板錄入數(shù)據(jù)或者在平臺(tái)上直接錄入數(shù)據(jù)時(shí),通過選擇標(biāo)準(zhǔn)的病毒名稱,以達(dá)到標(biāo)準(zhǔn)病毒名稱規(guī)范輸入的目的。
BatVirus系統(tǒng)存儲(chǔ)的蝙蝠和鼠源動(dòng)物樣品和病毒病原數(shù)據(jù)均經(jīng)過嚴(yán)格審核,每個(gè)模塊的數(shù)據(jù)均通過人工審定確認(rèn),確保將錯(cuò)誤率控制在1%以下。通過一系列數(shù)據(jù)質(zhì)量控制手段,實(shí)現(xiàn)了數(shù)據(jù)的有效管理,數(shù)據(jù)質(zhì)量得到較大的提升,有效支持了蝙蝠和鼠來(lái)源的病毒病原的相關(guān)研究工作。
本數(shù)據(jù)庫(kù)的建立基于項(xiàng)目負(fù)責(zé)人長(zhǎng)期科研過程中積累的大量蝙蝠和鼠來(lái)源樣本和病毒數(shù)據(jù),來(lái)源可靠,結(jié)果真實(shí)可信。結(jié)合專業(yè)的數(shù)據(jù)獲取和管理的技術(shù)手段,對(duì)國(guó)內(nèi)外相關(guān)數(shù)據(jù)集進(jìn)行整合,實(shí)現(xiàn)蝙蝠和鼠來(lái)源的病毒病原大數(shù)據(jù)的集合。給病毒在野生動(dòng)物間的流行、跨種傳播的研究提供了可靠的平臺(tái)。
本數(shù)據(jù)庫(kù)主要通過http://batvirus.whiov.ac.cn/(或http://www.sciencedb.cn/dataSet/handle/768)提供web數(shù)據(jù)服務(wù)。用戶可以在平臺(tái)上,通過物種樣品庫(kù)和病毒病原庫(kù)直接瀏覽所有可供開放獲取的樣品信息和病毒病原信息。同時(shí),用戶可以在檢索框中輸入物種名稱、樣品名稱、物種分布國(guó)家等進(jìn)行檢索,或者輸入病毒名稱進(jìn)行物種攜帶病毒相關(guān)信息的檢索查詢。數(shù)據(jù)管理員可以通過賬號(hào)密碼登錄數(shù)據(jù)庫(kù)后臺(tái)管理模塊,基于規(guī)范的數(shù)據(jù)模版,利用數(shù)據(jù)上傳功能,將最新的病毒數(shù)據(jù)信息上傳并導(dǎo)入到數(shù)據(jù)庫(kù)中。由于部分?jǐn)?shù)據(jù)(指含有未公開發(fā)表的病毒序列,病毒序列未上傳至NCBI,以及不能公布樣品采集地的野生動(dòng)物樣本信息)的使用權(quán)限問題,如果用戶需要對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行訪問和使用,可以通過聯(lián)系本數(shù)據(jù)庫(kù)相關(guān)管理人員,通過身份審核認(rèn)證獲取平臺(tái)的登錄賬號(hào)密碼,登錄平臺(tái)使用相關(guān)數(shù)據(jù)。數(shù)據(jù)的保密時(shí)限以數(shù)據(jù)全部發(fā)表為限。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2019年4期