• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      NIH生物醫(yī)學數(shù)據(jù)共享倉儲分析

      2017-03-22 01:22:18,,,
      中華醫(yī)學圖書情報雜志 2017年10期
      關鍵詞:生物醫(yī)學數(shù)據(jù)管理檢索

      ,, ,

      [作者單位]中國醫(yī)學科學院醫(yī)學信息研究所,北京 100005

      科學數(shù)據(jù)的快速增長為科學研究和發(fā)展帶來了巨大挑戰(zhàn)和機會,對數(shù)據(jù)重要價值的認知促使各資助機構、科研院所等爭先制定相關數(shù)據(jù)政策,促進數(shù)據(jù)倉儲更有效地利用和共享科學數(shù)據(jù)。數(shù)據(jù)倉儲(Data Repository,DR)的宗旨是在科學研究領域內,促進數(shù)據(jù)轉化為知識和再利用。數(shù)據(jù)倉儲的建設需要完成數(shù)據(jù)的收繳、數(shù)據(jù)的質量控制、數(shù)據(jù)組織與長期存儲、數(shù)據(jù)內容的描述,并提供檢索、查詢、調用等服務[1]。

      國內已有相關文獻分析了生命科學領域科研數(shù)據(jù)倉儲的建設年代、學科領域等分布情況,從宏觀角度分析了代表性數(shù)據(jù)倉儲。本文則聚焦數(shù)據(jù)倉儲建設,擬以數(shù)據(jù)上傳、下載、管理、訪問等方面為切入點,系統(tǒng)梳理和深入探索美國國立衛(wèi)生研究院(National Institutes of Health,NIH)生物醫(yī)學共享數(shù)據(jù)倉儲中典型倉儲的建設模式,全面了解數(shù)據(jù)倉儲的建設情況,為我國生物醫(yī)學科學數(shù)據(jù)共享倉儲的建設提供可資借鑒的參考。

      1 NIH生物醫(yī)學數(shù)據(jù)共享倉儲概述

      NIH以列表形式,匯集了73個生物數(shù)據(jù)共享倉儲,提供數(shù)據(jù)存儲和共享服務,促進數(shù)據(jù)復用。該倉儲涵蓋癌癥、生物納米技術樣本、多肽、眼部等多個領域。本文根據(jù)數(shù)據(jù)倉儲權威性、領域影響力、應用廣泛性和規(guī)范性等方面的特點,確保倉儲中涵蓋內容格式單一型倉儲及內容格式集成型倉儲,涵蓋前沿的基因、蛋白、腫瘤領域及傳統(tǒng)的生物、技術、模型、臨床等領域,并根據(jù)對數(shù)據(jù)管理模式及流程的調研,篩選具有代表性,詳盡、規(guī)范及自身特性鮮明的倉儲,最終遴選出Protein Data Bank (PDB)、PubChem、GenBank、TCIH、FlyBase、CaNanolab、iDash、Uniprot、dbGaP、Clinicaltrials.gov等10個典型的數(shù)據(jù)共享倉儲進行研究。

      癌癥影像檔案庫TCIA[2]為公眾提供大量去識別化的醫(yī)學癌癥影像的檔案資料[3]。FlyBase[4]是一個果蠅染色體和基因的數(shù)據(jù)庫,包括蛋白質組數(shù)據(jù)、微數(shù)列等[5];caNanoLab[6]是旨在促進全球生物醫(yī)學納米技術研究社區(qū)的信息共享,以促進并驗證生物醫(yī)學中的納米技術的用途[7];iDash[8]提供數(shù)據(jù)倉儲、開源軟件、架構、模型、算法等資源[9];Uniprot[10]旨在為科學界提供一個全面、高質量和能夠自有獲取的蛋白質序列和功能信息資源[11];蛋白質數(shù)據(jù)庫(PDB)[12]是關于大型生物分子的3D結構信息的單一全球信息庫[13];基因型和表型數(shù)據(jù)庫(dbGaP)[14]是精選和發(fā)布由調查基因型和表型間相互作用的研究所產生的信息的數(shù)據(jù)倉庫[15];PubChem[16]提供關于小分子的生物活性的信息[17];ClinicalTrials.gov提供患者及其家屬、醫(yī)療專家、科研人員和公眾的研究數(shù)據(jù)的入口[18];GenBank[19]是基因序列數(shù)據(jù)庫,旨在提供和鼓勵科學界獲得最新和全面的DNA序列信息[20]。

      2 數(shù)據(jù)共享倉儲分析

      NIH數(shù)據(jù)倉儲中心提供了所有倉儲的情況。本文圍繞數(shù)據(jù)管理系統(tǒng)機制,提出分析框架,從數(shù)據(jù)提交、數(shù)據(jù)管理、數(shù)據(jù)檢索、數(shù)據(jù)訪問、數(shù)據(jù)下載、數(shù)據(jù)引用等層面對這些數(shù)據(jù)倉儲進行深入分析。

      2.1 數(shù)據(jù)提交規(guī)范各異

      數(shù)據(jù)提交細化為數(shù)據(jù)內容、格式規(guī)范、提交流程、質量規(guī)定、審核流程和上傳方式6個方面。

      數(shù)據(jù)內容方面,各倉儲內容橫跨癌癥影像、表型、基因組、序列、生物大分子結構、生物表達信息、健康相關信息、序列信息等。按照涉及領域劃分,iDash、dbGaP、GenBank、FlyBase屬基因領域,ClinicalTrials.gov、iDash屬健康領域,UniProt、PDB屬蛋白領域,PubChem屬化合物領域,TCIA屬腫瘤領域;按數(shù)據(jù)類型劃分,ClinicalTrials.gov、TCIA均屬于數(shù)據(jù)類型和內容單一型倉儲,F(xiàn)lyBase、UniProt、PDB、PubChem屬于內容單一的數(shù)據(jù)類型豐富的倉儲,iDash則是在內容上較為豐富的集成型倉儲。格式規(guī)范方面,多數(shù)倉儲沒有明確限制數(shù)據(jù)格式,也有給出建議格式的,如UniProt建議使用UniProtKB/Swiss-Prot格式,GenBank、PubChem給出了通用的格式;TCIA由于主要收集影像資料,格式主要為DICOM;PDB則對于提交的不同類型規(guī)定了不同的格式。就某一領域,數(shù)據(jù)的某種格式很可能是通用的,如基因領域,通用格式是FASTA。質量規(guī)定方面,60%的倉儲,如caNanoLab等采用人工審核,其中,ClinicalTrials.gov會為用戶提供審查標準供用戶自行檢查,再由審核人員控制;20%的倉儲考慮加入自動審核,如dbGaP自動完成針對數(shù)據(jù)格式、元數(shù)據(jù)核對等一系列質量審核。提交流程方面,多數(shù)倉儲仍然采用傳統(tǒng)的提交數(shù)據(jù)、審核、通過后發(fā)布的模式設計流程,并加入與自身倉儲特性結合的環(huán)節(jié)。以僅將原數(shù)據(jù)發(fā)布作為目標的機構為例,TCIA通過人員和軟件的共同協(xié)作實現(xiàn)提交;iDash則需要用戶先簽訂一份提交協(xié)議,包括內容和法律條款等,而后提交數(shù)據(jù);UniProt、dbGaP、PubChem、ClinicalTrials.gov要求用戶注冊并填報所需元數(shù)據(jù)項(表1)。數(shù)據(jù)審核方面,除dbGaP倉儲采用自動審核的方式外,其余均為人工審核。值得一提的是,PubChem審核數(shù)據(jù)更新情況時,采用半人工半自動的方式。數(shù)據(jù)上傳方面,多數(shù)倉儲使用最基本的附件上傳方式,其余上傳方式包括批量上傳、FTP上傳等,部分倉儲實現(xiàn)了工具上傳,如TCIA、GenBank分別使用CTP(臨床試驗處理器)及Sequin程序等工具上傳。其中CTP可以在數(shù)據(jù)提交前根據(jù)DICOM標準對數(shù)據(jù)執(zhí)行去識別的工作,Sequin用于在MAC、PC和UNIX平臺通過FTP指導提交過程,ClinicalTrials.gov則直接輸入數(shù)據(jù)元素。

      表1 數(shù)據(jù)共享倉儲數(shù)據(jù)提交規(guī)范

      2.2 數(shù)據(jù)管理規(guī)范

      數(shù)據(jù)管理細化為內容管理、數(shù)據(jù)管理和版本管理3個方面。

      數(shù)據(jù)共享倉儲數(shù)據(jù)管理規(guī)范情況見表2。

      表2 數(shù)據(jù)共享倉儲數(shù)據(jù)管理規(guī)范

      內容方面,TCIA、FlyBase、caNanolab較為單一,如FlyBase主要涉及果蠅資源,aNanolab主要涉及納米技術;其余倉儲數(shù)據(jù)類型相對豐富,如iDash是生物醫(yī)學異構數(shù)據(jù)的集合庫,PubChem集成了物質信息、化合物信息和生物活性等方面的信息數(shù)據(jù)。就內容所屬領域來說,UniProt、PDB、dbGaP、GenBank均包含基因組或蛋白質序列的內容,其細化研究領域各有專攻,如PDB對生物體、蛋白質、結構測定等更為關注,dbGaP主要研究個體水平的基因數(shù)據(jù)匯編,UniProt專攻蛋白質序列記錄及分析等,GenBank則含有更多表達序列標簽和基因組序列的信息。

      數(shù)據(jù)管理方面,80%的倉儲將數(shù)據(jù)發(fā)布后,會為用戶提供相對統(tǒng)一的元數(shù)據(jù)項;對于倉儲中包含多種類型數(shù)據(jù)的情況,會區(qū)別對待,如caNanolab,協(xié)議和樣品需提供的元數(shù)據(jù)項是不相同的。另外20%的倉儲可能由于內容的不同,如FlyBase中每種報告可能含有不同的元數(shù)據(jù)描述項,iDash數(shù)據(jù)以社區(qū)形式存放,相關說明由數(shù)據(jù)上傳者提供,所以元數(shù)據(jù)項無法統(tǒng)一。

      版本管理方面,F(xiàn)lyBase等4個倉儲提供數(shù)據(jù)版本發(fā)布及管理功能,dbGaP設置文件格式版本、匯編版本、阻止發(fā)布版本等版本管理模塊;數(shù)據(jù)更新頻率方面,多數(shù)倉儲保持每日到數(shù)月更新一次的頻率。

      2.3 數(shù)據(jù)訪問

      6個倉儲可無限制訪問和下載,部分設置權限。如dbGaP出于保護研究參與人員的意愿和隱私考慮,設置訪問權限,并采取其他數(shù)據(jù)安全措施;TCIA中部分數(shù)據(jù)集需特定權限;caNanolab 、iDash 、PubChem 部分開放。6個倉儲提供了詳細的數(shù)據(jù)量數(shù)據(jù)。TCIA絕大部分數(shù)據(jù)集無需登錄即可下載;caNanolab 則是由數(shù)據(jù)提交人或審核人決定該數(shù)據(jù)是否公開;iDash倉儲中因包含很多安全、保密的數(shù)據(jù)庫,故其部分數(shù)據(jù)集設有權限限制,用戶需要首先加入數(shù)據(jù)社區(qū),才能訪問該社區(qū)內的資源(表3)。

      2.4 數(shù)據(jù)檢索規(guī)范

      各倉儲均提供多種檢索方式,包括簡單檢索、高級檢索與關聯(lián)檢索,部分倉儲已經(jīng)將檢索工具投入使用。80%的倉儲實現(xiàn)了高級檢索,如PDB列出了包括機體、X射線分辨率、發(fā)布日期、酶分類、蛋白質對稱性等檢索類別,提供基于關鍵詞、結構注釋、所有實驗類別等方面的篩選條件;ClinicalTrials.gov提供研究類型、研究結果、所屬單位、年齡、性別、定向搜索等檢索條件。40%的倉儲提供了檢索工具,如FlyBase提供的檢索工具QueryBuilder允許用戶使用模板查詢、導入保存的查詢或者構建新查詢,自動創(chuàng)建與查詢匹配的記錄交叉引用的記錄集,從單個頁面提供到倉儲中所有相關記錄的鏈接;UniProt提供的檢索工具BLAST可以查找序列之間的局部相似性區(qū)域并推測序列之間的功能及進化關系,GenBank提供的基本局部比對搜索工具BLAST等[21]和PubChem提供的基于結構相似度的物質聚類工具、識別結構活性關系并檢查化合物的靶選擇性和特異性的工具、支持快速搜索和檢索單個生物測定記錄的測試結果的工具以及用于檢查和比較多個生物測試中的生物學結果的工具等(表3)。

      2.5 數(shù)據(jù)下載規(guī)范

      各倉儲下載方式包括鏈接直接下載、FTP下載、API下載、批量下載等。多數(shù)倉儲提供直接下載和FTP下載,ClinicalTrials.gov只提供在線搜索查看。其中有些倉儲是以某個數(shù)據(jù)版本打包下載的,如Uniprot;也有以提供數(shù)據(jù)資源列表方式支持下載的,如TCIA。權限方面,4個倉儲提供公開的數(shù)據(jù)集服務,4個倉儲部分數(shù)據(jù)提供公開服務,2個倉儲需要相關訪問權限。其中,dbGaP則需要申請訪問權限并符合相關政策,GenBank則做出了關于數(shù)據(jù)權限的說明。格式方面,除了TCIA格式較為單一外,其余倉儲多含有通用格式及其他格式,具體信息參見表4。

      2.6 數(shù)據(jù)引用規(guī)范

      70%的倉儲提供用戶引用時的推薦格式,其中caNanolab還針對普通引用、已發(fā)布的數(shù)據(jù)引用和未發(fā)布的數(shù)據(jù)引用做出區(qū)分。個別倉儲未標明引用樣例格式,但給出了相關要求,包括dbGaP遵循DUC協(xié)議,ClinicalTrials.gov給出了引用時需標明的幾點要求,iDash需要發(fā)表引用聲明。引用協(xié)議方面,各倉儲均根據(jù)自身情況引用了相關協(xié)議,如TCIA從促進數(shù)據(jù)共享與復用的強烈意愿為出發(fā)點,使用CC BY 3.0的引用協(xié)議。該協(xié)議標明用戶可以自由共享或演繹,但必須署名,提供許可協(xié)議鏈接,如有修改需標明。iDash由于包含較多保密數(shù)據(jù),因此要求用戶遵循HIPAA法案。HIPAA法案(健康保險攜帶與責任法案)在衛(wèi)生信息化環(huán)境下如何保護個人隱私的問題上開展了較為深入的探索[22]。UniProt要求遵循Creative Commons Attribution-NoDerivs協(xié)議[23]。該協(xié)議允許用戶共享,前提是用戶必須給出適當?shù)男庞弥担峁┰S可鏈接,并指明是否進行了更改;如果對內容進行各種形式的重構,則不能分發(fā)結果。PDB以數(shù)據(jù)共享為出發(fā)點,數(shù)據(jù)完全開放[24],部分內容遵循CC-BY-4.0協(xié)議。該協(xié)議旨在無限制地允許用戶進行共享和重構,用戶同樣需要遵循相關條件。其余數(shù)據(jù)倉儲需遵循NIH相應管理政策。數(shù)據(jù)共享倉儲下載與引用規(guī)范見表4。

      表3 數(shù)據(jù)共享倉儲數(shù)據(jù)訪問與檢索規(guī)范

      表4 數(shù)據(jù)共享倉儲數(shù)據(jù)下載與引用規(guī)范

      (續(xù)表4)

      3 結語

      NIH生物醫(yī)學數(shù)據(jù)共享倉儲的如下特點值得我們參考和借鑒。

      數(shù)據(jù)提交方面,根據(jù)領域給出元數(shù)據(jù)內容要求,不限制數(shù)據(jù)格式。在附件上傳的基礎上,設計及應用了上傳工具便于用戶上傳數(shù)據(jù)。為更好地進行數(shù)據(jù)核驗,保留對數(shù)據(jù)資源人工審核質量的模式,個別倉儲對半人工半自動或自動質量審核模式進行了探索。另外,在數(shù)據(jù)提交的過程中,iDash強調法律權益及版權方面的問題,因此事先擬定了要簽署的協(xié)議,值得借鑒。

      數(shù)據(jù)管理方面,各倉儲內容不同,但均盡可能收集詳細全面的元數(shù)據(jù),并總結和發(fā)布相對統(tǒng)一的元數(shù)據(jù)項,同時提供數(shù)據(jù)的分析統(tǒng)計。倉儲具有較好的版本管理規(guī)范,并定期對數(shù)據(jù)進行更新與檢查。

      數(shù)據(jù)服務方面,多數(shù)檢索提供簡單檢索和高級檢索,積極開展個性化檢索工具的嘗試與應用。倉儲提供多種下載方式和數(shù)據(jù)格式,對于需要引用數(shù)據(jù)的用戶,提供多種引用規(guī)范格式或樣例,或做出聲明,制定符合自身倉儲特點的引用規(guī)范,并采用符合自身倉儲特點、與行業(yè)標準、國家標準與政策相符合的數(shù)據(jù)引用協(xié)議(如CC協(xié)議)。

      由于時間與精力限制,本文未對NIH生物醫(yī)學數(shù)據(jù)共享倉儲下的所有倉儲進行全面調研,但通過對典型倉儲進行分析比較及特點總結,希望能夠為我國開展生物醫(yī)學數(shù)據(jù)共享倉儲建設提供一定的經(jīng)驗和啟示。

      猜你喜歡
      生物醫(yī)學數(shù)據(jù)管理檢索
      芻議“生物醫(yī)學作為文化”的研究進路——兼論《作為文化的生物醫(yī)學》
      科學與社會(2022年4期)2023-01-17 01:20:04
      企業(yè)級BOM數(shù)據(jù)管理概要
      定制化汽車制造的數(shù)據(jù)管理分析
      靈長類生物醫(yī)學前沿探索中的倫理思考
      科學與社會(2021年4期)2022-01-19 03:29:50
      海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
      CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
      2019年第4-6期便捷檢索目錄
      國外生物醫(yī)學文獻獲取的技術工具:述評與啟示
      圖書館建設(2018年5期)2018-07-10 09:46:44
      LED光源在生物醫(yī)學中的應用分析
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      千阳县| 沈丘县| 黄大仙区| 丹棱县| 台东市| 隆德县| 江城| 惠水县| 德庆县| 稷山县| 新巴尔虎右旗| 九台市| 融水| 徐水县| 增城市| 集贤县| 当雄县| 聊城市| 青浦区| 泸溪县| 榆中县| 宁海县| 旬邑县| 定南县| 大庆市| 琼海市| 宜兴市| 思茅市| 右玉县| 山东| 武义县| 滨海县| 广丰县| 星子县| 曲水县| 新邵县| 鸡东县| 区。| 随州市| 宝应县| 蓝田县|