• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    典型生物醫(yī)學(xué)元數(shù)據(jù)功能比較研究與啟示

    2021-01-15 13:17:40儲(chǔ)節(jié)旺林浩煒
    現(xiàn)代情報(bào) 2021年1期
    關(guān)鍵詞:元數(shù)據(jù)

    儲(chǔ)節(jié)旺 林浩煒

    收稿日期:2020-08-21

    基金項(xiàng)目:國(guó)家社會(huì)科學(xué)一般項(xiàng)目“大數(shù)據(jù)環(huán)境下突發(fā)事件應(yīng)急管理情報(bào)能力建設(shè)研究”(項(xiàng)目編號(hào):16BTQ066)。

    作者簡(jiǎn)介:儲(chǔ)節(jié)旺(1969-),男,館長(zhǎng),教授,博士生導(dǎo)師,研究方向:知識(shí)管理。林浩煒(1996-),男,碩士研究生,研究方向:知識(shí)管理。

    摘 要:[目的/意義]旨在深化對(duì)國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的元數(shù)據(jù)研究,提高國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)開(kāi)放水平。[方法/過(guò)程]本文基于基因組學(xué)研究人員的元數(shù)據(jù)功能需求,歸納出結(jié)構(gòu)需求、內(nèi)容需求、關(guān)聯(lián)需求和使用需求4個(gè)維度,提出生物醫(yī)學(xué)元數(shù)據(jù)功能需求維度模型。通過(guò)引入內(nèi)容結(jié)構(gòu)視圖作為分析元數(shù)據(jù)結(jié)構(gòu)的模型,對(duì)國(guó)內(nèi)外生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的元數(shù)據(jù)方案進(jìn)行比較研究。[結(jié)果/結(jié)論]國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)可以從數(shù)據(jù)結(jié)構(gòu)優(yōu)化、數(shù)據(jù)質(zhì)量控制、豐富研究條目和分類匯總鏈接4個(gè)方面推動(dòng)數(shù)據(jù)開(kāi)放的水平。

    關(guān)鍵詞:生物醫(yī)學(xué)數(shù)據(jù);數(shù)據(jù)開(kāi)放;元數(shù)據(jù);功能需求模型

    DOI:10.3969/j.issn.1008-0821.2021.01.001

    〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2021)01-0004-09

    Comparative Studies and Implications of Typical

    Biomedical Metadata Functions

    Chu Jiewang Lin Haowei

    (School of Management,Anhui University,Hefei 230601,China)

    Abstract:[Purpose/Significance]This paper aims to make further research on the metadata of domestic biomedical databases and improve the quality of domestic biomedical data opening.[Method/Process]Based on the metadata function requirements of genomics researchers,this paper summarized the four aspects of structure requirements,content requirements,linkage requirements and application requirements,and proposed the SCLA functional requirements dimension model of biomedical metadata.By introducing content structure view as a model for analyzing metadata structure,this paper made a comparative study on the metadata schemes of biomedical databases at home and abroad.[Results/Conclusion]domestic biomedical databases can promote the level of data openness from four aspects:optimization of data structure,data quality control,enrichment of research items and links of subgroups and summaries.

    Key words:biomedical data;data opening;metadata;functional requirements model

    隨著超高通量測(cè)序方法在基因?qū)W研究領(lǐng)域的應(yīng)用,研究人員能夠更快地獲取生物樣本的基因組序列數(shù)據(jù),大量的原始測(cè)序數(shù)據(jù)被保存到公共數(shù)據(jù)庫(kù)中,科研人員獲取開(kāi)放數(shù)據(jù)和展開(kāi)研究活動(dòng)要求相關(guān)數(shù)據(jù)的每條序列記錄都可以鏈接到已測(cè)序樣本的元數(shù)據(jù)[1]。生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中開(kāi)放數(shù)據(jù)的元數(shù)據(jù)可以描述樣本數(shù)據(jù)集的創(chuàng)建者、時(shí)間、位置、機(jī)構(gòu)、上下文、族系等信息,對(duì)于查找、檢索和重用上傳到公共數(shù)據(jù)庫(kù)中科學(xué)實(shí)驗(yàn)結(jié)果報(bào)告十分重要,當(dāng)用戶查找的科學(xué)數(shù)據(jù)未附帶或附帶質(zhì)量較差的元數(shù)據(jù)時(shí),對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行索引和利用的軟件系統(tǒng)可能無(wú)法定位和返回原本符合給定搜索條件的搜索結(jié)果[2]。

    有關(guān)生物醫(yī)學(xué)數(shù)據(jù)元數(shù)據(jù)質(zhì)量的文獻(xiàn)指出許多開(kāi)放生物醫(yī)學(xué)數(shù)據(jù)存在元數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范的問(wèn)題。美國(guó)聯(lián)邦政府開(kāi)發(fā)的HealthData.gov由于缺乏一致的數(shù)據(jù)存儲(chǔ)和檢索標(biāo)準(zhǔn),會(huì)阻礙研究人員使用數(shù)據(jù)進(jìn)行學(xué)術(shù)研究[3]。Rafael S Gonalves等[1]比較研究了美國(guó)國(guó)家生物信息中心(National Center for Biotechnology Information,NCBI)管理的BioSample和歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)管理的BioSamples兩個(gè)生物醫(yī)學(xué)數(shù)據(jù)庫(kù),發(fā)現(xiàn)存在多數(shù)元數(shù)據(jù)字段名稱和內(nèi)容未標(biāo)準(zhǔn)化且無(wú)法控制的情況,可能會(huì)阻止相關(guān)數(shù)據(jù)集的搜索和重用。導(dǎo)致元數(shù)據(jù)質(zhì)量下降的原因在于過(guò)多使用非結(jié)構(gòu)化文本描述開(kāi)放生物醫(yī)學(xué)數(shù)據(jù),而很少使用標(biāo)準(zhǔn)化的受控術(shù)語(yǔ)和學(xué)科領(lǐng)域中的本體論概念來(lái)控制元數(shù)據(jù)條目的名稱和填充內(nèi)容[4]。有效的解決途徑是選擇合適的標(biāo)準(zhǔn)構(gòu)建元數(shù)據(jù)[1,3],使每個(gè)元數(shù)據(jù)條目的填充內(nèi)容準(zhǔn)確統(tǒng)一且遵守相應(yīng)規(guī)范,即使自由擴(kuò)展文本也可以使用受控術(shù)語(yǔ)來(lái)描述[5]。

    元數(shù)據(jù)標(biāo)準(zhǔn)的選擇最終會(huì)影響元數(shù)據(jù)方案的結(jié)構(gòu),編寫(xiě)元數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)是否合適取決于數(shù)據(jù)使用利益相關(guān)者的需求[6]。有關(guān)生物醫(yī)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的研究表明,元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)基于滿足特定的數(shù)據(jù)庫(kù)數(shù)據(jù)管理和用戶科研活動(dòng)的功能需求。國(guó)際上現(xiàn)有的元數(shù)據(jù)標(biāo)準(zhǔn)如任何基因序列最小信息的最低信息標(biāo)準(zhǔn)(Minimum Information About Any(x)Sequence,MIxS)通過(guò)引入特定的“環(huán)境軟件包”實(shí)現(xiàn)提高跨庫(kù)收集的信息的質(zhì)量、可訪問(wèn)性和實(shí)用性的目的[7],人類病原體/載體基因組序列的標(biāo)準(zhǔn)化元數(shù)據(jù)基于美國(guó)國(guó)立過(guò)敏和傳染病研究所(National Institute of Allergy and Infectious Diseases,NIAID)的GSCID/BRC項(xiàng)目和樣本應(yīng)用標(biāo)準(zhǔn),使研究人員能夠清晰地識(shí)別相關(guān)的基因組序列并進(jìn)行比較性的基因組分析[1]。國(guó)內(nèi)生物醫(yī)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的研究包括結(jié)合生命周期理論的植物學(xué)基因表達(dá)實(shí)驗(yàn)元數(shù)據(jù)模型[8]和五維度的我國(guó)人類基因數(shù)據(jù)庫(kù)元數(shù)據(jù)規(guī)范[9],前者旨在完整描述科學(xué)實(shí)驗(yàn)相關(guān)信息,支持不同類型科學(xué)實(shí)驗(yàn)數(shù)據(jù)的語(yǔ)義化關(guān)聯(lián),后者則是為了提供數(shù)據(jù)采集和存儲(chǔ)的技術(shù)標(biāo)準(zhǔn)。有關(guān)生物醫(yī)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)的研究都體現(xiàn)出功能需求的導(dǎo)向,但是這些文章并沒(méi)有討論元數(shù)據(jù)標(biāo)準(zhǔn)被應(yīng)用于不同的具體數(shù)據(jù)庫(kù)后產(chǎn)生的差異。服務(wù)不同數(shù)據(jù)庫(kù)和研究人員的元數(shù)據(jù)標(biāo)準(zhǔn)所側(cè)重的功能需求不同,使用通用的元數(shù)據(jù)標(biāo)準(zhǔn)如都柏林核心元素集(Dublin Core Element Set,DC)可以在整體上設(shè)立數(shù)據(jù)標(biāo)準(zhǔn)框架,但用戶在上傳研究數(shù)據(jù)后,需要額外的人工操作或使用更好的基礎(chǔ)結(jié)構(gòu)來(lái)確保多個(gè)字段名稱的有效填充以保證元數(shù)據(jù)質(zhì)量[2],因此需要結(jié)合具體的生物醫(yī)學(xué)數(shù)據(jù)庫(kù)對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)的功能需求進(jìn)行整理和比較研究。

    本文根據(jù)生物醫(yī)學(xué)管理人員對(duì)基因組數(shù)據(jù)元數(shù)據(jù)的6項(xiàng)功能需求,歸納每項(xiàng)需求所涵蓋的要素特點(diǎn),提出生物醫(yī)學(xué)數(shù)據(jù)元數(shù)據(jù)功能需求比較的4個(gè)維度:結(jié)構(gòu)需求、內(nèi)容需求、關(guān)聯(lián)需求和使用需求。引用內(nèi)容結(jié)構(gòu)視圖作為元數(shù)據(jù)結(jié)構(gòu)需求的比較模型,并應(yīng)用于選擇的國(guó)內(nèi)外生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的元數(shù)據(jù)方案比較,旨在深化國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的元數(shù)據(jù)研究建設(shè),提高國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)開(kāi)放的質(zhì)量水平。

    1 生物醫(yī)學(xué)元數(shù)據(jù)功能需求

    Mark D Wilkinson等[6]提出了科學(xué)數(shù)據(jù)管理的公平(FAIR,F(xiàn)indability,Accessibility,Interoperability,Reusability)數(shù)據(jù)原則,在對(duì)科學(xué)數(shù)據(jù)進(jìn)行管理時(shí)關(guān)注所有的利益相關(guān)者的需求以提高數(shù)據(jù)質(zhì)量,如研究人員希望能夠共享、重用彼此的研究數(shù)據(jù)和分析報(bào)告;提供數(shù)據(jù)分析和處理服務(wù)的技術(shù)供應(yīng)者希望實(shí)現(xiàn)軟件工具和工作流程的重復(fù)使用;資助機(jī)構(gòu)更加關(guān)注長(zhǎng)期數(shù)據(jù)管理。思考用戶的使用需求可以用來(lái)指導(dǎo)開(kāi)放數(shù)據(jù)庫(kù)的元數(shù)據(jù)設(shè)計(jì)。Jian Qin等[10]對(duì)元數(shù)據(jù)的功能需求進(jìn)行了調(diào)查,將Willis等確定的22項(xiàng)科學(xué)數(shù)據(jù)元數(shù)據(jù)功能需求總結(jié)為基因組學(xué)研究人員的6項(xiàng)元數(shù)據(jù)功能需求,按需求程度從高到低分為可移植性(Portability)、可重用性(Reusability)、可操作性(Manipulability)、充分性(Sufficiency)、互操作性(Interoperability)和模塊性(Modularity),并以關(guān)鍵詞描述需求內(nèi)容[7,11]。

    元數(shù)據(jù)功能需求因素的某些方面在設(shè)置元數(shù)據(jù)時(shí)會(huì)產(chǎn)生重疊,如可移植性和可重用性本質(zhì)上是從不同角度考察元數(shù)據(jù)條目的結(jié)構(gòu),可操作性和互操作性實(shí)際都是在考察元數(shù)據(jù)結(jié)構(gòu)設(shè)置對(duì)研究人員數(shù)據(jù)處理的影響,這使其作為比較標(biāo)準(zhǔn)不具有明顯的區(qū)分度。有關(guān)生物醫(yī)學(xué)元數(shù)據(jù)質(zhì)量研究的文章通常定義各種指標(biāo)來(lái)評(píng)價(jià)元數(shù)據(jù)質(zhì)量,如完整性、準(zhǔn)確性、一致性[3]或完整性、準(zhǔn)確性、出處[2]這樣的衡量標(biāo)準(zhǔn),這為設(shè)計(jì)元數(shù)據(jù)功能需求的比較維度提供了思路。本文嘗試從元數(shù)據(jù)功能需求指標(biāo)中提取關(guān)鍵描述字段,將指向相近的字段相結(jié)合歸納生物醫(yī)學(xué)數(shù)據(jù)庫(kù)元數(shù)據(jù)比較的主要方向,包括:結(jié)構(gòu)(Structure)需求、內(nèi)容(Content)需求、關(guān)聯(lián)(Linkage)需求、使用(Application)需求,并命名為SCLA維度模型,如圖1所示。

    1.1 結(jié)構(gòu)維度:結(jié)構(gòu)簡(jiǎn)便,兼容通用

    元數(shù)據(jù)結(jié)構(gòu)應(yīng)該層次分明、結(jié)構(gòu)清晰,使用簡(jiǎn)練有區(qū)分度的語(yǔ)言以保證用戶能利用最少的關(guān)鍵詞定位到所需信息,便于目標(biāo)數(shù)據(jù)上傳發(fā)布和查詢獲取;整套元數(shù)據(jù)方案的建立需要成熟的架構(gòu)技術(shù)和操作系統(tǒng),保證通過(guò)穩(wěn)定的檢索渠道訪問(wèn)數(shù)據(jù)庫(kù)。元數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)需要基于通用的元數(shù)據(jù)標(biāo)準(zhǔn)以支持與其它數(shù)據(jù)庫(kù)的協(xié)同操作。一些基因組學(xué)社區(qū)沒(méi)有設(shè)計(jì)與全球共享有關(guān)的元數(shù)據(jù)[10],許多專業(yè)數(shù)據(jù)庫(kù)元數(shù)據(jù)標(biāo)準(zhǔn)的特有結(jié)構(gòu),如MIxS具有很強(qiáng)的獨(dú)特性難以兼容其它數(shù)據(jù)庫(kù)的數(shù)據(jù)內(nèi)容。許多通用數(shù)據(jù)庫(kù)包含了許多不同類別、樣本容量小的重要數(shù)據(jù)集,這些數(shù)據(jù)集由于數(shù)據(jù)類型各異通常不會(huì)使用統(tǒng)一的描述限定[6],使得研究人員存在較低集約化程度下的數(shù)據(jù)可重用性問(wèn)題。

    1.2 內(nèi)容維度:內(nèi)容全面,按需調(diào)整

    生物醫(yī)學(xué)數(shù)據(jù)的質(zhì)量關(guān)系到研究人員數(shù)據(jù)利用。科學(xué)數(shù)據(jù)質(zhì)量得到控制,可以提高科學(xué)數(shù)據(jù)的可重用性,節(jié)約科研人員在數(shù)據(jù)清洗過(guò)程中的時(shí)間與精力[12]。數(shù)據(jù)庫(kù)為支持標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)使用統(tǒng)一的受控詞匯描述樣本信息,元數(shù)據(jù)方案可以提供用以注釋海量數(shù)據(jù)集中的非結(jié)構(gòu)化信息的條目幫助研究人員多方位獲取樣本相關(guān)信息。此外,生物醫(yī)學(xué)元數(shù)據(jù)方案及其內(nèi)容應(yīng)該根據(jù)生物特性和研究人員的數(shù)據(jù)使用需要及時(shí)調(diào)整,提供數(shù)據(jù)上傳者可自定的元數(shù)據(jù)拓展包以保證元數(shù)據(jù)標(biāo)準(zhǔn)的可擴(kuò)展和數(shù)據(jù)庫(kù)的可持續(xù)[11],使數(shù)據(jù)庫(kù)數(shù)據(jù)能夠適應(yīng)知識(shí)更新迭代。

    1.3 關(guān)聯(lián)維度:相關(guān)聚合,共享交互

    元數(shù)據(jù)功能需求指標(biāo)中多次提到需求元數(shù)據(jù)方案提供關(guān)聯(lián)信息的鏈接,幫助用戶全面掌握目標(biāo)數(shù)據(jù)。鏈接是元數(shù)據(jù)條目的一部分,屬于數(shù)據(jù)內(nèi)容需求的范疇,但由于數(shù)據(jù)鏈接的指向受數(shù)據(jù)內(nèi)容的不同而表現(xiàn)出不同的類型,因而單獨(dú)作為一個(gè)比較研究的維度。這些以鏈接形式存在元數(shù)據(jù)內(nèi)容可以簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),支持研究人員橫向比較、驗(yàn)證數(shù)據(jù)的需求,促進(jìn)跨庫(kù)內(nèi)容的共享與交互。完整的數(shù)據(jù)鏈接網(wǎng)絡(luò)可以匯集包括數(shù)據(jù)庫(kù)、軟件工具、培訓(xùn)資料、云儲(chǔ)存和超級(jí)計(jì)算機(jī)在內(nèi)的研究資源,支持研究人員在更大范圍內(nèi)查找和共享數(shù)據(jù)。以臨床病例報(bào)告(Clinical Case Reports,CCR)為例,臨床病例報(bào)告經(jīng)常能夠捕捉到不常見(jiàn)的癥狀和疾病[14],但這些寶貴數(shù)據(jù)來(lái)源可能會(huì)受宿主所在國(guó)家的法律和法規(guī)約束,無(wú)法獲得離開(kāi)所在管轄范圍的許可。歐洲生命科學(xué)數(shù)據(jù)研究基礎(chǔ)設(shè)施(The European Research Infrastructure for Life Science Data,ELIXIR)通過(guò)加強(qiáng)聯(lián)合歐洲的基因組表型檔案資源訪問(wèn)節(jié)點(diǎn),可以在確保符合國(guó)家法規(guī)的前提下快速共享2019新型冠狀病毒的臨床宿主數(shù)據(jù)[13]。

    此外,元數(shù)據(jù)條目的設(shè)置要根據(jù)數(shù)據(jù)庫(kù)類型提供必要的數(shù)據(jù)引用鏈接以支持?jǐn)?shù)據(jù)源的可追蹤性,提供數(shù)據(jù)關(guān)聯(lián)內(nèi)容鏈接簡(jiǎn)化數(shù)據(jù)檢索的流程,提供數(shù)據(jù)包和模板下載鏈接實(shí)現(xiàn)元數(shù)據(jù)內(nèi)容的可移植性。

    1.4 使用維度:分析處理,更新重用

    元數(shù)據(jù)條目的設(shè)置應(yīng)該支持研究人員對(duì)元數(shù)據(jù)內(nèi)容地處理和分析。從數(shù)據(jù)庫(kù)提取下載的資源是否可操作對(duì)整個(gè)數(shù)據(jù)管理過(guò)程至關(guān)重要,這關(guān)系到研究人員能否根據(jù)實(shí)驗(yàn)需要比較不同方案的數(shù)據(jù),并驗(yàn)證相關(guān)的元數(shù)據(jù)因素。專業(yè)庫(kù)使用的元數(shù)據(jù)方案要能夠滿足研究人員的使用需要,并能根據(jù)用戶需要不斷更新完善。同時(shí),數(shù)據(jù)庫(kù)也可以通過(guò)工具包的形式提供開(kāi)放獲取的生物計(jì)算資源和基礎(chǔ)研究架構(gòu)[13],從而支持研究人員在云基礎(chǔ)架構(gòu)上部署可重用的生物醫(yī)學(xué)數(shù)據(jù)計(jì)算分析。

    2 基于SCLA維度模型的生物醫(yī)學(xué)數(shù)據(jù)元數(shù)據(jù)功能需求比較

    2.1 基本情況

    本文選擇了5個(gè)國(guó)外病毒數(shù)據(jù)庫(kù)和2個(gè)國(guó)內(nèi)病毒數(shù)據(jù)庫(kù)的元數(shù)據(jù)應(yīng)用內(nèi)容結(jié)構(gòu)視圖進(jìn)行比較分析,7個(gè)數(shù)據(jù)庫(kù)的基本情況,如表1所示。

    2.2 比較分析

    2.2.1 結(jié)構(gòu)維度

    不同元數(shù)據(jù)標(biāo)準(zhǔn)的側(cè)重點(diǎn)不同,所采用的描述字段不同,元數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容存在差異。比較病毒數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)需要引用一定的參考標(biāo)準(zhǔn),朱玲[15]在文章中引入了一種內(nèi)容結(jié)構(gòu)視圖用于比較跨學(xué)科領(lǐng)域的研究數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)。內(nèi)容結(jié)構(gòu)視圖分為識(shí)別元數(shù)據(jù)模塊(Identity Metadata)、語(yǔ)義元數(shù)據(jù)模塊(Semantic Metadata)、科研活動(dòng)上下文(Scientific Context)、時(shí)間元數(shù)據(jù)(Temporal Metadata)和地理空間元數(shù)據(jù)(Geospatial Metadata)5個(gè)方面,前3個(gè)為主要模塊,分別提供識(shí)別數(shù)據(jù)集實(shí)體信息和相互關(guān)系、學(xué)科分類和跨領(lǐng)域鏈接、確定數(shù)據(jù)集操作流程的功能,如表2所示。

    BioSample和GenBank都是由NCBI維護(hù)的生物醫(yī)學(xué)數(shù)據(jù)庫(kù),元數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)容結(jié)構(gòu)視圖上均未對(duì)語(yǔ)義元數(shù)據(jù)和時(shí)空元數(shù)據(jù)有集中描述,在科研活動(dòng)上下文模塊分別使用了7個(gè)描述字段,強(qiáng)調(diào)對(duì)滿足數(shù)據(jù)研究需求的關(guān)聯(lián)信息的描述。BioSample元數(shù)據(jù)的主體部分是樣本的屬性信息,還包括樣本的基本標(biāo)識(shí)符、生物體分類、樣本描述屬性包、上傳者相關(guān)信息和外部定位鏈接URL等,屬性部分元數(shù)據(jù)的類型不固定,受上傳者選擇的樣本描述屬性包決定;GenBank相比BioSample更加重視對(duì)識(shí)別元數(shù)據(jù)的使用,其每一條由序列和注釋組成記錄都分配有一個(gè)唯一的標(biāo)識(shí)符,稱為登錄號(hào)。登錄號(hào)在記錄的整個(gè)生命周期中保持不變,不受序列或注釋更改的影響。版本復(fù)合標(biāo)識(shí)符由主要登錄號(hào)和記錄中序列數(shù)據(jù)的數(shù)字版本號(hào)組成,基因序列的每個(gè)版本都分配有一個(gè)唯一的NCBI標(biāo)識(shí)符,稱為GI號(hào),每個(gè)GI號(hào)對(duì)應(yīng)一個(gè)唯一的版本標(biāo)識(shí)符。當(dāng)對(duì)GenBank數(shù)據(jù)庫(kù)中的序列進(jìn)行修改會(huì)向更新后的序列分配新的GI號(hào),并增加版本標(biāo)識(shí)符的版本擴(kuò)展名以保證檢索記錄始終處于最新版本。

    ICTVdb不同于一般的生物病毒基因庫(kù),它是病毒分類學(xué)國(guó)際委員會(huì)管理的數(shù)據(jù)庫(kù),提供對(duì)每個(gè)物種示例性病毒的信息。ICTV關(guān)注的是病毒分類群的名稱和命名,即物種、屬、科等,因此在內(nèi)容結(jié)構(gòu)視圖上強(qiáng)調(diào)對(duì)分類信息的限定,使用了16個(gè)語(yǔ)義元數(shù)據(jù)條目,沒(méi)有使用過(guò)多的識(shí)別元數(shù)據(jù),僅包括示例病毒的GenBank和RefSeq登錄號(hào),以及屬于某個(gè)物種的病毒的隔離名和通用名。

    ViPR使用GSCID-BRC元數(shù)據(jù)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)的特點(diǎn)在于元數(shù)據(jù)構(gòu)成的層次結(jié)構(gòu)分明,由5個(gè)主要方面和12個(gè)數(shù)據(jù)字段組成的樹(shù)狀分支網(wǎng)絡(luò),每個(gè)子元素字段之間都有明顯的區(qū)分度。ViPR提供了來(lái)自GenBank的識(shí)別數(shù)據(jù)、注釋和序列查詢鏈接,元數(shù)據(jù)開(kāi)發(fā)小組不斷推出新的版本對(duì)該標(biāo)準(zhǔn)進(jìn)行完善,使ViPR的元數(shù)據(jù)內(nèi)容實(shí)現(xiàn)與其他兼容GSCID-BRC元數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)網(wǎng)站的內(nèi)容鏈接。

    VIPERdb是基于MySQL開(kāi)源數(shù)據(jù)庫(kù)管理系統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),使用開(kāi)放源代碼OpenMMS Toolkit將mmCIF格式生物分子結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)換為多種數(shù)據(jù)格式[16]。VIPERdb包含了約180個(gè)mmCIF詞典中定義的分類表,表列對(duì)應(yīng)字典數(shù)據(jù)項(xiàng),并提供從結(jié)晶參數(shù)到二級(jí)結(jié)構(gòu)的內(nèi)容和拓展信息。

    國(guó)家生物信息中心的2019新型冠狀病毒信息庫(kù)(以下簡(jiǎn)稱CNCB2019新冠病毒庫(kù))元數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)容結(jié)構(gòu)視圖上的主體部分集中在上下文模塊,還使用了5個(gè)元數(shù)據(jù)條目對(duì)數(shù)據(jù)采集發(fā)布的時(shí)間、空間信息進(jìn)行了限定。雖然沒(méi)有使用統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)方案,但使用“序列完整度”和“質(zhì)量評(píng)估”這樣的元數(shù)據(jù)條目對(duì)基因組序列數(shù)據(jù)的元數(shù)據(jù)質(zhì)量提出了需求。

    PHDA是國(guó)家人口健康科學(xué)數(shù)據(jù)中心管理的醫(yī)學(xué)數(shù)據(jù)庫(kù)集合中心,存儲(chǔ)了大量的生物學(xué)和醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)庫(kù)和數(shù)據(jù)記錄,如蝙蝠相關(guān)病毒數(shù)據(jù)庫(kù)、嚙齒類相關(guān)病毒數(shù)據(jù)庫(kù)、冠狀病毒傳染病本體等。子數(shù)據(jù)庫(kù)不是單純的樣本數(shù)據(jù)集合,提供了詳細(xì)的元數(shù)據(jù)條目幫助研究人員掌握子數(shù)據(jù)庫(kù)和樣本數(shù)據(jù)的相關(guān)信息。PHDA的子數(shù)據(jù)庫(kù)使用了醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn),元數(shù)據(jù)方案采用二級(jí)元數(shù)據(jù)條目,將樣本數(shù)據(jù)清晰地劃分為基本信息、描述信息和聯(lián)系信息等部分,根據(jù)數(shù)據(jù)集和子數(shù)據(jù)庫(kù)的對(duì)象引出下級(jí)詳細(xì)的元數(shù)據(jù)內(nèi)容。用戶可以通過(guò)一級(jí)元數(shù)據(jù)條目準(zhǔn)確定位目標(biāo)的識(shí)別元數(shù)據(jù)、分類描述信息、相關(guān)責(zé)任方聯(lián)系信息以及具體的目標(biāo)序列數(shù)據(jù)。

    經(jīng)過(guò)上述運(yùn)用內(nèi)容結(jié)構(gòu)視圖對(duì)7個(gè)數(shù)據(jù)庫(kù)元數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)的比較可以發(fā)現(xiàn),數(shù)據(jù)庫(kù)的元數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)容結(jié)構(gòu)視圖上主要集中在科研活動(dòng)上下文模塊,會(huì)根據(jù)數(shù)據(jù)庫(kù)的類型特點(diǎn)而有所側(cè)重,如GenBank要求對(duì)每條序列內(nèi)容、注釋和版本的標(biāo)識(shí),重視使用識(shí)別元數(shù)據(jù)條目;ICTVdb關(guān)注病毒分類相關(guān)信息的描述,強(qiáng)調(diào)語(yǔ)義元數(shù)據(jù)模塊。此外,國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)相比國(guó)外更加重視元數(shù)據(jù)對(duì)樣本時(shí)間和空間信息的描述。

    2.2.2 內(nèi)容維度

    GenBank、BioSample、ViPR和PHDA都提供了記錄樣本非結(jié)構(gòu)化信息的自由文本編輯條目,CNCB2019新冠病毒庫(kù)僅提供了樣本數(shù)據(jù)的注釋統(tǒng)計(jì)數(shù)。GenBank允許上傳者修改序列數(shù)據(jù)和注釋,同時(shí)鼓勵(lì)用戶通過(guò)NCBI的數(shù)據(jù)上傳網(wǎng)站向GenBank報(bào)告數(shù)據(jù)庫(kù)發(fā)布數(shù)據(jù)的滯后和可能的數(shù)據(jù)錯(cuò)誤與內(nèi)容遺漏。BioSample在確定樣本屬性之后為上傳者提供了一個(gè)可選的自由文本字段以存儲(chǔ)有關(guān)樣本的非結(jié)構(gòu)化信息,這種結(jié)構(gòu)化信息加非結(jié)構(gòu)化信息的樣本數(shù)據(jù)收錄方式能夠確保樣本信息的完整性,滿足不同用戶的數(shù)據(jù)獲取需求。ViPR基因組序列和變異信息引用了GenBank的數(shù)據(jù)信息,設(shè)置了GenBank定義和GenBank注釋。PHDA子數(shù)據(jù)庫(kù),以蝙蝠相關(guān)病毒數(shù)據(jù)庫(kù)為例,在數(shù)據(jù)描述信息元數(shù)據(jù)條目說(shuō)明了蝙蝠相關(guān)病毒研究的重要性、數(shù)據(jù)庫(kù)元數(shù)據(jù)條目、數(shù)據(jù)庫(kù)功能用途和數(shù)據(jù)更新特點(diǎn),主要介紹數(shù)據(jù)庫(kù)的基本情況,并未描述具體樣本數(shù)據(jù)。

    ICTVdb收錄的物種示例病毒數(shù)據(jù)來(lái)源于ICTV發(fā)布的在線報(bào)告,報(bào)告中提供每種物種的示例性病毒權(quán)威列表和VMR電子表格,電子表格收錄了包括尚未在ICTV報(bào)告章節(jié)中描述的病毒種類的示例并基于新的信息發(fā)布進(jìn)行更新糾正。

    VIPERdb沒(méi)有提供非結(jié)構(gòu)化文本編輯的元數(shù)據(jù)條目,研究人員可以對(duì)衣殼結(jié)構(gòu)進(jìn)行簡(jiǎn)單的修改以確保關(guān)聯(lián)結(jié)構(gòu)之間的一致性,并在聯(lián)機(jī)補(bǔ)充數(shù)據(jù)中加以詳細(xì)說(shuō)明。

    BioSample鼓勵(lì)上傳者使用結(jié)構(gòu)化和一致的屬性名稱和值,其上傳門(mén)戶網(wǎng)站還為上傳用戶提供包含許多常見(jiàn)的BioSample數(shù)據(jù)類型的專用屬性包(Specialized Packages)和用于自定義描述屬性的泛用屬性包(Generic Packages)。每種專用屬性包都包含一整套描述樣本的相關(guān)屬性,用戶可以使用屬性包中的受控詞匯以結(jié)構(gòu)化的方式來(lái)描述樣本信息,推進(jìn)元數(shù)據(jù)的標(biāo)準(zhǔn)化。GenBank序列記錄的登錄號(hào)是每條序列的主要標(biāo)識(shí)符,不會(huì)因序列記錄的更新修改而產(chǎn)生改變,使用登錄號(hào)檢索GenBank記錄會(huì)得到序列的最新版本。如果序列記錄被更新修改,通過(guò)登錄號(hào)所獲取的序列數(shù)據(jù)可能與以前文章中所使用的序列數(shù)據(jù)不同。

    2.2.3 關(guān)聯(lián)維度

    BioSample將樣本元數(shù)據(jù)鏈接到跨多個(gè)檔案數(shù)據(jù)庫(kù)的相應(yīng)實(shí)驗(yàn)數(shù)據(jù),使得樣本描述支持跨數(shù)據(jù)庫(kù)查詢,同時(shí)樣本數(shù)據(jù)中也提供了指向其他檔案中的相關(guān)記錄的鏈接,如參考生物樣本(Reference BioSample)作為映射NCBI檔案數(shù)據(jù)的樞紐可以幫助用戶快速找到從給定樣本派生的多種數(shù)據(jù)集和項(xiàng)目。此外,BioSample還與GenBank和BioProjec等外部數(shù)據(jù)庫(kù)相互鏈接,幫助導(dǎo)航查找派生數(shù)據(jù)和相關(guān)數(shù)據(jù)。

    GenBank是國(guó)際核苷酸序列數(shù)據(jù)庫(kù)合作組織(the International Nucleotide Sequence Database Collaboration,INSDC)的合作伙伴,元數(shù)據(jù)條目中的登錄號(hào)作為唯一應(yīng)用標(biāo)識(shí)符在3個(gè)協(xié)作數(shù)據(jù)庫(kù)GenBank、日本DNA數(shù)據(jù)庫(kù)DDBJ和歐洲分子生物學(xué)實(shí)驗(yàn)室核苷酸序列數(shù)據(jù)庫(kù)(the European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL-Bank)之間共享,并且每天與歐洲核苷酸檔案庫(kù)(ENA)、EMBL-Bank和DDBJ交換數(shù)據(jù),以確保全球范圍內(nèi)統(tǒng)一全面的序列信息覆蓋。此外,GenBank的序列記錄存在指向BioSample數(shù)據(jù)庫(kù)的鏈接,提供諸如全基因組關(guān)聯(lián)研究、高通量測(cè)序等序列數(shù)據(jù)測(cè)量研究中使用的生物材料的其他信息。GenBank還鼓勵(lì)用戶在引用數(shù)據(jù)庫(kù)信息時(shí)使用登錄號(hào),幫助定位相關(guān)信息和延伸信息。

    ViPR使用了GenBank的數(shù)據(jù)鏈接,基因序列數(shù)據(jù)的元數(shù)據(jù)條目提供了GenBank序列記錄的登錄號(hào)和樣本的定義、注釋和宿主,研究人員可以直接使用登錄號(hào)鏈接跳轉(zhuǎn)至GenBank數(shù)據(jù)庫(kù)獲取序列記錄的詳細(xì)信息。

    VIPERdb的元數(shù)據(jù)條目相比VIPER增加了結(jié)構(gòu)坐標(biāo)和相關(guān)信息的鏈接,除了豐富的有關(guān)病毒衣殼的語(yǔ)義元數(shù)據(jù),如科、屬、T指數(shù)外,還包括指向ICTVdb的相關(guān)分類單元、PubMed的參考文獻(xiàn)和一些相關(guān)的晶體學(xué)信息等。用戶可以通過(guò)鏈接從GenBank、ICTVdb、PDB等不同類型的數(shù)據(jù)庫(kù)獲取補(bǔ)全關(guān)聯(lián)信息,實(shí)現(xiàn)對(duì)需求病毒衣殼數(shù)據(jù)的全面挖掘,在不同類型的派生數(shù)據(jù)之間交叉引用。

    CNCB2019新型冠狀病毒信息庫(kù)用于信息分析所用的全基因組序列來(lái)自CNGBdb、GenBank、全球共享流感數(shù)據(jù)倡議組織(Global Initiative on Sharing All Influenza Data,GISAID)和基因組倉(cāng)庫(kù)(Genome Warehouse,GWH)數(shù)據(jù)庫(kù)[17],除GISAID數(shù)據(jù)庫(kù)的序列信息由于使用權(quán)限原因無(wú)法提供下載,其他數(shù)據(jù)庫(kù)來(lái)源的基因組序列均可通過(guò)數(shù)據(jù)來(lái)源元數(shù)據(jù)模塊提供的鏈接進(jìn)行選定或批量獲取下載。CNCB新冠病毒庫(kù)還提供了冠狀病毒序列、基因組變異、臨床信息和文獻(xiàn)情報(bào)的拓展信息資源服務(wù),用戶可以通過(guò)數(shù)據(jù)庫(kù)中的鏈接進(jìn)入NGDC的基因組倉(cāng)庫(kù)獲取冠狀病毒科的病毒序列相關(guān)研究信息。

    PHDA的子數(shù)據(jù)庫(kù)提供了當(dāng)前版本數(shù)據(jù)庫(kù)來(lái)源的鏈接。用戶可以從“附件”和“數(shù)據(jù)”條目下載數(shù)據(jù)包和字典模板,對(duì)于缺乏實(shí)體數(shù)據(jù)的特殊數(shù)據(jù)庫(kù)可以在“數(shù)據(jù)說(shuō)明”條目發(fā)出實(shí)體數(shù)據(jù)的申請(qǐng)。

    2.2.4 使用維度

    GenBank、ViPR和CNCB2019新冠病毒庫(kù)支持用戶對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)執(zhí)行基本的基本局部比對(duì)搜索工具(Basic Local Alignment Search Tool,BLAST)序列相似性搜索。GenBank使用全面的、基于核苷酸序列的分類方法和鏈接到相關(guān)序列數(shù)據(jù)的分類法瀏覽器,新物種的序列上傳至數(shù)據(jù)庫(kù)后需要咨詢NCBI分類法小組以解決有關(guān)命名和分類的問(wèn)題后再將序列條目公開(kāi),避免對(duì)數(shù)據(jù)庫(kù)索引造成干擾。用于區(qū)分樣本序列數(shù)據(jù)類別的元數(shù)據(jù)能夠幫助用戶對(duì)GenBank數(shù)據(jù)進(jìn)行BLAST比對(duì),在數(shù)據(jù)庫(kù)序列之間進(jìn)行類比研究[11];ViPR支持研究人員使用自己提供或從ViPR中選擇的序列數(shù)據(jù)與ViPR數(shù)據(jù)庫(kù)中選定的序列集合或用戶創(chuàng)建的數(shù)據(jù)集進(jìn)行對(duì)比,運(yùn)行BLAST后會(huì)輸出每條序列完整的識(shí)別元數(shù)據(jù)內(nèi)容、標(biāo)準(zhǔn)比值、期望值、方法、統(tǒng)一性和陽(yáng)性值;CNCB新冠病毒庫(kù)側(cè)重于對(duì)2019新型冠狀病毒序列的橫向研究,在元數(shù)據(jù)條目中序列號(hào)和相關(guān)ID可以提供每條序列唯一的識(shí)別信息,序列完整度和序列長(zhǎng)度、質(zhì)量信息鼓勵(lì)上傳完整的序列數(shù)據(jù)以支持病毒序列數(shù)據(jù)的對(duì)比研究和對(duì)原始序列的驗(yàn)證,每條序列數(shù)據(jù)都記錄有采樣時(shí)間地點(diǎn)和樣本提交的時(shí)間和單位,支持最多10個(gè)基因組序列之間的BLAST比對(duì)和74個(gè)國(guó)家2019新型冠狀病毒序列數(shù)統(tǒng)計(jì)和增長(zhǎng)趨勢(shì)研究。研究人員還可以利用數(shù)據(jù)庫(kù)提供的變異注釋和變異鑒定兩種在線工具,將測(cè)序原始數(shù)據(jù)與新冠病毒基因組進(jìn)行序列比對(duì),檢測(cè)樣本中含有的新冠病毒序列,分析測(cè)序數(shù)據(jù)對(duì)新冠病毒基因組的覆蓋度、測(cè)序深度、錯(cuò)誤率等信息。

    病毒數(shù)據(jù)庫(kù)所提供的使用程序和工具服務(wù)基于數(shù)據(jù)庫(kù)的元數(shù)據(jù)結(jié)構(gòu)和研究需要,VIPERdb的語(yǔ)言編寫(xiě)程序提供了一個(gè)將PDB坐標(biāo)轉(zhuǎn)化為VIPER坐標(biāo)的腳本,可以自動(dòng)確定將衣殼信息定向?yàn)閂IPER方向所需的轉(zhuǎn)換矩陣,并將其存儲(chǔ)在數(shù)據(jù)庫(kù)中[16];PHDA數(shù)據(jù)倉(cāng)儲(chǔ)匯總子數(shù)據(jù)庫(kù)的數(shù)據(jù)鏈接,對(duì)數(shù)據(jù)跨庫(kù)研究的需要更多依賴數(shù)據(jù)庫(kù)提供的功能服務(wù)。

    3 對(duì)我國(guó)生物醫(yī)學(xué)元數(shù)據(jù)建設(shè)的啟示和建議

    本文在比較分析國(guó)內(nèi)外生物醫(yī)學(xué)元數(shù)據(jù)方案標(biāo)準(zhǔn)和功能需求的基礎(chǔ)上,從數(shù)據(jù)結(jié)構(gòu)需求、數(shù)據(jù)內(nèi)容需求、數(shù)據(jù)研究需求和數(shù)據(jù)鏈接需求4個(gè)維度對(duì)比了國(guó)內(nèi)外生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的元數(shù)據(jù)方案。結(jié)合國(guó)內(nèi)病毒數(shù)據(jù)庫(kù)元數(shù)據(jù)方案的不足,基于基因組學(xué)研究人員的元數(shù)據(jù)功能需求對(duì)國(guó)內(nèi)提升病毒數(shù)據(jù)開(kāi)放水平提出建議。

    3.1 優(yōu)化數(shù)據(jù)結(jié)構(gòu),推動(dòng)標(biāo)準(zhǔn)化研究

    國(guó)內(nèi)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)為了方便實(shí)現(xiàn)與外部關(guān)聯(lián)資源的鏈接,使用的元數(shù)據(jù)方案來(lái)源于多個(gè)學(xué)科的數(shù)據(jù)結(jié)構(gòu)和標(biāo)準(zhǔn),具有很好的兼容性。這種兼容的元數(shù)據(jù)方案能夠幫助通用數(shù)據(jù)庫(kù)存儲(chǔ)各種格式的數(shù)據(jù)類型,但是缺乏對(duì)數(shù)據(jù)的有效描述和限定,導(dǎo)致數(shù)據(jù)庫(kù)內(nèi)部數(shù)據(jù)呈現(xiàn)多樣化,集成程度不斷降低,研究人員的數(shù)據(jù)發(fā)現(xiàn)和使用會(huì)更加困難。對(duì)于生物醫(yī)學(xué)領(lǐng)域的病毒數(shù)據(jù)庫(kù)這類定位重要數(shù)字對(duì)象或數(shù)據(jù)使用用途的專用數(shù)據(jù)庫(kù),需要結(jié)合對(duì)象的數(shù)據(jù)特點(diǎn)和研究用途設(shè)置元數(shù)據(jù)標(biāo)準(zhǔn),如ICTVdb的元數(shù)據(jù)方案強(qiáng)調(diào)對(duì)病毒的語(yǔ)義元數(shù)據(jù)模塊的設(shè)置,并根據(jù)知識(shí)更新和數(shù)字對(duì)象的變化及時(shí)調(diào)整元數(shù)據(jù)標(biāo)準(zhǔn)以提高元數(shù)據(jù)內(nèi)容的質(zhì)量。

    為滿足數(shù)據(jù)處理最低需要,國(guó)際基因組學(xué)領(lǐng)域已經(jīng)定義了一套最小的核心元數(shù)據(jù)元素集。學(xué)科領(lǐng)域內(nèi)部也需要定義一套通用的病毒數(shù)據(jù)開(kāi)放元數(shù)據(jù)標(biāo)準(zhǔn)以支持研究人員的跨庫(kù)數(shù)據(jù)處理與交互。

    3.2 控制數(shù)據(jù)質(zhì)量,促進(jìn)數(shù)據(jù)共享重用

    元數(shù)據(jù)對(duì)數(shù)據(jù)質(zhì)量表現(xiàn)為準(zhǔn)確性、完整性等,對(duì)數(shù)據(jù)質(zhì)量的控制呈現(xiàn)為保持?jǐn)?shù)據(jù)結(jié)構(gòu)一致和可獲取性。國(guó)內(nèi)病毒數(shù)據(jù)庫(kù)用于控制數(shù)據(jù)質(zhì)量的元數(shù)據(jù)條目指向不一,PHDA的元數(shù)據(jù)條目“數(shù)據(jù)大小”“數(shù)據(jù)記錄數(shù)”“數(shù)據(jù)格式”側(cè)重于對(duì)數(shù)據(jù)集的體量和格式標(biāo)準(zhǔn)的控制,CNCB2019新冠病毒數(shù)據(jù)庫(kù)使用的“序列完整度”和“質(zhì)量評(píng)估”側(cè)重于對(duì)數(shù)據(jù)集結(jié)構(gòu)和內(nèi)容標(biāo)準(zhǔn)的控制。標(biāo)準(zhǔn)之間難以橫向比較,可以建立一套通用的最小核心標(biāo)準(zhǔn)評(píng)價(jià)數(shù)據(jù)質(zhì)量。標(biāo)準(zhǔn)內(nèi)容應(yīng)該確保支持不同生物主體和數(shù)據(jù)庫(kù)類型的數(shù)據(jù)質(zhì)量控制需要,并根據(jù)具體需求特點(diǎn)拓展標(biāo)準(zhǔn)條目。

    此外,元數(shù)據(jù)內(nèi)容的質(zhì)量控制一方面受數(shù)據(jù)庫(kù)元數(shù)據(jù)條目在數(shù)據(jù)上傳時(shí)對(duì)數(shù)據(jù)的限定;另一方面還依靠用戶的使用反饋??梢詫W(xué)習(xí)國(guó)外病毒數(shù)據(jù)庫(kù),如BioSample,采用的“結(jié)構(gòu)化標(biāo)準(zhǔn)+非結(jié)構(gòu)化注釋模塊”的方式,利用受控語(yǔ)言統(tǒng)一樣本數(shù)據(jù)結(jié)構(gòu),結(jié)合非結(jié)構(gòu)化詞語(yǔ)描述補(bǔ)充樣本數(shù)據(jù)的拓展、修正信息。

    數(shù)據(jù)質(zhì)量良莠不齊是影響數(shù)據(jù)共享和研究人員數(shù)據(jù)重用行為的重要因素,病毒數(shù)據(jù)的質(zhì)量關(guān)系到研究成果的質(zhì)量,數(shù)據(jù)質(zhì)量越高,研究人員的感知有用性越大,越有可能實(shí)現(xiàn)數(shù)據(jù)重用行為。

    3.3 分類匯總鏈接,構(gòu)建關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)

    CNCB2019新冠病毒庫(kù)和PHDA數(shù)據(jù)倉(cāng)儲(chǔ)相比較國(guó)外生物醫(yī)學(xué)數(shù)據(jù)庫(kù)使用了豐富的關(guān)聯(lián)派生信息的鏈接,鏈接指向不局限于單純關(guān)聯(lián)派生數(shù)據(jù),還提供了完整的數(shù)據(jù)來(lái)源索引、數(shù)據(jù)下載和數(shù)據(jù)處理工具??鐜?kù)鏈接集合構(gòu)成了全面的學(xué)科研究數(shù)據(jù)內(nèi)容,國(guó)內(nèi)病毒數(shù)據(jù)庫(kù)可以嘗試將指向、用途類似的鏈接進(jìn)行歸類整合,建立關(guān)聯(lián)數(shù)據(jù)集之間網(wǎng)絡(luò)圖。所形成的鏈接集合可以直觀地呈現(xiàn)某項(xiàng)數(shù)據(jù)的全部關(guān)聯(lián)內(nèi)容以及所關(guān)聯(lián)內(nèi)容的其他關(guān)聯(lián)信息,幫助研究人員發(fā)現(xiàn)諸如流行病起源與未來(lái)爆發(fā)風(fēng)險(xiǎn)的潛在數(shù)據(jù)聯(lián)系[13],建立新的關(guān)聯(lián)數(shù)據(jù)鏈接以加強(qiáng)對(duì)病毒數(shù)據(jù)的數(shù)據(jù)關(guān)系研究。

    3.4 豐富研究條目,滿足多樣化需求

    CNCB2019新冠病毒庫(kù)支持對(duì)病毒序列的橫向?qū)Ρ妊芯亢蛯?duì)原始測(cè)序數(shù)據(jù)的數(shù)據(jù)驗(yàn)證,能夠滿足研究人員對(duì)元數(shù)據(jù)條目可操作性的要求。數(shù)據(jù)庫(kù)提供了完整的基因組序列數(shù)據(jù)用于比較研究,但涉及數(shù)據(jù)對(duì)比研究的元數(shù)據(jù)條目較少且大多使用受控詞匯作為元數(shù)據(jù)內(nèi)容。對(duì)比VIPERdb有關(guān)序列對(duì)比研究的條目“解析度”“基因組”“T指數(shù)”“子單元數(shù)”“凈表面電荷”“外部SASA”“半徑”“直徑”“球形體積”,CNCB2019新冠病毒庫(kù)只有“序列完整度”“序列長(zhǎng)度”和“序列質(zhì)量”3個(gè)元數(shù)據(jù)條目,且除“序列長(zhǎng)度”使用實(shí)際測(cè)得數(shù)據(jù)以外均使用結(jié)構(gòu)化受控詞匯填充內(nèi)容,對(duì)于實(shí)際對(duì)比研究所能獲得結(jié)論十分有限。國(guó)內(nèi)病毒數(shù)據(jù)庫(kù)需要根據(jù)研究人員的數(shù)據(jù)研究需求編制新的元數(shù)據(jù)方案版本,支持研究人員多樣化的數(shù)據(jù)研究需求。

    參考文獻(xiàn)

    [1]Dugan V G,Emrich S J,Giraldo-Calderón G I,et al.Standardized Metadata for Human Pathogen/Vector Genomic Sequences[J/OL].https://doi.org/10.1371/journal.pone.0099979,2020-05-01.

    [2]Goncalves R S,Musen M A.The Variable Quality of Metadata About Biological Samples Used in Biomedical Experiments[J/OL].https://doi.org/10.1038/sdata.2019.21,2020-05-01.

    [3]Marc D T,Beattie J,Herasevich V,et al.Assessing Metadata Quality of a Federally Sponsored Health Data Repository[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5333273,2020-05-20.

    [4]Shah N H,Jonquet C,Chiang A P,et al.Ontology-driven Indexing of Public Datasets for Translational Bioinformatics[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2646250.

    [5]Jones P,Cté R G,Cho S Y,et al.PRIDE:New Developments and New Datasets[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238846,2020-05-20.

    猜你喜歡
    元數(shù)據(jù)
    元數(shù)據(jù)國(guó)際交換共享的客家古民居數(shù)字記憶工程建設(shè)
    基于來(lái)源的組織機(jī)構(gòu)元數(shù)據(jù)構(gòu)建研究
    檔案管理(2017年1期)2017-01-17 19:09:04
    元數(shù)據(jù)與社會(huì)化標(biāo)簽在微視頻搜索中的應(yīng)用
    高等院校智慧校園建設(shè)規(guī)劃與實(shí)現(xiàn)
    歸檔網(wǎng)絡(luò)信息價(jià)值判斷的元數(shù)據(jù)描述研究綜述
    利用VB讀取中國(guó)知網(wǎng)過(guò)刊數(shù)據(jù)提取元數(shù)據(jù)的研究
    財(cái)會(huì)信息資源元數(shù)據(jù)標(biāo)準(zhǔn)的研究
    基于隱語(yǔ)義模型和用戶信任的個(gè)性化推薦模型
    職業(yè)教育專業(yè)教學(xué)資源庫(kù)資源建設(shè)研究
    軟件(2015年11期)2016-01-12 07:52:36
    基于關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義數(shù)字檔案館框架設(shè)計(jì)研究
    檔案管理(2015年4期)2015-06-25 20:53:51
    仲巴县| 双辽市| 陵川县| 山阳县| 巫山县| 宜宾市| 凌源市| 精河县| 广南县| 岫岩| 黎城县| 邵武市| 黄冈市| 苍南县| 郁南县| 武冈市| 呼伦贝尔市| 杭锦后旗| 梨树县| 融水| 会同县| 新绛县| 剑阁县| 东明县| 二手房| 黄山市| 当雄县| 富源县| 双鸭山市| 武胜县| 溧阳市| 仪征市| 虎林市| 尼勒克县| 长春市| 鸡泽县| 财经| 玉林市| 陵水| 祁阳县| 江阴市|