• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)研究進(jìn)展

    2022-07-02 07:18:46羅鵬程王繼民
    情報(bào)學(xué)報(bào) 2022年6期
    關(guān)鍵詞:排序檢索科學(xué)

    羅鵬程,王繼民,聶 磊

    (1. 北京大學(xué)信息管理系,北京 100871;2. 北京大學(xué)圖書館,北京 100871;3. 北京外國(guó)語大學(xué)區(qū)域與全球治理高等研究院,北京 100089)

    1 引 言

    大數(shù)據(jù)時(shí)代,科學(xué)數(shù)據(jù)的開放共享受到各方高度重視,“數(shù)據(jù)爆炸”問題正在顯現(xiàn)。2018 年,國(guó)務(wù)院發(fā)布《科學(xué)數(shù)據(jù)管理辦法》,明確了“開放為常態(tài)、不開放為例外”的科學(xué)數(shù)據(jù)共享原則[1]。隨后,陜西[2]、湖北[3]、江蘇[4]等十余省份陸續(xù)發(fā)布科學(xué)數(shù)據(jù)管理實(shí)施細(xì)則。國(guó)際上,美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation)要求項(xiàng)目申請(qǐng)時(shí)必須提交數(shù)據(jù)管理計(jì)劃[5],澳大利亞推出國(guó)家數(shù)據(jù)服務(wù)[6],歐盟建設(shè)開放科學(xué)云[7]。各類研究機(jī)構(gòu)也積極建設(shè)數(shù)據(jù)倉儲(chǔ),共享科學(xué)數(shù)據(jù),如哈佛大學(xué)Dat‐averse、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)云。在這一背景下,科學(xué)數(shù)據(jù)正不斷積累。據(jù)DataCite 統(tǒng)計(jì),截至2021年10 月,科學(xué)數(shù)據(jù)集的數(shù)量達(dá)到1000 多萬;據(jù)Google 統(tǒng)計(jì),互聯(lián)網(wǎng)上數(shù)據(jù)集的數(shù)量已從2016 年的50 萬快速增長(zhǎng)到2020 年的2800 萬[8]。隨著科學(xué)研究轉(zhuǎn)向數(shù)據(jù)密集型范式,許多學(xué)科對(duì)數(shù)據(jù)的需求十分強(qiáng)烈,基于共享的科學(xué)數(shù)據(jù)可支撐高質(zhì)量研究成果產(chǎn)出[9],并且研究者越來越愿意共享和復(fù)用科學(xué)數(shù)據(jù)[10-11]。目前,科學(xué)數(shù)據(jù)集分散在眾多異構(gòu)的數(shù)據(jù)倉儲(chǔ)之中,各數(shù)據(jù)倉儲(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)容存在較大差異。面對(duì)海量、多源、異構(gòu)的開放科學(xué)數(shù)據(jù)集,如何高效地從中發(fā)現(xiàn)符合需求的有效數(shù)據(jù)正成為研究者面臨的重要問題。

    目前,科學(xué)數(shù)據(jù)集檢索相關(guān)研究問題已受到許多學(xué)科領(lǐng)域的廣泛關(guān)注。在圖書館學(xué)、情報(bào)學(xué)領(lǐng)域,研究者關(guān)注數(shù)據(jù)檢索行為[12-14],DataCite、加拿大研究圖書館協(xié)會(huì)分別推出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)DataCite Search、Federated Research Data Re‐pository(FRDR)。在計(jì)算機(jī)領(lǐng)域,2018 年信息檢索 頂 級(jí) 會(huì) 議SIGIR (Special Interest Group on Infor‐mation Retrieval)和交叉綜合領(lǐng)域頂級(jí)會(huì)議WWW(The Web Conference) 專門組織了數(shù)據(jù)搜索研討會(huì)[15-16],Google Dataset Search 負(fù) 責(zé) 人Noy 受 邀 在2020 年數(shù)據(jù)庫頂級(jí)會(huì)議之一SIGMOD 中作主旨報(bào)告[17]。在醫(yī)學(xué)領(lǐng)域,美國(guó)國(guó)立衛(wèi)生研究院資助成立了生物醫(yī)學(xué)和醫(yī)療保健數(shù)據(jù)發(fā)現(xiàn)索引生態(tài)系統(tǒng)聯(lián)盟(biomedical and healthcare data discovery index ecosys‐tem,bioCADDIE),由該聯(lián)盟開發(fā)推出了數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)DataMed[18]。在社會(huì)科學(xué)領(lǐng)域,德國(guó)GESIS - Leibniz-Institut für Sozialwissenschaften (萊布尼茲社會(huì)科學(xué)研究所)面向社會(huì)和經(jīng)濟(jì)科學(xué)推出了gesisDataSearch[19]。從2019 年開始,卡耐基梅隆大學(xué)還組織“面向數(shù)據(jù)發(fā)現(xiàn)與復(fù)用的人工智能研討會(huì)”,推動(dòng)人工智能技術(shù)在數(shù)據(jù)發(fā)現(xiàn)與復(fù)用中的應(yīng)用[20]。近年來商業(yè)性數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)也陸續(xù)推出,如Data Citation Index(DCI)、Elsevier DataS‐earch 等。

    科學(xué)數(shù)據(jù)是國(guó)家重要的戰(zhàn)略資源,目前國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的研究和應(yīng)用不足,阻礙了科學(xué)數(shù)據(jù)價(jià)值的釋放。本文以對(duì)互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進(jìn)行統(tǒng)一檢索的發(fā)現(xiàn)平臺(tái)為研究對(duì)象,對(duì)相關(guān)研究和應(yīng)用進(jìn)展進(jìn)行梳理和總結(jié),以期為進(jìn)一步的研究和應(yīng)用實(shí)踐提供參考。

    2 研究方法

    2.1 概念界定

    本文將科學(xué)數(shù)據(jù)與研究數(shù)據(jù)視為同義詞,即面向研究分析目的而收集、觀察或創(chuàng)建的數(shù)據(jù),用于支持研究結(jié)論[21]。因此,本文所指科學(xué)數(shù)據(jù)不僅涵蓋自然科學(xué)和工程技術(shù),也包括社會(huì)科學(xué)、人文與藝術(shù)等學(xué)科。數(shù)據(jù)集是為特定目的而組織在一起的相關(guān)數(shù)據(jù)的集合[22],科學(xué)數(shù)據(jù)集則是指為研究分析目的而收集、觀察或創(chuàng)建的相關(guān)數(shù)據(jù)的集合。本文中“開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)”是指針對(duì)互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進(jìn)行采集和組織,為用戶提供統(tǒng)一的檢索入口,幫助用戶高效地發(fā)現(xiàn)所需要的數(shù)據(jù)。圖1 給出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的功能示意。通過發(fā)現(xiàn)系統(tǒng)自動(dòng)從眾多數(shù)據(jù)倉儲(chǔ)中采集數(shù)據(jù),為用戶提供統(tǒng)一的檢索入口,避免了用戶到每個(gè)倉儲(chǔ)中檢索所耗費(fèi)的時(shí)間。

    2.2 文獻(xiàn)篩選

    圖1 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)功能示意

    本文以“科學(xué)數(shù)據(jù)集發(fā)現(xiàn)”“scientific dataset discovery”作為查詢語句,并使用“研究”替換查詢中的“科學(xué)”,使用“檢索”“搜索”替換“發(fā)現(xiàn)”,使用“research”替換“scientific”,使用“re‐trieval”“search”替換“discovery”。根據(jù)以上各種同義詞替換策略的組合在中國(guó)知網(wǎng)、萬方數(shù)據(jù)庫和Web of Science 核心集中進(jìn)行題名、關(guān)鍵詞等字段的檢索。通過以上查詢獲得的文獻(xiàn)數(shù)量不多,為此本文還對(duì)檢索條件進(jìn)行放寬,去掉查詢中的“科學(xué)”“研究”“scientific”“research”,或者使用“數(shù)據(jù)”“data”分別替換“數(shù)據(jù)集”“dataset”。從檢索到的1000 多篇文獻(xiàn)中篩選出與科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)、科學(xué)數(shù)據(jù)集檢索相關(guān)性較高的論文41 篇。同時(shí),本課題組對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)進(jìn)行了長(zhǎng)時(shí)間的廣泛調(diào)研,在谷歌及谷歌學(xué)術(shù)中檢索與具體發(fā)現(xiàn)平臺(tái)相關(guān)的論文、報(bào)告、博客、網(wǎng)頁等。最終,本文共匯集77 篇核心論文進(jìn)行綜述。此外,還納入了對(duì)相關(guān)內(nèi)容進(jìn)行補(bǔ)充的擴(kuò)展性論文、報(bào)告、博客、網(wǎng)頁等。

    2.3 綜述框架

    國(guó)際上,已有許多科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)陸續(xù)推出[23]。根據(jù)現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的構(gòu)建模塊[18-19,24],將相關(guān)主要研究問題分為四類:數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序,如圖2 所示。本文將以該框架為基礎(chǔ)來組織全文內(nèi)容。

    圖2 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)相關(guān)的研究問題

    ①數(shù)據(jù)集采集?;ヂ?lián)網(wǎng)中資源數(shù)量龐大,種類繁雜,科學(xué)數(shù)據(jù)集在其中占比極小。如何從海量、分散的互聯(lián)網(wǎng)資源中采集所需數(shù)據(jù)集,是對(duì)科學(xué)數(shù)據(jù)集進(jìn)行統(tǒng)一發(fā)現(xiàn)的前提。②數(shù)據(jù)集組織。通過采集得到海量科學(xué)數(shù)據(jù)集的元數(shù)據(jù),然而元數(shù)據(jù)標(biāo)準(zhǔn)眾多,質(zhì)量參差不齊,需要對(duì)不同來源的元數(shù)據(jù)進(jìn)行融合統(tǒng)一,對(duì)元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,并在此基礎(chǔ)上補(bǔ)充和豐富元數(shù)據(jù)內(nèi)容。③數(shù)據(jù)集檢索。數(shù)據(jù)集作為一種新的信息對(duì)象,其檢索特征有別于傳統(tǒng)文獻(xiàn)和網(wǎng)頁搜索,相應(yīng)檢索方法正處于研究探索階段。④檢索結(jié)果綜合排序。依據(jù)檢索模型獲得的數(shù)據(jù)集,通常按照主題相關(guān)性排序呈現(xiàn)給用戶,然而研究表明用戶對(duì)檢索結(jié)果做出相關(guān)性判斷時(shí)會(huì)考慮數(shù)據(jù)質(zhì)量等諸多因素[12]。本文第3~6 節(jié)將分別對(duì)數(shù)據(jù)集采集、組織、檢索和綜合排序相關(guān)研究進(jìn)行梳理和述評(píng)。

    3 數(shù)據(jù)集采集

    數(shù)據(jù)集主要由元數(shù)據(jù)和數(shù)據(jù)內(nèi)容組成,由于數(shù)據(jù)內(nèi)容較大,且可能存在訪問限制,通常采集的數(shù)據(jù)均為元數(shù)據(jù)。

    3.1 數(shù)據(jù)采集方法

    依據(jù)采集策略的不同,本文將現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的采集方法分為三類:數(shù)據(jù)倉儲(chǔ)向發(fā)現(xiàn)平臺(tái)主動(dòng)推送元數(shù)據(jù),發(fā)現(xiàn)平臺(tái)全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁,發(fā)現(xiàn)平臺(tái)定向采集數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù)。

    (1)數(shù)據(jù)倉儲(chǔ)向發(fā)現(xiàn)平臺(tái)主動(dòng)推送元數(shù)據(jù):由發(fā)現(xiàn)系統(tǒng)提供統(tǒng)一的API(application programming interface)接口,各科學(xué)數(shù)據(jù)倉儲(chǔ)在新增或更新數(shù)據(jù)集時(shí),通過API 接口將元數(shù)據(jù)推送給發(fā)現(xiàn)系統(tǒng)。目前,這種數(shù)據(jù)采集方式僅在DataCite Search 中實(shí)現(xiàn)。DataCite 是科學(xué)數(shù)據(jù)領(lǐng)域最大的DOI (digital object identifier)注冊(cè)代理機(jī)構(gòu),各個(gè)數(shù)據(jù)倉儲(chǔ)在注冊(cè)DOI 時(shí),需要按照DataCite Metadata Schema[25]的要求提交元數(shù)據(jù)。因此,DataCite Search 通過數(shù)據(jù)倉儲(chǔ)主動(dòng)推送的方式采集了大量科學(xué)數(shù)據(jù)集元數(shù)據(jù)。

    (2) 發(fā)現(xiàn)平臺(tái)全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁:由網(wǎng)頁制作者依據(jù)特定標(biāo)準(zhǔn)對(duì)頁面內(nèi)容進(jìn)行描述,并將描述元數(shù)據(jù)嵌入頁面;發(fā)現(xiàn)系統(tǒng)采集網(wǎng)絡(luò)中的頁面,從網(wǎng)頁中解析元數(shù)據(jù),并篩選出數(shù)據(jù)集類型的網(wǎng)頁。目前,這種數(shù)據(jù)采集方式僅在Google Dataset Search 中實(shí)現(xiàn),主要依靠網(wǎng)頁制作者在頁面中嵌入的schema.org 或DCAT (data catalog vocabu‐lary)標(biāo)記數(shù)據(jù)識(shí)別數(shù)據(jù)集頁面。schema.org 由谷歌等搜索引擎公司建立,用于描述網(wǎng)頁資源,幫助搜索引擎更好地理解頁面內(nèi)容。2013 年,schema.org增加了Dataset 類型用于描述數(shù)據(jù)集頁面[26]。DCAT是W3C(World Wide Web Consortium)于2014 年發(fā)布的推薦標(biāo)準(zhǔn),它是一個(gè)RDF(resource description framework)詞匯表,其目的在于促進(jìn)Web 上發(fā)布的數(shù)據(jù)目錄之間的互操作性[27]。Google Dataset Search 依托谷歌強(qiáng)大的通用網(wǎng)頁爬蟲平臺(tái)采集網(wǎng)頁,解析頁面中嵌入的元數(shù)據(jù),從中篩選出使用schema.org 的Dataset 和DataCatalog,以 及DCAT 描述的元數(shù)據(jù),構(gòu)成谷歌數(shù)據(jù)集搜索的基礎(chǔ)[24]。

    (3)發(fā)現(xiàn)平臺(tái)定向采集數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù):由數(shù)據(jù)倉儲(chǔ)提供元數(shù)據(jù)收割協(xié)議,發(fā)現(xiàn)系統(tǒng)評(píng)估、選擇符合需求的數(shù)據(jù)倉儲(chǔ),并通過收割協(xié)議采集元數(shù)據(jù)。目前,這種數(shù)據(jù)采集方式應(yīng)用最多,如DCI、DataMed、gesisDataSearch、Mercury 等。在 定 向 數(shù)據(jù)采集中,發(fā)現(xiàn)系統(tǒng)需要依據(jù)一定的標(biāo)準(zhǔn)遴選數(shù)據(jù)倉儲(chǔ)。DCI 考慮了多種定性、定量因素來對(duì)倉儲(chǔ)進(jìn)行綜合評(píng)價(jià),包括倉儲(chǔ)持久性和穩(wěn)定性、資助情況、作者身份的多樣性等,并且要求提供英文元數(shù)據(jù)[28]。DataMed 則以標(biāo)準(zhǔn)、互操作性、可持續(xù)性、整體質(zhì)量、用戶需求等作為數(shù)據(jù)倉儲(chǔ)的選擇標(biāo)準(zhǔn)[29]。此外,F(xiàn)AIRsharing 和DataCite 面向期刊論文支撐數(shù)據(jù)存儲(chǔ)制定倉儲(chǔ)評(píng)價(jià)標(biāo)準(zhǔn)[30-31],這些標(biāo)準(zhǔn)對(duì)發(fā)現(xiàn)系統(tǒng)選擇數(shù)據(jù)倉儲(chǔ)具有參考價(jià)值。在數(shù)據(jù)倉儲(chǔ)選定后,需要依據(jù)收割協(xié)議采集數(shù)據(jù)。最常用的收割協(xié)議為OAI-PMH(Open Archives Initiative Protocol for Meta‐data Harvesting),例如,DCI[32]、FRDR(Federated Re‐search Data Repository)[33]、gesisDataSearch[19]、Mer‐cury[34]均采用該協(xié)議采集元數(shù)據(jù)。除了OAI-PMH外,一些發(fā)現(xiàn)系統(tǒng)會(huì)提供多種數(shù)據(jù)收割方式,例如,Research Data Australia提供直接收割、OAI-PMH收割、OGC CSW(Open Geospatial Consortium Catalogue Ser‐vice for the Web) 收 割、 CKAN (Comprehensive Knowledge Archive Network)收割四種方式[35]。

    3.2 采集方法述評(píng)

    不同數(shù)據(jù)采集方法各有特點(diǎn),適用于不同場(chǎng)景和應(yīng)用需求。表1 從采集效率、及時(shí)性、數(shù)據(jù)覆蓋率、自動(dòng)化程度、實(shí)現(xiàn)難度和應(yīng)用數(shù)量六個(gè)角度給出了三種采集方法的對(duì)比情況。

    表1 三種數(shù)據(jù)集采集方法對(duì)比

    對(duì)于數(shù)據(jù)倉儲(chǔ)主動(dòng)推送的方法,通常會(huì)在數(shù)據(jù)集新增或更新時(shí),由數(shù)據(jù)倉儲(chǔ)按照統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),向發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,它具有采集效率高、數(shù)據(jù)更新及時(shí)、自動(dòng)化程度高的優(yōu)勢(shì)。然而,通常情況下發(fā)現(xiàn)系統(tǒng)提供方對(duì)數(shù)據(jù)倉儲(chǔ)提供方?jīng)]有約束力,無法要求所有數(shù)據(jù)倉儲(chǔ)都為發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,這種數(shù)據(jù)采集方式很難實(shí)現(xiàn),實(shí)踐中的應(yīng)用數(shù)量很少。對(duì)于數(shù)據(jù)覆蓋率,以Data‐Cite Search 為例,其中注冊(cè)倉儲(chǔ)數(shù)量達(dá)到2000 多個(gè),覆蓋了許多有影響力的科學(xué)數(shù)據(jù)倉儲(chǔ),但并非所有倉儲(chǔ)都會(huì)注冊(cè)DOI,數(shù)據(jù)覆蓋率適中。

    對(duì)于發(fā)現(xiàn)系統(tǒng)全網(wǎng)掃描的方法,由于需要采集海量互聯(lián)網(wǎng)頁面,而科學(xué)數(shù)據(jù)集頁面僅占其中很小比例,并且網(wǎng)頁抓取有一定的時(shí)間周期。因此,它具有實(shí)現(xiàn)難度大、采集效率低、更新有時(shí)延的特點(diǎn),在實(shí)踐中的應(yīng)用數(shù)量很少,通常僅適合擁有海量Web 資源庫的大型搜索引擎公司。這種數(shù)據(jù)采集方法基于爬蟲獲取數(shù)據(jù),面對(duì)的元數(shù)據(jù)格式相對(duì)單一,自動(dòng)化程度高。過去,采用schema.org 和DCAT描述頁面的數(shù)據(jù)倉儲(chǔ)較少,例如,Khalsa 等[36]在2017 年的調(diào)查顯示,僅有13%的科學(xué)數(shù)據(jù)倉儲(chǔ)使用了schema.org。不過現(xiàn)在已有越來越多的倉儲(chǔ)提供schema.org 和DCAT 元數(shù)據(jù),以Google Dataset Search為例,2020 年其收錄數(shù)據(jù)倉儲(chǔ)3700 多個(gè)[8],高于其他類型的發(fā)現(xiàn)平臺(tái),具有相對(duì)較高的數(shù)據(jù)覆蓋率。

    對(duì)于發(fā)現(xiàn)系統(tǒng)定向采集的方法,通常按照一定時(shí)間間隔采集指定數(shù)據(jù)倉儲(chǔ),其采集效率適中,有一定時(shí)延。由于數(shù)據(jù)采集過程中涉及數(shù)據(jù)倉儲(chǔ)的評(píng)價(jià)與選擇,新增倉儲(chǔ)會(huì)因?yàn)閿?shù)據(jù)收割協(xié)議和元數(shù)據(jù)標(biāo)準(zhǔn)的不同,需要人工參與采集程序的修改,如DataMed 新增數(shù)據(jù)攝入插件(ingest consumer)需要半天到數(shù)天的開發(fā)時(shí)間[18],因而其自動(dòng)化程度不夠高。定向采集的數(shù)據(jù)倉儲(chǔ)通常限定在一定范圍內(nèi)(如特定的國(guó)家、學(xué)科),倉儲(chǔ)數(shù)量偏向于中小規(guī)模,通常從數(shù)十個(gè)到上千個(gè)不等。相比于前兩種采集方法,定向采集實(shí)現(xiàn)相對(duì)容易,采集效率適中,在實(shí)踐中應(yīng)用得最為廣泛。

    4 數(shù)據(jù)集組織

    數(shù)據(jù)集的組織主要通過元數(shù)據(jù)實(shí)現(xiàn),現(xiàn)有研究和應(yīng)用主要關(guān)注多源元數(shù)據(jù)的融合,以及科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量分析與元數(shù)據(jù)信息豐富等研究問題。

    4.1 多源元數(shù)據(jù)的融合

    科學(xué)數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)眾多,包括通用元數(shù)據(jù)標(biāo)準(zhǔn)、學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)等數(shù)十種[37]。面對(duì)繁雜的元數(shù)據(jù)格式,發(fā)現(xiàn)系統(tǒng)需要設(shè)計(jì)一個(gè)統(tǒng)一的元數(shù)據(jù)模型,將不同來源的元數(shù)據(jù)進(jìn)行融合。目前,主要有兩種實(shí)現(xiàn)方法:僅考慮通用信息的多源元數(shù)據(jù)融合,以及同時(shí)考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合。

    1)僅考慮通用信息的多源元數(shù)據(jù)融合

    不同元數(shù)據(jù)標(biāo)準(zhǔn)雖然各有特色,但都具有標(biāo)題、創(chuàng)建者等通用信息。因此,最簡(jiǎn)單的多源元數(shù)據(jù)融合方法,便是將不同來源的元數(shù)據(jù)映射到一個(gè)通用的元數(shù)據(jù)模型。目前,絕大多數(shù)通用科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)均采用該方法。例如,DataCite Search 的元數(shù)據(jù)模型為DataCite Metadata Schema[25],Google Dataset Search 的元數(shù)據(jù)模型與schema.org 的Dataset 元數(shù)據(jù)類似[24],英國(guó)Research Data Discovery Service 的元數(shù)據(jù)模型與DataCite Metadata Schema 相似[38-39],Research Data Australia 的元數(shù)據(jù)模型為RIFCS(registry interchange format - collections and servic‐es)[40],它們均為通用元數(shù)據(jù)模型。此外,一些面向特定學(xué)科的發(fā)現(xiàn)系統(tǒng)也會(huì)采用通用元數(shù)據(jù)模型。例如,gesisDataSearch 使用Dublin Core(DC)作為它的元數(shù)據(jù)模型[19]。

    基于通用元數(shù)據(jù)模型的融合方法的優(yōu)點(diǎn)在于其復(fù)雜度低,映射規(guī)則簡(jiǎn)單,易于實(shí)現(xiàn),但是存在學(xué)科特有信息丟失的問題。L?ffler 等[41]對(duì)生物多樣性領(lǐng)域研究者的數(shù)據(jù)需求進(jìn)行分析發(fā)現(xiàn),通用元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)用戶需求的覆蓋度較低,而學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)能更全面地覆蓋用戶需求。因此,僅考慮通用信息的多源元數(shù)據(jù)融合方法在滿足學(xué)科個(gè)性化數(shù)據(jù)需求上存在一定的困難。

    2)同時(shí)考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合

    為了保留更多信息,一些發(fā)現(xiàn)系統(tǒng)在設(shè)計(jì)元數(shù)據(jù)模型時(shí)會(huì)納入學(xué)科特有信息。加拿大FRDR 以DC 為基礎(chǔ)進(jìn)行多源元數(shù)據(jù)的融合,制定了不同元數(shù)據(jù)標(biāo)準(zhǔn)到DC 的映射方案[42]。任何無法映射到DC的字段,將保留原始的元數(shù)據(jù)信息,這些特有的元數(shù)據(jù)也會(huì)被索引,并可做出定制化的搜索[33]。DataMed構(gòu)建了DATS(data tag suite)元數(shù)據(jù)模型,該模型包括核心元素和擴(kuò)展元素兩個(gè)部分。核心元素較為通用,適用于任何類型數(shù)據(jù)集的描述;擴(kuò)展元素用于特定學(xué)科數(shù)據(jù)集的描述,目前DATS 包括一個(gè)初始的面向生命、環(huán)境、生物醫(yī)學(xué)領(lǐng)域的擴(kuò)展元數(shù)據(jù)集合[43]。

    引入學(xué)科特有信息的多源元數(shù)據(jù)融合方法的優(yōu)點(diǎn)在于其可保留更多信息,有助于滿足學(xué)科用戶個(gè)性化的數(shù)據(jù)檢索需求,提升檢索效果。由于考慮了學(xué)科因素,會(huì)導(dǎo)致映射規(guī)則增多,模型復(fù)雜度上升,系統(tǒng)實(shí)現(xiàn)和維護(hù)難度加大。因此,該多源元數(shù)據(jù)融和方法通常在面向特定領(lǐng)域的科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中應(yīng)用。

    4.2 元數(shù)據(jù)質(zhì)量與豐富

    元數(shù)據(jù)是當(dāng)前科學(xué)數(shù)據(jù)集檢索最主要的依據(jù),其質(zhì)量的高低直接影響到數(shù)據(jù)集的發(fā)現(xiàn)效果。已有大量研究對(duì)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量進(jìn)行了分析,并在此基礎(chǔ)上探索如何利用各種技術(shù)手段和外部資源來豐富數(shù)據(jù)集的元數(shù)據(jù)信息。

    1)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量

    與傳統(tǒng)文獻(xiàn)信息的組織主要通過專業(yè)人員來對(duì)資源進(jìn)行描述不同,科學(xué)數(shù)據(jù)倉庫中的元數(shù)據(jù)主要由用戶提供。由于缺乏控制,元數(shù)據(jù)普遍存在質(zhì)量問 題。對(duì)Dryad[44-45]、BioSample[46]、BioSamples[46]、Gene Expression Omnibus[47]等科學(xué)數(shù)據(jù)倉儲(chǔ)的分析發(fā)現(xiàn),元數(shù)據(jù)存在錯(cuò)誤、不一致、不規(guī)范等問題;一些平臺(tái)還允許用戶自定義元數(shù)據(jù)信息,使得元數(shù)據(jù)字段字存在重復(fù)、不一致等問題[46]。發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)來自科學(xué)數(shù)據(jù)倉儲(chǔ),由于來源倉儲(chǔ)的元數(shù)據(jù)存在缺失等質(zhì)量問題,導(dǎo)致發(fā)現(xiàn)系統(tǒng)獲取的元數(shù)據(jù)質(zhì)量不高。對(duì)DataONE (data observation net‐work for earth) 分析發(fā)現(xiàn),其元數(shù)據(jù)字段在標(biāo)識(shí)、發(fā)現(xiàn)、評(píng)價(jià)、獲取、集成五個(gè)方面的完整度均在70%左右或以下[48]。一些發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)格式并非科學(xué)數(shù)據(jù)倉儲(chǔ)底層使用的元數(shù)據(jù)模型,由于元數(shù)據(jù)格式轉(zhuǎn)換等問題,采集的元數(shù)據(jù)質(zhì)量降低。例如,Google Dataset Search 采集的元數(shù)據(jù)存在“可能出錯(cuò)的地方都會(huì)出錯(cuò)”的問題[24],DataCite 大量推薦和可選的元數(shù)據(jù)字段缺失嚴(yán)重[49]。

    在構(gòu)建科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)時(shí),由于元數(shù)據(jù)存在錯(cuò)誤、不規(guī)范等問題,需要對(duì)其進(jìn)行大量清洗和規(guī)范化,發(fā)現(xiàn)元數(shù)據(jù)中頻繁出現(xiàn)的模式,制定相應(yīng)規(guī)則來消減錯(cuò)誤。例如,Google Dataset Search從schema.org 元數(shù)據(jù)的多個(gè)字段中提取文件格式、下載地址、DOI 標(biāo)識(shí)符,對(duì)不同格式的日期進(jìn)行規(guī)范化[24]。由于元數(shù)據(jù)存在信息缺失的問題,需要利用各種手段和外部資源來對(duì)其進(jìn)行補(bǔ)充,豐富數(shù)據(jù)集的描述信息。

    2)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)豐富

    目前研究和應(yīng)用中對(duì)元數(shù)據(jù)豐富的探索主要包括:提取元數(shù)據(jù)中的重要實(shí)體、獲取數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)、利用外部資源來補(bǔ)充數(shù)據(jù)集信息等。

    數(shù)據(jù)集元數(shù)據(jù)中包含一些重要實(shí)體,通過提取這些實(shí)體,可為后續(xù)數(shù)據(jù)集檢索功能優(yōu)化奠定基礎(chǔ)。Lafia 等[50]從標(biāo)題、描述和關(guān)鍵詞中識(shí)別主題詞和地理位置,并將識(shí)別的實(shí)體鏈接到美國(guó)國(guó)會(huì)圖書館規(guī)范主題詞和DBpedia 地理位置中。gesisDataSe‐arch 從元數(shù)據(jù)中識(shí)別出命名實(shí)體,并使用Open‐StreetMap 來確定地名實(shí)體的坐標(biāo)位置[19]。DataMed擁有生物醫(yī)學(xué)命名實(shí)體識(shí)別模塊,用于為每個(gè)數(shù)據(jù)集提取一些語義概念集合[18]。將元數(shù)據(jù)中的重要實(shí)體提取出來,并關(guān)聯(lián)到外部的語義概念資源庫,可為后續(xù)基于概念、地理位置進(jìn)行檢索提供必要信息。

    數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)可用于描述數(shù)據(jù)集的使用環(huán)境,關(guān)聯(lián)文獻(xiàn)的文本信息可提供更多檢索點(diǎn),同時(shí)關(guān)聯(lián)文獻(xiàn)也可用于評(píng)估數(shù)據(jù)集的價(jià)值。目前,數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的獲取主要包括兩種方法:通過DOI 來識(shí)別文獻(xiàn)對(duì)數(shù)據(jù)集的引用,以及通過文獻(xiàn)全文挖掘識(shí)別數(shù)據(jù)集標(biāo)題和鏈接地址?;贒OI 的方法較為準(zhǔn)確可靠,在實(shí)際應(yīng)用中使用較多。例如,Google Dataset Search 通過DOI 實(shí)現(xiàn)了數(shù)據(jù)集與谷歌學(xué)術(shù)中的文獻(xiàn)的關(guān)聯(lián)[51],DataCite 通過在文獻(xiàn)全文中搜索匹配DOI 來實(shí)現(xiàn)與數(shù)據(jù)集的關(guān)聯(lián)[52]。由于數(shù)據(jù)引用不規(guī)范,文獻(xiàn)中大量的數(shù)據(jù)引用并沒有DOI,而主要通過數(shù)據(jù)集標(biāo)題、URL(uniform resource locator)地址等實(shí)現(xiàn)引用。通過對(duì)文獻(xiàn)全文進(jìn)行分析挖掘,可提取該引用信息。Ghavimi 等[53]通過人工參與數(shù)據(jù)集標(biāo)題與文獻(xiàn)全文中句子的匹配與判斷,半自動(dòng)地提取對(duì)數(shù)據(jù)集的引用。Lu 等[54]利用機(jī)器學(xué)習(xí)分類方法,以及數(shù)據(jù)集標(biāo)題與URL 鏈接在不同文獻(xiàn)中的共現(xiàn)情況,來識(shí)別數(shù)據(jù)集標(biāo)題及其對(duì)應(yīng)的鏈接。由于通過文獻(xiàn)全文挖掘識(shí)別數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的方法不能實(shí)現(xiàn)完全準(zhǔn)確,其在實(shí)踐中應(yīng)用較少。

    此外,一些研究者還探索了利用外部資源來補(bǔ)充數(shù)據(jù)集信息。由于數(shù)據(jù)集的描述信息中可能會(huì)缺失研究領(lǐng)域等重要信息,而這些信息可能在來源數(shù)據(jù)倉儲(chǔ)的“關(guān)于”頁面中存在,因此Karisani 等[55]利用該信息補(bǔ)充對(duì)數(shù)據(jù)集的描述。Wei 等[56-57]從生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集中識(shí)別出連接到基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus)的序列記錄,收集序列記錄的摘要、標(biāo)題、總體設(shè)計(jì)三個(gè)字段的信息用于豐富數(shù)據(jù)集的描述。Singhal 等[58-59]使用數(shù)據(jù)集標(biāo)題在學(xué)術(shù)搜索引擎中進(jìn)行檢索,將檢索出的文獻(xiàn)標(biāo)題、主題詞作為數(shù)據(jù)集的擴(kuò)展上下文信息。

    4.3 數(shù)據(jù)集組織方法述評(píng)

    在多源元數(shù)據(jù)融合方面,由于采集的元數(shù)據(jù)都主要映射到一個(gè)數(shù)據(jù)通用元數(shù)據(jù)模型,導(dǎo)致很多數(shù)據(jù)集的發(fā)現(xiàn)平臺(tái)無法提供更加精細(xì)的檢索功能。例如,除了查詢?cè)~檢索外,DataCite Search 僅有注冊(cè)年、資源類型、隸屬機(jī)構(gòu)三個(gè)字段的篩選功能。同時(shí),映射過程中學(xué)科特有信息的丟失,會(huì)影響查詢匹配的效果。雖然DATS 構(gòu)建了包含通用和學(xué)科領(lǐng)域信息的元數(shù)據(jù)模型,但目前只有特定學(xué)科的擴(kuò)展信息,本質(zhì)上仍是領(lǐng)域元數(shù)據(jù)模型。因此,有必要對(duì)現(xiàn)有各個(gè)學(xué)科領(lǐng)域的元數(shù)據(jù)模型進(jìn)行分析,建立一個(gè)通用的、能涵蓋各學(xué)科領(lǐng)域的統(tǒng)一元數(shù)據(jù)模型。在模型構(gòu)建中,除了考慮國(guó)際上主流的元數(shù)據(jù)標(biāo)準(zhǔn),也應(yīng)將國(guó)內(nèi)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)(如中國(guó)科學(xué)院制定的生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)、土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)等標(biāo)準(zhǔn)[60])作為重點(diǎn)進(jìn)行考慮。

    在元數(shù)據(jù)質(zhì)量與豐富方面,現(xiàn)有研究主要通過人工統(tǒng)計(jì)分析來發(fā)現(xiàn)元數(shù)據(jù)中存在的質(zhì)量問題,有必要建立一個(gè)面向科學(xué)數(shù)據(jù)集發(fā)現(xiàn)平臺(tái)的元數(shù)據(jù)質(zhì)量評(píng)價(jià)體系及自動(dòng)化評(píng)價(jià)方法,對(duì)采集到的元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,并用于檢索排序中(優(yōu)質(zhì)數(shù)據(jù)集可能會(huì)有更豐富的描述信息)。在數(shù)據(jù)集和文獻(xiàn)關(guān)聯(lián)識(shí)別中,現(xiàn)有應(yīng)用主要通過DOI 來識(shí)別關(guān)聯(lián)關(guān)系,但絕大多數(shù)論文對(duì)數(shù)據(jù)集的引用缺乏DOI 信息。目前通過文獻(xiàn)全文來挖掘識(shí)別數(shù)據(jù)集引用的研究還很少,相關(guān)研究也僅在特定學(xué)科的小批量數(shù)據(jù)集上進(jìn)行方法探索,識(shí)別精準(zhǔn)度不夠高。此外,當(dāng)前發(fā)現(xiàn)系統(tǒng)都只采集數(shù)據(jù)集的元數(shù)據(jù),缺乏對(duì)數(shù)據(jù)集內(nèi)容的挖掘利用。據(jù)本課題組調(diào)研,目前僅Chen 等[61-62]利用機(jī)器學(xué)習(xí)方法從數(shù)據(jù)集中表格數(shù)據(jù)內(nèi)容生成模式標(biāo)簽,用來補(bǔ)充元數(shù)據(jù)信息。事實(shí)上,數(shù)據(jù)集本身也包含豐富的信息,如數(shù)據(jù)文件名稱、說明文檔、數(shù)據(jù)內(nèi)容等,這些信息能夠被部分采集到(如文件名稱、說明文檔),把這些信息補(bǔ)充到元數(shù)據(jù)中,將有利于數(shù)據(jù)集的檢索匹配。

    5 數(shù)據(jù)集檢索

    目前,數(shù)據(jù)集檢索相關(guān)研究主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴(kuò)展來提高召回率,通過相應(yīng)排序優(yōu)化算法來提高檢索精度。

    5.1 查詢擴(kuò)展方法

    自然語言中普遍存在同義詞、近義詞、概念包含等關(guān)系,而數(shù)據(jù)集檢索中的用戶查詢很短[63-65],通常不會(huì)包含其信息需求的所有詞匯表達(dá)。為了提高科學(xué)數(shù)據(jù)集檢索的召回率,已有大量研究對(duì)查詢擴(kuò)展方法進(jìn)行了探索,包括基于本體的查詢擴(kuò)展、基于搜索結(jié)果的查詢擴(kuò)展、基于詞向量的查詢擴(kuò)展,如表2 所示。

    1)基于本體的查詢擴(kuò)展

    本體資源庫中的同一概念的不同表達(dá)、上下位概念等關(guān)系可以對(duì)用戶查詢進(jìn)行有效擴(kuò)充。目前,基于本體的查詢擴(kuò)展主要應(yīng)用在面向特定學(xué)科的數(shù)據(jù)集檢索研究中。例如,儀表領(lǐng)域[66]、林業(yè)領(lǐng)域[67]、生物醫(yī)學(xué)領(lǐng)域[18,55-57,68-70]、社會(huì)科學(xué)領(lǐng)域[71]、生態(tài)學(xué)領(lǐng)域[72]。一些科學(xué)領(lǐng)域在長(zhǎng)期的數(shù)據(jù)管理實(shí)踐中,會(huì)更傾向于使用領(lǐng)域敘詞表中的詞匯描述數(shù)據(jù)集,這使得通過領(lǐng)域本體可以更好地檢索數(shù)據(jù)集。例如,Porter[73]對(duì)生態(tài)學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)相比于一般的關(guān)鍵詞,在LTER(long-term eco‐logical research)敘詞表中的詞能夠更好地檢索數(shù)據(jù)集。此外,多語言版本的本體資源還能實(shí)現(xiàn)跨語言檢索,例如,Vanderbilt 等[72]使用EnvThes 檢索多語種的生態(tài)學(xué)數(shù)據(jù)集。目前,基于本體的查詢擴(kuò)展方法在一些學(xué)科領(lǐng)域數(shù)據(jù)集的發(fā)現(xiàn)平臺(tái)中已有應(yīng)用,如DataMed[18]。由于本體的研制成本高,缺乏足夠精細(xì)和覆蓋面的通用本體資源,限制了該方法在通用數(shù)據(jù)集搜索中的應(yīng)用。

    2)基于搜索結(jié)果的查詢擴(kuò)展

    搜索結(jié)果中會(huì)包含一些與查詢相關(guān)的詞匯,這些相關(guān)詞匯可用于查詢擴(kuò)展。目前該類方法主要利用兩類搜索結(jié)果:一類是來自外部檢索系統(tǒng)的搜索結(jié)果,例如,Karisani 等[55]使用商業(yè)垂直搜索引擎獲取的維基百科和NCBI (National Center for Bio‐technology Information)網(wǎng)站檢索結(jié)果中的詞來擴(kuò)展查詢,Wei 等[56-57]基于谷歌檢索的結(jié)果來擴(kuò)展查詢;另一類是來自內(nèi)部數(shù)據(jù)集檢索系統(tǒng)的搜索結(jié)果,這類方法也被稱為偽相關(guān)反饋,主要使用檢索結(jié)果中的文本內(nèi)容來擴(kuò)展查詢[55,69,74]。由于數(shù)據(jù)集檢索中包含時(shí)間、地理位置的查詢的占比高[64-65,75],一些學(xué)科領(lǐng)域數(shù)據(jù)集的時(shí)空信息對(duì)于相關(guān)性判斷十分重要。為此,Takeuchi 等[76-77]提出了基于時(shí)間和空間的偽相關(guān)反饋方法,來獲取與初始數(shù)據(jù)集檢索結(jié)果具有相似時(shí)空分布的數(shù)據(jù)集。與本體查詢擴(kuò)展方法相比,基于搜索結(jié)果的查詢擴(kuò)展不依賴于人工構(gòu)造的資源庫,能夠適應(yīng)不同的應(yīng)用領(lǐng)域。但檢索結(jié)果具有一定數(shù)量的噪聲詞,會(huì)降低其查詢擴(kuò)展的質(zhì)量。

    3)基于詞向量的查詢擴(kuò)展

    詞向量能夠表達(dá)詞匯之間的語義關(guān)系,已有研究者將其應(yīng)用于科學(xué)數(shù)據(jù)集檢索的查詢擴(kuò)展之中。例 如, Teodoro 等[78]、 Wang 等[79]基 于word2vec,Scerri 等[70]、Cieslewicz 等[74]基于fastText 訓(xùn)練 獲 得詞向量對(duì)查詢進(jìn)行擴(kuò)展。詞向量可以基于不同語料文本訓(xùn)練得到,如數(shù)據(jù)集的元數(shù)據(jù)、科學(xué)文獻(xiàn)數(shù)據(jù),不同語料訓(xùn)練得到的詞向量會(huì)影響查詢擴(kuò)展的效果。Teodoro 等[78]在bioCADDIE、 PMC (PubMed Cen‐tral)、Medline 三個(gè)語料上訓(xùn)練word2vec,結(jié)果顯示在Medline 上訓(xùn)練的詞向量效果最優(yōu)。此外,通過不同模型獲得的詞向量,質(zhì)量也有所不同,Scerri等[70]和 Cieslewicz 等[74]研 究 發(fā) 現(xiàn) fastText 較word2vec、GloVe 具有更優(yōu)的效果。與本體方法相比,基于詞向量的查詢擴(kuò)展方法能夠適應(yīng)不同的應(yīng)用領(lǐng)域,只要提供足夠的領(lǐng)域文本,便可以自動(dòng)獲取高質(zhì)量的詞向量。

    表2 查詢擴(kuò)展方法

    5.2 排序優(yōu)化方法

    為了提高科學(xué)數(shù)據(jù)集檢索的精度,一些研究將檢索過程分為兩個(gè)階段。在第一階段,使用BM25等高效的檢索方法獲取候選的相關(guān)數(shù)據(jù)集,這一階段通常會(huì)進(jìn)行查詢擴(kuò)展,以提高召回率。在第二階段,取第一階段排名靠前的數(shù)據(jù)集,使用更加精細(xì)的方法對(duì)數(shù)據(jù)集的相關(guān)性重新評(píng)分。目前,第二階段檢索結(jié)果排序優(yōu)化主要包括兩類方法。一類是基于啟發(fā)式規(guī)則計(jì)算數(shù)據(jù)集的相關(guān)性,例如,Teodoro等[78]對(duì)查詢和數(shù)據(jù)集自動(dòng)分類,將與查詢類別相同的數(shù)據(jù)集的得分進(jìn)行提升;Wang 等[79]統(tǒng)計(jì)數(shù)據(jù)集元數(shù)據(jù)中與查詢具有相同實(shí)體的數(shù)量,將實(shí)體數(shù)量多的數(shù)據(jù)集得分進(jìn)行提升;Wei 等[56-57]考慮查詢中不同詞的重要性,使用偽順序依賴模型(pseudo se‐quential dependence,PSD)對(duì)數(shù)據(jù)集的相關(guān)性重新評(píng)分。另一類是使用機(jī)器學(xué)習(xí)方法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)排序規(guī)則,例如,Karisani等[55]基于手工制定的特征,使用MART(multiple additive regression trees) 學(xué)習(xí)排序算法對(duì)檢索結(jié)果重新排序。目前,由于科學(xué)數(shù)據(jù)集檢索領(lǐng)域缺乏大規(guī)模的標(biāo)注數(shù)據(jù),學(xué)習(xí)排序方法效果不佳,而基于啟發(fā)式規(guī)則的檢索結(jié)果優(yōu)化方法不需要訓(xùn)練數(shù)據(jù),因而研究中應(yīng)用得相對(duì)較多。此外,一些研究還利用代數(shù)的方法來提升檢索效果,例如,劉春蔚等[80]利用潛在語義索引來檢索數(shù)據(jù)集。

    5.3 檢索方法述評(píng)

    現(xiàn)有科學(xué)數(shù)據(jù)集檢索系統(tǒng)主要依賴傳統(tǒng)信息檢索模型,對(duì)科學(xué)數(shù)據(jù)本身特性的挖掘不夠。在科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中,DataMed[18]、gesisDataS‐earch[19]、DataCite Search[81]基 于ElasticSearch,Else‐vier DataSearch[82]、Mercury[83]基于Solr 實(shí)現(xiàn)數(shù)據(jù)集搜索,相應(yīng)的檢索模型基本都為經(jīng)典的向量空間模型、概率模型等。在科學(xué)數(shù)據(jù)集檢索方法研究中,也都主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴(kuò)展等方法來優(yōu)化檢索結(jié)果。相關(guān)用戶研究表明,科學(xué)數(shù)據(jù)集檢索與文獻(xiàn)和網(wǎng)頁檢索存在差異[84-86]。例如,查詢?cè)~非常短[63-65,75],包含更高比例的數(shù)字、時(shí)間、地理位置等信息[64-65,75],元數(shù)據(jù)和數(shù)據(jù)內(nèi)容在查詢匹配中都具有重要的作用[87]。目前,科學(xué)數(shù)據(jù)集的檢索主要基于元數(shù)據(jù)文本匹配,對(duì)查詢中時(shí)間、空間等特性關(guān)注度不高。

    查詢?cè)~不一定能有效地表達(dá)用戶數(shù)據(jù)需求,目前僅少量研究對(duì)非關(guān)鍵詞檢索模型進(jìn)行了探索。對(duì)于一些科學(xué)領(lǐng)域,使用數(shù)據(jù)范圍(如水溫、時(shí)間、空間范圍)能更好地表達(dá)用戶需求。Megler 等[88-90]構(gòu)建了Data Near Hear 系統(tǒng),使用基于距離的指標(biāo)來衡量查詢范圍和數(shù)據(jù)集范圍的相似度,據(jù)此來檢索排序海岸帶觀察數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集檢索系統(tǒng)主要基于倒排索引來檢索匹配元數(shù)據(jù)文本,對(duì)其他數(shù)據(jù)結(jié)構(gòu)檢索的探索較少。Zhang 等[91]研究探索了適合不同類型查詢(字符串、數(shù)字)的最優(yōu)數(shù)據(jù)結(jié)構(gòu)(如哈希表、Trie、自平衡搜索樹等)。對(duì)于特定學(xué)科領(lǐng)域,科學(xué)數(shù)據(jù)的同質(zhì)性更高,用戶學(xué)科個(gè)性化數(shù)據(jù)需求更多,因而有必要尋找更適合學(xué)科用戶需求的信息檢索模式,提高數(shù)據(jù)集檢索的效果。

    測(cè)評(píng)數(shù)據(jù)對(duì)于檢索模型的比較和發(fā)展具有重要的作用,現(xiàn)有科學(xué)數(shù)據(jù)集檢索研究領(lǐng)域缺乏高質(zhì)量、大規(guī)模的測(cè)評(píng)數(shù)據(jù)。據(jù)本課題組調(diào)研,目前僅bioCADDIE 組織了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集檢索挑戰(zhàn)賽[92],并公開其數(shù)據(jù)集[93],但是該數(shù)據(jù)集的標(biāo)注數(shù)量非常有限。當(dāng)前,深度學(xué)習(xí)方法在文檔檢索領(lǐng)域有較多的研究和應(yīng)用,如BERT (bidirectional en‐coder representation from transformers)排序模型取得了比傳統(tǒng)檢索方法更優(yōu)的效果。由于深度學(xué)習(xí)模型需要大規(guī)模標(biāo)注數(shù)據(jù),現(xiàn)有測(cè)評(píng)數(shù)據(jù)集無法滿足深度學(xué)習(xí)模型的訓(xùn)練要求。因此,需要進(jìn)一步加強(qiáng)科學(xué)數(shù)據(jù)集檢索領(lǐng)域高質(zhì)量、大規(guī)模測(cè)評(píng)數(shù)據(jù)的建設(shè),豐富通用領(lǐng)域、各個(gè)學(xué)科領(lǐng)域可用的測(cè)評(píng)數(shù)據(jù)集。

    6 檢索結(jié)果綜合排序

    在第5 節(jié)中,檢索結(jié)果排序主要依據(jù)數(shù)據(jù)集與用戶查詢的主題相關(guān)性,已有研究表明,用戶會(huì)基于許多因素對(duì)科學(xué)數(shù)據(jù)集的相關(guān)性進(jìn)行判斷。本節(jié)將對(duì)科學(xué)數(shù)據(jù)集檢索綜合排序中的相關(guān)性判據(jù)(relevance criteria)及排序方法研究進(jìn)行梳理和總結(jié)。

    6.1 相關(guān)性判據(jù)

    對(duì)于科學(xué)數(shù)據(jù)集檢索系統(tǒng)返回的結(jié)果,用戶會(huì)根據(jù)一定的評(píng)價(jià)標(biāo)準(zhǔn)來判斷其是否滿足需求。目前,國(guó)內(nèi)外已有學(xué)者對(duì)科學(xué)數(shù)據(jù)集檢索中的用戶相關(guān)性判據(jù)進(jìn)行了探索,表3 給出了現(xiàn)有研究中提及較多的相關(guān)性判據(jù)。

    在這些判據(jù)中,主題相關(guān)性最為重要[94-95]。用戶主要通過數(shù)據(jù)集元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等信息來判斷數(shù)據(jù)集是否主題相關(guān),部分用戶會(huì)在查看數(shù)據(jù)內(nèi)容后做出最終判斷。除主題相關(guān)性外,數(shù)據(jù)集的可獲得性、質(zhì)量、權(quán)威性也被國(guó)內(nèi)相關(guān)研究提及較多[12,94-102]??茖W(xué)數(shù)據(jù)集的開放程度不一,如果數(shù)據(jù)無法或者難以獲取,即使主題相關(guān)性很高對(duì)用戶來說也不具有價(jià)值。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),73%的用戶認(rèn)為易于獲取重要或者非常重要,趙華等[94]通過用戶訪談發(fā)現(xiàn)可獲取性的重要性僅次于主題相關(guān)性??茖W(xué)數(shù)據(jù)本身的準(zhǔn)確度和有效性直接影響到研究結(jié)論,因而數(shù)據(jù)集的質(zhì)量對(duì)于相關(guān)性判斷非常重要。張貴蘭等[97]通過訪談發(fā)現(xiàn),數(shù)據(jù)集質(zhì)量出現(xiàn)的頻次位于第二位,僅次于主題性;而通過問卷調(diào)查發(fā)現(xiàn)質(zhì)量的重要性排名第一。權(quán)威性在數(shù)據(jù)集相關(guān)性判斷中也具有重要的地位,它本質(zhì)上反映的也是數(shù)據(jù)集的質(zhì)量,來自高權(quán)威性作者和機(jī)構(gòu)的數(shù)據(jù)集,能使用戶相信其具有較高的質(zhì)量[102]。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),71%的用戶認(rèn)為數(shù)據(jù)來源的聲譽(yù)重要或非常重要。張貴蘭等[97]通過問卷調(diào)查發(fā)現(xiàn),權(quán)威性的重要程度排名第三,僅次于質(zhì)量和主題性。除以上相關(guān)性指標(biāo)外,時(shí)效性、可理解性、新穎性、便利性、規(guī)范性、可用性、全面性等指標(biāo)在研究中也有較多的提及。此外,用戶相關(guān)判斷依據(jù)會(huì)隨著學(xué)科特點(diǎn)而變化,Gregory 等[12]研究發(fā)現(xiàn)天文學(xué)、地球和環(huán)境科學(xué)、生物醫(yī)學(xué)、田野考古、社會(huì)科學(xué)的相關(guān)性判據(jù)都有所不同。

    6.2 綜合排序方法

    目前,科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中的檢索結(jié)果主要基于主題相關(guān)性排序,對(duì)科學(xué)數(shù)據(jù)集的綜合排序方法的研究還比較少,僅在少量相關(guān)性判據(jù)上進(jìn)行了研究和應(yīng)用探索。在數(shù)據(jù)集質(zhì)量方面,Google Dataset Search 在檢索結(jié)果排序中引入了元數(shù)據(jù)質(zhì)量因素[24]。在數(shù)據(jù)集權(quán)威性方面,藤常延等[103]引入HITS(hyperlink-induced topic search)算法,黎建輝等[104]和騰常延[105]引入PageRank 算法來衡量數(shù)據(jù)集的重要性。Google Dataset Search 引入數(shù)據(jù)集所在網(wǎng)頁的重要性對(duì)檢索結(jié)果進(jìn)行排序[24]。在數(shù)據(jù)集的可獲取性方面,Research Data Australia 和Google Datas‐et Search 分別提供了獲?。ㄩ_放、有條件開放、受限)、使用授權(quán)(允許商業(yè)用途、不允許商業(yè)用途)的分面篩選功能。

    此外,一些研究利用計(jì)量方法對(duì)數(shù)據(jù)集質(zhì)量進(jìn)行評(píng)價(jià),這對(duì)于科學(xué)數(shù)據(jù)集的綜合排序也有參考價(jià)值。傳統(tǒng)圖書情報(bào)學(xué)領(lǐng)域?qū)ξ墨I(xiàn)等學(xué)術(shù)成果質(zhì)量的評(píng)價(jià)主要采用基于引用的指標(biāo),DCI 中可提供科學(xué)數(shù)據(jù)集的引用量。然而,當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,數(shù)據(jù)集引用量極低。因此,一些研究探索利用替代計(jì)量指標(biāo)來對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行測(cè)度。李龍飛等[106]通過獲取地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)中的使用數(shù)據(jù)來測(cè)度科學(xué)數(shù)據(jù)集的價(jià)值。在國(guó)外,加州數(shù)字圖書館、公共科學(xué)圖書館(Public Library of Sci‐ence,PLoS)、地球數(shù)據(jù)觀測(cè)網(wǎng)構(gòu)建了Making Data Count 服務(wù),通過基于PLoS 的文章級(jí)計(jì)量工具,為科學(xué)數(shù)據(jù)集提供來自CiteULike、Twitter 等13 個(gè)數(shù)據(jù)源的替代計(jì)量指標(biāo)[107]。

    表3 相關(guān)性判據(jù)

    6.3 綜合排序述評(píng)

    現(xiàn)有研究對(duì)科學(xué)數(shù)據(jù)集檢索結(jié)果綜合排序中的相關(guān)性判據(jù)進(jìn)行了較多探索,但是缺乏對(duì)相關(guān)性判據(jù)量化方法的研究。目前,Google Dataset Search 在數(shù)據(jù)集排序中引入網(wǎng)頁重要性排序指標(biāo),但是數(shù)據(jù)集所在頁面常位于“長(zhǎng)尾”部分且缺乏相互鏈接,排序差異通常不具有意義[24]。DCI 雖然包含數(shù)據(jù)集的被引情況,但當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,絕大多數(shù)數(shù)據(jù)集都不具有引用量。替代計(jì)量指標(biāo)數(shù)據(jù)的收集難度大,現(xiàn)有研究還處于初步探索階段。前述相關(guān)研究主要是在數(shù)據(jù)集的質(zhì)量和權(quán)威性方面進(jìn)行探索,其他如時(shí)效性、可用性等大量非主題相關(guān)性判據(jù)還缺乏關(guān)注。因此,需要進(jìn)一步加強(qiáng)相關(guān)性判據(jù)的量化方法研究。

    現(xiàn)有研究對(duì)用戶相關(guān)性判據(jù)的探索都主要采用用戶問卷調(diào)查、訪談等方式獲取數(shù)據(jù),這些研究方法有助于得到可能影響排序的相關(guān)性指標(biāo),但是不能準(zhǔn)確、可靠地分析出相應(yīng)指標(biāo)如何影響檢索結(jié)果排序的質(zhì)量。對(duì)檢索結(jié)果綜合排序的研究,需要以實(shí)際應(yīng)用系統(tǒng)真實(shí)的用戶需求和用戶交互的詳細(xì)日志為基礎(chǔ),通過控制變量,能更準(zhǔn)確有效地分析出各相關(guān)性判據(jù)對(duì)檢索效果的影響。由于研究者很難接觸到發(fā)現(xiàn)平臺(tái)的后臺(tái)數(shù)據(jù),因此還需要加強(qiáng)公開可用的科學(xué)數(shù)據(jù)集搜索日志數(shù)據(jù)集的建設(shè),以促進(jìn)研究者對(duì)真實(shí)用戶行為和相關(guān)性判據(jù)的深入分析。

    7 總 結(jié)

    隨著開放科學(xué)和開放獲取運(yùn)動(dòng)的發(fā)展,科學(xué)數(shù)據(jù)的共享與復(fù)用受到重視,互聯(lián)網(wǎng)上科學(xué)數(shù)據(jù)集的數(shù)量迅速增長(zhǎng)。為了幫助研究者從多源、異構(gòu)、海量的科學(xué)數(shù)據(jù)中快速地發(fā)現(xiàn)所需數(shù)據(jù),科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)應(yīng)運(yùn)而生。本文對(duì)國(guó)內(nèi)外科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)相關(guān)研究與應(yīng)用實(shí)踐進(jìn)行了廣泛調(diào)研,依據(jù)現(xiàn)有發(fā)現(xiàn)平臺(tái)的構(gòu)建模塊,分別從數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序四個(gè)方面總結(jié)現(xiàn)有研究進(jìn)展??傮w來看,現(xiàn)有研究已經(jīng)對(duì)科學(xué)數(shù)據(jù)集采集、組織、檢索和排序方法進(jìn)行了廣泛的研究,有效地推動(dòng)了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的建設(shè)。

    歐美發(fā)達(dá)國(guó)家非常注重科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的構(gòu)建,已經(jīng)建立了一批研究原型和應(yīng)用系統(tǒng),包括:涵蓋多個(gè)國(guó)家、多個(gè)學(xué)科領(lǐng)域的通用發(fā)現(xiàn)平臺(tái),如DataCite Search、Data Citation Index、Else‐vier DataSearch、Google Dataset Search;面向特定國(guó)家的發(fā)現(xiàn)平臺(tái),如澳大利亞Research Data Australia、加拿大Federated Research Data Repository、英國(guó)Re‐search Data Discovery Service;面向特定學(xué)科的發(fā)現(xiàn)平臺(tái),如生物醫(yī)學(xué)DataMed、社會(huì)科學(xué)gesisDataSeach、地球與環(huán)境科學(xué)DataONE。國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的研究相對(duì)匱乏,實(shí)踐應(yīng)用中也缺少收錄范圍足夠廣的發(fā)現(xiàn)平臺(tái),僅有中國(guó)科技資源共享網(wǎng)、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)云提供數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)服務(wù)。前者僅收錄受國(guó)家資助的20 個(gè)理工科數(shù)據(jù)倉儲(chǔ),后者為機(jī)構(gòu)級(jí)的發(fā)現(xiàn)平臺(tái)。因此,我國(guó)還應(yīng)繼續(xù)加強(qiáng)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的建設(shè)力度。

    猜你喜歡
    排序檢索科學(xué)
    排序不等式
    恐怖排序
    2019年第4-6期便捷檢索目錄
    科學(xué)大爆炸
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    科學(xué)
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    科學(xué)拔牙
    國(guó)際標(biāo)準(zhǔn)檢索
    长丰县| 略阳县| 康平县| 崇文区| 武宁县| 石渠县| 冕宁县| 巴马| 平凉市| 兴文县| 皋兰县| 屏东县| 开江县| 韶关市| 吉水县| 肥东县| 时尚| 中西区| 朔州市| 沙河市| 思茅市| 长宁县| 高平市| 尼勒克县| 芒康县| 桂阳县| 赤峰市| 青铜峡市| 罗江县| 泗水县| 望都县| 牟定县| 临颍县| 芮城县| 红原县| 清涧县| 通辽市| 丹江口市| 肇州县| 米脂县| 祁门县|