• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)研究進(jìn)展

    2022-07-02 07:18:46羅鵬程王繼民
    情報(bào)學(xué)報(bào) 2022年6期
    關(guān)鍵詞:排序檢索科學(xué)

    羅鵬程,王繼民,聶 磊

    (1. 北京大學(xué)信息管理系,北京 100871;2. 北京大學(xué)圖書館,北京 100871;3. 北京外國(guó)語大學(xué)區(qū)域與全球治理高等研究院,北京 100089)

    1 引 言

    大數(shù)據(jù)時(shí)代,科學(xué)數(shù)據(jù)的開放共享受到各方高度重視,“數(shù)據(jù)爆炸”問題正在顯現(xiàn)。2018 年,國(guó)務(wù)院發(fā)布《科學(xué)數(shù)據(jù)管理辦法》,明確了“開放為常態(tài)、不開放為例外”的科學(xué)數(shù)據(jù)共享原則[1]。隨后,陜西[2]、湖北[3]、江蘇[4]等十余省份陸續(xù)發(fā)布科學(xué)數(shù)據(jù)管理實(shí)施細(xì)則。國(guó)際上,美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation)要求項(xiàng)目申請(qǐng)時(shí)必須提交數(shù)據(jù)管理計(jì)劃[5],澳大利亞推出國(guó)家數(shù)據(jù)服務(wù)[6],歐盟建設(shè)開放科學(xué)云[7]。各類研究機(jī)構(gòu)也積極建設(shè)數(shù)據(jù)倉儲(chǔ),共享科學(xué)數(shù)據(jù),如哈佛大學(xué)Dat‐averse、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)云。在這一背景下,科學(xué)數(shù)據(jù)正不斷積累。據(jù)DataCite 統(tǒng)計(jì),截至2021年10 月,科學(xué)數(shù)據(jù)集的數(shù)量達(dá)到1000 多萬;據(jù)Google 統(tǒng)計(jì),互聯(lián)網(wǎng)上數(shù)據(jù)集的數(shù)量已從2016 年的50 萬快速增長(zhǎng)到2020 年的2800 萬[8]。隨著科學(xué)研究轉(zhuǎn)向數(shù)據(jù)密集型范式,許多學(xué)科對(duì)數(shù)據(jù)的需求十分強(qiáng)烈,基于共享的科學(xué)數(shù)據(jù)可支撐高質(zhì)量研究成果產(chǎn)出[9],并且研究者越來越愿意共享和復(fù)用科學(xué)數(shù)據(jù)[10-11]。目前,科學(xué)數(shù)據(jù)集分散在眾多異構(gòu)的數(shù)據(jù)倉儲(chǔ)之中,各數(shù)據(jù)倉儲(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)容存在較大差異。面對(duì)海量、多源、異構(gòu)的開放科學(xué)數(shù)據(jù)集,如何高效地從中發(fā)現(xiàn)符合需求的有效數(shù)據(jù)正成為研究者面臨的重要問題。

    目前,科學(xué)數(shù)據(jù)集檢索相關(guān)研究問題已受到許多學(xué)科領(lǐng)域的廣泛關(guān)注。在圖書館學(xué)、情報(bào)學(xué)領(lǐng)域,研究者關(guān)注數(shù)據(jù)檢索行為[12-14],DataCite、加拿大研究圖書館協(xié)會(huì)分別推出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)DataCite Search、Federated Research Data Re‐pository(FRDR)。在計(jì)算機(jī)領(lǐng)域,2018 年信息檢索 頂 級(jí) 會(huì) 議SIGIR (Special Interest Group on Infor‐mation Retrieval)和交叉綜合領(lǐng)域頂級(jí)會(huì)議WWW(The Web Conference) 專門組織了數(shù)據(jù)搜索研討會(huì)[15-16],Google Dataset Search 負(fù) 責(zé) 人Noy 受 邀 在2020 年數(shù)據(jù)庫頂級(jí)會(huì)議之一SIGMOD 中作主旨報(bào)告[17]。在醫(yī)學(xué)領(lǐng)域,美國(guó)國(guó)立衛(wèi)生研究院資助成立了生物醫(yī)學(xué)和醫(yī)療保健數(shù)據(jù)發(fā)現(xiàn)索引生態(tài)系統(tǒng)聯(lián)盟(biomedical and healthcare data discovery index ecosys‐tem,bioCADDIE),由該聯(lián)盟開發(fā)推出了數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)DataMed[18]。在社會(huì)科學(xué)領(lǐng)域,德國(guó)GESIS - Leibniz-Institut für Sozialwissenschaften (萊布尼茲社會(huì)科學(xué)研究所)面向社會(huì)和經(jīng)濟(jì)科學(xué)推出了gesisDataSearch[19]。從2019 年開始,卡耐基梅隆大學(xué)還組織“面向數(shù)據(jù)發(fā)現(xiàn)與復(fù)用的人工智能研討會(huì)”,推動(dòng)人工智能技術(shù)在數(shù)據(jù)發(fā)現(xiàn)與復(fù)用中的應(yīng)用[20]。近年來商業(yè)性數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)也陸續(xù)推出,如Data Citation Index(DCI)、Elsevier DataS‐earch 等。

    科學(xué)數(shù)據(jù)是國(guó)家重要的戰(zhàn)略資源,目前國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的研究和應(yīng)用不足,阻礙了科學(xué)數(shù)據(jù)價(jià)值的釋放。本文以對(duì)互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進(jìn)行統(tǒng)一檢索的發(fā)現(xiàn)平臺(tái)為研究對(duì)象,對(duì)相關(guān)研究和應(yīng)用進(jìn)展進(jìn)行梳理和總結(jié),以期為進(jìn)一步的研究和應(yīng)用實(shí)踐提供參考。

    2 研究方法

    2.1 概念界定

    本文將科學(xué)數(shù)據(jù)與研究數(shù)據(jù)視為同義詞,即面向研究分析目的而收集、觀察或創(chuàng)建的數(shù)據(jù),用于支持研究結(jié)論[21]。因此,本文所指科學(xué)數(shù)據(jù)不僅涵蓋自然科學(xué)和工程技術(shù),也包括社會(huì)科學(xué)、人文與藝術(shù)等學(xué)科。數(shù)據(jù)集是為特定目的而組織在一起的相關(guān)數(shù)據(jù)的集合[22],科學(xué)數(shù)據(jù)集則是指為研究分析目的而收集、觀察或創(chuàng)建的相關(guān)數(shù)據(jù)的集合。本文中“開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)”是指針對(duì)互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進(jìn)行采集和組織,為用戶提供統(tǒng)一的檢索入口,幫助用戶高效地發(fā)現(xiàn)所需要的數(shù)據(jù)。圖1 給出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的功能示意。通過發(fā)現(xiàn)系統(tǒng)自動(dòng)從眾多數(shù)據(jù)倉儲(chǔ)中采集數(shù)據(jù),為用戶提供統(tǒng)一的檢索入口,避免了用戶到每個(gè)倉儲(chǔ)中檢索所耗費(fèi)的時(shí)間。

    2.2 文獻(xiàn)篩選

    圖1 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)功能示意

    本文以“科學(xué)數(shù)據(jù)集發(fā)現(xiàn)”“scientific dataset discovery”作為查詢語句,并使用“研究”替換查詢中的“科學(xué)”,使用“檢索”“搜索”替換“發(fā)現(xiàn)”,使用“research”替換“scientific”,使用“re‐trieval”“search”替換“discovery”。根據(jù)以上各種同義詞替換策略的組合在中國(guó)知網(wǎng)、萬方數(shù)據(jù)庫和Web of Science 核心集中進(jìn)行題名、關(guān)鍵詞等字段的檢索。通過以上查詢獲得的文獻(xiàn)數(shù)量不多,為此本文還對(duì)檢索條件進(jìn)行放寬,去掉查詢中的“科學(xué)”“研究”“scientific”“research”,或者使用“數(shù)據(jù)”“data”分別替換“數(shù)據(jù)集”“dataset”。從檢索到的1000 多篇文獻(xiàn)中篩選出與科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)、科學(xué)數(shù)據(jù)集檢索相關(guān)性較高的論文41 篇。同時(shí),本課題組對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)進(jìn)行了長(zhǎng)時(shí)間的廣泛調(diào)研,在谷歌及谷歌學(xué)術(shù)中檢索與具體發(fā)現(xiàn)平臺(tái)相關(guān)的論文、報(bào)告、博客、網(wǎng)頁等。最終,本文共匯集77 篇核心論文進(jìn)行綜述。此外,還納入了對(duì)相關(guān)內(nèi)容進(jìn)行補(bǔ)充的擴(kuò)展性論文、報(bào)告、博客、網(wǎng)頁等。

    2.3 綜述框架

    國(guó)際上,已有許多科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)陸續(xù)推出[23]。根據(jù)現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的構(gòu)建模塊[18-19,24],將相關(guān)主要研究問題分為四類:數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序,如圖2 所示。本文將以該框架為基礎(chǔ)來組織全文內(nèi)容。

    圖2 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)相關(guān)的研究問題

    ①數(shù)據(jù)集采集?;ヂ?lián)網(wǎng)中資源數(shù)量龐大,種類繁雜,科學(xué)數(shù)據(jù)集在其中占比極小。如何從海量、分散的互聯(lián)網(wǎng)資源中采集所需數(shù)據(jù)集,是對(duì)科學(xué)數(shù)據(jù)集進(jìn)行統(tǒng)一發(fā)現(xiàn)的前提。②數(shù)據(jù)集組織。通過采集得到海量科學(xué)數(shù)據(jù)集的元數(shù)據(jù),然而元數(shù)據(jù)標(biāo)準(zhǔn)眾多,質(zhì)量參差不齊,需要對(duì)不同來源的元數(shù)據(jù)進(jìn)行融合統(tǒng)一,對(duì)元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,并在此基礎(chǔ)上補(bǔ)充和豐富元數(shù)據(jù)內(nèi)容。③數(shù)據(jù)集檢索。數(shù)據(jù)集作為一種新的信息對(duì)象,其檢索特征有別于傳統(tǒng)文獻(xiàn)和網(wǎng)頁搜索,相應(yīng)檢索方法正處于研究探索階段。④檢索結(jié)果綜合排序。依據(jù)檢索模型獲得的數(shù)據(jù)集,通常按照主題相關(guān)性排序呈現(xiàn)給用戶,然而研究表明用戶對(duì)檢索結(jié)果做出相關(guān)性判斷時(shí)會(huì)考慮數(shù)據(jù)質(zhì)量等諸多因素[12]。本文第3~6 節(jié)將分別對(duì)數(shù)據(jù)集采集、組織、檢索和綜合排序相關(guān)研究進(jìn)行梳理和述評(píng)。

    3 數(shù)據(jù)集采集

    數(shù)據(jù)集主要由元數(shù)據(jù)和數(shù)據(jù)內(nèi)容組成,由于數(shù)據(jù)內(nèi)容較大,且可能存在訪問限制,通常采集的數(shù)據(jù)均為元數(shù)據(jù)。

    3.1 數(shù)據(jù)采集方法

    依據(jù)采集策略的不同,本文將現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的采集方法分為三類:數(shù)據(jù)倉儲(chǔ)向發(fā)現(xiàn)平臺(tái)主動(dòng)推送元數(shù)據(jù),發(fā)現(xiàn)平臺(tái)全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁,發(fā)現(xiàn)平臺(tái)定向采集數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù)。

    (1)數(shù)據(jù)倉儲(chǔ)向發(fā)現(xiàn)平臺(tái)主動(dòng)推送元數(shù)據(jù):由發(fā)現(xiàn)系統(tǒng)提供統(tǒng)一的API(application programming interface)接口,各科學(xué)數(shù)據(jù)倉儲(chǔ)在新增或更新數(shù)據(jù)集時(shí),通過API 接口將元數(shù)據(jù)推送給發(fā)現(xiàn)系統(tǒng)。目前,這種數(shù)據(jù)采集方式僅在DataCite Search 中實(shí)現(xiàn)。DataCite 是科學(xué)數(shù)據(jù)領(lǐng)域最大的DOI (digital object identifier)注冊(cè)代理機(jī)構(gòu),各個(gè)數(shù)據(jù)倉儲(chǔ)在注冊(cè)DOI 時(shí),需要按照DataCite Metadata Schema[25]的要求提交元數(shù)據(jù)。因此,DataCite Search 通過數(shù)據(jù)倉儲(chǔ)主動(dòng)推送的方式采集了大量科學(xué)數(shù)據(jù)集元數(shù)據(jù)。

    (2) 發(fā)現(xiàn)平臺(tái)全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁:由網(wǎng)頁制作者依據(jù)特定標(biāo)準(zhǔn)對(duì)頁面內(nèi)容進(jìn)行描述,并將描述元數(shù)據(jù)嵌入頁面;發(fā)現(xiàn)系統(tǒng)采集網(wǎng)絡(luò)中的頁面,從網(wǎng)頁中解析元數(shù)據(jù),并篩選出數(shù)據(jù)集類型的網(wǎng)頁。目前,這種數(shù)據(jù)采集方式僅在Google Dataset Search 中實(shí)現(xiàn),主要依靠網(wǎng)頁制作者在頁面中嵌入的schema.org 或DCAT (data catalog vocabu‐lary)標(biāo)記數(shù)據(jù)識(shí)別數(shù)據(jù)集頁面。schema.org 由谷歌等搜索引擎公司建立,用于描述網(wǎng)頁資源,幫助搜索引擎更好地理解頁面內(nèi)容。2013 年,schema.org增加了Dataset 類型用于描述數(shù)據(jù)集頁面[26]。DCAT是W3C(World Wide Web Consortium)于2014 年發(fā)布的推薦標(biāo)準(zhǔn),它是一個(gè)RDF(resource description framework)詞匯表,其目的在于促進(jìn)Web 上發(fā)布的數(shù)據(jù)目錄之間的互操作性[27]。Google Dataset Search 依托谷歌強(qiáng)大的通用網(wǎng)頁爬蟲平臺(tái)采集網(wǎng)頁,解析頁面中嵌入的元數(shù)據(jù),從中篩選出使用schema.org 的Dataset 和DataCatalog,以 及DCAT 描述的元數(shù)據(jù),構(gòu)成谷歌數(shù)據(jù)集搜索的基礎(chǔ)[24]。

    (3)發(fā)現(xiàn)平臺(tái)定向采集數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù):由數(shù)據(jù)倉儲(chǔ)提供元數(shù)據(jù)收割協(xié)議,發(fā)現(xiàn)系統(tǒng)評(píng)估、選擇符合需求的數(shù)據(jù)倉儲(chǔ),并通過收割協(xié)議采集元數(shù)據(jù)。目前,這種數(shù)據(jù)采集方式應(yīng)用最多,如DCI、DataMed、gesisDataSearch、Mercury 等。在 定 向 數(shù)據(jù)采集中,發(fā)現(xiàn)系統(tǒng)需要依據(jù)一定的標(biāo)準(zhǔn)遴選數(shù)據(jù)倉儲(chǔ)。DCI 考慮了多種定性、定量因素來對(duì)倉儲(chǔ)進(jìn)行綜合評(píng)價(jià),包括倉儲(chǔ)持久性和穩(wěn)定性、資助情況、作者身份的多樣性等,并且要求提供英文元數(shù)據(jù)[28]。DataMed 則以標(biāo)準(zhǔn)、互操作性、可持續(xù)性、整體質(zhì)量、用戶需求等作為數(shù)據(jù)倉儲(chǔ)的選擇標(biāo)準(zhǔn)[29]。此外,F(xiàn)AIRsharing 和DataCite 面向期刊論文支撐數(shù)據(jù)存儲(chǔ)制定倉儲(chǔ)評(píng)價(jià)標(biāo)準(zhǔn)[30-31],這些標(biāo)準(zhǔn)對(duì)發(fā)現(xiàn)系統(tǒng)選擇數(shù)據(jù)倉儲(chǔ)具有參考價(jià)值。在數(shù)據(jù)倉儲(chǔ)選定后,需要依據(jù)收割協(xié)議采集數(shù)據(jù)。最常用的收割協(xié)議為OAI-PMH(Open Archives Initiative Protocol for Meta‐data Harvesting),例如,DCI[32]、FRDR(Federated Re‐search Data Repository)[33]、gesisDataSearch[19]、Mer‐cury[34]均采用該協(xié)議采集元數(shù)據(jù)。除了OAI-PMH外,一些發(fā)現(xiàn)系統(tǒng)會(huì)提供多種數(shù)據(jù)收割方式,例如,Research Data Australia提供直接收割、OAI-PMH收割、OGC CSW(Open Geospatial Consortium Catalogue Ser‐vice for the Web) 收 割、 CKAN (Comprehensive Knowledge Archive Network)收割四種方式[35]。

    3.2 采集方法述評(píng)

    不同數(shù)據(jù)采集方法各有特點(diǎn),適用于不同場(chǎng)景和應(yīng)用需求。表1 從采集效率、及時(shí)性、數(shù)據(jù)覆蓋率、自動(dòng)化程度、實(shí)現(xiàn)難度和應(yīng)用數(shù)量六個(gè)角度給出了三種采集方法的對(duì)比情況。

    表1 三種數(shù)據(jù)集采集方法對(duì)比

    對(duì)于數(shù)據(jù)倉儲(chǔ)主動(dòng)推送的方法,通常會(huì)在數(shù)據(jù)集新增或更新時(shí),由數(shù)據(jù)倉儲(chǔ)按照統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),向發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,它具有采集效率高、數(shù)據(jù)更新及時(shí)、自動(dòng)化程度高的優(yōu)勢(shì)。然而,通常情況下發(fā)現(xiàn)系統(tǒng)提供方對(duì)數(shù)據(jù)倉儲(chǔ)提供方?jīng)]有約束力,無法要求所有數(shù)據(jù)倉儲(chǔ)都為發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,這種數(shù)據(jù)采集方式很難實(shí)現(xiàn),實(shí)踐中的應(yīng)用數(shù)量很少。對(duì)于數(shù)據(jù)覆蓋率,以Data‐Cite Search 為例,其中注冊(cè)倉儲(chǔ)數(shù)量達(dá)到2000 多個(gè),覆蓋了許多有影響力的科學(xué)數(shù)據(jù)倉儲(chǔ),但并非所有倉儲(chǔ)都會(huì)注冊(cè)DOI,數(shù)據(jù)覆蓋率適中。

    對(duì)于發(fā)現(xiàn)系統(tǒng)全網(wǎng)掃描的方法,由于需要采集海量互聯(lián)網(wǎng)頁面,而科學(xué)數(shù)據(jù)集頁面僅占其中很小比例,并且網(wǎng)頁抓取有一定的時(shí)間周期。因此,它具有實(shí)現(xiàn)難度大、采集效率低、更新有時(shí)延的特點(diǎn),在實(shí)踐中的應(yīng)用數(shù)量很少,通常僅適合擁有海量Web 資源庫的大型搜索引擎公司。這種數(shù)據(jù)采集方法基于爬蟲獲取數(shù)據(jù),面對(duì)的元數(shù)據(jù)格式相對(duì)單一,自動(dòng)化程度高。過去,采用schema.org 和DCAT描述頁面的數(shù)據(jù)倉儲(chǔ)較少,例如,Khalsa 等[36]在2017 年的調(diào)查顯示,僅有13%的科學(xué)數(shù)據(jù)倉儲(chǔ)使用了schema.org。不過現(xiàn)在已有越來越多的倉儲(chǔ)提供schema.org 和DCAT 元數(shù)據(jù),以Google Dataset Search為例,2020 年其收錄數(shù)據(jù)倉儲(chǔ)3700 多個(gè)[8],高于其他類型的發(fā)現(xiàn)平臺(tái),具有相對(duì)較高的數(shù)據(jù)覆蓋率。

    對(duì)于發(fā)現(xiàn)系統(tǒng)定向采集的方法,通常按照一定時(shí)間間隔采集指定數(shù)據(jù)倉儲(chǔ),其采集效率適中,有一定時(shí)延。由于數(shù)據(jù)采集過程中涉及數(shù)據(jù)倉儲(chǔ)的評(píng)價(jià)與選擇,新增倉儲(chǔ)會(huì)因?yàn)閿?shù)據(jù)收割協(xié)議和元數(shù)據(jù)標(biāo)準(zhǔn)的不同,需要人工參與采集程序的修改,如DataMed 新增數(shù)據(jù)攝入插件(ingest consumer)需要半天到數(shù)天的開發(fā)時(shí)間[18],因而其自動(dòng)化程度不夠高。定向采集的數(shù)據(jù)倉儲(chǔ)通常限定在一定范圍內(nèi)(如特定的國(guó)家、學(xué)科),倉儲(chǔ)數(shù)量偏向于中小規(guī)模,通常從數(shù)十個(gè)到上千個(gè)不等。相比于前兩種采集方法,定向采集實(shí)現(xiàn)相對(duì)容易,采集效率適中,在實(shí)踐中應(yīng)用得最為廣泛。

    4 數(shù)據(jù)集組織

    數(shù)據(jù)集的組織主要通過元數(shù)據(jù)實(shí)現(xiàn),現(xiàn)有研究和應(yīng)用主要關(guān)注多源元數(shù)據(jù)的融合,以及科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量分析與元數(shù)據(jù)信息豐富等研究問題。

    4.1 多源元數(shù)據(jù)的融合

    科學(xué)數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)眾多,包括通用元數(shù)據(jù)標(biāo)準(zhǔn)、學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)等數(shù)十種[37]。面對(duì)繁雜的元數(shù)據(jù)格式,發(fā)現(xiàn)系統(tǒng)需要設(shè)計(jì)一個(gè)統(tǒng)一的元數(shù)據(jù)模型,將不同來源的元數(shù)據(jù)進(jìn)行融合。目前,主要有兩種實(shí)現(xiàn)方法:僅考慮通用信息的多源元數(shù)據(jù)融合,以及同時(shí)考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合。

    1)僅考慮通用信息的多源元數(shù)據(jù)融合

    不同元數(shù)據(jù)標(biāo)準(zhǔn)雖然各有特色,但都具有標(biāo)題、創(chuàng)建者等通用信息。因此,最簡(jiǎn)單的多源元數(shù)據(jù)融合方法,便是將不同來源的元數(shù)據(jù)映射到一個(gè)通用的元數(shù)據(jù)模型。目前,絕大多數(shù)通用科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)均采用該方法。例如,DataCite Search 的元數(shù)據(jù)模型為DataCite Metadata Schema[25],Google Dataset Search 的元數(shù)據(jù)模型與schema.org 的Dataset 元數(shù)據(jù)類似[24],英國(guó)Research Data Discovery Service 的元數(shù)據(jù)模型與DataCite Metadata Schema 相似[38-39],Research Data Australia 的元數(shù)據(jù)模型為RIFCS(registry interchange format - collections and servic‐es)[40],它們均為通用元數(shù)據(jù)模型。此外,一些面向特定學(xué)科的發(fā)現(xiàn)系統(tǒng)也會(huì)采用通用元數(shù)據(jù)模型。例如,gesisDataSearch 使用Dublin Core(DC)作為它的元數(shù)據(jù)模型[19]。

    基于通用元數(shù)據(jù)模型的融合方法的優(yōu)點(diǎn)在于其復(fù)雜度低,映射規(guī)則簡(jiǎn)單,易于實(shí)現(xiàn),但是存在學(xué)科特有信息丟失的問題。L?ffler 等[41]對(duì)生物多樣性領(lǐng)域研究者的數(shù)據(jù)需求進(jìn)行分析發(fā)現(xiàn),通用元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)用戶需求的覆蓋度較低,而學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)能更全面地覆蓋用戶需求。因此,僅考慮通用信息的多源元數(shù)據(jù)融合方法在滿足學(xué)科個(gè)性化數(shù)據(jù)需求上存在一定的困難。

    2)同時(shí)考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合

    為了保留更多信息,一些發(fā)現(xiàn)系統(tǒng)在設(shè)計(jì)元數(shù)據(jù)模型時(shí)會(huì)納入學(xué)科特有信息。加拿大FRDR 以DC 為基礎(chǔ)進(jìn)行多源元數(shù)據(jù)的融合,制定了不同元數(shù)據(jù)標(biāo)準(zhǔn)到DC 的映射方案[42]。任何無法映射到DC的字段,將保留原始的元數(shù)據(jù)信息,這些特有的元數(shù)據(jù)也會(huì)被索引,并可做出定制化的搜索[33]。DataMed構(gòu)建了DATS(data tag suite)元數(shù)據(jù)模型,該模型包括核心元素和擴(kuò)展元素兩個(gè)部分。核心元素較為通用,適用于任何類型數(shù)據(jù)集的描述;擴(kuò)展元素用于特定學(xué)科數(shù)據(jù)集的描述,目前DATS 包括一個(gè)初始的面向生命、環(huán)境、生物醫(yī)學(xué)領(lǐng)域的擴(kuò)展元數(shù)據(jù)集合[43]。

    引入學(xué)科特有信息的多源元數(shù)據(jù)融合方法的優(yōu)點(diǎn)在于其可保留更多信息,有助于滿足學(xué)科用戶個(gè)性化的數(shù)據(jù)檢索需求,提升檢索效果。由于考慮了學(xué)科因素,會(huì)導(dǎo)致映射規(guī)則增多,模型復(fù)雜度上升,系統(tǒng)實(shí)現(xiàn)和維護(hù)難度加大。因此,該多源元數(shù)據(jù)融和方法通常在面向特定領(lǐng)域的科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中應(yīng)用。

    4.2 元數(shù)據(jù)質(zhì)量與豐富

    元數(shù)據(jù)是當(dāng)前科學(xué)數(shù)據(jù)集檢索最主要的依據(jù),其質(zhì)量的高低直接影響到數(shù)據(jù)集的發(fā)現(xiàn)效果。已有大量研究對(duì)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量進(jìn)行了分析,并在此基礎(chǔ)上探索如何利用各種技術(shù)手段和外部資源來豐富數(shù)據(jù)集的元數(shù)據(jù)信息。

    1)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量

    與傳統(tǒng)文獻(xiàn)信息的組織主要通過專業(yè)人員來對(duì)資源進(jìn)行描述不同,科學(xué)數(shù)據(jù)倉庫中的元數(shù)據(jù)主要由用戶提供。由于缺乏控制,元數(shù)據(jù)普遍存在質(zhì)量問 題。對(duì)Dryad[44-45]、BioSample[46]、BioSamples[46]、Gene Expression Omnibus[47]等科學(xué)數(shù)據(jù)倉儲(chǔ)的分析發(fā)現(xiàn),元數(shù)據(jù)存在錯(cuò)誤、不一致、不規(guī)范等問題;一些平臺(tái)還允許用戶自定義元數(shù)據(jù)信息,使得元數(shù)據(jù)字段字存在重復(fù)、不一致等問題[46]。發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)來自科學(xué)數(shù)據(jù)倉儲(chǔ),由于來源倉儲(chǔ)的元數(shù)據(jù)存在缺失等質(zhì)量問題,導(dǎo)致發(fā)現(xiàn)系統(tǒng)獲取的元數(shù)據(jù)質(zhì)量不高。對(duì)DataONE (data observation net‐work for earth) 分析發(fā)現(xiàn),其元數(shù)據(jù)字段在標(biāo)識(shí)、發(fā)現(xiàn)、評(píng)價(jià)、獲取、集成五個(gè)方面的完整度均在70%左右或以下[48]。一些發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)格式并非科學(xué)數(shù)據(jù)倉儲(chǔ)底層使用的元數(shù)據(jù)模型,由于元數(shù)據(jù)格式轉(zhuǎn)換等問題,采集的元數(shù)據(jù)質(zhì)量降低。例如,Google Dataset Search 采集的元數(shù)據(jù)存在“可能出錯(cuò)的地方都會(huì)出錯(cuò)”的問題[24],DataCite 大量推薦和可選的元數(shù)據(jù)字段缺失嚴(yán)重[49]。

    在構(gòu)建科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)時(shí),由于元數(shù)據(jù)存在錯(cuò)誤、不規(guī)范等問題,需要對(duì)其進(jìn)行大量清洗和規(guī)范化,發(fā)現(xiàn)元數(shù)據(jù)中頻繁出現(xiàn)的模式,制定相應(yīng)規(guī)則來消減錯(cuò)誤。例如,Google Dataset Search從schema.org 元數(shù)據(jù)的多個(gè)字段中提取文件格式、下載地址、DOI 標(biāo)識(shí)符,對(duì)不同格式的日期進(jìn)行規(guī)范化[24]。由于元數(shù)據(jù)存在信息缺失的問題,需要利用各種手段和外部資源來對(duì)其進(jìn)行補(bǔ)充,豐富數(shù)據(jù)集的描述信息。

    2)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)豐富

    目前研究和應(yīng)用中對(duì)元數(shù)據(jù)豐富的探索主要包括:提取元數(shù)據(jù)中的重要實(shí)體、獲取數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)、利用外部資源來補(bǔ)充數(shù)據(jù)集信息等。

    數(shù)據(jù)集元數(shù)據(jù)中包含一些重要實(shí)體,通過提取這些實(shí)體,可為后續(xù)數(shù)據(jù)集檢索功能優(yōu)化奠定基礎(chǔ)。Lafia 等[50]從標(biāo)題、描述和關(guān)鍵詞中識(shí)別主題詞和地理位置,并將識(shí)別的實(shí)體鏈接到美國(guó)國(guó)會(huì)圖書館規(guī)范主題詞和DBpedia 地理位置中。gesisDataSe‐arch 從元數(shù)據(jù)中識(shí)別出命名實(shí)體,并使用Open‐StreetMap 來確定地名實(shí)體的坐標(biāo)位置[19]。DataMed擁有生物醫(yī)學(xué)命名實(shí)體識(shí)別模塊,用于為每個(gè)數(shù)據(jù)集提取一些語義概念集合[18]。將元數(shù)據(jù)中的重要實(shí)體提取出來,并關(guān)聯(lián)到外部的語義概念資源庫,可為后續(xù)基于概念、地理位置進(jìn)行檢索提供必要信息。

    數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)可用于描述數(shù)據(jù)集的使用環(huán)境,關(guān)聯(lián)文獻(xiàn)的文本信息可提供更多檢索點(diǎn),同時(shí)關(guān)聯(lián)文獻(xiàn)也可用于評(píng)估數(shù)據(jù)集的價(jià)值。目前,數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的獲取主要包括兩種方法:通過DOI 來識(shí)別文獻(xiàn)對(duì)數(shù)據(jù)集的引用,以及通過文獻(xiàn)全文挖掘識(shí)別數(shù)據(jù)集標(biāo)題和鏈接地址?;贒OI 的方法較為準(zhǔn)確可靠,在實(shí)際應(yīng)用中使用較多。例如,Google Dataset Search 通過DOI 實(shí)現(xiàn)了數(shù)據(jù)集與谷歌學(xué)術(shù)中的文獻(xiàn)的關(guān)聯(lián)[51],DataCite 通過在文獻(xiàn)全文中搜索匹配DOI 來實(shí)現(xiàn)與數(shù)據(jù)集的關(guān)聯(lián)[52]。由于數(shù)據(jù)引用不規(guī)范,文獻(xiàn)中大量的數(shù)據(jù)引用并沒有DOI,而主要通過數(shù)據(jù)集標(biāo)題、URL(uniform resource locator)地址等實(shí)現(xiàn)引用。通過對(duì)文獻(xiàn)全文進(jìn)行分析挖掘,可提取該引用信息。Ghavimi 等[53]通過人工參與數(shù)據(jù)集標(biāo)題與文獻(xiàn)全文中句子的匹配與判斷,半自動(dòng)地提取對(duì)數(shù)據(jù)集的引用。Lu 等[54]利用機(jī)器學(xué)習(xí)分類方法,以及數(shù)據(jù)集標(biāo)題與URL 鏈接在不同文獻(xiàn)中的共現(xiàn)情況,來識(shí)別數(shù)據(jù)集標(biāo)題及其對(duì)應(yīng)的鏈接。由于通過文獻(xiàn)全文挖掘識(shí)別數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的方法不能實(shí)現(xiàn)完全準(zhǔn)確,其在實(shí)踐中應(yīng)用較少。

    此外,一些研究者還探索了利用外部資源來補(bǔ)充數(shù)據(jù)集信息。由于數(shù)據(jù)集的描述信息中可能會(huì)缺失研究領(lǐng)域等重要信息,而這些信息可能在來源數(shù)據(jù)倉儲(chǔ)的“關(guān)于”頁面中存在,因此Karisani 等[55]利用該信息補(bǔ)充對(duì)數(shù)據(jù)集的描述。Wei 等[56-57]從生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集中識(shí)別出連接到基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus)的序列記錄,收集序列記錄的摘要、標(biāo)題、總體設(shè)計(jì)三個(gè)字段的信息用于豐富數(shù)據(jù)集的描述。Singhal 等[58-59]使用數(shù)據(jù)集標(biāo)題在學(xué)術(shù)搜索引擎中進(jìn)行檢索,將檢索出的文獻(xiàn)標(biāo)題、主題詞作為數(shù)據(jù)集的擴(kuò)展上下文信息。

    4.3 數(shù)據(jù)集組織方法述評(píng)

    在多源元數(shù)據(jù)融合方面,由于采集的元數(shù)據(jù)都主要映射到一個(gè)數(shù)據(jù)通用元數(shù)據(jù)模型,導(dǎo)致很多數(shù)據(jù)集的發(fā)現(xiàn)平臺(tái)無法提供更加精細(xì)的檢索功能。例如,除了查詢?cè)~檢索外,DataCite Search 僅有注冊(cè)年、資源類型、隸屬機(jī)構(gòu)三個(gè)字段的篩選功能。同時(shí),映射過程中學(xué)科特有信息的丟失,會(huì)影響查詢匹配的效果。雖然DATS 構(gòu)建了包含通用和學(xué)科領(lǐng)域信息的元數(shù)據(jù)模型,但目前只有特定學(xué)科的擴(kuò)展信息,本質(zhì)上仍是領(lǐng)域元數(shù)據(jù)模型。因此,有必要對(duì)現(xiàn)有各個(gè)學(xué)科領(lǐng)域的元數(shù)據(jù)模型進(jìn)行分析,建立一個(gè)通用的、能涵蓋各學(xué)科領(lǐng)域的統(tǒng)一元數(shù)據(jù)模型。在模型構(gòu)建中,除了考慮國(guó)際上主流的元數(shù)據(jù)標(biāo)準(zhǔn),也應(yīng)將國(guó)內(nèi)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)(如中國(guó)科學(xué)院制定的生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)、土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)等標(biāo)準(zhǔn)[60])作為重點(diǎn)進(jìn)行考慮。

    在元數(shù)據(jù)質(zhì)量與豐富方面,現(xiàn)有研究主要通過人工統(tǒng)計(jì)分析來發(fā)現(xiàn)元數(shù)據(jù)中存在的質(zhì)量問題,有必要建立一個(gè)面向科學(xué)數(shù)據(jù)集發(fā)現(xiàn)平臺(tái)的元數(shù)據(jù)質(zhì)量評(píng)價(jià)體系及自動(dòng)化評(píng)價(jià)方法,對(duì)采集到的元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,并用于檢索排序中(優(yōu)質(zhì)數(shù)據(jù)集可能會(huì)有更豐富的描述信息)。在數(shù)據(jù)集和文獻(xiàn)關(guān)聯(lián)識(shí)別中,現(xiàn)有應(yīng)用主要通過DOI 來識(shí)別關(guān)聯(lián)關(guān)系,但絕大多數(shù)論文對(duì)數(shù)據(jù)集的引用缺乏DOI 信息。目前通過文獻(xiàn)全文來挖掘識(shí)別數(shù)據(jù)集引用的研究還很少,相關(guān)研究也僅在特定學(xué)科的小批量數(shù)據(jù)集上進(jìn)行方法探索,識(shí)別精準(zhǔn)度不夠高。此外,當(dāng)前發(fā)現(xiàn)系統(tǒng)都只采集數(shù)據(jù)集的元數(shù)據(jù),缺乏對(duì)數(shù)據(jù)集內(nèi)容的挖掘利用。據(jù)本課題組調(diào)研,目前僅Chen 等[61-62]利用機(jī)器學(xué)習(xí)方法從數(shù)據(jù)集中表格數(shù)據(jù)內(nèi)容生成模式標(biāo)簽,用來補(bǔ)充元數(shù)據(jù)信息。事實(shí)上,數(shù)據(jù)集本身也包含豐富的信息,如數(shù)據(jù)文件名稱、說明文檔、數(shù)據(jù)內(nèi)容等,這些信息能夠被部分采集到(如文件名稱、說明文檔),把這些信息補(bǔ)充到元數(shù)據(jù)中,將有利于數(shù)據(jù)集的檢索匹配。

    5 數(shù)據(jù)集檢索

    目前,數(shù)據(jù)集檢索相關(guān)研究主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴(kuò)展來提高召回率,通過相應(yīng)排序優(yōu)化算法來提高檢索精度。

    5.1 查詢擴(kuò)展方法

    自然語言中普遍存在同義詞、近義詞、概念包含等關(guān)系,而數(shù)據(jù)集檢索中的用戶查詢很短[63-65],通常不會(huì)包含其信息需求的所有詞匯表達(dá)。為了提高科學(xué)數(shù)據(jù)集檢索的召回率,已有大量研究對(duì)查詢擴(kuò)展方法進(jìn)行了探索,包括基于本體的查詢擴(kuò)展、基于搜索結(jié)果的查詢擴(kuò)展、基于詞向量的查詢擴(kuò)展,如表2 所示。

    1)基于本體的查詢擴(kuò)展

    本體資源庫中的同一概念的不同表達(dá)、上下位概念等關(guān)系可以對(duì)用戶查詢進(jìn)行有效擴(kuò)充。目前,基于本體的查詢擴(kuò)展主要應(yīng)用在面向特定學(xué)科的數(shù)據(jù)集檢索研究中。例如,儀表領(lǐng)域[66]、林業(yè)領(lǐng)域[67]、生物醫(yī)學(xué)領(lǐng)域[18,55-57,68-70]、社會(huì)科學(xué)領(lǐng)域[71]、生態(tài)學(xué)領(lǐng)域[72]。一些科學(xué)領(lǐng)域在長(zhǎng)期的數(shù)據(jù)管理實(shí)踐中,會(huì)更傾向于使用領(lǐng)域敘詞表中的詞匯描述數(shù)據(jù)集,這使得通過領(lǐng)域本體可以更好地檢索數(shù)據(jù)集。例如,Porter[73]對(duì)生態(tài)學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)相比于一般的關(guān)鍵詞,在LTER(long-term eco‐logical research)敘詞表中的詞能夠更好地檢索數(shù)據(jù)集。此外,多語言版本的本體資源還能實(shí)現(xiàn)跨語言檢索,例如,Vanderbilt 等[72]使用EnvThes 檢索多語種的生態(tài)學(xué)數(shù)據(jù)集。目前,基于本體的查詢擴(kuò)展方法在一些學(xué)科領(lǐng)域數(shù)據(jù)集的發(fā)現(xiàn)平臺(tái)中已有應(yīng)用,如DataMed[18]。由于本體的研制成本高,缺乏足夠精細(xì)和覆蓋面的通用本體資源,限制了該方法在通用數(shù)據(jù)集搜索中的應(yīng)用。

    2)基于搜索結(jié)果的查詢擴(kuò)展

    搜索結(jié)果中會(huì)包含一些與查詢相關(guān)的詞匯,這些相關(guān)詞匯可用于查詢擴(kuò)展。目前該類方法主要利用兩類搜索結(jié)果:一類是來自外部檢索系統(tǒng)的搜索結(jié)果,例如,Karisani 等[55]使用商業(yè)垂直搜索引擎獲取的維基百科和NCBI (National Center for Bio‐technology Information)網(wǎng)站檢索結(jié)果中的詞來擴(kuò)展查詢,Wei 等[56-57]基于谷歌檢索的結(jié)果來擴(kuò)展查詢;另一類是來自內(nèi)部數(shù)據(jù)集檢索系統(tǒng)的搜索結(jié)果,這類方法也被稱為偽相關(guān)反饋,主要使用檢索結(jié)果中的文本內(nèi)容來擴(kuò)展查詢[55,69,74]。由于數(shù)據(jù)集檢索中包含時(shí)間、地理位置的查詢的占比高[64-65,75],一些學(xué)科領(lǐng)域數(shù)據(jù)集的時(shí)空信息對(duì)于相關(guān)性判斷十分重要。為此,Takeuchi 等[76-77]提出了基于時(shí)間和空間的偽相關(guān)反饋方法,來獲取與初始數(shù)據(jù)集檢索結(jié)果具有相似時(shí)空分布的數(shù)據(jù)集。與本體查詢擴(kuò)展方法相比,基于搜索結(jié)果的查詢擴(kuò)展不依賴于人工構(gòu)造的資源庫,能夠適應(yīng)不同的應(yīng)用領(lǐng)域。但檢索結(jié)果具有一定數(shù)量的噪聲詞,會(huì)降低其查詢擴(kuò)展的質(zhì)量。

    3)基于詞向量的查詢擴(kuò)展

    詞向量能夠表達(dá)詞匯之間的語義關(guān)系,已有研究者將其應(yīng)用于科學(xué)數(shù)據(jù)集檢索的查詢擴(kuò)展之中。例 如, Teodoro 等[78]、 Wang 等[79]基 于word2vec,Scerri 等[70]、Cieslewicz 等[74]基于fastText 訓(xùn)練 獲 得詞向量對(duì)查詢進(jìn)行擴(kuò)展。詞向量可以基于不同語料文本訓(xùn)練得到,如數(shù)據(jù)集的元數(shù)據(jù)、科學(xué)文獻(xiàn)數(shù)據(jù),不同語料訓(xùn)練得到的詞向量會(huì)影響查詢擴(kuò)展的效果。Teodoro 等[78]在bioCADDIE、 PMC (PubMed Cen‐tral)、Medline 三個(gè)語料上訓(xùn)練word2vec,結(jié)果顯示在Medline 上訓(xùn)練的詞向量效果最優(yōu)。此外,通過不同模型獲得的詞向量,質(zhì)量也有所不同,Scerri等[70]和 Cieslewicz 等[74]研 究 發(fā) 現(xiàn) fastText 較word2vec、GloVe 具有更優(yōu)的效果。與本體方法相比,基于詞向量的查詢擴(kuò)展方法能夠適應(yīng)不同的應(yīng)用領(lǐng)域,只要提供足夠的領(lǐng)域文本,便可以自動(dòng)獲取高質(zhì)量的詞向量。

    表2 查詢擴(kuò)展方法

    5.2 排序優(yōu)化方法

    為了提高科學(xué)數(shù)據(jù)集檢索的精度,一些研究將檢索過程分為兩個(gè)階段。在第一階段,使用BM25等高效的檢索方法獲取候選的相關(guān)數(shù)據(jù)集,這一階段通常會(huì)進(jìn)行查詢擴(kuò)展,以提高召回率。在第二階段,取第一階段排名靠前的數(shù)據(jù)集,使用更加精細(xì)的方法對(duì)數(shù)據(jù)集的相關(guān)性重新評(píng)分。目前,第二階段檢索結(jié)果排序優(yōu)化主要包括兩類方法。一類是基于啟發(fā)式規(guī)則計(jì)算數(shù)據(jù)集的相關(guān)性,例如,Teodoro等[78]對(duì)查詢和數(shù)據(jù)集自動(dòng)分類,將與查詢類別相同的數(shù)據(jù)集的得分進(jìn)行提升;Wang 等[79]統(tǒng)計(jì)數(shù)據(jù)集元數(shù)據(jù)中與查詢具有相同實(shí)體的數(shù)量,將實(shí)體數(shù)量多的數(shù)據(jù)集得分進(jìn)行提升;Wei 等[56-57]考慮查詢中不同詞的重要性,使用偽順序依賴模型(pseudo se‐quential dependence,PSD)對(duì)數(shù)據(jù)集的相關(guān)性重新評(píng)分。另一類是使用機(jī)器學(xué)習(xí)方法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)排序規(guī)則,例如,Karisani等[55]基于手工制定的特征,使用MART(multiple additive regression trees) 學(xué)習(xí)排序算法對(duì)檢索結(jié)果重新排序。目前,由于科學(xué)數(shù)據(jù)集檢索領(lǐng)域缺乏大規(guī)模的標(biāo)注數(shù)據(jù),學(xué)習(xí)排序方法效果不佳,而基于啟發(fā)式規(guī)則的檢索結(jié)果優(yōu)化方法不需要訓(xùn)練數(shù)據(jù),因而研究中應(yīng)用得相對(duì)較多。此外,一些研究還利用代數(shù)的方法來提升檢索效果,例如,劉春蔚等[80]利用潛在語義索引來檢索數(shù)據(jù)集。

    5.3 檢索方法述評(píng)

    現(xiàn)有科學(xué)數(shù)據(jù)集檢索系統(tǒng)主要依賴傳統(tǒng)信息檢索模型,對(duì)科學(xué)數(shù)據(jù)本身特性的挖掘不夠。在科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中,DataMed[18]、gesisDataS‐earch[19]、DataCite Search[81]基 于ElasticSearch,Else‐vier DataSearch[82]、Mercury[83]基于Solr 實(shí)現(xiàn)數(shù)據(jù)集搜索,相應(yīng)的檢索模型基本都為經(jīng)典的向量空間模型、概率模型等。在科學(xué)數(shù)據(jù)集檢索方法研究中,也都主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴(kuò)展等方法來優(yōu)化檢索結(jié)果。相關(guān)用戶研究表明,科學(xué)數(shù)據(jù)集檢索與文獻(xiàn)和網(wǎng)頁檢索存在差異[84-86]。例如,查詢?cè)~非常短[63-65,75],包含更高比例的數(shù)字、時(shí)間、地理位置等信息[64-65,75],元數(shù)據(jù)和數(shù)據(jù)內(nèi)容在查詢匹配中都具有重要的作用[87]。目前,科學(xué)數(shù)據(jù)集的檢索主要基于元數(shù)據(jù)文本匹配,對(duì)查詢中時(shí)間、空間等特性關(guān)注度不高。

    查詢?cè)~不一定能有效地表達(dá)用戶數(shù)據(jù)需求,目前僅少量研究對(duì)非關(guān)鍵詞檢索模型進(jìn)行了探索。對(duì)于一些科學(xué)領(lǐng)域,使用數(shù)據(jù)范圍(如水溫、時(shí)間、空間范圍)能更好地表達(dá)用戶需求。Megler 等[88-90]構(gòu)建了Data Near Hear 系統(tǒng),使用基于距離的指標(biāo)來衡量查詢范圍和數(shù)據(jù)集范圍的相似度,據(jù)此來檢索排序海岸帶觀察數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集檢索系統(tǒng)主要基于倒排索引來檢索匹配元數(shù)據(jù)文本,對(duì)其他數(shù)據(jù)結(jié)構(gòu)檢索的探索較少。Zhang 等[91]研究探索了適合不同類型查詢(字符串、數(shù)字)的最優(yōu)數(shù)據(jù)結(jié)構(gòu)(如哈希表、Trie、自平衡搜索樹等)。對(duì)于特定學(xué)科領(lǐng)域,科學(xué)數(shù)據(jù)的同質(zhì)性更高,用戶學(xué)科個(gè)性化數(shù)據(jù)需求更多,因而有必要尋找更適合學(xué)科用戶需求的信息檢索模式,提高數(shù)據(jù)集檢索的效果。

    測(cè)評(píng)數(shù)據(jù)對(duì)于檢索模型的比較和發(fā)展具有重要的作用,現(xiàn)有科學(xué)數(shù)據(jù)集檢索研究領(lǐng)域缺乏高質(zhì)量、大規(guī)模的測(cè)評(píng)數(shù)據(jù)。據(jù)本課題組調(diào)研,目前僅bioCADDIE 組織了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集檢索挑戰(zhàn)賽[92],并公開其數(shù)據(jù)集[93],但是該數(shù)據(jù)集的標(biāo)注數(shù)量非常有限。當(dāng)前,深度學(xué)習(xí)方法在文檔檢索領(lǐng)域有較多的研究和應(yīng)用,如BERT (bidirectional en‐coder representation from transformers)排序模型取得了比傳統(tǒng)檢索方法更優(yōu)的效果。由于深度學(xué)習(xí)模型需要大規(guī)模標(biāo)注數(shù)據(jù),現(xiàn)有測(cè)評(píng)數(shù)據(jù)集無法滿足深度學(xué)習(xí)模型的訓(xùn)練要求。因此,需要進(jìn)一步加強(qiáng)科學(xué)數(shù)據(jù)集檢索領(lǐng)域高質(zhì)量、大規(guī)模測(cè)評(píng)數(shù)據(jù)的建設(shè),豐富通用領(lǐng)域、各個(gè)學(xué)科領(lǐng)域可用的測(cè)評(píng)數(shù)據(jù)集。

    6 檢索結(jié)果綜合排序

    在第5 節(jié)中,檢索結(jié)果排序主要依據(jù)數(shù)據(jù)集與用戶查詢的主題相關(guān)性,已有研究表明,用戶會(huì)基于許多因素對(duì)科學(xué)數(shù)據(jù)集的相關(guān)性進(jìn)行判斷。本節(jié)將對(duì)科學(xué)數(shù)據(jù)集檢索綜合排序中的相關(guān)性判據(jù)(relevance criteria)及排序方法研究進(jìn)行梳理和總結(jié)。

    6.1 相關(guān)性判據(jù)

    對(duì)于科學(xué)數(shù)據(jù)集檢索系統(tǒng)返回的結(jié)果,用戶會(huì)根據(jù)一定的評(píng)價(jià)標(biāo)準(zhǔn)來判斷其是否滿足需求。目前,國(guó)內(nèi)外已有學(xué)者對(duì)科學(xué)數(shù)據(jù)集檢索中的用戶相關(guān)性判據(jù)進(jìn)行了探索,表3 給出了現(xiàn)有研究中提及較多的相關(guān)性判據(jù)。

    在這些判據(jù)中,主題相關(guān)性最為重要[94-95]。用戶主要通過數(shù)據(jù)集元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等信息來判斷數(shù)據(jù)集是否主題相關(guān),部分用戶會(huì)在查看數(shù)據(jù)內(nèi)容后做出最終判斷。除主題相關(guān)性外,數(shù)據(jù)集的可獲得性、質(zhì)量、權(quán)威性也被國(guó)內(nèi)相關(guān)研究提及較多[12,94-102]??茖W(xué)數(shù)據(jù)集的開放程度不一,如果數(shù)據(jù)無法或者難以獲取,即使主題相關(guān)性很高對(duì)用戶來說也不具有價(jià)值。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),73%的用戶認(rèn)為易于獲取重要或者非常重要,趙華等[94]通過用戶訪談發(fā)現(xiàn)可獲取性的重要性僅次于主題相關(guān)性??茖W(xué)數(shù)據(jù)本身的準(zhǔn)確度和有效性直接影響到研究結(jié)論,因而數(shù)據(jù)集的質(zhì)量對(duì)于相關(guān)性判斷非常重要。張貴蘭等[97]通過訪談發(fā)現(xiàn),數(shù)據(jù)集質(zhì)量出現(xiàn)的頻次位于第二位,僅次于主題性;而通過問卷調(diào)查發(fā)現(xiàn)質(zhì)量的重要性排名第一。權(quán)威性在數(shù)據(jù)集相關(guān)性判斷中也具有重要的地位,它本質(zhì)上反映的也是數(shù)據(jù)集的質(zhì)量,來自高權(quán)威性作者和機(jī)構(gòu)的數(shù)據(jù)集,能使用戶相信其具有較高的質(zhì)量[102]。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),71%的用戶認(rèn)為數(shù)據(jù)來源的聲譽(yù)重要或非常重要。張貴蘭等[97]通過問卷調(diào)查發(fā)現(xiàn),權(quán)威性的重要程度排名第三,僅次于質(zhì)量和主題性。除以上相關(guān)性指標(biāo)外,時(shí)效性、可理解性、新穎性、便利性、規(guī)范性、可用性、全面性等指標(biāo)在研究中也有較多的提及。此外,用戶相關(guān)判斷依據(jù)會(huì)隨著學(xué)科特點(diǎn)而變化,Gregory 等[12]研究發(fā)現(xiàn)天文學(xué)、地球和環(huán)境科學(xué)、生物醫(yī)學(xué)、田野考古、社會(huì)科學(xué)的相關(guān)性判據(jù)都有所不同。

    6.2 綜合排序方法

    目前,科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中的檢索結(jié)果主要基于主題相關(guān)性排序,對(duì)科學(xué)數(shù)據(jù)集的綜合排序方法的研究還比較少,僅在少量相關(guān)性判據(jù)上進(jìn)行了研究和應(yīng)用探索。在數(shù)據(jù)集質(zhì)量方面,Google Dataset Search 在檢索結(jié)果排序中引入了元數(shù)據(jù)質(zhì)量因素[24]。在數(shù)據(jù)集權(quán)威性方面,藤常延等[103]引入HITS(hyperlink-induced topic search)算法,黎建輝等[104]和騰常延[105]引入PageRank 算法來衡量數(shù)據(jù)集的重要性。Google Dataset Search 引入數(shù)據(jù)集所在網(wǎng)頁的重要性對(duì)檢索結(jié)果進(jìn)行排序[24]。在數(shù)據(jù)集的可獲取性方面,Research Data Australia 和Google Datas‐et Search 分別提供了獲?。ㄩ_放、有條件開放、受限)、使用授權(quán)(允許商業(yè)用途、不允許商業(yè)用途)的分面篩選功能。

    此外,一些研究利用計(jì)量方法對(duì)數(shù)據(jù)集質(zhì)量進(jìn)行評(píng)價(jià),這對(duì)于科學(xué)數(shù)據(jù)集的綜合排序也有參考價(jià)值。傳統(tǒng)圖書情報(bào)學(xué)領(lǐng)域?qū)ξ墨I(xiàn)等學(xué)術(shù)成果質(zhì)量的評(píng)價(jià)主要采用基于引用的指標(biāo),DCI 中可提供科學(xué)數(shù)據(jù)集的引用量。然而,當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,數(shù)據(jù)集引用量極低。因此,一些研究探索利用替代計(jì)量指標(biāo)來對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行測(cè)度。李龍飛等[106]通過獲取地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)中的使用數(shù)據(jù)來測(cè)度科學(xué)數(shù)據(jù)集的價(jià)值。在國(guó)外,加州數(shù)字圖書館、公共科學(xué)圖書館(Public Library of Sci‐ence,PLoS)、地球數(shù)據(jù)觀測(cè)網(wǎng)構(gòu)建了Making Data Count 服務(wù),通過基于PLoS 的文章級(jí)計(jì)量工具,為科學(xué)數(shù)據(jù)集提供來自CiteULike、Twitter 等13 個(gè)數(shù)據(jù)源的替代計(jì)量指標(biāo)[107]。

    表3 相關(guān)性判據(jù)

    6.3 綜合排序述評(píng)

    現(xiàn)有研究對(duì)科學(xué)數(shù)據(jù)集檢索結(jié)果綜合排序中的相關(guān)性判據(jù)進(jìn)行了較多探索,但是缺乏對(duì)相關(guān)性判據(jù)量化方法的研究。目前,Google Dataset Search 在數(shù)據(jù)集排序中引入網(wǎng)頁重要性排序指標(biāo),但是數(shù)據(jù)集所在頁面常位于“長(zhǎng)尾”部分且缺乏相互鏈接,排序差異通常不具有意義[24]。DCI 雖然包含數(shù)據(jù)集的被引情況,但當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,絕大多數(shù)數(shù)據(jù)集都不具有引用量。替代計(jì)量指標(biāo)數(shù)據(jù)的收集難度大,現(xiàn)有研究還處于初步探索階段。前述相關(guān)研究主要是在數(shù)據(jù)集的質(zhì)量和權(quán)威性方面進(jìn)行探索,其他如時(shí)效性、可用性等大量非主題相關(guān)性判據(jù)還缺乏關(guān)注。因此,需要進(jìn)一步加強(qiáng)相關(guān)性判據(jù)的量化方法研究。

    現(xiàn)有研究對(duì)用戶相關(guān)性判據(jù)的探索都主要采用用戶問卷調(diào)查、訪談等方式獲取數(shù)據(jù),這些研究方法有助于得到可能影響排序的相關(guān)性指標(biāo),但是不能準(zhǔn)確、可靠地分析出相應(yīng)指標(biāo)如何影響檢索結(jié)果排序的質(zhì)量。對(duì)檢索結(jié)果綜合排序的研究,需要以實(shí)際應(yīng)用系統(tǒng)真實(shí)的用戶需求和用戶交互的詳細(xì)日志為基礎(chǔ),通過控制變量,能更準(zhǔn)確有效地分析出各相關(guān)性判據(jù)對(duì)檢索效果的影響。由于研究者很難接觸到發(fā)現(xiàn)平臺(tái)的后臺(tái)數(shù)據(jù),因此還需要加強(qiáng)公開可用的科學(xué)數(shù)據(jù)集搜索日志數(shù)據(jù)集的建設(shè),以促進(jìn)研究者對(duì)真實(shí)用戶行為和相關(guān)性判據(jù)的深入分析。

    7 總 結(jié)

    隨著開放科學(xué)和開放獲取運(yùn)動(dòng)的發(fā)展,科學(xué)數(shù)據(jù)的共享與復(fù)用受到重視,互聯(lián)網(wǎng)上科學(xué)數(shù)據(jù)集的數(shù)量迅速增長(zhǎng)。為了幫助研究者從多源、異構(gòu)、海量的科學(xué)數(shù)據(jù)中快速地發(fā)現(xiàn)所需數(shù)據(jù),科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)應(yīng)運(yùn)而生。本文對(duì)國(guó)內(nèi)外科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)相關(guān)研究與應(yīng)用實(shí)踐進(jìn)行了廣泛調(diào)研,依據(jù)現(xiàn)有發(fā)現(xiàn)平臺(tái)的構(gòu)建模塊,分別從數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序四個(gè)方面總結(jié)現(xiàn)有研究進(jìn)展??傮w來看,現(xiàn)有研究已經(jīng)對(duì)科學(xué)數(shù)據(jù)集采集、組織、檢索和排序方法進(jìn)行了廣泛的研究,有效地推動(dòng)了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的建設(shè)。

    歐美發(fā)達(dá)國(guó)家非常注重科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的構(gòu)建,已經(jīng)建立了一批研究原型和應(yīng)用系統(tǒng),包括:涵蓋多個(gè)國(guó)家、多個(gè)學(xué)科領(lǐng)域的通用發(fā)現(xiàn)平臺(tái),如DataCite Search、Data Citation Index、Else‐vier DataSearch、Google Dataset Search;面向特定國(guó)家的發(fā)現(xiàn)平臺(tái),如澳大利亞Research Data Australia、加拿大Federated Research Data Repository、英國(guó)Re‐search Data Discovery Service;面向特定學(xué)科的發(fā)現(xiàn)平臺(tái),如生物醫(yī)學(xué)DataMed、社會(huì)科學(xué)gesisDataSeach、地球與環(huán)境科學(xué)DataONE。國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的研究相對(duì)匱乏,實(shí)踐應(yīng)用中也缺少收錄范圍足夠廣的發(fā)現(xiàn)平臺(tái),僅有中國(guó)科技資源共享網(wǎng)、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)云提供數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)服務(wù)。前者僅收錄受國(guó)家資助的20 個(gè)理工科數(shù)據(jù)倉儲(chǔ),后者為機(jī)構(gòu)級(jí)的發(fā)現(xiàn)平臺(tái)。因此,我國(guó)還應(yīng)繼續(xù)加強(qiáng)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的建設(shè)力度。

    猜你喜歡
    排序檢索科學(xué)
    排序不等式
    恐怖排序
    2019年第4-6期便捷檢索目錄
    科學(xué)大爆炸
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    科學(xué)
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    科學(xué)拔牙
    國(guó)際標(biāo)準(zhǔn)檢索
    亚洲成av人片免费观看| 午夜亚洲福利在线播放| 久久久久久久午夜电影| 国产三级黄色录像| 深爱激情五月婷婷| 久久久久国内视频| 97超级碰碰碰精品色视频在线观看| 成年免费大片在线观看| 老司机午夜福利在线观看视频| www.熟女人妻精品国产| 男女那种视频在线观看| 波多野结衣巨乳人妻| 伊人久久精品亚洲午夜| 在线观看66精品国产| 女同久久另类99精品国产91| 大型黄色视频在线免费观看| 国产成人系列免费观看| 国产精品免费一区二区三区在线| 色综合站精品国产| 我要搜黄色片| 18美女黄网站色大片免费观看| 国产真实乱freesex| 国产69精品久久久久777片| 色视频www国产| 精品乱码久久久久久99久播| 丰满乱子伦码专区| 18禁裸乳无遮挡免费网站照片| 在线免费观看不下载黄p国产 | 日本成人三级电影网站| 欧美三级亚洲精品| 久久久久久人人人人人| av国产免费在线观看| 日本黄色片子视频| 国产色爽女视频免费观看| 亚洲色图av天堂| 91久久精品电影网| 精品人妻偷拍中文字幕| 亚洲精品日韩av片在线观看 | 亚洲国产精品成人综合色| 久久九九热精品免费| 亚洲人成伊人成综合网2020| 成人亚洲精品av一区二区| 久久久久久久亚洲中文字幕 | 日韩国内少妇激情av| 九九在线视频观看精品| 亚洲 国产 在线| 3wmmmm亚洲av在线观看| 亚洲精品色激情综合| 国产亚洲欧美在线一区二区| 一夜夜www| 亚洲五月婷婷丁香| 中文字幕精品亚洲无线码一区| 少妇的丰满在线观看| 国内久久婷婷六月综合欲色啪| 国产探花在线观看一区二区| 成人永久免费在线观看视频| 日本成人三级电影网站| av中文乱码字幕在线| 午夜a级毛片| 亚洲熟妇中文字幕五十中出| 午夜亚洲福利在线播放| 久9热在线精品视频| 欧美zozozo另类| 嫩草影院入口| 极品教师在线免费播放| 一个人观看的视频www高清免费观看| 1024手机看黄色片| 亚洲成a人片在线一区二区| 国产精品 欧美亚洲| 小蜜桃在线观看免费完整版高清| 亚洲av五月六月丁香网| 伊人久久大香线蕉亚洲五| 在线观看一区二区三区| 国产国拍精品亚洲av在线观看 | 成人18禁在线播放| 色综合婷婷激情| 亚洲精品一卡2卡三卡4卡5卡| ponron亚洲| av欧美777| 亚洲熟妇熟女久久| 91久久精品国产一区二区成人 | 国产伦在线观看视频一区| 熟女电影av网| 日本五十路高清| 国产私拍福利视频在线观看| 亚洲性夜色夜夜综合| 俺也久久电影网| 色视频www国产| 精品一区二区三区av网在线观看| 在线观看舔阴道视频| 亚洲 欧美 日韩 在线 免费| 人人妻人人澡欧美一区二区| 国产精品免费一区二区三区在线| 舔av片在线| 国产精品久久视频播放| 操出白浆在线播放| 熟女少妇亚洲综合色aaa.| 国产精品野战在线观看| 激情在线观看视频在线高清| 大型黄色视频在线免费观看| 高清日韩中文字幕在线| 超碰av人人做人人爽久久 | 国产精品野战在线观看| 波野结衣二区三区在线 | 精品免费久久久久久久清纯| tocl精华| 蜜桃久久精品国产亚洲av| 亚洲中文日韩欧美视频| 在线观看66精品国产| 2021天堂中文幕一二区在线观| 18禁国产床啪视频网站| 国产伦人伦偷精品视频| 欧美日韩福利视频一区二区| 欧美中文综合在线视频| 色综合婷婷激情| 国产午夜福利久久久久久| 婷婷六月久久综合丁香| 欧美性感艳星| 成人性生交大片免费视频hd| 久久久久精品国产欧美久久久| 在线国产一区二区在线| 变态另类成人亚洲欧美熟女| 日本与韩国留学比较| 波多野结衣高清作品| 丝袜美腿在线中文| 非洲黑人性xxxx精品又粗又长| 两个人看的免费小视频| 欧美日韩瑟瑟在线播放| 亚洲乱码一区二区免费版| 免费高清视频大片| 久久精品91无色码中文字幕| 桃色一区二区三区在线观看| 亚洲在线自拍视频| 亚洲va日本ⅴa欧美va伊人久久| 天堂av国产一区二区熟女人妻| 91九色精品人成在线观看| 国产精品久久久久久久电影 | 在线看三级毛片| 精品一区二区三区av网在线观看| 99久久九九国产精品国产免费| 日本与韩国留学比较| 国产av不卡久久| 国模一区二区三区四区视频| 又爽又黄无遮挡网站| 国产激情偷乱视频一区二区| 三级男女做爰猛烈吃奶摸视频| 国产av在哪里看| 国产av不卡久久| 嫁个100分男人电影在线观看| 婷婷丁香在线五月| 91九色精品人成在线观看| 午夜福利高清视频| 18禁国产床啪视频网站| 亚洲aⅴ乱码一区二区在线播放| 国产视频内射| 看片在线看免费视频| 久久精品91蜜桃| 国产精品久久久人人做人人爽| 国产黄色小视频在线观看| 国产成人aa在线观看| 最近最新中文字幕大全电影3| 国产成+人综合+亚洲专区| 国产精品综合久久久久久久免费| 国产精品一及| 精品久久久久久久末码| 亚洲精品456在线播放app | 久久午夜亚洲精品久久| 日韩欧美国产在线观看| 久久久久国产精品人妻aⅴ院| 1000部很黄的大片| 美女黄网站色视频| 亚洲国产精品成人综合色| 久久精品国产99精品国产亚洲性色| 看片在线看免费视频| 国内精品美女久久久久久| 老熟妇仑乱视频hdxx| 人人妻,人人澡人人爽秒播| 亚洲国产精品999在线| 精品国产美女av久久久久小说| 亚洲av第一区精品v没综合| 亚洲欧美激情综合另类| av专区在线播放| 欧美日韩黄片免| 亚洲av免费在线观看| 欧美xxxx黑人xx丫x性爽| 老司机福利观看| 国产精品99久久久久久久久| 97碰自拍视频| 国产一区二区三区在线臀色熟女| 久久久国产成人免费| 一本精品99久久精品77| 网址你懂的国产日韩在线| 亚洲精品日韩av片在线观看 | 成年女人毛片免费观看观看9| 亚洲中文日韩欧美视频| 精品电影一区二区在线| 18禁国产床啪视频网站| 欧美xxxx黑人xx丫x性爽| 法律面前人人平等表现在哪些方面| 免费看光身美女| av中文乱码字幕在线| 国产精品爽爽va在线观看网站| 一进一出抽搐动态| 99精品在免费线老司机午夜| 一区二区三区激情视频| 日韩欧美一区二区三区在线观看| 老鸭窝网址在线观看| 欧美另类亚洲清纯唯美| 少妇高潮的动态图| 欧美bdsm另类| 日本a在线网址| 特大巨黑吊av在线直播| 看黄色毛片网站| 亚洲 国产 在线| 久久久久久久午夜电影| 51国产日韩欧美| 国产激情偷乱视频一区二区| 国产高清视频在线播放一区| 免费高清视频大片| 一级作爱视频免费观看| 中文字幕久久专区| 身体一侧抽搐| 一二三四社区在线视频社区8| 男人和女人高潮做爰伦理| 国产成人av激情在线播放| 熟女电影av网| 亚洲av免费在线观看| 青草久久国产| 国产成人a区在线观看| 亚洲人成网站在线播放欧美日韩| 国产伦精品一区二区三区视频9 | 两个人看的免费小视频| 亚洲精品在线美女| 久久精品影院6| 国产成人aa在线观看| 中文字幕av在线有码专区| 国产精品久久久久久亚洲av鲁大| 亚洲狠狠婷婷综合久久图片| 性欧美人与动物交配| 香蕉久久夜色| 色在线成人网| 女人十人毛片免费观看3o分钟| 老司机福利观看| 国语自产精品视频在线第100页| 精品国产美女av久久久久小说| 久久久久国内视频| 日本一本二区三区精品| 国产免费一级a男人的天堂| 老汉色av国产亚洲站长工具| 成人性生交大片免费视频hd| 天堂av国产一区二区熟女人妻| 久久久久亚洲av毛片大全| 噜噜噜噜噜久久久久久91| 免费在线观看亚洲国产| 亚洲一区二区三区不卡视频| 美女免费视频网站| 啪啪无遮挡十八禁网站| 在线播放国产精品三级| 老司机福利观看| 在线观看舔阴道视频| 搡老岳熟女国产| 午夜福利在线观看吧| xxx96com| 好男人电影高清在线观看| or卡值多少钱| 亚洲av不卡在线观看| 国产视频一区二区在线看| 亚洲熟妇中文字幕五十中出| 国产成人aa在线观看| 韩国av一区二区三区四区| 18禁黄网站禁片免费观看直播| 欧美成人a在线观看| 国产又黄又爽又无遮挡在线| 色哟哟哟哟哟哟| 国产精品日韩av在线免费观看| 无人区码免费观看不卡| 亚洲国产日韩欧美精品在线观看 | 欧美黄色淫秽网站| 757午夜福利合集在线观看| 久久婷婷人人爽人人干人人爱| 一边摸一边抽搐一进一小说| 亚洲人成网站高清观看| 99久久久亚洲精品蜜臀av| or卡值多少钱| 欧美成人免费av一区二区三区| 欧美日韩精品网址| 高清日韩中文字幕在线| 99精品久久久久人妻精品| 亚洲国产日韩欧美精品在线观看 | 午夜福利成人在线免费观看| 日本成人三级电影网站| 波多野结衣高清作品| 非洲黑人性xxxx精品又粗又长| 国产探花极品一区二区| 国产蜜桃级精品一区二区三区| 桃红色精品国产亚洲av| 丁香六月欧美| av天堂在线播放| 天天躁日日操中文字幕| 夜夜躁狠狠躁天天躁| 亚洲精品亚洲一区二区| 国产高清有码在线观看视频| 欧美国产日韩亚洲一区| 身体一侧抽搐| 欧美一区二区亚洲| 国产久久久一区二区三区| 熟女电影av网| 亚洲熟妇熟女久久| 免费看十八禁软件| 亚洲在线观看片| 欧美日韩瑟瑟在线播放| 日韩成人在线观看一区二区三区| 色精品久久人妻99蜜桃| 国产伦精品一区二区三区四那| 2021天堂中文幕一二区在线观| 亚洲国产精品成人综合色| 国产成人av激情在线播放| 人人妻,人人澡人人爽秒播| 久久久久久久精品吃奶| 久久久久精品国产欧美久久久| 成人av一区二区三区在线看| 黄色视频,在线免费观看| 亚洲精品乱码久久久v下载方式 | 亚洲人成电影免费在线| 国产熟女xx| 国产精品av视频在线免费观看| 好男人在线观看高清免费视频| 欧美高清成人免费视频www| 日本 av在线| 久久久国产成人免费| 国产探花极品一区二区| 久久中文看片网| 免费在线观看成人毛片| 国产精品99久久99久久久不卡| 亚洲熟妇中文字幕五十中出| 亚洲成人久久爱视频| 又黄又爽又免费观看的视频| 天堂动漫精品| 色视频www国产| 熟女电影av网| 听说在线观看完整版免费高清| 日韩欧美在线二视频| 99久久久亚洲精品蜜臀av| 搡老妇女老女人老熟妇| 精品久久久久久久久久免费视频| 午夜福利在线在线| 老鸭窝网址在线观看| 国产伦精品一区二区三区四那| 91av网一区二区| 嫁个100分男人电影在线观看| 欧美日本视频| 97人妻精品一区二区三区麻豆| 母亲3免费完整高清在线观看| 国产成人a区在线观看| 无遮挡黄片免费观看| 一本久久中文字幕| 国产亚洲精品一区二区www| 国产蜜桃级精品一区二区三区| 精品无人区乱码1区二区| 久久国产精品影院| 国产精品自产拍在线观看55亚洲| www.熟女人妻精品国产| av天堂在线播放| 欧美成人一区二区免费高清观看| 久久久精品大字幕| 精品人妻1区二区| 91久久精品国产一区二区成人 | 波多野结衣高清无吗| 中国美女看黄片| netflix在线观看网站| 欧美黑人欧美精品刺激| 色av中文字幕| 国内少妇人妻偷人精品xxx网站| 乱人视频在线观看| 最近最新中文字幕大全电影3| 免费看a级黄色片| 黄片大片在线免费观看| 欧美日韩国产亚洲二区| 宅男免费午夜| 色视频www国产| 亚洲中文字幕一区二区三区有码在线看| 国产黄色小视频在线观看| 又黄又粗又硬又大视频| 最近最新中文字幕大全免费视频| 成年版毛片免费区| 高清毛片免费观看视频网站| 精品国产亚洲在线| 日韩有码中文字幕| 国产野战对白在线观看| 中出人妻视频一区二区| 国内揄拍国产精品人妻在线| 亚洲欧美精品综合久久99| av中文乱码字幕在线| tocl精华| 亚洲最大成人中文| 久久久久久久午夜电影| 久久久久久久亚洲中文字幕 | 久久中文看片网| 狂野欧美激情性xxxx| av在线蜜桃| 一个人免费在线观看电影| 免费在线观看日本一区| 久久亚洲精品不卡| 99热6这里只有精品| 日本黄大片高清| 久久6这里有精品| a级一级毛片免费在线观看| 亚洲激情在线av| 91九色精品人成在线观看| 国产精品久久久久久精品电影| 日本黄色片子视频| 亚洲中文字幕一区二区三区有码在线看| 精品免费久久久久久久清纯| 99久久精品一区二区三区| 亚洲激情在线av| 91麻豆av在线| 欧美又色又爽又黄视频| 性色avwww在线观看| 国产免费男女视频| 久久久久久久午夜电影| 久久人妻av系列| 少妇丰满av| 亚洲欧美激情综合另类| av在线蜜桃| 性色avwww在线观看| 老司机在亚洲福利影院| 18禁在线播放成人免费| 美女被艹到高潮喷水动态| 国产精品一及| 校园春色视频在线观看| 国产精品影院久久| 久久久国产成人免费| av福利片在线观看| 日韩欧美免费精品| 麻豆一二三区av精品| 在线免费观看的www视频| 亚洲人成网站在线播| 日本五十路高清| 久99久视频精品免费| 国产老妇女一区| 丝袜美腿在线中文| 国产伦一二天堂av在线观看| 琪琪午夜伦伦电影理论片6080| 黑人欧美特级aaaaaa片| 亚洲美女视频黄频| 欧美一级毛片孕妇| 人人妻人人澡欧美一区二区| 日韩有码中文字幕| 999久久久精品免费观看国产| 色精品久久人妻99蜜桃| 少妇熟女aⅴ在线视频| 俄罗斯特黄特色一大片| 免费在线观看日本一区| 丰满人妻一区二区三区视频av | 亚洲中文字幕日韩| 亚洲五月天丁香| 老熟妇乱子伦视频在线观看| 超碰av人人做人人爽久久 | 91av网一区二区| 97超级碰碰碰精品色视频在线观看| 老熟妇仑乱视频hdxx| 成年人黄色毛片网站| 久久国产乱子伦精品免费另类| 麻豆国产av国片精品| 国产视频一区二区在线看| 99久久无色码亚洲精品果冻| 欧美乱码精品一区二区三区| 亚洲熟妇熟女久久| 亚洲在线观看片| 国产精品,欧美在线| 国产精品 欧美亚洲| 一a级毛片在线观看| 亚洲一区高清亚洲精品| 神马国产精品三级电影在线观看| 精品欧美国产一区二区三| 九九在线视频观看精品| 母亲3免费完整高清在线观看| 在线十欧美十亚洲十日本专区| 超碰av人人做人人爽久久 | 亚洲欧美日韩无卡精品| 欧美色欧美亚洲另类二区| 精品电影一区二区在线| 一本一本综合久久| 夜夜看夜夜爽夜夜摸| 18美女黄网站色大片免费观看| 久久久久国产精品人妻aⅴ院| 最近视频中文字幕2019在线8| 午夜精品一区二区三区免费看| 国产亚洲欧美在线一区二区| 色老头精品视频在线观看| 国产亚洲精品久久久com| 日韩精品青青久久久久久| 欧美极品一区二区三区四区| 国产欧美日韩精品亚洲av| 国产熟女xx| 中国美女看黄片| 国产老妇女一区| 高清毛片免费观看视频网站| 亚洲专区国产一区二区| 欧美在线一区亚洲| 国产精品99久久久久久久久| 天天添夜夜摸| 在线播放无遮挡| 日韩欧美免费精品| netflix在线观看网站| 噜噜噜噜噜久久久久久91| 中文字幕久久专区| 色综合亚洲欧美另类图片| 色尼玛亚洲综合影院| 少妇丰满av| 特大巨黑吊av在线直播| 欧美bdsm另类| 女警被强在线播放| 黄色成人免费大全| 一个人观看的视频www高清免费观看| 久久久久国产精品人妻aⅴ院| 成人午夜高清在线视频| 日本熟妇午夜| 成人午夜高清在线视频| 欧美日韩瑟瑟在线播放| 免费搜索国产男女视频| 成年版毛片免费区| 午夜福利在线观看吧| 在线天堂最新版资源| 久久九九热精品免费| 三级国产精品欧美在线观看| 国产欧美日韩一区二区精品| 国产高潮美女av| 操出白浆在线播放| 日本免费一区二区三区高清不卡| 欧美日韩一级在线毛片| 1000部很黄的大片| 午夜激情欧美在线| 国内少妇人妻偷人精品xxx网站| 在线观看免费午夜福利视频| ponron亚洲| x7x7x7水蜜桃| 亚洲美女黄片视频| 99久久综合精品五月天人人| 色噜噜av男人的天堂激情| 精品久久久久久成人av| 国产精品av视频在线免费观看| 高清在线国产一区| 国产精品,欧美在线| 高潮久久久久久久久久久不卡| 亚洲熟妇中文字幕五十中出| 国产av麻豆久久久久久久| 综合色av麻豆| 无限看片的www在线观看| 欧美成人性av电影在线观看| 免费无遮挡裸体视频| 午夜老司机福利剧场| 不卡一级毛片| 国产真实乱freesex| 国产精品影院久久| 成年女人毛片免费观看观看9| 少妇丰满av| 最近最新中文字幕大全电影3| www.999成人在线观看| 国产av麻豆久久久久久久| 国产一区二区三区在线臀色熟女| 国产伦一二天堂av在线观看| 亚洲av熟女| 欧美区成人在线视频| 1024手机看黄色片| 成人国产一区最新在线观看| 99久久精品国产亚洲精品| 亚洲美女黄片视频| 亚洲男人的天堂狠狠| 宅男免费午夜| 国产精品野战在线观看| 国产伦人伦偷精品视频| 国语自产精品视频在线第100页| 嫁个100分男人电影在线观看| 成人av一区二区三区在线看| aaaaa片日本免费| 啦啦啦免费观看视频1| 亚洲不卡免费看| 亚洲精品美女久久久久99蜜臀| 国产激情欧美一区二区| 国产精品精品国产色婷婷| 日本熟妇午夜| 18禁裸乳无遮挡免费网站照片| 12—13女人毛片做爰片一| 国产成人av教育| 91av网一区二区| 男人的好看免费观看在线视频| 身体一侧抽搐| xxxwww97欧美| avwww免费| 亚洲在线自拍视频| 中文字幕熟女人妻在线| 99国产精品一区二区三区| 中国美女看黄片| 一区二区三区高清视频在线| 两人在一起打扑克的视频| 亚洲精品成人久久久久久| www.熟女人妻精品国产| 免费高清视频大片| 久久久久免费精品人妻一区二区| 亚洲七黄色美女视频| 又紧又爽又黄一区二区| av女优亚洲男人天堂| 国产野战对白在线观看| 国产久久久一区二区三区| 亚洲熟妇中文字幕五十中出| 91在线观看av| 欧美成人a在线观看| 1000部很黄的大片| 色视频www国产| 黄色女人牲交| 久久久精品大字幕| 九九热线精品视视频播放| 国产探花极品一区二区| 免费看十八禁软件|