• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機(jī)器學(xué)習(xí)的科學(xué)數(shù)據(jù)正式引用識(shí)別方法研究*

    2022-03-07 08:01:02張志強(qiáng)
    情報(bào)雜志 2022年2期
    關(guān)鍵詞:全文參考文獻(xiàn)分類

    楊 寧 張志強(qiáng)

    (1.中國科學(xué)院成都文獻(xiàn)情報(bào)中心 成都 610041;2.中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系 北京 100190)

    0 引 言

    科學(xué)數(shù)據(jù)是指科研活動(dòng)中產(chǎn)生或經(jīng)過再加工得到的數(shù)據(jù),主要類型包括觀察數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等[1]。一般來說,任意單位的數(shù)據(jù)都可以稱為科學(xué)數(shù)據(jù),但是有一定范圍、可形成完整描述的科學(xué)數(shù)據(jù)集合或科學(xué)數(shù)據(jù)產(chǎn)品才能構(gòu)成科學(xué)數(shù)據(jù)集[2]。科學(xué)數(shù)據(jù)本身是科研活動(dòng)過程的投入與產(chǎn)出要素,是科研活動(dòng)過程的“石油”[3]。科研活動(dòng)過程就是一個(gè)科學(xué)數(shù)據(jù)積累的過程,沒有科學(xué)數(shù)據(jù),就沒有科學(xué)技術(shù)。在數(shù)據(jù)密集型科研范式的大背景下,科學(xué)數(shù)據(jù)已經(jīng)成為知識(shí)發(fā)現(xiàn)和科研創(chuàng)新的重要基礎(chǔ)和驅(qū)動(dòng)力,被全球各國視為科技發(fā)展的新型戰(zhàn)略性資源和科研產(chǎn)出的又一類重要成果。隨著長期保存、數(shù)據(jù)出版、開放共享等工作取得的實(shí)質(zhì)性進(jìn)展,科學(xué)數(shù)據(jù)的共享和重用行為變得日益普遍和重要,而作為數(shù)據(jù)共享和重用的關(guān)鍵前提,科學(xué)數(shù)據(jù)引用問題開始得到科研人員的廣泛關(guān)注[4]。

    科學(xué)數(shù)據(jù)引用指科研工作者將科學(xué)數(shù)據(jù)作為論文研究結(jié)果的支撐要素,通過參考文獻(xiàn)、正文注、腳注、尾注或致謝等形式提供數(shù)據(jù)來源出處的做法[5]。通常,通過參考文獻(xiàn)方式列出的引用被稱為科學(xué)數(shù)據(jù)的正式引用,而通過其他方式列出的引用方法,被稱為科學(xué)數(shù)據(jù)的非正式引用。數(shù)據(jù)引用主要具有兩個(gè)方面的重要作用:一是數(shù)據(jù)溯源,通過數(shù)據(jù)引用追溯并獲取科學(xué)研究的原始數(shù)據(jù),重現(xiàn)并驗(yàn)證研究結(jié)果,促進(jìn)數(shù)據(jù)共享與重用,加快科學(xué)研究進(jìn)程;二是學(xué)術(shù)評(píng)價(jià),數(shù)據(jù)共享和使用情況,可以作為數(shù)據(jù)生產(chǎn)者學(xué)術(shù)產(chǎn)出及數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)服務(wù)能力的評(píng)價(jià)指標(biāo)[6],豐富并完善科研評(píng)價(jià)機(jī)制。自2011年起,一些國際組織如OECD、ESIP、DCC、DataCite等開始致力于數(shù)據(jù)規(guī)范引用的實(shí)踐,紛紛制定了科學(xué)數(shù)據(jù)引用規(guī)范。2012年底,湯森路透推出了數(shù)據(jù)引文索引(Data Citation Index,DCI)數(shù)據(jù)庫[7],提供科學(xué)數(shù)據(jù)的引用信息及原文關(guān)聯(lián)地址。

    盡管眾多科研工作者和國際數(shù)據(jù)組織對數(shù)據(jù)引用研究已經(jīng)做了大量工作,但是由于目前仍然缺乏統(tǒng)一的科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)規(guī)范、科研人員共享和重用數(shù)據(jù)缺乏積極性、數(shù)據(jù)隱私及版權(quán)保護(hù)機(jī)制不健全等因素,造成數(shù)據(jù)的引用溯源和統(tǒng)計(jì)數(shù)據(jù)存在一定缺失和滯后。格林納達(dá)大學(xué)EC3文獻(xiàn)計(jì)量小組的研究發(fā)現(xiàn),盡管自 2007 年以來 DCI 數(shù)據(jù)庫每年發(fā)布的數(shù)據(jù)集數(shù)量和被引次數(shù)有所增加,但仍然有約88%的研究數(shù)據(jù)為零引用[8]。另外,當(dāng)前科研工作者大多仍舊采用人工方式來識(shí)別和抽取科學(xué)數(shù)據(jù)引用,很難適用于大規(guī)模文獻(xiàn)集的數(shù)據(jù)引用識(shí)別和全學(xué)科數(shù)據(jù)引用研究。

    因此,本文引入機(jī)器學(xué)習(xí)技術(shù)結(jié)合內(nèi)容分析方法,以生物信息學(xué)領(lǐng)域?qū)W術(shù)論文全文信息作為分析內(nèi)容,以生物信息學(xué)領(lǐng)域科學(xué)數(shù)據(jù)集作為識(shí)別對象,對論文參考文獻(xiàn)中科學(xué)數(shù)據(jù)集的正式引用項(xiàng)進(jìn)行抽取和分類,研究基于機(jī)器學(xué)習(xí)方法的科學(xué)數(shù)據(jù)正式引用自動(dòng)識(shí)別方法并進(jìn)行識(shí)別效果評(píng)價(jià)。

    1 相關(guān)研究

    科學(xué)數(shù)據(jù)引用識(shí)別是數(shù)據(jù)引用研究和影響力評(píng)價(jià)的基礎(chǔ),研究早期主要通過人工閱讀并標(biāo)注的方法來識(shí)別和抽取文獻(xiàn)中的數(shù)據(jù)引用。近年來,隨著機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)的快速發(fā)展,利用文本挖掘來識(shí)別文獻(xiàn)中的數(shù)據(jù)引用也開始得到越來越多的關(guān)注。當(dāng)前,科學(xué)數(shù)據(jù)引用識(shí)別抽取方法可以歸納為四種主要類型,包括:術(shù)語搜索、人工標(biāo)注、基于規(guī)則的識(shí)別和基于監(jiān)督學(xué)習(xí)的識(shí)別[9]。

    1.1基于術(shù)語搜索的識(shí)別方法術(shù)語搜索是識(shí)別和抽取數(shù)據(jù)引用最直接的方法,主要利用數(shù)據(jù)集的名稱、描述信息、DOI、URL等信息,通過字符串匹配來實(shí)現(xiàn)數(shù)據(jù)引用識(shí)別。Major等[10]通過NASA地球觀測系統(tǒng)(EOS)的儀器名稱為關(guān)鍵詞搜索文獻(xiàn)中的數(shù)據(jù)引用,定量化地揭示了EOS數(shù)據(jù)產(chǎn)生的學(xué)術(shù)影響力。Henderson等[11]通過數(shù)據(jù)集名稱、作者、下載地址等信息,搜索并研究了達(dá)特茅斯大學(xué)CRAWDAD無線數(shù)據(jù)集在論文中的被引情況。研究發(fā)現(xiàn)1 281篇使用CRAWDAD數(shù)據(jù)集的論文中,大部分都通過較為規(guī)范的方式引用數(shù)據(jù)集,存在的主要問題包括:引用了論文而非直接引用數(shù)據(jù)集、使用不清晰的標(biāo)識(shí)符來描述數(shù)據(jù)集以及未提供指向數(shù)據(jù)集的URL地址等。Li等[12]提出了通過論文全文分析來識(shí)別科學(xué)項(xiàng)目產(chǎn)生數(shù)據(jù)被引用情況的工作流,并將工作流應(yīng)用于癌癥基因組圖譜(TCGA)項(xiàng)目提供的癌癥基因組數(shù)據(jù)集研究,通過全文文本挖掘識(shí)別并分析了TCCA數(shù)據(jù)集的被引情況。劉小宇等[13]通過平臺(tái)名稱、數(shù)據(jù)引用聲明中的關(guān)鍵詞等信息檢索文獻(xiàn),調(diào)查與分析我國科學(xué)數(shù)據(jù)共享平臺(tái)所提供科學(xué)數(shù)據(jù)的被引用情況,研究了數(shù)據(jù)的可回溯性、被引時(shí)間規(guī)律、被引位置、被引作用與被引句式特點(diǎn)等特征規(guī)律。

    術(shù)語搜索方法具備直接、高效等特點(diǎn),是當(dāng)前科學(xué)數(shù)據(jù)引用識(shí)別應(yīng)用較為廣泛的一種方法。但術(shù)語搜索方法的缺點(diǎn)也較為明顯,如需要提前制定檢索詞、詞匯搜索范圍較為有限、誤檢率較高等。因此,術(shù)語搜索方法通常用于分析已知數(shù)據(jù)集的引用識(shí)別和影響力研究。

    1.2基于人工標(biāo)注的識(shí)別方法人工標(biāo)注是通過人工閱讀文本的方式來識(shí)別數(shù)據(jù)引用的方法,通常需要構(gòu)建任務(wù)語料庫來規(guī)范識(shí)別范圍和術(shù)語特征,如有多名標(biāo)注人員參與,還需對標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn)。Zenk-M?ltgen等[14]選取140種社會(huì)學(xué)期刊的數(shù)據(jù)政策進(jìn)行研究,并選取其中5種期刊的論文進(jìn)行數(shù)據(jù)引用標(biāo)注。研究發(fā)現(xiàn)社會(huì)學(xué)領(lǐng)域共享和引用數(shù)據(jù)的文章較少,大多集中在具有較高影響因子和數(shù)據(jù)政策的期刊上。Yan等[15]通過人工標(biāo)注方法在文獻(xiàn)中挖掘開放政府?dāng)?shù)據(jù)的引用情況,并分析不同地區(qū)研究人員對開放政府?dāng)?shù)據(jù)的使用特點(diǎn)及目的。Zhao等[16]對PLoS One上600份出版物的內(nèi)容進(jìn)行分析,對多個(gè)學(xué)科論文中數(shù)據(jù)集提及和引用進(jìn)行抽取和分析。研究發(fā)現(xiàn)不同學(xué)科的數(shù)據(jù)集提及和引用差異很大,數(shù)據(jù)正式引用和數(shù)據(jù)重用的比例都很低,研究人員更傾向于在正文中引用自己創(chuàng)建的數(shù)據(jù)集。王雪等[17]對生物信息學(xué)領(lǐng)域的中英文文獻(xiàn)數(shù)據(jù)引用行為特征進(jìn)行分析, 并構(gòu)建了基于文獻(xiàn)計(jì)量和網(wǎng)絡(luò)計(jì)量的數(shù)據(jù)引用行為評(píng)價(jià)模型。研究認(rèn)為英文文獻(xiàn)的數(shù)據(jù)引用更為規(guī)范且重用率較高, 文獻(xiàn)質(zhì)量與數(shù)據(jù)集質(zhì)量之間存在顯著的相關(guān)關(guān)系。丁楠等[18]利用內(nèi)容分析和人工標(biāo)注方法,對我國圖書情報(bào)領(lǐng)域權(quán)威期刊數(shù)據(jù)引用行為進(jìn)行分析,研究發(fā)現(xiàn)我國圖情領(lǐng)域期刊的數(shù)據(jù)引用仍然存在數(shù)據(jù)引用頻次少、數(shù)據(jù)公開程度低、缺乏統(tǒng)一的數(shù)據(jù)引用規(guī)范等問題。

    人工標(biāo)注的優(yōu)點(diǎn)是可以通過人工方式產(chǎn)生可靠性較高的結(jié)果,標(biāo)注過程也可以融入更多個(gè)性化的需求。然而,由于人工標(biāo)注方法的效率較低,無法適用于大規(guī)模文獻(xiàn)集的數(shù)據(jù)引用識(shí)別,對數(shù)據(jù)進(jìn)行抽樣又會(huì)損失大量樣本信息。因此,人工標(biāo)注通常用于小文獻(xiàn)集或特定領(lǐng)域文獻(xiàn)的數(shù)據(jù)引用識(shí)別。

    1.3基于規(guī)則的識(shí)別方法基于規(guī)則的方法主要通過一組靜態(tài)或動(dòng)態(tài)的規(guī)則來識(shí)別抽取數(shù)據(jù)引用語句,這些規(guī)則通過領(lǐng)域?qū)<一驒C(jī)器自動(dòng)推斷方式構(gòu)建,再通過正則表達(dá)式等將符合詞法、句法規(guī)則的數(shù)據(jù)引用語句進(jìn)行識(shí)別并抽取出來。Ghavimi等[19]從社會(huì)科學(xué)數(shù)據(jù)集DOI注冊庫dalra中檢索數(shù)據(jù)集并通過標(biāo)題挖掘其規(guī)則特征,再利用規(guī)則抽取和分析社會(huì)科學(xué)論文中數(shù)據(jù)集的引用情況。Grechkin等[20]利用正則表達(dá)式在全文中識(shí)別和抽取數(shù)據(jù)集引用,并利用數(shù)據(jù)集序列號(hào)檢索數(shù)據(jù)集狀態(tài)是公共還是私有,從而自動(dòng)檢測已被發(fā)表論文引用但仍然保持私有的過期數(shù)據(jù)集,加快數(shù)據(jù)集的公開進(jìn)度。

    基于規(guī)則的識(shí)別方法精確度高、針對性強(qiáng),但建立規(guī)則庫需要領(lǐng)域?qū)<覅⑴c。并且該方法具有一定的局限性,普適性規(guī)則會(huì)造成錯(cuò)誤率較高,而針對性規(guī)則的靈活性和覆蓋性較差。

    1.4基于監(jiān)督學(xué)習(xí)的識(shí)別方法基于監(jiān)督學(xué)習(xí)的方法主要采用機(jī)器學(xué)習(xí)分類器,通過標(biāo)記語料庫的部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,然后通過語料庫的另一部分?jǐn)?shù)據(jù)進(jìn)行應(yīng)用和評(píng)估。Névéol等[21]提出了一種自動(dòng)識(shí)別生物醫(yī)學(xué)論文中科學(xué)數(shù)據(jù)引用的方法,該方法綜合利用條件隨機(jī)場(CRF)、樸素貝葉斯(NB)和支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)模型和方法,挖掘出PubMed數(shù)據(jù)庫中52 932篇文章的數(shù)據(jù)引用信息。

    基于監(jiān)督學(xué)習(xí)的識(shí)別方法效率高、泛化能力較強(qiáng),適用于當(dāng)前大規(guī)模文獻(xiàn)集的科學(xué)數(shù)據(jù)引用識(shí)別和抽取。但是,由于該方法存在實(shí)現(xiàn)技術(shù)門檻較高、缺乏通用的數(shù)據(jù)訓(xùn)練集和測試集等問題,基于監(jiān)督學(xué)習(xí)的識(shí)別方法的研究和應(yīng)用還較少。

    2 數(shù)據(jù)與方法

    2.1研究思路生物信息學(xué)是一門應(yīng)用計(jì)算機(jī)科學(xué)的方法技術(shù)對生命科學(xué)大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理分析和知識(shí)發(fā)現(xiàn)的專門領(lǐng)域?qū)W科信息學(xué),是具有代表性的以數(shù)據(jù)驅(qū)動(dòng)為核心的典型學(xué)科信息學(xué)研究領(lǐng)域,學(xué)科研究文獻(xiàn)中涉及到大量的科學(xué)數(shù)據(jù)的共享和引用。根據(jù)這一特點(diǎn),本文以生物信息學(xué)領(lǐng)域?yàn)槔?,利用自定義規(guī)則和人工方式將參考文獻(xiàn)分類標(biāo)注為數(shù)據(jù)引用和非數(shù)據(jù)引用,最后比較各類機(jī)器學(xué)習(xí)方法在科學(xué)數(shù)據(jù)引用分類識(shí)別任務(wù)中的表現(xiàn),從而分析判別機(jī)器學(xué)習(xí)方法用于科學(xué)數(shù)據(jù)正式引用自動(dòng)分類和識(shí)別抽取的效果。研究框架如圖1所示。

    圖1 研究框架

    2.2數(shù)據(jù)下載與抽取為使研究具有較好的學(xué)科代表性,本研究通過多渠道綜合確定生物信息學(xué)領(lǐng)域的關(guān)鍵期刊,其中包括期刊引用報(bào)告(JCR)、國際計(jì)算生物學(xué)學(xué)會(huì)、維基百科和相關(guān)的研究論文等[22]。全文文本數(shù)據(jù)來自PubMed Central(PMC),通過檢索期刊名稱獲取期刊全文條數(shù)。為使研究數(shù)據(jù)具備一定代表性,數(shù)據(jù)經(jīng)過去重并篩選掉全文存儲(chǔ)篇數(shù)小于100篇的期刊,最終確定35種期刊作為研究對象。

    數(shù)據(jù)下載采用生物信息學(xué)領(lǐng)域常用的開源工具BioPython[23],該工具包含許多用于生物信息學(xué)數(shù)據(jù)下載和分析的模塊,本研究使用其中的Entrez模塊進(jìn)行全文下載,數(shù)據(jù)下載時(shí)間為2021年1月12日,共獲取全文數(shù)據(jù)38 931篇。

    PMC數(shù)據(jù)庫的全文數(shù)據(jù)基于XML格式存儲(chǔ),標(biāo)準(zhǔn)采用美國國立醫(yī)學(xué)圖書館(NLM)的文件類型定義(DTD)標(biāo)準(zhǔn)[24]。XML全文文本由3個(gè)部分組成,包括文獻(xiàn)基本信息、正文信息和參考文獻(xiàn)信息。各部分的標(biāo)簽及主要內(nèi)容如表1所示。

    表1 PMC數(shù)據(jù)庫全文XML標(biāo)簽結(jié)構(gòu)與主要內(nèi)容

    其中,每一條參考文獻(xiàn)的編號(hào)信息(例如:)都會(huì)在正文的引用位置進(jìn)行標(biāo)識(shí)(例如:),通過參考文獻(xiàn)ref標(biāo)簽的id和正文xref標(biāo)簽的rid即可將二者關(guān)聯(lián)起來。因此,分別建立文獻(xiàn)信息表和參考文獻(xiàn)表。其中文獻(xiàn)信息表存儲(chǔ)PMC編號(hào)、標(biāo)題、類型、期刊、出版年、參考文獻(xiàn)數(shù)量等;參考文獻(xiàn)表存儲(chǔ)PMC編號(hào)、參考文獻(xiàn)編號(hào)、參考文獻(xiàn)類型、參考文獻(xiàn)內(nèi)容、正文中參考文獻(xiàn)所在語句等。文獻(xiàn)信息和參考文獻(xiàn)信息通過PMC唯一編號(hào)進(jìn)行關(guān)聯(lián),最終獲取到38 931篇全文的參考文獻(xiàn)信息1 343 381條。

    2.3數(shù)據(jù)預(yù)處理經(jīng)過對數(shù)據(jù)進(jìn)行分析得知,參考文獻(xiàn)的類型以journal、book和other三種類型為主。其中,標(biāo)識(shí)為other的引用包括了對科學(xué)數(shù)據(jù)、網(wǎng)頁、專利、報(bào)告等多種數(shù)據(jù)類型的引用。因此,數(shù)據(jù)預(yù)處理的第一步就是將標(biāo)識(shí)類型為other的參考文獻(xiàn)條目抽取出來。另外,由于生物信息學(xué)論文涉及到算法和公式較多,文本中存在著大量的LaTeX標(biāo)記,對數(shù)據(jù)抽取結(jié)果產(chǎn)生較大影響,需要通過正則表達(dá)式將無用的LaTeX標(biāo)記和空格清除。

    對于生物信息學(xué)領(lǐng)域,科學(xué)數(shù)據(jù)要具備可訪問和可重用性才有價(jià)值。因此本研究涉及的科學(xué)數(shù)據(jù)要求符合FAIR原則[25],即可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可交互(Interoperable)和可重用(Reusable)。在這一原則的規(guī)范下,數(shù)據(jù)預(yù)處理的第二步是通過規(guī)則將參考文獻(xiàn)內(nèi)容中包含網(wǎng)址或數(shù)字對象唯一標(biāo)識(shí)符(DOI)的參考文獻(xiàn)條目抽取出來,并分別將引文內(nèi)容、引文內(nèi)容與正文中引文所在語句組合保存為最終要分析的文本,經(jīng)過數(shù)據(jù)預(yù)處理最終共得到15 936條引用文本數(shù)據(jù)。

    2.4數(shù)據(jù)標(biāo)注通過對預(yù)處理后的數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),引用文本仍然包含各種類型的數(shù)據(jù),因此需要通過人工方式進(jìn)行數(shù)據(jù)標(biāo)注。該工作由標(biāo)注人員完成,其一是具有領(lǐng)域科學(xué)數(shù)據(jù)管理及分析背景的博士;其二是情報(bào)學(xué)專業(yè)博士研究生。在對數(shù)據(jù)進(jìn)行分類標(biāo)注之前,先對二人進(jìn)行了系統(tǒng)培訓(xùn),包括解讀引用目的、類目歸屬方法、標(biāo)注注意事項(xiàng)等。標(biāo)注規(guī)范主要結(jié)合引文對象、數(shù)據(jù)格式、關(guān)鍵詞匯及正文中對數(shù)據(jù)的使用行為進(jìn)行標(biāo)注。如果引文對象為數(shù)據(jù)集,且使用行為包括下載、共享、檢索、獲取等則標(biāo)注為數(shù)據(jù)引用;對于具有使用行為但引文對象不明確的條目,標(biāo)注人員通過訪問URL地址來確定是否為數(shù)據(jù)引用;其他條目,如明確為其他類型引用、URL地址無法訪問、僅為統(tǒng)計(jì)數(shù)字或作為舉例列出等引用條目則不予標(biāo)注。

    在正式進(jìn)行分類之前隨機(jī)選擇1 000條樣本進(jìn)行練習(xí),對其中分類較為模糊的條目進(jìn)行討論并統(tǒng)一,并總結(jié)生物信息學(xué)常用的各類數(shù)據(jù)庫。由于引用文本類型較多,本文將引用文本數(shù)據(jù)分為“科學(xué)數(shù)據(jù)引用”及“非科學(xué)數(shù)據(jù)引用”兩類,從而將科學(xué)數(shù)據(jù)引用識(shí)別轉(zhuǎn)換為一種文本數(shù)據(jù)向量的二分類問題。部分標(biāo)引數(shù)據(jù)如表2所示。

    表2 部分參考文獻(xiàn)分類標(biāo)引數(shù)據(jù)

    標(biāo)引結(jié)果的一致性檢驗(yàn)采用Carletta的Kappa系數(shù)[26],其計(jì)算公式為:

    (1)

    其中,Po代表一致性檢驗(yàn)的觀察值,而Pe代表一致性檢驗(yàn)的期望值,Kappa系數(shù)的取值范圍是[-1,1]。一般情況下,K≥0.61表明分類結(jié)果具有可靠一致性,K≥0.81表明分類結(jié)果具有高度一致性。經(jīng)過對標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算后,一致性檢驗(yàn)的觀察值Po和期望值Pe的值分別為0.95和0.74,代入公式后得到Kappa系數(shù)的值為0.81,表明標(biāo)注結(jié)果具有高度一致性。最終,經(jīng)過對不一致結(jié)果的分析和討論,確定了本文的實(shí)驗(yàn)數(shù)據(jù)集。

    2.5實(shí)驗(yàn)數(shù)據(jù)集經(jīng)過預(yù)處理和數(shù)據(jù)標(biāo)注,本文最終得到由15 936條引用文本構(gòu)成的實(shí)驗(yàn)數(shù)據(jù)集。其中,數(shù)據(jù)引用3 067條,非數(shù)據(jù)引用12 869條。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),2001年到2020年間發(fā)表的38 931篇論文中有1 570篇存在數(shù)據(jù)正式引用,其中最多的一篇論文參考文獻(xiàn)中包含33項(xiàng)數(shù)據(jù)集的引用[27]。對數(shù)據(jù)進(jìn)行正式引用的論文數(shù)量從2009年到2010年間有了一次跨越式增長,一舉從36篇增長到125篇,并在此后一直保持著穩(wěn)定增長的趨勢。論文發(fā)表總數(shù)及具有數(shù)據(jù)正式引用的論文數(shù)量年度分布如圖2所示。

    圖2 論文發(fā)表總數(shù)及具有數(shù)據(jù)正式引用的論文數(shù)量年度分布圖

    2.6文本分類模型本研究采用文本分類任務(wù)常用的8種機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn),以判別機(jī)器學(xué)習(xí)模型在科學(xué)數(shù)據(jù)正式引用識(shí)別任務(wù)中的應(yīng)用效果。

    2.6.1 樸素貝葉斯 樸素貝葉斯是一種基于概率統(tǒng)計(jì)的分類模型,該模型主要利用貝葉斯定理和特征條件獨(dú)立性假設(shè)進(jìn)行分類。首先分別計(jì)算文本中各單詞屬于某一類別的概率,再根據(jù)條件獨(dú)立性假設(shè)最終得到文本屬于某一類別的概率。

    2.6.2 決策樹 決策樹是一種經(jīng)典的用于分類的機(jī)器學(xué)習(xí)模型,該模型首先建立一個(gè)樹形圖,再利用一系列的分類規(guī)則對樣本點(diǎn)進(jìn)行逐層判斷和剪枝,從而最終實(shí)現(xiàn)分類。決策樹具有簡單快速、計(jì)算過程透明等優(yōu)點(diǎn),在分類領(lǐng)域應(yīng)用較為廣泛。

    2.6.3 隨機(jī)森林 隨機(jī)森林是一種集成學(xué)習(xí)模型,它的基本思想是結(jié)合Bagging算法和隨機(jī)子空間方法,以決策樹為基分類器,最終通過組合多個(gè)決策樹來構(gòu)建一個(gè)集成分類器。隨機(jī)森林解決了決策樹的過擬合問題,并且對噪聲和異常值不敏感,能夠有效解決數(shù)據(jù)不平衡問題。

    2.6.4 邏輯回歸 邏輯回歸屬于判別式分類模型,它的基本思想是將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換成對應(yīng)的結(jié)構(gòu)化數(shù)值,將數(shù)據(jù)擬合進(jìn)一個(gè)邏輯函數(shù)來估計(jì)文本屬于某個(gè)類別的概率。邏輯回歸的優(yōu)點(diǎn)是計(jì)算消耗資源少,計(jì)算結(jié)果便于直接觀測樣本概率分布。

    2.6.5 K-近鄰 K-近鄰屬于一種非參數(shù)的分類模型,它的基本原理是對于一個(gè)給定樣本,學(xué)習(xí)模型會(huì)在訓(xùn)練數(shù)據(jù)中找到與其最相近的k個(gè)樣本,最后將k個(gè)近鄰樣本中的大多數(shù)所屬的類別作為該樣本的類別,K-近鄰算法既可以用于二分類問題也可以應(yīng)用于多分類問題。

    2.6.6 隨機(jī)梯度下降 隨機(jī)梯度下降是一種迭代分類模型,它主要用于凸損失函數(shù)下線性分類器的判別式學(xué)習(xí)。該模型可以很好地解決大規(guī)模稀疏數(shù)據(jù)的計(jì)算學(xué)習(xí)問題,在大數(shù)據(jù)文本分類和自然語言處理中應(yīng)用較為廣泛。

    2.6.7 支持向量機(jī) 支持向量機(jī)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的模型,它可以針對有限樣本,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維特征空間,學(xué)習(xí)并最終得到分類決策函數(shù),支持向量機(jī)可以在小樣本訓(xùn)練集上取得較好的分類效果。

    2.6.8 自適應(yīng)增強(qiáng) 自適應(yīng)增強(qiáng)是一種迭代提升模型,它的核心思想是利用集成學(xué)習(xí)技術(shù),針對同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器,再通過融合這些弱分類器構(gòu)成一個(gè)增強(qiáng)的分類器,并將其作為最終的決策分類器。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1實(shí)驗(yàn)方法及評(píng)價(jià)指標(biāo)本實(shí)驗(yàn)采用五折交叉驗(yàn)證,按照4:1的比例通過類型抽樣法將數(shù)據(jù)分為訓(xùn)練集和測試集,二者不含重復(fù)樣本。方法模型分別采用引文文本和引文文本結(jié)合所在句子兩類信息作為輸入,分析比較全文信息對分類結(jié)果的影響。在文本特征表示過程中,采用基于TF-IDF的向量空間模型進(jìn)行文本向量化,通過參數(shù)調(diào)優(yōu)保留在測試集上效果最好的模型結(jié)果。

    評(píng)價(jià)指標(biāo)采用文本分類任務(wù)最常用的精確率(Precision,P)、召回率(Recall,R)和調(diào)和平均值(F1-Meature,F(xiàn)1)作為評(píng)價(jià)指標(biāo),并分別計(jì)算各指標(biāo)的宏平均值(算數(shù)平均值),對各類機(jī)器學(xué)習(xí)模型在文本實(shí)驗(yàn)數(shù)據(jù)集上的計(jì)算結(jié)果進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)的計(jì)算公式為:

    (2)

    (3)

    (4)

    其中,TP表示識(shí)別為某類樣本中正確的樣本數(shù),F(xiàn)P表示識(shí)別為某類樣本中錯(cuò)誤的樣本數(shù),F(xiàn)N表示屬于某類樣本中被識(shí)別為其他類別的樣本數(shù)。

    3.2實(shí)驗(yàn)結(jié)果及分析

    3.2.1 不同模型在引文文本分類識(shí)別上的效果比較 實(shí)驗(yàn)首先利用引文文本進(jìn)行文本分類并進(jìn)行結(jié)果評(píng)價(jià),經(jīng)過分詞后得到文本長度大部分分布在10到60個(gè)詞區(qū)間,分類結(jié)果如表3所示。

    表3 引文文本在不同分類模型中的計(jì)算結(jié)果

    由表3可見,在引文文本自動(dòng)分類任務(wù)中,SVC模型的分類表現(xiàn)最優(yōu),精確率和召回率都能達(dá)到0.8以上,F(xiàn)1值達(dá)到0.829,在所有分類模型中排名最高;SGD模型的表現(xiàn)也較好,F(xiàn)1值達(dá)到0.822,僅次于SVC;LR模型的分類效果不及SVC和SGD模型,但是其取得了較高的精確率,分類效果也較好;NB模型的精確率最高達(dá)到0.875,但召回率也最差,在此類任務(wù)中的效果不夠理想;其余DT、RF、KNN和Adaboost模型在引文文本分類任務(wù)中的效果都較為一般。

    通過結(jié)合錯(cuò)誤分類實(shí)例對分類結(jié)果進(jìn)行更為深入的分析發(fā)現(xiàn),科學(xué)數(shù)據(jù)引用格式不規(guī)范問題是導(dǎo)致引用分類效果不佳的主要原因。由于目前還缺乏統(tǒng)一的數(shù)據(jù)引用標(biāo)準(zhǔn)規(guī)范,論文中的數(shù)據(jù)引用方式仍然較為隨意,大部分的引用以列出數(shù)據(jù)集的URL地址為主。而對于數(shù)據(jù)集的元數(shù)據(jù)信息,如作者、出版時(shí)間、規(guī)范名稱、版本號(hào)等信息均未列出,從引文文本中能夠提取到的特征信息較少。此外,由于訓(xùn)練集和測試集樣本規(guī)模較小,SVC在小樣本分類任務(wù)中的優(yōu)勢體現(xiàn)的較為明顯,而SGD模型的普適性較強(qiáng),在各種規(guī)模數(shù)據(jù)集上都可以取得較好的分類效果。由于數(shù)據(jù)集引用的特征詞如“download”“obtain”等都在正文中才會(huì)得到體現(xiàn),因此下一步的實(shí)驗(yàn)將利用全文信息對數(shù)據(jù)集引用的特征進(jìn)行增強(qiáng)。

    3.2.2 全文信息對文本分類結(jié)果的影響 由于引文文本所能提供的信息十分有限,導(dǎo)致各分類模型中的表現(xiàn)較為一般。為進(jìn)一步提高分類效果,本研究嘗試?yán)萌男畔⒇S富輸入文本,將引文文本結(jié)合其所在語句作為模型輸入進(jìn)行分類計(jì)算。例如,引文文本為“NCBI dataset of human mRNA genes. ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/.”,其所在句為“For simulations we use the dataset of human mRNA genes downloaded from NCBI.”,最終的分類模型輸入文本為“For simulations we use the dataset of human mRNA genes downloaded from NCBI [NCBI dataset of human mRNA genes. ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/].”。經(jīng)過分詞后得到文本長度大部分分布在10到100個(gè)詞區(qū)間,結(jié)合全文信息的引文文本在不同分類模型的計(jì)算結(jié)果如表4所示。

    表4 結(jié)合全文信息的引文文本在不同分類模型的計(jì)算結(jié)果

    由表4可見,經(jīng)過輸入文本優(yōu)化后的分類結(jié)果中,依然以SVC模型的分類表現(xiàn)為最優(yōu),精確率、召回率和F1值都得到了一定的提高,在所有分類模型中仍然排名最高;SGD、KNN、LR模型的分類效果也得到了較為明顯的提升,F(xiàn)1值均超過了0.8;其余分類模型的分類效果也都不同程度的提高,只有NB模型的F1值進(jìn)一步降低。通過深入分析發(fā)現(xiàn)該模型受輸入數(shù)據(jù)的表達(dá)形式和均衡性影響較大,在樣本較少的分類訓(xùn)練結(jié)果中表現(xiàn)較差。按照模型F1值進(jìn)行排序,得到圖3所示的8種模型在利用全文信息優(yōu)化前后的F1值變化對比結(jié)果。

    圖3 利用全文信息優(yōu)化前后F1值變化對比圖

    3.2.3 樣本集數(shù)量對文本分類結(jié)果的影響 由于目前還缺乏可用的數(shù)據(jù)引用標(biāo)注數(shù)據(jù)集,引文文本自動(dòng)分類首先需要利用人工標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練。因此,方法模型在小樣本數(shù)據(jù)下的分類效果也是科學(xué)數(shù)據(jù)引用識(shí)別方法選取的關(guān)鍵。實(shí)驗(yàn)計(jì)算了8種模型從零樣本到全樣本的F1值變化情況,得到了樣本集數(shù)量對文本分類結(jié)果影響變化對比結(jié)果,如圖4所示。

    圖4 樣本集數(shù)量對文本分類結(jié)果影響變化對比圖

    由圖4可見,8種模型在樣本量增加的情況下分類結(jié)果都得到了提升。在樣本量小于3 000的情況下,SGD模型的F1值達(dá)到0.825,超過SVC模型的0.815,并且這種優(yōu)勢一直保持到7 000樣本量的時(shí)候被SVC模型超越,說明SGD模型在小樣本量的情況下就可以得到更好的分類效果。此外, KNN和Adaboost模型在樣本量3 000的時(shí)候F1值也分別達(dá)到0.764和0.757,后續(xù)增長則較為平緩,說明二者在小樣本量的情況也能取得不錯(cuò)的分類效果,但隨樣本量增長得到的分類效果提升較為緩慢。而DT、RF和LR模型受樣本量增長的影響較大,比較適合用于較大規(guī)模樣本的數(shù)據(jù)分類。

    4 結(jié)果討論及展望

    本文針對科學(xué)數(shù)據(jù)正式引用的識(shí)別問題,以生物信息學(xué)領(lǐng)域核心期刊學(xué)術(shù)論文全文信息作為研究對象,利用文本抽取和人工標(biāo)注形成了生物信息學(xué)科學(xué)數(shù)據(jù)正式引用數(shù)據(jù)集。并通過將科學(xué)數(shù)據(jù)引用識(shí)別轉(zhuǎn)化為文本分類問題,對比評(píng)估了機(jī)器學(xué)習(xí)領(lǐng)域8種經(jīng)典分類方法模型在數(shù)據(jù)集上的分類效果。研究結(jié)果表明,SVC和SGD模型在生物信息學(xué)領(lǐng)域科學(xué)數(shù)據(jù)正式引用的識(shí)別效果最優(yōu)、全文信息尤其是引文所在句子對數(shù)據(jù)引用文本分類的提升效果較為明顯、SGD模型在小樣本數(shù)據(jù)上的表現(xiàn)要優(yōu)于SVC模型。

    就全文來看,本研究在科學(xué)數(shù)據(jù)識(shí)別方法上進(jìn)行了有效的嘗試,但也存在一定的局限性。首先,相關(guān)研究領(lǐng)域目前還缺乏可用的權(quán)威數(shù)據(jù)集,本研究雖然通過兩人標(biāo)注并進(jìn)行一致性檢驗(yàn)的方式確定了實(shí)驗(yàn)數(shù)據(jù)集,但由于專業(yè)領(lǐng)域背景和認(rèn)知局限,標(biāo)注結(jié)果難免存在一定的主觀性,還需進(jìn)一步咨詢領(lǐng)域?qū)<彝晟茢?shù)據(jù)集。其次,本研究只涉及了機(jī)器學(xué)習(xí)領(lǐng)域的方法和模型,而近幾年深度學(xué)習(xí)技術(shù)發(fā)展迅速,BERT、XLNet等模型層出不窮并取得了巨大的進(jìn)步,下一步工作中將研究基于深度學(xué)習(xí)的科學(xué)數(shù)據(jù)正式引用識(shí)別方法,以期獲得更優(yōu)的識(shí)別效果。最后,本研究的結(jié)果再次證明科學(xué)數(shù)據(jù)在論文中仍然以提及等非正式引用方式進(jìn)行標(biāo)注,科學(xué)數(shù)據(jù)的正式規(guī)范引用亟待發(fā)展與完善,而這需要首先加大對數(shù)據(jù)引用狀況的識(shí)別研究,提高科技界對數(shù)據(jù)規(guī)范引用的重視,并不斷推動(dòng)科學(xué)數(shù)據(jù)規(guī)范引用規(guī)則的研究與制定,以促進(jìn)科學(xué)數(shù)據(jù)的規(guī)范引用、提高科學(xué)數(shù)據(jù)的價(jià)值、提高科研人員共享和重用數(shù)據(jù)的積極性,這需要科技界的共同努力。

    猜你喜歡
    全文參考文獻(xiàn)分類
    全文中文摘要
    分類算一算
    The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
    全文中文摘要
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    青年再造
    Study on the physiological function and application of γ—aminobutyric acid and its receptors
    東方教育(2016年4期)2016-12-14 13:52:48
    The Review of the Studies of Trilingual Education in inghai
    一进一出抽搐gif免费好疼| av欧美777| 国产欧美日韩一区二区三| 国内毛片毛片毛片毛片毛片| 日本一区二区免费在线视频| 免费观看精品视频网站| 亚洲国产高清在线一区二区三 | 国产亚洲精品第一综合不卡| 国产一区二区激情短视频| 亚洲精华国产精华精| 国产97色在线日韩免费| av电影中文网址| 999久久久国产精品视频| 宅男免费午夜| 欧美成人一区二区免费高清观看 | 欧美午夜高清在线| 日韩高清综合在线| 亚洲国产中文字幕在线视频| 亚洲国产精品合色在线| 国产不卡一卡二| 国产精品精品国产色婷婷| 国产亚洲av嫩草精品影院| 欧洲精品卡2卡3卡4卡5卡区| 黄色成人免费大全| 日本 av在线| 一夜夜www| 欧美日韩福利视频一区二区| 国产欧美日韩一区二区精品| av天堂久久9| 9热在线视频观看99| 亚洲国产精品999在线| 国产精品爽爽va在线观看网站 | 免费不卡黄色视频| 一本综合久久免费| 美女大奶头视频| 天天添夜夜摸| 女人被狂操c到高潮| 可以在线观看毛片的网站| 国产午夜福利久久久久久| 日韩欧美一区二区三区在线观看| 视频在线观看一区二区三区| 亚洲欧洲精品一区二区精品久久久| 亚洲午夜精品一区,二区,三区| 国产野战对白在线观看| 高清黄色对白视频在线免费看| 亚洲免费av在线视频| 看片在线看免费视频| 999精品在线视频| 日韩欧美三级三区| 成年人黄色毛片网站| 亚洲欧洲精品一区二区精品久久久| 国产乱人伦免费视频| 久久狼人影院| 18美女黄网站色大片免费观看| 欧洲精品卡2卡3卡4卡5卡区| 夜夜看夜夜爽夜夜摸| 在线永久观看黄色视频| 人成视频在线观看免费观看| 在线播放国产精品三级| 在线观看66精品国产| 久热这里只有精品99| 国产成人精品无人区| 91麻豆av在线| 变态另类成人亚洲欧美熟女 | 精品国产乱子伦一区二区三区| 精品不卡国产一区二区三区| 亚洲av美国av| 日韩有码中文字幕| 欧美日本视频| 免费少妇av软件| 日本免费a在线| 高清毛片免费观看视频网站| 久久人人爽av亚洲精品天堂| 每晚都被弄得嗷嗷叫到高潮| 亚洲无线在线观看| 国产成人欧美在线观看| 激情在线观看视频在线高清| 日韩欧美三级三区| 免费在线观看黄色视频的| 国产99久久九九免费精品| 性少妇av在线| 可以在线观看毛片的网站| 老汉色∧v一级毛片| 亚洲精品美女久久久久99蜜臀| 亚洲国产欧美一区二区综合| 国产激情久久老熟女| 欧美激情久久久久久爽电影 | 亚洲五月婷婷丁香| 久久午夜亚洲精品久久| 国产成人一区二区三区免费视频网站| 别揉我奶头~嗯~啊~动态视频| 青草久久国产| 亚洲国产精品成人综合色| 欧美在线一区亚洲| 性色av乱码一区二区三区2| 精品国产乱码久久久久久男人| 91精品三级在线观看| 亚洲精品国产精品久久久不卡| 久久久国产精品麻豆| 久久久久久久午夜电影| 1024视频免费在线观看| 最近最新中文字幕大全电影3 | 熟妇人妻久久中文字幕3abv| 一区福利在线观看| 好男人在线观看高清免费视频 | 精品国产亚洲在线| 露出奶头的视频| 日韩一卡2卡3卡4卡2021年| 精品卡一卡二卡四卡免费| 日本五十路高清| 免费看美女性在线毛片视频| 天堂影院成人在线观看| 少妇粗大呻吟视频| 久久久久久国产a免费观看| 人人妻人人澡人人看| 精品卡一卡二卡四卡免费| 国产av在哪里看| 免费高清在线观看日韩| 老司机午夜福利在线观看视频| 久久久久国产精品人妻aⅴ院| 国产精品香港三级国产av潘金莲| 久久九九热精品免费| 亚洲av电影不卡..在线观看| 咕卡用的链子| 国产欧美日韩一区二区三区在线| 宅男免费午夜| 久久久久久久久久久久大奶| e午夜精品久久久久久久| 日本在线视频免费播放| 看黄色毛片网站| 国产精品免费视频内射| 一级a爱片免费观看的视频| 亚洲第一青青草原| 少妇裸体淫交视频免费看高清 | 又黄又爽又免费观看的视频| 97碰自拍视频| 久久久水蜜桃国产精品网| 精品免费久久久久久久清纯| 精品一区二区三区四区五区乱码| 我的亚洲天堂| 九色亚洲精品在线播放| 日韩 欧美 亚洲 中文字幕| 啦啦啦 在线观看视频| 亚洲国产精品久久男人天堂| 麻豆成人av在线观看| 亚洲成av片中文字幕在线观看| 黄色片一级片一级黄色片| 无限看片的www在线观看| 精品人妻在线不人妻| 大香蕉久久成人网| 熟妇人妻久久中文字幕3abv| 91精品三级在线观看| 日本vs欧美在线观看视频| 岛国在线观看网站| 亚洲熟妇熟女久久| 欧美另类亚洲清纯唯美| 91字幕亚洲| or卡值多少钱| 国产aⅴ精品一区二区三区波| 免费在线观看影片大全网站| 免费人成视频x8x8入口观看| 丁香六月欧美| av视频免费观看在线观看| 给我免费播放毛片高清在线观看| 无限看片的www在线观看| 免费av毛片视频| 久久香蕉激情| 在线十欧美十亚洲十日本专区| 国产高清激情床上av| 麻豆国产av国片精品| 好看av亚洲va欧美ⅴa在| 久久精品aⅴ一区二区三区四区| 午夜精品在线福利| 色婷婷久久久亚洲欧美| 国产精品九九99| 久久草成人影院| 日韩中文字幕欧美一区二区| 制服丝袜大香蕉在线| 国产精品永久免费网站| 国产av在哪里看| 最近最新免费中文字幕在线| 国产亚洲精品一区二区www| 久久婷婷人人爽人人干人人爱 | 亚洲第一av免费看| 真人一进一出gif抽搐免费| 91在线观看av| 长腿黑丝高跟| 成人三级做爰电影| 成人国产一区最新在线观看| 又大又爽又粗| 免费在线观看视频国产中文字幕亚洲| 久久精品国产清高在天天线| 首页视频小说图片口味搜索| 女人被躁到高潮嗷嗷叫费观| a级毛片在线看网站| 脱女人内裤的视频| 亚洲激情在线av| 国产成人一区二区三区免费视频网站| 日韩中文字幕欧美一区二区| 欧美成人性av电影在线观看| 国产成人精品久久二区二区免费| 亚洲,欧美精品.| 亚洲人成伊人成综合网2020| 夜夜看夜夜爽夜夜摸| 国产精品精品国产色婷婷| 正在播放国产对白刺激| 欧美在线黄色| 欧美色欧美亚洲另类二区 | 热99re8久久精品国产| 成人国产综合亚洲| 叶爱在线成人免费视频播放| 免费观看精品视频网站| 午夜免费观看网址| 欧美一级毛片孕妇| 黑人巨大精品欧美一区二区蜜桃| 两性夫妻黄色片| 国产伦一二天堂av在线观看| 国产一区二区在线av高清观看| 色av中文字幕| 国产成人欧美| 亚洲av电影在线进入| 久久香蕉激情| 免费观看精品视频网站| 午夜视频精品福利| 日韩av在线大香蕉| 欧美最黄视频在线播放免费| 国产欧美日韩一区二区三| 国内精品久久久久久久电影| 亚洲国产高清在线一区二区三 | 国产亚洲精品久久久久5区| 亚洲天堂国产精品一区在线| 亚洲成人精品中文字幕电影| 亚洲色图 男人天堂 中文字幕| 国产亚洲精品综合一区在线观看 | 亚洲专区字幕在线| 激情在线观看视频在线高清| 黄色 视频免费看| 久久国产精品男人的天堂亚洲| 亚洲久久久国产精品| 99国产综合亚洲精品| 真人一进一出gif抽搐免费| www.熟女人妻精品国产| 两性午夜刺激爽爽歪歪视频在线观看 | 国产亚洲精品第一综合不卡| 人人妻人人爽人人添夜夜欢视频| 电影成人av| 国产麻豆69| 可以在线观看毛片的网站| 国产精品亚洲一级av第二区| 午夜免费观看网址| 91国产中文字幕| 两性午夜刺激爽爽歪歪视频在线观看 | 中文亚洲av片在线观看爽| 制服丝袜大香蕉在线| 99精品在免费线老司机午夜| 在线免费观看的www视频| 精品午夜福利视频在线观看一区| 久久久久亚洲av毛片大全| 久久久久九九精品影院| 九色亚洲精品在线播放| 大型av网站在线播放| 看黄色毛片网站| 美女高潮喷水抽搐中文字幕| 欧美大码av| 国产xxxxx性猛交| 国产精品美女特级片免费视频播放器 | 欧美日韩亚洲综合一区二区三区_| xxx96com| 91麻豆精品激情在线观看国产| 性欧美人与动物交配| ponron亚洲| 18美女黄网站色大片免费观看| 中文字幕精品免费在线观看视频| 国产精品精品国产色婷婷| 中文字幕久久专区| 天堂动漫精品| 淫妇啪啪啪对白视频| 一a级毛片在线观看| 美女 人体艺术 gogo| 亚洲熟女毛片儿| 欧美成人性av电影在线观看| 超碰成人久久| 日本免费a在线| 精品久久久久久久人妻蜜臀av | 美女扒开内裤让男人捅视频| 美女大奶头视频| 国产精品一区二区免费欧美| 一级a爱片免费观看的视频| 三级毛片av免费| 亚洲精品中文字幕在线视频| 禁无遮挡网站| 国产亚洲av高清不卡| 大型av网站在线播放| 国产亚洲精品一区二区www| 欧美激情极品国产一区二区三区| 久久国产精品人妻蜜桃| 欧美午夜高清在线| 级片在线观看| 精品国产美女av久久久久小说| 久久久国产成人精品二区| 日韩免费av在线播放| 久久久久九九精品影院| 国产亚洲精品久久久久久毛片| 狠狠狠狠99中文字幕| 99久久99久久久精品蜜桃| 天堂动漫精品| 天堂影院成人在线观看| 91麻豆精品激情在线观看国产| 校园春色视频在线观看| 国产xxxxx性猛交| 操美女的视频在线观看| 国产亚洲精品第一综合不卡| 欧美丝袜亚洲另类 | 精品无人区乱码1区二区| 黄色 视频免费看| 一区二区三区精品91| 国产精品98久久久久久宅男小说| 色播亚洲综合网| 久久精品亚洲熟妇少妇任你| 午夜亚洲福利在线播放| 成人欧美大片| 久久久久久久午夜电影| 国产成人精品久久二区二区免费| 成人免费观看视频高清| 午夜日韩欧美国产| 亚洲性夜色夜夜综合| 一级毛片精品| 亚洲av日韩精品久久久久久密| 9色porny在线观看| 99热只有精品国产| 久久午夜综合久久蜜桃| 久久天堂一区二区三区四区| 色尼玛亚洲综合影院| 国产精品综合久久久久久久免费 | 亚洲欧美日韩高清在线视频| 一级a爱片免费观看的视频| av超薄肉色丝袜交足视频| 亚洲自偷自拍图片 自拍| 欧美日韩中文字幕国产精品一区二区三区 | 一级a爱视频在线免费观看| 香蕉丝袜av| 麻豆一二三区av精品| 99精品欧美一区二区三区四区| 久久久久精品国产欧美久久久| 日韩精品免费视频一区二区三区| 人妻久久中文字幕网| 午夜免费成人在线视频| 亚洲欧美激情综合另类| 亚洲少妇的诱惑av| 操美女的视频在线观看| 日本五十路高清| 极品人妻少妇av视频| 欧美一区二区精品小视频在线| 欧美色视频一区免费| 欧美亚洲日本最大视频资源| 国产av又大| 国产精品亚洲一级av第二区| 黄片大片在线免费观看| 动漫黄色视频在线观看| 久久性视频一级片| 身体一侧抽搐| 亚洲五月婷婷丁香| 999久久久精品免费观看国产| 18美女黄网站色大片免费观看| 日韩精品中文字幕看吧| 啪啪无遮挡十八禁网站| 成年版毛片免费区| 一个人观看的视频www高清免费观看 | 日韩成人在线观看一区二区三区| 十分钟在线观看高清视频www| 夜夜看夜夜爽夜夜摸| av在线天堂中文字幕| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品免费一区二区三区在线| 1024视频免费在线观看| 欧美大码av| 在线观看免费视频日本深夜| 岛国视频午夜一区免费看| 黄色片一级片一级黄色片| 国产熟女xx| 91成人精品电影| 免费看美女性在线毛片视频| 精品久久久久久成人av| 手机成人av网站| 美女大奶头视频| 老鸭窝网址在线观看| 国产成人啪精品午夜网站| 亚洲最大成人中文| 午夜福利一区二区在线看| 一本久久中文字幕| 天天一区二区日本电影三级 | 午夜免费激情av| 日本免费a在线| 久久精品国产99精品国产亚洲性色 | 女人精品久久久久毛片| 亚洲精品一卡2卡三卡4卡5卡| 亚洲第一av免费看| 嫁个100分男人电影在线观看| 亚洲在线自拍视频| 神马国产精品三级电影在线观看 | 午夜两性在线视频| 啦啦啦 在线观看视频| 精品一区二区三区四区五区乱码| 亚洲一区中文字幕在线| 深夜精品福利| 国产单亲对白刺激| 麻豆成人av在线观看| 国产精品爽爽va在线观看网站 | 国内精品久久久久久久电影| 国产野战对白在线观看| 免费久久久久久久精品成人欧美视频| 国产蜜桃级精品一区二区三区| 在线播放国产精品三级| 免费高清视频大片| 91在线观看av| 精品免费久久久久久久清纯| 少妇 在线观看| 在线观看免费日韩欧美大片| 一区二区三区高清视频在线| 老司机午夜十八禁免费视频| 日韩 欧美 亚洲 中文字幕| 国产精品 欧美亚洲| 黄色女人牲交| 国产在线精品亚洲第一网站| 亚洲无线在线观看| 欧美国产精品va在线观看不卡| 亚洲av熟女| 亚洲欧美日韩另类电影网站| 男人操女人黄网站| 波多野结衣高清无吗| 国产单亲对白刺激| 日韩欧美一区二区三区在线观看| 午夜免费鲁丝| 成人亚洲精品一区在线观看| 99国产精品一区二区三区| 国产成人精品久久二区二区91| 狂野欧美激情性xxxx| 国产在线观看jvid| 美女免费视频网站| 熟女少妇亚洲综合色aaa.| 午夜免费观看网址| 国产成人免费无遮挡视频| 国产精品av久久久久免费| 久久精品亚洲熟妇少妇任你| 十八禁人妻一区二区| 一区二区三区高清视频在线| 国产精品亚洲av一区麻豆| 国产精品香港三级国产av潘金莲| 9色porny在线观看| 国产精品爽爽va在线观看网站 | 亚洲三区欧美一区| 无人区码免费观看不卡| 中文字幕人成人乱码亚洲影| 两个人看的免费小视频| 久久精品人人爽人人爽视色| 超碰成人久久| 黄片大片在线免费观看| 久久欧美精品欧美久久欧美| 午夜福利成人在线免费观看| 欧美激情 高清一区二区三区| 久久 成人 亚洲| 叶爱在线成人免费视频播放| 久热爱精品视频在线9| 好男人在线观看高清免费视频 | 欧美日韩亚洲综合一区二区三区_| 亚洲午夜精品一区,二区,三区| 嫁个100分男人电影在线观看| 午夜精品国产一区二区电影| 精品久久蜜臀av无| 欧美黄色片欧美黄色片| 久久精品国产综合久久久| 欧美在线一区亚洲| 国产精品亚洲一级av第二区| 国产麻豆成人av免费视频| 搡老岳熟女国产| 91大片在线观看| 黄色视频不卡| 超碰成人久久| 国产亚洲av嫩草精品影院| 亚洲av成人不卡在线观看播放网| 婷婷丁香在线五月| 国产精品二区激情视频| 一本综合久久免费| 高清毛片免费观看视频网站| 国产精品影院久久| 欧美国产日韩亚洲一区| 亚洲精品国产精品久久久不卡| 老司机深夜福利视频在线观看| 亚洲精品久久国产高清桃花| 韩国精品一区二区三区| 一卡2卡三卡四卡精品乱码亚洲| 欧美老熟妇乱子伦牲交| 久久久久久久久中文| 久久精品国产亚洲av高清一级| 亚洲成人免费电影在线观看| aaaaa片日本免费| 男女做爰动态图高潮gif福利片 | 在线免费观看的www视频| 国产成人精品久久二区二区免费| 久久久久久久久久久久大奶| 亚洲精品中文字幕在线视频| 可以免费在线观看a视频的电影网站| 国产一卡二卡三卡精品| 热re99久久国产66热| 大型av网站在线播放| 亚洲一区二区三区色噜噜| 最新在线观看一区二区三区| 欧美老熟妇乱子伦牲交| 咕卡用的链子| a在线观看视频网站| 亚洲伊人色综图| 国产精品永久免费网站| 90打野战视频偷拍视频| 少妇 在线观看| 美女 人体艺术 gogo| 久久精品aⅴ一区二区三区四区| 国产精品电影一区二区三区| 日日干狠狠操夜夜爽| 亚洲电影在线观看av| 夜夜夜夜夜久久久久| 少妇被粗大的猛进出69影院| 99国产精品99久久久久| 亚洲五月天丁香| 国产精品综合久久久久久久免费 | 国产男靠女视频免费网站| www.熟女人妻精品国产| 久久久精品欧美日韩精品| 国产精品免费视频内射| 国内精品久久久久久久电影| 久久天堂一区二区三区四区| 欧美乱码精品一区二区三区| 黄片大片在线免费观看| 精品久久久久久,| 久久午夜综合久久蜜桃| 免费看美女性在线毛片视频| 在线观看www视频免费| 国产精品亚洲av一区麻豆| 岛国视频午夜一区免费看| 欧美乱色亚洲激情| 成年人黄色毛片网站| 97人妻精品一区二区三区麻豆 | 日韩国内少妇激情av| 如日韩欧美国产精品一区二区三区| 欧美av亚洲av综合av国产av| 高潮久久久久久久久久久不卡| 亚洲欧美一区二区三区黑人| 999精品在线视频| 精品日产1卡2卡| 91精品三级在线观看| 色婷婷久久久亚洲欧美| 操出白浆在线播放| 久久婷婷人人爽人人干人人爱 | 国产黄a三级三级三级人| 亚洲天堂国产精品一区在线| 99国产精品一区二区三区| 久久人妻福利社区极品人妻图片| 韩国av一区二区三区四区| 久久中文字幕人妻熟女| 免费在线观看视频国产中文字幕亚洲| 欧美成人性av电影在线观看| 午夜激情av网站| 日韩高清综合在线| 麻豆久久精品国产亚洲av| 黄色片一级片一级黄色片| 国产亚洲精品第一综合不卡| 91麻豆av在线| 国产蜜桃级精品一区二区三区| 久久国产精品人妻蜜桃| 在线天堂中文资源库| 中文字幕高清在线视频| 少妇裸体淫交视频免费看高清 | 国产精品,欧美在线| 高潮久久久久久久久久久不卡| 亚洲中文av在线| 国产成人精品久久二区二区免费| 少妇裸体淫交视频免费看高清 | 少妇裸体淫交视频免费看高清 | 啦啦啦韩国在线观看视频| 亚洲aⅴ乱码一区二区在线播放 | 老汉色∧v一级毛片| 亚洲男人的天堂狠狠| 亚洲狠狠婷婷综合久久图片| 动漫黄色视频在线观看| 成熟少妇高潮喷水视频| 国产成人精品在线电影| 亚洲中文字幕日韩| 可以免费在线观看a视频的电影网站| 日韩三级视频一区二区三区| 亚洲欧美精品综合一区二区三区| av片东京热男人的天堂| 亚洲熟妇中文字幕五十中出| 国产精品国产高清国产av| 很黄的视频免费| 亚洲久久久国产精品| 午夜激情av网站| 国产97色在线日韩免费| 久久久水蜜桃国产精品网| 亚洲专区国产一区二区| 成人国语在线视频| 久久香蕉国产精品| 午夜两性在线视频| 色av中文字幕| 日韩视频一区二区在线观看| 亚洲精品中文字幕在线视频| 国产精品 欧美亚洲| 91av网站免费观看| 午夜精品国产一区二区电影| 91大片在线观看| 男女下面插进去视频免费观看| 韩国精品一区二区三区| 精品一区二区三区av网在线观看| av网站免费在线观看视频| 久久人人精品亚洲av| 中文字幕av电影在线播放| 十八禁人妻一区二区|