• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    依據(jù)《中國(guó)圖書館分類法》的英文圖書分類探索

    2023-02-10 06:28:38蔣彥廷
    關(guān)鍵詞:中國(guó)圖書館分類法中圖法主題詞表

    蔣彥廷

    北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第1期 2023年1月

    Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)

    10.13209/j.0479-8023.2022.070

    2022-05-13;

    2022-08-03

    依據(jù)《中國(guó)圖書館分類法》的英文圖書分類探索

    蔣彥廷1,2

    1.四川省水文水資源勘測(cè)中心, 成都 610036; 2.中共金堂縣委黨校, 成都 610400; E-mail: jiangyanting@mail.bnu.edu.cn

    針對(duì)帶有中圖分類號(hào)的英文圖書數(shù)據(jù)量小以及類別不平衡的問題, 將圖情領(lǐng)域的文本增強(qiáng)策略(《美國(guó)國(guó)會(huì)圖書館分類法》到《中國(guó)圖書館分類法》的類目映射方法和基于中-英文平行的《漢語主題詞表》的語義增強(qiáng)方法)與一般領(lǐng)域文本增強(qiáng)策略(向原始英文文本插入標(biāo)點(diǎn)或連詞)相結(jié)合, 旨在增強(qiáng)模型泛化能力。實(shí)驗(yàn)表明, 綜合后的策略能有效地提高模型在測(cè)試集的表現(xiàn), 正確率和宏 F1 值分別上升 3.61 和 3.35 個(gè)百分點(diǎn), 效果優(yōu)于其他單一的文本增強(qiáng)方法。最后, 通過 BERT 詞向量可視化與詞語信息熵計(jì)算, 分析出豐富的鄰近詞和語法上的連綴功能是插入標(biāo)點(diǎn)或連詞方法有效的原因。

    預(yù)訓(xùn)練語言模型; 中國(guó)圖書館分類法; 類目映射; 漢語主題詞表; 文本增強(qiáng)

    書籍是承載人類知識(shí)思想的重要載體。近年來, 中國(guó)進(jìn)口、加工外文圖書的規(guī)模相當(dāng)可觀。在紙質(zhì)圖書方面, 截至 2022 年 7 月, 中國(guó)圖書進(jìn)出口(集團(tuán))有限公司累計(jì)采選海外圖書超過 184 萬種, 月均新增超萬種[1]。北京大學(xué)圖書館 2022 年上半年加工編目的外文新書約 9800 冊(cè)[2]。

    外文圖書的進(jìn)口給國(guó)內(nèi)圖書館或文獻(xiàn)數(shù)據(jù)庫(kù)的加工編目帶來挑戰(zhàn)[3]。與中文圖書相比, 外文圖書分類編目難度更大。第一個(gè)原因, 外文圖書分類編目對(duì)工作人員的外語水平和對(duì)具體領(lǐng)域的熟悉度都有較高的要求。第二個(gè)原因, 國(guó)內(nèi)外圖書分類體系有差異: 國(guó)內(nèi)大部分書店、圖書館、電子書網(wǎng)站參考《中國(guó)圖書館分類法》(簡(jiǎn)稱《中圖法》)給圖書分類。大部分中文圖書在版權(quán)頁(yè)已初步標(biāo)注《中圖法》分類號(hào)(簡(jiǎn)稱中圖分類號(hào)), 大大減輕了圖書分類編目的負(fù)擔(dān)。然而許多英語國(guó)家出版的圖書并未采用《中圖法》進(jìn)行分類。

    基于上述背景, 本文利用預(yù)訓(xùn)練語言模型BERT (bidi-rectional encoder representations from transformers), 結(jié)合圖書情報(bào)(圖情)領(lǐng)域與一般領(lǐng)域的文本增強(qiáng)方法, 對(duì)依據(jù)《中圖法》的英文圖書分類工作進(jìn)行探索, 以期方便讀者索書查閱, 提高外文圖書的利用率和使用效益, 優(yōu)化圖書編目與知識(shí)管理。

    1 相關(guān)工作

    1.1 國(guó)內(nèi)外英文圖書分類情況

    國(guó)內(nèi)外代表性圖書館和文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站的英文圖書分類情況如表 1 所示?!吨袌D法》是新中國(guó)編制出版的圖書資料分類體系, 至 2012 年已經(jīng)出版第五版簡(jiǎn)本[4], 包括 22 個(gè)一級(jí)類目①http://www.ztflh.com, 250 多個(gè)二級(jí)類乃至更多的細(xì)目?!睹绹?guó)國(guó)會(huì)圖書館分類法》(Lib-rary of Congress Classification, 簡(jiǎn)稱《國(guó)會(huì)圖書分類法》)是美國(guó)國(guó)會(huì)圖書館設(shè)計(jì)的資料分類法, 將知識(shí)分為 21 個(gè)基本大類②https://www.loc.gov/catdir/cpso/lcco/?!吨袊?guó)科學(xué)院圖書館圖書分類法》簡(jiǎn)稱《科圖法》 , 1958 年出版第 1 版, 采用阿拉伯?dāng)?shù)字為類目的標(biāo)記符號(hào), 包括 25 個(gè)大類和更多的小類?!抖磐M(jìn)制分類法》(Dewey De-cimal Classification, 簡(jiǎn)稱《杜威分類法》)③https://www.britannica.com/science/Dewey-Decimal-Classification由美國(guó)圖書館專家麥爾威·杜威發(fā)明, 以 3位數(shù)字作為分類碼的開頭, 將知識(shí)分為 10 個(gè)大類, 至 2004 年已出版至第 22 版。

    調(diào)查發(fā)現(xiàn), 首先, 在圖書管理實(shí)務(wù)中, 中國(guó)內(nèi)地的大多數(shù)圖書館與文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站都依據(jù)《中圖法》給英文圖書編目。一些機(jī)構(gòu)雖然兼用多種分類法, 但在給英文圖書編制索書號(hào)時(shí), 仍主要參考《中圖法》, 在數(shù)據(jù)庫(kù)機(jī)讀目錄(Machine-Readable Catalogue, MARC)中將其他分類號(hào)作為次要字段。第二, 《國(guó)會(huì)圖書分類法》除在美國(guó)廣泛使用外, 在新加坡、中國(guó)的香港和臺(tái)灣的大學(xué)圖書館中也有<所應(yīng)用。第三, 英國(guó)和中國(guó)香港的部分圖書館采用《杜威分類法》。< p>所應(yīng)用。第三,

    中國(guó)內(nèi)地主要采用《中圖法》給外文圖書分類原因之一是《中圖法》類目詳盡, 基本涵蓋知識(shí)的各領(lǐng)域, 并與時(shí)俱進(jìn)?!吨袌D法》還設(shè)置“互見分類號(hào)”, 例如隸屬“C 社科總論”的“C8 統(tǒng)計(jì)學(xué)”與“O1數(shù)學(xué)”下轄的“O212 數(shù)理統(tǒng)計(jì)”。雙語對(duì)照的讀物按前一種語言歸類, 按后一種語言做互見分類[4]。作為樹形分類結(jié)構(gòu), 互見分類能較好地表示跨學(xué)科、交叉學(xué)科知識(shí)。此外, 《中圖法》還有 L, M, W 和 Y四個(gè)一級(jí)類目的字母沒有使用, 為未來新興學(xué)科領(lǐng)域留有空間[5]。另一個(gè)原因是中外文圖書采用統(tǒng)一的分類號(hào), 能提升檢索效率, 為科技查新、追蹤考察國(guó)外科學(xué)進(jìn)展夯實(shí)基礎(chǔ)。最后, 實(shí)體書店與圖書館通常在圖書分類號(hào)的基礎(chǔ)上編制索書號(hào)。依據(jù)《中圖法》編制索書號(hào), 能方便工作人員上架圖書, 也方便讀者查找圖書, 減輕熟悉兩套圖書分類法的記憶負(fù)擔(dān)。

    1.2 主題詞表相關(guān)研究

    主題詞表又稱敘詞表, 是一種闡釋某學(xué)科領(lǐng)域相關(guān)術(shù)語的語義詞典, 是實(shí)現(xiàn)信息智能檢索的重要資源[6]。國(guó)內(nèi)規(guī)模較大的主題詞表有兩部: 《中國(guó)分類主題詞表》[7]與《漢語主題詞表》。后者 1980年問世, 2009 年由中國(guó)科學(xué)技術(shù)信息研究所重編, 包括工程技術(shù)、自然科學(xué)、生命科學(xué)、社會(huì)科學(xué)四部分。截至 2022 年 7 月初, 《漢語主題詞表》在線服務(wù)系統(tǒng)發(fā)布術(shù)語詞條 131400 個(gè)[8]。大部分詞條由號(hào)組成, 部分術(shù)語還涉及多個(gè)中圖分類號(hào)。國(guó)際上, 著名的主題標(biāo)題表有美國(guó)的《國(guó)會(huì)圖書館主題詞表》(Library of Congress Subject Headings, LCSH)[9]和《醫(yī)學(xué)主題詞表》(Medical Subject Headings, MeSH)[10]等。

    表1 國(guó)內(nèi)外代表性圖書館、文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站采用的英文圖書分類體系

    ④ 據(jù) 2022 年 7 月初的調(diào)研結(jié)果, 浙江圖書館圖書頁(yè)面顯示分類法為《科圖法》, 但實(shí)際標(biāo)注的分類號(hào)依據(jù)的是《中圖法》。

    1.3 基于機(jī)器學(xué)習(xí)的文獻(xiàn)分類技術(shù)

    包括圖書、論文以及專利文檔在內(nèi)的文獻(xiàn)分類是文本分類技術(shù)中的特殊領(lǐng)域。在算法模型方面, 支持向量機(jī)(SVM)[11]、膠囊神經(jīng)網(wǎng)絡(luò)[12]、決策樹(DT)[13]、長(zhǎng)短期記憶(LSTM)[14]、BERT 以及預(yù)訓(xùn)練模型及其改進(jìn)版[15–16]已應(yīng)用到圖書或論文的分類任務(wù)中。在分類標(biāo)簽方面, 可以分為單標(biāo)簽與多標(biāo)簽分類[15]。在文獻(xiàn)語種與分類號(hào)方面, 目前按照《中圖法》對(duì)中文文獻(xiàn)分類的研究較豐富, 相關(guān)在線服務(wù)平臺(tái)[8,17]也得以建設(shè), 也有依據(jù)《國(guó)會(huì)圖書分類法》[18]、《杜威十進(jìn)制分類法》[13]和 Web of Science 網(wǎng)站學(xué)科分類體系[12]對(duì)英文文獻(xiàn)分類的探索。目前, 涉及跨分類法、跨文獻(xiàn)語種問題的探索還較少。

    1.4 文本數(shù)據(jù)增強(qiáng)技術(shù)

    在數(shù)據(jù)稀疏的情況下, 采取文本增強(qiáng)(data aug-mentation for text)技術(shù)有助于生成訓(xùn)練文本的近似樣本, 避免過擬合, 提高文本分類的效果。文本增強(qiáng)包括回譯、隨機(jī)刪詞、詞序打亂、基于靜態(tài)或動(dòng)態(tài)詞向量的詞匯替換[19–20]、適量噪聲注入[21]、同類文本交叉重組[22]、引入詞匯釋義[23]、強(qiáng)化學(xué)習(xí)[24]以及文本復(fù)述[25]等方法。依據(jù)特定分類法的圖書分類是較為特殊的領(lǐng)域, 該領(lǐng)域的文本增強(qiáng)方法還有待探索。

    2 英文文獻(xiàn)分類與文本增強(qiáng)策略框架

    根據(jù)中英文圖書論文的分類經(jīng)驗(yàn)[14,18], 當(dāng)每個(gè)文本的輸入字段為書名和若干反映主題的關(guān)鍵詞時(shí), 分類效果基本上達(dá)到最佳水平。由于文本較長(zhǎng), 圖書簡(jiǎn)介字段中非關(guān)鍵信息較多, 對(duì)分類的貢獻(xiàn)不明顯, 也不利于模型訓(xùn)練收斂。因此, 我們使用基于圖的 TextRank 關(guān)鍵詞提取方法[26], 首先從圖書簡(jiǎn)介文本中提取權(quán)重靠前的若干關(guān)鍵詞, 與書名一起作為訓(xùn)練數(shù)據(jù)。

    在分類方法方面, 本文基于 BERT 預(yù)訓(xùn)練模型④https://huggingface.co/bert-base-uncased, 結(jié)合全連接神經(jīng)網(wǎng)絡(luò)(FCN)分類器, 實(shí)現(xiàn)中圖法一級(jí)分類號(hào) B 到 X 的 20 類文獻(xiàn)分類。將支持向量機(jī)(SVM)模型、隨機(jī)森林(random forests, RF)模型、Fasttext 模型[27]、基于 114 萬篇英文文獻(xiàn)預(yù)訓(xùn)練的 SCI-BERT 模型⑤https://huggingface.co/allenai/scibert_scivocab_uncased和蒸餾輕量化的 DistilBERT模型⑥https://huggingface.co/distilbert-base-uncased作為基線模型。由于 BERT 等預(yù)訓(xùn)練模型會(huì)采用 Wordpiece 算法[28], 將英文單詞切分為子詞(subword), 因此我們只在文本輸入非預(yù)訓(xùn)練模型前, 使用 NLTK 工具庫(kù)⑦h(yuǎn)ttps://www.nltk.org/api/nltk.stem.porter.html將單詞詞干化。

    本文提出的的英文文獻(xiàn)分類與文本增強(qiáng)策略框架如圖1所示。

    圖1 英文圖書分類與文本增強(qiáng)策略框架

    2.1 圖情領(lǐng)域文本增強(qiáng) 1

    從《國(guó)會(huì)圖書館分類法》到《中圖法》類目映射(classification mapping), 擴(kuò)充分類效果較差的類別文本。類目映射是使不同圖書文獻(xiàn)分類體系關(guān)聯(lián)起來的過程, 通常以不同體系間分類號(hào)對(duì)應(yīng)規(guī)則的形式表現(xiàn)。如果一冊(cè)英文圖書帶有其他體系的分類號(hào), 通過既有的映射規(guī)則, 外文圖書的其他分類號(hào)也能轉(zhuǎn)化為中圖分類號(hào)。但由于每種分類法層次復(fù)雜, 不同的分類法在編制原則、體系側(cè)重點(diǎn)和類目顆粒度等方面存在差異, 所以只能得到粗略的不全面的類目映射結(jié)果[29]。另外, 并非所有英文圖書都預(yù)先標(biāo)注了其他體系的分類號(hào)。因此, 類目映射單一方法稍顯力不從心。

    我們將類目映射視為文本增強(qiáng)的一種手段, 在得到原始文本分類結(jié)果的基礎(chǔ)上, 通過類目映射, 擴(kuò)充分類效果較差的類別的文本。類目映射的源文本采集自“古登堡”網(wǎng)站⑧https://www.gutenberg.org/ebooks/。每一個(gè)文本都包含圖書的標(biāo)題、關(guān)鍵詞和《國(guó)會(huì)圖書分類法》的分類號(hào)。映射規(guī)則參考蔣彥廷等[30]構(gòu)建并開放的 106 條中從《國(guó)會(huì)圖書分類法》到《中圖法》的單向映射規(guī)則, 部分規(guī)則如表2所示。

    通過上述類目映射方法, 我們將古登堡項(xiàng)目網(wǎng)站 19870 冊(cè)英文圖書的《國(guó)會(huì)圖書分類法》分類號(hào)轉(zhuǎn)換為中圖分類號(hào), 作為文本增強(qiáng)的備用數(shù)據(jù)。

    2.2 圖情領(lǐng)域文本增強(qiáng) 2

    基于《漢語主題詞表》的語義增強(qiáng)。如 1.2 節(jié)所述, 《漢語主題詞表》(簡(jiǎn)稱《主題詞表》)大部分詞條由漢語術(shù)語、英語翻譯和中圖分類號(hào)組成, 部分術(shù)語還涉及多個(gè)中圖分類號(hào)。我們從漢語主題詞表服務(wù)網(wǎng)站[8]采集各學(xué)科領(lǐng)域詞條共 11886 個(gè)。對(duì)于訓(xùn)練集與測(cè)試集中的文本, 如果出現(xiàn)上述的英文術(shù)語, 就在該文本中補(bǔ)充一個(gè)特定的主題詞, 表示中圖分類號(hào)的含義。補(bǔ)充的單詞一般是中圖分類號(hào)一級(jí)大類英譯的關(guān)鍵詞, 例如分類號(hào) C 補(bǔ)充 so-cial, 分類號(hào) D 補(bǔ)充單詞political, 分類號(hào) E 補(bǔ)充單詞 military, 分類號(hào) F 補(bǔ)充 economy, 分類號(hào) G 補(bǔ)充culture, 分類號(hào) H 補(bǔ)充 language, 分類號(hào) I 補(bǔ)充lite-rature, 分類號(hào) J 補(bǔ)充 art, 分類號(hào) K 補(bǔ)充 history, 分類號(hào) N 補(bǔ)充 natural, 分類號(hào) O 補(bǔ)充 math, 分類號(hào) P補(bǔ)充 astronomy, 分類號(hào) Q 補(bǔ)充 biology , 分類號(hào) R補(bǔ)充 medical, 分類號(hào) S 補(bǔ)充 agriculture, 分類號(hào) T補(bǔ)充 industry, 分類號(hào) U 補(bǔ)充 transport, 分類號(hào) V 補(bǔ)充 aviation, 分類號(hào) X 補(bǔ)充 environment。如果一個(gè)術(shù)語涉及多個(gè)中圖分類號(hào)一級(jí)大類, 則添加多個(gè)對(duì)應(yīng)的主題詞。

    2.3 一般領(lǐng)域文本增強(qiáng)

    隨機(jī)插入標(biāo)點(diǎn)或連詞。前兩項(xiàng)依據(jù)類目映射、主題詞表的增強(qiáng)策略適用于圖書情報(bào)這一特定領(lǐng)域, 一般領(lǐng)域的文本增強(qiáng)可以推廣到其他領(lǐng)域。受 Karimi 等[21]啟發(fā), 一般領(lǐng)域文本增強(qiáng)策略的具體步驟如下: 對(duì)于單詞數(shù)為的文本, 隨機(jī)插入 0.3(向下取整)個(gè)符號(hào), 符號(hào)從集合={".", ";", "?", ":", "!", ","}或={and, or, so, but, as, since}中隨機(jī)選擇。前者的元素均為英文的標(biāo)點(diǎn)符號(hào), 后者的元素為實(shí)義較弱的連詞。將隨機(jī)插入標(biāo)點(diǎn)符號(hào)的文本作為新樣本加入訓(xùn)練集, 比較它與如下 6 種文本增強(qiáng)策略的效果。

    1)機(jī)器翻譯回譯: 我們選用基于 transformer 架構(gòu)的兩個(gè)機(jī)器翻譯模型, 分別為 opus-mt-en-zh⑨https://huggingface.co/Helsinki-NLP/opus-mt-en-zh(英譯中, 1.41 GB)和 opus-mt-zh-en⑩https://huggingface.co/Helsinki-NLP/opus-mt-zh-en(中譯英, 852MB)。采用“英→中→英”回譯路徑, 生成近似文本。

    表2 美國(guó)《國(guó)會(huì)圖書分類法》到《中圖法》的類目映射表

    2)隨機(jī)打亂文本詞序: 每個(gè)文本隨機(jī)打亂詞語順序, 合成新文本。

    3)基于 word2vec 詞向量的近義詞替換: 預(yù)訓(xùn)練詞向量來自用 105MB 圖書標(biāo)題簡(jiǎn)介語料訓(xùn)練的詞向量項(xiàng)目?https://github.com/JiangYanting/Pretrained_gensim_word2vec。對(duì)于每個(gè)單詞數(shù)為的文本, 隨機(jī)選中 0.1(向上取整)個(gè)詞語(除部分連詞、介詞和冠詞等停用詞), 利用詞向量模型, 計(jì)算與詞語相似度最高的另一個(gè)詞語1。用詞語1替換, 生成新文本。

    4)基于 WordNet 的近義詞替換: 方法與基于word2vec 詞向量的近義詞替換方法類似, 只是在查找近義詞時(shí), 使用 WordNet 知識(shí)庫(kù)?https://wordnet.princeton.edu, 從單詞的Synonym set 中隨機(jī)選擇一個(gè)近義詞1, 用詞語1替換, 生成新文本。

    5)基于 BERT 遮罩語言模型的新詞隨機(jī)插入: 利用 BERT 的遮蔽語言模型(masked language mo-del, MLM)機(jī)制, 對(duì)于單詞數(shù)為的原文本, 隨機(jī)將每個(gè)文本中 0.1(向上取整)個(gè)詞替換為[MASK]符號(hào), 使 BERT-base-uncased 模型完成完形填空任務(wù), 預(yù)測(cè)出可能的候選詞。為了不缺損原有信息, 將文本還原, 并在其末尾插入 MLM 預(yù)測(cè)的新詞語。若向上取整的 0.1大于 1, 則多次遮蔽原文本的單詞, 并預(yù)測(cè)新詞。

    6)隨機(jī)插入其他種類的標(biāo)點(diǎn)或其他詞性的功能詞: 將上述集合中的逗號(hào)、句號(hào)和問號(hào)替換為左括號(hào)、單引號(hào)和雙引號(hào)。將集合中的連詞替換為助動(dòng)詞、介詞、冠詞和代詞等其他實(shí)義較弱的語法詞。將其隨機(jī)插入文本中, 生成新的訓(xùn)練樣本。

    3 實(shí)驗(yàn)結(jié)果與分析

    已標(biāo)注的中圖分類號(hào)的英文圖書實(shí)驗(yàn)數(shù)據(jù)來自北京師范大學(xué)圖書館公開的《外文圖書選購(gòu)目錄》。圖書領(lǐng)域涵蓋從“B 哲學(xué)”到“X 環(huán)境、安全科學(xué)”共 20 類。為保證數(shù)據(jù)平衡, 對(duì)于圖書超過 2000冊(cè)的學(xué)科領(lǐng)域, 從中隨機(jī)抽取 2000 冊(cè)。對(duì)于不足2000 冊(cè)圖書的領(lǐng)域, 將該領(lǐng)域的所有圖書信息納入實(shí)驗(yàn)數(shù)據(jù)。最終, 除 V 航空航天、U 交通運(yùn)輸、N 自科總論和 E 軍事 4 類圖書數(shù)量分別為 684, 833, 562 和 1430 冊(cè)(少于 2000 冊(cè))外, 其余 16 類圖書數(shù)量均為 2000 冊(cè)。數(shù)據(jù)集共包含 35509 冊(cè)圖書。

    如 1.1 節(jié)所述, 北京師范大學(xué)圖書館公開的外文圖書選購(gòu)目錄下, 每?jī)?cè)圖書沒有標(biāo)引關(guān)鍵詞和主題詞。因此如圖 1 所示, 我們采用 TextRank 方法, 從簡(jiǎn)介文本中提取出若干關(guān)鍵詞, 與書名字段一起作為輸入模型的文本。按 20%的比例, 從 35509 冊(cè)文獻(xiàn)中劃分出測(cè)試集 7102 冊(cè)。測(cè)試集中各類文獻(xiàn)數(shù)量的比例與訓(xùn)練集一致。在文本增強(qiáng)過程中, 我們只擴(kuò)充訓(xùn)練和驗(yàn)證集, 測(cè)試集始終不變。

    3.1 基于原始數(shù)據(jù)集的實(shí)驗(yàn)

    我們將每?jī)?cè)文獻(xiàn)的標(biāo)題和關(guān)鍵詞作為輸入模型的文本。實(shí)驗(yàn)所用的 GPU 為一塊 RTX 2080Ti, Cuda 版本為 10.2。各模型參數(shù)設(shè)置如下: 支持向量機(jī)的種類為線性 SVM; 隨機(jī)森林的分類樹數(shù)量上限為 200; Fasttext 模型詞向量維數(shù)為 300, 學(xué)習(xí)率為0.1, N-gram 參數(shù)為 2-gram, 損失函數(shù)為Softmax。3種預(yù)訓(xùn)練模型的初始學(xué)習(xí)率均為 2×10–5, batch size為 32, 從訓(xùn)練集中切分出驗(yàn)證集的比例為 10%。模型均采用早停策略, 訓(xùn)練到損失(loss)在驗(yàn)證集上不再下降為止。測(cè)試集上的正確率(Acc)和宏 F1 (Macro- F1)分?jǐn)?shù)表現(xiàn)如表 3 所示。

    從表 3 可以發(fā)現(xiàn), 首先, 無論文本預(yù)處理時(shí)是否詞干化, 基于一元語法的 Random Forests 和 SVM的分類效果都比較差, 而 Fasttext 模型在詞干化后, Acc 與 Macro-F1 有所提升, 但是與 BERT 等預(yù)訓(xùn)練模型相比仍有差距。其次, 在 3 個(gè)預(yù)訓(xùn)練模型中, BERT-base-uncased 均取得最佳效果。壓縮蒸餾的 DistilBERT 雖然模型大小只有 BERT-base-uncased的約 60%, 但其表現(xiàn)與后者相差無幾。SCI-BERT雖然曾在 114 萬篇英文論文語料上預(yù)訓(xùn)練, 但其表現(xiàn)不及另外兩個(gè)預(yù)訓(xùn)練模型。我們推測(cè)有如下兩這方面的原因。第一, SCI-BERT 的預(yù)訓(xùn)練論文的分布不平衡。SCI-BERT 的 114 萬篇預(yù)訓(xùn)練論文, 有18%來自計(jì)算機(jī)科學(xué), 其余 82%來自生物醫(yī)學(xué)領(lǐng)域, 缺乏其他領(lǐng)域的語料[31]。在各類的 F1 值表現(xiàn)方面, SCI-BERT 也只有 O 數(shù)理類、T 工業(yè)技術(shù)類和 Q 生物科學(xué)類超過 BERT-base-uncased, 其余類別的表現(xiàn)皆低于 BERT-base-uncased。第二, 用于預(yù)訓(xùn)練的論文, 其風(fēng)格與圖書數(shù)據(jù)集中的標(biāo)題和簡(jiǎn)介語體不盡相同?;?BERT-base-uncased 模型分類時(shí), 各類的 F1 分?jǐn)?shù)如圖 2 所示。

    表3 基于原始文獻(xiàn)數(shù)據(jù)的分類實(shí)驗(yàn)結(jié)果(%)

    由圖 2 可以發(fā)現(xiàn), 首先, 在數(shù)據(jù)總規(guī)模均為2000 冊(cè)的情況下, H 語言文字、S 農(nóng)業(yè)、O 數(shù)理科學(xué)和化學(xué)的分類表現(xiàn)較好。U 交通運(yùn)輸和 E 軍事類的圖書雖然分別只有 833 和 1430 冊(cè), 但仍居分類效果前五位。第二, D 政治法律、T 工業(yè)技術(shù)、C 社科總論和 K 歷史地理四類雖然各有 2000 冊(cè)圖書的數(shù)據(jù), 但分類的 F1 分?jǐn)?shù)均低于 70%, 說明它們的圖書主題較為廣泛和分散, 達(dá)到相同分類效果需要比其他類別更多的訓(xùn)練數(shù)據(jù)。第三, N 自科總論的分類效果最不理想, 一方面是由于數(shù)據(jù)量不足造成(N類圖書僅 562 冊(cè), 另一方面也有該類本身定位和特征的因素: 自然科學(xué)總論是對(duì)具體各類自然科學(xué)門類的抽象綜合和概述, 還涉及科學(xué)技術(shù)史、系統(tǒng)科學(xué)和非線性科學(xué), 不可避免地與 O, P, Q 和 X 等具體門類存在千絲萬縷的關(guān)系, 導(dǎo)致分類難度較大。

    在文本增強(qiáng)實(shí)驗(yàn)中, 我們繼續(xù)使用表現(xiàn)最佳的BERT-base-uncased 模型。從表 4 可以看出, BERT- base-uncased 模型的效果隨圖書簡(jiǎn)介關(guān)鍵詞個(gè)數(shù)的變化而變化。當(dāng)關(guān)鍵詞在 20 個(gè)以上時(shí), 效果提升不再明顯。因此在后續(xù)實(shí)驗(yàn)中, 我們用 TextRank 從每?jī)?cè)圖書簡(jiǎn)介里提取最多 20 個(gè)關(guān)鍵詞, 與書名一起作為輸入文本。

    3.2 類目映射和《主題詞表》語義增強(qiáng)的實(shí)驗(yàn)

    基于圖情領(lǐng)域文本增強(qiáng) 1 方法, 我們將 19870冊(cè)英文圖書的《國(guó)會(huì)圖書分類法》分類號(hào)轉(zhuǎn)換為中圖一級(jí)分類號(hào), 并從中提取分類效果較弱的 K 歷史地理、C 社科總論、T 工業(yè)技術(shù)、D 政治法律和 Q生物科學(xué)等 10 類共 3465 冊(cè)英文圖書的信息, 補(bǔ)充到訓(xùn)練集中。基于圖情領(lǐng)域文本增強(qiáng) 2 方法, 我們利用中英平行的《主題詞表》, 搜尋匹配訓(xùn)練集、驗(yàn)證集和測(cè)試集中的術(shù)語, 給術(shù)語所在的文本增添《中圖法》大類的關(guān)鍵詞, 在不增添新訓(xùn)練樣本的條件下, 增強(qiáng)原始數(shù)據(jù)集中各文本的語義信息。表5 列出 BERT 在文本增強(qiáng)后的效果優(yōu)化情況。

    由表 5 可知, 經(jīng)由類目映射擴(kuò)充弱勢(shì)類以及《主題詞表》語義增強(qiáng)后, 圖書分類的結(jié)果均有所上升。專門擴(kuò)充效果較差的弱勢(shì)類, 宏 F1 值上升較為明顯, 類別不平衡問題有所緩解。如果直接將19870 冊(cè)類目映射后的圖書信息全部加入訓(xùn)練集, 分類的表現(xiàn)反而下滑。這可能是由于 19870 冊(cè)圖書中, I 文學(xué)類占絕大多數(shù)(15575 冊(cè)), 而文學(xué)類的分類效果相對(duì)較強(qiáng), 大規(guī)模擴(kuò)充強(qiáng)勢(shì)類別的文本, 會(huì)加劇數(shù)據(jù)不平衡, 淹沒弱勢(shì)類文本擴(kuò)充的效果。

    圖2 基于BERT的各類別文獻(xiàn)分類的F1分?jǐn)?shù)

    表4 基于BERT的分類效果隨TextRank提取的關(guān)鍵詞個(gè)數(shù)變化情況(%)

    3.3 隨機(jī)插入標(biāo)點(diǎn)或連詞策略與其他策略的對(duì)比

    我們使用文本隨機(jī)插入標(biāo)點(diǎn)方法, 給每個(gè)文本生成一個(gè)新文本, 使整個(gè)訓(xùn)練集規(guī)模擴(kuò)大一倍, 同時(shí)比較其余 6 種文本增強(qiáng)方法的效果。實(shí)驗(yàn)結(jié)果如表 6 所示。

    由表 6 可知, 第一, 在 11 種策略里, 隨機(jī)插入標(biāo)點(diǎn)的策略 6 表現(xiàn)最佳, 正確率與宏 F1 值分別提升2.14 和 2.34 個(gè)百分點(diǎn), 優(yōu)于機(jī)器翻譯回譯方法、詞序隨機(jī)交換方法、基于 BERT 的 MLM 新詞插入方法以及基于 word2vec 或 WordNet 的近義詞替換方法。策略 7 中, 將插入文本的逗號(hào)、句號(hào)和問號(hào)改為左括號(hào)、雙引號(hào)和單引號(hào)后的效果卻有所下降。第二, 在近義詞替換的策略方面, 基于 WordNet 的方法優(yōu)于基于 word2vec 詞向量的方法。這里由于WordNet 作為人工構(gòu)建的知識(shí)庫(kù), 對(duì)近義詞的選取比詞向量更加嚴(yán)格精準(zhǔn)。第三, 在隨機(jī)插入一些意義較虛的語法詞的策略方面, 隨插入詞性的不同, 總體效果呈現(xiàn)出連詞最佳, 冠詞代詞與介詞次之, 助動(dòng)詞最差的情況。其中, 向文本隨機(jī)插入連詞的策略 8 的效果與策略 6 相差無幾。

    在類目映射擴(kuò)充弱勢(shì)類文本的基礎(chǔ)上, 通過策略 6 隨機(jī)插入標(biāo)點(diǎn)和策略 8 隨機(jī)插入連詞, 使訓(xùn)練集和驗(yàn)證集文本總數(shù)達(dá)到 95616, 變?yōu)樵瓉淼?3倍。最后, 查找每個(gè)文本存在于《主題詞表》的學(xué)科術(shù)語, 增強(qiáng)每個(gè)文本的語義。模型在測(cè)試集上的正確率和宏 F1 值分別達(dá)到 76.84%和 76.41%, 比文本增強(qiáng)前(表 4 關(guān)鍵詞數(shù)目為 20)分別提升 3.61 和3.35 個(gè)百分點(diǎn)。

    向原文本隨機(jī)插入標(biāo)點(diǎn)或連詞的策略較為簡(jiǎn)便, 其表現(xiàn)卻超越基于模型、算法、知識(shí)庫(kù)的其他文本增強(qiáng)方法, 我們認(rèn)為這與 BERT 模型中這些字符/詞的初始表示有關(guān)。本文提取 BERT 模型頂層的若干詞語和字符的 768 維向量, 通過主成分分析降至2 維投影至平面, 結(jié)果如圖 3 所示。

    表5 類目映射和《主題詞表》語義增強(qiáng)后的效果上升幅度

    表6 一般領(lǐng)域的文本增強(qiáng)策略效果比較

    由圖 3 可知, 無論是標(biāo)點(diǎn)符號(hào), 還是連詞、介詞、助動(dòng)詞和冠詞等一些語法詞, 其向量表示與“math”“medical”“military”“geography”等與特定學(xué)科關(guān)聯(lián)緊密的主題詞界限明顯, 句號(hào)、問號(hào)、分號(hào)和感嘆號(hào)等標(biāo)點(diǎn)與學(xué)科主題詞的距離尤其遠(yuǎn), 意味著其向量表示與具體的學(xué)科主題無關(guān)?;谟⑽木S基百科等海量語料, 在 BERT 完型填空式的預(yù)訓(xùn)練階段, 標(biāo)點(diǎn)和功能詞也參與預(yù)訓(xùn)練, 但由于標(biāo)點(diǎn)符號(hào)和語法詞缺乏實(shí)義, 與它們共現(xiàn)的詞語種類眾多, 分布規(guī)律不明顯。我們采集 909MB 的維基百科語料為樣本, 統(tǒng)計(jì)部分字符與詞語相鄰的字符/詞頻次(“相鄰”界定在左右各 3 個(gè)詞的范圍內(nèi)), 并依據(jù)每個(gè)字符/詞所鄰接字符詞的頻率分布情況, 計(jì)算其信息熵(information entropy)并降序排列, 結(jié)果如表 7 所示。

    從表 7 可以看出, 除單雙引號(hào)外, 大多數(shù)標(biāo)點(diǎn)符號(hào)、連詞和助動(dòng)詞的相鄰字詞種類和信息熵都高于“economy”“math”“l(fā)inguistics”等反映特定學(xué)科領(lǐng)域的詞語。在標(biāo)點(diǎn)符號(hào)方面, 逗號(hào)、句號(hào)和問號(hào)的信息熵明顯高于左括號(hào)、單引號(hào)和雙引號(hào), 從而解釋了表 6 中策略 6 的效果優(yōu)于策略 7 的原因: 前三者作為適量的噪聲信息, 鄰接字符/詞分布更加復(fù)雜, 不確定性更強(qiáng)。后三者中的單雙引號(hào)往往成對(duì)出現(xiàn), 且常與“say”等表示說話的單詞共現(xiàn), 意味著前三者的向量表示比后三者更加中立, 無偏向。

    圖3 來自 BERT-base-uncased 頂層的字詞向量可視化示意圖

    表7 部分字詞的相鄰字詞與信息熵統(tǒng)計(jì)

    在語法詞方面, 對(duì)比表 6 中策略 8 與策略 10 可知, 隨機(jī)插入連詞的策略明顯優(yōu)于隨機(jī)插入助動(dòng)詞, 但在表 7 中, 6 個(gè)連詞的信息熵并不總高于 4 個(gè)助動(dòng)詞。我們認(rèn)為這可以從語法的角度解釋: 根據(jù)Zhou 等[32]對(duì) BERT 的探針(probing)實(shí)驗(yàn), 即使在不微調(diào)(fine-tune)參數(shù)的情況下, 模型在詞性標(biāo)注任務(wù)中已能取得超過 93%的正確率, 十分接近微調(diào)的表現(xiàn)。因此, BERT 在相當(dāng)程度上學(xué)習(xí)了單詞的詞性和語法信息。如果向文本隨機(jī)插入助動(dòng)詞、冠詞和介詞, 則文本產(chǎn)生主謂不一致、動(dòng)詞連用、語法角色錯(cuò)誤以及搭配不合語法的概率較大。連詞的主要功能是在詞與詞、短語與短語、句子與句子之間起連綴作用, 尤其在本文中用 TextRank 提取了若干關(guān)鍵詞的情況下, 在關(guān)鍵詞之間插入連詞對(duì)文本原本語法結(jié)構(gòu)的擾動(dòng)相對(duì)較小, 造成嚴(yán)重語法錯(cuò)誤的可能性較低。另外, 連詞的相鄰字詞種類和信息熵指標(biāo)都不低, 表 6 中插入連詞的文本增強(qiáng)效果優(yōu)于插入其他語法詞的現(xiàn)象也在一定程度上得以解釋。

    4 總結(jié)

    本文通過對(duì)圖書館和文獻(xiàn)數(shù)據(jù)庫(kù)的實(shí)際調(diào)研, 基于預(yù)訓(xùn)練語言模型 BERT, 結(jié)合圖書情報(bào)(圖情)領(lǐng)域與一般領(lǐng)域的文本增強(qiáng)方法, 針對(duì)面向《中圖法》的英文圖書自動(dòng)分類進(jìn)行探索。首先利用TextRank 從圖書簡(jiǎn)介中提取關(guān)鍵詞, 與書名一起作為輸入, 然后在 BERT 文本分類模型下, 對(duì)比多種文本增強(qiáng)方法, 證明了圖情領(lǐng)域的類目映射、《主題詞表》語義增強(qiáng)與一般領(lǐng)域的標(biāo)點(diǎn)和連詞隨機(jī)插入策略的有效性。綜合上述 4 種文本增強(qiáng)策略, 模型在測(cè)試集上的正確率和宏 F1 值分別提升 3.61和 3.35 個(gè)百分點(diǎn)。插入分布情況多樣、信息熵較高的標(biāo)點(diǎn)符號(hào)和連詞, 可在不造成文本語法嚴(yán)重錯(cuò)誤的情況下, 為文本提供語義均衡的適量的噪聲信息, 從而防止文本分類模型過擬合, 改進(jìn)模型的表現(xiàn)。

    在未來的工作中, 我們計(jì)劃擴(kuò)大數(shù)據(jù)集規(guī)模, 結(jié)合更多種類的文本增強(qiáng)方法, 以期進(jìn)一步優(yōu)化英文圖書的中圖分類號(hào)自動(dòng)標(biāo)注效果。

    致謝感謝中國(guó)電子科技集團(tuán)第十研究所提供服務(wù)器支持。

    [1]中國(guó)圖書進(jìn)出口(集團(tuán))總公司. 海外圖書采選系統(tǒng)[EB/OL]. (2022–07–03) [2022–07–17]. https://www. cnpbook.com/

    [2]北京大學(xué)圖書館. 新書通報(bào)[EB/OL] (2022–06–29)[2022–07–09]. http://newbooks.lib.pku.edu.cn/index.jsp

    [3]曹曉寬. 如何提高英文圖書分類標(biāo)引的效率. 農(nóng)業(yè)圖書情報(bào)學(xué)刊, 2009, 21(8): 74–78

    [4]中國(guó)圖書館分類法編輯委員會(huì). 中國(guó)圖書館分類法簡(jiǎn)本. 5 版. 北京: 國(guó)家圖書館出版社, 2012

    [5]周沫. 《中圖法(第五版)》在西文編目中的應(yīng)用與發(fā)展. 江蘇科技信息, 2011(7): 51–53

    [6]李景, 錢平. 敘詞表與本體的區(qū)別與聯(lián)系. 中國(guó)圖書館學(xué)報(bào), 2004, 30(1): 38–41

    [7]中國(guó)圖書館分類法編輯委員會(huì). 《中國(guó)圖書館分類法》[EB/OL]. (2010–03–17) [2022–07–11]. http:// clc.nlc.cn/ztfzfbgk.jsp

    [8]中國(guó)科學(xué)技術(shù)信息研究所. 《漢語主題詞表》服務(wù)系統(tǒng)[EB/OL]. (2017–01–01) [2022–07–09]. https:// ct.istic.ac.cn/site/organize/word

    [9]The Library of Congress. Introduction to library of congress subject headings [EB/OL]. (2011–04–26)[2022–07–09]. https://id.loc.gov/authorities/subjects. html

    [10]邊釗, 唐娉, 閆珺. 關(guān)鍵詞規(guī)范化對(duì)文獻(xiàn)主題信息挖掘的影響——以遙感領(lǐng)域?yàn)槔? 中國(guó)科技期刊研究, 2021, 32(12): 1535–1548

    [11]王昊, 嚴(yán)明, 蘇新寧. 基于機(jī)器學(xué)習(xí)的中文書目自動(dòng)分類研究. 中國(guó)圖書館學(xué)報(bào), 2010, 36(6): 28–39

    [12]倪斌, 陸曉蕾, 童逸琦, 等. 膠囊神經(jīng)網(wǎng)絡(luò)在期 刊文本分類中的應(yīng)用. 南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2021, 57(5): 750–756

    [13]De Luca E, Fallucchi F, Morelato R. Teaching an algorithm how to catalog a book. Computers, 2021, 10(11): No. 155

    [14]鄧三鴻, 傅余洋子, 王昊. 基于 LSTM 模型的中文圖書多標(biāo)簽分類研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017, 1(7): 52–60

    [15]蔣彥廷, 胡韌奮. 基于 BERT 模型的圖書表示學(xué)習(xí)與多標(biāo)簽分類研究. 新世紀(jì)圖書館, 2020(9): 38–44

    [16]李湘東, 石健, 孫倩茹, 等. 基于 BERT-MLDFA 的內(nèi)容相近類目自動(dòng)分類研究——以《中圖法》E271和 E712.51 為例. 數(shù)字圖書館論壇, 2022(2): 18–25

    [17]張智雄, 趙旸, 劉歡. 構(gòu)建面向?qū)嶋H應(yīng)用的科技 文獻(xiàn)自動(dòng)分類引擎[J/OL]. 中國(guó)圖書館學(xué)報(bào), 2022[2022–08–03]. http://kns.cnki.net/kcms/detail/11.2746. G2.20220624.1437.002.html

    [18]Frank E, Paynter G. Predicting library of congress classifications from library of congress subject hea-dings. Journal of the American Society for Information Science and Technology, 2004, 55(3): 214–227

    [19]Wei J, Zou K. EDA: easy data augmentation tech-niques for boosting performance on text classification tasks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, Hong Kong, 2019: 6382–6388

    [20]Wu X, Lv S, Zang L, et al. Conditional BERT contex-tual augmentation [EB/OL]. (2018–12–17)[2022–08–03]. https://arxiv.org/abs/1812.06705v1

    [21]Karimi A, Rossi L, Prati A. AEDA: an easier data augmentation technique for text classification // Pro-ceedings of the 2021 Conference on Empirical Me-thods in Natural Language Processing. Punta Cana, 2021: 2748–2754

    [22]Luque F M. Atalaya at TASS 2019: data augmentation and robust embeddings for sentiment analysis [EB/ OL]. (2019–09–25) [2022–08–03]. https://arxiv.org/ abs/1909.11241

    [23]張衛(wèi), 王昊, 陳玥彤, 等. 融合遷移學(xué)習(xí)與文本增強(qiáng)的中文成語隱喻知識(shí)識(shí)別與關(guān)聯(lián)研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2022, 6(Z1): 167–183

    [24]Ren S, Zhang J, Li L, et al. Text autoaugment: learning compositional augmentation policy for text classification // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Proces-sing (EMNLP 2021). Punta Cana, 2021: 9029–9043

    [25]Zhang B, Sun W, Wan X, et al. PKU paraphrase bank: a sentence-level paraphrase corpus for Chinese // CCF International Conference on Natural Language Pro-cessing and Chinese Computing, Dunhuang, 2019: 814–826

    [26]Mihalcea R, Tarau P. TextRank: bringing order into text // Proceedings of Empirical Methods in Natural Language Processing. Barcelona, 2004: 404–411

    [27]Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification [EB/OL]. (2016–08–09) [2022–08–03]. https://arxiv.org/abs/1607.01759

    [28]Schuster M, Nakajima K. Japanese and Korean voice search // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, 2012: 5149–5152

    [29]童劉奕, 張鵬翼. 《中國(guó)圖書館分類法》和《美國(guó)國(guó)會(huì)圖書館圖書分類法》人工映射分析與差異性探究. 數(shù)字圖書館論壇, 2018(3): 53–58

    [30]蔣彥廷, 吳鈺潔. 英文文獻(xiàn)的《中圖法》分類號(hào)自動(dòng)標(biāo)注研究——基于文本增強(qiáng)與類目映射策略. 數(shù)字圖書館論壇, 2022(5): 39–46

    [31]Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP- IJCNLP). HongKong, 2019: 3615–3620

    [32]Zhou Y, Srikumar V. A closer look at how fine-tuning changes BERT // Proceedings of the 60th Annual Meeting of the Association for Computational Ling-uistics. Dublin, 2022: 1046–1061

    English Books Automatic Classification According to CLC

    JIANG Yanting1,2

    1. Sichuan Hydrological and Water Resources Survey Center, Chengdu 610036; 2. CPC Party School of Jintang County, Chengdu 610400; E-mail: jiangyanting@mail.bnu.edu.cn

    Faced with lacking of English books annotated with CLC (Chinese Library Classification) label and imbalance data, this paper combines augmentation strategies from library, information and general fields: 1) classification mapping from Library of Congress Classification (LCC) to CLC; 2) semantic enhancement based on Chinese-English parallel thesaurus; 3) punctuation or 4) conjunction inserting to initial texts. Experiments show that combining 4 strategies can optimize the performance of models on test set. Accuracy and Macro-F1 respectively increase by 3.61 and 3.35 percentage points. Comprehensive methods is superior to other text enhancement strategies. By BERT word embeddings visualization and words information entropy computing, this paper inferred that the reason why punctuation or conjunction inserting works was the various adjacent words and connection function in grammar.

    pre-trained language models; Chinese Library Classification; classification mapping; Chinese thesaurus; text augmentation.

    猜你喜歡
    中國(guó)圖書館分類法中圖法主題詞表
    《〈漢語主題詞表〉構(gòu)建研究》
    《〈漢語主題詞表〉構(gòu)建研究》
    《〈漢語主題詞表〉構(gòu)建研究》
    《〈漢語主題詞表〉構(gòu)建研究》
    對(duì)《中國(guó)圖書館分類法》(第五版)F經(jīng)濟(jì)類目修訂的探討
    圖書館公安文獻(xiàn)分類研究
    中文信息(2016年4期)2016-06-23 00:28:32
    《中國(guó)圖書館分類法》(第5版)修訂與主題詞對(duì)應(yīng)分析
    圖書館界(2015年4期)2016-02-27 11:55:53
    《中國(guó)圖書館分類法》
    知識(shí)圖譜視角下《中國(guó)圖書館分類法》研究演進(jìn)與思考
    《中圖法》與《中分表》修訂信息(連載3)
    免费av观看视频| 日本 av在线| 99在线人妻在线中文字幕| 久久6这里有精品| 99久久精品国产亚洲精品| 日韩欧美国产在线观看| 国产精品1区2区在线观看.| 亚洲国产精品999在线| 久久久久久大精品| 久9热在线精品视频| 久久国产精品人妻蜜桃| 午夜两性在线视频| www.色视频.com| 久久久久久久精品吃奶| 久久久国产成人精品二区| 国产伦精品一区二区三区四那| 在线天堂最新版资源| 久久亚洲精品不卡| 亚洲av第一区精品v没综合| 欧美色欧美亚洲另类二区| 真人做人爱边吃奶动态| 精品一区二区三区人妻视频| 久久精品影院6| 亚洲最大成人手机在线| 久久久精品大字幕| 一区二区三区高清视频在线| 床上黄色一级片| 免费观看的影片在线观看| 国产精品 欧美亚洲| 亚洲一区二区三区不卡视频| 午夜福利18| 国产一区二区三区在线臀色熟女| 免费在线观看亚洲国产| 国产亚洲精品av在线| 午夜福利高清视频| 亚洲精品日韩av片在线观看 | netflix在线观看网站| 亚洲人成网站高清观看| 日本在线视频免费播放| 精品日产1卡2卡| 一本精品99久久精品77| 精品久久久久久久人妻蜜臀av| 亚洲国产精品合色在线| 国产极品精品免费视频能看的| 日本五十路高清| 国产精品久久久久久精品电影| 哪里可以看免费的av片| 精品久久久久久久毛片微露脸| 午夜福利在线观看吧| 久久久久性生活片| 男女那种视频在线观看| 欧美+日韩+精品| 国产男靠女视频免费网站| 综合色av麻豆| 色视频www国产| 91九色精品人成在线观看| 亚洲精品在线观看二区| 国产黄色小视频在线观看| 性欧美人与动物交配| 欧美+日韩+精品| 国产成人系列免费观看| 免费搜索国产男女视频| 天堂影院成人在线观看| 老汉色∧v一级毛片| 欧美黑人欧美精品刺激| 51国产日韩欧美| 真人做人爱边吃奶动态| 一级a爱片免费观看的视频| 18禁美女被吸乳视频| 首页视频小说图片口味搜索| 免费无遮挡裸体视频| 久久亚洲精品不卡| 午夜福利在线观看吧| 精品人妻一区二区三区麻豆 | 香蕉丝袜av| 国产69精品久久久久777片| 国产伦在线观看视频一区| 午夜影院日韩av| 国内毛片毛片毛片毛片毛片| 蜜桃久久精品国产亚洲av| 波野结衣二区三区在线 | 久久精品国产99精品国产亚洲性色| 久久精品亚洲精品国产色婷小说| 欧美bdsm另类| 禁无遮挡网站| 看片在线看免费视频| 成人国产一区最新在线观看| 久久久精品欧美日韩精品| 国产日本99.免费观看| 欧美+日韩+精品| 日韩 欧美 亚洲 中文字幕| 男女视频在线观看网站免费| 亚洲人成网站高清观看| 悠悠久久av| 免费观看人在逋| 久久午夜亚洲精品久久| 亚洲av中文字字幕乱码综合| 免费看a级黄色片| 在线观看美女被高潮喷水网站 | 在线播放国产精品三级| 在线观看66精品国产| 久久中文看片网| 1024手机看黄色片| 特级一级黄色大片| 丰满的人妻完整版| 成人av在线播放网站| 少妇的逼水好多| 精品人妻1区二区| 我要搜黄色片| 99久久精品国产亚洲精品| 免费看光身美女| 久久精品夜夜夜夜夜久久蜜豆| 午夜福利在线观看吧| 精品久久久久久久久久免费视频| 日韩免费av在线播放| 舔av片在线| 久久精品国产99精品国产亚洲性色| 婷婷亚洲欧美| 免费av毛片视频| 免费观看的影片在线观看| 可以在线观看毛片的网站| 神马国产精品三级电影在线观看| 免费人成视频x8x8入口观看| 九色国产91popny在线| 麻豆久久精品国产亚洲av| 女生性感内裤真人,穿戴方法视频| 国产中年淑女户外野战色| 国产伦在线观看视频一区| 在线观看一区二区三区| 两个人视频免费观看高清| 色av中文字幕| 国内精品美女久久久久久| 欧美性猛交黑人性爽| 两人在一起打扑克的视频| 岛国在线观看网站| 亚洲精品美女久久久久99蜜臀| 国产麻豆成人av免费视频| 国产伦在线观看视频一区| 日本 av在线| 久久午夜亚洲精品久久| 免费看光身美女| 午夜免费观看网址| 一级黄片播放器| 少妇熟女aⅴ在线视频| 国产蜜桃级精品一区二区三区| 一本一本综合久久| 熟妇人妻久久中文字幕3abv| www.色视频.com| 亚洲人成电影免费在线| 国内精品一区二区在线观看| 久久精品影院6| 国产视频内射| 亚洲av二区三区四区| 日本精品一区二区三区蜜桃| 又爽又黄无遮挡网站| 免费av不卡在线播放| 亚洲18禁久久av| 精品无人区乱码1区二区| 国产精品99久久久久久久久| 人人妻,人人澡人人爽秒播| 久久久久久久午夜电影| 成年人黄色毛片网站| 少妇的丰满在线观看| 国内精品久久久久精免费| 三级男女做爰猛烈吃奶摸视频| 欧美av亚洲av综合av国产av| 久久久久久大精品| 在线观看日韩欧美| 高潮久久久久久久久久久不卡| 国内精品一区二区在线观看| 国产真实伦视频高清在线观看 | 又紧又爽又黄一区二区| 丰满的人妻完整版| 久久久色成人| 亚洲国产精品合色在线| 久久久国产精品麻豆| 人妻久久中文字幕网| 一区二区三区激情视频| 亚洲七黄色美女视频| 九色国产91popny在线| av天堂在线播放| 欧美成人a在线观看| 国产精品电影一区二区三区| 久久精品夜夜夜夜夜久久蜜豆| 麻豆国产av国片精品| 国产成+人综合+亚洲专区| 在线视频色国产色| 成年人黄色毛片网站| 一区二区三区国产精品乱码| 久久精品国产清高在天天线| 狂野欧美激情性xxxx| 国产精品久久久久久久电影 | aaaaa片日本免费| 一个人看视频在线观看www免费 | 国产精品国产高清国产av| 久久久成人免费电影| 丝袜美腿在线中文| 久久久国产成人免费| 舔av片在线| 51国产日韩欧美| 成人永久免费在线观看视频| 中文字幕人成人乱码亚洲影| 久久天躁狠狠躁夜夜2o2o| svipshipincom国产片| av天堂中文字幕网| 精品国产美女av久久久久小说| 毛片女人毛片| 麻豆一二三区av精品| 国产真实伦视频高清在线观看 | 手机成人av网站| 亚洲,欧美精品.| 99在线视频只有这里精品首页| 99热精品在线国产| 少妇熟女aⅴ在线视频| 亚洲电影在线观看av| 18禁国产床啪视频网站| 成人无遮挡网站| 最近最新中文字幕大全电影3| 一级黄色大片毛片| 香蕉av资源在线| 18禁裸乳无遮挡免费网站照片| 国产欧美日韩精品一区二区| 亚洲激情在线av| 亚洲欧美激情综合另类| 一进一出抽搐gif免费好疼| 亚洲av熟女| 成人一区二区视频在线观看| 国产91精品成人一区二区三区| 两人在一起打扑克的视频| 亚洲中文字幕日韩| 欧美在线一区亚洲| 亚洲无线观看免费| 国产一区二区亚洲精品在线观看| 久久国产精品人妻蜜桃| 在线观看一区二区三区| 国产成人av教育| 国产视频一区二区在线看| 欧美一区二区亚洲| a级一级毛片免费在线观看| 在线观看一区二区三区| 性欧美人与动物交配| 两个人的视频大全免费| 性色avwww在线观看| 无限看片的www在线观看| 一二三四社区在线视频社区8| 熟女少妇亚洲综合色aaa.| 午夜福利高清视频| 好男人在线观看高清免费视频| 手机成人av网站| 一个人免费在线观看的高清视频| 一级毛片女人18水好多| 免费电影在线观看免费观看| 国产精品一区二区三区四区免费观看 | 国内毛片毛片毛片毛片毛片| 麻豆一二三区av精品| 91麻豆精品激情在线观看国产| 夜夜夜夜夜久久久久| 日本黄大片高清| 99久久无色码亚洲精品果冻| 99国产精品一区二区三区| 亚洲精品粉嫩美女一区| 制服人妻中文乱码| 婷婷六月久久综合丁香| 欧美成人免费av一区二区三区| 伊人久久大香线蕉亚洲五| 嫁个100分男人电影在线观看| 又黄又粗又硬又大视频| 精品久久久久久久毛片微露脸| 99热这里只有是精品50| 色吧在线观看| 国内久久婷婷六月综合欲色啪| 欧美日本亚洲视频在线播放| av女优亚洲男人天堂| av天堂中文字幕网| 嫩草影院入口| 欧美激情久久久久久爽电影| 国产三级黄色录像| 女人被狂操c到高潮| 麻豆一二三区av精品| 色综合欧美亚洲国产小说| 亚洲欧美日韩东京热| 久久国产乱子伦精品免费另类| 欧美日韩乱码在线| 亚洲精品456在线播放app | 欧美zozozo另类| 国产aⅴ精品一区二区三区波| 身体一侧抽搐| 中文字幕熟女人妻在线| 亚洲精品456在线播放app | 女人被狂操c到高潮| 国语自产精品视频在线第100页| 亚洲,欧美精品.| 国产成人av教育| 999久久久精品免费观看国产| 少妇裸体淫交视频免费看高清| 国产av麻豆久久久久久久| 美女黄网站色视频| 久久人妻av系列| 男女下面进入的视频免费午夜| xxxwww97欧美| 老熟妇仑乱视频hdxx| a在线观看视频网站| 手机成人av网站| 男女之事视频高清在线观看| 无限看片的www在线观看| 淫秽高清视频在线观看| 日韩欧美在线乱码| 噜噜噜噜噜久久久久久91| 国产精品电影一区二区三区| 亚洲av免费在线观看| 丰满人妻熟妇乱又伦精品不卡| 91av网一区二区| 国产日本99.免费观看| 国内少妇人妻偷人精品xxx网站| 午夜福利视频1000在线观看| 午夜两性在线视频| 国产成人影院久久av| 精品福利观看| 久久天躁狠狠躁夜夜2o2o| 久久久久国产精品人妻aⅴ院| 欧美性感艳星| 亚洲无线观看免费| 在线观看美女被高潮喷水网站 | 亚洲av二区三区四区| 日日干狠狠操夜夜爽| 亚洲一区二区三区不卡视频| 少妇裸体淫交视频免费看高清| 9191精品国产免费久久| 国产亚洲欧美在线一区二区| 久久久久久久久中文| 成年女人永久免费观看视频| 小蜜桃在线观看免费完整版高清| 一个人免费在线观看的高清视频| 亚洲国产欧美网| 亚洲国产欧美人成| 成人精品一区二区免费| 午夜福利免费观看在线| 久久精品国产综合久久久| 欧美一区二区国产精品久久精品| 久久久久久久久中文| 琪琪午夜伦伦电影理论片6080| 啦啦啦韩国在线观看视频| 亚洲熟妇中文字幕五十中出| 可以在线观看毛片的网站| 国产av不卡久久| 怎么达到女性高潮| 亚洲国产欧美人成| 日韩欧美在线乱码| 免费看美女性在线毛片视频| 亚洲欧美日韩东京热| 国产伦人伦偷精品视频| 在线十欧美十亚洲十日本专区| 国产黄色小视频在线观看| 国产成+人综合+亚洲专区| 99国产综合亚洲精品| 免费av观看视频| 国产精品爽爽va在线观看网站| 丁香六月欧美| 日韩欧美三级三区| 国产在视频线在精品| 久久这里只有精品中国| 午夜久久久久精精品| 久久久成人免费电影| 高清在线国产一区| 亚洲av免费在线观看| 日本一本二区三区精品| 国产黄a三级三级三级人| 中文字幕久久专区| 亚洲av日韩精品久久久久久密| 波多野结衣巨乳人妻| 久久精品综合一区二区三区| 欧美日本视频| 性色av乱码一区二区三区2| 两性午夜刺激爽爽歪歪视频在线观看| а√天堂www在线а√下载| 两性午夜刺激爽爽歪歪视频在线观看| 欧美zozozo另类| 成年版毛片免费区| 99riav亚洲国产免费| 国产视频一区二区在线看| a在线观看视频网站| 成人特级黄色片久久久久久久| 国产亚洲av嫩草精品影院| 网址你懂的国产日韩在线| 母亲3免费完整高清在线观看| 婷婷精品国产亚洲av| 中亚洲国语对白在线视频| 在线观看66精品国产| 性色avwww在线观看| 夜夜看夜夜爽夜夜摸| 亚洲av免费高清在线观看| 亚洲一区二区三区色噜噜| 国产精品嫩草影院av在线观看 | 免费在线观看日本一区| 一个人免费在线观看的高清视频| 搞女人的毛片| 日日干狠狠操夜夜爽| 成年版毛片免费区| 亚洲五月婷婷丁香| 在线观看av片永久免费下载| 亚洲精品久久国产高清桃花| 久久精品亚洲精品国产色婷小说| 九九热线精品视视频播放| 高潮久久久久久久久久久不卡| www日本黄色视频网| 桃色一区二区三区在线观看| 每晚都被弄得嗷嗷叫到高潮| 一边摸一边抽搐一进一小说| 国产乱人伦免费视频| 搡老妇女老女人老熟妇| 99久久99久久久精品蜜桃| 九色成人免费人妻av| xxx96com| 亚洲,欧美精品.| 亚洲不卡免费看| 欧美+亚洲+日韩+国产| 男人和女人高潮做爰伦理| 国产老妇女一区| 精品免费久久久久久久清纯| 国产欧美日韩精品一区二区| 久久99热这里只有精品18| 国产麻豆成人av免费视频| 日本成人三级电影网站| 日本a在线网址| 小蜜桃在线观看免费完整版高清| 黄片小视频在线播放| 亚洲人成网站在线播| 午夜福利在线在线| tocl精华| 麻豆成人av在线观看| 在线观看美女被高潮喷水网站 | 熟女少妇亚洲综合色aaa.| 欧美又色又爽又黄视频| 久久久色成人| 麻豆成人av在线观看| 亚洲av熟女| 久久精品亚洲精品国产色婷小说| 午夜福利免费观看在线| 可以在线观看毛片的网站| 国产成年人精品一区二区| 国产av一区在线观看免费| 亚洲精品成人久久久久久| 99精品久久久久人妻精品| 欧美日韩综合久久久久久 | 九九在线视频观看精品| 欧美黑人巨大hd| 免费看光身美女| 免费观看人在逋| 国产熟女xx| 中文字幕熟女人妻在线| 亚洲在线观看片| 五月玫瑰六月丁香| 夜夜躁狠狠躁天天躁| 18禁国产床啪视频网站| 国内久久婷婷六月综合欲色啪| 3wmmmm亚洲av在线观看| 久久久国产成人精品二区| 男人舔奶头视频| 青草久久国产| 国产精品国产高清国产av| 精品久久久久久久毛片微露脸| e午夜精品久久久久久久| 精品一区二区三区人妻视频| 免费看十八禁软件| 一个人看的www免费观看视频| 欧美zozozo另类| 成人高潮视频无遮挡免费网站| 欧美性猛交╳xxx乱大交人| 色综合婷婷激情| 国产一区二区在线av高清观看| 色综合婷婷激情| 亚洲欧美日韩卡通动漫| 成人特级黄色片久久久久久久| 亚洲成人久久爱视频| 国产成人系列免费观看| 真实男女啪啪啪动态图| 精品久久久久久久毛片微露脸| 色老头精品视频在线观看| 十八禁人妻一区二区| 两个人的视频大全免费| www国产在线视频色| 高清日韩中文字幕在线| 成人精品一区二区免费| 国产精品久久久久久人妻精品电影| 熟女电影av网| 美女 人体艺术 gogo| 色噜噜av男人的天堂激情| 国产在线精品亚洲第一网站| 极品教师在线免费播放| 在线观看66精品国产| 亚洲成人久久爱视频| 精华霜和精华液先用哪个| 亚洲天堂国产精品一区在线| 噜噜噜噜噜久久久久久91| 白带黄色成豆腐渣| 99精品久久久久人妻精品| 91av网一区二区| 在线播放国产精品三级| 久久久久久大精品| 国产精品1区2区在线观看.| 成人av在线播放网站| 91av网一区二区| 日本一本二区三区精品| 俄罗斯特黄特色一大片| 欧美日韩综合久久久久久 | 午夜福利免费观看在线| 黄色日韩在线| bbb黄色大片| avwww免费| 成人一区二区视频在线观看| 欧美成人性av电影在线观看| 不卡一级毛片| 中出人妻视频一区二区| 亚洲精品美女久久久久99蜜臀| 欧美+日韩+精品| 嫁个100分男人电影在线观看| 国产精品影院久久| www.熟女人妻精品国产| or卡值多少钱| 国产老妇女一区| 很黄的视频免费| 国产精品久久久久久精品电影| 少妇的逼水好多| 69人妻影院| 少妇高潮的动态图| 午夜福利在线观看吧| 亚洲国产高清在线一区二区三| 精品欧美国产一区二区三| 日韩欧美 国产精品| 一级作爱视频免费观看| 亚洲专区中文字幕在线| 一进一出抽搐动态| 此物有八面人人有两片| 老司机午夜十八禁免费视频| 国产野战对白在线观看| 国产97色在线日韩免费| 亚洲精品日韩av片在线观看 | 三级男女做爰猛烈吃奶摸视频| 国产成人影院久久av| 内射极品少妇av片p| 我要搜黄色片| 日本熟妇午夜| 丝袜美腿在线中文| 变态另类成人亚洲欧美熟女| 日本一二三区视频观看| 久久久久精品国产欧美久久久| 亚洲av成人不卡在线观看播放网| 中文字幕精品亚洲无线码一区| 国产男靠女视频免费网站| 久久草成人影院| 3wmmmm亚洲av在线观看| 午夜久久久久精精品| 天堂√8在线中文| 少妇熟女aⅴ在线视频| 午夜精品久久久久久毛片777| 最新中文字幕久久久久| 日日夜夜操网爽| 国产高清有码在线观看视频| 老熟妇仑乱视频hdxx| 色尼玛亚洲综合影院| 听说在线观看完整版免费高清| 国产老妇女一区| 欧美黄色淫秽网站| 免费高清视频大片| 精品福利观看| 在线看三级毛片| 美女高潮喷水抽搐中文字幕| 国产精品乱码一区二三区的特点| 99精品久久久久人妻精品| 国产精品av视频在线免费观看| 国产精品野战在线观看| 嫩草影院入口| 大型黄色视频在线免费观看| 国产av一区在线观看免费| 免费大片18禁| 悠悠久久av| 欧美国产日韩亚洲一区| 欧美性猛交╳xxx乱大交人| 国产午夜福利久久久久久| 国产精品久久久久久久久免 | 国产真人三级小视频在线观看| 免费一级毛片在线播放高清视频| 18美女黄网站色大片免费观看| 免费看a级黄色片| 夜夜躁狠狠躁天天躁| 色播亚洲综合网| 99国产极品粉嫩在线观看| 国产aⅴ精品一区二区三区波| 黄色视频,在线免费观看| 日本黄大片高清| 欧美中文综合在线视频| 亚洲狠狠婷婷综合久久图片| 国产极品精品免费视频能看的| 熟女少妇亚洲综合色aaa.| 久久久精品欧美日韩精品| 国产一级毛片七仙女欲春2| 精品99又大又爽又粗少妇毛片 | 少妇的逼好多水| 波野结衣二区三区在线 | 国产乱人视频| 国产aⅴ精品一区二区三区波| 69人妻影院| 日韩欧美国产一区二区入口| 久久久久久久亚洲中文字幕 | 亚洲久久久久久中文字幕| 国产三级黄色录像| 在线天堂最新版资源| 色视频www国产| 黄片小视频在线播放| 一级毛片高清免费大全| 天天躁日日操中文字幕| 午夜免费成人在线视频| 一级毛片女人18水好多| 久久久久国内视频| 一级a爱片免费观看的视频|