• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用技術(shù)分類(lèi)號(hào)輔助的無(wú)監(jiān)督專(zhuān)利實(shí)體抽取方法研究

    2024-10-07 00:00:00陳亮尚瑋姣余池牟琳夏春姊葛川
    知識(shí)管理論壇 2024年4期

    摘要:[目的/意義]無(wú)監(jiān)督的專(zhuān)利實(shí)體抽取方法可以有效解決之前方法高度依賴(lài)標(biāo)注資源的痼疾,進(jìn)而推動(dòng)智能技術(shù)在專(zhuān)利數(shù)據(jù)上的廣泛應(yīng)用并提升專(zhuān)利信息服務(wù)的能力和水平。[方法/過(guò)程] 將專(zhuān)利文獻(xiàn)固有的技術(shù)分類(lèi)號(hào)與主題模型相結(jié)合,利用技術(shù)分類(lèi)號(hào)指導(dǎo)專(zhuān)利詞匯上的主題分配過(guò)程,進(jìn)而提出一種無(wú)需實(shí)體標(biāo)注信息的專(zhuān)利實(shí)體抽取方法。[結(jié)果/結(jié)論] 利用硬盤(pán)驅(qū)動(dòng)器薄膜磁頭領(lǐng)域?qū)@麛?shù)據(jù)集和IPC技術(shù)分類(lèi)體系進(jìn)行實(shí)證分析,實(shí)驗(yàn)結(jié)果顯示,不同層級(jí)的技術(shù)分類(lèi)號(hào)在實(shí)體抽取上效果差異巨大,而基于IPC第五層級(jí)技術(shù)分類(lèi)號(hào)方法的實(shí)體抽取效果遠(yuǎn)優(yōu)于常規(guī)的SAO方法。

    關(guān)鍵詞:實(shí)體抽取;主題模型;專(zhuān)利挖掘;技術(shù)分類(lèi)號(hào)

    分類(lèi)號(hào):G202; TP181

    引用格式:陳亮, 尚瑋姣, 余池, 等. 利用技術(shù)分類(lèi)號(hào)輔助的無(wú)監(jiān)督專(zhuān)利實(shí)體抽取方法研究[J/OL]. 知識(shí)管理論壇, 2024, 9(4): 422-436 [引用日期]. http://www.kmf.ac.cn/p/403/. (Citation: Chen Liang, Shang Weijiao, Yu Chi, et al. Research on Unsupervised Patent Entity Extraction Method Assisted by Technology ClassifiR+SZbWRDsLlIlfjAu0Is9WR2TEoHsTTruKGGmh3RVHQ=cation Codes[J/OL]. Knowledge Management Forum, 2024, 9(4): 422-436 [cite date]. http://www.kmf.ac.cn/p/403/.)

    1 引言/Introduction

    當(dāng)前企業(yè)、科研院所等技術(shù)創(chuàng)新主體對(duì)專(zhuān)利情報(bào)的需求不僅包括宏觀數(shù)據(jù)統(tǒng)計(jì),更需要在理解專(zhuān)利內(nèi)容的基礎(chǔ)上,直接為其提供專(zhuān)利侵權(quán)風(fēng)險(xiǎn)規(guī)避、技術(shù)機(jī)會(huì)發(fā)現(xiàn)、技術(shù)路線選擇等決策支持服務(wù)。傳統(tǒng)通過(guò)人工閱讀來(lái)理解專(zhuān)利內(nèi)容的方式,受制于稀缺的專(zhuān)家資源,耗時(shí)耗力、效率低下,而作為計(jì)算機(jī)理解文本內(nèi)容之根基的信息抽取技術(shù),則凸顯出重要的研究?jī)r(jià)值和廣闊的應(yīng)用前景。

    信息抽取旨在將自由文本轉(zhuǎn)化為結(jié)構(gòu)化語(yǔ)義信息,實(shí)體抽取是其中的關(guān)鍵環(huán)節(jié)。然而相比常規(guī)文本(如新聞、論文等),專(zhuān)利文本從形式上更加冗長(zhǎng)復(fù)雜,大量科技術(shù)語(yǔ)形式缺乏規(guī)范,且新術(shù)語(yǔ)層出不窮;從內(nèi)容上講,專(zhuān)業(yè)知識(shí)高度密集,實(shí)體類(lèi)型、數(shù)量繁多,語(yǔ)義關(guān)系錯(cuò)綜復(fù)雜,從而導(dǎo)致直接套用面向常規(guī)文本的自然語(yǔ)言處理技術(shù)會(huì)出現(xiàn)一定程度的性能下降;此外,當(dāng)前效果最好的實(shí)體抽取方法均為有監(jiān)督學(xué)習(xí)方法,然而標(biāo)注數(shù)據(jù)是一種極為稀缺、昂貴的信息資源,尤其以專(zhuān)利挖掘領(lǐng)域?yàn)樯?,截至目前,可公開(kāi)獲取的專(zhuān)利信息抽取標(biāo)注數(shù)據(jù)集僅有3個(gè),即CPC-2014[1]、ChemProt[2]和TFH-2020[3]。不僅如此,由于專(zhuān)利的領(lǐng)域特定(domain-specific)屬性,不同技術(shù)領(lǐng)域的專(zhuān)利無(wú)論技術(shù)內(nèi)容還是語(yǔ)言特性均存在較大差別。以技術(shù)內(nèi)容為例,在硬盤(pán)磁頭驅(qū)動(dòng)器專(zhuān)利標(biāo)注數(shù)據(jù)集TFH-2020中的實(shí)體類(lèi)型包括零件、原材料、形狀、功能、物理流、信息流等,而醫(yī)藥化學(xué)專(zhuān)利標(biāo)注數(shù)據(jù)集ChemProt中的實(shí)體類(lèi)型則是化合物、基因、蛋白質(zhì),從而造成不同技術(shù)領(lǐng)域的標(biāo)注數(shù)據(jù)難以跨領(lǐng)域使用。

    在這種情況下,研究者更青睞無(wú)標(biāo)注的實(shí)體抽取方法,諸如利用句法解析軟件從專(zhuān)利文本中獲取詞性、句法依存關(guān)系等特征,并在此基礎(chǔ)上制定相關(guān)規(guī)則以獲取專(zhuān)利實(shí)體,從而使專(zhuān)利實(shí)體抽取不再受到標(biāo)注數(shù)據(jù)的限制。然而,L. Chen等[3]發(fā)現(xiàn),這種方法在專(zhuān)利文本上的實(shí)體抽取效果并不盡如人意,在精確匹配標(biāo)準(zhǔn)下實(shí)體抽取的F1值僅為1.7%。如何在無(wú)標(biāo)注數(shù)據(jù)集的條件下提升實(shí)體抽取效果,成為一個(gè)亟待解決的問(wèn)題。實(shí)際上,專(zhuān)利文獻(xiàn)具有豐富的題錄數(shù)據(jù),如專(zhuān)利家族、法律狀態(tài)和技術(shù)分類(lèi)號(hào)等,尤其技術(shù)分類(lèi)號(hào),指示了當(dāng)前專(zhuān)利所屬的技術(shù)領(lǐng)域或所實(shí)現(xiàn)的功能應(yīng)用,當(dāng)該專(zhuān)利具備多種多技術(shù)交叉屬性時(shí),會(huì)被同時(shí)賦予多個(gè)技術(shù)分類(lèi)號(hào)。這些技術(shù)分類(lèi)號(hào)雖然面向整篇專(zhuān)利,但在專(zhuān)利文本中均有相應(yīng)的技術(shù)內(nèi)容,如果智能算法能將這些技術(shù)分類(lèi)號(hào)與專(zhuān)利文本中的技術(shù)內(nèi)容自動(dòng)對(duì)應(yīng)起來(lái),則可以形成一套無(wú)需實(shí)體標(biāo)注信息的專(zhuān)利實(shí)體抽取方法。

    因此,筆者將專(zhuān)利文獻(xiàn)固有的技術(shù)分類(lèi)號(hào)與主題模型相結(jié)合,利用技術(shù)分類(lèi)號(hào)指導(dǎo)專(zhuān)利詞匯上的主題分配過(guò)程,進(jìn)而提出一種新的無(wú)標(biāo)注專(zhuān)利實(shí)體抽取方法。實(shí)驗(yàn)結(jié)果表明,在精確匹配標(biāo)準(zhǔn)下該方法將實(shí)體抽取的F1值提升至13.2%,而在將停用詞去除后F1值能進(jìn)一步提升至15.4%,提升幅度巨大。本文研究思路如下:①對(duì)相關(guān)研究?jī)?nèi)容進(jìn)行文獻(xiàn)調(diào)研和梳理;②闡述筆者提出的基于主題模型的專(zhuān)利實(shí)體抽取方法;③以TFH-2020數(shù)據(jù)集為基礎(chǔ),形成擴(kuò)展數(shù)據(jù)集TFH-2020-extension,進(jìn)而展開(kāi)實(shí)證分析;④總結(jié)本方法的優(yōu)勢(shì)和不足,并對(duì)下一步工作進(jìn)行展望。

    2 相關(guān)研究/Literature review

    2.1 專(zhuān)利實(shí)體內(nèi)涵辨析

    實(shí)體抽取任務(wù)旨在從文本中識(shí)別具有特定意義的實(shí)體的邊界和類(lèi)型。在自然語(yǔ)言處理技術(shù)通常處理的文本(如新聞、評(píng)論)中,常見(jiàn)的實(shí)體類(lèi)型包括地址、人物、機(jī)構(gòu)、貨幣、百分?jǐn)?shù)、日期、時(shí)間等[4-5]。然而專(zhuān)利文本中包含著對(duì)發(fā)明創(chuàng)新及其技術(shù)背景、實(shí)現(xiàn)細(xì)節(jié)和權(quán)利要求等內(nèi)容的描述,其所定義的實(shí)體類(lèi)型會(huì)因分析目的和所在領(lǐng)域不同而有所差異,通常有兩種定義方式:①根據(jù)分析目標(biāo)劃分,比如為識(shí)別行業(yè)創(chuàng)新方向和可能的技術(shù)機(jī)會(huì),S. Dewulf[6]、H. Park等[7]將可標(biāo)記物劃分為功能、屬性?xún)深?lèi),進(jìn)而從不同專(zhuān)利文本中提取出技術(shù)組成、功能效果、新穎性、先進(jìn)性等核心內(nèi)容以拼接出技術(shù)發(fā)展趨勢(shì);S. Y. Yang等[8]從工藝流程角度分析技術(shù)的發(fā)展變化,將機(jī)械領(lǐng)域?qū)嶓w類(lèi)型劃分為方法、步驟、方式、屬性、實(shí)體、值,將實(shí)體之間關(guān)系劃分為動(dòng)作、包含、前置,實(shí)體和關(guān)系可進(jìn)一步細(xì)分為實(shí)際類(lèi)型(real)、輔助類(lèi)型(auxiliary)、領(lǐng)域依賴(lài)(dependent)、領(lǐng)域無(wú)關(guān)(independent)等;S. Choi等[9]側(cè)重實(shí)體的句法特征和保存狀態(tài),將實(shí)體分為概念、主語(yǔ)概念、賓語(yǔ)概念、事實(shí)類(lèi)型、部分事實(shí)類(lèi)型、效果事實(shí)類(lèi)型、概念狀態(tài)、固體、氣體、液體、場(chǎng)等。②根據(jù)所在領(lǐng)域的技術(shù)特點(diǎn)劃分,比如薛馳等[10]將機(jī)械領(lǐng)域的可標(biāo)記物劃分為技術(shù)系統(tǒng)、流、屬性,技術(shù)系統(tǒng)分為系統(tǒng)、零部件,流分為物流、能量流、信息流,屬性分為性狀、位置、方向等;I. Bergmann等[11]針對(duì)化學(xué)生物專(zhuān)利提出一套包含疾病、蛋白質(zhì)靶向、行為模式(mode of action, MOA)、公式等12種類(lèi)型的可標(biāo)記物劃分標(biāo)準(zhǔn)。

    2.2 專(zhuān)利實(shí)體抽取方法的發(fā)展

    專(zhuān)利領(lǐng)域的實(shí)體抽取方法研究以應(yīng)用為導(dǎo)向,除了考量方法本身的效率、效果、可解釋性、可移植性等,方法執(zhí)行所需的支撐資源(如句法解析器、領(lǐng)域詞表、標(biāo)注數(shù)據(jù)集等)和方法的處理對(duì)象(專(zhuān)利數(shù)據(jù))的特點(diǎn)也在考慮范圍之內(nèi)。由于專(zhuān)利的領(lǐng)域特定特點(diǎn),即不同技術(shù)領(lǐng)域?qū)@恼Z(yǔ)言特點(diǎn)和描述對(duì)象差別較大、標(biāo)注數(shù)據(jù)集難以作為訓(xùn)練集跨領(lǐng)域使用,以及標(biāo)注數(shù)據(jù)集規(guī)模有限、領(lǐng)域覆蓋面嚴(yán)重不足等問(wèn)題,專(zhuān)利實(shí)體通常在句法解析工具對(duì)專(zhuān)利文本進(jìn)行句法解析和詞性標(biāo)注的基礎(chǔ)上,使用規(guī)則匹配加以識(shí)別。當(dāng)然,隨著深度學(xué)習(xí)技術(shù)的崛起和成熟,這些方法逐漸被用于進(jìn)行領(lǐng)域適配或任務(wù)適配并應(yīng)用于專(zhuān)利實(shí)體抽取工作中,現(xiàn)已成為重要的研究方向。

    (1)基于規(guī)則的方法。長(zhǎng)期以來(lái),專(zhuān)利實(shí)體抽取是在使用句法解析工具、詞表資源等對(duì)專(zhuān)利文本處理后,采用人工規(guī)則篩選出其中的實(shí)體信息。這一流程共有技術(shù)信息獲取、技術(shù)信息規(guī)范化和技術(shù)信息分類(lèi)3個(gè)步驟,具體為:①技術(shù)信息獲取即從專(zhuān)利文本中初步識(shí)別實(shí)體邊界,具體方法以句法解析工具和規(guī)則匹配為主,即使用句法解析工具完成對(duì)專(zhuān)利文本的句法解析、詞性識(shí)別和語(yǔ)義角色標(biāo)注,進(jìn)而結(jié)合人工規(guī)則來(lái)獲取文本中的實(shí)體和語(yǔ)義關(guān)系[12-16];②技術(shù)信息規(guī)范化就是將具有相同、相近含義的技術(shù)信息用一種統(tǒng)一的形式表示出來(lái),以消除上一步所獲技術(shù)信息的不確定性,目前技術(shù)信息標(biāo)準(zhǔn)化主要借助領(lǐng)域詞典[17]或知識(shí)庫(kù)[18]等信息資源中的層次結(jié)構(gòu)和關(guān)系結(jié)構(gòu)來(lái)計(jì)算兩個(gè)實(shí)體的語(yǔ)義相似度[19],或者將某實(shí)體泛化為其上位實(shí)體來(lái)判斷兩個(gè)實(shí)體是否屬于同一實(shí)體,并進(jìn)一步推斷與之相關(guān)的實(shí)體組合是否具有相同含義[18,20];③經(jīng)過(guò)上述處理后的實(shí)體仍然存在信息粒度不一的問(wèn)題,即便經(jīng)過(guò)規(guī)范化處理后仍然不宜分析解讀,因而需要將其進(jìn)一步分門(mén)別類(lèi),常見(jiàn)的分類(lèi)方法包括借助自定義規(guī)則,如詞匯組合[18]或詞性組合[21]將實(shí)體劃分到對(duì)應(yīng)類(lèi)別上。

    (2)深度學(xué)習(xí)方法。與自然語(yǔ)言處理領(lǐng)域龐大的實(shí)體抽取方法家族不同,專(zhuān)利實(shí)體抽取所使用的深度學(xué)習(xí)方法集中于歷經(jīng)驗(yàn)證的少數(shù)經(jīng)典方法,如BiLSTM(Bidirectional Long Short-Term Memory,雙向長(zhǎng)短期記憶網(wǎng)絡(luò))[22]、BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)—條件隨機(jī)場(chǎng))[3]、BiLSTM-CNN-CRF(Bidirectional Long Short-Term Memory-Convolutional Neural Networks- Conditional Random Field,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)—卷積神經(jīng)網(wǎng)絡(luò)—條件隨機(jī)場(chǎng))[23]等。在這些方法中專(zhuān)利實(shí)體抽取均被作為序列標(biāo)引問(wèn)題加以建模,研究者重點(diǎn)探索能夠提升專(zhuān)利領(lǐng)域?qū)嶓w識(shí)別的特征,并將這些特征集成到深度學(xué)習(xí)模型之中,L. Chen等[3]發(fā)現(xiàn)相比基于新聞、百科等通用語(yǔ)料訓(xùn)練的靜態(tài)詞嵌入向量,基于全領(lǐng)域?qū)@Z(yǔ)料訓(xùn)練的靜態(tài)詞嵌入向量并未提升專(zhuān)利實(shí)體抽取效果,但用與實(shí)證領(lǐng)域相同或者臨近領(lǐng)域的專(zhuān)利語(yǔ)料訓(xùn)練的靜態(tài)詞嵌入向量,則可以使專(zhuān)利實(shí)體抽取獲得0.3%的提升(以加權(quán)平均F1值測(cè)度);Z. Zhai等[23]發(fā)現(xiàn)該結(jié)論在化學(xué)領(lǐng)域?qū)@贤瑯映闪?,相?yīng)的提升幅度在0.61%—1.68%之間,不僅如此,還發(fā)現(xiàn)針對(duì)領(lǐng)域語(yǔ)料優(yōu)化后的分詞器更能適應(yīng)目標(biāo)領(lǐng)域?qū)@谋镜姆衷~特點(diǎn),將其集成進(jìn)來(lái)同樣可以提升專(zhuān)利實(shí)體的識(shí)別效果。

    但詞匯本身具有一詞多義現(xiàn)象,且其含義也會(huì)隨著上下文語(yǔ)境不同而有所差別,靜態(tài)詞嵌入向量將詞匯映射到某個(gè)固定向量的做法并不符合這一詞匯特點(diǎn),而B(niǎo)ERT(Bidirectional Encoder Representations from Transformers,雙向基于變形器網(wǎng)絡(luò)的編碼器表示)、GPT(Generative Pre-Training,生成式預(yù)訓(xùn)練網(wǎng)絡(luò))、ELMo(Embeddings from Language Models,基于語(yǔ)言模型的詞嵌入網(wǎng)絡(luò))等所產(chǎn)生的動(dòng)態(tài)詞嵌入向量則可以捕捉到同一詞匯在不同語(yǔ)境的差異,因此具有更加強(qiáng)大的實(shí)體抽取能力。Z. Zhai等[23]發(fā)現(xiàn),當(dāng)將基于CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))所獲取的靜態(tài)詞嵌入向量替換為基于ELMo所產(chǎn)生的動(dòng)態(tài)詞嵌入向量后,專(zhuān)利實(shí)體抽取在BioSemantics[24]和Reaxys Gold[25]上分別取得了1.3%和4.8%的提升(以微平均F1值測(cè)度)。邢曉昭等[26]以類(lèi)腦智能領(lǐng)域?qū)@麨槔?,通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)將基于通用語(yǔ)料訓(xùn)練的BERT與BiLSTM-CRF模型拼接后,專(zhuān)利實(shí)體抽取效果從72%急劇提升至78%(以加權(quán)平均F1值測(cè)度),而將上述BERT替換為使用專(zhuān)利語(yǔ)料的BERT-for-Patents后,這一效果上升到80%。

    雖然利用深度學(xué)習(xí)技術(shù)開(kāi)展專(zhuān)利實(shí)體抽取的研究日漸增多,但這種技術(shù)需要高質(zhì)量標(biāo)注數(shù)據(jù)集來(lái)保障其強(qiáng)大的實(shí)體識(shí)別能力[27-28],而標(biāo)注高質(zhì)量數(shù)據(jù)集需要耗費(fèi)大量時(shí)間和人力,成本高昂,同時(shí)不同技術(shù)領(lǐng)域的實(shí)體類(lèi)型也互不相同,這使得高質(zhì)量標(biāo)注數(shù)據(jù)集難以跨領(lǐng)域共用。針對(duì)這些困難,學(xué)者們嘗試各種方法,以期在減少標(biāo)注數(shù)據(jù)的條件下開(kāi)展專(zhuān)利實(shí)體抽取。例如,白如江等[29]利用提示模板將專(zhuān)利實(shí)體識(shí)別任務(wù)包裝為問(wèn)題,通過(guò)向大語(yǔ)言模型ChatGPT提問(wèn)以實(shí)現(xiàn)基于小樣本標(biāo)注數(shù)據(jù)的專(zhuān)利實(shí)體抽取;原之安等[30]提出一種基于預(yù)訓(xùn)練模型的半監(jiān)督專(zhuān)利實(shí)體抽取方法,即讓預(yù)訓(xùn)練模型先在小樣本標(biāo)注數(shù)據(jù)上識(shí)別實(shí)體,之后將識(shí)別結(jié)果中的高置信度實(shí)體合并到標(biāo)注數(shù)據(jù)中以提升實(shí)體識(shí)別效果。但這些方法并未充分利用專(zhuān)利本身富含題錄信息的優(yōu)勢(shì),同時(shí)也沒(méi)有使用公開(kāi)數(shù)據(jù)基準(zhǔn)進(jìn)行方法評(píng)測(cè),方法效果的可復(fù)現(xiàn)性和方法先進(jìn)性的可驗(yàn)證程度上存在一定不足。

    3 方法/Methodology

    3.1 基本思想

    筆者將專(zhuān)利所包含的技術(shù)分類(lèi)號(hào)作為類(lèi)別標(biāo)簽、將技術(shù)分類(lèi)號(hào)在技術(shù)分類(lèi)體系中的相關(guān)節(jié)點(diǎn)作為主題標(biāo)簽,以指導(dǎo)專(zhuān)利文本的主題分配進(jìn)而抽取專(zhuān)利實(shí)體(見(jiàn)圖1)。具體步驟如下:①利用專(zhuān)利語(yǔ)料庫(kù)訓(xùn)練主題模型PC-LDA(Patent Classification - Latent Dirichlet Allocation,專(zhuān)利分類(lèi)—潛在狄里克萊分配)[15],獲取每個(gè)主題標(biāo)簽對(duì)應(yīng)的主題—詞匯概率分布;②當(dāng)對(duì)一篇專(zhuān)利進(jìn)行實(shí)體抽取時(shí),首先獲取這個(gè)專(zhuān)利的類(lèi)別標(biāo)簽和主題標(biāo)簽,以CN107427363B及其IPC(International Patent Classification,國(guó)際專(zhuān)利分類(lèi))號(hào)碼為例,其類(lèi)別標(biāo)簽包括A61F2/18、A61F11/00、A61F11/04、H01R25/00,而主題標(biāo)簽A61F2/18、A61F11/00、A61F11/04、H01R25/00及其上層的A61F2、A61F11、H01R25、A61F、H01R、A61、H01、A、H;

    ③利用訓(xùn)練好的PC-LDA對(duì)這個(gè)專(zhuān)利執(zhí)行折入查詢(xún)(fold-in query),即計(jì)算這個(gè)專(zhuān)利中每個(gè)詞匯在各個(gè)主題標(biāo)簽下的概率值;④對(duì)每個(gè)主題標(biāo)簽下的詞匯按照概率降序排列;⑤按照主題標(biāo)簽層次分配該專(zhuān)利中詞匯的主題,進(jìn)而識(shí)別專(zhuān)利實(shí)體。

    3.2 PC-LDA模型

    使用主題模型PC-LDA[31]來(lái)計(jì)算專(zhuān)利主題標(biāo)簽的主題—詞匯概率分布,PC-LDA的概率圖表示見(jiàn)圖2。在該模型中,專(zhuān)利文本的撰寫(xiě)過(guò)程被設(shè)定如下:需要預(yù)先拿到標(biāo)引所使用技術(shù)分類(lèi)體系以及這篇專(zhuān)利所分配的技術(shù)分類(lèi)號(hào)集合Sd(集合中元素?cái)?shù)量通常多于1個(gè)),并為這個(gè)技術(shù)分類(lèi)體系的頂級(jí)節(jié)點(diǎn)設(shè)立一個(gè)虛擬父節(jié)點(diǎn),從而將技術(shù)分類(lèi)體系連成一個(gè)完整的樹(shù)。當(dāng)撰寫(xiě)專(zhuān)利時(shí),首先從Sd中等概率抽取一個(gè)分類(lèi)號(hào)Y;之后獲取從技術(shù)分類(lèi)體系根節(jié)點(diǎn)到Y(jié)這條通路上的主題列表,并隨機(jī)從對(duì)應(yīng)的分類(lèi)號(hào)—主題分布θ(Y)中抽取一個(gè)主題;最后,從被選中主題對(duì)應(yīng)的主題—詞匯概率分布φ中抽取一個(gè)詞匯w,從而生成該專(zhuān)利的第一個(gè)詞匯;依此類(lèi)推最終生成該專(zhuān)利的全部?jī)?nèi)容。

    以圖3為例加以說(shuō)明。在該例中,一件專(zhuān)利被分配了A1、A2、B1三個(gè)技術(shù)分類(lèi)號(hào),這3個(gè)技術(shù)分類(lèi)號(hào)在技術(shù)分類(lèi)體系中的位置如圖3(a)所示;當(dāng)撰寫(xiě)專(zhuān)利的一個(gè)詞匯時(shí),首先從這3個(gè)技術(shù)分類(lèi)號(hào)中隨機(jī)抽取一個(gè)分類(lèi)號(hào)作為要撰寫(xiě)的技術(shù)方向,假設(shè)是A1如圖3(b)所示;此時(shí)從技術(shù)分類(lèi)體系的根節(jié)點(diǎn)root到A1會(huì)確定一條通路,即rootAA1如圖3(c)所示,這條通路上的不同節(jié)點(diǎn)代表著從不同抽象層次上撰寫(xiě)A1的技術(shù)內(nèi)容;隨機(jī)從這條通路上抽取一個(gè)節(jié)點(diǎn),假設(shè)是A如圖3(d)所示,表示從第二個(gè)層次上撰寫(xiě)A1的技術(shù)內(nèi)容;從A所對(duì)應(yīng)的主題—詞匯分布上隨機(jī)抽取一個(gè)詞匯,至此完成專(zhuān)利中一個(gè)詞匯的撰寫(xiě)過(guò)程。

    在PC-LDA中有兩類(lèi)待估參數(shù),分別是S個(gè)分類(lèi)號(hào)—主題概率分布θ和T個(gè)主題—詞匯概率分布φ。使用慣常的坍縮吉布斯采樣方法(Collapsed Gibbs Sampling)進(jìn)行參數(shù)估計(jì),具體采樣公式見(jiàn)公式(1)、公式(2)、公式(3),各個(gè)模型符號(hào)的含義見(jiàn)表1。

    3.3 折入查詢(xún)和詞匯排序

    在利用PC-LDA抽取專(zhuān)利中的實(shí)體時(shí)設(shè)立一個(gè)假設(shè):專(zhuān)利中的實(shí)體偏向于具體內(nèi)容的描述,而非對(duì)技術(shù)領(lǐng)域的總體概括,舉例來(lái)說(shuō),實(shí)體并非“人類(lèi)生活必需品”“智能技術(shù)”“運(yùn)輸”這種高度抽象的概括性?xún)?nèi)容,而是“褲子”“深度神經(jīng)網(wǎng)絡(luò)”“直升飛機(jī)”這種指向明確物品(無(wú)論物理物品還是虛擬物品)的實(shí)詞,這些實(shí)詞所對(duì)應(yīng)的技術(shù)分類(lèi)號(hào)標(biāo)簽通常處于技術(shù)分類(lèi)體系的較低層次。基于該假設(shè),當(dāng)對(duì)一個(gè)新專(zhuān)利進(jìn)行實(shí)體抽取時(shí),需要執(zhí)行兩個(gè)子步驟:①獲取該專(zhuān)利在各個(gè)主題標(biāo)簽上的主題分布,即折入查詢(xún);②在不同主題標(biāo)簽下對(duì)該專(zhuān)利中的詞匯進(jìn)行重要性排序,進(jìn)而將層次較低主題標(biāo)簽下較為重要的詞匯標(biāo)識(shí)出來(lái)。由于層次越低的主題標(biāo)簽(或技術(shù)分類(lèi)號(hào))越具有明確、具體的技術(shù)指向,而在該技術(shù)分類(lèi)號(hào)下越重要的詞匯,它的技術(shù)指向就越明確、越具體,越可能是表示技術(shù)內(nèi)容的實(shí)體。因此,當(dāng)將技術(shù)分類(lèi)體系最低層次標(biāo)簽下的所有重要詞匯都被標(biāo)識(shí)出來(lái)后,就獲取了這一專(zhuān)利上的實(shí)體列表。

    在折疊查詢(xún)上,相比將新專(zhuān)利加入訓(xùn)練集重新運(yùn)行主題模型的做法,筆者提出的策略更加高效:固定主題—詞匯概率分布不變,只在新文檔上應(yīng)用坍縮吉布斯采樣方法,來(lái)產(chǎn)生每個(gè)詞匯所分配的主題和分類(lèi)號(hào)。在PC-LDA中,新文檔包括專(zhuān)利文本及其所屬分類(lèi)號(hào),首先將新文檔中各個(gè)詞匯隨機(jī)分配到其所屬分類(lèi)號(hào)及其相關(guān)主題上,然后利用坍縮吉布斯采樣方法對(duì)這些詞匯抽取其所屬分類(lèi)號(hào)及其相關(guān)主題,抽樣公式同樣是公式(1),在專(zhuān)利m中,主題標(biāo)簽z下詞匯w的重要性計(jì)算方法如公式(4)所示:

    其含義是獲取專(zhuān)利m中的3類(lèi)概率分布,即專(zhuān)利—技術(shù)標(biāo)簽分布、技術(shù)標(biāo)簽—主題標(biāo)簽分布、主題標(biāo)簽—詞匯分布,進(jìn)而在將主題標(biāo)簽和詞匯設(shè)定為z和w的條件下對(duì)不同技術(shù)標(biāo)簽下的概率值進(jìn)行累加,以消除技術(shù)標(biāo)簽變量s并得到t=z和w=w時(shí)的聯(lián)合概率分布。

    3.4 模型評(píng)價(jià)

    在主題模型評(píng)價(jià)上,除了常規(guī)用于語(yǔ)言模型的困惑度評(píng)價(jià)指標(biāo)外,鑒于本文專(zhuān)利實(shí)體抽取任務(wù)的特殊性,筆者采用另外一種模型評(píng)價(jià)方法,即對(duì)照實(shí)體標(biāo)注數(shù)據(jù)的評(píng)價(jià)方法。

    (1)困惑度(perplexity)評(píng)價(jià)方法。困惑度是評(píng)價(jià)語(yǔ)言模型泛化能力的標(biāo)準(zhǔn)指標(biāo),其通用公式為(5),困惑度越小的模型泛化能力越強(qiáng)[32]。具體到PC-LDA模型中,對(duì)測(cè)試集中文檔Dtest的困惑度計(jì)算公式為(6)。其中G是坍縮吉布斯采樣方法的重復(fù)執(zhí)行次數(shù),通過(guò)多次執(zhí)行坍縮吉布斯采樣方法然后求平均,以使困惑度結(jié)果相對(duì)穩(wěn)定;|Dtest|是測(cè)試集的文檔數(shù)量;|Sm|是測(cè)試文檔m所包含的技術(shù)分類(lèi)號(hào)數(shù)量;θijg是在第g次折疊查詢(xún)時(shí)所推導(dǎo)出在技術(shù)分類(lèi)號(hào)i上主題j的概率值。

    (2)對(duì)照實(shí)體標(biāo)注的評(píng)價(jià)方法。隨著可公開(kāi)獲取的專(zhuān)利文本標(biāo)注數(shù)據(jù)集的日益增多,以專(zhuān)利實(shí)體標(biāo)注作為金標(biāo)準(zhǔn)的評(píng)價(jià)方法成為可能。本文提供兩種匹配策略:①精確匹配,只有標(biāo)注實(shí)體和主題詞完全一致時(shí),才被認(rèn)為是一次正確識(shí)別;②重疊匹配,只要標(biāo)注實(shí)體和主題詞存在重疊詞匯,就被認(rèn)為是一次正確識(shí)別。為清楚起見(jiàn),以圖4中的句子為例加以說(shuō)明,該句子包含3個(gè)實(shí)體,即inductive head、leading write pole、and trailing write pole. 根據(jù)精確匹配策略,只有inductive head被正確識(shí)別, 但當(dāng)標(biāo)準(zhǔn)換成重疊匹配時(shí),3個(gè)實(shí)體均被認(rèn)為被正確識(shí)別出來(lái)。

    金標(biāo)準(zhǔn) The inductive head includes a leading write pole and a trailing write pole

    主題詞 The inductive head includes a leading write pole and atrailing write pole

    4 實(shí)證分析/Experiment and result analysis

    4.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

    為驗(yàn)證筆者提出的專(zhuān)利實(shí)體抽取方法的效果,本研究基于硬盤(pán)磁頭領(lǐng)域的專(zhuān)利標(biāo)注數(shù)據(jù)集TFH-2020[3]展開(kāi)實(shí)證分析,該數(shù)據(jù)集由美國(guó)專(zhuān)利商標(biāo)局的1 010篇專(zhuān)利摘要經(jīng)過(guò)人工精心標(biāo)注而成。但由于該數(shù)據(jù)集中僅包含1 010篇專(zhuān)利摘要,數(shù)量偏少,又從美國(guó)專(zhuān)利商標(biāo)局檢索平臺(tái)上另外檢索得到硬盤(pán)磁頭相關(guān)專(zhuān)利10 000件,將其中信息缺失、內(nèi)容重復(fù)專(zhuān)利去除后,得到有效專(zhuān)利8 648件,將其作為訓(xùn)練集,TFH-2020作為測(cè)試集,形成最終包含9 658條記錄的英文專(zhuān)利數(shù)據(jù)集TFH-2020-extention。

    在TFH-2020-extention中,用于標(biāo)注的IPC號(hào)碼共8 781個(gè),上鉆到大組、小類(lèi)、大類(lèi)、部層級(jí)后,分別包含IPC號(hào)碼2 360個(gè)、488個(gè)、129個(gè)和8個(gè)。以圖3為例加以說(shuō)明,在該例中專(zhuān)利被分配了A1、A2、B1三個(gè)原始分類(lèi)號(hào),當(dāng)將其上鉆到第二層級(jí)時(shí)該專(zhuān)利的分類(lèi)號(hào)是A、B,繼續(xù)上鉆后分類(lèi)號(hào)歸并為root。從中看到不同IPC號(hào)碼上的專(zhuān)利分布嚴(yán)重不均衡,以部層級(jí)為例,A-H中包含的專(zhuān)利數(shù)量分別為585個(gè)、2 092個(gè)、1 062個(gè)、79個(gè)、79個(gè)、273個(gè)、3 311個(gè);下探到大類(lèi)、小類(lèi)、大組、小組后的專(zhuān)利分布情況如圖5(a)-(d)所示,其中橫軸是包含同一IPC號(hào)的專(zhuān)利數(shù)量,縱軸是具有相同專(zhuān)利數(shù)量的IPC號(hào)的數(shù)量。舉例來(lái)說(shuō),假設(shè)4個(gè)專(zhuān)利包含的IPC號(hào)分別是(A,B,C)、(B,C、D)、(A,C、D)、(D),那么包含A、B、C、D的專(zhuān)利數(shù)量就對(duì)應(yīng)著橫軸坐標(biāo)上的2、2、3、3,而具有相同專(zhuān)利數(shù)量2的IPC號(hào)的數(shù)量為2,具有相同專(zhuān)利數(shù)量3的IPC號(hào)的數(shù)量也為2,它們對(duì)應(yīng)著縱軸上的相應(yīng)坐標(biāo)。從圖中可以看到,在這4個(gè)層次上大多數(shù)IPC只存在于5件專(zhuān)利以?xún)?nèi),存在于1 000件專(zhuān)利以上的IPC數(shù)量在10以下。

    4.2 模型設(shè)置

    為探索各個(gè)主題模型在不同IPC層級(jí)上的效果,除了使用原始IPC標(biāo)簽,筆者同時(shí)將IPC標(biāo)簽上鉆到大組、小類(lèi)級(jí)別,形成了IPC大組標(biāo)簽和IPC小類(lèi)標(biāo)簽,以在不同層次分類(lèi)號(hào)的處理策略下分別展開(kāi)實(shí)證分析。在模型超參數(shù)設(shè)置上,按照慣例將α、β分別設(shè)置為0.5和0.1,迭代輪次設(shè)置為100。由于對(duì)照實(shí)體標(biāo)注的評(píng)價(jià)方法需要將主題標(biāo)簽分配到原始文本的每個(gè)詞匯,以識(shí)別命名實(shí)體并與金標(biāo)準(zhǔn)進(jìn)行比對(duì),所以文本預(yù)處理僅去除標(biāo)點(diǎn)符號(hào),不再執(zhí)行刪除停用詞、低頻詞、抽詞干等常規(guī)操作。

    4.3 模型評(píng)價(jià)

    4.3.1 困惑度評(píng)價(jià)

    在不同層次技術(shù)分類(lèi)號(hào)的處理策略下,PC-LDA模型的困惑度變化曲線見(jiàn)圖6。可見(jiàn)隨著IPC上鉆層次的提升,困惑度在不斷增長(zhǎng)。IPC上鉆層次越高,專(zhuān)利中所包含的IPC號(hào)碼就越少,而困惑度通常會(huì)隨主題數(shù)量的減少而增長(zhǎng),反映到單一主題上來(lái)說(shuō),就是隨著IPC上鉆層次的提升,主題的指向愈發(fā)抽象、模糊,內(nèi)容逐漸混雜。

    為進(jìn)一步探索PC-LDA的主題抽取效果,隨機(jī)選出兩個(gè)技術(shù)標(biāo)簽G11B5/596、H01L27/146及其上層標(biāo)簽,并輸出這些標(biāo)簽對(duì)應(yīng)的重要詞匯(見(jiàn)表2)。從中可以明顯看到,高層級(jí)的IPC標(biāo)簽,其主題內(nèi)容多為沒(méi)有實(shí)際含義的冠詞、介詞、連詞等,而隨著層級(jí)的下探,相應(yīng)主題愈發(fā)貼近具體技術(shù)內(nèi)容。雖然低層次主題標(biāo)簽對(duì)應(yīng)的詞匯與PC-LDA的預(yù)期相符,但高層次主題標(biāo)簽并沒(méi)有對(duì)應(yīng)相關(guān)技術(shù)領(lǐng)域的寬泛概念,諸如G對(duì)應(yīng)物理學(xué)的寬泛概念、H對(duì)應(yīng)電學(xué)的寬泛概念并不相符。其原因在于文本預(yù)處理未將停用詞去除造成了對(duì)主題結(jié)果的干擾,為方便對(duì)比分析,將語(yǔ)料庫(kù)中的停用詞去掉后,重新訓(xùn)練PC-LDA,得到G11B5/596、H01L27/146及其上層標(biāo)簽對(duì)應(yīng)的重要詞匯(見(jiàn)表3),從中不難發(fā)現(xiàn)G主題中signal、system、circuit、apparatus、device、output、include、first、data、signals占據(jù)排名前10的位置,H主題中film、thin、metal、substrate、least、amorphous、layer、electrode、said、device占據(jù)排名前10的位置,符合PC-LDA的設(shè)計(jì)預(yù)期。

    4.3.2 實(shí)體標(biāo)注評(píng)價(jià)

    該評(píng)價(jià)方法利用實(shí)體識(shí)別的評(píng)價(jià)指標(biāo),即準(zhǔn)確率、召回率和F1值來(lái)度量PC-LDA的性能表現(xiàn)。由前面所述得知,層級(jí)較高的IPC號(hào)中主題詞匯多為通用詞匯,其作用在于過(guò)濾無(wú)關(guān)詞匯;而層級(jí)較低的IPC號(hào)中主題詞匯偏向具體、細(xì)節(jié)的技術(shù)術(shù)語(yǔ),具有一定的命名實(shí)體識(shí)別能力。因此,對(duì)照實(shí)體標(biāo)注的模型評(píng)價(jià)從兩個(gè)方面開(kāi)展:①沿用Recall@K的思路,探討在不同層級(jí)IPC號(hào)上,隨著K值的增加專(zhuān)利中重要性得分位于前K位置的詞匯在命名實(shí)體識(shí)別準(zhǔn)確率、召回率和F1值上的變化情況;②確定K值,并將此時(shí)PC-LDA的命名實(shí)體識(shí)別效果與專(zhuān)利中常用的免標(biāo)注命名實(shí)體識(shí)別方法,即SAO(Subject Action Object,主語(yǔ)—行為—賓語(yǔ))方法進(jìn)行對(duì)比分析,以評(píng)價(jià)PC-LDA的模型表現(xiàn)。

    (1)不同層級(jí)IPC號(hào)的命名實(shí)體識(shí)別。由于部、大類(lèi)層級(jí)較高,所抽主題中無(wú)實(shí)際含義的詞匯較多,筆者將分析目標(biāo)限定在層級(jí)較低的小類(lèi)、大組、小組上(見(jiàn)圖7)。其中,精確匹配策略下命名實(shí)體識(shí)別的準(zhǔn)確率、召回率和F1值隨K值變化情況見(jiàn)圖7(a)-(c),重疊匹配策略下的對(duì)應(yīng)情況見(jiàn)圖7(d)-(f)。從中可見(jiàn),無(wú)論是精確匹配策略還是重疊匹配策略,小類(lèi)、大組層級(jí)的命名實(shí)體識(shí)別效果均相差細(xì)微,不僅如此,它們隨K值的變化情況也高度一致;與此相對(duì),小類(lèi)層級(jí)的命名實(shí)體識(shí)別效果要明顯優(yōu)于前兩者。從匹配策略上來(lái)說(shuō),不同匹配策略下命名實(shí)體識(shí)別效果的差別不大,以小組層級(jí)為例,它在精確匹配下的最優(yōu)召回率和F1值分別為9.73%和13.2%,而在重疊匹配下的最優(yōu)召回率和F1值分別為19.2%和26.1%,約為前者的2倍。由于小組準(zhǔn)確率在重疊匹配策略和精確匹配下變化趨勢(shì)不同,所以這里不做比較。

    (2)PC-LDA與SAO的對(duì)比分析。選定K=100來(lái)獲取PC-LDA模型在命名實(shí)體識(shí)別上固定的準(zhǔn)確率、召回率和F1值,以開(kāi)展對(duì)比分析。之所以選擇K為100,是因?yàn)楫?dāng)取該值時(shí)除重疊匹配策略下的準(zhǔn)確率外,PC-LDA在其他命名實(shí)體識(shí)別指標(biāo)的得分均為最優(yōu)值。同時(shí),筆者也用基線方法(SAO方法)對(duì)測(cè)試集進(jìn)行命名實(shí)體識(shí)別,這些實(shí)驗(yàn)結(jié)果匯總見(jiàn)表4。從中可見(jiàn),與PC-LDA模型完全不同,SAO方法在不同匹配策略下的命名實(shí)體識(shí)別效果存在極大差異。在精確匹配策略下,SAO方法在3種命名實(shí)體識(shí)別指標(biāo)上的得分均在4%以下;但在重疊匹配策略下,SAO方法卻在準(zhǔn)確率和F1值上取得了最高值,即74.2%和41.4%。

    SAO方法的這種矛盾性表現(xiàn)反映了兩個(gè)事實(shí):①命名實(shí)體的組成方式靈活多樣,但SAO方法僅將部分組成方式納入考量范圍,從而造成抽取結(jié)果準(zhǔn)確率高、召回率低;②SAO方法雖然能有效識(shí)別存在于專(zhuān)利中的命名實(shí)體線索,

    但在根據(jù)這些線索判斷命名實(shí)體邊界時(shí)也引入了大量錯(cuò)誤,并對(duì)識(shí)別準(zhǔn)確度造成了災(zāi)難性的影響??紤]到專(zhuān)利命名實(shí)體識(shí)別中精確匹配的價(jià)值遠(yuǎn)大于重疊匹配,可以得出結(jié)論:在不需要命名實(shí)體標(biāo)注語(yǔ)料的命名實(shí)體識(shí)別方法中,PC-LDA的效果要顯著優(yōu)于SAO方法。

    4.4 錯(cuò)誤分析

    錯(cuò)誤分析是智能算法研究中至關(guān)重要的步驟,能夠幫助研究者理解和識(shí)別模型預(yù)測(cè)失敗的原因,從而優(yōu)化模型性能。從表2中可以看出,模糊匹配模式下PC-LDA的命名實(shí)體識(shí)別效果約為精確匹配的2倍,這反映出PC-LDA在抽取實(shí)體時(shí)候容易出現(xiàn)邊界判斷錯(cuò)誤的問(wèn)題,同時(shí)實(shí)體識(shí)別的準(zhǔn)確率也遠(yuǎn)高于召回率。為深入探究這些現(xiàn)象,筆者分別在未去停用詞和去掉停用詞的語(yǔ)料庫(kù)中訓(xùn)練PC-LDA,進(jìn)而對(duì)比分析在精確匹配和重疊匹配模式下的實(shí)體抽取效果,其中IPC層次設(shè)置為小組,詳情見(jiàn)圖8。這里需要指出的是,由于PC-LDA中實(shí)體類(lèi)型以IPC號(hào)碼表示,并非TFH-2020中人工設(shè)置的實(shí)體類(lèi)型,因此需要利用召回率測(cè)度實(shí)體識(shí)別效果。

    從圖8中不難看出,當(dāng)使用去掉停用詞后的語(yǔ)料訓(xùn)練后,PC-LDA在實(shí)體識(shí)別效果普遍得到了提高,精確匹配模式下基于去掉停用詞的語(yǔ)料訓(xùn)練的PC-LDA相比未去停用詞訓(xùn)練的PC-LDA,其識(shí)別效果從13.2%提升至15.4%(F1值),而重疊匹配模式下的識(shí)別效果則從26.1%提升至30.1%(F1值)。這顯示出PC-LDA會(huì)在一定程度上將停用詞錯(cuò)判為實(shí)體或?qū)嶓w的一部分。

    具體到單一專(zhuān)利文本上,這里以專(zhuān)利US4740855A為例,PC-LDA在該專(zhuān)利的摘要文本上所識(shí)別的重要詞匯如藍(lán)色字體所示。為方便對(duì)比,金標(biāo)準(zhǔn)中的實(shí)體用灰底方框標(biāo)出。

    A magnetic thin-film head with layer-wise buildup on a nonmagnetic substrate is provided for a recording medium which can be magnetized perpendicularly (vertically), and contains a conduction body which carries the magnetic flux, and the magnet legs of which form a mainand an auxiliary pole. With these magnet legs which are arranged on the substrate with predetermined spacing side by side, a write/read coil windingis associated, the conductor turns of which extend through a spaceformed between the magnet legs. This magnetic head should be able to fly at a very small flying altitude above the recording and should at the same time be easy to realize in a thin film technique. To this end, it is provided that only the partially overlapping magnet legs serve as the magnetic conduction body, which are connected together in their common overlap zone, forming a magnetic return in a partial regionand are spaced outside of this return region, forming the intermediate space for the conductors.

    從上面結(jié)果可以觀察到3種錯(cuò)誤類(lèi)型:①完全漏標(biāo),如recording medium、small flying altitude、conductors等。②部分漏標(biāo),如magnetic thin-film head,其中head被遺漏;nonmagnetic substrate,其中substrate被遺漏。③將非實(shí)體的形容詞、副詞、動(dòng)詞等標(biāo)注出來(lái),如main、vertically、fly、carries等。對(duì)于第前兩種錯(cuò)誤類(lèi)型,其原因在于使用IPC小組(在本專(zhuān)利US4740855A中,即G11B5/31和G11B5/127)對(duì)應(yīng)的詞匯分布進(jìn)行實(shí)體標(biāo)注,使得標(biāo)注內(nèi)容更加關(guān)注技術(shù)具體細(xì)節(jié),但實(shí)際上有些實(shí)體(如recording medium、conductor)由較為宏觀、上位的詞匯構(gòu)成,而這些詞匯存在于表1中G11B對(duì)應(yīng)的詞匯或者表2的G、G11、G11B對(duì)應(yīng)的詞匯列表中,因此在實(shí)體識(shí)別時(shí),需要將不同層次技術(shù)分類(lèi)號(hào)對(duì)應(yīng)的重要詞匯進(jìn)行綜合考量后,才能覆蓋更多不同特點(diǎn)的實(shí)體;對(duì)于第三種錯(cuò)誤,其原因在于主題模型本身并未考慮詞匯的詞性屬性,但詞匯在構(gòu)成實(shí)體時(shí)需要遵從一定的規(guī)則,比如實(shí)體必須是名詞或名詞性短語(yǔ),形容詞、副詞、動(dòng)詞無(wú)法獨(dú)自構(gòu)成實(shí)體,因此在基于PC-LDA模型進(jìn)行實(shí)體抽取時(shí),需要輔以規(guī)則方法、通過(guò)后處理將不符合實(shí)體構(gòu)成要求的識(shí)別結(jié)果排除掉。

    5 總結(jié)和前瞻/Conclusions and future work

    對(duì)專(zhuān)利文本進(jìn)行實(shí)體識(shí)別以反映發(fā)明創(chuàng)新的實(shí)質(zhì)內(nèi)容是技術(shù)情報(bào)分析的基礎(chǔ)工作之一,然而在當(dāng)前實(shí)體識(shí)別范式下,識(shí)別工作需要代價(jià)高昂的標(biāo)注數(shù)據(jù)做支持才能獲得良好的效果,而且不同技術(shù)領(lǐng)域的標(biāo)注數(shù)據(jù)也難以跨領(lǐng)域共用,從而限制了專(zhuān)利實(shí)體識(shí)別技術(shù)的應(yīng)用和推廣。針對(duì)該問(wèn)題,筆者利用PC-LDA主題模型抽取不同層次技術(shù)分類(lèi)號(hào)所對(duì)應(yīng)的主題—詞匯概率分布的特點(diǎn),提出一種無(wú)需實(shí)體標(biāo)注信息也可以進(jìn)行專(zhuān)利實(shí)體抽取的方法,即利用低層級(jí)技術(shù)分類(lèi)號(hào)所對(duì)應(yīng)的重要詞匯中富含具體技術(shù)和實(shí)現(xiàn)細(xì)節(jié)的現(xiàn)象,將這些詞匯提取并拼接起來(lái)以實(shí)現(xiàn)無(wú)標(biāo)注信息的專(zhuān)利文本實(shí)體自動(dòng)識(shí)別。

    在基于公開(kāi)專(zhuān)利數(shù)據(jù)基準(zhǔn)TFH-2020的實(shí)證分析中,基于PC-LDA的實(shí)體識(shí)別方法展示出遠(yuǎn)優(yōu)于SAO的性能;同時(shí)研究發(fā)現(xiàn),低層級(jí)技術(shù)分類(lèi)號(hào)所訓(xùn)練出的PC-LDA在困惑度上要低于高層級(jí)技術(shù)分類(lèi)號(hào),而最低層級(jí)技術(shù)分類(lèi)號(hào)(即IPC的小組層級(jí))在這方面尤為明顯,基于最低技術(shù)分類(lèi)號(hào)所訓(xùn)練出的PC-LDA在實(shí)體識(shí)別正確率上也遠(yuǎn)超其他層次技術(shù)分類(lèi)號(hào)所訓(xùn)練的PC-LDA。這也從一個(gè)側(cè)面反映出隨著技術(shù)層級(jí)分類(lèi)體系的復(fù)雜化,最低層級(jí)技術(shù)分類(lèi)號(hào)提供的信息量要遠(yuǎn)大于其他層級(jí),在這一層級(jí)上準(zhǔn)確標(biāo)注和識(shí)別出對(duì)應(yīng)實(shí)體尤為重要。

    不過(guò),基于PC-LDA的無(wú)標(biāo)注專(zhuān)利實(shí)體識(shí)別方法的識(shí)別效果還有較大提升空間,尤其在實(shí)體識(shí)別召回率上,通過(guò)錯(cuò)誤分析發(fā)現(xiàn),其原因一方面在于部分實(shí)體由較為宏觀、上位的詞匯構(gòu)成,這些詞匯并沒(méi)有出現(xiàn)在低層級(jí)技術(shù)分類(lèi)號(hào)所對(duì)應(yīng)的重要詞匯中,而是存在于其上位技術(shù)分類(lèi)號(hào)所對(duì)應(yīng)的重要詞匯中,因此在實(shí)體識(shí)別時(shí),需要將不同層次技術(shù)分類(lèi)號(hào)對(duì)應(yīng)的重要詞匯綜合考量后,才能覆蓋更多不同特點(diǎn)的實(shí)體;另一方面,PC-LDA會(huì)將一些形容詞、副詞、動(dòng)詞和無(wú)實(shí)際含義的虛詞識(shí)別為實(shí)體或?qū)嶓w的組成部分,因此需要使用規(guī)則或詞表方法來(lái)輔助PC-LDA方法,以進(jìn)一步提升方法效果,這也是下一步工作的重點(diǎn)方向。

    參考文獻(xiàn)/References:

    [1] AKHONDI S A, KLENNER A G, TYRCHAN C, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): 1-8.

    [2] PéREZ-PéREZ M, PéREZ-RODRíGUEZ G, VAZQUEZ M, et al. Evaluation of chemical and gene/protein entity recognition systems at BioCreative V.5: the CEMP and GPRO patents tracks[EB/OL].[2024-07-22]. https://biocreative.bioinformatics.udel.edu/media/store/files/2017/BioCreative_V5_paper2.pdf.

    [3] CHEN L, XU S, ZHU L, et al. A deep learning based method for extracting semantic information from patent documents[J]. Scientometrics, 2020, 125(1): 289-312.

    [4] The Stanford Natural Language Processing Group. Stanford Named Entity Recognizer (NER)[EB/OL].[2024-06-08].http://nlp.stanford.edu/software/CRF-NER.shtml.

    [5] 英格索爾, 莫頓, 法里斯.駕馭文本:文本的發(fā)現(xiàn)、組織和處理[M].王斌, 譯.北京:電子工業(yè)出版社, 2015. (INGERSOLL G S, MORTON T S, FARRIS A L. Taming text: how to find, organize and manipulate it[M].Shelter Island: Manning Publications.)

    [6] DEWULF S. Directed variation of properties for new or improved function product DNA: a base for connect and develop[J]. Procedia engineering, 2011(9): 646-652.

    [7] PARK H, YOON J, KIM K. Identifying patent infringement using SAO based semantic technological similarities[J]. Scientometrics, 2012, 90(2): 515-529.

    [8] YANG S Y, SOO V W. Extract conceptual graphs from plain texts in patent claims[J]. Engineering applications of artificial intelligence, 2012, 25(4): 874-887.

    [9] CHOI S, KANG D, LIM J, et al. A fact-oriented ontological approach to SAO-based function modeling of patents for implementing function-based technology database[J]. Expert system with application, 2012, 39(10): 9129-9140.

    [10] 薛馳, 邱清盈, 馮培恩, 等. 機(jī)械產(chǎn)品專(zhuān)利作用結(jié)構(gòu)知識(shí)提取方法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2013, 44(1): 222-229. (XUE C, QIU Q Y, FENG P E, et al. Acquisition method for principle solution of mechanical patent[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(1): 222-229.)

    [11] BERGMANN I, BUTZKE D, WALTER L, et al. Evaluating the risk of patent infringement by means of semantic patent analysis: the case of DNA chips[J]. R&D management, 2008, 38(5): 550-562.

    [12] YANG C, ZHU D, WANG X, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017, 112(3): 1229-1248.

    [13] MOEHRLE M G, WALTER L, GERITZ A, et al. Patent‐based inventor profiles as a basis for human resource decisions in research and development[J]. R&d management, 2005, 35(5): 513-524.

    [14] GUO J, WANG X, LI Q, et al. Subject-action-object-based morphology analysis for determining the direction of technological change[J]. Technological forecasting and social change, 2016, 105:27-40.

    [15] AN J, KIM K, MORTARA L, et al. Deriving technology intelligence from patents: preposition-based semantic analysis[J]. Journal of informetrics, 2018, 12(1): 217-236.

    [16] 胡菊香, 呂學(xué)強(qiáng), 劉秀磊, 等.專(zhuān)利技術(shù)功效短語(yǔ)獲取研究[J].科學(xué)技術(shù)與工程, 2016, 16(14): 228-235.(HU J X, LV X Q, LIU X L, et al. Extracting technologies efficacy phrases of patent for research[J]. Science technology and engineering, 2016, 16(14): 228-235.)

    [17]馬建紅, 張明月, 趙亞男.面向創(chuàng)新設(shè)計(jì)的專(zhuān)利知識(shí)抽取方法[J].計(jì)算機(jī)應(yīng)用, 2016, 36(2): 465-471.(MA J H, ZHANG M Y, ZHAO Y N. Patent knowledge extraction method for innovation design[J]. Journal of computer applications , 2016, 36(2): 465-471.)

    [18] YOON J, KO N, KIM J. A function-based knowledge base for technology intelligence[J].Industrial engineering & management systems, 2015, 14(1): 73-87.

    [19] HOI S, PARK H, KANG D, et al. An SAO-based text mining approach to building a technology tree for technology planning[J].Expert system with application, 2012, 39(13): 11443-11455.

    [20] 王琰炎, 王裴巖, 蔡?hào)|風(fēng).一種用于專(zhuān)利實(shí)體的實(shí)體消歧方法[J].沈陽(yáng)航空航天大學(xué)學(xué)報(bào), 2015, 32(1): 77-83.(WANG Y Y, WANG P Y, CAI D F. An entity disambiguation method for patent entity[J].Journal of Shenyang Aerospace University, 2015, 32(1): 77-83.)

    [21] WANG X, QIU P, ZHU D, et al. Identification of technology development trends based on subject-action-object analysis: the case of dye-sensitized solar cells[J].Technological forecasting and social change, 2015, 98: 24-46.

    [22] SAAD F. Named entity recognition for biomedical patent text using Bi-LSTM variants[C]//Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services. New York: ACM Press, 2019: 617-621.

    [23] ZHAI Z, NGUYEN D Q, AKHONDI S A, et al. Improving chemical named entity recognition in patents with contextualized word embeddings[J]. arXiv preprint, 2019, arXiv:1907.02679.

    [24] SABER A, ALEXANDER G K, CHRISTIAN T, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): e107477.

    [25] SABER A, HINNERK R, MARKUS S, et al. Automatic identification of relevant chemical compounds from patents[EB/OL]. [2024-06-30]. https://academic.oup.com/database/article-pdf/doi/10.1093/database/baz001/27636778/baz001.pdf.

    [26] 邢曉昭, 苑朋彬, 陳亮, 等.面向技術(shù)識(shí)別的專(zhuān)利實(shí)體抽取研究——以類(lèi)腦智能領(lǐng)域?yàn)槔齕J].情報(bào)雜志, 2024, 43(6): 126-133, 144.(XING X Z, YUAN P B, CHEN L, et al. Research on patent entity extraction for technology recognition: a case study of brain-inspired intelligence[J].Journal of intelligence, 2024, 43(6): 126-133, 144.)

    [27] ZHANG H, ZHANG C, WANG Y, et al. Revealing the technology development of natural language processing: a scientific entity-centric perspective[J]. Information processing and management, 2024, 61(1): 103574.

    [28] 章成志, 謝雨欣, 張恒, 等.學(xué)術(shù)文獻(xiàn)全文內(nèi)容中的方法實(shí)體細(xì)粒度抽取及演化分析研究[J].情報(bào)學(xué)報(bào), 2023, 42(8): 952-966. (ZHANG C Z, XIE Y X, ZHANG H, et al. Extraction and evolution analysis of fine-grained method entities from full text of academic articles[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(8): 952-966.)

    [29] 白如江, 陳啟明, 張玉潔, 等.基于ChatGPT+Prompt的專(zhuān)利技術(shù)功效實(shí)體自動(dòng)生成研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2024, 8(4): 14-25. ( BAI R J, CHEN Q M, ZHANG Y J, et al. Generating effectiveness entities of patent technology based on ChatGPT+Prompt[J]. Data analysis and knowledge discovery, 2024, 8(4): 14-25.)

    [30] 原之安, 彭甫镕, 谷波, 等. 面向標(biāo)注數(shù)據(jù)稀缺專(zhuān)利文獻(xiàn)的科技實(shí)體抽取[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 53(4): 61-68. (YUAN Z A, PENG F R, GU B, et al. Technology entity extraction of patent literature with limited annotated data[J]. Journal of Zhengzhou University(natural science edition), 2021, 53(4): 61-68.)

    [31] 陳亮. 面向?qū)@治龅腜atent Classification LDA模型[J]. 情報(bào)學(xué)報(bào), 2016, 35(8): 864-874. (CHEN L. Patent classification LDA: topic model for patent analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(8): 864-874.)

    [32] JELINEK F, MERCER R L, BAHL L R, et al. Perplexity: a measure of the difficulty of speech recognition tasks[J]. The journal of the Acoustical Society of America, 1977, 62(S1): S63-S63.

    作者貢獻(xiàn)說(shuō)明/Author contributions:

    陳 亮:論文構(gòu)思與方法設(shè)計(jì),文獻(xiàn)調(diào)研,代碼編寫(xiě),實(shí)證分析和論文撰寫(xiě);

    尚瑋姣:論文思路梳理,實(shí)驗(yàn)數(shù)據(jù)整理與分析,論文撰寫(xiě);

    余 池:文獻(xiàn)調(diào)研,材料整理和論文撰寫(xiě);

    牟 琳:文獻(xiàn)調(diào)研,專(zhuān)利數(shù)據(jù)集整理和統(tǒng)計(jì),論文撰寫(xiě);

    夏春姊:文章審閱,提出修改意見(jiàn)及論文修改;

    葛 川:實(shí)體抽取相關(guān)算法的調(diào)研和梳理。

    Research on Unsupervised Patent Entity Extraction Method Assisted by Technology Classification Codes

    Chen Liang Shang Weijiao Yu Chi Mou Lin Xia Chunzi Ge Chuan

    1Institute of Scientific and Technical Information of China, Beijing 100038

    2Research Institute of Forestry Policy and Information, Chinese Academy of Forestry, Beijing 100091

    3Shanxi Center of Science and Technology Intelligence and Strategic Studies, Taiyuan 030032

    Abstract: [Purpose/Significance] Unsupervised method of patent entity extraction is capable of addressing the issue of previous methods that are highly dependent on labeled resources, thus promoting the widespread of artificial intelligence technology in the intellectual property field and improving the ability of patent information service. [Method/Process] By combining the inherent technology classification codes of patent documents with topic modeling, this study proposed a new method that utilizes patent classification code to guide the topic allocation process in patent text, thus extracting entities without annotation dataset. [Result/Conclusion] To demonstrate the advantages of our method, the empirical analysis was conducted using a patent dataset from the field of thin-film magnetic heads in hard disk drives, along with the IPC technology classification system. The experimental results show that there is a significant difference in the performance of entity extraction for different levels of technology classifications. Moreover, the entity extraction performance based on the fifth-level IPC technology classification code is far superior to the conventional Subject-Action-Object (SAO) method.

    Keywords: entity extraction topic model patent mining patent classification code

    Fund project(s): This work is supported by Shanxi Province Science and Technology Cooperation and Communication Special Project titled “Research and Development of Shanxi Province Research Project Similarity Monitoring Technology Based on Big Data and its Application Demonstration” (Granted No. 202204041101034).

    Author(s): Chen Liang, associate research fellow, PhD; Shang Weijiao, engineer, master; Yu Chi, master candidate; Mou Lin, senior engineer, PhD; Xia Chunzi, assistant research fellow, master; Ge Chuan, research fellow, master, corresponding author, E-mail: 10600491@qq.com.

    Received: 2024-03-12 Published: 2024-08-29

    亚洲国产精品国产精品| 免费不卡的大黄色大毛片视频在线观看 | 麻豆久久精品国产亚洲av| 又爽又黄a免费视频| 搡女人真爽免费视频火全软件| 免费大片黄手机在线观看| 国产 一区 欧美 日韩| 99热这里只有是精品在线观看| 好男人在线观看高清免费视频| 天天躁日日操中文字幕| 国产高清国产精品国产三级 | 男女那种视频在线观看| 精品亚洲乱码少妇综合久久| 熟妇人妻不卡中文字幕| 欧美极品一区二区三区四区| 午夜激情福利司机影院| 国产乱来视频区| 国产探花在线观看一区二区| 身体一侧抽搐| 国产欧美另类精品又又久久亚洲欧美| 婷婷色综合www| 亚洲人成网站在线播| 国产欧美日韩精品一区二区| 国产乱人视频| 国国产精品蜜臀av免费| 2021少妇久久久久久久久久久| 中文字幕制服av| 久久久欧美国产精品| 国内精品美女久久久久久| 草草在线视频免费看| 免费观看性生交大片5| 国产美女午夜福利| 久久久精品免费免费高清| 精品不卡国产一区二区三区| 少妇丰满av| 午夜亚洲福利在线播放| 嘟嘟电影网在线观看| 亚洲av中文字字幕乱码综合| 亚洲精品乱码久久久久久按摩| av又黄又爽大尺度在线免费看| 69人妻影院| a级毛色黄片| 久久久精品免费免费高清| 亚洲第一区二区三区不卡| 菩萨蛮人人尽说江南好唐韦庄| 久久精品久久精品一区二区三区| 亚洲人成网站在线播| 久久鲁丝午夜福利片| 免费高清在线观看视频在线观看| 一边亲一边摸免费视频| 能在线免费观看的黄片| 一级毛片aaaaaa免费看小| 国产午夜福利久久久久久| 欧美bdsm另类| 亚洲高清免费不卡视频| 高清在线视频一区二区三区| 高清午夜精品一区二区三区| av免费在线看不卡| 久久国内精品自在自线图片| 成人一区二区视频在线观看| 精品人妻偷拍中文字幕| 乱人视频在线观看| 在线免费观看不下载黄p国产| 国产探花在线观看一区二区| 亚洲精品aⅴ在线观看| 最近最新中文字幕免费大全7| 欧美成人a在线观看| 亚洲不卡免费看| 99久久九九国产精品国产免费| 亚洲国产精品sss在线观看| 嫩草影院精品99| 成年人午夜在线观看视频 | av在线观看视频网站免费| 久久精品综合一区二区三区| 国产精品久久久久久精品电影小说 | 两个人视频免费观看高清| 婷婷色av中文字幕| av在线亚洲专区| 午夜福利在线在线| 亚洲av电影在线观看一区二区三区 | 亚洲国产色片| 久久精品熟女亚洲av麻豆精品 | 免费观看无遮挡的男女| 别揉我奶头 嗯啊视频| 欧美激情久久久久久爽电影| 精品一区二区免费观看| 亚洲四区av| 在线观看人妻少妇| 日韩欧美 国产精品| 国产亚洲91精品色在线| 99热6这里只有精品| 午夜免费男女啪啪视频观看| 91av网一区二区| 一级毛片久久久久久久久女| 国产91av在线免费观看| 三级经典国产精品| 美女黄网站色视频| 国内精品宾馆在线| 精品国内亚洲2022精品成人| 91aial.com中文字幕在线观看| 青青草视频在线视频观看| 成年免费大片在线观看| 伊人久久精品亚洲午夜| 日韩一本色道免费dvd| 精品久久久久久电影网| 日日摸夜夜添夜夜爱| 亚洲精品成人av观看孕妇| 欧美潮喷喷水| 国产免费福利视频在线观看| 菩萨蛮人人尽说江南好唐韦庄| 女人十人毛片免费观看3o分钟| 亚洲成人一二三区av| 日日摸夜夜添夜夜添av毛片| 国产又色又爽无遮挡免| 国产女主播在线喷水免费视频网站 | 美女内射精品一级片tv| 亚洲精品自拍成人| 亚洲av福利一区| 精品久久久精品久久久| 亚洲av电影不卡..在线观看| 国产亚洲精品av在线| ponron亚洲| 国产精品一区二区三区四区久久| 亚洲婷婷狠狠爱综合网| 久久人人爽人人片av| 啦啦啦韩国在线观看视频| 美女脱内裤让男人舔精品视频| 九九久久精品国产亚洲av麻豆| 女人十人毛片免费观看3o分钟| 51国产日韩欧美| 精品亚洲乱码少妇综合久久| 国产午夜精品一二区理论片| 看免费成人av毛片| 欧美xxⅹ黑人| 免费观看a级毛片全部| xxx大片免费视频| 免费看美女性在线毛片视频| 国产精品熟女久久久久浪| 国产精品伦人一区二区| 啦啦啦韩国在线观看视频| 国产高清不卡午夜福利| 免费看a级黄色片| 国产成人免费观看mmmm| or卡值多少钱| 亚洲综合精品二区| 免费黄网站久久成人精品| 成人亚洲精品一区在线观看 | 美女脱内裤让男人舔精品视频| 久久人人爽人人爽人人片va| 国产精品国产三级国产专区5o| 黄色一级大片看看| 2018国产大陆天天弄谢| 亚洲精品456在线播放app| 亚洲成色77777| 午夜激情久久久久久久| 亚洲精品国产av蜜桃| 午夜日本视频在线| 男人舔女人下体高潮全视频| 欧美日韩一区二区视频在线观看视频在线 | 精品不卡国产一区二区三区| 免费不卡的大黄色大毛片视频在线观看 | 三级国产精品片| 女人被狂操c到高潮| 亚洲精品一二三| av天堂中文字幕网| 热99在线观看视频| 国产亚洲最大av| 麻豆av噜噜一区二区三区| 国产伦一二天堂av在线观看| 免费高清在线观看视频在线观看| 最近中文字幕高清免费大全6| 国产一级毛片在线| 看十八女毛片水多多多| 哪个播放器可以免费观看大片| 欧美性猛交╳xxx乱大交人| 高清欧美精品videossex| 精品人妻一区二区三区麻豆| 国产精品不卡视频一区二区| 久久鲁丝午夜福利片| 又爽又黄a免费视频| 久久精品熟女亚洲av麻豆精品 | 天堂俺去俺来也www色官网 | 成人鲁丝片一二三区免费| 亚洲图色成人| 精品久久久久久久人妻蜜臀av| 日韩av在线免费看完整版不卡| 亚洲精品,欧美精品| 亚洲精品乱久久久久久| 一夜夜www| 18禁裸乳无遮挡免费网站照片| 免费观看的影片在线观看| 日韩欧美精品免费久久| 亚洲人成网站在线播| 国产色婷婷99| 亚洲国产日韩欧美精品在线观看| 少妇熟女aⅴ在线视频| 亚洲精品视频女| 国产 一区精品| 黑人高潮一二区| 国产视频首页在线观看| 偷拍熟女少妇极品色| 少妇猛男粗大的猛烈进出视频 | 国产精品久久久久久av不卡| 欧美日韩国产mv在线观看视频 | 国产一区二区三区av在线| 国产精品无大码| 在线免费观看的www视频| 久久6这里有精品| 日韩亚洲欧美综合| 丝瓜视频免费看黄片| 成人欧美大片| 久久久久久久久久成人| av.在线天堂| 亚洲激情五月婷婷啪啪| 国产成人91sexporn| 精品久久国产蜜桃| 91久久精品国产一区二区成人| 成人亚洲精品av一区二区| 我的老师免费观看完整版| 精品久久久久久久久av| 麻豆av噜噜一区二区三区| 免费观看av网站的网址| 久久久久久国产a免费观看| 中文字幕制服av| 三级经典国产精品| 亚洲乱码一区二区免费版| 肉色欧美久久久久久久蜜桃 | 啦啦啦中文免费视频观看日本| 成年人午夜在线观看视频 | 国产乱人偷精品视频| 国产一区有黄有色的免费视频 | 麻豆成人av视频| 亚洲精品亚洲一区二区| 搡女人真爽免费视频火全软件| 国产一区二区亚洲精品在线观看| 日日干狠狠操夜夜爽| 乱系列少妇在线播放| 女的被弄到高潮叫床怎么办| 成人美女网站在线观看视频| 国产精品99久久久久久久久| 精品熟女少妇av免费看| 亚洲激情五月婷婷啪啪| 成人国产麻豆网| 一区二区三区乱码不卡18| 又黄又爽又刺激的免费视频.| 美女脱内裤让男人舔精品视频| 99九九线精品视频在线观看视频| 日本三级黄在线观看| av天堂中文字幕网| 免费看美女性在线毛片视频| 日日啪夜夜爽| 寂寞人妻少妇视频99o| 69av精品久久久久久| 久久久久久久久久久丰满| 亚洲精品,欧美精品| 国精品久久久久久国模美| 欧美成人午夜免费资源| 日本与韩国留学比较| 免费观看无遮挡的男女| 青春草视频在线免费观看| 草草在线视频免费看| 2021少妇久久久久久久久久久| 九草在线视频观看| 久久久成人免费电影| 成人无遮挡网站| 精品人妻一区二区三区麻豆| 精品久久久久久久久亚洲| 七月丁香在线播放| 麻豆乱淫一区二区| av天堂中文字幕网| 69人妻影院| 精品人妻一区二区三区麻豆| 国产高潮美女av| 18禁在线无遮挡免费观看视频| 真实男女啪啪啪动态图| 亚洲成人中文字幕在线播放| 2021少妇久久久久久久久久久| 波多野结衣巨乳人妻| 国产 亚洲一区二区三区 | av在线播放精品| 蜜桃久久精品国产亚洲av| 国产三级在线视频| 国语对白做爰xxxⅹ性视频网站| 内射极品少妇av片p| 亚洲精品日韩av片在线观看| 有码 亚洲区| av在线观看视频网站免费| 汤姆久久久久久久影院中文字幕 | 国产成人免费观看mmmm| 在线观看免费高清a一片| 亚洲国产成人一精品久久久| 日日摸夜夜添夜夜添av毛片| 午夜福利在线观看免费完整高清在| av在线观看视频网站免费| 欧美另类一区| 国产亚洲精品久久久com| 中文字幕亚洲精品专区| 中文字幕亚洲精品专区| 亚洲熟女精品中文字幕| 国产成人精品久久久久久| 亚洲av中文av极速乱| 国产午夜精品久久久久久一区二区三区| 七月丁香在线播放| 老女人水多毛片| 亚洲欧美日韩东京热| 国产乱人视频| 日韩三级伦理在线观看| 欧美性猛交╳xxx乱大交人| 六月丁香七月| 亚洲精品乱码久久久v下载方式| 少妇人妻一区二区三区视频| 精品少妇黑人巨大在线播放| 亚洲国产高清在线一区二区三| 国产成人免费观看mmmm| 国产免费视频播放在线视频 | 免费看a级黄色片| 美女内射精品一级片tv| 黄色一级大片看看| 国产精品日韩av在线免费观看| 黄色欧美视频在线观看| 少妇丰满av| 国产精品伦人一区二区| 国产高潮美女av| 日本欧美国产在线视频| 黄色配什么色好看| 超碰av人人做人人爽久久| 国产大屁股一区二区在线视频| 搡女人真爽免费视频火全软件| av女优亚洲男人天堂| 十八禁国产超污无遮挡网站| 美女黄网站色视频| 麻豆av噜噜一区二区三区| 国产黄色免费在线视频| 最近手机中文字幕大全| 成人亚洲欧美一区二区av| 国产精品日韩av在线免费观看| 亚洲三级黄色毛片| 久久精品久久久久久噜噜老黄| 国产精品久久久久久久久免| 午夜福利高清视频| 国产美女午夜福利| 美女脱内裤让男人舔精品视频| av卡一久久| 国产精品人妻久久久久久| 夫妻午夜视频| 久久久久久久久久久丰满| 日韩不卡一区二区三区视频在线| 能在线免费观看的黄片| 亚洲精品自拍成人| 亚洲婷婷狠狠爱综合网| 久久久久久久久久成人| 欧美日韩视频高清一区二区三区二| 亚洲av成人精品一区久久| 美女黄网站色视频| 欧美极品一区二区三区四区| 日本wwww免费看| 熟女人妻精品中文字幕| 国产黄色免费在线视频| 校园人妻丝袜中文字幕| 精品酒店卫生间| 日韩av在线大香蕉| 日韩成人伦理影院| 免费大片18禁| 国产探花在线观看一区二区| 日本猛色少妇xxxxx猛交久久| 天堂影院成人在线观看| 日日啪夜夜撸| 高清欧美精品videossex| 女人被狂操c到高潮| 日本免费在线观看一区| 在线观看美女被高潮喷水网站| 午夜激情福利司机影院| 午夜久久久久精精品| 中文乱码字字幕精品一区二区三区 | 精品久久久久久久人妻蜜臀av| 男女啪啪激烈高潮av片| 欧美一区二区亚洲| 亚洲成人一二三区av| 日韩,欧美,国产一区二区三区| 久久久久久国产a免费观看| 简卡轻食公司| 免费观看精品视频网站| 亚洲怡红院男人天堂| 一区二区三区免费毛片| 亚洲av不卡在线观看| 少妇的逼水好多| 亚洲真实伦在线观看| 国产综合精华液| 成人综合一区亚洲| 精品人妻偷拍中文字幕| 少妇裸体淫交视频免费看高清| 夜夜爽夜夜爽视频| 亚洲激情五月婷婷啪啪| 久久综合国产亚洲精品| 亚洲av电影不卡..在线观看| 国产探花极品一区二区| av播播在线观看一区| 舔av片在线| 内地一区二区视频在线| 国产探花极品一区二区| 久久精品人妻少妇| 欧美zozozo另类| 免费看av在线观看网站| 老女人水多毛片| 极品少妇高潮喷水抽搐| 国产精品一二三区在线看| 国产成人精品福利久久| 国产亚洲5aaaaa淫片| 国产精品av视频在线免费观看| 久久精品久久精品一区二区三区| 五月天丁香电影| 91精品一卡2卡3卡4卡| 男女边摸边吃奶| 国产国拍精品亚洲av在线观看| 国产亚洲一区二区精品| 伊人久久国产一区二区| 免费大片黄手机在线观看| 男的添女的下面高潮视频| 国国产精品蜜臀av免费| 久久精品国产亚洲网站| 天堂中文最新版在线下载 | 免费黄频网站在线观看国产| 国内精品一区二区在线观看| 久久久久久久久久人人人人人人| 国产成人精品婷婷| 成年av动漫网址| 高清午夜精品一区二区三区| 国产精品精品国产色婷婷| 又爽又黄无遮挡网站| 亚洲欧美日韩东京热| 成人亚洲欧美一区二区av| 国产国拍精品亚洲av在线观看| 一本一本综合久久| 欧美潮喷喷水| 国产av码专区亚洲av| 久久久久久伊人网av| 性插视频无遮挡在线免费观看| 免费av观看视频| 亚洲成人精品中文字幕电影| 亚洲国产最新在线播放| 国产精品99久久久久久久久| 一级毛片电影观看| 国产免费一级a男人的天堂| 最近视频中文字幕2019在线8| 中文字幕av在线有码专区| 国产成年人精品一区二区| 男人狂女人下面高潮的视频| 欧美日韩在线观看h| 亚洲成人一二三区av| 久久99精品国语久久久| videossex国产| 日本熟妇午夜| av在线天堂中文字幕| 欧美高清成人免费视频www| 日韩欧美三级三区| 小蜜桃在线观看免费完整版高清| 亚洲国产欧美在线一区| 联通29元200g的流量卡| 免费电影在线观看免费观看| 中文在线观看免费www的网站| 久久精品夜夜夜夜夜久久蜜豆| 中文字幕制服av| 街头女战士在线观看网站| 欧美极品一区二区三区四区| 亚洲精品成人久久久久久| 极品少妇高潮喷水抽搐| 亚洲伊人久久精品综合| 免费少妇av软件| 久久久久久伊人网av| 亚洲丝袜综合中文字幕| 九色成人免费人妻av| 91狼人影院| 国产男人的电影天堂91| 小蜜桃在线观看免费完整版高清| 亚洲国产欧美人成| 九草在线视频观看| 精品午夜福利在线看| 午夜福利成人在线免费观看| 久久国产乱子免费精品| 亚洲精品一区蜜桃| 精品久久久久久电影网| 久久久久久久亚洲中文字幕| 亚洲av免费在线观看| 日韩在线高清观看一区二区三区| 欧美另类一区| 日韩国内少妇激情av| 一级毛片久久久久久久久女| 插逼视频在线观看| 亚洲va在线va天堂va国产| 亚洲激情五月婷婷啪啪| 毛片女人毛片| 黄片无遮挡物在线观看| 午夜福利在线观看吧| 麻豆久久精品国产亚洲av| 国产视频内射| 国产 一区精品| 免费黄频网站在线观看国产| 国产精品国产三级国产av玫瑰| 久久久久久久久中文| 丰满乱子伦码专区| 久久久久久久久久久免费av| 男女视频在线观看网站免费| 国产永久视频网站| 最近2019中文字幕mv第一页| 久久精品夜夜夜夜夜久久蜜豆| 成年av动漫网址| 高清av免费在线| 十八禁国产超污无遮挡网站| 国产精品女同一区二区软件| 午夜视频国产福利| 色播亚洲综合网| 伦理电影大哥的女人| 男人爽女人下面视频在线观看| 久久久精品免费免费高清| 欧美zozozo另类| 国产伦在线观看视频一区| 精品久久久精品久久久| 天天躁夜夜躁狠狠久久av| 99热6这里只有精品| av播播在线观看一区| 亚洲精品456在线播放app| 高清日韩中文字幕在线| 内地一区二区视频在线| 久久久久久久午夜电影| 日韩视频在线欧美| 18禁在线播放成人免费| 十八禁网站网址无遮挡 | 国产精品久久久久久精品电影小说 | 免费播放大片免费观看视频在线观看| 欧美97在线视频| 日韩强制内射视频| 国产黄片美女视频| 欧美成人一区二区免费高清观看| 国产乱人视频| 啦啦啦啦在线视频资源| 亚洲精品色激情综合| 精品一区二区三卡| 69人妻影院| 你懂的网址亚洲精品在线观看| 97精品久久久久久久久久精品| 精品国产三级普通话版| 亚洲av中文字字幕乱码综合| 精品久久久久久久末码| 亚洲精品久久久久久婷婷小说| 直男gayav资源| 欧美另类一区| 99re6热这里在线精品视频| 亚洲四区av| 边亲边吃奶的免费视频| 免费黄网站久久成人精品| 亚洲欧美成人综合另类久久久| 午夜免费观看性视频| 日韩强制内射视频| 插逼视频在线观看| 成人无遮挡网站| 自拍偷自拍亚洲精品老妇| 成人二区视频| 久久久久久久久久黄片| 日韩国内少妇激情av| 午夜福利视频精品| 男女啪啪激烈高潮av片| 国产69精品久久久久777片| 亚洲av免费在线观看| av线在线观看网站| 亚洲av电影在线观看一区二区三区 | 日日啪夜夜爽| 乱人视频在线观看| 国产有黄有色有爽视频| 人妻少妇偷人精品九色| 婷婷六月久久综合丁香| 国产乱人偷精品视频| 深爱激情五月婷婷| 91狼人影院| 91精品伊人久久大香线蕉| 日韩一本色道免费dvd| 非洲黑人性xxxx精品又粗又长| 七月丁香在线播放| 嘟嘟电影网在线观看| 精品久久久久久久久av| 网址你懂的国产日韩在线| 亚洲欧美清纯卡通| av免费观看日本| 亚洲久久久久久中文字幕| 激情五月婷婷亚洲| 欧美高清成人免费视频www| 男插女下体视频免费在线播放| 黄片无遮挡物在线观看| 亚洲av在线观看美女高潮| 亚洲av电影在线观看一区二区三区 | 色视频www国产| 国产 一区精品| 晚上一个人看的免费电影| 亚洲av.av天堂| 久久久久久久久久成人| 精品欧美国产一区二区三| av国产免费在线观看| 成人综合一区亚洲| 久久精品久久精品一区二区三区| 国产一区二区三区综合在线观看 | 中文字幕av成人在线电影| 非洲黑人性xxxx精品又粗又长| 亚洲美女视频黄频| av线在线观看网站| 欧美性猛交╳xxx乱大交人| 不卡视频在线观看欧美| 人妻少妇偷人精品九色| 色综合色国产| 国产精品女同一区二区软件| 久久99热这里只频精品6学生| 成人欧美大片| 神马国产精品三级电影在线观看| 五月玫瑰六月丁香| 超碰97精品在线观看| 亚洲精品亚洲一区二区| 成人鲁丝片一二三区免费|