• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用技術分類號輔助的無監(jiān)督專利實體抽取方法研究

    2024-10-07 00:00:00陳亮尚瑋姣余池牟琳夏春姊葛川
    知識管理論壇 2024年4期

    摘要:[目的/意義]無監(jiān)督的專利實體抽取方法可以有效解決之前方法高度依賴標注資源的痼疾,進而推動智能技術在專利數據上的廣泛應用并提升專利信息服務的能力和水平。[方法/過程] 將專利文獻固有的技術分類號與主題模型相結合,利用技術分類號指導專利詞匯上的主題分配過程,進而提出一種無需實體標注信息的專利實體抽取方法。[結果/結論] 利用硬盤驅動器薄膜磁頭領域專利數據集和IPC技術分類體系進行實證分析,實驗結果顯示,不同層級的技術分類號在實體抽取上效果差異巨大,而基于IPC第五層級技術分類號方法的實體抽取效果遠優(yōu)于常規(guī)的SAO方法。

    關鍵詞:實體抽?。恢黝}模型;專利挖掘;技術分類號

    分類號:G202; TP181

    引用格式:陳亮, 尚瑋姣, 余池, 等. 利用技術分類號輔助的無監(jiān)督專利實體抽取方法研究[J/OL]. 知識管理論壇, 2024, 9(4): 422-436 [引用日期]. http://www.kmf.ac.cn/p/403/. (Citation: Chen Liang, Shang Weijiao, Yu Chi, et al. Research on Unsupervised Patent Entity Extraction Method Assisted by Technology ClassifiR+SZbWRDsLlIlfjAu0Is9WR2TEoHsTTruKGGmh3RVHQ=cation Codes[J/OL]. Knowledge Management Forum, 2024, 9(4): 422-436 [cite date]. http://www.kmf.ac.cn/p/403/.)

    1 引言/Introduction

    當前企業(yè)、科研院所等技術創(chuàng)新主體對專利情報的需求不僅包括宏觀數據統(tǒng)計,更需要在理解專利內容的基礎上,直接為其提供專利侵權風險規(guī)避、技術機會發(fā)現、技術路線選擇等決策支持服務。傳統(tǒng)通過人工閱讀來理解專利內容的方式,受制于稀缺的專家資源,耗時耗力、效率低下,而作為計算機理解文本內容之根基的信息抽取技術,則凸顯出重要的研究價值和廣闊的應用前景。

    信息抽取旨在將自由文本轉化為結構化語義信息,實體抽取是其中的關鍵環(huán)節(jié)。然而相比常規(guī)文本(如新聞、論文等),專利文本從形式上更加冗長復雜,大量科技術語形式缺乏規(guī)范,且新術語層出不窮;從內容上講,專業(yè)知識高度密集,實體類型、數量繁多,語義關系錯綜復雜,從而導致直接套用面向常規(guī)文本的自然語言處理技術會出現一定程度的性能下降;此外,當前效果最好的實體抽取方法均為有監(jiān)督學習方法,然而標注數據是一種極為稀缺、昂貴的信息資源,尤其以專利挖掘領域為甚,截至目前,可公開獲取的專利信息抽取標注數據集僅有3個,即CPC-2014[1]、ChemProt[2]和TFH-2020[3]。不僅如此,由于專利的領域特定(domain-specific)屬性,不同技術領域的專利無論技術內容還是語言特性均存在較大差別。以技術內容為例,在硬盤磁頭驅動器專利標注數據集TFH-2020中的實體類型包括零件、原材料、形狀、功能、物理流、信息流等,而醫(yī)藥化學專利標注數據集ChemProt中的實體類型則是化合物、基因、蛋白質,從而造成不同技術領域的標注數據難以跨領域使用。

    在這種情況下,研究者更青睞無標注的實體抽取方法,諸如利用句法解析軟件從專利文本中獲取詞性、句法依存關系等特征,并在此基礎上制定相關規(guī)則以獲取專利實體,從而使專利實體抽取不再受到標注數據的限制。然而,L. Chen等[3]發(fā)現,這種方法在專利文本上的實體抽取效果并不盡如人意,在精確匹配標準下實體抽取的F1值僅為1.7%。如何在無標注數據集的條件下提升實體抽取效果,成為一個亟待解決的問題。實際上,專利文獻具有豐富的題錄數據,如專利家族、法律狀態(tài)和技術分類號等,尤其技術分類號,指示了當前專利所屬的技術領域或所實現的功能應用,當該專利具備多種多技術交叉屬性時,會被同時賦予多個技術分類號。這些技術分類號雖然面向整篇專利,但在專利文本中均有相應的技術內容,如果智能算法能將這些技術分類號與專利文本中的技術內容自動對應起來,則可以形成一套無需實體標注信息的專利實體抽取方法。

    因此,筆者將專利文獻固有的技術分類號與主題模型相結合,利用技術分類號指導專利詞匯上的主題分配過程,進而提出一種新的無標注專利實體抽取方法。實驗結果表明,在精確匹配標準下該方法將實體抽取的F1值提升至13.2%,而在將停用詞去除后F1值能進一步提升至15.4%,提升幅度巨大。本文研究思路如下:①對相關研究內容進行文獻調研和梳理;②闡述筆者提出的基于主題模型的專利實體抽取方法;③以TFH-2020數據集為基礎,形成擴展數據集TFH-2020-extension,進而展開實證分析;④總結本方法的優(yōu)勢和不足,并對下一步工作進行展望。

    2 相關研究/Literature review

    2.1 專利實體內涵辨析

    實體抽取任務旨在從文本中識別具有特定意義的實體的邊界和類型。在自然語言處理技術通常處理的文本(如新聞、評論)中,常見的實體類型包括地址、人物、機構、貨幣、百分數、日期、時間等[4-5]。然而專利文本中包含著對發(fā)明創(chuàng)新及其技術背景、實現細節(jié)和權利要求等內容的描述,其所定義的實體類型會因分析目的和所在領域不同而有所差異,通常有兩種定義方式:①根據分析目標劃分,比如為識別行業(yè)創(chuàng)新方向和可能的技術機會,S. Dewulf[6]、H. Park等[7]將可標記物劃分為功能、屬性兩類,進而從不同專利文本中提取出技術組成、功能效果、新穎性、先進性等核心內容以拼接出技術發(fā)展趨勢;S. Y. Yang等[8]從工藝流程角度分析技術的發(fā)展變化,將機械領域實體類型劃分為方法、步驟、方式、屬性、實體、值,將實體之間關系劃分為動作、包含、前置,實體和關系可進一步細分為實際類型(real)、輔助類型(auxiliary)、領域依賴(dependent)、領域無關(independent)等;S. Choi等[9]側重實體的句法特征和保存狀態(tài),將實體分為概念、主語概念、賓語概念、事實類型、部分事實類型、效果事實類型、概念狀態(tài)、固體、氣體、液體、場等。②根據所在領域的技術特點劃分,比如薛馳等[10]將機械領域的可標記物劃分為技術系統(tǒng)、流、屬性,技術系統(tǒng)分為系統(tǒng)、零部件,流分為物流、能量流、信息流,屬性分為性狀、位置、方向等;I. Bergmann等[11]針對化學生物專利提出一套包含疾病、蛋白質靶向、行為模式(mode of action, MOA)、公式等12種類型的可標記物劃分標準。

    2.2 專利實體抽取方法的發(fā)展

    專利領域的實體抽取方法研究以應用為導向,除了考量方法本身的效率、效果、可解釋性、可移植性等,方法執(zhí)行所需的支撐資源(如句法解析器、領域詞表、標注數據集等)和方法的處理對象(專利數據)的特點也在考慮范圍之內。由于專利的領域特定特點,即不同技術領域專利的語言特點和描述對象差別較大、標注數據集難以作為訓練集跨領域使用,以及標注數據集規(guī)模有限、領域覆蓋面嚴重不足等問題,專利實體通常在句法解析工具對專利文本進行句法解析和詞性標注的基礎上,使用規(guī)則匹配加以識別。當然,隨著深度學習技術的崛起和成熟,這些方法逐漸被用于進行領域適配或任務適配并應用于專利實體抽取工作中,現已成為重要的研究方向。

    (1)基于規(guī)則的方法。長期以來,專利實體抽取是在使用句法解析工具、詞表資源等對專利文本處理后,采用人工規(guī)則篩選出其中的實體信息。這一流程共有技術信息獲取、技術信息規(guī)范化和技術信息分類3個步驟,具體為:①技術信息獲取即從專利文本中初步識別實體邊界,具體方法以句法解析工具和規(guī)則匹配為主,即使用句法解析工具完成對專利文本的句法解析、詞性識別和語義角色標注,進而結合人工規(guī)則來獲取文本中的實體和語義關系[12-16];②技術信息規(guī)范化就是將具有相同、相近含義的技術信息用一種統(tǒng)一的形式表示出來,以消除上一步所獲技術信息的不確定性,目前技術信息標準化主要借助領域詞典[17]或知識庫[18]等信息資源中的層次結構和關系結構來計算兩個實體的語義相似度[19],或者將某實體泛化為其上位實體來判斷兩個實體是否屬于同一實體,并進一步推斷與之相關的實體組合是否具有相同含義[18,20];③經過上述處理后的實體仍然存在信息粒度不一的問題,即便經過規(guī)范化處理后仍然不宜分析解讀,因而需要將其進一步分門別類,常見的分類方法包括借助自定義規(guī)則,如詞匯組合[18]或詞性組合[21]將實體劃分到對應類別上。

    (2)深度學習方法。與自然語言處理領域龐大的實體抽取方法家族不同,專利實體抽取所使用的深度學習方法集中于歷經驗證的少數經典方法,如BiLSTM(Bidirectional Long Short-Term Memory,雙向長短期記憶網絡)[22]、BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field,雙向長短期記憶網絡—條件隨機場)[3]、BiLSTM-CNN-CRF(Bidirectional Long Short-Term Memory-Convolutional Neural Networks- Conditional Random Field,雙向長短期記憶網絡—卷積神經網絡—條件隨機場)[23]等。在這些方法中專利實體抽取均被作為序列標引問題加以建模,研究者重點探索能夠提升專利領域實體識別的特征,并將這些特征集成到深度學習模型之中,L. Chen等[3]發(fā)現相比基于新聞、百科等通用語料訓練的靜態(tài)詞嵌入向量,基于全領域專利語料訓練的靜態(tài)詞嵌入向量并未提升專利實體抽取效果,但用與實證領域相同或者臨近領域的專利語料訓練的靜態(tài)詞嵌入向量,則可以使專利實體抽取獲得0.3%的提升(以加權平均F1值測度);Z. Zhai等[23]發(fā)現該結論在化學領域專利上同樣成立,相應的提升幅度在0.61%—1.68%之間,不僅如此,還發(fā)現針對領域語料優(yōu)化后的分詞器更能適應目標領域專利文本的分詞特點,將其集成進來同樣可以提升專利實體的識別效果。

    但詞匯本身具有一詞多義現象,且其含義也會隨著上下文語境不同而有所差別,靜態(tài)詞嵌入向量將詞匯映射到某個固定向量的做法并不符合這一詞匯特點,而BERT(Bidirectional Encoder Representations from Transformers,雙向基于變形器網絡的編碼器表示)、GPT(Generative Pre-Training,生成式預訓練網絡)、ELMo(Embeddings from Language Models,基于語言模型的詞嵌入網絡)等所產生的動態(tài)詞嵌入向量則可以捕捉到同一詞匯在不同語境的差異,因此具有更加強大的實體抽取能力。Z. Zhai等[23]發(fā)現,當將基于CNN(Convolutional Neural Networks,卷積神經網絡)所獲取的靜態(tài)詞嵌入向量替換為基于ELMo所產生的動態(tài)詞嵌入向量后,專利實體抽取在BioSemantics[24]和Reaxys Gold[25]上分別取得了1.3%和4.8%的提升(以微平均F1值測度)。邢曉昭等[26]以類腦智能領域專利為例,通過消融實驗發(fā)現當將基于通用語料訓練的BERT與BiLSTM-CRF模型拼接后,專利實體抽取效果從72%急劇提升至78%(以加權平均F1值測度),而將上述BERT替換為使用專利語料的BERT-for-Patents后,這一效果上升到80%。

    雖然利用深度學習技術開展專利實體抽取的研究日漸增多,但這種技術需要高質量標注數據集來保障其強大的實體識別能力[27-28],而標注高質量數據集需要耗費大量時間和人力,成本高昂,同時不同技術領域的實體類型也互不相同,這使得高質量標注數據集難以跨領域共用。針對這些困難,學者們嘗試各種方法,以期在減少標注數據的條件下開展專利實體抽取。例如,白如江等[29]利用提示模板將專利實體識別任務包裝為問題,通過向大語言模型ChatGPT提問以實現基于小樣本標注數據的專利實體抽取;原之安等[30]提出一種基于預訓練模型的半監(jiān)督專利實體抽取方法,即讓預訓練模型先在小樣本標注數據上識別實體,之后將識別結果中的高置信度實體合并到標注數據中以提升實體識別效果。但這些方法并未充分利用專利本身富含題錄信息的優(yōu)勢,同時也沒有使用公開數據基準進行方法評測,方法效果的可復現性和方法先進性的可驗證程度上存在一定不足。

    3 方法/Methodology

    3.1 基本思想

    筆者將專利所包含的技術分類號作為類別標簽、將技術分類號在技術分類體系中的相關節(jié)點作為主題標簽,以指導專利文本的主題分配進而抽取專利實體(見圖1)。具體步驟如下:①利用專利語料庫訓練主題模型PC-LDA(Patent Classification - Latent Dirichlet Allocation,專利分類—潛在狄里克萊分配)[15],獲取每個主題標簽對應的主題—詞匯概率分布;②當對一篇專利進行實體抽取時,首先獲取這個專利的類別標簽和主題標簽,以CN107427363B及其IPC(International Patent Classification,國際專利分類)號碼為例,其類別標簽包括A61F2/18、A61F11/00、A61F11/04、H01R25/00,而主題標簽A61F2/18、A61F11/00、A61F11/04、H01R25/00及其上層的A61F2、A61F11、H01R25、A61F、H01R、A61、H01、A、H;

    ③利用訓練好的PC-LDA對這個專利執(zhí)行折入查詢(fold-in query),即計算這個專利中每個詞匯在各個主題標簽下的概率值;④對每個主題標簽下的詞匯按照概率降序排列;⑤按照主題標簽層次分配該專利中詞匯的主題,進而識別專利實體。

    3.2 PC-LDA模型

    使用主題模型PC-LDA[31]來計算專利主題標簽的主題—詞匯概率分布,PC-LDA的概率圖表示見圖2。在該模型中,專利文本的撰寫過程被設定如下:需要預先拿到標引所使用技術分類體系以及這篇專利所分配的技術分類號集合Sd(集合中元素數量通常多于1個),并為這個技術分類體系的頂級節(jié)點設立一個虛擬父節(jié)點,從而將技術分類體系連成一個完整的樹。當撰寫專利時,首先從Sd中等概率抽取一個分類號Y;之后獲取從技術分類體系根節(jié)點到Y這條通路上的主題列表,并隨機從對應的分類號—主題分布θ(Y)中抽取一個主題;最后,從被選中主題對應的主題—詞匯概率分布φ中抽取一個詞匯w,從而生成該專利的第一個詞匯;依此類推最終生成該專利的全部內容。

    以圖3為例加以說明。在該例中,一件專利被分配了A1、A2、B1三個技術分類號,這3個技術分類號在技術分類體系中的位置如圖3(a)所示;當撰寫專利的一個詞匯時,首先從這3個技術分類號中隨機抽取一個分類號作為要撰寫的技術方向,假設是A1如圖3(b)所示;此時從技術分類體系的根節(jié)點root到A1會確定一條通路,即rootAA1如圖3(c)所示,這條通路上的不同節(jié)點代表著從不同抽象層次上撰寫A1的技術內容;隨機從這條通路上抽取一個節(jié)點,假設是A如圖3(d)所示,表示從第二個層次上撰寫A1的技術內容;從A所對應的主題—詞匯分布上隨機抽取一個詞匯,至此完成專利中一個詞匯的撰寫過程。

    在PC-LDA中有兩類待估參數,分別是S個分類號—主題概率分布θ和T個主題—詞匯概率分布φ。使用慣常的坍縮吉布斯采樣方法(Collapsed Gibbs Sampling)進行參數估計,具體采樣公式見公式(1)、公式(2)、公式(3),各個模型符號的含義見表1。

    3.3 折入查詢和詞匯排序

    在利用PC-LDA抽取專利中的實體時設立一個假設:專利中的實體偏向于具體內容的描述,而非對技術領域的總體概括,舉例來說,實體并非“人類生活必需品”“智能技術”“運輸”這種高度抽象的概括性內容,而是“褲子”“深度神經網絡”“直升飛機”這種指向明確物品(無論物理物品還是虛擬物品)的實詞,這些實詞所對應的技術分類號標簽通常處于技術分類體系的較低層次?;谠摷僭O,當對一個新專利進行實體抽取時,需要執(zhí)行兩個子步驟:①獲取該專利在各個主題標簽上的主題分布,即折入查詢;②在不同主題標簽下對該專利中的詞匯進行重要性排序,進而將層次較低主題標簽下較為重要的詞匯標識出來。由于層次越低的主題標簽(或技術分類號)越具有明確、具體的技術指向,而在該技術分類號下越重要的詞匯,它的技術指向就越明確、越具體,越可能是表示技術內容的實體。因此,當將技術分類體系最低層次標簽下的所有重要詞匯都被標識出來后,就獲取了這一專利上的實體列表。

    在折疊查詢上,相比將新專利加入訓練集重新運行主題模型的做法,筆者提出的策略更加高效:固定主題—詞匯概率分布不變,只在新文檔上應用坍縮吉布斯采樣方法,來產生每個詞匯所分配的主題和分類號。在PC-LDA中,新文檔包括專利文本及其所屬分類號,首先將新文檔中各個詞匯隨機分配到其所屬分類號及其相關主題上,然后利用坍縮吉布斯采樣方法對這些詞匯抽取其所屬分類號及其相關主題,抽樣公式同樣是公式(1),在專利m中,主題標簽z下詞匯w的重要性計算方法如公式(4)所示:

    其含義是獲取專利m中的3類概率分布,即專利—技術標簽分布、技術標簽—主題標簽分布、主題標簽—詞匯分布,進而在將主題標簽和詞匯設定為z和w的條件下對不同技術標簽下的概率值進行累加,以消除技術標簽變量s并得到t=z和w=w時的聯合概率分布。

    3.4 模型評價

    在主題模型評價上,除了常規(guī)用于語言模型的困惑度評價指標外,鑒于本文專利實體抽取任務的特殊性,筆者采用另外一種模型評價方法,即對照實體標注數據的評價方法。

    (1)困惑度(perplexity)評價方法。困惑度是評價語言模型泛化能力的標準指標,其通用公式為(5),困惑度越小的模型泛化能力越強[32]。具體到PC-LDA模型中,對測試集中文檔Dtest的困惑度計算公式為(6)。其中G是坍縮吉布斯采樣方法的重復執(zhí)行次數,通過多次執(zhí)行坍縮吉布斯采樣方法然后求平均,以使困惑度結果相對穩(wěn)定;|Dtest|是測試集的文檔數量;|Sm|是測試文檔m所包含的技術分類號數量;θijg是在第g次折疊查詢時所推導出在技術分類號i上主題j的概率值。

    (2)對照實體標注的評價方法。隨著可公開獲取的專利文本標注數據集的日益增多,以專利實體標注作為金標準的評價方法成為可能。本文提供兩種匹配策略:①精確匹配,只有標注實體和主題詞完全一致時,才被認為是一次正確識別;②重疊匹配,只要標注實體和主題詞存在重疊詞匯,就被認為是一次正確識別。為清楚起見,以圖4中的句子為例加以說明,該句子包含3個實體,即inductive head、leading write pole、and trailing write pole. 根據精確匹配策略,只有inductive head被正確識別, 但當標準換成重疊匹配時,3個實體均被認為被正確識別出來。

    金標準 The inductive head includes a leading write pole and a trailing write pole

    主題詞 The inductive head includes a leading write pole and atrailing write pole

    4 實證分析/Experiment and result analysis

    4.1 實驗數據準備

    為驗證筆者提出的專利實體抽取方法的效果,本研究基于硬盤磁頭領域的專利標注數據集TFH-2020[3]展開實證分析,該數據集由美國專利商標局的1 010篇專利摘要經過人工精心標注而成。但由于該數據集中僅包含1 010篇專利摘要,數量偏少,又從美國專利商標局檢索平臺上另外檢索得到硬盤磁頭相關專利10 000件,將其中信息缺失、內容重復專利去除后,得到有效專利8 648件,將其作為訓練集,TFH-2020作為測試集,形成最終包含9 658條記錄的英文專利數據集TFH-2020-extention。

    在TFH-2020-extention中,用于標注的IPC號碼共8 781個,上鉆到大組、小類、大類、部層級后,分別包含IPC號碼2 360個、488個、129個和8個。以圖3為例加以說明,在該例中專利被分配了A1、A2、B1三個原始分類號,當將其上鉆到第二層級時該專利的分類號是A、B,繼續(xù)上鉆后分類號歸并為root。從中看到不同IPC號碼上的專利分布嚴重不均衡,以部層級為例,A-H中包含的專利數量分別為585個、2 092個、1 062個、79個、79個、273個、3 311個;下探到大類、小類、大組、小組后的專利分布情況如圖5(a)-(d)所示,其中橫軸是包含同一IPC號的專利數量,縱軸是具有相同專利數量的IPC號的數量。舉例來說,假設4個專利包含的IPC號分別是(A,B,C)、(B,C、D)、(A,C、D)、(D),那么包含A、B、C、D的專利數量就對應著橫軸坐標上的2、2、3、3,而具有相同專利數量2的IPC號的數量為2,具有相同專利數量3的IPC號的數量也為2,它們對應著縱軸上的相應坐標。從圖中可以看到,在這4個層次上大多數IPC只存在于5件專利以內,存在于1 000件專利以上的IPC數量在10以下。

    4.2 模型設置

    為探索各個主題模型在不同IPC層級上的效果,除了使用原始IPC標簽,筆者同時將IPC標簽上鉆到大組、小類級別,形成了IPC大組標簽和IPC小類標簽,以在不同層次分類號的處理策略下分別展開實證分析。在模型超參數設置上,按照慣例將α、β分別設置為0.5和0.1,迭代輪次設置為100。由于對照實體標注的評價方法需要將主題標簽分配到原始文本的每個詞匯,以識別命名實體并與金標準進行比對,所以文本預處理僅去除標點符號,不再執(zhí)行刪除停用詞、低頻詞、抽詞干等常規(guī)操作。

    4.3 模型評價

    4.3.1 困惑度評價

    在不同層次技術分類號的處理策略下,PC-LDA模型的困惑度變化曲線見圖6??梢婋S著IPC上鉆層次的提升,困惑度在不斷增長。IPC上鉆層次越高,專利中所包含的IPC號碼就越少,而困惑度通常會隨主題數量的減少而增長,反映到單一主題上來說,就是隨著IPC上鉆層次的提升,主題的指向愈發(fā)抽象、模糊,內容逐漸混雜。

    為進一步探索PC-LDA的主題抽取效果,隨機選出兩個技術標簽G11B5/596、H01L27/146及其上層標簽,并輸出這些標簽對應的重要詞匯(見表2)。從中可以明顯看到,高層級的IPC標簽,其主題內容多為沒有實際含義的冠詞、介詞、連詞等,而隨著層級的下探,相應主題愈發(fā)貼近具體技術內容。雖然低層次主題標簽對應的詞匯與PC-LDA的預期相符,但高層次主題標簽并沒有對應相關技術領域的寬泛概念,諸如G對應物理學的寬泛概念、H對應電學的寬泛概念并不相符。其原因在于文本預處理未將停用詞去除造成了對主題結果的干擾,為方便對比分析,將語料庫中的停用詞去掉后,重新訓練PC-LDA,得到G11B5/596、H01L27/146及其上層標簽對應的重要詞匯(見表3),從中不難發(fā)現G主題中signal、system、circuit、apparatus、device、output、include、first、data、signals占據排名前10的位置,H主題中film、thin、metal、substrate、least、amorphous、layer、electrode、said、device占據排名前10的位置,符合PC-LDA的設計預期。

    4.3.2 實體標注評價

    該評價方法利用實體識別的評價指標,即準確率、召回率和F1值來度量PC-LDA的性能表現。由前面所述得知,層級較高的IPC號中主題詞匯多為通用詞匯,其作用在于過濾無關詞匯;而層級較低的IPC號中主題詞匯偏向具體、細節(jié)的技術術語,具有一定的命名實體識別能力。因此,對照實體標注的模型評價從兩個方面開展:①沿用Recall@K的思路,探討在不同層級IPC號上,隨著K值的增加專利中重要性得分位于前K位置的詞匯在命名實體識別準確率、召回率和F1值上的變化情況;②確定K值,并將此時PC-LDA的命名實體識別效果與專利中常用的免標注命名實體識別方法,即SAO(Subject Action Object,主語—行為—賓語)方法進行對比分析,以評價PC-LDA的模型表現。

    (1)不同層級IPC號的命名實體識別。由于部、大類層級較高,所抽主題中無實際含義的詞匯較多,筆者將分析目標限定在層級較低的小類、大組、小組上(見圖7)。其中,精確匹配策略下命名實體識別的準確率、召回率和F1值隨K值變化情況見圖7(a)-(c),重疊匹配策略下的對應情況見圖7(d)-(f)。從中可見,無論是精確匹配策略還是重疊匹配策略,小類、大組層級的命名實體識別效果均相差細微,不僅如此,它們隨K值的變化情況也高度一致;與此相對,小類層級的命名實體識別效果要明顯優(yōu)于前兩者。從匹配策略上來說,不同匹配策略下命名實體識別效果的差別不大,以小組層級為例,它在精確匹配下的最優(yōu)召回率和F1值分別為9.73%和13.2%,而在重疊匹配下的最優(yōu)召回率和F1值分別為19.2%和26.1%,約為前者的2倍。由于小組準確率在重疊匹配策略和精確匹配下變化趨勢不同,所以這里不做比較。

    (2)PC-LDA與SAO的對比分析。選定K=100來獲取PC-LDA模型在命名實體識別上固定的準確率、召回率和F1值,以開展對比分析。之所以選擇K為100,是因為當取該值時除重疊匹配策略下的準確率外,PC-LDA在其他命名實體識別指標的得分均為最優(yōu)值。同時,筆者也用基線方法(SAO方法)對測試集進行命名實體識別,這些實驗結果匯總見表4。從中可見,與PC-LDA模型完全不同,SAO方法在不同匹配策略下的命名實體識別效果存在極大差異。在精確匹配策略下,SAO方法在3種命名實體識別指標上的得分均在4%以下;但在重疊匹配策略下,SAO方法卻在準確率和F1值上取得了最高值,即74.2%和41.4%。

    SAO方法的這種矛盾性表現反映了兩個事實:①命名實體的組成方式靈活多樣,但SAO方法僅將部分組成方式納入考量范圍,從而造成抽取結果準確率高、召回率低;②SAO方法雖然能有效識別存在于專利中的命名實體線索,

    但在根據這些線索判斷命名實體邊界時也引入了大量錯誤,并對識別準確度造成了災難性的影響??紤]到專利命名實體識別中精確匹配的價值遠大于重疊匹配,可以得出結論:在不需要命名實體標注語料的命名實體識別方法中,PC-LDA的效果要顯著優(yōu)于SAO方法。

    4.4 錯誤分析

    錯誤分析是智能算法研究中至關重要的步驟,能夠幫助研究者理解和識別模型預測失敗的原因,從而優(yōu)化模型性能。從表2中可以看出,模糊匹配模式下PC-LDA的命名實體識別效果約為精確匹配的2倍,這反映出PC-LDA在抽取實體時候容易出現邊界判斷錯誤的問題,同時實體識別的準確率也遠高于召回率。為深入探究這些現象,筆者分別在未去停用詞和去掉停用詞的語料庫中訓練PC-LDA,進而對比分析在精確匹配和重疊匹配模式下的實體抽取效果,其中IPC層次設置為小組,詳情見圖8。這里需要指出的是,由于PC-LDA中實體類型以IPC號碼表示,并非TFH-2020中人工設置的實體類型,因此需要利用召回率測度實體識別效果。

    從圖8中不難看出,當使用去掉停用詞后的語料訓練后,PC-LDA在實體識別效果普遍得到了提高,精確匹配模式下基于去掉停用詞的語料訓練的PC-LDA相比未去停用詞訓練的PC-LDA,其識別效果從13.2%提升至15.4%(F1值),而重疊匹配模式下的識別效果則從26.1%提升至30.1%(F1值)。這顯示出PC-LDA會在一定程度上將停用詞錯判為實體或實體的一部分。

    具體到單一專利文本上,這里以專利US4740855A為例,PC-LDA在該專利的摘要文本上所識別的重要詞匯如藍色字體所示。為方便對比,金標準中的實體用灰底方框標出。

    A magnetic thin-film head with layer-wise buildup on a nonmagnetic substrate is provided for a recording medium which can be magnetized perpendicularly (vertically), and contains a conduction body which carries the magnetic flux, and the magnet legs of which form a mainand an auxiliary pole. With these magnet legs which are arranged on the substrate with predetermined spacing side by side, a write/read coil windingis associated, the conductor turns of which extend through a spaceformed between the magnet legs. This magnetic head should be able to fly at a very small flying altitude above the recording and should at the same time be easy to realize in a thin film technique. To this end, it is provided that only the partially overlapping magnet legs serve as the magnetic conduction body, which are connected together in their common overlap zone, forming a magnetic return in a partial regionand are spaced outside of this return region, forming the intermediate space for the conductors.

    從上面結果可以觀察到3種錯誤類型:①完全漏標,如recording medium、small flying altitude、conductors等。②部分漏標,如magnetic thin-film head,其中head被遺漏;nonmagnetic substrate,其中substrate被遺漏。③將非實體的形容詞、副詞、動詞等標注出來,如main、vertically、fly、carries等。對于第前兩種錯誤類型,其原因在于使用IPC小組(在本專利US4740855A中,即G11B5/31和G11B5/127)對應的詞匯分布進行實體標注,使得標注內容更加關注技術具體細節(jié),但實際上有些實體(如recording medium、conductor)由較為宏觀、上位的詞匯構成,而這些詞匯存在于表1中G11B對應的詞匯或者表2的G、G11、G11B對應的詞匯列表中,因此在實體識別時,需要將不同層次技術分類號對應的重要詞匯進行綜合考量后,才能覆蓋更多不同特點的實體;對于第三種錯誤,其原因在于主題模型本身并未考慮詞匯的詞性屬性,但詞匯在構成實體時需要遵從一定的規(guī)則,比如實體必須是名詞或名詞性短語,形容詞、副詞、動詞無法獨自構成實體,因此在基于PC-LDA模型進行實體抽取時,需要輔以規(guī)則方法、通過后處理將不符合實體構成要求的識別結果排除掉。

    5 總結和前瞻/Conclusions and future work

    對專利文本進行實體識別以反映發(fā)明創(chuàng)新的實質內容是技術情報分析的基礎工作之一,然而在當前實體識別范式下,識別工作需要代價高昂的標注數據做支持才能獲得良好的效果,而且不同技術領域的標注數據也難以跨領域共用,從而限制了專利實體識別技術的應用和推廣。針對該問題,筆者利用PC-LDA主題模型抽取不同層次技術分類號所對應的主題—詞匯概率分布的特點,提出一種無需實體標注信息也可以進行專利實體抽取的方法,即利用低層級技術分類號所對應的重要詞匯中富含具體技術和實現細節(jié)的現象,將這些詞匯提取并拼接起來以實現無標注信息的專利文本實體自動識別。

    在基于公開專利數據基準TFH-2020的實證分析中,基于PC-LDA的實體識別方法展示出遠優(yōu)于SAO的性能;同時研究發(fā)現,低層級技術分類號所訓練出的PC-LDA在困惑度上要低于高層級技術分類號,而最低層級技術分類號(即IPC的小組層級)在這方面尤為明顯,基于最低技術分類號所訓練出的PC-LDA在實體識別正確率上也遠超其他層次技術分類號所訓練的PC-LDA。這也從一個側面反映出隨著技術層級分類體系的復雜化,最低層級技術分類號提供的信息量要遠大于其他層級,在這一層級上準確標注和識別出對應實體尤為重要。

    不過,基于PC-LDA的無標注專利實體識別方法的識別效果還有較大提升空間,尤其在實體識別召回率上,通過錯誤分析發(fā)現,其原因一方面在于部分實體由較為宏觀、上位的詞匯構成,這些詞匯并沒有出現在低層級技術分類號所對應的重要詞匯中,而是存在于其上位技術分類號所對應的重要詞匯中,因此在實體識別時,需要將不同層次技術分類號對應的重要詞匯綜合考量后,才能覆蓋更多不同特點的實體;另一方面,PC-LDA會將一些形容詞、副詞、動詞和無實際含義的虛詞識別為實體或實體的組成部分,因此需要使用規(guī)則或詞表方法來輔助PC-LDA方法,以進一步提升方法效果,這也是下一步工作的重點方向。

    參考文獻/References:

    [1] AKHONDI S A, KLENNER A G, TYRCHAN C, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): 1-8.

    [2] PéREZ-PéREZ M, PéREZ-RODRíGUEZ G, VAZQUEZ M, et al. Evaluation of chemical and gene/protein entity recognition systems at BioCreative V.5: the CEMP and GPRO patents tracks[EB/OL].[2024-07-22]. https://biocreative.bioinformatics.udel.edu/media/store/files/2017/BioCreative_V5_paper2.pdf.

    [3] CHEN L, XU S, ZHU L, et al. A deep learning based method for extracting semantic information from patent documents[J]. Scientometrics, 2020, 125(1): 289-312.

    [4] The Stanford Natural Language Processing Group. Stanford Named Entity Recognizer (NER)[EB/OL].[2024-06-08].http://nlp.stanford.edu/software/CRF-NER.shtml.

    [5] 英格索爾, 莫頓, 法里斯.駕馭文本:文本的發(fā)現、組織和處理[M].王斌, 譯.北京:電子工業(yè)出版社, 2015. (INGERSOLL G S, MORTON T S, FARRIS A L. Taming text: how to find, organize and manipulate it[M].Shelter Island: Manning Publications.)

    [6] DEWULF S. Directed variation of properties for new or improved function product DNA: a base for connect and develop[J]. Procedia engineering, 2011(9): 646-652.

    [7] PARK H, YOON J, KIM K. Identifying patent infringement using SAO based semantic technological similarities[J]. Scientometrics, 2012, 90(2): 515-529.

    [8] YANG S Y, SOO V W. Extract conceptual graphs from plain texts in patent claims[J]. Engineering applications of artificial intelligence, 2012, 25(4): 874-887.

    [9] CHOI S, KANG D, LIM J, et al. A fact-oriented ontological approach to SAO-based function modeling of patents for implementing function-based technology database[J]. Expert system with application, 2012, 39(10): 9129-9140.

    [10] 薛馳, 邱清盈, 馮培恩, 等. 機械產品專利作用結構知識提取方法研究[J]. 農業(yè)機械學報, 2013, 44(1): 222-229. (XUE C, QIU Q Y, FENG P E, et al. Acquisition method for principle solution of mechanical patent[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(1): 222-229.)

    [11] BERGMANN I, BUTZKE D, WALTER L, et al. Evaluating the risk of patent infringement by means of semantic patent analysis: the case of DNA chips[J]. R&D management, 2008, 38(5): 550-562.

    [12] YANG C, ZHU D, WANG X, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017, 112(3): 1229-1248.

    [13] MOEHRLE M G, WALTER L, GERITZ A, et al. Patent‐based inventor profiles as a basis for human resource decisions in research and development[J]. R&d management, 2005, 35(5): 513-524.

    [14] GUO J, WANG X, LI Q, et al. Subject-action-object-based morphology analysis for determining the direction of technological change[J]. Technological forecasting and social change, 2016, 105:27-40.

    [15] AN J, KIM K, MORTARA L, et al. Deriving technology intelligence from patents: preposition-based semantic analysis[J]. Journal of informetrics, 2018, 12(1): 217-236.

    [16] 胡菊香, 呂學強, 劉秀磊, 等.專利技術功效短語獲取研究[J].科學技術與工程, 2016, 16(14): 228-235.(HU J X, LV X Q, LIU X L, et al. Extracting technologies efficacy phrases of patent for research[J]. Science technology and engineering, 2016, 16(14): 228-235.)

    [17]馬建紅, 張明月, 趙亞男.面向創(chuàng)新設計的專利知識抽取方法[J].計算機應用, 2016, 36(2): 465-471.(MA J H, ZHANG M Y, ZHAO Y N. Patent knowledge extraction method for innovation design[J]. Journal of computer applications , 2016, 36(2): 465-471.)

    [18] YOON J, KO N, KIM J. A function-based knowledge base for technology intelligence[J].Industrial engineering & management systems, 2015, 14(1): 73-87.

    [19] HOI S, PARK H, KANG D, et al. An SAO-based text mining approach to building a technology tree for technology planning[J].Expert system with application, 2012, 39(13): 11443-11455.

    [20] 王琰炎, 王裴巖, 蔡東風.一種用于專利實體的實體消歧方法[J].沈陽航空航天大學學報, 2015, 32(1): 77-83.(WANG Y Y, WANG P Y, CAI D F. An entity disambiguation method for patent entity[J].Journal of Shenyang Aerospace University, 2015, 32(1): 77-83.)

    [21] WANG X, QIU P, ZHU D, et al. Identification of technology development trends based on subject-action-object analysis: the case of dye-sensitized solar cells[J].Technological forecasting and social change, 2015, 98: 24-46.

    [22] SAAD F. Named entity recognition for biomedical patent text using Bi-LSTM variants[C]//Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services. New York: ACM Press, 2019: 617-621.

    [23] ZHAI Z, NGUYEN D Q, AKHONDI S A, et al. Improving chemical named entity recognition in patents with contextualized word embeddings[J]. arXiv preprint, 2019, arXiv:1907.02679.

    [24] SABER A, ALEXANDER G K, CHRISTIAN T, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): e107477.

    [25] SABER A, HINNERK R, MARKUS S, et al. Automatic identification of relevant chemical compounds from patents[EB/OL]. [2024-06-30]. https://academic.oup.com/database/article-pdf/doi/10.1093/database/baz001/27636778/baz001.pdf.

    [26] 邢曉昭, 苑朋彬, 陳亮, 等.面向技術識別的專利實體抽取研究——以類腦智能領域為例[J].情報雜志, 2024, 43(6): 126-133, 144.(XING X Z, YUAN P B, CHEN L, et al. Research on patent entity extraction for technology recognition: a case study of brain-inspired intelligence[J].Journal of intelligence, 2024, 43(6): 126-133, 144.)

    [27] ZHANG H, ZHANG C, WANG Y, et al. Revealing the technology development of natural language processing: a scientific entity-centric perspective[J]. Information processing and management, 2024, 61(1): 103574.

    [28] 章成志, 謝雨欣, 張恒, 等.學術文獻全文內容中的方法實體細粒度抽取及演化分析研究[J].情報學報, 2023, 42(8): 952-966. (ZHANG C Z, XIE Y X, ZHANG H, et al. Extraction and evolution analysis of fine-grained method entities from full text of academic articles[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(8): 952-966.)

    [29] 白如江, 陳啟明, 張玉潔, 等.基于ChatGPT+Prompt的專利技術功效實體自動生成研究[J].數據分析與知識發(fā)現, 2024, 8(4): 14-25. ( BAI R J, CHEN Q M, ZHANG Y J, et al. Generating effectiveness entities of patent technology based on ChatGPT+Prompt[J]. Data analysis and knowledge discovery, 2024, 8(4): 14-25.)

    [30] 原之安, 彭甫镕, 谷波, 等. 面向標注數據稀缺專利文獻的科技實體抽取[J].鄭州大學學報(理學版), 2021, 53(4): 61-68. (YUAN Z A, PENG F R, GU B, et al. Technology entity extraction of patent literature with limited annotated data[J]. Journal of Zhengzhou University(natural science edition), 2021, 53(4): 61-68.)

    [31] 陳亮. 面向專利分析的Patent Classification LDA模型[J]. 情報學報, 2016, 35(8): 864-874. (CHEN L. Patent classification LDA: topic model for patent analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(8): 864-874.)

    [32] JELINEK F, MERCER R L, BAHL L R, et al. Perplexity: a measure of the difficulty of speech recognition tasks[J]. The journal of the Acoustical Society of America, 1977, 62(S1): S63-S63.

    作者貢獻說明/Author contributions:

    陳 亮:論文構思與方法設計,文獻調研,代碼編寫,實證分析和論文撰寫;

    尚瑋姣:論文思路梳理,實驗數據整理與分析,論文撰寫;

    余 池:文獻調研,材料整理和論文撰寫;

    牟 琳:文獻調研,專利數據集整理和統(tǒng)計,論文撰寫;

    夏春姊:文章審閱,提出修改意見及論文修改;

    葛 川:實體抽取相關算法的調研和梳理。

    Research on Unsupervised Patent Entity Extraction Method Assisted by Technology Classification Codes

    Chen Liang Shang Weijiao Yu Chi Mou Lin Xia Chunzi Ge Chuan

    1Institute of Scientific and Technical Information of China, Beijing 100038

    2Research Institute of Forestry Policy and Information, Chinese Academy of Forestry, Beijing 100091

    3Shanxi Center of Science and Technology Intelligence and Strategic Studies, Taiyuan 030032

    Abstract: [Purpose/Significance] Unsupervised method of patent entity extraction is capable of addressing the issue of previous methods that are highly dependent on labeled resources, thus promoting the widespread of artificial intelligence technology in the intellectual property field and improving the ability of patent information service. [Method/Process] By combining the inherent technology classification codes of patent documents with topic modeling, this study proposed a new method that utilizes patent classification code to guide the topic allocation process in patent text, thus extracting entities without annotation dataset. [Result/Conclusion] To demonstrate the advantages of our method, the empirical analysis was conducted using a patent dataset from the field of thin-film magnetic heads in hard disk drives, along with the IPC technology classification system. The experimental results show that there is a significant difference in the performance of entity extraction for different levels of technology classifications. Moreover, the entity extraction performance based on the fifth-level IPC technology classification code is far superior to the conventional Subject-Action-Object (SAO) method.

    Keywords: entity extraction topic model patent mining patent classification code

    Fund project(s): This work is supported by Shanxi Province Science and Technology Cooperation and Communication Special Project titled “Research and Development of Shanxi Province Research Project Similarity Monitoring Technology Based on Big Data and its Application Demonstration” (Granted No. 202204041101034).

    Author(s): Chen Liang, associate research fellow, PhD; Shang Weijiao, engineer, master; Yu Chi, master candidate; Mou Lin, senior engineer, PhD; Xia Chunzi, assistant research fellow, master; Ge Chuan, research fellow, master, corresponding author, E-mail: 10600491@qq.com.

    Received: 2024-03-12 Published: 2024-08-29

    国产爽快片一区二区三区| 亚洲熟女精品中文字幕| 亚洲精品色激情综合| 久久综合国产亚洲精品| 亚洲av免费高清在线观看| 亚洲国产成人一精品久久久| 国产毛片在线视频| 色综合色国产| 亚洲美女搞黄在线观看| 日本色播在线视频| 成人免费观看视频高清| 男女无遮挡免费网站观看| 精品一区二区三卡| 日韩在线高清观看一区二区三区| 精品酒店卫生间| 大陆偷拍与自拍| 欧美精品一区二区大全| 国产精品久久久久久久电影| 欧美最新免费一区二区三区| 国产精品.久久久| 久久99精品国语久久久| 久久久久久国产a免费观看| 国产精品熟女久久久久浪| 国产在线一区二区三区精| 欧美激情久久久久久爽电影| 国产 一区精品| 青春草亚洲视频在线观看| 国产成人aa在线观看| 国产精品麻豆人妻色哟哟久久| 人人妻人人澡人人爽人人夜夜| 精华霜和精华液先用哪个| 一级毛片久久久久久久久女| 国产视频内射| 日韩成人伦理影院| 国产亚洲5aaaaa淫片| 久久久精品94久久精品| 日韩 亚洲 欧美在线| 亚洲三级黄色毛片| 三级国产精品欧美在线观看| 中文精品一卡2卡3卡4更新| 国语对白做爰xxxⅹ性视频网站| 欧美高清性xxxxhd video| 国产欧美亚洲国产| 3wmmmm亚洲av在线观看| 少妇裸体淫交视频免费看高清| 青春草亚洲视频在线观看| 2018国产大陆天天弄谢| 中国国产av一级| 91精品伊人久久大香线蕉| 2021少妇久久久久久久久久久| 在线免费观看不下载黄p国产| 亚洲av不卡在线观看| 精品久久久噜噜| 日日摸夜夜添夜夜添av毛片| 国产高清不卡午夜福利| 永久网站在线| 久久久国产一区二区| 自拍偷自拍亚洲精品老妇| 777米奇影视久久| 毛片女人毛片| 99热这里只有是精品50| 国产免费福利视频在线观看| 亚洲自偷自拍三级| 一本一本综合久久| 中文字幕久久专区| 国产成人精品福利久久| 国产有黄有色有爽视频| 夜夜看夜夜爽夜夜摸| 午夜福利在线在线| 日日啪夜夜撸| av播播在线观看一区| 国产精品无大码| 天天躁夜夜躁狠狠久久av| 日产精品乱码卡一卡2卡三| 国产一区二区三区av在线| 久久久久久久久大av| 久久99热这里只频精品6学生| 免费看日本二区| 岛国毛片在线播放| 日韩精品有码人妻一区| 美女内射精品一级片tv| 建设人人有责人人尽责人人享有的 | 亚洲国产高清在线一区二区三| 最近最新中文字幕免费大全7| 婷婷色综合www| 国产色爽女视频免费观看| 一级毛片黄色毛片免费观看视频| 亚洲自偷自拍三级| 水蜜桃什么品种好| 国产又色又爽无遮挡免| 免费看a级黄色片| 国产精品女同一区二区软件| 女的被弄到高潮叫床怎么办| 午夜视频国产福利| 国产探花极品一区二区| av在线蜜桃| 黑人高潮一二区| 人妻少妇偷人精品九色| 亚洲精华国产精华液的使用体验| 国产亚洲5aaaaa淫片| 观看美女的网站| 中文字幕亚洲精品专区| 色综合色国产| 中国三级夫妇交换| 久久97久久精品| 丝袜美腿在线中文| 在线观看国产h片| 国模一区二区三区四区视频| 99热这里只有是精品在线观看| 熟女av电影| 亚洲精品日韩av片在线观看| 性插视频无遮挡在线免费观看| 亚洲av在线观看美女高潮| 精品国产露脸久久av麻豆| 一级片'在线观看视频| 乱系列少妇在线播放| 免费av观看视频| 国产精品无大码| 丝袜美腿在线中文| 男女那种视频在线观看| 男女边摸边吃奶| 久久人人爽av亚洲精品天堂 | 久久精品国产亚洲av涩爱| 看非洲黑人一级黄片| 亚洲国产最新在线播放| 亚洲三级黄色毛片| 免费看a级黄色片| 免费观看无遮挡的男女| 国产亚洲av片在线观看秒播厂| 制服丝袜香蕉在线| 久久ye,这里只有精品| 成人二区视频| 国产男女超爽视频在线观看| 黑人高潮一二区| 51国产日韩欧美| 国产伦在线观看视频一区| 免费播放大片免费观看视频在线观看| 亚洲欧美清纯卡通| 国产欧美日韩精品一区二区| 只有这里有精品99| 少妇猛男粗大的猛烈进出视频 | 男女国产视频网站| 国产一级毛片在线| 国产精品久久久久久久电影| 日韩制服骚丝袜av| 欧美日韩视频高清一区二区三区二| 一级毛片我不卡| 亚洲精品乱码久久久v下载方式| 白带黄色成豆腐渣| 在线观看三级黄色| 人妻系列 视频| 伦理电影大哥的女人| 七月丁香在线播放| 免费黄色在线免费观看| 亚洲国产日韩一区二区| 日日撸夜夜添| 国产中年淑女户外野战色| 十八禁网站网址无遮挡 | 国产 一区精品| 欧美成人一区二区免费高清观看| 青春草视频在线免费观看| 久久99精品国语久久久| 欧美成人一区二区免费高清观看| 精品久久久久久久人妻蜜臀av| 欧美日韩在线观看h| 能在线免费看毛片的网站| 免费人成在线观看视频色| 欧美亚洲 丝袜 人妻 在线| 卡戴珊不雅视频在线播放| 国产精品麻豆人妻色哟哟久久| 亚洲精品日韩在线中文字幕| 少妇猛男粗大的猛烈进出视频 | 综合色丁香网| 国产 一区 欧美 日韩| 久久久午夜欧美精品| 色播亚洲综合网| 一级爰片在线观看| 免费高清在线观看视频在线观看| 卡戴珊不雅视频在线播放| 国产探花在线观看一区二区| 久久国产乱子免费精品| 禁无遮挡网站| 中国美白少妇内射xxxbb| www.色视频.com| 亚洲国产精品成人久久小说| 看免费成人av毛片| 午夜激情久久久久久久| 男插女下体视频免费在线播放| 国产综合懂色| 中文欧美无线码| 亚洲精品久久午夜乱码| 尤物成人国产欧美一区二区三区| 日韩欧美 国产精品| 综合色av麻豆| 狠狠精品人妻久久久久久综合| 成人高潮视频无遮挡免费网站| 亚洲国产av新网站| 热99国产精品久久久久久7| 日韩一区二区视频免费看| 蜜臀久久99精品久久宅男| 午夜亚洲福利在线播放| 国产91av在线免费观看| 欧美三级亚洲精品| 成人特级av手机在线观看| 韩国av在线不卡| 日韩成人伦理影院| 国产伦精品一区二区三区视频9| 国产精品嫩草影院av在线观看| 久久久精品免费免费高清| 日本色播在线视频| av国产久精品久网站免费入址| av在线老鸭窝| 国产黄色免费在线视频| 在线观看免费高清a一片| 亚洲av成人精品一区久久| 日韩一本色道免费dvd| 校园人妻丝袜中文字幕| 老师上课跳d突然被开到最大视频| 国产爱豆传媒在线观看| 免费观看无遮挡的男女| 日韩电影二区| 国产一区二区三区av在线| 欧美成人一区二区免费高清观看| 久久久精品免费免费高清| 婷婷色综合大香蕉| 国产老妇伦熟女老妇高清| 中文资源天堂在线| 美女国产视频在线观看| 亚洲欧美一区二区三区国产| 久久鲁丝午夜福利片| 亚洲怡红院男人天堂| 国产精品久久久久久精品电影小说 | 网址你懂的国产日韩在线| 亚洲国产精品专区欧美| 日韩一区二区三区影片| 亚洲国产高清在线一区二区三| 综合色丁香网| 日韩一区二区视频免费看| 亚洲国产av新网站| 成人鲁丝片一二三区免费| 国产精品一区二区性色av| 欧美激情在线99| 日韩一区二区视频免费看| 亚洲伊人久久精品综合| 亚洲成人一二三区av| 在线看a的网站| 久久97久久精品| 秋霞伦理黄片| 国产精品偷伦视频观看了| 一级毛片久久久久久久久女| 欧美极品一区二区三区四区| 最近中文字幕2019免费版| 丰满人妻一区二区三区视频av| 成人二区视频| 久久精品人妻少妇| 春色校园在线视频观看| 亚洲欧美日韩东京热| 久久久久久久午夜电影| 99热这里只有是精品50| 草草在线视频免费看| 麻豆乱淫一区二区| 午夜福利网站1000一区二区三区| 卡戴珊不雅视频在线播放| 成人午夜精彩视频在线观看| 亚洲av免费在线观看| 老司机影院成人| 亚洲丝袜综合中文字幕| 热99国产精品久久久久久7| 久久久久性生活片| 亚洲av二区三区四区| 免费不卡的大黄色大毛片视频在线观看| 在线 av 中文字幕| 日日摸夜夜添夜夜添av毛片| 精品国产乱码久久久久久小说| 69av精品久久久久久| 直男gayav资源| 亚洲av日韩在线播放| 色哟哟·www| 欧美 日韩 精品 国产| 夜夜看夜夜爽夜夜摸| 久久人人爽人人爽人人片va| 在线免费十八禁| 美女被艹到高潮喷水动态| 91午夜精品亚洲一区二区三区| videossex国产| 日本熟妇午夜| 国产精品女同一区二区软件| 国产午夜精品一二区理论片| 亚洲内射少妇av| 观看免费一级毛片| 99热国产这里只有精品6| 99热6这里只有精品| 欧美三级亚洲精品| 能在线免费看毛片的网站| 国产毛片a区久久久久| 我要看日韩黄色一级片| 亚洲丝袜综合中文字幕| 在线观看三级黄色| 老女人水多毛片| 少妇人妻 视频| 欧美丝袜亚洲另类| 日韩欧美 国产精品| 成人无遮挡网站| 伦精品一区二区三区| 麻豆国产97在线/欧美| 国产高清三级在线| 精品一区二区免费观看| 欧美极品一区二区三区四区| 亚洲成人中文字幕在线播放| 超碰97精品在线观看| 国产爱豆传媒在线观看| 一本一本综合久久| 插逼视频在线观看| 大片免费播放器 马上看| 伊人久久精品亚洲午夜| 欧美性猛交╳xxx乱大交人| 国产探花在线观看一区二区| 又粗又硬又长又爽又黄的视频| 精品亚洲乱码少妇综合久久| 少妇被粗大猛烈的视频| 国产精品久久久久久精品古装| 国产乱人视频| 亚洲欧美中文字幕日韩二区| 国产午夜福利久久久久久| 久久午夜福利片| www.av在线官网国产| 青青草视频在线视频观看| 亚洲精品一二三| 一级a做视频免费观看| 国产成人a区在线观看| 色吧在线观看| 97在线人人人人妻| 国产成人91sexporn| 成年av动漫网址| 哪个播放器可以免费观看大片| 色视频www国产| 亚洲精品自拍成人| 亚洲精品成人av观看孕妇| 成人毛片a级毛片在线播放| 亚洲精品日本国产第一区| 亚洲第一区二区三区不卡| 亚洲精品国产av成人精品| 三级经典国产精品| 国产精品久久久久久av不卡| 亚洲成色77777| 91精品伊人久久大香线蕉| 欧美激情久久久久久爽电影| 丝袜美腿在线中文| 亚洲av二区三区四区| 亚洲成人中文字幕在线播放| 国产精品久久久久久久久免| 深夜a级毛片| 又爽又黄无遮挡网站| 国产黄频视频在线观看| 国产视频内射| 欧美日韩在线观看h| 成人鲁丝片一二三区免费| 一区二区三区精品91| 国产中年淑女户外野战色| 亚洲激情五月婷婷啪啪| 久久精品国产亚洲网站| 国产精品成人在线| 美女视频免费永久观看网站| 成人黄色视频免费在线看| 成人鲁丝片一二三区免费| 国产午夜精品久久久久久一区二区三区| 国产视频内射| 国产 一区精品| 91精品国产九色| 日韩欧美精品v在线| 超碰97精品在线观看| 少妇人妻一区二区三区视频| 免费看日本二区| 美女主播在线视频| 在线亚洲精品国产二区图片欧美 | 免费看av在线观看网站| 自拍偷自拍亚洲精品老妇| 免费在线观看成人毛片| 亚洲精品,欧美精品| 韩国高清视频一区二区三区| 亚洲自拍偷在线| 嘟嘟电影网在线观看| 国产一区二区三区av在线| 国产69精品久久久久777片| 亚洲欧美日韩无卡精品| 晚上一个人看的免费电影| 97人妻精品一区二区三区麻豆| 嘟嘟电影网在线观看| 欧美日韩精品成人综合77777| 在线亚洲精品国产二区图片欧美 | 成年女人在线观看亚洲视频 | 国产白丝娇喘喷水9色精品| 天天躁日日操中文字幕| 国产老妇女一区| 精品久久久久久久末码| 精品熟女少妇av免费看| 久久久久网色| freevideosex欧美| 美女视频免费永久观看网站| 亚洲美女视频黄频| 中文在线观看免费www的网站| 久久久久久久久大av| 国产精品麻豆人妻色哟哟久久| 国产男人的电影天堂91| 午夜免费男女啪啪视频观看| 国产一区亚洲一区在线观看| 香蕉精品网在线| 肉色欧美久久久久久久蜜桃 | 欧美日本视频| 一本色道久久久久久精品综合| 又爽又黄a免费视频| 99久久中文字幕三级久久日本| 老师上课跳d突然被开到最大视频| 亚洲精品色激情综合| 可以在线观看毛片的网站| 夫妻午夜视频| 久久久久久久久久成人| 午夜福利视频精品| 国产av码专区亚洲av| 免费观看的影片在线观看| 日本黄大片高清| 亚洲人与动物交配视频| av播播在线观看一区| 中文字幕制服av| 少妇人妻久久综合中文| 一级爰片在线观看| 久久ye,这里只有精品| 精品少妇黑人巨大在线播放| 卡戴珊不雅视频在线播放| 欧美区成人在线视频| 色婷婷久久久亚洲欧美| 欧美亚洲 丝袜 人妻 在线| 国产精品久久久久久久久免| 久久久久久久久大av| 成人综合一区亚洲| 我要看日韩黄色一级片| 成人免费观看视频高清| 亚洲av免费高清在线观看| 91午夜精品亚洲一区二区三区| 韩国高清视频一区二区三区| 亚洲美女视频黄频| 男人添女人高潮全过程视频| 国产精品女同一区二区软件| 人人妻人人澡人人爽人人夜夜| 禁无遮挡网站| 国产极品天堂在线| 午夜精品国产一区二区电影 | 欧美成人精品欧美一级黄| 亚洲欧洲国产日韩| 欧美97在线视频| 综合色av麻豆| 成年版毛片免费区| 一本一本综合久久| 国产精品成人在线| 国产乱人偷精品视频| 五月玫瑰六月丁香| 中国美白少妇内射xxxbb| 国产成人免费无遮挡视频| 一级毛片黄色毛片免费观看视频| 97精品久久久久久久久久精品| 亚洲欧美精品专区久久| 成人二区视频| 国产 一区精品| a级毛色黄片| 亚洲精品自拍成人| 国产精品嫩草影院av在线观看| 国产av码专区亚洲av| 男人和女人高潮做爰伦理| 成人毛片a级毛片在线播放| 性色av一级| 又大又黄又爽视频免费| 欧美97在线视频| 美女xxoo啪啪120秒动态图| 亚洲经典国产精华液单| 简卡轻食公司| 欧美日韩精品成人综合77777| 国产久久久一区二区三区| 看非洲黑人一级黄片| 欧美性猛交╳xxx乱大交人| 97在线视频观看| 成年女人看的毛片在线观看| 亚洲av不卡在线观看| 婷婷色综合大香蕉| 内地一区二区视频在线| 99久久精品热视频| 久久久a久久爽久久v久久| 又爽又黄无遮挡网站| 美女主播在线视频| 成人二区视频| 日本午夜av视频| 免费看日本二区| 男女下面进入的视频免费午夜| 日本三级黄在线观看| 最近最新中文字幕免费大全7| 亚洲在线观看片| 亚洲自偷自拍三级| 美女视频免费永久观看网站| av播播在线观看一区| 中文字幕亚洲精品专区| www.色视频.com| 亚洲av成人精品一区久久| 一边亲一边摸免费视频| 小蜜桃在线观看免费完整版高清| 久久久精品94久久精品| 免费人成在线观看视频色| 国产av不卡久久| 大又大粗又爽又黄少妇毛片口| 亚州av有码| 国产日韩欧美在线精品| 国产成年人精品一区二区| 国产 一区 欧美 日韩| 中国三级夫妇交换| 久久久a久久爽久久v久久| 国产精品人妻久久久影院| 天堂网av新在线| 2018国产大陆天天弄谢| 欧美潮喷喷水| 国产亚洲午夜精品一区二区久久 | 欧美亚洲 丝袜 人妻 在线| 免费在线观看成人毛片| 欧美亚洲 丝袜 人妻 在线| 国产视频内射| 国产精品无大码| 国产v大片淫在线免费观看| 少妇人妻一区二区三区视频| 欧美 日韩 精品 国产| 亚洲成人中文字幕在线播放| 亚洲av不卡在线观看| 亚洲av成人精品一二三区| 亚洲国产精品国产精品| 美女国产视频在线观看| 丝袜喷水一区| 欧美精品国产亚洲| 欧美潮喷喷水| 精品少妇久久久久久888优播| 国产午夜福利久久久久久| 亚洲成人一二三区av| 国产一区亚洲一区在线观看| 国产成人freesex在线| 国产亚洲av嫩草精品影院| 国产真实伦视频高清在线观看| 一级爰片在线观看| av国产精品久久久久影院| 亚洲欧美精品自产自拍| 国产精品蜜桃在线观看| 麻豆国产97在线/欧美| 久久久久久久久久久免费av| 最近2019中文字幕mv第一页| 亚洲美女视频黄频| 亚洲精华国产精华液的使用体验| 一区二区三区乱码不卡18| 免费高清在线观看视频在线观看| 久久久a久久爽久久v久久| 少妇裸体淫交视频免费看高清| 亚洲欧美一区二区三区黑人 | 麻豆精品久久久久久蜜桃| 久久久久久伊人网av| 国产伦理片在线播放av一区| 2021少妇久久久久久久久久久| 成人黄色视频免费在线看| 国产探花在线观看一区二区| 国产免费视频播放在线视频| 亚洲精品日韩在线中文字幕| 老女人水多毛片| 精品少妇久久久久久888优播| 1000部很黄的大片| 在线亚洲精品国产二区图片欧美 | 女人久久www免费人成看片| 欧美xxxx性猛交bbbb| 久久久久久伊人网av| 伦精品一区二区三区| 亚洲精品日本国产第一区| 日韩精品有码人妻一区| 国产精品人妻久久久久久| 美女cb高潮喷水在线观看| 国产精品无大码| 精品视频人人做人人爽| 亚洲内射少妇av| 国产毛片在线视频| av卡一久久| 18+在线观看网站| av在线亚洲专区| 一区二区三区四区激情视频| 午夜福利在线观看免费完整高清在| 久久ye,这里只有精品| 国产白丝娇喘喷水9色精品| 精品一区二区三区视频在线| 亚洲av中文av极速乱| 熟妇人妻不卡中文字幕| 高清日韩中文字幕在线| 精品一区二区三卡| 久久ye,这里只有精品| 看十八女毛片水多多多| 成年人午夜在线观看视频| 久久99蜜桃精品久久| 亚洲精品乱码久久久v下载方式| 亚洲国产欧美在线一区| 人人妻人人看人人澡| 69av精品久久久久久| 国内精品美女久久久久久| 人妻系列 视频| 日韩制服骚丝袜av| a级一级毛片免费在线观看| 免费观看性生交大片5| 国产有黄有色有爽视频| 少妇熟女欧美另类| 亚洲国产av新网站| 秋霞伦理黄片| 欧美激情在线99| 午夜福利网站1000一区二区三区| 啦啦啦啦在线视频资源| 我的女老师完整版在线观看| 久久久欧美国产精品| 亚洲aⅴ乱码一区二区在线播放| 免费观看av网站的网址|