陳梅婕,謝振平*,陳曉琪,許 鵬
(1. 江南大學數(shù)字媒體學院,江蘇無錫214122; 2. 江蘇省媒體設計與軟件技術重點實驗室(江南大學),江蘇無錫214122;3. 常州佰騰科技有限公司,江蘇常州213164)
(*通信作者電子郵箱xiezhenping@hotmail.com)
據(jù)《專利法》第22 條中規(guī)定“授予專利權的發(fā)明和實用新型,應當具備新穎性、創(chuàng)造性和實用性”。由此可見新穎性是專利的重要原則,而由自然語言來表達專利所涉及的新穎技術或新穎概念時,新詞成為專利文獻中的關鍵要素,因此,新詞發(fā)現(xiàn)是對專利文獻智能分析的必要環(huán)節(jié)。
根據(jù)對專利文獻的觀察,上述新詞在專利文獻中通常表現(xiàn)為復合形式的長詞語[1],同時,專利文獻還普遍具有用詞規(guī)范與敘述結構明確的特點。針對以上分析,研究提出一種基于雙向聚合度特征的專利新詞發(fā)現(xiàn)方法。新方法中,首先對于二元詞,在引入雙向條件概率的基礎上,結合詞頻與詞語搭配,構造了一種雙向聚合度統(tǒng)計特征,再基于上述特征擴展提出詞邊界篩選規(guī)則,最后融合統(tǒng)計特征與規(guī)則設計了新詞發(fā)現(xiàn)算法以提取出專利新詞。
新詞發(fā)現(xiàn)是自然語言處理技術的重要組成[2],大量出現(xiàn)的新詞對中文文檔的分詞、關鍵詞提取及用戶詞典構建等諸多方面形成不利影響[3]。
目前用于中文新詞發(fā)現(xiàn)的方法主要有:1)基于統(tǒng)計的方法;2)基于規(guī)則的方法;3)基于統(tǒng)計與規(guī)則相融合的方法[4]。基于統(tǒng)計的方法多指對實驗語料中詞串的組成及其特征表象進行統(tǒng)計[5],常見模型包括N-gram、支持向量機(Support Vector Machine,SVM)[6]、隱馬爾可夫模型(Hidden Markov Model,HMM)[7]、最大熵(Maximum Entropy,ME)模型[8]以及條件隨機場(Conditional Random Field,CRF)模型[9]等,但純統(tǒng)計方法相對更適合查找較短詞串;基于規(guī)則的方法多指利用詞性特征來構建模板進行詞串匹配[10],但基于規(guī)則的方法存在人工依賴問題并且通常存在規(guī)則局限性[11];基于統(tǒng)計與規(guī)則相融合的方法是當前主流方法,夭榮朋等[12]在N-gram 模型基礎上提出了MBN-gram(N-gram based on Mutual information and Branch Entropy)算法,其中,采用改進的互信息進行候選項過濾,再使用鄰接熵實施擴展與篩選;歐陽柳波等[13]針對不能有效識別領域組合詞的問題,提出一種位置標簽與詞性相結合的組合詞抽取方法;周霜霜等[14]利用互信息和鄰接熵重構C/NC-value(C-value,NC-value)方法,融合人工構建的啟發(fā)式規(guī)則庫抽取新詞并作為訓練集;張華平等[15]在互信息特征中引入二元語法模型(Binary gram,Bi-gram)模型,提出了類互信息的計算方法,進一步使用Bi-gram 模型進行語料重切分,并結合統(tǒng)計特征提取新詞。除上述三類方法外,還存在結合深度學習的序列標注方法,馬建紅等[16]融合卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)、長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)抽取的字、詞特征及引入的片段整體特征生成片段特征,再使用半馬爾可夫條件隨機場(Semi-Markov Conditional Random Field,SCRF)同時完成實體邊界識別和分類;劉昱彤等[17]由改進的類Apriori 算法生成候選項集,通過Bi-LSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field)得到二字字串的切分概率,并利用候選項內部與邊界切分概率的相關規(guī)則篩選出新詞。
目前,針對中文專利的新詞發(fā)現(xiàn)問題,相關的有監(jiān)督模型研究需要大量數(shù)據(jù)作為先驗知識[18-19],并且這些經(jīng)驗標注數(shù)據(jù)集或詞庫主要靠人工方式生成,也還較少有相關公開的標準知識素材庫。因此,考慮大規(guī)模專利新詞發(fā)現(xiàn)的實用性,專利新詞發(fā)現(xiàn)算法應當更多地避免對先驗監(jiān)督知識的依賴[20]。相關的無監(jiān)督模型研究中,趙飛龍等[21]首先對專利文檔采用特定詞性搭配模板得到候選項集,進一步將候選項內詞的同現(xiàn)率作為特征來獲取新詞,一定程度地應對了分詞結果的準確性問題;楊雙龍等[1]提出從專利文檔標題內自動提取的術語詞性搭配規(guī)則,對正文部分采用詞性規(guī)則得到候選術語,同時提出TermRank 排序算法截取一定數(shù)量的候選術語作為最終結果,并驗證了該方法有效。
隨著專利文獻知識的大量產(chǎn)生,相關詞匯的多樣性與復雜性也將隨之提升,詞性規(guī)則的泛化能力必然受到局限。本文重點考慮中文專利新詞發(fā)現(xiàn)的無監(jiān)督方法,以專利新詞統(tǒng)計特征的構造為核心,研究探索新的專利新詞發(fā)現(xiàn)方法。
針對專利新詞具有通常具有較高復合度的特點,考慮構造一種基于雙向條件概念的專利新詞聚合度特征描述新方法,相應的新詞發(fā)現(xiàn)框架如圖1所示。
圖1 本文模型框架Fig. 1 Framework of the proposed model
專利二元詞指兩個單文字組成的二字詞,對于任意二元詞wiwj,傳統(tǒng)條件概率遵循Bi-gram 模型思想,即認為當前字僅與前一個字相關,該模型中的條件概率表示為
其中:fi為wi的頻次,fij為wiwj的頻次。
但通常地,首字wi和尾字wj并不相同,則fi和fj也有所不同,而式(1)中只考慮了fi作為條件。由此,首先引入二元詞的雙向條件概率統(tǒng)計描述[22],分別為前向條件概率與后向條件概率:
1)前向條件概率可表示為式(1)
2)后向條件概率可表示為式(2)
通過對專利文檔觀察可得:1)條件概率僅可視作二元詞的局部特征;2)大部分停用字的前后搭配較豐富,對應文字的搭配數(shù)量較多。因此,針對1),可將二元詞詞頻作為全局特征彌補條件概率的局限性,但其缺陷在于“高頻錯詞”問題,即該特征會突出“的是”“有一”等無意義的高頻錯誤詞串,然而通過觀察可知,此類高頻詞串大多包含停用字,根據(jù)2),可利用搭配數(shù)量特征削弱“高頻錯詞”問題的影響。
綜上所述,在定義了雙向條件概率的基礎上,本文結合詞頻及搭配數(shù)量特征,設計二元詞的雙向聚合度,分別為前向聚合度與后向聚合度:
1)前向聚合度可表示為式(3):
其中:α→為如式(5)的歸一化因子,di→為首字wi的搭配數(shù)量,即有di→種具有相同首字wi的不同二元詞。
2)后向聚合度可表示為式(4):
其中:α←為如式(6)的歸一化因子,dj←為尾字wj的搭配數(shù)量,即有dj←種具有相同尾字wj的不同二元詞。
其中:dmax→為各首字搭配數(shù)量中的最大值,dmax←為各尾字搭配數(shù)量中的最大值,fmax為文檔樣本內二元詞詞頻的最大值。
借鑒鄰接熵思想,本文利用前、后向聚合度差值解析新詞詞邊界特征,設計提出可作用于新詞候選項過濾篩選的詞邊界規(guī)則。
首先,將單個文字分為左邊界文字、右邊界文字以及非邊界文字。具體地,假設一字串為wiwjwk,則對于wj有如下3 種情況:
1)當b(wiwj)-b(wjwk)≥θ時,wj為右邊界文字;
2)當b(wiwj)-b(wjwk)≤-θ時,wj為左邊界文字;
3)否則,wj為非邊界文字。
其中θ為詞邊界篩選閾值,且對于任意wiwj,b(wiwj)的定義如式(7):
此外:若wj本身處于句首,則默認其為左邊界文字;若本身處于句尾,則默認其為右邊界文字。
最后,將詞邊界規(guī)則定義為:當候選項字串同時滿足以下條件1)、2)時,保留此候選項,否則過濾此候選項:
1)候選項字串的第一個文字為左邊界文字;
2)候選項字串的最后一個文字為右邊界文字。
首先,對文本進行預處理操作,即在文本中匹配停用詞,進而使用停用詞作為切分符,對文本進行粗切分,得到由一系列文本片段組成的文本片段集。本文中,停用詞由手工抽取,部分停用詞如表1所示。
表1 停用詞示例Tab. 1 Examples of stop words
然后,對文本片段集中的每個文本片段,采用滑動窗法計算n元詞權重,計算方法如式(8)、(9):
其中:n為窗口大小,同時,結合詞邊界規(guī)則提取候選項。
進一步地,引入詞頻閾值δ1與集合容量閾值δ2,設計形成如下的專利新詞發(fā)現(xiàn)新算法。
算法1 本文專利新詞發(fā)現(xiàn)算法。
最后,將由新詞發(fā)現(xiàn)算法抽取的候選新詞與詞庫中的已有詞項進行比較,最終輸出未記錄的專利術語新詞。
本文實驗所采用的專利文檔語料由江蘇佰騰科技有限公司提供。實驗中單篇專利文檔由對應專利文獻中的6 個部分(專利名稱、摘要、權利要求、技術領域、背景技術、發(fā)明目的)組合而成。
專利文獻中的技術特征對專利新穎性判斷具有重要作用[23],在專利法律制度中,技術特征是構成發(fā)明或者實用新型專利技術方案的組成要素,也包括要素之間的相互關系[24]。同時,在《專利法實施細則》第十九條中規(guī)定“權利要求書應當記載發(fā)明或者實用新型的技術特征”以及“權利要求中的技術特征可以引用說明書附圖中相應的標記,該標記應當放在相應的技術特征后并置于括號內,便于理解權利要求。附圖標記不得解釋為對權利要求的限制”。因此,為考慮實驗的可比較性與合理性,本文依據(jù)上述規(guī)范,在語料庫中抽取一定數(shù)量的專利文檔以構建實驗數(shù)據(jù)集。所抽取文檔的附圖說明中均包含具有對應附圖標記的技術特征詞(如圖2 所示),并在其權利要求書中均含有相應的引用,進一步地,在上述技術特征詞中提取長度不超過9 字的詞語,作為相應實驗文檔的標準新詞結果,并在現(xiàn)有詞庫中對以上詞語的匹配項進行剔除。具體地,本實驗在語料庫中抽取2 300 篇專利文檔,其中標準新詞總計22 762 個,并將這些專利文檔隨機地均勻劃分為參數(shù)訓練集和應用測試集。
圖2 實驗所用專利文獻的附圖說明示例Fig. 2 Example of appended drawing in patent document in experiments
實驗采用常用的3 個測評指標作為評價標準,分別為新詞發(fā)現(xiàn)的準確率(Precision)、召回率(Recall)和F-測度值(Fscore),相應定義如下:
其中:M為新詞發(fā)現(xiàn)模型判別生成的新詞結果集合,B為標準結果集。準確率能夠衡量模型評估新詞的精確度,召回率能夠衡量模型對新詞發(fā)現(xiàn)的信息覆蓋率,F(xiàn)-測度值能夠平衡準確率和召回率影響,較為全面地評價模型性能。
使用參數(shù)訓練集對本文模型進行參數(shù)分析,需要分析的參數(shù)分別為滑動窗口最大值、詞頻閾值δ1、集合容量閾值δ2及詞邊界篩選閾值θ,各參數(shù)相互獨立。其中,模型生成的新詞數(shù)量與δ1、δ2及θ的參數(shù)值呈負相關,因此,本實驗中均以最優(yōu)的F-測度值結果來確定其最優(yōu)參數(shù)值,實驗結果如圖3(a)~(c)所示。具體分析如下:
1)滑動窗口最大值。
由于本實驗針對長度不超過9 字的專利詞語,因此考慮滑動窗口最大值為9。
2)詞頻閾值δ1。
在設置δ2為3、θ為0.2 的情況下,實驗將δ1分別設置為1、2、3、4、5、相應文本中二元詞詞頻均值,其中,相應文本中二元詞詞頻均值的策略主要考慮不同專利文本的篇幅情況各異,單純數(shù)值參數(shù)可能缺乏自適應性。
由圖3(a)可見,當δ1為相應文本中二元詞詞頻均值時,模型具有相對最高的F-測度值。
3)集合容量閾值δ2。
在設置δ1為相應文本中二元詞詞頻均值、θ為0.2的情況下,實驗將δ2分別設置為1、2、3、4、5、6。
由圖3(b)可見,當δ2為3 時,模型具有相對最高的F-測度值。
4)詞邊界篩選閾值θ。
在設置δ1為相應文本中二元詞詞頻均值、δ2為3 的情況下,實驗將θ分別設置為0.1、0.2、0.3、0.4、0.5、0.6。
由圖3(c)可見,當θ取值0.4 或0.5 時,模型的F-測度值相對最高,由于在θ為0.4時,已達到F-測度值上升臨界點,本文考慮θ為0.4時得到最優(yōu)測評結果。
圖3 不同參數(shù)的模型性能影響情況Fig. 3 Performance results of model with different parameters
綜上所述,得到δ1為相應文本中二元詞詞頻均值、δ2為3、θ為0.4的最優(yōu)參數(shù)設置結果。
基于3.3 節(jié)的模型參數(shù)結果,進一步使用應用測試集,將3 個相關方法作為對比方法,與本文模型進行新詞發(fā)現(xiàn)結果對比實驗分析。具體地,對比方法Ⅰ為中科院北京計算所漢語詞法分析系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)的新詞發(fā)現(xiàn)工具,對比方法Ⅱ為文獻[1]中提出的新詞發(fā)現(xiàn)方法,對比方法Ⅲ為文獻[21]中提出的新詞發(fā)現(xiàn)方法。對比實驗中,對比方法Ⅱ、對比方法Ⅲ所需的分詞結果均使用ICTCLAS分詞系統(tǒng)生成。
首先,對應用測試集中的每篇文檔,將不同算法的全部新詞結果作基準進行性能分析;其次,對比分析各模型在不同長度新詞上的性能結果。在應用測試集中,不同詞長l的新詞數(shù)量分布如表2所示,其中l(wèi)∈[2,9]。
表2 按詞語長度劃分的新詞數(shù)量分布Tab. 2 Distribution on word length of new words in experimental dataset
對于全部新詞,各模型識別結果對應的準確率、召回率和F-測度值如圖4所示,縱軸為測評指標值。
圖4 對比算法在全部新詞上的發(fā)現(xiàn)性能Fig. 4 Discovery performance of the algorithms for comparison on all new words
圖4 顯示,本文模型基于使用參數(shù)訓練集得到的模型參數(shù),在應用測試集上也達到了相對穩(wěn)定的測評結果,表明本文模型具備良好的泛化能力。同時,與其他3 種方法相比,本文在準確率方面分別提高了4.1、20.7及16.8個百分點,在召回率方面分別提高了9.1、7.6 及11.4 個百分點,在F-測度值方面分別提高了6.7、19.2 及17.2 個百分點??梢姳疚哪P驮诟鳒y評指標值上都獲得了一定的性能提高,達到了相對更優(yōu)的效果,初步說明了本文模型的有效性。
對于不同長度的新詞,各模型識別結果對應的準確率、召回率和F-測度值分別如圖5(a)~(c)所示,圖中橫軸均為詞語所含字數(shù),縱軸為測評指標值。
圖5 對比算法在不同長度新詞上的發(fā)現(xiàn)性能Fig. 5 Discovery performance of the algorithms for comparison on new words with different lengths
圖5(a)~(c)顯示,由于本模型中的權重計算對于短詞語的獨立抽取具有一定抑制性,因此對短詞的測評結果不突出,但對長詞的測評結果明顯良好。具體地,本文模型在2 字新詞的評測結果上低于對比方法Ⅰ,但優(yōu)于對比方法Ⅱ、對比方法Ⅲ,而對比方法Ⅱ、對比方法Ⅲ在4 字新詞的召回率上有明顯優(yōu)勢,但其準確率與F-測度值均低于對比方法Ⅰ與本文模型;同時,根據(jù)F-測度值結果,本文模型明顯提升了發(fā)現(xiàn)4~8字新詞的綜合性能,并且在5~8 字新詞的各評測結果上均保持一定優(yōu)勢,說明本文模型對長專利新詞具有較優(yōu)兼顧能力,對比方法Ⅱ的長專利新詞發(fā)現(xiàn)結果也相對較優(yōu),尤其在9 字新詞的準確率與F-測度值上均高于其他模型,但在召回率上低于對比方法Ⅰ與本文模型,而本文模型能夠在識別9 字新詞的總體性能上高于對比方法Ⅰ。同時,對比方法Ⅰ與本文模型對詞長的敏感性相對較弱,體現(xiàn)出了統(tǒng)計特征的自適應能力。
為進一步說明本文模型的有效性,對于5~8 字新詞,各模型識別結果對應的準確率、召回率和F-測度值如圖6 所示,縱軸為測評指標值。
圖6 對比算法在5-8字新詞上的發(fā)現(xiàn)性能Fig. 6 Discovery performance of the algorithms for comparison on new words with 5-8 characters
圖6 顯示,本文模型相比于其他方法具有顯著優(yōu)勢,說明本文模型對于5~8 字新詞的發(fā)現(xiàn)更加具備有效性,也體現(xiàn)了本文模型在專利新詞發(fā)現(xiàn)任務中的適用性特點。
最后,本實驗在標準結果集中抽選10 個具有5 字及以上長度的新詞作為實例分析對象,由表3 列出文中對比模型的相應識別結果,其首列為標準新詞項,其余五列分別為對應模型結果中能夠覆蓋標準項的最長詞串。其中,使用粗體標出的詞項表示與標準項完全匹配;其他詞項表示與標準項部分匹配;“—”表示沒有覆蓋到標準項中的任何部分。
表3 長串新詞發(fā)現(xiàn)實驗結果示例Tab. 3 Some examples of discovery results on long new words
對比分析表3 中的各結果可得,對比方法Ⅱ、對比方法Ⅲ方法體現(xiàn)出的問題均由詞性規(guī)則的局限性導致,例如,“有機/b 復合/vn 絕緣/vn 外套/n”未能被上述方法中的任何模板所覆蓋,然而表3 可說明,部分類似問題在本文模型中已得到有效改善。同時,以第2 行為例,本文模型未能有效提取該詞項,其原因在于,該詞項在文本中相對低頻,此文本中又同時存在另一獨立名詞“處理單元”,間接削弱了詞串“信息處理單元”的特征性,而對比方法Ⅱ、對比方法Ⅲ方法又可在一定程度上避免此問題。
為進一步分析本文模型的泛化能力,考慮專利領域術語也具備一定復合形式特點,因此,將模型直接遷移至領域術語抽取的擴展應用實驗中,同時對于不同方法的領域術語抽取結果進行對比分析。
實驗首先獲取搜狗細胞詞庫中開放下載的《電力詞匯大全》詞庫,再利用該詞庫對專利文檔語料進行匹配,提取包含上述電力詞匯且不同于3.1 節(jié)實驗數(shù)據(jù)集的專利文檔作為實驗文檔,然后將相應電力詞匯作為該文檔的標準領域術語結果,并在現(xiàn)有詞庫中對以上電力詞匯的匹配項進行剔除。具體地,本實驗在語料庫中抽取2 000 篇專利文檔,其中標準領域術語數(shù)量總計28 316。
擴展應用實驗中,各模型抽取結果對應的準確率、召回率和F-測度值如圖7所示,縱軸為測評指標值。
圖7 對比算法在領域術語上的發(fā)現(xiàn)性能Fig. 7 Discovery performance of the algorithms for comparison on domain terms
圖7 所示,在使用3.3 節(jié)描述的參數(shù)設置條件下,本文模型在擴展應用實驗中也獲得了更優(yōu)的結果,與其他3 種方法相比,本文在準確率方面分別提高了10.6、12.7 及11.6 個百分點,在召回率方面分別提高了12.0、6.2 及10.6 個百分點,在F-測度值方面分別提高了11.6、11.0 及10.9 個百分點,顯現(xiàn)了本文模型的良好泛化能力。
本文通過引入二元詞的雙向條件概率信息,構造了一種新穎的雙向聚合度統(tǒng)計特征,再由此特征擴展提出詞邊界篩選規(guī)則,最后融合統(tǒng)計特征與規(guī)則設計了新的專利新詞發(fā)現(xiàn)算法。實驗結果表明,新模型能夠有效提升較長專利新詞的識別發(fā)現(xiàn)能力,且模型計算簡單,對預先監(jiān)督訓練的依賴性較弱,具有良好的實用性。研究中也發(fā)現(xiàn),對于中文專利新詞發(fā)現(xiàn)問題,如何更有效地識別新詞中的深層語義嵌套問題,是探索更先進方法的關鍵所在。