謝 祥,馬曉雅,盧 彤,張 婧
(1.北京交通大學經濟管理學院;2.國鐵物資有限公司,北京 100044)
近年來,得益于中國政府對知識產權工作的高度重視,中國的發(fā)明專利數(shù)量取得了跨越式的發(fā)展。高校作為國家科學技術研究的重要前沿陣地,是國家創(chuàng)新體系中的重要組成部分,是國內科技創(chuàng)新的重要力量,其申請的專利數(shù)量和質量一直備受各界關注。高校專利的質量對于整個專利領域的質量發(fā)展存在著一定的引導作用,對專利的長遠發(fā)展也起著重要的推動作用。然而,目前我國高校不足50%的專利維持年限高于5 年,這一數(shù)據(jù)遠低于國外高校專利維持時間的平均水平[1],且高校的有效專利實施率、產業(yè)化率、許可率和轉讓率等數(shù)據(jù)遠低于企業(yè)。
隨著專利申請數(shù)量爆發(fā)式增長帶來了諸多的專利質量問題,因而學者們逐漸將研究目光聚焦到專利質量的評估上。但是在發(fā)明專利質量的評估和分類方面,大量工作和研究人員仍然應用傳統(tǒng)的評估和分類方法來對專利質量進行評估和研究。綜合國內外研究者對專利質量評估的方法,可分為基于專利引文、質量評價指標以及文本挖掘三大類方法。Mariani 等[2]基于專利引文,提出了一種改進的專利引文計算和PageRank 算法,降低了專利發(fā)布時間對評估重要專利的偏差性影響,根據(jù)專利發(fā)布t 年后的平均排名位置來評估專利質量;孫冰等[3]基于手機芯片的專利引文數(shù)據(jù),依據(jù)網(wǎng)絡拓撲參數(shù)來確定專利引文網(wǎng)絡中的核心專利,進而來判定專利質量;Huang 等[4]為了簡單有效地評價專利質量,建立了11 個指標體系,提出了基于熵權法和改進TOPSIS的專利質量評價模型;Yoon 等[5]建立專利質量系統(tǒng)層次結構,運用層次分析法結合文本挖掘、多元線性回歸來開發(fā)專利質量評價模型;Lee 等[6]提出結合專利指標和機器學習,選取18 個輸入指標和3個輸出指標,利用前饋多層神經網(wǎng)絡來捕獲輸入和輸出指標之間復雜的非線性關系,從而評估新申請專利的質量水平;Liu 等[7]提出了一種可量化的度量專利質量的模型,基于已有的專家測量專利質量的指標,運用機器學習來提取前向引用多、法院判決為“有效”的專利相關特征,并基于貝葉斯模型挖掘現(xiàn)有專利質量,同時驗證了該模型可以客觀度量處于專利生命周期各個階段的專利質量;Lin 等[8]基于專利引用網(wǎng)絡的屬性網(wǎng)絡表征模型和基于注意力機制的卷積神經網(wǎng)絡模型構建了專利質量的評估模型,從專利文本材料中提取語義表示,然后將他們的輸出連接起來以預測新專利質量。
通過對這三類方法的文獻研讀,基于研究專利引文的方式來評估專利質量存在著嚴重的時間滯后性問題,在專利發(fā)布早期甚至是專利申請階段,無法通過專利的被引量來評估早期的專利質量[2,9];基于評價指標的方法主觀性較強,專利質量評價結果很大程度上取決于專家的經驗與知識,忽略了專利文本內容本身隱含的一些客觀信息[5,10];而第3種基于傳統(tǒng)的文本挖掘方法,容易忽視專利文本的上下文信息之間的聯(lián)系,也無法對序列進行處理,且忽略了專利的一些重要數(shù)據(jù)特征信息[6]。
2006 年,Hinton 等人[11]提出深度學習的概念,隨著計算機性能的不斷提升和深度學習算法的不斷優(yōu)化,深度學習在短時間內得到了快速發(fā)展,出現(xiàn)了許多深度學習模型及框架,并廣泛地應用于各個行業(yè)。深度學習的快速發(fā)展與應用,為高質量發(fā)明專利評估、發(fā)明專利質量分類問題提出了新的解決方法和思路。Rao 等[12]將詞嵌入和長短期記憶網(wǎng)絡(LSTM)應用于政策文本分類問題中,解決依靠上下文信息進行文本分類的問題。李超[13]對傳統(tǒng)的卷積神經網(wǎng)絡模型進行改進,采取結合LSTM 網(wǎng)絡模型的方法提升詞序語義學習和特征挖掘的能力。研究人員對LSTM 網(wǎng)絡進行簡化,提出了一種新的網(wǎng)絡結構GRU(Gated Recurrent Unit)[14]。但是由于GRU 分類無法體現(xiàn)每個隱層輸出重要程度的問題,孫明敏[15]在GRU的基礎上,加入了注意力(Attention)機制,設計了GRU-Attention 分類模型,并驗證了該模型對分類效果的提升。學者Chen 等[16]將注意力函數(shù)引入GRU 中,提出GRUA 模型,從正在進行的對話中提取客戶行為的重要隱藏特征,以了解客戶意圖,提高產品推薦的準確性。Rush 等[17]提出了一種基于注意力機制的雙向GRU 網(wǎng)絡的識別模型,通過兩個相互獨立的GRU 網(wǎng)絡來進行特征提取,同時通過注意力機制自適應地對各時刻隱層特征賦予不同的權值,最后根據(jù)加權求和后的隱層特征進行目標的識別與分類。
綜合現(xiàn)有的研究方法、研究技術及專利數(shù)據(jù)的特點,本文研究思路是在構建初始的基于GRUAttention 機制的高校發(fā)明專利質量分類模型的基礎上,引入高校發(fā)明專利質量關鍵指標及權重,將其與Attention 機制在GRU 隱層輸出的特征及權重相融合,對Attention 機制進行優(yōu)化,并利用實際數(shù)據(jù)對優(yōu)化后的基于GRU-Attention 機制的高校發(fā)明專利質量分類模型的有效性和分類效果進行了驗證。
GRU 神經網(wǎng)絡屬于循環(huán)神經網(wǎng)絡(RNN),RNN 的提出是為了解決訓練過程中的記憶依賴和梯度問題,它借鑒人類思考問題的行為,對于處理序列數(shù)據(jù)有很好的效果,隨著研究的不斷深入,RNN在序列化數(shù)據(jù)的領域應用越來越廣泛,也取得了良好的成效。傳統(tǒng)的神經網(wǎng)絡基于孤立元素假設,但事實上元素之間并不是孤立存在的,在數(shù)據(jù)訓練中元素之間的依賴性也很重要,循環(huán)神經網(wǎng)絡可以考慮到元素之間的關系,也就是增加了記憶功能,將節(jié)點的輸入和輸出和上一個節(jié)點聯(lián)系起來,更加符合人類思維行為。簡單加入記憶功能后人們發(fā)現(xiàn)在時間軸上RNN 出現(xiàn)了梯度消失無法解決長期依賴的問題,為了解決RNN 存在的這些問題,研究者提出了多種RNN 的變體模型。
LSTM(長短期記憶網(wǎng)絡)就是RNN 變體中一種廣泛應用的經典變體。在實際操作中,RNN 無法成功學習到長環(huán)境中詞之間的相關信息,也無法對間隔比較長的詞進行有效預測。因而,出現(xiàn)了可以解決這一問題的特殊RNN 模型——LSTM。和原始循環(huán)神經網(wǎng)絡不同,長短期記憶網(wǎng)絡要控制隱藏狀態(tài)和神經單元狀態(tài)的向量,通過輸入門、遺忘門、輸出門控制更新,以此來解決RNN 面對長序列問題的缺陷。但LSTM 網(wǎng)絡存在一些缺點,即神經網(wǎng)絡內部機制復雜,有很多參數(shù)要控制,而且在訓練過程中往往花費大量的時間。
為了進一步改進這些缺陷,Cho 等人[18]在2014 年提出了更為簡單的LSTM 變體模型——GRU(門控循環(huán)單元),將LSTM 的忘記門和輸入門合成了一個單一的更新門、同時還混合了細胞狀態(tài)和隱藏狀態(tài),加諸其他一些改動。GRU 模型由更新門和重置門兩個門組成,結構簡單、容易理解,需要控制的參數(shù)少,而且有較好的收斂性。其簡單的模型結構如圖1 所示。
圖1 GRU 簡單模型結構圖
較多的實驗表明,GRU 相比于傳統(tǒng)的RNN 模型,訓練效果相似,但由于其參數(shù)較少,收斂快,因此相對容易訓練,且GRU 在過擬合問題上表現(xiàn)優(yōu)異,較少表現(xiàn)出過擬合現(xiàn)象。因此,GRU 訓練的計算開銷更小,速度更快,適用性更強,廣泛地應用在自然語言處理的領域。
一般的深度學習過程在提取文本特征的時候是無差別的,這樣就會造成一些重要信息權重的喪失,為了解決這個問題,研究者提出了注意力機制(Attention Mechanism)來提高對重要信息的識別能力。注意力機制的思想是對于輸入信息賦予不同的權重,使模型更加注重有用信息而減弱無用信息的影響,該模型目前在不同類型的任務中得到了廣泛的應用,且通過對比發(fā)現(xiàn)應用效果明顯比不應用此機制的效果優(yōu)秀。目前,常見的注意力機制主要分為3 種:全局注意力機制、局部注意力機制和自注意力機制。
全局注意力類似于傳統(tǒng)的注意力,上下文數(shù)據(jù)信息的權重會基于編碼的所有隱藏狀態(tài)。全局注意力的模型如圖2 所示。全局注意力需要在序列中所有的時間步上進行計算,計算代價較高,開銷較大。
相比于全局注意力機制的高開銷,局部注意力機制用固定窗口大小去減少計算力,其模型如圖3所示。盡管局部注意力機制計算代價相對較低,但是局部注意力可能會受到預測向量的影響而降低準確率。因此,實際應用中全局注意力機制更為普遍。
自注意力機制區(qū)別于傳統(tǒng)的注意力機制,它不必依賴外界信息源,通過自學習更新參數(shù),機制為自身對自身的權重。而傳統(tǒng)的注意力機制是靠外部信息與內部經驗相互對齊,機制為輸入對輸出的權重。其機制計算方式大致為三階段:第一,計算元素與關鍵字(key)的相似度;第二,標準化之前的得分值;第三,加權求和特征權重系數(shù)。
圖2 全局注意力模型示意圖
圖3 局部注意力模型示意圖
由于發(fā)明專利數(shù)據(jù)是由一系列可表達專利信息內容的外部特征與內容特征構成的,這些特征信息用結構化數(shù)據(jù)或者非結構化數(shù)據(jù)以文本或圖像的形式表達,在通過一般的機器學習進行文本分類時,需要去創(chuàng)建復雜的特征工程去提取文本特征。而基于深度學習自動獲取特征表達,解決了人工特征工程的問題,操作簡單,人工依賴度低,得到了廣泛應用。
由于GRU 模型可以很好地處理長期記憶、通過保留長期記憶信息更準確的進行預測,且模型參數(shù)設置簡單,訓練速度較快,符合高校發(fā)明專利數(shù)據(jù)特征,同時專利文本有很強時效性,上下文信息也有很強的關聯(lián)性,這些特點使專利文本分類的特征較難提取,且影響高校發(fā)明專利質量的一些重要的結構化數(shù)據(jù)也對專利的質量分類有舉足輕重的影響,也需要被重點關注,因此,本研究引入注意力機制來解決這一問題。
圖4 GRU 結構圖
在GRU 網(wǎng)絡模型中,詞向量之間具有一定的聯(lián)系,依靠這種注意力機制訓練詞向量可以將文本中重要性不同的詞識別出來,通過Attention 機制的作用,可以找出專利數(shù)據(jù)中的重要信息。構建的GRU-Attention 模型的結構如圖5 所示。
圖5 GRU-Attention 模型結構
在上文構建的GRU-Attention 網(wǎng)絡算法中存在某些專利評估結果置信度偏小的情況,因此本文引入專利質量關鍵指標的權重信息,在機器分類的基礎上,結合專家知識,來改善分類結果置信度偏小的情況。
國際上現(xiàn)有的衡量專利質量的關鍵指標體系主要分為3 種:CHI 指標、Ernst 專利質量指標和中國國家知識產權局專利質量指標體系。分析發(fā)明專利質量的影響要素,參考現(xiàn)有的評估體系,綜合考慮發(fā)明專利在初始的申請階段指標數(shù)據(jù)獲取、使用和后續(xù)專利質量分類模型的可操作性,本文以評估高校發(fā)明專利質量為目標,構建了技術質量、法律質量和實用性質量3 個準則層指標,并將每個準則層指標繼續(xù)分解得到科學關聯(lián)度、引用專利文獻數(shù)量等共計11 個方案層指標。
同時利用層次分析法依據(jù)構建的高校發(fā)明專利質量評估關鍵指標體系,設計了關鍵指標調查問卷,邀請吉林大學、山東大學、中國科學院大學和北京交通大學等科研機構中專利研究領域的42 位專家進行調查問卷填寫,從而處理計算得出各指標的權重,為模型的改進提供理論和數(shù)據(jù)支撐。具體的匯總結果見表1。
表1 高校發(fā)明專利質量關鍵指標權重
當評估結果置信度小于某個閾值或該文本擁有最大和次大分類可能性的差別較小時,重新生成注意力分布概率的語義編碼和特征向量,具體流程如下:
(1)構建GRU-Attention 算法。利用上文的GRU-Attention 模型,首先進行詞嵌入操作,將輸入的信息變?yōu)槎S特征矩陣,然后基于Attention 機制進一步提取強化高級特征。
(2)計算注意力分布概率的語義編碼,公式如下。
(3)計算Attention 語義編碼和特征向量,隱藏層狀態(tài)值與注意力概率權重合并計算得到語義編碼C,再將歷史節(jié)點的語義編碼和文本向量作為輸入得到的當前節(jié)點的隱藏層狀態(tài)值,此時的就是包含歷史節(jié)點權重信息的特征向量。
(4)訓練好GRU-Attention 網(wǎng)絡模型,通過計算待分類文本的各項分類結果的可能性,最終根據(jù)計算的可能性值輸出待分類文本的預測類別:
專利的法律狀態(tài)分為有效、失效和審中3 種,有效專利是指專利在獲得授權后,現(xiàn)仍處于有效狀態(tài)的專利,失效專利是指由于各類主、客觀原因而喪失或者未獲得專利權的專利,而審中專利是指目前處于審查和審批暫未獲得專利權的專利。由于有效專利和失效專利經過了完整的專利審查流程,而審中的專利由于暫未完成專利授權流程,大量研究證明,涉及訴訟、轉讓或者獲獎的專利通常比其他專利具有更高的價值,但由于獲獎專利數(shù)據(jù)獲取比較困難,因此,本研究將涉及訴訟和轉讓的專利界定義為“高質量專利”。如果專利因未通過專利授權、或已授權又被宣告無效、或因其他各種原因而失去專利保護權,從專利的法律穩(wěn)定性、技術創(chuàng)新性和實際應用性方面,這類專利都存在明顯不足,因此,可以將其認定為“低質量專利”。而獲得專利授權卻并未發(fā)生轉讓或訴訟的專利則被認定為“普通質量專利”。
采用此分類方式,對高校發(fā)明專利數(shù)據(jù)庫中的21 萬條專利數(shù)據(jù)進行標注,由于審中專利尚未完成專利授權流程沒法標注,所以,只能對有效專利和無效專利進行標注,則將非審中專利分為4 個類別——“訴訟”“轉讓”“有效”和“無效”,其中標注為“訴訟”和“轉讓”的有效專利類別表示高質量的專利,標注為“有效”的有效專利類別表示普通質量專利,而標注為“失效”的失效專利類別表示低質量的專利。
因此,對模型進行驗證的實驗從有標注的專利數(shù)據(jù)中按照不同類別的比例隨機抽取了23 000 條專利數(shù)據(jù)構成實驗數(shù)據(jù)集,再按照大概10:1:2 的比例從實驗數(shù)據(jù)集中隨機抽取專利,形成訓練集(17 300條)、驗證集(2 000 條)和測試集(2 700 條)。然后按class-content 即類別-內容規(guī)則對整個數(shù)據(jù)集進行切分,專利文本的每一行都為該專利的文本和標注信息。
數(shù)據(jù)準備好后,先使用訓練集和驗證集的數(shù)據(jù)對所構建的GRU-Attention 機制模型與改進的GRU-Attention 機制模型進行迭代訓練,訓練環(huán)境為DeepLearning 框架TensorFlow 1.8.0,待驗證集分類的準確率不再提升之時,意味著模型訓練完畢。最后使用測試集的數(shù)據(jù)來驗證訓練之后的兩個模型對專利質量類別識別的有效性。
(1)詞向量維度:在衡量詞向量語言特征時,維度設置的太小對于充分表達文本特性存在著一定的困難,就此情況而言,詞向量維度設置的越大越好,然而諸多試驗表明過大的詞向量維度會大大增加計算量,從而影響模型整體的訓練速度,本實驗根據(jù)計算性能和具體任務設置的詞向量維度為64 維,
(2)dropout 參數(shù):dropout 可以有效降低模型訓練過程中出現(xiàn)的過擬合現(xiàn)象對結果的影響,dropout 反映的是在DeepLearning 的訓練中,按照一定的概率將一些神經網(wǎng)絡單元暫時丟棄,本模型設置的dropout 參數(shù)為0.5。
(3)隱藏層神經單元:確定訓練集后,輸入和輸出層的神經單元節(jié)點數(shù)隨之也能確定,但是隱層數(shù)和隱層節(jié)點數(shù)卻很難定下來。如果隱層節(jié)點比較少,那么神經網(wǎng)絡不能具有較好的信息處理及學習能力,隱層節(jié)點過多又會導致網(wǎng)絡復雜度增加,使訓練的速度極大降低。本實驗最終設置隱層神經單元數(shù)為128。
(4)batch_size:batch_size設置的太大可以提高訓練速度,但會占用很高的內存率也可能降低訓練準確率,設置的太小會造成訓練速度很慢。因此一般選取32~256 之間的數(shù)值,本試驗選取的batch_size 為64,指的是一次性將64 個數(shù)據(jù)輸入到模型中對模型進行訓練,進而完成一次模型參數(shù)計算和參數(shù)更新。
深度學習中對分類算法的性能評價指標主要有準確率、精確率、召回率及F1 值等。
(1)準確率是性能評價中最直觀、最普遍的一個指標,指的是預測正確的樣本數(shù)占總樣本數(shù)的比例,見式(17)。
(2)精確率指在預測樣本中實際的正樣本數(shù)占所有的正樣本數(shù)的比例,見式(18)。
(3)召回率指預測為正樣本的數(shù)占所有實際為正樣的比例,見式(19)。
(4)F1 值是精確率和召回率的調和值,見式(20)。
其中TP(True Positive)指的是預測和實際都為正;
FP(False Positive)指的是誤報,匹配不正確。預測為正、實際卻是負;
FN(False Negative)指的是漏報,沒有正確查找出匹配,預測是負、實際卻是正;
TN(True Negative)指的是預測為負、實際也為負。
針對高校發(fā)明專利質量的類別,本文進行了GRU-Attention 機制和改進的GRU-Attention 機制的對比實驗,并對結果在精確率、召回率等方面進行評價。
使用訓練集和驗證集對GRU-Attention 機制模型進行訓練,第4 次迭代訓練后(如圖8 所示),驗證集分類的準確率就不再增加,最終準確率維持在75%左右,訓練中最佳效果為77%。然后對測試集中的2 700 條專利數(shù)據(jù)進行類別識別,結果如圖6 所示,可知測試集專利類別識別的準確率為77.41%。但是模型對于“有效”類別的識別結果欠佳,召回率和F1 值偏低,其余3 個類別的識別效果較好。
圖6 GRU-Attention 機制模型的實驗結果
使用訓練集和驗證集對改進GRU-Attention 機制模型進行訓練,在保持GRU 模型其他參數(shù)不變的情況下,將衡量高校發(fā)明專利質量的關鍵指標權重信息添加到向量中,改進后GRU-Attention 機制模型的實驗效果如圖7 所示,在第八次迭代后停止優(yōu)化(如圖8 所示),改進后的模型對測試集專利類別識別的準確率為86.84%,比初始GRU-Attention 機制模型準確率提高了9%。
圖7 改進GRU-Attention 機制模型的實驗結果
圖8 模型的性能和穩(wěn)定性對比示意圖
本文首先分析了高校發(fā)明專利質量的現(xiàn)實問題,即高校發(fā)明專利數(shù)量發(fā)展迅速,質量發(fā)展卻差強人意,整體水平較低,明確了快速準確識別高校發(fā)明專利質量的現(xiàn)實需要。在對現(xiàn)有解決方案和技術研究進行梳理和綜述的基礎上,提出了基于GRUAttention 機制來評估高校專利質量的新方案。
在分析專利數(shù)據(jù)特征的基礎上,構建了GRUAttention 機制模型來評估高校發(fā)明專利質量,同時引入衡量高校發(fā)明專利質量的關鍵指標及權重信息來對模型進行改進,通過專家知識改進GRUAttention 機制。利用高校非審中專利數(shù)據(jù)對改進前后的模型的性能進行驗證。驗證結果是,改進后的模型在迭代訓練中表現(xiàn)出更好的穩(wěn)定性和準確率,對測試集識別的準確率由77.41%提升至86.84%,可見,改進后的GRU-Attention 模型在高校發(fā)明專利質量識別方面具有更高的有效性。
因此,本文充分結合專利的文檔信息和結構化數(shù)據(jù)信息,綜合專家知識,主客觀相結合,構建了改進的基于GRU-Attention 機制的高校發(fā)明專利質量評估模型,為發(fā)明專利質量評估和預測提供了一種新的思路和方法,為各科研單位、企業(yè)甚至于國家在專利布局上提供一定的理論和實踐的支撐。