摘 要:為保護(hù)專利,提升專利申請(qǐng)者的申請(qǐng)成功率,提出基于改進(jìn)向量空間模型的相似專利檢測(cè)技術(shù)。改進(jìn)向量空間模型引入了循環(huán)神經(jīng)網(wǎng)絡(luò),通過循環(huán)神經(jīng)網(wǎng)絡(luò)處理文本序列來獲得考慮詞語在文檔中順序及上下文信息的詞語。采用全球唯一標(biāo)識(shí)符對(duì)專利文本進(jìn)行預(yù)處理,通過中文分詞系統(tǒng)來將漢語文本劃分為有意義的詞語。采用改進(jìn)的向量空間模型來衡量專利文檔相似度,并對(duì)句子相似度進(jìn)行識(shí)別,達(dá)到相似專利檢測(cè)的目的。將提出的改進(jìn)向量空間模型應(yīng)用于實(shí)際的專利檢索中,并和傳統(tǒng)向量空間模型進(jìn)行對(duì)比。結(jié)果表明,改進(jìn)的向量空間模型DCG值與準(zhǔn)確率均高于傳統(tǒng)向量空間模型。
關(guān)鍵詞:向量空間模型;循環(huán)神經(jīng)網(wǎng)絡(luò);相似專利檢測(cè)
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-5922(2024)11-0193-04
Research on similar patent detection technology basedon improved vector space model
XIA Qingjie 1 ,YOU Caihong 1 ,ZHAO Yingjie 2
(1. CRRC Qingdao Sifang Rolling Stock Co.,Ltd.,Qingdao 266111,Shandong China;2. Baoding Dawei Computer Software Development Co.,Ltd.,Baoding 071000,Hebei China)
Abstract:In order to protect patents and improve the application success rate of patent applicants,a similar patentdetection technology based on improved vector space model was proposed. The improved vector space model intro?duced the recurrent neural network,which processed the text sequence to obtain the words considering the orderand context information of the words in the document. The global unique identifier was used to preprocess the pat?ent text,and the Chinese word segmentation system was used to divide the Chinese text into meaningful words. Theimproved vector space model was used to measure the similarity of patent documents and identify the similarity ofsentences,so as to achieve the purpose of similar patent detection. The improved vector space model was applied topatent search and compared with the traditional vector space model. The results showed that the DCG value and ac?curacy of the improved vector space model were higher than that of the traditional vector space model.
Key words:vector space model;recurrent neural network;similar patent detection
向量空間模型(VSM)是一種應(yīng)用于文本信息檢索及文本相似度計(jì)算的數(shù)學(xué)模型,在許多領(lǐng)域得到了廣泛的應(yīng)用 [1] 。提出了基于點(diǎn)互信息語義相似性的向量空間模型,其通過潛在語義分析來修正關(guān)鍵詞權(quán)重,能夠有效提高信息檢索的準(zhǔn)確率 [2] 。為解決傳統(tǒng)向量空間模型存在的檢索結(jié)果精度不高的問題,提出了基于文檔關(guān)系的改進(jìn)向量空間模型 [3] 。
針對(duì)產(chǎn)品設(shè)計(jì)知識(shí)管理中存在的知識(shí)匹配算法準(zhǔn)確率與召回率不高的問題,提出了基于重構(gòu)向量空間模型的知識(shí)匹配算法 [4] 。采用向量空間模型構(gòu)建了科技情報(bào)用戶畫像模型,有效實(shí)現(xiàn)了情報(bào)3.0時(shí)代用戶對(duì)科技情報(bào)的個(gè)性化和智能化需求 [5] ?;诖耍胙h(huán)神經(jīng)網(wǎng)絡(luò)來對(duì)向量空間模型進(jìn)行改進(jìn),并將改進(jìn)的向量空間模型應(yīng)用于相似專利檢測(cè)中,期待對(duì)促進(jìn)專利保護(hù)和專利申請(qǐng)成功率提供數(shù)據(jù)支撐。
1 相關(guān)理論
1. 1 向量空間模型
向量空間模型是一種應(yīng)用于文本信息檢索及文本相似度計(jì)算的數(shù)學(xué)模型,其通過將文本文檔表示為向量的形式,從而達(dá)到對(duì)文本相關(guān)性分析和檢索的目的。在VSM中,每一個(gè)文檔均采用一個(gè)向量來表示,向量的每一個(gè)維度對(duì)應(yīng)文檔中的一個(gè)詞語或特征。每一個(gè)維度對(duì)應(yīng)一個(gè)詞匯表,文檔中的每一個(gè)詞語在相應(yīng)的維度上有一個(gè)權(quán)重。權(quán)重表示詞語在文檔中的重要性,通常采用詞頻-逆文檔頻率的方法計(jì)算。
1. 2 改進(jìn)向量空間模型
傳統(tǒng)VSM將文檔表示為詞袋模型,沒有考慮詞語在文檔中的順序以及上下文信息,這將導(dǎo)致詞語失去重要的語法和語義信息。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)具有遞歸的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以有效處理序列數(shù)據(jù) [6] 。基于此,使用RNN來捕捉文本的上下文信息,采用由RNN生成的文檔來進(jìn)行余弦相似度計(jì)算。采用RNN處理文本序列,將文本序列嵌入到連續(xù)向量空間中,文本序列中的詞嵌入向量按順序輸入RNN模型,每個(gè)時(shí)間步對(duì)應(yīng)一個(gè)詞語 [7] 。不妨設(shè)文本序列每一個(gè)時(shí)間步 t 對(duì)應(yīng)一個(gè)詞向量 x t ,詞向量表示每一個(gè)時(shí)間步的輸入。
對(duì)隱藏狀態(tài)初始化,采用RNN來逐個(gè)時(shí)間步對(duì)隱藏狀態(tài) h t 更新,其數(shù)學(xué)模型為 [8] :h t =f ( ) W h ×h t-1 +W x ×x t +b (1)
式中: f ( ) × 為激活函數(shù); W h 和 W x 為權(quán)重矩陣; b 為偏置項(xiàng)。
伴隨著RNN對(duì)每個(gè)詞語依次處理,隱藏狀態(tài) h t會(huì)不斷更新,同時(shí)其包含了之前詞語的信息。最終隱藏狀態(tài) h T 可以看作是整個(gè)文本序列的上下文信息表示。
2 相似專利檢測(cè)模型
2. 1 相似專利檢測(cè)流程
盡管專利相似性檢測(cè)與論文相似性檢測(cè)具有許多相似之處,但是專利的特殊性決定了其不能完全應(yīng)用論文的相似檢測(cè)方法 [9] 。對(duì)論文的相似性檢測(cè)是將論文拆分成句子,對(duì)拆分的句子進(jìn)行逐一匹配,從而得到論文的相似性結(jié)果。專利不同的論文,其具有典型的結(jié)構(gòu)樹,如圖1所示。
由圖 1 可知,采用和論文相同的相似性檢測(cè)往往無法達(dá)到預(yù)期的目的。對(duì)專利審查人員而言,其在接收到專利申請(qǐng)之后要和現(xiàn)有的專利進(jìn)行對(duì)比,確保申請(qǐng)專利的原創(chuàng)性。另外,在當(dāng)前科技快速發(fā)展的大環(huán)境下,革命性的技術(shù)創(chuàng)新是十分困難的,絕大部分的專利是在原有專利基礎(chǔ)上的改進(jìn)或局部創(chuàng)新 [10] 。專利申請(qǐng)人在申請(qǐng)專利的過程中必須要對(duì)申請(qǐng)專利和已有專利相似度比較高的部分進(jìn)行修改或重寫,從而避免專利申請(qǐng)失敗。結(jié)合改進(jìn)的向量空間模型對(duì)相似專利進(jìn)行檢測(cè),專利相似性檢測(cè)是先采用統(tǒng)一的標(biāo)識(shí)符表示,對(duì)詞串替換的文檔集合計(jì)算每一個(gè)詞的權(quán)重,從而形成語料向量空間模型。借助循環(huán)神經(jīng)網(wǎng)絡(luò)來生成包含詞語文檔順序以及上下文信息的詞語,利用夾角余弦相似度公式來計(jì)算相似度,從而達(dá)到相似專利檢測(cè)的目的 [11] 。
2. 2 文本預(yù)處理
對(duì)于同樣的意思往往會(huì)有不同的表達(dá),單純的依賴于相同詞語進(jìn)行相似性檢測(cè)往往使得結(jié)果并不準(zhǔn)確?;诖?,在本體模型中將具有共同上級(jí)類的同級(jí)別子類術(shù)語在文中進(jìn)行統(tǒng)一替換,這樣替換之后的專利就可以采用相同的編碼去描述,避免了不同叫法所帶來的統(tǒng)計(jì)誤差。全球唯一標(biāo)識(shí)符也稱為通用唯一標(biāo)識(shí)符,其是一種用于標(biāo)識(shí)信息或?qū)ο蟮奈ㄒ粯?biāo)識(shí)符 [12] 。
2. 3 準(zhǔn)備數(shù)據(jù)
為進(jìn)行文檔的相似性計(jì)算,必須將已有的專利文獻(xiàn)轉(zhuǎn)換為向量空間模型。考慮到中文沒有明顯的詞語邊界,需要使用分詞工具來確定單詞的開始與結(jié)束位置。中文分詞系統(tǒng)(ICTCLAS)是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所開發(fā)的一種中文分詞工具,其是一種自然語言處理工具,專門用于將漢語文本劃分成有意義的詞語或詞匯單元 [13] 。采用ICTCLAS工具對(duì)專利文檔進(jìn)行分詞,并剔除分詞后的停用詞,得到專利的分詞結(jié)果序列。借助全球唯一標(biāo)識(shí)符轉(zhuǎn)化得到的本體模型對(duì)專利文檔中的相應(yīng)術(shù)語進(jìn)行替換 [14] 。計(jì)算分詞序列中每一個(gè)詞的權(quán)重,其可以更加直觀地反映術(shù)語在專利文檔中的含義。
2. 4 專利文檔相似度衡量
利用改進(jìn)的向量空間模型計(jì)算輸入專利和匹配專利之間的相似度,從而避免專利存在抄襲的問題。為了確保輸入的專利和語料庫中的專利文檔具有相同的格式,需要對(duì)輸入的文檔進(jìn)行分詞、標(biāo)識(shí)符替換以及權(quán)重計(jì)算,從而得到以分詞結(jié)果作為特征的文檔向量。采用夾角余弦值來計(jì)算相似度,從而對(duì)輸入文檔和語料庫中的專利文檔之間的相似性進(jìn)行衡量。表1為專利文檔相似度計(jì)算結(jié)果。
由表1可知,從專利網(wǎng)中隨機(jī)選擇一篇題目為“連續(xù)體機(jī)器人”的專利,獲得了8篇較為相似的專利文檔,其中“沈陽新松機(jī)器人自動(dòng)化股份有限公司”申請(qǐng)的“一種線驅(qū)動(dòng)連續(xù)體機(jī)器人”和其比較相似。
圖2為相似度最低和相似度最高專利與所選擇專利的對(duì)比。
由圖2可知,相似度最高的專利和所選擇的專利具有部分類似的結(jié)構(gòu),而相似度最低的專利和所選擇的專利結(jié)構(gòu)幾乎完全是不同的。從專利的名稱來看,二者非常相似,但是由于結(jié)構(gòu)的不同導(dǎo)致專利的內(nèi)容差別比較大,因此相似度很低。
2. 5 句子相似度識(shí)別
在獲得和所選擇的專利相似的專利文檔之后,需要對(duì)句子進(jìn)一步分析,找出相似的句子進(jìn)行標(biāo)準(zhǔn),使得專利申請(qǐng)人更好地修改相似的部分。最長(zhǎng)公共子序列算法(LCS)是一種用來衡量句子之間相似度的有效方法,常用來比較2個(gè)文本的相似性,其步驟如下 [15] :
(1)初始化表格。創(chuàng)建一個(gè)二維表格,行為第1個(gè)序列,列為第2個(gè)序列,并對(duì)表格初始化,其第1行和第1列均為0;
(2)填充表格。從左上角開始,逐個(gè)元素地填充表格。如果2個(gè)元素匹配,將上一個(gè)對(duì)角元素的值加1,否則將左邊或上邊的較大值復(fù)制到當(dāng)前單元格,這表示在當(dāng)前位置之前找到的最長(zhǎng)公共子序列的長(zhǎng)度;
(3)回溯。完成表格填充后,可以回溯表格以找到實(shí)際的最長(zhǎng)公共子序列。從右下角開始,如果當(dāng)前單元格的左邊和上邊的值相同,表示當(dāng)前元素是最長(zhǎng)公共子序列的一部分,將其添加到結(jié)果中,并向左上角移動(dòng);如果不同,根據(jù)較大的值向左或向上移動(dòng);
(4)輸出最長(zhǎng)公共子序列。完成回溯后,得到的結(jié)果就是最長(zhǎng)公共子序列。很明顯,LCS所采用的是窮舉搜索法 [16] 。當(dāng)需要比較的2個(gè)文本長(zhǎng)度增加時(shí),其執(zhí)行的時(shí)間會(huì)呈現(xiàn)出指數(shù)式增長(zhǎng)的態(tài)勢(shì),即不適宜處理大規(guī)模的文檔。
3 實(shí)例分析
3. 1 數(shù)據(jù)來源及評(píng)價(jià)標(biāo)準(zhǔn)
為驗(yàn)證所提出方法的有效性,從專利匯網(wǎng)站(網(wǎng)址為:https://www.patenthub.cn/)中下載 5 000條專利作為實(shí)驗(yàn)語料進(jìn)行測(cè)試,同時(shí)從中選擇10篇專利進(jìn)行相似度計(jì)算。對(duì)模型的評(píng)價(jià)采用折損累計(jì)增益(DCG)和準(zhǔn)確率-召回率曲線,其中DCG值不僅考慮檢索結(jié)果中文檔的相關(guān)性,同時(shí)也考慮了文檔在整個(gè)檢索結(jié)果中所處的位置。DCG值越大,所得到的排序結(jié)果越科學(xué)合理,其數(shù)學(xué)表達(dá)式為 [17]
式中: | | k 為根據(jù)專利之間相關(guān)性大小排序所取的前k 個(gè)檢索結(jié)果; S i 為前 k 個(gè)文檔集合中第 i 個(gè)專利文檔相關(guān)性。
3. 2 結(jié)果分析
構(gòu)造10個(gè)查詢,分別采用向量空間模型和改進(jìn)向量空間模型對(duì)專利文檔與查詢之間的匹配度。用戶在查看檢索結(jié)果時(shí)往往只關(guān)注前20或前30個(gè)檢索結(jié)果,若沒有檢索到用戶所需要的專利文檔,那么就會(huì)重新構(gòu)造查詢的內(nèi)容。圖 3 給出了關(guān)注前10(top10)、關(guān)注前20(top20)、關(guān)注前30(top30)下的DCG對(duì)比結(jié)果。
由圖 3 可知,改進(jìn)向量空間模型的 DCG 值在top10、top20、top30下均高于向量空間模型。導(dǎo)致出現(xiàn)這種情況的原因是利用RNN充分地考慮了詞語在文檔中的順序及上下文信息,這更能體現(xiàn)用戶對(duì)專利文檔的查詢需求。圖4為2種模型的準(zhǔn)確率-召回率曲線對(duì)比。
由圖4可知,在召回率相同的情況下,改進(jìn)向量空間模型的準(zhǔn)確率明顯高于向量空間模型,同時(shí)伴隨著召回率的增大,2個(gè)模型的準(zhǔn)確率相差越大。導(dǎo)致出現(xiàn)這種情況的原因主要是通過文檔的相似性檢測(cè)可以更好地表達(dá)用戶的檢索意圖,使得用戶檢索的結(jié)果更加準(zhǔn)確、全面。
4 結(jié)語
為保護(hù)專利,提升專利申請(qǐng)者申請(qǐng)成功率,對(duì)相似專利檢測(cè)技術(shù)進(jìn)行研究。針對(duì)傳統(tǒng)向量空間模型存在的未考慮詞語在文檔中順序及上下文信息問題,引入循環(huán)神經(jīng)網(wǎng)絡(luò),采用循環(huán)神經(jīng)網(wǎng)絡(luò)來捕捉文本的上下文信息,實(shí)現(xiàn)對(duì)向量空間模型的改進(jìn)。將改進(jìn)的模型應(yīng)用于專利檢索中,并和傳統(tǒng)向量空間模型進(jìn)行對(duì)比。結(jié)果表明改進(jìn)向量空間模型的DCG值與準(zhǔn)確率均優(yōu)于傳統(tǒng)向量空間模型,這對(duì)更加精準(zhǔn)表達(dá)用戶檢索專利意圖具有一定的實(shí)用價(jià)值。
【參考文獻(xiàn)】
[1] 陸佳行,戴華,劉源龍,等. 面向云環(huán)境密文排序檢索的字典劃分向量空間模型[J]. 計(jì)算機(jī)應(yīng)用,2023,43(7):1994-2000.
[2] 牛奉高,趙霞,徐倩麗.基于點(diǎn)互信息語義相似性的向量空間模型[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,44 (2):220-228.
[3] 何丹丹,吳樹芳,徐建民. 基于文檔關(guān)系改進(jìn)的向量空間模型[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(3):322-327.
[4] 黃振峰,劉皓天,吳振勇,等. 基于重構(gòu)向量空間模型的知識(shí)匹配算法研究[J]. 機(jī)械設(shè)計(jì)與制造,2020(2):203-206.
[5] 王益成,王萍,張禹. 基于向量空間模型的科技情報(bào)用戶畫像及場(chǎng)景化服務(wù)推送研究[J].現(xiàn)代情報(bào),2020,40 (2):3-10.
[6] 汪廣明,何滔,熊璽,等. 基于改進(jìn)循環(huán)神經(jīng)網(wǎng)絡(luò)的多數(shù)據(jù)流缺失值估計(jì)[J]. 粘接,2022,49(2):108-111.
[7] 范守祥,姚俊萍,李曉軍,等. 一種多模特征融合的方面信息情感分類方法[J]. 應(yīng)用科學(xué)學(xué)報(bào),2021,39(6):969-982.
[8] 楊慧娟. 基于TensorFLow的個(gè)性化推薦系統(tǒng)設(shè)計(jì)[J]. 粘接,2020,41(2):166-169.
[9] 席笑文,郭穎,宋欣娜,等.基于word2vec與LDA主題模型的技術(shù)相似性可視化研究[J].情報(bào)學(xué)報(bào),2021,40 (9):974-983.
[10] 劉小玲,譚宗穎. 基于專利多屬性融合的技術(shù)主題劃分方法研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2022,6(Z1):45-54.
[11] 趙京勝,宋夢(mèng)雪,高祥,等. 自然語言處理中的文本表示研究[J]. 軟件學(xué)報(bào),2022,33(1):102-128.
[12] 姜恩波,潘婷,張蒂. 基于FAIR原則的地球科學(xué)數(shù)據(jù)中心調(diào)研與評(píng)估分析[J]. 圖書館學(xué)研究,2023(4):52-70.
[13] 張軍,賴志鵬,李學(xué),等. 基于新詞發(fā)現(xiàn)的跨領(lǐng)域中文分詞方法[J]. 電子與信息學(xué)報(bào),2022,44(9):3241-3248.
[14] 劉奇旭,靳澤,陳燦華,等. 物聯(lián)網(wǎng)訪問控制安全性綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2022,59(10):2190-2211.
[15] 鄭子君,王洪,余成. 求解最長(zhǎng)循環(huán)公共子序列問題的兩個(gè)算法[J]. 計(jì)算機(jī)應(yīng)用研究,2020,37(11):3334-3337.
[16] 魏雯,趙展. 時(shí)間序列P-控制圖異常主題模式預(yù)測(cè)關(guān)鍵技術(shù)研究[J]. 電測(cè)與儀表,2021,58(2):47-52.
[17] 楊智偉,張帆,楊志,等. 基于用戶信息融合的圖卷積網(wǎng)絡(luò)報(bào)表推薦算法[J]. 電力建設(shè),2023,44(5):43-52.