陳斌
摘 要 通過對新一代智能專利檢索系統(tǒng)關鍵技術的分析,理解系統(tǒng)背后的運行機理,從而更好地運用智能檢索系統(tǒng)為專利檢索服務,提高檢索效率。
關鍵詞 專利檢索;語義檢索;重排序;結構化表示
1 傳統(tǒng)的專利檢索
根據(jù)基本檢索理論,專利檢索一般包括以下幾個步驟:理解發(fā)明,提取基本檢索要素,基本檢索要素的表達,檢索并篩選。一項發(fā)明專利是為了解決現(xiàn)有技術中存在的某個技術問題而提出來的一個技術方案,可以以產(chǎn)品或者方法的形式存在。該技術方案中包含了若干關鍵的技術手段。提取基本檢索要素可以從技術手段或者技術問題來提取。例如,某一發(fā)明專利,通過提取的若干關鍵詞,進行與/或的布爾運算,獲得含有上述關鍵詞的文獻。由于專利文獻都是經(jīng)過著錄項目整理以及分類的文獻,因此,通過特定的著錄項目字段或者所屬的分類號進行檢索,從而提高專利檢索效率[1]。
2 智能檢索技術分析
智能檢索技術依賴于計算機以及相應的檢索算法實施,通過對文本進行提取與分析,例如,word2vec算法,獲得文本向量,并計算文本向量之間的余弦值作為相關度,依據(jù)該相關度進行排序并顯示排序結果。
谷歌學術/谷歌專利通過Page Rank算法對搜索結果進行排序,其對你所輸入的若干關鍵詞在文獻中是否處于同一個句群也進行了考慮,從而使得關鍵詞之間形成一定的關聯(lián)而不是散落于文獻中毫無關聯(lián);還考慮了頁面鏈接關系來定義頁面重要程度進行排序;CNKI數(shù)據(jù)庫中對于關鍵詞的精確/模糊的選項,如果選擇模糊,則意味著系統(tǒng)會根據(jù)你輸入的關鍵詞進行索引和拓展,并依據(jù)你所輸入的關鍵詞以及所拓展的關鍵詞進行檢索,檢索結果會全面,不容易漏檢;另外,CNKI也提供了語義檢索,輸入一個標題或一句話同樣能夠進行智能檢索獲得相關的文獻,這在檢索非專利文獻方面能夠提高檢索效率。
鑒于文本分析以及大數(shù)據(jù)處理技術的提升,近年來,越來越多的專利智能檢索系統(tǒng)不斷出現(xiàn),例如,Patentics,Incopat,智慧芽等等。相比于傳統(tǒng)的檢索,這些智能檢索系統(tǒng)提供了語義檢索,能夠?qū)⑴c你所檢索專利相關的專利,按照相關度排序,提供給你進行篩選。
對比傳統(tǒng)檢索和智能檢索,你可以發(fā)現(xiàn),傳統(tǒng)檢索中的幾個步驟中,除了篩選這一步驟外,其他步驟都被計算機完成了。計算機通過對你所檢索專利進行分析從而“理解”了發(fā)明,通過統(tǒng)計或聚類或神經(jīng)網(wǎng)絡等技術提取出了檢索要素,并根據(jù)已有的訓練學習庫對檢索要素進行了拓展表達,之后進行檢索,并依次按照預設的計算方法計算各個檢索結果與你所檢索專利的相關度,依據(jù)相關度進行排序。相關度排序的優(yōu)點在于,能夠?qū)⒆钣锌赡艿哪闼枰奈墨I排在前面,提高你的檢索效率。各個智能檢索平臺均提供了自動語言翻譯,將中文自動翻譯成英文并在英文數(shù)據(jù)庫進行檢索,克服了語言障礙,提供了檢索便利[2]。
下面著重分析新一代智能檢索系統(tǒng)中有代表性的兩個技術:重排序技術和結構化檢索技術。
重排序技術。對搜索檢索進行重排序,重排序的依據(jù)是搜索因子,用戶選擇的一段文字,例如一個詞,一句話,或者一段話。根據(jù)搜索因子的上下文獲得重排序因子,計算搜索結果中的文檔與重排序因子的相關度,依據(jù)該相關度對搜索結果進行重排序。相關度越大的文檔與重排序內(nèi)容越相關,也是用戶最期望看到的文檔。
結構化檢索技術。將目標文本輸入到已訓練好的實體提取模型,通過該實體提取模型識別目標文本中的實體;然后將已識別到實體的目標文本輸入到已訓練好的關系提取模型,通過該關系提取模型提取實體之間的關系,從而實現(xiàn)對所述目標文本的結構化表示,生成實體結構圖或者步驟流程圖。展示給檢索者,通過檢索者的人工確認與糾正,以期更好地把握技術方案中各個模塊或者各個步驟之間的關系,使得檢索相關度更大。可見,結構化檢索技術,在檢索時,除了檢索結構化文本中實體之外,還考慮了實體之間的多元關系[3]。
3 智能輔助檢索的應用
通過分析幾種常見的計算機輔助智能檢索技術可知,最關鍵的是如何讓計算機讀懂和理解你所要檢索的目標專利。這首先依賴于待檢索專利本身的撰寫的專業(yè)程度和規(guī)范程度,其用詞是本領域技術術語,其造句為說明文的規(guī)范句式,則計算機分析提取技術就能很好地把握和理解,其相應的檢索結果也會相對準確,而對于一些撰寫較為抽象的專利,則容易導致計算機難以理解,從而檢索結果與你預期的較不相關,這個時候就依賴于人工理解,通過檢索者理解發(fā)明構思與實質(zhì),提供給計算機以準確的關鍵詞或者分類號,實施人工干預。因此,智能檢索不能替代傳統(tǒng)的人工檢索,但是可以通過其輔助來提高檢索效率[4]。
參考文獻
[1] 支麗平,張珊靚.基于專利本體的語義檢索研究[J].圖書館學研究,2014,(7):59-63.
[2] 洪兵,楊亞卓,廖麗芳,等.專利智能檢索的有效性分析[J].中國發(fā)明與專利,2015,(8):53-56.
[3] 陳云華,王斯婷.Patentics和Incopat在語義檢索中的比較[J].中國發(fā)明與專利,2019,16(3):127-130.
[4] 婁松林,郭璐.基于智慧芽的專利檢索初探[J].中國科技投資,2019,(28):272.