劉連政,唐 堯,笪 偉
(南京市知識(shí)產(chǎn)權(quán)保護(hù)中心,江蘇 南京 210000)
2016 年國(guó)家知識(shí)產(chǎn)權(quán)局陸續(xù)開始在各地建設(shè)知識(shí)產(chǎn)權(quán)保護(hù)中心過程中提出專利申請(qǐng)預(yù)審業(yè)務(wù),其作為知識(shí)產(chǎn)權(quán)保護(hù)中心核心業(yè)務(wù)職能,主要負(fù)責(zé)對(duì)特定區(qū)域創(chuàng)新主體符合特定領(lǐng)域的專利申請(qǐng)進(jìn)行預(yù)先審查,對(duì)審查合格的案件準(zhǔn)予進(jìn)入快速審查通道。預(yù)審業(yè)務(wù)的開展一方面可以提高備案主體專利申請(qǐng)質(zhì)量,另一方面也可大幅縮短專利申請(qǐng)授權(quán)周期。知識(shí)產(chǎn)權(quán)保護(hù)中心預(yù)審員主要針對(duì)備案主體提交的預(yù)審案件的新穎性和明顯創(chuàng)造性進(jìn)行檢索,因此在整個(gè)專利申請(qǐng)預(yù)審機(jī)制中,專利申請(qǐng)文件的檢索準(zhǔn)確率和效率對(duì)整個(gè)預(yù)審業(yè)務(wù)的開展顯得尤為重要。而在檢索過程中,預(yù)審員輸入的檢索關(guān)鍵詞對(duì)最終檢索結(jié)果影響甚大。
目前預(yù)審員對(duì)于在預(yù)審案件審查中的關(guān)鍵詞輸入主要依靠預(yù)審員自我提取,預(yù)審員在閱讀專利申請(qǐng)文件后提取出能體現(xiàn)專利申請(qǐng)技術(shù)方案發(fā)明點(diǎn)的關(guān)鍵詞,然后通過預(yù)審員的審查經(jīng)驗(yàn)進(jìn)行關(guān)鍵詞擴(kuò)展,這種方式過多依賴預(yù)審員的個(gè)人經(jīng)驗(yàn),如果能輔助使用相關(guān)關(guān)鍵詞詞庫(kù)自動(dòng)擴(kuò)展技術(shù),將在一定程度上提升預(yù)審員的審查效率,而目前市場(chǎng)上并沒有統(tǒng)一的針對(duì)新一代信息技術(shù)領(lǐng)域的專利檢索詞庫(kù)幫助預(yù)審員對(duì)關(guān)鍵詞進(jìn)行有效的拓展。即使有可供部分預(yù)審員參照使用的也是不同的各類技術(shù)詞典和互聯(lián)網(wǎng)搜索碎片,也需要預(yù)審員花費(fèi)時(shí)間精力去尋找類似關(guān)鍵詞拓展資料,且該類資料并沒有突出特定行政區(qū)域內(nèi)的產(chǎn)業(yè)技術(shù)發(fā)展共性。因此有必要通過構(gòu)建統(tǒng)一、全面、動(dòng)態(tài)的針對(duì)南京市新一代信息技術(shù)這一特定領(lǐng)域的關(guān)鍵詞庫(kù),使得預(yù)審員在檢索關(guān)鍵詞擴(kuò)展的時(shí)候具有更有效、更便捷的參考,從而解決專利申請(qǐng)預(yù)審員在檢索關(guān)鍵詞擴(kuò)展中的詞條局限性和檢索效率低下的問題。
關(guān)鍵詞提取技術(shù)隨著自然語言處理技術(shù)發(fā)展而來,屬于文本挖掘的一種,廣泛應(yīng)用于人工智能和語義識(shí)別等諸多領(lǐng)域。在現(xiàn)有應(yīng)用中,關(guān)鍵詞提取算法一般可以分為無監(jiān)督和有監(jiān)督2種關(guān)鍵詞提取方法。
無監(jiān)督關(guān)鍵詞提取方法是指沒有監(jiān)督學(xué)習(xí)的過程,不需要進(jìn)行人工語料標(biāo)注,只需要利用某種規(guī)則對(duì)文本中比較重要的詞進(jìn)行提取即可形成主要關(guān)鍵詞。根據(jù)提取過程中使用的規(guī)則,大致可以分為基于統(tǒng)計(jì)特征的關(guān)鍵詞提取、基于詞圖模型的關(guān)鍵詞提取和基于主題模型的關(guān)鍵詞提取方法?;诮y(tǒng)計(jì)特征的關(guān)鍵詞提取算法的思想是利用文檔中詞語的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞;基于詞圖模型的關(guān)鍵詞提取首先要構(gòu)建文檔的語言網(wǎng)絡(luò)圖,然后對(duì)語言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語,這些短語就是文檔的關(guān)鍵詞;基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題分布的性質(zhì)進(jìn)行關(guān)鍵詞提取[1],這一類關(guān)鍵詞提取方法由于不需要進(jìn)行大量的人工標(biāo)注語料集合訓(xùn)練,使用過程更加便捷,多用于科研和實(shí)驗(yàn)環(huán)境中。
有監(jiān)督關(guān)鍵詞提取方法是運(yùn)用二分類原理,簡(jiǎn)化關(guān)鍵詞提取過程,訓(xùn)練關(guān)鍵詞抽取分類器。對(duì)于新的待選文檔,首先提取出所有的候選詞,并利用訓(xùn)練好的關(guān)鍵詞提取分類器,然后對(duì)每個(gè)候選詞進(jìn)行分類,最終生成具有關(guān)鍵詞標(biāo)簽的候選詞作為關(guān)鍵詞[2]。此類關(guān)鍵詞提取方法由于需要不斷進(jìn)行訓(xùn)練器訓(xùn)練,調(diào)節(jié)多種影響關(guān)鍵詞提取的參數(shù)信息,因此提取效果要高于無監(jiān)督關(guān)鍵詞提取方法,但是由于訓(xùn)練過程需要花費(fèi)高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取方法主要還是使用無監(jiān)督關(guān)鍵詞提取方法。
《同義詞詞林》是梅家駒等人于1983年編纂而成,時(shí)間久遠(yuǎn),收錄內(nèi)容相對(duì)較少,對(duì)于目前的使用不太適合,哈爾濱工業(yè)大學(xué)實(shí)驗(yàn)室基于該詞林進(jìn)行擴(kuò)展,構(gòu)建了《同義詞詞林?jǐn)U展版》,它按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條分成大、中、小3類,12 個(gè)大類分為人、物、時(shí)間和空間、抽象事物、特征、動(dòng)作、心理活動(dòng)、活動(dòng)、現(xiàn)象與狀態(tài)、關(guān)聯(lián)、助語、敬語,共18 490 個(gè)詞群,每個(gè)詞群有1個(gè)8 位的編碼,第8 位編碼有3 種,分別是“=”“#”“@”,其中“=”表示本詞群的所有詞條在意義上相等或同義[3]。擴(kuò)展后的詞林相比于原先的詞林,詞條數(shù)從53 895 個(gè)擴(kuò)展到77 343 個(gè),編碼層數(shù)從三層提高到了五層,前三層與1983 版的詞林相同,而后兩層中的第四層用大寫英文字母表示,第五層使用二位十進(jìn)制整數(shù)表示。具體編碼規(guī)則如表1 所示。
表1 編碼說明
構(gòu)建南京市新一代信息技術(shù)關(guān)鍵詞庫(kù)的首要步驟是對(duì)符合該領(lǐng)域的專利申請(qǐng)文件中最常見的關(guān)鍵詞進(jìn)行聚類分析,在聚類前需要對(duì)南京市新一代信息技術(shù)領(lǐng)域?qū)@暾?qǐng)文件進(jìn)行分類號(hào)篩選,以便更精準(zhǔn)篩選屬于新一代信息技術(shù)領(lǐng)域的專利申請(qǐng)文件。
對(duì)分類號(hào)進(jìn)行篩選的過程主要包括對(duì)照國(guó)民經(jīng)濟(jì)行業(yè)代碼和專利IPC 分類號(hào),選取與新一代信息技術(shù)領(lǐng)域最相關(guān)且申請(qǐng)量排名靠前的60 個(gè)新一代信息技術(shù)領(lǐng)域分類號(hào)作為南京市新一代信息技術(shù)領(lǐng)域關(guān)鍵詞庫(kù)基礎(chǔ)分類號(hào),并對(duì)該60 個(gè)分類號(hào)細(xì)分為10 個(gè)具體領(lǐng)域組,分別為半導(dǎo)體,測(cè)量,電機(jī)、電氣裝置、電能,電信,光學(xué),基礎(chǔ)通信程序,計(jì)算機(jī)技術(shù),控制,數(shù)字通信和音像技術(shù)。分組后的部分分類號(hào)如表2 所示。最后通過使用incopat 商業(yè)專利檢索網(wǎng)站,并根據(jù)該分組后的60 個(gè)IPC 分類號(hào)篩選出中國(guó)專利庫(kù)中近五年該部分分類號(hào)內(nèi)的南京市的全部專利申請(qǐng)文本。
表2 技術(shù)領(lǐng)域IPC 分類
關(guān)鍵詞提取的步驟即為對(duì)在IPC 聚類與分組過程中篩選出的專利申請(qǐng)文本進(jìn)行關(guān)鍵詞提取,提取出的專利關(guān)鍵詞應(yīng)該是可以體現(xiàn)專利發(fā)明主要內(nèi)容和主要發(fā)明點(diǎn)的詞語。本文選取無監(jiān)督關(guān)鍵詞提取方法中的RAKE(Rapid Automatic Keyword Extraction)工具用來提取主要關(guān)鍵詞,該工具的設(shè)計(jì)思路是首先使用標(biāo)點(diǎn)符號(hào)將一篇文檔分成若干分句,然后對(duì)于每一個(gè)分句,使用停用詞作為分隔符,將分句分為若干作為最終關(guān)鍵詞的候選詞短語,最后利用詞頻等統(tǒng)計(jì)信息降序輸出提取出的關(guān)鍵詞。該關(guān)鍵詞提取方法的優(yōu)勢(shì)在于算法簡(jiǎn)單高效而且能取得不錯(cuò)的效果,并且適用于提取一些較長(zhǎng)的專業(yè)術(shù)語。
對(duì)每一個(gè)分類號(hào)下的專利申請(qǐng)文本提取關(guān)鍵詞后,通過自動(dòng)化軟件自動(dòng)摘選出在這些專利申請(qǐng)文本中出現(xiàn)頻次排名靠前的主要關(guān)鍵詞,并進(jìn)行人工分類和組合,最終形成約15萬條有效的關(guān)鍵詞條原始數(shù)據(jù),作為南京市新一代信息技術(shù)領(lǐng)域關(guān)鍵詞庫(kù)的基礎(chǔ)標(biāo)引詞。
在關(guān)鍵詞提取步驟中對(duì)所有符合領(lǐng)域的專利申請(qǐng)文本進(jìn)行關(guān)鍵詞提取和篩選后,需要對(duì)基礎(chǔ)標(biāo)引詞進(jìn)行詞義擴(kuò)展,本文主要將關(guān)鍵詞擴(kuò)展詞段分為技術(shù)領(lǐng)域、IPC 分類、英文詞、上位詞、下位詞、同義詞和相關(guān)詞等部分。其中技術(shù)領(lǐng)域、IPC 分類和英文詞主要通過人工標(biāo)注的方式拓展,而對(duì)于其中的上位詞、下位詞、同義詞和相關(guān)詞主要通過同義詞詞林進(jìn)行擴(kuò)展。其同義擴(kuò)展的主要步驟包括以前述關(guān)鍵詞提取過程后形成的基礎(chǔ)標(biāo)引詞的集合作為算法輸入,在同義詞詞林中查找與基礎(chǔ)標(biāo)引詞對(duì)應(yīng)的詞群,將該詞群下的詞語作為該關(guān)鍵詞的同義詞和相關(guān)詞進(jìn)行輸出,重復(fù)上述步驟可完成關(guān)鍵詞同義詞和相關(guān)詞擴(kuò)展。
通過上述關(guān)鍵詞提取和關(guān)鍵詞擴(kuò)展過程后,最終形成完整的南京市新一代信息技術(shù)領(lǐng)域?qū)@麢z索關(guān)鍵詞庫(kù)。最終構(gòu)建的關(guān)鍵詞庫(kù)中某條數(shù)據(jù)的示例如表3所示。
表3 關(guān)鍵詞擴(kuò)展示例
為解決構(gòu)建的關(guān)鍵詞庫(kù)更新的問題,本文還建立了詞庫(kù)共享機(jī)制,在關(guān)鍵詞庫(kù)使用過程中預(yù)審員可以動(dòng)態(tài)地對(duì)詞庫(kù)進(jìn)行修改和補(bǔ)充,不斷循環(huán)改進(jìn)關(guān)鍵詞庫(kù)的內(nèi)容。在具體的預(yù)審工作中,預(yù)審員可以通過專用平臺(tái)系統(tǒng)錄入檢索詞后,由專人進(jìn)行分類后補(bǔ)充專利檢索關(guān)鍵詞庫(kù)。
專利申請(qǐng)預(yù)審機(jī)制的關(guān)鍵在于通過檢索在現(xiàn)有技術(shù)中找尋相關(guān)對(duì)比文件,而輸入的檢索關(guān)鍵詞的準(zhǔn)確度和全面性決定檢索結(jié)果的查準(zhǔn)率和查全率。因此本文針對(duì)專利申請(qǐng)預(yù)審員在專利檢索過程中關(guān)鍵詞擴(kuò)展不全面的問題,利用專利主題分析、關(guān)鍵詞聚類和同義詞擴(kuò)展技術(shù)構(gòu)建針對(duì)南京市新一代信息技術(shù)領(lǐng)域的專利檢索關(guān)鍵詞庫(kù)。該詞庫(kù)的構(gòu)建可以使專利申請(qǐng)預(yù)審員在檢索關(guān)鍵詞的拓展中得到有效的參考,避免出現(xiàn)專利申請(qǐng)人通過規(guī)避檢索的方式轉(zhuǎn)換技術(shù)表述導(dǎo)致審查員檢索結(jié)果查準(zhǔn)率低的情況,該詞庫(kù)對(duì)于提高專利申請(qǐng)預(yù)審效率也具有重要的意義。下一步,筆者將把該特定領(lǐng)域關(guān)鍵詞庫(kù)融入專利智能檢索開發(fā)過程中,完成關(guān)鍵詞自動(dòng)摘取、自動(dòng)擴(kuò)展、自動(dòng)檢索和自動(dòng)排序的智能化檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。