章文飛
摘 要
Patentics語義檢索目前在專利審查實踐中運用越來越廣泛,本文從選庫、常用檢索字段、算符和人工干預(yù)介紹了Patentics的檢索技巧。
關(guān)鍵詞
Patentics語義檢索;字段;算符;關(guān)鍵詞;人工干預(yù)
中圖分類號: G252.7;G306 ? ? ? ? ? ? ? ? ?文獻標(biāo)識碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.11.018
0 前言
Patentics是基于大數(shù)據(jù)下的機器學(xué)習(xí)的智能語義檢索工具,其通過超大規(guī)模智能計算和機器學(xué)習(xí),自動去理解海量專利文獻的內(nèi)容,并根據(jù)專利文本內(nèi)容進行智能語義檢索,將檢索結(jié)果按照關(guān)聯(lián)度進行由高到低的排序,極大地提高了檢索效率。本文從選庫、常用檢索字段、算符和人工干預(yù)介紹了Patentics的檢索技巧。
1 數(shù)據(jù)庫的選擇
采用Patentics檢索,選對數(shù)據(jù)庫很重要。Patentics包括中國(CN)、美國(US)、歐專局(EP)、日本(JP)、韓國(KR)、印度(IN)以及世界知識產(chǎn)權(quán)組織的PCT(WO)等多個國家和地區(qū)的數(shù)據(jù)庫,文獻量達千萬級。
我們在選庫時,考慮到Patentics的檢索原理,優(yōu)先選擇在全文庫檢索,全文庫信息齊全且量大,適合進行語義模型訓(xùn)練,而摘要庫內(nèi)容少,只能作為備選數(shù)據(jù)庫。
檢索中國專利文獻時,只需要勾選“中國發(fā)明實用(CNAPP)”庫,“中國發(fā)明實用(CNAPP)”庫其實是中國申請庫,所有的發(fā)明和實用新型的申請文本都在這個庫里,由于申請文本和授權(quán)文本的說明書內(nèi)容基本一致,“中國發(fā)明實用(CNAPP)”庫就必然包括“中國發(fā)明授權(quán)(CNPAT)”的文獻內(nèi)容,若兩個庫都勾選,檢索結(jié)果中會出現(xiàn)重復(fù)文件,造成目標(biāo)文件在海量文獻中排序靠后。同理,為了避免文獻重復(fù),在歐洲、日本、韓國等數(shù)據(jù)庫進行專利檢索時,也僅需單獨勾選歐洲申請、日本申請、韓國申請。
但美國需要勾選“美國申請(USAPP)”庫和“美國授權(quán)(USPAT)”庫,這是為什么呢?因為美國從2001年3月15號之后才開始公開美國的申請版本,之前是不公開的。如果僅勾選“美國申請(USAPP)”庫,會造成2001年之前的申請版本漏檢;但如果僅勾選“美國授權(quán)(USPAT)”庫,會造成近年申請但未授權(quán)的文獻或者被駁回的文獻的漏檢。
因此,選擇數(shù)據(jù)庫時注意:優(yōu)先選擇全文庫,文摘庫作為備選;中文庫和英文庫要分開檢索;單庫檢索要優(yōu)于多庫檢索;檢索中國專利文獻時,只需要勾選“中國發(fā)明實用(CNAPP)”庫;歐洲、日本、韓國還有中國臺灣,僅需勾選申請庫;美國是特例,既要勾選“美國申請(USAPP)”庫,還要勾選“美國授權(quán)(USPAT)”庫。
2 常用檢索字段和算符
2.1 “R/”和“RDI/”
“R/”為Patentics系統(tǒng)默認(rèn)的檢索字段,是Rerank的縮寫,也就是重排序的意思?!癛/”命令后可以輸入文字內(nèi)容或者專利號碼,例如“R/專利號碼”或者“R/文本(一段話)”。輸入專利號碼時,系統(tǒng)會自動提取該篇專利的全文文本進行語義檢索。
Patentics還提供“RDI/”命令,后可跟專利號碼,含義是檢索該專利申請日前公開的最接近專利文獻。與“R/”相比,“RDI/”對檢索的專利文獻的時間有了限定。
單獨使用“R/”命令或“RDI/”命令時,系統(tǒng)會對全庫進行語義重排序,但只會給出最相關(guān)的400篇專利文獻,因為系統(tǒng)在給出檢索結(jié)果時,已將更相關(guān)的放在了最前面,排名400以后的相關(guān)度會越來越低,因此會有默認(rèn)的截斷。但如果檢索人員想查看更多的信息,可以使用“CTOP/”命令限定要查看的專利數(shù)量,例如“CTOP/1000”,查看最相關(guān)的1000篇。
在檢索時,通常采用常用檢索字段“R/”和“RDI/”進行初步檢索,將系列申請、抵觸申請以及明顯的新穎性或創(chuàng)造性對比文件查找出來。
2.2 “R / and DI /”
字段組合“R/ and DI/”,“R/”的用法與上述相同,“DI /”后可以跟專利號碼或者日期。當(dāng)其使用方式為“R/專利號碼and ?DI/專利號碼”時,其作用與“RDI/專利號碼”相同,其中“DI/”取檢索結(jié)果中公開日在該專利申請日之前。
一般在進行追蹤檢索或?qū)哂袃?yōu)先權(quán)的PCT申請進行檢索時,會采用“R/公開號(或中國申請?zhí)枺゛nd DI/日期”進行檢索,特別是對具有優(yōu)先權(quán)的申請進行檢索時,“DI/”后面跟具體的日期,可以排除時間上不可用的大量文獻。
2.3 “B /”和“ A / ”
“B/關(guān)鍵詞”,其用于全文關(guān)鍵詞檢索。常用方式為“RDI/ and B/”,例如“RDI/cn103522482 ?and ?B/冰箱”,還可“RDI/cn103522 482 ?and ?B/((冰箱 or 冷柜)and 發(fā)泡 )”。
“A/關(guān)鍵詞”,用于檢索標(biāo)題、摘要或權(quán)利要求中含有的關(guān)鍵詞?!癆/”用法與上述類似,也可根據(jù)需要采用“RDI/”與“TTL/”、“ABST/”或“ACLM/”搭配檢索,例如“RDI/ ?and ACLM/ 關(guān)鍵詞”。
2.4 臨近算符“adj/x”和“adjn/x”
鄰近算符不能與()配合使用,需在雙引號中使用。
“adj/x”,為區(qū)分位置的臨近算符,使用方式為:B/”過濾 adj/3 發(fā)泡”,表示過濾和發(fā)泡間相距小于等于3個字,且過濾在發(fā)泡之前。
“adjn/x”,為不區(qū)分位置的臨近算符,使用方式為:B /”過濾 adjn/3 發(fā)泡”,表示過濾和發(fā)泡間相距小于等于3個字,過濾和發(fā)泡的前后位置不作區(qū)分,僅支持兩個詞的臨近運算。
2.5 同在算符“nw/x”和“np/x”
同在算符也不能與()配合使用,也是需在雙引號中使用。
“nw/x”,為區(qū)分位置的句同在算符,使用方式為:/”過濾 nw/3 發(fā)泡”,表示過濾和發(fā)泡出現(xiàn)在同一句子里,相隔不超過3個詞,且過濾在發(fā)泡之前;
“np/x”,為區(qū)分位置的段同在算符,使用方式為:/”過濾 np/3 發(fā)泡”,表示過濾和發(fā)泡出現(xiàn)在同一段,相隔不超過3個詞,且過濾在發(fā)泡之前。
3 人工干預(yù)
在僅使用“RDI/專利號碼”對全庫語義排序檢索效果不佳時,需要進行人工干預(yù)。人工干預(yù)的方式常見的有兩種,采用關(guān)鍵詞和/或分類號。
3.1 關(guān)鍵詞干預(yù)
關(guān)鍵詞干預(yù)的檢索式為“RDI/專利號and B/關(guān)鍵詞”,其含義為先用B/關(guān)鍵詞檢索出一個結(jié)果集,然后再對這個檢索結(jié)果集按照RDI/專利號的涵義進行語義排序。
采用關(guān)鍵詞干預(yù)時,可遵循“先檢準(zhǔn),再檢全”,優(yōu)先采用發(fā)明點關(guān)鍵詞干預(yù),其次采用改進基礎(chǔ)、目的、技術(shù)領(lǐng)域的關(guān)鍵詞干預(yù);盡量避免采用常見的部件名稱關(guān)鍵詞進行干預(yù),陷入海量對比文件瀏覽中;特殊領(lǐng)域,不確定的詞組表達可采用單字或詞根進行干預(yù),再交給語義來排序;盡量選取命名單一的關(guān)鍵詞(如專業(yè)術(shù)語)進行人工干預(yù),避免使用名稱不易準(zhǔn)確表達、也難以擴展全面的關(guān)鍵詞;關(guān)鍵詞干預(yù)效果不理想時,可對關(guān)鍵詞進行替換,若還不理想,可再將代表不同部件的多個關(guān)鍵詞“and”;可以多個干預(yù)字段聯(lián)合使用,例如:RDI/ and B/詞1 ?and AIM/詞2。
3.2 分類號干預(yù)
分類號干預(yù)的檢索為:“RDI/專利號and IPC/分類號”,其含義為先用IPC/分類號檢索出一個結(jié)果集,然后再對這個檢索結(jié)果集按照RDI/專利號的涵義進行語義排序。
采用IPC分類號干預(yù),也可遵循“先檢準(zhǔn)再檢全”的規(guī)則,先用準(zhǔn)確的分類號如小組分類號進行檢索,若無合適對比文件,則采用大組分類號進行檢索,再無合適對比文件,則可以采用小類分類號進行檢索。不用擔(dān)心采用小類分類號檢索范圍太大,有語義排序,能將最相關(guān)的前400篇文獻推出來。上述用小組、大組以及小類分類號檢索時,是可以結(jié)合關(guān)鍵詞一起檢索的,如:“R/公開號and B/關(guān)鍵詞and IPC/分類號”。
3.3 文本改寫干預(yù)
文本改寫干預(yù)主要是對“R/文本內(nèi)容”中的文本內(nèi)容進行改寫,也就是通過排序標(biāo)準(zhǔn)進行人工干預(yù)。
文本改寫的目的主要是縮小排序范圍、提升語義匹配度,在改寫時要選擇與發(fā)明點相關(guān)度高的部分進行改寫,刪除干擾信息、冗余信息,增加關(guān)鍵語段、關(guān)鍵詞語(同義詞或近義詞),改寫時對晦澀文字進行常規(guī)描述的改寫,最好用具體的下位詞語表達,不要用上位概念。
4 結(jié)語
本文從選庫、常用檢索字段、算符和人工干預(yù)介紹了Patentics語義檢索的檢索技巧:在選擇數(shù)據(jù)庫時,根據(jù)各國數(shù)據(jù)庫的特點進行選庫,再通過常用檢索字段“R/”和“RDI/”進行初步檢索,再采用“RDI/專利號碼+關(guān)鍵詞/分類號等”進行人工干預(yù),進行關(guān)鍵詞干預(yù)時可以運用鄰進算符、同在算符,若還沒有找到合適的對比文件,最后還可通過“R/文本改寫”實現(xiàn)排序標(biāo)準(zhǔn)的人工干預(yù)。