吳宏洲
摘要:一種無需語料庫和復(fù)雜數(shù)學(xué)模型支持的IPC分類簡單方法。該方法借助IPC分類表、同義詞庫、人工輔助植入同義詞或上位詞增加權(quán)重等手段,調(diào)整分類傾向,來捕捉文獻(xiàn)相應(yīng)的主分類和相關(guān)分類。該方法可作為信息加工專利文獻(xiàn)分類的輔助工具。
關(guān)鍵詞:IPC分類;分類表;同義詞庫;上位詞;相似度算法
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)33-0116-04
Research and Application of IPC Automatic Classification Technology—the Auxiliary Automatic Classification of the Realization of the Algorithm
WU Hong-zhou
(The China patent information center, Beijing 100088, China)
Abstract:A method of the IPC classification is simple without the help of a complex mathematical model and corpus. The method using the IPC classification comparison table, a synonym sets, artificial auxiliary implanted synonyms or hypernym , to increase the weight, to adjustment of classification, to capture the corresponding main classification and related classifications. This method can be used as auxiliary tool for the classification of information processing of patent literature.
Key words:the IPC classification; Classification entry table;A synonym base; Hypernym; Similarity algorithm
在專利信息技術(shù)領(lǐng)域中,自動分類技術(shù)的研究自2010年變?yōu)閷嵱?,成為?biāo)志性里程碑。多年來基于歷史信息的海量計算占主導(dǎo)。筆者致力于簡單實效的輕量級軟件研究,提出一種基于分類表的簡約方法。通過實驗來驗證其可行性。
1 實驗背景
早期手工分類,從粗到細(xì),完全由分類員完成。主要工具是查閱專利分類表。隨著計算機(jī)應(yīng)用的發(fā)展,分類表由書籍變成電子版,又經(jīng)歷了網(wǎng)絡(luò)版、網(wǎng)頁版變遷。2010年以后才真正標(biāo)志性地實現(xiàn)了自動分類技術(shù)的應(yīng)用,將研究變?yōu)閷嵱?。一種基于歷史文獻(xiàn)的分類方法至今占據(jù)著主導(dǎo)位置。
1.1 基于歷史文獻(xiàn)的分類方法
以歷史文獻(xiàn)作訓(xùn)練空間,構(gòu)建語料庫,通過數(shù)學(xué)模型運算獲得相似度評分,提供備選方案。其中數(shù)學(xué)模型可以多種。如SVM、KNN、Naive Bayes等等[1]。其優(yōu)點是對已分類文獻(xiàn)分類效果良好。其缺點是需配備海量裝備,代價大。
這種方法后來也受到兩點質(zhì)疑。
1)發(fā)明專利的創(chuàng)新性
由于專利文獻(xiàn)由兩類構(gòu)成:一類是開創(chuàng)性發(fā)明,另一類是改進(jìn)性發(fā)明。對于開創(chuàng)性發(fā)明,其新技術(shù)方案所依據(jù)的基本原理與已有技術(shù)有質(zhì)的不同。這類專利之間相似度很低。因此基于歷史的方法,問題會出在參照物信息不充分上。
2)IPC分類的漸變性
在專利審查流程中有一種預(yù)警機(jī)制。當(dāng)某個時期某個領(lǐng)域?qū)@讣吭鲩L超出預(yù)期就會報警。同時引起兩個部門的注意。A)宏觀戰(zhàn)略研究部門,主要觀測是否將有引領(lǐng)潮流的革命性技術(shù)到來,例如:納米。預(yù)測5到10年將進(jìn)入市場,對宏觀經(jīng)濟(jì)產(chǎn)生影響。B)審查業(yè)務(wù)管理部門,檢測到案件量當(dāng)超過某個數(shù)量級的閥值時,就要考慮審查增員問題,或者考慮該分類是否需要再細(xì)分。一種變化是增加小組細(xì)目,另一種變化停止原小組細(xì)目,重新分配一個新的大組,然后再分到各個小組細(xì)目。因此,專利分類表會根據(jù)需要隨時調(diào)整。因此基于歷史的方法問題會出在參照物信息不確定上。
1.2 基于分類表的分類方法
分類表作為指導(dǎo)性工具,曾經(jīng)是手工時代的產(chǎn)物,早已被自動化工具所取代,目前只剩備忘錄作用。筆者以為分類表不僅有良好層級結(jié)構(gòu),還有規(guī)則指向,交叉參考等。如能充分利用,可以開發(fā)出分類導(dǎo)航(XML- Xslt版已初具導(dǎo)航作用)產(chǎn)品;將括弧中規(guī)則指向和交叉參考與人工智能相結(jié)合,自動分類可以達(dá)到極高準(zhǔn)確率,當(dāng)然引入規(guī)則會變得相當(dāng)復(fù)雜。分類表簡單使用,已經(jīng)具備可計算性。這恰恰是輕量級分類方法須采用的重要手段之一,不可或缺。這種方法也有許多困難需要面對。例如:
1) 專利文獻(xiàn)語言文化差異
專利文獻(xiàn)格式嚴(yán)格,結(jié)構(gòu)特征明顯。作者撰寫文檔,須通過形式審查才能進(jìn)入審批流程。由于對撰寫具體內(nèi)容不作限定,說明書的撰寫水平受作者的語言文化背景、地域差異、學(xué)識和規(guī)范習(xí)慣等因素影響,因人而異。發(fā)明標(biāo)題中的詞素非常重要,需要抓住主題重點;權(quán)利要求書的描述是樹形結(jié)構(gòu),可以程式化固定。例如:“一種”(獨立權(quán)利要求),“根據(jù)”(從屬權(quán)利要求),可以構(gòu)成林、樹、杈關(guān)系。這對主分類和相關(guān)分類分析有參考價值。筆者曾抽樣分析,結(jié)果令人失望。嚴(yán)格按統(tǒng)一規(guī)范來撰寫的并不多,失去利用價值。要求文字術(shù)語統(tǒng)一規(guī)范,更是難事。
2) 專利分類表術(shù)語不統(tǒng)一規(guī)范
電子版分類表中符號混亂,文字缺乏統(tǒng)一規(guī)范。通過取樣幾個近義詞,便可略見一斑。參見表1。
某些詞語意思相近,復(fù)雜而繁多,分布在不同分類中,給解析帶來困難。
3) 抽象專利分類表與具象專利文獻(xiàn)之間術(shù)語差異
該差異是兩者不在一個層面自然形成的,需要一個溝通機(jī)制。由此,引出基于同義詞的術(shù)語分類方法。
1.3 基于同義詞的分類方法
專利文獻(xiàn)加工中人工標(biāo)引主要的工作就是標(biāo)注文獻(xiàn)的關(guān)鍵詞和同義詞。該方法主要作為提高專利檢索查準(zhǔn)率、查全率的必要手段之一。而對于文檔自動分類來說,利用分詞技術(shù)來獲取文檔中有限高頻詞。兩者目標(biāo)一致,方法有別,一個人工,一個計算技術(shù)。由于計算技術(shù)缺乏模糊識別、靈活和準(zhǔn)確的理解力。因此,最終還是需要適當(dāng)植入人工標(biāo)引關(guān)鍵詞來彌補(bǔ)計算技術(shù)的缺陷,提高準(zhǔn)確性。
其哲學(xué)思想也與數(shù)學(xué)方法論不相矛盾。如果把專利文獻(xiàn)和專利分類看作向量空間模型,文檔空間被看成是被簡化了的一組能夠代表文檔的高頻正交詞條有限特征向量空間,詞條頻度權(quán)重,看作特征軸上的投影。IPC分類也是有限特征向量空間子集,由不同的特征排列組合而成。某些特征被不同的分類空間所共用。像星座群一樣,每個星座對不同的分類群起的作用不同,有些分類群整體很耀眼,有些分類群整體有些黯淡,甚至沒有光芒。如果文檔空間向量與ipc空間向量存在交集,在ipc某些特征軸上能夠直接找到投影;否則,就相離。如果,某些特征通過變換折射也可以找到投影,那么認(rèn)為,兩者之間間接存在交集。這里折射變換的原理也就是同義詞和上位詞植入的基本原理。
如果直接用分類表來解析文獻(xiàn),尋求的分類目標(biāo)可能會發(fā)散。因為文檔空間與IPC分類空間不直接在一個層面上,坐標(biāo)沒有對應(yīng)關(guān)系,投影回到原點。有人會提出按照文檔結(jié)構(gòu)分類方法,認(rèn)為標(biāo)題或文摘部分很重要,通過增加整個標(biāo)題或文摘的權(quán)重來施加影響力。這對于空間的形狀會有所改善,但并未發(fā)生質(zhì)的改變。也只是改變了投影形狀量的大小。只有,真正將文檔空間中不在同一個層面的那些高頻特征詞,通過上位詞或同義詞的折射變換,才可以改善其在分類空間中的投影,以突顯或還原其真實形態(tài)。
利用這一方法,通過逐一折射掃描,捕捉分類空間的投影。不僅可以原型再現(xiàn),還可以通過局部放大,來達(dá)到逐一捕獲主IPC和或其他相關(guān)IPC的目的。分類會因同義詞強(qiáng)化效果大大改善,達(dá)到很好的收斂性。
因此,建立一個完善的同義詞庫意義重大。提供撿拾同義關(guān)系詞的入口,是基于同義詞分類方案進(jìn)入一個良性循環(huán)的必要手段。這是需要全員參與的工作,需要群體的智慧。同樣,提供一個可植入關(guān)鍵詞的入口,對于不依賴于現(xiàn)有或歷史,也是設(shè)計者需要考慮的。
建立同義詞或上位詞關(guān)系詞方法其實簡單。例如:蛋白質(zhì)是由肽構(gòu)成的,肽是由氨基酸構(gòu)成的。那么建立“肽→蛋白質(zhì)”關(guān)系,肽是上位詞,蛋白質(zhì)是下位詞。文獻(xiàn)中使用了“…蛋白質(zhì)”,就植入上位的“蛋白質(zhì)”和“肽”;又例如:文獻(xiàn)用“英文/英語”,那么就植入其上位詞“外語”,建立“外語→英語”關(guān)系。新建立的關(guān)系詞被積累保存到同義詞庫,一勞永逸。
與基于歷史文獻(xiàn)語料庫相比,同義詞庫無疑是輕量級的。同義詞庫可以彌補(bǔ)專利分類表中詞語抽象的不足,用來化解專利文獻(xiàn)中詞語具象的復(fù)雜性。在專利分類表和專利文獻(xiàn)之間搭建起溝通的橋梁。
2 IPC自動分類的技術(shù)實現(xiàn)
IPC自動分類的實現(xiàn),其專利文獻(xiàn)自動分類實驗流程圖,如圖1所示。
專利分類流程圖分為兩個部分,可以分開實現(xiàn),IPC分類表語料庫加工層最終得到的是分類表語料庫。由{ipc,wj,cc,idf}構(gòu)成,內(nèi)容參見定義1。
定義1:ipci,用以表示IPC分類表中的某個專利分類號;wij,用以表示ipci分類描述文字切分出的某個特征詞;cc(wij)表示,特征詞wij在IPC分類表中有多少分類與之有關(guān);N,用以表示IPC分類表中總共有多少分類條目;idf(wij) ,用以表示IPC分類條目中的詞條相對于總體分類的反文檔數(shù),是wij的重新評估的權(quán)重,idf(wij)=log(N/ cc(wij))。
原始文檔加工層,最終得到文檔目標(biāo)語料。由{wi,dn,tf}構(gòu)成,內(nèi)容參見定義2。
定義2:D,用以表示原始文獻(xiàn);wk,用以表示D中切分出的詞條;dn(wk),用以表示wk的重復(fù)數(shù);n,用以表示D中的總詞條數(shù),n=∑dn(wk);tf(wk),用以表示wk的詞頻,tf(wk)= dnk/ n;
計算相似度層,用三種算法分別計算相似度排名。參見自動分類算法。
2.1 IPC自動分類的算法
本文給出自定義的兩種算法和一種已有算法進(jìn)行對比。即:
l WHZ算法——一個自定義算法
l Tf-Idf算法——一個已有算法
l Hit-Rate算法——一個自定義算法
2.1.1 WHZ算法
whz算法屬于自定義算法,用來抑制版權(quán)爭端,與Tf-Idf和BM25算法相當(dāng)。
定義3:
文檔D與分類條目ipci相似度,用whz(D, ipci )表示。
whz(D, ipci )= ∑( dn(wj)/cc(wij))
其中,dn(wj)代表文檔詞條wj重復(fù)度權(quán)重,cc(wij)代表ipci條目中wj詞條被多少個其他ipc分類條目所共用或分享。
2.1.2 Tf-Idf算法
Tf-Idf算法屬于已有算法,其標(biāo)準(zhǔn)形式的定義有 BM25算法[略]。
定義4:
文檔D與分類條目ipci相似度,用Tf-Idf (D, ipci )表示,或sim(D, ipci )表示。
sim(D, ipci )= ∑j(tf(wk) *idf(wij))
=∑j((dn(wj)/n )* log(N/ cc(wij))
其中,dn(wj)代表詞條wj重復(fù)數(shù),cc(wij)代表詞條wj逆文檔數(shù),亦即詞條與其他ipc分類也相關(guān)的ipc條目數(shù)。
2.1.3 Hit-Rate算法
由于whz自定義算法,與tf-idf算法總體趨勢接近。為防止前兩種算法接近重疊,我們又從另外角度給出了一種自定義的算法。其主旨是,將ipc條目其所涉及分詞,與專利文獻(xiàn)中高重復(fù)度的詞相匹配,匹配占比越大,得分越高,與ipc條目越相似。
定義5:
函數(shù)has(wij)如果wij出現(xiàn)在文獻(xiàn)D中,則取值1,如果沒有出現(xiàn)在文獻(xiàn)D中,則取值0;Hit-r(D,ipci),用于表示命中率或占比。
Hit-r(D,ipci)= (∑j has(wij) ) / (∑j (1));
其中j=1..m,則∑j (1)=m。
文檔D與分類條目ipci相似度,用Hit-Rate(D, ipci) 表示。
Hit-Rate(D, ipci)=( ∑j(dnj ))* (Hit-r(D,ipci))
= (∑j(dnj ))* (∑j has(wij) ) / (∑j (1))
3 實驗效果(The experiment effect)
抽樣考察4個發(fā)明公開專利文獻(xiàn)。取試驗樣本4個發(fā)明公開專利的“標(biāo)題+文摘”,參見表2。
表2 試驗樣本4個發(fā)明公開專利的“標(biāo)題+文摘”
[專利\&標(biāo)題+文摘\&1\&
專利文獻(xiàn)切分分詞,參見表3。
觀測實驗結(jié)果,植入關(guān)鍵詞對自動分類的三種算法排名的影響,參見表5。
直接通過分類表計算自動分類相似度排名,收斂性較差。參見表4左部結(jié)果。植入同義詞調(diào)整后,分類效果明顯改善,基本收斂。參見表4右部結(jié)果。
筆者通過植入同義詞和上位詞來改善分類表解析不收斂的問題。如果調(diào)整得不到希望的分類,亦即,分類不收斂,就要重新調(diào)整其他同義詞方向,來改變策略,直至得到與文獻(xiàn)內(nèi)容相符合且最接近的分類為止。
從實驗效果看,本文所用的分類表與同義詞修正相結(jié)合的分類方法,收斂效果明顯。與實際采用何種算法無關(guān),要發(fā)散都發(fā)散,要收斂都收斂。無疑TF-IDF優(yōu)于自定義。
4 結(jié)論
IPC自動分類技術(shù)作為計算機(jī)輔助工具來使用,可為人們提供一種具有參考價值的分類信息,供使用者選擇。本文所述分類方法是一種基于分類表和同義詞相結(jié)合的方法,不依賴于歷史信息也不受限于歷史信息的不足,不需要大量訓(xùn)練數(shù)據(jù)的方法。其優(yōu)點是:能將專利文獻(xiàn)中的不同權(quán)重的高頻詞,通過同義詞庫的擴(kuò)充,與分類表直接比對,不需要花費大量資源收集專利文獻(xiàn)語料庫,只需借助有限同義詞植入來調(diào)整分類運算,來解決分類不收斂的問題。該方法在存儲量和運算量方面屬于輕量級的,且運算速度快,加工一篇文獻(xiàn)不到1秒,需要的資源不多。通過植入同義詞或上位詞調(diào)整權(quán)重,可以改變某些分類的發(fā)散或收斂方向,來達(dá)到逐一捕獲主ipc和每一個相關(guān)ipc的目的??勺鳛榘胱詣拥暮唵戊`活的分類捕捉工具。其缺點是算法受限于同義詞庫的建立,取決于植入同義詞的經(jīng)驗,調(diào)整植入詞,改變某些分類的發(fā)散或收斂方向,需要使用者自己憑經(jīng)驗來掌握和控制。初期需花費一些時間將分類表作一個初步同義詞整理,然后通過工作進(jìn)行中不斷來擴(kuò)充同義詞庫,使之趨于完善。該方法對CPC自動分類的實現(xiàn)有借鑒意義。
參考文獻(xiàn):
[1] 劉玉琴,桂婕,朱東華.基于IPC知識結(jié)構(gòu)的專利自動分類方法[J].計算機(jī)工程,2008, 34(3):207-209.