張玉靜
關(guān)鍵詞:TRIZ發(fā)明原理;專(zhuān)利自動(dòng)分類(lèi)方案;樸素貝葉斯
0引言
近幾年,TRIZ發(fā)明原理因其科學(xué)性和可操作性而得到廣泛關(guān)注。作為一種創(chuàng)造性思維方法,TRIZ發(fā)明原理可以將一個(gè)整體對(duì)象或系統(tǒng)分割為較小的部分,同時(shí)展示不同技術(shù)集成的過(guò)程,并深刻揭示創(chuàng)造發(fā)明的內(nèi)在規(guī)律。在新時(shí)期的專(zhuān)利分析中應(yīng)用TRIZ發(fā)明原理,可以進(jìn)一步提高科研工作者解決創(chuàng)造發(fā)明問(wèn)題的效率。因此,探討基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案設(shè)計(jì)與實(shí)現(xiàn)具有重要意義。
1基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案設(shè)計(jì)需求
1.1功能需求
TRIZ發(fā)明原理通過(guò)分割和轉(zhuǎn)換系統(tǒng)問(wèn)題來(lái)解決問(wèn)題。在設(shè)計(jì)基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案時(shí),首先需要落實(shí)TRIZ發(fā)明原理的內(nèi)涵,增加系統(tǒng)問(wèn)題錄入功能。同時(shí),方案應(yīng)允許普通用戶填寫(xiě)相應(yīng)字段進(jìn)行提交,提交后自動(dòng)根據(jù)專(zhuān)利名稱(chēng)生成分類(lèi)詞條并進(jìn)行準(zhǔn)確分類(lèi)[1]。
其次,專(zhuān)利分類(lèi)方案應(yīng)具備登錄注冊(cè)、退出登錄、增加、刪除、修改、查詢(xún)、權(quán)限設(shè)置等功能。
最后,方案應(yīng)提供專(zhuān)利查詢(xún)?nèi)肟?,允許專(zhuān)利使用者根據(jù)個(gè)性化需求查詢(xún)分類(lèi)結(jié)果,并賦予文檔生成、下載、打印的權(quán)限。
1.2非功能需求
根據(jù)發(fā)明問(wèn)題解決的需求,基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案應(yīng)布局清晰、界面簡(jiǎn)潔、操作便捷。同時(shí),新專(zhuān)利信息錄入后,系統(tǒng)應(yīng)能在短時(shí)間內(nèi)提取專(zhuān)利關(guān)鍵詞并反饋結(jié)果,且分類(lèi)頁(yè)面應(yīng)能正常跳轉(zhuǎn),使用端響應(yīng)時(shí)間應(yīng)短于10秒[2]。
2基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案設(shè)計(jì)方案
2.1基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案框架
根據(jù)方案的功能需求和非功能需求,基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案可以劃分為使用管理模塊、分類(lèi)模塊、檢索模塊、字典模塊幾個(gè)部分,整體框架如圖1所示。
圖1中,使用管理模塊主要負(fù)責(zé)滿足專(zhuān)利發(fā)明者和專(zhuān)利信息使用者的不同需求;分類(lèi)主模塊包括特征詞提取和類(lèi)別劃分兩個(gè)核心功能;檢索模塊可分為精確檢索和任意檢索;字典模塊主要負(fù)責(zé)專(zhuān)利信息分類(lèi)管理。
在總體框架內(nèi),可以以NB(NaiveBayes,樸素貝葉斯)為支撐,基于貝葉斯定理,將專(zhuān)利自動(dòng)化分類(lèi)問(wèn)題視為基于貝葉斯公式的專(zhuān)利文本所屬類(lèi)別條件概率估計(jì)。即:根據(jù)已知的特征和類(lèi)別,進(jìn)行待分類(lèi)專(zhuān)利文本所屬類(lèi)別概率的核算,公式如式(1):
式中:P(c|x)為專(zhuān)利文本內(nèi)每一特征屬于類(lèi)別的概率;x為類(lèi)標(biāo)號(hào)未知的專(zhuān)利樣本;c為專(zhuān)利所屬類(lèi)別。c為一個(gè)集合,具體為{c1,c2,...,cm},表示c共有m個(gè)類(lèi)別。P(x|c)為某一類(lèi)別屬于特征的概率;P(c)為專(zhuān)利文本全部類(lèi)別概率;P(x)為某一專(zhuān)利文本樣本概率。根據(jù)式(1),可以將待分類(lèi)專(zhuān)利歸類(lèi)到與其關(guān)系最緊密的類(lèi)別,求解向量歸屬特定類(lèi)別的概率P,概率最大的類(lèi)別為對(duì)應(yīng)專(zhuān)利所屬類(lèi)別。
2.2基于TRIZ發(fā)明原理的字典設(shè)計(jì)
字典設(shè)計(jì)是準(zhǔn)確切分表征TRIZ發(fā)明原理特征詞(專(zhuān)利文本內(nèi))的前提。在基于TRIZ發(fā)明原理的字典設(shè)計(jì)時(shí),可以先參考TRIZ發(fā)明原理及應(yīng)用書(shū)籍,準(zhǔn)備TRIZ發(fā)明原理的經(jīng)典描述、每一發(fā)明原理下的案例描述,再利用已標(biāo)注發(fā)明原理的海量專(zhuān)利,為特征詞切分做好準(zhǔn)備。最終,面向以TRIZ發(fā)明原理為基礎(chǔ)的字典,借助人工識(shí)別手段,加入表征發(fā)明原理特征詞。局部字典內(nèi)容如表1所示。
后期,根據(jù)專(zhuān)利信息擴(kuò)充要求,可以借助網(wǎng)頁(yè)抓取的方式,進(jìn)入國(guó)家知識(shí)產(chǎn)權(quán)局的網(wǎng)站,由服務(wù)器端下載URL(UniformResourceLocator,統(tǒng)一資源定位符)對(duì)應(yīng)內(nèi)容到本地,并記錄URLHTTP請(qǐng)求對(duì)應(yīng)編碼數(shù)據(jù),順利采集新領(lǐng)域大量專(zhuān)利特征詞,實(shí)現(xiàn)基于TRIZ發(fā)明原理的字典內(nèi)容不斷更新。
2.3基于TRIZ發(fā)明原理的訓(xùn)練集構(gòu)建
文本分類(lèi)訓(xùn)練是基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)的基礎(chǔ),主要依靠已標(biāo)記類(lèi)別的訓(xùn)練測(cè)試數(shù)據(jù)集。在訓(xùn)練數(shù)據(jù)集構(gòu)建前,由專(zhuān)人采集專(zhuān)利文獻(xiàn),分析下載專(zhuān)利文獻(xiàn)頁(yè)面標(biāo)題、權(quán)利要求、摘要等文本數(shù)據(jù),初步明確分詞[3]。明確分詞后,以基于TRIZ發(fā)明原理的字典為依據(jù),抽取特征,完成特征向量化處理,并獲得訓(xùn)練數(shù)據(jù)集。在獲得訓(xùn)練數(shù)據(jù)集后,以標(biāo)記為類(lèi)別不一的數(shù)據(jù)集為對(duì)象,借助兩兩組合的手段,進(jìn)行一個(gè)向量矩陣的合并處理。在向量矩陣中,將第一列定義為標(biāo)簽列,標(biāo)記每一篇專(zhuān)利向量化結(jié)果所在行,同類(lèi)標(biāo)記、另一類(lèi)標(biāo)記分別為1、-1。最終,將打上標(biāo)簽的向量矩陣保存為.xls格式文件。
基于TRIZ發(fā)明原理的訓(xùn)練集具體設(shè)計(jì)過(guò)程如下:
1)輸入jieba(結(jié)巴分詞)庫(kù),導(dǎo)入分詞工具。同時(shí)打開(kāi)已篩選的特征詞文件并讀取,將文件存儲(chǔ)為字符串形式。進(jìn)而正則化篩選特征詞文件內(nèi)詞語(yǔ),選中全部特征詞后連接,并對(duì)特征詞進(jìn)行去重處理。
2)選中全部基于TRIZ發(fā)明原理的特征詞,導(dǎo)入創(chuàng)建Excel表格庫(kù)。在庫(kù)內(nèi)新建工作簿和一個(gè)表格,將表格命名為0,遍歷全部特征詞,將所遍歷的特征詞寫(xiě)入表格。
3)選中專(zhuān)利文本并打開(kāi),讀取文件,將文件存儲(chǔ)為字符串形式。同時(shí)正則化選擇專(zhuān)利文件內(nèi)文本內(nèi)容,以專(zhuān)利文本內(nèi)容分詞為對(duì)象,連接分詞后詞語(yǔ),對(duì)分詞后詞語(yǔ)進(jìn)行去空格處理。去空格后,在文本列表內(nèi)存儲(chǔ)分詞后詞語(yǔ)[4]。
4)遍歷分詞后全部專(zhuān)利文本內(nèi)容(含詞語(yǔ)),根據(jù)每一篇文章對(duì)應(yīng)列表,對(duì)比專(zhuān)利文本分詞訓(xùn)練結(jié)果、字典特征向量。若特征詞位于專(zhuān)利文本內(nèi),則在表格中寫(xiě)入1;若專(zhuān)利文本未包含特征詞,則在表格中寫(xiě)入0。
5)在Excel表格中保存全部專(zhuān)利文本數(shù)據(jù)。
3基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案實(shí)現(xiàn)措施
3.1實(shí)現(xiàn)環(huán)境
基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案實(shí)現(xiàn)語(yǔ)言為Java語(yǔ)言。實(shí)現(xiàn)環(huán)境為安裝JDK(JavaDevelop?mentKit,Java語(yǔ)言的軟件開(kāi)發(fā)工具包)的PC機(jī),操作平臺(tái)為Windows10,操作平臺(tái)中已安裝Tomcat7.0,數(shù)據(jù)庫(kù)為JDBC數(shù)據(jù)庫(kù)連接池連接技術(shù)支撐的MySQL關(guān)系型數(shù)據(jù)庫(kù),工具為MyEclipse8.5,瀏覽器為谷歌瀏覽器[5]。環(huán)境后臺(tái)、前臺(tái)分別為SSM框架、EasyUI框架,以JavaServlet、JSP與JavaScript、HTML技術(shù)為支撐。
3.2實(shí)現(xiàn)流程
基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)分類(lèi)方案實(shí)現(xiàn)流程如下:
第一,中文專(zhuān)利自動(dòng)分類(lèi)主要是恰當(dāng)選擇專(zhuān)利中的幾個(gè)成分組合(權(quán)利要求、標(biāo)題、摘要、說(shuō)明等)作為輸入。輸入優(yōu)選可體現(xiàn)專(zhuān)利中包含TRIZ發(fā)明原理的信息,如選擇輸入為標(biāo)題、摘要,避免因選用成分過(guò)多而影響分類(lèi)結(jié)果準(zhǔn)確性。同時(shí)因中文句子內(nèi)各詞條間無(wú)分隔符,在分類(lèi)器分類(lèi)前,需借助基于HMM(Hi?erarchicalHiddenMarkovModel,多層隱馬模型)的ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem,中科院計(jì)算所中文信息處理系統(tǒng))分詞系統(tǒng),開(kāi)展專(zhuān)利摘要詞條切分。切分須先后經(jīng)歷“建立切分詞圖”“詞語(yǔ)粗分獲得若干概率最大切分結(jié)果”“角色標(biāo)注識(shí)別計(jì)算概率”“加入未登錄詞”“動(dòng)態(tài)規(guī)劃優(yōu)選切分結(jié)果”幾個(gè)環(huán)節(jié),最終完成分詞。
第二,完成分詞后,針對(duì)專(zhuān)利文本內(nèi)存在大量?jī)H發(fā)揮語(yǔ)法作用的詞,參考《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)文本分詞規(guī)范》,借助哈希表建立一個(gè)停用詞列表,匯總停用詞,如“新型”“發(fā)明”“領(lǐng)域”等實(shí)意詞和“然后”“最終”等非實(shí)意連詞[6]。在每次中文專(zhuān)利查詢(xún)時(shí),自動(dòng)搜集哈希表,及時(shí)發(fā)現(xiàn)、刪除停用詞表對(duì)應(yīng)詞,降低向量空間維數(shù)。若為英文專(zhuān)利樣本,可以免除分詞、去停用詞環(huán)節(jié),直接利用專(zhuān)利文本中英文分隔符,進(jìn)行特征選取。
第三,在停用詞刪除后,針對(duì)專(zhuān)利文檔內(nèi)無(wú)法輔助類(lèi)別區(qū)分的詞條,由低層次出發(fā),進(jìn)行高層次正交維數(shù)特征集的構(gòu)造。構(gòu)造方法可選擇基于概率的交叉熵法,其公式為:
式中:CE(t)為詞匯的交叉熵;t為詞匯;P(ci|T)為真實(shí)分布中c類(lèi)別的概率;T表示模型預(yù)測(cè)分布中c類(lèi)別的概率;P(ci|t)表示文本主題類(lèi)分布概率;ci表示某一類(lèi)別專(zhuān)利的數(shù)量;log為以2為底的對(duì)數(shù)。CE(t)是文本主題類(lèi)概率分布、出現(xiàn)特定詞匯下主題類(lèi)概率分布之間距離的彰顯,詞匯交叉熵與文本主題類(lèi)分布所受干擾成正比。
第四,選取詞匯交叉熵較大的特征后,可以在NB(Na?veBayes,樸素貝葉斯)分類(lèi)器內(nèi)進(jìn)行專(zhuān)利分類(lèi)。最終建立近千條發(fā)明數(shù)據(jù)集,從數(shù)據(jù)集中提取百余可標(biāo)示所使用TRIZ發(fā)明原理的專(zhuān)利,顯示為分類(lèi)選擇組合框,在選擇測(cè)試文本時(shí),自動(dòng)進(jìn)行專(zhuān)利分類(lèi)并輸出分類(lèi)結(jié)果(含分類(lèi)器性能評(píng)價(jià)),整體界面較為直觀、簡(jiǎn)潔。
3.3質(zhì)量評(píng)估
基于TRIZ發(fā)明原理的專(zhuān)利自動(dòng)化分類(lèi)質(zhì)量評(píng)估與傳統(tǒng)評(píng)估方法存在較大差異。傳統(tǒng)專(zhuān)利分類(lèi)效果評(píng)估為單一樣本分類(lèi),以專(zhuān)利被標(biāo)注單一標(biāo)簽是否有誤為判斷依據(jù)[7]。而在TRIZ發(fā)明原理支撐的專(zhuān)利自動(dòng)化分類(lèi)質(zhì)量評(píng)估中,一個(gè)專(zhuān)利可能對(duì)應(yīng)多個(gè)TRIZ發(fā)明,即一個(gè)標(biāo)簽集合,集合內(nèi)存在部分有誤或無(wú)誤的標(biāo)簽,甚至存在隱藏標(biāo)簽。因此,在專(zhuān)利自動(dòng)分類(lèi)質(zhì)量評(píng)估時(shí),可以分類(lèi)器為對(duì)象,核算真實(shí)TRIZ發(fā)明原理集合、預(yù)測(cè)TRIZ發(fā)明原理集合的差異。
考慮預(yù)測(cè)錯(cuò)誤、遺失錯(cuò)誤,以海明損失評(píng)估樣本TRIZ發(fā)明原理被錯(cuò)誤劃分類(lèi)別的概率。在海明損失等于0時(shí),樣本分類(lèi)取得最佳效果;海明損失越小,專(zhuān)利自動(dòng)分類(lèi)效果越佳。同時(shí)將全部分類(lèi)的正確專(zhuān)利文本、實(shí)際專(zhuān)利文本的文本數(shù)之比作為準(zhǔn)確度評(píng)估依據(jù),將全部分類(lèi)正確的文本與應(yīng)有專(zhuān)利文本數(shù)量之比作為召回率評(píng)估依據(jù)。在已有條件下,依托基于MODEL-x的多標(biāo)簽名分類(lèi)模式,對(duì)方案進(jìn)行測(cè)試,確定方案應(yīng)用效果。在發(fā)明數(shù)據(jù)集標(biāo)示專(zhuān)利數(shù)量為688個(gè)時(shí),分類(lèi)準(zhǔn)確率達(dá)到0.73,分類(lèi)召回率達(dá)到0.65,基本滿足中文專(zhuān)利分類(lèi)要求。
4結(jié)束語(yǔ)
綜上所述,專(zhuān)利文獻(xiàn)是全球最大最新技術(shù)信息源,對(duì)專(zhuān)利信息進(jìn)行分類(lèi)是信息利用的前提條件。TRIZ發(fā)明原理是一種解決發(fā)明創(chuàng)新問(wèn)題的系統(tǒng)方法學(xué)體系,可以加快專(zhuān)利分類(lèi)方案優(yōu)化。因此,可以構(gòu)建基于TRIZ發(fā)明原理的字典和分類(lèi)器,梳理基于TRIZ發(fā)明原理的專(zhuān)利分類(lèi)流程,有序推進(jìn)分詞、去停用詞、特征提取、分類(lèi)、測(cè)試等環(huán)節(jié),順利實(shí)現(xiàn)專(zhuān)利文檔類(lèi)別劃分的自動(dòng)化。