梁艷紅,檀潤(rùn)華,馬建紅
創(chuàng)新是企業(yè)生存與發(fā)展的關(guān)鍵,產(chǎn)品創(chuàng)新設(shè)計(jì)需要以知識(shí)為基礎(chǔ)。產(chǎn)品創(chuàng)新設(shè)計(jì)過(guò)程是一種復(fù)雜的運(yùn)用知識(shí)與經(jīng)驗(yàn)的創(chuàng)造性活動(dòng)過(guò)程,不再僅僅依賴(lài)于某領(lǐng)域狹窄的有局限性的知識(shí),而是越來(lái)越需要跨學(xué)科、跨領(lǐng)域的知識(shí),真正較強(qiáng)的創(chuàng)新是利用各個(gè)領(lǐng)域中的知識(shí)來(lái)解決特定領(lǐng)域中的問(wèn)題。
產(chǎn)品創(chuàng)新設(shè)計(jì)領(lǐng)域最重要的理論之一——發(fā)明問(wèn)題解決理論(Theory of Invention Problem Solving,TRIZ)認(rèn)為,不同的發(fā)明創(chuàng)造往往遵循共同的規(guī)律,類(lèi)似的問(wèn)題和技術(shù)發(fā)明原則與解決方法在工業(yè)生產(chǎn)和科學(xué)研究中會(huì)反復(fù)出現(xiàn)。TRIZ理論將這些共同的規(guī)律歸納成40個(gè)發(fā)明原理,每一個(gè)發(fā)明原理是適用于不同領(lǐng)域、具有普遍意義的規(guī)律,針對(duì)具體的技術(shù)矛盾,可以基于這些發(fā)明原理、結(jié)合工程實(shí)際尋求具體的解決方案[1-2]。TRIZ理論解決技術(shù)沖突的一般過(guò)程是:當(dāng)產(chǎn)品設(shè)計(jì)任務(wù)提出后,對(duì)產(chǎn)品需求進(jìn)行分析,將待解決的問(wèn)題轉(zhuǎn)化為T(mén)RIZ一般問(wèn)題,確定設(shè)計(jì)中的沖突;然后應(yīng)用沖突矩陣找出相應(yīng)的發(fā)明原理;最后設(shè)計(jì)人員在發(fā)明原理的指導(dǎo)下將待解決問(wèn)題演繹為最終解決方案。設(shè)計(jì)人員在找到解決技術(shù)沖突的發(fā)明原理后,通過(guò)分析研究這些發(fā)明原理,尋找特定問(wèn)題的特定解,將使得創(chuàng)新工作更有條理和可預(yù)見(jiàn)性。
然而,這些通用的發(fā)明原理未針對(duì)具體領(lǐng)域,其表達(dá)方法是描述可能解的概念,都是一些概括性相對(duì)較高的術(shù)語(yǔ),不易理解,因此在最后一步——演繹成最終解決方案時(shí),限于設(shè)計(jì)人員的知識(shí)積累和專(zhuān)業(yè)水平,總感覺(jué)到有一定的難度,有著難以逾越的知識(shí)“鴻溝”,如圖1所示。Altshuller指出,一個(gè)人在著手解決高水平的發(fā)明問(wèn)題時(shí),他理應(yīng)具有全部的技術(shù)知識(shí)、物理知識(shí)和化學(xué)知識(shí)[3]。然而,作為常人來(lái)說(shuō),不可能對(duì)各種專(zhuān)業(yè)知識(shí)都通盤(pán)了解,掌握幾乎全人類(lèi)的知識(shí)基礎(chǔ)。因此,跨越這道知識(shí)“鴻溝”是TRIZ使用者的一個(gè)難點(diǎn)。要跨越這道“鴻溝”,關(guān)鍵在于知識(shí)的獲取,如果設(shè)計(jì)人員能有包含相應(yīng)發(fā)明原理的專(zhuān)利做參考,從中獲取顯性知識(shí),結(jié)合自己已具備的隱性知識(shí),則將有助于形成特定解。
專(zhuān)利既是創(chuàng)新的成果,又是擴(kuò)展設(shè)計(jì)知識(shí)空間、促進(jìn)產(chǎn)品創(chuàng)新的重要知識(shí)資源,是具有創(chuàng)新性和實(shí)用性特點(diǎn)的一種知識(shí)載體,它涉及到幾乎所有技術(shù)領(lǐng)域的最新、最活躍的創(chuàng)新技術(shù)信息。國(guó)外統(tǒng)計(jì)資料表明,專(zhuān)利信息對(duì)新技術(shù)的報(bào)導(dǎo)比其他類(lèi)信息(如學(xué)術(shù)論文)平均早3~5年,許多發(fā)明創(chuàng)造成果僅出現(xiàn)于專(zhuān)利文獻(xiàn)中。據(jù)世界知識(shí)產(chǎn)權(quán)組織的調(diào)查,有90%~95%的世界發(fā)明以專(zhuān)利形式發(fā)布,其中80%并未記載在其他文獻(xiàn)中,有效利用專(zhuān)利知識(shí)資源,可縮短60%產(chǎn)品研發(fā)時(shí)間,節(jié)省40%研發(fā)經(jīng)費(fèi)[4]。全世界現(xiàn)有超過(guò)4 000萬(wàn)件專(zhuān)利文獻(xiàn),每年約有80萬(wàn)件發(fā)明申請(qǐng)專(zhuān)利,這些專(zhuān)利數(shù)據(jù)大多能通過(guò)Internet獲取,因此專(zhuān)利可望成為最具影響力的設(shè)計(jì)知識(shí)資源之一。
網(wǎng)上有很多專(zhuān)利庫(kù),使人們可以方便地在網(wǎng)上檢索到專(zhuān)利。然而,目前專(zhuān)利的分類(lèi)體系大多采用國(guó)際專(zhuān)利分類(lèi)標(biāo)準(zhǔn)進(jìn)程間通訊(Inter Process Communication,IPC)等,都是根據(jù)專(zhuān)利描述對(duì)象的所屬工程領(lǐng)域來(lái)劃分的。但從產(chǎn)品創(chuàng)新的角度看,以工程領(lǐng)域?yàn)榉诸?lèi)標(biāo)準(zhǔn)進(jìn)行專(zhuān)利分類(lèi),對(duì)有效地利用專(zhuān)利有很大的局限性。由于不同工程領(lǐng)域有許多相似問(wèn)題,它們的解也常常是相同的。研發(fā)人員不僅需要在自身工程領(lǐng)域中尋找專(zhuān)利的發(fā)明技術(shù),更需要在其他領(lǐng)域?qū)ふ依孟嗤姆椒▉?lái)解決類(lèi)似技術(shù)矛盾的發(fā)明技術(shù),激發(fā)創(chuàng)新靈感,這就需要按照新的分類(lèi)標(biāo)準(zhǔn)重新對(duì)專(zhuān)利進(jìn)行分類(lèi)。
除此之外,現(xiàn)有的專(zhuān)利分類(lèi)是依靠專(zhuān)家人工閱讀專(zhuān)利文獻(xiàn)來(lái)完成的,專(zhuān)利文獻(xiàn)的急劇增加使人工分析專(zhuān)利需要耗費(fèi)的人力和物力增多,而且專(zhuān)家自身知識(shí)的不統(tǒng)一也難以保證分類(lèi)的一致性和準(zhǔn)確性。因此,專(zhuān)利的分類(lèi)標(biāo)準(zhǔn)和手段都亟待改進(jìn)。
在此背景下,研究有效和快速地獲取專(zhuān)利知識(shí)的方法,使之服務(wù)于產(chǎn)品創(chuàng)新設(shè)計(jì),是必須面對(duì)的課題。本文應(yīng)用文本挖掘技術(shù),以發(fā)明原理為分類(lèi)標(biāo)準(zhǔn),對(duì)專(zhuān)利進(jìn)行自動(dòng)分類(lèi)的研究,其目的是為了提高創(chuàng)新設(shè)計(jì)過(guò)程中專(zhuān)利知識(shí)使用的質(zhì)量和效率,使設(shè)計(jì)人員在現(xiàn)代設(shè)計(jì)理論和方法的指導(dǎo)下,從各個(gè)領(lǐng)域的專(zhuān)利文獻(xiàn)中抽取有用的信息,打破思維定勢(shì)、拓寬設(shè)計(jì)思路,有效地提高創(chuàng)新設(shè)計(jì)能力。
專(zhuān)利文獻(xiàn)是專(zhuān)利信息的載體,面向產(chǎn)品創(chuàng)新設(shè)計(jì)的專(zhuān)利文本分類(lèi)以專(zhuān)利文獻(xiàn)為研究對(duì)象,以發(fā)明原理為分類(lèi)標(biāo)準(zhǔn),以創(chuàng)新設(shè)計(jì)知識(shí)需求為目標(biāo)導(dǎo)向。
專(zhuān)利文本目前存在的格式,主要是tiff圖像格式和html格式。與其他信息資源的表達(dá)方式不同,專(zhuān)利文獻(xiàn)一般具有相對(duì)統(tǒng)一的組成結(jié)構(gòu),例如美國(guó)專(zhuān)利文獻(xiàn)主要包括以下內(nèi)容:
(1)標(biāo)題(title) 一般是產(chǎn)品或結(jié)構(gòu)的名稱(chēng),有些專(zhuān)利標(biāo)題中還包含手段功能。
(2)摘要(abstract) 一般概括描述解決方案的組成結(jié)構(gòu)、用途或目的、采用或舍棄的方法或技術(shù)、原理、效應(yīng)以及專(zhuān)利人對(duì)專(zhuān)利的評(píng)價(jià)等。通常,一篇專(zhuān)利的摘要由上述6項(xiàng)內(nèi)容或者這6項(xiàng)內(nèi)容中的幾項(xiàng)構(gòu)成。
(3)權(quán)力要求書(shū)(claims) 是申請(qǐng)人請(qǐng)求專(zhuān)利保護(hù)的范圍,一般含有專(zhuān)利的結(jié)構(gòu)特征。
(4)說(shuō)明書(shū)正文(description) 清楚完整地描述發(fā)明創(chuàng)造的技術(shù)內(nèi)容,說(shuō)明書(shū)正文每部分均以小標(biāo)題引導(dǎo),一目了然。一般包括:
1)發(fā)明背景(background of the Invention)指明本發(fā)明所屬的技術(shù)領(lǐng)域、現(xiàn)有技術(shù)狀況和存在的不足,以及解決問(wèn)題的方法和要達(dá)到的目的。
2)發(fā)明概要(Summary of the Invention) 概述本發(fā)明的內(nèi)容,說(shuō)明發(fā)明專(zhuān)利含有方案的原理效應(yīng)和結(jié)構(gòu)特征。
3)附圖簡(jiǎn)介(Brief Description of the Drawings) 簡(jiǎn)要說(shuō)明附圖的參看方法。
4)最佳方案詳述(Detailed Description of the Preferred Embodiment) 專(zhuān)利文獻(xiàn)中最詳細(xì)、完整、清晰地闡述發(fā)明內(nèi)容的部分,主要描述專(zhuān)利的目的、手段功能、解決方案的組成結(jié)構(gòu)、原理效應(yīng)及其優(yōu)缺點(diǎn)等,提供解決技術(shù)問(wèn)題的最佳方案。
其中,摘要、權(quán)利要求書(shū)以及說(shuō)明書(shū)正文等在專(zhuān)利文獻(xiàn)中是顯而易見(jiàn)的,都以標(biāo)題的形式有著明確的標(biāo)志;而專(zhuān)利的知識(shí)結(jié)構(gòu)——解決方案的組成結(jié)構(gòu)、發(fā)明原理和技術(shù)的發(fā)展趨勢(shì)等,也都包含在專(zhuān)利文獻(xiàn)中,但沒(méi)有明確標(biāo)志,是蘊(yùn)含在專(zhuān)利內(nèi)容中的。
利用計(jì)算機(jī)對(duì)專(zhuān)利進(jìn)行分類(lèi),需要處理大量的文本內(nèi)容,將整篇專(zhuān)利內(nèi)容都進(jìn)行分析,則文本長(zhǎng)度龐大,不僅會(huì)大大增加計(jì)算機(jī)的計(jì)算量,并且實(shí)驗(yàn)證明其分類(lèi)效果反而不好。因?yàn)閷?zhuān)利中的信息繁雜,不同部分往往從不同的角度反映該篇專(zhuān)利的信息,如專(zhuān)利的背景主要說(shuō)明同類(lèi)或相關(guān)技術(shù)的背景和存在的問(wèn)題,專(zhuān)利的權(quán)利要求部分則主要說(shuō)明該專(zhuān)利所要求的法律保護(hù)部分。當(dāng)選用專(zhuān)利的組成結(jié)構(gòu)過(guò)多時(shí),會(huì)產(chǎn)生過(guò)多的干擾信息,最終影響分類(lèi)結(jié)果。因此需要將每篇專(zhuān)利內(nèi)容進(jìn)行分割,適當(dāng)?shù)剡x擇專(zhuān)利中的某個(gè)或某些部分的組合代表專(zhuān)利中的技術(shù)信息。
究竟應(yīng)選擇專(zhuān)利的哪些部分代表專(zhuān)利信息,要具體問(wèn)題具體分析,國(guó)外學(xué)者已進(jìn)行了一定研究。Fall等[5]根據(jù)專(zhuān)利IPC分類(lèi)標(biāo)準(zhǔn)對(duì)美國(guó)專(zhuān)利進(jìn)行自動(dòng)分類(lèi)的研究中,分別用專(zhuān)利的標(biāo)題、權(quán)利要求和專(zhuān)利文本的前300個(gè)單詞代表整篇專(zhuān)利做實(shí)驗(yàn),發(fā)現(xiàn)專(zhuān)利的標(biāo)題對(duì)專(zhuān)利分類(lèi)的影響很大,而專(zhuān)利的權(quán)利要求對(duì)分類(lèi)效果的影響并不明顯,專(zhuān)利文本的前300個(gè)單詞能取得較好的分類(lèi)效果。Chen等[6]認(rèn)為摘要是專(zhuān)利中最重要的部分,并在從語(yǔ)義的角度對(duì)專(zhuān)利文獻(xiàn)檢索系統(tǒng)的研究實(shí)驗(yàn)中應(yīng)用專(zhuān)利的摘要代表整篇專(zhuān)利信息。Tseng等[7]在應(yīng)用文本挖掘技術(shù)進(jìn)行專(zhuān)利分析的研究中,將一篇專(zhuān)利分為摘要、發(fā)明領(lǐng)域、發(fā)明背景、發(fā)明總結(jié)、最佳方案描述和權(quán)力要求6個(gè)部分。除權(quán)力要求外,分別選取其他五部分前面的幾個(gè)語(yǔ)句進(jìn)行組合代表整篇專(zhuān)利的信息,與整篇專(zhuān)利做為實(shí)驗(yàn)內(nèi)容進(jìn)行比較,分析得出結(jié)論:實(shí)驗(yàn)?zāi)康?、不同選取的組合方式不同,最后效果也不同。Cong和Tong[8-9]在面向 TRIZ用戶(hù)進(jìn)行專(zhuān)利分類(lèi)的研究中,將專(zhuān)利標(biāo)題和摘要組合,作為整篇專(zhuān)利信息的代表,研究結(jié)果表明,這種組合方式的專(zhuān)利成分中所蘊(yùn)涵的信息能較好地體現(xiàn)TRIZ發(fā)明原理。
涉及到分類(lèi)問(wèn)題,專(zhuān)利代表成分的選擇與分類(lèi)角度有關(guān)。在人工分析專(zhuān)利所蘊(yùn)含的發(fā)明原理時(shí),考察專(zhuān)利文獻(xiàn)中的不同部分,發(fā)現(xiàn)摘要大都能揭示出解決沖突所用的發(fā)明原理。因此,本文采用兩種專(zhuān)利成分選擇方案代表整篇專(zhuān)利信息進(jìn)行實(shí)驗(yàn):①標(biāo)題和摘要;②標(biāo)題、摘要和發(fā)明概要,如果專(zhuān)利文獻(xiàn)中沒(méi)有發(fā)明概要這一部分,則用專(zhuān)利的說(shuō)明(description)來(lái)代替。
本文對(duì)專(zhuān)利文本的自動(dòng)分類(lèi)采用的是基于統(tǒng)計(jì)的方法,利用的是描述專(zhuān)利的文本信息。通過(guò)分析40個(gè)發(fā)明原理的英文解釋?zhuān)l(fā)現(xiàn)有的發(fā)明原理是隱含在專(zhuān)利內(nèi)容中的,很難從字面意義上進(jìn)行判斷,如3號(hào)發(fā)明原理——local quality。而有的發(fā)明原理卻有很明顯的描述性文本信息,對(duì)發(fā)明原理有較明顯的暗示作用,如表1所示。收集專(zhuān)利樣本并人工分析專(zhuān)利所應(yīng)用的發(fā)明原理時(shí),發(fā)現(xiàn)有明顯的描述性文本信息的發(fā)明原理所對(duì)應(yīng)的專(zhuān)利內(nèi)容也經(jīng)常包含相應(yīng)的描述性信息,如美國(guó)專(zhuān)利US6626874應(yīng)用了1號(hào)發(fā)明原理,該發(fā)明原理的描述性信息中有portion,comprise或divide等單詞,專(zhuān)利US6626874內(nèi)容里也有portion這個(gè)單詞。
表1 有明顯描述性信息的部分發(fā)明原理
在著手?jǐn)?shù)據(jù)準(zhǔn)備時(shí),本文從美國(guó)專(zhuān)利商標(biāo)服務(wù)局USPTO網(wǎng)站上的專(zhuān)利數(shù)據(jù)庫(kù)中(http://patft.uspto.gov/)隨機(jī)下載了600份專(zhuān)利,分析所應(yīng)用的發(fā)明原理,根據(jù)發(fā)明原理對(duì)專(zhuān)利進(jìn)行了人工分類(lèi)。這種分類(lèi)是在單標(biāo)簽假設(shè)的前提下,假設(shè)每個(gè)專(zhuān)利僅包含一個(gè)發(fā)明原理。然后從對(duì)應(yīng)的專(zhuān)利數(shù)量比較集中并且有明顯描述性文本表示信息的發(fā)明原理中選出了10個(gè)(發(fā)明原理的標(biāo)號(hào)分別是1,7,10,14,15,17,28,31,35和40)做為本文要分類(lèi)的類(lèi)別。
對(duì)專(zhuān)利進(jìn)行分類(lèi)屬于文本分類(lèi)的范疇,需要將已經(jīng)標(biāo)記好類(lèi)別的數(shù)據(jù)集作為分類(lèi)樣本,這是分類(lèi)的基礎(chǔ)。目前,還沒(méi)有現(xiàn)成的以發(fā)明原理為分類(lèi)標(biāo)準(zhǔn)的專(zhuān)利文本集,本文根據(jù)需要人工構(gòu)建了用以分類(lèi)的專(zhuān)利樣本集。
對(duì)下載的600份美國(guó)專(zhuān)利,人工分析每份專(zhuān)利所包含的發(fā)明原理,如果一份專(zhuān)利不僅包含一個(gè)發(fā)明原理,則選擇其主要的發(fā)明原理并做好類(lèi)別標(biāo)記。接下來(lái)根據(jù)發(fā)明原理將這些專(zhuān)利分類(lèi),確定每個(gè)發(fā)明原理對(duì)應(yīng)多少份專(zhuān)利,再?gòu)闹羞x出上文提到的10個(gè)發(fā)明原理所對(duì)應(yīng)的專(zhuān)利。本著盡量使選出的各條發(fā)明原理所對(duì)應(yīng)專(zhuān)利的數(shù)量比較平均的原則,總共選出了293份專(zhuān)利做為樣本集。與文本分類(lèi)方法類(lèi)似,將樣本集按照大約2∶1的比例分為訓(xùn)練樣本集(簡(jiǎn)稱(chēng)訓(xùn)練集)和測(cè)試樣本集(簡(jiǎn)稱(chēng)測(cè)試集)。訓(xùn)練集用于分類(lèi)模型的學(xué)習(xí),建立分類(lèi)器;測(cè)試集用于測(cè)試、評(píng)價(jià)分類(lèi)器的性能。每篇專(zhuān)利的下載存儲(chǔ)均為文本格式(編碼為ANSI),把訓(xùn)練樣本和測(cè)試樣本分別存儲(chǔ)到不同的文件夾中,并分別建立訓(xùn)練樣本和測(cè)試樣本的索引文件。
專(zhuān)利文本分類(lèi)的過(guò)程主要包括學(xué)習(xí)過(guò)程和分類(lèi)過(guò)程兩大部分。其中,學(xué)習(xí)過(guò)程又分為訓(xùn)練過(guò)程和測(cè)試過(guò)程。在訓(xùn)練過(guò)程中根據(jù)訓(xùn)練集(已預(yù)知類(lèi)別的專(zhuān)利文本)學(xué)習(xí)建模,構(gòu)建分類(lèi)器;在測(cè)試過(guò)程中應(yīng)用分類(lèi)器對(duì)測(cè)試集(已預(yù)知類(lèi)別的專(zhuān)利文本)進(jìn)行分類(lèi),得到測(cè)試結(jié)果,并反饋給分類(lèi)器,改進(jìn)訓(xùn)練方法以提高分類(lèi)器的性能,如此反復(fù),直至達(dá)到預(yù)定的目標(biāo)。學(xué)習(xí)過(guò)程是一個(gè)需要不斷反饋、改進(jìn)和反復(fù)進(jìn)行的過(guò)程。分類(lèi)過(guò)程是利用學(xué)習(xí)過(guò)程最終生成的分類(lèi)器對(duì)新專(zhuān)利文本(類(lèi)別未知)進(jìn)行分類(lèi),得到其所屬類(lèi)別的過(guò)程。分類(lèi)過(guò)程和學(xué)習(xí)過(guò)程的測(cè)試過(guò)程大部分是相同的,都通過(guò)分類(lèi)器生成分類(lèi)結(jié)果,只不過(guò)測(cè)試過(guò)程還需要根據(jù)分類(lèi)結(jié)果對(duì)分類(lèi)性能進(jìn)行評(píng)價(jià),以改進(jìn)分類(lèi)器。
以發(fā)明原理為分類(lèi)標(biāo)準(zhǔn)的專(zhuān)利文本分類(lèi)過(guò)程如圖2所示。主要步驟包括:
(1)專(zhuān)利樣本庫(kù)的準(zhǔn)備 專(zhuān)家對(duì)從USPTO網(wǎng)站下載的專(zhuān)利進(jìn)行分析,確定每篇專(zhuān)利應(yīng)用的發(fā)明原理,根據(jù)發(fā)明原理對(duì)專(zhuān)利做分類(lèi)標(biāo)記。結(jié)合上文提到的10個(gè)發(fā)明原理,對(duì)人工分類(lèi)后的專(zhuān)利數(shù)據(jù)集,挑選有代表性的專(zhuān)利共293份作為專(zhuān)利樣本庫(kù)。再將其分為訓(xùn)練集(含198份專(zhuān)利)和測(cè)試集(含95份專(zhuān)利)兩個(gè)部分。
(2)分析發(fā)明原理并對(duì)其進(jìn)行知識(shí)表示 對(duì)選取的10個(gè)發(fā)明原理,基于工程語(yǔ)義,提取關(guān)鍵詞,分別用描述性文本信息來(lái)表示(如表1)。
(3)選擇專(zhuān)利中合適的成分作為專(zhuān)利信息的代表 專(zhuān)利文本一般具有相對(duì)統(tǒng)一的格式,包含幾大部分,具有明確的標(biāo)志引導(dǎo),因此計(jì)算機(jī)選取每篇專(zhuān)利的某些部分代表該篇專(zhuān)利的全文容易實(shí)現(xiàn)。選擇專(zhuān)利的哪些部分更好,需要通過(guò)人工分析專(zhuān)利所獲取的經(jīng)驗(yàn)和進(jìn)行分類(lèi)實(shí)證來(lái)確定。
(4)對(duì)專(zhuān)利所選擇的部分進(jìn)行特征抽取 本實(shí)驗(yàn)所用的每篇專(zhuān)利文本都由單詞、標(biāo)點(diǎn)符號(hào)、數(shù)字、空格和其他符號(hào)等組成,系統(tǒng)以單詞作為特征項(xiàng),經(jīng)過(guò)詞根還原和去除停用詞,將文本表示成字詞集合(如圖3)。本實(shí)驗(yàn)研究中引入著名的Porter算法進(jìn)行詞根提取。通過(guò)查閱停用詞表來(lái)消除停用詞,停用詞表的建立參考了文獻(xiàn)[10],并根據(jù)具體應(yīng)用對(duì)停用詞表進(jìn)行了修正,在原停用詞表的基礎(chǔ)上追加了一些詞匯,例如:invention,field,public,require,system,provide,thereby,technique,method等,停用詞的增加或刪除可以在系統(tǒng)實(shí)驗(yàn)中根據(jù)測(cè)試集的分類(lèi)結(jié)果適當(dāng)調(diào)整,以改進(jìn)分類(lèi)效果。
(5)專(zhuān)利文本的特征選擇和特征模型的建立通過(guò)特征選擇,進(jìn)一步濾除與任務(wù)不相關(guān)的冗余特征,選取與類(lèi)別相關(guān)性較大的字詞作為特征,并建立專(zhuān)利文本的向量空間模型。本實(shí)驗(yàn)中,應(yīng)用文本分類(lèi)中常用的特征函數(shù)信息增益和x2統(tǒng)計(jì)[11],對(duì)特征抽取后的所有特征進(jìn)行計(jì)算,得到特征值,然后將其降序排列,選擇值高的特征,這樣對(duì)于每一個(gè)發(fā)明原理,篩選出針對(duì)該發(fā)明原理的特征項(xiàng)。特征選擇后,為了滿(mǎn)足計(jì)算機(jī)分析處理的需要,將專(zhuān)利文本表示成數(shù)學(xué)模型的形式,每篇專(zhuān)利中的每個(gè)特征用特征權(quán)重來(lái)表示。特征權(quán)重的常用計(jì)算方法為詞頻—文檔倒排頻率(Term Frequency-Inverse Document Frequency,TF-IDF),在傳統(tǒng)的 TF-IDF公式的基礎(chǔ)上,本實(shí)驗(yàn)提出了基于類(lèi)別信息的特征權(quán)重計(jì)算方法,特征項(xiàng)的權(quán)重計(jì)算應(yīng)用類(lèi)別加權(quán)的TF-IDF公式來(lái)計(jì)算,如式(1)所示:
式中:wij表示特征tj在專(zhuān)利文本di中的權(quán)重,tf(tj,di)表示特征tj在di中的詞頻,N 為文本集中的文本總數(shù),ntj為文本集中包含特征tj的文本數(shù),nck-tj為某一類(lèi)別ck(k=1,2,…,m )中包含特征tj的文本數(shù),ts(ts∈di)為文本di中的各個(gè)特征。
(6)分類(lèi)器的建立 選擇分類(lèi)方法并對(duì)訓(xùn)練樣本集合的分類(lèi)模型進(jìn)行學(xué)習(xí),構(gòu)建分類(lèi)器。本實(shí)驗(yàn)中的分類(lèi)方法選用k最近鄰(k Nearest Neighbor,kNN)[12]和樸素貝葉斯(Naive Bayes,NB)[13]。
(7)分類(lèi)器的測(cè)試 應(yīng)用分類(lèi)器對(duì)測(cè)試集自動(dòng)分類(lèi),將計(jì)算機(jī)分類(lèi)的結(jié)果和人工分類(lèi)結(jié)果進(jìn)行比較,對(duì)分類(lèi)器的性能進(jìn)行評(píng)價(jià)。若結(jié)果不滿(mǎn)意(如分類(lèi)的準(zhǔn)確率、所消耗的時(shí)間和空間等),則返回到(3)或(4)~(6),得到新的分類(lèi)器,直至結(jié)果滿(mǎn)意。
(8)分類(lèi)器的實(shí)際應(yīng)用 將分類(lèi)器應(yīng)用于待分類(lèi)的專(zhuān)利,根據(jù)發(fā)明原理對(duì)專(zhuān)利進(jìn)行分類(lèi)。
在專(zhuān)利分類(lèi)研究中,專(zhuān)利樣本數(shù)量的多少、專(zhuān)利代表成分的選擇、特征抽取、特征選擇、分類(lèi)方法和分類(lèi)性能評(píng)價(jià)的方法,都是影響分類(lèi)結(jié)果的重要因素。尤其是訓(xùn)練階段發(fā)明原理的知識(shí)表示、特征抽取和特征選擇,是分類(lèi)的關(guān)鍵步驟,需要從自然語(yǔ)言的專(zhuān)利文本中把能代表分類(lèi)特征的向量提取出來(lái),為訓(xùn)練做準(zhǔn)備。
3.2.1 系統(tǒng)實(shí)現(xiàn)和部分界面
本文以PC機(jī)為硬件基礎(chǔ),以Windows 2003為操作平臺(tái),應(yīng)用面向?qū)ο蟮拈_(kāi)發(fā)工具Visual Studio 2000,編程語(yǔ)言為Visual C++,開(kāi)發(fā)了以發(fā)明原理為分類(lèi)標(biāo)準(zhǔn)的專(zhuān)利文本分類(lèi)軟件系統(tǒng)。系統(tǒng)運(yùn)行的主體界面如圖4所示。
首先選擇專(zhuān)利成分代表專(zhuān)利的內(nèi)容,點(diǎn)擊“加載數(shù)據(jù)后”自動(dòng)抽取專(zhuān)利代表份進(jìn)行文本預(yù)處理,包括去除停用詞和噪聲詞,取詞根;然后在特征詞選擇組合框,選擇一種特征選擇方案進(jìn)行特征選擇;接著在分類(lèi)選擇組合框,選擇一種分類(lèi)方法。當(dāng)選擇測(cè)試專(zhuān)利時(shí),系統(tǒng)對(duì)測(cè)試專(zhuān)利樣本進(jìn)行分類(lèi),并對(duì)分類(lèi)器的性能進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果如圖5所示;點(diǎn)擊“預(yù)覽結(jié)果”顯示分類(lèi)器的分類(lèi)結(jié)果和實(shí)際類(lèi)別,如圖6所示。用戶(hù)分析比較分類(lèi)結(jié)果,確定分類(lèi)器。分類(lèi)器確定后,用戶(hù)要對(duì)待分類(lèi)的專(zhuān)利進(jìn)行分類(lèi),經(jīng)過(guò)加載數(shù)據(jù),選擇合適的特征選擇方案,然后選擇“分類(lèi)文本路徑”單選框,利用“瀏覽”按鈕打開(kāi)待分類(lèi)專(zhuān)利的文件夾,選取合適的分類(lèi)方法,即可完成分類(lèi)。
3.2.2 實(shí)驗(yàn)結(jié)果及分析
在專(zhuān)利文本分類(lèi)研究中,分類(lèi)評(píng)價(jià)指標(biāo)使用了查準(zhǔn)率、查全率、F1測(cè)度[14]、宏平均F1和微平均F1[15],分別從專(zhuān)利文獻(xiàn)中選取不同的代表成分,應(yīng)用不同的特征選擇評(píng)估函數(shù),采用不同的分類(lèi)方法,對(duì)專(zhuān)利進(jìn)行分類(lèi)并對(duì)分類(lèi)結(jié)果進(jìn)行性能評(píng)價(jià)和比較。表2的數(shù)據(jù)是對(duì)293份專(zhuān)利樣本庫(kù),選取專(zhuān)利標(biāo)題和摘要代表專(zhuān)利內(nèi)容,采用基于文檔頻的x2統(tǒng)計(jì)進(jìn)行特征選擇的條件下選取不同的特征數(shù),分別使用kNN和NB進(jìn)行分類(lèi)實(shí)驗(yàn)所記錄的宏平均F1的部分?jǐn)?shù)據(jù)。通過(guò)表2可以看出,樸素貝葉斯模型比k最近鄰的分類(lèi)效果要好,當(dāng)特征數(shù)為90時(shí),樸素貝葉斯分類(lèi)的宏平均達(dá)到了0.756 382。
表2 兩種分類(lèi)器的分類(lèi)性能評(píng)價(jià)數(shù)據(jù)
續(xù)表2
融合發(fā)明原理和文本挖掘技術(shù)對(duì)專(zhuān)利進(jìn)行自動(dòng)分類(lèi)的根本目的是提高產(chǎn)品創(chuàng)新的能力,作者已提出了針對(duì) TRIZ用戶(hù)的專(zhuān)利分析方法[16-17],并在此基礎(chǔ)上開(kāi)發(fā)了專(zhuān)利自動(dòng)分類(lèi)系統(tǒng)。下面結(jié)合圓網(wǎng)造紙機(jī)的創(chuàng)新設(shè)計(jì)具體說(shuō)明。
為了提高生產(chǎn)率,需要提高圓網(wǎng)造紙機(jī)的圓網(wǎng)轉(zhuǎn)速。在造紙機(jī)的成形部,濕紙的形成取決于紙漿在圓網(wǎng)上的著留率。當(dāng)速度高于臨界值后,離心力大于粘著力,紙漿脫離網(wǎng),無(wú)法形成濕紙。因此面臨的問(wèn)題是如何提高車(chē)速、又要能形成濕紙,這是一個(gè)典型的技術(shù)矛盾問(wèn)題。
按照TRIZ理論中技術(shù)沖突解決問(wèn)題的一般過(guò)程,應(yīng)用39個(gè)工程參數(shù)將特定問(wèn)題一般化,上述問(wèn)題可描述為:如何提高速度,又不使物質(zhì)的損失加劇。把沖突的描述翻譯成標(biāo)準(zhǔn)工程參數(shù),改進(jìn)的工程參數(shù)為速度,惡化的工程參數(shù)為物質(zhì)損失。然后利用沖突矩陣得到4個(gè)推薦的發(fā)明原理,分別是:No.10預(yù)操作、No.13反向、No.28機(jī)械系統(tǒng)的替代、No.38加速?gòu)?qiáng)氧化。接下來(lái)就需要根據(jù)發(fā)明原理得到一般解決方案。
下面以10號(hào)發(fā)明原理預(yù)操作為例,分析發(fā)明原理到一般方案的具體過(guò)程。
預(yù)操作的詳細(xì)解釋為:①在操作開(kāi)始前,使物體局部或全部產(chǎn)生所需的變化;②預(yù)先對(duì)物體進(jìn)行特殊安排,使其在時(shí)間上有準(zhǔn)備,或已處于易操作的位置。雖然描述性的闡述對(duì)預(yù)操作進(jìn)行了一定的解釋?zhuān)磉_(dá)簡(jiǎn)練抽象、不易理解。這種情況下,需要參考包含預(yù)操作原理的專(zhuān)利,來(lái)拓寬設(shè)計(jì)人員的思路。從美國(guó)專(zhuān)利商標(biāo)服務(wù)局USPTO網(wǎng)站上的專(zhuān)利數(shù)據(jù)庫(kù)中隨機(jī)下載了80份專(zhuān)利,選取專(zhuān)利標(biāo)題和摘要代表專(zhuān)利內(nèi)容,利用專(zhuān)利分類(lèi)系統(tǒng)進(jìn)行了自動(dòng)分類(lèi)。學(xué)習(xí)樣本是前面提到過(guò)的198份專(zhuān)利,應(yīng)用基于文檔頻的x2統(tǒng)計(jì)進(jìn)行特征選擇(特征數(shù)=90),應(yīng)用基于文檔頻的貝葉斯進(jìn)行分類(lèi),部分結(jié)果如圖7所示,其中美國(guó)專(zhuān)利號(hào)碼為4389228,6669134等的專(zhuān)利被分類(lèi)為10,即應(yīng)用了10號(hào)發(fā)明原理預(yù)操作。
美國(guó)專(zhuān)利4389228的大致描述如下:固定張力調(diào)整裝置(constant tensioning device),國(guó)際專(zhuān)利分類(lèi)號(hào)為B65H75/38,該專(zhuān)利的簡(jiǎn)要描述如下:一種對(duì)過(guò)濾袋裝配保持適當(dāng)張力的張力調(diào)整裝置,包括一個(gè)旋轉(zhuǎn)的凸輪、使凸輪沿一個(gè)方向旋轉(zhuǎn)的扭轉(zhuǎn)彈簧和一個(gè)用來(lái)對(duì)抗彈簧壓力的環(huán)繞凸輪的纜繩。由于凸輪形狀的原因,纜繩與凸輪轉(zhuǎn)動(dòng)軸之間連續(xù)不斷變化的距離使纜繩產(chǎn)生拉力。彈簧、凸輪和纜繩按照要求排列,這樣當(dāng)彈簧對(duì)凸輪施加一個(gè)相對(duì)較大的彈力時(shí),纜繩從距離凸輪轉(zhuǎn)軸較遠(yuǎn)的距離對(duì)凸輪施加一個(gè)反作用力。反之,當(dāng)彈簧對(duì)凸輪施加一個(gè)相對(duì)較小的彈力時(shí),纜繩從距離凸輪轉(zhuǎn)軸較近的距離施加作用力。一個(gè)恒力拉索就這樣產(chǎn)生了。電纜給的壓力是個(gè)常量。這個(gè)裝置可以安裝在過(guò)濾袋和過(guò)濾袋的支撐結(jié)構(gòu)中,如圖8所示。即使過(guò)濾袋在長(zhǎng)度上變化,張力也會(huì)保持不變,因?yàn)樗鸬膹椓Φ母淖兛捎勺饔迷谕馆啿煌恢玫睦|繩彌補(bǔ)。
從專(zhuān)利4389228受到啟示,得到原理方案:既然提高速度會(huì)加大離心力,那么如果能預(yù)先提供一個(gè)和離心力相反的力,以抵消離心力的作用,將會(huì)減少紙漿從網(wǎng)籠上的飛出。沿著這個(gè)方向可以找到解決問(wèn)題的兩個(gè)方法:①在籠外加壓,使得籠外的壓力高于籠內(nèi),這樣產(chǎn)生一個(gè)向內(nèi)的壓力,抵消部分離心力,這種圓網(wǎng)稱(chēng)為壓氣式圓網(wǎng);②將圓網(wǎng)籠內(nèi)抽真空,使籠內(nèi)壓力低于籠外,這樣將產(chǎn)生一個(gè)向心力,可以抵消部分離心力,這種圓網(wǎng)稱(chēng)為真空?qǐng)A網(wǎng)。
壓氣式圓網(wǎng)是在網(wǎng)籠的外面形成正壓,對(duì)已成形的濕紙頁(yè)施加一定的氣墊壓力。其結(jié)構(gòu)如圖9所示。由貼在網(wǎng)面上的濕紙頁(yè)、漿槽內(nèi)的紙料液面、網(wǎng)槽兩邊的側(cè)板和后板、毛毯等組成一個(gè)封閉小室,用鼓風(fēng)帆向室內(nèi)送入空氣,使小室內(nèi)保持一定的壓力。這樣可以抵消部分離心力的作用。真空?qǐng)A網(wǎng)和壓氣圓網(wǎng)原理相反,是在網(wǎng)內(nèi)抽真空以增大脫水壓力差,其結(jié)構(gòu)如圖10所示。
壓氣式圓桶和真空式圓桶都可以抵消部分離心力的作用,可以較好地完成創(chuàng)新性能要求,壓氣式圓桶的實(shí)現(xiàn)更容易,因此采用壓氣式圓通的創(chuàng)新設(shè)計(jì)方案。
通過(guò)造紙機(jī)的技術(shù)改進(jìn),可以看出找到?jīng)_突進(jìn)行求解的過(guò)程中,對(duì)發(fā)明原理的應(yīng)用和理解是產(chǎn)生設(shè)計(jì)方案的核心,產(chǎn)品創(chuàng)新需要不同領(lǐng)域知識(shí)的支持,專(zhuān)利知識(shí)庫(kù)是創(chuàng)新設(shè)計(jì)研究的基礎(chǔ)工作之一。
應(yīng)用TRIZ得到能實(shí)現(xiàn)設(shè)計(jì)需求的發(fā)明原理,由發(fā)明原理轉(zhuǎn)化為原理解的捷徑是借助運(yùn)用同種發(fā)明原理的現(xiàn)有產(chǎn)品專(zhuān)利。為迅速發(fā)現(xiàn)對(duì)口專(zhuān)利,本文提出并進(jìn)行了面向創(chuàng)新設(shè)計(jì)對(duì)專(zhuān)利進(jìn)行分類(lèi)的研究,不僅延展了專(zhuān)利研究的角度和應(yīng)用,還可促進(jìn)發(fā)明原理對(duì)應(yīng)專(zhuān)利知識(shí)庫(kù)的建設(shè),推動(dòng)TRIZ理論自身的發(fā)展和完善。本文針對(duì)創(chuàng)新設(shè)計(jì)中專(zhuān)利知識(shí)挖掘的方法和應(yīng)用進(jìn)行了一定深度的研究和探索,取得了初步成果,但還有很多工作需要深化和提高,今后將探索專(zhuān)利文獻(xiàn)中包含的工程語(yǔ)義,結(jié)合關(guān)聯(lián)規(guī)則、模式匹配、語(yǔ)義相似度等方法,進(jìn)行進(jìn)一步的研究。
[1] ZLOTIN B,ZUSMAN A.Directed evolution philosophy,theory and practice[M].San Francisco,Cal.,USA:Ideation International Inc.,2001,3:40-48.
[2] TAN Runhua.Innovation design—TRIZ:theory of inventive problem solving[M].Beijing:China Machine Press,2002(in Chinese).[檀潤(rùn)華.創(chuàng)新設(shè)計(jì)——TRIZ:發(fā)明問(wèn)題解決理論[M].北京:機(jī)械工業(yè)出版社,2002.]
[3] ALTSHULLER G.Creation is an exact science[M].Guangzhou:Guangdong People's Press,1987(in Chinese).[阿里特舒列爾.創(chuàng)造是精確的科學(xué)[M].廣州:廣東人民出版社,1987.]
[4] GUO Jieting,XIAO Guohua.The Study of patent information analysis[J].Journal of Information,2008(1):12-15(in Chinese).[郭婕婷,肖國(guó)華.專(zhuān)利分析方法研究[J].情報(bào)雜志,2008(1):12-15.]
[5] FALL 段 ,TORCSVARI A,BENZINEB K,et al.Automated categorization in the international patent classification[J].ACM SIGIR Forum,2003,37(1):10-25.
[6] CHEN L,TOKUDA N,ADACHI H.A patent document retrieval system addressing both semantic and syntactic properties[C]//Proceedings of the ACL 2003Workshop on Patent Corpus Processing.Stroudsburg,Pa.,USA:ACL,2003:1-6.[7] TSENG 段 ,LIN L N,LIN L N.Text mining techniques for patent analysis[J].Information Processing and Management,2007,43(5):1216-1247.
[8] LOH 段 ,HE C,SHEN H .Automatic classification of patent document for TRIZ users[J].World Patent Information,2006,28(1):6-13.
[9] HE C,LOH 段 .Grouping of TRIZ inventive principles to facilitate automatic patent classification[J].Expert System with Applications,2006,34(1):788-795.
[10] Stop word list-words filtered out by search engine spiders[EB/OL].[2012-03-18].http://www.seo-innovation.com/support files/stopwordlist.pdf.
[11] YANG Y.PEDERSEN 段 .A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine Learnings.San Francisco,Cal.,USA:Morgan Kaufmann,1997:412-420.
[12] YANG Y.An evaluation of statistical approaches to text cate
gorization[J].Information Retrieval,1999,1(1/2):69-90.
[13] LEWIS 段 .Naive(bayes)at forty:the independence assumption information retrieval[J].Lecture Notes in Computer Sciences,1998,1398:4-15.
[14] VAN RIJSBERGEN 段 .Information retrieval[M].Boston,Mass.,USA:Butterworth,1979.
[15] LEWIS 段 .Evalatig text categorization[C]//Proceedings of Speech and Natural Language Workshop.San Francisco,Cal.,USA:Morgan Kaufmann,1991:312-318.
[16] LIANG Yanhong,TAN Runhua,WANG Chaoyang,et al.Computer-aided classification of patents oriented to TRIZ[C]//Proceedings of the IEEE International Conference on Industrial Engineering and Engineering Management.Washiton,D.C.,USA:IEEE,2009:2389-2393.
[17] LIANG Yanhong,TAN Runhua,MA Jianhong.Patent analysis with text Mining for TRIZ[C]//Proceedings of the 4th IEEE International Conference on Management of Innovation and Technology.Washington,D.C.,USA:IEEE,2008:1147-1151.