摘要: 針對(duì)準(zhǔn)確定義技術(shù)、 功效主題的關(guān)鍵問題, 通過分析技術(shù)、 功效主題在構(gòu)建技術(shù)功效矩陣中的語(yǔ)義共現(xiàn)性, 提出一種基于主體-行為-客體語(yǔ)義分析的技術(shù)功效矩陣構(gòu)建方法; 基于目標(biāo)領(lǐng)域制定檢索表達(dá)式, 在國(guó)家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫(kù)中下載相關(guān)專利信息數(shù)據(jù), 并預(yù)處理專利數(shù)據(jù), 得到目標(biāo)專利信息文檔;利用Python語(yǔ)言編程, 采用中文分詞工具包語(yǔ)言技術(shù)平臺(tái)提取專利信息文檔的主體-行為-客體語(yǔ)義結(jié)構(gòu), 結(jié)合目標(biāo)領(lǐng)域語(yǔ)料庫(kù)、 詞頻-逆文本頻率和余弦相似度計(jì)算主題詞的語(yǔ)義相似度; 利用聚類算法Louvain算法實(shí)現(xiàn)社區(qū)網(wǎng)絡(luò)劃分, 以凝練技術(shù)、 功效主題, 并通過主體-行為-客體語(yǔ)義結(jié)構(gòu)的共現(xiàn)關(guān)系構(gòu)建技術(shù)功效矩陣; 以海底電纜反應(yīng)力錐切削技術(shù)為例, 通過專利實(shí)例分析驗(yàn)證所提出方法的有效性。 結(jié)果表明: 在分析大量專利實(shí)例以構(gòu)建技術(shù)功效矩陣時(shí), 所提出的方法可以有效地實(shí)現(xiàn)專利實(shí)例中主體-行為-客體語(yǔ)義結(jié)構(gòu)的社區(qū)網(wǎng)絡(luò)劃分;通過分析社區(qū)網(wǎng)絡(luò)中節(jié)點(diǎn)主題的權(quán)重確定社區(qū)網(wǎng)絡(luò)主題, 提高了主題凝聚的準(zhǔn)確性; 在海底電纜反應(yīng)力錐切削技術(shù)的專利實(shí)例分析中, 利用主體-行為-客體語(yǔ)義結(jié)構(gòu)和Louvain算法凝聚了7個(gè)技術(shù)主題、 9個(gè)功效主題, 驗(yàn)證了所提出方法的有效性。
關(guān)鍵詞: 主體-行為-客體; 語(yǔ)義分析; 技術(shù)功效矩陣; 專利文本; 聚類算法
中圖分類號(hào): TH122
文獻(xiàn)標(biāo)志碼: A
Technology-effect Matrices Constructed by Using
Subject-Action-Object Semantic Analysis
Abstract: Aiming at the key problem of accurately defining technology and effect themes, a method of constructing technology-effect matricesbasedonsubject-action-objectsemanticanalysiswasproposedbyanalyzingsemanticco-occurrence of technology and effect themes in constructing technology-effect matrices. Formulate search expressions on the basis of target domains, relevant patent data were downloaded from the patent database of China National Intellectual Property Administration, and the relevant patent data were preprocessed to obtain target patent information documents. Subject-action-object semantic structures of patent information documents were extracted by using Python language programming and Chinese word segmentation toolkit language technology platform. Semantic similarities between theme words were calculated by combining target domain corpus, term frequency-inverse document frequency, and cosine similarity. The clustering algorithm Louvain algorithm was utilized to divide community networks in order to condense the technology and effect themes, and the technology-effect matrices were constructed through co-occurrence relationship of subject-action-object semantic structures. Taking the submarine cable anti-stress cone cutting technology as an example, the effectiveness of the proposed method was verified through patent case analysis. The results show that the proposed method can effectively divide the subject-action-object semantic structures of patent cases into community networks when a large number of patent cases are analyzed to construct technology-effect matrices. By analyzing weight values of node topics in community networks to determine themes of community networks, accuracy of theme cohesion is improved. In the patent case analysis of submarine cable anti-stress cone cutting technology, 7 technology themes and 9 effect themes are condensed by using subject-action-object semantic structures and Louvain algorithm, verifying the effectiveness of the proposed method.
Keywords: subject-action-object; semantic analysis; technology-effect matrix; patent text; clustering algorithm
作為世界上最容易獲得的公開研究技術(shù)信息的載體,專利文本是目前獲得重要技術(shù)研究?jī)?nèi)容的最常見來源。專利情報(bào)分析日益成為專利研究的熱點(diǎn),也是角逐知識(shí)產(chǎn)權(quán)的主打戰(zhàn)場(chǎng)[1]。產(chǎn)品創(chuàng)新研發(fā)工作者及創(chuàng)新主體在分析大量專利文本時(shí)所面臨的關(guān)鍵核心問題是怎樣有效獲取專利文本所蘊(yùn)含的核心技術(shù)。在各種已有的技術(shù)分析和管理工具中,技術(shù)功效矩陣是廣泛應(yīng)用的一種專利分析手段,具有簡(jiǎn)潔、 直觀、 詞語(yǔ)簡(jiǎn)練的優(yōu)點(diǎn),但是技術(shù)功效矩陣的構(gòu)建是一件非常艱巨的工作和任務(wù)。當(dāng)前技術(shù)功效矩陣的繪制主要利用人工方法確定主題,主觀性較強(qiáng),也存在人力和時(shí)間等局限性,而且大多數(shù)已有研究利用關(guān)鍵詞的詞頻方法抽取高頻詞匯作為技術(shù)、功效主題詞代表,無(wú)法深刻反映專利文本信息的內(nèi)在語(yǔ)義關(guān)系。
專利文本分析主要通過詞頻的計(jì)量方法分析關(guān)鍵詞,如Kostoff等[2]運(yùn)用詞頻分析方法識(shí)別有關(guān)顛覆性技術(shù)的主題詞;魯建廈等[3]采用文獻(xiàn)計(jì)量法統(tǒng)計(jì)分析并二次篩選國(guó)內(nèi)外有關(guān)射頻識(shí)別(radio frequency identification,RFID)的中英文文獻(xiàn),整理出以RFID瓶頸為主題的文獻(xiàn)進(jìn)行深入分析?;谠~頻確定專利文本中關(guān)鍵詞的方法雖然簡(jiǎn)單、 易用,但是對(duì)于語(yǔ)義信息的內(nèi)在聯(lián)系存在感較弱,并且難以準(zhǔn)確表達(dá)關(guān)鍵或核心信息。
基于主體-行為-客體(subject-action- object,SAO)的語(yǔ)義結(jié)構(gòu)由三元詞組構(gòu)成,用以體現(xiàn)實(shí)體之間的關(guān)系。近年來,針對(duì)關(guān)鍵詞的基本語(yǔ)義描述方法能力不足的問題,通過使用SAO語(yǔ)義結(jié)構(gòu)作為表示專利文獻(xiàn)內(nèi)容的基本語(yǔ)義單元結(jié)構(gòu)提供了一條可行的識(shí)別專利文獻(xiàn)中潛在語(yǔ)義內(nèi)在關(guān)系的研究路徑[4]。SAO語(yǔ)義結(jié)構(gòu)中包含大量的技術(shù)信息,而且有效地保持了專利文本信息的潛在聯(lián)系[5]?;赟AO語(yǔ)義結(jié)構(gòu)的語(yǔ)義分析方法已廣泛應(yīng)用于多個(gè)研究領(lǐng)域,如識(shí)別技術(shù)創(chuàng)新機(jī)會(huì)[6-8]、 分析技術(shù)演化趨勢(shì)[9-14]等。此外,在識(shí)別專利相似性方面,Park等[15]基于SAO語(yǔ)義結(jié)構(gòu)的語(yǔ)義相似性測(cè)量方法識(shí)別專利的技術(shù)相似性,從而識(shí)別專利侵權(quán)的可能性;Wang等[16]基于SAO語(yǔ)義結(jié)構(gòu),提出一種評(píng)估SAO語(yǔ)義結(jié)構(gòu)的權(quán)重指標(biāo)(different weighted SAO,DWSAO)用于計(jì)算專利的相似度。另外,在專利文本分析和SAO語(yǔ)義結(jié)構(gòu)提取方面,Hoherchak等[17]基于詞性標(biāo)注、 依存關(guān)系分析和共指消解問題構(gòu)建了一種自然語(yǔ)言文本分析系統(tǒng)方法。近年來研究者大多使用開源自然語(yǔ)言處理工具,如Link Grammar、 Stanford NLP、 Open NRE、 Jieba等[18],半自動(dòng)化提取SAO語(yǔ)義結(jié)構(gòu)。
精準(zhǔn)界定技術(shù)、 功效主題并分析技術(shù)、 功效主題存在的語(yǔ)義共現(xiàn)性是構(gòu)建技術(shù)功效矩陣的基本問題,也是關(guān)鍵問題。部分學(xué)者針對(duì)于技術(shù)功效矩陣的創(chuàng)建開展了大量研究。張兆鋒等[19]、 翟東升等[20]基于知識(shí)圖譜并引入反饋機(jī)制,以及基于SAO語(yǔ)義分析和詞向量的方法,提高了技術(shù)功效圖構(gòu)建的準(zhǔn)確性及高效性。段慶峰等[21]討論基于SAO語(yǔ)義結(jié)構(gòu)的技術(shù)、功效主題的分析方法,形成了一種專利深度語(yǔ)義挖掘分析體系流程,減少了對(duì)專家的依賴性。Trappey等[22]、 Jhuang等[23]基于計(jì)算機(jī)開發(fā)技術(shù)功效矩陣構(gòu)建方法,實(shí)現(xiàn)了技術(shù)功效矩陣的自動(dòng)生成?;趯@谋拘畔⑼诰虻膶@閳?bào)分析已成為構(gòu)建技術(shù)功效矩陣的重要研究方法,然而對(duì)于高效且精準(zhǔn)抽取專利文本信息中的技術(shù)詞和功效詞并分析二者內(nèi)在技術(shù)聯(lián)系仍較困難,須要深度分析和理解詞語(yǔ)間的語(yǔ)義特征及內(nèi)涵。
雖然基于SAO特征結(jié)構(gòu)的語(yǔ)義分析已廣泛應(yīng)用,但是SAO語(yǔ)義結(jié)構(gòu)在構(gòu)建技術(shù)功效矩陣的研究中的應(yīng)用相對(duì)缺乏。此外,在SAO語(yǔ)義特征結(jié)構(gòu)主題凝聚過程中,存在主題詞語(yǔ)義相似度準(zhǔn)確性和關(guān)鍵詞突出性較差等問題。本文中將基于SAO語(yǔ)義結(jié)構(gòu)提取專利文本關(guān)鍵技術(shù)方法應(yīng)用于技術(shù)功效矩陣的構(gòu)建,探討技術(shù)詞與功效詞的語(yǔ)義相似度的計(jì)算方法,提出基于SAO語(yǔ)義分析的技術(shù)功效矩陣構(gòu)建方法(簡(jiǎn)稱本文方法),從而準(zhǔn)確分析主題詞以及主題詞在專利文本信息中所蘊(yùn)含的內(nèi)在聯(lián)系,提高主題凝聚的準(zhǔn)確性和技術(shù)功效矩陣的構(gòu)建效率。
1 SAO語(yǔ)義結(jié)構(gòu)與技術(shù)功效矩陣
1.1 SAO語(yǔ)義結(jié)構(gòu)
SAO語(yǔ)義結(jié)構(gòu)可以清晰地描述專利文本信息中組成部分的關(guān)系[9]。對(duì)于SAO三元組,從語(yǔ)法結(jié)構(gòu)來看,主體S為主語(yǔ),行為A為謂語(yǔ),客體O為賓語(yǔ);從語(yǔ)義結(jié)構(gòu)來看,主體S和客體O是名詞,表示系統(tǒng)的組件、 裝置或技術(shù),行為A是動(dòng)詞,表示如何實(shí)現(xiàn)系統(tǒng)功能[24]?;诖?,按照詞組A結(jié)構(gòu)的詞語(yǔ)特征將SAO語(yǔ)義結(jié)構(gòu)分為技術(shù)方案、 技術(shù)問題、 技術(shù)效果、 技術(shù)功能[25]。特定的SAO語(yǔ)義結(jié)構(gòu)組合反映了技術(shù)系統(tǒng)的內(nèi)在關(guān)系及特征。從專利文獻(xiàn)信息中提取的特定SAO語(yǔ)義結(jié)構(gòu)能精準(zhǔn)地表達(dá)技術(shù)方案以及產(chǎn)品結(jié)構(gòu)方面的文本信息內(nèi)容[26]。總體來說,SAO語(yǔ)義結(jié)構(gòu)分析的主要內(nèi)容可以概括為4個(gè)部分: 1)實(shí)體分析,即對(duì)詞組S或詞組O的分析; 2)關(guān)系分析,即對(duì)詞組A的分析; 3)文本語(yǔ)義分析,即將SAO語(yǔ)義結(jié)構(gòu)作為一個(gè)整體分析所蘊(yùn)含的語(yǔ)義信息; 4)分析研究不同SAO語(yǔ)義結(jié)構(gòu)的關(guān)系。
1.2 技術(shù)功效矩陣
技術(shù)功效矩陣是可視化的二階矩陣, 由技術(shù)、 功效主題組成。 在技術(shù)、 功效主題交叉點(diǎn)的氣泡圖中, 交叉點(diǎn)位置處的數(shù)值為技術(shù)、 功效主題的共現(xiàn)專利個(gè)數(shù),可為創(chuàng)新主體提供直觀的領(lǐng)域技術(shù)信息,有利于剖析領(lǐng)域技術(shù)的發(fā)展趨勢(shì)[8],可為創(chuàng)新主體高效開展技術(shù)創(chuàng)新或?qū)@治鎏峁┝死碚撘罁?jù)。
構(gòu)建技術(shù)功效矩陣的關(guān)鍵在于準(zhǔn)確凝練技術(shù)、 功效主題詞, 以及找出技術(shù)、 功效主題詞存在的語(yǔ)義關(guān)系, 而在SAO語(yǔ)義結(jié)構(gòu)中隱藏著技術(shù)、 功效主題詞, 并且SAO語(yǔ)義結(jié)構(gòu)中存在技術(shù)與功效的內(nèi)在關(guān)聯(lián)。
2 本文方法
為了構(gòu)建技術(shù)功效矩陣,基于SAO語(yǔ)義結(jié)構(gòu)提取專利文本中關(guān)鍵核心技術(shù)信息,提出本文方法,包含數(shù)據(jù)準(zhǔn)備、 SAO語(yǔ)義結(jié)構(gòu)抽取及分析、 技術(shù)主題詞與功效主題詞的語(yǔ)義相似度計(jì)算、 技術(shù)主題詞和功效主題詞聚類、 技術(shù)功效矩陣構(gòu)建5個(gè)階段。本文方法的流程如圖1所示。
2.1 數(shù)據(jù)準(zhǔn)備
2.1.1 數(shù)據(jù)獲取及預(yù)處理
選用國(guó)家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫(kù)作為專利數(shù)據(jù)集,從該數(shù)據(jù)庫(kù)中制定目標(biāo)領(lǐng)域的檢索表達(dá)式,并下載專利文獻(xiàn)。由于直接得到的專利數(shù)據(jù)存在較多噪聲干擾信息,可能影響數(shù)據(jù)分析結(jié)果的精準(zhǔn)性,因此須要對(duì)專利數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并通過專家意見刪除與目標(biāo)領(lǐng)域無(wú)關(guān)、 相關(guān)性低和重復(fù)的專利。經(jīng)過數(shù)據(jù)清洗后,分析專利摘要中的技術(shù)內(nèi)容以及專利說明書中的文本內(nèi)容,保留獲取的專利內(nèi)容作為后續(xù)SAO語(yǔ)義結(jié)構(gòu)的抽取來源。
2.1.2 構(gòu)建目標(biāo)領(lǐng)域自定義詞庫(kù)
采用哈爾濱工業(yè)大學(xué)的中文分詞工具包語(yǔ)言技術(shù)平臺(tái)(language technology platform,LTP)對(duì)專利內(nèi)容分詞,通過分詞結(jié)果并根據(jù)專家意見構(gòu)建目標(biāo)領(lǐng)域詞庫(kù),可以準(zhǔn)確地實(shí)現(xiàn)專利內(nèi)容的自然語(yǔ)言處理,同時(shí)獲取目標(biāo)領(lǐng)域中的主題詞,以防止分詞不準(zhǔn)確而影響分詞結(jié)果。
2.2 SAO語(yǔ)義結(jié)構(gòu)抽取及分析
在專利文本信息預(yù)處理的基礎(chǔ)上,對(duì)文本內(nèi)容分詞、 詞性標(biāo)注、 標(biāo)記依存關(guān)系等,從而完成對(duì)專利文本的依存句法分析。以“電纜切削裝置更好控制反應(yīng)力錐形狀尺寸”為例,分析依存關(guān)系和詞性標(biāo)注。采用中文分詞工具包LTP,基于Python語(yǔ)言,并結(jié)合該專利目標(biāo)領(lǐng)域詞庫(kù),實(shí)現(xiàn)專利文本的SAO語(yǔ)義結(jié)構(gòu)抽取。依存句法分析和詞性標(biāo)注結(jié)果如圖2所示。由圖可知,“控制”為句子的核心,“控制”與“切削裝置”為主謂關(guān)系,“控制”與“尺寸”為動(dòng)賓關(guān)系,最終該句中的SAO語(yǔ)義結(jié)構(gòu)為主體“電纜切削裝置”、 行為“控制”、 客體“反應(yīng)力錐形狀尺寸”。
對(duì)抽取結(jié)果進(jìn)行數(shù)據(jù)清洗,剔除不含層級(jí)關(guān)系的SAO語(yǔ)義結(jié)構(gòu),并初步語(yǔ)義標(biāo)注剩余SAO語(yǔ)義結(jié)構(gòu)的抽取結(jié)果,通過SAO語(yǔ)義結(jié)構(gòu)中結(jié)構(gòu)A的語(yǔ)義特征,可將SAO語(yǔ)義結(jié)構(gòu)分為技術(shù)方案、 技術(shù)問題、 技術(shù)效果和技術(shù)功能4種語(yǔ)義結(jié)構(gòu)類型。根據(jù)這些語(yǔ)義結(jié)構(gòu)類型的SAO語(yǔ)義特征結(jié)構(gòu)中的詞組S或O可能代表技術(shù)組件或系統(tǒng)裝置,可利用詞組S或O抽取技術(shù)主題詞;而語(yǔ)義類型為技術(shù)效果的SAO語(yǔ)義結(jié)構(gòu)中詞組AO結(jié)構(gòu)可能代表技術(shù)的功能、 狀態(tài)、 行為或效果,可利用詞組AO抽取功效主題詞,最終得到技術(shù)主題詞庫(kù)和功效主題詞庫(kù)。
2.3 技術(shù)、 功效主題詞的語(yǔ)義相似度計(jì)算
步驟1 計(jì)算詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)。TF-IDF為判斷主題詞語(yǔ)料庫(kù)中文本重要性程度的統(tǒng)計(jì)學(xué)指標(biāo),由TF、 IDF組成。TF為主題詞在當(dāng)前文本中出現(xiàn)的頻率,IDF為對(duì)該主題詞在全體語(yǔ)料庫(kù)文本中出現(xiàn)頻率的倒數(shù)取以10為底的對(duì)數(shù)而得到。TF、 IDF公式[27]為
式中: FTF(j,i)為語(yǔ)料庫(kù)的第i個(gè)文本中第j個(gè)主題詞出現(xiàn)的頻率; ni,j為第i個(gè)文本中第j個(gè)主題詞的個(gè)數(shù); nt為文本的總個(gè)數(shù); FIDF(j)為第j個(gè)主題詞的逆文本頻率; nt,j為包含第j個(gè)主題詞的文本個(gè)數(shù)。
在某些特殊情況下,某生僻詞不在語(yǔ)料庫(kù)中,則式(2)分母nt,j為0,該式此時(shí)無(wú)意義,因此須要適當(dāng)?shù)仄交剑?),即
TF-IDF的計(jì)算公式[28]為
Fj=FTF-IDF(j,i)=FTF(j,i)FIDF(j) ,(4)
式中: FTF-IDF(j,i)為第j個(gè)主題詞在文本中的重要程度,即在文本中的權(quán)重; Fj為FTF-IDF(j,i)的簡(jiǎn)寫。
步驟2 構(gòu)建相似度下三角矩陣。計(jì)算主題詞的余弦相似度[27],并構(gòu)建m×m型相似度下三角矩陣G,
式中: Ca, j為第a、 j個(gè)主題詞的余弦相似度; n為主題詞的個(gè)數(shù); xa、 yj分別為第a、 j個(gè)主題詞的行向量。
步驟3 計(jì)算主題詞的語(yǔ)義相似度。將計(jì)算得到第a、 j個(gè)主題詞的TF-IDF與對(duì)應(yīng)矩陣中第a行、 第j列元素的余弦相似度相加,重復(fù)步驟3,直至全部計(jì)算完成,構(gòu)建矩陣H,
式中Wa, j為第a、 j個(gè)主題詞的語(yǔ)義相似度。標(biāo)準(zhǔn)化處理矩陣H中的元素,得到主題詞的最終語(yǔ)義相似度計(jì)算值,即
2.4 技術(shù)、 功效主題詞聚類
將技術(shù)主題詞、功效主題詞表示為節(jié)點(diǎn)主題,將節(jié)點(diǎn)主題的語(yǔ)義相似度作為邊,并分別構(gòu)建技術(shù)主題詞、 功效主題詞的語(yǔ)義網(wǎng)絡(luò)。在語(yǔ)義網(wǎng)絡(luò)中主題詞之間邊的粗細(xì)不同,越粗則說明技術(shù)、 功效主題詞的相似度較高,從而聚集的節(jié)點(diǎn)較多;越細(xì)則說明技術(shù)、 功效主題詞的相似度較低,從而聚集的節(jié)點(diǎn)較少。節(jié)點(diǎn)主題的聚集性表明,語(yǔ)義網(wǎng)絡(luò)中存在一定的社區(qū)劃分結(jié)構(gòu),因此語(yǔ)義網(wǎng)絡(luò)中節(jié)點(diǎn)的社區(qū)劃分在一定程度上可以通過技術(shù)、 功效主題詞的聚類實(shí)現(xiàn)。基于此,本文中采用Blondel等[29]提出的聚類算法Louvain算法,又稱Fast unfolding算法,實(shí)現(xiàn)技術(shù)、 功效主題詞的語(yǔ)義網(wǎng)絡(luò)社區(qū)劃分,主要包括模塊度優(yōu)化階段和網(wǎng)絡(luò)凝聚階段,過程如下:
步驟1 將每個(gè)節(jié)點(diǎn)主題隨機(jī)存放于不同社區(qū),形成整體社區(qū)網(wǎng)絡(luò)。
步驟2 所有節(jié)點(diǎn)都遍歷各自的鄰居節(jié)點(diǎn),然后計(jì)算對(duì)應(yīng)的模塊度差值ΔQ,最大ΔQ所對(duì)應(yīng)的節(jié)點(diǎn)遷移至相應(yīng)的社區(qū)。如果ΔQ為正,則該節(jié)點(diǎn)遷移;反之,則該節(jié)點(diǎn)不遷移。模塊度Q的計(jì)算公式[29]為
步驟3 迭代步驟2, 直至所有節(jié)點(diǎn)不再變換社區(qū)。
步驟4 把每個(gè)社區(qū)所有節(jié)點(diǎn)整合為一個(gè)全新的超級(jí)節(jié)點(diǎn),原始社區(qū)中所有節(jié)點(diǎn)的邊權(quán)重之和構(gòu)成超級(jí)節(jié)點(diǎn)的邊權(quán)重,從而構(gòu)成一個(gè)全新的網(wǎng)絡(luò)。
步驟5 重復(fù)以上步驟,直至算法穩(wěn)定。
2.5 技術(shù)功效矩陣構(gòu)建
通過分析SAO語(yǔ)義結(jié)構(gòu),確定技術(shù)、 功效主題的關(guān)系,從而完成技術(shù)功效矩陣的構(gòu)建。通過已確定的技術(shù)、 功效主題詞,統(tǒng)計(jì)技術(shù)功效矩陣中元素Uh,l,即第h個(gè)技術(shù)主題社區(qū)網(wǎng)絡(luò)與第l個(gè)功效主題社區(qū)網(wǎng)絡(luò)的共現(xiàn)個(gè)數(shù),公式[20]為
式中: Uh,l為第h個(gè)技術(shù)主題社區(qū)網(wǎng)絡(luò)與第l個(gè)功效主題社區(qū)網(wǎng)絡(luò)相交的專利個(gè)數(shù); k為第k個(gè)專利的指示變量,取值為0或1; Nk為第k個(gè)專利中第h個(gè)技術(shù)主題社區(qū)網(wǎng)絡(luò)與第l個(gè)功效主題社區(qū)網(wǎng)絡(luò)共現(xiàn)的SAO個(gè)數(shù)。
3 實(shí)例分析
3.1 海底電纜反應(yīng)力錐切削技術(shù)數(shù)據(jù)采集
3.1.1 數(shù)據(jù)準(zhǔn)備
以海底電纜反應(yīng)力錐切削技術(shù)為例,采用人工檢索方式下載國(guó)家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫(kù)中的相關(guān)專利文獻(xiàn)。所檢索專利中的標(biāo)題和摘要涉及“電纜切削”、 “切削電纜”或“反應(yīng)力錐”的關(guān)鍵詞的專利數(shù)據(jù)集,因此檢索的關(guān)鍵詞分別為“電纜切削”、 “切削電纜”以及“反應(yīng)力錐”的檢索表達(dá)式,對(duì)檢索后所得的專利數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗操作。目標(biāo)研究領(lǐng)域的主要目的是實(shí)現(xiàn)或優(yōu)化海底電纜的反應(yīng)力錐切削,通過專家意見篩選專利數(shù)據(jù)集,剔除與海底電纜反應(yīng)力錐切削技術(shù)領(lǐng)域無(wú)關(guān)專利和相關(guān)性程度較低的專利,最終得到符合要求的專利,數(shù)據(jù)清洗后的專利數(shù)據(jù)集如表1所示。讀取符合要求的專利文本,獲取關(guān)鍵性詞語(yǔ)為“有益效果”和“附圖說明”的專利內(nèi)容。如果無(wú)關(guān)鍵性詞語(yǔ)“有益效果”,則獲取專利文本的摘要內(nèi)容。經(jīng)過數(shù)據(jù)清洗后獲得結(jié)構(gòu)清晰的專利內(nèi)容。
3.1.2 構(gòu)建海底電纜反應(yīng)力錐切削技術(shù)領(lǐng)域自定義詞庫(kù)
構(gòu)建海底電纜反應(yīng)力錐切削技術(shù)領(lǐng)域自定義詞庫(kù),獲取領(lǐng)域的特定主題詞,以防止通過Python語(yǔ)言的中文分詞工具包LTP自然語(yǔ)言處理時(shí)分詞不準(zhǔn)確而影響分詞結(jié)果。以句子“切削設(shè)備更利于緊固電纜”為例,分詞結(jié)果為“切削、 設(shè)備、 更、 利于、 緊固、 電纜”,因此首先應(yīng)自定義關(guān)鍵詞,將“切削設(shè)備/名詞、 利于緊固/動(dòng)詞”加入自定義詞庫(kù)。
3.2 抽取及分析SAO語(yǔ)義結(jié)構(gòu)
采用中文分詞工具包LTP實(shí)現(xiàn)數(shù)據(jù)清洗后專利內(nèi)容的SAO語(yǔ)義結(jié)構(gòu)抽取。運(yùn)行基于Python語(yǔ)言的自然語(yǔ)言處理技術(shù),分析得到346條SAO語(yǔ)義結(jié)構(gòu),其中164條語(yǔ)義類型為技術(shù)效果,部分SAO語(yǔ)義結(jié)構(gòu)抽取結(jié)果如表2所示。
3.3 計(jì)算主題詞的語(yǔ)義相似度
根據(jù)抽取的SAO語(yǔ)義結(jié)構(gòu),將SAO語(yǔ)義結(jié)構(gòu)分為詞組結(jié)構(gòu)S、 AO,分別計(jì)算詞組結(jié)構(gòu)S、 AO的TF-IDF,并根據(jù)TF-IDF結(jié)果對(duì)以集合的形式給出,生成結(jié)構(gòu)S、 AO的詞向量。
利用式(1)—(6)分別計(jì)算技術(shù)、功效主題詞的語(yǔ)義相似度。針對(duì)表1中的抽取結(jié)果,計(jì)算詞組結(jié)構(gòu)AO的語(yǔ)義相似度。詞組結(jié)構(gòu)AO的語(yǔ)義相似度結(jié)果矩陣如圖3所示。
3.4 主題聚類
以技術(shù)、 功效主題詞為節(jié)點(diǎn)主題,以主題詞的語(yǔ)義相似度為邊,分別構(gòu)建技術(shù)、 功效主題社區(qū)網(wǎng)絡(luò)。利用聚類算法Louvain算法實(shí)現(xiàn)社區(qū)網(wǎng)絡(luò)劃分,并將不同的社區(qū)網(wǎng)絡(luò)通過計(jì)算機(jī)顯示為不同顏色,采用布局算法Force Atlas算法,選取社區(qū)網(wǎng)絡(luò)分析工具Gephi可視化輸出結(jié)果。技術(shù)、 功效主題社區(qū)網(wǎng)絡(luò)劃分如圖4所示。
從圖4(a)中可以看出,技術(shù)主題詞形成7個(gè)技術(shù)主題社區(qū)網(wǎng)絡(luò),且不同社區(qū)內(nèi)部主題詞的關(guān)聯(lián)性明顯低于同一社區(qū)主題詞的關(guān)聯(lián)性。根據(jù)目標(biāo)領(lǐng)域同義詞庫(kù)以及專家意見,分析劃分后每個(gè)社區(qū)網(wǎng)絡(luò)中的節(jié)點(diǎn)主題的權(quán)重,得到每個(gè)社區(qū)所代表的技術(shù)主題,在一定程度上保證了節(jié)點(diǎn)主題凝練的準(zhǔn)確性。根據(jù)專家意見,對(duì)所有技術(shù)主題詞的語(yǔ)義進(jìn)行社區(qū)網(wǎng)絡(luò)分析后,得到各技術(shù)主題社區(qū)網(wǎng)絡(luò)CNt,1為海底電纜反應(yīng)力錐切削的承載設(shè)備,CNt,2的技術(shù)主題為海底電纜反應(yīng)力錐切削的夾持裝置或限位裝置,CNt,3為海底電纜反應(yīng)力錐切削的旋轉(zhuǎn)機(jī)構(gòu),CNt,4為海底電纜反應(yīng)力錐切削的自動(dòng)化機(jī)構(gòu),CNt,5為海底電纜反應(yīng)力錐切削的切削裝置,CNt,6為海底電纜反應(yīng)力錐切削的推動(dòng)組件,CNt,7為海底電纜反應(yīng)力錐切削的固定組件。綜上,技術(shù)主題社區(qū)網(wǎng)絡(luò)中所歸納的技術(shù)主題包括承載設(shè)備、 夾持裝置或限位裝置、 旋轉(zhuǎn)機(jī)構(gòu)、 自動(dòng)化機(jī)構(gòu)、 切削裝置、 推動(dòng)組件、 固定組件。
從圖4(b)中可以看出,功效主題詞形成9個(gè)功效主題社區(qū)網(wǎng)絡(luò),每個(gè)社區(qū)網(wǎng)絡(luò)中都包含表達(dá)組件的功能或技術(shù)效果的詞語(yǔ)。結(jié)合專家意見及知識(shí),對(duì)社區(qū)網(wǎng)絡(luò)中的詞語(yǔ)歸納出9個(gè)功效主題,具體為提高安全性、 節(jié)約成本、 提高自動(dòng)化程度、 提高人機(jī)交互程度、 提高穩(wěn)定性、 提高加工精度、 提高便捷性、 提高加工效率、 降低作業(yè)難度。
3.5 構(gòu)建技術(shù)功效矩陣
以技術(shù)功效矩陣中的功效主題為橫軸, 技術(shù)主題為縱軸, 采用式(8)所計(jì)算的技術(shù)、 功效主題共現(xiàn)個(gè)數(shù)為技術(shù)、 功效主題的交點(diǎn)。利用可視化工具所得海底電纜反應(yīng)力錐切削技術(shù)功效矩陣如圖5所示。 由圖可知: 在技術(shù)主題中,技術(shù)研究熱點(diǎn)主要集中在切削裝置、 夾持裝置或限位裝置、 固定組件;在功效主題中, 功效研究熱點(diǎn)主要集中在提高穩(wěn)定性、 提高加工精度以及提高加工效率; 然而根據(jù)技術(shù)系統(tǒng)進(jìn)化系統(tǒng)中的完備性進(jìn)化法則,以完備性進(jìn)化法則中的執(zhí)行裝置、 控制裝置、 傳動(dòng)裝置和動(dòng)力裝置分別歸類技術(shù)、 功效主題, 發(fā)現(xiàn)在該技術(shù)領(lǐng)域的功效主題中關(guān)于控制裝置方面的研究專利較少, 即有關(guān)提高人機(jī)交互可視化方面以及自動(dòng)化程度方面的專利較少, 說明該方面仍須進(jìn)一步研發(fā), 從而滿足完備性的進(jìn)化法則。
根據(jù)構(gòu)建的技術(shù)功效矩陣, 創(chuàng)新主體將能夠結(jié)合實(shí)際情況, 在現(xiàn)有的技術(shù)熱點(diǎn)領(lǐng)域和空白領(lǐng)域的基礎(chǔ)上合理地制定創(chuàng)新研發(fā)戰(zhàn)略, 成為技術(shù)領(lǐng)導(dǎo)者。
4 結(jié)論
本文中結(jié)合文本數(shù)據(jù)挖掘、 句法語(yǔ)義分析、 詞義相似性分析和聚類算法,分析和提取專利大數(shù)據(jù)中的SAO三元結(jié)構(gòu),提出了構(gòu)建技術(shù)功效矩陣的新方法,通過分析詞組結(jié)構(gòu)S、 AO凝練技術(shù)、 功效主題,形成專利文本語(yǔ)義分析體系框架,繪制技術(shù)功效矩陣,并以海底電纜反應(yīng)力錐切削技術(shù)領(lǐng)域作為實(shí)例,驗(yàn)證本文方法的有效性,得到以下主要結(jié)論:
1)在SAO三元組結(jié)構(gòu)的語(yǔ)義分析基礎(chǔ)上提取技術(shù)、 功效主題詞,并將所抽取的每個(gè)語(yǔ)義結(jié)構(gòu)作為獨(dú)立的節(jié)點(diǎn)主題,采用聚類算法Louvain算法實(shí)現(xiàn)網(wǎng)絡(luò)主題節(jié)點(diǎn)凝聚化,并分析劃分社區(qū)網(wǎng)絡(luò)后的節(jié)點(diǎn)主題的權(quán)重,在一定程度上完成了對(duì)技術(shù)、功效主題的自動(dòng)識(shí)別,提高了主題凝聚的準(zhǔn)確性。
2)結(jié)合TF-IDF權(quán)重值和文本余弦相似度計(jì)算語(yǔ)義相似度,提高了主題詞語(yǔ)義相似度計(jì)算的準(zhǔn)確性和重要主題詞的突出性,從而提高了主題凝聚的準(zhǔn)確性。
本文中尚存在一定的局限性,有待于進(jìn)一步提高:首先,SAO抽取結(jié)果主要依賴于自然語(yǔ)言處理,對(duì)于目標(biāo)領(lǐng)域詞以及關(guān)鍵詞無(wú)法全部囊括;其次,在SAO語(yǔ)義結(jié)構(gòu)中的功效主題提煉中仍須借助專家經(jīng)驗(yàn)。未來將對(duì)SAO語(yǔ)義結(jié)構(gòu)進(jìn)行深度語(yǔ)義分析,優(yōu)化對(duì)主題詞的提煉,減少噪聲數(shù)據(jù)。
參考文獻(xiàn):
[1] 方曙, 張嫻, 肖國(guó)華. 專利情報(bào)分析方法及應(yīng)用研究[J]. 圖書情報(bào)知識(shí), 2007(4): 64.
[2] KOSTOFF R N, BOYLAN R, SIMONS G R. Disruptive tech-nology roadmaps[J]. Technological Forecasting amp; Social Change, 2004, 71: 141.
[3] 魯建廈, 徐林燕, 趙林斌, 等. 基于文獻(xiàn)計(jì)量法的RFID研究現(xiàn)狀分析[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2017, 23(11): 2518.
[4] 李曉曼, 宋紅燕. 面向?qū)@閳?bào)研究的SAO語(yǔ)義結(jié)構(gòu)分析方法述評(píng)[J]. 情報(bào)科學(xué), 2020, 38(10): 168.
[5] CHOI S, YOON J, KIM K, et al. SAO network analysis of patents for technology trends identification: a case study of polymer electrolyte membrane technology in proton exchange membrane fuel cells[J]. Scientometrics, 2011, 88(3): 865-866.
[6] KIM K, PARK K, LEE S. Investigating technology opportunities: the use of SAOx analysis[J]. Scientometrics, 2019, 118(1): 45.
[7] MA T T, ZHOU X, LIU J, et al. Combining topic modeling and SAO semantic analysis to identify technological opportunities of emerging technologies[J]. Technological Forecasting amp; Social Change, 2021, 173: 121159.
[8] 劉鵬, 閆煜析, 馮立杰, 等. 用戶需求導(dǎo)向下基于三級(jí)技術(shù)功效矩陣的產(chǎn)品創(chuàng)新機(jī)會(huì)識(shí)別[J]. 情報(bào)理論與實(shí)踐, 2023, 46(8): 138.
[9] YOON J, KIM K. Identifying rapidly evolving technological trends for Ramp;D planning using SAO-based semantic patent networks[J]. Scientometrics, 2011, 88(1): 213.
[10] YANG C, HUANG C, SU J. An improved SAO network-based method for technology trend analysis: a case study of graphene[J]. Journal of Informetrics, 2018, 12(1): 271.
[11] 李乾瑞, 郭俊芳, 朱東華. 基于形態(tài)分析和模糊一致矩陣識(shí)別技術(shù)機(jī)會(huì)[J]. 科研管理, 2020, 41(7): 33.
[12] 馬銘, 王超, 周勇, 等. 基于語(yǔ)義信息的核心技術(shù)主題識(shí)別與演化趨勢(shì)分析方法研究[J]. 情報(bào)理論與實(shí)踐, 2021, 44(9): 106.
[13] YOON B, KIM S, KIM S, et al. Doc2vec-based link prediction approach using SAO structures: application to patent network[J]. Scientometrics, 2022, 127(9): 5385.
[14] OH M, JANG H, KIM S, et al. Main path analysis for tech-nological development using SAO structure and DEMATEL based on keyword causality[J]. Scientometrics, 2023, 128(4): 2079.
[15] PARK H, YOON J, KIM K. Identifying patent infringement using SAO based semantic technological similarities[J]. Scientometrics, 2012, 90(2): 515.
[16] WANG X F, REN H C, CHEN Y, et al. Measuring patent similarity with SAO semantic analysis[J]. Scientometrics, 2019, 121(1): 1.
[17] HOHERCHAK H, DARCHUK N, KRYVYI S. Representation, analysis, and extraction of knowledge from unstructured natural language texts[J]. Cybernetics and Systems Analysis, 2021, 57(3): 481.
[18] 曹國(guó)忠, 楊雯丹, 劉新星. 基于主體-行為-客體(SAO)三元結(jié)構(gòu)的專利分析方法研究綜述[J]. 科技管理研究, 2021, 41(4): 159-160.
[19] 張兆鋒, 張均勝, 姚長(zhǎng)青. 一種基于知識(shí)圖譜的技術(shù)功效圖自動(dòng)構(gòu)建方法[J]. 情報(bào)理論與實(shí)踐, 2018, 41(3): 149.
[20] 翟東升, 張京先, 胡等金. 基于SAO結(jié)構(gòu)和詞向量的專利技術(shù)功效圖自動(dòng)構(gòu)建研究[J]. 情報(bào)理論與實(shí)踐, 2020,43(3): 116.
[21] 段慶鋒, 蔣保建. 基于SAO結(jié)構(gòu)的專利技術(shù)功效圖構(gòu)建研究[J]. 現(xiàn)代情報(bào), 2017,37(6): 48.
[22] TRAPPEY A J C, TRAPPEY C V, GOVINDARAJAN U H, et al. Construction and validation of an ontology-based technology function matrix: technology mining of cyber physical system patent portfolios[J]. World Patent Information, 2018, 55: 19.
[23] JHUANG A C C, SUN J J H, TRAPPEY A J C, et al. Computer supported technology function matrix construction for patent data analytics[C]//2017 IEEE 21st International Conference on Computer Supported Cooperative Work in Design (CSCWD), April 26-28, 2017, Wellington, New Zealand. New York: IEEE, 2017: 457.
[24] ZHOU X, HUANG L, PORTER A, et al. Tracing the system transformations and innovation pathways of an emerging technology: solid lipid nanoparticles[J]. Technological Forecasting amp; Social Change, 2019, 146: 788-789.
[25] HU Z Y, FANG S, WEI L, et al. An SAO-based approach to technology evolution analysis using patent information: case study: graphene sensors[J]. Chinese Journal of Library and Information Science, 2015, 8(3): 64-65.
[26] 任海英, 李真. 基于輸入輸出型SAO網(wǎng)絡(luò)的核心技術(shù)鏈識(shí)別方法研究: 以量子計(jì)算領(lǐng)域?yàn)槔跩]. 圖書情報(bào)工作, 2021, 65(19): 117.
[27] 龔永罡, 郭遠(yuǎn)南. 基于TF-IDF和word2Vec的中文文本自動(dòng)摘要模型[J]. 中國(guó)新通信, 2023, 25(2): 66-67.
[28] 吳宗卓. 文本分類中TF-IDF算法的改進(jìn)研究[J]. 計(jì)算技術(shù)與自動(dòng)化, 2022, 41(2): 85-86.
[29] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 10: 2-3.