曹國忠,楊雯丹,劉新星
(1.河北工業(yè)大學(xué)機械工程學(xué)院,天津 300401;2.國家技術(shù)創(chuàng)新方法與實施工具工程技術(shù)研究中心,天津 300401;3.肇慶小鵬新能源投資有限公司,廣東肇慶 526060)
專利的技術(shù)信息具有新穎性、創(chuàng)造性和實用性的特點,且專利的表述專業(yè)、內(nèi)容詳盡、格式規(guī)范,是開展技術(shù)分析和技術(shù)管理的重要技術(shù)資料。從專利中挖掘技術(shù)信息并予以有效管理和解讀,對專利的分析和利用具有重要意義。專利分析通??煞譃榻Y(jié)構(gòu)化數(shù)據(jù)分析和非結(jié)構(gòu)化數(shù)據(jù)分析。典型的專利結(jié)構(gòu)化數(shù)據(jù)包括申請日、發(fā)明人、IPC 分類號、引用量和被引用量等,通過分析該類數(shù)據(jù)可獲知專利的價值、技術(shù)/產(chǎn)品的發(fā)展路徑和技術(shù)/產(chǎn)品的成熟度等[1-3]。專利的非結(jié)構(gòu)化數(shù)據(jù)通常指專利的標(biāo)題、摘要和說明書中的文本信息,分析該類數(shù)據(jù)所展示的技術(shù)信息是對結(jié)構(gòu)化數(shù)據(jù)分析結(jié)果的有效補充[4]。近年來,專利對于企業(yè)的作用逐漸從保護知識產(chǎn)權(quán)擴展為技術(shù)信息的管理和應(yīng)用[5],因此,專利的非結(jié)構(gòu)化數(shù)據(jù)分析越來越受到學(xué)者們的重視。
專利的非結(jié)構(gòu)化數(shù)據(jù)分析也稱為專利文本分析。由于專利的標(biāo)題和摘要是專利全文的概括性表述,早期的專利文本分析主要集中于標(biāo)題和摘要,此后隨著研究成果的應(yīng)用推廣,人們要求專利分析應(yīng)當(dāng)做到更全面、更深入和更準(zhǔn)確,因此專利文本分析的研究范圍逐漸向權(quán)利要求書和說明書延伸。依托文本挖掘和自然語言處理技術(shù)的發(fā)展,專利文本分析的研究對象也逐漸由關(guān)鍵字向語義傾斜[6]。目前,專利文本分析已被廣泛應(yīng)用于人力資源管理、專利侵權(quán)判定、專利新穎性判定、技術(shù)機會識別和技術(shù)信息管理等。
基于主體-行為-客體,即Subject-Action-Object(SAO)三元結(jié)構(gòu)的專利分析方法,是一種隨著專利語義分析需求而興起的專利分析工具,它不但能提取專利文本中的關(guān)鍵概念,輔助構(gòu)建專利知識管理系統(tǒng),還能更有效地挖掘?qū)@R用以輔助創(chuàng)新設(shè)計。近年來,人工智能方法和可視化工具的發(fā)展更是促進了基于SAO 結(jié)構(gòu)的專利分析方法的發(fā)展和應(yīng)用,基于SAO 結(jié)構(gòu)的專利分析方法在知識獲取、科學(xué)研究等領(lǐng)域有著廣闊的應(yīng)用前景[7-8]。本研究通過選取和分析中國知網(wǎng)(CNKI)和美國科學(xué)網(wǎng)(Web of Science)數(shù)據(jù)庫平臺中基于SAO 結(jié)構(gòu)的專利分析方法的研究成果,總結(jié)了SAO 結(jié)構(gòu)研究的主要內(nèi)容和基于SAO 結(jié)構(gòu)的專利分析流程,討論了基于SAO 結(jié)構(gòu)的專利分析方法提高傳統(tǒng)專利分析方法全面性、深入性和準(zhǔn)確性的主要研究成果,并對SAO 結(jié)構(gòu)分析方法在專利情報分析、創(chuàng)新設(shè)計、專利知識管理系統(tǒng)和企業(yè)管理領(lǐng)域的應(yīng)用進行了闡述,以期為如何應(yīng)用基于SAO 結(jié)構(gòu)的專利分析方法更好地服務(wù)于知識獲取和科學(xué)研究提供幫助。
Subject-Action-Object(SAO)結(jié)構(gòu)是從文本語料庫中提取的三元組。其中,主體(Subject)S 元素和客體(Object)O 元素是名詞,行為(Action)A 元素是這些名詞的動作或表示它們之間的關(guān)系。SAO 結(jié)構(gòu)研究的主要內(nèi)容包括以下4 個方面:
一是對S 元素或O 元素的分析,即實體分析。例如,計算S 元素或O 元素在文本中出現(xiàn)的頻率,用來識別核心技術(shù)組件[9]。
二是對A 元素的分析,即關(guān)系分析。例如,通過表示系統(tǒng)組成類的動詞(如:有、包含等),可輔助構(gòu)建產(chǎn)品形態(tài)結(jié)構(gòu)[10];通過表示系統(tǒng)屬性類的動詞(如:測量、分解等),可獲取特定問題的解決方案[11]。
三是將SAO 結(jié)構(gòu)作為一個整體分析其語義信息,即文本語義信息分析。例如,將S 元素和O 元素視為作用對象和被作用對象,則A 元素代表了S 元素的功能[12];將SA 組合視為產(chǎn)品的功能,則O 元素代表了產(chǎn)品功能的效應(yīng)[12];將AO 組合視為問題,則S 元素代表了解決該問題的方案[13]。
四是研究不同SAO 結(jié)構(gòu)之間的關(guān)系。例如,構(gòu)建SAO 結(jié)構(gòu)網(wǎng)絡(luò),使用社會網(wǎng)絡(luò)分析技術(shù)分析領(lǐng)域中的通用技術(shù)、核心技術(shù)、新穎技術(shù)和技術(shù)成熟度等[14]。
基于SAO 結(jié)構(gòu)的專利分析是指從專利文本中獲取和研究SAO 結(jié)構(gòu)的過程,其通用流程如圖1 所示,包括數(shù)據(jù)預(yù)處理、SAO 結(jié)構(gòu)提取、SAO 結(jié)構(gòu)后處理和圖表解釋4 個主要步驟。
(1)數(shù)據(jù)預(yù)處理,包括將專利文本拆分為句子、將句子拆分為詞語(處理英文文本時不含該步驟)、將詞語詞干化(具體為將名詞的復(fù)數(shù)形式、動詞的過去式、過去分詞等轉(zhuǎn)化為原形,但處理中文文本是不含該步驟)、標(biāo)記詞性等自然語言處理步驟,以及基于統(tǒng)計學(xué)原理的數(shù)據(jù)清洗步驟。
(2)SAO 結(jié)構(gòu)提取,主要通過基于符號的方法或基于統(tǒng)計的方法實現(xiàn)。基于符號的 SAO 結(jié)構(gòu)提取方法通常包含元素識別和關(guān)系構(gòu)建兩個步驟[15]。其中,關(guān)系構(gòu)建的任務(wù)是識別和抽取元素對之間的關(guān)系,是最核心、最具有挑戰(zhàn)的部分[16]。另一種基于統(tǒng)計的SAO 結(jié)構(gòu)提取方法是指,使用統(tǒng)計模型或機器學(xué)習(xí)算法學(xué)習(xí)語言規(guī)則,進而匹配詞法、語法、語義等特征來提取SAO 結(jié)構(gòu)[7]。目前,學(xué)者們多使 用Link Grammar、StanfordNLP、OpenNRE、Jieba等開源自然語言處理工具半自動化提取SAO 結(jié)構(gòu),或使用Goldfire Innovator、VantagePoint 等專利分析工具自動提取。為了提高SAO 結(jié)構(gòu)在后續(xù)分析任務(wù)中的可用性,學(xué)者們也常將自動化方法、基于符號和基于統(tǒng)計的方法相結(jié)合[16]。
(3)SAO 結(jié)構(gòu)后處理,主要是指對SAO 結(jié)構(gòu)進行分類研究,以及繪制基于SAO 結(jié)構(gòu)的專利圖表。該步驟依據(jù)專利分析的最終目的開展。
(4)圖表解釋,即是從上一步構(gòu)建的專利圖表中獲取知識的過程。
圖1 基于SAO 結(jié)構(gòu)的專利分析通用流程
首先,自然語言處理技術(shù)在專利分析中的應(yīng)用改善了過去需要大量專家參與且費時費力的缺點,基于SAO 結(jié)構(gòu)的專利分析方法作為一種自然語言處理技術(shù)與專利分析方法的融合產(chǎn)物,得到了學(xué)者們的廣泛關(guān)注。近年來,機器學(xué)習(xí)算法的推廣,更是提高了基于SAO 結(jié)構(gòu)的專利分析方法處理大型語料庫的能力;此外,基于SAO 結(jié)構(gòu)的專利分析方法不但關(guān)注文本中的主謂賓結(jié)構(gòu),還能研究復(fù)雜句式中的定狀補表等特殊成分[17-19]。因此,基于SAO 結(jié)構(gòu)的專利分析方法相較于傳統(tǒng)專利分析方法,不再受到數(shù)據(jù)量的限制,在研究內(nèi)容上也能覆蓋更多的文本信息,即提高了專利分析的全面性。其次,由于專利分析逐漸由線性向網(wǎng)絡(luò)化轉(zhuǎn)變,部分學(xué)者開展了專利網(wǎng)絡(luò)的研究[20]。傳統(tǒng)專利網(wǎng)絡(luò)多以專利文獻或?qū)@麢?quán)利人為節(jié)點,以文獻間的引用關(guān)系或作者合作關(guān)系為連接;SAO 結(jié)構(gòu)的引入,使專利網(wǎng)絡(luò)的研究對象深入為文本的語義結(jié)構(gòu),為研究專利的隱性知識提供了一種新的思路。因此,基于SAO結(jié)構(gòu)的專利分析方法相較于傳統(tǒng)專利分析方法,能夠解讀更加深刻的關(guān)系,即提高了專利分析的深入性。第三,專利分析不但需要全面、深入地認(rèn)識和把握專利中的技術(shù)信息,還需要準(zhǔn)確獲取和理解專利中的知識。相較于基于關(guān)鍵字的專利分析方法,基于SAO 結(jié)構(gòu)的專利分析方法從句法關(guān)系角度研究專利信息,解讀的是關(guān)鍵字之間的語義關(guān)系;另外,基于SAO 結(jié)構(gòu)的專利分析方法不但能提取到專利中的技術(shù)主題、技術(shù)應(yīng)用領(lǐng)域、技術(shù)功能、技術(shù)功能達到的效果以及為達到效果可采用的方案等技術(shù)信息,還能解讀不同類別技術(shù)信息之間的內(nèi)在關(guān)聯(lián)性。因此,基于SAO 結(jié)構(gòu)的專利分析方法相較于傳統(tǒng)專利分析方法,能獲取專利信息中的核心概念,能解讀核心概念之間的邏輯,即提高了專利分析的準(zhǔn)確性。表1 所示為基于SAO 結(jié)構(gòu)的專利分析方法提高傳統(tǒng)專利分析方法全面性、深入性和準(zhǔn)確性的主要研究成果。
表1 基于SAO 結(jié)構(gòu)的專利分析方法主要研究成果
表1 (續(xù))
隨著對專利分析方法全面性要求的提升,許多文獻的研究對象已由過去的專利標(biāo)題和摘要擴展為專利權(quán)利要求書和說明書?;赟AO 結(jié)構(gòu)的專利分析方法的出現(xiàn),為提高專利分析方法的全面性提供了一個新的研究方向,即,從研究專利文本中的句法結(jié)構(gòu)擴大到研究詞的覆蓋范圍。例如,溫亮等[17]使用基于SAO 結(jié)構(gòu)的專利分析方法研究了復(fù)雜句式中狀語位置的名詞語塊,主要采用句子主干提取規(guī)則和復(fù)雜名詞語塊分解規(guī)則相結(jié)合的方式提取一個句子中的多個SAO 結(jié)構(gòu),具體步驟為:先使用句子主干提取規(guī)則提取一個句子中的主要A 元素,然后將句子中的狀語作為新的簡單句,再使用復(fù)雜名詞語塊分解規(guī)則分析介詞性名詞語塊、動詞性名詞語塊和連詞性名詞語塊,并提取SAO 結(jié)構(gòu)。Kim 等[18]提出了一種SAOx 方法來提高專利分析方法的全面性,該方法提取了復(fù)雜句式中賓語位置的SAO 結(jié)構(gòu),同時還從復(fù)雜句式中“for”和“to”引導(dǎo)的短語中提取了SAO 結(jié)構(gòu)。苗紅等[19]提出使用技術(shù)-關(guān)系-技術(shù)(TRT)結(jié)構(gòu)分析方法與基于SAO 結(jié)構(gòu)的專利分析方法相結(jié)合來提高專利分析方法的全面性,其中TRT 結(jié)構(gòu)中的TR 組合相當(dāng)于SAO 結(jié)構(gòu)中的S 元素,TRT 結(jié)構(gòu)中的T 元素相當(dāng)于SAO 結(jié)構(gòu)中的AO組合,TRT 結(jié)構(gòu)通過Python 開發(fā)的NP-PP(名詞短語-介詞短語)模塊獲取。苗紅等[19]提出的方法中,TRT 結(jié)構(gòu)分析方法與基于SAO 結(jié)構(gòu)的專利分析方法互為補充,進一步補充了專利分析的詞覆蓋范圍。
專利網(wǎng)絡(luò)作為一種專利分析工具,由于引入了社會網(wǎng)絡(luò)分析技術(shù),能將專利關(guān)系進行量化處理,得到了學(xué)者們的廣泛關(guān)注。SAO 結(jié)構(gòu)的引入,使專利網(wǎng)絡(luò)的研究對象能夠深入為專利文本中的語義結(jié)構(gòu),據(jù)此構(gòu)建的專利SAO 結(jié)構(gòu)網(wǎng)絡(luò)能從網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點位置和節(jié)點關(guān)系三方面研究更深層次的專利隱性知識,依托社會網(wǎng)絡(luò)分析技術(shù)的量化指標(biāo)能解讀更加深刻的關(guān)系,進而增加了專利分析方法的深入性。一種常見的專利SAO 結(jié)構(gòu)網(wǎng)絡(luò)構(gòu)建和分析流程如下:(1)獲取專利文本中的S 元素、A 元素和O元素;(2)將S 元素和O 元素作為網(wǎng)絡(luò)的節(jié)點,A元素作為節(jié)點的連線,按元素的共現(xiàn)頻次繪制SAO結(jié)構(gòu)網(wǎng)絡(luò);(3)使用社會網(wǎng)絡(luò)分析技術(shù)分析網(wǎng)絡(luò)中的節(jié)點和連線。例如,Yoon 等[21]使用專利SAO 結(jié)構(gòu)網(wǎng)絡(luò)的子網(wǎng)絡(luò)密度(density of sub-networks)研究了專利的分類,其中SAO 結(jié)構(gòu)直觀表述了不同專利類別的技術(shù)特征;Yoon 等[21]還提出,SAO 結(jié)構(gòu)網(wǎng)絡(luò)的節(jié)點度分布(degree sum index)和全局中心性(global centrality index)可以用來解讀專利的技術(shù)重要度和技術(shù)適用性。Choi 等[22]構(gòu)建的專利SAO 結(jié)構(gòu)網(wǎng)絡(luò)是一個加權(quán)有向網(wǎng)絡(luò),主要用于識別技術(shù)趨勢,網(wǎng)絡(luò)中的節(jié)點由S 元素、A 元素和O 元素構(gòu)成,節(jié)點間的連線由SAO 結(jié)構(gòu)中的S 元素指向A 元素、指向O 元素,權(quán)重為直接指向在專利中出現(xiàn)的次數(shù),認(rèn)為在該網(wǎng)絡(luò)中:入度高的O 元素是極有可能成為對各個領(lǐng)域均有用的技術(shù),或是某項技術(shù)績效的重要指標(biāo);出度高的S 元素是相關(guān)領(lǐng)域的一項通用技術(shù);具有高密度和高群聚系數(shù)的SAO 結(jié)構(gòu)是核心技術(shù),或是一種少數(shù)研究團隊開發(fā)的技術(shù);具有高密度和低群聚系數(shù)的SAO 結(jié)構(gòu)是一項通用技術(shù);具有低密度和高群聚系數(shù)的SAO 結(jié)構(gòu)是一項核心技術(shù),或是一種少數(shù)研究團隊開發(fā)的新穎技術(shù)。Yang 等[14]提出了一種基于SAO 結(jié)構(gòu)的專利技術(shù)發(fā)展成熟度分析方法,使用該方法繪制了一組基于時間切片的專利SAO 結(jié)構(gòu)網(wǎng)絡(luò),通過觀察網(wǎng)絡(luò)節(jié)點度的概率分布在技術(shù)發(fā)展時間線上的變化,分析了專利技術(shù)發(fā)展的成熟度;他們還指出,SAO 結(jié)構(gòu)網(wǎng)絡(luò)中節(jié)點的Burt 約束值(Burt constraint 值),即與更多的節(jié)點連接但是與它連接的節(jié)點沒有直接或相互關(guān)聯(lián)的現(xiàn)象,展示了節(jié)點的競爭優(yōu)勢。
使用增加專利數(shù)據(jù)量和擴大專利文本研究詞覆蓋范圍的方法,可以有效避免專利分析中數(shù)據(jù)稀疏和部分核心內(nèi)容可能丟失的情況,但同時也會帶來數(shù)據(jù)冗余的問題。為了提高SAO 結(jié)構(gòu)在后續(xù)專利分析任務(wù)中的可用性,進而提高專利分析的準(zhǔn)確性,學(xué)者們主要從優(yōu)化SAO 結(jié)構(gòu)提取方法和分類研究SAO 結(jié)構(gòu)兩個方面開展研究。
4.3.1 優(yōu)化SAO 結(jié)構(gòu)提取方法
基于SAO 結(jié)構(gòu)的專利分析方法相較于基于關(guān)鍵字的專利分析方法,還能夠獲取句法結(jié)構(gòu)中的關(guān)系,而關(guān)鍵字和關(guān)鍵字間的句法關(guān)系又構(gòu)成了文本的語義信息,因此,SAO 結(jié)構(gòu)提取方法的性能成為了影響專利分析準(zhǔn)確性的關(guān)鍵因素之一。
SAO 結(jié)構(gòu)提取方法可分為基于符號的方法和基于統(tǒng)計的方法。在基于符號的SAO 結(jié)構(gòu)提取方法方面,許琦等[23]提出使用專利結(jié)構(gòu)化數(shù)據(jù)分析方法與基于符號的SAO 結(jié)構(gòu)提取方法相結(jié)合的方式來提取SAO 結(jié)構(gòu),具體步驟為:(1)構(gòu)建專利的引證網(wǎng)絡(luò),并依據(jù)引證路徑的連接統(tǒng)計值(search path link count,SPLC)和節(jié)點對統(tǒng)計值(search path node pair,SPNP)提取領(lǐng)域知識進化軌跡;(2)使用Link Grammar 語法分析器從領(lǐng)域知識進化軌跡上的專利中提取SAO 結(jié)構(gòu)。使用優(yōu)化的SAO 結(jié)構(gòu)提取方法提取的SAO 結(jié)構(gòu)具有穩(wěn)定性、統(tǒng)攝性、遺傳性和變異性的特征,是有效的領(lǐng)域知識基因。另外,依存句法分析(dependency parsing)由于主要研究句子中詞語之間的依存關(guān)系,能準(zhǔn)確識別主謂賓、定狀補等句子成分,得到了學(xué)者們的重視[24-25]。借助依存句法關(guān)系,可利用句法分析器自動標(biāo)注詞間關(guān)系,進而設(shè)定SAO 結(jié)構(gòu)的提取規(guī)則。
在基于統(tǒng)計的SAO 結(jié)構(gòu)提取方法方面,使用機器學(xué)習(xí)算法將文本信息做分類處理是一種最典型的做法,其中,機器學(xué)習(xí)算法與特征的選擇是影響SAO 結(jié)構(gòu)提取性能的主要因素。例如,饒齊等[26]使用一種有指導(dǎo)的支持向量機(SVM)的機器學(xué)習(xí)算法,依據(jù)實體距離特征和句法樹特征提取了中文專利中的SAO 結(jié)構(gòu),實驗證明,引入距離特征和簡單的上下文詞法特征能有效提高SAO 結(jié)構(gòu)中關(guān)系提取的準(zhǔn)確性;何宇等[27]基于以上特征又加入了關(guān)系詞距核心關(guān)系詞的距離、SAO 結(jié)構(gòu)強度和關(guān)系詞詞典等特征,提取了中文專利中的SAO 結(jié)構(gòu),實驗證明,優(yōu)化特征后SAO 結(jié)構(gòu)提取方法在正確率、召回率和F 值上都優(yōu)于饒齊等[26]提出的方法。張永真等[28]則是使用了預(yù)測準(zhǔn)確率高、速度較快、性能較好的XGBoost算法來優(yōu)化關(guān)系提取方法的性能。近年來,面向自然語言處理的預(yù)訓(xùn)練模型發(fā)展迅猛,且有效地提高了關(guān)系抽取任務(wù)挖掘出更多非線性語義特征的能力[16]。由此可知,深度學(xué)習(xí)的方法在基于SAO 結(jié)構(gòu)的專利分析方法上的應(yīng)用,將為提高專利分析的篇章理解能力提供新的思路。
4.3.2 分類研究SAO 結(jié)構(gòu)
優(yōu)化SAO 結(jié)構(gòu)的提取方法屬于提高SAO 結(jié)構(gòu)在下游任務(wù)中可用性的前置優(yōu)化方法,分類研究SAO結(jié)構(gòu)則屬于其后置優(yōu)化方法。優(yōu)化SAO 結(jié)構(gòu)的提取方法能有效提高關(guān)鍵字及其關(guān)系提取的準(zhǔn)確性,進而提高專利分析的準(zhǔn)確性;而分類研究SAO 結(jié)構(gòu)的方法則是從提高待解讀SAO 結(jié)構(gòu)對下游特定任務(wù)和目標(biāo)的針對性來提高專利分析的準(zhǔn)確性。例如,Choi 等[29]使用分類研究SAO 結(jié)構(gòu)的方法構(gòu)建了一種由產(chǎn)品、技術(shù)和功能3 個維度構(gòu)成的技術(shù)樹,將從專利中提取的S 元素和O 元素分為產(chǎn)品、技術(shù)、材料和技術(shù)特4 類,AO 組合分為組成、效果和屬性3 類;相較于傳統(tǒng)的技術(shù)樹,使用該方法構(gòu)建的技術(shù)樹包含了更豐富、更詳細(xì)也更準(zhǔn)確的技術(shù)信息,對于后續(xù)設(shè)計決策更具指導(dǎo)性。Vicente-Gomila 等[30]使用語義技術(shù)創(chuàng)新方法(TRIZ)和基于SAO 結(jié)構(gòu)的專利分析方法相結(jié)合的方式,將專利中的技術(shù)信息分為了“what”“who”“where”“why”和“how”等5 類;這樣的分類同時考慮了技術(shù)與其周圍元素的關(guān)系,使專利分析的結(jié)果更具邏輯性。段慶峰等[31]為了能構(gòu)建一種表達更準(zhǔn)確技術(shù)信息的專利技術(shù)功效圖,將從專利中提取的SAO 結(jié)構(gòu)依據(jù)其邏輯關(guān)系分為問題、功能、效果和方案4 類。Yang 等[9]為了識別具有巨大市場潛力的核心技術(shù)組件,開展了SAO 結(jié)構(gòu)的分類研究,將包含“增加”“穩(wěn)定”“質(zhì)量”等元素的SAO 結(jié)構(gòu)定義為“與需求具有高度相關(guān)性的SAO 結(jié)構(gòu)”,據(jù)此提取的待解讀SAO 結(jié)構(gòu)對于后續(xù)設(shè)計任務(wù)來說具有更強的指導(dǎo)性。
在當(dāng)前數(shù)據(jù)驅(qū)動發(fā)展的形勢下,為決策者提供數(shù)據(jù)支持是專利分析的重要職責(zé)。基于SAO 結(jié)構(gòu)的專利分析的主要應(yīng)用領(lǐng)域包括專利情報分析、創(chuàng)新設(shè)計、專利知識管理系統(tǒng)和企業(yè)管理,其研究成果的應(yīng)用領(lǐng)域分布如圖2 所示。
專利情報分析的結(jié)果主要應(yīng)用于跟蹤科學(xué)研究領(lǐng)域的發(fā)展變化和預(yù)測前沿科學(xué)研究[8]。SAO 結(jié)構(gòu)的引入,為傳統(tǒng)的基于非結(jié)構(gòu)化數(shù)據(jù)或基于關(guān)鍵詞的專利情報分析補充了語義信息,能展示更詳細(xì)、更深入的技術(shù)信息。專利地圖,包括技術(shù)功效圖、技術(shù)路線圖、二維分布地圖和SAO 結(jié)構(gòu)網(wǎng)絡(luò)等,是專利情報分析的主要分析模型?;赟AO 結(jié)構(gòu)的專利分析在專利情報分析中的主要應(yīng)用場景即是構(gòu)建專利地圖。
例如,段慶峰等[31]提出的基于SAO 結(jié)構(gòu)的專利分析方法主要用于構(gòu)建技術(shù)功效圖,并由此得到石墨烯傳感器領(lǐng)域發(fā)展現(xiàn)狀和當(dāng)前研究熱點。由于SAO 結(jié)構(gòu)的引入,技術(shù)和功效之間的語義關(guān)系更易于理解和表達,因此能夠快速地從大量專利數(shù)據(jù)中抽取、分析和凝練出構(gòu)建技術(shù)功效圖所需的專利核心技術(shù)信息。之后,翟東升等[25]對技術(shù)功效圖的構(gòu)建方法進行了改進,并分析了無人駕駛汽車領(lǐng)域毫米波雷達技術(shù)的發(fā)展現(xiàn)狀和當(dāng)前研究熱點。Wang等[32]提出的基于SAO 結(jié)構(gòu)的專利分析方法主要用于構(gòu)建技術(shù)路線圖,并通過分析使用該方法構(gòu)建的染料敏化太陽能電池領(lǐng)域技術(shù)路線圖,揭示了該領(lǐng)域的發(fā)展趨勢、詳細(xì)實現(xiàn)途徑以及主要研究主體。該方法將專利文本中的技術(shù)信息分為技術(shù)、產(chǎn)品、材料、影響因素、組件、目標(biāo)和未來應(yīng)用方向等7 類,而這7 類技術(shù)信息之間的相互作用展示了技術(shù)的進化過程和發(fā)展方向。Yoon 等[33]和Park 等[34]提出的基于SAO 結(jié)構(gòu)的專利分析方法主要用于構(gòu)建專利的二維分布地圖,主要構(gòu)建步驟如下:提取專利文本中的SAO 結(jié)構(gòu);使用SAO 結(jié)構(gòu)的相似性構(gòu)建專利的相似度矩陣;將相似矩陣做降維處理;繪制專利的二維分布地圖。Yoon 等[33]使用基于SAO 結(jié)構(gòu)的專利分析方法構(gòu)建了與碳納米管合成技術(shù)相關(guān)的專利二維分布地圖,提出地圖中的空白區(qū)域預(yù)示著可能創(chuàng)造新技術(shù)的機會,而專利聚集區(qū)域則代表技術(shù)發(fā)展最具競爭力的領(lǐng)域。另外,部分學(xué)者將專利情報分析的研究對象設(shè)定為一組基于時間切片的二維分析地圖,而基于SAO 結(jié)構(gòu)的專利分析方法則主要用于構(gòu)建這樣一組二維分布地圖,例如,使用這一方法,吳菲菲等[35]構(gòu)建了一組與石墨烯傳感器技術(shù)相關(guān)的專利二維分布地圖,由此識別了該技術(shù)在不同時間區(qū)間內(nèi)的應(yīng)用領(lǐng)域,分析了該技術(shù)的跨領(lǐng)域轉(zhuǎn)移現(xiàn)象;王京安等[36]構(gòu)建了一組與液晶材料技術(shù)相關(guān)的專利二維分布地圖,展示了該技術(shù)的發(fā)展進程和跨領(lǐng)域轉(zhuǎn)移現(xiàn)象;李欣等[37]則是構(gòu)建了一組鈣鈦礦太陽能電池領(lǐng)域的專利二維分布圖,展示了該領(lǐng)域的發(fā)展脈絡(luò)并識別了領(lǐng)域內(nèi)的新興技術(shù)。Yoon 等[21]提出的基于SAO 結(jié)構(gòu)的專利分析方法主要用于構(gòu)建SAO 結(jié)構(gòu)網(wǎng)絡(luò),構(gòu)建了合成碳納米管領(lǐng)域的專利SAO 結(jié)構(gòu)網(wǎng)絡(luò),并通過該網(wǎng)絡(luò)識別了領(lǐng)域內(nèi)的高價值專利、領(lǐng)先技術(shù)和技術(shù)領(lǐng)先企業(yè);Choi等[22]構(gòu)建了質(zhì)子交換膜燃料電池領(lǐng)域的專利SAO結(jié)構(gòu)網(wǎng)絡(luò),并通過該網(wǎng)絡(luò)識別了領(lǐng)域內(nèi)的重要技術(shù)主題和趨勢、重要發(fā)展目標(biāo),并進一步分析了領(lǐng)域內(nèi)的催化劑技術(shù)以及識別了該技術(shù)中的重要材料;Yang 等[14]構(gòu)建了石墨烯技術(shù)的專利SAO 結(jié)構(gòu)網(wǎng)絡(luò),并通過該網(wǎng)絡(luò)識別了該技術(shù)的當(dāng)前和未來發(fā)展重點,及其在整體性能上具有明顯優(yōu)勢的重要石墨烯材料,還通過分析一組基于時間切片的SAO 結(jié)構(gòu)網(wǎng)絡(luò)的分布變化,分析了石墨烯技術(shù)的成熟度。
基于SAO 結(jié)構(gòu)的專利分析方法用于輔助創(chuàng)新設(shè)計的構(gòu)想最初由Tsourikov 等[38]提出,并成功實施于Invention Machine 公司開發(fā)的計算機輔助創(chuàng)新設(shè)計軟件Goldfire Innovator 中。該軟件提取用戶輸入問題中的AO 組合,然后將其與軟件后臺數(shù)據(jù)庫中的專利文本進行匹配,最后返回專利文本中表述為S元素的設(shè)計方案給用戶?;赟AO 結(jié)構(gòu)的專利分析方法在創(chuàng)新設(shè)計領(lǐng)域的主要應(yīng)用場景包括產(chǎn)品需求、結(jié)構(gòu)和功能分析、技術(shù)系統(tǒng)進化分析以及設(shè)計概念推送等。
例如,Yang 等[9]提出了一種使用基于SAO 結(jié)構(gòu)的專利分析方法識別產(chǎn)品市場需求的方法,該類市場需求在專利中表述為包含“增加”“穩(wěn)定”“質(zhì)量”等元素的SAO 結(jié)構(gòu)。Wang 等[11]使用基于SAO結(jié)構(gòu)的專利分析方法構(gòu)建了一種新型的產(chǎn)品形態(tài)學(xué)矩陣,矩陣的橫軸由描述產(chǎn)品的零件、部件和組件的組成特征SAO 結(jié)構(gòu)構(gòu)成,縱軸由描述產(chǎn)品的技術(shù)問題的屬性特征SAO 結(jié)構(gòu)構(gòu)成,待研究專利則根據(jù)其包含的SAO 結(jié)構(gòu)的種類和數(shù)量分布在該矩陣中,矩陣的空白區(qū)域代表可產(chǎn)生用于構(gòu)建產(chǎn)品創(chuàng)新設(shè)計的方案。Cascini 等[10]使用基于SAO 結(jié)構(gòu)的專利分析方法構(gòu)建產(chǎn)品的功能模型,主要構(gòu)建步驟如下:從專利附圖中識別產(chǎn)品的組件,作為S 元素和O 元素;依據(jù)專利附圖中組件的編號規(guī)則,識別S 元素和O 元素的層級關(guān)系;根據(jù)組件之間的組成關(guān)系或功能關(guān)系確定A 元素,并繪制產(chǎn)品的功能模型。另外,Cascini 等[10]還提出,可以使用基于SAO 結(jié)構(gòu)的專利分析方法分析產(chǎn)品的組件和功能,用于輔助后續(xù)設(shè)計任務(wù),如依據(jù)從專利文本中識別的S 元素和O元素的共現(xiàn)頻次,可分析產(chǎn)品組件的重要性,共現(xiàn)頻次越大的組件越重要;還可將專利文本中SAO 結(jié)構(gòu)的共現(xiàn)頻次與其SA 組合、AO 組合的共現(xiàn)頻次作對比分析,如果SA 組合的共現(xiàn)頻次大于SAO 結(jié)構(gòu)的共現(xiàn)頻次,表明該專利能達到的效果是“將S 元素所代表的工具的作用進行集成,以降低成本”,而如果AO 組合的共現(xiàn)頻次大于SAO 結(jié)構(gòu)的共現(xiàn)頻次,則表明該專利能達到的效果是“增強A 元素所代表的動作”。Choi 等[29]使用基于SAO 結(jié)構(gòu)的專利分析方法構(gòu)建了一種由產(chǎn)品、技術(shù)和功能構(gòu)成的三維技術(shù)樹,其中:以產(chǎn)品為中心的技術(shù)樹,展示了組件和組件之間的關(guān)系;以技術(shù)為中心的技術(shù)樹,展示了產(chǎn)品所包含的技術(shù)和技術(shù)之間的關(guān)系;以功能為中心的技術(shù)樹,展示了產(chǎn)品功能與功能之間的關(guān)系。這種新型的技術(shù)樹由于展示了更多的技術(shù)信息,故更利于輔助設(shè)計決策。Kim 等[12]使用基于SAO 結(jié)構(gòu)的專利分析方法構(gòu)建了一種新型功能網(wǎng)絡(luò)(cause-and-effect function network),由SAO 結(jié)構(gòu)中的A 元素和O 元素依據(jù)其原因和效果關(guān)系連接而成,可將不同領(lǐng)域的技術(shù)信息相互連接,若使用由專利技術(shù)信息構(gòu)成該功能網(wǎng)絡(luò)來編碼創(chuàng)新設(shè)計軟件的后臺數(shù)據(jù)庫,用戶可使用該軟件快速查詢功能或效應(yīng),輔助創(chuàng)新設(shè)計;另外,Kim 等[12]還提出基于SAO 結(jié)構(gòu)的專利分析方法可與TRIZ 工具相結(jié)合來指導(dǎo)創(chuàng)新設(shè)計,具體做法為:將從與某項技術(shù)相關(guān)的專利文本中提取的S 元素、O 元素和AO 組合,分別與每條TRIZ 技術(shù)進化定律中的名詞和該定律中的每一次向前進化的驅(qū)動因素(reasons-for-jumps)做匹配,以此判定該技術(shù)當(dāng)前所處的進化狀態(tài)并識別進化方向,進而輔助創(chuàng)新設(shè)計[39]。吳鴻韜等[40]提出將基于SAO 結(jié)構(gòu)的專利分析方法用于為創(chuàng)新設(shè)計工程師推送設(shè)計概念。該方法通過引入SAO 結(jié)構(gòu)分析方法,以創(chuàng)新設(shè)計為目的,從專利分析中獲取了更多樣的發(fā)明知識。其實現(xiàn)步驟為:使用SAO 結(jié)構(gòu)分析方法從設(shè)計人員提供的設(shè)計原型專利中提取技術(shù)問題、用戶需求、功能目標(biāo)、性能目標(biāo)和實現(xiàn)原理等發(fā)明知識;將上一步中提取的發(fā)明知識與專利數(shù)據(jù)庫中文本做匹配計算,推送以AO 組合展示的設(shè)計概念,用以幫助設(shè)計人員明確設(shè)計需求;以設(shè)計概念為檢索條件,從專利數(shù)據(jù)庫中搜索并推送可用于輔助創(chuàng)新設(shè)計的專利文獻給用戶。
Invention Machine 公司開發(fā)的計算機輔助創(chuàng)新設(shè)計軟件Knowledgist,是最早的使用了基于SAO 結(jié)構(gòu)的專利分析方法進行知識存儲、讀取和反饋的知識管理系統(tǒng),其中基于SAO 結(jié)構(gòu)的專利分析方法主要用來編碼專利知識管理系統(tǒng)中的發(fā)明知識。專利知識管理系統(tǒng)的主要功能包括專利分類、技術(shù)信息挖掘和展示以及發(fā)明知識推送等。
例如,胡正銀等[13]使用基于SAO 結(jié)構(gòu)的專利分析方法開發(fā)了一款主要用于專利分類的專利知識管理系統(tǒng),能夠幫助用戶快速發(fā)現(xiàn)領(lǐng)域中專利所采用的技術(shù)方案、解決的技術(shù)問題、實現(xiàn)的技術(shù)功能和取得的技術(shù)效果等信息,并能夠?qū)@罁?jù)以上技術(shù)信息進行分類展示。該系統(tǒng)使用SAO 結(jié)構(gòu)進行專利技術(shù)信息編碼,擴展了傳統(tǒng)專利檢索系統(tǒng)的索引結(jié)構(gòu),細(xì)化了其檢索粒度。之后,胡正銀等[41]又基于該方法開發(fā)了一款專利技術(shù)信息挖掘系統(tǒng),同樣使用SAO 結(jié)構(gòu)編碼發(fā)明的關(guān)鍵技術(shù)知識,主要功能為面向TRIZ 的知識檢索和知識的可視化展示。Park 等[42]使用基于SAO 結(jié)構(gòu)的專利分析方法開發(fā)了一款名為TechPerceptor 的專利知識管理系統(tǒng),可以輸出基于SAO 結(jié)構(gòu)的專利地圖和SAO 結(jié)構(gòu)網(wǎng)絡(luò),集成了Kim 等[12]面向情報研究的SAO 結(jié)構(gòu)分析方法的研究成果,包括識別技術(shù)趨勢、識別重要專利、檢測新技術(shù)和識別可能的侵權(quán)等。Li 等[43]使用基于SAO 結(jié)構(gòu)的專利分析方法開發(fā)了一款主要用于發(fā)明知識推送的專利知識管理系統(tǒng),為了使系統(tǒng)能推送更豐富的解決方案給用戶,他們提出使用WordNet中的上位詞和下位詞擴展A 元素和O 元素,這樣,系統(tǒng)能夠在一個更豐富、更完整的專利集合中進行知識的搜索;此外,Li 等[44]還提出使用WordNet中詞與詞之間路徑的長度計算語義相似度的方法,將存儲在系統(tǒng)中的專利技術(shù)知識進行有效搜索和排序,進而提高解決方案的推送準(zhǔn)確性。
基于SAO 結(jié)構(gòu)的專利分析方法也被應(yīng)用在了協(xié)助企業(yè)管理人員進行專利侵權(quán)判定、人力資源管理和組織實施戰(zhàn)略等企業(yè)管理工作。
例如,基于SAO 結(jié)構(gòu)的專利分析方法通過分析專利間SAO 結(jié)構(gòu)的相似性來判斷專利的相似度,進而評估專利侵權(quán)風(fēng)險[45]。Park 等[34]依據(jù)SAO 結(jié)構(gòu)相似性參數(shù)構(gòu)建了專利群的語義相似度矩陣,并繪制了專利地圖,認(rèn)為該地圖中具有較小平均距離(average distance)的專利群被認(rèn)為是最可能發(fā)生侵權(quán)的區(qū)域;此外,Park 等[46]創(chuàng)造性地將該方法應(yīng)用于識別專利與產(chǎn)品之間的侵權(quán)行為。Moehrle 等[47]主要使用基于SAO 結(jié)構(gòu)的專利分析方法開展了人力資源管理工作,具體來說,他們將專利發(fā)明人的技術(shù)能力使用SAO 結(jié)構(gòu)來描述,并依此構(gòu)建了單個發(fā)明人的技術(shù)能力概要文件;同時,他們提出可以使用計算SAO 結(jié)構(gòu)、AO 結(jié)構(gòu)和S 元素的相似度的方法來識別具有相似技術(shù)能力的發(fā)明人群體,基于SAO 結(jié)構(gòu)的專利分析方法還能用于為技術(shù)戰(zhàn)略決策者提供直觀指導(dǎo)。Yoon 等[33]使用基于SAO 結(jié)構(gòu)的專利分析方法構(gòu)建了專利申請人的研發(fā)趨勢圖(R&D trend map),清晰描述競爭對手之間的研發(fā)趨勢和技術(shù)重疊區(qū)域,為戰(zhàn)略決策者的專利購買、并購和合作等決策提供指導(dǎo)。Park 等[48]使用基于SAO 結(jié)構(gòu)的專利分析方法輔助并購決策,具體做法為:從相關(guān)領(lǐng)域企業(yè)的專利中識別與并購戰(zhàn)略目緊密相關(guān)的技術(shù)領(lǐng)域;分析以上技術(shù)領(lǐng)域中的專利,將這些專利的所屬企業(yè)按技術(shù)水平、內(nèi)部技術(shù)能力和潛在技術(shù)協(xié)同作用進行分類;依據(jù)不同企業(yè),采取不同的并購策略。Wang 等[49]使用基于SAO 結(jié)構(gòu)的專利分析方法識別和選擇潛在研發(fā)合作伙伴,使用各企業(yè)的專利數(shù)據(jù),基于S 元素構(gòu)建了企業(yè)技術(shù)合作網(wǎng)絡(luò)(organization correlation map),其中S 元素代表各企業(yè)擁有的技術(shù)解決方案,網(wǎng)絡(luò)中的節(jié)點為專利的申請人,節(jié)點大小表示解決特定問題的方案的數(shù)量,節(jié)點之間連線的粗細(xì)代表企業(yè)技術(shù)相似性的高低。該網(wǎng)絡(luò)有效衡量了每個研究目標(biāo),即企業(yè),在技術(shù)上的相似性,為企業(yè)組織實施戰(zhàn)略提供了有益指導(dǎo)。
圖2 基于SAO 結(jié)構(gòu)的專利分析方法應(yīng)用領(lǐng)域分布
本研究針對國內(nèi)外基于SAO 結(jié)構(gòu)的專利分析相關(guān)研究成果進行了系統(tǒng)的綜述,研究發(fā)現(xiàn):
(1)SAO 結(jié)構(gòu)的研究主要包括SAO 結(jié)構(gòu)中3個元素的獨立研究、SAO 結(jié)構(gòu)中3 個元素的兩兩組合研究,以及多個SAO 結(jié)構(gòu)之間的相互關(guān)系研究。這些研究豐富了SAO 結(jié)構(gòu)的內(nèi)涵,為其進一步發(fā)展和應(yīng)用奠定了基礎(chǔ)。
(2)基于SAO 結(jié)構(gòu)的專利分析流程主要分為數(shù)據(jù)預(yù)處理、SAO 結(jié)構(gòu)提取、SAO 結(jié)構(gòu)后處理和圖表解釋4 個階段。其中,數(shù)據(jù)預(yù)處理主要包括自然語言處理和數(shù)據(jù)清洗2 個步驟;SAO 結(jié)構(gòu)提取主要包括元素識別和關(guān)系構(gòu)建2 個步驟;SAO 結(jié)構(gòu)后處理主要包括信息篩選和圖表構(gòu)建2 個步驟。
(3)基于SAO 結(jié)構(gòu)的專利分析方法主要從擴大研究詞覆蓋范圍來提高專利分析方法的全面性,從構(gòu)建和分析SAO 結(jié)構(gòu)網(wǎng)絡(luò)來提高專利分析方法的深入性,從優(yōu)化SAO 結(jié)構(gòu)提取方法和分類研究SAO結(jié)構(gòu)來提高專利分析方法的準(zhǔn)確性。這些研究展示了基于SAO 結(jié)構(gòu)的專利分析方法的先進性,但其優(yōu)勢仍有進一步提升的空間。
(4)基于SAO 結(jié)構(gòu)的專利分析方法在專利情報分析領(lǐng)域主要用于跟蹤科學(xué)研究領(lǐng)域的發(fā)展變化以及預(yù)測前沿科學(xué)研究;在創(chuàng)新設(shè)計領(lǐng)域的主要應(yīng)用場景包括產(chǎn)品的需求、結(jié)構(gòu)和功能分析,以及設(shè)計概念推送;在專利知識管理系統(tǒng)中的主要作用是專利分類、技術(shù)信息挖掘和展示以及發(fā)明知識推送;在企業(yè)管理領(lǐng)域主要用來幫助企業(yè)管理知識產(chǎn)權(quán)和組織實施戰(zhàn)略。這些研究證實了基于SAO 結(jié)構(gòu)的專利分析方法有著廣闊的應(yīng)用前景。
基于以上系統(tǒng)梳理,本研究認(rèn)為,未來可以在以下兩個方面進一步開展研究:(1)探尋更高效的SAO 結(jié)構(gòu)提取方法。目前,基于機器學(xué)習(xí)的方法是最具發(fā)展前景的工具之一,且自然語言處理更是被視為人工智能“皇冠上的明珠”。因此,未來可通過對本體、資源描述框架(RDF)和語法樹等語義資源的研究,降低提取SAO 結(jié)構(gòu)中非分類關(guān)系的難度,同時開發(fā)專利語料庫和領(lǐng)域語料庫,用以實現(xiàn)對SAO 結(jié)構(gòu)的精準(zhǔn)提取。(2)將基于SAO 結(jié)構(gòu)的專利分析方法應(yīng)用于更具體的企業(yè)技術(shù)創(chuàng)新管理實踐。由于企業(yè)之間的競爭在某種意義上來說就是專利技術(shù)的競爭,因此更精準(zhǔn)、快速地分析競爭對手專利將成為提升企業(yè)市場競爭力的法寶。未來可使用基于SAO 結(jié)構(gòu)的專利分析方法識別市場關(guān)鍵問題和領(lǐng)域顛覆性技術(shù),用于向企業(yè)推送具有顛覆市場潛力的突破性創(chuàng)新或破壞性創(chuàng)新機會。