張金柱,于文倩,李溢峰
技術(shù)實(shí)現(xiàn)路徑是指以技術(shù)手段及其作用效果為特征的路徑結(jié)構(gòu),可以清楚地揭示技術(shù)與功效間的聯(lián)系[1-2]。專利作為技術(shù)信息的有效載體,是獲取科技信息的重要來源。通過對(duì)專利進(jìn)行挖掘,可以構(gòu)建技術(shù)實(shí)現(xiàn)路徑,進(jìn)而獲取專利中蘊(yùn)含的技術(shù)發(fā)展趨勢、技術(shù)實(shí)現(xiàn)途徑以及技術(shù)空白點(diǎn)等有價(jià)值的信息,從而為技術(shù)研發(fā)、技術(shù)布局與技術(shù)合作等提供支撐和輔助。
當(dāng)前技術(shù)實(shí)現(xiàn)路徑構(gòu)建的相關(guān)研究主要通過制作技術(shù)功效矩陣或技術(shù)功效圖來實(shí)現(xiàn)。這兩者構(gòu)建過程類似,只是展示形態(tài)略有差別,分別根據(jù)技術(shù)手段和功能效果兩個(gè)指標(biāo)形成二維矩陣或?qū)@貓D,進(jìn)而通過專利文獻(xiàn)反映的主題技術(shù)方案和主要技術(shù)功能之間的特征分析來揭示技術(shù)和功效二者的關(guān)系[3]。然而,技術(shù)功效矩陣大多以人工構(gòu)建為主,雖然精度高,但是研制周期長、成本高,難以實(shí)現(xiàn)廣泛應(yīng)用。有學(xué)者研究了半自動(dòng)化的構(gòu)建模式,但關(guān)鍵環(huán)節(jié)仍需要特定領(lǐng)域?qū)<业膮⑴c,并且整個(gè)構(gòu)建系統(tǒng)對(duì)使用者專業(yè)知識(shí)要求較高,不方便普通用戶使用。因此,亟需研究最大限度減少人工參與甚至是無監(jiān)督的技術(shù)實(shí)現(xiàn)路徑構(gòu)建方法,提高其領(lǐng)域適用性,減少人力成本,實(shí)現(xiàn)廣泛應(yīng)用。
除此之外,技術(shù)功效矩陣只有技術(shù)和功效兩個(gè)維度,一般以專利數(shù)量表示維度對(duì)應(yīng)的數(shù)值,無法直接判斷技術(shù)與功效之間的多維復(fù)雜關(guān)聯(lián)關(guān)系,導(dǎo)致需要對(duì)不同的技術(shù)功效進(jìn)行比較時(shí),無法直接判斷哪種技術(shù)或功效更重要,科學(xué)決策的支撐作用降低。因此,需要設(shè)計(jì)一種能夠細(xì)化技術(shù)與功效之間的語義關(guān)系、有效衡量不同技術(shù)路徑間區(qū)別與聯(lián)系的技術(shù)實(shí)現(xiàn)路徑構(gòu)建方法,提高決策支持效果。與此同時(shí),技術(shù)功效矩陣往往是二維坐標(biāo)形式的靜態(tài)結(jié)果呈現(xiàn),較難支撐后續(xù)加入的新技術(shù)功效信息的動(dòng)態(tài)即時(shí)更新,也不利于整體技術(shù)態(tài)勢和最新技術(shù)功效的展示,亟需研究技術(shù)功效關(guān)聯(lián)的即時(shí)更新和可視化技術(shù)。
基于以上問題,本文提出了一種基于技術(shù)功效關(guān)聯(lián)的技術(shù)實(shí)現(xiàn)路徑構(gòu)建方法。該方法首先通過信息抽取方法實(shí)現(xiàn)專利技術(shù)詞、功效詞以及兩者間關(guān)系詞的自動(dòng)抽取,進(jìn)而構(gòu)建“技術(shù)詞—關(guān)系詞—功效詞”形式的三元組技術(shù)實(shí)現(xiàn)路徑,從而減少人力成本,提高領(lǐng)域適用性。其次,通過關(guān)系詞這個(gè)中間橋梁完善和細(xì)化技術(shù)實(shí)現(xiàn)路徑中技術(shù)與功效間的語義關(guān)聯(lián),便于確定不同路徑間的區(qū)別與聯(lián)系。最后,將所有技術(shù)實(shí)現(xiàn)路徑導(dǎo)入圖數(shù)據(jù)庫進(jìn)行存儲(chǔ)并實(shí)現(xiàn)可視化,這樣既可以清楚展示技術(shù)功效間的關(guān)聯(lián)關(guān)系,也可以支持技術(shù)功效信息的動(dòng)態(tài)即時(shí)更新。
技術(shù)實(shí)現(xiàn)路徑構(gòu)建的相關(guān)研究主要以技術(shù)功效矩陣或技術(shù)功效圖構(gòu)建研究為代表,兩者都同時(shí)含有“技術(shù)”和“功效”兩種元素,可以直觀地反映專利技術(shù)和功效的類別及數(shù)量,在微觀層面技術(shù)分析中有廣泛的應(yīng)用,比如領(lǐng)域?qū)@季址治觥⒓夹g(shù)創(chuàng)新路徑分析、技術(shù)機(jī)會(huì)發(fā)現(xiàn)、核心專利挖掘等[4]。因?yàn)榧夹g(shù)功效圖或技術(shù)功效矩陣構(gòu)建的核心是“技術(shù)”和“功效”,所以最終的構(gòu)建效果往往取決于技術(shù)詞和功效詞的抽取效果,整個(gè)構(gòu)建過程中涉及的抽取方法可以分為手動(dòng)構(gòu)建、半自動(dòng)化構(gòu)建和自動(dòng)化構(gòu)建。
手動(dòng)的技術(shù)功效圖構(gòu)建主要是在人工抽取技術(shù)功效詞的基礎(chǔ)上實(shí)現(xiàn)的。許海云等[5]通過與領(lǐng)域內(nèi)的專家溝通,對(duì)深海潛水器的水下導(dǎo)航系統(tǒng)的相關(guān)專利進(jìn)行了人工的主題劃分,確定了深海潛水器相關(guān)專利水下導(dǎo)航系統(tǒng)技術(shù)分解和達(dá)成功效,從而構(gòu)建出專利功效矩陣。邱洪華等[6]借助專家的背景和經(jīng)驗(yàn)對(duì)中國礦用風(fēng)機(jī)領(lǐng)域的專利進(jìn)行技術(shù)和功效關(guān)鍵詞抽取,并結(jié)合申請(qǐng)人、發(fā)明人、年度趨勢和區(qū)域等角度,研究了技術(shù)功效專利信息分析范式的實(shí)現(xiàn)。這種人工抽取技術(shù)功效詞手動(dòng)構(gòu)建的方法雖然專業(yè)性較高,但是較為費(fèi)時(shí)費(fèi)力。
半自動(dòng)化的技術(shù)功效圖構(gòu)建主要通過技術(shù)功效詞的自動(dòng)抽取來減少人工參與構(gòu)建的過程。Liu等[7]提出一種基于語料庫劃分的半自動(dòng)方法來提取中文專利摘要中的技術(shù)功效短語。該方法可以結(jié)合技術(shù)詞、功效詞出現(xiàn)的句法、詞法特征通過構(gòu)建模板進(jìn)行抽取。翟東升等[8]利用專利數(shù)據(jù)倉庫的技術(shù)功效圖挖掘方法,通過制定相應(yīng)的抽取規(guī)則清洗專利非結(jié)構(gòu)化信息并抽取非結(jié)構(gòu)化信息特征詞,進(jìn)而由專家組遴選出目標(biāo)技術(shù)領(lǐng)域具有代表性的特征詞,最后結(jié)合數(shù)據(jù)倉庫技術(shù)實(shí)現(xiàn)技術(shù)功效圖的構(gòu)建與多維分析。陸佳偉等[9]以MOCVD(金屬有機(jī)化合物化學(xué)氣相沉淀)技術(shù)為例,通過技術(shù)骨架的搭建確定技術(shù)功效詞,構(gòu)建技術(shù)功效導(dǎo)向的基于敘詞表的領(lǐng)域本體,進(jìn)而借助文本挖掘技術(shù)對(duì)專利摘要進(jìn)行分析,初步實(shí)現(xiàn)對(duì)文本語義的理解,完成技術(shù)功效圖的半自動(dòng)制作。
自動(dòng)化的技術(shù)功效圖構(gòu)建理論上是全程不需要人工參與的,但實(shí)際上完全自動(dòng)化的技術(shù)功效圖的構(gòu)建幾乎還沒有,只是人工參與構(gòu)建的程度相對(duì)要低很多。張兆峰等[4]對(duì)新能源汽車領(lǐng)域的專利提出了一種基于知識(shí)圖譜的技術(shù)功效圖自動(dòng)構(gòu)建解決方案,主要是結(jié)合專利文本撰寫特點(diǎn),利用規(guī)則和依存句法分析抽取專利中的技術(shù)主題、應(yīng)用領(lǐng)域、功效和詞間關(guān)系,并結(jié)合漢語科技詞系統(tǒng)構(gòu)建面向技術(shù)功效圖自動(dòng)構(gòu)建的知識(shí)圖譜,以實(shí)現(xiàn)技術(shù)功效圖自動(dòng)構(gòu)建的即時(shí)性和靈活性,同時(shí)引入反饋機(jī)制,實(shí)現(xiàn)技術(shù)功效分類的不斷優(yōu)化,提高分類準(zhǔn)確性。翟東升等[10]提出了一種基于SAO 結(jié)構(gòu)和詞向量的專利技術(shù)功效圖自動(dòng)構(gòu)建方法,首先抽取專利摘要中的SAO結(jié)構(gòu)并從中識(shí)別技術(shù)詞和功效詞,然后結(jié)合領(lǐng)域詞典與專利領(lǐng)域語料庫,運(yùn)用Word2Vec 和WordNet計(jì)算詞語間的語義相似度,利用基于網(wǎng)絡(luò)關(guān)系的主題聚類算法實(shí)現(xiàn)主題的自動(dòng)標(biāo)引,最后采用基于SAO結(jié)構(gòu)的共現(xiàn)關(guān)系來構(gòu)建技術(shù)功效矩陣。
綜上,當(dāng)前技術(shù)實(shí)現(xiàn)路徑構(gòu)建的有關(guān)研究大多以人工構(gòu)建或半自動(dòng)化構(gòu)建技術(shù)功效矩陣或技術(shù)功效圖為主,精度雖高,但是研制周期長、成本高,領(lǐng)域適用性不強(qiáng);而自動(dòng)化構(gòu)建程度較高的相關(guān)研究主要從技術(shù)和功效兩個(gè)維度出發(fā),不能清晰挖掘和展示技術(shù)和功效之間的多種關(guān)聯(lián)關(guān)系。因此,如何運(yùn)用適合的信息抽取方法,提高技術(shù)詞和功效詞的自動(dòng)抽取效果,并結(jié)合專利技術(shù)實(shí)現(xiàn)路徑構(gòu)建的特點(diǎn),細(xì)化技術(shù)與功效之間的多維復(fù)雜關(guān)聯(lián)關(guān)系,確定不同路徑間的區(qū)別與聯(lián)系,尚需深入探索和研究。
本文結(jié)合專利數(shù)據(jù)特點(diǎn),首先基于規(guī)則抽取技術(shù)主題詞,利用BiLSTM-CRF深度學(xué)習(xí)模型從專利摘要中抽取專利功效短語;然后設(shè)計(jì)規(guī)則從功效短語中自動(dòng)識(shí)別出功效詞以及表示技術(shù)功效間語義聯(lián)系的關(guān)系詞,構(gòu)建“技術(shù)詞-關(guān)系詞-功效詞”結(jié)構(gòu)的技術(shù)功效關(guān)聯(lián),形成初步的技術(shù)實(shí)現(xiàn)路徑;最后通過計(jì)算實(shí)體間語義相似度實(shí)現(xiàn)技術(shù)詞對(duì)齊和功效詞對(duì)齊,優(yōu)化技術(shù)實(shí)現(xiàn)路徑并以知識(shí)網(wǎng)絡(luò)的形式對(duì)其進(jìn)行可視化。
由于專利文獻(xiàn)的規(guī)范性,專利標(biāo)題多數(shù)會(huì)直接表明專利的類型、技術(shù)主題、應(yīng)用領(lǐng)域等信息[4]。與此同時(shí),專利標(biāo)題中一般會(huì)有多個(gè)技術(shù)主題詞(簡稱“技術(shù)詞”),不同位置的詞所扮演的語義角色和重要程度是不同的。考慮到多數(shù)專利的標(biāo)題表達(dá)形式比較規(guī)范且有一定的規(guī)則可循,本文采用基于規(guī)則的信息抽取方法抽取技術(shù)主題詞,具體包括以下方式。
(1)基于正則表達(dá)式匹配的技術(shù)主題詞抽取。當(dāng) 專 利 標(biāo) 題 中 含 有“based”“used”“featured”等類似的被動(dòng)語態(tài)的詞語時(shí),將該類詞語視為技術(shù)主題詞的線索詞,將線索詞之前的詞語作為技術(shù)主題詞。比如,在專利標(biāo)題“Cloud service based intelligent mobile phone communication method”中,“based”為技術(shù)主題詞的線索詞,“Cloud service”是線索詞之前的詞語,為該專利的技術(shù)主題詞,而標(biāo)題中的“intelligent mobile phone communication”則表明技術(shù)應(yīng)用的領(lǐng)域?yàn)橹悄苁謾C(jī)通訊領(lǐng)域。
(2)基于依存句法分析的技術(shù)主題詞抽取。該方式主要分為兩種情況。第一種是當(dāng)專利標(biāo)題中含有表示專利類型的詞,并且以該詞作為整個(gè)專利標(biāo)題的中心詞,同時(shí)以“專利類型詞+for”形式開頭時(shí),把修飾專利類型詞的直接賓語作為該專利的技術(shù)主題詞。例如,對(duì)專利標(biāo)題“Method for aggregating paging messages in communication network”進(jìn)行依存句法分析,結(jié)果如表1所示,可以通過“ROOT.DEP_”的結(jié)果判斷“Method”是表示專利類型的中心詞,“aggregating paging messages”是其直接賓語,用來作為該篇專利的技術(shù)主題詞;“communication network”是介詞賓語,用以表明技術(shù)的應(yīng)用領(lǐng)域。
表1 第一種依存句法分析結(jié)果示例
第二種是當(dāng)專利標(biāo)題以專利類型詞作為后置中心詞時(shí),把靠近中心詞的定語作為該專利的技術(shù)主題詞,而如果該定語也存在定語,則將該定語及其定語構(gòu)成復(fù)合定語一同作為技術(shù)主題詞,并以此類推下去。如對(duì)專利標(biāo)題“Intelligent home remote control system”進(jìn)行依存句法分析,結(jié)果如表2所示,通過“DEP”可以判斷出“system”是中心詞,“home”和“control”是復(fù)合定語。通過“CHILDREN”可以判斷出最靠近“system”的定語為“control”。同時(shí),“control”也存在定語“remote”,它們一起構(gòu)成了靠近中心詞的復(fù)合定語“remote control”。由于“remote control”已無其他定語,因此直接把“remote control”視為該專利的技術(shù)主題詞。
表2 第二種依存句法分析結(jié)果示例
(3)其他情況下的技術(shù)主題詞抽取。除上述情況外,當(dāng)專利標(biāo)題中沒有相應(yīng)的句法結(jié)構(gòu)表明技術(shù)主題詞時(shí),以整個(gè)標(biāo)題作為技術(shù)主題詞。比如專利標(biāo)題“Mobile phone terminal service platform”,其本質(zhì)是通過研究特定技術(shù)領(lǐng)域的相關(guān)技術(shù)實(shí)現(xiàn)的一個(gè)具體應(yīng)用,為此直接將這類專利標(biāo)題作為技術(shù)主題詞,表明其專利背后依托的技術(shù)主題。
在專利文獻(xiàn)中,功效短語表達(dá)形式多樣,采用基于規(guī)則或基于特征選擇的信息抽取方法效果非常有限。因此,本文將功效短語的抽取看作是信息抽取中的序列標(biāo)注任務(wù),先利用{B,I,O}標(biāo)注模式手動(dòng)標(biāo)注一部分功效短語作為訓(xùn)練集,然后利用序列標(biāo)注模型對(duì)其進(jìn)行訓(xùn)練調(diào)參,最后利用訓(xùn)練好的序列標(biāo)注模型實(shí)現(xiàn)功效短語的自動(dòng)標(biāo)注,從而實(shí)現(xiàn)功效短語抽取。具體來說,本文采用BiLSTM-CRF[11]深度學(xué)習(xí)模型來抽取專利功效短語。BiLSTM-CRF 序列標(biāo)注模型結(jié)合了BiLSTM網(wǎng)絡(luò)和CRF模型的優(yōu)點(diǎn),既可以從過去的輸入特征以及將來的輸入特征兩個(gè)方向來兼顧長距離的上下文信息對(duì)功效短語標(biāo)注結(jié)果的影響,又能夠捕捉全局的標(biāo)注序列信息,實(shí)現(xiàn)靈活的特征設(shè)計(jì),從而最大概率地保證功效短語標(biāo)注的正確性。
該模型的框架及自動(dòng)標(biāo)注過程如圖1所示。這是一個(gè)6層神經(jīng)網(wǎng)絡(luò)模型,其中,為了獲得更好的預(yù)訓(xùn)練效果,Embedding層采用word2vec[12]預(yù)訓(xùn)練的詞向量來代替隨機(jī)嵌入。具體的標(biāo)注過程主要包括以下幾個(gè)步驟:首先,將輸入的句子序列中的所有單詞進(jìn)行向量化;其次,將向量送入BiLSTM 模型從前向和后向兩個(gè)方向?qū)W習(xí)上下文語義特征;最后,將BiLSTM 的輸出結(jié)果作為CRF模型的輸入并最終由CRF模型預(yù)測出全局最優(yōu)的標(biāo)簽序列,實(shí)現(xiàn)功效短語自動(dòng)標(biāo)注。
功效短語包含“關(guān)系詞”和“功效詞”,通過對(duì)它們進(jìn)行識(shí)別并與抽取的技術(shù)主題詞進(jìn)行對(duì)應(yīng)能夠構(gòu)建“技術(shù)詞—關(guān)系詞—功效詞”三元組,實(shí)現(xiàn)技術(shù)功效關(guān)聯(lián)表示,形成技術(shù)實(shí)現(xiàn)路徑的初步表示。結(jié)合功效短語自動(dòng)標(biāo)注模型的標(biāo)注模式,可以發(fā)現(xiàn)功效短語的結(jié)構(gòu)大多為動(dòng)賓結(jié)構(gòu)和對(duì)應(yīng)的被動(dòng)結(jié)構(gòu),如“improve signal sensitivity”和“overhead be reduced”。這兩種結(jié)構(gòu)的功效短語可以直接從中識(shí)別出“關(guān)系詞”和“功效詞”,如此處的關(guān)系詞為動(dòng)詞“improve”和“reduce”,功效詞為名詞或名詞短語“signal sensitivity”和“overhead”。而一些名詞短語,比如“quick reaction capability”,其單獨(dú)構(gòu)成一個(gè)功效詞,無法直接識(shí)別出關(guān)系詞。對(duì)于這種類型的功效短語,本文設(shè)定關(guān)系詞為“berelatedto”,認(rèn)為該專利的技術(shù)主題詞與某個(gè)功效是緊密聯(lián)系的。
針對(duì)以上三種結(jié)構(gòu)的功效短語的關(guān)系詞和功效詞識(shí)別,技術(shù)功效關(guān)聯(lián)中的關(guān)系詞即為功效短語中的動(dòng)詞或“be related to”,功效詞則為功效短語中的名詞或名詞短語。因此,根據(jù)這兩個(gè)特點(diǎn),關(guān)系詞和功效詞的識(shí)別總結(jié)為3種情況:(1)如果某個(gè)功效短語的首位單詞為動(dòng)詞,其余部分都不是動(dòng)詞,則該功效短語為動(dòng)賓結(jié)構(gòu),直接將首位單詞作為關(guān)系詞,其余單詞作為功效詞;(2)如果某個(gè)功效短語的末尾兩個(gè)單詞都為動(dòng)詞,其余部分都不是動(dòng)詞,則該功效短語為被動(dòng)結(jié)構(gòu),將末尾詞作為關(guān)系詞,其余單詞作為功效詞;(3)如果某個(gè)功效短語的首位單詞和末位單詞都不為動(dòng)詞,則該功效短語為名詞短語,設(shè)置其關(guān)系詞為“be related to”,并將其所有單詞一起作為功效詞。
圖1 基于BiLSTM-CRF的功效短語自動(dòng)標(biāo)注模型
識(shí)別出關(guān)系詞和功效詞后,“技術(shù)詞—關(guān)系詞—功效詞”路徑結(jié)構(gòu)就可以揭示每個(gè)技術(shù)方法與對(duì)應(yīng)功效之間的語義關(guān)聯(lián),進(jìn)而完成技術(shù)實(shí)現(xiàn)路徑的構(gòu)建。但是,由于專利中相同含義的技術(shù)詞或功效詞的表達(dá)方式多樣,存在大量的信息冗余,還需要進(jìn)一步對(duì)初步構(gòu)建的技術(shù)功效關(guān)聯(lián)表示進(jìn)行合并和優(yōu)化,以獲得規(guī)范的技術(shù)實(shí)現(xiàn)路徑。然后,將其存入數(shù)據(jù)庫實(shí)現(xiàn)可視化,以實(shí)現(xiàn)技術(shù)功效信息的即時(shí)管理,方便普通用戶理解。
對(duì)于技術(shù)詞和功效詞的合并和優(yōu)化,本文采用基于相似度理論判定的實(shí)體對(duì)齊方法[13],通過分別計(jì)算技術(shù)詞間和功效詞間的語義相似度來確定每種類型下的實(shí)體對(duì)間是否具有相同含義。由于前面已經(jīng)利用word2vec 實(shí)現(xiàn)了所有詞向量的表示,因此可以在此基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)每個(gè)技術(shù)詞和功效詞的向量表示,然后計(jì)算技術(shù)詞向量之間和功效詞向量間的余弦相似度來判定實(shí)體對(duì)間的語義相似度,并根據(jù)相似度的大小確定實(shí)體對(duì)間是否具有相同含義。本文將相似度大于0.9 的實(shí)體對(duì)視為可能性較大的含義相同的實(shí)體對(duì),加入候選實(shí)體集。進(jìn)一步篩選這些候選實(shí)體對(duì)后,就可以構(gòu)建規(guī)范的技術(shù)實(shí)現(xiàn)路徑。
實(shí)體對(duì)齊后,將所有標(biāo)準(zhǔn)的技術(shù)實(shí)現(xiàn)路徑存入數(shù)據(jù)庫,并進(jìn)行可視化形成知識(shí)網(wǎng)絡(luò),展示出整體的技術(shù)實(shí)現(xiàn)路徑架構(gòu),同時(shí)也方便后續(xù)技術(shù)實(shí)現(xiàn)路徑信息的查詢分析與更新修改等。由于技術(shù)實(shí)現(xiàn)路徑的三元組結(jié)構(gòu)不同于傳統(tǒng)的數(shù)據(jù)類型,不可以直接存入數(shù)據(jù)庫中,需要先將其進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)與邊的轉(zhuǎn)化,再將其導(dǎo)入數(shù)據(jù)庫中。本文利用圖數(shù)據(jù)庫來存儲(chǔ)技術(shù)實(shí)現(xiàn)路徑,并且圖數(shù)據(jù)庫也可以直接實(shí)現(xiàn)技術(shù)功效信息的可視化。
隨著社會(huì)的發(fā)展,人們的生活不斷進(jìn)步。通信為社會(huì)各個(gè)行業(yè)提供了越來越多的便利,完全改變了傳統(tǒng)的生活方式,并且成為人們?nèi)粘I畹囊徊糠帧?G 作為現(xiàn)階段最新的移動(dòng)通信技術(shù),正處于研發(fā)和應(yīng)用的關(guān)鍵階段,相應(yīng)的技術(shù)實(shí)現(xiàn)路徑一直是研究重點(diǎn)和熱點(diǎn),因此本文選擇通信領(lǐng)域的5G技術(shù)進(jìn)行實(shí)證研究。
本文選取德溫特(DerwentInnovationsIndex,DII)數(shù)據(jù)庫作為專利數(shù)據(jù)檢索平臺(tái),實(shí)驗(yàn)選定的主題詞為“5G or Fifth Generation”,檢索的專利時(shí)間范圍為“2009至2019”,檢索的專利分類號(hào)采用德溫特分類代碼,為“W01 or W02”,共檢索出5,235 條數(shù)據(jù)。除去重復(fù)數(shù)據(jù)、專利摘要字段有缺失及過濾5GHz等與研究主題無關(guān)的數(shù)據(jù)后,最終得到4,908 條相關(guān)數(shù)據(jù)。與此同時(shí),為了后續(xù)同屬于一個(gè)專利的技術(shù)主題詞、關(guān)系詞和功效詞之間能夠一一對(duì)應(yīng)實(shí)現(xiàn)關(guān)聯(lián),本文為每個(gè)專利生成了唯一的ID號(hào)。
(1)基于正則表達(dá)式的技術(shù)主題詞抽取。本實(shí)驗(yàn)通過Python3.6.2版本的re包調(diào)用正則表達(dá)式模塊,首先通過“based”“used”“featured”等線索詞匹配出滿足正則表達(dá)式抽取的所有專利標(biāo)題,共計(jì)239條;然后再抽取這些線索詞之前的詞作為技術(shù)主題詞。對(duì)應(yīng)的抽取結(jié)果示例見表3。
C組受試產(chǎn)婦的第一產(chǎn)程時(shí)間短于A、B組,B組短于A組(P<0.05);B、C組受試產(chǎn)婦的第二產(chǎn)程時(shí)間短于A組(P<0.05),B、C組間比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05),見表3。
表3 基于正則表達(dá)式的專利技術(shù)主題詞抽取示例
(2)基于依存句法分析的技術(shù)主題詞抽取。在去除上一步滿足正則表達(dá)式匹配的專利標(biāo)題后,本部分實(shí)驗(yàn)首先利用依存句法分析抽取滿足第一種情況的技術(shù)主題詞。在抽取之前,首先利用正則表達(dá)式匹配出滿足依存句法分析第一種情況的所有專利標(biāo)題,針對(duì)5G技術(shù)專利特點(diǎn),這里匹配的是形如“method/system/device/apparatus for”等形式的所有專利標(biāo)題,共計(jì)2,918條。在此基礎(chǔ)上,再進(jìn)行基于依存句法分析的技術(shù)主題詞抽取,實(shí)驗(yàn)的依存句法分析利用spaCy 工具包實(shí)現(xiàn)。根據(jù)預(yù)先設(shè)定好的抽取規(guī)則,抽取“method/system/device/apparatus for”等結(jié)構(gòu)的直接賓語作為技術(shù)主題詞,對(duì)應(yīng)的抽取結(jié)果如表4所示。
表4 基于依存句法分析第一種類型的專利技術(shù)主題詞抽取示例
同樣地,去除滿足依存句法分析第一種情況的專利標(biāo)題后,再利用依存句法分析抽取剩余專利標(biāo)題中滿足第二種情況的技術(shù)主題詞。這里匹配的是以“method/system/device/apparatus”等專利類型詞作為后置中心詞的專利標(biāo)題,共1,284條。在此基礎(chǔ)上,根據(jù)預(yù)先設(shè)定的抽取規(guī)則,抽取“method/system/device/apparatus”等中心詞的鄰近定語或復(fù)合定語作為技術(shù)主題詞,對(duì)應(yīng)的抽取結(jié)果如表5所示。
(3)其他情況下的技術(shù)主題詞抽取。對(duì)最終剩余的467條發(fā)明專利,直接保留其專利標(biāo)題整體作為技術(shù)主題詞,結(jié)果如表6所示。
表5 基于依存句法分析第二種類型的專利技術(shù)主題詞抽取示例
DII數(shù)據(jù)庫中專利的摘要信息中包含新穎性(NOVELTY)、用途(USE)、優(yōu)勢(ADVANTAGE)、具體描述(DETAILED DESCRIPTION)等字段內(nèi)容。其中,ADVANTAGE字段是描述專利所達(dá)成功效(包括正面性能的增加、負(fù)面性能的減少或優(yōu)秀性能的保持等)的主要信息來源[14]。因此,為了減少不必要的標(biāo)注工作量以及其他字段中冗余信息對(duì)后續(xù)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練效果的干擾,本文先利用正則表達(dá)式單獨(dú)匹配ADVANTAGE 字段,抽取結(jié)果如表7所示。其中,每一行的第一列表示專利的ID 號(hào),ID 號(hào)對(duì)應(yīng)的文本就是抽取的ADVANTAGE字段。
表6 其他情況的專利技術(shù)主題詞抽取示例
表7 專利ADVANTAGE字段的抽取結(jié)果示例
本次實(shí)驗(yàn)隨機(jī)選取了500 條ADVANTAGE字段的數(shù)據(jù)進(jìn)行標(biāo)注,并設(shè)置訓(xùn)練集和測試集的比例為8∶2,利用Python3.6.2 版本的keras包實(shí)現(xiàn)BiLSTM- CRF 模型的構(gòu)建。其中,Embedding層輸入的詞向量利用Python3.6.2版本gensim 包中的word2vec 模塊進(jìn)行預(yù)訓(xùn)練,最終得到所有單詞100維的詞向量結(jié)果,如圖2所示。其中,每一行的第一列表示訓(xùn)練的單詞,其余每行的所有列則構(gòu)成該單詞對(duì)應(yīng)的語義向量。
圖2 詞向量訓(xùn)練結(jié)果
為減小神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過擬合的影響,本實(shí)驗(yàn)在BiLSTM 模型兩端各添加1 個(gè)dropout層。對(duì)于BiLSTM層和CRF層,經(jīng)多次訓(xùn)練調(diào)參后,各個(gè)重要參數(shù)說明及設(shè)定值如表8所示。
表8 模型中的主要參數(shù)設(shè)置
圖3 模型訓(xùn)練效果圖
在此基礎(chǔ)上,利用訓(xùn)練好的模型來抽取每個(gè)專利的功效短語。由于模型的輸出是每個(gè)單詞對(duì)應(yīng)的標(biāo)簽,因此,只需要抽取出對(duì)應(yīng)標(biāo)簽為“B”和“I”相鄰的單詞進(jìn)行組合就可以獲得功效短語。去除抽取結(jié)果為空的專利后,共保留4,874條有效數(shù)據(jù),抽取結(jié)果如表9所示。
表9 專利功效短語抽取結(jié)果示例
在進(jìn)行技術(shù)功效關(guān)聯(lián)表示之前,首先需要依據(jù)功效短語中關(guān)系詞和功效詞的識(shí)別規(guī)則,識(shí)別出關(guān)系詞和功效詞,結(jié)果如表10所示。
表10 關(guān)系詞和功效詞識(shí)別結(jié)果示例
結(jié)合這些功效詞和關(guān)系詞,將對(duì)應(yīng)的技術(shù)主題詞與它們一起構(gòu)建“技術(shù)詞-關(guān)系詞-功效詞”三元組結(jié)構(gòu)的技術(shù)功效關(guān)聯(lián),形成技術(shù)實(shí)現(xiàn)路徑。根據(jù)之前每步抽取結(jié)果的ID號(hào),可以直接通過ID將關(guān)系詞和功效詞與對(duì)應(yīng)的技術(shù)主題詞聯(lián)系到一起。由于每個(gè)技術(shù)主題詞可能會(huì)與多個(gè)功效之間存在語義聯(lián)系,因此共得到13,264個(gè)三元組,最終的部分結(jié)果如圖4所示。
圖4 “技術(shù)詞-關(guān)系詞-功效詞”三元組抽取結(jié)果示例
利用word2vec詞向量的線性轉(zhuǎn)化[15],對(duì)所有技術(shù)主題詞和功效詞實(shí)現(xiàn)向量表示。其中,由于每個(gè)專利只有一個(gè)技術(shù)主題,因此,每個(gè)專利ID只對(duì)應(yīng)一個(gè)技術(shù)主題詞向量。同時(shí),由于每個(gè)專利可能有多個(gè)功效短語,因此,同一個(gè)專利ID可能對(duì)應(yīng)多個(gè)功效詞向量?;谶@些向量表示結(jié)果,分別對(duì)技術(shù)主題詞和功效詞計(jì)算兩兩實(shí)體間的余弦相似度來判定該實(shí)體對(duì)是否需要加入候選實(shí)體集進(jìn)行篩選。
由于原始實(shí)體數(shù)據(jù)量較大,計(jì)算兩兩實(shí)體余弦相似度耗時(shí)較久,且對(duì)實(shí)驗(yàn)設(shè)備的性能要求較高,因此本次實(shí)驗(yàn)只選取前500 條專利的三元組技術(shù)實(shí)現(xiàn)路徑進(jìn)行了實(shí)體對(duì)齊。計(jì)算出這500 條專利實(shí)體對(duì)間的相似度后,選取相似度大于0.9的實(shí)體對(duì)加入候選實(shí)體集。技術(shù)主題詞和功效詞的前5 條候選實(shí)體對(duì)統(tǒng)計(jì)結(jié)果如表11所示。可以發(fā)現(xiàn)相似度大于0.9的實(shí)體對(duì)之間語義都是比較相近的,如“Internet-of-things”和“Internet-of-things technology”,“Cloud computing”和“Cloud computing technology”等,因此需要對(duì)這樣的實(shí)體對(duì)進(jìn)行篩選處理。對(duì)于語義相近的實(shí)體對(duì),本次實(shí)驗(yàn)選擇只保留其中的一種表達(dá)方式,并且后續(xù)如果該表達(dá)方式再次出現(xiàn)比較,仍以這一種方式為準(zhǔn)。技術(shù)實(shí)現(xiàn)路徑的具體示例將在后續(xù)的可視化結(jié)果中展示。
表11 候選實(shí)體對(duì)結(jié)果示例
實(shí)體對(duì)齊后,把保留下來的標(biāo)準(zhǔn)技術(shù)實(shí)現(xiàn)路徑中的技術(shù)主題詞和功效詞轉(zhuǎn)化為網(wǎng)絡(luò)節(jié)點(diǎn),并對(duì)每個(gè)三元組的兩個(gè)實(shí)體構(gòu)建連邊,把關(guān)系詞轉(zhuǎn)化為連邊上的屬性,然后再分別導(dǎo)入數(shù)據(jù)庫中,生成可視化的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu),便于路徑信息的即時(shí)更新管理。本文使用Neo4j 數(shù)據(jù)庫來存儲(chǔ)技術(shù)實(shí)現(xiàn)路徑并實(shí)現(xiàn)可視化,結(jié)果如圖5 所示。從圖5 左上方的信息可以看出,畫面中展示出來的網(wǎng)絡(luò)節(jié)點(diǎn)有300 個(gè),關(guān)系詞有78個(gè),并且可以看到具體的節(jié)點(diǎn)信息以及它們的數(shù)量。由于本次實(shí)驗(yàn)只對(duì)500條實(shí)體對(duì)齊后的專利進(jìn)行了網(wǎng)絡(luò)節(jié)點(diǎn)和邊轉(zhuǎn)化并導(dǎo)入數(shù)據(jù)庫用以說明可行性,因此實(shí)際的技術(shù)詞和功效詞實(shí)體只有1,283個(gè),關(guān)系有997個(gè)。
如果需要查看某個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)及其關(guān)聯(lián)的所有節(jié)點(diǎn)和關(guān)系,可以直接點(diǎn)擊該節(jié)點(diǎn);如果需要查詢與某個(gè)節(jié)點(diǎn)直接相關(guān)的所有路徑信息,則可以利用Neo4j的查詢語言Cypher 實(shí)現(xiàn)。以具體功效中傳輸延遲的技術(shù)實(shí)現(xiàn)路徑為例,可以利用“MATCH(n:‘transmission latency’) RETURN n”查詢語句實(shí)現(xiàn),查詢結(jié)果如圖6所示。由于實(shí)驗(yàn)數(shù)據(jù)有限,只查詢到了一條技術(shù)實(shí)現(xiàn)路徑,在圖6中顯示為紫色節(jié)點(diǎn)到紅色節(jié)點(diǎn)的有向路徑,即通過云服務(wù)(Cloud service)技術(shù)可以減少通信傳輸延遲的問題。 與此同時(shí), 點(diǎn)擊“Cloud service”節(jié)點(diǎn)還可以發(fā)現(xiàn)與該技術(shù)主題詞相關(guān)聯(lián)的其他所有路徑信息,在圖6 中顯示為紫色節(jié)點(diǎn)與藍(lán)色節(jié)點(diǎn)的連接路徑,比如利用云服務(wù)技術(shù)可以提高無線電資源的利用(radio resource utilization)等。
此外,基于該數(shù)據(jù)庫還能夠?qū)崿F(xiàn)節(jié)點(diǎn)和連邊及屬性的增刪改等更新管理操作。由于專利數(shù)據(jù)是不斷更新的,面對(duì)研究領(lǐng)域內(nèi)新出現(xiàn)的專利,可以通過同樣的流程與方法抽取出技術(shù)詞、關(guān)系詞和功效詞,然后通過Cypher 語句直接建立新的網(wǎng)絡(luò)節(jié)點(diǎn)與關(guān)系,完成技術(shù)實(shí)現(xiàn)路徑信息的即時(shí)更新與管理。
圖5 技術(shù)實(shí)現(xiàn)路徑圖譜展示結(jié)果
圖6 技術(shù)實(shí)現(xiàn)路徑查詢結(jié)果展示
本文探討了基于技術(shù)功效關(guān)聯(lián)的技術(shù)實(shí)現(xiàn)路徑構(gòu)建方法,并用5G 技術(shù)作為實(shí)證進(jìn)行研究,驗(yàn)證了該方法的可行性和有效性。通過利用不同的信息抽取方法自動(dòng)抽取和識(shí)別技術(shù)主題詞、功效詞以及揭示兩者間語義關(guān)聯(lián)的關(guān)系詞來構(gòu)建“技術(shù)詞—關(guān)系詞—功效詞”三元組結(jié)構(gòu)的技術(shù)實(shí)現(xiàn)路徑,可以減少人工參與的過程,省時(shí)省力。在此基礎(chǔ)上,以知識(shí)網(wǎng)絡(luò)的形式將技術(shù)實(shí)現(xiàn)路徑進(jìn)行存儲(chǔ)和可視化,既可以支持不同技術(shù)實(shí)現(xiàn)路徑間的比較和關(guān)聯(lián)分析,也可以支持后續(xù)技術(shù)實(shí)現(xiàn)路徑的隨時(shí)更新與管理,方便普通用戶的理解和使用。
本文為技術(shù)實(shí)現(xiàn)路徑自動(dòng)構(gòu)建研究提供了新的思路和方法,但由于是初步探索,在許多方面還需要進(jìn)一步研究。首先,本文僅選取了5G專利進(jìn)行了實(shí)證研究,其中技術(shù)主題詞抽取所使用的某些規(guī)則具有特定適用性,在未來研究不同的技術(shù)專利時(shí),需要對(duì)規(guī)則進(jìn)行一定的調(diào)整;其次,當(dāng)前構(gòu)建的技術(shù)實(shí)現(xiàn)路徑只是一個(gè)簡單的技術(shù)主題到實(shí)現(xiàn)功效的三元組路徑,對(duì)于具體怎樣實(shí)現(xiàn)某個(gè)功效,未來還需要更多的技術(shù)細(xì)節(jié)支撐。因此,在以后的研究中可以針對(duì)不同專利數(shù)據(jù)靈活調(diào)整或選擇不同的信息抽取方法,并抽取更多的技術(shù)細(xì)節(jié)信息加入到技術(shù)實(shí)現(xiàn)路徑的構(gòu)建中,為技術(shù)實(shí)現(xiàn)路徑構(gòu)建提供更為完整全面的技術(shù)支持信息,支撐管理決策。