謝小東 吳 潔 盛永祥 王建剛 周 瀟
(江蘇科技大學(xué)經(jīng)濟(jì)管理學(xué)院 鎮(zhèn)江 212003)
當(dāng)今科學(xué)技術(shù)演化最普遍的趨勢(shì)之一是所有領(lǐng)域研究團(tuán)隊(duì)規(guī)模的擴(kuò)大和跨組織合作的增加,現(xiàn)代科學(xué)問(wèn)題的復(fù)雜性往往需要跨學(xué)科、跨領(lǐng)域的解決方案[1]。不同領(lǐng)域之間的交叉融合愈趨頻繁和密集,從個(gè)人、團(tuán)隊(duì)、機(jī)構(gòu)、地區(qū)到國(guó)家等各種層面的科研合作形式不斷涌現(xiàn)[2]。科研合作通過(guò)知識(shí)、經(jīng)驗(yàn)、資源全方位共享,不僅幫助研究者分擔(dān)科研任務(wù)、減少重復(fù)勞動(dòng)、提高研究效率,還能提高研究的創(chuàng)新性和深度。然而,科學(xué)技術(shù)的快速發(fā)展,意味著大量技術(shù)的不斷產(chǎn)生與更替,科研人員尤其是發(fā)明人如何在大的行業(yè)范圍內(nèi)縮小查找范圍,快速定位潛在合作伙伴及跨領(lǐng)域合作伙伴的問(wèn)題亟待解決。
現(xiàn)階段關(guān)于合作伙伴選擇的研究主要分為兩類:一類是利用網(wǎng)絡(luò)分析方法研究合作網(wǎng)絡(luò)的靜態(tài)特征和動(dòng)態(tài)特性,在此基礎(chǔ)上主要使用復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測(cè)方法研究可能發(fā)生的科研合作關(guān)系;另一類是利用機(jī)器學(xué)習(xí)算法將多指標(biāo)集成來(lái)提高推薦精度。但上述兩類方法均有其局限性,復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測(cè)算法主要基于節(jié)點(diǎn)相似性的鏈路預(yù)測(cè)指標(biāo),且推薦成功率依賴網(wǎng)絡(luò)本身的拓?fù)浣Y(jié)構(gòu),方法適用性較差,機(jī)器學(xué)習(xí)中的集成算法雖然可以利用節(jié)點(diǎn)屬性特征,但其往往計(jì)算復(fù)雜性較高,忽略了圖結(jié)構(gòu)特征的利用。
現(xiàn)有研究在尋找潛在合作伙伴時(shí)主要考慮了節(jié)點(diǎn)的局部信息,但沒(méi)有充分利用節(jié)點(diǎn)的全局信息和節(jié)點(diǎn)特征,且研究主要集中于合作伙伴選擇研究,鮮有研究針對(duì)跨領(lǐng)域合作伙伴展開(kāi)。因此本文基于發(fā)明人專利數(shù)據(jù)從合作關(guān)系特征、摘要文本特征、領(lǐng)域信息特征三個(gè)維度視角下綜合考慮發(fā)明人特征信息,提出基于圖卷積網(wǎng)絡(luò)的發(fā)明人跨領(lǐng)域合作伙伴識(shí)別方法,綜合利用發(fā)明人之間合作網(wǎng)絡(luò)結(jié)構(gòu)特征和發(fā)明人自身節(jié)點(diǎn)屬性特征,將現(xiàn)實(shí)復(fù)雜的發(fā)明人潛在合作伙伴選擇問(wèn)題轉(zhuǎn)化為適合圖卷積網(wǎng)絡(luò)工作模式的鏈路預(yù)測(cè)任務(wù)。在此基礎(chǔ)上,本文構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準(zhǔn)確識(shí)別出發(fā)明人跨領(lǐng)域合作伙伴。本文所構(gòu)建方法不僅可以提高潛在合作伙伴尋找的效率和準(zhǔn)確性,而且通過(guò)挖掘合作網(wǎng)絡(luò)中的節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu),可以充分學(xué)習(xí)發(fā)明人之間的合作模式。最終,通過(guò)識(shí)別具有跨領(lǐng)域研究方向的合作伙伴,有助于促進(jìn)不同領(lǐng)域之間的交叉合作和知識(shí)轉(zhuǎn)移,創(chuàng)造出更具創(chuàng)新性和前瞻性的成果。
科研合作是科研網(wǎng)絡(luò)中重要的組成部分,被研究者定義為“科研人員之間為完成同一科研任務(wù)而彼此按照計(jì)劃協(xié)同合作的勞動(dòng)形態(tài)”[3]。隨著科學(xué)技術(shù)爆炸式發(fā)展,針對(duì)科研合作的研究也逐漸成為計(jì)量學(xué)等領(lǐng)域的研究熱點(diǎn)。Newman等[4]最早利用網(wǎng)絡(luò)分析方法研究合作關(guān)系,結(jié)合靜態(tài)網(wǎng)絡(luò)的特征研究科研合作網(wǎng)絡(luò)的結(jié)構(gòu)特征和合作網(wǎng)絡(luò)中具有影響力的節(jié)點(diǎn)。在此基礎(chǔ)上,部分學(xué)者[5-6]通過(guò)科研合作網(wǎng)絡(luò)的動(dòng)態(tài)特性研究科研人員產(chǎn)生合作關(guān)系的原因及演化過(guò)程中所呈現(xiàn)的規(guī)律。
現(xiàn)階段學(xué)者針對(duì)科研合作網(wǎng)絡(luò)的研究偏重于預(yù)測(cè)合作網(wǎng)絡(luò)中的潛在合作關(guān)系,其研究大致分為兩類,一類是利用復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測(cè)方法分析現(xiàn)有合作網(wǎng)絡(luò)中尚未產(chǎn)生連邊的節(jié)點(diǎn)在未來(lái)產(chǎn)生鏈接的可能性,主要研究方法有基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相似性、基于網(wǎng)絡(luò)結(jié)構(gòu)的最大似然估計(jì)和利用概率模型三種[2, 7]?,F(xiàn)有的鏈路預(yù)測(cè)方法大多是基于節(jié)點(diǎn)相似性的鏈路預(yù)測(cè)指標(biāo),針對(duì)單一指標(biāo)或者簡(jiǎn)單對(duì)指標(biāo)進(jìn)行線性加權(quán),這類方法往往效果較差,主要原因是單一指標(biāo)涵蓋的信息并不全面,且鏈路預(yù)測(cè)方法推薦成功率依賴網(wǎng)絡(luò)本身的拓?fù)浣Y(jié)構(gòu),方法適用性較差。另一類方法是利用機(jī)器學(xué)習(xí)算法集成多個(gè)指標(biāo)對(duì)問(wèn)題進(jìn)行系統(tǒng)研究[8]。Guns等[9]將鏈路預(yù)測(cè)和機(jī)器學(xué)習(xí)方法進(jìn)行組合對(duì)城市間科研合作進(jìn)行研究,相較于單個(gè)鏈路預(yù)測(cè)指標(biāo)的方法其推薦精度得到大幅提高。但這一類機(jī)器學(xué)習(xí)算法雖然可以綜合利用多個(gè)節(jié)點(diǎn)屬性特征,但其往往計(jì)算復(fù)雜性較高,忽略了圖結(jié)構(gòu)特征的利用,其適用范圍也偏窄。
近年,深度學(xué)習(xí)越來(lái)越廣泛地應(yīng)用在各個(gè)學(xué)術(shù)領(lǐng)域,其與鏈路預(yù)測(cè)結(jié)合的思路已經(jīng)開(kāi)始有人關(guān)注[10]。隨著深度學(xué)習(xí)模型的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等方面的應(yīng)用中取得了可觀成績(jī),越來(lái)越多的學(xué)者將神經(jīng)網(wǎng)絡(luò)的理論與技術(shù)應(yīng)用到網(wǎng)絡(luò)中,圖神經(jīng)網(wǎng)絡(luò)的研究也隨之興起[11-12]。2017年,圖卷積網(wǎng)絡(luò)模型(GCN)被提出,并且在學(xué)習(xí)圖表征方面表現(xiàn)出強(qiáng)大的表示能力,在以知識(shí)圖譜[13-14]、推薦系統(tǒng)[15-16]、文本分類[17-18]為代表的廣泛的任務(wù)和應(yīng)用中表現(xiàn)出了卓越的性能。在過(guò)去的幾年里,許多其他類型的圖神經(jīng)網(wǎng)絡(luò)已經(jīng)被提出,如圖自動(dòng)編碼器、圖生成模型、圖注意模型,以及圖遞歸神經(jīng)網(wǎng)絡(luò)。除了對(duì)節(jié)點(diǎn)的特征表示進(jìn)行學(xué)習(xí)外,學(xué)者開(kāi)始使用圖神經(jīng)學(xué)習(xí)對(duì)整個(gè)圖結(jié)構(gòu)的表示,將圖表示為一個(gè)特征向量,從而分析不同圖結(jié)構(gòu)的異同。
針對(duì)現(xiàn)有合作伙伴推薦模型存在的不足,本文將鏈路預(yù)測(cè)與深度學(xué)習(xí)方法相結(jié)合,提出了一種基于圖卷積網(wǎng)絡(luò)的發(fā)明人跨領(lǐng)域合作伙伴識(shí)別方法,這種方法的主要思想是利用GCN來(lái)綜合學(xué)習(xí)節(jié)點(diǎn)網(wǎng)絡(luò)之間的互動(dòng)關(guān)系以及節(jié)點(diǎn)自身的屬性信息,然后基于特征學(xué)習(xí)來(lái)預(yù)測(cè)節(jié)點(diǎn)間的鏈接。該方法不僅考慮了節(jié)點(diǎn)的局部信息,還考慮了節(jié)點(diǎn)的全局信息和節(jié)點(diǎn)特征,能夠更好地捕捉到節(jié)點(diǎn)的復(fù)雜關(guān)系,從而提高潛在合作伙伴尋找的效率和準(zhǔn)確性。
本文從發(fā)明人專利信息中的合作關(guān)系特征、摘要文本特征、領(lǐng)域信息特征三個(gè)維度視角下構(gòu)建發(fā)明人合作網(wǎng)絡(luò),提出基于圖卷積網(wǎng)絡(luò)的發(fā)明人跨領(lǐng)域合作伙伴識(shí)別方法,將現(xiàn)實(shí)復(fù)雜的發(fā)明人潛在合作伙伴選擇問(wèn)題轉(zhuǎn)化為適合圖卷積網(wǎng)絡(luò)工作模式的鏈路預(yù)測(cè)任務(wù)。如圖1所示,從發(fā)明人專利信息中提取發(fā)明人之間的合作信息,構(gòu)建發(fā)明人合作網(wǎng)絡(luò),提取發(fā)明人專利摘要信息和領(lǐng)域信息構(gòu)造發(fā)明人節(jié)點(diǎn)的節(jié)點(diǎn)特征。接著,將所構(gòu)建的發(fā)明人合作網(wǎng)絡(luò)和發(fā)明人節(jié)點(diǎn)特征輸入圖卷積網(wǎng)絡(luò),訓(xùn)練圖卷積網(wǎng)絡(luò)之后利用鏈路預(yù)測(cè)思想預(yù)測(cè)發(fā)明人的潛在合作伙伴。在此基礎(chǔ)上,構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準(zhǔn)確識(shí)別出發(fā)明人跨領(lǐng)域合作伙伴,為發(fā)明人在現(xiàn)實(shí)中展開(kāi)合作提供參考。
圖1 發(fā)明人跨領(lǐng)域合作伙伴識(shí)別方法框架
2.1.1合作維度特征
本文抽取專利信息中的發(fā)明人共現(xiàn)信息作為發(fā)明人之間的現(xiàn)實(shí)合作關(guān)系,首先從專利數(shù)據(jù)庫(kù)中抽取某一領(lǐng)域的專利信息,剔除其中只存在單一發(fā)明人的專利信息,提取剩余專利的發(fā)明人信息以及他們的合作關(guān)系。在此基礎(chǔ)上構(gòu)建發(fā)明人合作網(wǎng)絡(luò),合作網(wǎng)絡(luò)的節(jié)點(diǎn)為發(fā)明人,邊為發(fā)明人之間的合作關(guān)系。具體來(lái)說(shuō),如果兩個(gè)發(fā)明人在一項(xiàng)專利中有過(guò)合作,那么就在他們之間添加一條邊,邊的權(quán)重為發(fā)明人之間的實(shí)際合作次數(shù)。為適應(yīng)圖卷積網(wǎng)絡(luò)的輸入形式,將上述發(fā)明人合作網(wǎng)絡(luò)構(gòu)建成一個(gè)鄰接矩陣,如公式(1)所示。
(1)
合作網(wǎng)絡(luò)的鄰接矩陣是一個(gè)二維矩陣,其大小是n×n,其中n表示發(fā)明人的數(shù)量。鄰接矩陣的元素Aij的取值為發(fā)明人之間的實(shí)際合作次數(shù)。
2.1.2摘要文本特征
本文以專利摘要文本數(shù)據(jù)為研究對(duì)象,首先將專利的摘要文本信息進(jìn)行分詞、去除停用詞等預(yù)處理,使用預(yù)訓(xùn)練的詞嵌入模型Doc2Vec將每篇專利轉(zhuǎn)化為向量表示。Doc2Vec是一種能夠理解文本語(yǔ)義的文檔嵌入方法,它可以將每篇專利摘要映射到一個(gè)固定長(zhǎng)度的連續(xù)向量,這個(gè)向量可以捕捉到專利摘要的語(yǔ)義信息[19]。在處理發(fā)明人摘要文本維度特征時(shí),存在發(fā)明人專利數(shù)量不一致的情況,因此本文在將發(fā)明人的摘要文本維度特征匯總時(shí)使用平均匯總方法,即對(duì)于每一位發(fā)明人,我們將其所有專利摘要的向量表示進(jìn)行平均,以此得到發(fā)明人的整體摘要文本特征。具體來(lái)說(shuō),如果一位發(fā)明人有n篇專利摘要,那么其整體摘要文本特征可以由這n個(gè)向量的平均值來(lái)表示。
2.1.3領(lǐng)域維度特征
本文以專利IPC數(shù)據(jù)為研究對(duì)象,考慮構(gòu)建IPC維度特征矩陣的稀疏度,使用IPC大組信息表征細(xì)分技術(shù)領(lǐng)域。由于IPC分類的標(biāo)簽是字母和數(shù)字的組合,為方便在計(jì)算過(guò)程中使用IPC分布信息,同時(shí)為體現(xiàn)IPC分布的領(lǐng)域特征,本文考慮將IPC分類進(jìn)行獨(dú)熱編碼,即將每個(gè)IPC分類都賦予一個(gè)獨(dú)特的維度。其次,計(jì)算每位發(fā)明人在各個(gè)IPC類別中的專利數(shù)量,形成每個(gè)發(fā)明人的IPC分布向量。為了消除發(fā)明人專利數(shù)量的影響,對(duì)IPC分布特征進(jìn)行標(biāo)準(zhǔn)化。具體來(lái)說(shuō),即將發(fā)明人的IPC分布向量除以他們的總專利數(shù)量,得到每個(gè)IPC分類中的專利占比[20]。最終得到的發(fā)明人IPC分布向量表征發(fā)明人的領(lǐng)域分布特征,這樣圖卷積網(wǎng)絡(luò)可以在學(xué)習(xí)節(jié)點(diǎn)特征和邊的同時(shí),讓模型在學(xué)習(xí)過(guò)程中充分利用領(lǐng)域分布信息來(lái)進(jìn)行領(lǐng)域特征的學(xué)習(xí)和傳遞,也學(xué)習(xí)到發(fā)明人之間合作的模式。
2.1.4發(fā)明人節(jié)點(diǎn)特征
在獲取發(fā)明人摘要文本特征和領(lǐng)域分布特征的基礎(chǔ)上,進(jìn)一步將其融合為發(fā)明人節(jié)點(diǎn)特征。在圖卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程中將發(fā)明人節(jié)點(diǎn)特征嵌入發(fā)明人節(jié)點(diǎn),使得圖卷積網(wǎng)絡(luò)可同時(shí)學(xué)習(xí)發(fā)明人節(jié)點(diǎn)在網(wǎng)絡(luò)中的結(jié)構(gòu)化拓?fù)湫畔⑴c發(fā)明人節(jié)點(diǎn)特征構(gòu)成的自身屬性信息。
將代表發(fā)明人研究領(lǐng)域分布的專利IPC分布矩陣與代表發(fā)明人研究主題分布的發(fā)明人摘要文本信息節(jié)點(diǎn)嵌入向量融合成發(fā)明人節(jié)點(diǎn)特征矩陣,過(guò)程如圖2所示。
圖2 發(fā)明人節(jié)點(diǎn)特征構(gòu)建圖
(2)
其中,n表示發(fā)明人數(shù)量,i、j表示各維度特征向量的維度數(shù)量。
發(fā)明人潛在合作伙伴識(shí)別基于上述發(fā)明人合作特征、發(fā)明人摘要文本特征和發(fā)明人領(lǐng)域分布特征,使用圖卷積網(wǎng)絡(luò)算法(Graph Convolutional networks,GCN)[21]完成,具體步驟為:
b.將發(fā)明人節(jié)點(diǎn)信息矩陣Xn×(i+j)作為發(fā)明人合作網(wǎng)絡(luò)的節(jié)點(diǎn)屬性特征。
c.圖卷積網(wǎng)絡(luò)訓(xùn)練時(shí)將一部分邊作為訓(xùn)練邊,剩余的邊作為測(cè)試邊,模型在訓(xùn)練過(guò)程中只使用訓(xùn)練邊進(jìn)行參數(shù)更新,并計(jì)算重構(gòu)損失(reconstruction loss),即模型重建訓(xùn)練邊的能力。模型通過(guò)優(yōu)化重構(gòu)損失來(lái)學(xué)習(xí)節(jié)點(diǎn)的表示,最后利用學(xué)習(xí)到的節(jié)點(diǎn)表示計(jì)算鏈路預(yù)測(cè)結(jié)果。
d.圖卷積網(wǎng)絡(luò)的運(yùn)算過(guò)程如式(3)所示[12, 22]。
(3)
e.經(jīng)過(guò)多層卷積網(wǎng)絡(luò)操作,得到經(jīng)過(guò)網(wǎng)絡(luò)處理后的節(jié)點(diǎn)特征矩陣X,使用GAE(Graph Autoencoder)作為解碼器進(jìn)行鏈路預(yù)測(cè),運(yùn)算過(guò)程如式(4)所示[23]。
(4)
f.根據(jù)鏈路預(yù)測(cè)結(jié)果,識(shí)別發(fā)明人之間的潛在合作關(guān)系,并進(jìn)行可視化展示。
在現(xiàn)今日益復(fù)雜和多元化的科研環(huán)境下,隨著科學(xué)知識(shí)的積累和技術(shù)的發(fā)展,單一領(lǐng)域的知識(shí)往往無(wú)法滿足解決復(fù)雜問(wèn)題的需求,尋找跨領(lǐng)域合作伙伴可以獲得更廣泛的知識(shí)和更深入的專業(yè)理解,從而在問(wèn)題解決中取得更大的突破。尋找跨領(lǐng)域合作伙伴是推動(dòng)創(chuàng)新的重要驅(qū)動(dòng)力,尋找跨領(lǐng)域合作伙伴不僅可以促進(jìn)科研和技術(shù)的發(fā)展,也可以幫助研發(fā)人員更好地理解和應(yīng)對(duì)社會(huì)問(wèn)題。這種合作有助于科研領(lǐng)域與社會(huì)的整合,提高科研的社會(huì)價(jià)值。
因此,結(jié)合發(fā)明人的細(xì)分技術(shù)領(lǐng)域的差異性和現(xiàn)實(shí)背景中關(guān)于跨領(lǐng)域合作伙伴尋找的迫切需要,本文進(jìn)一步深化識(shí)別潛在合作伙伴與目標(biāo)發(fā)明人是屬于同領(lǐng)域還是屬于跨領(lǐng)域,從深層次維度上進(jìn)一步挖掘潛在合作伙伴關(guān)系,期待為合作伙伴之間的合作創(chuàng)新模式與規(guī)律提供借鑒。
在識(shí)別潛在合作伙伴與目標(biāo)發(fā)明人之間的領(lǐng)域歸屬問(wèn)題時(shí),往往存在發(fā)明人有較多專利或者發(fā)明人的領(lǐng)域分布比較復(fù)雜的情況,這時(shí)發(fā)明人之間是否屬于跨領(lǐng)域合作創(chuàng)新往往不能一目了然,借助本文提出的同領(lǐng)域指數(shù)I和跨領(lǐng)域指數(shù)S予以輔助判斷,可較為清晰地判別。
本文以發(fā)明人的專利IPC信息表征發(fā)明人的領(lǐng)域信息,發(fā)明人之間的同領(lǐng)域指數(shù)I,如公式(5)所示[24]。
(5)
式中,N表示專利數(shù)量,N(A∩B)表示發(fā)明人A和發(fā)明人B共同擁有的IPC對(duì)應(yīng)的專利數(shù)量,N(A∪B)表示發(fā)明人A和發(fā)明人B的專利總量。當(dāng)兩個(gè)發(fā)明人的同領(lǐng)域指數(shù)I較大時(shí),表明兩個(gè)發(fā)明人之間的合作屬于同領(lǐng)域加強(qiáng)型合作,當(dāng)同領(lǐng)域指標(biāo)較小時(shí),表明發(fā)明人之間領(lǐng)域差異較大,但是否屬于跨領(lǐng)域仍需進(jìn)一步界定。
在此基礎(chǔ)上本文提出跨領(lǐng)域指標(biāo)I判斷兩個(gè)發(fā)明人之間是否是屬于跨領(lǐng)域合作關(guān)系,具體公式如公式(6)所示。
(6)
式中,N(A)-N(A∩B|A)表示發(fā)明人A擁有但發(fā)明人B沒(méi)有的IPC對(duì)應(yīng)的專利數(shù)量,N(A∪B)表示發(fā)明人A與B的專利總量。相對(duì)于雙方來(lái)說(shuō),發(fā)明人A擁有的發(fā)明人B沒(méi)有的IPC對(duì)應(yīng)的比例越大,相較于發(fā)明人B,發(fā)明人A技術(shù)的跨領(lǐng)域程度越大,則兩人在合作中產(chǎn)生跨領(lǐng)域、顛覆性創(chuàng)新的程度越大。因此,在兩個(gè)發(fā)明人同領(lǐng)域指數(shù)較低的情況下,若發(fā)明人A相較于發(fā)明人B的跨領(lǐng)域指數(shù)較大,則說(shuō)明發(fā)明人B在與發(fā)明人A合作時(shí)產(chǎn)生跨領(lǐng)域顛覆性創(chuàng)新的可能性較大,其合作創(chuàng)新相較于同領(lǐng)域增強(qiáng)型創(chuàng)新往往能產(chǎn)生更大的突破。
現(xiàn)階段,隨著全球環(huán)境壓力的日益增加和可持續(xù)能源需求的迅速增長(zhǎng),圍繞氫燃料電池的科研活動(dòng)成為了焦點(diǎn)。氫燃料電池作為一種能夠轉(zhuǎn)化氫能為電能的清潔技術(shù),具有零碳排放、能量轉(zhuǎn)化效率高、能源存儲(chǔ)容量大等優(yōu)勢(shì),為解決全球能源問(wèn)題提供了一種可能的解決方案。然而,實(shí)現(xiàn)氫燃料電池技術(shù)的突破和廣泛應(yīng)用,依賴于各領(lǐng)域科研人員的深度合作和跨領(lǐng)域知識(shí)的整合。從科研合作的角度來(lái)看,尋找氫燃料電池領(lǐng)域發(fā)明人的潛在合作伙伴及跨領(lǐng)域合作伙伴顯得尤為重要。
本文實(shí)證階段所用專利樣本數(shù)據(jù)來(lái)自Incopat全球?qū)@麛?shù)據(jù)庫(kù),選取氫燃料電池作為本文的實(shí)證方向。提取發(fā)明人專利的合作信息作為網(wǎng)絡(luò)連邊的特征來(lái)源,提取專利的摘要文本信息作為專利摘要文本特征來(lái)源,提取專利的IPC分類號(hào)作為專利的領(lǐng)域特征來(lái)源。檢索條件為:關(guān)鍵詞為“氫燃料電池”AND時(shí)間=“截止到2023年5月”AND申請(qǐng)地區(qū)=“中國(guó)”AND專利類型=“發(fā)明專利”,合并同族后得到3 024條專利族作為本文的數(shù)據(jù)研究基礎(chǔ)。
3.2.1合作網(wǎng)絡(luò)連邊特征
在獲取專利信息后,提取專利信息中的發(fā)明人信息作為構(gòu)建發(fā)明人合作網(wǎng)絡(luò)的依據(jù),本文在發(fā)明人合作維度特征提取階段對(duì)數(shù)據(jù)的處理包括以下幾個(gè)方面:
a.將發(fā)明人之間的共現(xiàn)關(guān)系作為發(fā)明人之間的合作信息,即發(fā)明人A和發(fā)明人B共同出現(xiàn)于專利文獻(xiàn)C中,即代表發(fā)明人A和發(fā)明人B之間產(chǎn)生一次合作,則將發(fā)明人A和發(fā)明人B之間構(gòu)建一條連邊,合作的次數(shù)即連邊的權(quán)重。
b.為適應(yīng)圖卷積網(wǎng)絡(luò)的輸入需要,構(gòu)建發(fā)明人合作網(wǎng)絡(luò)的鄰接矩陣,該鄰接矩陣是一個(gè)對(duì)稱矩陣,矩陣的邊是發(fā)明人,矩陣中的值是發(fā)明人合作的權(quán)重,即發(fā)明人之間合作的次數(shù)。由于本文專利數(shù)據(jù)涉及到的發(fā)明人眾多,為便于展示,部分鄰接矩陣展示如下(見(jiàn)表1):
表1 鄰接矩陣表(部分)
c.由于本文選取數(shù)據(jù)涉及發(fā)明人眾多,鄰接矩陣的展示效果不佳,綜合考慮發(fā)明人合作次數(shù)和可視化效果,本文僅選取合作次數(shù)在5次以上的85位發(fā)明人作為節(jié)點(diǎn)構(gòu)建發(fā)明人合作信息網(wǎng)絡(luò),具體網(wǎng)絡(luò)如圖3所示。
圖3 發(fā)明人合作網(wǎng)絡(luò)
圖3為85個(gè)節(jié)點(diǎn)和111條連邊構(gòu)成的發(fā)明人合作網(wǎng)絡(luò),圖中節(jié)點(diǎn)的大小表征了節(jié)點(diǎn)度的大小,即與該節(jié)點(diǎn)相連的邊的數(shù)量,亦可表征該節(jié)點(diǎn)在合作網(wǎng)絡(luò)中的重要性,從圖中可以看出,郝義國(guó)、張妍懿、郝冬等發(fā)明人的節(jié)點(diǎn)度較大,說(shuō)明這幾個(gè)發(fā)明人是發(fā)明人合作網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn),即這幾個(gè)發(fā)明人與他人合作次數(shù)較多,合作的可能性較大,是我們?cè)趯?shí)際合作中需要重點(diǎn)關(guān)注的對(duì)象。圖中連邊的粗細(xì)代表了發(fā)明人之間的合作次數(shù),郝義國(guó)、陳華明、程飛、安元元、余紅霞等人之間的連邊較粗,說(shuō)明這幾個(gè)發(fā)明人在現(xiàn)實(shí)中存在較為緊密的合作關(guān)系,但也有部分發(fā)明人,如杜謙和胡玉鳳僅兩人之間產(chǎn)生連邊,未和其他發(fā)明人產(chǎn)生連邊,說(shuō)明這兩個(gè)發(fā)明人在現(xiàn)實(shí)中存在緊密的團(tuán)隊(duì)合作關(guān)系,但其與其他發(fā)明人的潛在合作關(guān)系是本文的研究重點(diǎn)。
3.2.2合作網(wǎng)絡(luò)節(jié)點(diǎn)屬性特征
在提取合作網(wǎng)絡(luò)節(jié)點(diǎn)屬性時(shí)主要包括三個(gè)步驟,即摘要文本特征提取,領(lǐng)域分布特征提取和節(jié)點(diǎn)屬性特征構(gòu)建,具體操作步驟如下所示:
a.摘要文本特征提取。在發(fā)明人摘要文本特征提取階段,我們利用Doc2vec算法從專利摘要文本中提取出高維度的特征信息。首先對(duì)專利摘要進(jìn)行預(yù)處理,在清洗階段,移除摘要中的標(biāo)點(diǎn)符號(hào)、數(shù)字和停用詞,再使用jieba庫(kù)將每個(gè)摘要分解為單獨(dú)的詞語(yǔ),然后將所有預(yù)處理過(guò)的專利摘要作為語(yǔ)料庫(kù),最后使用語(yǔ)料庫(kù)來(lái)訓(xùn)練Doc2Vec模型。在訓(xùn)練過(guò)程中,設(shè)置了128維的向量大小來(lái)代表每個(gè)文檔的高維度特征,同時(shí)通過(guò)調(diào)整訓(xùn)練的參數(shù),以優(yōu)化模型的訓(xùn)練效果。最終使用每個(gè)發(fā)明人所有摘要文本向量的平均值表征該發(fā)明人的摘要文本特征。
b.領(lǐng)域分布特征提取。選用專利數(shù)據(jù)中涉及到的IPC大組(共計(jì)133個(gè))為細(xì)分技術(shù)領(lǐng)域,用涉及到的133個(gè)細(xì)分技術(shù)領(lǐng)域表征整個(gè)氫燃料電池技術(shù)領(lǐng)域,以細(xì)分技術(shù)領(lǐng)域?yàn)橄蛄靠臻g維度,統(tǒng)計(jì)每個(gè)發(fā)明人專利的領(lǐng)域分布情況,作為發(fā)明人的領(lǐng)域分布特征。為了消除發(fā)明人專利數(shù)量的影響,對(duì)領(lǐng)域分布特征進(jìn)行標(biāo)準(zhǔn)化。其中,發(fā)明人專利中涉及較多的IPC大組如表2所示。
表2 IPC大組TOP10
c.發(fā)明人數(shù)字特征構(gòu)建階段。將發(fā)明人摘要文本特征和領(lǐng)域分布特征融合成發(fā)明人節(jié)點(diǎn)屬性特征,在圖卷積網(wǎng)絡(luò)訓(xùn)練前將發(fā)明人節(jié)點(diǎn)屬性特征與合作關(guān)系網(wǎng)絡(luò)一起輸入圖卷積網(wǎng)絡(luò)[25]。構(gòu)建的網(wǎng)絡(luò)基本信息如表3所示。
表3 網(wǎng)絡(luò)基本信息
3.3.1模型性能評(píng)估
模型有效性的驗(yàn)證通常基于預(yù)測(cè)的準(zhǔn)確性。在鏈路預(yù)測(cè)任務(wù)中,常用的評(píng)估指標(biāo)有AUC(Area Under the Curve)和AP(Average Precision)。
(7)
其中,TPR(f)為真正例率,FPR(f)為假正例率。
(8)
其中,P(k)表示在前k個(gè)預(yù)測(cè)中的精確率,rel(k)表示第k個(gè)預(yù)測(cè)是否是正樣本,n表示總預(yù)測(cè)數(shù),numpos表示正樣本的數(shù)量。
實(shí)驗(yàn)①:使用不同維度特征訓(xùn)練的圖卷積網(wǎng)絡(luò)的潛在發(fā)明人自動(dòng)識(shí)別性能對(duì)比
本文通過(guò)對(duì)比實(shí)驗(yàn),采用摘要文本特征和合作關(guān)系特征聯(lián)用的圖卷積網(wǎng)絡(luò)與僅使用合作關(guān)系特征的模型性能對(duì)比判別摘要文本特征是否能顯著提高模型性能,同理,采用領(lǐng)域分布特征和合作關(guān)系特征聯(lián)用的圖卷積網(wǎng)絡(luò)與僅使用合作關(guān)系特征的模型性能對(duì)比判別領(lǐng)域分布特征是否能顯著提高模型性能,最后采用合作關(guān)系特征、摘要文本特征和領(lǐng)域分布特征聯(lián)用判別三維特征聯(lián)用是否能顯著提高模型準(zhǔn)確性,不同維度特征的輸入對(duì)圖卷積網(wǎng)絡(luò)潛在發(fā)明人自動(dòng)識(shí)別性能的影響如表4所示。
表4 輸入不同維度特征的圖卷積網(wǎng)絡(luò)性能
從表4可知,僅使用合作信息特征的模型AUC值和AP值分別為0.62和0.61,模型在識(shí)別發(fā)明人潛在合作伙伴時(shí)的效果并不好;在添加摘要文本特征后,模型的AUC值和AP值分別為0.75和0.69,在添加領(lǐng)域分布特征后,模型的AUC值和AP值分別為0.73和0.72,說(shuō)明這兩個(gè)維度特征加入對(duì)模型準(zhǔn)確性有顯著的提高;在使用合作信息維度特征、摘要文本特征和領(lǐng)域分布特征之后,模型的AUC值和AP值分別達(dá)到0.81和0.80,說(shuō)明三個(gè)維度特征的聯(lián)用相比單個(gè)維度特征或者兩個(gè)維度特征的使用對(duì)模型的性能有顯著的提高。
實(shí)驗(yàn)②:現(xiàn)有研究模型與本文所提模型的潛在發(fā)明人自動(dòng)識(shí)別性能對(duì)比
本文在實(shí)驗(yàn)過(guò)程中也應(yīng)用支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)三種算法完成發(fā)明人潛在合作伙伴自動(dòng)識(shí)別,將發(fā)明人潛在合作伙伴自動(dòng)識(shí)別問(wèn)題轉(zhuǎn)化為發(fā)明人之間是否會(huì)產(chǎn)生合作的二分類問(wèn)題。鑒于合作信息維度數(shù)據(jù)輸入會(huì)對(duì)模型準(zhǔn)確性造成影響,可能會(huì)導(dǎo)致模型的準(zhǔn)確性被高估,因此本文在實(shí)驗(yàn)時(shí)使用上文所構(gòu)建發(fā)明人節(jié)點(diǎn)屬性特征結(jié)合這三種算法完成發(fā)明人潛在合作伙伴自動(dòng)識(shí)別任務(wù)。上述模型的性能對(duì)比結(jié)果如表5所示。
表5 各模型性能對(duì)比
從表5可知,支持向量機(jī)算法的AUC值和AP值分別為0.75和0.72,隨機(jī)森林算法的AUC值和AP值分別為0.71和0.69,神經(jīng)網(wǎng)絡(luò)算法的AUC值和AP值分別為0.76和0.73,本文方法的AUC值和AP值分別為0.81和0.80??傮w來(lái)看,本文所構(gòu)建的多維特征視角下的圖卷積網(wǎng)絡(luò)模型的分類預(yù)測(cè)效果優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,證明了本文所構(gòu)建方法對(duì)模型準(zhǔn)確性提高有顯著作用。
3.3.2發(fā)明人潛在合作伙伴自動(dòng)識(shí)別
將發(fā)明人合作信息作為圖結(jié)構(gòu),發(fā)明人摘要文本特征和領(lǐng)域分布特征作為發(fā)明人節(jié)點(diǎn)屬性輸入圖卷積網(wǎng)絡(luò),使用圖自編碼器(Graph Auto Encoder,GAE)進(jìn)行鏈路預(yù)測(cè)。
本文在上文構(gòu)建的85位發(fā)明人現(xiàn)實(shí)合作網(wǎng)絡(luò)的基礎(chǔ)上增加潛在合作網(wǎng)絡(luò)連邊,具體潛在合作網(wǎng)絡(luò)關(guān)系圖如圖4所示。
圖4 發(fā)明人潛在合作網(wǎng)絡(luò)圖
圖4仍為85個(gè)發(fā)明人構(gòu)成的節(jié)點(diǎn)網(wǎng)絡(luò)圖,其中包含111條灰色連邊和56條黑色連邊,其中灰色連邊為發(fā)明人之間已經(jīng)產(chǎn)生的合作關(guān)系,黑色連邊表示發(fā)明人之間的潛在合作關(guān)系,鑒于本文選取鏈路預(yù)測(cè)值大于0.5的發(fā)明人節(jié)點(diǎn)對(duì)構(gòu)建連邊,故潛在合作關(guān)系的連邊粗細(xì)是相同的。圖中可以看出大部分發(fā)明人的合作關(guān)系較為固定,僅在一個(gè)小范圍內(nèi)展開(kāi)合作,如發(fā)明人李彬斌在現(xiàn)實(shí)中僅與發(fā)明人張劍和李飛產(chǎn)生合作,但其潛在合作伙伴便有四位,分別為張威、郭帥帥、鄭振和王震坡,其可與這四位發(fā)明人之間展開(kāi)交流,積極尋找合作機(jī)會(huì)。圖中可以看出,這85個(gè)發(fā)明人在以往合作中形成了數(shù)個(gè)合作較為緊密的合作小組,如郝義國(guó)、陳華明、程飛、安元元、余紅霞等成員的合作小組和孫偉明、董佳怡、王智慧、王志民、王桂寧、李宗韜等為核心成員的合作小組之間產(chǎn)生了較多的潛在合作關(guān)系連邊,表明這兩個(gè)組織之間可積極尋找合作機(jī)會(huì),共同研發(fā)創(chuàng)新。從圖中可以看出,85位發(fā)明人在現(xiàn)實(shí)中產(chǎn)生合作連邊的數(shù)量較少,通過(guò)本文構(gòu)建的發(fā)明人潛在合作伙伴自動(dòng)識(shí)別方法可以有效增加發(fā)明人之間的合作互動(dòng)頻率,增強(qiáng)合作科研攻關(guān)的能力。
本文將預(yù)測(cè)鏈接值排名前20的節(jié)點(diǎn)對(duì)展示如表6所示。表6中所有的發(fā)明人之間還沒(méi)有產(chǎn)生實(shí)際合作關(guān)系,鏈路預(yù)測(cè)值是各個(gè)主體在未來(lái)合作產(chǎn)生鏈接的可能性。
表6 鏈路預(yù)測(cè)分?jǐn)?shù)排名TOP20
從表6可知,預(yù)測(cè)結(jié)果中排名第一位的是李慶榮和黎科,李慶榮工作單位為蘇州欣富輝精密機(jī)械科技有限公司,其主要專利是一種氫燃料電池?zé)峁芾硐到y(tǒng)、一種氫燃料電池供氫系統(tǒng)、一種氫燃料電池排水系統(tǒng)等,黎科來(lái)自湖南凌翔磁浮科技有限責(zé)任公司,其主要專利是采用氫燃料電池的高速懸浮控制電路、基于氫燃料電池的懸浮控制供電電路、基于氫燃料電池的懸浮控制方法和系統(tǒng)等,這兩人在現(xiàn)實(shí)中并未產(chǎn)生合作,從多維特征視角下考慮這兩人的潛在合作機(jī)會(huì)較大,雖然研究領(lǐng)域沒(méi)有完全重疊,但這兩人可以從不同視角在氫燃料電池領(lǐng)域產(chǎn)生跨領(lǐng)域、突破性的技術(shù)創(chuàng)新。
3.3.3跨領(lǐng)域合作伙伴鑒別
在上文識(shí)別出發(fā)明人潛在合作伙伴的基礎(chǔ)上,本文進(jìn)一步識(shí)別目標(biāo)發(fā)明人與潛在合作伙伴之間的合作創(chuàng)新是否屬于跨領(lǐng)域合作。本文以上文中產(chǎn)生合作鏈接關(guān)系較多的郝義國(guó)為例,對(duì)其前5位潛在合作伙伴進(jìn)行判別,具體計(jì)算結(jié)果如表7所示。
表7 郝義國(guó)潛在合作伙伴判別
根據(jù)圖卷積網(wǎng)絡(luò)計(jì)算結(jié)果,郝冬、董佳怡、王智慧、吳健、楊星是目標(biāo)發(fā)明人郝義國(guó)的潛在合作對(duì)象的前5位,其鏈路預(yù)測(cè)值均遠(yuǎn)超0.5,表明這5人與郝義國(guó)的潛在合作機(jī)會(huì)較大。根據(jù)本文提出的同領(lǐng)域指數(shù)S和跨領(lǐng)域指數(shù)I計(jì)算得出,郝冬、董佳怡與郝義國(guó)的專利技術(shù)領(lǐng)域較為相似,其在合作時(shí)偏向于同領(lǐng)域加強(qiáng)型合作。王智慧、吳健、楊星與郝義國(guó)的同領(lǐng)域指數(shù)較低,表明其專利技術(shù)領(lǐng)域相似程度較低,結(jié)合跨領(lǐng)域指數(shù)I可以看出,王智慧和吳健的專利技術(shù)領(lǐng)域相較于郝義國(guó)差別較大,其在現(xiàn)實(shí)中展開(kāi)合作偏向于跨領(lǐng)域合作,而楊星相較于郝義國(guó)雖然技術(shù)領(lǐng)域相似度較低,但其跨領(lǐng)域指數(shù)也較低,主要原因是楊星的專利數(shù)量較少,相較于郝義國(guó)的專利技術(shù)領(lǐng)域補(bǔ)充能力較弱。綜上所述,若郝義國(guó)偏向于加強(qiáng)現(xiàn)有研發(fā)技術(shù),則其可以尋求與郝冬、董佳怡在同領(lǐng)域展開(kāi)增強(qiáng)型合作創(chuàng)新;若郝義國(guó)偏向于創(chuàng)新性、顛覆性技術(shù)創(chuàng)新,則可以積極謀求與王智慧、楊健進(jìn)行合作,其在合作中展開(kāi)跨領(lǐng)域合作,有助于獲得更廣泛的知識(shí)和更深入的專業(yè)理解,從而在問(wèn)題解決中取得更大的突破。
隨著科技創(chuàng)新的爆炸式發(fā)展,單個(gè)發(fā)明人往往難以涵蓋創(chuàng)新所必備的知識(shí)和技能,發(fā)明人之間展開(kāi)合作創(chuàng)新不僅可以提高創(chuàng)新的效率和質(zhì)量,還可以促進(jìn)知識(shí)的傳播和技術(shù)的轉(zhuǎn)移,有助于推動(dòng)科技的進(jìn)步和社會(huì)的發(fā)展。對(duì)此,本文融合發(fā)明人多維特征,使用圖卷積網(wǎng)絡(luò)模型,將發(fā)明人潛在合作伙伴尋找任務(wù)轉(zhuǎn)化為適合圖卷積網(wǎng)絡(luò)工作的鏈路預(yù)測(cè)任務(wù)。在此基礎(chǔ)上,構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準(zhǔn)確識(shí)別出發(fā)明人跨領(lǐng)域合作伙伴。主要研究結(jié)論如下:
a.多維度提取發(fā)明人特征,拓寬伙伴選擇維度?,F(xiàn)有研究在提取專利特征進(jìn)行伙伴識(shí)別時(shí)考慮維度較少,大多研究?jī)H考慮單方面的特征如引用關(guān)系、合作關(guān)系、文本特征相似度等。本文所提出的發(fā)明人跨領(lǐng)域合作伙伴識(shí)別方法從合作關(guān)系特征、摘要文本特征和領(lǐng)域分布特征三個(gè)維度提取發(fā)明人信息,從多維度視角利用發(fā)明人特征,且通過(guò)對(duì)比實(shí)驗(yàn),證明了合作關(guān)系特征、摘要文本特征、領(lǐng)域分布特征三維特征在進(jìn)行伙伴識(shí)別時(shí)能夠有效提升模型準(zhǔn)確性。本文所使用的伙伴識(shí)別三維特征豐富了伙伴選擇模型特征表示,對(duì)現(xiàn)有研究做出補(bǔ)充。
b.綜合利用網(wǎng)絡(luò)關(guān)系和節(jié)點(diǎn)特征,提高伙伴識(shí)別準(zhǔn)確率?,F(xiàn)有研究大多基于網(wǎng)絡(luò)分析、機(jī)器學(xué)習(xí)等方法完成潛在合作伙伴識(shí)別任務(wù),但這幾類方法往往有其局限性,如復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測(cè)算法主要基于節(jié)點(diǎn)相似性的鏈路預(yù)測(cè)指標(biāo),且推薦成功率依賴網(wǎng)絡(luò)本身的拓?fù)浣Y(jié)構(gòu),方法適用性較差,機(jī)器學(xué)習(xí)中的集成算法往往計(jì)算復(fù)雜性較高,忽略了圖結(jié)構(gòu)特征的利用。本文所提出的發(fā)明人跨領(lǐng)域合作伙伴識(shí)別方法從合作關(guān)系特征、摘要文本特征、領(lǐng)域分布特征三個(gè)維度提取發(fā)明人信息,圖卷積網(wǎng)絡(luò)在工作時(shí)能夠捕捉到復(fù)雜的網(wǎng)絡(luò)關(guān)系和節(jié)點(diǎn)特征,對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行端到端學(xué)習(xí),能夠更好地理解發(fā)明人合作網(wǎng)絡(luò)中的合作模式和信息傳遞,相較于現(xiàn)有研究,有效提高了潛在合作伙伴識(shí)別準(zhǔn)確率。
c.尋找跨領(lǐng)域合作伙伴,助推科研合作攻關(guān)。在現(xiàn)今日益復(fù)雜和多元化的科研環(huán)境下,單一領(lǐng)域的知識(shí)往往無(wú)法滿足解決復(fù)雜問(wèn)題的需求,針對(duì)現(xiàn)實(shí)背景的迫切需求,本文針對(duì)領(lǐng)域信息進(jìn)行深度挖掘,借助專利的IPC大組指代發(fā)明人技術(shù)細(xì)分領(lǐng)域,構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準(zhǔn)確識(shí)別發(fā)明人跨領(lǐng)域合作伙伴,通過(guò)跨領(lǐng)域合作伙伴的精準(zhǔn)識(shí)別有助于推動(dòng)跨領(lǐng)域的科研合作,促進(jìn)科學(xué)研究的創(chuàng)新發(fā)展,有助于促進(jìn)不同領(lǐng)域之間的交叉合作和知識(shí)轉(zhuǎn)移,創(chuàng)造出更具創(chuàng)新性和前瞻性的成果。
d.動(dòng)態(tài)識(shí)別潛在合作伙伴,有效提升伙伴尋找效率。傳統(tǒng)的合作伙伴選擇往往依賴于專家經(jīng)驗(yàn)和人工篩選,需要耗費(fèi)大量時(shí)間和精力,且針對(duì)數(shù)據(jù)變化的動(dòng)態(tài)感知能力較弱。隨著時(shí)間推移,發(fā)明人的合作關(guān)系特征、摘要文本特征和領(lǐng)域分布特征發(fā)生變化,本文構(gòu)建方法能夠敏銳識(shí)別發(fā)明人特征變化,根據(jù)實(shí)時(shí)數(shù)據(jù)快速且準(zhǔn)確地評(píng)估發(fā)明人之間的合作潛力,這有助于加快合作伙伴選擇的過(guò)程,提高選擇的效率和準(zhǔn)確性?,F(xiàn)實(shí)合作過(guò)程中,發(fā)明人可以以月為單位或者以年為單位等進(jìn)行專利檢索,利用本文提出的方法得到現(xiàn)階段最適合與其合作的潛在合作伙伴及跨領(lǐng)域合作伙伴推薦結(jié)果,利用本文方法動(dòng)態(tài)地進(jìn)行簡(jiǎn)單、快捷、實(shí)時(shí)的推薦。
本文的不足之處在于,僅僅考慮發(fā)明人的專利信息,而忽略了發(fā)明人的多源創(chuàng)新成果(如論文信息等),下一步可以考慮構(gòu)建融合多源創(chuàng)新成果信息的潛在合作伙伴預(yù)測(cè)方法,從而更精確地預(yù)測(cè)發(fā)明人之間的潛在合作關(guān)系。