宋博文 欒春娟,2 梁丹妮
(1.大連理工大學(xué)人文與社會科學(xué)學(xué)部,遼寧 大連 116024;2.大連理工大學(xué)知識產(chǎn)權(quán)學(xué)院,遼寧 盤錦 124221)
隨著新一輪科技革命和產(chǎn)業(yè)變革的加速興起,世界性的科技競爭愈演愈烈,深化對技術(shù)創(chuàng)新的理解,加強(qiáng)對未來趨勢的把控,對我國加速實(shí)施創(chuàng)新驅(qū)動戰(zhàn)略部署以及創(chuàng)新體系建設(shè)至關(guān)重要。習(xí)近平總書記多次強(qiáng)調(diào)要將“因勢而謀、應(yīng)勢而動、順勢而為”作為把握工作切入點(diǎn)和著力點(diǎn)的關(guān)鍵。在科技發(fā)展的歷程中,新興技術(shù)是未來科技的“萌芽”,新興技術(shù)主題則反映出科技創(chuàng)新的趨勢及方向。因此,高效且準(zhǔn)確地挖掘新興技術(shù)主題,對國家科技產(chǎn)業(yè)前瞻性布局以及企業(yè)發(fā)展態(tài)勢的預(yù)見具有重要意義。
從定義上看,新興技術(shù)是建立在科學(xué)基礎(chǔ)上的革新,可能建立一個新行業(yè)或改造某個舊行業(yè)[1]。新興技術(shù)主題與新興技術(shù)由于名稱相似,在研究中常被混淆,但兩者在概念和特征上都存在顯著的差異。依照Reardon S等提出的觀點(diǎn)[2-4],新興技術(shù)與新興技術(shù)主題之間的差異一般歸納為3種:①新興技術(shù)主題是對新穎特征的歸納,代表一類新興技術(shù);②新興技術(shù)主題清晰明確,不存在新興技術(shù)的模糊性與不確定特征;③不同于新興技術(shù)的突顯,新興技術(shù)主題的凝練需要時間的積累,主題形成后會引導(dǎo)后續(xù)技術(shù)的發(fā)展。結(jié)合已有觀點(diǎn),本研究將新興技術(shù)主題定義為能夠概括歸納一段時期內(nèi)新興技術(shù)中具有新穎性的共性特征的關(guān)鍵詞或短語。
從主題的產(chǎn)生路徑上看,新概念的形成既包括顛覆式創(chuàng)新模式下新涌現(xiàn)的技術(shù)屬性,也包括延續(xù)性發(fā)展模式下新的技術(shù)突破、性能提升與應(yīng)用拓展。過往研究中,新興技術(shù)主題的識別研究主要集中于對新技術(shù)名詞或術(shù)語的探索,常采用時序分析、引文分析以及指標(biāo)分析等方法對新近出現(xiàn)的關(guān)鍵詞進(jìn)行挖掘。然而,分析方法對探知應(yīng)用方式改變或技術(shù)領(lǐng)域變遷等情況下的新興技術(shù)主題缺乏敏感性,直接影響最終的識別結(jié)果。
綜上,本研究針對發(fā)展模式變化帶來的潛在新興技術(shù)主題,提出一種基于技術(shù)特征相似性的新興技術(shù)主題識別方法,嘗試通過Word2Vec詞嵌入模型對現(xiàn)有技術(shù)特征進(jìn)行建模,在充分識別現(xiàn)有技術(shù)特征的基礎(chǔ)上,采用K-means聚類分析與技術(shù)特征向量模型相融合的方式,構(gòu)建基于技術(shù)特征相似性的新興技術(shù)主題識別模型。在對新興技術(shù)術(shù)語挖掘的同時,實(shí)現(xiàn)對潛在語義關(guān)系的探測,提升結(jié)果的解釋性和準(zhǔn)確性。
新興技術(shù)主題識別研究的目的在于挖掘技術(shù)發(fā)展過程中正在形成或已經(jīng)形成但正發(fā)生轉(zhuǎn)變的技術(shù)主題信息。研究者常采用專利、文獻(xiàn)以及專家意見等作為數(shù)據(jù)源,挖掘其中潛在新興技術(shù)主題信息,根據(jù)研究方法的區(qū)別可大致分為兩類[5]:科學(xué)計量學(xué)方法與文本挖掘方法。
科學(xué)計量學(xué)方法是以專利、文獻(xiàn)、新聞等文本的外部特征作為研究對象,采用數(shù)理統(tǒng)計來描述、分析、預(yù)測技術(shù)的現(xiàn)狀與發(fā)展趨勢,主要包括引文分析、共被引分析、知識圖譜可視化、趨勢分析等。2002年,Kleinberg J提出利用詞頻突顯識別新興趨勢,通過識別某種主題詞或關(guān)鍵詞在短時間內(nèi)的快速變化來進(jìn)行新興主題的識別[6]。2004年,Chen C M在Kleinberg J的研究的基礎(chǔ)上[7],提出運(yùn)用漸進(jìn)知識領(lǐng)域可視化的方式識別新興主題,并開發(fā)了Citespace文獻(xiàn)計量學(xué)可視化軟件,被廣泛應(yīng)用于文獻(xiàn)計量學(xué)的研究當(dāng)中。2011年J?rvenp?? H M等考慮到以往的研究多采用單一的數(shù)據(jù),不能夠全面認(rèn)識新興技術(shù)主題的發(fā)展,于是他在研究中通過技術(shù)生命周期曲線分別描述了文獻(xiàn)、專利以及社會媒體在主題發(fā)展過程中的數(shù)量變化,并對這三者間的關(guān)系進(jìn)行了闡釋[8]。2012年,Abercrombie R K等利用文獻(xiàn)、專利、網(wǎng)絡(luò)信息、新聞等多方面數(shù)據(jù)構(gòu)建新興技術(shù)演進(jìn)模型(TEM)[9],該模型將新興技術(shù)主題的演進(jìn)過程分為9個里程碑式的標(biāo)記點(diǎn),更大程度上從技術(shù)角度分析了新興技術(shù)主題的變化過程。近年來,新興技術(shù)主題研究指標(biāo)不斷豐富,研究內(nèi)容也呈現(xiàn)多元化特點(diǎn)。
隨著機(jī)器學(xué)習(xí)的快速興起,基于專利內(nèi)容的文本挖掘法成為更高效的技術(shù)主題識別途徑。黃魯成等以精密技術(shù)為例[10],利用SAO(Subject—Action—Object)語義結(jié)構(gòu)間的相似性挖掘新興技術(shù)主題。Chen L F等提出動態(tài)隱含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[11],實(shí)現(xiàn)對新興趨勢時序性變化的動態(tài)監(jiān)測。劉自強(qiáng)等以基因編輯技術(shù)為例[12],通過PWLR模型抽取更具新穎性與時效性的技術(shù)趨勢。Kreuchauff F等以服務(wù)機(jī)器人為例[13],結(jié)合機(jī)器學(xué)習(xí)與SVM模型分析新興領(lǐng)域信息。Hassan S U等利用64維指標(biāo)的樣本數(shù)據(jù)[14],提出結(jié)合引文分析與深度學(xué)習(xí)的新興主題識別模型。研究者將全部重心集中在對新興詞匯的發(fā)現(xiàn)與探測上,不斷對新興技術(shù)新穎性特征的識別機(jī)制進(jìn)行完善,忽略了對新興特征內(nèi)部信息的探索,新興技術(shù)主題不僅是領(lǐng)域內(nèi)出現(xiàn)的新技術(shù)術(shù)語,也是對新近技術(shù)結(jié)構(gòu)、特征、用途等發(fā)生轉(zhuǎn)變的一系列技術(shù)動態(tài)的概括。
因此,為獲得明確清晰的技術(shù)主題,本研究首先剔除數(shù)據(jù)中噪音信息,選擇具有代表性的技術(shù)特征信息;其次,為保證主題中不僅涵蓋新興詞語還包含特征及用途轉(zhuǎn)變,選用Word2vec模型對領(lǐng)域中全部現(xiàn)有技術(shù)特征進(jìn)行訓(xùn)練;第三,為保證主題詞具有代表性,先通過機(jī)器學(xué)習(xí)模型加權(quán)新近技術(shù)特征,再利用K-means聚類對不同屬性技術(shù)主題加以區(qū)分,并結(jié)合專家意見調(diào)整模型參數(shù),提煉新興技術(shù)主題;最后,以生物技術(shù)領(lǐng)域?yàn)檠芯磕繕?biāo)挖掘新興技術(shù)主題,并與其他模型的識別結(jié)果進(jìn)行比對,從而幫助完善新興技術(shù)主題識別理論,同時為我國生物技術(shù)領(lǐng)域的前沿技術(shù)發(fā)展提供決策支持。
新興技術(shù)主題識別不僅是對新技術(shù)術(shù)語的挖掘,也是對創(chuàng)新路徑中潛在技術(shù)結(jié)構(gòu)與知識組合的探索。因此,識別模型需要兼顧全面性與差異性,在對技術(shù)特征的選取上盡可能保證結(jié)果中新穎性信息的全面性,在技術(shù)主題的識別上最大程度地提升識別結(jié)果中新興技術(shù)主題與已有技術(shù)主題間的差異性。
針對已有研究的不足,本研究綜合運(yùn)用自然語言處理、機(jī)器學(xué)習(xí)以及文本挖掘,提出一套基于技術(shù)特征相似性的新興技術(shù)主題識別方法,如圖1所示。具體分析過程包括4個模塊:①特征抽取與預(yù)處理;②機(jī)器學(xué)習(xí)模型訓(xùn)練;③技術(shù)特征聚類分析;④技術(shù)主題提取與識別,如圖1所示。首先,檢索收集相關(guān)專利,并通過特征工程提取專利數(shù)據(jù)中的專利標(biāo)題、新穎性、專利用途、專利優(yōu)勢信息構(gòu)建技術(shù)特征集;其次,利用Word2Vec詞嵌入模型對技術(shù)特征集進(jìn)行訓(xùn)練;第三,根據(jù)時間切片區(qū)分新近涌現(xiàn)技術(shù)成果,并利用預(yù)訓(xùn)練模型對新近涌現(xiàn)技術(shù)成果進(jìn)行技術(shù)特征向量化處理,再通過K-means聚類進(jìn)行特征區(qū)分;最后,根據(jù)聚類結(jié)果獲取技術(shù)關(guān)鍵詞,將識別結(jié)果交給相關(guān)領(lǐng)域?qū)<倚〗M,通過專家意見判斷聚類結(jié)果是否收斂,結(jié)合專家知識明確最終識別結(jié)果。
圖1 新興技術(shù)主題識別模型
特征工程的目的在于最大程度地從原始數(shù)據(jù)中抽取有價值的技術(shù)特征信息,以滿足模型及算法的需求,抽取結(jié)果直接決定著機(jī)器學(xué)習(xí)模型的效率與效果。每條德溫特專利數(shù)據(jù)中都包含發(fā)明號(PN)、專利標(biāo)題(TI)、發(fā)明人信息(AU)、專利權(quán)人信息或代碼(AE)、德溫特主入藏號(GA)、摘要(AB)、德溫特分類代碼(DC)、手工代碼(MC)以及國際分類號(IP)等字段。其中,專利標(biāo)題由德溫特編輯團(tuán)隊的主題專家編寫,目的是揭示專利的發(fā)明內(nèi)容及其新穎性;專利摘要中包含新穎性、用途及優(yōu)勢3個部分的內(nèi)容,分別概括了專利的應(yīng)用背景、技術(shù)目的以及所屬領(lǐng)域,技術(shù)性能的優(yōu)化提升狀況等信息,如表1所示。其中,專利標(biāo)題項(xiàng)目中包括新的技術(shù)術(shù)語與應(yīng)用途徑;新穎性項(xiàng)目與用途項(xiàng)目中詳細(xì)解讀專利中的新術(shù)語、技術(shù)結(jié)構(gòu)、特征及用途;優(yōu)勢項(xiàng)目對技術(shù)性能的提升程度進(jìn)行說明。這4個部分著錄項(xiàng)目包含不同創(chuàng)新路徑下的新興技術(shù)主題,能夠準(zhǔn)確全面地反映創(chuàng)新技術(shù)特征[15]。因此,本研究通過自然語言處理工具提取專利數(shù)據(jù)文本中的專利標(biāo)題及摘要信息中的新穎性、用途以及優(yōu)勢4個字段,作為技術(shù)特征的來源。
在確定特征內(nèi)容后,利用Python自然語言處理工具包NLTK(Natural Language Toolkit)對德溫特專利數(shù)據(jù)進(jìn)行處理。應(yīng)用NLTK工具包提取專利文本中標(biāo)題(TI)、新穎性(NOVELTY)、用途(USE)以及優(yōu)勢(ADVANTAGE)4個字段中的文本信息,剔除專利文本中的低頻詞、停用詞、無關(guān)詞匯,通過詞形還原整理文章中的技術(shù)名詞及相關(guān)應(yīng)用信息,最終獲得規(guī)范化的技術(shù)特征信息。
“現(xiàn)有技術(shù)”是衡量發(fā)明創(chuàng)造是否具有新興特征的客觀參照物[16]。本研究采用機(jī)器學(xué)習(xí)的目的在于通過對大量現(xiàn)有技術(shù)特征中語義知識的識別訓(xùn)練,實(shí)現(xiàn)對目標(biāo)領(lǐng)域中全部技術(shù)關(guān)鍵詞的整體把控,將每一個技術(shù)關(guān)鍵詞及其之間的關(guān)系構(gòu)建成一個詞向量模型[17-18],從而成為客觀區(qū)分新穎性特征的參照物。
表1 技術(shù)特征字段及含義
Word2Vec詞嵌入模型是由Mikolov T等提出的輕量級的神經(jīng)網(wǎng)絡(luò)語言訓(xùn)練模型[19],模型結(jié)構(gòu)主要包含輸入層、隱藏層以及輸出層。相較于傳統(tǒng)獨(dú)熱表示模型(One-Hot Representation)不包含語義關(guān)系測度的詞語符號化功能,Word2vec能夠通過訓(xùn)練文本中的詞語,將其映射為低維度的實(shí)數(shù)向量,構(gòu)成一個詞向量空間,進(jìn)一步實(shí)現(xiàn)了對詞語之間語法、語義關(guān)系的相似性測度[20],極大地滿足了對新興技術(shù)主題識別中準(zhǔn)確區(qū)分不同特征的要求。
Word2Vec模型主要包括CBOW和Skip-gram兩個模型[21],如圖2所示。CBOW模型是在學(xué)習(xí)詞語W(t)的前后語序W(t-2)、W(t-1)、W(t+1)、W(t+2)的條件下,對W(t)的語義語法關(guān)系進(jìn)行預(yù)測;Skip-gram與之相反,是在明確W(t)的語義關(guān)系的前提下,預(yù)測W(t)的前后語序內(nèi)容。本研究考慮到所選技術(shù)特征信息的內(nèi)容與規(guī)模,采用Word2Vec模型中的CBOW作為技術(shù)特征的訓(xùn)練模型。
圖2 CBOW與Skip-gram模型對比
技術(shù)特征聚類結(jié)果直接影響新興技術(shù)主題識別的準(zhǔn)確性??紤]到新興技術(shù)主題既產(chǎn)生自新技術(shù)發(fā)展過程的快速興起,也來源于技術(shù)開發(fā)過程中應(yīng)用環(huán)境的轉(zhuǎn)變[22],聚類算法必須在滿足對非結(jié)構(gòu)化數(shù)據(jù)聚類的同時,凝聚表達(dá)相同屬性的技術(shù)特征。因此,本研究采用“技術(shù)特征向量化+特征聚類”的方式實(shí)現(xiàn)對不同屬性技術(shù)特征的區(qū)分。
2.3.1 新近涌現(xiàn)技術(shù)特征提取
新興技術(shù)主題主要來自新近出現(xiàn)的專利數(shù)據(jù)中,Porter團(tuán)隊從專利運(yùn)營數(shù)據(jù)發(fā)現(xiàn),新興技術(shù)主題的形成需要?dú)v經(jīng)技術(shù)自身完善、配套技術(shù)發(fā)展、市場商業(yè)認(rèn)可等多個階段,這一過程大致需要3~5年時間[23-25]。因此,檢索數(shù)據(jù)庫中近3年目標(biāo)主題相關(guān)的專利數(shù)據(jù),按照特征工程流程進(jìn)行數(shù)據(jù)處理,提取其中所包含的新近涌現(xiàn)的技術(shù)特征。
2.3.2 技術(shù)特征向量化
技術(shù)特征向量化是對每條專利信息中所包含的技術(shù)特征進(jìn)行向量化處理的過程,利用前述機(jī)器學(xué)習(xí)得到的詞向量模型,對每條技術(shù)特征中的全部詞語取加權(quán)均值,從而生成新近技術(shù)特征的句向量。
首先,本研究采用TF-IDF(Term Frequency-Inverse Document Frequency,詞頻逆文檔頻率)算法測度技術(shù)特征中每個詞語的權(quán)重,用以凸顯代表性術(shù)語在技術(shù)特征中的重要程度。詞語權(quán)重隨其在技術(shù)特征中的出現(xiàn)頻率呈正比增加,隨詞袋模型中的出現(xiàn)頻率呈反比下降,計算公式如式(1)。其中,ni,j通過詞頻矩陣計算,表示詞語在文本中出現(xiàn)的頻次;∑knk,j表示詞袋模型中所有詞語數(shù)量;|D|表示技術(shù)特征數(shù)量,|j:ti∈dj|表示包含詞語的技術(shù)特征數(shù)量。
(1)
(2)
然后,對技術(shù)特征中的全部詞語向量取加權(quán)均值,結(jié)合前述中獲得的詞語權(quán)重,生成技術(shù)特征向量,計算公式如式(2)。其中,TC_vec表示技術(shù)特征向量;veci表示詞向量;m表示技術(shù)特征中包含的詞語的數(shù)量;weight(i)表示通過TF-IDF算法獲得的詞語的權(quán)重。
2.3.3 技術(shù)特征聚類
技術(shù)特征聚類是將向量化的技術(shù)特征集合劃分成若干簇,盡可能聚集表達(dá)相似屬性的特征,擴(kuò)大不同簇類間的差異性。因此,本研究采用K-means算法實(shí)現(xiàn)這一過程[26],算法將通過不斷迭代和反復(fù)計算聚類中心直至聚類結(jié)果收斂,從而實(shí)現(xiàn)對表達(dá)相近含義技術(shù)特征信息的集合。
(3)
(4)
將2.3.2獲得的技術(shù)特征進(jìn)行K-means聚類,多維向量空間中技術(shù)特征間的相似性關(guān)系采用余弦相似度進(jìn)行測度,計算公式如式(3)。K值的選擇采用輪廓系數(shù)法,計算公式如式(4)所示。其中,ai表示i特征與同類型技術(shù)特征的平均距離;bi表示i特征與其他類型技術(shù)特征間的平均距離;Si表示輪廓系數(shù),輪廓系數(shù)的取值在[-1,1]之間,且越趨近于1表示聚類的結(jié)果越清晰。通過對聚類系數(shù)K值的反復(fù)調(diào)整,選取輪廓系數(shù)最大時所對應(yīng)的最優(yōu)聚類系數(shù)。然后,采用該聚類系數(shù)對新近涌現(xiàn)技術(shù)特征進(jìn)行聚類,最終得到不同類別的技術(shù)特征。
技術(shù)主題的提取與識別方法決定著主題識別模型最終結(jié)果的合理性。常用的文本主題抽取工具包括TF-IDF模型、TextRank模型[27]、LDA主題模型以及其他融合模型等[28]。本研究采用特征關(guān)鍵詞結(jié)合專家意見的方式來實(shí)現(xiàn)主題識別。聚類分析將大量具有相同屬性的技術(shù)特征構(gòu)成特征集,每個特征集中包含大量反應(yīng)集合屬性特征的關(guān)鍵詞,通過對詞語重要性進(jìn)行排序,提取出具有代表性的技術(shù)特征關(guān)鍵詞。
技術(shù)主題聚類結(jié)果在考慮算法準(zhǔn)確性的同時也需要兼顧專業(yè)性,引入領(lǐng)域?qū)<覅⑴c新興技術(shù)主題的最終判斷,提升識別結(jié)果的專業(yè)性及應(yīng)用價值。輪廓系數(shù)能夠在算法層面反映聚類模型的效果,在應(yīng)用層面則需要后驗(yàn)知識對模型進(jìn)行修正和檢驗(yàn)。將識別結(jié)果交給相關(guān)領(lǐng)域?qū)<倚〗M,通過專家意見判斷聚類結(jié)果是否收斂,并由專家確定最終的新興技術(shù)主題識別結(jié)果。
生物技術(shù)(Biotechnology)是引領(lǐng)未來經(jīng)濟(jì)社會發(fā)展的重要學(xué)科領(lǐng)域,這一概念最初是由匈牙利工程師Karl Ereky提出,其影響力隨著基因工程技術(shù)等現(xiàn)代生物技術(shù)的發(fā)展而逐漸加深。在美國商務(wù)部聯(lián)合國家科學(xué)基金會等多家機(jī)構(gòu)提出的“NBIC會聚技術(shù)”理念中,生物技術(shù)被視為實(shí)現(xiàn)未來技術(shù)應(yīng)用的核心技術(shù)領(lǐng)域。因此,本研究將生物技術(shù)領(lǐng)域作為研究的重點(diǎn),選擇生物技術(shù)相關(guān)專利作為新興技術(shù)主題識別實(shí)證研究的對象。
本研究以德溫特創(chuàng)新索引為數(shù)據(jù)源,檢索并收集2010—2020年間生物技術(shù)相關(guān)專利數(shù)據(jù)作為分析數(shù)據(jù)集。德溫特創(chuàng)新索引(Derwent Innovation Index,DII)是世界最大的專利數(shù)據(jù)庫之一,數(shù)據(jù)來源包括50余家專利授予機(jī)構(gòu),數(shù)據(jù)內(nèi)容涵蓋全球96%的專利數(shù)據(jù)信息,能夠保證數(shù)據(jù)檢索的全面性與準(zhǔn)確性。檢索式選擇世界經(jīng)濟(jì)合作與發(fā)展組織(OECD)發(fā)布的生物技術(shù)相關(guān)專利檢索式:IP*=(A01H-001/00 OR A01H-004/00 OR A61K-038/00 OR A61K-039/00 OR A61K-048/00 OR C02F-003/34 OR C07G-011/00 OR C07G-013/00 OR C07G-015/00 OR C07K-004/00 OR C07K-014/00 OR C07K-016/00 OR C07K-017/00 OR C07K-019/00 OR C12M OR C12N OR C12P OR C12Q OR C12S OR G01N-027/327 OR G01N-033/(53*,54*,55*,57*,68,74,76,78,88,92))。檢索結(jié)果中2011—2020年發(fā)布的專利數(shù)據(jù)共計108 585件,用以進(jìn)行專利詞篇模型的構(gòu)建。研究中新近涌現(xiàn)專利數(shù)據(jù)集,選擇2018—2020年生物技術(shù)相關(guān)專利數(shù)據(jù)共計36 748件。
相關(guān)專利的特征分布情況如表2所示,從時間分布來看,2011—2020年間的專利數(shù)量呈現(xiàn)平穩(wěn)上漲趨勢,年均專利數(shù)量在1萬件左右,2018—2020年的年均專利數(shù)量達(dá)到12 249件。在學(xué)科分類上,排在前3位的學(xué)科分別為化學(xué)、生物學(xué)以及藥學(xué),涉及化學(xué)專業(yè)的專利數(shù)量最高為100 893件,占專利總量的92.9%。IPC分類號是國際通用的技術(shù)分類工具,從生物技術(shù)的IPC分類情況看,抗原醫(yī)藥制劑、抗腫瘤藥物、基因治療藥物是研究的熱點(diǎn)方向。德溫特分類代碼是從技術(shù)應(yīng)用角度提出的技術(shù)分類工具,生物技術(shù)的應(yīng)用主要涉及發(fā)酵產(chǎn)業(yè)、天然聚合物生產(chǎn)以及生物制劑3個方向。
表2 生物技術(shù)專利特征統(tǒng)計(2011—2020年)
3.2.1 技術(shù)特征模型構(gòu)建
依照前述特征工程與機(jī)器學(xué)習(xí)訓(xùn)練模型的構(gòu)建流程,首先抽取108 585條生物技術(shù)專利中的標(biāo)題、新穎性、用途以及優(yōu)勢4個字段的數(shù)據(jù)信息;對數(shù)據(jù)進(jìn)行清洗,將字段中的停用詞與無關(guān)詞匯去除,采用詞型還原的方式處理剩余詞語,構(gòu)建生物技術(shù)特征集,采用相同流程處理新近涌現(xiàn)的36 748條生物技術(shù)專利數(shù)據(jù),生成新近技術(shù)特征集。采用Word2Vec中的CBOW模型訓(xùn)練生物技術(shù)特征數(shù)據(jù),參數(shù)設(shè)置為特征向量,維度選擇默認(rèn)值200;考慮到每條生物技術(shù)技術(shù)特征的詞語數(shù)量不超過15,設(shè)置上下文窗口長度為7;主題詞的選取需要保證所選術(shù)語的代表性,設(shè)置詞頻閾值為5;迭代次數(shù)選擇6次,最終得到技術(shù)特征詞向量模型。
3.2.2 基于技術(shù)特征的K-Means聚類
首先,將新近技術(shù)特征集中的詞語轉(zhuǎn)換為詞頻矩陣,結(jié)合前述技術(shù)特征詞向量模型中的詞頻信息,統(tǒng)計新近技術(shù)特征集中詞語的權(quán)重。然后,對每條技術(shù)特征中詞語取加權(quán)均值,生成新近技術(shù)特征向量。再將技術(shù)特征向量進(jìn)行序列化處理,計算不同特征間的余弦相似性。
完成前期數(shù)據(jù)處理后,為新近技術(shù)特征集搭建一個包含k個隨機(jī)質(zhì)心的集合,以新近技術(shù)特征為節(jié)點(diǎn),特征間的余弦相似度作為節(jié)點(diǎn)距離,設(shè)定聚類系數(shù)k的取值范圍[2,11]進(jìn)行迭代運(yùn)算。通過k值的調(diào)整觀察輪廓系數(shù)的變化情況,如圖3所示。當(dāng)聚類系數(shù)取值為2時,輪廓系數(shù)的結(jié)果為0.1119,隨著聚類系數(shù)的提升,輪廓系數(shù)不斷趨近于1,取值為6時輪廓系數(shù)達(dá)到峰值的0.3558,其后隨著系數(shù)增長而下降,當(dāng)聚類系數(shù)取值為11時,輪廓系數(shù)為0.0513。因此根據(jù)輪廓系數(shù)評價結(jié)果,聚類系數(shù)k取值為6時,生物技術(shù)的新近技術(shù)特征分類最為清晰。
圖3 K-Means聚類系數(shù)選取
3.2.3 新興技術(shù)主題識別
根據(jù)新近技術(shù)特征的聚類結(jié)果,2018—2020年新興生物技術(shù)可以分為6個大類,抽取每個聚類中的核心關(guān)鍵詞信息,如表3所示。其中C1類中的技術(shù)術(shù)語主要涉及各類氨基酸制備工藝及其用途,其中包括:抗原決定基、納米抗體、門冬氨酸、亮氨酸、苯丙氨酸、精氨酸、酪氨酸酶、組氨酸等;C2類中的技術(shù)術(shù)語主要涉及分子克隆及基因編輯技術(shù),其中包括離心法、外顯子、反義技術(shù)、DNA聚合酶、RNA干擾、核酸適配體等;C3類中的技術(shù)術(shù)語涉及免疫性疾病及病灶,其中包括超純、免疫血清、白血病、接種體、腫瘤、感覺官能、固定化等;C4類中的技術(shù)術(shù)語涉及環(huán)境工程與廢物處理技術(shù),其中包括沉積作用、廢物處理、人造物、提純、濕地、廢水、微生物、凈化、厭氧菌、分解、植物等;C5類中的技術(shù)術(shù)語涉及重組疫苗及反向疫苗相關(guān)技術(shù),其中包括淋巴細(xì)胞、載體、暗盒、激酶、病毒衣殼、白細(xì)胞介素、突變、腺病毒、芯片、免疫球蛋白、質(zhì)粒、腺病毒、T細(xì)胞受體等;C6類中的技術(shù)術(shù)語涉及農(nóng)作物增產(chǎn)抗病基因改良技術(shù),其中包括未成熟體、孢子、吲哚、體細(xì)胞、再生、氯化物、農(nóng)桿菌、土豆、短葶植物、外植體、瓊脂等。
表3 生物技術(shù)相關(guān)新興技術(shù)主題
最終的識別環(huán)節(jié),通過兩位生物技術(shù)專業(yè)教授對聚類識別結(jié)果的反復(fù)討論,認(rèn)為聚類結(jié)果已達(dá)到收斂,表述相同或相近生產(chǎn)工藝的技術(shù)關(guān)鍵詞處于同一聚類。通過對技術(shù)關(guān)鍵詞的解讀分析,專家認(rèn)為可根據(jù)聚類中的核心技術(shù)關(guān)鍵詞分布情況,將上述技術(shù)關(guān)鍵詞總結(jié)為新近興起的6類生物技術(shù)主題:分別為氨基酸制備技術(shù)、分子生物技術(shù)、生物免疫治療技術(shù)、生物凈化/修復(fù)技術(shù)、疫苗制備技術(shù)、農(nóng)業(yè)轉(zhuǎn)基因技術(shù)。
考慮到專家解讀存在主觀性,本研究引入LDA主題模型進(jìn)行對比分析。將應(yīng)用LDA主題模型提取新近生物技術(shù)領(lǐng)域?qū)@械募夹g(shù)主題結(jié)果作為對照組ETT-control,基于技術(shù)特征相似性的新興技術(shù)主題模型的識別結(jié)果作為實(shí)驗(yàn)組ETT-experiment,將識別結(jié)果降維至三維空間進(jìn)行可視化,并引入主題連貫性驗(yàn)證主題識別效果,聚類結(jié)果對比如圖4所示。
圖4 新興技術(shù)主題聚類結(jié)果對比
主題連貫性(Coherence,CV)是用于衡量同一主題內(nèi)的詞語間是否連貫的測量指標(biāo)。本文采用Newman提出的UCI測度方法,基于滑動窗口對主題詞進(jìn)行分割,通過對特定主題詞中所有單詞對的點(diǎn)態(tài)互信息進(jìn)行計算,得到模型的主題連貫性。主題連貫性的取值范圍為[0,1],數(shù)值越接近于1說明效果越明顯。通過計算,得出實(shí)驗(yàn)組的連貫性系數(shù)為0.512,對照組的連貫性系數(shù)為0.471。說明對于同一技術(shù)主題內(nèi)的技術(shù)關(guān)鍵詞,融合Word2Vec與K-means聚類的新興技術(shù)主題識別模型具有更好的組內(nèi)連貫性,能夠更加清晰準(zhǔn)確地反映主題信息。通過對照組與實(shí)驗(yàn)組在正視圖、左側(cè)視圖以及右側(cè)視圖的對比,能夠清晰地發(fā)現(xiàn)LDA主題模型提取出的5類技術(shù)主題之間存在大量的交叉,簇類之間界限模糊;相較之下,實(shí)驗(yàn)組提取的6類技術(shù)主題中,關(guān)鍵詞凝聚在相應(yīng)的技術(shù)主題之下,不同主題下的技術(shù)關(guān)鍵詞之間少有重疊,簇類之間界限明顯。
對比分析結(jié)果顯示,融合Word2Vec與K-means聚類的新興技術(shù)主題識別模型,相較于一般主題識別模型,能夠更加準(zhǔn)確地凝練,技術(shù)主題間的區(qū)分度更加明顯。同時,由于模型中采用機(jī)器學(xué)習(xí)對大量現(xiàn)有技術(shù)進(jìn)行訓(xùn)練識別,從而能夠清晰區(qū)分技術(shù)特征的新穎性,能夠更好地實(shí)現(xiàn)對領(lǐng)域中新興技術(shù)主題的識別。
深刻認(rèn)識前沿趨勢,盡早識別新興技術(shù)主題,對創(chuàng)新資源優(yōu)化部署及提升國際競爭優(yōu)勢具有重要意義。當(dāng)前,新興技術(shù)主題識別大多采用單一指標(biāo)或單一屬性,缺乏基于多種演化路徑的多維度主題挖掘分析。鑒于此,本文提出了基于技術(shù)特征相似性的新興技術(shù)主題識別模型,模型通過抽取專利數(shù)據(jù)中包含的新技術(shù)屬性構(gòu)建技術(shù)特征集,并利用機(jī)器學(xué)習(xí)對現(xiàn)有技術(shù)特征進(jìn)行建模,充分識別現(xiàn)有技術(shù)中的特征信息,再融合聚類分析算法與技術(shù)特征向量模型,對新近涌現(xiàn)技術(shù)特征進(jìn)行主題識別,最后結(jié)合專家意見對新興技術(shù)主題進(jìn)行解讀。以生物技術(shù)為例的主題識別結(jié)果顯示,基于技術(shù)特征相似性的新興技術(shù)主題識別模型相較于一般主題識別模型能夠更加清晰準(zhǔn)確地挖掘目標(biāo)領(lǐng)域中的新興技術(shù)主題。因此,本研究為新興技術(shù)主題識別研究提供了新的研究方法及思路。