馬俊紅 張文鳳 馮 鑫 袁紅梅
(沈陽藥科大學(xué)工商管理學(xué)院 沈陽 110016)
近年來,伴隨著科技和大數(shù)據(jù)的迅猛發(fā)展,生物技術(shù)、人工智能、信息技術(shù)和納米技術(shù)等具有顛覆性特征的新興技術(shù)迅速涌現(xiàn),相關(guān)的專利和期刊論文數(shù)量也呈現(xiàn)激增現(xiàn)象[1],面對錯綜復(fù)雜的技術(shù)信息網(wǎng),科研人員顯然已經(jīng)不能通過主觀判斷準確地對技術(shù)趨勢進行準確、快速分析[2]。因此,運用大數(shù)據(jù)分析方法對特定領(lǐng)域龐雜的科技信息進行高效整合尤為重要。
隨著技術(shù)迭代和機器算法的發(fā)展,提綱挈領(lǐng)地對某一領(lǐng)域的發(fā)展演變進行精練地描述,逐漸成為繪制技術(shù)演化脈絡(luò)的普適性方法。通過追蹤引文網(wǎng)絡(luò)中重要節(jié)點的連通,可以挖掘網(wǎng)絡(luò)中的核心技術(shù),但從復(fù)雜的引文網(wǎng)絡(luò)中觀察技術(shù)的發(fā)展脈絡(luò)和路徑非常困難[3-4]。主路徑分析憑借能夠從數(shù)以萬計的引文網(wǎng)絡(luò)中抽象出重要的技術(shù)路徑而被許多學(xué)者青睞。將主路徑分析方法應(yīng)用到發(fā)現(xiàn)技術(shù)演化脈絡(luò)上發(fā)端于期刊論文引文網(wǎng)絡(luò),以往的研究也集中將主路徑分析方法運用在科學(xué)論文中進行某一領(lǐng)域技術(shù)演化脈絡(luò)測繪,例如:Fontana[5]、Fu[6]、Arianna M等[7]將基于論文的主路徑應(yīng)用到局域網(wǎng)、物聯(lián)網(wǎng)以及電信制造業(yè)等領(lǐng)域。此外,祝清松[8]、顏端武等[9]運用論文數(shù)據(jù)并納入共被引和時序主題等在主路徑方法改進方面做出貢獻。然而,僅對科學(xué)論文的演化分析不足以洞察某一領(lǐng)域技術(shù)發(fā)展動態(tài),作為世界上最大的技術(shù)信息源,專利文獻包含豐富的技術(shù)信息[10],專利的引用關(guān)系體現(xiàn)了技術(shù)之間的繼承與發(fā)展,基于專利引用網(wǎng)絡(luò)的主路徑分析可用于研究技術(shù)演化脈絡(luò),對技術(shù)趨勢做出快速分析[11]。Verspagen[12]于2007年首次對專利引用網(wǎng)絡(luò)應(yīng)用主路徑分析法來繪制電池領(lǐng)域的技術(shù)演化軌跡。經(jīng)過對專利引文網(wǎng)絡(luò)不斷的探索,Karvonen等[13]在2011年提出,專利數(shù)據(jù)能夠揭示各種企業(yè)和研究機構(gòu)的R&D利益,專利引用信息通過引用關(guān)系結(jié)合了創(chuàng)新技術(shù),并提供了對某一領(lǐng)域內(nèi)技術(shù)發(fā)展過程的洞察,對于公司而言,專利比科學(xué)論文更有研究意義[14]?;趯@木W(wǎng)絡(luò)的主路徑分析方法由此發(fā)展。諸多學(xué)者從不同視角對基于專利引文網(wǎng)絡(luò)的主路徑進行改進并進行不同領(lǐng)域的實證分析,均取得一定成效。例如:陳亮等[15]將專利文本挖掘和動態(tài)規(guī)劃方法應(yīng)用于專利引文網(wǎng)絡(luò)對硬盤驅(qū)動器磁頭領(lǐng)域進行技術(shù)路徑測繪;馬瑞敏等[16]從節(jié)點重要性出發(fā)對OLED領(lǐng)域的專利主路徑進行全新探索;戚筠等[17]通過局部前向搜索、局部后向搜索、全局搜索以及關(guān)鍵路徑四種不同的專利主路徑方法以識別引證網(wǎng)絡(luò)中的核心技術(shù);王婷[18]、Wang等[19]也從不同角度對基于專利的主路徑進行改進。最近的研究試圖使用基于專利的主路徑分析來預(yù)測未來的技術(shù)變革,發(fā)現(xiàn)新興技術(shù)[20-21]。
隨著學(xué)者們持續(xù)深入的研究,主路徑分析已成為技術(shù)軌跡測繪及技術(shù)預(yù)測的重要手段,但是,隨著主路經(jīng)分析方法的廣泛運用,其存在的弊端也日益凸顯,引文滯后就是其中較為嚴重的弊端。本研究旨在探究克服引文滯后的科技演化主路徑測繪方法,以期幫助研究人員清晰、準確、全面地了解技術(shù)動態(tài),及時調(diào)整研發(fā)策略,避免社會資源的浪費。
引文滯后的產(chǎn)生主要由于主路徑分析方法所采用的路徑搜索算法(SPC/SPNP/SPLC/ NPPC)的實現(xiàn)依賴于專利引文網(wǎng)絡(luò)[11],而專利自公布到被引用往往存在一定的時間間隔,專利的引用量存在隨時間累積的情況,即近期的專利引用量少于先前專利的引用量[22],即引文滯后[23]。Christian等[24]通過實證研究發(fā)現(xiàn)中國專利引用滯后期為31.9個月;Kim Junmo等[25]也指出,使用專利引文網(wǎng)絡(luò)存在引文滯后的截斷偏差問題等。這就導(dǎo)致近期公布的新興技術(shù)由于引用量少而無法表征在主路徑上,但這些新興技術(shù)往往代表最新的技術(shù)趨勢。引文滯后的存在,致使研發(fā)人員無法真正了解到最新的技術(shù)變革,不能對研發(fā)活動作出及時調(diào)整,進而導(dǎo)致社會資源浪費。
為了克服主路徑分析方法的引文滯后問題,本研究提出了一種可行性方法,該方法嘗試將近期的專利和論文與專利主路徑相關(guān)聯(lián),在提取目標社區(qū)主路徑之后,利用LDA主題模型對專利和論文數(shù)據(jù)進行主題提取并生成“主題-文檔”分布概率矩陣,通過設(shè)定閾值篩選出近期重要的且與主路徑高度相關(guān)的專利和論文,將其銜接到主路徑上[26],最終形成延伸和擴展的主路徑。本研究提出的方法不僅解決了引文滯后導(dǎo)致的主路徑上近期重要技術(shù)的缺失問題,而且彌補了以往研究只關(guān)注專利或論文的單一性問題。
1.1研究框架本研究旨在進一步完善運用主路徑分析方法表征技術(shù)演化的脈絡(luò),設(shè)計了一種克服主路徑中引文滯后性的方法。首先,從IncoPat數(shù)據(jù)庫調(diào)取所需專利數(shù)據(jù),借助Girvan-Newman算法提取社區(qū)排名前三的引文網(wǎng)絡(luò),針對三個網(wǎng)絡(luò)運用SPC算法分別提取主路徑,以每條主路徑末端節(jié)點專利的申請時間為起點,從Web of Science中以相同的關(guān)鍵詞檢索論文數(shù)據(jù),最后運用LDA主題模型得到每篇專利和論文與所屬主題的概率值,這樣屬于同一個主題下的專利和論文通過設(shè)定閾值進行篩選并與主路徑銜接。經(jīng)過上述過程,主路徑末端節(jié)點后所銜接的專利作為主路徑的延伸,所銜接的論文作為主路徑的擴展,最終得到三條延伸和擴展的主路徑,整體框架見圖1。
1.2.1 構(gòu)建引文網(wǎng)絡(luò)并劃分社區(qū) 采用Pajek進行主路徑測繪依賴于引文網(wǎng)絡(luò),隨著專利文獻的增加,網(wǎng)絡(luò)結(jié)構(gòu)逐漸變得復(fù)雜[27],劃分網(wǎng)絡(luò)結(jié)構(gòu),從社區(qū)的角度出發(fā)可以更好的去挖掘網(wǎng)絡(luò)的功能和價值[28]?;诖?,本文首先構(gòu)建專利引用矩陣并可視化引文網(wǎng)絡(luò);其次,引入復(fù)雜網(wǎng)絡(luò)中用于社區(qū)發(fā)現(xiàn)的Girvan-Newman分裂算法對引文網(wǎng)絡(luò)進行社區(qū)劃分,并借助Python加以實現(xiàn)。為了定量描述社區(qū)劃分的優(yōu)劣,本文引入Newman[29]提出的模塊度Q的概念,對社區(qū)進行模塊化描述,函數(shù)表征如下:
圖1 研究框架
Q=∑i(eii-ai2)
(1)
其中,i代表的是第i個社區(qū),eii表示社區(qū)i的邊占原始網(wǎng)絡(luò)所有邊的比例,ai表示所有連接了社區(qū)i中的頂點的邊占總邊數(shù)的比例,Q的取值范圍為[0,1],其值越接近1,表示網(wǎng)絡(luò)劃分出的社區(qū)結(jié)構(gòu)的強度越強,因此可以通過最大化模塊度Q來獲得最優(yōu)的網(wǎng)絡(luò)社區(qū)劃分。通過上述步驟可以將引文網(wǎng)絡(luò)劃分不同的社區(qū),為主路徑的提取做鋪墊。
1.2.2 提取專利主路徑 選取自然排序前三的社區(qū),首先將每個社區(qū)的引文網(wǎng)絡(luò)轉(zhuǎn)換為加權(quán)網(wǎng)絡(luò)。目前已有的鏈路加權(quán)算法有NPPC/SPNP/SPLC以及SPC。按照Batagelj(2003)[30]的建議,本文選取SPC算法,對引文網(wǎng)絡(luò)進行鏈路加權(quán),鏈接的SPC值定義為從引用源到引用網(wǎng)絡(luò)中的所有接收器遍歷該鏈接的次數(shù),鏈接的值越大,則越重要。其次,通過運用SPC搜索算法來提取加權(quán)網(wǎng)絡(luò)中的全局主路徑,即搜索SPC總數(shù)最大的路徑。如圖2所示,其中數(shù)字代表SPC值,字母代表節(jié)點,實線代表運用SPC搜索算法提取的全局主路徑,即路徑A→C→E→D→F。
圖2 SPC算法下的全局主路徑
1.2.3 近期專利和論文與主路徑的銜接 本研究的最終目標是將近期的專利和論文與專利主路徑進行關(guān)聯(lián),進而克服主路徑分析方法中存在的引文滯后問題,最終形成延伸和擴展的主路徑。論文和專利數(shù)據(jù)可以通過所屬同一主題的概率值而將彼此聯(lián)系起來[31]。通過Python針對專利和論文數(shù)據(jù)應(yīng)用LDA主題模型,得到每篇專利和論文與所屬主題的概率值,這樣屬于同一個主題下的專利和論文通過設(shè)定閾值進行篩選并與主路徑銜接。為確保結(jié)果的準確性,咨詢了領(lǐng)域?qū)<乙庖妬磔o助銜接。
LDA主題模型憑借能高效地處理海量文本數(shù)據(jù)逐步被應(yīng)用在主題發(fā)現(xiàn)及演化研究中[32],在進行文本語義分析時,LDA主題模型不僅能夠抽取出高價值的潛在主題[33],所形成的“主題-文檔”分布概率更能夠?qū)⒁姆治鼍劢褂谖臋n與主題之間的鏈接,這在很大程度上彌補了專利引文分析的不足[26]。LDA是由Blei等[34]于2003年提出的三層貝葉斯主題模型,該模型通過無監(jiān)督的學(xué)習方法發(fā)現(xiàn)文本中隱含的主題信息,從而標引文本所屬主題。該模型假設(shè)一篇文檔是由多個主題組成的,且每篇文檔的生成服從泊松分布NPoission(β),然后取樣生成該文檔在主題上的狄利克雷分布θDir(α),整個模型的聯(lián)合分布公式為:
(2)
其中,β是每個主題下詞的多項分布的Dirichlet先驗參數(shù),α是每個文檔下主題的多項分布的Dirichlet先驗參數(shù),zm,n是第m個文檔中第n個詞的主題,wm,n是m個文檔中的第n個詞,θm是第m個文檔下的主題分布,φk是第k個主題下詞的分布。
通過上述步驟,可得到“主題-文檔”分布矩陣。此外,鑒于LDA主題模型屬于機器學(xué)習算法,缺少理解辨別某一專業(yè)領(lǐng)域研究重點主題的經(jīng)驗,因此在運用LDA主題模型進行數(shù)據(jù)集訓(xùn)練時需要結(jié)合專家意見不斷調(diào)整訓(xùn)練結(jié)果以確保得出的主題具備合理性[35]。
隨著免疫學(xué)、腫瘤學(xué)以及精準醫(yī)療的發(fā)展,腫瘤免疫治療在技術(shù)進步與學(xué)科交叉滲透的雙向驅(qū)動下將迎來發(fā)展的黃金時期。腫瘤免疫治療作為2013年美國《Science》雜志年度十大科學(xué)突破之首,在短短幾年時間里成為了全球生物醫(yī)藥界最受矚目的領(lǐng)域。腫瘤免疫療法已成為腫瘤領(lǐng)域的熱點和重要的研究課題。因此,對該領(lǐng)域的科技演化脈絡(luò)的研究至關(guān)重要,故本研究選取腫瘤免疫治療技術(shù)進行實證研究。
2.1數(shù)據(jù)的收集與處理本研究專利數(shù)據(jù)來自Incopat數(shù)據(jù)庫,通過閱讀腫瘤免疫技術(shù)相關(guān)的科學(xué)文獻并結(jié)合專家意見,將檢索式確定為:TIAB=(腫瘤 OR 癌癥 OR 癌 OR 轉(zhuǎn)移) AND (免疫療法 OR 過繼性T細胞療法 OR 過繼性細胞OR 免疫檢查點 OR 細胞毒性T淋巴細胞抗原4 OR CTLA-4 OR PD-L1 OR 程序化死亡分子配體1 OR 程序性死亡蛋白1 OR PD-1 OR T細胞受體 OR 嵌合抗原受體 OR 單克隆抗體 OR 疫苗 OR 免疫刺激物 OR 免疫調(diào)節(jié) OR 組合免疫療法OR小分子抑制劑OR細胞過繼免疫治療OR免疫系統(tǒng)調(diào)節(jié)劑),論文數(shù)據(jù)通過Web of Science以同樣的檢索詞進行檢索,截至2020年8月31日,經(jīng)過數(shù)據(jù)清洗共獲取中國發(fā)明申請專利文獻7 348篇,論文1 079篇。
2.2判斷技術(shù)生命周期根據(jù)所收集到的發(fā)明專利申請數(shù)據(jù),圖3給出了腫瘤免疫治療技術(shù)的線性、Logistic分配以及指數(shù)模式[36]的擬合曲線。對時間序列數(shù)據(jù)的非線性模擬顯示,增長模式非常接近Logistic或指數(shù)函數(shù)。根據(jù)Harvey M[37]與Khalil T M等[38]的理論并結(jié)合擬合曲線,專利數(shù)量成指數(shù)上升,表明腫瘤免疫治療技術(shù)目前正處于高速發(fā)展的成長期,增長速度不斷加快。隨著科技的不斷創(chuàng)新,該領(lǐng)域?qū)⒂瓉砀鼮檠该偷陌l(fā)展,因此本文的分析研究具有重要的意義。
圖3 腫瘤免疫治療技術(shù)專利技術(shù)生命周期擬合曲線
2.3構(gòu)建并提取引文網(wǎng)絡(luò)首先,基于專利文獻間的引用關(guān)系構(gòu)建10955×10955矩陣,可視化引文網(wǎng)絡(luò);接著通過Python運用Girvan-Newman算法對已構(gòu)建的專利引文網(wǎng)絡(luò)進行社區(qū)劃分;最后得到1454個社區(qū),其模塊度Q的值為0.965,表明網(wǎng)絡(luò)劃分出社區(qū)結(jié)構(gòu)的強度較強。每個社區(qū)對應(yīng)的節(jié)點數(shù)如表1所示,選取節(jié)點數(shù)自然排序前三的社區(qū)進行主路徑分析。
表1 專利引文網(wǎng)絡(luò)社區(qū)劃分結(jié)果
2.4專利主路徑分析借助Pajek軟件基于SPC算法分別對三個目標社區(qū)提取主路徑,如圖4所示。表2顯示了主路徑節(jié)點專利的信息,通過閱讀專利文獻的標題、摘要及說明書可知,第一條路徑代表與嵌合抗原受體(CAR)-T細胞(以下簡稱“CAR-T細胞”)有關(guān)技術(shù)的演變,第二條路徑代表與程序性死亡因子-1(PD-1)單克隆抗體有關(guān)技術(shù)的演變,第三條路徑代表與DC-CIK細胞免疫療法有關(guān)技術(shù)的演變路徑。三條主路徑末端節(jié)點專利的申請時間分別為2018年、2016年和2017年,由此可見,專利文獻存在一定的引文滯后性,其導(dǎo)致的偏差問題使最新的技術(shù)無法表征在主路徑上。
圖4 SPC算法提取的主路徑
表2 主路徑節(jié)點相關(guān)專利信息
2.5近期專利和論文與主路徑的銜接選取主路徑末端節(jié)點專利所對應(yīng)時間節(jié)點之后的專利和論文數(shù)據(jù),借助概率值進行近期專利和論文與主路徑的銜接。本研究首先對專利數(shù)據(jù)應(yīng)用LDA主題模型結(jié)合專家意見經(jīng)過多次詞庫訓(xùn)練與調(diào)整,最終得到“主題-文檔”分布矩陣。通過閱讀每個主題下專利和論文的標題和摘要并咨詢領(lǐng)域?qū)<?,最終將閾值確定為0.700。依據(jù)閾值篩選近期專利和論文并鏈接到基于專利的主路徑上,得到三條延伸和擴展的主路徑如圖5、6、7所示,銜接部分符號含義及所屬主題概率值詳情見表3、4、5。
圖5 CAR-T細胞技術(shù)延伸&擴展的主路徑
圖6 PD-1單克隆抗體延伸&擴展的主路徑
圖7 DC-CIK細胞免疫療法延伸&擴展的主路徑
表3 CAR-T細胞技術(shù)的專利和論文與主路徑銜接
表4 PD-1單克隆抗體的專利和論文與主路徑銜接
表5 DC-CIK細胞免疫療法的專利和論文與主路徑銜接
第一條主路徑主要表征CAR-T細胞相關(guān)技術(shù)發(fā)展,該技術(shù)最早在1989年被提出。起初,CAR與CD3復(fù)合體的ζ鏈融合,形成CAR-T細胞受體,但由于無共刺激分子,在體內(nèi)存活時間較短。為克服缺陷,研究者在CD3等胞內(nèi)結(jié)構(gòu)域上融合協(xié)同刺激因子(如CD27、CD28、4-1BB等),使得CAR-T細胞活化、分泌細胞因子和細胞毒素的作用增強。該方法在治療血液腫瘤中已取得一定的成效,但在晚期結(jié)直腸癌、惡性膠質(zhì)瘤等實體瘤治療上還沒有實質(zhì)性的突破,針對實體瘤治療的改善主要著眼于尋找合適的靶點來增強其療效,如磷脂酰肌醇蛋白聚糖3(GPC-3)[39]。即便如此,該療法仍存在靶位缺失效應(yīng)和細胞因子釋放綜合征等不良反應(yīng),隨著精準醫(yī)學(xué)的發(fā)展,臨床上主要采用靶向治療、與化學(xué)藥物聯(lián)合治療、雙特異性結(jié)合等方法減少脫靶等副作用以提高對實體腫瘤的治療作用。
第二條主路徑主要表征PD-1單克隆抗體相關(guān)技術(shù)的發(fā)展,PD-1是一種對T細胞炎性活動的細胞表面受體有抑制作用的B7-CD28受體家族成員。從技術(shù)演化的脈絡(luò)看,其最初以高親和力與PD-1特異性結(jié)合的人源抗體為主要研究方向,逐步走向工業(yè)化的實現(xiàn),與此同時,PD-1單抗的研究重點逐漸轉(zhuǎn)向?qū)ζ渥陨砭幋a基因序列的改造,并不斷發(fā)明新的單克隆抗體作為PD-1通路的阻斷劑,以提高對腫瘤細胞的治療效果。在PD-1單抗發(fā)揮顯著作用的同時,不免存在諸如免疫相關(guān)的內(nèi)分泌失調(diào)等問題[40],為減輕副作用、進一步提高治療效率,從與近期專利和論文的銜接看,該技術(shù)正朝靶向PD-1/PD-L1抗體、與阿帕替尼等化學(xué)藥物聯(lián)合療法以及PD-1通路的阻斷劑方向發(fā)展,以尋找低毒與高效相平衡的治療方案。
第三條主路徑主要表征DC-CIK細胞免疫療法相關(guān)技術(shù)的發(fā)展,該療法被譽為21世紀治療腫瘤的“綠色生物療法”[41]。DC-CIK細胞免疫治療技術(shù)是繼手術(shù)、放療、化療后衍生的一種新療法,其在發(fā)展中先后經(jīng)歷了DC和CIK單獨作用、DC-CIK制備方法及改進、與PD-1聯(lián)合免疫等過程,是主動特異性免疫治療和過繼免疫治療相結(jié)合的典范。在與專利和論文的銜接中發(fā)現(xiàn),目前DC-CIK細胞免疫療法正朝著針對DC-CIK細胞修飾技術(shù)、個性化腫瘤疫苗、聯(lián)合免疫檢查點抑制劑以及化學(xué)藥物聯(lián)合腫瘤疫苗治療方向發(fā)展。毫無疑問,聯(lián)合免疫治療在臨床中將發(fā)揮舉足輕重的作用。
綜上所述,通過將近期專利和論文與基于專利的主路徑的銜接,不僅清晰地表征了腫瘤免疫治療技術(shù)三個子領(lǐng)域的技術(shù)演化脈絡(luò)和技術(shù)前沿,還克服了由主路徑算法本身引起的引文滯后性問題。通過該方法識別出的延伸和擴展主路徑,為科研人員研究課題的確定以及企業(yè)戰(zhàn)略規(guī)劃調(diào)整提供了一定借鑒意義,最終形成以發(fā)展為導(dǎo)向、以科研為動力的良性循環(huán)。
由于引文滯后的存在,一條主路徑的終點并不代表技術(shù)進步的最前沿,本研究通過提出將近期的專利和論文與主路徑進行銜接來解決這一問題。將研究方法應(yīng)用到腫瘤免疫治療領(lǐng)域,所識別出的腫瘤免疫治療技術(shù)的延伸和擴展主路徑所表征的科技演化脈絡(luò)及研究前沿較為符合該領(lǐng)域目前發(fā)展的熱點與需求點,具備一定的參考性。本研究有以下貢獻:a.提出了一種新方法,克服主路徑分析方法的引文滯后問題,將主路徑延伸和擴展到最新的技術(shù)變革,科學(xué)客觀地表征前沿技術(shù);b.使用腫瘤免疫治療技術(shù)的專利信息,并將其與臨床研究熱點相關(guān)聯(lián),使得探測出的前沿信息具有可操作性,有助于研究人員對前沿技術(shù)的發(fā)展趨勢進行解讀與判斷;c.借助LDA主題模型結(jié)合領(lǐng)域?qū)<业囊庖娺M行文本關(guān)聯(lián)匹配,具備一定的合理性。鑒于本研究只從科學(xué)和技術(shù)兩個層面對主路徑進行改善,未來研究可以引入市場層面的數(shù)據(jù)進行補充完善,綜合科學(xué)、技術(shù)、市場三方面進行技術(shù)演化分析,同時可以納入不同技術(shù)領(lǐng)域進行對比研究,深入挖掘不同領(lǐng)域的技術(shù)發(fā)展特征。