摘 要:[目的/意義]戰(zhàn)略性新興產(chǎn)業(yè)布局需要部署基礎(chǔ)科學(xué)研究和技術(shù)創(chuàng)新活動的協(xié)同,而探測科學(xué)—技術(shù)關(guān)聯(lián)正是挖掘科技協(xié)同的重要途徑。[方法/過程]針對科學(xué)—技術(shù)系統(tǒng)多尺度非線性關(guān)聯(lián)特征,本研究從復(fù)雜網(wǎng)絡(luò)與時間序列相互表征視角出發(fā),構(gòu)建人工智能領(lǐng)域的科學(xué)—技術(shù)知識網(wǎng)絡(luò),設(shè)計“網(wǎng)絡(luò)—時間序列”等價轉(zhuǎn)換方法,將科技知識網(wǎng)絡(luò)顯化為非線性時間序列,采用知識網(wǎng)絡(luò)距離、序列同步性指標測量科技協(xié)同演化。[結(jié)果/結(jié)論]本文的研究方法能夠挖掘科學(xué)—技術(shù)系統(tǒng)的非線性動態(tài)關(guān)聯(lián);分析發(fā)現(xiàn)人工智能領(lǐng)域科技協(xié)同演化關(guān)系趨于緊密,且由于科學(xué)研究細化和技術(shù)分化效應(yīng),科學(xué)與技術(shù)知識結(jié)構(gòu)差異性逐步增強。
關(guān)鍵詞:科學(xué)—技術(shù)關(guān)聯(lián);知識網(wǎng)絡(luò);時間序列分析;協(xié)同演化;人工智能
DOI:10.3969/j.issn.1008-0821.2025.08.005
〔中圖分類號〕F276.44;G252.8 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)08-0057-13
Multidimensional Coupling and Co-evolution of Frontier
Science and Technology in Emerging Industries
——A“Network-to-Time Series”Equivalence Transformation Perspective
Zhang Yujie1,2 Ba Zhichao1,2* Meng Kai1,2 Liu Leilei1,2 Wang Liuhong1,2
(1.Research Institute for Data Management amp; Innovation,Nanjing University,Suzhou 215163,China;
2.Laboratory for Data Intelligence and Interdisciplinary Innovation,Nanjing University,Nanjing 210023,China)
Abstract:[Purpose/Significance]The layout of strategic emerging industries requires the coordination between basic scientific research and technological innovation activities,and the exploration of the science-technology(Samp;T)linkage is a crucial pathway for uncovering Samp;T synergies.[Method/Process]In response to the multi-scale nonlinear associative characteristics of Samp;T systems,this study constructed an Samp;T knowledge network in the field of artificial intelligence from the perspective of complex networks and time series mutual representation.The study designed a“network-time series”equivalence conversion method,representing the Samp;T knowledge network as a nonlinear time series.The paper measured the evolution of Samp;T synergies using knowledge network distance and sequence synchrony indicators.[Result/Conclusion]The proposed method uncovered the nonlinear dynamic associations within Samp;T systems.The analysis revealed that the Samp;T synergy in the field of artificial intelligence became increasingly closer,while due to the effects of scientific research specialization and technological differentiation,the disparity between scientific and technological knowledge structures gradually intensified.
Key words:science-technology linkage;knowledge network;time series analysis;co-evolution;artificial intelligence
科學(xué)與技術(shù)協(xié)同創(chuàng)新是推動戰(zhàn)略性新興產(chǎn)業(yè)創(chuàng)新發(fā)展的核心動力[1]??茖W(xué)系統(tǒng)與技術(shù)系統(tǒng)正是通過內(nèi)部知識、要素的實時適配,獲得相互之間的互動與協(xié)同,進而實現(xiàn)溢出擴散和動態(tài)耦合,以促進科技創(chuàng)新不斷涌現(xiàn)。然而,許多產(chǎn)業(yè)在發(fā)展實踐過程中存在科技成果轉(zhuǎn)移轉(zhuǎn)化的瓶頸,包括由于知識擴散和技術(shù)轉(zhuǎn)移渠道不暢導(dǎo)致科學(xué)研究成果無法及時應(yīng)用于技術(shù)實踐,以及諸多技術(shù)問題因缺少基礎(chǔ)研究支撐而得不到有效解決等[2]。盡管這種現(xiàn)狀是由諸多復(fù)雜原因?qū)е拢c產(chǎn)業(yè)中科技資源的“孤島現(xiàn)象”、科學(xué)與技術(shù)之間知識流動不暢與協(xié)同性較低存在一定關(guān)系。因此,針對科技成果向現(xiàn)實生產(chǎn)力轉(zhuǎn)化不力、不順的“痼疾”,需要深入研究科學(xué)—技術(shù)關(guān)聯(lián)互動與協(xié)同創(chuàng)新機制,以提升科技研究成果的實踐支撐力。
科學(xué)文獻是科學(xué)研究成果的重要體現(xiàn),技術(shù)專利是技術(shù)創(chuàng)新的重要載體。對科學(xué)文獻與技術(shù)專利數(shù)據(jù)的關(guān)聯(lián)挖掘,成為目前深入探究科學(xué)與技術(shù)關(guān)系最直接、最有效的方法[3]?,F(xiàn)有研究已提出多種科學(xué)—技術(shù)關(guān)聯(lián)探測方法[4-8]。然而,當前研究更多通過統(tǒng)計某些特征項在論文和專利中的數(shù)量分布特征以衡量科學(xué)與技術(shù)關(guān)系,難以反映科學(xué)—技術(shù)知識結(jié)構(gòu)關(guān)聯(lián),難以揭示兩者知識結(jié)構(gòu)生成或演化的驅(qū)動機制。從復(fù)雜網(wǎng)絡(luò)視角,基于科學(xué)—技術(shù)知識網(wǎng)絡(luò)相似、距離測度方法能夠從節(jié)點和關(guān)系層面計算科學(xué)—技術(shù)網(wǎng)絡(luò)結(jié)構(gòu)拓撲關(guān)聯(lián)、協(xié)同演化和動力耦合[8-9]。
科學(xué)與技術(shù)都有著各自的知識結(jié)構(gòu)演化軌跡,同時相互依存,共同發(fā)展,通過知識傳遞、吸收與轉(zhuǎn)移形成多重關(guān)聯(lián)??茖W(xué)創(chuàng)新是科學(xué)知識結(jié)構(gòu)中知識單元的增長、重組和老化的自組織過程,技術(shù)創(chuàng)新則體現(xiàn)為技術(shù)知識結(jié)構(gòu)中技術(shù)元素的增長、組合和變異過程[10-11]。兩者的發(fā)展均依賴知識單元和關(guān)聯(lián)的動態(tài)變化??茖W(xué)與技術(shù)的知識網(wǎng)絡(luò)反映了這些變化特性,研究其耦合關(guān)聯(lián)可揭示知識增長的關(guān)鍵路徑、演化特征和互動模式,從而發(fā)現(xiàn)協(xié)同創(chuàng)新的路徑與趨勢。然而,僅基于知識網(wǎng)絡(luò)的關(guān)聯(lián)分析難以精細量化科學(xué)與技術(shù)在耦合方向、振幅和步調(diào)同步性等方面的動態(tài)關(guān)聯(lián)。
復(fù)雜網(wǎng)絡(luò)和時間序列是描述現(xiàn)實復(fù)雜系統(tǒng)的兩種典型范式[12]。復(fù)雜網(wǎng)絡(luò)作為一種圖結(jié)構(gòu),描述系統(tǒng)內(nèi)各部分之間相互作用和動態(tài)行為;而時間序列描述某一系統(tǒng)現(xiàn)象的時間結(jié)構(gòu)性和時間相關(guān)性,反映在不同時間點上的狀態(tài)變化和瞬時特性。科技系統(tǒng)的復(fù)雜性決定在單一范式下僅能捕捉描述科學(xué)—技術(shù)關(guān)聯(lián)的單一維度或部分特征。而尋求兩種范式等價轉(zhuǎn)換和相互表征方法,進而從復(fù)雜網(wǎng)絡(luò)和時間序列雙重視角全面分析科學(xué)—技術(shù)系統(tǒng)關(guān)聯(lián)的非線性、協(xié)同性,能夠解析特定產(chǎn)業(yè)領(lǐng)域內(nèi)部科學(xué)認識的“知”與技術(shù)實踐的“行”的相互轉(zhuǎn)化和協(xié)同創(chuàng)新過程。因此,本研究旨在從復(fù)雜網(wǎng)絡(luò)與時間序列等價轉(zhuǎn)換與相互表征視角,分析戰(zhàn)略性新興產(chǎn)業(yè)領(lǐng)域科學(xué)系統(tǒng)與技術(shù)系統(tǒng)的網(wǎng)絡(luò)拓撲距離、時間序列同步及其演化路徑耦合關(guān)系。
1 相關(guān)研究工作
1.1 科學(xué)—技術(shù)關(guān)聯(lián)探測方法
科學(xué)與技術(shù)之間存在非線性相互作用,表現(xiàn)為各種關(guān)系不再是簡單疊加,而是通過相互制約、耦合形成全新的整體協(xié)同效應(yīng)。為有效挖掘這種相互作用,相關(guān)學(xué)者提出多種方法探測科學(xué)與技術(shù)之間的關(guān)聯(lián),主要通過量化科學(xué)文獻與技術(shù)專利之間關(guān)系,包括引用、作者—發(fā)明者、類目映射、主題詞和網(wǎng)絡(luò)關(guān)聯(lián)等展開探索。
1)基于引用關(guān)系的科學(xué)—技術(shù)關(guān)聯(lián)探測。該方法能夠追蹤兩者之間知識流動與擴散,進而計量和評價彼此作用于對方的貢獻程度[4]。其中,專利引文分析被廣泛認為是進行科學(xué)—技術(shù)關(guān)聯(lián)探測較為有效的方法。專利引用論文分析[13]、論文引用專利分析[14]、論文—專利混合共被引分析[15]3種引用方式被應(yīng)用于科學(xué)—技術(shù)關(guān)聯(lián)探測,通過量化科學(xué)關(guān)聯(lián)度(Science Linkage,SL)[16]、科學(xué)強度(Science Strength,SS)[17]、技術(shù)循環(huán)周期(Technology Cycle Time,TCT)[18]和當前影響指數(shù)(Current Impact Index,CII)[17]等指標測量技術(shù)創(chuàng)新程度以及與前沿科學(xué)、高新技術(shù)之間的關(guān)聯(lián)程度,顯性和定量分析科學(xué)與技術(shù)對彼此創(chuàng)新的推動作用。
2)基于作者—發(fā)明人關(guān)系的科學(xué)—技術(shù)關(guān)聯(lián)探測。主要通過發(fā)現(xiàn)科學(xué)研究者和技術(shù)專利創(chuàng)造者的雙重角色揭示科學(xué)—技術(shù)關(guān)聯(lián),是一種從科研主體和發(fā)明主體層面認知“科學(xué)—技術(shù)關(guān)系”的方法。科學(xué)研究者直接參與專利發(fā)明往往更了解技術(shù)創(chuàng)新亟需解決的科學(xué)問題,發(fā)明人直接參與科學(xué)研究也更清楚研究方法和動向。為此,相關(guān)學(xué)者通過分析作者—發(fā)明人關(guān)聯(lián)的數(shù)量分布[19]、演化特征[20]、角色與作用[21]、科技產(chǎn)出[22]等指標,揭示從事科學(xué)活動或技術(shù)研發(fā)對科技產(chǎn)出的影響。Wang G B等[23]通過比較學(xué)術(shù)型發(fā)明人和非學(xué)術(shù)型發(fā)明人在論文產(chǎn)出、被引頻次、H指數(shù)的差異,表明從事科學(xué)研究對發(fā)明人的專利產(chǎn)出具有正向作用。
3)基于類目映射關(guān)系的科學(xué)—技術(shù)關(guān)聯(lián)探測。該方法主要通過知識組織體系建立科學(xué)文獻與技術(shù)專利之間的有效鏈接。鑒于分類表或主題詞表作為學(xué)科領(lǐng)域最具代表性的概念類聚組織體系,相關(guān)學(xué)者[6,24-25]嘗試通過建立學(xué)科分類體系和專利IPC分類體系之間的類目映射,以反映科學(xué)—技術(shù)的知識關(guān)聯(lián)和結(jié)構(gòu)對應(yīng)關(guān)系。賴院根等[24]針對當前科學(xué)文獻與技術(shù)專利整合性較低的問題,提出建立《中國圖書館分類法》與《國際專利分類表》的類目映射模型。Verbeek A等[6]將非專利引文所屬期刊的學(xué)科分類與專利的IPC分類之間的對應(yīng)關(guān)系,表示科學(xué)研究方向與技術(shù)創(chuàng)新方向之間的關(guān)聯(lián)。
4)基于主題或主題詞關(guān)系的科學(xué)—技術(shù)關(guān)聯(lián)探測。為從科技文獻文本研究主題和內(nèi)容角度揭示科學(xué)與技術(shù)關(guān)聯(lián),相關(guān)學(xué)者[26-28]提出通過機器學(xué)習(xí)、數(shù)據(jù)挖掘方法發(fā)現(xiàn)科學(xué)與技術(shù)知識體系主題詞或主題關(guān)聯(lián),以揭示科學(xué)—技術(shù)之間的語義關(guān)聯(lián)。孫曉玲等[27]基于知識基因發(fā)現(xiàn)算法識別科學(xué)與技術(shù)知識進化、突變中的關(guān)鍵知識基因,進而借助社團發(fā)現(xiàn)算法對兩者關(guān)聯(lián)趨勢進行建模,探究科學(xué)向技術(shù)的轉(zhuǎn)化以及技術(shù)對科學(xué)的推動作用。劉自強等[29]利用社區(qū)探測算法識別論文和專利中研究主題,構(gòu)建融合主題詞共現(xiàn)、主題詞—作者共現(xiàn)和主題詞—引用3種關(guān)系,建立科學(xué)與技術(shù)的主題關(guān)聯(lián)度。
5)基于復(fù)雜網(wǎng)絡(luò)的科技互動檢測方法。由于科學(xué)—技術(shù)系統(tǒng)之間復(fù)雜的非線性關(guān)系,主題建模很難深入挖掘科技互動的結(jié)構(gòu)關(guān)聯(lián)?;趶?fù)雜網(wǎng)絡(luò)的科技互動檢測方法被許多學(xué)者采納,將科學(xué)與技術(shù)知識結(jié)構(gòu)體系轉(zhuǎn)化成知識網(wǎng)絡(luò)模型進行表達,從微觀層面定量分析科學(xué)與技術(shù)之間知識結(jié)構(gòu)關(guān)聯(lián)。Ba Z C[2]、Meng K等[8]從知識網(wǎng)絡(luò)耦合角度探測科技互動,從節(jié)點耦合和邊耦合兩個維度量化科學(xué)—技術(shù)知識網(wǎng)絡(luò)結(jié)構(gòu)耦合。許海云等[30]以知識網(wǎng)絡(luò)結(jié)構(gòu)作為分析視角,分別構(gòu)建顛覆性技術(shù)的科學(xué)、技術(shù)、產(chǎn)業(yè)三層知識網(wǎng)絡(luò),利用整體網(wǎng)絡(luò)屬性關(guān)聯(lián)和網(wǎng)絡(luò)社區(qū)相似度算法來實現(xiàn)知識子網(wǎng)間的關(guān)聯(lián)測度。
上述研究方法根據(jù)科學(xué)文獻與技術(shù)專利數(shù)據(jù)之間存在的不同客觀關(guān)系探究科學(xué)與技術(shù)的關(guān)聯(lián),但不同方法存在著一定的局限性。專利引用論文或論文引用專利方法僅能單向反映影響,論文—專利混合共被引雖可雙向探測,但引用關(guān)系稀少且受引用動機、時間積累等干擾,難揭示前沿科學(xué)—技術(shù)關(guān)聯(lián)。作者—發(fā)明人關(guān)系探測依賴大量雙重角色研發(fā)主體,但數(shù)量有限且行為穩(wěn)定性存疑。類目映射方法因IPC分類粗粒度且與學(xué)科分類不完全對應(yīng),難準確反映科學(xué)與技術(shù)知識關(guān)聯(lián)。另外,上述方法主要揭示科學(xué)與技術(shù)關(guān)系的數(shù)量特征,并未深入科學(xué)文獻的文本內(nèi)容,來探索科學(xué)與技術(shù)在主題和內(nèi)容層面上的關(guān)聯(lián)?;谥黝}詞關(guān)聯(lián)法能夠從語義層面揭示科學(xué)與技術(shù)的知識關(guān)聯(lián),但難以反映科學(xué)—技術(shù)知識結(jié)構(gòu)關(guān)聯(lián),而基于知識網(wǎng)絡(luò)關(guān)聯(lián)方法難以準確量化科學(xué)—技術(shù)在方向位移、振幅頻率、步調(diào)同步等方面的細粒度關(guān)聯(lián)。
1.2 復(fù)雜網(wǎng)絡(luò)與時間序列相互表征方法
從復(fù)雜網(wǎng)絡(luò)轉(zhuǎn)換為非線性時間序列方法主要分為確定性方法和隨機性方法兩類[31]。
1)確定性方法是以特征分解為基礎(chǔ)的多維尺度分析[32]。這類方法通常需要利用網(wǎng)絡(luò)中節(jié)點的特定排序,并依據(jù)網(wǎng)絡(luò)的鏈接特性為節(jié)點分配數(shù)值。例如,Haraguchi Y等[33]使用經(jīng)典多維尺度分析實現(xiàn)從復(fù)雜網(wǎng)絡(luò)到時間序列的轉(zhuǎn)換,并通過重構(gòu)網(wǎng)絡(luò)驗證轉(zhuǎn)換方法的可逆性。多維尺度分析方法尤其適合處理小世界網(wǎng)絡(luò)類型[34],在處理其他類型的網(wǎng)絡(luò)時可能會有局限性。確定節(jié)點排序的一個常見做法是簡單地使用鄰接矩陣的自然行或列順序。這種方法雖然能較好地保持節(jié)點間的相對距離關(guān)系,但當網(wǎng)絡(luò)規(guī)模增大時,特征分解所需的計算時間也會顯著增加。
2)隨機性方法是基于轉(zhuǎn)移概率并通過隨機游走方式確定節(jié)點的順序。這類方法通過模擬一系列統(tǒng)計意義上的隨機過程來捕捉網(wǎng)絡(luò)的動力學(xué)特性[31]。例如,Weng T F等[35]提出一種基于有限記憶隨機游走的轉(zhuǎn)換方法,將無標度網(wǎng)絡(luò)轉(zhuǎn)換為非線性時間序列,并且發(fā)現(xiàn)不同節(jié)點度混合模式的網(wǎng)絡(luò)在轉(zhuǎn)換成時間序列后表現(xiàn)出不同的自相似特征。隨機游走不同規(guī)則會產(chǎn)生具有不同特性的序列,這些規(guī)則反映網(wǎng)絡(luò)內(nèi)部轉(zhuǎn)移概率。隨機游走的策略較為豐富,但不同的策略對應(yīng)的序列差異明顯,所以策略的選取往往依賴于先驗知識[36-37]。
綜上所述,確定性方法和隨機性方法具有各自的優(yōu)勢。其中,隨機性方法以概率統(tǒng)計為基礎(chǔ),能夠以較高的效率獲取網(wǎng)絡(luò)整體結(jié)構(gòu)特征。此外,該方法隨機游走策略具有較強的可擴展性,通過改進隨機游走策略,成為研究科技知識網(wǎng)絡(luò)多維耦合與協(xié)同演化的有力工具。通過構(gòu)建與分析科學(xué)—技術(shù)知識網(wǎng)絡(luò),能夠在兩種模式下同時探索科學(xué)與技術(shù)的協(xié)同關(guān)系,不僅揭示科學(xué)與技術(shù)之間的復(fù)雜網(wǎng)絡(luò)互動,還能挖掘科學(xué)技術(shù)在二維空間中的同步演化行為。
2 基于“網(wǎng)絡(luò)—時序”等價轉(zhuǎn)換的科技關(guān)聯(lián)探測
本研究從“網(wǎng)絡(luò)—時序”等價轉(zhuǎn)換視角探測新興產(chǎn)業(yè)領(lǐng)域前沿科技多維耦合與協(xié)同演化,研究框架如圖1所示。首先,采集新興產(chǎn)業(yè)領(lǐng)域科學(xué)文獻與技術(shù)專利數(shù)據(jù),通過關(guān)鍵詞抽取算法提取科學(xué)文獻與技術(shù)專利中關(guān)鍵詞,并利用相似度計算進行知識單元自動對齊;其次,建立科學(xué)技術(shù)知識單元的共現(xiàn)關(guān)系,構(gòu)建時序的科學(xué)與技術(shù)知識網(wǎng)絡(luò);第三,提出一種適用于科學(xué)—技術(shù)知識網(wǎng)絡(luò)的“網(wǎng)絡(luò)—時序”等價轉(zhuǎn)換方法,將科學(xué)—技術(shù)知識網(wǎng)絡(luò)表征為非線性時間序列;最后,采用知識網(wǎng)絡(luò)距離、知識序列同步性指標計算科學(xué)—技術(shù)協(xié)同演化特征,實現(xiàn)對科學(xué)—技術(shù)多維耦合與協(xié)同演化的雙向測度。
2.1 科學(xué)—技術(shù)知識網(wǎng)絡(luò)構(gòu)建
2.1.1 科技知識單元抽取
使用關(guān)鍵詞抽取算法分別識別科學(xué)論文與技術(shù)專利中的知識單元。本研究選擇5種較為主流的關(guān)鍵詞抽取算法,分別是:TF-IDF、TextRank、RAKE、Yake、KeyBert??紤]到關(guān)鍵詞效果會直接影響到最終科學(xué)與技術(shù)關(guān)聯(lián)測度的準確性,事先人工標注一部分數(shù)據(jù)中的關(guān)鍵詞,對比不同的抽取算法在數(shù)據(jù)集上的效果,然后選擇最優(yōu)的抽取算法應(yīng)用于全部數(shù)據(jù)。為細粒度評估不同算法的抽詞表現(xiàn),主要選擇4種評測指標:①完全匹配(Exact Matching),分別計算P@5、R@5、F@5值;②近似匹配(Approximate Matching),考慮關(guān)鍵詞的不同字符表達,評估標注關(guān)鍵詞和生成關(guān)鍵詞之間的語義相近性,采用余弦相似度(Cosine Similarity)進行近似匹配;③關(guān)鍵詞多樣性(Diversity),參考現(xiàn)有研究[38-39],使用self-BLEU值進行評估多樣性;④時間消耗(Time Consumption),比較不同算法時間消耗情況,以毫秒為單位評估。
2.1.2 科技知識單元對齊
由于科學(xué)概念與技術(shù)術(shù)語之間存在不同程度的粒度不匹配、表達方式差異等問題,需對兩種知識單元進行粒度匹配和知識元統(tǒng)一描述。本研究主要選取一種無監(jiān)督的方法,該過程包括如下步驟:①關(guān)鍵詞清洗;②構(gòu)建關(guān)鍵詞笛卡爾積組合并計算相似度;③設(shè)置相似度閾值,當關(guān)鍵詞相似度超過閾值時,將其視為相同的實體;④選取頻率最高的關(guān)鍵詞作為標準關(guān)鍵詞,用于替代其他關(guān)鍵詞。
2.1.3 科技知識網(wǎng)絡(luò)構(gòu)建
遵循科學(xué)計量學(xué)中“共現(xiàn)”概念,關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)同時關(guān)注知識成分和知識傳播的結(jié)構(gòu),能夠?qū)?fù)雜的知識進行關(guān)聯(lián)。科學(xué)文獻和技術(shù)專利中的關(guān)鍵詞被視為知識網(wǎng)絡(luò)的節(jié)點,關(guān)鍵詞共現(xiàn)關(guān)系視為連邊,基于該思路,分別構(gòu)建科學(xué)論文和技術(shù)專利的共現(xiàn)知識網(wǎng)絡(luò),并按照年份劃分時間周期,構(gòu)建不同年份下的科學(xué)—技術(shù)知識網(wǎng)絡(luò)。
2.2 “網(wǎng)絡(luò)—時序”等價轉(zhuǎn)換與相互表征方法
科學(xué)—技術(shù)知識網(wǎng)絡(luò)轉(zhuǎn)換為時間序列方法是對現(xiàn)有隨機性方法的拓展[35]。該方法主要采用有限記憶元隨機游走生成時間序列,在選擇下一步游走節(jié)點時會考慮最近訪問過的節(jié)點的度數(shù),并將游走節(jié)點軌跡作為時間軸,游走節(jié)點度作為變動幅值。將該方法運用到科學(xué)—技術(shù)知識網(wǎng)絡(luò)中需進行一定適應(yīng)性調(diào)整。真實的知識網(wǎng)絡(luò)非常稀疏,不僅是無標度的,且具有較為分散組件數(shù),意味著網(wǎng)絡(luò)中許多節(jié)點具有很少的連接或者獨立存在,可能會導(dǎo)致轉(zhuǎn)移概率在分母上的和非常小,從而使得節(jié)點游走過程變得不穩(wěn)定。此外,真實知識網(wǎng)絡(luò)節(jié)點很多(幾萬到十幾萬不等),而由于存在稀疏性,節(jié)點之間的連接較少,導(dǎo)致隨機游走在較短的時間內(nèi)重復(fù)訪問局部相同的知識節(jié)點,難以全面揭示網(wǎng)絡(luò)全局屬性。因此,本研究提出一種改進的方法以適應(yīng)科學(xué)—技術(shù)知識網(wǎng)絡(luò)。
首先,引入一種長程跳轉(zhuǎn)機制。即在每一步中,以概率pteleport跳轉(zhuǎn)到網(wǎng)絡(luò)中任意節(jié)點,而不是僅限于當前節(jié)點的鄰居,這有助于避免游走時長時間局限在網(wǎng)絡(luò)的某個局部區(qū)域,從而促進整個網(wǎng)絡(luò)的全面探索。該機制可以表達為:定義跳轉(zhuǎn)概率pteleport,在每一步游走中,從整個網(wǎng)絡(luò)中隨機選擇一個節(jié)點作為下一個節(jié)點,否則就從當前節(jié)點的鄰居中選擇下一個節(jié)點。形式化為式(1):
next_node=random_nodewith probability pteleport
neighbor_nodewith probability 1-pteleport(1)
其次,采取動態(tài)調(diào)整記憶長度策略提高靈活性和效率。動態(tài)調(diào)整記憶長度意味著根據(jù)隨機游走的上下文或歷史信息調(diào)整游走者記住的步數(shù),能夠根據(jù)游走節(jié)點在網(wǎng)絡(luò)中的位置和經(jīng)過的節(jié)點類型靈活調(diào)整其行為。定義記憶長度調(diào)整規(guī)則后,可在游走過程中根據(jù)規(guī)則調(diào)整記憶長度。記憶長度τ是指游走者記住的最近訪問節(jié)點的數(shù)量,如果游走者在最近的τmax步中訪問的唯一節(jié)點數(shù)少于τmax/2,則增加記憶長度(最多到τmax),否則減少記憶長度(最少到τmin)。形式化為式(2):
τnew=min(τmax,τ+1)if|unique(Vt-τmax:t)|<τmax2
max(τmin,τ-1)otherwise(2)
其中,Vt-τmax:t表示從時間t-τmax到t的訪問節(jié)點集合。這兩種策略使隨機游走過程更有效地探索大規(guī)模稀疏的科學(xué)—技術(shù)知識網(wǎng)絡(luò),避免長時間在局部區(qū)域徘徊,同時根據(jù)網(wǎng)絡(luò)的特性和游走的狀態(tài)靈活調(diào)整行為,從而更全面地反映科學(xué)—技術(shù)知識網(wǎng)絡(luò)結(jié)構(gòu)。
為比較改進方法與已有方法的性能差異,選擇兩種基線方法進行對比。基于經(jīng)典多維尺度變化的方法(CMDS Method)和基于有限記憶元隨機游走的方法(FARW Method)。通過在合成網(wǎng)絡(luò)和真實知識網(wǎng)絡(luò)上進行比較,進而對比不同網(wǎng)絡(luò)類型的穩(wěn)健性。合成網(wǎng)絡(luò)選擇隨機網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)和無標度網(wǎng)絡(luò),為有效地控制變量,為每個合成網(wǎng)絡(luò)生成相同數(shù)量節(jié)點。真實網(wǎng)絡(luò)選擇在構(gòu)建的時序科學(xué)—技術(shù)知識網(wǎng)絡(luò)上隨機采樣進行比較。采用以下4個指標展開不同方法間有效性評估:
1)揭示網(wǎng)絡(luò)結(jié)構(gòu)屬性的能力。每種網(wǎng)絡(luò)類型具有不同的拓撲結(jié)構(gòu)和動態(tài)特性,這些特性在轉(zhuǎn)換過程中會被映射到時間序列上形成各自獨有的特征?;谠撝笜吮容^3種方法生成的時間序列是否能夠可靠地反映網(wǎng)絡(luò)關(guān)鍵結(jié)構(gòu)屬性。
2)反映網(wǎng)絡(luò)動態(tài)的能力。多尺度熵(Multi-Scale Entropy,MSE)能夠從復(fù)雜性角度反映網(wǎng)絡(luò)動態(tài)行為。MSE計算可簡單表示為式(3):
MSE(τ)=SampEn(m,r,Y(τ))(3)
其中,SampEn(m,r,Y(τ))表示在尺度τ上,給定嵌入維度m和相似容限r(nóng)的樣本熵。量化和比較不同網(wǎng)絡(luò)類型生成的非線性系統(tǒng)多尺度熵,分析3種方法在網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致更復(fù)雜或更可預(yù)測的動態(tài)行為,進而了解這些網(wǎng)絡(luò)結(jié)構(gòu)特性如何影響其復(fù)雜性。
3)時間消耗表現(xiàn)。時間效率是一個重要的考量因素,尤其是在處理大規(guī)模科技知識網(wǎng)絡(luò)時,能夠直觀地反映出算法處理數(shù)據(jù)的速度,協(xié)助評估算法的復(fù)雜度和效率。比較3種方法在不同類型和不同規(guī)模的網(wǎng)絡(luò)(從100~10 000)生成的時間差異。
4)節(jié)點多樣性。比較不同方法生成節(jié)點的多樣性。節(jié)點的多樣性越高,表明該方法捕獲網(wǎng)絡(luò)結(jié)構(gòu)的能力越全面。通過計算結(jié)果中唯一節(jié)點數(shù)量占網(wǎng)絡(luò)中總唯一節(jié)點數(shù)量的比例進行評估,如式(4)所示:
Diversity=Set(time_series_nodes)Set(network_nodes)(4)
其中,Set(time_series_nodes)表示方法生成結(jié)果中唯一節(jié)點的數(shù)量,Set(network_nodes)表示整個網(wǎng)絡(luò)中唯一節(jié)點的數(shù)量。
2.3 科學(xué)—技術(shù)協(xié)同演化測度
為全面地測度科學(xué)技術(shù)在結(jié)構(gòu)和時序方面的耦合度,從時間序列和知識網(wǎng)絡(luò)角度并行測度科學(xué)—技術(shù)知識耦合與協(xié)同演化行為?;谘莼叫裕?0]指標測度所生成的科學(xué)與技術(shù)時間序列之間協(xié)同演化,進而發(fā)現(xiàn)科技關(guān)聯(lián)在不同階段的同步性。演化同步性能夠反映在某一特定年份內(nèi)科學(xué)和技術(shù)序列是否表現(xiàn)出同步變化,即這兩個系統(tǒng)狀態(tài)變化在各自的鄰域中是否同步。當兩個序列在同一時間段內(nèi)顯示同步變化的特征,則認為科學(xué)技術(shù)系統(tǒng)在給定時間域下具有較高的同步性。這有助于觀察科學(xué)技術(shù)的協(xié)同工作方式、特定條件下功能連接,以及如何在動態(tài)環(huán)境中共同演化。利用Synchronization Likelihood(SL)[41]作為測度指標。SL是一種基于時間序列分析的統(tǒng)計方法,用于評估兩個系統(tǒng)在演化中的同步性,如式(5)所示:
SL=1N∑Ni=1Pi(5)
其中,N表示所生成的科學(xué)技術(shù)序列的長度,Pi表示第i個序列下同步概率。SL值越小,表示兩個序列在給定參數(shù)下具有較高的同步可能性,意味著兩個系統(tǒng)表現(xiàn)出高度協(xié)同的演化行為。而較大的SL值解釋為這兩個系統(tǒng)在觀測期間的協(xié)同演化程度較低,或者相互影響較小。
針對科學(xué)—技術(shù)知識網(wǎng)絡(luò)的結(jié)構(gòu)耦合,時序科學(xué)與技術(shù)知識網(wǎng)絡(luò)距離測度可視為網(wǎng)絡(luò)比較或者圖同構(gòu)問題的擴展,本研究使用Degree Divergence算法進行計算。Degree Divergence考慮每個知識網(wǎng)絡(luò)的度分布狀態(tài),通過比較兩個網(wǎng)絡(luò)度分布的JS散度測度網(wǎng)絡(luò)距離。給定科學(xué)知識網(wǎng)絡(luò)為G1,技術(shù)知識網(wǎng)絡(luò)為G2,其對應(yīng)的度分布分別為概率分布P和Q,則JS散度定義為式(6):
JS(P‖Q)=12(KL(P‖M))+12(KL(Q‖M))(6)
其中,KL(P‖M)和KL(Q‖M)分別表示G1和G2的度分布P和Q與它們的平均分布M之間的差異。這兩者越大,意味著各自的分布偏離其平均狀態(tài)的程度越大。JS散度值越大,表示兩個網(wǎng)絡(luò)的度分布差異越大,即科學(xué)與技術(shù)知識網(wǎng)絡(luò)之間的結(jié)構(gòu)差異越大,說明它們在結(jié)構(gòu)耦合層面的相似度越低。通過計算Degree Divergence指標,能夠分析科學(xué)—技術(shù)知識網(wǎng)絡(luò)在結(jié)構(gòu)層面的差異性,進而評估其耦合程度。
3 人工智能領(lǐng)域?qū)嵶C研究
3.1 實證領(lǐng)域選擇
本研究以人工智能(Artificial Intelligence,AI)領(lǐng)域為例進行實證分析,人工智能包含基礎(chǔ)性的科學(xué)知識和工程性的技術(shù)知識,具有較為典型的科學(xué)技術(shù)融合特征。人工智能已在各個行業(yè)領(lǐng)域展現(xiàn)出巨大發(fā)展?jié)摿?,并在很多學(xué)科產(chǎn)生顛覆性的沖擊。AI領(lǐng)域科學(xué)論文主要從Web of Science數(shù)據(jù)庫獲取,技術(shù)專利來自USPTO專利數(shù)據(jù)庫??茖W(xué)論文和技術(shù)專利分別采取關(guān)鍵詞檢索和IPC分類號檢索方式?;诒緢F隊前期研究基礎(chǔ),分別構(gòu)造AI領(lǐng)域科學(xué)文獻與技術(shù)專利檢索式,通過篩選2000—2022年的研究成果數(shù)據(jù),最終得到論文794 083篇、專利141 902條。
3.2 知識單元抽取與對齊分析
本研究采用ChatGPT+人工校對的方式標注數(shù)據(jù),以用于評估不同關(guān)鍵詞抽取算法的性能。從所有語料中隨機采樣230篇(每年論文和專利分別隨機采樣5篇以確保采樣均勻),然后用ChatGPT的API進行預(yù)標注,每篇文獻標注5個詞(標題抽取2個關(guān)鍵詞,摘要抽取3個),然后由3名博士研究生對ChatGPT標注結(jié)果進行人工校對,最終共標注1 150個關(guān)鍵詞。
不同算法在關(guān)鍵詞抽取的效果如圖2所示,本研究使用小提琴圖直觀地展示5種算法在4種評估指標上的表現(xiàn),最終選擇RAKE作為科技知識單元抽取最佳算法,主要原因如下:在完全匹配指標(圖2(a))中,RAKE和Yake算法在F@5得分方面均表現(xiàn)優(yōu)異,二者分數(shù)的集中值較高,中位數(shù)分數(shù)位于較高水平,并且在精確度上的得分分布有一部分超過60%,表明RAKE和Yake在知識單元精確度上具有顯著優(yōu)勢,能夠滿足對準確性的要求。在近似匹配指標(圖2(b))上,RAKE的整體分布雖略有波動,但其得分集中在0.4左右,與其他算法接近。此外,盡管RAKE在時間消耗上不是最快的(圖2(d)),但相比Yake等算法,其處理速度更高效。綜上所述,RAKE算法在完全匹配上表現(xiàn)出色,在保持較高精確度的同時,其時間消耗相對適中,符合大規(guī)模批量處理需求。
基于RAKE算法分別從論文和專利中抽取關(guān)鍵詞,詞的范圍設(shè)定為2~3以確保詞的有效性。雖然N-gram設(shè)置為2~3,但結(jié)果中仍然包含類似research、analysis、method、system等表義很廣泛但無特殊意義的詞,所以二次預(yù)處理將詞范圍限定在2~3。最終從論文中抽取3 524 558個關(guān)鍵詞,專利中抽取609 963個關(guān)鍵詞。使用嵌入表示+向量搜索+相似度計算處理大量的關(guān)鍵詞消除知識元粒度不匹配的問題。這一環(huán)節(jié)中,閾值的設(shè)定決定知識單元對齊的粒度,過高的閾值可能限制相似術(shù)語合并,而過低的閾值可能將原本不同的術(shù)語錯誤地對齊。為此,本研究從數(shù)據(jù)中進行多次隨機采樣,然后多次調(diào)整閾值大?。ㄩ撝禍y試范圍為0.75~0.95),經(jīng)過人工觀測、對比校驗,最終確定相似度閾值設(shè)置為0.9,將對齊輸出結(jié)果保存為JSON格式,最終將2 013 201個詞(去重)對齊到188 917個標準關(guān)鍵詞。知識單元對齊前后的部分結(jié)果如表1所示。
3.3 科技知識網(wǎng)絡(luò)構(gòu)建與結(jié)構(gòu)分析
構(gòu)建每年的科學(xué)知識網(wǎng)絡(luò)和技術(shù)知識網(wǎng)絡(luò),該網(wǎng)絡(luò)是無向的且不考慮節(jié)點權(quán)重和邊權(quán)重。去除度小于及等于1的節(jié)點和邊,并刪除自連接的邊以減少冗余。進一步統(tǒng)計每年科學(xué)知識網(wǎng)絡(luò)和技術(shù)知識網(wǎng)絡(luò)結(jié)構(gòu)特征,包括節(jié)點數(shù)量、組件數(shù)量、平均度、度分布情況,如圖3所示。
圖3(a)~(c)分別展示科學(xué)與技術(shù)網(wǎng)絡(luò)的節(jié)點數(shù)量、組件數(shù)量和平均度變化(紫色為科學(xué)網(wǎng)絡(luò),黃色為技術(shù)網(wǎng)絡(luò))。在各子圖中,科學(xué)知識網(wǎng)絡(luò)各項指標都高于技術(shù)知識網(wǎng)絡(luò),可能是由于原始數(shù)據(jù)中論文與專利數(shù)量差異造成的,因此重點關(guān)注二者隨時間變化趨勢。圖3(a)顯示科學(xué)和技術(shù)網(wǎng)絡(luò)節(jié)點數(shù)均上升,科學(xué)網(wǎng)絡(luò)從104級增長至105以上,增速顯著高于技術(shù)網(wǎng)絡(luò);圖3(b)表明兩網(wǎng)絡(luò)組件數(shù)量均增加,科學(xué)網(wǎng)絡(luò)從約2 000增至8 000以上,技術(shù)網(wǎng)絡(luò)從約1 000增至4 000,組件增多反映網(wǎng)絡(luò)更加稀疏,節(jié)點趨于形成孤立群體,知識單元多樣化且存在大量潛在未發(fā)現(xiàn)的聯(lián)系。圖3(c)顯示科學(xué)網(wǎng)絡(luò)平均度從2000年的約4.5增至2022年的5.5以上,技術(shù)網(wǎng)絡(luò)從約3.5增至4以上,表明節(jié)點連接數(shù)增加,局部聯(lián)系更緊密,但因獨立組件較多,整體連通性仍較弱。
圖3(d)~(e)分別展示每年科學(xué)和技術(shù)網(wǎng)絡(luò)的度分布,使用雙對數(shù)坐標可視化。橫軸為節(jié)點度,縱軸為度的概率密度,黑線為度分布擬合。每個子圖展示特定年份中節(jié)點度與度概率密度的關(guān)系,表明大多數(shù)節(jié)點的度較小,且度概率密度隨度增加迅速下降。AI領(lǐng)域科學(xué)和技術(shù)網(wǎng)絡(luò)均呈現(xiàn)冪律分布,度高的節(jié)點占比低,大部分節(jié)點連接較少,符合無標度網(wǎng)絡(luò)特征。少數(shù)知識樞紐節(jié)點主導(dǎo)網(wǎng)絡(luò),促進不同主題間的知識交流和傳播,而大多數(shù)節(jié)點保持知識多樣性。2000—2022年,網(wǎng)絡(luò)逐漸變得更為稠密,呈現(xiàn)知識累積特性,新增網(wǎng)絡(luò)傾向連接主導(dǎo)節(jié)點,符合無標度網(wǎng)絡(luò)的偏好依附性。
3.4 “網(wǎng)絡(luò)—時序”相互表征效果評估
知識網(wǎng)絡(luò)與時間序列相互表征方法在合成網(wǎng)絡(luò)和真實網(wǎng)絡(luò)上的對比實驗如圖4所示,其中子圖4(a)~(c)展示合成網(wǎng)絡(luò)上的結(jié)果。圖4(a)為隨機網(wǎng)絡(luò)結(jié)果,橫坐標為時間步數(shù),縱坐標為振幅。隨機網(wǎng)絡(luò)中節(jié)點連接均勻,3種方法生成的序列表現(xiàn)為均勻波動。圖4(b)為小世界網(wǎng)絡(luò)結(jié)果,特征為短路徑長度和高聚類系數(shù)。改進方法和FMRW方法生成的序列體現(xiàn)小世界特性,表現(xiàn)為較快的變化周期和高度相關(guān)性,而CMDS序列則展現(xiàn)平滑波動,周期性較弱。圖4(c)為無標度網(wǎng)絡(luò)結(jié)果,特征為冪律度分布,少數(shù)節(jié)點連接度高。改進方法和FMRW方法生成的序列表現(xiàn)出復(fù)雜且不規(guī)則的動態(tài),更符合無標度網(wǎng)絡(luò)特性,而CMDS方法產(chǎn)生的序列較為規(guī)則,雖然在局部出現(xiàn)劇烈變動,但這種趨勢和無標度網(wǎng)絡(luò)的二八分布并不吻合。子圖4(d)~(g)是在真實知識網(wǎng)絡(luò)上的表現(xiàn),其中圖4(d)和(e)分別是科學(xué)知識網(wǎng)絡(luò)度分布以及生成序列,科學(xué)知識網(wǎng)絡(luò)來自2001年(節(jié)點22 849,邊50 408),顯示出二八分布。改進方法和FMRW方法生成序列符合這個特征,而CMDS生成序列更類似于隨機。圖4(f)和(g)分別是技術(shù)知識網(wǎng)絡(luò)度分布以及生成序列,技術(shù)知識網(wǎng)絡(luò)來自2008年(節(jié)點10 538,邊19 124),符合無標度特性,CMDS和FMRW生成時間序列要么是隨機波動,要么處于局部游走狀態(tài),未能反映其網(wǎng)絡(luò)結(jié)構(gòu),而改進方法穩(wěn)定地挖掘技術(shù)知識網(wǎng)絡(luò)的無標度屬性??傮w而言,改進方法和FMRW方法在合成網(wǎng)絡(luò)中能夠有效捕捉不同類型網(wǎng)絡(luò)的結(jié)構(gòu)特征,二者的差異主要體現(xiàn)在振幅上。對于真實知識網(wǎng)絡(luò),改進方法能夠準確反映二八分布和無標度特性,而FMRW方法在真實網(wǎng)絡(luò)中的表現(xiàn)不穩(wěn)定,尤其對長程跳轉(zhuǎn)敏感度低,容易陷入局部特征。
圖5展示網(wǎng)絡(luò)動態(tài)能力的多尺度熵分析。子圖5(a)~(c)分別呈現(xiàn)合成網(wǎng)絡(luò)上不同類型網(wǎng)絡(luò)的多尺度熵結(jié)果。圖5(a)顯示,隨機網(wǎng)絡(luò)的熵值變化平緩,復(fù)雜性較低;改進方法和FMRW的熵值波動較大,CMDS則較為平穩(wěn)。圖5(b)表現(xiàn)小世界網(wǎng)絡(luò)的熵,短路徑加速節(jié)點擴散,小尺度復(fù)雜性較高,熵值隨尺度增大而上升,改進方法和FMRW較好地捕捉局部到全局的動態(tài)過渡。圖5(c)則描述無標度網(wǎng)絡(luò)的熵值變化,小尺度上呈現(xiàn)混沌特性,熵值上升,大尺度上趨于有序,改進方法和FMRW更能揭示無標度網(wǎng)絡(luò)的復(fù)雜性。圖5(d)和(e)分別展示科學(xué)和技術(shù)知識網(wǎng)絡(luò)的多尺度熵。CMDS在兩者上表現(xiàn)穩(wěn)定,無明顯波動;而改進方法和FMRW在不同尺度上趨勢相似,科學(xué)網(wǎng)絡(luò)復(fù)雜度上升并逐漸平穩(wěn),技術(shù)網(wǎng)絡(luò)則表現(xiàn)出更強的波動性。兩者的差異可能源于隨機游走策略的不同。通過對非線性系統(tǒng)復(fù)雜度的比較,發(fā)現(xiàn)改進方法和FMRW具有相似的性能,能夠有效捕捉不同類型網(wǎng)絡(luò)的動態(tài)行為和復(fù)雜性。
為比較不同規(guī)模下時間消耗,合成網(wǎng)絡(luò)分別設(shè)置節(jié)點數(shù)量為100、1 000、10 000,每個節(jié)點規(guī)模下時間消耗(毫秒為單位)取隨機網(wǎng)絡(luò)(er_graph)、小世界網(wǎng)絡(luò)(ws_graph)、無標度網(wǎng)絡(luò)(ba_graph)三者平均值。對于科學(xué)知識網(wǎng)絡(luò)(sci_graph,10 538個節(jié)點)和技術(shù)知識網(wǎng)絡(luò)(tech_graph,22 849個節(jié)點),直接測量其時間消耗,結(jié)果如圖6(a)所示。FMRW速度最快,改進方法次之,由于引入長程跳轉(zhuǎn)機制和動態(tài)調(diào)整記憶長度策略導(dǎo)致游走過程中增加概率計算。而CMDS方法由于是計算密集型且內(nèi)存需求高的過程,顯示出很高的時間消耗。通過計算3種算法的多樣性,游走步長設(shè)置為與網(wǎng)絡(luò)規(guī)模的大小一致,結(jié)果如圖6(b)所示。由于CMDS方法將整個網(wǎng)絡(luò)轉(zhuǎn)換為距離矩陣,導(dǎo)致所有節(jié)點都參與到時間序列中,默認多樣性為100%。改進方法與FMRW的方法具有明顯差異,在5種不同類型的網(wǎng)絡(luò)上,改進方法所生成時間序列多樣性比FMRW更高。在合成網(wǎng)絡(luò)上,改進方法多樣性超過50%,而FMRW方法約40%。在真實網(wǎng)絡(luò)上,科學(xué)和技術(shù)知識網(wǎng)絡(luò)都超過30%,二者幾乎持平。而FMRW方法僅為1.4%和0.5%。雖然改進方法與FMRW方法在合成網(wǎng)絡(luò)上的差距不大,但在真實網(wǎng)絡(luò)上二者拉開差距,差額幾乎超過30%,說明本研究提出的改進方法在真實的知識網(wǎng)絡(luò)上更具有適應(yīng)性。
綜上所述,通過在合成網(wǎng)絡(luò)和真實網(wǎng)絡(luò)上的比較,改進方法具有兩方面優(yōu)勢。其一,引入長程跳轉(zhuǎn)機制避免游走者局限于局部區(qū)域,生成的序列能夠穩(wěn)定反映知識網(wǎng)絡(luò)的整體結(jié)構(gòu),并識別不同尺度下的多尺度熵變化。而CMDS生成的序列同質(zhì)性強,難以反映網(wǎng)絡(luò)結(jié)構(gòu);FMRW對長距離跳轉(zhuǎn)不敏感,容易停留在無標度網(wǎng)絡(luò)的局部區(qū)域,捕獲整體結(jié)構(gòu)能力不足。其二,改進方法通過動態(tài)調(diào)整記憶長度,能夠遍歷更廣泛區(qū)域,對識別真實知識網(wǎng)絡(luò)的時間序列有重要幫助;而CMDS雖然具有最高多樣性,但時間復(fù)雜度較高且難以準確反映網(wǎng)絡(luò)結(jié)構(gòu)。
3.5 科學(xué)技術(shù)協(xié)同演化測度
基于上述分析,本研究將提出的方法應(yīng)用于2000—2022年的所有科學(xué)—技術(shù)知識網(wǎng)絡(luò)。由于科學(xué)知識網(wǎng)絡(luò)和技術(shù)知識網(wǎng)絡(luò)的規(guī)模不同,采用二者規(guī)模的平均值作為步長,利用SL指標計算科技協(xié)同演化指數(shù)。通過相空間重構(gòu)和KD-Tree加速鄰域搜索,最終得到圖7(a)所示的計算結(jié)果(藍線)。SL值反映人工智能領(lǐng)域科學(xué)與技術(shù)知識序列的協(xié)同演化變化。在2000—2005年,SL值較高(最低0.2089,最高0.3002),表明AI領(lǐng)域科學(xué)與技術(shù)協(xié)同性較弱,主要由于技術(shù)標準不統(tǒng)一和創(chuàng)新分散。2006—2010年,SL值下降至最低點0.1837,AI技術(shù)逐漸集中在機器學(xué)習(xí)等領(lǐng)域,協(xié)同創(chuàng)新增多,促進了科學(xué)與技術(shù)的同步發(fā)展。2011—2015年,SL值在0.1639~0.2315之間波動,深度學(xué)習(xí)的突破和技術(shù)應(yīng)用擴展促進兩者關(guān)系的進一步密切。2016—2022年,SL值保持平穩(wěn)并處于較低水平(2016年為0.1921,2022年為0.1773),表明AI領(lǐng)域的協(xié)同互動更加緊密,跨領(lǐng)域合作加強,技術(shù)整合提高協(xié)同效應(yīng)。
整體而言,2000—2022年的科學(xué)技術(shù)協(xié)同指標值整體呈現(xiàn)波動式下降的趨勢,這表明隨著時間的推移,科學(xué)與技術(shù)系統(tǒng)之間的協(xié)同演化變得越來越緊密?;A(chǔ)科學(xué)知識的逐步完善,人工智能技術(shù)的廣泛應(yīng)用,以及跨領(lǐng)域合作的加強,促使AI發(fā)展路徑的多樣化以及領(lǐng)域內(nèi)協(xié)同創(chuàng)新的提升。這與科學(xué)—技術(shù)知識網(wǎng)絡(luò)所反映的知識互聯(lián)互通基本一致,隨著AI基礎(chǔ)科學(xué)研究取得不斷的進展,相對應(yīng)的技術(shù)進步也隨之加快,新技術(shù)的出現(xiàn)又反過來促進科學(xué)理論的驗證和發(fā)展。這種正向循環(huán)的關(guān)系加速科學(xué)發(fā)現(xiàn)和技術(shù)應(yīng)用之間日益增強的協(xié)同作用,二者相互促進,共同推動人工智能與衍生領(lǐng)域的高度協(xié)同和高質(zhì)量發(fā)展。
此外,基于Degree Divergence算法計算時序科學(xué)技術(shù)知識網(wǎng)絡(luò)距離,如圖7(b)所示(紅色線)。與科學(xué)技術(shù)知識序列同步性相反,每年科學(xué)知識網(wǎng)絡(luò)與技術(shù)知識網(wǎng)絡(luò)的距離呈現(xiàn)波動式增長的趨勢,這表明二者的知識網(wǎng)絡(luò)結(jié)構(gòu)逐年增大。例如,在2002年該指標達到較低的值,可能是由于這一階段科學(xué)和技術(shù)之間的相互關(guān)聯(lián)較強,二者的結(jié)構(gòu)相似性較高。2003年,科學(xué)和技術(shù)知識網(wǎng)絡(luò)結(jié)構(gòu)開始出現(xiàn)明顯差異,Degree Divergence值顯著上升,可能原因是AI領(lǐng)域內(nèi)不同技術(shù)分支的快速發(fā)展以及科學(xué)研究領(lǐng)域的多樣化,導(dǎo)致科學(xué)和技術(shù)之間的知識結(jié)構(gòu)關(guān)聯(lián)性減弱。2004—2007年,Degree Divergence值持續(xù)上升,科學(xué)和技術(shù)知識網(wǎng)絡(luò)的結(jié)構(gòu)差異進一步擴大,這一時期AI技術(shù)領(lǐng)域內(nèi)的科學(xué)技術(shù)路線開始逐漸明確和分化,各技術(shù)分支產(chǎn)生不同的應(yīng)用方向,從而導(dǎo)致科學(xué)與技術(shù)知識網(wǎng)絡(luò)的結(jié)構(gòu)差異加大。類似地,2008—2022年該指標繼續(xù)呈現(xiàn)波動上升的趨勢,特別是隨著AI研究與應(yīng)用的進一步成熟,科學(xué)研究領(lǐng)域的探索更加深入和細化,不同領(lǐng)域之間的知識關(guān)聯(lián)變得更加復(fù)雜,導(dǎo)致科學(xué)和技術(shù)知識網(wǎng)絡(luò)之間產(chǎn)生新的知識壁壘??傮w而言,盡管科學(xué)技術(shù)知識序列的協(xié)同性逐漸增強,但Degree Divergence值的增長說明科學(xué)和技術(shù)知識網(wǎng)絡(luò)在結(jié)構(gòu)上的關(guān)聯(lián)性逐漸減弱。二者的區(qū)別表明人工智能在發(fā)展過程中,隨著技術(shù)分支的多樣化和科學(xué)研究的細化,知識網(wǎng)絡(luò)的結(jié)構(gòu)差異性增加,但科學(xué)技術(shù)知識的協(xié)同作用在增強。
4 總 結(jié)
本研究構(gòu)建人工智能領(lǐng)域科學(xué)—技術(shù)知識網(wǎng)絡(luò),發(fā)現(xiàn)具有較為明顯的無標度特性。少數(shù)科學(xué)技術(shù)知識作為綜合性的知識樞紐,對知識網(wǎng)絡(luò)起著主導(dǎo)作用,它們匯聚來自不同主題的知識,使得網(wǎng)絡(luò)中不同主題能夠相互連接和交流,通過大量的連接迅速傳播知識到整個知識網(wǎng)絡(luò)。而其他大多數(shù)知識點擁有很少的連接性,在保持知識傳遞作用的同時維持著知識多樣性。運用所改進的方法對科學(xué)—技術(shù)知識網(wǎng)絡(luò)進行等價轉(zhuǎn)換,轉(zhuǎn)化為非線性的二維時間序列,在4種指標上進行比較,改進方法能夠較為有效地挖掘科學(xué)—技術(shù)知識網(wǎng)絡(luò)的復(fù)雜關(guān)聯(lián)。進一步地,對所有年份的科學(xué)—技術(shù)知識網(wǎng)絡(luò)進行非線性轉(zhuǎn)化,計算科學(xué)技術(shù)在不同年份的協(xié)同演化行為,并結(jié)合知識網(wǎng)絡(luò)指標從多維視角探索新興產(chǎn)業(yè)領(lǐng)域前沿科技耦合與協(xié)同演化行為。結(jié)果分析發(fā)現(xiàn),人工智能領(lǐng)域在科學(xué)技術(shù)知識協(xié)同方面的關(guān)聯(lián)越來越緊密,由于科學(xué)研究細化和技術(shù)分化,科學(xué)與技術(shù)知識網(wǎng)絡(luò)的結(jié)構(gòu)差異性正在逐年增加。
基于上述分析和發(fā)現(xiàn),本研究進一步探討以下政策建議的可行性:
1)加強跨領(lǐng)域協(xié)同創(chuàng)新,促進知識傳遞與整合。由于科學(xué)與技術(shù)知識的高效傳遞和網(wǎng)絡(luò)協(xié)同依賴于少數(shù)樞紐節(jié)點的作用,這些樞紐節(jié)點匯聚來自不同主題的知識。為增強人工智能領(lǐng)域的創(chuàng)新活力,應(yīng)當支持跨學(xué)科、跨領(lǐng)域的協(xié)同創(chuàng)新平臺建設(shè),推動科技與產(chǎn)業(yè)界之間的深度合作。特別是鼓勵基礎(chǔ)科學(xué)、應(yīng)用技術(shù)與產(chǎn)業(yè)需求之間的對接,促進知識的跨領(lǐng)域融合和共享。
2)推動知識網(wǎng)絡(luò)多樣性與穩(wěn)定性。隨著科學(xué)技術(shù)知識網(wǎng)絡(luò)的結(jié)構(gòu)差異性逐年增加,網(wǎng)絡(luò)中的知識多樣性得到了有效保障,但也面臨知識碎片化、信息孤島等問題。從決策視角出發(fā),應(yīng)注重對各類科研機構(gòu)和企業(yè)的支持,尤其是在知識點較為分散、缺乏連接性的領(lǐng)域。通過政策引導(dǎo),促進領(lǐng)域的融合與知識共享,幫助減少知識空白,并促進各類創(chuàng)新主體的多樣化發(fā)展。
3)促進科學(xué)與技術(shù)協(xié)同演化,提升創(chuàng)新能力。人工智能領(lǐng)域科學(xué)與技術(shù)知識的協(xié)同越來越緊密,但同時科學(xué)與技術(shù)知識網(wǎng)絡(luò)的結(jié)構(gòu)差異性也在加大。這表明科學(xué)與技術(shù)的協(xié)同發(fā)展正在逐步走向?qū)I(yè)化和細分化。各類創(chuàng)新主體應(yīng)加強科技政策的協(xié)同性,推動科學(xué)技術(shù)的協(xié)同演化,特別是在新興技術(shù)領(lǐng)域,支持跨部門、跨行業(yè)的合作,增強各類創(chuàng)新主體之間的協(xié)同效應(yīng)。
參考文獻
[1]韓曉彤,朱東華,汪雪鋒.科學(xué)推動下技術(shù)機會發(fā)現(xiàn)方法研究[J].圖書情報工作,2022,66(10):19-32.
[2]Ba Z C,Liang Z T.A Novel Approach to Measuring Science-Technology Linkage:From the Perspective of Knowledge Network Coupling[J].Journal of Informetrics,2021,15(3):101167.
[3]董坤,許海云,羅瑞,等.科學(xué)與技術(shù)的關(guān)系分析研究綜述[J].情報學(xué)報,2018,37(6):642-652.
[4]Narin F,Noma E.Is Technology Becoming Science?[J].Scientometrics,1985,7(3):369-381.
[5]王剛波,官建成.納米科學(xué)與技術(shù)之間的聯(lián)系:基于學(xué)術(shù)型發(fā)明人的分析[J].中國軟科學(xué),2009(12):71-79.
[6]Verbeek A,Debackere K,Luwel M,et al.Linking Science to Technology:Using Bibliographic References in Patents to Build Linkage Schemes[J].Scientometrics,2002,54(3):399-420.
[7]Xu S,Zhai D S,Wang F F,et al.A Novel Method for Topic Linkages Between Scientific Publications and Patents[J].Journal of the Association for Information Science and Technology,2019,70(9):1026-1042.
[8]Meng K,Ba Z C,Ma Y X,et al.A Network Coupling Approach to Detecting Hierarchical Linkages Between Science and Technology[J].Journal of the Association for Information Science and Technology,2024,75(2):167-187.
[9]Chen X,Ye P F,Huang L,et al.Exploring Science-Technology Linkages:A Deep Learning-Empowered Solution[J].Information Processing amp; Management,2023,60(2):103255.
[10]Schwartz G A.Complex Networks Reveal Emergent Interdisciplinary Knowledge in Wikipedia[J].Humanities and Social Sciences Communications,2021,8(1):127.
[11]Painter D T,Daniels B C,Laubichler M D.Innovations are Disproportionately Likely in the Periphery of a Scientific Network[J].Theory in Biosciences,2021,140(4):391-399.
[12]Lacasa L,Luque B,Ballesteros F,et al.From Time Series to Complex Networks:The Visibility Graph[J].Proceedings of the National Academy of Sciences of the United States of America,2008,105(13):4972-4975.
[13]Ahmadpoor M,Jones B F.The Dual Frontier:Patented Inventions and Prior Scientific Advance[J].Science,2017,357(6351):583-587.
[14]Han F,Magee C L.Testing the Science/Technology Relationship by Analysis of Patent Citations of Scientific Papers after Decomposition of Both Science and Technology[J].Scientometrics,2018,116(2):767-796.
[15]Sun X L,Ding K.Identifying and Tracking Scientific and Technological Knowledge Memes from Citation Networks of Publications and Patents[J].Scientometrics,2018,116(3):1735-1748.
[16]齊燕.基于專利引文分析的領(lǐng)域科技關(guān)聯(lián)發(fā)展態(tài)勢探究——以HCV為例[J].圖書情報工作,2019,63(23):97-105.
[17]肖國華,王春,姜禾,等.專利分析評價指標體系的設(shè)計與構(gòu)建[J].圖書情報工作,2008,52(3):96-99.
[18]董玨,楊眉,郭晶,等.面向高校科技轉(zhuǎn)化效率評估的“科學(xué)—技術(shù)”關(guān)聯(lián)性實證研究[J].大學(xué)圖書館學(xué)報,2016,34(5):38-45.
[19]Raan A F J.Sleeping Beauties Cited in Patents:Is There also a Dormitory of Inventions?[J].Scientometrics,2017,110(3):1123-1156.
[20]Raan Anthony F J.Patent Citations Analysis and Its Value in Research Evaluation:A Review and a New Approach to Map Technology-Relevant Research[J].Journal of Data and Information Science,2017,2(1):13-50.
[21]Zhang G J,Liu L N,Wei F F.Key Nodes Mining in the Inventor-Author Knowledge Diffusion Network[J].Scientometrics,2019,118(3):721-735.
[22]Chang S H.A Pilot Study on the Connection Between Scientific Fields and Patent Classification Systems[J].Scientometrics,2018,114(3):951-970.
[23]Wang G B,Guan J C.Measuring Science-Technology Interactions Using Patent Citations and Author-Inventor Links:An Exploration Analysis from Chinese Nanotechnology[J].Journal of Nanoparticle Research,2011,13(12):6245-6262.
[24]賴院根,曾建勛.期刊論文與專利文獻的整合框架研究[J].圖書情報工作,2010,54(4):109-112.
[25]李睿,容軍鳳,張玲玲.試論“科學(xué)—技術(shù)關(guān)聯(lián)” 計量模型的不足及改進——學(xué)科—領(lǐng)域?qū)?yīng)優(yōu)化視角[J].圖書情報工作,2013,57(5):86-93.
[26]Magerman T,Van Looy B,Debackere K.Does Involvement in Patenting Jeopardize Ones Academic Footprint?An Analysis of Patent-Paper Pairs in Biotechnology[J].Research Policy,2015,44(9):1702-1713.
[27]孫曉玲,丁堃.基于知識基因發(fā)現(xiàn)的科學(xué)與技術(shù)關(guān)系研究[J].情報理論與實踐,2017,40(6):23-26,17.
[28]Ranaei S,Suominen A,Dedehayir O.A Topic Model Analysis of Science and Technology Linkages:A Case Study in Pharmaceutical Industry[C]//2017 IEEE Technology amp; Engineering Management Conference(TEMSCON).Santa Clara:IEEE,2017:49-54.