2022年11月,智能問答系統(tǒng)ChatGPT的問世激發(fā)了全球范圍內(nèi)研究人工智能的新熱潮,人工智能(AI)這一概念最早由麥卡錫等科學(xué)家在1956 年的達(dá)特茅斯會(huì)議中提出[1],此舉標(biāo)志著人工智能學(xué)科的誕生。作為一門致力于模擬、拓展和增強(qiáng)人類智能的新興技術(shù)科學(xué)[2],人工智能在電力電子、交通運(yùn)輸、醫(yī)療健康、電信等[3-6]領(lǐng)域展現(xiàn)出廣泛的應(yīng)用前景。近年來,全球各科技大國競(jìng)相推出人工智能相關(guān)政策,以期在新一輪國際科技博弈中占據(jù)主導(dǎo)地位。歐盟的“數(shù)字歐洲計(jì)劃”、美國的“國家人工智能研發(fā)戰(zhàn)略計(jì)劃”等將人工智能上升為國家層面的戰(zhàn)略重點(diǎn)。我國也高度重視并積極推進(jìn)人工智能的發(fā)展,2017年國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》明確指出,要搶抓人工智能發(fā)展的重大戰(zhàn)略機(jī)遇,加快建設(shè)創(chuàng)新型國家和世界科技強(qiáng)國。此后,制定《國家人工智能產(chǎn)業(yè)綜合標(biāo)準(zhǔn)化體系建設(shè)指南》、《智能安全治理框架》等一系列實(shí)施方案和行動(dòng)計(jì)劃,從政策引導(dǎo)、技術(shù)創(chuàng)新、產(chǎn)業(yè)培育、安全保障等多個(gè)方面,為人工智能的健康可持續(xù)發(fā)展提供了有力支撐。
專利文獻(xiàn)作為承載知識(shí)和技術(shù)創(chuàng)新成果的重要媒介,具有極高的技術(shù)及經(jīng)濟(jì)價(jià)值,是技術(shù)挖掘的理想數(shù)據(jù)來源[。對(duì)特定領(lǐng)域海量專利文獻(xiàn)進(jìn)行主題分析,能夠全面系統(tǒng)地揭示專利數(shù)據(jù)背后的技術(shù)態(tài)勢(shì)和競(jìng)爭(zhēng)信息。基于此,本文開展面向人工智能領(lǐng)域的專利文獻(xiàn)主題演化與熱點(diǎn)主題識(shí)別研究,從主題強(qiáng)度和內(nèi)容兩個(gè)維度進(jìn)行技術(shù)主題演化分析,并引人多維指標(biāo)識(shí)別出階段性的熱點(diǎn)技術(shù)主題。本研究旨在協(xié)助研究人員更好地了解人工智能領(lǐng)域的技術(shù)發(fā)展脈絡(luò)與未來趨勢(shì),及時(shí)把握研究方向,同時(shí)為技術(shù)創(chuàng)新與決策提供一定的參考借鑒。
1文獻(xiàn)綜述
1.1技術(shù)主題識(shí)別
技術(shù)演化分析之前需要進(jìn)行主題識(shí)別,目前主流的技術(shù)主題識(shí)別方法可歸納為關(guān)鍵詞驅(qū)動(dòng)法、引文分析法和文本挖掘法。關(guān)鍵詞驅(qū)動(dòng)法主要依賴于詞頻統(tǒng)計(jì)[8]、共詞分析[9]等手段,通過探究關(guān)鍵詞間的關(guān)聯(lián)性來挖掘技術(shù)主題,揭示領(lǐng)域研究焦點(diǎn)和知識(shí)結(jié)構(gòu)。引文分析法則在文獻(xiàn)引用關(guān)系的基礎(chǔ)上構(gòu)造關(guān)聯(lián)網(wǎng)絡(luò),采用社會(huì)網(wǎng)絡(luò)分析中的算法(如譜聚類算法、社團(tuán)發(fā)現(xiàn)算法等)劃分團(tuán)簇,進(jìn)而識(shí)別領(lǐng)域技術(shù)主題,根據(jù)引用關(guān)系不同可細(xì)分為直接引用分析[10]、共被引分析[]、耦合分析[12]3種。隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)的快速興起,基于專利內(nèi)容的文本挖掘法成為高效識(shí)別技術(shù)主題的重要途徑,該方法通過分詞處理、主題抽取以及主題語義關(guān)系挖掘,能夠探測(cè)出專利文本中潛藏的核心和熱點(diǎn)技術(shù)主題。文本挖掘法中主題概率模型最具代表性,其在揭示技術(shù)主題分布、關(guān)聯(lián)結(jié)構(gòu)等方面具有良好效果。SuominenA等[13]運(yùn)用LDA模型分析企業(yè)專利數(shù)據(jù)集,確定了各研發(fā)方向上的關(guān)鍵技術(shù)主題。宋凱等[14」創(chuàng)新性地將技術(shù)主題創(chuàng)新度、授權(quán)趨勢(shì)指標(biāo)與LDA模型相結(jié)合,為前沿技術(shù)主題的識(shí)別提供了方法借鑒。LiuY等[15]提出一種潛在特征主題模型,即將LF詞集成到Dirichlet多項(xiàng)式分布中,彌補(bǔ)了傳統(tǒng)LDA模型在復(fù)雜環(huán)境下識(shí)別主題能力方面的不足。徐宗煌等[使用LDA模型對(duì)專利、期刊論文和新聞報(bào)道數(shù)據(jù)進(jìn)行主題建模,深人挖掘光刻技術(shù)領(lǐng)域的主題,并構(gòu)建多維特征指標(biāo)開展關(guān)鍵核心技術(shù)的識(shí)別與分析。
1.2技術(shù)演化分析
針對(duì)技術(shù)演化分析問題已有大量相關(guān)研究,傳統(tǒng)的定性分析方法主要基于專家經(jīng)驗(yàn)和知識(shí),通過分析代表性專利來闡釋技術(shù)發(fā)展的模式和趨勢(shì)[],該方法往往受限于個(gè)人主觀判斷和信息獲取的全面性。為減少對(duì)專家判斷的依賴,學(xué)者嘗試采用專利的分類屬性(如IPC 分類號(hào)[18]、德溫特手工代碼[19]等)探究領(lǐng)域?qū)@难葑儦v程,然而,這類方法分析維度較為寬泛,勢(shì)必會(huì)對(duì)技術(shù)演化分析的精確性造成影響。為改善這一不足,有學(xué)者利用引用關(guān)系和共現(xiàn)網(wǎng)絡(luò)追蹤領(lǐng)域技術(shù)的發(fā)展軌跡。例如,HuangY等[20]采用共分類分析、共詞分析以及主路徑方法揭示了3D打印領(lǐng)域的技術(shù)演變過程。張嫻等[21]通過整合專利引用網(wǎng)絡(luò)中的引用連接、引用動(dòng)機(jī)、主題關(guān)聯(lián)三種關(guān)系,提出一種融合多元關(guān)系的主路徑識(shí)別方法,識(shí)別出石墨烯傳感技術(shù)領(lǐng)域的演化路徑。由于專利引用會(huì)產(chǎn)生時(shí)滯,因此無法保證技術(shù)演化趨勢(shì)分析的及時(shí)性。相較于IPC分類號(hào)和引用網(wǎng)絡(luò),基于文本內(nèi)容的技術(shù)演化分析在很大程度上提升了分析的細(xì)粒度和深度,且不存在時(shí)滯性問題。例如,陳偉等[22]在LDA 模型識(shí)別技術(shù)主題的基礎(chǔ)上,利用隱馬爾可夫模型(HMM)定量預(yù)測(cè)技術(shù)主題演化趨勢(shì)。劉春江等[23]對(duì)專利文獻(xiàn)進(jìn)行SAO(subject-action-object)三元組抽取,結(jié)合LDA模型構(gòu)建技術(shù)主題創(chuàng)新演化路徑。侯艷輝等[24] 通過融合專利語義特征和引文結(jié)構(gòu)特征得到專利向量,并基于K-means算法和相似度實(shí)現(xiàn)技術(shù)主題語義演化分析。
綜上所述,技術(shù)領(lǐng)域的主題識(shí)別及演化研究已取得一定進(jìn)展,但仍存在進(jìn)一步研究空間。在技術(shù)主題提取方面,學(xué)者們通常將清洗后的專利文本總詞匯數(shù)作為主題模型的輸人語料庫,容易造成大量噪聲和冗余信息,從而影響主題聚類結(jié)果的準(zhǔn)確度及效率。在技術(shù)演化分析方面,基于LDA模型的演化方法雖然能夠直觀呈現(xiàn)主題演化過程,卻忽略了主題詞之間的潛在語義聯(lián)系。因此,為準(zhǔn)確識(shí)別領(lǐng)域中的技術(shù)主題及發(fā)展趨勢(shì),本研究在關(guān)鍵詞綜合提取的基礎(chǔ)上,通過融合LDA主題模型和Word2vec詞向量模型,對(duì)人工智能領(lǐng)域技術(shù)主題的周期性演變進(jìn)行量化研究,并構(gòu)建主題熱度、新穎度、影響力等指標(biāo),識(shí)別人工智能階段性的熱點(diǎn)技術(shù)主題。
2研究設(shè)計(jì)與方法
2.1研究設(shè)計(jì)
為量化分析人工智能領(lǐng)域技術(shù)的主題演化及熱點(diǎn)主題識(shí)別,本研究以我國人工智能領(lǐng)域相關(guān)專利文獻(xiàn)為數(shù)據(jù)源。首先,對(duì)檢索得到的專利文獻(xiàn)標(biāo)題和摘要進(jìn)行文本分詞、去停用詞、關(guān)鍵詞提取等處理。其次,利用LDA模型進(jìn)行主題建模,選取一致性指標(biāo)確定最優(yōu)主題數(shù)目,并基于主題-詞概率分布識(shí)別技術(shù)主題。再次,結(jié)合時(shí)間序列和技術(shù)生命周期理論,從主題強(qiáng)度和內(nèi)容兩個(gè)維度分析技術(shù)主題的演化。最后,引入主題熱度、主題新穎度、主題影響力識(shí)別階段性熱點(diǎn)主題。具體研究框架如圖1所示。
2.2主題識(shí)別及向量化
2.2.1基于LDA的主題識(shí)別潛在狄利克雷分配(Latentdirichletallocation,LDA) )由Blei等[25]提出,是一種基于貝葉斯分布的文檔主題生成模型,通過生成文檔-主題和主題-詞匯概率分布矩陣,以詞、主題和文檔三層結(jié)構(gòu)來識(shí)別文檔中的潛在主題[26]。其具體模型如圖2所示。
其中, α 和 β 分別是每篇文檔中主題分布 θ 和每個(gè)主題下詞匯分布 φ 的狄利克雷先驗(yàn)參數(shù), zm n 表示第 ?m 篇文檔中第 n 個(gè)詞匯的主題編號(hào), w?m n 表示第 ?m 篇文檔的第 n 個(gè)詞匯。LDA的生成過程主要如下: ① 針對(duì)每篇文檔 ,依據(jù) θm \~Dirichlet (α) ,獲得文檔 m 在主題上的分布 θm ;② 針對(duì)每個(gè)主題 k∈K ,依據(jù) φk~Dirichlet(β) ,獲得主題 k 在主題詞上的分布 φk ; ③ 針對(duì)文檔 m 中的詞匯
,分別依據(jù)多項(xiàng)式分布
Multi(θm) 和
,獲得主題
和主題詞
,模型的聯(lián)合概率分布如式(1)所示。
2.2.2基于Word2vec的主題向量化Word2vec 作為一種高效的詞嵌入模型[27],借助神經(jīng)網(wǎng)絡(luò)捕捉鄰近詞匯的語義特征,進(jìn)而將詞匯映射為低維空間中富含語義信息的密集實(shí)值向量。該模型分為兩種訓(xùn)練架構(gòu):連續(xù)詞袋(Continuousbagofwords,CBOW)和Skip-Gram 模型[28],基本原理如圖3所示。在 Skip-Gram 模型中,中心詞用于預(yù)測(cè)前后區(qū)間詞的概率;CBOW模型與之恰好相反,是在學(xué)習(xí)詞語 w(t) 前后語序 、
1)、
、 w(t+2) 的前提下,對(duì) w(t) 的語義關(guān)系進(jìn)行預(yù)測(cè)[29]。本研究采用 Skip-Gram 模型的訓(xùn)練方式,結(jié)合LDA生成的主題-詞分布實(shí)現(xiàn)文本語義信息提取及向量化,為后續(xù)主題內(nèi)容演化夯實(shí)基礎(chǔ)。
具體而言,針對(duì)一個(gè)專利文檔集 D ,采用Skip-Gram模型對(duì)其進(jìn)行訓(xùn)練,生成維度為 γ 的詞向量集合 V ,由于LDA模型提取的主題具體通過主題詞 φk 分布中概率最高的 n 個(gè)非重復(fù)詞匯來表現(xiàn),以每個(gè)詞對(duì)應(yīng)的概率值作為權(quán)重,對(duì)每個(gè)主題下 γ 維非重復(fù)詞向量進(jìn)行加權(quán)處理,即可得到統(tǒng)一向量空間中各主題的向量 ,計(jì)算方法如式(2)所示。
式(2)中, 為 χt 時(shí)間窗口下第 χi 個(gè)主題的向量表示, s 為該主題下概率排名前 s 的詞語數(shù),
)代表詞語對(duì)應(yīng)的概率值,v(termt,i,j) 代表該詞語對(duì)應(yīng)的詞向量。
2.3技術(shù)主題演化分析
主題演化趨勢(shì)分析旨在探究主題隨時(shí)間變化的動(dòng)態(tài)過程、進(jìn)展及其差異性。本研究從強(qiáng)度和內(nèi)容兩個(gè)方面進(jìn)行技術(shù)主題演化分析。2.3.1主題強(qiáng)度演化技術(shù)主題強(qiáng)度通常衡量技術(shù)領(lǐng)域的關(guān)注度和研究活躍度,在特定時(shí)間段內(nèi),相關(guān)技術(shù)主題強(qiáng)度越顯著,則表明在該時(shí)間段內(nèi)對(duì)這些技術(shù)的研究興趣越高,相應(yīng)的專利申請(qǐng)數(shù)量也會(huì)隨之上升[30]。其計(jì)算公式[31]如下:
式(3)中, 表示主題 k 在時(shí)間窗口 χt 上的主題強(qiáng)度, θd,k 表示專利文獻(xiàn) d 屬于主題 k 的概率, Dι 表示時(shí)間窗口 χt 上的專利數(shù)量。
2.3.2主題內(nèi)容演化技術(shù)主題內(nèi)容演化主要描繪主題內(nèi)容隨著時(shí)間推移變化的脈絡(luò)與趨勢(shì)[32],為了直觀地揭示人工智能領(lǐng)域技術(shù)主題演化趨勢(shì),本研究以前文得到的主題向量為基礎(chǔ),利用余弦相似度算法[33]對(duì)相鄰時(shí)間段上的技術(shù)主題進(jìn)行關(guān)聯(lián),余弦相似度通過計(jì)算兩個(gè)向量夾角的余弦值來表征主題相關(guān)性,目前應(yīng)用較為廣泛。其計(jì)算公式如式(4),其中,A、 B 代表主題向量,Sim(A,B) 表示主題A和 B 之間的余弦相似度,取值范圍介于[-1,1]之間,余弦值越趨近于1,表明兩個(gè)文本在內(nèi)容上越相似。
判斷主題之間是否具有演化關(guān)系需要根據(jù)實(shí)際情況設(shè)置閾值,主題相似度高于閾值則被視為存在演化關(guān)系。借鑒已有研究[34-36],將演化狀態(tài)界定為5類,即新生、繼承、融合、分化和消亡,結(jié)合表1和圖4,可以較好地理解各個(gè)演化狀態(tài)的判定依據(jù)。
2.4熱點(diǎn)技術(shù)主題識(shí)別
本研究通過主題熱度、主題新穎度、主題影響力3個(gè)特征指標(biāo),來進(jìn)行生命周期各階段熱點(diǎn)技術(shù)主題的甄別、評(píng)估和分析。為客觀衡量各指標(biāo)的權(quán)重,運(yùn)用CRITIC 熵權(quán)法[37]對(duì)各指標(biāo)進(jìn)行賦權(quán)。其中,主題熱度用于量化技術(shù)主題在領(lǐng)域中的受關(guān)注程度,新穎度在時(shí)間維度上考察了主題的時(shí)效性與前沿性,影響力則從科研成果數(shù)量上揭示了主題對(duì)學(xué)界和產(chǎn)業(yè)界的實(shí)際推動(dòng)力。
(1)主題熱度指標(biāo)。技術(shù)主題熱度可以通過LDA 模型輸出主題支持文檔[38]的強(qiáng)度值來衡量,強(qiáng)度值反映了主題在文檔集中的普遍性與重要性,進(jìn)而用于評(píng)估技術(shù)主題在當(dāng)前時(shí)間段內(nèi)的活躍度和關(guān)注度。定義主題熱度計(jì)算公式如下:
式(5)中, xi 代表主題 k 內(nèi)第 i 件專利的強(qiáng)度值, n 代表主題 k 的支持專利文檔數(shù), Hk 表示 k 主題的熱度值。
(2)主題新穎度指標(biāo)。近期申請(qǐng)的專利往往具有較高的新穎性,因此可由主題所包含專利的平均申請(qǐng)年份表示。如果某個(gè)主題涉及的研究成果年份越接近當(dāng)前時(shí)間,說明該主題越新穎。具體計(jì)算公式如式(6)所示:
式(6)中, yi 代表主題 k 內(nèi)第 i 件專利的申請(qǐng)年份, n 代表主題 k 的支持專利文檔數(shù), Nk 表示k 主題的新穎度。
(3)主題影響力指標(biāo)。技術(shù)主題影響力可以通過相關(guān)主題專利申請(qǐng)數(shù)量占比來表征,若某一技術(shù)主題下專利數(shù)量占總專利數(shù)量的比例較高,則表明該主題在推動(dòng)技術(shù)進(jìn)步、引領(lǐng)產(chǎn)業(yè)發(fā)展等方面具有較大的影響力。其計(jì)算公式為:
式(7)中, nk 代表第 k 個(gè)主題下的支持專利文檔數(shù), m 代表專利總數(shù), Ek 表示 k 主題的影響力。
3實(shí)證研究與結(jié)果分析
3.1數(shù)據(jù)來源與預(yù)處理
本研究以incoPat科技創(chuàng)新索引為數(shù)據(jù)源,incoPat專利數(shù)據(jù)庫完整收錄全球絕大多數(shù)國家和地區(qū)1億余件專利信息,具有數(shù)據(jù)覆蓋全面、更新迅速、多維深入加工等特點(diǎn),在學(xué)術(shù)研究中得到廣泛應(yīng)用[39-40]。設(shè)定檢索式為標(biāo)題 Σ=Σ (“人工智能”O(jiān)R“人機(jī)交互”O(jiān)R“智能機(jī)器人”O(jiān)R“智能系統(tǒng)”O(jiān)R“神經(jīng)網(wǎng)絡(luò)”O(jiān)R“深度學(xué)習(xí)”O(jiān)R“智能技術(shù)”),檢索時(shí)間跨度限定為近十五年,即2009—2023年。專利類型選擇中國發(fā)明授權(quán)專利,并進(jìn)行簡(jiǎn)單同族合并,檢索于2024年10月18日進(jìn)行,共檢索到25335條專利數(shù)據(jù),其中包括標(biāo)題、摘要、公開日、IPC主分類號(hào)等字段。經(jīng)過剔除缺失項(xiàng)和重復(fù)記錄等操作,最終獲得25302條專利數(shù)據(jù)。圖5展示了人工智能領(lǐng)域歷年的專利申請(qǐng)數(shù)量,可以看出,前期該領(lǐng)域的專利數(shù)量較少,且增長(zhǎng)速度相對(duì)平緩,自2019年專利數(shù)量開始大幅增加。結(jié)合技術(shù)生命周期理論,將其劃分為3個(gè)時(shí)期階段:2009—2014年(萌芽期)、2015—2019年(緩慢增長(zhǎng)期)、2020—2023年(快速發(fā)展期)。
對(duì)獲取到的有效專利進(jìn)行預(yù)處理。首先,將專利標(biāo)題和摘要信息合并,作為模型訓(xùn)練的文檔語料;其次,本研究根據(jù)人工智能專業(yè)術(shù)語構(gòu)建用戶詞典,同時(shí)在通用停用詞表的基礎(chǔ)上添加專利文獻(xiàn)特有的一些詞(如“本發(fā)明”“申請(qǐng)”“公開”等)構(gòu)成停用詞庫;最后,利用Python中的jieba庫對(duì)文檔語料進(jìn)行中文分詞和過濾停用詞操作,并通過重復(fù)擴(kuò)充用戶詞典與停用詞庫提高分詞效果。
3.2技術(shù)主題識(shí)別
3.2.1LDA主題建模依照前述基于關(guān)鍵詞提取的主題建模流程,首先分別利用TF-IDF、Tex-tRank和KeyBert算法輸出原始語料庫中Top-30的詞語,將這三個(gè)關(guān)鍵詞集進(jìn)行融合并去重,以此得到新的語料庫,然后使用LDA模型對(duì)新的語料庫進(jìn)行訓(xùn)練處理。
本研究選用gensim庫構(gòu)建主題模型,經(jīng)過多次試驗(yàn),設(shè)置Alph a=0.32 , Beta=0.05 ,文檔迭代次數(shù)設(shè)為100次。建模前還需確定主題數(shù)量K,這一參數(shù)的設(shè)定將對(duì)技術(shù)主題識(shí)別效果產(chǎn)生直接影響。本研究通過計(jì)算一致性(Coherence)評(píng)估最優(yōu)主題數(shù)量,一致性是用來揭示生成的主題是否具有可解釋性的指標(biāo)[41],一般而言,一致性值越高,模型生成的主題質(zhì)量越好,但一致性值僅僅作為一個(gè)參考,具體情況需要根據(jù)領(lǐng)域?qū)嶋H情況及主觀需求進(jìn)行綜合考量。
圖6為主題個(gè)數(shù)在1\~50時(shí)一致性分?jǐn)?shù)的變化曲線,可以看出,一致性曲線整體呈現(xiàn)波動(dòng)狀態(tài),考慮到人工智能技術(shù)的多樣性,在20\~40之間選取 K=21 ,28,31作為候選主題數(shù),結(jié)合人工判讀最終將主題數(shù)量確定為31。
3.2.2技術(shù)主題識(shí)別結(jié)果經(jīng)過LDA主題建模,本研究對(duì)包含25302條專利標(biāo)題摘要數(shù)據(jù)進(jìn)行主題分析,最終提取31個(gè)主題以及文檔-主題、主題-詞概率分布矩陣,根據(jù)每個(gè)主題下的高概率特征詞項(xiàng),歸納出人工智能技術(shù)主題含義,整理結(jié)果見表2。
總體來看,人工智能技術(shù)主題按照研究?jī)?nèi)容可以劃分為以下幾類:
(1)核心算法與技術(shù)基礎(chǔ):深度學(xué)習(xí)(T10)、卷積神經(jīng)網(wǎng)絡(luò)(T14)、機(jī)器學(xué)習(xí)(T17)、AI模型訓(xùn)練優(yōu)化(T23)等技術(shù)構(gòu)成人工智能發(fā)展的核心,為人工智能提供強(qiáng)大的計(jì)算和學(xué)習(xí)能力,是智能應(yīng)用得以實(shí)現(xiàn)的關(guān)鍵。
(2)感知與交互技術(shù):人機(jī)交互(T3)、圖像深度處理(T4)、智能傳感器(T18)、多模態(tài)行為識(shí)別(T20)等技術(shù)主要關(guān)注如何提高計(jì)算機(jī)系統(tǒng)對(duì)用戶行為的理解能力、提升用戶體驗(yàn)以及增強(qiáng)系統(tǒng)在復(fù)雜環(huán)境中的適應(yīng)性和智能水平。
(3)自然語言與語義理解:語義模型(T5)、自然語言處理(T7)、機(jī)器翻譯(T28)等技術(shù)主要關(guān)注如何讓計(jì)算機(jī)更好地理解和處理人類的自然語言,從而實(shí)現(xiàn)高效的信息檢索、內(nèi)容生成、語言交流和服務(wù)自動(dòng)化。
(4)數(shù)據(jù)處理與安全:隱私保護(hù)(T1)、信號(hào)處理(T6)、故障監(jiān)測(cè)與預(yù)警(T16)、網(wǎng)絡(luò)流量分析(T24)等技術(shù)確保數(shù)據(jù)在采集、存儲(chǔ)、處理、傳輸和銷毀等各個(gè)環(huán)節(jié)的安全性和隱私性,同時(shí)致力于提升數(shù)據(jù)處理的整體質(zhì)量和效率。
(5)智能應(yīng)用與自動(dòng)化:智能機(jī)器人(T9)、自動(dòng)駕駛(T19)、生產(chǎn)智能化管理(T22)、智能輔助診斷(T26)等技術(shù)將人工智能成果應(yīng)用于實(shí)際場(chǎng)景,目前幾乎所有行業(yè)都在積極推動(dòng)智能化轉(zhuǎn)型,以期借助人工智能實(shí)現(xiàn)產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級(jí)。
實(shí)現(xiàn)技術(shù)主題聚類后,利用pyLDAvis庫對(duì)LDA模型輸出結(jié)果進(jìn)行可視化展示,便于更加直觀地觀察主題分布情況,結(jié)果如圖7所示。
圖7中左側(cè)的氣泡表示主題,氣泡的大小表示主題在文檔集中的出現(xiàn)頻次,氣泡間距離揭示主題之間的相似性[42],氣泡有重疊則說明主題間的特征詞有交叉。右側(cè)為各主題前30個(gè)最具代表性的特征詞,紅色的表示該詞在當(dāng)前主題中所占的權(quán)重,藍(lán)色的表示該詞在整個(gè)語料庫中的詞頻。右上方的參數(shù)入能夠調(diào)整詞語與主題的相關(guān)性,當(dāng)入值趨近于0時(shí),主題中特有的詞與主題更相關(guān),趨近于1時(shí),頻繁出現(xiàn)的詞與主題更相關(guān)。
3.3技術(shù)主題強(qiáng)度演化
為深入探究技術(shù)主題演進(jìn)趨勢(shì),本研究將文檔-主題概率分布按年度劃分,計(jì)算每個(gè)主題在連續(xù)時(shí)間窗口內(nèi)的強(qiáng)度分布。通過比較不同時(shí)間窗口內(nèi)技術(shù)主題強(qiáng)度的變化情況,可以更全面地揭示技術(shù)發(fā)展的關(guān)鍵階段及趨勢(shì)轉(zhuǎn)變情況,繪制各類別技術(shù)主題強(qiáng)度隨時(shí)間變化的折線圖,如圖8所示。
從核心算法與技術(shù)基礎(chǔ)的主題強(qiáng)度演化來看,各技術(shù)主題經(jīng)歷了一系列顯著的波動(dòng)。在2010—2012年期間,除了AI模型訓(xùn)練優(yōu)化(T23),其余主題強(qiáng)度均出現(xiàn)下降趨勢(shì),盡管一些早期的AI算法(如決策樹、支持向量機(jī)等)已經(jīng)取得一些進(jìn)展,但這些方法的應(yīng)用受限于計(jì)算能力和數(shù)據(jù)規(guī)模。許多傳統(tǒng)AI技術(shù)并未能夠解決復(fù)雜的實(shí)際問題,學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注度出現(xiàn)一定程度的下降。2012年AlexNet在ImageNet挑戰(zhàn)賽中以驚人的識(shí)別準(zhǔn)確率奪得冠軍,激發(fā)了深度學(xué)習(xí)的研究熱潮,因此2013年各主題強(qiáng)度稍顯緩和,到了2014年呈現(xiàn)出爆發(fā)式的增長(zhǎng)態(tài)勢(shì)。在2015—2021年期間,深度學(xué)習(xí)(T10)、卷積神經(jīng)網(wǎng)絡(luò)(T14)、機(jī)器學(xué)習(xí)(T17)、AI硬件加速(T30)穩(wěn)定在平均主題強(qiáng)度0.0446以上,表明這些主題是人工智能領(lǐng)域持續(xù)關(guān)注的對(duì)象。2021年后再次觀察到多個(gè)主題強(qiáng)度的下降,可能源于市場(chǎng)逐漸趨于飽和,導(dǎo)致研發(fā)資源的重新分配和技術(shù)的優(yōu)化調(diào)整。
從感知與交互技術(shù)的主題強(qiáng)度演化來看,各技術(shù)主題整體上呈現(xiàn)先波動(dòng)后穩(wěn)定的發(fā)展態(tài)勢(shì)。圖像深度處理(T4)在多個(gè)年份中表現(xiàn)出較高的主題強(qiáng)度,這與深度學(xué)習(xí)技術(shù)水平提高和應(yīng)用場(chǎng)景不斷拓展有著密切關(guān)聯(lián)。人機(jī)交互(T3)與智能視頻監(jiān)控(T11)的演化趨勢(shì)基本一致,在2012年達(dá)到峰值,隨后急劇下降并從2015年開始趨向穩(wěn)定,又于2022年后大幅上升,預(yù)示著在新一輪技術(shù)和產(chǎn)業(yè)革命中將扮演更加關(guān)鍵的角色。目標(biāo)檢測(cè)(T31)保持在平均主題強(qiáng)度0.0327附近波動(dòng),表明其發(fā)展速度和市場(chǎng)影響力較為穩(wěn)定。虛擬現(xiàn)實(shí)(T15)與智能傳感器(T18)的演化強(qiáng)度分別在2010年和2013年達(dá)到峰值,隨后可能由于應(yīng)用場(chǎng)景限制或市場(chǎng)飽和,其強(qiáng)度值穩(wěn)定在平均主題強(qiáng)度以下。相比于其他感知與交互技術(shù),多模態(tài)行為識(shí)別(T20)與三維視覺與重建(T29)面臨更多的技術(shù)挑戰(zhàn),因此其演化強(qiáng)度始終較小且保持在相對(duì)平衡的狀態(tài)。
從自然語言與語義理解的主題強(qiáng)度演化來看,各技術(shù)主題存在波動(dòng)性和趨勢(shì)性并存的現(xiàn)象。在2013—2017年期間,自然語言處理(T7)主題強(qiáng)度持續(xù)大幅上升至0.054,2017—2022年保持在0.045以上,2022年后降至0.032。2013年,Word2vec技術(shù)的提出標(biāo)志著NLP進(jìn)人深度學(xué)習(xí)時(shí)代,之后諸如LSTM、Seq2Seq等模型的成功應(yīng)用,為語音識(shí)別、機(jī)器翻譯等多個(gè)NLP任務(wù)提供顯著的性能提升。2017年,Google推出了Transformer及其后續(xù)的BERT模型,在語言理解和生成任務(wù)上實(shí)現(xiàn)前所未有的突破。語義模型(T5)在多個(gè)年份中維持相對(duì)穩(wěn)定的主題強(qiáng)度,說明其在自然語言處理領(lǐng)域中的基礎(chǔ)性和重要性。機(jī)器翻譯(T28)作為自然語言處理的一個(gè)重要應(yīng)用方向,其主題強(qiáng)度整體呈現(xiàn)波動(dòng)上升趨勢(shì),由于機(jī)器翻譯本身涉及復(fù)雜的語種差異、多語言對(duì)的挑戰(zhàn)以及大規(guī)模訓(xùn)練語料的依賴,因此未能突破平均主題強(qiáng)度0.0304,但其在未來的研究潛力依然不容忽視。
從數(shù)據(jù)處理與安全隱私的主題強(qiáng)度演化來看,各技術(shù)主題均呈現(xiàn)一種無序演化狀態(tài)。隱私保護(hù)(T1)在2009—2012年保持上升趨勢(shì),隨后持續(xù)下降至0.02以下,于2016年開始保持穩(wěn)定,2022年后又上升至0.03。2021年,我國正式頒布了《中華人民共和國個(gè)人信息保護(hù)法》,旨在加強(qiáng)個(gè)人信息保護(hù),確保公民隱私安全。信號(hào)處理(T6)與時(shí)序預(yù)測(cè)(T8)的演化趨勢(shì)較為同步,雖然在2009—2016年經(jīng)歷較大的起伏,但在整個(gè)演化區(qū)間仍呈現(xiàn)略微上升趨勢(shì),這可能與其在制造業(yè)、能源、交通等領(lǐng)域的廣泛應(yīng)用有關(guān)。故障監(jiān)測(cè)與預(yù)警(T16)的演化強(qiáng)度在2009—2017年波動(dòng)較大,于2013年達(dá)到峰值,反映當(dāng)時(shí)工業(yè)界對(duì)安全生產(chǎn)和故障預(yù)防的高度重視,隨后平穩(wěn)上升,可以預(yù)見其將更多依賴于數(shù)據(jù)分析和智能算法的融合應(yīng)用,以實(shí)現(xiàn)更加精確的故障預(yù)測(cè)和有效的預(yù)警響應(yīng)。網(wǎng)絡(luò)流量分析(T24)的主題強(qiáng)度一直處于平均主題強(qiáng)度0.0257以下,說明其發(fā)展態(tài)勢(shì)一般,關(guān)注度普遍偏低。
從智能應(yīng)用與自動(dòng)化的主題強(qiáng)度演化來看,除了個(gè)別技術(shù)主題在特定年份出現(xiàn)大幅度起伏,其余主題強(qiáng)度在整體上保持相對(duì)穩(wěn)定。機(jī)器人控制(T25)在2009—2013年持續(xù)上升,標(biāo)志著工業(yè)機(jī)器人技術(shù)的快速發(fā)展與應(yīng)用。2013年,隨著《關(guān)于推進(jìn)工業(yè)機(jī)器人產(chǎn)業(yè)發(fā)展的指導(dǎo)意見》的頒布,工業(yè)機(jī)器人被正式確立為未來智能裝備發(fā)展的主要方向。盡管該主題在2014年大幅度下降并穩(wěn)定在較低水平,但這并不意味著機(jī)器人技術(shù)的發(fā)展停滯不前,相反,這一時(shí)期為智能機(jī)器人(T9)的崛起奠定基礎(chǔ)。生產(chǎn)智能化管理(T22)也經(jīng)歷了早期的快速增長(zhǎng),隨后下降進(jìn)入穩(wěn)定發(fā)展期,這一趨勢(shì)反映出智能制造領(lǐng)域從注重個(gè)別設(shè)備的自動(dòng)化升級(jí),轉(zhuǎn)向追求整個(gè)生產(chǎn)流程的智能化管理和優(yōu)化。其余主題如自動(dòng)駕駛(T19)、智能輔助診斷(T26)在整個(gè)演化過程中的變化不明顯,這些領(lǐng)域正在經(jīng)歷技術(shù)積累和市場(chǎng)需求的雙重考驗(yàn),等待合適的時(shí)機(jī)實(shí)現(xiàn)突破。
3.4技術(shù)主題內(nèi)容演化
首先,根據(jù)技術(shù)生命周期的劃分,分別對(duì)每一階段數(shù)據(jù)進(jìn)行LDA主題建模,獲取各階段主題挖掘結(jié)果并確定技術(shù)主題內(nèi)容,結(jié)果如表3所示。然后,利用主題-詞概率對(duì)Word2vec模型生成的詞向量進(jìn)行加權(quán),以此得到不同時(shí)間段的主題向量表征。接著計(jì)算相鄰時(shí)間段技術(shù)主題的余弦相似度,圖9展示了人工智能領(lǐng)域主題相似度的數(shù)值分布。經(jīng)試驗(yàn),當(dāng)設(shè)置相似度閾值為0.925時(shí),能夠同時(shí)保證主題演化連貫性及清晰性,最終獲得137個(gè)具有演化關(guān)系的主題對(duì)。
圖10展示了人工智能領(lǐng)域近15年3個(gè)階段技術(shù)主題的演化路徑。其中,節(jié)點(diǎn)表示主題,連線表示主題間具有滿足閾值條件的相似性,線條粗細(xì)表示相似程度,若一個(gè)主題同時(shí)與多個(gè)相鄰主題具有演化關(guān)系,其標(biāo)簽塊則較大。結(jié)合表3和圖10可以看出,2009—2023年無消亡主題,部分技術(shù)主題在3個(gè)階段都有出現(xiàn),呈現(xiàn)出新生、繼承、融合或分化的演化狀態(tài),如計(jì)算機(jī)視覺、信號(hào)處理、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)處理、機(jī)器人、人機(jī)交互等技術(shù)主題,這些技術(shù)主題一直是人工智能領(lǐng)域的焦點(diǎn),人工智能的迅速發(fā)展離不開這些技術(shù)的深人研究。
人工智能領(lǐng)域的技術(shù)主題內(nèi)容經(jīng)歷從基礎(chǔ)到多樣化再到爆炸式增長(zhǎng)的演變過程。這一過程中,技術(shù)主體之間的關(guān)聯(lián)和互動(dòng)日益緊密,其演化能力也呈現(xiàn)不斷提升的趨勢(shì)。在萌芽期2009—2014年,技術(shù)主題相對(duì)集中且基礎(chǔ),主題間的互動(dòng)性和技術(shù)交叉性較低,更多的是單一領(lǐng)域的基礎(chǔ)研究和應(yīng)用實(shí)踐。主題T1_Stage1數(shù)據(jù)處理、T7_Stage1神經(jīng)網(wǎng)絡(luò)和T10_Stage1特征提取表現(xiàn)出較強(qiáng)的主題演化能力,這3個(gè)主題與多個(gè)相鄰主題的相似度較高,形成數(shù)量眾多的相關(guān)主題對(duì)。T6_Stage1控制系統(tǒng)與T14_Stage1人機(jī)交互的主題演化能力相對(duì)較弱,在第二階段與之關(guān)聯(lián)的主題較少。進(jìn)入緩慢增長(zhǎng)期2015—2019年,技術(shù)主題開始呈現(xiàn)多樣化趨勢(shì),涉及的技術(shù)方向逐漸擴(kuò)展到更為復(fù)雜的應(yīng)用場(chǎng)景和領(lǐng)域。大部分技術(shù)主題同時(shí)與前后兩個(gè)階段多個(gè)主題存在知識(shí)流動(dòng),符合融合分化演化關(guān)系,其中,主題T19_Stage2算法模型演化能力最強(qiáng),與第三階段11個(gè)主題均相關(guān)。T5__Stage2網(wǎng)絡(luò)安全及T12_Stage2智能監(jiān)控在演化過程中突然出現(xiàn)并延續(xù),屬于新生主題,反映了現(xiàn)階段對(duì)數(shù)據(jù)安全與智能化應(yīng)用需求的深刻洞察。此外,有少部分技術(shù)主題僅與第一階段某個(gè)主題有關(guān)聯(lián),如T2_Stage1信號(hào)處理與故障診斷—T7_Stage2智能傳感器,體現(xiàn)了技術(shù)發(fā)展的繼承性和創(chuàng)新性。到了快速發(fā)展期2020—2023年,技術(shù)主題迎來了前所未有的爆炸式增長(zhǎng),形成一個(gè)錯(cuò)綜復(fù)雜但又高效協(xié)同的技術(shù)生態(tài)系統(tǒng)。主題融合與分化的趨勢(shì)愈發(fā)明顯,如T37_Stage3智能醫(yī)療由T5_Stage2網(wǎng)絡(luò)安全和T18_ Stage2圖像識(shí)別及處理演化而來,這種跨領(lǐng)域的深度融合,使得T37_Stage3智能醫(yī)療能夠在確保數(shù)據(jù)安全的前提下,實(shí)現(xiàn)對(duì)醫(yī)學(xué)影像的精準(zhǔn)分析和診斷。
3.5階段性熱點(diǎn)主題識(shí)別
運(yùn)用前文提出的多維指標(biāo)計(jì)算公式,可以獲取各主題的“主題熱度”“主題新穎度”“主題影響力”測(cè)度指標(biāo)值,將指標(biāo)結(jié)果進(jìn)行最小-最大標(biāo)準(zhǔn)化,利用熵權(quán)法分別計(jì)算每個(gè)指標(biāo)的權(quán)重 wH 、wN,wE ,加權(quán)得到熱點(diǎn)主題識(shí)別的綜合指數(shù)。2009—2014年、2015—2019年、2020—2023年3個(gè)階段的熱點(diǎn)技術(shù)主題識(shí)別結(jié)果如表4-表6所示,本研究將綜合指數(shù)前 30% 的主題界定為熱點(diǎn)技術(shù)主題。
綜合指數(shù)評(píng)估表明,2009—2014年,人工智能領(lǐng)域的熱點(diǎn)技術(shù)主題主要涵蓋了人機(jī)交互、神經(jīng)網(wǎng)絡(luò)、特征提取、控制系統(tǒng)、智能感知與定位。其中,人機(jī)交互技術(shù)關(guān)注于提升機(jī)器理解人類指令及反饋的能力,以實(shí)現(xiàn)更自然、高效的交互體驗(yàn)。神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的核心,其在圖像識(shí)別、語音處理等領(lǐng)域的研究取得了顯著進(jìn)展。特征提取技術(shù)成為提升算法識(shí)別與分類精度的關(guān)鍵,通過有效提取數(shù)據(jù)中的關(guān)鍵信息來優(yōu)化性能。隨著控制系統(tǒng)的成熟,自動(dòng)化和智能化設(shè)備在工業(yè)制造、醫(yī)療健康、居家生活等領(lǐng)域的應(yīng)用愈發(fā)普遍,極大提高了生產(chǎn)效率和生活質(zhì)量。此外,智能感知與定位技術(shù)通過集成GPS、激光雷達(dá)等傳感器和先進(jìn)的算法,為無人駕駛車輛、機(jī)器人導(dǎo)航系統(tǒng)以及增強(qiáng)現(xiàn)實(shí)應(yīng)用提供了精準(zhǔn)的位置信息和環(huán)境感知能力。
2015—2019年,人工智能領(lǐng)域的研究不斷深化與擴(kuò)展催生了新的熱點(diǎn),包括問答系統(tǒng)、模式識(shí)別、信號(hào)處理、智能機(jī)器人以及智能駕駛。問答系統(tǒng)用于從大量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中提取相關(guān)信息,并以簡(jiǎn)潔的方式返回給用戶,在搜索引擎、智能家居、在線教育等場(chǎng)景中應(yīng)用廣泛。模式識(shí)別能夠讓計(jì)算機(jī)通過算法分析和識(shí)別數(shù)據(jù)中的特定模式或規(guī)律,對(duì)于生物特征識(shí)別、醫(yī)療診斷、金融監(jiān)控等領(lǐng)域的發(fā)展起到了積極的推動(dòng)作用。信號(hào)處理涉及對(duì)各種類型的電信號(hào)進(jìn)行提取、變換、分析,旨在獲取有用信息、增強(qiáng)信號(hào)質(zhì)量、消除噪聲、提取特征以及實(shí)現(xiàn)數(shù)據(jù)壓縮等。與此同時(shí),人工智能領(lǐng)域的相關(guān)技術(shù)與各行業(yè)交叉融合、相互促進(jìn),產(chǎn)生了很多創(chuàng)新性的應(yīng)用場(chǎng)景,其中,智能機(jī)器人和智能駕駛最具代表性,它們?cè)诠I(yè)自動(dòng)化、家庭服務(wù)等領(lǐng)域展現(xiàn)出巨大的潛力,并在推動(dòng)未來交通系統(tǒng)和城市智能化的2020—2023年,人工智能領(lǐng)域聚焦于以GPT為代表的預(yù)訓(xùn)練大模型,這些模型主要由具有大規(guī)模參數(shù)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)搭建,通過在海量無標(biāo)注數(shù)據(jù)上進(jìn)行自我監(jiān)督學(xué)習(xí),從而在理解語言和生成文本等任務(wù)上展現(xiàn)出超越以往模型的性能,因此近年來大模型成為學(xué)界和產(chǎn)業(yè)界共同關(guān)注的熱門技術(shù)主題。在計(jì)算機(jī)視覺領(lǐng)域,圖像深度處理和目標(biāo)檢測(cè)也引起了研究者們的廣泛關(guān)注。2023年,鄒征夏及其團(tuán)隊(duì)在發(fā)表于“ProceedingsoftheIEEE”的綜述文章中指出,深度學(xué)習(xí)推動(dòng)的目標(biāo)檢測(cè)技術(shù)正迎來革命性的快速發(fā)展[43]。此外,智能推薦、生產(chǎn)智能化管理、AI算力優(yōu)化等熱點(diǎn)技術(shù)主題同樣占據(jù)了舉足輕重的地位。例如,智能推薦系統(tǒng)利用用戶行為數(shù)據(jù)與深度學(xué)習(xí)算法,精準(zhǔn)捕捉用戶偏好,為用戶提供個(gè)性化的信息和服務(wù)推薦,極大地豐富了用戶體驗(yàn)并促進(jìn)商業(yè)轉(zhuǎn)化。
4總結(jié)與展望
本研究圍繞人工智能技術(shù)主題演化及熱點(diǎn)識(shí)別這一主題,以incoPat數(shù)據(jù)庫中人工智能領(lǐng)域2009—2023年的專利文獻(xiàn)為分析數(shù)據(jù)源,采用LDA-Word2vec模型對(duì)專利總數(shù)據(jù)集進(jìn)行技術(shù)主題識(shí)別,得到全局的主題強(qiáng)度動(dòng)態(tài)變化過程,再通過余弦相似度對(duì)相鄰時(shí)間窗口的技術(shù)主題進(jìn)行關(guān)聯(lián),以追蹤主題內(nèi)容的演化趨勢(shì),最后引入主題熱度、新穎度、影響力等構(gòu)建綜合指標(biāo)體系,結(jié)合熵權(quán)法識(shí)別階段性熱點(diǎn)主題。研究發(fā)現(xiàn): ① 結(jié)合LDA主題建模能力與Word2vec語義處理能力能夠更加準(zhǔn)確地識(shí)別技術(shù)主題,清晰展示技術(shù)主題的階段演化規(guī)律; ② 人工智能領(lǐng)域的技術(shù)主題可以分為核心算法與技術(shù)基礎(chǔ)、感知與交互技術(shù)、自然語言與語義理解、數(shù)據(jù)處理與安全、智能應(yīng)用與自動(dòng)化5大主題范疇,這些主題的強(qiáng)度演變揭示了研究重點(diǎn)的轉(zhuǎn)移、新興技術(shù)的崛起以及市場(chǎng)需求的波動(dòng),且主題之間的關(guān)聯(lián)和互動(dòng)日益緊密,共同推動(dòng)該領(lǐng)域的整體發(fā)展; ③ 人工智能領(lǐng)域的熱點(diǎn)技術(shù)主題處于不斷轉(zhuǎn)變和發(fā)展歷程之中,在萌芽期(2009—2014年),熱點(diǎn)主題主要包括人機(jī)交互、神經(jīng)網(wǎng)絡(luò)、特征提取等,進(jìn)人緩慢增長(zhǎng)期(2015—2019年),新增了問答系統(tǒng)、模式識(shí)別、信號(hào)處理等熱點(diǎn)主題,到了快速發(fā)展期(2020—2023年)以GPT為代表的預(yù)訓(xùn)練大模型、圖像深度處理、目標(biāo)檢測(cè)等主題成為新的研究焦點(diǎn)。
本研究仍然存在一定的局限性:一是未將專利數(shù)據(jù)與其他數(shù)據(jù)源相結(jié)合進(jìn)行綜合分析;二是僅選取了文獻(xiàn)的標(biāo)題和摘要部分,未對(duì)全文內(nèi)容進(jìn)行深入挖掘。下一步研究將融合人工智能領(lǐng)域科技論文/新聞/報(bào)告、政策文本和基金項(xiàng)目等多源數(shù)據(jù),以進(jìn)一步探索人工智能技術(shù)在科研領(lǐng)域和國家政策方面的實(shí)際應(yīng)用情況。
參考文獻(xiàn):
[1]ES Brunette,RC Flemmer and CL Flemmer.A review of artificial intelligence[C].2O09 4th Interna-tional Conference on Autonomous Robots and Agents,Wellington,New Zealand,2009,385.
[2]Zhang C,Lu Y.Study on artificial intelligence:The state of the art and future prospects[J]. Journal ofIndustrial Information Integration,2021,23:100224.
[3]Zhao S,Blaabjerg F,Wang H.An overview of artificial intelligence applications for power electronics[J].IEEE Transactions on Power Electronics,2020,36(4) :4633.
[4]Hou Y,Dong Q,Wang D,et al. Introduction to ‘Artificial inteligence in failure analysis of transporta-tion infrastructure and materials’[J].Philosophical Transactions of the Royal Society A,2023,381(2254) :20220177.
[5]Sahni NR,Carrus B.Artificial intelligence in US health care delivery[J].New England Journal ofMedicine,2023,389(4) :348.
[6]Tong W,Li GY. Nine challenges in artificial intellgence and wireless communications for 6G[J].IEEE Wireless Communications,2022,29(4) :140.
[7]周雋如,劉智勇.醫(yī)學(xué)人工智能領(lǐng)域?qū)@夹g(shù)主題發(fā)展態(tài)勢(shì)研究[J].世界科技研究與發(fā)展,2024,46(4) :497.
[8]奉國和,孔泳欣.基于時(shí)間加權(quán)關(guān)鍵詞詞頻分析的學(xué)科熱點(diǎn)研究[J].情報(bào)學(xué)報(bào),2020,39(1):100.
[9]任佳妮,張薇,楊陽,等.“人工智能+醫(yī)療”新興技術(shù)識(shí)別研究——以醫(yī)療機(jī)器人為例[J].情報(bào)雜志,2021,40(12) :45.
[10] Wang Q. A bibliometric model for identifying emerging research topics[J]. Journal of the associationforinformation science and technology,2018,69(2) :290.
[11]高楠,周慶山.基于共被引方法的情報(bào)學(xué)前沿領(lǐng)域識(shí)別與演進(jìn)趨勢(shì)分析[J].現(xiàn)代情報(bào),2024,44(5) :3.
[12] Zhang L,Glanzel W,Ye FY.Thedynamic evolution of core documents :an experimental study basedonh-related literature (2005 - 2013)[J].Scientometrics,2016,106(1) :369.
[13]Suominen A,Toivanen H,Sepp?nen M.Firms’ knowledge profiles: Mapping patent data with unsu-pervised learning[J]. Technological Forecasting and Social Change,2017,115(3) :131.
[14]宋凱,朱彥君.專利前沿技術(shù)主題識(shí)別及趨勢(shì)預(yù)測(cè)方法——以人工智能領(lǐng)域?yàn)槔齕J].情報(bào)雜志,2021,40(1) :33.
[15]Liu Y,Chen M. The knowledge structure and development trend in artificialintellgence based on la-tent feature topic model[J].IEEE Transactions on Engineering Management,2023.
[16]徐宗煌,李小樂,石進(jìn),等.基于多源異構(gòu)數(shù)據(jù)的關(guān)鍵核心技術(shù)識(shí)別研究——以光刻技術(shù)為例[J].中國科技論壇,2024,40(12):127.
「17]余江,陳凱華.中國戰(zhàn)略性新興產(chǎn)業(yè)的技術(shù)創(chuàng)新現(xiàn)狀與挑戰(zhàn)——基于專利文獻(xiàn)計(jì)量的角度[J」.不T子子呀九,zU1∠,JU(J):0o∠.
[18]曾聞,王日芬,周琺宇.產(chǎn)業(yè)領(lǐng)域?qū)@暾?qǐng)狀態(tài)分布與演化研究——以人工智能領(lǐng)域?yàn)槔齕J].情報(bào)科學(xué),2020,38(12):4.
[19]韓震,沈君,曲莎莎.RFID技術(shù)趨勢(shì)及競(jìng)爭(zhēng)態(tài)勢(shì)的專利計(jì)量分析[J].科研管理,2013,34(7):11.
[20]Huang Y,Zhu D,Qian Y,et al. A hybrid method to trace technology evolution pathways: a casestudy of 3D printing[J]. Scientometrics,2017,111(1) :185.
[21]張嫻,曾榮強(qiáng),李姝影,等.基于多元關(guān)系融合的專利技術(shù)演化路徑識(shí)別方法研究[J].圖書情報(bào)工作,2024,68(3):71.
[22]陳偉,林超然,李金秋,等.基于LDA-HMM的專利技術(shù)主題演化趨勢(shì)分析——以船用柴油機(jī)技術(shù)為例[J].情報(bào)學(xué)報(bào),2018,37(7):732.
[23]劉春江,劉自強(qiáng),方曙.基于SAO的技術(shù)主題創(chuàng)新演化路徑識(shí)別及其可視化研究[J].情報(bào)學(xué)報(bào),2023,42(2) :164.
[24]侯艷輝,荊明月,王家坤.基于專利異構(gòu)數(shù)據(jù)融合的技術(shù)演化路徑識(shí)別方法[J].情報(bào)雜志,2024,43(9) :188.
[25]Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3(1) : 993.
[26]胡澤文,韓雅蓉,王夢(mèng)雅.基于LDA-Word2vec的圖書情報(bào)領(lǐng)域機(jī)器學(xué)習(xí)研究主題演化與熱點(diǎn)主題識(shí)別[J].現(xiàn)代情報(bào),2024,44(4):154.
[27]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and theircompositionality[J]. Advances in neural information processing systems,2O13,26.
[28]周愛霞,嚴(yán)亞蘭,查先進(jìn).基于神經(jīng)網(wǎng)絡(luò)詞嵌入的大數(shù)據(jù)關(guān)注熱點(diǎn)和詞嵌入概貌比較研究[J].現(xiàn)代情報(bào),2024,44(1):37.
[29]胡澤文,王夢(mèng)雅,韓雅蓉.基于LDA2Vec-BERT的新興技術(shù)主題多維指標(biāo)識(shí)別與演化分析研究——以顛覆性技術(shù)領(lǐng)域:區(qū)塊鏈為例[J].現(xiàn)代情報(bào),2024,44(9):42.
[30]楊恒,王日芬,張露.基于核心專利技術(shù)主題識(shí)別與演化分析的技術(shù)預(yù)測(cè)[J].情報(bào)雜志,2022,41(7) :49.
[31]李湘東,張嬌,袁滿.基于LDA 模型的科技期刊主題演化研究[J].情報(bào)雜志,2014,33(7):115.
[32]曾江峰,黃泳潼,陳靜怡,等.面向融合出版技術(shù)的主題演化研究[J].數(shù)字圖書館論壇,2023,19(4) :9.
[33]武永亮,趙書良,李長(zhǎng)鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學(xué)報(bào),2017,31(5) :138.
[34]Zhang Y,Zhang G,Zhu D,et al. Scientific evolutionary pathways: Identifying and visualizing rela-tionships for scientific topics[J].Journal of the Asociation for Information Science and Technology,2017,68(8) :1925.
[35]邢曉昭,任亮,雷孝平,等.基于專利主題演化的顛覆性技術(shù)識(shí)別研究——以類腦智能領(lǐng)域?yàn)槔齕J].情報(bào)科學(xué),2023,41(3):81.
[36]單曉紅,韓晟熙,劉曉燕.基于技術(shù)主題演化的顛覆性技術(shù)識(shí)別研究[J].情報(bào)理論與實(shí)踐,2023,46(8) :113.
[37]王偉明,徐海燕,張發(fā)明.基于CRITIC-G1和Bonferroni 算子的學(xué)術(shù)期刊綜合評(píng)價(jià)研究[J].情報(bào)理論與實(shí)踐,2020,43(5):104.
[38]Mann G S,Mimno D,McCallum A. Bibliometric impact measures leveraging topic analysis[C]//Proceedings of the 6th ACM/IEEE-CSjoint conference on Digital libraries.2006:65.
[39]鄭榮,魏明珠,高志豪,等.基于SCAN-CPM的產(chǎn)業(yè)新興技術(shù)識(shí)別與演化路徑分析:以新能源
[40]劉明信,李丹丹,李榮,等.專利視閾下產(chǎn)業(yè)技術(shù)創(chuàng)新合作網(wǎng)絡(luò)演化分析——以腫瘤疫苗為例[J].圖書情報(bào)工作,2022,66(9):117.
[41]呂鯤,項(xiàng)旻昊,靖繼鵬.基于LDA2Vec和DTM模型的顛覆性技術(shù)主題識(shí)別研究———以能源科技領(lǐng)域?yàn)槔齕J].圖書情報(bào)工作,2023,67(12):89.
[42]郝保帥.基于知識(shí)圖譜的船舶中文專利推薦技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2022.
[43]ZOU Zhengxia,CHEN Keyan,SHI Zhenwei,et al. Object detection in 2O years: a survey[J]. ProcIEEE,2023,111(3) :257.
Topic Evolution and Hot Topic Identification of Artificial Intelligence Technology Based on LDA-Word2vec
WANG Xiangqian1, GAO Runfeng',LI Huizong ( I School of Economics and Management, Anhui University of Science and Technology, Huainan, Anhui 232Ool ; 2 School of Artificial Intelligence and Software Engineering,Nanyang Normal University,Nanyang,Henan 47306l,China)
ABSTRACTIdentifying keytechnologies of artificial intellgence and in-depth research on the development trendof artificial inteligencetechnologycanhelpcountriesandenterprises graspthedevelopmentstateofartificial inteligenceintime.Basedon2O09-2023 patentliteratureinthefieldofartificial intelligence,LDA modeland Word2vec word vectortechnologywere integrated tosystematicallyinvestigatethedynamicevolutionprocessof technical themes fromthe dualdimensionsof theme intensityandcontent.At the same time,the topic popularity,noveltyand influence indicators were constructed to identify the hot topics of artificial intelligence stages.The results showed that ① Combining LDA topic modelingabilityand Wordvec semantic processng abilitycould efectively improve theaccuracyof technicaltopic ecognition,andintutivelypresenttheevolutionlawandcharacteristicsoffine-grainedtechnicaltopicsinthefieldofartificialintelligence; ② The technical topics in the fieldof artificial intelligence were mainly divided into five categories:core algorithmand technical basis,perceptionand interaction technology,natural languageandsemantic understanding,data procesing nd security,intellgent aplicationand automation,and thecorelationand interactionbetween the topics were increasingly close; ③ Through the comprehensive evaluation of the design indicators,we could better identify the hot technical topics in three different stages during 2009-2014,2015-2019 and 2020-2023.
KEY WORDS artificial intelligence;LDA model;topic identification;Word2vec;topic evolution;hot topics
(責(zé)任編輯 王一諾)
九江學(xué)院學(xué)報(bào)(自然科學(xué)版)2025年2期