靳嘉林 ,王曰芬 ,,巴志超 ,岑詠華
(1.南京理工大學經濟管理學院,南京 210094;2.天津師范大學管理學院,天津 300387;3.天津師范大學大數據科學研究院,天津 300387;4.南京大學數據智能與交叉創(chuàng)新實驗室,南京 210023)
研究主題作為學術成果的一種隱性特征,反映了該學術成果的主要研究內容。領域研究是由大量該領域學術成果及其主要研究內容構成的,因此,領域研究的方向和熱點及其演進態(tài)勢的深入揭示需要從研究主題切入?;痦椖抠Y助領域的研究主題更具有科技發(fā)展的政策引領性、學術前瞻性、應用迫切性和未來探索性,所以,基于情報學視角與數據驅動思想,審查與分析國家級基金項目數據特性,通過數據表征間的內在關聯構建面向國家級基金項目數據的主題挖掘與演化分析框架,具備情報研究的重要意義。
在國家級基金中,美國國家科學基金會(National Science Foundation,NSF)在美國科學進步中發(fā)揮著重要作用并且資助領域具有廣泛的覆蓋面,其資助的科研項目能夠在一定程度上反映美國科學研究和工程開發(fā)的政策導向和發(fā)展趨勢。同時,人工智能(artificial intelligence,AI)的飛速發(fā)展引發(fā)世界各國政策規(guī)劃與科技資助計劃的競相涌現,各國紛紛通過加大研究投入推動人工智能發(fā)展。美國也相繼采取了一系列措施來維護其在AI 領域的領先地位,基金項目的資助便是主要形式之一。
由此,本文以科學基金數據為研究對象,采用關鍵詞提取、詞向量建模、主題挖掘等方法,構建基金項目數據主題挖掘與演化分析框架和研究流程,以探測基金項目領域研究主題分布與變化,并通過主題演化路徑變動識別出演化主路徑。在實證中,選取NSF 資助的AI 領域為例,研究美國人工智能領域政策引導的方向、前沿瞄準的范圍、應用示范的側重及其發(fā)展變化,為學術研究與政策規(guī)劃提供參考借鑒。
目前,關于基金數據的研究中以NSF 為數據來源的較少。在國內,多是使用明確學科劃分的領域數據,例如,王文娟等[1]選擇NSF 資助的海洋酸化相關研究項目作為研究數據,徐路路等[2]選擇NSF石墨烯領域項目作為研究數據。在國外,有關NSF數據的研究則更多地是通過直接限定年份來獲得數據,例如,Coccia 等[3]和 Barrios 等[4]選擇 1997—2012年NSF 研究項目作為研究數據,Kawamura 等[5]選擇2012—2016 年NSF 研究項目作為實驗對比數據。
主題挖掘是利用文本集合中文本特征項之間的關聯關系發(fā)現研究主題的過程,目前常見的主題挖掘方法有詞頻分析法、共詞分析法、引文分析法、主題模型法等。例如,趙常煜等[6]基于LDA(latent Dirichlet allocation)模型和情感分析進行主題情感交叉分析;王艷東等[7]以微博為節(jié)點構建共詞網絡,結合Louvain 社區(qū)探測算法進行文本主題挖掘;楊玉娟等[8]通過結合詞向量模型、凝聚型層次聚類算法和k-means 算法進行主題聚類;Nichols[9]通過構建主題模型來測量NSF 項目的跨學科性。通過現有大量研究可以發(fā)現,LDA 模型由于其詞性標注的便捷性,在情感分析中能夠發(fā)揮不錯的效果,但短文本的主題分析不盡如人意;共詞網絡能夠很好地構建詞之間的相關關系,但忽略了語義在主題中的重要作用;而詞向量模型能夠很好地結合上下文關系和語義特征構建模型,以此為基礎的聚類算法能夠得到更準確的主題挖掘結果。因此,在以主題內容挖掘為目的的主題分析中,選擇基于詞向量和聚類的方法,能夠得到更優(yōu)的結果。
隨著主題挖掘研究的不斷加深,主題演化的研究也逐漸引起重視,研究方法根據需求也有所不同。有直接使用研究工具的,例如,隗玲等[10]使用NEV-iewer(network evolution viewer)工具進行主題演化,并結合社區(qū)活躍度、社區(qū)節(jié)點數量、社區(qū)變化情況等指標確定學科主題演化路徑;有進行標簽梳理的,例如,陳悅等[11]以論文發(fā)表時間和作者輔助信息的外生標簽梳理出中國科學學研究主題的變遷;有使用相關算法的,例如,李海林等[12]提出基于時間序列聚類的主題發(fā)現與演化分析方法,將發(fā)現的文獻主題轉化為反映主題熱度時間序列數據,并結合時間序列聚類方法對各主題進行分類以及演化趨勢的分析。雖然演化研究的方法不盡相同,但通過時間維度的演化分析,能夠有效地把握主題變化趨勢。
本文遵循“數據獲取-數據預處理-數據挖掘與分析-結果展示與驗證”的研究范式設計針對國家級基金數據的主題挖掘與演化分析框架,在“數據層-分析層-展示層”的三層結構中融入基金項目數據單元的表征及其信息含義,開展針對基金項目研究內容的分布與演變研究,如圖1 所示。
數據層執(zhí)行的是數據準備環(huán)節(jié),包括數據獲取與數據預處理。數據獲取階段,由于基金項目本身不同于論文發(fā)表,具備一定的政策引導性,所以在獲取數據時應考慮基金數據特征。領域檢索詞的選擇一方面要完整覆蓋學術研究方向,另一方面要緊密貼合國家政策導向,從而確保數據的全面性。數據預處理階段,在完成初步清洗去重后,對已獲得數據進行二次篩選,特別是基金代碼未覆蓋的研究領域,以確保數據的準確性。由于基金數據的獲取過程難以獲得關鍵詞信息,蘊含內容屬性的只有標題和摘要,需要采用關鍵詞提取、術語切分等手段提取出能夠表征基金內容的特征。
分析層執(zhí)行的是數據挖掘環(huán)節(jié),是實現主題挖掘與演化分析的主要過程,通過詞向量模型、主題模型、深度學習等方法,實現主題抽取和相似度的計算,從而形成基金研究的主題分布與動態(tài)演化。
展示層執(zhí)行的是結果分析與驗證環(huán)境,主要針對主題分布和動態(tài)演化兩個部分開展。從分析的角度來看,通過主題抽取獲得研究領域基金項目數據的主題分布,引入基金分析的獨特視角,如學部視角等,將主題分布落實至不同的維度中。從驗證的角度來看,主題抽取部分需要對結果進行效果評估,在確定主題模型主題數時通常需要進行預檢驗,諸如k-means 算法中的誤差平方和與輪廓系數、LDA 算法中的困惑度與一致性等指標。主題演化部分需要對識別出的主路徑進行檢驗,可以從兩個途徑進行,一是現實檢驗,利用已有數據溯源到具體基金項目中,判斷現實中的基金的實際支持力度是否契合演化主路徑;二是交叉檢驗,針對基金相關的政策文本或受基金資助的學術成果等多源數據開展相關挖掘工作,利用不同數據的實驗結果交叉驗證演化主路徑是否合理。
為了發(fā)掘AI 基金數據中的主題內容,本文從數據挖掘與分析的角度出發(fā),運用RAKE(rapid automatic keyword extraction)算法、word2vec 建模、kmeans 聚 類 、 WMD (word mover's distance) 算 法等,選取美國NSF 數據中AI 領域主題發(fā)展態(tài)勢進行挖掘分析,研究流程如圖2 所示。
首先,在檢索數據并對初始數據集進行篩選過濾的基礎上,采用RAKE 算法從標題和摘要中提取關鍵詞,將基金項目數據表示為關鍵詞的集合;然后,進行主題挖掘,使用word2vec 建模方法對基金項目數據進行詞向量建模,針對詞向量模型,通過手肘法確定k值,并進行k-means 聚類,得到AI 領域研究主題以及學部視角下的主題分布;最后,開展動態(tài)演化分析,在主題分布中加入時間維度,利用WMD 算法計算不同主題間的相似度,得到主題演化態(tài)勢,對比所有演化路徑的演化強度,識別出演化主路徑。
3.2.1 基于RAKE算法的關鍵詞提取
基于語料庫的關鍵詞抽取方法存在一定的缺陷,例如,盡管某些關鍵詞很可能被評估為在語料庫內具有統(tǒng)計區(qū)別性,但在語料庫內的許多文檔中出現的關鍵詞卻被認為不具備區(qū)別性。面向語料庫的方法通常也僅對單個單詞起作用。這進一步限制了統(tǒng)計上有區(qū)別的單詞的度量,因為單個單詞經常在多個不同的上下文中使用。而快速自動關鍵詞提取算法(RAKE),是一種非監(jiān)督的、與文本域和語言無關的方法,用于從單個文檔中提取關鍵詞,能夠有效避免上述弊端。
RAKE 算法的輸入參數包括停用詞列表、一組詞組定界符和一組詞定界符。RAKE 通過使用停用詞和詞組定界符將文本解析為一組候選關鍵詞來對文本進行關鍵詞提取。首先,通過指定的單詞定界符將文本分成單詞數組;接著,將數組在短語定界符和停用詞位置分成連續(xù)的詞序列,序列區(qū)域內在文本中的相同位置的單詞被分配在一起,視為候選關鍵詞,并構建候選關鍵詞共現圖;最后,對每個候選關鍵詞計算得分,并將其定義為其成員單詞分數的總和[13]。其中,關鍵詞得分的計算公式為
即單詞w的得分是該單詞的度(每與另一個單詞共現在一個短語中,度就加1) 除以該單詞的詞頻(該單詞在該文檔中出現的總次數)。
3.2.2 基于word2vec的詞向量建模
在自然語言處理中,詞在計算機中有兩種表示方式:離散表示和分布式表示。傳統(tǒng)的基于規(guī)則或基于統(tǒng)計的自然語義處理方法將單詞看作一個原子符號,把每個詞表示為一個長向量,這個向量的維度是詞表大小,向量中只有一個維度的值為1,其余維度為0,這個維度就代表了當前的詞。分布式表示則將詞表示成一個定長的連續(xù)的稠密向量,即詞向量。
word2vec 是Google 于2013 年以深度學習的思想為基礎開發(fā)的一種詞向量模型,主要用于實現文本信息由非結構化形式到向量化形式的轉變[14]。word2vec 包含 CBOW(continuous bag-of-word model)和skip-gram 兩個模型,CBOW 模型是拿一個詞語的上下文作為輸入,來預測這個詞語本身;skip-gram模型是拿一個詞語作為輸入,來預測這個詞語的上下文,如圖3 所示[15]。由于word2vec 方法在獲得詞向量時會考慮上下文情況,與其他詞嵌入方法相比,其得到的詞向量效果更好,維度更少,所以,處理速度也更快,更適合應用在自然語言處理的任務中。
本文以AI 領域為例,采用關鍵詞組合檢索的策略,根據前期綜合研究確定的418 個關鍵詞[16],構造檢索式“"semantic analysis" or "neural network" or"support vector machine" or "machine learning"…”,在NSF 官網上檢索相關基金項目,限定基金資助時段為2008.01.01—2018.12.31 (檢索時間為2020 年2月)。去重處理后,共獲取42126 條基金項目數據;經人工篩選與研判后,最終得到AI 領域基金項目數據20524 條。
為了充分利用NSF 數據,從整體與局部兩個方面把握美國AI 領域基金項目發(fā)展概況,本文分別從學術領域和學部兩個視角進行主題分布的研究。經過關鍵詞抽取,將各基金項目用關鍵詞的集合來表示,刪除掉無效的關鍵詞以及關鍵詞數量為1 的基金項目,最終剩余19743 條基金項目數據,涉及關鍵詞8291 個,表1 顯示了Top 20 的高頻關鍵詞。
進一步解讀表1 所示數據以及其他高頻關鍵詞,可以明顯地發(fā)現,一些傾向于計算機和數理方向的詞匯,如機器學習、計算機科學、數據分析、大數據、數據科學、計算模型、數學模型等,在表格中排名前列,表明在基金項目資助方面人工智能領域的技術需求以計算機技術和數理科學為主,其他學科理論知識則依照相關應用起輔助作用。大規(guī)模、先進技術、實時、一致狀態(tài)、開放資源等則體現出人工智能研究中數據與方法的特征。在這些關鍵詞中,出現最多的單詞就是數據,這充分顯示在數據密集型的第四科學研究范式下,基金項目的研究同樣以數據為驅動,合理使用計算機技術對各類數據進行挖掘與分析,進而實現人工智能。除此之外,決策支持、氣候挑戰(zhàn)、材料科學、科學教育等詞語則展示受資助項目的主要應用方向。由此可見,NSF 資助的人工智能研究項目側重于研究計算機方法并用于解決美國所面臨的實際問題。
表1 NSF人工智能領域Top 20高頻關鍵詞
4.2.1 領域研究主題挖掘與分布
開展主題挖掘之前需要首先確定研究主題個數。誤差平方和(square sum of error,SSE) 是所有樣本的聚類誤差,能夠代表聚類效果的好壞,換句話說,SSE 值的計算與比較可以實現對聚類結果的預檢驗。實驗過程中,隨著聚類個數k的逐漸增大,每個類簇的劃分都變得更加細粒度,聚合程度也相應提高,但并非k取值越大越好。當k值達到真實聚類個數時,SSE 值隨k值增加而減小的幅度會迅速降低進而趨于平穩(wěn)。因此,可以通過SSE 值對聚類結果進行預檢驗,根據其隨k值變化的曲線來確定最優(yōu)聚類數。
使用python 的gensim 包將項目關鍵詞數據通過word2vec 轉化為 300 維詞向量,隨后k取值從 2 到50 并依此計算SSE 值,圖4 展示了誤差平方和隨k值的變化曲線。
在圖4 中,縱軸的上下邊界分別為誤差平方和的最大值和最小值,橫軸表示k的取值,范圍為2~50。觀察發(fā)現,在k取值15 前后,誤差平方和的變化首次明顯減緩,因此確定k的取值為15。在此基礎上,進行詞向量的聚類,得到的結果如表2所示。
NSF 所資助的AI 研究項目涉及15 個主題。表2展示了各主題的前10 個主題詞,研究涵蓋了計算機、數學、教育、環(huán)境、材料等多個領域。各主題間界限相對清晰,這反映出融入基金特征的分析框架能夠針對基金數據獲得較好的結果,其中:
表2 主題分布情況
Topic1 主要涉及使用數學或計算機理論方法解決用戶行為問題或經濟問題;Topic2 主要涉及各種類型多源數據的研究與采集;Topic3 主要涉及在實際工程項目中使用計算機方法解決所遇到的復雜問題;Topic4 主要涉及生命科學領域的研究,并在此基礎上使用計算機方法仿真出生物運作的機能,以此解決醫(yī)療、生物、計算機等多方面問題;Topic5主要涉及AI 在材料和化學領域的應用,通過AI 方法處理多維空間以及不同環(huán)境的數據,從而找到改良材料的突破口;Topic6 主要涉及AI 硬件及系統(tǒng)設計中的問題;Topic7 主要涉及教育領域,一方面是教育AI 領域知識,另一方面是使用AI 方法進行教育;Topic8 主要涉及數學與物理的理論方法,在AI研究中要大量應用數學與物理的相關知識,這是理論研究的重點;Topic9 主要涉及數據挖掘與機器學習的典型方法,是AI 領域的方法論基礎;Topic10主要涉及光電領域工程以及信號降噪等問題研究;Topic11 主要涉及對各類系統(tǒng)的持續(xù)性檢測、優(yōu)化與評價問題;Topic12 主要涉及數據的處理與分析,在數據密集型的第四研究范式下,數據是所有研究的基礎,這一主題的研究為其他研究提供有效的數據支撐;Topic13 主要涉及物聯網的研究,從效率、能源、數據、安全、隱私等多方面進行傳感器的研發(fā);Topic14 主要研究美國氣候環(huán)境變化所造成的影響,并預測短期內的環(huán)境變化,為決策者提供決策支持;Topic15 主要涉及服務提供商的虛擬系統(tǒng)及現實工程的構建。
4.2.2 學部研究主題挖掘與分布
NSF 人工智能領域基金項目共涉及7 個學部和1 個辦公室。同一學部下的研究者和研究項目通常擁有著相似的研究領域或學科,而人工智能領域研究的15 個主題涵蓋了大量的學術領域以及現實應用場景。因此,學部下的研究主題分布能夠反映該學部學科交叉度以及應用范圍。
通過對比各學部項目關鍵詞與各主題所包含的主題詞,得到各學部研究項目在各個主題下的分布情況,如圖5 所示。雷達圖的各個指標分別對應Topic1~Topic15(12 點方向為Topic1,按逆時針方向依次遞增至Topic15),每個學部在各主題下陰影的長度代表該學部研究與各主題的相關性。
雷達圖中各學部的陰影部分形狀越接近正15 邊形,說明該學部研究的學科交叉程度越高,現實應用范圍越廣泛。從學部涉及的研究主題來看,計算機信息科學與工程學部、工程科學學部、數學與物理科學學部的項目在人工智能領域覆蓋廣泛,15 個主題的研究均位列前茅,顯示出這3 個學部的學科交叉研究明顯優(yōu)于其他學部;主任辦公室由于不與具體學科相關且項目較少,在各個主題上的研究均不突出;社會行為與經濟科學學部在Topic1(用戶行為與經濟問題)和Topic9(數據挖掘與機器學習等方法)中研究表現突出;地理科學學部的優(yōu)勢集中在Topic8(數學與物理理論方法)和Topic14(氣候環(huán)境問題) 中;教育與人力資源學部在Topic7(教育問題及應用)上彰顯了該學部的特點,同時,在Topic9(數據挖掘與機器學習等方法)、Topic12(數據處理與分析等基礎)等主題都表現不錯;生物科學學部除了在Topic4 (生物仿真與應用) 和Topic5(材料與化學及應用)有側重外,在Topic9(數據挖掘與機器學習等方法)、Topic12(數據處理與分析等基礎)等主題涉及的也比較多。
從研究主題所屬的學部來看,研究主題Topic9(數據挖掘與機器學習等方法)、Topic12(數據處理與分析等基礎)、Topic13(物聯網與傳感器)、Topic14(氣候環(huán)境問題)等是各個學部都關注的研究,體現出人工智能研究的領域屬性與需求;而Topic3(復雜工程問題)、Topic6 (硬件與系統(tǒng)設計) 和Topic11(系統(tǒng)檢測與優(yōu)化評價)在各個學部的研究都明顯弱于其他主題,主要的研究集中在計算機信息科學與工程學部、工程科學學部、數學與物理科學學部這3 個學部中,這可能是由于現實問題的復雜性導致研究難度過大,進而使項目的資助受到一定的影響。但從獲得資助項目的經費額度看,其中計算機信息科學與工程學部在這3 個研究主題上的投入不低,說明NSF正在加強攻克難關,突破技術瓶頸。
綜上可見,NSF 在對人工智能的資助上,既重視根據現實需求與學科領域核心而展開的研究,也鼓勵多學科的交叉發(fā)展,同時,又針對攻關項目加大重點投入與支持。
通過領域主題挖掘能夠揭示美國NSF 基金項目人工智能領域的整體態(tài)勢,但是缺乏對演化趨勢的把握。因此加入時間維度,以時間切片的形式展示各時間段主題分布以及相鄰時間段的演化關系。同時,根據各演化路徑的演化強度比較,識別出主演化路徑及其對應的研究主題,從而更加深入地研究NSF 基金資助的側重點及其變化。
由于2014 年之前每年項目數量較少,且關鍵詞分布散亂,所以將2008—2014 年作為第一個時間切片,其后每一年為一時間切片,按時間維度將數據集分為6 份。分別對各時間段數據進行主題挖掘處理,圖6 展示了歷年數據的誤差平方和隨k值變化曲線,各圖橫軸均為k值,范圍2~50,縱軸均為誤差平方和SSE 值,范圍從SSE 的最小值到最大值。
在所獲得的數據集中,有2019 年的部分數據,但是不完整,數據量明顯少于其他年份,沒有形成固定的主題,所以在時間切片中剔除2019 年數據,僅使用前5 個時間段。從圖6 可以看出,前5 份數據的誤差平方和變化趨勢相似,因此在進行聚類時k值均取 9。
4.3.1 領域主題演化趨勢分析
為分析NSF 基金資助的人工智能領域演化態(tài)勢,需要首先計算主題間的相似度。WMD 是2015年提出的一種衡量文本相似度的方法[17],通過兩個主題間詞語的相互轉移,使其轉移代價降到最小,這個最小的轉移代價即為兩個主題之間的WMD,計算公式為
其中,c(i,j)表示詞向量i和j的歐幾里得距離;n是詞的個數;分別是兩個主題中各個詞權重(模)組成的向量。
通過計算相鄰時間各主題的WMD 得到主題的動態(tài)演化情況,如圖7 所示。從圖7 呈現的不同主題的大小與主題之間的變化上看,各時間段人工智能領域的研究主題在統(tǒng)計的范圍內都處于不斷的擴張、分裂和融合的過程狀態(tài)。2008—2014 年各個主題規(guī)模都較小且分散,隨著時間的推進,2015—2017 年逐漸形成規(guī)模較大的幾個主題,主題規(guī)模呈現兩極分化態(tài)勢。到2018 年,大規(guī)模的主題開始出現縮減,而小規(guī)模主題有擴張趨勢,表明人工智能研究正在經歷從零散到融合的過程,也就是研究性質與發(fā)展事態(tài)逐漸從探索性研究步入到系統(tǒng)化研究。
同時,從圖7 中代表該主題詞頻最高術語的標簽看,主題演化呈現出明顯的融合、分裂、再融合的復雜過程,每年大小規(guī)模的主題均有不同程度的裂變,并從前序主題中吸納大量研究內容。其中,2008—2014 年的 Topic7、2015 年的 Topic3 和 Topic5、2016 年的Topic8 在演化過程中向后時間段均未出現強相似度主題。經調查發(fā)現這些主題所涉及項目均屬于融合多個學科基礎理論方法進行實踐的,其研究主題術語在下個時間段被分裂至各個主題中,導致每個主題與其相似度均不為0 但都不高,屬于普適性質的主題。而2016 年的Topic3(復雜系統(tǒng)中高維空間數據的計算與應用)和2017 年的Topic6(物聯網中信號處理問題及對開放環(huán)境數據的學習)向前未出現強相似度的主題,在演化過程中突然出現并持續(xù)作用,屬于新興主題。
4.3.2 領域主題演化路徑分析
為研究主題演化過程的完整路徑,將演化子路徑界定為相鄰時間切片主題間的路徑,演化強度定義為演化子路徑前后主題的相似度。通過計算得到表3 所示的各時間段演化強度較高的演化子路徑。同時,圖7 所展示的主題動態(tài)演化中共存在212 條演化子路徑,通過對比這些子路徑的演化強度以及是否能構成完整演化路徑,得到人工智能領域主題演化的主路徑。
由表3 所顯示的演化強度可以發(fā)現,每個時間段演化強度最高的路徑組成了一條完整的演化路徑,即 2008—2014:Topic9→2015:Topic2→2016:Topic1→2017:Topic3→2018:Topic2。 2008—2014 年 Topic9 代表的是視頻動作捕捉,屬于人工智能中的計算機視覺研究;2015 年Topic2 在此基礎上擴充了智能檢索、語音識別的研究;2016 年Topic1 開始追求圖像保真,并根據用戶需求進行虛擬組織;2017 年Topic3 則致力于研究路徑規(guī)劃和遠程控制;2018 年Topic2 中,一批無人控制設備顯現出來,無人機、無人駕駛汽車等成為該主題的研究熱點。在這條主路徑的基礎上參照表3 中的高演化強度子路徑進行溯源,如表4 和圖8 所示。
表3 各時間段高演化強度子路徑
表4 主題演化主路徑演化強度
圖8 中的標簽為主題內容相近的主題詞,代表該主題研究的主要內容。從圖8 可見,2008—2014年涉及的5 個主題分別是視頻圖像捕捉、圖像處理、系統(tǒng)工程、信息處理、編程模型。2015 年,圖像捕捉、圖像處理和系統(tǒng)工程的部分研究內容相融合,形成以圖像為基礎的智能檢索研究,并在此基礎上增加語音識別研究,建立起較為系統(tǒng)的計算機視覺研究;系統(tǒng)工程與信息處理通過加強對數據本身的研究,構成數據管理相關研究;信息處理和編程模型則融合出社會網絡研究,余下的編程模型研究更為深入形成以神經網絡為主的機器學習方法研究。2016 年,計算機視覺研究繼續(xù)深入,結合數據管理的相關問題,著重研究成像問題;社會網絡與數據管理進行融合,形成以用戶需求為基礎的項目管理與知識管理研究,技術方法研究則參考社會網絡構建,建立復雜系統(tǒng)并進行定量評估。2017 年,計算機視覺研究結合項目管理經驗,形成遠程控制研究并進行最優(yōu)路徑規(guī)劃;項目管理和定量評估則融合成視頻直播與動作控制管理方向。2018 年,前序積累的所有技術與應用相融合,形成無人設備方面的研究。
通過溯源主題對應的基金項目發(fā)現,主路徑中主題對應的基金項目數量在歷年各主題中均處于前列,但受設備需求所限,資助金額并非處于領先位置。這在一定程度上佐證了演化主路徑的研究內容確實受到NSF 的高度關注,在現實層面驗證了結果的可靠性。
本文以科學基金數據為研究對象,從情報研究的視角設計了分析框架與研究流程,以開展基于基金數據的領域研究主題挖掘與演化路徑分析;并以美國NSF 數據中AI 領域為例,通過word2vec 方法將項目轉化為300 維的詞向量模型,在此基礎上使用k-means 算法進行主題挖掘,發(fā)掘出了15 個人工智能領域研究主題,以及NSF 各學部的主題分布。最后加入時間維度,探索了NSF 資助的人工智能領域的主題演化情況,得出以下結論。
(1)對主題涉及的范圍與集中度開展研究,能夠把握國家級基金在領域研究中的覆蓋程度,體現其對該研究領域的整體支持力度。在人工智能領域,NSF 資助的研究在理論基礎與技術方法上覆蓋得比較全面,應用的產業(yè)范圍廣泛,集中支持的研究主題明晰。
(2)對學部主題分布的學科屬性與側重度開展研究,能夠識別國家級基金在學科研究與交叉研究中的權衡,在彰顯該領域的學科屬性的同時,落實其政策傾向。在人工智能領域,NSF 一方面大力資助該領域核心學科廣泛開展相關研究,另一方面鼓勵該領域的應用學科或者關聯學科突出重點研究,加大投入由核心學科進行攻關項目的研究,將交叉研究與重點突出相結合。
(3) 對領域主題演化狀態(tài)與路徑變化開展研究,能夠監(jiān)測國家級基金對領域核心技術關注與資助的狀況,揭示相關技術發(fā)展的過程。在人工智能領域,NSF 資助的研究呈現明顯的融合-分裂-再融合的特征,研究導向從嘗試多種方法解決現實問題向特定方法解決特定問題的方向發(fā)展,研究狀態(tài)正趨于系統(tǒng)化。整個演化過程的主路徑呈現的是一條從圖像處理、信息處理逐漸通過成像研究、系統(tǒng)優(yōu)化、遠程控制過渡到無人設備研究的路線軌跡,它顯示了NSF 是如何資助研究人員一步步將各類無人設備相關技術融合起來,并使技術從萌芽到逐漸成熟的發(fā)展過程。
因此,挖掘和分析基金資助項目領域主題的分布與演化,從政府投入支持角度把握領域研究的主題內容、發(fā)展態(tài)勢與趨向,并借助國外相關數據進行實證分析,對于我國的學術研究與政府規(guī)劃將提供有力的決策參考。
本文也存在一定的局限性。雖然k-means 聚類算法在確定k值的過程中存在SSE 值的檢驗,但是在主題演化的分析中僅通過與已有數據的比較來檢驗結果的可靠性,缺乏與多源數據相結合的對比分析。后續(xù)研究可采用不同來源的數據,如政府科技政策文本、國家級基金資助項目的論文產出等,對多源數據的主題分析進行交叉驗證,增強結果的可靠性。