摘 要: [目的/ 意義] 科學(xué)基金制度是各國(地區(qū))提升科學(xué)研究水平的重要方式, 準(zhǔn)確識(shí)別科學(xué)基金的資助方向和資助成效是感知科技發(fā)展態(tài)勢的關(guān)鍵。[方法/ 過程] 為識(shí)別科學(xué)基金資助態(tài)勢, 在提出關(guān)鍵短語抽取規(guī)則后, 利用語義相似度消除同、近義詞的歧義影響, 利用動(dòng)態(tài)滑動(dòng)窗口和語義相似度構(gòu)建語義加權(quán)的詞共現(xiàn)網(wǎng)絡(luò), 并基于社團(tuán)劃分方法識(shí)別基金主題。在集成電路領(lǐng)域比較1 812項(xiàng)中國國家自然科學(xué)基金和2 807項(xiàng)美國國家科學(xué)基金的資助主題分布、資助力度變化和資助效果, 該方法能夠準(zhǔn)確識(shí)別基金主題分布和資助成效。[結(jié)果/結(jié)論] 中國國家自然科學(xué)基金和美國國家科學(xué)基金均涵蓋了集成電路領(lǐng)域的主要研究主題, 在重點(diǎn)資助方向和資助力度上有較大差異; 中國國家自然科學(xué)基金資助的論文平均被引頻次相對(duì)較低, 受資助機(jī)構(gòu)相對(duì)單一。
關(guān)鍵詞: 科學(xué)基金; 資助態(tài)勢; 社團(tuán)劃分; 詞共現(xiàn)網(wǎng)絡(luò); 主題分析; 集成電路
DOI:10.3969 / j.issn.1008-0821.2025.01.004
〔中圖分類號(hào)〕G252. 8 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2025) 01-0046-14
科學(xué)基金聚焦國際研究前沿和國家重大戰(zhàn)略需求, 通過調(diào)整科技資源的分配方式引領(lǐng)科技發(fā)展方向, 促進(jìn)重點(diǎn)科技領(lǐng)域的原創(chuàng)性和突破性創(chuàng)新, 體現(xiàn)了國家科技戰(zhàn)略的總體部署方針, 對(duì)識(shí)別全球科技創(chuàng)新競爭態(tài)勢和預(yù)判科技創(chuàng)新制高點(diǎn)具有重要意義。尤其是在國際科技競爭和新一輪科技革命的雙重驅(qū)動(dòng)下, 亟需明確科學(xué)基金的重點(diǎn)資助方向和資助方式, 加強(qiáng)重點(diǎn)科技領(lǐng)域的前瞻性資助部署??茖W(xué)基金資助態(tài)勢是基金重點(diǎn)資助方向、資助策略和資助成效的綜合表現(xiàn), 識(shí)別基金資助態(tài)勢能夠全面展現(xiàn)國家科學(xué)資助重心及其演變過程, 明確未來一段時(shí)間內(nèi)科學(xué)研究的主要發(fā)展方向, 反映各個(gè)國家(地區(qū)) 的科技競爭策略, 從而為制定和調(diào)整我國的科學(xué)基金資助方向提供前瞻性決策支持, 優(yōu)化提升我國科學(xué)基金的資助成效, 以便更好地應(yīng)對(duì)全球科技競合。
基金資助數(shù)據(jù)被廣泛用來分析科學(xué)基金產(chǎn)出評(píng)估[1] 、研究前沿主題識(shí)別[2] 、跨學(xué)科研究模式[3] 以及基金資助特征[4] 。為識(shí)別科學(xué)基金資助態(tài)勢, 需要識(shí)別科技大國的基金資助主題分布, 明確主要資助方向和資助力度的演變過程, 對(duì)比不同國家(地區(qū))的基金資助成效。對(duì)基金主題的識(shí)別主要是基于基金題名、關(guān)鍵詞和摘要開展定性或定量的分析?;饦?biāo)題的短文本特征使得在主題建模時(shí)存在數(shù)據(jù)稀疏、詞語表達(dá)抽象和同近義詞消歧等問題, 基于詞共現(xiàn)網(wǎng)絡(luò)的分析方法更適合處理短文本, 但存在選詞困難和忽視詞間結(jié)構(gòu)及語義關(guān)系的問題; 基于主題模型的方法更適合長文本分析, 主觀設(shè)定的主題數(shù)量影響主題分析的準(zhǔn)確性, 因而有必要針對(duì)基金文本特征提出更加準(zhǔn)確的主題識(shí)別方法。基金資助力度及資助成效亦是分析基金資助態(tài)勢的重要方面, 需要在主題識(shí)別的基礎(chǔ)上形成包括資助力度變化和資助成效分析等在內(nèi)的綜合流程, 提高基金資助態(tài)勢識(shí)別的全面性和有效性。為此, 本研究基于多種特征抽取關(guān)鍵短語后, 利用詞間位置距離和語義關(guān)系構(gòu)建詞共現(xiàn)網(wǎng)絡(luò), 提出基于語義加權(quán)詞共現(xiàn)網(wǎng)絡(luò)和社團(tuán)劃分的基金主題識(shí)別方法, 繼而從基金資助規(guī)模、基金主題總體分布、資助力度變化、資助論文被引分布及受資助主體等方面呈現(xiàn)中美兩國在集成電路領(lǐng)域的基金資助態(tài)勢, 以期為動(dòng)態(tài)識(shí)別科學(xué)基金資助態(tài)勢提供情報(bào)流程和方法支撐, 并為我國制定科學(xué)基金的資助策略提供前瞻性決策支持。
1 相關(guān)研究
科技發(fā)展態(tài)勢感知需要融合情報(bào)思維對(duì)時(shí)空中的科技發(fā)展環(huán)境、構(gòu)成要素、要素間關(guān)聯(lián)進(jìn)行持續(xù)監(jiān)測、認(rèn)知、分析和呈現(xiàn), 識(shí)別當(dāng)前發(fā)展?fàn)顟B(tài)并預(yù)判未來可能的發(fā)展情景和潛在機(jī)會(huì)風(fēng)險(xiǎn)[5] 。科學(xué)基金作為感知科技發(fā)展態(tài)勢的重要情報(bào)來源, 相比論文和專利數(shù)據(jù)更能表現(xiàn)國家政府層面對(duì)科技競爭,尤其是對(duì)新興科技領(lǐng)域的預(yù)判方向, 有助于從宏觀層面把握重點(diǎn)科技領(lǐng)域的發(fā)展需求、戰(zhàn)略規(guī)劃、發(fā)展態(tài)勢和領(lǐng)域前沿趨勢[6] 。相關(guān)研究以基金主題識(shí)別為基礎(chǔ), 對(duì)比基金資助的主要方向和資助成效,期望從多個(gè)維度呈現(xiàn)出重點(diǎn)科技領(lǐng)域的資助態(tài)勢。
1. 1 基金主題識(shí)別方法
科學(xué)基金主題體現(xiàn)了國家科技發(fā)展中迫切需要突破的領(lǐng)域, 識(shí)別方法主要有基于詞共現(xiàn)和基于主題模型的方法?;谠~共現(xiàn)的方法是通過詞或詞組間的共現(xiàn)關(guān)系來反映詞間的關(guān)聯(lián)強(qiáng)度, 轉(zhuǎn)換成共現(xiàn)矩陣后使用聚類算法聚合隸屬同一主題的詞, 或是將共現(xiàn)矩陣變換投影在多維尺度空間圖、戰(zhàn)略坐標(biāo)圖上來表示主題分布[7-8] 。研究主題分布可以通過構(gòu)建學(xué)科內(nèi)基金的高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)展現(xiàn)[9] , 也可將基金的詞共現(xiàn)網(wǎng)絡(luò)轉(zhuǎn)化為相異矩陣, 利用因子分析、層次聚類方法和多維尺度分析呈現(xiàn)聚類結(jié)果[10] , 或是借助軟件VOSviewer 的分析功能可視化[11] 。利用基金的詞共現(xiàn)網(wǎng)絡(luò)和學(xué)科交叉測度指標(biāo)測度學(xué)科內(nèi)外部知識(shí)的聚合和交叉程度, 以此分析基金資助對(duì)交叉研究態(tài)勢的影響[12] , 基金關(guān)鍵詞耦合形成的學(xué)科間交叉網(wǎng)絡(luò)顯示出學(xué)科交叉度整體增強(qiáng)[13] , 這為跨學(xué)科測度提供了有力補(bǔ)充?;谠~共現(xiàn)的方法假設(shè)共現(xiàn)次數(shù)相對(duì)較高的詞對(duì)表示同一主題, 由于基金自標(biāo)注關(guān)鍵詞可能存在標(biāo)引不準(zhǔn)確的現(xiàn)象, 以及同、近義詞表達(dá)同一概念的歧義干擾, 缺乏上下文環(huán)境的單個(gè)詞被聚類后難以解讀聚類結(jié)果。受到詞的選取、同近義詞消歧、確定詞間關(guān)系和聚類算法選擇等環(huán)節(jié)準(zhǔn)確性的影響, 基于詞共現(xiàn)的主題識(shí)別方法需進(jìn)一步提升有效性[14] 。
基于主題模型的方法將基金文本集合表示成向量空間, 利用概率統(tǒng)計(jì)方法推斷主題和詞間的隸屬分布, 潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)[15]及其衍生算法得到了廣泛應(yīng)用。劉自強(qiáng)等[16]基于LDA 提取基金及其資助論文的主題, 設(shè)計(jì)了包含主題資助金額、期限、熱度、質(zhì)量和影響力在內(nèi)的基金資助的科學(xué)產(chǎn)出主題綜合評(píng)估模型。陳挺等[17] 通過LDA 提取基金主題后以t-SNE 算法可視化展示主題分布。Stahlman G R 等[18] 比較了不同主題中基金資助規(guī)模和產(chǎn)出結(jié)果的差異。王效岳等[19] 利用pLDA 模型提取基金主題后, 從資助時(shí)間、資助金額和網(wǎng)絡(luò)中心性等方面識(shí)別前沿主題。基金數(shù)據(jù)也被用來和科技文獻(xiàn)、專利等來源的文本數(shù)據(jù)一同分析領(lǐng)域主題演化過程, 通過改進(jìn)的詞袋模型提升LDA 模型的主題識(shí)別效果[20] 。相關(guān)研究在利用LDA 提取基金主題時(shí)未充分考慮主題模型的適用性問題, 特別是LDA 對(duì)短文本的分析效果較差, 在確定聚類數(shù)目時(shí)需盡量避免主觀選擇。由于LDA 忽視原本文檔中句子之間、詞之間的語義信息, 以及提取出的主題詞間關(guān)系不明, 導(dǎo)致凝練主題時(shí)相對(duì)困難, 基于預(yù)訓(xùn)練模型的BERTopic 被用于改進(jìn)基金的主題建模[21] 。
1. 2 基金資助成效分析
在科學(xué)基金資助成效方面, 相關(guān)研究探討了科學(xué)基金的資助特征、與科學(xué)產(chǎn)出間的關(guān)系以及影響因素。從SCI 論文中提取基金資助數(shù)據(jù)比較10 國的基金資助特征發(fā)現(xiàn), 大部分的中國論文受到國家自然科學(xué)基金資助, 資助比例遠(yuǎn)高于其他國家[22] 。在經(jīng)濟(jì)學(xué)領(lǐng)域發(fā)現(xiàn)中國的基金資助率最高, 但基金資助產(chǎn)出有待進(jìn)一步提升[23] 。國家自然科學(xué)基金資助的中英文論文在產(chǎn)出和影響力上存在明顯不同,不同學(xué)科對(duì)中英文論文的投稿興趣差異明顯[24] 。在基金資助與科學(xué)研究產(chǎn)出關(guān)系的研究中, 有研究表明, 有基金資助的論文相對(duì)于沒有基金資助的論文被引次數(shù)更高[25-26] , 但這一結(jié)論并不總是成立的,獲得基金資助的人發(fā)表了更多論文, 然而論文平均被引次數(shù)沒有顯著變化[27] 。基金資助對(duì)高被引論文的初始被引量和長期被引量的作用不同[28] , 青年學(xué)者們?cè)诨鹳Y助下研究主題越發(fā)深入, 越傾向于聚焦某一類研究主題來加強(qiáng)和同領(lǐng)域?qū)W者的合作[29] 。在不同領(lǐng)域的實(shí)證研究反映了基金資助成效的差異。在人工智能領(lǐng)域美國的政策導(dǎo)向和持續(xù)科學(xué)基金資助支撐了科學(xué)發(fā)展[30] ; 在技術(shù)創(chuàng)新領(lǐng)域有較高概率獲得基金資助的研究者科研產(chǎn)出更高[31] ; 在能源領(lǐng)域國家杰出青年基金的科研工作者在論文數(shù)量、論文被引頻次和高質(zhì)量論文數(shù)量上均有大幅度提高[32] 。對(duì)公共管理領(lǐng)域具有相似科研稟賦的科研工作者而言, 獲得國家社會(huì)科學(xué)基金資助可以提高論文產(chǎn)出績效[33] 。但在競爭激烈的依托單位、學(xué)科和人員類型上增加經(jīng)費(fèi)投入可能出現(xiàn)逆向激勵(lì)作用[34] , 項(xiàng)目經(jīng)費(fèi)強(qiáng)度對(duì)論文的績效激勵(lì)效應(yīng)較弱[35] 。在基金資助的相關(guān)因素研究中, 地區(qū)分布差異[36] 、論文的合作者數(shù)量[26] 、基金項(xiàng)目承擔(dān)者的年齡、所屬機(jī)構(gòu)、職稱、頭銜[37] , 以及項(xiàng)目負(fù)責(zé)人在合作網(wǎng)絡(luò)中的位置[38] 與基金產(chǎn)出績效有關(guān)。已有研究關(guān)注基金資助的影響因素, 以及對(duì)科學(xué)產(chǎn)出的作用方式, 但由于無法完全控制其他變量的潛在影響, 很難得出基金資助和研究產(chǎn)出間明確的因果關(guān)系[39] , 這需要解決基金資助和研究產(chǎn)出之間的內(nèi)生性問題[40] 。
2 科學(xué)基金資助態(tài)勢識(shí)別方法
本研究提出從科學(xué)基金主題分布、資助力度演變和資助效果等方面反映科學(xué)基金資助態(tài)勢, 分析流程如圖1 所示。為準(zhǔn)確識(shí)別科學(xué)基金主題, 在基金數(shù)據(jù)集和論文數(shù)據(jù)集上通過基金名稱或基金號(hào)與科學(xué)論文建立映射關(guān)系; 在關(guān)鍵短語抽取環(huán)節(jié)利用詞性、詞位置信息、詞頻信息建立詞組抽取規(guī)則,計(jì)算詞間語義相似性后合并同義詞, 形成目標(biāo)關(guān)鍵短語集合; 繼而在以動(dòng)態(tài)詞共現(xiàn)窗口劃分形成的加權(quán)詞共現(xiàn)網(wǎng)絡(luò)上劃分社團(tuán), 以社團(tuán)內(nèi)重要標(biāo)簽表示研究主題; 從基金資助方向、資助規(guī)模、資助主體和資助效益等維度對(duì)比各國(地區(qū))基金資助態(tài)勢。