滕廣青 呂晶 江瑤 庹銳 彭潔
摘 要:[目的/意義]科研資助是科學(xué)研究工作中有效的激勵(lì)政策,分析與揭示科研資助影響作用,對(duì)促進(jìn)國(guó)家科技發(fā)展具有重要的積極作用。[方法/過(guò)程]基于Web of Science收錄的我國(guó)計(jì)算機(jī)與人工智能領(lǐng)域的科研論文,按照有/無(wú)科研資助對(duì)其進(jìn)行劃分,使用結(jié)構(gòu)主題模型(STM)重點(diǎn)將科研資助對(duì)主題內(nèi)容與主題契合度的影響進(jìn)行分析。[結(jié)果/結(jié)論]研究發(fā)現(xiàn),科研資助能夠有效促進(jìn)科技成果數(shù)量的增加,科研資助能夠影響主題偏好和具體主題內(nèi)容,科研資助與時(shí)間的交互作用會(huì)對(duì)主題的契合度產(chǎn)生積極的影響。
關(guān)鍵詞:科研資助;主題內(nèi)容;主題偏好;主題契合度;結(jié)構(gòu)主題模型
DOI:10.3969/j.issn.1008-0821.2022.05.006
〔中圖分類號(hào)〕G250.2 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2022)05-0058-11
Abstract:[Purpose/Significance]Research funding is an effective incentive policy in scientific work.Analyzing and revealing the impact of research funding has an important and positive role in promoting the development of national science and technology.[Method/Process]Based on computer and artificial intelligence papers of China collected in Web of Science,the papers were classified according to whether or not research funding was available.The structured topic model(STM)was used to focus on the impact of research funding on the topical content and topical prevalence.[Result/Conclusion]The results show that research funding can promote the increase in the number of scientific achievements;Research funding can have an impact on the topic preference and topic content;Interaction between research funding and time will have a positive impact on topic prevalence.
Key words:research funding;topic content;topic preference;topic prevalence;structural topic model
科研資助是指為支持科學(xué)研究而授予的資金補(bǔ)貼,其不僅僅牽動(dòng)著科研產(chǎn)出的宏觀績(jī)效,更是推動(dòng)科學(xué)研究?jī)?nèi)容創(chuàng)新的關(guān)鍵一環(huán)。隨著人類社會(huì)進(jìn)入科學(xué)技術(shù)高速發(fā)展的時(shí)代,世界各國(guó)政府、學(xué)術(shù)界均致力于調(diào)控科研資助投入的配置,通過(guò)推出相應(yīng)政策、計(jì)劃來(lái)影響和指導(dǎo)科學(xué)研究的發(fā)展。2018年,歐洲委員會(huì)提出了《Horizon Europe》[1]計(jì)劃,其目標(biāo)就是希望通過(guò)投入精準(zhǔn)有效的科研資助,提高科研效率促進(jìn)科技創(chuàng)新。美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)推出的《Building The Future:Investing in Discovery and Innovation-NSF Strategic Plan for Fiscal Years 2018—2022》[2],將科學(xué)發(fā)現(xiàn)與創(chuàng)新的資助目標(biāo)定位于通過(guò)對(duì)基礎(chǔ)研究的資助加快科學(xué)發(fā)現(xiàn)和創(chuàng)新。我國(guó)政府近年來(lái)對(duì)加大科研領(lǐng)域資助與優(yōu)化資助效果采取了一系列措施,極大地提升了國(guó)家綜合科技實(shí)力。2016年5月,中共中央、國(guó)務(wù)院印發(fā)《國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略綱要》[3]明確指出,要多渠道增加科技創(chuàng)新的投入,以及完善突出創(chuàng)新導(dǎo)向的評(píng)價(jià)制度。2020年9月,習(xí)近平[4]主席《在科學(xué)家座談會(huì)上的講話》中進(jìn)一步指出,要加大基礎(chǔ)研究的科研資助,建立健全科學(xué)評(píng)價(jià)體系及激勵(lì)機(jī)制??蒲匈Y助作為科學(xué)研究過(guò)程中的重要組成部分,已成為全球科學(xué)發(fā)現(xiàn)和創(chuàng)新的主要驅(qū)動(dòng)力之一。2021年3月發(fā)布的《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》中指出,要加大基礎(chǔ)研究財(cái)政投入力度,對(duì)基礎(chǔ)研究探索實(shí)行長(zhǎng)周期評(píng)價(jià),創(chuàng)造有利于基礎(chǔ)研究的良好科研生態(tài)[5]。在各國(guó)政府對(duì)科研資助日益重視的同時(shí),科研資助對(duì)于科研工作的影響也逐漸受到學(xué)術(shù)界的關(guān)注,國(guó)內(nèi)外學(xué)者紛紛致力于科研資助產(chǎn)生的影響的研究。早期的研究工作重點(diǎn)主要集中于科研成果產(chǎn)出數(shù)量與成果影響力的視角,近年來(lái)隨著自然語(yǔ)言處理(NLP)技術(shù)的日漸成熟,研究重點(diǎn)逐漸轉(zhuǎn)向更細(xì)粒度的科研資助對(duì)研究主題的影響。本研究從科研成果文檔層面將科研資助對(duì)領(lǐng)域研究主題的影響作用進(jìn)行分析,以期為我國(guó)科研資助政策科學(xué)制定及實(shí)施提供可資借鑒的參考。
1 相關(guān)研究綜述
科研資助在科學(xué)體系中所發(fā)揮的重要作用和日益增長(zhǎng)的影響,被認(rèn)為是在科研政策、學(xué)術(shù)界和申請(qǐng)接受資助的研究者之間進(jìn)行調(diào)解的中介[6]??蒲匈Y助對(duì)科學(xué)活動(dòng)的影響研究多與科研成果的數(shù)量以及質(zhì)量相關(guān),因此截至目前,從成果產(chǎn)出數(shù)量以及成果影響力視角對(duì)科研資助效果開(kāi)展的研究仍然占據(jù)主流。Butler L[7]通過(guò)獲得科技成果產(chǎn)出數(shù)量與期刊的被引量對(duì)澳大利亞的科研資助的效用開(kāi)展研究。Aagaard K等[8]將出版物數(shù)量與引文數(shù)量作為績(jī)效,分析了丹麥的科研資助與出版物績(jī)效之間的關(guān)系。事實(shí)上,由于近年來(lái)科技界對(duì)成果質(zhì)量的關(guān)注程度遠(yuǎn)高于成果數(shù)量,因此研究工作越來(lái)越偏重于科研資助對(duì)成果影響力影響的研究。Mussurakis S[9]通過(guò)對(duì)比獲得資助與未獲得資助的出版物的被引情況等因素,進(jìn)而探究獲得資助與沒(méi)有資助對(duì)于成果引用量的影響。Korytkowski P等[10]對(duì)波蘭科研資助與科研成果數(shù)量進(jìn)行評(píng)估,認(rèn)為科學(xué)激勵(lì)政策有助于實(shí)現(xiàn)科學(xué)本身至關(guān)重要的目標(biāo)。Shen C C等[11]分析有/無(wú)資助條件下論文的研究影響力,研究發(fā)現(xiàn),獲得資助的科研成果的影響力要比沒(méi)有資助的成果的影響力更高。與此同時(shí),相關(guān)研究在國(guó)內(nèi)得到廣泛開(kāi)展。宋志紅等[12]比較科研人員在“獲得科學(xué)基金資助”和“未獲得科學(xué)基金資助”兩種情形下的科研產(chǎn)出差異。張?jiān)姌?lè)等[13]基于論文產(chǎn)出數(shù)量和被引頻次對(duì)國(guó)家自然科學(xué)基金資助的效果進(jìn)行評(píng)價(jià)。王菲菲等[14]基于對(duì)科研資助成果發(fā)文量、被引量和h指數(shù)等測(cè)度,對(duì)科技項(xiàng)目資助對(duì)論文產(chǎn)出績(jī)效進(jìn)行探究。截至目前,此類研究雖然取得了豐富的成果,但關(guān)注的焦點(diǎn)仍然停留在成果數(shù)量、被引數(shù)量等外在統(tǒng)計(jì)指標(biāo)。BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A
隨著大數(shù)據(jù)與人工智能技術(shù)的發(fā)展,傳統(tǒng)基于外在特征的分析方法已不再適用于處理高維數(shù)據(jù)與解決復(fù)雜問(wèn)題,研究人員開(kāi)始利用新的自然語(yǔ)言處理(NLP)方法從科技文檔的層面開(kāi)展更加細(xì)粒度的研究。Shi X等[15]使用LDA主題模型從計(jì)算機(jī)領(lǐng)域的資助計(jì)劃和其出版物的樣本中提取主題,分析兩個(gè)語(yǔ)料庫(kù)中概念之間的滯后性的關(guān)系進(jìn)而探究資助計(jì)劃與出版物之間的主題關(guān)聯(lián)。Li K等[16]使用RAKE關(guān)鍵詞提取方法,分析了NIH研究資助計(jì)劃和他們資助的出版物之間的關(guān)鍵詞匹配率。劉自強(qiáng)等[17]利用LDA主題模型探索基金、論文中研究主題擴(kuò)散演化的滯后效應(yīng)。劉博文等[18]使用LDA主題模型對(duì)比分析基金項(xiàng)目數(shù)據(jù)和論文數(shù)據(jù)探究研究主題前沿。葉文豪等[19]使用Word2Vec模型計(jì)算基金標(biāo)題與論文標(biāo)題及摘要間的相似度,計(jì)算相關(guān)性進(jìn)而證明基金內(nèi)容與其資助論文在大規(guī)模數(shù)據(jù)分析上存在差異。呂晶等[20]通過(guò)基金文檔與成果文檔主題相似度分析,發(fā)現(xiàn)科研資助對(duì)科學(xué)論文的引導(dǎo)與促進(jìn)作用更大,且影響作用的持續(xù)時(shí)間更長(zhǎng)。
總體而言,當(dāng)前科研資助效用研究仍以績(jī)效的定量分析為主導(dǎo),以對(duì)于數(shù)量、影響力方面的描述性統(tǒng)計(jì)為主,基于文檔內(nèi)容層面的細(xì)粒度研究較少。在研究手段上,自然語(yǔ)言處理(NLP)技術(shù)已經(jīng)為很多研究所使用,使用主題建模技術(shù)提取和觀察研究趨勢(shì)的可行性已被研究證實(shí)[21]。基于此,本研究在現(xiàn)有成果基礎(chǔ)上,使用STM(Structural Topic Model)[22]結(jié)構(gòu)主題模型,從文檔內(nèi)容層面識(shí)別與分析科研資助對(duì)科研主題偏好、主題詞分布、主題契合度的影響。
2 基礎(chǔ)理論與方法
2.1 STM主題模型
常規(guī)的文檔主題建模主要采用經(jīng)典的狄利克雷分布(Latent Dirichlet Allocation,LDA)[23]主題模型。盡管從目前學(xué)術(shù)界已取得的研究成果來(lái)看該模型已經(jīng)被學(xué)術(shù)界普遍接受,但相對(duì)于本研究力圖洞察科研資助對(duì)科學(xué)研究主題的內(nèi)容偏好及契合度等研究目標(biāo)而言仍顯不足。本研究工作采用STM(Structural Topic Model)[22]結(jié)構(gòu)主題模型,其基于協(xié)變量的主題建模特性更加貼近研究目標(biāo),能夠借助協(xié)變量洞察資助/非資助產(chǎn)生的影響。STM是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,用于識(shí)別文檔中主題分布的模式特征。該模型在基于早期潛在狄利克雷分布(LDA)[23]主題模型的基礎(chǔ)上,融入了元數(shù)據(jù)(協(xié)變量)可用于探索文檔元數(shù)據(jù)(協(xié)變量)與文檔主題分布之間的作用關(guān)系。在實(shí)際的研究過(guò)程中,元數(shù)據(jù)(協(xié)變量)對(duì)文檔中主題內(nèi)容(Topical Content)和主題契合度(Topical Prevalence)有一定的影響。主題內(nèi)容指的是主題中使用的主題詞,主題契合度指的是文檔與主題的關(guān)聯(lián)程度。因此,解釋主題契合度的元數(shù)據(jù)被稱為主題契合協(xié)變量,解釋主題內(nèi)容的元數(shù)據(jù)被稱為主題內(nèi)容協(xié)變量。其基本原理如圖1所示。
2.2 主題數(shù)目計(jì)算
主題建模過(guò)程中具有挑戰(zhàn)的工作是主題數(shù)量的確定。主題數(shù)量K是一個(gè)固定的參數(shù),其影響模型計(jì)算過(guò)程中的結(jié)果。STM主題模型的SearchK函數(shù)中能夠綜合不同指標(biāo)進(jìn)而衡量主題數(shù)量,具體包括Held-Out(保留文檔可能性)、Semantic Coherence(語(yǔ)義一致性)、Residuals(殘差)、Lower Bound(下限)等。其中,Held-Out(保留文檔可能性)的基本思想是提取一組文檔中的部分單詞,訓(xùn)練模型使用文檔級(jí)潛在變量來(lái)評(píng)估保留部分的概率。Semantic Coherence(語(yǔ)義一致性)即當(dāng)一個(gè)給定主題中最可能出現(xiàn)的單詞經(jīng)常同時(shí)出現(xiàn)時(shí),語(yǔ)義連貫性就會(huì)最大化,這是與人類對(duì)主題質(zhì)量的判斷高度相關(guān)的度量[24]。Residuals(殘差)計(jì)算是對(duì)STM數(shù)據(jù)生成過(guò)程中多項(xiàng)式方差的過(guò)度分散的測(cè)試,如果殘差過(guò)度分散,則表明設(shè)置的主題數(shù)量較少,需要更多的主題來(lái)吸收一些額外的方差。Lower Bound(下限)表示可以通過(guò)近似變化來(lái)檢查收斂性。保留文檔的可能性和語(yǔ)義一致性越高,殘差與邊界越低,模型性能越好。具體的研究工作中首先設(shè)置較大的K值范圍,通過(guò)得到指標(biāo)情況來(lái)逐漸縮小主題數(shù)量的選擇區(qū)間,并最終確定K值。
3 研究流程
3.1 數(shù)據(jù)來(lái)源與預(yù)處理
研究數(shù)據(jù)依托Web of Science核心合集數(shù)據(jù)庫(kù),獲取中國(guó)計(jì)算機(jī)與人工智能領(lǐng)域的論文。檢索式為:WC=(“Computer Science,Artificial Intelligence”AND CU=“China”),文章類型選擇“Article”,語(yǔ)言為“English”。Web of Science數(shù)據(jù)庫(kù)在2008年開(kāi)始完善文獻(xiàn)的資助信息[25],為獲得有效的資助信息以及提高研究的準(zhǔn)確性,本文選擇數(shù)據(jù)時(shí)間區(qū)間為:2008—2020年,經(jīng)過(guò)去除空值以及無(wú)效數(shù)據(jù),共得到52 655篇論文。將獲得的數(shù)據(jù)按照有/無(wú)資助信息進(jìn)行劃分,得到具體年發(fā)文量情況,如圖2所示。
圖2中,柱狀圖表示年發(fā)文總量,每個(gè)柱形圖中的紅色與藍(lán)色分別表示未獲得資助與獲得資助的論文年發(fā)文數(shù)量??傮w來(lái)看,圖中年發(fā)文總量整體呈增長(zhǎng)趨勢(shì),統(tǒng)計(jì)的結(jié)束年份與初始年份相差8.9倍以上。時(shí)間軸后期該領(lǐng)域的年發(fā)文數(shù)量迅速增加,且增速加大,可見(jiàn)近幾年該領(lǐng)域的相關(guān)研究實(shí)現(xiàn)快速發(fā)展。進(jìn)一步觀察柱狀圖中資助與非資助的成果分布,獲得科研資助的成果數(shù)量總體呈逐年遞增的態(tài)勢(shì)。圖2中的內(nèi)嵌餅圖為未獲得資助的論文數(shù)量在當(dāng)年發(fā)文總量中占比。根據(jù)餅圖中的每年非資助論文占當(dāng)年所有論文的比例可知,除時(shí)間軸初始階段(2008年、2009年),獲得科研資助的論文數(shù)量占比一直占據(jù)當(dāng)年發(fā)文總量的80%以上??傮w上看,隨著時(shí)間的發(fā)展,該領(lǐng)域的研究成果數(shù)量日漸增加,每年發(fā)表的論文中,獲得資助的成果數(shù)量遠(yuǎn)高于未獲得資助的成果數(shù)量。在成果總量持續(xù)增長(zhǎng)的同時(shí),時(shí)間軸后期獲得科研資助的成果所占比例總體上高于時(shí)間軸初期。由此可見(jiàn),在中國(guó)計(jì)算機(jī)與人工智能領(lǐng)域,科研資助對(duì)于科研產(chǎn)出在數(shù)量上具有一定的促進(jìn)作用。BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A
3.2 主題數(shù)量及內(nèi)容
具體的研究工作中首先將K值(主題數(shù)量)設(shè)置在(10,20,30,40,50)區(qū)間,基于4個(gè)指標(biāo)的運(yùn)行結(jié)果發(fā)現(xiàn)K在10~20較為合適,進(jìn)而針對(duì)(10,12,14,16,18,20)區(qū)間的主題數(shù)量再次進(jìn)行計(jì)算,得到圖3所示的不同指標(biāo)情況。
圖3(a)~(d)分別對(duì)應(yīng)保留文檔的可能性、殘差、語(yǔ)義一致性、下限。根據(jù)圖3中各個(gè)指標(biāo)的計(jì)算結(jié)果可以發(fā)現(xiàn),保留文檔的可能性(a)在主題數(shù)量為14~16區(qū)間時(shí)值較高且增速減慢;殘差(b)和下限(d)在主題數(shù)量為14時(shí)其值較低,殘差值在14個(gè)主題時(shí)開(kāi)始趨于穩(wěn)定;語(yǔ)義一致性(c)在主題數(shù)量14以后降低。因此,綜合考慮以上結(jié)果,研究工作最終確定設(shè)置主題數(shù)量為14。
為更好把握領(lǐng)域研究?jī)?nèi)容與演變趨勢(shì),研究工作對(duì)每一主題所對(duì)應(yīng)的前10個(gè)高概率的主題詞進(jìn)行提取,得到結(jié)果如表1所示。
由表1可知,中國(guó)計(jì)算機(jī)與人工智能領(lǐng)域(2008—2020)主要研究?jī)?nèi)容中,topic1、topic2、topic5、topic12分別與信號(hào)處理、系統(tǒng)使用評(píng)估、網(wǎng)絡(luò)系統(tǒng)安全、智能決策等研究有關(guān),可將其歸納為應(yīng)用層面。機(jī)器人技術(shù)作為人工智能研究下屬的一個(gè)重要分支,相關(guān)研究也得到了一定的發(fā)展,通過(guò)topic3中“robot”“neural”“network”等主題詞呈現(xiàn)機(jī)器人技術(shù)與神經(jīng)網(wǎng)絡(luò)相關(guān)研究密切關(guān)聯(lián)。屬于理論算法類研究及優(yōu)化的主題包含topic4、topic8、topic10、topic11,topic4中出現(xiàn)“fuzziness”“control”“system”以及topic10的“fuzziness”“theories”可以看出兩個(gè)主題分別以模糊控制系統(tǒng)、模糊理論研究為重點(diǎn)內(nèi)容,通過(guò)“algorithm”“optimize”可得知topic8是算法的優(yōu)化研究,topic11中出現(xiàn)的“sparse”“matrix”“l(fā)earn”與機(jī)器學(xué)習(xí)有關(guān)。topic9主題詞“image”“video”“recognition”“detect”等可知,該主題研究?jī)?nèi)容與圖像識(shí)別、視頻檢測(cè)等計(jì)算機(jī)視覺(jué)技術(shù)有關(guān)。topic6、topic7、topic14分別描述聚類、神經(jīng)網(wǎng)絡(luò)、分類等研究?jī)?nèi)容,可將其歸納為機(jī)器學(xué)習(xí)相關(guān)研究?jī)?nèi)容。topic13中出現(xiàn)“semantic”“network”等詞匯,可知該主題與語(yǔ)義網(wǎng)的研究相關(guān)。
3.3 主題分布趨勢(shì)
在主題建模過(guò)程中,每個(gè)主題會(huì)以一定的概率分配給不同的文檔,一篇文檔也可能與多個(gè)主題相關(guān)。因此研究工作為每個(gè)文檔分配最高概率的主題,計(jì)算不同主題在文檔中的分布情況,進(jìn)而得到研究主題所呈現(xiàn)的發(fā)展趨勢(shì)。為了掌握不同時(shí)期的熱點(diǎn)研究主題,研究工作按年份對(duì)不同主題所占比例進(jìn)行統(tǒng)計(jì),得到主題分布的時(shí)間序列如圖4所示。
圖4中不同顏色對(duì)應(yīng)不同主題,圖中每一顏色扇區(qū)的面積(或半徑)對(duì)應(yīng)該主題在文檔中的比例。觀察每個(gè)時(shí)間窗口中每種顏色扇區(qū)相對(duì)于其他顏色扇區(qū)的面積可以發(fā)現(xiàn),在2008年時(shí)間窗口中,topic7(神經(jīng)網(wǎng)絡(luò))研究主題占比例最高,并且在后續(xù)的2009年、2010年時(shí)間窗口中始終保持該領(lǐng)域最受關(guān)注的熱點(diǎn)主題地位。從2011年時(shí)間窗口開(kāi)始,topic6(聚類算法)、topic14(分類算法)、topic8(算法優(yōu)化)等算法類研究主題也躋身于熱點(diǎn)主題行列。2012—2015年時(shí)間窗口中,topic7(神經(jīng)網(wǎng)絡(luò))、topic6(聚類算法)、topic14(分類算法)、topic8(算法優(yōu)化)、topic9(計(jì)算機(jī)視覺(jué))、topic11(機(jī)器學(xué)習(xí))多個(gè)研究主題的排名雖偶有變化,但始終處于該領(lǐng)域熱點(diǎn)主題陣營(yíng)。從2016年時(shí)間窗口開(kāi)始,topic9(計(jì)算機(jī)視覺(jué))表現(xiàn)出超過(guò)其他主題的發(fā)展勢(shì)頭,并在2020年時(shí)間窗口一騎絕塵地成為遠(yuǎn)超其他主題的該領(lǐng)域最熱門研究主題。
事實(shí)上,時(shí)間軸早期topic7(神經(jīng)網(wǎng)絡(luò))研究主題的熱點(diǎn)地位得益于此前Hinton G E等[26]發(fā)表于《Science》雜志一篇關(guān)于用神經(jīng)網(wǎng)絡(luò)降低數(shù)據(jù)維度的論文。該論文開(kāi)辟出一條基于深度神經(jīng)網(wǎng)絡(luò)的人工智能道路,但當(dāng)時(shí)并未在具體的實(shí)踐應(yīng)用中取得優(yōu)異的表現(xiàn)。自2012年時(shí)間窗口topic9(計(jì)算機(jī)視覺(jué))研究主題躋身領(lǐng)域熱點(diǎn)主題陣營(yíng),并在時(shí)間軸后期一枝獨(dú)秀,其主要原因在于2012年Krizhevsky A等[27]構(gòu)造的“大型深度卷積神經(jīng)網(wǎng)絡(luò)”。該卷積神經(jīng)網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集取得了出色的表現(xiàn),大幅度降低了圖像識(shí)別的錯(cuò)誤率,證實(shí)了卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別實(shí)踐應(yīng)用中的有效性。Hinton團(tuán)隊(duì)從理論到實(shí)踐的科研進(jìn)程,映射出該領(lǐng)域熱點(diǎn)主題從topic7(神經(jīng)網(wǎng)絡(luò))到topic9(計(jì)算機(jī)視覺(jué))的遷移過(guò)程。同時(shí)也表明,重大的顛覆性創(chuàng)新成果能夠引領(lǐng)領(lǐng)域的研究熱點(diǎn)。
4 研究結(jié)果
4.1 科研資助對(duì)主題級(jí)偏好的影響
STM主題模型的核心優(yōu)勢(shì)為其能夠估計(jì)文檔主題與協(xié)變量之間的作用。研究以是否獲得科研資助為協(xié)變量,協(xié)方差參數(shù)分別為funded(資助)、unfunded(非資助),利用差異化(difference)的方法對(duì)不同主題的偏好情況進(jìn)行計(jì)算,得到結(jié)果如圖5所示。
圖5中,左側(cè)主題表示未獲得資助的科學(xué)研究更傾向的研究主題,而右側(cè)表示獲得資助的科研工作更偏好的研究主題。在未獲得資助的研究中,主要對(duì)topic1(信號(hào)處理)、topic2(系統(tǒng)應(yīng)用)、topic3(機(jī)器人)、topic5(網(wǎng)絡(luò)安全)等研究主題較為專注。而獲得資助的研究更傾向于topic4(模糊理論)、topic7(神經(jīng)網(wǎng)絡(luò))、topic8(算法優(yōu)化)、topic10(模糊系統(tǒng))、topic11(機(jī)器學(xué)習(xí))、topic13(語(yǔ)義網(wǎng))、topic14(分類算法)等主題。其中反差最為鮮明的當(dāng)屬topic2(系統(tǒng)應(yīng)用)與topic7(神經(jīng)網(wǎng)絡(luò))兩個(gè)主題。前者在前文圖4中始終未取得熱點(diǎn)主題的地位,而后者在大部分時(shí)間窗口中躋身于熱點(diǎn)主題,僅在時(shí)間軸后期由于深度神經(jīng)網(wǎng)絡(luò)逐漸成熟,從而遷移到計(jì)算機(jī)視覺(jué)這一熱點(diǎn)主題。從這個(gè)意義上講,科研資助能夠在一定程度上影響領(lǐng)域研究的主題偏好。BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A
4.2 科研資助對(duì)主題內(nèi)容的影響
由STM結(jié)構(gòu)主題模型原理可知,主題的內(nèi)容會(huì)受到內(nèi)容協(xié)變量的影響而有所差異??紤]到同一主題詞可能同時(shí)隸屬于多個(gè)主題,為明晰科研資助對(duì)不同主題內(nèi)容的影響,本部分以資助/非資助(funded/unfunded)作為主題內(nèi)容協(xié)變量,分別對(duì)14個(gè)主題在協(xié)變量影響下的高概率主題詞進(jìn)行分析,得到協(xié)變量影響下的各個(gè)主題內(nèi)容分布如圖6所示。
圖6中14個(gè)子圖呈現(xiàn)不同主題中高概率主題詞的分布情況,字號(hào)大小反映詞頻的高低。越靠近子圖左側(cè)的主題詞代表其越受到科研資助的青睞;越靠近子圖右側(cè)的主題詞則代表其在非資助科研活動(dòng)中概率更高;居于中線附近的主題詞則為受資助/非資助影響較小的具體內(nèi)容。圖中主題詞的分布情況顯示,大多數(shù)主題的內(nèi)容(主題詞)均在有/無(wú)資助(橫軸)維度上表現(xiàn)出較好的區(qū)分度。以topic1(信號(hào)處理)研究主題為例,topic1(信號(hào)處理)主題中各主題詞分布離散分化,獲得資助的研究更加傾向于“fault”“detect”等信號(hào)故障檢測(cè)的內(nèi)容,而非資助的研究則更加關(guān)注“process”“diagnosis”等信號(hào)診斷過(guò)程的內(nèi)容。即科研資助對(duì)研究主題的具體內(nèi)容產(chǎn)生較為明顯的影響。但也有少量主題在有/無(wú)資助維度上并未表現(xiàn)出較好的區(qū)分度。以topic2(系統(tǒng)應(yīng)用)主題為例,“service”“data”“system”等眾多主題詞聚集在靠近中線的位置,即在位置上更靠近資助與非資助共同關(guān)注的區(qū)域,表明科研資助與否對(duì)這些內(nèi)容并不產(chǎn)生鮮明的影響。
另一方面,在各個(gè)主題的資助與非資助區(qū)域,主題詞的分布數(shù)量也存在一定的差距。以topic3(機(jī)器人)為例,明顯處于資助區(qū)域的主題詞(如“l(fā)earn”“model”“predict”)數(shù)量遠(yuǎn)高于明顯處于非資助區(qū)域的主題詞(如“fault”)數(shù)量。顯然,即使在一個(gè)特定的主題內(nèi)部,科研資助也會(huì)只關(guān)注其中部分內(nèi)容(主題詞)。這意味著,即使某一主題獲得科研資助,但在具體內(nèi)容上也不盡相同。有些主題會(huì)有更多的內(nèi)容(主題詞)獲得科研資助,而有些主題則僅有較少的內(nèi)容獲得科研資助。
上述分析結(jié)果表明,內(nèi)容協(xié)變量(資助/非資助)對(duì)于大多數(shù)研究主題,如topic1(信號(hào)處理)等主題的內(nèi)容分布影響較為明顯,主題詞分布較為離散分化,資助與非資助的區(qū)分度較高;也有少量研究主題,如topic2(系統(tǒng)應(yīng)用)等主題的內(nèi)容分布影響并不明顯,眾多主題詞靠近中線附近,資助與非資助的區(qū)分度并不鮮明。此外,無(wú)論各研究主題內(nèi)容(主題詞)總體分布相對(duì)集中還是離散,資助與非資助(協(xié)變量)總是能夠在一定程度上影響主題中內(nèi)容的傾向性,一些主題中較多的內(nèi)容(主題詞)獲得了科研資助,而同樣獲得資助的另一些主題中僅有較少的內(nèi)容(主題詞)獲得了科研資助。
4.3 科研資助對(duì)主題契合度的影響
本研究中,主題契合度指的是文檔與主題的關(guān)聯(lián)程度。主題的契合度并不是一成不變的,會(huì)受時(shí)間等因素的影響發(fā)生變化。為進(jìn)一步探究科研資助對(duì)文本主題契合程度是否具有影響,研究工作以科研資助與時(shí)間的交互效用作為文檔的協(xié)變量,計(jì)算協(xié)變量影響下主題契合度。以時(shí)間為橫坐標(biāo),預(yù)期主題比率為縱坐標(biāo),得到協(xié)變量影響下主題契合度隨時(shí)間變化的趨勢(shì),如圖7所示。
圖7中,實(shí)線表示獲得資助時(shí)該主題契合度變化趨勢(shì),虛線表示未獲得資助時(shí)該主題契合度變化趨勢(shì),點(diǎn)線部分表示95%置信區(qū)間。由圖7可知,科研資助與時(shí)間的交互作用對(duì)主題的契合度產(chǎn)生不同程度的影響??傮w上看,在有/無(wú)資助的情況下,主題契合度隨時(shí)間推移的變化趨勢(shì)大致相同。從預(yù)期主題比率的層面看,圖7(a)topic11(機(jī)器學(xué)習(xí))、topic4(模糊理論)、topic7(神經(jīng)網(wǎng)絡(luò))、topic8(算法優(yōu)化)、topic10(模糊系統(tǒng))、topic12(智能決策)、topic14(分類算法)共50.0%的主題中,獲得科研資助的預(yù)期主題比率高于未獲科研資助的預(yù)期主題比率,即這些主題中獲得資助的科研成果的主題契合度高于同一時(shí)間未獲資助的科研成果的主題契合度。與此相反,圖7(c)topic1(信號(hào)處理)、topic2(系統(tǒng)應(yīng)用)、topic3(機(jī)器人)、topic5(網(wǎng)絡(luò)安全)占28.6%的主題中,未獲得科研資助的預(yù)期主題比率高于獲得科研資助的預(yù)期主題比率,非資助科研成果的主題契合度更高。結(jié)合前文圖5中主題偏好的結(jié)果,不難發(fā)現(xiàn)這一結(jié)果與非資助偏好的主題相吻合。
此外,圖7(b)topic13(語(yǔ)義網(wǎng))、topic9(計(jì)算機(jī)視覺(jué))、topic6(聚類算法)占21.4%的主題中,獲得科研資助的預(yù)期主題比率先抑后揚(yáng)。在主題契合度持續(xù)走高的情況下,topic13(語(yǔ)義網(wǎng))與topic9(計(jì)算機(jī)視覺(jué))主題在時(shí)間軸前期,未獲得資助的預(yù)期主題比率同樣高于獲得資助的主題比率,但在時(shí)間軸后期獲得資助的預(yù)期主題比率增速更高,其值已經(jīng)超過(guò)未獲得資助的主題比率。在主題契合度持續(xù)走低的情況下,topic6(聚類算法)主題在時(shí)間軸前期,未獲得資助的預(yù)期主題比率高于獲得資助的主題比率,但在時(shí)間軸后期獲得資助的預(yù)期主題比率并未與未獲得資助的主題比率同幅度下降,反而高于未獲得資助的主題比率。
綜合上述情況,在時(shí)間序列上,50.0%的主題中獲得資助的成果文檔的預(yù)期主題比率持續(xù)高于未獲得資助的成果文檔的主題比率,加上21.4%的主題中獲得資助的成果文檔的預(yù)期主題比率先抑后揚(yáng)在后期反超未獲得資助的成果文檔的主題比率的情況,已經(jīng)表明科研資助對(duì)主題契合度具有積極的影響。
5 結(jié)論與討論
研究工作基于2008—2020年我國(guó)計(jì)算機(jī)與人工智能領(lǐng)域被Web of Science核心集收錄的研究成果,依據(jù)是否獲得科研資助對(duì)科研成果進(jìn)行整理,采用STM主題建模方法,從該領(lǐng)域研究的研究?jī)?nèi)容發(fā)展趨勢(shì)、資助/非資助的主題級(jí)偏好、研究主題內(nèi)容的傾向、以及在時(shí)間與科研資助交互作用影響下主題契合度的變化等方面,對(duì)科研資助產(chǎn)生的影響進(jìn)行剖析。綜合上述分析結(jié)果,研究工作初步得出以下結(jié)論:BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A
1)科研資助能夠促進(jìn)科技成果數(shù)量的增加。通過(guò)圖1的統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn),該領(lǐng)域的科研成果數(shù)量隨時(shí)間延展呈現(xiàn)增長(zhǎng)態(tài)勢(shì)。而在總體成果數(shù)量增長(zhǎng)的同時(shí),獲得科研資助的成果數(shù)量遠(yuǎn)高于未獲得科研資助的成果數(shù)量,而且時(shí)間軸后期獲得科研資助的成果數(shù)量占比高于時(shí)間軸初期。該現(xiàn)象表明,該領(lǐng)域科研成果數(shù)量的增加主要由獲得科研資助的成果數(shù)量增加產(chǎn)生。這一研究結(jié)論與當(dāng)前很多研究持有科研資助促進(jìn)科研成果產(chǎn)出的結(jié)論相契合[7,10],同時(shí)也為我國(guó)加大科研資助力度的總體方針提供了科學(xué)依據(jù)。
2)科研資助能夠?qū)Τ晒闹黝}及其內(nèi)容產(chǎn)生影響。主題級(jí)偏好分析顯示,科研資助能夠在較大程度上影響主題偏好,部分研究主題得到科研資助的青睞(參見(jiàn)圖5)。在主題內(nèi)容方面,僅有少數(shù)主題的部分主題詞趨近于資助與非資助共同關(guān)注的區(qū)域,而且?guī)缀跛械闹黝}中總是有一些主題詞相對(duì)更靠近資助或非資助區(qū)域(參見(jiàn)圖6)。這一結(jié)果表明,無(wú)論是主題級(jí)層面還是主題內(nèi)容層面,科研資助都能夠在對(duì)科研活動(dòng)產(chǎn)生影響,為通過(guò)科研資助調(diào)控科技發(fā)展戰(zhàn)略布局,集中力量攻克重大科學(xué)難題指明了路徑。
3)科研資助與時(shí)間的交互作用會(huì)對(duì)主題的契合度產(chǎn)生積極的影響。主題契合度的分析結(jié)果顯示,超過(guò)半數(shù)以上(50.0%+21.4%)的研究主題在科研資助的加持下,在全時(shí)間周期或者時(shí)間軸后期的預(yù)期主題比率高于未獲得科研資助的主題比率(參見(jiàn)圖7)。這一結(jié)果表明,科研資助對(duì)科研主題的契合度具有積極的影響,獲得科研資助的研究成果能夠更好地聚焦于主題所代表的科學(xué)問(wèn)題,其相關(guān)成果對(duì)該主題所代表的科學(xué)問(wèn)題具有更大的貢獻(xiàn)。這一結(jié)果為如何科學(xué)合理發(fā)揮科研資助在國(guó)家科技發(fā)展戰(zhàn)略中的積極作用提供了可資借鑒的參考依據(jù)。
在國(guó)家有序推進(jìn)科技強(qiáng)國(guó)發(fā)展戰(zhàn)略的今天,發(fā)現(xiàn)和揭示科研資助對(duì)科學(xué)研究工作的影響,有助于為科研管理部門制定積極的科研資助政策,高效發(fā)揮科研資金的使用效率,集中力量攻克科學(xué)難題提供科學(xué)依據(jù)。研究中也存在一些不足之處,研究中僅選取單一領(lǐng)域的數(shù)據(jù)開(kāi)展分析,尚不足以涵蓋所有的科學(xué)領(lǐng)域。未來(lái)的研究工作將納入更廣泛的學(xué)科領(lǐng)域,更長(zhǎng)的時(shí)間周期,開(kāi)展更深入全面的研究。
參考文獻(xiàn)
[1]Europe Commission.Proposal for a Decision of the European Parliament and of the Council on Establishing the Specific Programme Implementing Horizon Europe-The Framework Programme for Research and Innovation[EB/OL].https://ec.europa.eu/commission/sites/beta-political/files/budget-may2018-horizon-europe-decision_en.pdf,2021-05-11.
[2]National Science Foundation.Building the Future:Investing in Discovery and Innovation-NSF Strategic Plan for Fiscal Years(FY)2018—2022[EB/OL].https://www.nsf.gov/pubs/2018/nsf18045/nsf18045.pdf,2021-05-18.
[3]中共中央,國(guó)務(wù)院.國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略綱要[N].人民日?qǐng)?bào),2016-05-20,(6).
[4]習(xí)近平.在科學(xué)家座談會(huì)上的講話[N].人民日?qǐng)?bào),2020-09-12,(2).
[5]新華社.中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要[EB/OL].http://www.gov.cn/xinwen/2021-03/13/content_5592681.htm,2021-05-18.
[6]Braun D.Who Governs Intermediary Agencies?Principal-agent Relations in Research Policy-making[J].Journal of Public Policy,1993,13(2):135-162.
[7]Butler L.Explaining Australias Increased Share of ISI Publications:The Effects of a Funding Formula Based on Publication Counts[J].Research Policy,2003,32(1):143-155.
[8]Aagaard K,Schneider J W.Research Funding and National Academic Performance:Examination of a Danish Success Story[J].Science & Public Policy,2015,43(4):518-531.
[9]Mussurakis S.Financial Support for Research in Radiology:A Survey of Original Investigations Published in the AJR and Radiology[J].American Journal of Roentgenology,1994,163(4):973-979.
[10]Korytkowski P,Kulczycki E.Examining How Country-level Science Policy Shapes Publication Patterns:The Case of Poland[J].Scientometrics,2019,119(3):1519-1543.BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A
[11]Shen C C,Hu Y H,Lin W C,et al.Research Impact of General and Funded Papers:A Citation Analysis of Two ACM International Conference Proceeding Series[J].Online Information Review,2016,40(4):472-480.
[12]宋志紅,郭艷新,李冬梅.科學(xué)基金資助提高科研產(chǎn)出了嗎?——基于傾向得分分層法的實(shí)證研究[J].科學(xué)學(xué)研究,2016,34(1):116-121,160.
[13]張?jiān)姌?lè),蓋雙雙,劉雪立.國(guó)家自然科學(xué)基金資助的效果——基于論文產(chǎn)出的文獻(xiàn)計(jì)量學(xué)評(píng)價(jià)[J].科學(xué)學(xué)研究,2015,33(4):507-515.
[14]王菲菲,賈晨冉,劉俊婉.科技項(xiàng)目資助對(duì)論文產(chǎn)出績(jī)效的作用效率測(cè)度研究——以人工智能領(lǐng)域?yàn)槔齕J].科技進(jìn)步與對(duì)策,2019,36(16):26-33.
[15]Shi X,Nallapati R,Leskovec J,et al.Who Leads Whom:Topical Lead-lag Analysis Across Corpora[C]//Proceedings of Neural Information Processing Systems Workshop on Computational Social Science and Wisdom of Crowds.New York:Curran Associates,2010:1-4.
[16]Li K,Erjia Y.Are NIH-funded Publications Fulfilling the Proposed Research?An Examination of Concept-matchedness Between NIH Research Grants and Their Supported Publications[J].Journal of Informetrics,2019,13(1):226-237.
[17]劉自強(qiáng),許海云,岳麗欣,等.面向研究前沿預(yù)測(cè)的主題擴(kuò)散演化滯后效應(yīng)研究[J].情報(bào)學(xué)報(bào),2018,37(10):979-988.
[18]劉博文,白如江,周彥廷,等.基金項(xiàng)目數(shù)據(jù)和論文數(shù)據(jù)融合視角下科學(xué)研究前沿主題識(shí)別——以碳納米管領(lǐng)域?yàn)槔齕J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(8):114-122.
[19]葉文豪,王東波,沈思,等.基于孿生網(wǎng)絡(luò)的基金與受資助論文相關(guān)性判別模型構(gòu)建研究[J].情報(bào)學(xué)報(bào),2020,39(6):609-618.
[20]呂晶,郭思月,滕廣青,等.基金項(xiàng)目對(duì)科學(xué)研究的關(guān)聯(lián)影響分析[J].數(shù)字圖書館論壇,2019,(12):18-27.
[21]Yang H L,Chang T W,Choi Y.Exploring the Research Trend of Smart Factory with Topic Modeling[J].Sustainability,2018,10(8):2779.
[22]Roberts M E,Stewart B M,Tingley D.Stm:An R Package for Structural Topic Models[J].Journal of Statistical Software,2019,91(2):1-40.
[23]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.
[24]Mimno D M,Wallach H M,Talley E M,et al.Optimizing Semantic Coherence in Topic Models[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh:Association for Computational Linguistics,2011:262-272.
[25]Liu W,Tang L,Hu G.Funding Information in Web of Science:An Updated Overview[J].Scientometrics,2020,122(3):1509-1524.
[26]Hinton G E,Salakhutdinov R R.Reducing the Dimensionality of Data with Neural Networks[J].Science,2006,313(5786):504-507.
[27]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[EB/OL].https://courses.grainger.illinois.edu/ece544na/fa2013/krizhevsky2012.pdf,2021-05-18.
(責(zé)任編輯:陳 媛)BB58E4E6-2E3B-4957-9A0A-1EB4635BCB3A