李洪波,閆 鑫,姚博文
(上海大學管理學院,上海 200444)
科技創(chuàng)新對高質量發(fā)展具有顯著的引領作用,我國各級政府部門為促進科技創(chuàng)新投入了大量資金[1],科研計劃項目的資助規(guī)模逐年提高。例如:國家自然科學基金(National Natural Science Foundation of China,NSFC)財政投入從1986 年的8 000 萬元增長到2019 年的330.17 億元;十八大以來,國家自然科學基金經費預算年均增長13.41%[2-5]。由于資金總量是一定的,為了提高資金的使用效率,有效預測項目在未來的績效情況,是政府部門在選擇擬資助項目時的一項重要決策。
然而,由于政府的資助決策一般發(fā)生在項目申請階段,從資金分配到項目實現預期績效,存在很大的時間延遲,加之科研項目的強創(chuàng)新性和不確定性,這些都增加了項目績效預測的難度。為了有效預測科研項目的績效,學者們研究了一系列行之有效的定性和定量績效預測方法。專家判斷和德爾菲法是目前主流的定性預測方法[6-7]。隨著信息技術的發(fā)展,科研項目的管理過程逐漸向無紙化過渡,科研項目相關的數據也越來越豐富;在此背景下,層次分析法、回歸分析、時間序列分析、模糊語義算法等量化方法逐漸被用于項目產出的預測[8-13]。
機器學習等人工智能技術的進步,為科研項目的績效預測帶來了新的發(fā)展契機。例如,以神經網絡算法為代表的機器學習技術已經被成功用于研發(fā)項目的績效分析[14-15]。張亞平等[16]利用徑向基函數神經網絡,建立了項目投資預測模型。Costantino等[17]用人工神經網絡估計研發(fā)項目未來的產出。Jang[18]利用機器學習軟件AutoML 對韓國科研項目的產出進行了預測。然而,在政府資助的科研計劃項目領域,針對中國科研項目數據、基于機器學習的研究仍十分匱乏。
鑒于此,本文將研究基于集成監(jiān)督學習的科研計劃項目績效預測:利用集成監(jiān)督學習方法,有效挖掘網絡爬蟲獲取的已結題項目數據中,隱含的關于項目績效的特征信息,形成項目績效預測模型。當需要對新申請項目的績效進行預測時,將新項目的特征信息輸入預測模型,即可自動得到新項目未來的績效預測。
本文的主要貢獻體現在:(1)基于集成監(jiān)督學習,本文以數據驅動的方式構建了科研項目績效預測模型。該模型能夠有效提高科研項目績效預測工作的效率,為科研管理的數字化創(chuàng)新轉型提供切實可行的思路。(2)以國家自然科學基金項目數據為例,本文系統性對比了4 種機器學習算法,采用多種模型評價指標,將本文模型對項目的績效預測結果與專家的評估結果進行比較,驗證本文方法的可行性與有效性。
本文的預測模型在項目申請階段發(fā)揮作用,基于機器學習算法挖掘出已結題評估項目數據中隱含的關于項目績效的知識,實現對項目最終績效的有效預測。本文預測模型的基本框架如下(圖1):
圖1 基于集成學習的科研項目績效預測框架
本文的預測模型可以從政府管理部門網站、學術數據庫等公開的數據源,通過網絡爬蟲自動化地收集已結題項目的原始數據。然后通過數據清理,將存在遺漏值的對象補充完整,將原始數據中的冗余變量刪除,實現對原始數據的檢測和糾正,得到條完整的項目數據。
1.1 節(jié)建立的數據集中隱含了項目特征與項目最終績效的關系,本節(jié)通過集成學習算法將其提取出來。集成學習通過構建并結合多個學習器來完成學習任務,??色@得比單一學習器更優(yōu)越的預測性能[19],構造高性能異質性的“基學習器”是集成學習的關鍵[20]。本文使用隨機森林算法、Bagging算法和AdaBoost 算法得到3 種不同的項目績效預測模型。
1.2.1 集成學習算法類器。
1.2.2 基于交叉驗證的模型選擇
通過比較分析1.2 的第(1)節(jié)3 種基于機器學習集成方法的科研計劃項目績效預測模型折交叉驗證結果,得到基于3 種集成方法的科研計劃項目績效預測模型的最佳機器學習方法。
1.3.1 精度
1.3.2 查全率
1.3.3 查準率
本節(jié)基于國家自然科學基金項目的數據,對本文科研項目績效預測模型的可行性與有效性進行研究。本文在Python 3.7 中編寫網絡爬蟲程序實現數據收集,集成學習算法通過調用Weka 3.8.4 軟件實現,計算平臺為裝有Intel i7 CPU、Windows 10 操作系統的PC 機。
國家自然科學基金大數據知識管理服務門戶網站(http://kd.nsfc.gov.cn)提供了詳盡的科研項目的信息??紤]到科研計劃項目的研究成果對社會貢獻的滯后性,科研過程和出版物、專利等發(fā)布時間之間的差距,截至2020 年9 月,NSFC 管理科學部官方網站(http://ms.nsfc.gov.cn)發(fā)布的最新已結題并參與評估的科研計劃項目為2016 年結項項目。因此,本研究基于NSFC 管理科學部2016 年已結題的面上與青年項目數據進行模型的構建與驗證。
對于項目的評估結果數據,從NSFC 管理科學部網站爬取。對于每個項目的特征數據,首先爬取NSFC 網站上已結題項目(http://output.nsfc.gov.cn)的結項報告(原始數據為圖片形式),然后利用python tesseract 庫進行文本識別,提取所需數據。
2020 年1 月—9 月,本文共收集到1 404 個項目的數據,對這些數據進行清理、并對存在缺失值的數據和小樣本“差”類數據刪除,最終得到1 380條數據。這些數據中共包含63 個特征,可以分為兩大類:(1)項目基本信息:包括項目批準號、項目類別、項目名稱、申請代碼、項目依托單位、項目負責人、負責人職稱、項目開始年份、結束年份、支持經費、中文摘要,共11 個特征;(2)項目研究成果信息:包括獲獎(項)、會議/論文/專著(篇)、專利及其他、人才培養(yǎng)及學術交流等相關的52 個特征。進而通過第1 節(jié)的特征選擇方法篩選出預測能力較強的23 個特征,形成最終的數據集,即數據集中包含1 380 個項目樣本、23個特征。數據集中特征的描述性統計見表1。
表1 中的特征可以歸納為5 個方面[24]:
表1 特征及其描述性統計
表1(續(xù))
(5)國內外交流相關的特征:可以從舉辦和參加的國內外會議數()的特征中衡量該方面,顯示了研究成果在國內外受到的關注與認可程度以及國內外影響力的大小。
2.2.1 基于詞云的研究熱點分析
本節(jié)通過關鍵詞的詞云考察不同研究主題的受關注程度。對最終數據集中1 380 條數據的中文摘要進行分詞,進而對中文摘要進行詞頻統計。在生成詞云時,剔除了與研究主題無關的詞(“研究”“理論”“模型”“影響”“方法”“項目”“分析”“基于”“機制”“問題”“提供”“進行”“構建”)。最終得到的中文摘要詞云如圖2 所示,其中,字號越大表明該詞在不同的項目中出現的頻率越高。在詞云圖中能夠直觀地看出,管理科學部的科研計劃項目多以“企業(yè)”“行為”“經濟”“管理”“發(fā)展”“政策”等為關鍵主題展開研究。
圖2 項目摘要的詞云
2.2.2 模型預測結果
表2 顯示了不同算法對科研項目績效的預測結果,其中隨機森林、Bagging 和AdaBoost 使用的基分類器均為決策樹。作為對比,表2 還提供了單一的決策樹算法的結果。從表2 的結果可以看出,隨機森林算法在4 種指標上(精度、查全率、查準率和值)均表現出了最好的結果。此外,3種集成學習算法的結果均優(yōu)于單一決策樹算法,可見集成監(jiān)督學習算法有助于提升預測的準確性。
表2 不同算法的預測結果
基于十折交叉驗證和隨機森林算法,在測試集上構造混淆矩陣(圖3)。圖3 的混淆矩陣展示了基于隨機森林算法的每種類別績效預測情況與專家評審方法得到的績效后評估結果的差別,其中橫軸表示模型預測的結果,縱軸表示項目的真實結果(即專家評估結果)。圖3中每個圓形中的數字表示真實標簽為的項目被預測為的數量(圓形中的陰影表示圓形中的項目數占總項目數的比例),因此主對角線上的圓形代表了模型預測正確的結果數量。
圖3 隨機森林算法對各類別的預測結果的混淆矩陣
對比預測結果與實際結果可以發(fā)現,盡管每一個類別中預測結果正確的比例不相同,但預測結果與實際相符的個數都占主導,表明了本文方法具有較好的準確性。在所有項目中,本文方法對于“特優(yōu)”和“中”的項目預測準確度較高,預測結果容易混淆的類別為“優(yōu)”和“良”。隨機森林對“優(yōu)”和“良”的分類能力不及另2 類,是因為“特優(yōu)”的項目在各個維度的表現均很突出,“中”的項目在各個維度的表現均明顯落后于其他類別,而“優(yōu)”和“良”這2 個類別本身就處在4 個類別的中間位置,相互之間區(qū)分程度較小。
上述實驗結果驗證了本文提出的基于集成學習的科研計劃項目績效預測框架的有效性,本文方法在項目申請階段對項目未來績效的預測具有較高的準確性。對科研管理部門而言,將人工領域的機器學習技術充分引入科研計劃項目的管理中,能夠盡可能準確的預測項目的績效,進而為相關政府部門在選擇擬資助項目以及在有限資金的優(yōu)化配置方面提供科學化、數據化的決策建議。本研究使用已結題項目數據預測科研計劃項目最終績效,在項目申請階段,并沒有結題報告中的數據為實驗做支撐。此時,申請人在申請書中的預計產出數據以及專家在評審時對項目的預測數據可以作為本文預測模型的輸入數據。
利用本文的基于集成學習的科研計劃項目績效預測模型,能夠在一定程度上避免專家主觀不當加分的負面影響,有助于科研評審管理的公平性。并且自動化的績效預測方法的引入,提高了科研項目評估與管理工作的效率,為科研管理的數字化轉型提供有效的路徑參考。
2.2.3 特征重要性探討
基于1.1 節(jié)的特征選擇算法對23 個特征的重要性進行排序,探討不同特征對預測結果的影響程度。圖4 給出了重要性排名前8 的特征。這個結果表明,以往NSFC 項目的績效評價結果主要由項目的論著數、項目獲獎(項)數、培養(yǎng)人才情況等表征。項目支持經費額度也被認為是較大的影響因素之一。
圖4 重要性排名前8 位的特征
此外,SCI檢索論文數的重要度要明顯高于其他,這也從側面印證了我國在以往的科研計劃項目評估工作中過度倚重SCI 數據[25]。在科研計劃項目評估時,SCI 指標不應作為首要甚至是唯一的評估標準,應根據評估對象實際情況,考慮到科研質量是科研總量在“質”上的補充[26-27],綜合考慮科研項目成果的社會價值和國家目標,考慮不同學科領域科研項目成果的引用規(guī)律、影響周期的差異性等多種因素。另一方面,盡管SCI 檢索論文數在本文的模型中是一個重要指標,但是依然可以發(fā)現項目獲獎(項)數以及人才培養(yǎng)情況等指標也起到了重要的作用。這也表明我國的科研評價體系正在逐漸根除“唯論文”“SCI 至上”等刻板的量化指標,逐漸建立起多方位的綜合評價體系。
本文提出了一個基于集成學習的科研項目績效預測方法,通過多分類集成監(jiān)督學習算法實現項目績效的有效預測。在本文的預測方法中,設計了網絡爬蟲自動化的收集項目相關數據,從中提取項目績效相關的特征,基于多種集成監(jiān)督學習算法實現預測模型的構建,并利用多種指標對模型的性能進行估計。以國家自然科學基金項目數據為研究對象,對上述基于集成學習的科研項目績效預測方法進行了驗證,結果顯示隨機森林算法具有優(yōu)秀的預測表現;同時對比本文模型對項目績效預測結果與專家的評估結果之后,也表明了本文模型的有效性。
總之,本文基于集成學習的科研項目績效預測方法為項目未來的績效預測提供了一個統一且易于擴展的框架,本文的預測框架有助于提升項目評估工作的自動化與智能化水平,為科研項目管理部門選擇擬資助項目提供數據化的決策支持。未來的研究工作將進一步融合更豐富的數據,探索更為有效的基于新型機器學習算法的項目績效預測方法。