林 珠,邢 延,趙曉萌,周俊杰,吳海源
(1.廣東省科技基礎條件平臺中心廣東省高性能計算實驗室,廣東廣州 510033;2.廣東工業(yè)大學自動化學院,廣東廣州 510006)
實驗室是我國科研工作從事基礎研究和應用研究的重要載體,是國家、地區(qū)科研基地和科技創(chuàng)新不可分割的重要組成部分,在促進科研水平提升和解決重大科學問題中發(fā)揮著重大作用,有效推動社會經(jīng)濟發(fā)展?!吨泄仓醒朕k公廳、國務院辦公廳印發(fā)〈關于深化項目評審、人才評價、機構評估改革的意見〉的通知》[1]和《中共中央 國務院關于優(yōu)化科研管理 提升科研績效若干措施的通知》[2]在優(yōu)化科研項目和經(jīng)費管理、創(chuàng)新評價激勵制度、強化科研項目績效評價等方面做出明確要求。廣東省高度重視科研績效評估工作,針對不同的機構類型、人才隊伍研究不同的評估體系,并制定《廣東省科學技術廳關于省財政科技支出績效評價的實施細則(試行)》等措施,以促進科研績效評估工作的順利進行。實驗室績效評估是對實驗室科研的投入成本和產(chǎn)出效益進行比較分析,對實驗室運行情況和效果進行有效監(jiān)測,保障實驗室源源不斷的創(chuàng)新力和動力、提升實驗室的運行質(zhì)量,使之能響應國家戰(zhàn)略的需求,適應當代科學的發(fā)展[3]。
現(xiàn)階段通常采用對實驗室各類績效產(chǎn)出構建評價指標[4-5],然后針對各指標進行專家評分,最后劃分評分等級。也有一些學者引入信息技術手段,如采用層次分析法、模糊評價法、物元分析法和屬性層次分析法等,以提高實驗室評估的有效性[6-8]。
然而目前在研究過程中仍存在不少問題,比如評估方法單一,基本上均采用設置指標并評分的方式進行,不能對實驗室進行全面、科學的評估;現(xiàn)有評估體系指標未能特別突出科研重點,只能用專家經(jīng)驗判斷各指標重要性,并設置權重;評估指標體系比較繁瑣,難以統(tǒng)一度量標準;代表性成果選擇不限或關聯(lián)度不高等。因此,對實驗室科研績效評價仍然是一項值得關注的課題。在現(xiàn)行的績效評估體系基礎上結合聚支持向量機算法進行客觀評估和預測,對推動科研績效管理的智能化,實驗室績效高效管理具有十分重要的現(xiàn)實意義。
早在20 世紀50 年代,西方發(fā)達國家已開始進行實驗室考察評估工作,側重于對科研進展狀況的評估和管理情況的評估[9],英國作為科研績效評估發(fā)達國家的代表,其評估體系變遷路徑已經(jīng)歷了“ 科研選擇評估 ”(Research Selectivity Exercise, RSE )、科研水平評估(Research Assessment Exercise, RAE)、科研卓越框架 (Research Excellence Framework, REF)等多種模式[10];美國科研創(chuàng)新績效評價方法從最開始的定性評價,演變?yōu)椴捎迷S多數(shù)學、運籌學、統(tǒng)計學以及經(jīng)濟學的計量分析方法引入到科技評估中,試圖提高評估結果的科學性[11]。
相比于西方國家,我國起步稍晚,20 世紀末期,我國部分專家、學者開始對國家重點實驗室進行科學、合理的評估以滿足國家發(fā)展的需要。有些學者采用模糊綜合評價法、層次分析法等一些廣泛適用的評價方法,然而,雖然經(jīng)過不斷地探索與努力,我國對重點實驗室的評價指標體系和評價方法在權威性、合理性方面仍有所欠缺,我國對國家重點實驗室整體的評估工作存在一定的提升空間[12-13]。現(xiàn)階段指標體系構建方法通常采用宏觀引導和專家經(jīng)驗相結合的方式進行構建[14-15]。上層引導是指政府、管理層期望實驗室重點發(fā)展優(yōu)勢能力,針對不同類型的實驗室將有不同的引導方向,比如針對學科類重點實驗室則側重于基礎研究能力的培育,強調(diào)考核其基礎研究的論文、科研項目等指標;針對企業(yè)類重點實驗室則側重于成果轉(zhuǎn)化能力,強調(diào)其產(chǎn)品擴展和行業(yè)帶動的指標。專家經(jīng)驗判斷通常依據(jù)當前研究熱點、評估經(jīng)驗等設置各類指標及權重,以區(qū)分各項指標的重要程度。
我國現(xiàn)階段實驗室評估指標體系通常由多維度、多級指標構成。指標設置遵循系統(tǒng)性、科學性、可操作性、投入產(chǎn)出等原則。現(xiàn)階段不同類型、不同地區(qū)的實驗室建設往往采用不同的評估指標。根據(jù)《國家重點實驗室評估規(guī)則》(國科發(fā)基(2014)124號),國家重點實驗室目前的評估指標體系由研究水平與貢獻、隊伍建設與人才培養(yǎng)和開放交流與運行管理三個一級指標構成[16]。
國內(nèi)部分省市已建立對實驗室績效評估體系,以某省為例,根據(jù)其重點實驗室管理規(guī)范可知,該省評估的周期為兩年一次,評估結果也是分為四級,分別為優(yōu)秀、良好、合格和不合格。對于評價為優(yōu)秀的予以重點支持,反之對于評估不合格的將撤銷其“省重點實驗室”資格。通常情況下,主管部門對實驗室的績效評估包括定量評估和定性評估兩部分。定量評估往往通過年度調(diào)查、信息系統(tǒng)數(shù)據(jù)收集等方式,對科研成果、學術、技術水平、應用效益、人才培養(yǎng)等一些可以量化的指標進行評估。定性評估往往是針對不可量化部分的指標,比如研究成果及學術、技術水平、隊伍建設與人才層次、經(jīng)費及設備實力、管理水平等方面進行定性描述[17]。
現(xiàn)階段通常采用綜合評議的方式對實驗室的績效進行評估,即對這些績效指標各項進行專家評分,然后根據(jù)權重統(tǒng)計評分結果,最終將得到對某個實驗室的績效評價[18]。該省指標體系分為三級指標(5 個分類指標、13 個大類指標和24 個小類指標),與國家及其他省市對比,較全面具體,也具有可操作性,因此采用該指標體系作為本論文的參考依據(jù)。
文章采用數(shù)據(jù)來源于某省級實驗室的歷年科研績效評估數(shù)據(jù),共采集數(shù)據(jù)樣本188 條例 ,每條樣本指標屬性45 項。由于這些數(shù)據(jù)能夠很好地體現(xiàn)實驗室的科研水平,因此,將這些信息進行整合梳理,構成了面向機構等級劃分的數(shù)據(jù)記錄,形成數(shù)據(jù)集T1??蒲锌冃гu估等級劃分利用原始數(shù)據(jù)表格專家評審得分作為評價標準,其中以評審得分劃分為4類。評分在[100,85]區(qū)間為優(yōu)秀標為S,在(85、75]區(qū)間為良好標為A,在(75、65]區(qū)間為一般標為B,(65,0]區(qū)間為差標為C,將S、A、B、C分別作為數(shù)據(jù)集T1 的數(shù)據(jù)標簽,從而形成帶標簽的數(shù)據(jù)集D1。
為更好地對這些信息進行挖掘,首先要對數(shù)據(jù)記錄進行預處理。文章采用數(shù)據(jù)校驗、缺失值處理、結構化轉(zhuǎn)換等預處理方法。數(shù)據(jù)校驗主要指異常值識別,并對數(shù)據(jù)真實性進行校驗,如某字段偏離往年平均值或合理值較大時,則進行人工溝通并修正,以確保數(shù)據(jù)準確性。缺失值處理是對某重要字段未填寫時進行缺失值補充,通??刹捎迷搶嶒炇覛v年該項平均值或參考上一年度值;結構化轉(zhuǎn)換是指將非結構化數(shù)據(jù)進行關鍵字提取,表述有限關鍵字,成形半結構化數(shù)據(jù),再轉(zhuǎn)存入數(shù)據(jù)表,進一步可形成離散數(shù)據(jù)使用。
將數(shù)據(jù)進行預處理之后,最終數(shù)據(jù)的預處理結果如下表1 所示,形成數(shù)據(jù)集T2,表格只列舉到前10 個數(shù)據(jù)。
表1 數(shù)據(jù)的預處理結果(部分)
為更好地對現(xiàn)有評估指標體系進行綜合分析,文章將不僅對專家評估方法和結果進行分析,也將運用無監(jiān)督學習、信息熵計算、決策樹模型[19]等數(shù)據(jù)挖掘方法進行分析,以便對評估指標進行更客觀、全面地分析。所采用實驗工具主要有SPSS 軟件及PyCharm 開發(fā)環(huán)境。SPSS 是IBM 公司所開發(fā)的“統(tǒng)計產(chǎn)品與服務解決方案”軟件,實驗使用利用SPSS軟件中的K-均值聚類算法包對數(shù)據(jù)進行分類。PyCharm 是python 語言的IDE,可調(diào)用各種機器學習算法庫進行數(shù)據(jù)分析與挖掘,本文將調(diào)用支持向量機工具箱LIBSVM 庫對數(shù)據(jù)進行訓練與預測的,LIBSVM 是臺灣大學林智仁教授所開發(fā)的SVM 模式識別與回歸工具包,其中主要用到的函數(shù)有svm_read_problem 與svmtrain 兩個程序函數(shù)。
本文首先采用無監(jiān)督方法對績效評估數(shù)據(jù)進行聚類分析,讓數(shù)據(jù)自動劃分為四類,并采用現(xiàn)階段流行的、較權威的SVM 方法進行分類,并對兩者結果進行比較分析,以評估指標體系的整體效果;然后,對專家評估結論進行分析,通過對績效評估數(shù)據(jù)進行分類,并與無監(jiān)督聚類情況進行比較分析,以識別主觀評估的有效性及不足;最后,運用信息熵計算、決策樹模型等方法進行具體的指標有效性分析。具體研究方法如下:
(1)聚類形成新的數(shù)據(jù)標簽。對T2 數(shù)據(jù)集進行無標簽的聚類分析,聚類分析是無監(jiān)督學習的常用算法,它是指以樣本數(shù)據(jù)的特征或?qū)傩宰鳛槌霭l(fā)點,將樣本數(shù)據(jù)中性質(zhì)或特性相近的數(shù)據(jù)歸為一類。聚類分析是指將一組數(shù)據(jù)中性質(zhì)相近的事物歸為一組的分析技術[20],文章將采用經(jīng)典的K 均值算法(K-means)對數(shù)據(jù)進行分析,它具有原理簡單、容易實現(xiàn)、能處理大數(shù)據(jù)集、聚類效果良好、高效和伸縮性較強等優(yōu)點,是目前作為研究最多和使用最廣泛的聚類算法[21]。實驗中根據(jù)S、A、B、C 四類的平均分值所在的科研機構作為聚類初始中心,調(diào)用SPSS 軟件中的K-均值聚類算法,最終將188 個實驗室機構聚為四類,形成新的數(shù)據(jù)集D2。
(2)整體評估現(xiàn)有實驗室指標體系的有效性。為使得評估結果更加客觀,本文將不采用專家評分作為評判依據(jù),而以聚類后的結果D2 作為參考,采用支持向量機(Support Vector Machine,SVM)方法評估現(xiàn)在指標的有效性。SVM 是由Vapnik 在統(tǒng)計學理論基礎上建立起來的依據(jù)VC 維理論和結構風險最小化原則的模式識別算法[22],實驗中調(diào)用支持向量機工具箱LIBSVM 庫對數(shù)據(jù)進行訓練與預測,使用核函數(shù)進行分析和處理。
(3)引入專家評分結果進行對比分析。對比直接采用專家評分劃分的數(shù)據(jù)集D1 和聚類形成的數(shù)據(jù)集D2,發(fā)現(xiàn)主觀評價在現(xiàn)有評估結論中的不足,分析各類別實驗室機構在主、客觀的評估中存在的差異。
(4)高優(yōu)指標選取。對T1 數(shù)據(jù)集進行信息熵值計算,信息熵是常用的反映信息量大小的有效指標,對于科研績效數(shù)據(jù),其具體某項指標可以用熵值來判斷該指標的離散程度,其熵值越小,指標的離散程度越大,也意味著該指標對評價的影響就越大[23],如果某項指標的值全部相等,則該指標在評價中不起作用,可視為無效指標,因此,通過信息熵計算可剔除熵值較大的指標,形成剔除指標后數(shù)據(jù)集T3。
(5)采用決策樹識別關鍵指標。決策樹可以用于形成分類器,可以實現(xiàn)對未知數(shù)據(jù)進行預測或者分類。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹[24-25]。對T3數(shù)據(jù)集以D2標簽為參考,進行決策樹模型構建,從而識別關鍵性指標。
(1)現(xiàn)有評估指標體系整體分析?,F(xiàn)階段評估指標體系所形成的績效評估數(shù)據(jù)在剔除專業(yè)評分標簽后,進行無監(jiān)督學習,讓數(shù)據(jù)進行自動聚類,意味著科研水平相近的實驗室將聚為一類,給每類結果賦予標簽,以此結果作為參考對象,采用現(xiàn)階段常用的典型算法進行分類,若分類模型具有良好的分類效果,則證明該指標體系具有良好的數(shù)據(jù)可分性,可將實驗室科研水平進行較好地層次劃分。
該實驗采用無監(jiān)督學習后形成新的數(shù)據(jù)集標簽作為訓練依據(jù)?;谥С窒蛄繖C算法中核函數(shù)的選取是最為重要的一個環(huán)節(jié),核函數(shù)的應用使得支持向量機算法在解決非線性問題時具有巨大的優(yōu)勢,其將低維空間的非線性問題轉(zhuǎn)化為高維空間中的線性問題進行處理。而常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、RBF 核函數(shù)以及Sigmoid 核函數(shù),由于數(shù)據(jù)具有小樣本、非線性的特征,將采用RBF 核函數(shù)進行分類,實驗結果如表2 所示:
表2 為基于不同核函數(shù)的模型訓練結果
從實驗可知,通過無監(jiān)督學習使得數(shù)據(jù)集自動聚類,然后依此聚類結果作為數(shù)據(jù)集標簽進行模型訓練,具有良好的分類效果。基于聚類結果與支持向量機算法的預測模型能夠相對準確地對實驗室進行分類,達到較高的準確率,能夠真實反映實驗室科研績效情況,因此,現(xiàn)行的績效評估體系能夠較好地反映并劃分實驗室的科研水平,具有良好的參考意義。
(2)引入專家評分結果進行對比分析。上文證明了績效評估的整體有效性后,引入專家評分的實際結果,考查其他實際應用中的效果。本次實驗通過對K 均值聚類算法的結果與現(xiàn)有的主觀績效評估方法進行比較分析,從而反映現(xiàn)有績效評估體系的合理性和準確性。通過實驗發(fā)現(xiàn),專家評審得分與經(jīng)過K 均值聚類的結果存在差異,主要表現(xiàn)在高評級的實驗室評審得分不高,或低評級的機構評審得分很高,且具有這種表現(xiàn)的實驗室不在少數(shù)。專家評分與聚類結果存在差異情況具體詳見表3。
觀察數(shù)據(jù)可知,評級為S 的實驗室中,機構4和機構113 的專家評審得分并不高,與聚類評級結果相悖;而評級為 A 的實驗室中,機構105、機構128 和機構120 等部分機構專家評審得分較高;評級為B 的部分實驗室對應的評審得分過高;評級為C 的部分實驗室評審得分較低,評級為 A 的實驗室中,機構105、機構128 和機構120 等部分機構專家評審得分較高。這些數(shù)據(jù)說明雖然專家評審能大部分體現(xiàn)實驗室的實際水平,但仍容易造成部分實驗室的評審結果存在差異。這說明現(xiàn)行的績效評價體系在實際運用中存在某些指標容易讓專家造成誤判,或者存在低優(yōu)指標,或者各類指標權重設置不合理,導致最終的評價結果有時并不能正確地反映實驗室的實際情況。
表3 實驗室評審得分與聚類結果存在差異的比較
(3)采用信息熵+決策樹進行有效指標選擇。
1)基于信息熵的高優(yōu)指標選取。首先,進行指標優(yōu)化處理,對于高優(yōu)指標(有益型指標,即數(shù)量越大,對實驗室評價越高的指標),處理公式(1)如下:
對于低優(yōu)指標(有損型指標,即數(shù)量越大,對實驗室評價越低的指標),處理公式(2)如下:
然后進行歸一化處理,此時采用簡單的占比方式進行歸一化,如公式(3):
然后,進行熵值計算:
通過信息熵值計算,判斷各指標對評價的貢獻程度,熵值大于某一閥值的指標直接去除,從而達到剔除無效字段,達到數(shù)據(jù)降維的效果。
2)基于決策樹的關鍵指標識別。實驗在采用信息熵進行的高優(yōu)指標選擇后,進一步采用決策權進行指標識別,通過模型分析并識別績效指標的重要程度。采用決策樹應用于實驗室績效評估指標選擇,是因為一方面決策樹可以用直觀的樹狀結構來表示,生成的分類規(guī)則容易理解;另一方面,它可以表示為直觀的樹狀結構,并且能夠直觀地顯示各個屬性的重要程度,節(jié)點所處于樹的層次越高,該節(jié)點上的屬性對決策樹的分類結果影響也就越大;反之,節(jié)點所處于樹的層次越低,該節(jié)點上屬性的影響就越小。再一方面,決策樹對訓練數(shù)據(jù)允許存在缺失屬性值的樣本,對于原始數(shù)據(jù),很有可能會存在數(shù)據(jù)缺失或者不完整的情況,決策樹模型對訓練數(shù)據(jù)不挑剔,因此,適用于實驗室績效評估數(shù)據(jù)。該方法有助于識別關鍵核心指標,從而有助于研究實驗室績效評估的合理性和準確性。
實驗將數(shù)據(jù)T3 構造決策樹模型,以聚類后新生成的D2 作為數(shù)據(jù)標簽,采用CART 算法對目標數(shù)據(jù)集進行訓練,進行十折交叉驗證,得到基于所給綜合評分的模型,結果以及各項性能評估指標。實驗訓練所形成的決策樹模型如圖1 所示。
圖1 實驗室績效決策模型的樹形圖
根據(jù)實驗結果可知,對于決策樹圖而言,節(jié)點所處于樹的層次越高,該節(jié)點上的屬性對決策樹的分類結果影響也就越大。從圖1 所示的樹形圖可以看出,只有兩個屬性對分類結果有影響,分別是研究成果得分(Achievement)和承擔項目得分(Project),研究成果得分(Achievement)的影響較大。并且,從圖1 可以看出,決策樹結構比較簡單,生成的決策樹規(guī)則也相對簡單,容易理解。
在機器學習中,在建立好分類器模型之后,要想知道通過機器學習而得到的分類器是否有效,需要對分類器的性能進行評估。常用的分類器模型性能評估指標有:混淆矩陣(Confusion Matrix),準確率(Accuracy)、 精確率(Precision)、召回率(Recall)、F1值、敏感性(True Positive Rate, TPR)、特異性(False Positive Rate, FPR)、ROC 曲線及AUC。文章對形成的決策樹模型進行驗證和評估,分別繪制混淆矩陣、ROC 曲線以及計算精確率、召回率、F1 值、敏感性性能指標。
決策樹模型混淆矩陣如圖2 所示:
圖2 實驗室績效決策模型的混淆矩陣
決策樹模型ROC 曲線如圖3 所示。
圖3 實驗室績效決策模型的ROC 曲線
由圖2 所示的混淆矩陣,可知準確率為:
其他性能評估指標如表4 所示,可見,模型具有較優(yōu)的分類結果,選擇科研成果及科研項目作為關鍵核心指標較合理。
表4 其他性能評估指標
本文在總結國內(nèi)外相關的科研績效評價體系規(guī)則的基礎上,通過聚類分析、SVM 向量機、信息熵值計算、決策樹模型等研究方法對現(xiàn)行實驗室績效指標體系進行有效性分析。首先通過無監(jiān)督學習對績效評估數(shù)據(jù)進行聚類,并與經(jīng)典分類算法作比較,證明現(xiàn)行的評估指標體系整體具有可分性和有效性;然后引入專家評分結果進行實證研究,發(fā)現(xiàn)專業(yè)評分與聚類結果存在差異,分析可能存在部分低優(yōu)指標或權重設置不合理;最后采用信息熵計算方法剔除低優(yōu)指標,并用決策樹模型分析其重要指標,以引導權重設置。實驗分類器模型性能評估發(fā)現(xiàn)通過信息熵+決策樹的方法能夠較好地選擇有效指標。文章以實驗室績效評估數(shù)據(jù)為研究對象,以模式識別和機器學習的基本原理為基礎,以識別科研績效評估中的有效指標為目的,結合原理分析、算法實現(xiàn)和仿真實驗,研究、分析、比較科研績效評估過程中的各指標有效性,能夠輔助實驗室績效評估,對真實反映實驗室科研能力、提升實驗室的智能化評審水平具有重要意義。