王泳欣,呂建秋
(1.華南農(nóng)業(yè)大學(xué),廣東廣州 510642;2.廣東省科技管理與規(guī)劃研究院,廣東廣州 510642)
2018 年我國國務(wù)院印發(fā)《關(guān)于全面加強(qiáng)基礎(chǔ)科學(xué)研究的若干意見》,明確提出要完善分類評價機(jī)制,調(diào)動高校的積極性創(chuàng)造性,努力創(chuàng)建世界一流大學(xué)。近年來,國家增加了對高校科研活動的投入,高校也不斷輸出科技成果,但其產(chǎn)出效率無法通過數(shù)據(jù)直接展示,需要利用特定的科技評價體系和方法對高??蒲腥藛T在一定研究周期內(nèi)所取得的科技成果進(jìn)行評定[1]。通過分析科技活動投入與產(chǎn)出的關(guān)系,可以得出科技創(chuàng)新效率,為管理者提供決策參考。
信息技術(shù)的發(fā)展引領(lǐng)了新一輪的科技革命,大數(shù)據(jù)和人工智能逐漸應(yīng)用于各個產(chǎn)業(yè)的生產(chǎn)和服務(wù),加快了產(chǎn)業(yè)的發(fā)展。隨著技術(shù)的進(jìn)步和產(chǎn)業(yè)的發(fā)展,數(shù)字化轉(zhuǎn)型已是必然的選擇。目前,許多企業(yè)已經(jīng)開始進(jìn)行數(shù)字化轉(zhuǎn)型,主要是在工作流程和經(jīng)營活動中融合數(shù)字化技術(shù),利用大數(shù)據(jù)和人工智能等技術(shù)對企業(yè)所獲得的數(shù)據(jù)進(jìn)行分析和預(yù)測,以此提高生產(chǎn)效率、獲得更大的經(jīng)濟(jì)效益。但是在數(shù)字化轉(zhuǎn)型的實(shí)施過程中也面臨著許多挑戰(zhàn),例如數(shù)據(jù)存儲量問題,目前的存儲設(shè)備還不足以存放巨量的數(shù)據(jù),所以需要選擇存儲所有數(shù)據(jù)還是只存儲目的性數(shù)據(jù)[2]。
高校的科研活動一直以來都受到來自多方面的監(jiān)督。由于高校的科技投入和產(chǎn)出數(shù)據(jù)仍主要依靠人工進(jìn)行統(tǒng)計,且統(tǒng)計口徑參差不齊,對同一指標(biāo)可能存在著不同的理解,所以有關(guān)數(shù)據(jù)的真實(shí)性受到質(zhì)疑[3];同時,常用的評價方法對科研產(chǎn)出存在滯后性這一問題的考慮仍存在不足,導(dǎo)致評價結(jié)果出現(xiàn)偏差。因此,本研究通過總結(jié)高??萍荚u價的研究現(xiàn)狀,梳理數(shù)字化轉(zhuǎn)型的內(nèi)涵和方法,分析在數(shù)字化轉(zhuǎn)型背景下我國高??萍荚u價所面臨的機(jī)遇和挑戰(zhàn),提出高效的數(shù)據(jù)采集和科技評價概念模型,為高校科技評價提供新的思路和方法。
高??萍荚u價是高??萍脊芾淼闹匾侄?,要緊跟信息時代的發(fā)展潮流,抓住數(shù)字化轉(zhuǎn)型的發(fā)展機(jī)遇,利用數(shù)字化技術(shù)為高校科技評價提供新方法。針對高??萍荚u價的研究現(xiàn)狀,重點(diǎn)分析評價過程中所使用的數(shù)據(jù)、指標(biāo)和方法,試圖從數(shù)據(jù)收集、評價手段等方面融合數(shù)字化技術(shù),挖掘出高??萍荚u價在數(shù)字化轉(zhuǎn)型時期的更多機(jī)遇,為高校的高效科技管理提供更多的手段。
一般通過分析領(lǐng)域內(nèi)的相關(guān)文獻(xiàn),了解該領(lǐng)域的研究現(xiàn)狀,從文獻(xiàn)的數(shù)量體現(xiàn)研究的熱度,從主題詞的分布體現(xiàn)研究的方向。在中國知網(wǎng)的文獻(xiàn)數(shù)據(jù)庫中以“高??萍荚u價”作為關(guān)鍵詞進(jìn)行搜索,可以得出2001 至2020 年的文獻(xiàn)發(fā)表量變化情況(見圖1)。圖1 中折線是相關(guān)論文的發(fā)表數(shù)量,虛線是相關(guān)論文發(fā)表數(shù)量的趨勢線,可以明顯看出趨勢是不斷上升的,說明近年來國內(nèi)對高校科技評價的研究在不斷地增加和深入。
圖1 我國高??萍荚u價研究發(fā)文量變化趨勢
分析相關(guān)文獻(xiàn)的主題詞分布得出,出現(xiàn)頻率較密集的主題詞有:高??萍紕?chuàng)新能力;指標(biāo)體系;績效評價;數(shù)據(jù)包絡(luò)分析(data envelopment analysis,DEA);因子分析等。其中,對評價指標(biāo)體系研究的論文數(shù)量保持著平穩(wěn)增長。本研究主要對評價方法和數(shù)據(jù)來源進(jìn)行分析,從兩個維度分析高??萍荚u價數(shù)字化轉(zhuǎn)型的可行性。
通過閱讀相關(guān)文獻(xiàn)可以了解到,學(xué)者逐漸把其他領(lǐng)域的方法應(yīng)用于高??萍荚u價,相關(guān)研究方法在不斷地更新和完善,如陳冠初等[4]對數(shù)據(jù)做簡單的可視化分析,以直觀地反映數(shù)據(jù)的變化趨勢;路萍等[5]、劉偉等[6]、華恩順等[7]分別使用層次分析、主成分分析和因子分析法等對高??萍紕?chuàng)新力進(jìn)行評估。但因?yàn)楦咝?萍紨?shù)據(jù)的多投入多產(chǎn)出等特性,所以目前對高??萍荚u價的方法主要采用數(shù)據(jù)包絡(luò)分析,即DEA 模型。
DEA 模型多應(yīng)用于由多個屬性描述的復(fù)雜實(shí)體的排名評估,主要從技術(shù)效率或技術(shù)有效性的角度評估效率。國外對高校進(jìn)行評價的方法一般是使用DEA 模型,如Yilmaz 等[8]針對土耳其26 所公立大學(xué)數(shù)據(jù),使用DEA 模型對大學(xué)進(jìn)行績效評估,考慮組織資源和各個大學(xué)的產(chǎn)出是否匹配,并揭示了高校科技投入產(chǎn)出效率低下的主要原因;Delimiro 等[9]對32 所哥倫比亞公立大學(xué)的數(shù)據(jù)進(jìn)行分析,利用CCR 模型判定技術(shù)和規(guī)模是否同時有效,計算混合效率,找到高??萍纪度氘a(chǎn)出效率低下的原因并給出建議。我國越來越重視高校創(chuàng)新科技能力的評估,如楊瑞仙等[10]總結(jié)了國內(nèi)相關(guān)研究的評價指標(biāo)和方法,發(fā)現(xiàn)目前我國主要是以DEA 模型為主進(jìn)行高??萍荚u價,研究內(nèi)容主要是以省份維度對高??萍蓟顒咏y(tǒng)計數(shù)據(jù)進(jìn)行分析,或以高校為維度進(jìn)行高??萍紕?chuàng)新效率評價,為有關(guān)部門提供了有效的決策參考。
隨著信息化的發(fā)展,具有預(yù)測能力的數(shù)據(jù)挖掘算法逐漸應(yīng)用于高??萍荚u價與預(yù)測。在已有研究中,大部分學(xué)者利用神經(jīng)網(wǎng)絡(luò)和聚類方法對高校進(jìn)行科技評價和分類,如郭俊華等[11]利用因子分析法和聚類分析法對我國高校的科技成果轉(zhuǎn)化能力進(jìn)行實(shí)證分析,指出其中31 個省份高校中每一類高校的優(yōu)劣勢;梁娜等[12]利用概率神經(jīng)網(wǎng)絡(luò)對我國高??蒲心芰M(jìn)行評價并提出對策建議。
綜上,目前高校科技評價的研究方法主要是利用DEA 模型進(jìn)行評價分析,通過數(shù)據(jù)挖掘技術(shù)進(jìn)行分類預(yù)測。DEA 模型的使用可以滿足高校科技數(shù)據(jù)多投入與多產(chǎn)出的特性,比因子分析和層次分析等傳統(tǒng)的分析方法更具有優(yōu)勢,但是缺乏預(yù)測能力;而數(shù)據(jù)挖掘技術(shù)能根據(jù)歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)測,但是在處理多投入多產(chǎn)出數(shù)據(jù)方面具有一定難度。因此,綜合上述二者的優(yōu)劣勢,DEA 模型與數(shù)據(jù)挖掘算法的結(jié)合使用能有效地進(jìn)行互補(bǔ),但是這一結(jié)合算法目前較少得到應(yīng)用,所以需要對該方法在高??萍荚u價的應(yīng)用進(jìn)行不斷地探索和研究。
教育部發(fā)布的《高等學(xué)??萍蓟顒咏y(tǒng)計資料匯編》(以下簡稱《匯編》)和《中國科技統(tǒng)計年鑒》所記錄的數(shù)據(jù)是由政府相關(guān)部門統(tǒng)計數(shù)據(jù)所得,其中《匯編》統(tǒng)計并記錄了高??萍纪度牒涂萍籍a(chǎn)出情況,能夠較全面反映高??萍蓟顒涌傮w情況,學(xué)者大多使用這些具有代表性的數(shù)據(jù)進(jìn)行高校科技評價。
除統(tǒng)一記錄的數(shù)據(jù)外,部分研究使用的數(shù)據(jù)是通過調(diào)研和專家評分所得,包括科研隊伍、科研基地、科技載體、科研管理能力、科學(xué)決策能力等,該類數(shù)據(jù)主要是為了完善《匯編》等統(tǒng)計數(shù)據(jù)中沒有記錄的數(shù)據(jù),以更好地進(jìn)行高??萍荚u價。
隨著高??萍荚u價方法不斷增多,對數(shù)據(jù)的準(zhǔn)確性和完整性有了更高的要求。目前大部分研究中使用的是官方統(tǒng)計數(shù)據(jù),因?yàn)橄啾容^調(diào)研所得數(shù)據(jù),官方統(tǒng)計數(shù)據(jù)更具有說服力。但是我國高??萍枷嚓P(guān)數(shù)據(jù)統(tǒng)計仍存在著不足,主要表現(xiàn)為高??萍冀y(tǒng)計無法適應(yīng)科技的發(fā)展、基層統(tǒng)計的質(zhì)量難以控制、人工進(jìn)行科技統(tǒng)計耗時長等,這些問題都會隨著數(shù)字化轉(zhuǎn)型時代的到來得到解決。
數(shù)字化轉(zhuǎn)型的目的主要是應(yīng)對產(chǎn)業(yè)發(fā)展的不確定性、生產(chǎn)過程的復(fù)雜性、產(chǎn)業(yè)協(xié)作的多維性、市場需求的多樣化,為此,需要了解數(shù)字化轉(zhuǎn)型的內(nèi)涵,包括其定義和轉(zhuǎn)型方式。
Minhw 等[13]通過頭腦風(fēng)暴方法把第四次工業(yè)革命定義為信息技術(shù)在一二三產(chǎn)業(yè)中的擴(kuò)散,即開展數(shù)字化轉(zhuǎn)型,以數(shù)據(jù)為核心,把先進(jìn)的數(shù)字化技術(shù)和基于智能的平臺進(jìn)行深度融合,形成以數(shù)字技術(shù)為核心要素、開放平臺為基礎(chǔ)支撐、數(shù)據(jù)驅(qū)動為典型特征的組織形態(tài)。目前產(chǎn)業(yè)發(fā)展的規(guī)律性在不斷減弱,越來越多的不確定性因素出現(xiàn),同時因?yàn)樾枨蟮牟煌?,生產(chǎn)過程也在不斷地創(chuàng)新。進(jìn)行數(shù)字化轉(zhuǎn)型,有利于更精確地獲取需求,把握產(chǎn)業(yè)發(fā)展的規(guī)律性,讓協(xié)作的各方準(zhǔn)確獲得所需信息,提高生產(chǎn)效率,實(shí)現(xiàn)共同獲益。
數(shù)字化轉(zhuǎn)型的方式主要是通過互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)實(shí)現(xiàn)產(chǎn)業(yè)鏈的數(shù)字化、資源配置的全局優(yōu)化、產(chǎn)業(yè)創(chuàng)新的開放化、生產(chǎn)制造的智能化和組織管理的扁平化。數(shù)字化技術(shù)是數(shù)字化轉(zhuǎn)型的關(guān)鍵,但值得注意的一點(diǎn),數(shù)字化技術(shù)只是其中一個關(guān)鍵方面,成功的數(shù)字化轉(zhuǎn)型需要卓越的領(lǐng)導(dǎo)力、支持性的文化和新的業(yè)務(wù)流程,應(yīng)促進(jìn)和培養(yǎng)以數(shù)據(jù)為基礎(chǔ)的文化。
數(shù)字信息既能解決問題,又能創(chuàng)造新問題。目前我國的數(shù)字化轉(zhuǎn)型主要體現(xiàn)在企業(yè),企業(yè)在數(shù)字化工廠的基礎(chǔ)上,利用物聯(lián)網(wǎng)技術(shù)加強(qiáng)信息管理和服務(wù),即時采集數(shù)據(jù)、編排生產(chǎn)計劃,把流程和業(yè)務(wù)轉(zhuǎn)變?yōu)樾畔⒒P停瑢?shí)現(xiàn)從生產(chǎn)到銷售的全鏈數(shù)字化,獲取更多的數(shù)據(jù)以發(fā)掘更多潛在的規(guī)律,以提高生產(chǎn)效益,并更好地進(jìn)行風(fēng)險預(yù)警[14]。在高??萍脊芾矸矫娉晒Φ臄?shù)字化轉(zhuǎn)型例子還沒有發(fā)現(xiàn),但是已有高校準(zhǔn)備開展數(shù)字化轉(zhuǎn)型工作。高??萍脊芾淼臄?shù)字化轉(zhuǎn)型是一項(xiàng)復(fù)雜的任務(wù),其難題在于高??萍脊芾淼奶厥庑?,其中就包括高校科技活動數(shù)據(jù)的復(fù)雜性。數(shù)字化技術(shù)的發(fā)展能夠簡化高??萍荚u價中繁瑣的工作流程,運(yùn)用更多的數(shù)據(jù)挖掘技術(shù)挖掘出更多知識,為高??萍荚u價的研究帶來了新的機(jī)遇。
互聯(lián)網(wǎng)時代,政府采取信息化管理是必然趨勢,在科技管理方面也需要進(jìn)行數(shù)字化轉(zhuǎn)型。高校科技管理的數(shù)字化轉(zhuǎn)型就是利用數(shù)字化技術(shù)代替人工統(tǒng)計科技數(shù)據(jù),從工作流程到管理模式都進(jìn)行數(shù)字化管理,利用互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)提高管理效率。高校的主要職能是科學(xué)研究和科技服務(wù),科技產(chǎn)出的時間較長、數(shù)據(jù)量不大,所以高??萍脊芾磉M(jìn)行數(shù)字化轉(zhuǎn)型的方式與企業(yè)有較大的差異。隨著互聯(lián)網(wǎng)、人工智能等技術(shù)的不斷發(fā)展,雖然高校并不像企業(yè)那樣實(shí)現(xiàn)全產(chǎn)業(yè)鏈數(shù)字化,但數(shù)字化轉(zhuǎn)型也為高校的科技評價工作帶來了新的機(jī)遇,如利用數(shù)字化手段可以更好地進(jìn)行數(shù)據(jù)采集,保證數(shù)據(jù)的有效性,也可以為高??萍荚u價提供新的思路及方法。
隨著高校信息化的發(fā)展,許多高校建立并運(yùn)行著不同的數(shù)據(jù)庫系統(tǒng),而科技管理系統(tǒng)的數(shù)據(jù)來源較多,需要對數(shù)據(jù)進(jìn)行整合并通過手工錄入和統(tǒng)計,但采用這種方式較容易出錯,所以需要通過大數(shù)據(jù)技術(shù)對數(shù)據(jù)收集形式進(jìn)行規(guī)范化,以此獲得科技管理所需的數(shù)據(jù),有效地進(jìn)行科技管理。本研究提出一個高??萍脊芾硐到y(tǒng)數(shù)據(jù)采集模型(以下簡稱“數(shù)據(jù)采集模型”,見圖2),主要步驟如下:
圖2 高??萍脊芾硐到y(tǒng)的數(shù)據(jù)采集模型
(1)基于數(shù)據(jù)源的多樣化,利用數(shù)據(jù)倉庫技術(shù)ETL(extract-transform-load)進(jìn)行數(shù)據(jù)的采集、轉(zhuǎn)換和加載,并存儲到數(shù)字倉庫;
(2)結(jié)合數(shù)據(jù)挖掘等工具進(jìn)行數(shù)據(jù)分析,獲取所需的報表及更多有利于決策的信息;
(3)高校科技管理系統(tǒng)獲得數(shù)據(jù)倉庫數(shù)據(jù),通過數(shù)據(jù)挖掘分析得到的結(jié)果,最終可以通過高校科技管理系統(tǒng)進(jìn)行科技管理決策,有效地提高管理效率。
目前我國高??萍蓟顒訑?shù)據(jù)的統(tǒng)計工作,主要是?。▍^(qū)、市)政府部門收集本地高校有關(guān)數(shù)據(jù)再進(jìn)行匯總,而高校自身也要收集內(nèi)部各個部門及單位的數(shù)據(jù)進(jìn)行匯總,在各個環(huán)節(jié)中都可能出現(xiàn)數(shù)據(jù)輸入錯誤或者數(shù)據(jù)存在人工干擾等問題,所以有必要利用信息化技術(shù)進(jìn)行數(shù)據(jù)采集形式的規(guī)范化,實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,提高管理決策效率。而數(shù)據(jù)采集模型,不管是以單一所高校為對象還是以所有高校為對象,都能適用。對單一所高校進(jìn)行數(shù)據(jù)采集,則圖2 中數(shù)據(jù)源為該所高校的相關(guān)管理系統(tǒng),所采集數(shù)據(jù)經(jīng)處理后存入到該校的科技管理系統(tǒng);在此基礎(chǔ)上,可以通過數(shù)據(jù)采集模型獲得不同高校的數(shù)據(jù),然后利用數(shù)據(jù)挖掘技術(shù)等手段從相關(guān)數(shù)據(jù)中獲得有效的信息。利用數(shù)據(jù)采集模型進(jìn)行數(shù)據(jù)的采集,可以避免人工干擾,提高了數(shù)據(jù)采集的效率和準(zhǔn)確率。
隨著計算機(jī)技術(shù)的不斷發(fā)展,高??萍荚u價的方法也在不斷創(chuàng)新。高??萍紨?shù)據(jù)主要有兩個特性:第一,多投入多產(chǎn)出的關(guān)系,因?yàn)楦咝5耐度刖S度較多,如人員、經(jīng)費(fèi)等,產(chǎn)出也分為專利和論文等維度,所以不能直接看出高??萍纪度肱c產(chǎn)出的關(guān)系;第二,數(shù)據(jù)的時滯性,高??萍紨?shù)據(jù)一般是1年統(tǒng)計1 次的年度數(shù)據(jù),而論文和專利等科研成果大都需要2 年~3 年時間才會發(fā)表和授權(quán),所以還要考慮科技產(chǎn)出可能有時滯性,不能僅用1 年的數(shù)據(jù)說明高校的科技創(chuàng)新能力。
目前,DEA 模型和數(shù)據(jù)挖掘算法這兩個工具在高??萍荚u價中已廣泛使用,但是在使用過程中發(fā)現(xiàn)這些評價方法仍然不夠全面:DEA 模型一般只對1 年的數(shù)據(jù)進(jìn)行計算以獲得高??萍紕?chuàng)新能力,沒有考慮數(shù)據(jù)的時滯性,同時也不能預(yù)測高校未來的科技投入產(chǎn)出效率;而數(shù)據(jù)挖掘算法一般采取監(jiān)督學(xué)習(xí)算法,但是因?yàn)楦咝?萍紨?shù)據(jù)的多投入多產(chǎn)出這一特性,其產(chǎn)出不能作為目標(biāo)值,所以一般也只能采取無監(jiān)督學(xué)習(xí)算法,或者參考其他評價結(jié)果進(jìn)行模型的訓(xùn)練,受到標(biāo)簽值選擇的影響。本研究的基本思路是對現(xiàn)有的評價方法進(jìn)行優(yōu)勢互補(bǔ),針對DEA 模型和數(shù)據(jù)挖掘算法特點(diǎn)進(jìn)行集成,得到模型1 和模型2(見圖3)。
圖3 高??萍荚u價的DEA 與數(shù)據(jù)挖掘集成算法模型
其中,模型1 主要是利用DEA 模型計算效率值,然后用該效率值作為監(jiān)督學(xué)習(xí)的目標(biāo)值,利用數(shù)據(jù)挖掘算法構(gòu)建評價模型,一般是分類和回歸預(yù)測。如Yang 等[15]從專業(yè)申請破產(chǎn)的公司SIC (Standard Industrial Classification)所收集到的數(shù)據(jù)中選擇近3年的非制造企業(yè)進(jìn)行分析,利用DEA 模型對其產(chǎn)出(流動資產(chǎn)、正留存收益、正營業(yè)收入、正賬面權(quán)益價值、股東人數(shù))和投入(流動負(fù)債、負(fù)留存收益、負(fù)營業(yè)收入、負(fù)賬面權(quán)益價值、公司員工人數(shù))的歷史數(shù)據(jù)進(jìn)行計算,然后使用DEA 分?jǐn)?shù)作為SVM的唯一輸入對企業(yè)預(yù)測其失敗的可能性,具有較好效果。模型2 是利用數(shù)據(jù)挖掘技術(shù)進(jìn)行連續(xù)值的預(yù)測,通過歷史數(shù)據(jù)獲得每一個變量的未來預(yù)測值,然后把所有變量的未來預(yù)測值輸入到DEA 模型計算其未來效率值。如Wang 等[16]以15 家健身用品制造商為研究對象,利用灰色預(yù)測模型預(yù)測資產(chǎn)、凈值、聲譽(yù)、稅后收入、凈收入5 個指標(biāo)的變量值,然后利用Pearson 檢驗(yàn)調(diào)整輸入輸出變量,最后利用DEA 模型進(jìn)行效率評估,獲得未來效率并進(jìn)行評價。目前,這兩個模型較少在高??萍荚u價中應(yīng)用,但是Zhang 等[17]運(yùn)用集成模型預(yù)測了我國科技創(chuàng)新活動的未來效率,其主要思路是根據(jù)1979—2017 年我國科技創(chuàng)新活動的2 個投入、2 個產(chǎn)出指標(biāo)數(shù)據(jù)建立了基于模糊信息粒度的IG-SVM 模型,預(yù)測了這4個變量下一年的平均值和最大值,最后通過DEA 模型計算得出我國科技創(chuàng)新活動的效率值。由此可以看出,DEA 與數(shù)據(jù)挖掘的集成算法能夠應(yīng)用到科技評價中,但是因?yàn)楦咝?萍紨?shù)據(jù)具有多維度,所以需要篩選最適合的數(shù)據(jù)挖掘算法與DEA 模型結(jié)合并同時滿足高??萍紨?shù)據(jù)的兩個特性,為高校科技評價提供新的評價思路和方法。
總的來說,高??萍脊芾淼臄?shù)字化轉(zhuǎn)型是必然趨勢,高校要利用好數(shù)字化技術(shù),實(shí)現(xiàn)數(shù)據(jù)采集的智能化,并提高評價方法的準(zhǔn)確性,提高科技管理效率。雖然數(shù)字化轉(zhuǎn)型給高??萍荚u價的發(fā)展帶來了新的機(jī)遇,但是科技數(shù)據(jù)的復(fù)雜性和高??萍脊芾淼奶厥庑砸步o高??萍荚u價的數(shù)字化轉(zhuǎn)型帶來了一定的挑戰(zhàn)。
數(shù)字化轉(zhuǎn)型為高??萍荚u價帶來了新的機(jī)遇,通過數(shù)字化手段能夠減少人工對數(shù)據(jù)的干擾,并且能夠提供更多的評價方法,但是高??萍蓟顒訑?shù)據(jù)結(jié)構(gòu)和來源的不同給數(shù)據(jù)的采集和應(yīng)用帶來了挑戰(zhàn)。
(1)數(shù)據(jù)結(jié)構(gòu)的多樣性。高??萍蓟顒訑?shù)據(jù)的統(tǒng)計一般是對結(jié)構(gòu)化數(shù)據(jù)匯總成表格形式,然后進(jìn)行高校科技評價。在人工統(tǒng)計數(shù)據(jù)時期,是有目的性地去獲取所需數(shù)據(jù),所以數(shù)據(jù)存儲量較少;但是在數(shù)字化轉(zhuǎn)型時期,使用互聯(lián)網(wǎng)等技術(shù)代替人工統(tǒng)計進(jìn)行數(shù)據(jù)收集時,會有較多的數(shù)據(jù)被收集并存儲,其中就包含著非結(jié)構(gòu)化數(shù)據(jù),如對一個數(shù)字進(jìn)行說明的文字和圖片等,這些數(shù)據(jù)都必須被收集以說明數(shù)據(jù)的有效性,此外還有部分?jǐn)?shù)據(jù)需要在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行提取,這是實(shí)現(xiàn)高??萍荚u價數(shù)字化轉(zhuǎn)型最主要的挑戰(zhàn)之一。
(2)數(shù)據(jù)源的多樣性。高??萍蓟顒訑?shù)據(jù)最大的一個特點(diǎn)是數(shù)據(jù)來自不同的部門或者不同的管理系統(tǒng),在數(shù)據(jù)采集過程中需要對高校內(nèi)部多個系統(tǒng)的數(shù)據(jù)整合到一個輸入數(shù)據(jù)中,而論文和獲獎等科技產(chǎn)出的數(shù)據(jù)需要借助外部系統(tǒng)端口進(jìn)行獲取,所以數(shù)據(jù)源的多樣性也給高??萍蓟顒訑?shù)據(jù)采集帶來挑戰(zhàn)。
高??萍蓟顒訑?shù)據(jù)是多維度的,比如投入的維度有研發(fā)經(jīng)費(fèi)數(shù)、研究人員數(shù)、科技推廣人員數(shù)等,產(chǎn)出維度有論文數(shù)、專利數(shù)、成果轉(zhuǎn)化收入等,其中的數(shù)據(jù)都可能具有相關(guān)性,如研究人員數(shù)與論文數(shù)呈正相關(guān),但是不能直接體現(xiàn)為研究人員數(shù)量增多則論文數(shù)量就增多,因?yàn)檫€有科研項(xiàng)目數(shù)等因素也可能對論文的數(shù)量產(chǎn)生影響,所以不能把相關(guān)性認(rèn)為是因果性。高??萍紨?shù)據(jù)多投入多產(chǎn)出的特點(diǎn)造成對其因果性難以進(jìn)行分析,這給數(shù)據(jù)處理和分析帶來了很大的挑戰(zhàn)。
高??萍荚u價中,工具的選擇具有較大的決定性作用。數(shù)據(jù)挖掘的過程其實(shí)就是從一堆雜亂無章的數(shù)據(jù)中挖掘出有價值的信息,首先要定出一個目標(biāo)值,然后各種算法就會不斷地優(yōu)化模型,讓結(jié)果越來越接近真實(shí)的情況。同一個模型在不同的應(yīng)用場景下性能也大不相同,而模型的性能也與數(shù)據(jù)的形式和性質(zhì)有關(guān),高校科技評價所使用的模型一般是DEA 模型和數(shù)據(jù)挖掘算法,如何更好地結(jié)合兩種算法的優(yōu)勢是未來的研究方向,同時傳統(tǒng)的方法進(jìn)行一定的改進(jìn)后,有可能比新的方法更適合用于高??萍荚u價。鑒于高校科技活動數(shù)據(jù)的特性,需要不斷地進(jìn)行試驗(yàn)以找到適合的模型用于評價,所以尋找更優(yōu)的算法一直是研究者探索破解的難題。
利用數(shù)據(jù)倉庫對高??萍蓟顒訑?shù)據(jù)進(jìn)行存儲和分析,有利于政府部門匯總高校的科技成果,但是也存在一定的安全隱患。雖然目前高??萍汲晒嚓P(guān)數(shù)據(jù)是對外公開的,但是在利用數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)采集的時候,部分需要保密的信息也會被采集并存儲,這部分不能公開的信息有可能被泄露,并且很多分析涉及到研究人員個人信息問題,所以,對于高??萍蓟顒訑?shù)據(jù)這種半公開的數(shù)據(jù),在高??萍荚u價數(shù)字化轉(zhuǎn)型過程中存在一定的安全隱患,如何保證數(shù)據(jù)的安全性是一大挑戰(zhàn)。
綜上,高??萍荚u價面臨的挑戰(zhàn)并不是獨(dú)立的,而是相輔相成、互相影響的,高??萍紨?shù)據(jù)的多樣性和安全性決定了數(shù)據(jù)的復(fù)雜相關(guān)性,因此尋找適合的模型十分重要。
本研究對高??萍荚u價所使用的數(shù)據(jù)和研究方法進(jìn)行了分析和總結(jié),得出目前高校科技評價所使用的方法主要是DEA 模型,且數(shù)據(jù)挖掘算法也逐漸應(yīng)用于高??萍荚u價模型的構(gòu)建;同時,對數(shù)字化轉(zhuǎn)型的內(nèi)涵進(jìn)行解讀,了解數(shù)字化轉(zhuǎn)型的定義和實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型的方式,然后基于數(shù)字化轉(zhuǎn)型在其他領(lǐng)域的應(yīng)用,提出高??萍紨?shù)據(jù)采集模型和高??萍荚u價概念模型;最后,對高校科技評價數(shù)字化轉(zhuǎn)型所面臨的挑戰(zhàn)進(jìn)行分析,得出目前的挑戰(zhàn)主要是數(shù)據(jù)的多樣性和安全性以及模型選擇的重要性。
研究表明,高??萍荚u價的數(shù)字化轉(zhuǎn)型是可行的,高校需要抓住現(xiàn)有的技術(shù)和條件,把握住機(jī)遇,為科技評價提供新的思路和新的方法。雖然高校科技評價數(shù)字化轉(zhuǎn)型存在著一定的挑戰(zhàn),但是隨著科技的不斷發(fā)展,可以不斷排除困難,尋找到更多適用的方法用于高??萍荚u價,以達(dá)到評價全面性和準(zhǔn)確性的目標(biāo)。