竇芳
摘 要: 傳統(tǒng)的科研成果管理多利用數(shù)據(jù)庫將成果數(shù)據(jù)存儲(chǔ)起來,由于科研成果的數(shù)據(jù)類型多,存儲(chǔ)方式不統(tǒng)一,在決策分析時(shí)會(huì)成為獲得有效成果數(shù)據(jù)的障礙,同時(shí)傳統(tǒng)的科研成果系統(tǒng)只能單一提取成果信息。針對(duì)上述問題,研究提出了基于數(shù)據(jù)倉庫的科研成果管理決策支持系統(tǒng),結(jié)合數(shù)據(jù)倉庫,聯(lián)機(jī)分析處理以及關(guān)聯(lián)規(guī)則挖掘算法,該系統(tǒng)支持管理人員發(fā)現(xiàn)成果的潛在趨勢(shì)、評(píng)估科研項(xiàng)目工作組的能力、合理分配人力資源等,通過對(duì)學(xué)校論文庫中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,發(fā)現(xiàn)了論文數(shù)量與時(shí)間維度之間的關(guān)系,且與實(shí)際培養(yǎng)情況符合,驗(yàn)證了Apriori在系統(tǒng)中的有效性。
關(guān)鍵詞: 科研成果管理; 決策支持; 數(shù)據(jù)倉庫; 聯(lián)機(jī)分析處理; 數(shù)據(jù)挖掘
中圖分類號(hào): TN911?34; TM417 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)07?0120?04
Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.
Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining
0 引 言
傳統(tǒng)的科研項(xiàng)目管理過程費(fèi)時(shí)費(fèi)力,且浪費(fèi)了大量的人力資源??蒲羞^程中產(chǎn)生的有價(jià)值的信息,也被這樣死板的管理方法給淹沒了,人們不能也不愿意從紙質(zhì)的資料文獻(xiàn)中去發(fā)現(xiàn)價(jià)值??蒲泄芾矸绞叫实蜁?huì)嚴(yán)重影響到科研項(xiàng)目開發(fā)的進(jìn)度。隨著科學(xué)技術(shù)的快速發(fā)展,科研單位雖然對(duì)傳統(tǒng)方法進(jìn)行了改進(jìn),開始建立管理系統(tǒng),但是還遠(yuǎn)遠(yuǎn)不能滿足要求[1]。
近年來,國內(nèi)研究機(jī)構(gòu)也開始重視科研項(xiàng)目管理方面的研究,目的多是為了提高項(xiàng)目管理的水平,對(duì)優(yōu)秀的科研成果進(jìn)行公示,共同分享研究信息[2]。科研成果管理決策支持系統(tǒng)的目的是為了解決傳統(tǒng)科研管理系統(tǒng)對(duì)成果資源的浪費(fèi)情況,加強(qiáng)對(duì)科研成果信息中潛在知識(shí)的利用,提高科研項(xiàng)目管理中對(duì)成果管理的有效性,利用數(shù)據(jù)挖掘充分發(fā)揮成果數(shù)據(jù)的潛力,為管理層提供決策支持依據(jù)[3]。
1 SRAM?DSS的需求分析
1.1 功能需求
科研成果管理決策支持系統(tǒng)主要面向科研項(xiàng)目的成果進(jìn)行管理,這些成果包括學(xué)術(shù)論文、著作、期刊、專利等。數(shù)據(jù)倉庫的應(yīng)用可以對(duì)成果數(shù)據(jù)采取智能的分析,將成果數(shù)據(jù)進(jìn)行歸類和按照成果數(shù)據(jù)的分析要求進(jìn)行整理,從中發(fā)現(xiàn)成果與項(xiàng)目、人員之間的聯(lián)系和潛在的規(guī)律,幫助決策者調(diào)整科研定位,做出科學(xué)的決策。
基本管理功能要求用戶可以利用本系統(tǒng)完成對(duì)成果的基本管理,包括成果提交、 審核、審批等流程的規(guī)范管理,還有對(duì)保密項(xiàng)目成果的加密處理,不僅要系統(tǒng)能夠保存使用過程中存入的成果,還可以導(dǎo)入外部數(shù)據(jù)庫的成果數(shù)據(jù),為數(shù)據(jù)挖掘功能提供數(shù)據(jù)基礎(chǔ),對(duì)數(shù)據(jù)的集成程度要求很高,因此需要利用數(shù)據(jù)倉庫存放成果數(shù)據(jù)[4]。
1.2 用戶需求
系統(tǒng)的主要角色包括科研員,科研管理員,決策員,數(shù)據(jù)管理員,系統(tǒng)管理員。
2 總體設(shè)計(jì)
2.1 科研成果數(shù)據(jù)倉庫的設(shè)計(jì)
對(duì)于科研成果數(shù)據(jù)倉庫從概念模型、邏輯模型、物理模型三方面進(jìn)行建模。需要根據(jù)不同的主題把數(shù)據(jù)倉庫中的數(shù)據(jù)劃分好具體的維度[5]。以成果主題為例,成果數(shù)據(jù)包括成果名稱,成果類型,成果來源,成果性質(zhì),成果作者,成果審核結(jié)果,所屬項(xiàng)目,成果完成時(shí)間,成果數(shù)量等,以此作為分析的依據(jù)。因?yàn)閿?shù)據(jù)倉庫是多維的,OLAP要在多維數(shù)據(jù)集之上才能進(jìn)行,成果數(shù)據(jù)要滿足分析的要求可以根據(jù)維層次繼續(xù)劃分,成果類型包括論文,專利,專著,軟件成果等;成果性質(zhì)包括科技,醫(yī)藥,航天等[6]。
(1) 邏輯模型
系統(tǒng)主要用戶利用成果信息進(jìn)行分析,以此來評(píng)估科研項(xiàng)目,并為決策者提供決策支持。分析成果事實(shí)表中的數(shù)據(jù)信息有用戶維、成果維、時(shí)間維。在OLAP分析時(shí)可以按照不同的層次進(jìn)行分析,如圖2所示。
(2) 物理模型
在設(shè)計(jì)數(shù)據(jù)倉庫的物理模型時(shí),定義成果數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)是需要注意的重點(diǎn),目的是使成果數(shù)據(jù)在數(shù)據(jù)倉庫中都有一個(gè)統(tǒng)一的格式,定義表示成果的相關(guān)屬性來描述成果邏輯關(guān)系,得到對(duì)成果數(shù)據(jù)倉庫的特征進(jìn)行完整描述。系統(tǒng)采用SQLServer2008建立數(shù)據(jù)庫[7]。利用AnalysisServices獲得后臺(tái)數(shù)據(jù)庫里面的信息,這樣建立的數(shù)據(jù)倉庫可以滿足需求。
2.2 SRAM?DSS功能的設(shè)計(jì)
為實(shí)現(xiàn)科研成果管理科學(xué),全方位管理,設(shè)計(jì)成果管理,決策支持,用戶管理,系統(tǒng)管理四個(gè)模塊的內(nèi)容,并且用戶在登陸系統(tǒng)之前要進(jìn)行身份驗(yàn)證。
(1) 成果管理模塊
成果管理主要包括成果查詢,添加成果,申報(bào)成果,成果審核,成果加密以及成果導(dǎo)出等功能,系統(tǒng)采用分組加密方式進(jìn)行加密。
(2) 決策支持模塊
數(shù)據(jù)倉庫是決策支持功能的數(shù)據(jù)基礎(chǔ),有了數(shù)據(jù)就需要更多的操作來完成決策支持。對(duì)于系統(tǒng)中不同的數(shù)據(jù)來源,包括外部導(dǎo)入數(shù)據(jù)利用ETL過程,實(shí)現(xiàn)規(guī)范化。然后將符合標(biāo)準(zhǔn)的數(shù)據(jù)裝入數(shù)據(jù)倉庫中。然后針對(duì)用戶的要求進(jìn)行聯(lián)機(jī)分析處理和關(guān)聯(lián)規(guī)則挖掘。
(3) 用戶管理模塊
用戶在Web地址欄輸入U(xiǎn)RL進(jìn)入登錄,用戶名文本框內(nèi)輸入用戶姓名,在密碼框內(nèi)輸入密碼。系統(tǒng)認(rèn)證平臺(tái)會(huì)判斷用戶身份,若是新用戶要完成注冊(cè)才能登陸,注冊(cè)時(shí)要填寫用戶真實(shí)的信息,才能獲得登陸權(quán)利,若用戶輸入的用戶信息正確,登錄成功。用戶可以在用戶管理中進(jìn)行創(chuàng)建,添加到用戶數(shù)據(jù)表中,也能獲得系統(tǒng)的使用權(quán)限[8]。
(4) 系統(tǒng)管理模塊
系統(tǒng)管理模塊主要是針對(duì)系統(tǒng)的權(quán)限分配,系統(tǒng)維護(hù)以及一些常用工具的設(shè)計(jì)。不同的用戶進(jìn)行的操作不同,能夠看到的信息不同,就要求系統(tǒng)控制權(quán)限,建立權(quán)限分配制度,有利于對(duì)用戶權(quán)限進(jìn)行合理的分配也保證了系統(tǒng)的安全運(yùn)行。系統(tǒng)維護(hù)是管理系統(tǒng)中必不可少的關(guān)鍵功能,包括對(duì)系統(tǒng)用戶數(shù)據(jù),成果信息數(shù)據(jù)等的備份工作,實(shí)現(xiàn)數(shù)據(jù)庫的安全管理,管理相應(yīng)功能結(jié)構(gòu)規(guī)范性,為系統(tǒng)的更新與升級(jí)提供支持。
3 系統(tǒng)實(shí)現(xiàn)
3.1 基于數(shù)據(jù)倉庫的OLAP模型
聯(lián)機(jī)分析處理技術(shù)能夠高效的分析數(shù)據(jù),發(fā)現(xiàn)事物發(fā)展規(guī)律,捕獲異常和細(xì)節(jié)。OLAP支持?jǐn)?shù)據(jù)分析,而數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過ETL處理后集成到一起,保證了分析在一個(gè)快速的時(shí)間內(nèi)給予響應(yīng)。所以本階段就是基于數(shù)據(jù)倉庫建立OLAP模型,從而得到更為可靠的數(shù)據(jù)立方體,既降低了刷新代價(jià)又提高了響應(yīng)速度。
OLAP包括了維和度量,在前面建立數(shù)據(jù)倉庫時(shí)已經(jīng)完成。利用SQL Server中的Analysis Services項(xiàng)目模板建立多維數(shù)據(jù)集,定義數(shù)據(jù)源以及建立事實(shí)表與維表之間的關(guān)系。
OLAP模型對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)利用MDX進(jìn)行多維查找,可以有效分析多維數(shù)據(jù)集。MDX是OLAP的查詢語句,語法與結(jié)構(gòu)化查詢語言SQL很類似。在成果管理系統(tǒng)中,通過MDX語言把科研員和決策者需要的成果數(shù)據(jù)查詢出來,展現(xiàn)在前臺(tái)界面里。
利用OLAP模型進(jìn)行分析,決策者可以依據(jù)分析要求,選擇更多角度去分析數(shù)據(jù),能得到的分析也更多,如下:
(1) 由科研成果的類型分布來看整體項(xiàng)目的側(cè)重重點(diǎn),以及在成果突出領(lǐng)域的發(fā)展機(jī)會(huì)和潛力;
(2) 由科研成果參與者和第一申請(qǐng)單位作者與項(xiàng)目之間的關(guān)系,可以看到參與者職稱水平,技術(shù)支持水平對(duì)成果完成數(shù)量與質(zhì)量的關(guān)系,并不是參與者越多的成果越完善,可以以此作為合理分配人才資源參與項(xiàng)目開發(fā)的依據(jù),也可以以此評(píng)估參與人員的水平,作為考核參考;
(3) 以科研成果在一定時(shí)間內(nèi)的增長,作為項(xiàng)目進(jìn)度和發(fā)展的一個(gè)參考標(biāo)準(zhǔn)。也可以看到成果的趨勢(shì)和項(xiàng)目完成單位的能力和業(yè)務(wù)的提升;
(4) 可以利用數(shù)據(jù)庫,對(duì)以往成果信息進(jìn)行分析,由于在傳統(tǒng)的數(shù)據(jù)庫中不具備OLAP的功能。
3.2 基于數(shù)據(jù)倉庫的關(guān)聯(lián)規(guī)則挖掘
基于數(shù)據(jù)倉庫的關(guān)聯(lián)規(guī)則挖掘,Apriori算法的核心是提高關(guān)聯(lián)規(guī)則產(chǎn)生的效率。利用Apriori算法對(duì)科研成果數(shù)據(jù)進(jìn)行分析的時(shí)候要明確成果的特征,根據(jù)成果特征描述來看,適合利用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的挖掘??蒲谐晒麛?shù)據(jù)的特征如下:成果數(shù)據(jù)是按照項(xiàng)目進(jìn)程時(shí)間節(jié)點(diǎn)進(jìn)行錄入的,存儲(chǔ)在成果庫中;成果評(píng)估方式不統(tǒng)一,對(duì)成果的評(píng)估應(yīng)采取統(tǒng)一的標(biāo)準(zhǔn);科研成果的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中,每一個(gè)成果都對(duì)應(yīng)一條記錄,每一個(gè)記錄的屬性都一樣。
以本校論文庫的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),在論文管理系統(tǒng)中可導(dǎo)出相關(guān)TXT文檔數(shù)據(jù),利用系統(tǒng)成果導(dǎo)入功能,添加到系統(tǒng)中,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的處理。選取2012—2015年間,數(shù)學(xué)、物理、計(jì)算機(jī)、兵器學(xué)科的論文成果數(shù)據(jù)。論文所屬學(xué)科層次劃分到一級(jí)子學(xué)科,時(shí)間層次按照年→學(xué)年,繼續(xù)劃分下去。
(1) 數(shù)據(jù)預(yù)處理
數(shù)據(jù)經(jīng)過清洗,轉(zhuǎn)換,去掉無效的數(shù)據(jù),采用統(tǒng)一的數(shù)據(jù)編碼規(guī)則,用離散字母代替時(shí)間層次,同時(shí)將學(xué)科按照統(tǒng)一的編碼規(guī)則,重新編碼。進(jìn)一步按照論文數(shù)量劃分等級(jí),五份為一級(jí),等級(jí)越高代表論文數(shù)量越多。
(2) 算法實(shí)現(xiàn)
設(shè)置最小支持度 min_sup=4,支持度=40%,置信度=80%,通過Apriori算法計(jì)算出的關(guān)聯(lián)規(guī)則信任度見表2。
(3) 結(jié)果分析
采用的實(shí)驗(yàn)數(shù)據(jù)來自于論文數(shù)據(jù)庫,由于學(xué)校畢業(yè)論文按照培養(yǎng)計(jì)劃有周期性,學(xué)術(shù)性碩士的培養(yǎng)周期為2.5學(xué)年,所以碩士畢業(yè)多集中于第一學(xué)年3月份左右,工程碩士的培養(yǎng)周期為第二學(xué)年9月份,所以對(duì)數(shù)據(jù)的分析結(jié)果多集中于上半年。
規(guī)則1表示,在2012年第一學(xué)年發(fā)表論文在5篇以內(nèi)且2013年第一學(xué)年畢業(yè)論文在5篇以內(nèi)的學(xué)科專業(yè),則在2013年第二學(xué)年發(fā)表論文在5篇左右的支持度為40%,信任度為80%。
規(guī)則2表示,在2013年第一學(xué)年發(fā)表論文在5篇以內(nèi)且2013年第二學(xué)年畢業(yè)論文在5篇以內(nèi)的學(xué)科專業(yè),則在2012年第一學(xué)年發(fā)表論文在5篇左右的支持度為40%,信任度為80%。
規(guī)則3表示,在2012年第一學(xué)年發(fā)表論文在5篇以內(nèi)且2013年第一學(xué)年畢業(yè)論文在5篇以內(nèi)的學(xué)科專業(yè),則在2014年第二學(xué)年發(fā)表論文在5篇左右的支持度為40%,信任度為80%。
3.3 關(guān)聯(lián)規(guī)則說明
由于系統(tǒng)中的測(cè)試數(shù)據(jù)多來自網(wǎng)絡(luò)和本校的數(shù)據(jù)庫,對(duì)關(guān)聯(lián)規(guī)則的挖掘也許存在偏差,但是整體提供的關(guān)聯(lián)規(guī)則數(shù)據(jù)信息還是符合實(shí)際的。簡要介紹以下幾點(diǎn):
(1) 選取成果完成人的職稱級(jí)別和所提交的成果類型與數(shù)量作為關(guān)聯(lián)規(guī)則挖掘的維度,發(fā)現(xiàn)成果完成人職稱較低的發(fā)表論文數(shù)量較多,存在關(guān)聯(lián)規(guī)則;
(2) 選取固定時(shí)間內(nèi)論文數(shù)量和專利數(shù)量進(jìn)行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)時(shí)間維度與論文數(shù)量多,關(guān)聯(lián)較高;
(3) 對(duì)不同高校的成果數(shù)量進(jìn)行關(guān)聯(lián)分析,985與211高校的科研論文,期刊發(fā)表數(shù)量多具有關(guān)聯(lián)規(guī)則。
4 界面展示
用戶登陸界面:輸入正確的用戶名和密碼登陸系統(tǒng),用戶可以選擇“記住我”,在下次進(jìn)入系統(tǒng)時(shí)可以免登陸,若是新用戶第一次登陸系統(tǒng),需要注冊(cè),完成注冊(cè)后即獲得登陸權(quán)限。
登陸后看到的首頁,左側(cè)導(dǎo)航欄顯示了主要的功能,成果展示系統(tǒng)中的成果數(shù)量以及系統(tǒng)中的成果列表。
5 結(jié) 論
本文在調(diào)研了解科研成果管理的決策分析需求的基礎(chǔ)上,認(rèn)真研究了數(shù)據(jù)倉庫的有關(guān)技術(shù)知識(shí),聯(lián)機(jī)分析處理技術(shù)的應(yīng)用以及數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法的原理。提出了基于數(shù)據(jù)倉庫的科研成果管理決策支持系統(tǒng)。
開發(fā)系統(tǒng)應(yīng)用的主要技術(shù)包括OLAP和Apriori算法,將OLAP和Apriori算法結(jié)合運(yùn)用于實(shí)際的系統(tǒng)開發(fā)中,關(guān)聯(lián)規(guī)則計(jì)算在OLAP物化了的多維數(shù)據(jù)集基礎(chǔ)上進(jìn)行,減少了重新計(jì)算的時(shí)間,使決策分析更加智能化,使數(shù)據(jù)挖掘的步驟更具目標(biāo)化,全面提升輔助決策在科研成果管理中的實(shí)用價(jià)值。
參考文獻(xiàn)
[1] 賀建英.大數(shù)據(jù)下MongoDB數(shù)據(jù)庫檔案文檔存儲(chǔ)去重研究[J].現(xiàn)代電子技術(shù),2015,38(16):51?55.
[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.
[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.
[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.
[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.
[6] 趙維寧.運(yùn)用數(shù)據(jù)倉庫技術(shù)構(gòu)建電信企業(yè)經(jīng)營分析系統(tǒng)[J].中文信息,2014(8):22?26.
[7] 辛金國,柯芳,李紹君,等.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用探索[J].財(cái)經(jīng)界(學(xué)術(shù)版),2014(5):24?27.
[8] 王輝鵬,董春游.決策支持系統(tǒng)發(fā)展研究[J].應(yīng)用能源技術(shù),2009(6):48?50.