夏燕,徐娜,舒健,馮暉
?
加權樸素貝葉斯模型在高校學科評價中的應用
夏燕,徐娜,舒健,馮暉
摘 要:學科評價是高等教育評估的重要內容,是加強高校學科建設的重要手段。如何采用科學的方法開展學科評價,客觀地對學科進行分類,遴選優(yōu)勢學科和潛力學科在學科建設中至關重要。提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,依據(jù)不同權重的學科評價屬性和互信息量計算綜合權重,構造高校學科分類器,實現(xiàn)了一個自動化的高校學科分類預測系統(tǒng),并對上海高校學科樣本進行應用分析。實驗結果表明,應用基于加權樸素貝葉斯模型的高校學科分類預測系統(tǒng)對學科進行預測分類,準確率達到86.67%,為高校學科綜合評價提供了基本依據(jù),為新一輪學科發(fā)展戰(zhàn)略的制定奠定了基礎。關鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯;評價指標;學科分類;學科評價
學科是高校的基本組成單位,學科建設是高校各項建設的核心,是提高學校人才培養(yǎng)、科學研究和服務社會能力的基礎。目前中國大部分高校已基本完成學科布局調整,確定學科結構規(guī)模,將進入提高學科建設質量、培育學科特色、形成學科優(yōu)勢、促進學科發(fā)展的階段[1]。在這一階段,積極發(fā)展高校的優(yōu)勢學科和潛力學科極其關鍵。因此,如何采用科學的方法開展學科評價,客觀地遴選優(yōu)勢學科和潛力學科至關重要。目前,高校學科評價的指標體系,由師資隊伍與資源、科學研究水平、人才培養(yǎng)質量、學科聲譽等4大方向組成。借助權威數(shù)據(jù)庫對各方向的客觀數(shù)據(jù)進行分析,通過數(shù)據(jù)挖掘的方式確定優(yōu)勢學科和潛力學科是學科建設過程中常用的方法。目前,常采用的數(shù)據(jù)挖掘方法為文獻計量法,通過與論文相關的各指標對學科進行評價,確定優(yōu)勢和潛力學科。但是,僅從科學研究水平中論文的視角進行評價,難以真正實現(xiàn)科學全面的學科評價[2]。因此,建立一套基于客觀數(shù)據(jù)的學科評價體系,科學地對高校學科進行分類,使教育主管部門和學校便捷地了解學科發(fā)展的現(xiàn)狀,促進我國高等教育的健康快速發(fā)展,已成為高等教育研究的一個熱點課題。
本文提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,依據(jù)不同權重的學科評價屬性和互信息量計算綜合權重,構造高校學科分類器,實現(xiàn)了一個自動化的學科分類預測系統(tǒng)。探索了數(shù)據(jù)挖掘技術在高校學科評價中的應用,為高校學科建設提供了基本依據(jù)。
優(yōu)勢學科和潛力學科是世界一流學科發(fā)展的基礎,它們在學科集群化發(fā)展過程中擔當主體學科,利用學科間的優(yōu)勢互補,帶動相關學科共同發(fā)展。目前可通過學科評價的方式確立優(yōu)勢和潛力學科。高校學科評價的研究工作,可分為以下幾類?;诖髮W專業(yè)排名的學科評價,如英國泰晤士高等教育排名(THE)[3],美國新聞與世界報道排名(USNWR)[4],中國教育部學位與研究生教育發(fā)展中心學科排名(CDR)[5]?;诳茖W映射的學科評價,如荷蘭萊頓大學科學研究中心(CWTS)啟動的“基于映射的文獻計量”項目[6]。基于發(fā)展態(tài)勢研究的學科評價,如法國科學研究中心(CNRS)長期以來對高校學科進行的價值評價[7]?;诳茖W基金管理的學科評價,如英國生物技術與生物科學研究理事會(BBSRC)對其資助的生物類學科開展的評價工作[8]。以上各類學科評價主要采用傳統(tǒng)的專家評價法和文獻計量法相結合的方式,對高校學科進行評價,存在評價流程復雜,評審結果容易受到主觀性影響等缺陷。
為了解決目前學科評價工作中存在的問題,本文提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,構建了一個自動化的高校學科分類預測系統(tǒng),并對上海高校學科樣本進行應用分析,為教育主管部門和高校進行學科綜合評價和制定學科發(fā)展戰(zhàn)略提供基本依據(jù)。
基于加權樸素貝葉斯模型的高校學科分類方法,依據(jù)學科評價屬性的權重和互信息量計算綜合權重,構造高校學科分類器。
2.1 基本定義
其中sik 是評價屬性Ak中具有值xk 的類別屬性Ci 的樣本數(shù),si是樣本數(shù)據(jù)集S中類別屬性為Ci的樣本數(shù)為公式(7):
定義6 考慮到不同評價屬性對分類的影響不一致,對評價屬性按其重要性賦予不同的權值,未知數(shù)據(jù)樣本X的目標類別定義擴展為公式(8):
其中,wi表示評價屬性的權重。權重越大,該評價屬性對分類決策的影響越大。
定義7 評價屬性Ai的權重wi定義為公式(9):
其中,λi可依據(jù)高校學科評價指標體系中不同評價指標的權重進行度量。δi可根據(jù)評價屬性Ai與類別屬性Cj的互信息量計算,
2.2 方法流程
根據(jù)上述相關定義給出基于加權樸素貝葉斯模型的高校學科分類方法,流程描述如方法1所示:
方法1: 基于加權樸素貝葉斯模型的高校學科分類方法DCM-WNBM (Discipline Classification Method based on Weighted Naive Bayes Model)輸入:訓練樣本集Samples,評價屬性集E_Attributes,類別屬性集C_Attributes輸出:加權樸素貝葉斯分類器方法:DCM-WNBM(Samples, E_Attributes, C_Attributes) Begin掃描訓練樣本集Samples,統(tǒng)計類別屬性集C_Attributes中各屬性的概率概率學習:根據(jù)式(5-1)和(5-2),對評價屬性集E_Attributes中各屬性計算所有劃分的先驗概率權重值學習:根據(jù)式(7),對評價屬性集E_Attributes中各屬性計算權值生成加權樸素貝葉斯模型的概率統(tǒng)計表和權重值統(tǒng)計表。調用概率統(tǒng)計表及權重值統(tǒng)計表中數(shù)據(jù),根據(jù)式(6),生成基于加權樸素貝葉斯模型的高校學科分類器。End
3.1 高校學科評價指標體系
本文以教育部學位與研究生發(fā)展中心頒布的2012年學科評估指標體系[10]為依據(jù),選取相應指標作為評價屬性。學科評價指標體系如表1所示:
表1 教育部學位與研究生發(fā)展中心頒布的2012年學科評估指標體系
3.2 高校學科評價指標數(shù)據(jù)選取
為確保數(shù)據(jù)的真實性、可靠性和權威性,與指標體系相關的原數(shù)據(jù),可直接或間接從教育主管部門信息數(shù)據(jù)庫、高校行政部門信息數(shù)據(jù)庫、第三方電子文獻數(shù)據(jù)庫中獲取,主要包含可度量的三級指標。將數(shù)據(jù)集成到數(shù)據(jù)庫的高校學科基本信息表中,表結構如表2所示:
表2 高校學科基本信息表結構
共定義了76個評價屬性。另需設置概率統(tǒng)計表和權重值統(tǒng)計表,存儲評價屬性的概率大小和權重值。
從源數(shù)據(jù)庫中獲取的數(shù)據(jù),易受到空缺、不一致、冗余等現(xiàn)象的影響,需要對數(shù)據(jù)進行清理、集成、變換、規(guī)約,做好預處理工作[11][12]。
3.3 高校學科分類預測系統(tǒng)
3.31 高校學科分類預測系統(tǒng)架構
基于加權樸素貝葉斯模型的高校學科分類預測系統(tǒng)的架構如圖1所示:
圖1 高校學科分類預測系統(tǒng)架構圖
基本過程如下。
建立模型:應用DCM-WNBM方法,在已知樣本集上進行訓練,構造高校學科分類器;
優(yōu)化模型:對于已構建的分類器,采用測試樣本進行評估分析和優(yōu)化。
應用模型:利用優(yōu)化的分類器,對新數(shù)據(jù)樣本進行分類。
3.3.2 設定高校學科分類訓練樣本集
本文將研究重點放于上海高校學科評價上,對上海高校各學科進行分類。依據(jù)教育部學位與研究生教育發(fā)展中心2012年學科評估結果,將上海高校學科分為4類,頂尖學科、優(yōu)勢學科、潛力學科、一般學科,在數(shù)據(jù)庫中設立類別屬性。對于極少量未參加2012年學科評估的學科,由上海教育行政部門專家,根據(jù)該高校歷年學科建設的基本數(shù)據(jù)和2012年學科評估指標體系,進行綜合評價,判定其類別屬性。
上海高校學科分類訓練樣本集示例,如表3所示:
表3 上海高校學科分類訓練樣本集示例
表3中選取了上海26所高校的98門學科作為樣本,其中,屬性,為“高校學科基本信息表結構”中定義的評價屬性。將應用DCM-WNBM方法對上海高校學科分類樣本集進行訓練,生成基于加權樸素貝葉斯模型的高校學科分類器。
3.3.3 建立高校學科分類器
運行高校學科分類預測系統(tǒng),分類預測模型從數(shù)據(jù)庫表文件“上海高校學科分類訓練樣本集示例”中選擇并抽取樣本,應用DCM-WNBM方法,構建基于加權樸素貝葉斯模型的高校學科分類器。高校學科分類器預測的部分評價屬性的重要性以及評價屬性A1的先驗概率,如圖2所示:
圖2 高校學科分類器預測的部分評價屬性重要性及先驗概率
其中,左側紅色為類別屬性結點,右側藍色為評價屬性結點。運行分類器后,使用不同深淺藍色標記評價屬性的重要性高低。點擊評價屬性結點后,顯示其先驗概率。分類器預測的部分評價屬性重要性的三維分布圖及投影圖如圖3所示:
圖3 高校學科分類器預測的部分評價屬性重要性的三維分布及投影
3.3.4 評估并優(yōu)化高校學科分類器
評估分類器的準確性非常重要。需使用測試樣本集,對基于加權樸素貝葉斯模型的高校學科分類器進行評估。將分類器的預測結果與實際結果進行比較,當準確率達到80%以上,表明使用該分類器進行高校學科分類,是可行和有效的。
選取2012年上海高校一流學科數(shù)據(jù)作為測試樣本集,包含22所高校的161門學科[13],從數(shù)據(jù)庫中抽取典型的60條記錄作為測試樣本。應用基于加權樸素貝葉斯模型的高校學科分類預測系統(tǒng),導入測試樣本,運行分類器,對預測結果的準確率進行分析,如圖4所示:
60條測試樣本中50條樣本預測正確,預測準確率達83.33%。重合矩陣比較了各類別屬性預測值和實際值的差異,置信度報告說明了預測值的精準度。
對基于加權樸素貝葉斯模型的高校學科分類器進行評估分析后,為進一步提高分類器的準確性,可對權重計算公式的權重系數(shù)進行微調,得到優(yōu)化的貝葉斯分類器。經(jīng)高校學科分類預測系統(tǒng)評估分析后,其準確率提高到86.67%,如圖5所示:
圖5 優(yōu)化后的高校學科分類器評估結果
3.4 應用高校學科分類預測系統(tǒng)對高校學科進行動態(tài)評價
基于加權樸素貝葉斯模型的高校學科分類預測系統(tǒng)通過對客觀數(shù)據(jù)的讀取,預測高校學科的類別屬性,為構建基于客觀數(shù)據(jù)的學科質量評價體系奠定了基礎。對于首次進入數(shù)據(jù)庫的上海高校學科樣本進行初始化和分類,對于已進入數(shù)據(jù)庫的高校學科樣本進行動態(tài)監(jiān)測和評價。通過對學科的動態(tài)評價,教育主管部門能更便捷地了解上海高校學科的布局結構和發(fā)展現(xiàn)狀,為今后拓展發(fā)展性評估奠定基礎。
在對現(xiàn)有的高校學科評價方法進行廣泛調研、認真分析的基礎上,我們提出了一種基于加權樸素貝葉斯模型的高校學科分類方法,構建了高校學科分類預測系統(tǒng),并對上海高校學科樣本進行應用分析。此方法的研究和應用,有助于揭示高校學科的發(fā)展趨勢及所處的發(fā)展階段,預測未來可能取得的進展和突破,為教育主管部門和高校制定新一輪的學科發(fā)展戰(zhàn)略提供基本依據(jù)。
在未來工作中,希望根據(jù)高校學科的特點,進一步開展貝葉斯網(wǎng)絡在高校學科分類中的研究,對高校學科進行更科學合理的評價。
參考文獻
[1] 韓文瑜,梅士偉.把握學科規(guī)律培育學科文化促進學科發(fā)展[J].中國高等教育,2011(7):22-24.
[2] Hood W.W, Wilson C.S. The literature of bibliometrics, scientometrics,and informetrics [J]. Scientometrics, 2001, 52(2): 291-314.
[3] Marijk van der Wender. Ranking and Classification in Higher Education: A European Perspective [J]. Higher Education, 2008(23): 49-71.
[4] Jamil Salmi, Alenoush Saroyan. League Tables as Policy Instrument: Uses and Misuses[J]. Higher Education Management and Policy(OECD), 2007, 19(2): 24-62.
[5] 教育部學位與研究生教育發(fā)展中心.學科評估工作簡介[EB/OL].
http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 276985.shtml, 2013-12.
[6] Moed H F. Bibliometric Rankings of World Universities [R]. The Netherlands: Centre for Science and Technology Studies (CWTS), Leiden University, 2006.
[7] Center national de la recherche scientifique. Missions [EB/OL]. http://www.cnrs.fr/en/aboutCNRS/overview.htm, 2014-10.
[8] Aghion P, Dewatripont M, Hoxby C, et al. The governance and performance of universities: evidence from Europe and the US [J]. Economic Policy, 2010, 25(6): 7-59.
[9] Jiawei Han, Micheling Kamber, Jian Pei. Data Mining: Concepts and Techniques [M]. 3rd ed. Morgan Kaufmann, 2011: 390-395.
[10] 教育部學位與研究生教育發(fā)展中心.2012年學科評估指標體系 [EB/OL].
http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 277134.shtml, 2013-3.
[11] Carlo Batini. Data Quality: Concepts, Methodologies and Techniques [M]. Springer-Verlag Berlin and Heidelberg GmbH & Co. K, 2010: 133-143.
[12] CAI Z, Identifying product failure rate based on a conditional Bayesian network classifier [J], Expert Systems with Applications, 2011, 38(5): 5036-5043.
[13] 上海市政務門戶網(wǎng).上海高校一流學科名單公布[EB/OL].http://www.shanghai.gov.cn/shanghai/no de2314/node2319/node12344/u26ai33230.html, 2012-9
Application of Weighted Naive Bayes Model in Discipline Evaluation
Xia Yan1, Xu Na2, Shu Jian3, Feng Hui1
(1.Shanghai Education Evaluation Institute, Shanghai 200031, China; 2.Shanghai Municipal Education Examinations Authority, Shanghai 200235, China; 3.Shanghai General Motor, Shanghai 201206, China)
Abstract:Discipline evaluation is an important part in higher education evaluation. It plays a significant role in discipline construction in colleges and universities. It is significant challenge how to adopt scientific discipline evaluation to choose advantageous disciplines and newly-emerging ones. This paper proposes a discipline classification method based on Weighted Naive Bayes model. It establishes Discipline Classifier according to weighted discipline evaluation attributes and mutual information. An automatic discipline classification system is implemented, verifying the method and analyzing data from universities in Shanghai. Experimental results show that the used scheme can achieve about 86.67% accuracy in forecasts. It provides advice and guidance for discipline evaluation, and establishes foundation for discipline development strategy.
Key words:Data Mining; Naive Bayes; Evaluation Indicator; Discipline Classification; Discipline Evaluation
收稿日期:(2015.11.02)
作者簡介:夏 燕(1981-),女,上海市教育評估院,工程師,碩士,研究方向:數(shù)據(jù)挖掘、高校學科評價等,上海,200031 徐 娜(1982-),女,上海市教育考試院,工程師,碩士,研究方向:軟件工程、教育信息系統(tǒng)等,上海 200235 舒 ?。?982-),男,上海通用汽車有限公司,工程師,碩士,研究方向:數(shù)據(jù)挖掘、自動化控制等,上海,201206 馮 暉(1970-),男,上海市教育評估院,副研究員,博士,研究方向:系統(tǒng)評價、高等教育管理等,上海,200031
基金項目:上海市教育委員會上海高校青年教師培養(yǎng)資助計劃(編號:ZZPGY14002)
文章編號:1007-757X(2016)01-0015-04
中圖分類號:TP181
文獻標志碼:A