唐燕+王蘋
[摘要] 中醫(yī)藥院校的就業(yè)渠道較窄,就業(yè)壓力較大。如何精確預(yù)測就業(yè)困難學(xué)生,提供幫扶,使其早日就業(yè)是高校非常重要的一項工作。本文基于C4.5決策樹算法,生成就業(yè)判定決策樹,確定就業(yè)的重要影響因素,并預(yù)測就業(yè)情況。并進(jìn)一步使用隨機(jī)森林算法提高就業(yè)預(yù)測正確率。本文結(jié)合兩種方法為中醫(yī)藥類高校畢業(yè)生工作就業(yè)預(yù)測提供了一種新方法,具有一定的實(shí)際應(yīng)用價值。
[關(guān)鍵詞] C4.5決策樹算法;隨機(jī)森林算法;機(jī)器學(xué)習(xí);就業(yè)指導(dǎo)
[中圖分類號] G640 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673-7210(2017)08(c)-0166-04
[Abstract] Chinese medicine institutions of employment channels is relatively narrow, graduates have great employment pressure. How to accurately predict the employment of students, to help them, so that they can early employment is a very important university work. Based on C4.5 decision tree algorithm, this paper generates employment decision tree, determines the important influencing factors of employment and predicts the employment situation. And further use the random forest algorithm to improve the accuracy of employment forecast. This paper provides a new method for the employment of Chinese medicine colleges and universities, and has practical application value.
[Key words] C4.5 decision tree algorithm; Random forest algorithm; Machine learning; Employment guidance
近年來,全國高校就業(yè)人數(shù)逐年上升,就業(yè)形勢日益嚴(yán)峻。2010年我國高校畢業(yè)生達(dá)到630萬,2016年達(dá)到765萬,被稱為“史上最難就業(yè)年”。而2017年,全國普通高校畢業(yè)生預(yù)計795萬人,再創(chuàng)新高。高校畢業(yè)生就業(yè)人數(shù)在7年間上漲了165萬,就業(yè)壓力增大。
而中醫(yī)藥院校的就業(yè)渠道相對別的工科院校較窄,專業(yè)主要以中醫(yī)、中藥、護(hù)理、管理、人文等專業(yè)為主,學(xué)生的主要就業(yè)去向以臨床醫(yī)院及與醫(yī)療相關(guān)的醫(yī)藥企業(yè)工作為主,就業(yè)壓力比較大。對于中醫(yī)藥類高校,如何有效的識別就業(yè)困難學(xué)生,為他們提供就業(yè)幫扶是非常重要的。本文針對中醫(yī)院校本科生就業(yè)情況進(jìn)行研究,并采集各專業(yè)畢業(yè)生就業(yè)信息,使用C4.5決策樹算法,構(gòu)造決策樹,獲得就業(yè)和學(xué)生影響因素之間的關(guān)系,生成決策樹。并進(jìn)一步使用隨機(jī)森林算法提高識別就業(yè)困難學(xué)生的準(zhǔn)確度。本文為中醫(yī)藥類高校就業(yè)指導(dǎo)工作提供了一種新方法。
1 中醫(yī)藥院校就業(yè)狀況
當(dāng)前,中醫(yī)藥院校畢業(yè)生的就業(yè)情況不容樂觀。以就業(yè)率較高的北京中醫(yī)藥大學(xué)(以下簡稱“我校”)為例,雖然畢業(yè)生就業(yè)率連續(xù)多年保持較高水平,在部屬院校中處于前列,就業(yè)質(zhì)量不斷提高。但是,我校2012~2014年發(fā)布的就業(yè)數(shù)據(jù)顯示:2012年未就業(yè)人數(shù)占4.86%,2013年未就業(yè)人數(shù)占5.01%,2014年未就業(yè)人數(shù)占7.73%。未就業(yè)人數(shù)也呈逐年上升趨勢。
中醫(yī)藥院校畢業(yè)生的主要就業(yè)去向有以下方面:臨床(包括各類各型的醫(yī)院,如:中醫(yī)醫(yī)院、西醫(yī)醫(yī)院、社區(qū)醫(yī)院、預(yù)防保健機(jī)構(gòu)等)、科研、教學(xué)、升學(xué)考研、公務(wù)員、出國及從事與健康相關(guān)的醫(yī)藥企業(yè)。其中,醫(yī)學(xué)類專業(yè)就業(yè)主要去向:升學(xué)、臨床、科研、教學(xué)等;藥學(xué)類專業(yè)就業(yè)主要去向:升學(xué)、出國、醫(yī)藥企業(yè)等;管理類專業(yè)就業(yè)主要去向:升學(xué)、出國、公務(wù)員、醫(yī)藥企業(yè)等;護(hù)理學(xué)專業(yè)就業(yè)主要去向:臨床、升學(xué)、出國等;人文類專業(yè)就業(yè)主要去向:升學(xué)、出國、公務(wù)員、醫(yī)藥企業(yè)等。
在中醫(yī)藥院校的各個專業(yè)中,就業(yè)情況是不同的。我校2014年的就業(yè)報告顯示,醫(yī)學(xué)專業(yè)的未就業(yè)率為2.31%,藥學(xué)專業(yè)的未就業(yè)率為2.56%,護(hù)理學(xué)專業(yè)的未就業(yè)率為2.22%,管理學(xué)專業(yè)的未就業(yè)率為10.70%。醫(yī)學(xué)、藥學(xué)、護(hù)理學(xué)、人文專業(yè)的未就業(yè)率相差不大,法學(xué)專業(yè)100%就業(yè),而管理學(xué)未就業(yè)率最高,達(dá)到10.70%。見圖1。
2 C4.5決策樹算法
2.1 決策樹
決策樹是經(jīng)典的機(jī)器學(xué)習(xí)方法。一棵決策樹包括一個根結(jié)點(diǎn)、若干個子結(jié)點(diǎn)和葉子結(jié)點(diǎn)。根結(jié)點(diǎn)和子結(jié)點(diǎn)對應(yīng)一個屬性測試,樣本集合根據(jù)屬性測試的結(jié)果劃分到子結(jié)點(diǎn)中;葉子結(jié)點(diǎn)對應(yīng)于分類結(jié)果[1]。從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑對應(yīng)了各種分類規(guī)則。
2.2 C4.5決策樹算法原理
C4.5算法是由Quninlan在1993年提出的決策樹算法,C4.5算法是ID3算法的改進(jìn),改進(jìn)了ID3算法的不足。ID3算法根據(jù)信息論原理,通過計算各屬性的信息增益,選擇信息增益最大的屬性作為當(dāng)前節(jié)點(diǎn),劃分樣本[2-3]。并選取該屬性的各取值,建立由該屬性引發(fā)的分支,繼續(xù)計算、選擇子結(jié)點(diǎn),最終構(gòu)造決策樹[4-5]。但是,ID3算法存在如下缺陷:
ID3采用信息增益大的特征優(yōu)先建立決策樹的結(jié)點(diǎn),將會導(dǎo)致在相同條件下,取值比較多的特征比取值少的特征信息增益大;沒有考慮連續(xù)特征;沒有考慮缺失值的情況;有可能導(dǎo)致過擬合。endprint
2.3 C4.5算法計算步驟
C4.5算法在ID3算法的基礎(chǔ)上進(jìn)行了改進(jìn)。C4.5算法使用信息增益率作為選擇分裂屬性的標(biāo)準(zhǔn),引入了正則化系數(shù)進(jìn)行初步的剪枝避免過擬合[8],離散化處理連續(xù)屬性,通過加權(quán)方式處理缺失值。
3 隨機(jī)森林算法
隨機(jī)森林是2001年由美國科學(xué)院院士Breiman教授提出的,結(jié)合了Bagging和Random Subspace的思想一種算法。隨機(jī)森林是由多個決策樹而形成的一種集成分類器模型[2]。隨機(jī)森林算法是由多棵決策樹作為基學(xué)習(xí)器,利用Baging生成不同的訓(xùn)練集,在單棵樹的訓(xùn)練過程中引入隨機(jī)屬性選擇,訓(xùn)練多次,得到多棵不同的決策樹,將這些樹組合成隨機(jī)森林分類器。在分類時通過投票或取平均決定未知樣本的類別[8]。
隨機(jī)森林的構(gòu)建過程中進(jìn)行樣本的隨機(jī)選擇和屬性的隨機(jī)選擇[9-10]。經(jīng)過兩次隨機(jī)使得每棵樹的構(gòu)建過程中即使沒有進(jìn)行剪枝也不會出現(xiàn)過擬合情況[11]。
隨機(jī)森林算法的實(shí)現(xiàn)步驟如下所示:
①從數(shù)據(jù)集中利用bootstrap抽樣法有放回地隨機(jī)抽樣,選取每棵樹的訓(xùn)練樣本集。初始訓(xùn)練集中,有些數(shù)據(jù)重復(fù)出現(xiàn),有些從未出現(xiàn)[12]。在訓(xùn)練過程中,每次抽樣約有63.2%的樣本被抽中,作為自助樣本集,用來作為訓(xùn)練數(shù)據(jù)構(gòu)建一棵決策樹;剩余的36.8%的樣本稱為袋外數(shù)據(jù),可作為測試集,測試分類誤差[13-14]。
②每個自助樣本集用來構(gòu)建一棵決策樹或條件樹。假設(shè)每個樣本有M個屬性,在構(gòu)建決策樹時,每次隨機(jī)選擇m個屬性(m ③每棵決策樹的每一個節(jié)點(diǎn)都按照步驟2進(jìn)行選擇。使得每個節(jié)點(diǎn)的純度最高,即Gini指數(shù)最小的屬性作為最優(yōu)劃分屬性,直到節(jié)點(diǎn)不能分裂為止[16]。并建立CART決策樹。將上述過程重復(fù)多次,構(gòu)建多棵決策樹,形成森林。 隨機(jī)森林算法執(zhí)行效率較高,并且明顯的提升了預(yù)測精度,被稱為當(dāng)前最好的算法之一。 4 C4.5決策樹模型的建立及實(shí)現(xiàn) 4.1 數(shù)據(jù)的采集 文本連續(xù)3年對我校的畢業(yè)生進(jìn)行問卷調(diào)查,問卷內(nèi)容涉及畢業(yè)生個人信息、家庭經(jīng)濟(jì)狀況、成績信息、參加社團(tuán)信息、擔(dān)任學(xué)生干部信息、就業(yè)情況等方面。共獲得449條記錄,15個特征向量。剔除嚴(yán)重缺失數(shù)據(jù)和異常數(shù)據(jù)[9],得到有效記錄412條。 特征向量包括:性別(X1)、民族(X2)、黨員(X3)、戶口(X4)、專業(yè)能力(X5)、計算機(jī)水平(X6)、英語水平(X7)、人際關(guān)系(X8)、團(tuán)隊合作能力(X9)、領(lǐng)導(dǎo)能力(X10)、學(xué)習(xí)成績(X11)、綜合能力(X12)、專業(yè)熱門程度(X13)、家庭經(jīng)濟(jì)困難(X14)、是否就業(yè)(Y)。 進(jìn)一步進(jìn)行數(shù)據(jù)的離散化處理[11]。將專業(yè)能力、計算機(jī)水平、英語水平等特征向量離散化為1,2,3,4,5,數(shù)值越高,表示能力越強(qiáng),水平越高。 4.2 構(gòu)建并實(shí)現(xiàn)決策樹算法 實(shí)驗(yàn)中,使用python語言實(shí)現(xiàn)C4.5決策樹算法,程序中生成的決策樹。見圖2。 根據(jù)實(shí)驗(yàn)得出的決策樹,可以得出能否就業(yè)的一些預(yù)測規(guī)則,如下所示: ①if綜合能力≤2.0 and 英語水平≤1.5 then 未就業(yè);②if綜合能力≤2.0 and 英語水平>1.5 and 計算機(jī)水平≤1.5 then 未就業(yè);③if綜合能力≤2.0 and 英語水平>1.5 and 計算機(jī)水平>1.5 and 團(tuán)隊合作能力 ≤1.5 then 未就業(yè);④if綜合能力≤2.0 and 英語水平>1.5 and 計算機(jī)水平>1.5 and 團(tuán)隊合作能力>1.5 then 就業(yè);⑤if 綜合能力>2.0 and不是黨員 and 農(nóng)村戶口then 未就業(yè);⑥if 綜合能力>2.0 and不是黨員 and 城市戶口and 學(xué)習(xí)成績≤2.0 then 未就業(yè);⑦if 綜合能力>2.0 and不是黨員 and 城市戶口and 學(xué)習(xí)成績>2.0 then 就業(yè);⑧if 綜合能力>2.0 and是黨員 and 計算機(jī)水平≤2.5 and 少數(shù)民族 then 未就業(yè);⑨if 綜合能力>2.0 and是黨員 and 計算機(jī)水平≤2.5 and 非少數(shù)民族 then 未就;⑩if 綜合能力>2.0 and是黨員 and 計算機(jī)水平>2.5 and專業(yè)能力≤2.5 then未就業(yè);■if 綜合能力>2.0 and是黨員 and 計算機(jī)水平>2.5 and專業(yè)能力>2.5 then就業(yè)。 4.3 結(jié)果分析 通過決策樹,可以看出決定中醫(yī)藥院校學(xué)生就業(yè)的重要因素是畢業(yè)生的綜合能力。綜合能力強(qiáng),政治面貌是黨員,并且計算機(jī)水平、專業(yè)能力好的學(xué)生就業(yè)情況較好;但是,若專業(yè)能力太差也不能就業(yè)??梢姡t(yī)學(xué)院校學(xué)生的專業(yè)能力在就業(yè)中的作用是非常重要的。另外,英語水平在就業(yè)中的作用也很重要,綜合能力差并且英語水平低的學(xué)生也不能就業(yè)。另外,若綜合能力中等以上水平,不是黨員,城市戶口的學(xué)生,學(xué)習(xí)成績是就業(yè)的重要因素,學(xué)習(xí)成績好能就業(yè),否則不能就業(yè)。另外,少數(shù)民族同學(xué)若計算機(jī)水平差也會就業(yè)困難。團(tuán)隊合作能力在就業(yè)中也起一定作用。 通過就業(yè)決策樹的分析,也會對在校低年級的同學(xué)起到警示作用,及早查漏補(bǔ)缺,努力補(bǔ)上自己的短板,避免就業(yè)時出現(xiàn)就業(yè)困難情況[14]。 5 就業(yè)困難學(xué)生的認(rèn)定 在C4.5決策樹算法的實(shí)驗(yàn)中,隨機(jī)選擇70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余30%數(shù)據(jù)作為測試數(shù)據(jù)。在訓(xùn)練好的模型中對測試數(shù)據(jù)進(jìn)行測試,選擇樹的深度為4,得到的正確率為80.65%。在程序中調(diào)整參數(shù),將決策樹的深度從2變化到20,進(jìn)行循環(huán),得到?jīng)Q策樹的深度與正確率的曲線圖。見圖3。
可以看出,當(dāng)樹的深度較低時正確率較高,樹的深度增加時,并沒有過擬合,正確率快速下降,并逐步趨于穩(wěn)定,平均正確率應(yīng)在70%~78%之間波動。正確率并不是很高。
實(shí)驗(yàn)進(jìn)一步在相同的數(shù)據(jù)集上使用分類精確度較高的隨機(jī)森林算法進(jìn)行就業(yè)情況分類[18]。調(diào)整隨機(jī)森林算法的數(shù)的棵數(shù)從10變化到50,繪制隨機(jī)森林的正確率。見圖4。
可以看出,當(dāng)樹棵數(shù)較少時正確率波動較大,隨著樹的個數(shù)的增多,分類正確率逐步穩(wěn)定。隨機(jī)森林正確率在82%~84%波動。與決策樹的正確率相比,隨機(jī)森林精確度更高,判定效果更好一些。當(dāng)然,若改進(jìn)算法或使用一些更為復(fù)雜的模型,能獲得更好的分類精確度[19-20]。
在實(shí)際就業(yè)指導(dǎo)工作中,若需要預(yù)測就業(yè)困難學(xué)生,可以結(jié)合上述兩種模型進(jìn)行預(yù)測。
6 小結(jié)
中醫(yī)藥院校畢業(yè)生的就業(yè)壓力較大,如何預(yù)測就業(yè)困難學(xué)生,為其提高指導(dǎo)和幫助,實(shí)現(xiàn)全就業(yè),是亟待解決的一項工作。本文應(yīng)用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的C4.5決策樹算法,通過實(shí)驗(yàn),建立就業(yè)情況決策樹,并分析就業(yè)中的影響因素,為提前預(yù)測就業(yè)困難學(xué)生提供決策支持。為了進(jìn)一步提高預(yù)測正確率,采用隨機(jī)森林算法進(jìn)行就業(yè)困難學(xué)生的預(yù)測。通過實(shí)驗(yàn)證明,隨機(jī)森林能有效提高預(yù)測正確率。實(shí)際應(yīng)用中,兩種模型可以結(jié)合使用。本文為中醫(yī)藥院校的就業(yè)指導(dǎo)工作提供了一種新方法,具有實(shí)際應(yīng)用價值。
[參考文獻(xiàn)]
[1] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[2] 韓玉,施海龍,曲波,等.隨機(jī)森林方法在醫(yī)學(xué)中的應(yīng)用[J].中國預(yù)防醫(yī)學(xué)雜志,2014,15(1):79-81.
[3] 王賽男. C4.5分類算法在高職就業(yè)預(yù)測中的應(yīng)用[J].現(xiàn)代計算機(jī),2014(23):21-25.
[4] 喬非,葛彥昊.基于BP神經(jīng)網(wǎng)絡(luò)的就業(yè)招聘企業(yè)客戶分類問題研究[J].計算機(jī)科學(xué),2015,42(12):1-4.
[5] 韓冰.基于數(shù)據(jù)挖掘的就業(yè)困難學(xué)生認(rèn)定研究[J].中國大學(xué)生就業(yè),2017(1):44-50.
[6] 從雨佳,朱家明.對我國就業(yè)狀況的分析及預(yù)測[J].皖西學(xué)院學(xué)報,2016,32(3):79-82.
[7] 寇小鴻.組合預(yù)測模型在寧波市就業(yè)趨勢的預(yù)測研究[J].浙江紡織服裝職業(yè)技術(shù)學(xué)院學(xué)報,2016,15(1):80-83.
[8] 馬驪.隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D].廣州:暨南大學(xué),2016.
[9] 蔡麗艷,馬弘偉.數(shù)據(jù)挖掘技術(shù)在高校就業(yè)預(yù)測分析中的應(yīng)用[J].微計算機(jī)信息,2012,28(8):100-103.
[10] 楊飚,尚秀偉.加權(quán)隨機(jī)森林算法研究[J].微型機(jī)與應(yīng)用,2016,35(3):28-30.
[11] 陳曉,王樹寶,李建晶,等.基于加權(quán)約束的決策樹方法在貧困生認(rèn)定中的應(yīng)用研究[J].計算機(jī)應(yīng)用與軟件,2014, 32(12):136-139.
[12] 張新佶,張?zhí)煲?,許金芳,等.隨機(jī)森林傾向性評分方法及其在藥品不良反應(yīng)信號檢測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2016,33(4):578-581.
[13] 鞏亞楠,帕提麥·馬秉成,朱登浩,等.隨機(jī)森林與Logistic回歸在預(yù)約掛號失約影響因素預(yù)測中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2014,41(5):769-772.
[14] 張琳瑜,王鳳超,韓子玥.基于決策樹的大學(xué)本科畢業(yè)生就業(yè)影響因素分析—以北京林業(yè)大學(xué)信息學(xué)院為例[J].中國林業(yè)教育,2017,35(2):46-51.
[15] 向濤,李濤,趙雪專,等.基于隨機(jī)森林的精確目標(biāo)檢測方法[J].計算機(jī)應(yīng)用研究,2016,33(9):2837-2840.
[16] 崔盈盈,劉施,吳嘉瑞,等.基于貝葉斯網(wǎng)絡(luò)與決策樹的雙黃連注射劑不良反應(yīng)流行病學(xué)特點(diǎn)研究[J].藥物流行病學(xué)雜志,2017,26(1):19-26.
[17] 成啟明.基于決策樹模型的計算機(jī)課程教學(xué)的學(xué)生屬性影響分析[J].西南師范大學(xué)學(xué)報:自然科學(xué)版,2017, 42(1):60-65.
[18] 唐學(xué)華.基于隨機(jī)森林決策樹質(zhì)量管理方法研究[J].重慶科技學(xué)院學(xué)報:社會科學(xué)版,2015(7):61-63.
[19] 秦鵬程,劉志雄,萬素琴,等.基于決策樹和隨機(jī)森林模型的湖北油菜產(chǎn)量限制因子分析[J].中國農(nóng)業(yè)氣象,2016, 37(6):691-699.
[20] 馬李冰,侯艷,李貞子,等.多步驟決策樹方法在基因表達(dá)數(shù)據(jù)上的應(yīng)用研究[J].中國衛(wèi)生統(tǒng)計,2017,34(1):135-138.
(收稿日期:2017-04-03 本文編輯:李岳澤)endprint