段潤(rùn)英+黃欣榮
摘要:為深入挖掘剖析影響應(yīng)加大學(xué)生求職擇業(yè)的關(guān)鍵因素及其潛在的相互作用,筆者針對(duì)南京信息職業(yè)技術(shù)學(xué)院近年來的畢業(yè)生選擇推薦就業(yè)、自主擇業(yè)、自主創(chuàng)業(yè)或升學(xué)、待業(yè)等各種情況的決策因素進(jìn)行了廣泛的統(tǒng)計(jì),以數(shù)據(jù)挖掘分類技術(shù)為支撐設(shè)計(jì)了C4.5算法對(duì)各種潛在的影響畢業(yè)生就業(yè)選擇的因素進(jìn)行了系統(tǒng)化的剖析,從而得出影響應(yīng)屆畢業(yè)生就業(yè)率的決策模型。本研究的主要意義在于學(xué)生可以算法模型在大學(xué)在讀期間努力完善自己的知識(shí)結(jié)構(gòu),不斷增強(qiáng)自身的綜合素質(zhì)及社會(huì)競(jìng)爭(zhēng)力。從而適應(yīng)日益嚴(yán)峻的就業(yè)形勢(shì)和經(jīng)濟(jì)社會(huì)發(fā)展的需要,提高入職簽約成功率。應(yīng)屆畢業(yè)生也可以參照算法模型對(duì)比自身的素質(zhì)素養(yǎng)有針對(duì)性的選擇目標(biāo)單位進(jìn)行擇業(yè)。高等院校則可以根據(jù)該算法模型統(tǒng)計(jì)各界畢業(yè)生的就業(yè)指數(shù)進(jìn)行縱向及橫向的對(duì)比分析,進(jìn)有針對(duì)性的改良教學(xué)計(jì)劃,使院校培養(yǎng)出的畢業(yè)生更加符合當(dāng)代社會(huì)的需求,刺激就業(yè)率快速增長(zhǎng)。
關(guān)鍵詞:數(shù)據(jù)挖掘;分類;決策樹;C4.5算法;大學(xué)生求職
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)05-0151-03
1 C4.5算法
C4.5 算法是對(duì)ID3算法的優(yōu)化改良。與ID3算法不同的是,C4.5算法是以數(shù)據(jù)增益率為標(biāo)準(zhǔn)來選擇決策樹的每個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)屬性。算法默認(rèn)選擇當(dāng)前分支節(jié)點(diǎn)下數(shù)據(jù)增益率最高的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性。C4.5算法具有的這一特性使得對(duì)數(shù)據(jù)挖掘結(jié)果中的樣本分類所需的數(shù)據(jù)量大大減少,而且能夠準(zhǔn)確的反映出劃分的最小隨機(jī)性或“不純性”。這種理論方法使得對(duì)一個(gè)對(duì)象分類所需的期望測(cè)試數(shù)目達(dá)到最小,從而設(shè)計(jì)一棵最為簡(jiǎn)單的決策樹。為了研究的方便,下面對(duì)算法中的相關(guān)術(shù)語(yǔ)給出定義。
定義1:設(shè)數(shù)據(jù)集S為包含S個(gè)數(shù)據(jù)樣本的集合,且類別屬性可以取m個(gè)不同的值,對(duì)應(yīng)于m個(gè)不同的類別Ci (i=1,2,…,m)。假設(shè)Si為類別Ci中樣本的個(gè)數(shù);對(duì)一個(gè)給定數(shù)據(jù)對(duì)象進(jìn)行分類所需要的信息量,稱為S劃分前的熵,即:
其中Pi是任意一個(gè)數(shù)據(jù)對(duì)象屬于類別Ci的概率:。Pi=Si/S。
定義 2:設(shè)一個(gè)屬性A取v個(gè)不同的離散屬性值{a1,a2,…av}。利用屬性A可以將集合S劃分為v個(gè)子集{S1,S2,…Sv},其中Sj包含了S 集合中屬性A取aj值的數(shù)據(jù)樣本。若屬性A被選為測(cè)試屬性,即用屬性A 對(duì)當(dāng)前樣本集進(jìn)行劃分。設(shè)Sij為子集Sj中屬于Ci類別的樣本數(shù)。那么利用屬性A劃分當(dāng)前樣
2 挖掘?qū)ο蠹澳繕?biāo)確定
本文以南京信息職業(yè)技術(shù)學(xué)院六百名2016屆畢業(yè)生的就業(yè)情況作為研究對(duì)象,通過建立C4.5算法比對(duì)分析六百位2016屆畢業(yè)生的學(xué)習(xí)成績(jī)及個(gè)人素質(zhì)等相關(guān)信息得出可能影響學(xué)生擇業(yè)就業(yè)的潛在因素,為在校學(xué)生有針對(duì)性的提高自身素養(yǎng)提供了參考方向,同時(shí)也給學(xué)校學(xué)生工作委員會(huì)就業(yè)指導(dǎo)中心的專兼任教師調(diào)整學(xué)校課程安排和就業(yè)指導(dǎo)工作的中心提供了理論支撐。
3 數(shù)據(jù)采集
利用C4.5算法進(jìn)行數(shù)據(jù)挖掘分析需要確立具體、可查的研究對(duì)象,所以建立算法分析模板前應(yīng)對(duì)可預(yù)見的可能影響學(xué)生擇業(yè)就業(yè)的潛在因素進(jìn)行系統(tǒng)化、精細(xì)化的搜集整理。數(shù)據(jù)采集樣本的準(zhǔn)確程度直接影響了算法分析結(jié)果的參考價(jià)值。
根據(jù)研究分析需要,本文主要從南京信息職業(yè)技術(shù)學(xué)院學(xué)生學(xué)籍管理系統(tǒng)中“基本信息服務(wù)”界面采集了學(xué)生“學(xué)生基本信息”,從“學(xué)習(xí)中心-成績(jī)查詢服務(wù)”界面導(dǎo)出了2016界畢業(yè)生的“學(xué)生成績(jī)信息”。南京信息職業(yè)技術(shù)學(xué)院學(xué)生工作委員會(huì)下轄的就業(yè)指導(dǎo)中心的同事們向我們提供了2016界相關(guān)畢業(yè)生的“就業(yè)狀況信息”。筆者使用隨機(jī)抽樣的方式從調(diào)取到的近五千條數(shù)據(jù)記錄中截取了600條相關(guān)記錄作為本次研究分析的對(duì)象。在截取的600條畢業(yè)生信息中安排400條數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集,剩余200條數(shù)據(jù)分配為測(cè)試數(shù)據(jù)集。
從南京信息職業(yè)技術(shù)學(xué)院學(xué)生學(xué)籍管理系統(tǒng)中“基本信息服務(wù)”界面采集了學(xué)生“學(xué)生基本信息”主要包括以下內(nèi)容:院系、專業(yè)、班級(jí)、姓名、學(xué)號(hào)、性別、能力特長(zhǎng)、政治面貌、健康情況、獎(jiǎng)懲情況與培訓(xùn)工作經(jīng)歷、社會(huì)實(shí)踐活動(dòng)等。另外,該界面還顯示了諸如民族、籍貫、身份證號(hào)等與畢業(yè)生就業(yè)選擇無關(guān)或受反歧視、反地方保護(hù)政策限制對(duì)畢業(yè)生就業(yè)影響較小的因素,本文不作討論。
從“學(xué)習(xí)中心-成績(jī)查詢服務(wù)”界面導(dǎo)出“學(xué)生成績(jī)信息”,主要包括以下屬性:學(xué)號(hào)、姓名、學(xué)年、學(xué)期、學(xué)分、課程性質(zhì)、總評(píng)成績(jī)等。該界面也提供了畢業(yè)生英語(yǔ)水平、計(jì)算機(jī)水平等被用人單位普遍重視的基礎(chǔ)技能成績(jī)的查詢服務(wù)。
由南京信息職業(yè)技術(shù)學(xué)院學(xué)生工作委員會(huì)就業(yè)指導(dǎo)中心提供的畢業(yè)生“就業(yè)狀況信息”主要包括以下屬性:專業(yè)、班級(jí)、學(xué)號(hào)、姓名、就業(yè)單位、單位性質(zhì)、單位通信地址、單位聯(lián)系方式、單位效益等。
4 數(shù)據(jù)集成
本文研究的初始數(shù)據(jù)即從數(shù)據(jù)采集流程中“學(xué)生基本信息”、“學(xué)生成績(jī)信息”及“就業(yè)狀況信息”三個(gè)數(shù)據(jù)庫(kù)選取。為了進(jìn)一步提高數(shù)據(jù)挖掘質(zhì)量,提高算法效能我們需要將采集到的數(shù)據(jù)進(jìn)行集成處理,即將采集到的三個(gè)數(shù)據(jù)庫(kù)中的相干信息統(tǒng)一整合到一個(gè)新的數(shù)據(jù)庫(kù)中。
通過觀察發(fā)現(xiàn),三個(gè)數(shù)據(jù)庫(kù)中均包含的數(shù)據(jù)屬性有“姓名”、“學(xué)號(hào)”兩個(gè),由于以中文字符作為數(shù)據(jù)存儲(chǔ)格式的“姓名”屬性相較于以數(shù)字字符作為數(shù)據(jù)存儲(chǔ)格式的“學(xué)號(hào)”屬性難以在算法中錄入、檢索,故本文采用樣本的“學(xué)號(hào)”屬性作為主鍵將三個(gè)獨(dú)立的數(shù)據(jù)庫(kù)整合形成一個(gè)“南京信息職業(yè)技術(shù)學(xué)院2016屆畢業(yè)生就業(yè)信息匯總表”。表內(nèi)共包含以下樣本個(gè)體的屬性信息:專業(yè)、班級(jí)、姓名、學(xué)號(hào)、性別、政治面貌、獎(jiǎng)懲情況、社會(huì)實(shí)踐活動(dòng)、學(xué)習(xí)成績(jī)、英語(yǔ)水平、計(jì)算機(jī)水平、單位名稱、單位性質(zhì)、單位聯(lián)系方式、單位地址、單位效益,共計(jì)16項(xiàng)。
經(jīng)過認(rèn)真的考校和從業(yè)內(nèi)專業(yè)人士等渠道獲取的相關(guān)信息我們發(fā)現(xiàn)表內(nèi)的有些屬性和算法實(shí)施的目的有關(guān),一些與數(shù)據(jù)挖掘分析任務(wù)相干性較小或者不相干。因此,對(duì)表內(nèi)的數(shù)據(jù)屬性進(jìn)行歸約以得到最小的屬性集從而保證數(shù)據(jù)挖掘結(jié)論的正確性和有效性是十分必要的。endprint
5 構(gòu)造決策樹
我們將“就業(yè)情況”中的“單位性質(zhì)”作為類別標(biāo)識(shí)屬性,把“學(xué)生基本信息”中的“性別”、“專業(yè)”、“政治面貌”、“獲獎(jiǎng)情況”、“實(shí)踐能力”、“學(xué)習(xí)成績(jī)”、“英語(yǔ)水平”、“計(jì)算機(jī)水平”作為決策屬性構(gòu)建訓(xùn)練數(shù)據(jù)集。將學(xué)生就業(yè)的樣本集設(shè)為S,其包含有400個(gè)元組。這400個(gè)元祖根據(jù)就業(yè)單位性質(zhì)劃分為A1、A2、A3、B1、B2、B3、C1、C2、C3九個(gè)類別,分別對(duì)應(yīng)著較好的國(guó)企、一般的國(guó)企、差的國(guó)企、較好的外企、一般的外企、差的外企、較好的私企、一般的私企、差的私企九類就業(yè)單位。各個(gè)類別標(biāo)識(shí)屬性對(duì)應(yīng)的樣本數(shù)參照表1樣本統(tǒng)計(jì)分析表所示。
通過表1中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果我們不難看出,400個(gè)訓(xùn)練數(shù)據(jù)元組中進(jìn)入A1、B1、C1類單位就業(yè)的僅有十一個(gè)個(gè)體,相較于400個(gè)數(shù)據(jù)的總體所占比例過低,不具有代表性。這與本文通過研究既有應(yīng)屆畢業(yè)生就業(yè)數(shù)據(jù)分析得出潛在的可能影響就業(yè)的普適性因素以提高應(yīng)屆畢業(yè)生就業(yè)率的初衷背道而馳。因此,本文僅選擇了進(jìn)入二(A2&B2&C2)、三類(A3&B3&C3)單位工作的數(shù)據(jù)元祖使用決策樹C4.5 算法進(jìn)行挖掘分析,冀圖得到更精確、更具有普適性的分析結(jié)果。C4.5決策樹的具體的構(gòu)建過程如圖1所示。
400個(gè)元組,其中A2、A3、B2、B3、C2、C3對(duì)應(yīng)的子集元組數(shù)分別為s1=32,s2=41,s3=35,s4=62,s5=61,s6=158,計(jì)算每個(gè)決策屬性的信息增益率,按照公式(1)首先計(jì)算集合S的熵:I(s1,s2,s3,s4,s5,s6)=I(32,41,35,62,61,158)=2.320543,然后根據(jù)公式(2)、公式(3)和公式(4)計(jì)算每一個(gè)決策屬性的信息增益率。
由上述結(jié)果可知,數(shù)據(jù)增益率最高的屬性是“社會(huì)實(shí)踐活動(dòng)”,因此該屬性應(yīng)作為決策樹的根結(jié)點(diǎn)。實(shí)踐能力分出“優(yōu)”、“良”和“差”三個(gè)分支,對(duì)應(yīng)的元組個(gè)數(shù)依次為116、259和25。由上述結(jié)果可知,數(shù)據(jù)增益率最高的屬性是“英語(yǔ)水平”,因此該屬性是實(shí)踐能力為“優(yōu)”的分支結(jié)點(diǎn)。對(duì)實(shí)踐能力為“良”和“差”的分支進(jìn)行上述計(jì)算,結(jié)果為實(shí)踐能力為“良”和“差”的分支結(jié)點(diǎn)均是屬性“獲獎(jiǎng)情況”,同理確定其他的分支節(jié)點(diǎn)。
6 生成分類規(guī)則
從圖1實(shí)踐能力分支為優(yōu)的決策樹中從根結(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)的流程我們可以歸納出如下分類原則(表2)。
通過上述分類原則可以看出,有社會(huì)實(shí)踐經(jīng)歷豐富且具有較高的英語(yǔ)應(yīng)用能力的畢業(yè)生占了較好企業(yè)就業(yè)樣本中的絕大多數(shù);而社會(huì)實(shí)踐經(jīng)歷較為薄弱但獲得過省市以上獎(jiǎng)勵(lì)榮譽(yù)的畢業(yè)生,基本上能夠在差的國(guó)企、一般性外企和較好的私企就業(yè);社會(huì)實(shí)踐能力一般且沒有獲得過較高等級(jí)的獎(jiǎng)勵(lì)的畢業(yè)生只能混跡于較差企業(yè)等。
7 結(jié)語(yǔ)
根據(jù)潛在的可能影響到應(yīng)屆大學(xué)畢業(yè)生就業(yè)的數(shù)據(jù)屬性所具有的離散性的特點(diǎn),本文利用決策樹C4.5算法對(duì)目標(biāo)數(shù)據(jù)進(jìn)行了挖掘分析,構(gòu)建了大學(xué)生就業(yè)影響因素的分析模型,同時(shí)樹立建立了分類規(guī)則,數(shù)據(jù)挖掘分析具有較高的參考價(jià)值和實(shí)踐意義。通過C4.5算法模型分析出的應(yīng)屆畢業(yè)生就業(yè)影響因素分類規(guī)則對(duì)在校大學(xué)生針對(duì)性的提高自身綜合素質(zhì)具有導(dǎo)向作用,也可以為高校就業(yè)指導(dǎo)工作的轉(zhuǎn)型提供思路。
參考文獻(xiàn)
[1]楊斷利,張銳,王文顯.基于模糊決策樹的高校就業(yè)數(shù)據(jù)挖掘研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2012,35(2):111-114.
[2]麥曉冬,賈萍,翁建榮,等.基于多尺度粗糙集模型的決策樹在高校就業(yè)數(shù)據(jù)分析中的應(yīng)用[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,46(4):31-36.
[3]李如平.數(shù)據(jù)挖掘中決策樹分類算法的研究[J].華東理工大學(xué)學(xué)報(bào),2015,33(2):192-196.endprint