蔣大銳,徐勝超
(廣州華商學(xué)院數(shù)據(jù)科學(xué)學(xué)院,廣東 廣州 511300)
近年來(lái),隨著高等教育改革的逐漸深入,大學(xué)畢業(yè)生的就業(yè)壓力增大,就業(yè)形勢(shì)日益嚴(yán)峻[1-3]。實(shí)現(xiàn)信息化是解決學(xué)生就業(yè)難的有效辦法,高效、便捷的學(xué)生就業(yè)服務(wù)平臺(tái)以及先進(jìn)的網(wǎng)絡(luò)技術(shù)都是解決就業(yè)困難的新方法。建立一個(gè)有效的學(xué)生就業(yè)服務(wù)平臺(tái),有助于解決大學(xué)生就業(yè)中的各種問(wèn)題,使其發(fā)揮最大的效用[4-5]。然而,隨著學(xué)生就業(yè)服務(wù)平臺(tái)建設(shè)不斷增加,學(xué)生就業(yè)服務(wù)平臺(tái)所積累的數(shù)據(jù)量隨之增加,數(shù)據(jù)類(lèi)型也更加多樣。為全面優(yōu)化學(xué)生就業(yè)水平與就業(yè)質(zhì)量,必須對(duì)學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)進(jìn)行分類(lèi)[6-7]。
文獻(xiàn)[8]提出了基于FPGA 和機(jī)器學(xué)習(xí)的大學(xué)生就業(yè)數(shù)據(jù)平臺(tái)。文中采用貝葉斯方法、多層感知和順序最小優(yōu)化、集成方法和決策樹(shù)預(yù)測(cè)學(xué)生的就業(yè)。該算法不同于數(shù)據(jù)挖掘中的分類(lèi)技術(shù),是一種能夠?qū)崿F(xiàn)學(xué)生就業(yè)數(shù)據(jù)分類(lèi)的方法。
文獻(xiàn)[9]研究了基于支持向量機(jī)方法的成績(jī)單等級(jí)路徑對(duì)公共高等教育畢業(yè)生入學(xué)選擇的分類(lèi)方法。該研究中,使用平均學(xué)期成績(jī)單等級(jí)1~5 的參數(shù)進(jìn)行數(shù)據(jù)測(cè)試。基于數(shù)據(jù)測(cè)試的結(jié)果,使用SVM 方法測(cè)量數(shù)據(jù)分類(lèi)準(zhǔn)確度水平,以確定分類(lèi)執(zhí)行標(biāo)準(zhǔn)。上述兩種方法均能夠有效實(shí)現(xiàn)高等教育學(xué)生就業(yè)數(shù)據(jù)分類(lèi),但仍存在數(shù)據(jù)分類(lèi)精度較低的問(wèn)題。
文獻(xiàn)[10]提出了基于混合深度神經(jīng)網(wǎng)絡(luò)的就業(yè)推薦方法,設(shè)定學(xué)生基本屬性和行為序列,將混合深度神經(jīng)網(wǎng)絡(luò)模型與自注意力機(jī)制相結(jié)合來(lái)挖掘?qū)W生職業(yè)特征屬性,完成特征交互和數(shù)據(jù)擬合,實(shí)現(xiàn)學(xué)生就業(yè)推薦。但是神經(jīng)網(wǎng)絡(luò)隱藏層中包含多個(gè)神經(jīng)元,在計(jì)算過(guò)程中容易造成算力不足。
為了提高學(xué)生就業(yè)分類(lèi)數(shù)據(jù)計(jì)算算力,文獻(xiàn)[11]提出了基于決策樹(shù)算法的高校畢業(yè)生就業(yè)預(yù)測(cè)方法。通過(guò)C4.5 算法生成決策樹(shù),計(jì)算學(xué)生就業(yè)信息增益率指標(biāo),根據(jù)指標(biāo)結(jié)果對(duì)就業(yè)數(shù)據(jù)進(jìn)行分類(lèi),構(gòu)建就業(yè)預(yù)測(cè)模型;利用混淆矩陣求解模型,完成學(xué)生就業(yè)預(yù)測(cè)。
文獻(xiàn)[12]提出了利用K-最近鄰算法的就業(yè)數(shù)據(jù)預(yù)測(cè)模型,通過(guò)K-近鄰算法聚類(lèi)學(xué)生行為信息,根據(jù)學(xué)生屬性分類(lèi)就業(yè)數(shù)據(jù)并結(jié)合KD 樹(shù)索引完成學(xué)生就業(yè)預(yù)測(cè)。但是,決策樹(shù)算法和K-最近鄰算法在數(shù)據(jù)分類(lèi)時(shí)間性能方面有待進(jìn)一步提高。
為了解決上述方法存在的問(wèn)題,本文提出一種基于統(tǒng)計(jì)學(xué)習(xí)算法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)方法,通過(guò)真實(shí)實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證本文學(xué)生就業(yè)數(shù)據(jù)分類(lèi)方法的精準(zhǔn)度與高效性。
為有效實(shí)現(xiàn)學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi),基于信息熵[13-14]選擇學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)樣本特征屬性。設(shè)定學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)集為Q,以信息熵為Q純度的度量指標(biāo)。信息熵Ent(Q) 的數(shù)值較低時(shí),則表示Q的純度越高,其計(jì)算公式為:
式中:Pi為學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)集Q中包含的第i類(lèi)學(xué)生就業(yè)服務(wù)平臺(tái)樣本的數(shù)量占整個(gè)集合樣本總數(shù)的比例;a表示學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)集Q中包含的樣本類(lèi)別數(shù)量,即i∈[ 1,a]。
最佳的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性的選擇是利用信息增益指標(biāo)[15-17]來(lái)完成的,核心思路是:以信息增益作為衡量指標(biāo),選取信息增益值最大的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性來(lái)對(duì)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)集進(jìn)行劃分。信息增益是指利用該平臺(tái)的樣本數(shù)據(jù)特征屬性W劃分Q可以得到的收益量。信息增益值越大,將W作為分配屬性,獲得的樣本的純度就越高,所得的收益量就越大。其表達(dá)式為:
式中:n表示以學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性W為劃分屬性對(duì)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)集Q進(jìn)行劃分時(shí)所產(chǎn)生的樣本數(shù)量;Qi表示第i類(lèi)學(xué)生就業(yè)服務(wù)平臺(tái)樣本集合,i∈[ 1,n]。
在選擇最佳學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性后,利用主成分分析法[18-20]融合學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息。在a個(gè)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)集包含的樣本類(lèi)別中,分別提取E個(gè)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息,獲取的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征矩陣為:
將原始的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征變量R1,R2,…,RE線(xiàn)性表示主成分分析后,得到綜合的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征變量為:
用料:菜子油 10 kg,拆好的蟹黃2 kg,姜米 500 g,小料(拍松的姜塊 1 kg,大蔥段 500 g,圓蔥塊 250 g,香葉、八角各 5 g)。
假設(shè)第xE與第yE個(gè)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征之間存在的協(xié)方差為cxy,其計(jì)算公式如下:
根據(jù)式(5)計(jì)算結(jié)果構(gòu)建協(xié)方差矩陣,為:
將學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征值按照從大到小的順序排序,獲取各個(gè)主成分,學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征值即為各主成分對(duì)應(yīng)的方差。
假設(shè)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征向量對(duì)應(yīng)的非零特征根為γ1,γ2,…,γE,獲得累計(jì)貢獻(xiàn)率為:
式中γk是綜合的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息中第k個(gè)主成分提取的信息所占的份額。
確定變換的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征向量個(gè)數(shù)和主成分個(gè)數(shù),獲得變換矩陣。通過(guò)主成分分析和樣本原始學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征計(jì)算變換矩陣,完成學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息融合。
統(tǒng)計(jì)學(xué)習(xí)算法是指使用基于統(tǒng)計(jì)原理的有效方法從數(shù)據(jù)中推斷函數(shù)的算法[21-23],其將數(shù)學(xué)、計(jì)算機(jī)和統(tǒng)計(jì)學(xué)的原理相結(jié)合,能夠從數(shù)據(jù)中提取出有用的信息,以便進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行處理。樸素貝葉斯算法是統(tǒng)計(jì)學(xué)習(xí)算法的一種,常用于數(shù)據(jù)分類(lèi)等場(chǎng)合,能夠有效處理多分類(lèi)任務(wù)[24-26]。因此,本文采用統(tǒng)計(jì)學(xué)習(xí)算法中的樸素貝葉斯算法實(shí)現(xiàn)學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)。將融合后的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息輸入到樸素貝葉斯分類(lèi)器模型中,結(jié)合先驗(yàn)概率和后驗(yàn)概率完成學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)。
設(shè)定學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的訓(xùn)練樣本集與其樣本集合是固定的,那么樸素貝葉斯分類(lèi)器將學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)都視為獨(dú)立存在的個(gè)體,通過(guò)統(tǒng)計(jì)學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的訓(xùn)練樣本集的數(shù)量,得到關(guān)于學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的先驗(yàn)概率,表示為:
式中:Dx為學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的先驗(yàn)概率;so為學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)樣本點(diǎn);g為樸素貝葉斯分類(lèi)器模型迭代次數(shù)。
在學(xué)生就業(yè)服務(wù)平臺(tái)樣本集合中引入統(tǒng)計(jì)學(xué)習(xí)算法中的樸素貝葉斯算法,得到樸素貝葉斯分類(lèi)器模型為:
式中φ為樸素貝葉斯分類(lèi)器模型常數(shù)。
將融合后的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息輸入到樸素貝葉斯分類(lèi)器中,其計(jì)算公式如下:
式中:為學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)頻率系數(shù)。
在學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)的過(guò)程中,計(jì)算出學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的訓(xùn)練樣本集與其樣本集合,可以大幅度地簡(jiǎn)化后驗(yàn)概率的計(jì)算量。因此,將其先驗(yàn)概率與后驗(yàn)概率相結(jié)合,并計(jì)算出學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的所有后驗(yàn)概率數(shù)值,公式如下所示:
計(jì)算出學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的所有后驗(yàn)概率數(shù)值后,排序得到所有后驗(yàn)概率數(shù)值,并且找到一個(gè)最大的后驗(yàn)概率,它相應(yīng)的分類(lèi)就是樸素貝葉斯分類(lèi)器的結(jié)果,由此完成學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)。
4.1.1 實(shí)驗(yàn)硬件環(huán)境
為了驗(yàn)證基于統(tǒng)計(jì)學(xué)習(xí)算法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)方法的有效性,在實(shí)驗(yàn)中采用CPU i3 2120 作為測(cè)試環(huán)境。CPU 頻率為3.30 GHz,MEM 為4 GB,硬盤(pán)為1 000 GB,顯卡為512 MB,光刻為32 nm,總線(xiàn)速度為5 GT/s,TDP 為65 W。
4.1.2 實(shí)驗(yàn)軟件環(huán)境
安裝了64 位Windows 系統(tǒng)的計(jì)算機(jī),并通過(guò)Java程序?qū)崿F(xiàn)文中所述的樸素貝葉斯分類(lèi)器,選擇的開(kāi)源統(tǒng)計(jì)學(xué)習(xí)平臺(tái)為Weka[27]。Weka 軟件是一款免費(fèi)、非商業(yè)化的數(shù)據(jù)挖掘軟件。在Weka 平臺(tái)下完成學(xué)生就業(yè)數(shù)據(jù)特征選擇、分類(lèi)、回歸。數(shù)據(jù)庫(kù)處理工具采用MySQL,語(yǔ)料提取工具采用NLP,向量訓(xùn)練工具采用Fast Text。
4.1.3 實(shí)驗(yàn)數(shù)據(jù)選擇
在某全日制本科(二本)院校近5年的高校學(xué)生就業(yè)服務(wù)信息數(shù)據(jù)中,隨機(jī)選取1 500 名高校學(xué)生的1 500 個(gè)信息數(shù)據(jù),具體數(shù)據(jù)內(nèi)容如表1 所示。
表1 學(xué)生就業(yè)數(shù)據(jù)
選擇的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性是250 個(gè),以文獻(xiàn)[8]方法(基于FPGA 和機(jī)器學(xué)習(xí)的大學(xué)生就業(yè)數(shù)據(jù)平臺(tái))與文獻(xiàn)[9]方法(利用支持向量機(jī)方法對(duì)公立高等教育的分類(lèi))為對(duì)比方法,對(duì)所提方法進(jìn)行驗(yàn)證。
為了驗(yàn)證所提方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)效果,將ROC 曲線(xiàn)作為評(píng)價(jià)指標(biāo)。ROC 曲線(xiàn)下面積與方法的實(shí)際分類(lèi)效果之間呈正比例相關(guān),即面積越大,分類(lèi)效果越好。分別采用文獻(xiàn)[8]方法、文獻(xiàn)[9]方法和所提方法進(jìn)行對(duì)比,得到不同方法的ROC 曲線(xiàn)對(duì)比結(jié)果,如圖1 所示。
圖1 不同方法的ROC 曲線(xiàn)對(duì)比結(jié)果
分析圖1 可知,文獻(xiàn)[8]方法和文獻(xiàn)[9]方法的ROC 曲線(xiàn)面積分別達(dá)到整體有效面積的90%和85%,而所提方法的ROC 曲線(xiàn)面積達(dá)到整體有效面積的98%以上。因?yàn)樗岱椒ㄔ谔崛W(xué)生就業(yè)服務(wù)數(shù)據(jù)樣本特征屬性過(guò)程中,利用信息熵和信息增益劃分屬性,以此提升了數(shù)據(jù)分類(lèi)效果。由此可知,所提方法的ROC 曲線(xiàn)面積較大,其分類(lèi)效果較好。
進(jìn)一步驗(yàn)證所提方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)精度,將分類(lèi)準(zhǔn)確率作為評(píng)價(jià)指標(biāo),分類(lèi)準(zhǔn)確率越大,表明方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)精度越高。分類(lèi)準(zhǔn)確率計(jì)算公式如下:
式中Wr為正確分類(lèi)的學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性。分別采用文獻(xiàn)[8]方法、文獻(xiàn)[9]方法和所提方法進(jìn)行對(duì)比,得到不同方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)準(zhǔn)確率對(duì)比結(jié)果,如圖2 所示。
圖2 不同方法的數(shù)據(jù)分類(lèi)準(zhǔn)確率對(duì)比結(jié)果
分析圖2 可知,當(dāng)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性為250 個(gè)時(shí),文獻(xiàn)[8]方法和文獻(xiàn)[9]方法的平均學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)準(zhǔn)確率分別為84.3%和88.6%,而所提方法的平均學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)準(zhǔn)確率高達(dá)95.8%。因?yàn)樗岱椒ú捎脴闼刎惾~斯算法對(duì)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征進(jìn)行分類(lèi),利用先驗(yàn)概率和后驗(yàn)概率簡(jiǎn)化計(jì)算量,提高計(jì)算算力,從而提高了數(shù)據(jù)分類(lèi)準(zhǔn)確率。由此可知,所提方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)準(zhǔn)確率較大,具有較高的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)精度。
在此基礎(chǔ)上,進(jìn)一步驗(yàn)證所提方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)時(shí)間,將文獻(xiàn)[8]方法、文獻(xiàn)[9]方法與所提方法相比較,得出不同方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)時(shí)間對(duì)比結(jié)果,如表2 所示。
表2 分類(lèi)時(shí)間對(duì)比結(jié)果
根據(jù)表2 可知,隨著學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性的增加,不同方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)時(shí)間隨之增加。當(dāng)學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性為250 個(gè)時(shí),文獻(xiàn)[8]方法和文獻(xiàn)[9]方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)時(shí)間分別為9.55 ms 和12.77 ms,而所提方法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)時(shí)間僅為5.38 ms。因?yàn)樗岱椒ɡ弥鞒煞址治龇ㄈ诤蠈W(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息,消除了評(píng)價(jià)指標(biāo)之間的相關(guān)影響,從而降低了數(shù)據(jù)分類(lèi)時(shí)間。由此可知,所提方法可以有效縮短學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)的分類(lèi)時(shí)間。
本文提出一種基于統(tǒng)計(jì)學(xué)習(xí)算法的學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)方法。通過(guò)選擇學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征屬性,融合學(xué)生就業(yè)服務(wù)平臺(tái)樣本數(shù)據(jù)特征信息,實(shí)現(xiàn)學(xué)生就業(yè)服務(wù)平臺(tái)數(shù)據(jù)分類(lèi)。但由于研究時(shí)間和研究條件有限,實(shí)驗(yàn)范圍選取不夠?qū)挿?,此次研究?jī)H選取一所全日制本科(二本)院校作為實(shí)驗(yàn)對(duì)象。在之后的研究中將結(jié)合本文實(shí)驗(yàn)結(jié)果選擇多種類(lèi)型院校驗(yàn)證所提方法的普適性,為學(xué)生就業(yè)服務(wù)數(shù)據(jù)分類(lèi)系統(tǒng)設(shè)計(jì)提供理論支持。