李沛林
(云南省互聯(lián)網(wǎng)應(yīng)急中心, 云南,昆明 650011)
隨著高校不斷的擴(kuò)招,高校畢業(yè)生人數(shù)在不斷增加,畢業(yè)生的就業(yè)競(jìng)爭(zhēng)越來(lái)越激烈,社會(huì)就業(yè)壓力增大,畢業(yè)生就業(yè)情況直接關(guān)系社會(huì)的穩(wěn)定[1]。一般高校都有相應(yīng)的畢業(yè)生就業(yè)管理系統(tǒng),系統(tǒng)中全面保存學(xué)生的就業(yè)信息,可以對(duì)這些信息進(jìn)行分析,找到影響高校畢業(yè)生就業(yè)的因素,并給高校就業(yè)工作者提供有價(jià)值的參考信息和建議,而高校畢業(yè)生就業(yè)預(yù)測(cè)就是一個(gè)重要的研究方向[2-4]。
對(duì)于高校畢業(yè)生就業(yè)預(yù)測(cè)問(wèn)題,許多學(xué)者做了各種嘗試,當(dāng)前存在許多有效的高校畢業(yè)生就業(yè)預(yù)測(cè)方法。如有學(xué)者提出了基于灰色理論的高校畢業(yè)生就業(yè)預(yù)測(cè)方法[5-6],該方法將高校畢業(yè)生就業(yè)問(wèn)題看作一個(gè)灰色問(wèn)題,通過(guò)擬合輸入和輸出之間的關(guān)系,進(jìn)行高校畢業(yè)生就業(yè)預(yù)測(cè),該方法簡(jiǎn)單,建模效率高,但是由于其簡(jiǎn)化了高校畢業(yè)生就業(yè)預(yù)測(cè)問(wèn)題,因此高校畢業(yè)生就業(yè)預(yù)測(cè)結(jié)果不可靠[7]。隨后出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的高校畢業(yè)生就業(yè)預(yù)測(cè)方法,通過(guò)模擬人類大腦神經(jīng)網(wǎng)絡(luò)的工作原理進(jìn)行建模[8-9],但是人工神經(jīng)網(wǎng)絡(luò)需要問(wèn)題的先驗(yàn)知識(shí),缺陷十分明顯,如高校畢業(yè)生就業(yè)預(yù)測(cè)建模過(guò)于復(fù)雜,高校畢業(yè)生就業(yè)預(yù)測(cè)誤差大等[10]。近幾年,出現(xiàn)了基于支持向量機(jī)的高校畢業(yè)生就業(yè)方法[11],該方法不存在神經(jīng)網(wǎng)絡(luò)的缺陷,高校畢業(yè)生就業(yè)預(yù)測(cè)效果得到了改善,但是其高校畢業(yè)生就業(yè)預(yù)測(cè)建模時(shí)間長(zhǎng),效率極低,無(wú)法適應(yīng)當(dāng)前高校畢業(yè)生就業(yè)發(fā)展要求[12]。
為了獲得更高精度的高校畢業(yè)生就業(yè)預(yù)測(cè)結(jié)果,本文提出了基于大數(shù)據(jù)分析技術(shù)的高校畢業(yè)生就業(yè)預(yù)測(cè)模型(ACO-LSSVM)。首先收集高校畢業(yè)生就業(yè)相關(guān)樣本數(shù)據(jù),將其輸入到大數(shù)據(jù)分析技術(shù)—支持向量機(jī)進(jìn)行訓(xùn)練,擬合高校畢業(yè)生就業(yè)變化態(tài)勢(shì),然后采用蟻群算法根據(jù)高校畢業(yè)生就業(yè)變化態(tài)勢(shì)對(duì)預(yù)測(cè)模型參數(shù)進(jìn)行優(yōu)化,構(gòu)建最優(yōu)的高校畢業(yè)生就業(yè)預(yù)測(cè)模型,最后與其它高校畢業(yè)生就業(yè)預(yù)測(cè)模型進(jìn)行了對(duì)比測(cè)試,結(jié)果表明,大數(shù)據(jù)分析技術(shù)可以更好的描述高校畢業(yè)生就業(yè)變化態(tài)勢(shì),提升高校畢業(yè)生預(yù)測(cè)效果,加快高校畢業(yè)生就業(yè)預(yù)測(cè)速度,具有更高的實(shí)際應(yīng)用價(jià)值。
高校畢業(yè)生就業(yè)是一個(gè)系統(tǒng)工程,其與多種因素相關(guān),如高校本身的名氣、學(xué)生專業(yè)、當(dāng)前經(jīng)濟(jì)、學(xué)生本身的學(xué)習(xí)情況、學(xué)生對(duì)畢業(yè)單位的期望等,具有較強(qiáng)的時(shí)變性、多樣性,這給高校畢業(yè)生就業(yè)預(yù)測(cè)帶來(lái)一定的困難。高校畢業(yè)生就業(yè)預(yù)測(cè)問(wèn)題本質(zhì)就是通過(guò)一定的方法對(duì)影響因素和高校畢業(yè)生就業(yè)率之間的變化關(guān)系進(jìn)行擬合,找到高校畢業(yè)生就業(yè)變化特點(diǎn),根據(jù)該特點(diǎn)對(duì)將來(lái)高校畢業(yè)生就業(yè)變化趨勢(shì)進(jìn)行預(yù)測(cè)。設(shè)一個(gè)高校畢業(yè)生就業(yè)歷史數(shù)據(jù)為x1,x2,…,xn,y表示將來(lái)的高校畢業(yè)生就業(yè)結(jié)果,那么高校畢業(yè)生就業(yè)預(yù)測(cè)問(wèn)題可表示為
y=f(x1,x2,…,xn)
(1)
式中,f()為輸入和輸出之間關(guān)系的擬合函數(shù)。
為了更好的對(duì)高校畢業(yè)生就業(yè)輸入和輸出之間關(guān)系進(jìn)行擬合,本文引入大數(shù)據(jù)分析技術(shù)中的最小二乘支持向量機(jī)對(duì)擬合函數(shù)進(jìn)行建模,并引入蟻群算法確定最小二乘支持向量機(jī)參數(shù)的最優(yōu)值。
最小二乘支持向量機(jī)是一種針對(duì)非線性預(yù)測(cè)問(wèn)題的大數(shù)據(jù)分析技術(shù),相對(duì)于傳統(tǒng)支持向量機(jī),其繼承了支持向量機(jī)的優(yōu)點(diǎn),同時(shí)進(jìn)行了一些改進(jìn),如:將損失函數(shù)變?yōu)樽钚《藫p失函數(shù),不等式約束變?yōu)榈仁郊s束,優(yōu)化了耗時(shí)的二次規(guī)劃問(wèn)題,復(fù)雜度明顯減少,同時(shí)提高了求解的速度。
對(duì)于訓(xùn)練集:D={(xi,yi),i=1,2,…,n},通過(guò)映射函數(shù)φ(xi)將xi∈Rd變換到高維特征空間,建立如下回歸函數(shù)
f(x)=ω·φ(x)+b
(2)
式中,ω和b分別表示權(quán)向量和偏移量。
最小二乘支持向量機(jī)采用誤差平方ξi作為損失函數(shù),這樣最小二乘支持向量機(jī)優(yōu)化問(wèn)題變?yōu)?/p>
(3)
式中,C為正則化參數(shù)且表示對(duì)超出誤差范圍樣本的懲罰度。
引入拉格朗函數(shù)對(duì)式(3)進(jìn)行求解,拉格朗函數(shù)定義如下
(4)
式中,ai表示拉格朗乘子。
最優(yōu)解滿足Karush-Kuhn-Tucker條件得到
(5)
同解變換后消除ω和ξi得到矩陣形式為
(6)
式中
(7)
(8)
式中,k(xi,x)具體為
(9)
式中,σ為核寬度參數(shù)。
核寬度參數(shù)σ和正則化參數(shù)C影響最小二乘支持向量機(jī)的學(xué)習(xí)效果,傳統(tǒng)方法采用人工方式隨機(jī)確定或者粒子群算法確定,但是它們都存在不足,本文采用蟻群算法確定核寬度參數(shù)σ和正則化參數(shù)C的最優(yōu)值,具體過(guò)程如下。
(1) 隨機(jī)產(chǎn)生多個(gè)螞蟻,每一個(gè)螞蟻部署在初始節(jié)點(diǎn)。
(2) 對(duì)于第i只螞蟻,計(jì)算其從節(jié)點(diǎn)i轉(zhuǎn)到節(jié)點(diǎn)j的轉(zhuǎn)移概率,具體計(jì)算為
(10)
(3) 每一只螞蟻完成一次搜索后,對(duì)其經(jīng)過(guò)的路徑上的信息素進(jìn)行更新,具體如下
(11)
(4) 增加迭代次數(shù),如果小于最大迭代次數(shù),返回步驟(2)繼續(xù)進(jìn)行,直到大于最大迭代次數(shù)為止。
(5) 將螞蟻所經(jīng)過(guò)的節(jié)點(diǎn)連續(xù)起來(lái),組成一個(gè)路徑,這樣得到多條路徑。
(6) 選擇最短路徑為蟻群算法的搜索結(jié)果,并對(duì)最優(yōu)路徑進(jìn)行解碼,得到參數(shù)σ和C的最優(yōu)值。
Step1:對(duì)于某一個(gè)高校畢業(yè)生,對(duì)它們就業(yè)信息進(jìn)行分析,提取與預(yù)測(cè)相關(guān)的數(shù)據(jù)。
Step2:對(duì)就業(yè)數(shù)據(jù)進(jìn)行處理,剔除其中錯(cuò)誤或者無(wú)效的數(shù)據(jù),并劃分為訓(xùn)練集和測(cè)試集。
Step3:采用最小二乘支持向量機(jī)對(duì)高校畢業(yè)生就業(yè)的訓(xùn)練集進(jìn)行學(xué)習(xí),利用蟻群算法確定核寬度參數(shù)和正則化參數(shù)的最優(yōu)值。
Step4:根據(jù)核寬度參數(shù)和正則化參數(shù)的最優(yōu)值建立高校畢業(yè)生就業(yè)預(yù)測(cè)模型,如圖1所示。
圖1 大數(shù)據(jù)分析技術(shù)的高校畢業(yè)生就業(yè)預(yù)測(cè)過(guò)程
為了分析大數(shù)據(jù)分析技術(shù)的高校畢業(yè)生就業(yè)預(yù)測(cè)效果,采用VC ++6.0編程實(shí)現(xiàn)仿真實(shí)驗(yàn),并對(duì)仿真實(shí)驗(yàn)測(cè)試結(jié)果進(jìn)行分析。為了使大數(shù)據(jù)分析技術(shù)的高校畢業(yè)生就業(yè)預(yù)測(cè)結(jié)果具有可比性,選擇2種高校畢業(yè)生就業(yè)預(yù)測(cè)方法在相同仿真環(huán)境下進(jìn)行對(duì)比測(cè)試,對(duì)比方法設(shè)計(jì)如下
(1) 最小二乘支持向量機(jī)的參數(shù)憑經(jīng)驗(yàn)采用隨機(jī)方式設(shè)置,該高校畢業(yè)生就業(yè)預(yù)測(cè)方法稱之為L(zhǎng)SSVM。
(2) 最小二乘支持向量機(jī)的參數(shù)通過(guò)粒子群算法設(shè)置,該高校畢業(yè)生就業(yè)預(yù)測(cè)方法稱之為PSO-LSSVM。
由于高校的類型很多,本文基于國(guó)家對(duì)高校的分類情況,將高校劃分為:985大學(xué),211大學(xué),一本大學(xué),二本學(xué)院,高等職業(yè)技術(shù)學(xué)院,對(duì)每一種高校,選擇不同數(shù)量的畢業(yè)生就業(yè)數(shù)據(jù)作為研究對(duì)象,它們數(shù)量具體分布表1所示。
表1 測(cè)試對(duì)象數(shù)據(jù)的分布
采用隨機(jī)方式設(shè)置最小二乘支持向量機(jī)的參數(shù),具體如表2所示。同時(shí)采用粒子群算法、蟻群算法在線優(yōu)化最小二乘支持向量機(jī)的參數(shù),根據(jù)高校畢業(yè)生就業(yè)預(yù)測(cè)誤差最小化為目標(biāo),通過(guò)不斷的迭代得到的參數(shù)最優(yōu)值如表2所示。對(duì)表2的最小二乘支持向量機(jī)參數(shù)值進(jìn)行分析可以發(fā)現(xiàn),3種高校畢業(yè)生就業(yè)預(yù)測(cè)方法的參數(shù)不同,建立了不同的高校畢業(yè)生就業(yè)預(yù)測(cè)預(yù)測(cè)模型。
表2 高校畢業(yè)生就業(yè)預(yù)測(cè)方法的參數(shù)值
采用高校畢業(yè)生就業(yè)預(yù)測(cè)精度和誤差衡量不同方法的性能,對(duì)于每一類高校畢業(yè)生就業(yè)預(yù)測(cè)數(shù)據(jù),隨機(jī)選擇1/2數(shù)據(jù)組成訓(xùn)練集,用于設(shè)計(jì)高校畢業(yè)生就業(yè)預(yù)測(cè)模型,其它數(shù)據(jù)對(duì)模型的性能進(jìn)行分析,不同方法預(yù)測(cè)效果見(jiàn)圖2和圖3。從預(yù)測(cè)效果可以發(fā)現(xiàn)
圖2 預(yù)測(cè)精度對(duì)比
圖3 預(yù)測(cè)誤差對(duì)比
(1) 平均預(yù)測(cè)精度最低方法為L(zhǎng)SSVM,其高校畢業(yè)生就業(yè)預(yù)測(cè)誤差最高,這是因?yàn)殡S機(jī)確定參數(shù)難以建立理想的高校畢業(yè)生就業(yè)預(yù)測(cè)模型,無(wú)法描述高校畢業(yè)生就業(yè)變化特點(diǎn)。
(2) PSO-LSSVM的預(yù)測(cè)效果要明顯優(yōu)于LSSVM,這說(shuō)明采用粒子群算法獲得的參數(shù)要優(yōu)于隨機(jī)確定的參數(shù),可以描述高校畢業(yè)生就業(yè)變化特點(diǎn),提高了高校畢業(yè)生就業(yè)平均預(yù)測(cè)精度。
(3) 在本文所有方法中,ACO-LSSVM的高校畢業(yè)生就業(yè)預(yù)測(cè)效果最好,提升了高校畢業(yè)生就業(yè)平均預(yù)測(cè)精度,誤差控制在高校畢業(yè)生就業(yè)實(shí)際要求范圍內(nèi),獲得了理想的高校畢業(yè)生就業(yè)預(yù)測(cè)結(jié)果,驗(yàn)證了ACO-LSSVM應(yīng)用于高校畢業(yè)生就業(yè)預(yù)測(cè)中的優(yōu)越性。
由于當(dāng)前高校畢業(yè)生數(shù)量比較大,因此對(duì)于建模方法的效率要求也越來(lái)越高,分別統(tǒng)計(jì)高校畢業(yè)生就業(yè)預(yù)測(cè)的訓(xùn)練和測(cè)試平均時(shí)間,結(jié)果如表3、表4所示。從表3可知,ACO-LSSVM的高校畢業(yè)生就業(yè)預(yù)測(cè)訓(xùn)練時(shí)間要明顯少于LSSVM、PSO-LSSVM,同時(shí)從表4也可以發(fā)現(xiàn),ACO-LSSVM的高校畢業(yè)生就業(yè)預(yù)測(cè)時(shí)間最短,主要是由于蟻群算法找到了更優(yōu)的參數(shù),最優(yōu)參數(shù)加快了高校畢業(yè)生就業(yè)預(yù)測(cè)建模的速度,實(shí)際應(yīng)用價(jià)值更高。
表3 高校畢業(yè)生就業(yè)預(yù)測(cè)的訓(xùn)練時(shí)間對(duì)比 單位:s
表4 高校畢業(yè)生就業(yè)預(yù)測(cè)的測(cè)試時(shí)間(s)對(duì)比
高校畢業(yè)生就業(yè)一直是高校研究人員關(guān)注的焦點(diǎn),其預(yù)測(cè)結(jié)果的科學(xué)性有利于高校開(kāi)展就業(yè)工作,而高校畢業(yè)生就業(yè)是一個(gè)系統(tǒng)工程,牽涉到各方面因素很多,使得高校畢業(yè)生就業(yè)面臨巨大挑戰(zhàn)。為了有效改善當(dāng)前高校畢業(yè)生就業(yè)預(yù)測(cè)效果,提出了基于大數(shù)據(jù)分析技術(shù)的高校畢業(yè)生就業(yè)預(yù)測(cè)方法,首先采用大數(shù)據(jù)分析技術(shù)擬合高校畢業(yè)生就業(yè)的變化規(guī)律,并引入群智能算法中的蟻群算法對(duì)預(yù)測(cè)模型參數(shù)進(jìn)行優(yōu)化,提高高校畢業(yè)生就業(yè)預(yù)測(cè)精度,測(cè)試結(jié)果表明,大數(shù)據(jù)分析技術(shù)較好的解決了當(dāng)前高校畢業(yè)生就業(yè)預(yù)測(cè)中存在的一些問(wèn)題,減少了高校畢業(yè)生就業(yè)預(yù)測(cè)誤差,獲得了比其它方法更優(yōu)的預(yù)測(cè)結(jié)果,可以應(yīng)用于實(shí)際的高校畢業(yè)生就業(yè)管理中。