吳蘇禮, 雷雙媛, 王冠卓, 劉大旭
(黑龍江中醫(yī)藥大學(xué), 佳木斯學(xué)院, 黑龍江, 哈爾濱 150040)
近年海量畢業(yè)生涌入社會,但是社會各行各業(yè)職位有限,就業(yè)壓力逐年增大,就業(yè)競爭激烈[1]。社會各界與高校都越來越重視大學(xué)生的就業(yè)率情況,每個高校對于大學(xué)生就業(yè)情況的統(tǒng)計(jì)都有一套已經(jīng)形成體系的大學(xué)生就業(yè)率統(tǒng)計(jì)信息管理系統(tǒng)或者管理模型[2-4]。高校信息管理水平不斷提升,能夠完整保存并匯總歷年畢業(yè)生的就業(yè)情況數(shù)據(jù)與就業(yè)率統(tǒng)計(jì)結(jié)果,存儲在高校的就業(yè)統(tǒng)計(jì)系統(tǒng)之中。高校為制定招生計(jì)劃和教學(xué)計(jì)劃,需要對畢業(yè)生歷年就業(yè)情況進(jìn)行預(yù)測,對于預(yù)測情況已經(jīng)有眾多學(xué)者做出研究:有學(xué)者使用灰色預(yù)測模型[5]預(yù)測大學(xué)生就業(yè)情況,該方法利用數(shù)字建模實(shí)現(xiàn)就業(yè)率預(yù)測,但在預(yù)測準(zhǔn)確性方面仍需進(jìn)一步研究;還有學(xué)者提出以立體數(shù)據(jù)作為基礎(chǔ)的就業(yè)率預(yù)測方法[6],該方法從橫、縱兩個方面實(shí)現(xiàn)就業(yè)率預(yù)測,同時也為大學(xué)生未來就業(yè)做出指導(dǎo),但是存在計(jì)算過程較為復(fù)雜的情況,在未來研究中仍需進(jìn)一步驗(yàn)證。
混沌理論是同時包含量化分析與質(zhì)性思考的方法,決定論方程無規(guī)律運(yùn)動也是混沌性的來源,分析有關(guān)混沌理論的各種方法總結(jié)出兩個有關(guān)混沌理論的基本觀點(diǎn):混沌是一種對于非線性系統(tǒng)內(nèi)在隨機(jī)性的確定,也就是說混沌理論是一種表面上看似無規(guī)律但實(shí)際上卻存在內(nèi)在聯(lián)系的非周期行為,在處理混沌理論時,使用非線性手段處理非線性問題[7-9]。
支持向量機(jī)是一種人工智能算法,最終目的是實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化,對于非線性以及局部極小點(diǎn)等現(xiàn)實(shí)問題能夠具有較好的解決效果,在各類預(yù)測問題中應(yīng)用廣泛[10]。使用支持向量機(jī)實(shí)現(xiàn)預(yù)測時不但需要關(guān)聯(lián)自身樣本,同時還需要關(guān)聯(lián)被預(yù)測的訓(xùn)練樣本。在實(shí)際使用時,通過人工手段實(shí)現(xiàn)訓(xùn)練樣本的輸入與輸出矩陣,評價(jià)模型預(yù)測效果與逼近能力的好壞采用均方根誤差時進(jìn)行衡量,但是這種方法仍然存在不足的地方,比如選取訓(xùn)練樣本時沒有正確的理論指導(dǎo),若想實(shí)現(xiàn)模型修正必須不斷調(diào)整真實(shí)值和預(yù)測值之間的誤差,待模型預(yù)測精度達(dá)到一個滿意值方可停止修正,這種情況導(dǎo)致模型需要經(jīng)過長時間訓(xùn)練,這種長時間的訓(xùn)練極其容易造成模型出現(xiàn)過擬合,因此需要引入非線性的混沌理論實(shí)現(xiàn)修正,對預(yù)測對象實(shí)行建模。
本文主要研究基于混沌理論與支持向量機(jī)的就業(yè)率預(yù)測,為高校未來工作指明方向。
在就業(yè)率預(yù)測方法中使用混沌優(yōu)化算法就是為了實(shí)現(xiàn)預(yù)測模型優(yōu)化,搜索過程中使用混沌變量。式(1)為Logistic模型,通過該模型實(shí)現(xiàn)混沌映射:
zm+1=4zm(1-zm)
(1)
利用minf(x1,x2,…,xn)xi∈[ai,bi](i=1,2,…,n)表示連續(xù)對象的優(yōu)化問題,待優(yōu)化參數(shù)與xi的取值空間分別使用xi和[ai,bi]表示。
經(jīng)式(1)獲得混沌序列值,對該值載波,對應(yīng)混沌變量與待優(yōu)化參數(shù),經(jīng)迭代后將結(jié)果在[ai,bi]區(qū)間映射出來,同時獲得與區(qū)間對應(yīng)的xi值,由此求得f(x)的值,由此判斷迭代結(jié)果是否最優(yōu),如果是最優(yōu)迭代結(jié)果則停止迭代,反之繼續(xù)迭代。通過以下步驟實(shí)現(xiàn)混沌優(yōu)化算法改進(jìn)。
(1) 對算法實(shí)行初始化,設(shè)M1與M2分別表示搜索次數(shù)與二次搜索迭代次數(shù),把n個初值zi0(i=1,2,…,n)賦值到式(1)中(初值之間差異較小),則混沌變量集合{zi}有n個差異軌跡,設(shè)j0表示迭代常數(shù)。
(2) 開始第一次載波。在第i個優(yōu)化變量內(nèi),使用式(1)把已經(jīng)確定的n個混沌變量zi,m引入,使優(yōu)化變量轉(zhuǎn)換為混沌變量:
xi,m=ai+(bi-ai)zi,m
(2)
通過式(2)放大混沌變量的變化范圍,使變量取值范圍在對應(yīng)的優(yōu)化量中。
(3) 實(shí)現(xiàn)粗略搜索。使xi,m與xi(k)相等,k等于0,針對性能指標(biāo)fi(k)實(shí)行計(jì)算,計(jì)算目標(biāo)函數(shù)獲得fi(k)。
(4) 假如k小于M1,此時k與k+1相等,跳轉(zhuǎn)至步驟(3),否則就將第一次搜索停止。
(5) 依據(jù)式(3)開始第二次載波:
(3)
(7) 假如k′小于M1,此時k′與k′+1相等,跳轉(zhuǎn)至步驟(6)。
(8) 假如j小于M2,此時j與j+1相等,跳轉(zhuǎn)至步驟(6),否則第二次搜索停止,將最優(yōu)解輸出。
由以上步驟能夠看出,本文方法對混沌算法做出3點(diǎn)改進(jìn):把常見的混沌算法內(nèi)的調(diào)節(jié)系數(shù)變更成關(guān)聯(lián)迭代次數(shù);步驟中增加越界處理;改進(jìn)原有載波方法。通過以上步驟實(shí)現(xiàn)混沌優(yōu)化算法的改進(jìn),提升模型尋優(yōu)能力。
式(4)為訓(xùn)練數(shù)據(jù)點(diǎn)集:
(4)
其中,x1與yi分別為輸入向量與輸出值,1代表樣本數(shù)量。支持向量機(jī)回歸就是把數(shù)據(jù)x1通過非線性映射φ至高維特征空間F中,同時展開線性回歸:
y=f(x)=wT*φ(x)+b
(5)
其中,b與w分別表示偏置項(xiàng)與超平面權(quán)重向量。
本文基于支持向量機(jī)[11]的就業(yè)率預(yù)測模型的回歸過程中使用ε不敏感損失函數(shù),使用式(6)描述ε:
(6)
(7)
(8)
所有大于0的常數(shù)都使用C表示,為了實(shí)現(xiàn)模型訓(xùn)練誤差與復(fù)雜度的平衡,一旦超出ε的樣本,設(shè)置懲罰參數(shù)。將式(7)和式(8)轉(zhuǎn)化為對偶問題:
(9)
約束條件為
(10)
(11)
其中,p表示徑向基核函數(shù)寬度。求解式(9)與式(10),式(12)為
(12)
經(jīng)過以上支持向量機(jī)回歸函數(shù)獲知徑向基核函數(shù)寬度與懲罰參數(shù)決定支持向量機(jī)的預(yù)測性能,所以使用混沌粒子群算法對支持向量機(jī)的參數(shù)實(shí)行優(yōu)化,圖1為優(yōu)化流程。初始化粒子群參數(shù),為獲得支持向量機(jī)參數(shù),反編碼粒子,對每個粒子的適應(yīng)度實(shí)行計(jì)算,對于個體和全集合的最優(yōu)值實(shí)行更新,判斷是否需滿足終止條件。如果不滿足實(shí)行混沌操作粒子,并且更新粒子的位置和速度,重新計(jì)算粒子的適應(yīng)度值;如果符合終止條件就反編碼全局最優(yōu)解獲得支持向量機(jī)參數(shù)。
圖1 支持向量機(jī)參數(shù)優(yōu)化流程
(1) 數(shù)據(jù)預(yù)處理
綜上所述,喉源性咳嗽患者的局部病理改變與中醫(yī)辨證分型有關(guān),通過對患者局部病理改變進(jìn)行相應(yīng)檢查,可從整體辨證認(rèn)識患者病情,有利于為喉源性咳嗽的中醫(yī)辨證論治提供可靠指導(dǎo)意見。
預(yù)測就業(yè)率時受到多種因素影響,數(shù)據(jù)之間存在較大差距,隨機(jī)性與非線性較強(qiáng),0~1之間的數(shù)據(jù)最能導(dǎo)致支持向量機(jī)敏感,先對數(shù)據(jù)歸一化處理再輸入到支持向量機(jī)中訓(xùn)練:
(13)
歸一化處理預(yù)測結(jié)果,再將預(yù)測結(jié)果恢復(fù)成真實(shí)值:
X=X′(Xmax-Xmin)+Xmin
(14)
其中,X表示原始數(shù)據(jù),Xmax表示就業(yè)率的極大值,Xmin表示就業(yè)率的極小值。
(2) 模型的輸入與輸出結(jié)構(gòu)
使用函數(shù)關(guān)系表示混沌理論相空間的某個相點(diǎn)xi向下個相點(diǎn)xi+1演變:
f∶xi+1=f(xi)
(15)
相點(diǎn)的前m-1個分量均為已經(jīng)獲知的數(shù)據(jù),為使模型更簡潔,構(gòu)建一個預(yù)測器(映射F),也就是xi+1=f(xi)。韋氏數(shù)據(jù)具有動力學(xué)行為,將非線性映射F與支持向量機(jī)擬合,相空間飽和嵌入維數(shù)作為輸入節(jié)點(diǎn)的數(shù)目,僅有一個輸出節(jié)點(diǎn)。
(3) 為提升基于支持向量機(jī)的就業(yè)率預(yù)測模型的泛化推理能力,模型訓(xùn)練樣本為預(yù)測中心的k個鄰近點(diǎn),依據(jù)歐式距離標(biāo)準(zhǔn)獲得鄰近相點(diǎn):
(16)
其中,Xr與Xri分別表示預(yù)測中心相點(diǎn)與Xr的第i個鄰近相點(diǎn)。
(4) 模型預(yù)測步驟
基于混沌理論與支持向量機(jī)的就業(yè)率預(yù)測如下:
步驟1 預(yù)處理原始數(shù)據(jù);
步驟2 構(gòu)建基于支持向量機(jī)的就業(yè)率預(yù)測模型輸入向量與輸出變量,選取樣本時使用K鄰近算法,構(gòu)建樣本訓(xùn)練集;
步驟3 訓(xùn)練模型:使用混沌粒子優(yōu)化基于支持向量機(jī)的就業(yè)率預(yù)測模型參數(shù),訓(xùn)練數(shù)據(jù)樣本集;
步驟4 實(shí)現(xiàn)預(yù)測:在步驟3訓(xùn)練獲得的改進(jìn)支持向量機(jī)就業(yè)率預(yù)測模型中代入預(yù)測中心點(diǎn)數(shù)據(jù),獲得就業(yè)率預(yù)測值。
以某高校作為研究對象,收集該校歷屆畢業(yè)生就業(yè)數(shù)據(jù)。該大學(xué)是我國著名211重點(diǎn)大學(xué),近十年就業(yè)率保持在89%以上。在計(jì)算機(jī)中搭建測試平臺,在該測試平臺中同時使用同類預(yù)測模型:灰色預(yù)測模型(對比方法1)和立體數(shù)據(jù)預(yù)測模型(對比方法2)作為實(shí)驗(yàn)對照,這2個對照方法分別為參考文獻(xiàn)[5]與參考文獻(xiàn)[6]中的方法。
為驗(yàn)證混沌算法的尋優(yōu)情況,使用Spher測試函數(shù)開展測試實(shí)驗(yàn),比較3種方法的尋優(yōu)搜索變化情況,結(jié)果見圖2。從圖2中能夠看出,Spher測試函數(shù)實(shí)驗(yàn)中,本文方法展現(xiàn)出更加優(yōu)異的全局搜索能力與更加快速的收斂速度,這主要是由于本文方法混沌優(yōu)化過程中使用越界處理,具有精搜索能力,能夠?qū)崿F(xiàn)快速尋優(yōu),因此在函數(shù)測試中具有更加優(yōu)異的效果。從圖2中能夠明顯看出,2種對比方法收斂速度較慢且尋優(yōu)能力較差,在函數(shù)測試中不具備優(yōu)勢。
圖2 函數(shù)最優(yōu)值變化趨勢
使用2000年至2010年這10年的就業(yè)率數(shù)據(jù)作為訓(xùn)練樣本對模型訓(xùn)練,訓(xùn)練對比結(jié)果見圖3。從圖3中能夠看出,本文方法訓(xùn)練樣本時,可以迅速收斂,迭代次數(shù)小于100次,訓(xùn)練曲線趨于平穩(wěn),說明本文方法具有較好的樣本訓(xùn)練效果,以及較低模型計(jì)算復(fù)雜度。
圖3 支持向量機(jī)模型訓(xùn)練過程
訓(xùn)練過程時間消耗對比結(jié)果見圖4。從圖4中能夠看出,本文方法只需要較短時間就能完成模型訓(xùn)練,說明本文方法效率較高。2種對比方法所耗費(fèi)的馴良時間較長,影響預(yù)測效率。
圖4 訓(xùn)練時間消耗對比
收集研究對象近十年的就業(yè)率,使用本文方法對實(shí)驗(yàn)對象的就業(yè)率實(shí)行預(yù)測,將預(yù)測結(jié)果與實(shí)際對比,驗(yàn)證預(yù)測結(jié)果與實(shí)際值之間的均方誤差與平均百分比誤差,同時將本文方法與單獨(dú)使用混沌理論預(yù)測就業(yè)率方法以及單獨(dú)使用支持向量機(jī)的就業(yè)率預(yù)測方法相對比,結(jié)果見圖5。從圖5中能夠看出,單純使用混沌理論或者單純使用支持向量機(jī)對研究對象畢業(yè)生就業(yè)率均方誤差與平均百分比誤差均較高,說明單獨(dú)使用一種方法預(yù)測畢業(yè)生就業(yè)率存在不夠精準(zhǔn)的情況,而本文方法綜合混沌理論與支持向量機(jī)的優(yōu)點(diǎn)對高校畢業(yè)生就業(yè)率實(shí)行預(yù)測,誤差指標(biāo)均較低,由此可以看出,使用本文方法預(yù)測就業(yè)率時具有較高的準(zhǔn)確率。
(a) 均方誤差
預(yù)測高校畢業(yè)生就業(yè)率,能夠有利于高校制定教學(xué)管理計(jì)劃與教學(xué)任務(wù),是目前高校廣泛研究的內(nèi)容。為了降低高校畢業(yè)生的就業(yè)率預(yù)測誤差,本文研究基于混沌理論與支持向量機(jī)的就業(yè)率預(yù)測方法??紤]到就業(yè)率預(yù)測的非線性特點(diǎn),運(yùn)用混沌理論優(yōu)化支持向量機(jī)參數(shù),在解空間搜索,跳出局部最優(yōu),實(shí)現(xiàn)高效率搜索。在支持向量機(jī)中訓(xùn)練數(shù)據(jù)集,訓(xùn)練模型中代入預(yù)測中心點(diǎn)數(shù)據(jù)實(shí)現(xiàn)最終就業(yè)率預(yù)測。將某高校歷屆畢業(yè)生數(shù)據(jù)作為研究對象開展實(shí)驗(yàn),與同類方法相比,本文方法能夠?qū)崿F(xiàn)快速收斂與快速尋優(yōu),且樣本訓(xùn)練時間較快。經(jīng)過驗(yàn)證,本文方法在預(yù)測高校畢業(yè)生就業(yè)率時具有較高精度。