李路瑤
(西安工程大學(xué)黨委研究生工作部,西安710048)
我國對高等教育關(guān)注度越來越高,各類項(xiàng)目投入也越來越大,使高校體制得到大力改革。盡管高等教育擴(kuò)招政策[1]的推行全面提升了國民素質(zhì),實(shí)現(xiàn)了教育大眾化,與此同時(shí)也改變了高校學(xué)生的就業(yè)制度,引發(fā)了高校畢業(yè)生數(shù)量的爆炸式增長,導(dǎo)致學(xué)生就業(yè)問題日益凸顯,并逐漸演變成社會(huì)的熱議話題[2]。為給高校學(xué)生提供可靠的就業(yè)指導(dǎo)與決策,就業(yè)預(yù)測等相關(guān)技術(shù)脫穎而出,成為眾多相關(guān)領(lǐng)域人員的主要研究課題。
孫怡帆等[3]依據(jù)學(xué)生管理信息的大數(shù)據(jù),利用機(jī)器學(xué)習(xí)領(lǐng)域的Lasso Logistic算法,構(gòu)建出基于機(jī)器學(xué)習(xí)算法的大學(xué)生畢業(yè)去向預(yù)測模型;呂同雙等[4]采用基于立體數(shù)據(jù)的就業(yè)去向預(yù)測算法,通過橫向、縱向?qū)Ρ葘W(xué)生的內(nèi)外在數(shù)據(jù),給出合理的職業(yè)規(guī)劃建議。
由于上述文獻(xiàn)方法在處理大規(guī)模數(shù)據(jù)集時(shí)存在無法應(yīng)對大量數(shù)據(jù)的幾率,致使數(shù)據(jù)有所缺失,導(dǎo)致預(yù)測結(jié)果出現(xiàn)偏差。因此,筆者基于層次聚類方法,設(shè)計(jì)出一種大學(xué)生就業(yè)去向短期預(yù)測系統(tǒng)。引用層次聚類算法,令數(shù)據(jù)集處理更加充分、完整,確保預(yù)測系統(tǒng)的精準(zhǔn)性;通過構(gòu)建系統(tǒng)數(shù)據(jù)庫實(shí)體及其間關(guān)聯(lián)模型,使實(shí)體間與數(shù)據(jù)庫表間關(guān)系更加緊密。
該模塊主要用于處理高校畢業(yè)生相關(guān)數(shù)據(jù)信息,為數(shù)據(jù)庫建立奠定基礎(chǔ)。模塊的設(shè)計(jì)理念是基于已知簇間距離度量標(biāo)準(zhǔn),構(gòu)建一棵聚類樹,由簇與子簇組成,待符合收斂條件后結(jié)束。層次聚類通常分為凝聚層次聚類與分裂層次聚類兩種,如圖1所示,其中a、b、c、d、e分別表示各處理目標(biāo),層次聚類就是處理目標(biāo)數(shù)據(jù)集合的過程。在凝聚層次聚類策略中,各簇即為一個(gè)處理目標(biāo),結(jié)合聚類準(zhǔn)則[5]合并簇,反復(fù)合并直到全部目標(biāo)聚類為一個(gè)簇;而對分裂層次聚類策略的處理階段,目標(biāo)的初始狀態(tài)均位于相同簇內(nèi),基于相關(guān)簇間距離準(zhǔn)則分裂簇,經(jīng)過循環(huán)分裂,待各新簇僅存唯一目標(biāo)時(shí)分裂終止。一般情況下,兩類層次聚類策略的終止條件是用戶界定的簇個(gè)數(shù)或閾值。
圖1 層次聚類樹形圖Fig.1 Hierarchical clustering tree diagram
該模塊中任意兩簇間的距離度量標(biāo)準(zhǔn)共存在以下4種,預(yù)測過程中需按照待挖掘數(shù)據(jù)量,合理選取相應(yīng)的度量標(biāo)準(zhǔn)。
1)最小距離。獲取兩個(gè)簇之間的各數(shù)據(jù)點(diǎn)間距,選取最短間距作為兩簇距離。最小距離度量標(biāo)準(zhǔn)的表達(dá)式如下
其中dmin為兩數(shù)據(jù)點(diǎn)間最小距離,ci,cj為簇A與簇B里的任意數(shù)據(jù)點(diǎn),p、p′為具有最短間距的兩數(shù)據(jù)點(diǎn),分別位于簇A與簇B中,即p∈ci,p′∈cj。其直觀圖如圖2所示。
圖2 最小距離度量標(biāo)準(zhǔn)示意圖Fig.2 Schematic diagram of the minimum distance metric
2)最大距離。在兩簇?cái)?shù)據(jù)點(diǎn)間的所有間距中,選取最長間距作為兩簇距離,即為最大距離度量標(biāo)準(zhǔn)。度量標(biāo)準(zhǔn)的計(jì)算公式如下
其中dmax為兩數(shù)據(jù)點(diǎn)間最大距離。其直觀圖如圖3所示。
圖3 最大距離度量標(biāo)準(zhǔn)示意圖Fig.3 Schematic diagram of the maximum distance metric
3)平均值距離。該度量標(biāo)準(zhǔn)是利用兩簇的中心點(diǎn)間距表示兩簇距離[6]。采用
界定平均值距離度量標(biāo)準(zhǔn)。其中dmean為兩簇中心點(diǎn)之間的距離,mi、mj為簇A與簇B的平均值。其直觀圖如圖4所示。
圖4 平均值距離度量標(biāo)準(zhǔn)示意圖Fig.4 Schematic diagram of averagedistance metric
4)平均距離。求取兩簇間各數(shù)據(jù)點(diǎn)間距的均值,將其作為兩簇距離。平均距離度量標(biāo)準(zhǔn)的表達(dá)式如下
其中davg為兩簇間距均值,ni、nj為簇A與簇B分別含有的目標(biāo)數(shù)量。其直觀圖如圖5所示。
圖5 平均距離度量標(biāo)準(zhǔn)示意圖Fig.5 Schematic diagram of average distance metric
層次聚類算法模塊將各目標(biāo)與聚類一一對應(yīng),結(jié)合選定的簇間距離度量標(biāo)準(zhǔn),完成近似簇合并,待滿足終止條件時(shí)聚類結(jié)束。該算法運(yùn)行流程如圖6所示。
圖6 層次聚類算法流程圖Fig.6 Flow chart of hierarchical clustering algorithm
具體步驟描述如下。首先,根據(jù)簇間距離度量標(biāo)準(zhǔn),求解全部數(shù)據(jù)點(diǎn)之間的距離,架構(gòu)差異矩陣[7];其次,合并具有最小距離的兩個(gè)簇;然后,重新求解全部簇間距離,完成差異矩陣更新;最后,迭代循環(huán)以上兩個(gè)流程,待滿足終止條件算法結(jié)束。
作為大學(xué)生就業(yè)去向短期預(yù)測系統(tǒng)的關(guān)鍵部分,數(shù)據(jù)庫對系統(tǒng)整體性能有直接影響。
畢業(yè)生用戶、企事業(yè)單位用戶是預(yù)測系統(tǒng)的業(yè)務(wù)中心,兩者與系統(tǒng)管理員間的關(guān)系密不可分,故基于此角色及其主要職責(zé),設(shè)計(jì)以下系統(tǒng)數(shù)據(jù)庫實(shí)體。
1)管理員。該角色享有系統(tǒng)管理的最高權(quán)限[8],查詢、修改畢業(yè)生與企業(yè)用戶信息,監(jiān)管用戶網(wǎng)絡(luò)行為等。
2)畢業(yè)生用戶。注冊用戶信息后等待管理員審核,實(shí)現(xiàn)相關(guān)招聘信息查詢、求職簡歷發(fā)布、與管理員在線交流等功能。
3)發(fā)布招聘信息。企業(yè)單位信息注冊,經(jīng)管理員審核成功,發(fā)布企業(yè)招聘信息,為畢業(yè)生用戶連通與企業(yè)的交流渠道。
4)信息咨詢。作為系統(tǒng)的主要交互活動(dòng)之一,信息咨詢實(shí)體在兩用戶間形成了問答形式,經(jīng)管理員刪選整理,提取出代表性內(nèi)容以便用戶查詢。
5)發(fā)布就業(yè)相關(guān)信息。管理員與企業(yè)用戶共同操作、管理,分別發(fā)布學(xué)校相關(guān)、就業(yè)相關(guān)以及企業(yè)相關(guān)等最新消息。
基于上述系統(tǒng)數(shù)據(jù)庫實(shí)體,聯(lián)立各實(shí)體間的關(guān)系進(jìn)行建模,所得E-R(Entity-Relationship Model)模型如圖7所示。
圖7 數(shù)據(jù)庫實(shí)體E-R模型Fig.7 Database entity E-R model
結(jié)合數(shù)據(jù)庫實(shí)體創(chuàng)建出用戶信息表、畢業(yè)生信息表、操作年份表、信息發(fā)布表、就業(yè)去向代碼表、招聘單位信息表與性質(zhì)代碼表、單位招聘信息表等主要系統(tǒng)數(shù)據(jù)庫表,具體如下。
1)用戶信息表。存儲(chǔ)用戶名、密碼、姓名以及班級或部門等用戶相關(guān)信息,將用戶名作為此表主鍵,部分表結(jié)構(gòu)如表1所示。
表1 用戶信息表Tab.1 User information table
2)畢業(yè)生信息表。該表是畢業(yè)生用戶的主操作表,用于存儲(chǔ)、管理歷屆學(xué)生信息,主要字段由學(xué)號、考生號、性別、民族、入學(xué)/畢業(yè)時(shí)間以及應(yīng)聘企業(yè)等。此表主鍵是學(xué)生學(xué)號,部分表結(jié)構(gòu)如表2所示。
表2 畢業(yè)生信息表Tab.2 Graduate information form
3)操作年份表。字段包含當(dāng)前畢業(yè)生用戶年份、是否是應(yīng)屆畢業(yè)生年份等。標(biāo)識字段ID是表主鍵,結(jié)構(gòu)如表3所示。
表3 操作年份表Tab.3 Operating year table
4)信息發(fā)布表。用于存儲(chǔ)用戶間的交流信息,字段為信息種類、內(nèi)容、發(fā)布時(shí)間等,信息標(biāo)識是此表主鍵,部分表結(jié)構(gòu)如表4所示。
表4 信息發(fā)布表Tab.4 Information release form
5)就業(yè)去向代碼表。根據(jù)教育廳統(tǒng)一代碼表設(shè)計(jì)而成,標(biāo)志性字段為培養(yǎng)模式代碼、代碼名稱以及是否選取,主鍵是前兩個(gè)字段,表結(jié)構(gòu)如表5所示。
表5 就業(yè)去向代碼表Tab.5 Code table of employment destination
6)招聘單位信息表。用于登記企業(yè)類別、名稱、所在地及其代碼、招聘部門以及聯(lián)系人等招聘企業(yè)信息,單位編號是該表主鍵,部分表結(jié)構(gòu)如表6所示。
表6 招聘單位信息表Tab.6 Recruitment unit information table
7)招聘單位性質(zhì)代碼表。按照教育廳分類標(biāo)準(zhǔn),采用此表劃分招聘企業(yè)類型,常見類別為事業(yè)單位、國營企業(yè)、私營企業(yè)以及外資企業(yè)。單位性質(zhì)代碼與代碼名稱是此表主鍵,表結(jié)構(gòu)如表7所示。
表7 招聘單位性質(zhì)代碼表Tab.7 List of recruitment unit nature code
8)單位招聘信息表。管理招聘企業(yè)代碼、編號以及說明等企業(yè)招聘信息,招聘編號屬表主鍵,部分表結(jié)構(gòu)如表8所示。
表8 單位招聘信息表Tab.8 Unit recruitment information form
采集某高校歷屆畢業(yè)生相關(guān)信息,結(jié)構(gòu)化處理成預(yù)測用關(guān)系數(shù)據(jù)庫,基于此劃分就業(yè)去向問題為決策結(jié)果的目標(biāo)層、影響因素的準(zhǔn)則層以及就業(yè)去向的方案層,構(gòu)建就業(yè)去向?qū)哟谓Y(jié)構(gòu)模型,如圖8所示。
圖8 就業(yè)方向?qū)哟谓Y(jié)構(gòu)模型Fig.8 Hierarchical structure model of employment direction
為驗(yàn)證筆者系統(tǒng)有效且可行,分別采用精確率precision(P)與召回率recall(R)指標(biāo),綜合評估系統(tǒng)性能,計(jì)算公式分別如下
其中FP為假正例,FN為假負(fù)例,TP為真正例。
經(jīng)系統(tǒng)處理分析得到就業(yè)去向分類統(tǒng)計(jì)表,如表9所示。
表9 就業(yè)去向分類統(tǒng)計(jì)表Tab.9 Classification statistics of employment destination
與短期預(yù)測的就業(yè)去向參考閾值對比后,取得最終的短期預(yù)測結(jié)果如表10所示。根據(jù)表10中數(shù)據(jù)可知,筆者系統(tǒng)根據(jù)簇間距離度量標(biāo)準(zhǔn),構(gòu)建了由簇與子簇構(gòu)成的層次聚類算法模塊,結(jié)合聚類規(guī)則,對簇展開合并或分裂直至滿足收斂條件,使各類數(shù)據(jù)得到充分利用與處理,因此,系統(tǒng)具有較好的可行性,能滿足學(xué)生就業(yè)去向短期預(yù)測的應(yīng)用需求。
表10 部分學(xué)生就業(yè)去向短期預(yù)測結(jié)果統(tǒng)計(jì)表Tab.10 Statistics of short-term prediction results of some students‘employment destinations
采用精確率與召回率指標(biāo)評估筆者系統(tǒng)性能,指標(biāo)數(shù)值結(jié)果如圖9所示。
圖9 評價(jià)指標(biāo)結(jié)果示意圖Fig.9 Schematic diagram of evaluation index results
精確率與召回率的評價(jià)指標(biāo)結(jié)果顯示,由于筆者系統(tǒng)基于系統(tǒng)業(yè)務(wù)中心,設(shè)計(jì)了管理員、畢業(yè)生用戶、發(fā)布招聘信息等系統(tǒng)數(shù)據(jù)庫實(shí)體,聯(lián)立了各實(shí)體間的關(guān)系模型,結(jié)合實(shí)體及其間關(guān)聯(lián)創(chuàng)建出系統(tǒng)數(shù)據(jù)庫表,故預(yù)測準(zhǔn)度較高,有效性優(yōu)勢顯著。
隨著改革發(fā)展的不斷深入,高等教育廣泛普及,逐漸邁入大眾化進(jìn)程中,導(dǎo)致各高校畢業(yè)生數(shù)量呈指數(shù)級增長,嚴(yán)峻的就業(yè)形勢為社會(huì)帶來了巨大的就業(yè)壓力。在當(dāng)前的計(jì)算機(jī)技術(shù)時(shí)代,有關(guān)就業(yè)信息的處理系統(tǒng)應(yīng)運(yùn)而生,使就業(yè)指導(dǎo)更具針對性。由于現(xiàn)有系統(tǒng)的處理結(jié)果相對粗略,故筆者引入層次聚類策略,構(gòu)建出一種大學(xué)生就業(yè)去向短期預(yù)測系統(tǒng)。在今后的工作中應(yīng)嘗試采用其他算法與策略,使預(yù)測分析更具動(dòng)態(tài)性;需緊密結(jié)合計(jì)算機(jī)技術(shù)與當(dāng)前就業(yè)形勢,添加短信平臺、在線視頻等系統(tǒng)功能,進(jìn)一步優(yōu)化系統(tǒng);系統(tǒng)測試屬性眾多,采集的數(shù)據(jù)樣本有可能忽略了部分測試屬性,導(dǎo)致系統(tǒng)檢測結(jié)果過于片面,應(yīng)將其作為下一階段研究重點(diǎn),為畢業(yè)生制定更準(zhǔn)確、更合理的就業(yè)去向。