杭州職業(yè)技術(shù)學(xué)院 吳功才 鄭何敏
據(jù)中國(guó)政府官網(wǎng)統(tǒng)計(jì)數(shù)據(jù)顯示,從2001年開(kāi)始,我國(guó)普通高校畢業(yè)生人數(shù)持續(xù)增長(zhǎng),2018年全國(guó)普通高校畢業(yè)生為820萬(wàn)人,比2017年多出25萬(wàn),就業(yè)形勢(shì)非常嚴(yán)峻。一方面是每年數(shù)以百萬(wàn)的畢業(yè)生就業(yè)信息沉積于信息服務(wù)器之中,一方面是年復(fù)一年日益嚴(yán)峻的就業(yè)形勢(shì),為教育信息的管理提出了一個(gè)新的研究課題:大數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)中的應(yīng)用。即利用挖掘技術(shù)對(duì)已有的往屆畢業(yè)生就業(yè)信息加以數(shù)據(jù)挖掘、分析,挖掘出有價(jià)值的就業(yè)模型和就業(yè)規(guī)律,從而實(shí)現(xiàn)“精準(zhǔn)”就業(yè)。教育部早在2016年3月就下發(fā)了《關(guān)于開(kāi)展全國(guó)普通高校畢業(yè)生精準(zhǔn)就業(yè)服務(wù)工作的通知》[1],所以研究數(shù)據(jù)挖掘在高校畢業(yè)生精準(zhǔn)就業(yè)中的應(yīng)用正合當(dāng)前的就業(yè)形勢(shì)和導(dǎo)向。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘的主要技術(shù)流程為:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示[2],如圖1所示。
圖1 數(shù)據(jù)挖掘的技術(shù)流程
數(shù)據(jù)挖掘在高校就業(yè)中的應(yīng)用可以理解為:通過(guò)對(duì)高校畢業(yè)生就業(yè)信息的數(shù)據(jù)集特征進(jìn)行分析研究,對(duì)數(shù)據(jù)采用合適的清理、集成、選擇和變換等數(shù)據(jù)預(yù)處理技術(shù),然后采用相應(yīng)的適合畢業(yè)生就業(yè)信息數(shù)據(jù)集特征的數(shù)據(jù)挖掘算法對(duì)就業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘、分析,挖掘出有價(jià)值的就業(yè)模型和就業(yè)規(guī)律,從而為畢業(yè)生就業(yè)工作提供一定的參考、借鑒和指導(dǎo)作用。
數(shù)據(jù)挖掘主要可以通過(guò)對(duì)就業(yè)信息進(jìn)行主成分分析、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、決策樹(shù)和回歸分析等技術(shù)處理,實(shí)現(xiàn)高校就業(yè)工作有指導(dǎo)的招生、有方向的培養(yǎng)、精準(zhǔn)的推薦、準(zhǔn)確的就業(yè)預(yù)測(cè),應(yīng)用模型如圖2所示。
圖2 數(shù)據(jù)挖掘在精準(zhǔn)就業(yè)中的應(yīng)用模型
通過(guò)對(duì)畢業(yè)生的生源地、性格特征、入學(xué)成績(jī)、入學(xué)英語(yǔ)成績(jī)等學(xué)生屬性和就業(yè)質(zhì)量間進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,從而發(fā)現(xiàn)“畢業(yè)時(shí)可能最容易就業(yè)的”的新生。尤其是在具有自主招生權(quán)限的學(xué)校不一定非要遵循“高分錄取”的單一招生政策,有良好的個(gè)性、有優(yōu)良的英語(yǔ)基礎(chǔ)的學(xué)生可能更值得錄取??傊ㄟ^(guò)對(duì)就業(yè)信息的數(shù)據(jù)挖掘形成一個(gè)“更具就業(yè)優(yōu)勢(shì)”的招生指導(dǎo)方針。
通過(guò)對(duì)畢業(yè)生信息和就業(yè)質(zhì)量進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,從而發(fā)現(xiàn)“最難就業(yè)的那一類(lèi)畢業(yè)生”的屬性特征。通過(guò)對(duì)“最難就業(yè)的那一類(lèi)畢業(yè)生”和“就業(yè)最理想的哪一類(lèi)學(xué)生”進(jìn)行對(duì)比,可以指導(dǎo)目前在校的“準(zhǔn)畢業(yè)生”向“就業(yè)最理想的哪一類(lèi)學(xué)生”的方向培養(yǎng)。通過(guò)有目的的培養(yǎng)“準(zhǔn)畢業(yè)生”具有“就業(yè)最理想的哪一類(lèi)學(xué)生”的屬性特征,實(shí)現(xiàn)更高的畢業(yè)生就業(yè)率和更好的就業(yè)質(zhì)量。
精準(zhǔn)推薦主要體現(xiàn)在:向?qū)W生精準(zhǔn)推薦招聘意向高的招聘單位、聘單位精準(zhǔn)推薦滿意度高的畢業(yè)生。
● 向?qū)W生精準(zhǔn)推薦招聘意向高的招聘單位
通過(guò)對(duì)畢業(yè)生基于生源地、成績(jī)、英語(yǔ)能力、計(jì)算機(jī)能力、政治面貌等相關(guān)屬性進(jìn)行聚類(lèi)分析實(shí)現(xiàn)對(duì)學(xué)生的精準(zhǔn)分類(lèi),然后通過(guò)“這類(lèi)學(xué)生更合適、更愿意到那些單位就業(yè)”的統(tǒng)計(jì)分析,實(shí)現(xiàn)更好的、更準(zhǔn)確的向畢業(yè)生推薦就業(yè)單位,或者為學(xué)生尋找就業(yè)單位提供參考和建議。雖然這種方式還處在比較簡(jiǎn)單的層次,但也可以得了非常好的效果。
● 向招聘單位精準(zhǔn)推薦滿意度高的畢業(yè)生
與上面類(lèi)似,通過(guò)對(duì)招聘單位基于注冊(cè)資本、企事業(yè)性質(zhì)、企業(yè)涉及的行業(yè)、企業(yè)的歷史年限等相關(guān)屬性進(jìn)行聚類(lèi)分析實(shí)現(xiàn)對(duì)招聘單位精準(zhǔn)聚類(lèi),實(shí)現(xiàn)向招聘單位推薦“這類(lèi)單位很可能會(huì)滿意”的畢業(yè)生。
隨著學(xué)生數(shù)量、就業(yè)行業(yè)、影響就業(yè)因素的多元化和就業(yè)管理的提高,高校管理者對(duì)畢業(yè)生就業(yè)趨勢(shì)的預(yù)測(cè)以及學(xué)生培養(yǎng)模式的改進(jìn)越來(lái)越多的依賴(lài)于畢業(yè)生就業(yè)信息分析的結(jié)果。這其中最有效的信息分析的手段就是對(duì)就業(yè)信息進(jìn)行有效的數(shù)據(jù)挖掘,利用決策樹(shù)技術(shù)對(duì)影響大學(xué)生就業(yè)的多種因素進(jìn)行多層次、多角度的分析和比較,挖掘這些數(shù)據(jù)中所蘊(yùn)含的有價(jià)值的信息,最后形成準(zhǔn)確的就業(yè)數(shù)據(jù)模型,從而準(zhǔn)確的就業(yè)前景預(yù)測(cè)。
數(shù)據(jù)挖掘的操作對(duì)象是數(shù)據(jù),沒(méi)有足夠、合適的數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘技術(shù)而言就猶如“巧婦難為無(wú)米之炊”。數(shù)據(jù)挖掘在高校畢業(yè)生精準(zhǔn)就業(yè)的應(yīng)用中存在如下的幾個(gè)問(wèn)題:
● 數(shù)據(jù)采集和數(shù)據(jù)共享問(wèn)題
畢業(yè)生就業(yè)信息來(lái)之于全國(guó)各大高校在每年的畢業(yè)季申報(bào)的就業(yè)數(shù)據(jù)以及單位的招聘信息。因此,就業(yè)數(shù)據(jù)和招聘信息的真實(shí)性、數(shù)據(jù)的格式、數(shù)據(jù)內(nèi)容的取舍在很大程度上都依賴(lài)于企業(yè)、高校以及各地的教育主管部門(mén)。企業(yè)、高校和各地教育主管部門(mén)對(duì)就業(yè)數(shù)據(jù)的要求不一,會(huì)造成數(shù)據(jù)的格式、數(shù)據(jù)的內(nèi)容多樣化,嚴(yán)重降低數(shù)據(jù)的可挖掘性。同時(shí),考慮到多種原因,高校和企業(yè)可能會(huì)在數(shù)據(jù)申報(bào)上隱瞞不報(bào)或漏報(bào)少報(bào),造成數(shù)據(jù)挖掘的價(jià)值流失。
● 數(shù)據(jù)安全
在數(shù)據(jù)申報(bào)和數(shù)據(jù)挖掘的過(guò)程中,如何防止數(shù)據(jù)流失和數(shù)據(jù)安全是一個(gè)比較棘手的問(wèn)題。這其中包括畢業(yè)生就業(yè)信息、就業(yè)單位信息的加密和安全保護(hù)等問(wèn)題。
● 數(shù)據(jù)挖掘平臺(tái)的建設(shè)問(wèn)題
其中包括數(shù)據(jù)挖掘平臺(tái)的主體歸屬、平臺(tái)的建設(shè)經(jīng)費(fèi)來(lái)源數(shù)據(jù)挖掘成果的分配和共享以及數(shù)據(jù)挖掘平臺(tái)的可持續(xù)運(yùn)行等問(wèn)題。
隨著大數(shù)據(jù)挖掘、人工智能技術(shù)的普及和廣泛應(yīng)用,數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)工作的應(yīng)用必定會(huì)越來(lái)越廣泛。相信通過(guò)正確、合理的運(yùn)用數(shù)據(jù)挖掘技術(shù),高校就業(yè)工作一定可以實(shí)現(xiàn)有指導(dǎo)的招生、有方向的培養(yǎng)、精準(zhǔn)的推薦、準(zhǔn)確的就業(yè)預(yù)測(cè)。
[1]王美麗.大數(shù)據(jù)時(shí)代高校精準(zhǔn)就業(yè)服務(wù)工作研究[J].思想理論教育,2016(6):84-88.
[2]Jiawei Han,Micheline Kamber,Jian Pei著.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012:4-5.