黃星壽 劉迪
摘 要:IT類專業(yè)學生由于其專業(yè)特點,企業(yè)實習環(huán)節(jié)往往貫穿整個培養(yǎng)過程,實習環(huán)節(jié)效果的好壞直接影響到學生的能力培養(yǎng)與就業(yè)質(zhì)量。如何將實習單位的資源配置、業(yè)務(wù)特點及學生專長與興趣等因素進行有機整合,是改善和提高實習效果的有效途徑。本文基于機器學習的方法,對IT專業(yè)學生實習單位推薦與評價開展了研究工作,以某高校計算機專業(yè)歷年的實習、評價和就業(yè)等相關(guān)數(shù)據(jù)為學習樣本,自動學習和生成推薦模型與評價體系。實際應(yīng)用效果表明:該系統(tǒng)能為實習組織工作提供更加客觀的決策支持信息,有效提高學生的實習與就業(yè)質(zhì)量。
關(guān)鍵詞:推薦系統(tǒng);機器學習;評價系統(tǒng)
中圖分類號:TP181 文獻標識碼:A
Abstract:The effect of internship experience is a key factor of ability training and employment for college students,especially for IT majors.It is an effective way to improve the practical effect of business internship by integrating the resources and business characteristics of the firms with the expertise and interests of the students.This paper proposes an internship recommendation and evaluation system for IT major students based on machine learning methods by using college's internship and employment data as sample data to generate the recommendation model and the evaluation system.The findings show that the system can provide more objective decision-support information for the organization of internship,and improve students' internship and employment.
Keywords:recommended system;machine learning;evaluation system
1 引言(Introduction)
國家信息化建設(shè)的迫切需求催生了大量IT企業(yè)的涌現(xiàn),同時也提出了持續(xù)性的IT專業(yè)人才需求。順應(yīng)這種趨勢,幾乎所有的高校都開設(shè)了IT類專業(yè)。在廣招生源的同時,各培養(yǎng)單位也都意識到企業(yè)實習環(huán)節(jié)在IT類專業(yè)學生培養(yǎng)過程中的重要性,也開展了大量有針對性的研究工作。
文獻[1]對工科類大學生的成長方式進行了探索與總結(jié),通過雷達圖的形式給出了“實習、實訓”和“科技創(chuàng)新訓練”環(huán)節(jié)對學生就業(yè)能力培養(yǎng)的影響,詳細的論述了以就業(yè)為導(dǎo)向的工科類大學生培養(yǎng)應(yīng)該尤其注重加強企業(yè)實習環(huán)節(jié)的管理,充分利用好這一寶貴的社會資源,以培養(yǎng)出能滿足社會需求的專業(yè)人才;文獻[2]基于“5S管理理論”分析和論述了加強高校學生實習、實訓環(huán)節(jié)管理工作的必要性,并給出了相關(guān)的實施流程及可行性分析報告;文獻[3]以促進學生就業(yè)為出發(fā)點,詳盡的介紹了美國高校對于學生實習的有關(guān)價值觀念的形成過程和與之相對應(yīng)的政策制定與演進,實習過程的組織與效果測評等內(nèi)容。隨后與我國的相關(guān)制度與組織過程進行了深入對比,強調(diào)了“制度化”作為“基石”的重要性;文獻[4]也從促進學生就業(yè)的角度出發(fā),探討了加強實習基地建設(shè),緩解就業(yè)壓力和提高就業(yè)質(zhì)量的必要性和緊迫性,并對研究小組所開展的探索工作進行了簡潔的總結(jié)與反思;文獻[5]分析了在信息化背景下,教與學的過程在執(zhí)行環(huán)節(jié)中存在的一些問題,著重強調(diào)了“過程”的重要性。而實習環(huán)節(jié)也是整個過程中極為重要的一個環(huán)節(jié)。
2 機器學習輔助決策(Decision-Making aided by
machine learning)
機器學習是指使用計算機通過模擬人類學習和獲取信息的準則,以預(yù)測為目標的一系列過程。它包括統(tǒng)計建模、優(yōu)化處理、算法設(shè)計和統(tǒng)計分析等,涉及數(shù)學、統(tǒng)計學和計算機科學等多個學科[6]。通過幾十年的發(fā)展,尤其是隨著計算機處理和存儲能力的日益提高,機器學習目前已經(jīng)成為一個熱點研究領(lǐng)域,并和各行各業(yè)緊密結(jié)合,成為一門“利器”。決策論作為運籌學的一個重要分支,為決策分析提供了堅實的理論基礎(chǔ)[7]。傳統(tǒng)意義上的決策論往往需要預(yù)先給定一個評價準則,隨后在給定的信息集上通過數(shù)量方法來尋找或選取最優(yōu)決策。當面臨的數(shù)據(jù)維度較高,組成復(fù)雜的時候,常規(guī)的數(shù)量方法難以挖掘出高維數(shù)據(jù)中所隱含的特征,導(dǎo)致容易偏離最優(yōu)決策。這種情況下,可以通過利用新的技術(shù)手段進行高維數(shù)據(jù)挖掘來改善效果;也可以轉(zhuǎn)變角色,退化為輔助決策來繼續(xù)發(fā)揮作用。麻省理工學院的資深學者Theja Tulabandhula和Cynthia Rudin在文獻[8]中提出了一種綁定機器學習和決策的框架,并在航線規(guī)劃和交通路徑規(guī)劃(ML&TRP;)等實際應(yīng)用領(lǐng)域開展了驗證性研究工作,在一定程度上證明了該方法的理論基礎(chǔ)和實際可行性。文獻[9]利用貝葉斯網(wǎng)絡(luò)對不確定性問題的表達與處理能力,設(shè)計了一套網(wǎng)絡(luò)交互教學效果評價系統(tǒng),能有效改善網(wǎng)絡(luò)教學效果評價的質(zhì)量。
本研究小組對我院計算機科學與技術(shù)、軟件工程、網(wǎng)絡(luò)工程等三個專業(yè),自2011年以來的實習與就業(yè)相關(guān)數(shù)據(jù)進行收集整理,涉及相關(guān)學生累計達785人,實習與就業(yè)單位達325家,統(tǒng)計的多維度的單位信息、學生信息、實習組織相關(guān)信息、評價與反饋信息等記錄高達300多萬條(維)。依靠人工已經(jīng)難以充分和有效的挖掘出這些信息內(nèi)部所包含的有價值信息,以為后續(xù)實習工作提供輔助決策。因此,本文利用機器學習的方法對2011—2014年的相關(guān)數(shù)據(jù)進行學習,從高維度數(shù)據(jù)中學習出各個實習/就業(yè)單位和學生的相關(guān)特征,給出明確的類別標識,并作為決策信息為2015屆的實習與就業(yè)組織工作提供參考依據(jù)。
3 輔助決策的推薦系統(tǒng)構(gòu)建(Construction of
recommendation system for aided decision-
making)
從宏觀上來說,將合適的學生派遣至合適的實習單位,能充分發(fā)揮主觀能動性和資源配置優(yōu)勢,達到最好的實習效果,從而提升學生的整體就業(yè)競爭力。具體到每位學生,只能從眾多的待選實習單位中選擇一家進行派遣,且在實習過程中進行改派的可操作性也不強。因此,如何準確的對實習單位和待派學生進行特征分析與匹配,成為要解決的關(guān)鍵問題之一,也是首要問題。具有自然屬性的“實習單位”和“實習生”完全能符合“物以類聚,人以群分”的屬性,如果能借助于機器學習算法對“實習單位”和“實習生”進行合理的分析與劃分,將能有效的提高實習派遣與管理的效率和改善效果。
本系統(tǒng)的構(gòu)建目標即為:利用機器學習算法,以歷史的實習與就業(yè)數(shù)據(jù)為樣本,對相關(guān)實習單位按照多維特征值進行聚類操作,形成k個類;在實習派遣階段,再利用分類算法,將每名學生分到k類中的一個。這樣就能建立起一名學生到某類實習單位之間的映射關(guān)系,輔助決策推薦系統(tǒng)示意圖如圖1所示。
在圖1中,m為學生總數(shù),n為實習單位總數(shù),k為實習單位總類數(shù),其中,n>>k。通過該“聚類—分類”操作,實習派遣操作就轉(zhuǎn)換為從系統(tǒng)為某位同學推薦的一類實習單位中選擇一個的問題。該系統(tǒng)要能完成相關(guān)功能操作,需要解決如下兩項關(guān)鍵問題:
3.1 聚類算法選擇
聚類算法目前已經(jīng)在眾多領(lǐng)域得到廣泛的應(yīng)用并取得了良好的效果,尤其是在商業(yè)推薦、社團劃分等應(yīng)用領(lǐng)域。在本系統(tǒng)中,聚類算法的目標為:從紛繁蕪雜的實習單位相關(guān)高維數(shù)據(jù)中,提取出關(guān)鍵性的特征向量,并以此為依據(jù)將所有的實習單位聚為k個類。這k個類將作為后續(xù)分類操作的依據(jù)。聚類操作的起源可以追溯至古老的分類學,在計算機的存儲和處理能力達到一定水平之前,利用數(shù)學工具進行定量的分析存在著困難,人類只能在經(jīng)驗和專業(yè)知識的基礎(chǔ)上執(zhí)行帶有較強主觀色彩的判斷。這種方式已經(jīng)難以適應(yīng)目前以大數(shù)據(jù)量為背景的應(yīng)用場景。與此同時,各種基于機器學習的聚類算法大量涌現(xiàn)并且開始具有實際應(yīng)用價值。其中,基于劃分式的方法發(fā)展得到了較多的關(guān)注,研究成果也較為豐富。劃分法的基本思想為:給定一個包含N個元素的數(shù)據(jù)集,通過分裂的方法將其構(gòu)造為k個分組。為了保障算法快速收斂,一般會要求同一分組中的元素之間的距離滿足一個給定的閾值(距離小則認為相似度高)。
(1)K-MEANS算法
K-MEANS算法是一種較為經(jīng)典的聚類算法,其基本思想為:根據(jù)總類別數(shù)量k,在樣本中隨機找出k個點來作為原始的類中心點,然后計算余下的點與選定的k個點的距離,按照距離將其歸入某類,完成操作后再重新計算k類中所有距離的平均值并將其作為新的中心點,不斷的迭代,直到測度函數(shù)收斂(中心點不再發(fā)生明顯變化)。通過該算法,可以將相識度高的點聚為一類,同時將不同類之間盡量分開。但是,利用K-MEANS算法所劃分的類別之間的差異度往往不夠大,且對樣本數(shù)據(jù)要求較高,在實際的應(yīng)用過程中需要采取各種改進措施。
(2)K-MEDOIDS算法
為了克服K-MEANS算法對臟數(shù)據(jù)敏感的缺點,K-MEDOIDS算法利用一個對象(MEDOIDS)來代替初始中心點,然后進行初始聚類,再找出類中到其他點距離之和最小的點作為新的中心點,再重復(fù)該操作直到收斂。Partitioning Around Medoids(PAM)算法是該類算法中具有代表性的一種,但是由于存在較多的循環(huán)和迭代運算,算法復(fù)雜度較高——O(k(n-k)2)。文獻[9]提出了一種簡單高效的啟發(fā)式算法將計算復(fù)雜度降低為——O(nk),使得其實用性大幅度提高。
在實際操作過程中,并不會向所有的實習單位都派遣實習生,尤其對于IT企業(yè),單位來源的動態(tài)性也較強,即使是同一單位,在不同時期所體現(xiàn)出的對實習生的特征也不盡相同(根據(jù)企業(yè)實際工程項目)。因此,對實習單位的聚類操作需要動態(tài)的進行,以適應(yīng)實際情況。經(jīng)過綜合對比分析和實驗測試,我們選擇文獻[10]提出的基于K-MEDOIDS的改進算法來作為本系統(tǒng)的聚類算法。
3.2 分類算法選擇
分類算法的研究工作也積累了大量的研究成果,可供選擇的面也較為豐富。但本系統(tǒng)所需的分類方法有極強的特性,主要體現(xiàn)為:企業(yè)類和實習生不具有同構(gòu)性,即某類企業(yè)的特征與某名學生的特征沒有直接的相似性,不能直接按聚合的k類來對學生進行分類。因此,我們需要建立起企業(yè)類到實習生之間的關(guān)聯(lián)規(guī)則,以實現(xiàn)將某位學生到某類企業(yè)直接的關(guān)聯(lián)(推薦依據(jù))。任務(wù)轉(zhuǎn)換為“關(guān)聯(lián)規(guī)則挖掘問題”,該問題是數(shù)據(jù)挖掘中的一個重要領(lǐng)域,而基于關(guān)聯(lián)規(guī)則的分類方法通常包含兩個基本步驟:首先,利用算法從樣本數(shù)據(jù)集中挖掘出所有的滿足預(yù)先指定支持度和置信度的類關(guān)聯(lián)規(guī)則;接下來利用啟發(fā)式算法從第一步給出的類關(guān)聯(lián)規(guī)則中挑選出恰當?shù)囊?guī)則,用于分類操作。采用在線學習的思想,文獻[11]提出了一種如圖2所示的模糊關(guān)聯(lián)規(guī)則挖掘方法。
如圖2所示的關(guān)聯(lián)規(guī)則方法可簡述為:首先給出一個預(yù)定義的隸屬函數(shù),通過學習過程來學習事務(wù)數(shù)據(jù)庫中的對象(企業(yè)類/實習生數(shù)據(jù)集)并在線對模型的適應(yīng)度進行評估,最后給出確定的隸屬函數(shù),再利用模糊挖掘方法從數(shù)據(jù)集中挖掘出模糊關(guān)聯(lián)規(guī)則,用于指導(dǎo)分類過程。利用該方法可以有效的解決本研究所涉及的異構(gòu)對象之間的關(guān)聯(lián)問題,模型評估過程可以作為下一階段效果評價環(huán)節(jié)的反饋入口,提高準確率、增強系統(tǒng)的適應(yīng)性。
4 效果評價模型(Effect evaluation model)
單純考慮具體的實習成績評定等細節(jié)性環(huán)節(jié),往往會導(dǎo)致效果評價環(huán)節(jié)流于形式,失去評價的作用。本系統(tǒng)將綜合考慮實習生反饋、企業(yè)反饋、就業(yè)情況、教師評價等多方面的因素,力爭客觀評價,且對實習效果的評價將作為影響因子(λ)反饋至系統(tǒng)的分類模型環(huán)節(jié),用于評估、調(diào)整隸屬模型,更好的支撐模糊關(guān)聯(lián)規(guī)則的挖掘過程,從而改進派遣環(huán)節(jié)的分類效果,提高派遣環(huán)節(jié)的針對性,最終促進和提高實習效果,實現(xiàn)實習生、學校和實習單位三方的和諧發(fā)展。λ的構(gòu)成如表1所示。
實習生可以在實習報告中,對實習派遣與預(yù)期情況的匹配程度進行打分評價,占0.2的權(quán)值;實習單位可以通過實習生的實習報告向?qū)W校反饋其是否愿意繼續(xù)接納同類實習生,以及給出相關(guān)評語等,占0.2權(quán)值;責任教師可以結(jié)合日??己藖韺W生實習期間的表現(xiàn)進行打分和評定,如有必要,也可以給出相關(guān)說明,該環(huán)節(jié)類似于傳統(tǒng)的實習成績評定,占0.1的權(quán)值;領(lǐng)導(dǎo)小組負責后續(xù)就業(yè)相關(guān)情況的跟進調(diào)查,主要依據(jù)是就業(yè)協(xié)議書、就業(yè)合同和走訪調(diào)查的結(jié)果等,占0.5的權(quán)值。因為就業(yè)情況能比較客觀的反映實習派遣的效果,例如,如果某位實習生從系統(tǒng)推薦的一類實習單位中選擇一個并最終在該實習單位就業(yè),認為該派遣為一項正確的派遣,故設(shè)定較高的權(quán)值,有利于隸屬函數(shù)的優(yōu)化和關(guān)聯(lián)規(guī)則的挖掘。評價模型輸出的λ值為歸一化的標準值,可以直接應(yīng)用于反饋環(huán)節(jié)。
5 應(yīng)用效果與分析(Application effect and analysis)
本小組將系統(tǒng)應(yīng)用在我院2015屆161名畢業(yè)生的實習派遣和效果評價環(huán)節(jié),并對效果進行了分析。總的實習單位數(shù)量為78個(基本都為網(wǎng)絡(luò)、軟件、培訓等IT類企業(yè)),實習單位聚類情況如圖3所示。
分析圖3的數(shù)據(jù),我們可以發(fā)現(xiàn),系統(tǒng)將這78家單位聚為25個類,且絕大多數(shù)的類包含的單位數(shù)量都在2至5家,僅有三個單選類,我們查看原始數(shù)據(jù)發(fā)現(xiàn)其分別為醫(yī)療、交通和政府機構(gòu)等與IT企業(yè)相關(guān)性不強的單位,因而很難找到共性特征。這樣的聚類效果為后續(xù)模糊關(guān)聯(lián)和推薦打下了較好的基礎(chǔ)。
在所有的161名畢業(yè)生中,有五人與非IT類單位有明確的就業(yè)意向,其實習派遣直接指定。實際參與推薦的實習生總共為156名,所有的同學都很快的從推薦類中選取了自己認為合適的單位并順利完成實習過程。目前共確定有效就業(yè)人數(shù)為155人,占總畢業(yè)人數(shù)的96.2%,統(tǒng)計數(shù)據(jù)具有說服力。在應(yīng)用本系統(tǒng)之前,實習派遣很難有針對性的開展,學生最后的就業(yè)也基本與實習單位沒有關(guān)聯(lián)。應(yīng)用本系統(tǒng)后的2015屆畢業(yè)生中,有87人在實習單位就業(yè),有10人表示期望與實際情況不符合,有16家實習單位表示實習生能力有待提高,將加權(quán)統(tǒng)計得到的λ值反饋至模糊關(guān)聯(lián)學習模塊,系統(tǒng)為8名學生給出了與之前不一樣的推薦類。這表明系統(tǒng)在具備穩(wěn)定性的同時,也能根據(jù)實際情況進行自適應(yīng)調(diào)節(jié)。
6 結(jié)論(Conclusion)
大數(shù)據(jù)這一名詞不僅頻繁出現(xiàn)在學術(shù)界、政府報告和各類媒體中,它實際上已經(jīng)滲透到人們?nèi)粘I畹母鱾€層面。高效且成熟的機器學習算法恰好為我們提供了分析和挖掘大數(shù)據(jù)背后隱含規(guī)律的工具。本文利用機器學習算法,通過對我們近年來積累的大量實習單位、實習生和就業(yè)信息數(shù)據(jù)進行挖掘,學習并構(gòu)建出了具有實用性的IT專業(yè)學生實習單位推薦與評價系統(tǒng)。在通過聚類算法實現(xiàn)對實習單位準確聚類的基礎(chǔ)上,利用數(shù)據(jù)挖掘方法得出實習生與實習單位直接的模糊關(guān)聯(lián)規(guī)則,將其作為指導(dǎo)實習派遣的決策依據(jù),實現(xiàn)高效且有針對性的派遣決策。為適應(yīng)實習單位和實習生的動態(tài)變化特點,系統(tǒng)給出綜合模型來對實習效果進行評價,并以此作為反饋因子來指導(dǎo)前述關(guān)聯(lián)規(guī)則的挖掘,使系統(tǒng)具備自適應(yīng)特性。實際應(yīng)用效果也進一步驗證了系統(tǒng)的合理性和可行性。
本系統(tǒng)的推薦部分已經(jīng)具備了可直接使用的原型系統(tǒng),但是在評價部分還存在進一步完善之處。比如:反饋環(huán)節(jié)的原始信息目前基于紙質(zhì)材料,部分評價主體基于客觀因素可能會做出不太客觀的評價,后續(xù)考慮修應(yīng)用遠程在線式評價系統(tǒng),實現(xiàn)評價主體的“盲評”,增強客觀性。此外,評價權(quán)重值分配是否存在完善之處,還有待進一步驗證。
參考文獻(References)
[1] 于欣欣,李兆博.工科類大學生成長路徑的研究與探索[J].現(xiàn)代教育管理,2015(1):124-128.
[2] 何瑜.高校學生實訓實習管理模式創(chuàng)新研究——基于5S管理理論[J].內(nèi)蒙古師范大學學報(教育科學版),2015,05:76-77.
[3] 朱紅,凱倫·阿諾德,陳永利.制度的基石、保障與功能——中美大學生實習比較及對就業(yè)的啟示[J].北京大學教育評論,2012,01:107-123;190.
[4] 詹一虹,侯順.加強實習基地建設(shè)拓寬高校畢業(yè)生就業(yè)渠道[J].教育研究,2006,09:90-92.
[5] 蔡旻君.信息技術(shù)環(huán)境下“學”與“教”分離現(xiàn)象透視和成因分析[J].電化教育研究,2013,02:93-99.
[6] Christopher Bishop.Pattern recognition and machine learning
[M].springer,2007:138-216.
[7] Perry J.Williams,Mevin B.Hooten.Combining statistical inference and decisions in ecology[J].Ecological Applications,
2016,26(6):1930-1942.
[8] Tulabandhula T,Rudin C.On combining machine learning with decision making[J].Machine Learning,2014,97(1-2):33-64.
[9] 張曉勇,彭軍,文孟飛.基于貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)交互教學成效評價系統(tǒng)[J].現(xiàn)代遠程教育研究,2012,04:85-90.
[10] Park H S,Jun C H.A simple and fast algorithm for K-medoids clustering[J].Expert Systems with Applications,2009,36(2):3336-3341.
[11] Alcalá-Fdez J,Alcalá R,Gacto M J,et al.Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms[J].Fuzzy Sets and Systems,2009,160(7):905-921.
作者簡介:
黃星壽(1963-),男,本科,副教授.研究領(lǐng)域:統(tǒng)計學,微分方程.
劉 迪(1980-),男,博士,副教授.研究領(lǐng)域:機器學習.