摘? 要:文章基于用戶畫像基礎理論,采用K-means++算法對大學生在校期間產生的數據進行挖掘和分析,建立了大學生就業(yè)畫像。此外,為了能夠更加直觀地描述就業(yè)畫像,提出使用個體層面和群體層面的表達方式,將個體畫像可視化,群體畫像表格化,使得就業(yè)畫像特征明顯,易于理解,為后續(xù)的就業(yè)推薦工作打下堅實的基礎。
關鍵詞:數據挖掘;K-means++;就業(yè)畫像
中圖分類號:TP391;TP18 文獻標識碼:A? 文章編號:2096-4706(2023)10-0109-04
Abstract: This paper is based on the basic theory of user portrait and uses the K-means++ algorithm to mine and analyze the data generated by college students during their school years, establish a college student employment portrait. In addition, in order to describe employment portraits more intuitively, it proposes using individual and group level expressions to visualize individual portraits and tabulate group portraits, making the characteristics of employment portraits clear and easy to understand, laying a solid foundation for subsequent employment recommendation work.
Keywords: data mining; K-means++; employment portrait
0? 引? 言
教育部2021年發(fā)布的數據顯示,2021年大學畢業(yè)生人數達到909萬人,再創(chuàng)歷史新高,就業(yè)形勢極其嚴峻。為緩解就業(yè)壓力,國家相關部門發(fā)布了一系列的措施和文件,要求各地高校充分利用各種渠道(如微信公眾號等媒介),建立精準的就業(yè)服務平臺。針對不同專業(yè)、不同層次的大學生,精準推送相應的崗位信息和就業(yè)政策,實現個性化、差異化的就業(yè)服務。
20世紀90年代,Alan[1]提出用戶畫像的概念,用戶畫像是對用戶各種行為、屬性的總結,是建立在真實用戶數據基礎之上的模型,采集用戶的行為、習慣等個性化數據,經過統(tǒng)計分析后將某一類或某一個特征“標簽化”。因此,用戶畫像技術的本質工作就是給用戶打“標簽”。在標簽的標識下,用戶被分為不同的類型。
目前,用戶畫像技術已逐漸應用于各大高校。劉艷[2]提出利用大數據能夠有效促進校園建設和管理,能夠對校園就業(yè)情況進行用戶畫像建設。張東迅[3]建立了雇主畫像的總體框架,提出使用模糊聚類和廣義回歸神經網絡方法提取雇主的標簽方案,排除了經驗主義主觀因素造成的不確定性。
通過對已有研究的梳理發(fā)現,對大學生在校期間產生的大量數據進行挖掘和分析的工作尚且不足,對大學生就業(yè)情況的用戶畫像建設僅停留在實踐探索層面,研究還不夠深入。其次,我國大學生就業(yè)質量偏低的情況還沒有得以轉變,具體體現在就業(yè)穩(wěn)定性低、崗位匹配度低,就業(yè)期望與崗位實際差距大。通過對大學生產生的數據進行分析和挖掘,構建大學生就業(yè)畫像,為大學生精準推送與其自身相符的崗位,實現“人職匹配”,真正提高就業(yè)服務質量和精準就業(yè)服務水平具有重要的意義。
本文數據來源于某高職院校教務、學工、團委、就業(yè)部門,通過對采集到的數據進行有效的組織存儲,整合成數據集,使用K-means++算法對數據集進行聚類,形成大學生就業(yè)畫像,最后以詞云和數據表格的形式對就業(yè)畫像進行繪制。
1? 大學生就業(yè)畫像標簽體系
用戶標簽可以理解為通過對用戶信息進行梳理分析而得來的高度精練的特征標志。用戶畫像過程可以利用用戶標簽對實例用戶進行高度概括,使得用戶的特征更加便于理解,同時方便計算機的計算處理。本文的標簽體系如圖1所示。
2? 就業(yè)畫像構建框架
對大學生就業(yè)畫像的構建是決定大學生能否精準就業(yè)的前提,對大學生在就業(yè)時能否較為準確地描述自己(無論是已知的,還是未曾發(fā)現的優(yōu)點和缺點)發(fā)揮著至關重要的作用。
就業(yè)畫像的類別較多時,需要對就業(yè)畫像進行聚類,從而發(fā)現就業(yè)畫像之間的間接聯系。聚類是機器學習領域中的一種數據處理方式,屬于無監(jiān)督算法,通過對數據進行聚類,發(fā)掘隱藏在數據間的規(guī)律。聚類算法可將數據劃分為若干個簇,使得簇內部的數據特征差異盡量小,簇與簇之間的差異盡可能地大。
就業(yè)畫像的本質是標簽組成,為使標簽數據更加直觀易于理解,從個體層面和群體層面進行描述,為后續(xù)就業(yè)推薦、企業(yè)選拔人才提供可視化的依據。
本文所提的就業(yè)畫像模型可劃分為數據層、標簽層、應用層,如圖2所示。
1)數據層。是構建就業(yè)畫像的基礎,包括教務、學工、團委、就業(yè)4個部分提供的數據,使用Python/kettle/MySQL等工具對數據進行預處理、融合,為后續(xù)構建聚類提供良好的數據基礎。
2)標簽層。是畫像構建過程中最為重要的部分,本文從4個維度(用戶基本屬性、專業(yè)學習能力、綜合素質能力、就業(yè)/實習)出發(fā),使用K-means++算法對數據進行聚類。
3)應用層。用戶畫像的分析和可視化方法。根據聚類的結果,將就業(yè)用戶畫像以可視化的方式直觀地表達出來。
2.1? 數據預處理
為提高數據質量,降低臟數據的影響,我們需要對源數據進行預處理。主要工作如下:
1)數據清洗。本文數據來源于不同部門,原始數據集中有無關數據、噪聲數據、重復數據以及缺失數據,對于重復和缺失的數據,由于數量不大,本文采用直接刪除的方法進行處理。
2)數據集成。將異構數據源中的數據合并存放到一個數據庫中。本文根據學生學號及身份證號將不同數據源的學生數據提取并合并到同一個數據庫中。
3)數據變換。本文采用零-均值方法對數據集進行歸一化處理。
2.2? K-means++算法
K-means++算法在K-means算法的基礎上進行了改進,它的運行速度更快,效率更高。對于樣本集,K-means++以最小化平方誤差對聚類簇進行劃分,規(guī)避了K-means算法每次迭代時隨機選取聚類中心的缺點,且最終的聚類簇劃分不會像K-means算法那樣將聚類簇劃分得過于密集,相較于K-means算法,K-means++算法的執(zhí)行速度和聚類結果更為優(yōu)越[4]。K-means++在選取聚類中心時,計算數據集中其他樣本點與之前已經選取好的聚類中心的距離,距離它們越遠的點,被選中為新的聚類中心的概率越高[5]。
在K-means++算法中,聚類數值K需要手動設定,K值決定了目標數據將被分成幾個簇,不同的K值會帶來不同的聚類結果。聚類簇數k通常利用Within-cluster SSE和手肘法確定[6],k一般設為4~7。隨著k的不斷增大,SSE值逐漸減??;當k小于實際簇數時,SSE值會迅速下降;當k繼續(xù)增大時,SSE的下降趨勢將放緩。本文實驗如圖3所示,本文將k設為4。
2.3? 用戶相似度計算方法
在對大學生的個人信息進行聚類時,將每條個人信息視為一個單獨的數據點,需要計算不同數據點之間的距離,距離越大,表示兩個用戶的個人信息越相似。用戶相似度的計算方法越有效,越能夠將兩條個人信息之間的差異表達得越科學可信。
本文選用SimRank算法計算用戶相似度。SimRank算法是一種用于計算兩個目標之間相似度的算法,采用一種基于圖的結構來表示對象之間的關聯情況,它適用的場景是業(yè)務可被分成一個二分圖,即圖中的節(jié)點可被分為兩個子集,且圖中任意一條邊的兩個端點分別來源于這兩個子集?;谟脩艋拘畔⒌南嗨贫扔嬎悖卜线@種二分圖的情況,可認為有兩種節(jié)點,分別為用戶節(jié)點和特征節(jié)點,用戶節(jié)點和特征節(jié)點連成的邊代表用戶擁有這個特征。
2.4? 聚類流程
基于K-means++算法,采用最小方差方法初始化聚類中心,使用SimRank算法計算用戶間的相似度。詳細步驟如下:
1)將樣本集向量化后,計算樣本集中各個數據樣本的方差,選擇方差最小的數據樣本點作為初始聚類中心。
2)采用SimRank算法計算每個樣本與當前已有聚類中心之間的最短距離。
3)根據步驟2)中求出的最短距離,計算出每個樣本的中心被選為下一個聚類中心的概率P。數據樣本點到聚類中心的距離越大,表明該數據樣本點被選為新的聚類中心的概率就越大。
4)對聚類中心進行再次選取,根據步驟3)中求得的概率P,基于此概率 ,選擇其他數據樣本點作為聚類中心。
5)重復步驟2),直至選出指定數目的聚類中心。
3? 就業(yè)畫像的表達形式
大學生就業(yè)畫像所建標簽體系刻畫了大學生的用戶基本屬性、專業(yè)學習能力、綜合素質能力、就業(yè)/實習四個方面的內容,既可以從個人角度出發(fā)研究每個人的偏好等特性,更好地為個人就業(yè)推薦提供服務;也可以從群體的角度出發(fā)依據用戶標簽劃分用戶群體,分析標簽的交叉特征,便于企業(yè)直接按照自身的要求進行搜索。
3.1? 個體維度
使用微詞云對個性標簽進行表示。微詞云是一款在線文字云、在線詞云生成器,其使用方法是選擇合適的框圖作為被填充對象,將字詞輸入內容框并設置框圖中字體大小、顏色、角度等,字詞將自動填充到框圖中。由于用戶標簽數量較多,本文僅挑選部分標簽生成詞云,如圖4所示。
3.2? 群體維度
使用K-means++算法對用戶數據聚類后,得到4個聚簇群,每個學生都擁有其對應的分群編號。首先,對聚類后四類人群的數值型數據和類別型數據進行統(tǒng)計分析;然后,對每一類學生的相關信息進行分詞處理,統(tǒng)計高頻詞,分析每一類學生的特點。綜合以上各類用戶的特征,將四類用戶總結為:學習為主的學生、業(yè)余興趣愛好為主的學生、迷茫型學生和沉淪型學生,如表1所示。
4? 結? 論
本文利用教務、學工、團委、就業(yè)數據,基于用戶畫像基礎理論,構建大學生就業(yè)畫像體系。在就業(yè)畫像框架設計方面,將流程分為數據層、標簽層和應用層,其中標簽層又分為用戶基本屬性、專業(yè)學習能力、綜合素質能力、就業(yè)/實習四個維度。最后通過詞云和數據表格的形式從個體和群體兩個維度對所建就業(yè)畫像進行刻畫,為后續(xù)就業(yè)推薦工作打好基礎。
參考文獻:
[1] ALAN C.交互設計之路 [M].北京:電子工業(yè)出版社,2006.
[2] 劉艷.基于大數據的校園就業(yè)用戶畫像的構建與應用 [J].現代信息科技,2019,3(17):110-112.
[3] 張東迅.基于大數據的校園招聘雇主畫像研究 [D].北京:北京郵電大學,2018.
[4] MA Y,CHENG W J. Optimization and Parallelization of Fuzzy Clustering Algorithm Based on the Improved Kmeans++Clustering [J].IOP Conference Series:Materials Science and Engineering,2020,768(7):72-82.
[5] 鐘熙,孫祥娥.基于Kmeans++聚類的樸素貝葉斯集成方法研究 [J].計算機科學,2019,46(S1):439-441+451.
[6] 成衛(wèi)青,盧艷紅.一種基于最大最小距離和SSE的自適應聚類算法 [J].南京郵電大學學報:自然科學版,2015,35(2):102-107.
作者簡介:黃志楊(1991—),男,漢族,江西九江人,講師,碩士研究生,研究方向:數據挖掘、計算機視覺。