張玙
(河海大學 商學院,江蘇 南京211100)
基于協(xié)同過濾算法的人力資源信息管理系統(tǒng)研究
張玙
(河海大學 商學院,江蘇 南京211100)
為了方便企業(yè)及時便捷的獲得與追蹤各種人事管理方面的信息,在Hadoop分布式構架平臺的基礎上,利用員工對企業(yè)的項目滿意度構建行為記錄矩陣,通過協(xié)同過濾算法分析和設計了一套適用于人力資源信息管理的系統(tǒng),實現(xiàn)參數(shù)設定、分區(qū)管理、職員管理、用戶管理和生產管理五大模塊的綜合管理。對人力資源信息管理系統(tǒng)進行了具體的實驗分析,結果表明:當1 571名員工產生28 325條員工評分記錄時,2個節(jié)點和3個節(jié)點的系統(tǒng)響應時間分別為7.4 s和4.8 s,且明顯小于非分布式算法,同時協(xié)同過濾算法比非分布式算法的MSE與MPE分別小0.39%、0.52%,本研究的協(xié)同過濾算法可以勝任人力資源管理系統(tǒng)的數(shù)據(jù)分布式計算任務。
協(xié)同過濾算法;Hadoop分布式;信息管理;系統(tǒng)設計;人力資源
近年來協(xié)同過濾算法的發(fā)展較為迅速,已經(jīng)發(fā)展成為一種較為成熟的推薦算法[1-3],與此同時,分布式推薦算法成為推薦算法研究中一個新的研究方向[4]。通過將協(xié)同過濾推薦算法與人力資源信息管理系統(tǒng)研究以及Hadoop平臺融會貫通[5],探索協(xié)同過濾推薦算法在人力資源信息管理系統(tǒng)上的實現(xiàn)[6]。這既有分析協(xié)同過濾算法在Hadoop平臺上對于人力資源信息管理系統(tǒng)的可行性的理論意義,又有利用解決Hadoop平臺下系統(tǒng)模塊優(yōu)化與推薦的現(xiàn)實意義。在行政和管理方面通過將人力資源型信息管理系統(tǒng)應用到工作中,能夠有效地提高人力資源部門乃至整個公司的工作效率,最終實現(xiàn)工作流造成的規(guī)范化,流程化,系統(tǒng)化以及自動化。因此,做好人力資源信息管理系統(tǒng)的研究與設計并通過協(xié)同過濾算法進行優(yōu)化對于實際工作有著十分重要的現(xiàn)實意義。
協(xié)同過濾算法現(xiàn)被廣泛用于管理系統(tǒng)平臺,其主要根據(jù)過往的行為記錄,為用戶群推薦符合其行為偏好的選擇[7]。協(xié)同過濾算法主要可以分為兩類,一種是基于用戶體驗與參與的協(xié)同過濾算法,還有一種是基于不同的流程與項目內容的協(xié)同過濾算法。無論是屬于前者還是后者,其本質都是優(yōu)化行為選擇[8]。協(xié)同過濾的算法主要通過對參與到平臺系統(tǒng)的所有行為選擇,自動的構建出I-U的歷史行為記錄矩陣,再根據(jù)項目與項目之間的相近程度,演繹出Item相鄰近的N個周圍用戶行為選擇。根據(jù)相鄰近的N個周圍用戶行為選擇以及被推薦預測到的所有基于項目或用戶群的行為來對現(xiàn)有行為的I進行閑的評分并由此產生推薦選擇列表與選擇以此優(yōu)化現(xiàn)有的流程與選擇[9]。其主要的流程如下:
1)平臺系統(tǒng)的項目內容或用戶群對目標的瀏覽與操作進行評分,這成為獲取數(shù)據(jù)信息偏好的第一次設計行為。行為的評分表明用戶群對項目的偏好或項目內容與選擇的吻合程度。在一顆星到五顆星的評價體系之內,一顆星表明用戶群的偏好程度較低或者項目內容與吻合程度非常低,五顆星表明用戶群的偏好程度較低或者項目內容與吻合程度非常高。這樣的元素項目集合(Preference、Item、User)表明了設計流程中的一次對外界信息的實際獲取過程,對于大量的同類型元素項目集合所構成的大規(guī)模數(shù)據(jù)信息文件就是協(xié)同過濾算法的初始輸入。
2)在生成的I-U行為偏好矩陣IU=(Pij)m×n中,根據(jù)用戶的選擇與偏好和項目的內容在歷史行為偏好矩陣中分別輸入相互對應的U和I,矩陣的分布順序與結構則以I為行,以U為列進行構建與輸入以此構建出用戶歷史行為偏好矩陣。其中Ii表示項目,Im表示第m個I,Uj表示用戶群,Un表示第n個U,Pij則表明了第i個用戶群在系統(tǒng)平臺上的操作對于項目的喜好程度或者項目j內容與推送選擇的吻合程度[10]。
3)根據(jù)算法所自動構建的歷史行為偏好I-U矩陣,演繹出I相鄰近的N鄰居用戶行為選擇,并且通過以余弦系數(shù)、Pearson系數(shù)等計算相近程度的算法來演繹出基于用戶群和項目所有行為的相近度[11],以下是本文在計算Pearson系數(shù)時所采用的計算方法:
其中,S(Ii,Ij)表明了一般系統(tǒng)平臺里面子項目的某i項與某j項間的相近程度。Uij則是對于Ii的歷史行為偏好對于Ij歷史行為偏好相互影響范圍有所重合的交集。Pi表示項目的平均偏好。用戶群對于項目i最終的推薦結果偏好預測值的計算公式如下[12]:
再依據(jù)演繹出的預測偏好值進行篩選過濾,最終形成最優(yōu)選擇。
2.1 人力資源系統(tǒng)功能的劃分
人力資源信息管理系統(tǒng)是為了方便企業(yè)及時便捷的獲得與追蹤各種人事管理方面的信息而應運而生的管理系統(tǒng),它能夠方便企業(yè)獲得各種咨詢的信息資料,人事資源管理,進行信息的篩選,過往數(shù)據(jù)的存取等種種多樣化的服務[13]。本系統(tǒng)主要采用模塊優(yōu)化和篩選以及面向對象相結合的方法,在Hadoop平臺上采用協(xié)同過濾算法對人力資源信息管理系統(tǒng)進行分析設計與研究,本系統(tǒng)最終實現(xiàn)的主要功能分為5大部分,如圖1所示。
圖1 系統(tǒng)的功能劃分
2.2 系統(tǒng)的整體架構
通過對現(xiàn)有企業(yè)的人力資源信息管理的既定流程現(xiàn)狀及存在的弊端進行細致的分析,將人力資源信息管理系統(tǒng)按照三層分錯構架的流程模式進行構建。利用Hadoop分布式框架分布基礎架構對外部的用戶群提供優(yōu)化的選擇與Web服務,因而不僅滿足了不同的用戶群分布式的訪問和流程操作以及推薦出最優(yōu)化的可供選擇[14]。Hadoop分布式框架分布基礎構架能夠處理大數(shù)據(jù),對于企業(yè)繁雜的人事信息儲存與處理占有優(yōu)勢,具有分布式的特點[15],方便操作系統(tǒng)的用戶群方便快捷的對業(yè)務信息以及公司資料進行高效的查找與處理。人力資源信息管理系統(tǒng)中的用戶群操作界面主要是利用一般的Web網(wǎng)頁瀏覽器為媒介進行設定和操作,從而使得用戶操作人員隨時隨地以不同的方式 (如Intranet、Internet、LAN、WAN等)進行不同的接入訪問以及對共同的數(shù)據(jù)庫進行控制[16-18],這都有利于保護數(shù)據(jù)庫的安全,是操作高效有序。為了實現(xiàn)預設的人力資源型信息管理系統(tǒng)的目標,文中對人力資源信息管理系統(tǒng)構建了三層的結構從而對人力資源信息管理系統(tǒng)進行深入的研究與開發(fā)設計,其具體結構如圖2所示。
圖2 系統(tǒng)的結構設計
2.3 算法流程
為了優(yōu)化人力資源信息管理系統(tǒng)的設計更好地為用戶群推薦優(yōu)化的行為選擇,需要借助Hadoop分布式構架平臺以及協(xié)同過濾算法,在完成了理念上的設計之后還需要將這樣的流程結果轉化為MapReduce分布式構架的可實際操作的MapReduce流程算碼,這樣才是在Hadoop平臺上對進行的真正的協(xié)同過濾篩選,實現(xiàn)對人力資源信息管理系統(tǒng)的優(yōu)化。具體實現(xiàn)步驟如下:
Step.1:首先就用戶群和偏好生成特定的向量U=((I1,P1),(I2,P2), …,(It,Pt)。 在生成的特定向量中,所選擇的用戶向量僅僅包括有過歷史行為的對選擇表現(xiàn)出各種偏好的用戶群,通過演變得到新的向量(n1k,n2k,…,nmk)是項目的共線矩陣,可得:
Step.3:在演繹的過程中得到了分向量Col"=((I1,Col1),(I2,Col2),…)。在協(xié)同過濾的分布式篩選推薦中,有上述的步驟自動生成了文件Tag,再由Reduce的流程計算出PkuRowIk,最終輸出用戶群的K值以及V值。具體的MapReduce操作流程如下:
Step.4:由上述的流程在演繹出預測向量U"=((I1,Col1),(I2,Col2),…)。其輸入以分向量ColU"文件為準,其具體的MapReduce操作流程如下:
Step.5:按照流程結構生成以項目的內容費分類的預測向量I′=((U1,P1),(U2,P2),…,(Un,Pn))。通過將步驟2)和步驟4)相結合共同生成中間預測向量,再按照步驟3)的方法,利Isum以及U"為媒介,實現(xiàn)對U"向量中的實現(xiàn)演繹。選取GroupKey為項目連接鍵。具體的Map Reduce操作流程如下:
Step.6: 演繹出最后的預測向量 U′=((I1,P1),(I2,P2),…),根據(jù)上個流程的結果為輸入的對象進行如下Map Reduce操作流程:
通過以 Hadoop平臺為媒介,利用完整的MapReduce流程實現(xiàn)了協(xié)同過濾分布式篩選推薦算法。以上的6個步驟保證了MapReduce的作業(yè)文件按照順序依次計算每一個流程環(huán)節(jié)的任務,環(huán)節(jié)中的每一項內容都是對之前流程環(huán)節(jié)輸入的輸出。
3.1 實驗環(huán)境
人力資源信息管理系統(tǒng)選取SQL作為后臺的數(shù)據(jù)庫。選取SQL主要是考慮它作為Microsoft Back產品系列的重要組成部分,擅長一般服務器以及客戶服務的大型關系數(shù)據(jù)庫,并且利用一般的Web網(wǎng)頁瀏覽能夠滿足大型的Web站點服務器以及和企業(yè)人事資源數(shù)據(jù)的處理。以Windows 7作為操作系統(tǒng),Hadoop平臺作為底層架構,Jave作為編程環(huán)境,實現(xiàn)分布式協(xié)同過濾算法的調試和運行。
3.2 結果分析
人力資源管理系統(tǒng)中的員工信息記錄存儲較小數(shù)據(jù)量條件下,通過偽分布式模式或小集群的Hadoop分布模式可以勝任完全分布式模式下的大數(shù)據(jù)分布式計算任務。人力資源管理系統(tǒng)項目利用內容或用戶群對目標的瀏覽與操作進行評分,在五大部分功能下,共有28 325條員工評分記錄,如表1所示。
表1 評分數(shù)據(jù)量
分別選取參數(shù)設定、分區(qū)管理、職員管理、用戶管理和生產管理作為實驗數(shù)據(jù),當預測員工對人力資源管理的評分時,在不同條件下算法的響應時間,如圖3所示。
圖3 系統(tǒng)響應時間
由圖3可知,包含兩個節(jié)點和3個節(jié)點的Hadoop分布式系統(tǒng)下的人力資源管理系統(tǒng)響應時間顯著的小于傳統(tǒng)的非分布式算法的響應時間。其中,當員工數(shù)量為1 571時,2個節(jié)點和3個節(jié)點的系統(tǒng)響應時間分別為7.4 s和4.8 s。這是因為2個節(jié)點或者3個節(jié)點的Hadoop集群均包含一個主節(jié)點和一個從節(jié)點,主從兩個節(jié)點除了負責計算任務外,還要負責數(shù)據(jù)集群信息資源的調度;而包含3個節(jié)點的響應時間明顯優(yōu)于兩個節(jié)點的分布式協(xié)同過濾的算法。因此,若人力資源管理系統(tǒng)中的員工信息集群包含更多的節(jié)點,則計算幾乎可以瞬間完成,這恰恰體現(xiàn)分布式協(xié)同過濾算法在系統(tǒng)管理中的即時性優(yōu)勢。
在算法的精確度方面,利用均方誤差MSE、平均相對誤差絕對值MPE作為衡量協(xié)同過濾算法的精度評價指標,其值越小,算法描述的人力資源信息數(shù)據(jù)則越精確,其計算公式為:
其中,n表示員工數(shù)量,xi表示實際評分,x*i表示預測分數(shù)。分布式協(xié)同過濾算法與非分布式算法的精度比較,如圖4所示。
圖4 精度比較
由圖4可知,在員工數(shù)量相對較少的條件下,協(xié)同過濾算法的精度較差,而隨著員工數(shù)量逐漸增大時,其包含的數(shù)據(jù)信息亦逐漸增大,其精度也逐漸提高并優(yōu)于非分布式算法。其中,當員工數(shù)量為1 571時,協(xié)同過濾算法比非分布式算法的MSE與MPE分別小0.39%、0.52%。這是因為人力資源管理系統(tǒng)設計中,Preference值和Item值對外界信息的實際獲取過程時,對于員工數(shù)量相對較少所構成的小規(guī)模數(shù)據(jù)信息文件,在Map階段輸出鍵值對較少,計算誤差大。這說明,本研究提出的協(xié)同過濾算法比較適合大型企業(yè)中較多員工背景下的人力資源信息管理系統(tǒng)。
本研究通過協(xié)同過濾分布式篩選算法的演繹,基本能夠滿足企業(yè)的日常進行人力資源信息管理的需求。采用Hadoop分布式構架平臺,以算法語言進行構建流程模型,通過對使用人力資源信息管理系統(tǒng)的用戶群的歷史行為記錄進行有效地擬合與預測,篩選出最符合用戶群行為偏好的選擇,在協(xié)同過濾算法優(yōu)化下的人力資源信息管理系統(tǒng)具有很強的規(guī)劃性和高效性以及整體性,從而提高了人力資源管理部門在管理中的工作效率,對于系統(tǒng)后期的維護協(xié)同過濾推薦算法也能根據(jù)以往的篩選推薦記錄以及修訂方案快速給出最合適的項目方案,從而整體上優(yōu)化了系統(tǒng)的性能。
[1]孫光福,吳樂,劉淇,等.基于時序行為的協(xié)同過濾推薦算法[J].軟件學報,2013(11):2721-2733.
[2]李改,潘嶸,李章鳳,等.基于大數(shù)據(jù)集的協(xié)同過濾算法的并行化研究[J].計算機工程與設計,2012,33(6):2437-2441.
[3]肖強,朱慶華,鄭華,等.Hadoop環(huán)境下的分布式協(xié)同過濾算法設計與實現(xiàn)[J].現(xiàn)代圖書情報技術,2013(1):83-89.
[4]秦凱,吳家麗,宋益多,等.基于社會信任的協(xié)同過濾算法研究綜述[J].智能計算機與應用,2015,5(4):55-59.
[5]吳泓辰,王新軍,成勇,等.基于協(xié)同過濾與劃分聚類的改進推薦算法[J].計算機研究與發(fā)展,2011,48(2):205-212.
[6]楊震,賴英旭,段立娟,等.郵件網(wǎng)絡協(xié)同過濾機制研究[J].自動化學報,2012,38(3):399-411.
[7]賀桂和.基于用戶偏好挖掘的電子商務協(xié)同過濾推薦算法研究[J].情報科學,2013(12):38-42.
[8]王鵬,王晶晶,俞能海.基于核方法的User-Based協(xié)同過濾推薦算法 [J].計算機研究與發(fā)展,2013,50(7):1444-1451.
[9]范波,程久軍.用戶間多相似度協(xié)同過濾推薦算法[J].計算機科學,2012,39(1):23-26.
[10]楊陽,向陽,熊磊.基于矩陣分解與用戶近鄰模型的協(xié)同過濾推薦算法 [J].計算機應用,2012,32(2):395-398.
[11]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學報,2014(2):16-24.
[12]劉枚蓮,劉同存,吳偉平.基于網(wǎng)絡消費者偏好預測的推薦算法研究 [J].圖書情報工作,2012,56(4):120-125.
[13]王亞洲,林健.人力資源管理實踐、知識管理導向與企業(yè)績效[J].科研管理,2014,35(2):136-144.
[14]陳曦,陳華鈞,顧珮嵚,等.一種基于Hadoop的語義大數(shù)據(jù)分布式推理框架 [J].計算機研究與發(fā)展,2013,50(2):103-113.
[15]孫福權,張達偉,程勖,等.基于Hadoop企業(yè)私有云存儲平臺的構建 [J].遼寧工程技術大學學報:自然科學版,2011,30(6):913-916.
[16]何娣,馬慧斌,韓凱旋.基于Delphi與Access的人力資源信息管理系統(tǒng)設計 [J].現(xiàn)代電子技術,2012,35(12):56-58.
[17]魏志靜.就業(yè)服務信息化整體解決方案的設計與實現(xiàn)[J].電子科技,2013(8):180-182.
[18]翟國濤,洪增林,馬天宇.城市老工業(yè)區(qū)產業(yè)轉型系統(tǒng)動力學模型研究[J].西安工業(yè)大學學報,2015(1):70-76.
Human resource information management system based on collaborative filtering algorithm
ZHANG Yu
(Business School Hohai University,Nanjing 211100,China)
In order to facilitate timely and convenient access to business and tracking a variety of personnel management information,based on the Hadoop distributed architecture platform,the use of staff of the enterprise satisfaction with the program to build a matrix acts recorded by the collaborative filtering algorithm analysis and design a set of It applies to human resources information management system,parameter setting,partition management,staff management,integrated management of user management and production management of the five modules.Human resources information management system specific experiments,the results showed that:when 1 571 employees produced 28,325 employees score recorded two nodes and three-node system response time was 7.4 s and 4.8 s,and significantly less than non-distributed algorithms,collaborative filtering algorithm,respectively,while smaller than the non-distributed algorithm MSE and MPE 0.39%,0.52%,this research collaborative filtering algorithm capable human resources data management system for distributed computing tasks.
collaborative filtering algorithm;Hadoop distributed;information management;systems design;human resources
TN18
:A
:1674-6236(2017)03-0023-05
2016-05-12稿件編號:201605111
國家自然科學基金資助項目(61303005);國家社會科學基金資助項目(10bzx73)
張 玙(1991—),女,安徽淮北人,碩士研究生。研究方向:人力資源管理。