陸佳雯,武 頻,雷志丹,朱儒康
(上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444)
傳統(tǒng)線下招聘模式因成本高,效率差逐漸被線上招聘模式所取代。目前網(wǎng)站招聘推薦內(nèi)容主要以目標(biāo)職位精準(zhǔn)性為主,推薦的職位類別相對狹窄[1]。根據(jù)求職者自身技能性質(zhì)以及對崗位的要求,本文將通常概念的求職者分為兩大類:專業(yè)型人才和通用型人才。專業(yè)型人才指通常有著明確的行業(yè)方向意愿,從事職業(yè)對專業(yè)技能要求高的人群。通用型人才從事的職位通常對專業(yè)技能要求不高,且這類人群跨行就業(yè)率高,如快遞員、保潔和導(dǎo)購等等。傳統(tǒng)的推薦算法針對專業(yè)型人才有著不錯(cuò)的推薦效果,而對于通用型人才,推薦結(jié)果準(zhǔn)確率不高且崗位多樣性不足。
如廣泛使用的協(xié)同過濾推薦算法[2]通過分析用戶歷史評分情況,由于職位推薦數(shù)據(jù)集缺乏評分等反饋信息,所以該方法不適合人才崗位匹配型數(shù)據(jù)?;趦?nèi)容的過濾推薦[3-5]通過抽取物品屬性進(jìn)行特征學(xué)習(xí),但是沒有考慮到求職者本身的屬性特征對擇業(yè)心理的影響。
針對傳統(tǒng)方法無法根據(jù)通用型人才這類人群本身的特點(diǎn)來實(shí)現(xiàn)多樣性、有效性的職位推薦的問題,本文算法從求職者本身的特點(diǎn)出發(fā),在人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的基礎(chǔ)上,利用層次分析法構(gòu)建用戶屬性的層次結(jié)構(gòu)模型并量化,用廣義Shapley函數(shù)與離散Choquet積分相結(jié)合的方法計(jì)算相似人群的最終評分,根據(jù)相似人群列表來進(jìn)行職位推薦。該方法能有效緩解冷啟動(dòng)問題,實(shí)現(xiàn)對通用型人才多樣及有效的職位推薦。
基于人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的職位推薦將用戶本身非敏感的個(gè)人基本信息融入到相似人群的計(jì)算當(dāng)中,建立用戶特征模型,得到最近用戶鄰集,最后系統(tǒng)將鄰集中評分高的職位進(jìn)行推薦[6]。基于人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的推薦相比其它的推薦算法,有以下幾方面優(yōu)勢:
(1)有效緩解冷啟動(dòng)問題。初次使用系統(tǒng)的用戶根據(jù)自身的屬性進(jìn)行分析推薦,這些屬性不會因沒有使用記錄而缺失;
(2)不依賴用戶本身的數(shù)據(jù)。這個(gè)方法具有領(lǐng)域獨(dú)立性,可以應(yīng)用在不同的領(lǐng)域。在一些特殊的領(lǐng)域,像音樂、電影以及職位的推薦,鄰近用戶的不同喜好及經(jīng)歷不同,傳統(tǒng)的協(xié)同過濾方法不能有針對性的推薦。
加入人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的推薦算法,彌補(bǔ)了傳統(tǒng)推薦算法的一些缺陷。通過加入用戶本身的屬性特征,計(jì)算相似人群,綜合考慮了通用型人才這類人群的相似屬性特征對擇業(yè)心理的影響,實(shí)現(xiàn)推薦的多樣性。本文利用層次分析法,對人口統(tǒng)計(jì)學(xué)數(shù)據(jù)進(jìn)行量化處理[7],并使用廣義Shapley函數(shù)和人口統(tǒng)計(jì)學(xué)數(shù)據(jù)計(jì)算用戶間的相似度,最后利用逐級離散Choquet積分自下而上計(jì)算最終的模糊綜合評分[8],將最終評分列表的TOPN個(gè)用戶對應(yīng)的職位列表推薦給當(dāng)前用戶。
傳統(tǒng)的賦權(quán)方法大多存在著主觀因素強(qiáng)的問題[9,10]。在利用AHP算法對用戶指標(biāo)進(jìn)行重要度計(jì)算時(shí),指標(biāo)之間可能存在非獨(dú)立性依賴關(guān)系。傳統(tǒng)的可加測度雖然考慮到指標(biāo)本身的重要性,卻忽視了兩兩組合時(shí)的聯(lián)合重要度。為了解決上述問題,本文將專家對應(yīng)指標(biāo)給出的權(quán)重通過公式計(jì)算出指標(biāo)間的模糊測度,然后通過廣義Shapley函數(shù)求得最優(yōu)權(quán)重。
定義1λ-模糊測度[11]:設(shè)P(X) 是非空集合X={x1,x2,…,xn} 的冪集,給定λ∈(-1,∞),μ∶P(X)→[0,1], 如果滿足以下條件則稱μ是X上的λ-模糊測度:
(1)μ(?)=0,μ(X)=1
(2)?A,B∈P(X), 若A?B, 則μ(A)<μ(B);
(3)μ(A∪B)=μ(A)+μ(B)+λμ(A)μ(B), 其中λ∈(-1,∞)。
λ模糊測度可以理解為屬性集A的重要程度。若λ=0即μ(A+B)=μ(A)+μ(B), 則μ是X上的可加測度,表示A和B之間是相互獨(dú)立的;若λ<0,μ(A∪B)<μ(A)+μ(B), 則μ是X上的次可加測度,表示A和B之間存在冗余關(guān)系;若λ>0,μ(A∪B)>μ(A)+μ(B),則μ是X上的超可加測度,表示A和B之間存在互補(bǔ)關(guān)系。在多指標(biāo)決策問題當(dāng)中,λ-模糊積分能實(shí)現(xiàn)更精準(zhǔn)表達(dá)指標(biāo)間的復(fù)雜相互影響關(guān)系。
定義2 廣義Shapley函數(shù)[12]:在決策過程中,由于指標(biāo)間存在關(guān)聯(lián)關(guān)系,指標(biāo)集S∈P(X) 的重要度不僅與自身有關(guān)系,還要考慮到其它指標(biāo)。Shapely函數(shù)在博弈論領(lǐng)域中被廣泛研究。由于模糊測度μ是基于冪集的,所以一般的模糊測度增加了計(jì)算廣義Shapley值的復(fù)雜度。為了降低計(jì)算復(fù)雜度,本文利用λ-模糊測度來替換一般模糊測度。綜合考慮指標(biāo)集S的重要度。廣義Shapley值定義如下
(1)
其中,X是所有指標(biāo) {x1,x2,…,xn} 的集合,S是X的任意一個(gè)子集,XS表示X的差集,n,t和s分別是N,T和S的基數(shù),μ是X上的模糊測度。
由式(1)可知,如果S={i}, 則
(2)
本文利用相似人群來進(jìn)行職位推薦,相似人群選擇的有效性對后期推薦的精度有直接影響。傳統(tǒng)的協(xié)同過濾算法會受數(shù)據(jù)量大的影響而增加數(shù)據(jù)稀疏的概率。本文通過基于人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和廣義Choquet積分的層次分析法來計(jì)算用戶相似度,融入用戶個(gè)人基本屬性可以反映用戶特征及興趣偏好,具體算法流程如下:
步驟1 建立評估目標(biāo)的遞階層次結(jié)構(gòu)
該步驟主要是剖析復(fù)雜系統(tǒng)的過程,將目標(biāo)的注意力放在層次結(jié)構(gòu)的頂層且頂層僅有一個(gè)元素,下層元素的個(gè)數(shù)不定。評估目標(biāo)的基本層次結(jié)構(gòu)包含3層,從上往下依次是目標(biāo)層、準(zhǔn)則層以及指標(biāo)層,這是基于逐層分解的思想而建立系統(tǒng)的評估體系。根據(jù)用戶在職位選擇過程中的影響因素,本文將用戶指標(biāo)定為個(gè)人信息相似度及能力相似度這兩個(gè)準(zhǔn)則,個(gè)人信息相似度準(zhǔn)則包含的指標(biāo)有年齡、性別、最高學(xué)歷、專業(yè)和城市,能力相似度準(zhǔn)則包含的指標(biāo)包括求職意向、歷史職位、工作經(jīng)驗(yàn)(時(shí)間)。構(gòu)造的層次結(jié)構(gòu)如圖1所示。
圖1 層次結(jié)構(gòu)模型
步驟2 計(jì)算模糊測度及Shapley值
以圖1中個(gè)人信息相似度指標(biāo)為例,其對應(yīng)有5個(gè)評估指標(biāo):年齡C1, 性別C2, 最高學(xué)歷C3, 城市C4, 專業(yè)C5。 通過專家對應(yīng)5個(gè)指標(biāo)構(gòu)造判斷矩陣,即任意兩因素之間的重要程度比值。對比矩陣如下
表1 1~9數(shù)量標(biāo)度
上訴構(gòu)造的判斷矩陣不一定滿足一致性,例如C1∶C2=2∶1,C2∶C3=3∶1,C1∶C3=5∶1 (如果滿足一致性應(yīng)該為6∶1)。當(dāng)CR小于0.1時(shí)則認(rèn)為該判斷矩陣具有一致性。如果滿足一致性,那么最大特征值所對應(yīng)的特征向量即為各指標(biāo)對應(yīng)的權(quán)值。一致性可通過計(jì)算一致性比率CR來判定,由式(3)表示
CR=CI/RI
(3)
其中,RI大小為固定值,它和矩陣的階數(shù)n有關(guān),具體數(shù)值見表2。
表2 RI指數(shù)對照
CI計(jì)算公式如式(4)所示
(4)
其中,n為判斷矩陣的階數(shù),λ是最大特征值。由最大特征向量得到各指標(biāo)的權(quán)值μ=(μ(C1),μ(C2),…,μ(Cn))。 考慮到指標(biāo)之間的聯(lián)合重要度。令μ(Ci) 是Ci的權(quán)值,P(C) 是C={C1,C2,…,Cn} 的冪集?;讦?模糊測度,一些學(xué)者[12]給出了計(jì)算μ(A)(A?C即?A∈P(C)) 的方法,模糊測度公式如下
(5)
尤其當(dāng)A=C時(shí),μ(A)=μ(C)=1。 因?yàn)榧螩={C1,C2,…,Cn} 存在關(guān)聯(lián)關(guān)系,所以有下式成立
(6)
將每個(gè)指標(biāo)對應(yīng)的權(quán)值代入式(6)求得λ的值,再將所求λ值代入式(5),可以分別求得C={C1,C2,…,Cn} 各指標(biāo)子集的模糊測度。根據(jù)式(1)、式(2)以及得到的各指標(biāo)子集的模糊測度,進(jìn)一步計(jì)算得到各指標(biāo)的廣義Shapley值作為指標(biāo)最終權(quán)重。
步驟3 相似度計(jì)算
求職者間的指標(biāo)相似度F={f(c1),f(c2),…,f(cn)} 計(jì)算包括數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù),指標(biāo)間相似度的度量f(ci)=sim(x,y) 應(yīng)該具有以下幾個(gè)特性:
(1)對稱性:sim(x,y)=sim(y,x);
(2)等價(jià)性:sim(x,y)=1,sim(y,z)=1, 那么sim(x,z)=1;
(3)非負(fù)性: 0 局部相似度計(jì)算公式見表3。 表3 具體局部相似度計(jì)算公式 步驟4 求綜合評估結(jié)果 每個(gè)用戶最終相似度評分通過離散Choquet積分公式計(jì)算得出。設(shè) (X,F) 是可測空間,μ∶F→[0,+∞] 上的非負(fù)單調(diào)集函數(shù),且μ(?)=0,f是空間上的非負(fù)可測函數(shù)的集合。f關(guān)于μ的積分定義為 (7) 其中,F(xiàn)α={ci|f(ci)≥α,ci∈C},C={C1,C2,…,Cn},α∈[0,∞)。 設(shè)μ為P(C) 上的模糊測度。f(Ci) 表示函數(shù)f(C) 在點(diǎn)Ci處的值,令W={f(C1),f(C2),…,f(Cn)},W中的函數(shù)值按升序排列,表示形式如下 上述條件成立,式(7)可以變形如下 (8) 基于底層的廣義Shapley的模糊測度和相似度數(shù)值,通過Choquet積分自下而上逐級求得評估結(jié)果。將得到的TOPN個(gè)相似用戶的對應(yīng)數(shù)據(jù)庫中的職位列表推薦給當(dāng)前用戶。 實(shí)驗(yàn)數(shù)據(jù)是由招聘公司提供的真實(shí)的招聘匹配信息,包括3217條職位-求職者匹配信息、2041條公司信息、12 335 條求職者信息、5519條職位信息。以這些數(shù)據(jù)的匹配信息作為實(shí)驗(yàn)數(shù)據(jù)集。 實(shí)驗(yàn)結(jié)果通過計(jì)算準(zhǔn)確率、召回率來衡量。其中,L(v) 表示通過上述算法為求職者v推薦的職位列表。Mv表示職位錄取的求職者列表 根據(jù)準(zhǔn)確率和召回率計(jì)算調(diào)和平均值M1, 公式為 本文依據(jù)圖1并參考招聘公司專家給出的評價(jià)矩陣得到C={C1,C2,…,C5} 各指標(biāo)的權(quán)重向量μ1=(0.2,0.3,0.5,0.4,0.3)T, 考慮到指標(biāo)之間的關(guān)聯(lián)關(guān)系,由式(6)可以得到 從而得到λ=-0.804。 同理,對于能力相似度準(zhǔn)測的指標(biāo):求職意向C6, 歷史職業(yè)C7, 工作經(jīng)驗(yàn)C8賦予權(quán)重向量μ2=(0.6,0.4,0.4)T, 可得λ=-0.698; 目標(biāo)層的指標(biāo):個(gè)人信息相似度C9, 能力相似度C10賦予權(quán)重μ3=(0.5,0.6), 可得λ=-0.33。 根據(jù)式(5)獲得每個(gè)指標(biāo)子集的模糊測度,根據(jù)式(2)進(jìn)一步計(jì)算各指標(biāo)子集的廣義Shapley模糊測度,以個(gè)人相似度指標(biāo)為例,其各指標(biāo)子集的廣義Shapley值見表4。 表4 個(gè)人相似度各指標(biāo)子集的廣義Shapley值 在求得各層的廣義Shapley值與表3中的相似度計(jì)算公式的基礎(chǔ)上,根據(jù)式(8)離散Choquet積分公式,逐層計(jì)算Choquet積分,得出相似用戶列表。 圖2展示了調(diào)和平均值的對比結(jié)果,通過利用眾和雷達(dá)招聘網(wǎng)站提供的真實(shí)招聘數(shù)據(jù)來計(jì)算推薦成功率,將結(jié)果與傳統(tǒng)推薦算法進(jìn)行對比。發(fā)現(xiàn)本文提出的基于人口統(tǒng)計(jì)數(shù)據(jù)和廣義Choquet積分的職位推薦算法在TOPN的各個(gè)取值中都有更好的效果。面對通用型人才這類跨行就業(yè)率高的人群,傳統(tǒng)推薦算法很難通過計(jì)算職位的精準(zhǔn)性來滿足求職者的擇業(yè)心理。當(dāng)N取值較小時(shí)其推薦效果仍然優(yōu)于另外兩種算法,因?yàn)樵谟?jì)算時(shí)融合了人口統(tǒng)計(jì)學(xué)數(shù)據(jù)與廣義λ-Shapley Choquet積分,很好彌補(bǔ)了權(quán)重賦值的主觀性并考慮了指標(biāo)間的關(guān)聯(lián)關(guān)系,且有效緩解了冷啟動(dòng)問題。當(dāng)N的取值越大時(shí),推薦效果也越好。這是由于對于通用型人才來說,擇業(yè)沒有一個(gè)固定的行業(yè)意愿,受不同崗位待遇的影響較大,跨行就業(yè)率高。傳統(tǒng)職位推薦算法從追求崗位推薦的精準(zhǔn)性方面很難滿足這類人群的需求。從圖2中可以看出,當(dāng)N的取值達(dá)到35時(shí),本文提出的職位推薦算法M1達(dá)到了37.1%,傳統(tǒng)的基于AHP的推薦算法為28.75%,而基于內(nèi)容的推薦算法僅為23.4%,M1值至少提高了8.35%。由此驗(yàn)證了融合廣義Shapley函數(shù)和Choquet的層次分析法的職位推薦算法要比單獨(dú)考慮一種因素的算法效果好得多,這也驗(yàn)證了本文算法的有效性。 圖2 3種算法調(diào)和平均值比較 在職位推薦高有效性的前提下,為了更直觀地展示為通用型人才在職位推薦時(shí)的崗位多樣性,選取了表5中3個(gè)具有不同屬性特征的人群代表,用戶1和用戶2屬于通用型人才,這類人群在求職時(shí)會更關(guān)注工作地點(diǎn)以及薪資待遇,且同類別人群跨行就業(yè)概率大,所以表6通過計(jì)算相似人群來獲取的推薦結(jié)果呈現(xiàn)出推薦崗位的多樣性。同時(shí),通過相似人群的共同特征來獲取的職位推薦列表也為求職者提供了潛在職業(yè)的可能性。而用戶3屬于專業(yè)型人才范疇,由于這類人群本身在求職時(shí)有明確的目標(biāo)崗位,推薦結(jié)果的行業(yè)跨度不如前兩者來得大,這樣也滿足了這類人才在求職時(shí)的行業(yè)需求。 表5 待推薦目標(biāo)求職者 表6 目標(biāo)用戶TOP-5職位推薦 本文提出了一種基于人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和廣義Choquet積分的職位推薦算法,結(jié)合了非可加測度與廣義λ-Shapley Choquet積分對傳統(tǒng)的層次分析法進(jìn)行優(yōu)化,對相似用戶進(jìn)行排序和擇優(yōu)。區(qū)別于傳統(tǒng)基于內(nèi)容的推薦算法,本文充分考慮了通用型人才這類人群在擇業(yè)時(shí)考慮的外在因素,算法從個(gè)人基本信息相似度和能力相似度出發(fā),考慮了年齡、性別、最高學(xué)歷、專業(yè)、城市、求職意向、歷史職業(yè)、工作經(jīng)驗(yàn)這幾個(gè)指標(biāo),利用改進(jìn)的層次分析法將個(gè)人屬性進(jìn)行量化,由專家給出每個(gè)指標(biāo)的重要度,利用廣義Shapley函數(shù)計(jì)算出指標(biāo)之間的最優(yōu)模糊測度。最后利用Choquet積分從下而上逐層計(jì)算得出最終的模糊綜合評分,選取TOPN個(gè)用戶ID,在用戶庫中查詢對應(yīng)的職位列表進(jìn)行推薦。 該方案有效處理了不同指標(biāo)之間的關(guān)聯(lián)關(guān)系,彌補(bǔ)了傳統(tǒng)推薦算法中職位推薦范圍局限、無法融合求職者本身的屬性特征、挖掘潛在職業(yè)可能性的問題。因而具有很強(qiáng)的可操作性以及實(shí)用性。實(shí)驗(yàn)結(jié)果顯示,對比傳統(tǒng)的基于內(nèi)容或者基于AHP的推薦算法,本文提出的職位推薦算法效果對于通用型人才人群更佳。為推薦算法的應(yīng)用研究提供了參考。融合職位的流行度走勢進(jìn)行職位推薦是下一步的研究方向。3 實(shí)驗(yàn)結(jié)果
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 基于人口統(tǒng)計(jì)學(xué)與廣義Choquet積分的推薦實(shí)驗(yàn)結(jié)果
4 結(jié)束語