高儼?張立敏?陸自強?袁紹杰?常琳
摘要:校友活動是指利用校友資源參與學(xué)校的育人過程,以此讓學(xué)生了解和掌握行業(yè)最新發(fā)展動態(tài),為其提供有價值的職業(yè)規(guī)劃,同時幫助學(xué)生拓寬視野,提高學(xué)習(xí)能力,增強創(chuàng)新能力。本文基于校友活動,將收集到的校友簡歷數(shù)據(jù)進行分類處理,對于結(jié)構(gòu)化數(shù)據(jù)進行直接存儲,對于非結(jié)構(gòu)化數(shù)據(jù),利用LDA模型從校友簡歷數(shù)據(jù)中發(fā)現(xiàn)主題,從而實現(xiàn)對校友導(dǎo)師數(shù)據(jù)進行分類和結(jié)構(gòu)化存儲的目的;同時,利用校友導(dǎo)師活動過程中學(xué)生對導(dǎo)師的評價,構(gòu)建出“導(dǎo)師-評分-標簽”三元數(shù)據(jù)集;最后,在構(gòu)建的數(shù)據(jù)集基礎(chǔ)上,基于Model Based協(xié)同過濾算法,以SVD模型為核心,實現(xiàn)基于在校生評價的校友導(dǎo)師推薦。實驗結(jié)果表明,該推薦算法可以基于某個場景的校友導(dǎo)師活動進行推薦,并提高活動中校友導(dǎo)師與學(xué)生之間的匹配度與匹配效率,為有序引導(dǎo)校友資源參與學(xué)校人才培養(yǎng)提供了一種創(chuàng)新型思路。
關(guān)鍵詞:推薦系統(tǒng);SVD;校友導(dǎo)師;LDA模型
基金項目:云南省教育廳科學(xué)研究基金項目《基于校友活動場景中的在校生數(shù)字畫像研究——以云南農(nóng)業(yè)大學(xué)為例》(編號:2022J0360)。
高儼(1979.04-),男,漢族,云南石屏,碩士,講師,研究方向:教育信息化。
校友是高校育人過程中的重要社會資源,通過校友活動能夠為在校生提供學(xué)習(xí)和充實自我的環(huán)境。校友活動中,不同類型的校友具有不同的優(yōu)勢,妥善運用校友資源,分類管理校友簡歷,構(gòu)建校友導(dǎo)師推薦系統(tǒng),可以基于不同的校友活動場景,為學(xué)生適時推薦有針對性的校友活動,以滿足在校生的培訓(xùn)活動需求,這是校友會的主要工作職能,也是支持校友資源有效進入學(xué)校人才培養(yǎng)通道的重要技術(shù)和支撐手段。
一、推薦系統(tǒng)的相關(guān)研究
推薦系統(tǒng)是當人們面臨決策問題時,通過回溯歷史數(shù)據(jù),尋找已知與未知之間最適合的匹配關(guān)系,從而提供支持決策的依據(jù)[1]。這些經(jīng)驗既可以來源于自身對于已知模式的掌握,也可以來源于別人的經(jīng)驗傳授。一般來說,一個推薦系統(tǒng)大致包括五個步驟,分別是數(shù)據(jù)的收集、數(shù)據(jù)的存儲、算法召回、結(jié)果排序和結(jié)果應(yīng)用。
數(shù)據(jù)收集是將有用的信息進行匯總、清洗以及預(yù)處理,以便后續(xù)進行分析和推薦。數(shù)據(jù)收集之后要持久化地存儲數(shù)據(jù),方便后續(xù)在不同的階段或者不同的模塊可以靈活地使用,通常會按照數(shù)據(jù)的結(jié)構(gòu)化或者非結(jié)構(gòu)化分別存儲。算法召回是將海量的數(shù)據(jù)集根據(jù)特定的算法進行初步地篩選,尤其是面對動輒成數(shù)百萬甚至數(shù)千萬的數(shù)量級,通過算法召回的多種測量,盡量將用戶關(guān)注的信息篩選出來,同時過濾掉多余的信息。結(jié)果排序是對召回的結(jié)果進一步篩選,并且精準排序,這時的數(shù)據(jù)規(guī)模從幾百降低至幾十甚至幾個,以便最終呈現(xiàn)給用戶。排序過程中一般會針對多個目標進行優(yōu)化,這些目標可能是針對用戶需求而具體確定的,例如在商業(yè)運用中,要想提高用戶的留存或增加用戶的新穎性,都會被作為排序的目標,納入排序算法當中。結(jié)果應(yīng)用是指根據(jù)具體的場景給用戶展示最終推薦結(jié)果,不同的場景會影響推薦的策略和算法,而策略和算法選擇的結(jié)果又會由最終的場景呈現(xiàn)出來。例如,在商業(yè)中常見的“猜你喜歡”和“相似推薦”,就是兩個不同的場景,而不同的場景會影響后續(xù)算法和策略的選擇,所以它們是相輔相成的關(guān)系。
二、校友導(dǎo)師數(shù)據(jù)分析
本研究基于校友導(dǎo)師簡歷數(shù)據(jù)和學(xué)生歷史行為進行數(shù)據(jù)挖掘,分析校友導(dǎo)師的結(jié)構(gòu)化特征,同時從學(xué)生對導(dǎo)師的多樣化需要出發(fā)計算相似度,并以此為基礎(chǔ),在校友活動組織的場景中實現(xiàn)校友導(dǎo)師的個性化推薦,從而為有序引導(dǎo)校友資源參與學(xué)校人才培養(yǎng)提供了一種創(chuàng)新型思路。
校友導(dǎo)師簡歷數(shù)據(jù)由多類屬性組合而成,能從多個維度反映出校友導(dǎo)師的概貌,是一種典型的半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。屬性類型是簡歷中各字段的歸并分類集合,共分為人口屬性、學(xué)籍屬性、導(dǎo)師類型和人物自傳四種類型,前三類包括屬性較易進行結(jié)構(gòu)化處理,人物自傳是純文本類型,需通過文本挖掘等方法對其進行清洗轉(zhuǎn)化來體現(xiàn)目標的結(jié)構(gòu)化特征,進而轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。本文通過運用LDA模型對人物自傳類型屬性進行主題發(fā)現(xiàn),以此獲得校友導(dǎo)師人物自傳的標簽刻畫。
LDA是一個關(guān)于詞、主題、文檔三層貝葉斯概率模型[2]。首先居于人物自傳構(gòu)建詞袋模型;其次每個人物自傳居于詞袋形成其詞語分布,其參數(shù)滿足Dirichlet分布;最后把每個人物自傳看做由詞組組成的向量,計算其基于主題的概率分布,完成校友導(dǎo)師的人物自傳分類。本文共收集本校110名校友人物自傳類型數(shù)據(jù),通過分詞、構(gòu)建詞庫、計算TF-IDF值,最終獲得個人自傳主題分類結(jié)果如表1所示。
三、基于協(xié)同過濾算法的校友導(dǎo)師推薦
(一)協(xié)同過濾推薦
協(xié)同過濾算法是在算法召回過程中舉足輕重的一個算法[3]。協(xié)分過濾的算法可以分為兩類,分別是memory based和Model based。其中memory based又分為User Based和Item Based。User Based是計算兩個用戶的相似性,根據(jù)相似用戶進行推薦,Item Based是尋找用戶在消費歷史上所有喜歡過的物品,通過計算物品的相似性進行推薦。
Memory based有兩個優(yōu)點,第一是可解釋性強,無論是User Based還是Item Based,都是利用相似性,或者說利用過往的經(jīng)驗記憶進行推斷。第二是算法簡單,適合新項目或者小型團隊,但同時也存在泛化能力較弱、計算開銷較大的問題,為了避免這兩個缺點,就引入了Model Based的協(xié)同過濾。Model Based的協(xié)同過濾,是用一個預(yù)先訓(xùn)練好的模型來進行拆解,常見模型包括矩陣分解和神經(jīng)網(wǎng)絡(luò),好處是線上推斷速度較快且泛化率比較強。
(二)基于SVD的協(xié)同模型的推薦
本文中使用SVD矩陣分解作為Model Based的核心模型來對實現(xiàn)協(xié)同過濾算法。奇異值分解(Singular Value Decomposition,以下簡稱SVD)是在機器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的算法,不僅可以用于降維算法中的特征分解,還可以用于推薦系統(tǒng)以及自然語言處理等領(lǐng)域[4]。
SVD(Singular Value Decomposition)稱為奇異值分解 ,主要用于對高維矩陣進行分解降維。對于任意一個矩陣的矩陣A,可以將其分解為三個矩陣,即:
其中,U是 m×m 的正交陣,V是 n×n 的正交陣,Σ是 m×n 的對角陣,其主對角線上的元素用σi表示,并按照從大到小排列,稱為奇異值,其減少特別的快。在很多情況下,前10%甚至1%的奇異值的和就占了全部的奇異值之和的99%以上的比例,因此假設(shè)σk+1=0,則利用矩陣分塊乘法可得
假設(shè)令
則A=PQ即A的滿秩分解。
利用該模型,在本文中學(xué)生對老師的評分可以看成一個矩陣A,則其存在一個滿秩分解即
其中U表示參與評分的學(xué)生,I表示校友導(dǎo)數(shù)的數(shù)量。利用A中的已知評分訓(xùn)練就可以訓(xùn)練P和Q,使得P和Q相乘的結(jié)果最好地擬合已知的評分,那么A中未知的評分也就可以下式進行表示。
假設(shè)已知的評分為rui,真實值與預(yù)測值之間的誤差為eui=rui- ,其誤差平方和SSE= ∑ u,i e2ui =∑ u,i (rui-∑ kk=1 puk qki )2 ,同時為防止過擬合加入正則化因子,誤差平方和變?yōu)镾SE=1/2∑ u,i? e2ui? +1/2 λ ∑ u | pu |2 +1/2 λ ∑ i |qi |2,
則其更新式為:
其中η 為puf和qij的學(xué)習(xí)率,即迭代學(xué)習(xí)的步長。
同時由于學(xué)生對校友導(dǎo)師的打分不僅取決于二者的選擇關(guān)系,還有一部分取決于學(xué)生與校友導(dǎo)師的獨有屬性,這些屬性之間是無關(guān)的,因此根據(jù)Koren做法[5-6],可以進一步將SVD的預(yù)測公式修改為:
其中,μ為總的平均分,該平均值會對預(yù)測值產(chǎn)生作用;bu為學(xué)生u的屬性值,表示學(xué)生在打分過程中的偏好,它與選擇的校友導(dǎo)師屬性是無關(guān)的;bi為第i個校友導(dǎo)師的屬性值,反映導(dǎo)師的固有的特性,同樣與學(xué)生無關(guān)。在相應(yīng)的SSE在加入懲罰因子后就變?yōu)椋?/p>
相應(yīng)的更新公式,并在原來的基礎(chǔ)上增加兩個關(guān)于bu和bi的更新式,變?yōu)椋?/p>
其中eui = rui- 。
(三)推薦結(jié)果
本文一共收集1343名同學(xué)對110名校友導(dǎo)師的評價,在參與活動或觀看相關(guān)資料后,每名同學(xué)根據(jù)自己的實際情況對感興趣的校友導(dǎo)師進行打分,分值為1-5分,實驗數(shù)據(jù)集的稀疏度為20.102%,即20.102%的導(dǎo)數(shù)有評分。實驗過程中采用網(wǎng)格搜索和交叉驗證,在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器。其中相關(guān)參數(shù)設(shè)置如下為:
①迭代次數(shù) n_epochs=5,步長lr_all=0.002,正則化項reg_all=0.4時,RMSE=0.9762。
②迭代次數(shù) n_epochs=5,步長lr_all=0.002,正則化項reg_all=0.6時,RMSE=0.9463。
③迭代次數(shù) n_epochs=5,步長lr_all=0.005,正則化項reg_all=0.4時,RMSE=0.9292。
④迭代次數(shù) n_epochs=5,步長lr_all=0.005,正則化項reg_all=0.6時,RMSE= 0.8908。
⑤迭代次數(shù)n_epochs=10,步長lr_all=0.002,正則化項reg_all=0.4時,RMSE=0.9079。
⑥迭代次數(shù) n_epochs=10,步長lr_all=0.002,正則化項reg_all=0.6時,RMSE= 0.9116。
⑦迭代次數(shù) n_epochs=10,步長lr_all=0.005,正則化項reg_all=0.4時,RMSE= 0.9514。
⑧迭代次數(shù) n_epochs=10,步長lr_all=0.005,正則化項reg_all=0.6時,RMSE=0.9463。
對應(yīng)實驗結(jié)果,輸出對應(yīng)最好RMSE結(jié)果的參數(shù)為迭代次數(shù) n_epochs=5,步長lr_all=0.005,正則化項reg_all=0.4。對于沒有被打分的校友,按照該模型預(yù)測分值,任選20名學(xué)生與20名校友,其對應(yīng)的推薦矩陣如圖1,只有預(yù)測分值大于4的校友才會被推薦給某位同學(xué)。
四、結(jié)束語
本文基于校友參與學(xué)校人才培養(yǎng)過程中收集到的信息,以及在開展校友導(dǎo)師活動中學(xué)生對導(dǎo)師的評價,對校友導(dǎo)師的數(shù)據(jù)和學(xué)生與導(dǎo)師之間的關(guān)系進行了分析。首先對校友半結(jié)構(gòu)化的數(shù)據(jù)以LDA模型為基礎(chǔ)進行主題發(fā)現(xiàn),實現(xiàn)對校友數(shù)據(jù)的結(jié)構(gòu)化處理。同時,結(jié)合校友導(dǎo)師與學(xué)生之間在活動中形成的關(guān)注和評價關(guān)系,運用基于協(xié)同過濾算法的推薦系統(tǒng),實現(xiàn)對校友導(dǎo)師的推薦。推薦系統(tǒng)的實踐過程中需要考慮多種綜合因素,不同的運用場景起到不同的作用,校友導(dǎo)師推薦過程中,每一個學(xué)期的時間節(jié)點不同,學(xué)生群體對于校友活動的需求類型也是不同的。例如,進入新學(xué)年,新生群體對于如何規(guī)劃學(xué)習(xí)和時間有更多需求;進入畢業(yè)季,畢業(yè)生群體更加關(guān)注如何就業(yè)和規(guī)劃職業(yè)發(fā)展;在各類創(chuàng)業(yè)活動競賽中,有創(chuàng)業(yè)經(jīng)驗的導(dǎo)師組織的活動往往更受有創(chuàng)業(yè)情結(jié)的學(xué)生群體歡迎。本次研究只探討了其中一種實現(xiàn)算法的模型,在下一步研究工作中將進一步綜合考慮并改進算法,以期獲得更好的推薦結(jié)果。
作者單位:高儼 張立敏 陸自強 袁紹杰 常琳
云南農(nóng)業(yè)大學(xué)校友會辦公室
參? 考? 文? 獻
[1]RESNICK P,VARIAN H R. Recommender systems [J].Communications of the ACM,1997,40(3):56-58.
[2]阮光冊.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J].情報雜志,2014,33(03):161-164.
[3]于蒙,何文濤,周緒川,等.推薦系統(tǒng)綜述[J].計算機應(yīng)用,2022,42(06):1898-1913.
[4]趙營.結(jié)合SVD的協(xié)同過濾算法研究[J].通訊世界,2016(10):255.
[5]Koren Y,Bell R,Volinsky C.Matrix Factorization Techniques for Recommender Systems[J].Computer,2009,42(8):30-37.
[6]Koren Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]ACM SIGKDD International Conference on Knowledge Discovery and DataMining.ACM,2008:426-434.