于合龍,孫 琳
(吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,吉林 長(zhǎng)春 130118)
信息化的發(fā)展促進(jìn)了大數(shù)據(jù)時(shí)代的到來(lái),網(wǎng)絡(luò)中的信息量不斷增加,用戶在海量資源選取時(shí),獲取的信息包含很多相似內(nèi)容,容易導(dǎo)致信息過(guò)載,因此推薦算法的作用舉足輕重[1]。農(nóng)業(yè)資源服務(wù)是農(nóng)業(yè)信息化研究的熱點(diǎn),傳統(tǒng)在線資源推薦算法推薦易產(chǎn)生冗余,很難達(dá)到用戶精細(xì)化要求,導(dǎo)致用戶體驗(yàn)感較差。同時(shí),推薦算法面臨諸多挑戰(zhàn),例如資源稀疏性、時(shí)效性差等,這些問(wèn)題的存在使信息資源推薦算法在應(yīng)用過(guò)程中很難取得理想效果[2]。為此,相關(guān)研究人員進(jìn)行了大量研究。
文獻(xiàn)[3]提出基于蜂群K-means聚類的協(xié)同過(guò)濾推薦算法。該算法結(jié)合用戶屬性,對(duì)用戶進(jìn)行聚類處理,在聚類簇中尋找類似偏好的鄰近用戶,并將鄰居用戶的項(xiàng)目評(píng)分?jǐn)?shù)據(jù)作為構(gòu)建推薦列表的依據(jù),建立聚類模型;改進(jìn)蜂群K-means聚類算法,獲取目標(biāo)用戶與聚類模型到每個(gè)聚類中心的距離,將距離最近的類作為目標(biāo)用戶檢索空間;在該空間中通過(guò)項(xiàng)目評(píng)分矩陣產(chǎn)生推薦列表。該方法可以有效進(jìn)行信息資源推薦,但該方法操作過(guò)程較為復(fù)雜,推薦延時(shí)較長(zhǎng)。文獻(xiàn)[4]在多特征融合基礎(chǔ)上對(duì)推薦算法進(jìn)行優(yōu)化。該方法從用戶自身偏好、興趣點(diǎn)、本身特性以及興趣點(diǎn)所在區(qū)域,對(duì)用戶感興趣因素進(jìn)行分析,并構(gòu)建用戶-區(qū)域-內(nèi)容的聯(lián)合推薦模型;利用選擇變量控制興趣點(diǎn)的主題,對(duì)推薦模型做形式化處理,計(jì)算出模型中變量的聯(lián)合概率分布,確定參數(shù)值;最后,算法進(jìn)入推薦階段,通過(guò)對(duì)上述模型進(jìn)行訓(xùn)練,得出最終的推薦公式,并結(jié)合新老用戶的興趣點(diǎn)對(duì)其進(jìn)行推薦。該方法可以根據(jù)用戶興趣進(jìn)行有效推薦,但該方法推薦的準(zhǔn)確度不高。
基于上述問(wèn)題的存在,本文提出基于知識(shí)圖譜的農(nóng)業(yè)在線海量信息資源推薦算法。知識(shí)圖譜由節(jié)點(diǎn)與邊構(gòu)成,利用該圖譜將推薦問(wèn)題轉(zhuǎn)變?yōu)榕判騿?wèn)題,構(gòu)建推薦系統(tǒng)框架,并結(jié)合矩陣分解算法建立混合推薦模型,完成基于知識(shí)圖譜的農(nóng)業(yè)在線信息資源推薦算法。仿真結(jié)果表明,所提方法推薦準(zhǔn)確率高,能夠?yàn)橛脩魩?lái)理想的體驗(yàn)效果。
知識(shí)圖譜由多條知識(shí)構(gòu)成,且每條知識(shí)均表示一個(gè)三元組知識(shí)結(jié)構(gòu),將所有數(shù)據(jù)組建為一張有向圖[5]。它在語(yǔ)義網(wǎng)絡(luò)思想上發(fā)展而成,成為近年來(lái)網(wǎng)絡(luò)搜索領(lǐng)域的重點(diǎn)話題。在農(nóng)業(yè)信息資源領(lǐng)域使用知識(shí)圖譜,圖譜中任意一點(diǎn)均代表一個(gè)信息單元,在單元和單元中間利用有向邊描述存在的邏輯關(guān)系,從而使知識(shí)圖譜具有清晰的信息資源結(jié)構(gòu)。
通過(guò)專業(yè)的知識(shí)圖譜指引用戶,其具有全局性和引領(lǐng)性的優(yōu)點(diǎn)。其使用戶全面了解專業(yè)知識(shí)結(jié)構(gòu),將其看作一張知識(shí)地圖,任意一個(gè)知識(shí)點(diǎn)均是地圖中某個(gè)位置,用戶能夠結(jié)合知識(shí)所處位置,獲取知識(shí)地圖的路線指導(dǎo),結(jié)合自己對(duì)信息的需求情況,確定下一步的資源檢索內(nèi)容。知識(shí)圖譜架構(gòu)示意圖如圖1 所示。
圖1 知識(shí)圖譜框架示意圖
海量的網(wǎng)絡(luò)資源伴隨著個(gè)性化需要,出現(xiàn)大量冗余信息。推薦系統(tǒng)的本質(zhì)就是在海量的資源中,為用戶提供感興趣的信息,并且形成具有個(gè)性化的推薦結(jié)果,給用戶帶來(lái)差異性的檢索服務(wù)。
推薦系統(tǒng)的主要功能為利用推薦算法完成信息的查找推薦。在知識(shí)圖譜基礎(chǔ)上建立資源推薦系統(tǒng)框架。主要包括提供個(gè)性化資源推薦以及資源管理[6]兩方面。推薦系統(tǒng)主體架構(gòu)如圖2所示。
圖2 推薦系統(tǒng)結(jié)構(gòu)圖
單元測(cè)評(píng)用于了解用戶現(xiàn)階段對(duì)相關(guān)知識(shí)的認(rèn)知程度,主要通過(guò)調(diào)查問(wèn)卷的方法實(shí)現(xiàn);用戶資源數(shù)據(jù)記錄包含學(xué)習(xí)的策略、路徑等特征信息,根據(jù)知識(shí)圖譜的邏輯關(guān)系,生成個(gè)性化信息推薦列表,并利用可視化[7]的方法將資源傳輸?shù)接脩艚缑妗?/p>
用戶對(duì)農(nóng)業(yè)信息資源感興趣程度會(huì)隨時(shí)間的推移與交互情況發(fā)生變化。傳統(tǒng)算法不能對(duì)用戶行為信息的動(dòng)態(tài)變化做出準(zhǔn)確反應(yīng),并且也不能正確處理用戶興趣遷移問(wèn)題。本文將遷移模型融入到推薦算法中,有助于個(gè)性化信息資源推薦效果的提高。
通過(guò)對(duì)知識(shí)圖譜中的節(jié)點(diǎn)分配不同比例權(quán)重能夠發(fā)現(xiàn)用戶對(duì)不同農(nóng)業(yè)知識(shí)的興趣差異。興趣遷移模型根據(jù)用戶檢索行為與次數(shù),對(duì)知識(shí)圖譜中節(jié)點(diǎn)權(quán)重進(jìn)行調(diào)整,體現(xiàn)用戶興趣遷移變化的特征。用戶的行為與當(dāng)前時(shí)間越靠近,同類行為次數(shù)越多,則節(jié)點(diǎn)所分配的權(quán)重越高,表明用戶對(duì)該信息資源的興趣越濃厚。
用戶Ui與農(nóng)業(yè)信息資源Ij兩個(gè)節(jié)點(diǎn)之間的權(quán)重表達(dá)式為
(1)
式中,t代表當(dāng)前時(shí)間點(diǎn),n表示同一種行為發(fā)生次數(shù),ts描述用戶對(duì)信息資源發(fā)生反饋的時(shí)間,t0代表用戶興趣遷移的時(shí)間因素,w為權(quán)重閾值,表明用戶隨著時(shí)間的推移,可以提供的推薦能力逐漸下降,最后接近常量w。
3.2.1 矩陣分解原理
矩陣分解的主要思想認(rèn)為所有用戶與任意項(xiàng)目之間都存在各自的特征,用戶的興趣由少數(shù)因素決定。通過(guò)矩陣分解在資源交互矩陣中獲取用戶特性矩陣與資源特性矩陣。矩陣分解模型經(jīng)過(guò)抽象后表示為
R=UVT
(2)
式中,U∈Rm×d與V∈Rn×d分別表示矩陣分解后的d維用戶與資源的特征矩陣。利用分解后低維度的用戶和資源特征矩陣的乘積UVT,對(duì)已知項(xiàng)目真實(shí)矩陣進(jìn)行近似擬合處理。模型訓(xùn)練的目標(biāo)函數(shù)表示為
(3)
為準(zhǔn)確控制模型在參數(shù)學(xué)習(xí)過(guò)程中的擬合問(wèn)題,引入一種對(duì)λ參數(shù)加權(quán)正則化的方式,利用用戶數(shù)量nui與項(xiàng)目數(shù)量nvj避免目標(biāo)函數(shù)的轉(zhuǎn)移,改進(jìn)后損失函數(shù)為
(4)
3.2.2 算法步驟描述
在知識(shí)圖譜基礎(chǔ)上,引入矩陣分解算法的農(nóng)業(yè)在線信息資源推薦算法過(guò)程如下:
第一步:利用知識(shí)圖譜,展示矩陣分解算法訓(xùn)練獲得實(shí)體向量表達(dá);
第二步:對(duì)用戶項(xiàng)目與矩陣項(xiàng)目進(jìn)行交互處理[9],且與知識(shí)圖譜中存在的實(shí)體進(jìn)行特征匹配;
第三步:在知識(shí)圖譜中,選擇和待測(cè)項(xiàng)目最接近的k個(gè)附近鄰居引入到矩陣分解模型中;
第四步:根據(jù)模型學(xué)習(xí)對(duì)分解后的用戶與項(xiàng)目矩陣求解,通過(guò)計(jì)算獲得預(yù)測(cè)評(píng)分。矩陣分級(jí)的流程如圖2所示。
圖3 矩陣分解流程圖
經(jīng)過(guò)矩陣分解后的目標(biāo)函數(shù)表達(dá)式為:
(5)
(6)
式中,d表示經(jīng)過(guò)模型訓(xùn)練獲得的維度,取值為正數(shù),利用下述公式對(duì)其做標(biāo)準(zhǔn)化處理
f(x)=(1+x)/2
(7)
本文利用梯度下降法最小化目標(biāo)函數(shù)對(duì)用戶特征矩陣U,以及農(nóng)業(yè)信息資源特征矩陣V進(jìn)行求解,以此建立反饋模型[11]為
(8)
傳統(tǒng)推薦算法通常利用鄰接矩陣對(duì)數(shù)據(jù)做儲(chǔ)存與計(jì)算,這種方式計(jì)算效率較低[12]。假設(shè)鄰接矩陣A占據(jù)了|V|×|V|的存儲(chǔ)空間,這種情況下|V|在快速增長(zhǎng)時(shí)很難對(duì)其進(jìn)行計(jì)算處理。另外,鄰接矩陣中大部分?jǐn)?shù)據(jù)為0,存在非常稀疏現(xiàn)象,這種稀疏性降低了農(nóng)業(yè)信息資源推薦效率。知識(shí)圖譜可以結(jié)合語(yǔ)義和不同的特征信息,并利用權(quán)重展現(xiàn)節(jié)點(diǎn)之間存在的關(guān)系。不僅考慮節(jié)點(diǎn)的同構(gòu)性與同質(zhì)性,而且還對(duì)用戶興趣遷移狀況進(jìn)行考慮。農(nóng)業(yè)在線信息資源推薦算法的實(shí)現(xiàn)流程如圖4 所示。
圖4 算法流程圖
在對(duì)用戶與農(nóng)業(yè)信息資源的特征矩陣求解后,將特征映射在K維空間,此時(shí),幾何上越相近的特征相關(guān)性越強(qiáng)。通過(guò)向量余弦相似度獲取特征ei與ej之間的相關(guān)性信息Sim(ei,ej),即
(9)
(10)
本文對(duì)推薦列表進(jìn)行擴(kuò)展,通過(guò)知識(shí)圖譜對(duì)用戶的長(zhǎng)期喜好進(jìn)行判斷,并利用反饋模型和用戶興趣偏移模型建立混合型知識(shí)圖譜,用其判斷農(nóng)業(yè)信息資源內(nèi)容的變化情況與用戶喜好的波動(dòng)等時(shí)效因素。
混合型知識(shí)圖譜實(shí)體間權(quán)重更新模型表示為
(11)
式中,RWij表示更新后資源特征i與j之間的權(quán)重值,wij為通過(guò)用戶興趣遷移模型運(yùn)算后獲取的興趣程度值,關(guān)系k表示用戶i和資源信息j之間的評(píng)分關(guān)系,rating表示用戶對(duì)農(nóng)業(yè)信息資源的評(píng)分,λ屬于歸一化因子,令λ×rating的歸一化初始權(quán)重為1,避免評(píng)分過(guò)高對(duì)隨機(jī)游走產(chǎn)生影響。
在經(jīng)過(guò)集中訓(xùn)練后的用戶資源(Ui,Ij),結(jié)合全部資源特征與用戶興趣遷移的知識(shí)圖譜上進(jìn)行深度游走,提取相似性特征Sim(Ui,Ij)mix,根據(jù)式(12)建立混合特征模型,即
(12)
為驗(yàn)證本文算法有效性,進(jìn)行仿真分析。仿真系統(tǒng)為Windows 10 ,系統(tǒng)運(yùn)行內(nèi)存為8 GB。
從網(wǎng)絡(luò)信息資源中收集有關(guān)農(nóng)業(yè)信息資源,共10類,分別從200個(gè)網(wǎng)頁(yè)資料中收集,結(jié)合特征向量定義,獲得特征頻度向量數(shù)據(jù),構(gòu)建與其對(duì)應(yīng)的資源庫(kù)。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)設(shè)置
4.3.1 不同方法農(nóng)業(yè)在線資源推薦準(zhǔn)確率分析
為證明本文方法的優(yōu)越性,實(shí)驗(yàn)對(duì)比了本文方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法推薦農(nóng)業(yè)信息資源時(shí)的準(zhǔn)確率實(shí)驗(yàn)結(jié)果如圖5 所示。
圖5 不同方法推薦信息的準(zhǔn)確率對(duì)比
分析圖5 可以看出,三種方法在推薦農(nóng)業(yè)信息資源時(shí)的推薦準(zhǔn)確率有所差異。當(dāng)?shù)螖?shù)為2 時(shí),本文方法的推薦準(zhǔn)確率約為87 %,文獻(xiàn)[3]方法的推薦準(zhǔn)確率約為63 %,文獻(xiàn)[4]方法的推薦準(zhǔn)確率約為61 %;當(dāng)?shù)螖?shù)為5時(shí),本文方法的推薦準(zhǔn)確率約為96 %,文獻(xiàn)[3]方法的推薦準(zhǔn)確率約為72 %,文獻(xiàn)[4]方法的推薦準(zhǔn)確率約為81 %。通過(guò)對(duì)比可以看出,本文方法的農(nóng)業(yè)信息資源推薦的準(zhǔn)確率高于其它兩種方法,驗(yàn)證了本文方法的有效性。
4.3.2 不同方法農(nóng)業(yè)在線資源推薦的時(shí)延分析
為了進(jìn)一步驗(yàn)證本文方法的有效性,實(shí)驗(yàn)分析了本文方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法在進(jìn)行農(nóng)業(yè)在線資源推薦時(shí)的時(shí)延分析,其中,時(shí)延越短證明推薦的實(shí)時(shí)性越好。實(shí)驗(yàn)結(jié)果如圖6所示:
圖6 不同方法農(nóng)業(yè)在線資源推薦時(shí)延對(duì)比
分析圖6 可以看出,隨著實(shí)驗(yàn)次數(shù)的增加,三種方法在進(jìn)行農(nóng)業(yè)信息資源推薦時(shí)產(chǎn)生的實(shí)驗(yàn)也不同。當(dāng)實(shí)驗(yàn)次數(shù)為3時(shí),本文方法的推薦的時(shí)延約為2 s,文獻(xiàn)[3]方法的推薦時(shí)延約為15 s,文獻(xiàn)[4]方法的推薦時(shí)延約為12.5 s;當(dāng)實(shí)驗(yàn)次數(shù)為7時(shí),本文方法的推薦的時(shí)延約為2 s,文獻(xiàn)[3]方法的推薦時(shí)延約為10 s,文獻(xiàn)[4]方法的推薦時(shí)延約為11 s。通過(guò)對(duì)比可以看出本文方法的推薦時(shí)延較短,驗(yàn)證了本文方法在進(jìn)行推薦時(shí)實(shí)時(shí)性較好。
隨著網(wǎng)絡(luò)資源建設(shè)程度的不斷提高,為用戶推薦合適的資源信息越來(lái)越重要,基于此,本文利用知識(shí)圖譜對(duì)農(nóng)業(yè)在線信息資源的推薦進(jìn)行研究。通過(guò)構(gòu)建用戶興趣遷移模型,利用矩陣分解方法獲取目標(biāo)函數(shù)表達(dá)式,并根據(jù)梯度下降準(zhǔn)則對(duì)該函數(shù)求解,通過(guò)與知識(shí)圖譜的匹配,建立反饋模型等,完成農(nóng)業(yè)在線信息資源的推薦算法的研究。仿真結(jié)果表明,本文方法可有效推薦農(nóng)業(yè)信息資源,推薦的準(zhǔn)確率較高,且實(shí)時(shí)性較好,實(shí)現(xiàn)了更準(zhǔn)確的個(gè)性化農(nóng)業(yè)信息資源的推薦。