劉宇辰,曹媛媛,劉景鑫,蘇 偉*
(1. 長春中醫(yī)藥大學(xué)醫(yī)藥信息學(xué)院,吉林 長春 130117;2. 吉林大學(xué),吉林 長春 130012)
大數(shù)據(jù)時(shí)代的來臨勢(shì)必導(dǎo)致數(shù)據(jù)信息系統(tǒng)的出現(xiàn)信息過載的問題,于此同時(shí)對(duì)傳統(tǒng)協(xié)同過濾信息處理與數(shù)據(jù)推薦算法提出了嚴(yán)峻挑戰(zhàn)。因此,如何建立更適用于當(dāng)前數(shù)據(jù)量的數(shù)據(jù)推薦算法,解決在大數(shù)據(jù)信息過載條件下的有效信息推薦問題迫在眉睫。
隨著機(jī)器學(xué)習(xí)、應(yīng)用數(shù)學(xué)等學(xué)科的快速發(fā)展,采用機(jī)器學(xué)習(xí)等現(xiàn)代數(shù)據(jù)檢索與推薦方法已成為解決信息過載和爆炸性數(shù)據(jù)重要方式[1],不同種類的推薦算法引起了學(xué)術(shù)界、工業(yè)界以及互聯(lián)網(wǎng)下消費(fèi)界等社會(huì)平臺(tái)的研究焦點(diǎn)。同時(shí),該技術(shù)目前已經(jīng)在消費(fèi)電子、社會(huì)與了、數(shù)字傳媒等消費(fèi)領(lǐng)域得到了前所未有的推廣和應(yīng)用。例如當(dāng)前的淘寶、天貓、美團(tuán)、京東等消費(fèi)平臺(tái)的商品和套餐的推薦;Facebook、騰訊、Twitter、SINA等互聯(lián)網(wǎng)交友平臺(tái)在好友推薦、信息咨詢推薦等方面應(yīng)用以及網(wǎng)易、Spotify、QQ音樂、Tik Tok等娛樂信息平臺(tái)在音樂和視頻推薦上的廣泛應(yīng)用。
在眾多的數(shù)據(jù)推薦算法中,當(dāng)前比較典型的數(shù)據(jù)推薦算法主要分為如下幾類:混合推薦算法,該算法的主要優(yōu)勢(shì)在于它將不同的信息數(shù)據(jù)通過不同的方式進(jìn)行組合以避免或彌補(bǔ)各自推薦技術(shù)的弱點(diǎn);文獻(xiàn)[2]提出了基于信息內(nèi)容與數(shù)據(jù)關(guān)聯(lián)的異質(zhì)信息網(wǎng)絡(luò)數(shù)據(jù)推薦算法,在該文章中算法主要依據(jù)當(dāng)前的數(shù)據(jù)信息特特征,數(shù)據(jù)使用者使用的特點(diǎn)和數(shù)據(jù)與使用之間的交互關(guān)系來完成對(duì)用戶喜好數(shù)據(jù)推薦,相比較與混合推薦算法的被動(dòng)執(zhí)行,該算法的優(yōu)勢(shì)在于它建立了與用戶之間的信息數(shù)據(jù)閉環(huán),提高了數(shù)據(jù)推薦的實(shí)時(shí)性和交互性,但是該算法無法挖掘出潛在的數(shù)據(jù)之間的關(guān)聯(lián)性以及用戶對(duì)潛在喜好信息之間的關(guān)系;基于協(xié)同過濾的數(shù)據(jù)推薦算法[3],該算法主要包括數(shù)據(jù)信息的在線協(xié)同和離線過濾兩個(gè)部分。它相比較與基于信息內(nèi)容與數(shù)據(jù)關(guān)聯(lián)之間的數(shù)據(jù)推薦算法,更主要突出的特點(diǎn)在于它注重從用戶的角度出發(fā),同時(shí)挖掘用戶以外的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。在完成數(shù)據(jù)推薦的基礎(chǔ)上,還可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的信息偏好,從而更好的完成數(shù)據(jù)信息的推薦。
雖然以上典型的數(shù)據(jù)推薦算法目前已經(jīng)廣泛應(yīng)用于工業(yè)、消費(fèi)娛樂、信息傳播等領(lǐng)域。但是從應(yīng)用角度方面來看典型的數(shù)據(jù)推薦算法依然存在數(shù)據(jù)推薦精確度不高,輔助信息挖掘缺失以及實(shí)時(shí)性角度等實(shí)用缺點(diǎn)[4]。在此情況下,基于異質(zhì)信息網(wǎng)絡(luò)的數(shù)據(jù)推薦算法應(yīng)運(yùn)而生,尤其隨著近幾年數(shù)字及大數(shù)據(jù)時(shí)代的來臨,該算法越來越受到國內(nèi)外研究學(xué)者的廣泛關(guān)注與研究。
其中,關(guān)于異質(zhì)信息網(wǎng)絡(luò)推薦算法的研究中比較典型有:文獻(xiàn)[5]等人率先提出采用異質(zhì)信息網(wǎng)絡(luò)的方法來建立數(shù)據(jù)推薦算法。該文章研究的主要特點(diǎn)在于它完整的進(jìn)行了異質(zhì)信息網(wǎng)絡(luò)建模,同時(shí)采用了基于異質(zhì)信息網(wǎng)絡(luò)中的語義信息來提高數(shù)據(jù)信息推薦的精準(zhǔn)度。文獻(xiàn)[6]提出了基于異質(zhì)關(guān)系分析的社會(huì)化協(xié)同過濾算法Hete-CF。與現(xiàn)有方法不同該方法,Hete-CF算法可以有效地利用異構(gòu)社會(huì)網(wǎng)絡(luò)中的多種類型的關(guān)系。盡管該方法具有一定的普適性,可用于包括基于事件的社會(huì)網(wǎng)絡(luò)、基于位置的社會(huì)網(wǎng)絡(luò)以及與社會(huì)信息相關(guān)其它類型的異構(gòu)信息網(wǎng)絡(luò),但是該方卻法忽略了不同關(guān)系在異質(zhì)信息網(wǎng)絡(luò)中的辯證統(tǒng)一性。在對(duì)已知信息網(wǎng)絡(luò)進(jìn)行研究的過程中,一種基于加權(quán)異質(zhì)信息的網(wǎng)絡(luò)推薦算法在文獻(xiàn)[7]中提出。該算法通過對(duì)異質(zhì)信息網(wǎng)絡(luò)中不同的元路徑進(jìn)行設(shè)置不同的權(quán)值,提高整個(gè)網(wǎng)絡(luò)對(duì)異質(zhì)信息的集成,從而提高整個(gè)算法的推薦性。另外,HERec異質(zhì)信息網(wǎng)絡(luò)推薦算法在文獻(xiàn)[8]中被提出,該文獻(xiàn)的主要貢獻(xiàn)在于它將網(wǎng)絡(luò)中的節(jié)點(diǎn)信息嵌入集成到擴(kuò)展矩陣分解模型中,對(duì)異質(zhì)信息網(wǎng)絡(luò)進(jìn)行改進(jìn)。文獻(xiàn)[9]結(jié)合機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),通過研究網(wǎng)絡(luò)中不同節(jié)點(diǎn)的連接關(guān)系和當(dāng)前信息網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn),同時(shí)結(jié)合多任務(wù)學(xué)習(xí)方法提出了一種基于神經(jīng)網(wǎng)絡(luò)的異質(zhì)信息網(wǎng)絡(luò)表示方法。文獻(xiàn)[10]在經(jīng)典異質(zhì)信息網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),通過引入非對(duì)稱系數(shù)提出了非對(duì)稱的異質(zhì)信息網(wǎng)絡(luò)推薦算法。該算法在引入非對(duì)稱系數(shù)之后,根據(jù)網(wǎng)絡(luò)中不同的元路徑信息特征,給元路徑賦予不同的權(quán)重信息,最后將不同元路徑的相似度結(jié)果進(jìn)行加權(quán)以提高用戶相似度的準(zhǔn)確性;最后通過在矩陣分解模型中融合相似度信息與評(píng)分信息實(shí)現(xiàn)基于異質(zhì)信息網(wǎng)絡(luò)的評(píng)分預(yù)測(cè)推薦。雖然該算法引入了非對(duì)稱系數(shù)來解決來優(yōu)化均方差相似度,但是該方法在解決復(fù)雜數(shù)據(jù)關(guān)系的推薦過程中效果并不明顯。
雖然基于異質(zhì)信息網(wǎng)絡(luò)推薦算法在不同方面進(jìn)行的改進(jìn)和優(yōu)化,但是依然存在網(wǎng)絡(luò)信息挖掘深度較淺,針對(duì)性低以及不具備深層次異質(zhì)信息的缺點(diǎn)和復(fù)雜數(shù)據(jù)之間的任務(wù)處理。因此,為了解決以上存在的問題,本文提出了基于動(dòng)態(tài)迭代采樣的異質(zhì)信息網(wǎng)絡(luò)推薦算法。文章通過將動(dòng)態(tài)采樣與異質(zhì)信息網(wǎng)絡(luò)相結(jié)合來對(duì)異質(zhì)信息網(wǎng)絡(luò)進(jìn)行改進(jìn),通過對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行不斷迭代采樣更新,從而提高整個(gè)網(wǎng)絡(luò)推薦算法的精度。
通常在研究信息數(shù)據(jù)的過程中,往往把一系列的數(shù)據(jù)信息抽象為基于數(shù)學(xué)理論的信息網(wǎng)絡(luò)進(jìn)行描述。在進(jìn)行把數(shù)據(jù)信息抽象為信息網(wǎng)絡(luò)圖的過程中,主要把信息節(jié)點(diǎn)抽象為點(diǎn),同時(shí)把不同信息節(jié)點(diǎn)之間的關(guān)系抽象為網(wǎng)絡(luò)邊。在研究數(shù)據(jù)挖掘與學(xué)習(xí)的過程中。異質(zhì)信息網(wǎng)絡(luò)作為一種比較能夠體現(xiàn)異質(zhì)關(guān)系特殊網(wǎng)絡(luò),主要由網(wǎng)絡(luò)節(jié)點(diǎn)、節(jié)點(diǎn)關(guān)系以及節(jié)點(diǎn)關(guān)系屬性等內(nèi)容組成。異質(zhì)信息網(wǎng)絡(luò)大規(guī)模、異質(zhì)性和動(dòng)態(tài)性等特點(diǎn),造就其廣泛的應(yīng)用地位。首先將信息網(wǎng)絡(luò)定義為具有對(duì)應(yīng)類型映射函數(shù)φ:V→A以及節(jié)點(diǎn)對(duì)應(yīng)關(guān)系的映射函數(shù)為ψ:E→R的一個(gè)有向圖G=(V,E,φ,ψ)。其中,對(duì)于任意元素v∈V滿足A:φ(v)∈A中的對(duì)象映射;同時(shí)對(duì)象節(jié)點(diǎn)之間的每一條鏈接關(guān)系e∈E滿足R:φ(e)∈R中的某一個(gè)特定的關(guān)系映射。
其中,如果對(duì)象類型|A|>1或者關(guān)系類型數(shù)|R|>1時(shí),將該信息網(wǎng)絡(luò)定義為已知信息網(wǎng)絡(luò);否則稱該網(wǎng)絡(luò)為同質(zhì)信息網(wǎng)絡(luò)。
在研究異質(zhì)信息網(wǎng)絡(luò)的過程中,定義TG為異質(zhì)信息網(wǎng)絡(luò)G=(V,E,φ,ψ)的網(wǎng)絡(luò)模式。其中NetG=(A,R)表示有對(duì)象映射A以及節(jié)點(diǎn)連接關(guān)系映射R組成的有向圖。采用網(wǎng)絡(luò)模型來描述異質(zhì)信息網(wǎng)絡(luò),不僅可以將網(wǎng)絡(luò)中各節(jié)點(diǎn)關(guān)系進(jìn)行代數(shù)抽象化,同時(shí)更能方便的反映整個(gè)網(wǎng)絡(luò)中的信息流以及節(jié)點(diǎn)對(duì)象之間的數(shù)據(jù)關(guān)系。
根據(jù)異質(zhì)信息網(wǎng)絡(luò)G=(V,E,φ,ψ)和網(wǎng)絡(luò)模式NetG=(A,R),可以清除的描述任意不同對(duì)象節(jié)點(diǎn)之間的連接關(guān)系(序列),將該關(guān)系序列描述為節(jié)點(diǎn)元路徑。例如節(jié)點(diǎn)A1與節(jié)點(diǎn)AN+1之間一條元路徑可以表示為如下形式:
A1→A2→…Ak…→AN+1
(1)
其中,節(jié)點(diǎn)對(duì)象Ai與Ai+1之間的映射關(guān)系為Ri。因此,從對(duì)象節(jié)點(diǎn)A1到AN+1之間的組合關(guān)系A(chǔ)1A2…Ak…ANAN+1的組合關(guān)系可以表示為如下表達(dá)式:
R=R1·R2·…Rk·…·RN+1
(2)
其中,表達(dá)式中的"·"表示對(duì)象組合關(guān)系之間的組合函數(shù)。
在對(duì)異質(zhì)信息網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練并推薦的過程中,目前大多數(shù)的數(shù)據(jù)訓(xùn)練推薦模型往往存在訓(xùn)練后的同類數(shù)據(jù)波動(dòng)較大,精確度低以及野數(shù)據(jù)較多等缺點(diǎn)。因此,在對(duì)傳統(tǒng)異質(zhì)信息網(wǎng)絡(luò)數(shù)據(jù)采樣算法進(jìn)行改進(jìn)的過程中,本文提出了采用動(dòng)態(tài)采樣的方法,同時(shí)根據(jù)訓(xùn)練后的結(jié)果逐步完善對(duì)應(yīng)的動(dòng)態(tài)迭代采樣次數(shù)以及對(duì)隱藏層節(jié)點(diǎn)對(duì)象的采樣方式。通過采用該方法可以有效解決傳統(tǒng)迭代方式在中前期數(shù)據(jù)處理過程中存在的采樣誤差波動(dòng)大、數(shù)據(jù)精確度低的現(xiàn)象。
在進(jìn)行動(dòng)態(tài)迭代采樣建模的過程中,本文采用經(jīng)典的文獻(xiàn)檢索與數(shù)據(jù)推薦的異質(zhì)信息網(wǎng)絡(luò)結(jié)構(gòu)作為研究對(duì)象。動(dòng)態(tài)迭代采樣的數(shù)據(jù)結(jié)構(gòu)如圖1所示.
圖1 異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
根據(jù)圖1中的對(duì)應(yīng)的網(wǎng)絡(luò)實(shí)例建立基于迭代采樣的異質(zhì)信息網(wǎng)絡(luò)模型如圖2所示。
圖2 動(dòng)態(tài)采樣下網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖
迭代采樣模型以連接關(guān)系Ri作為輸入,同屬輸出隱藏層H以及連接關(guān)系層動(dòng)態(tài)權(quán)值。因此建立動(dòng)態(tài)迭代采樣模型為:
(3)
其中,ζRj為所有連接關(guān)系函數(shù)。在進(jìn)行反饋迭代過程中能量差函數(shù)為
(4)
其中,n為數(shù)據(jù)可見層的單元數(shù)量;m為隱藏層中的員艙單元數(shù)量;c為動(dòng)態(tài)采樣迭代層中的單元數(shù)量;k為節(jié)點(diǎn)評(píng)分?jǐn)?shù)值;FV為可見層與迭代采樣層的關(guān)聯(lián)權(quán)重;FRj表示網(wǎng)絡(luò)中不同節(jié)點(diǎn)對(duì)象之間的連接關(guān)系函數(shù),?為可見層與一階隱藏層之間的自適應(yīng)參量;b表示一階隱藏層中各節(jié)點(diǎn)隱藏單元的自適應(yīng)參量。其中,ζRj函數(shù)為
(5)
從可見層至隱藏層中第j個(gè)節(jié)點(diǎn)到第i個(gè)節(jié)點(diǎn)之間的傳遞函數(shù)為:
(6)
其中,Vmij表示可見層到第一層隱藏層之間的系適應(yīng)權(quán)值;θij網(wǎng)絡(luò)對(duì)象節(jié)點(diǎn)的自適應(yīng)閾值;β表示網(wǎng)絡(luò)節(jié)點(diǎn)向量化的基函數(shù);σ(x)表示非線性激活函數(shù),在本文中采用
σ(x)=1/(1+e-vi)
(7)
在進(jìn)行迭代采樣過程中算法簡要流程如下:
1)數(shù)據(jù)輸入
文獻(xiàn)檢索與數(shù)據(jù)推薦異質(zhì)信息網(wǎng)絡(luò)G=(V,E,φ,ψ),初始元路徑信息{APath}集合,隱藏層數(shù)據(jù)節(jié)點(diǎn)層數(shù){1,2,…,k-1,k},初始節(jié)點(diǎn)連接權(quán)值{Vij,Wij,Hij};迭代采樣初始值{i1,i2,…,inum};迭代初始次數(shù)κ和期望迭代次數(shù)κdesire;初始化可見層與第一節(jié)隱藏節(jié)點(diǎn)之間的邊值?i,δj:i∈n,j∈m。
2)算法流程處理
For range of the iteration numκdo
For iteration 1: κ1do
For t=0,1,…,t-1 do
For j=1,…,mdohj,Hijandhm
According to all above these perimeters doWijandRk
Then do iteration
k=1,…,k do sampleζRkand then compute theERk.
Then according to the ERkand update the (Hijκnum,Wijκnum,Vijκnum).
After all the iteration procedure, return the program and then update the iteration number κ.
If κis equal to the κdesireand theζRkis so mall, then exit the program.
為了驗(yàn)證本文提出算法的有效性,同時(shí)為了減少計(jì)算消耗的數(shù)據(jù)時(shí)間。文章以Springerlink 數(shù)據(jù)庫的一部分為例對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練檢索和推薦。在進(jìn)行數(shù)據(jù)處理之前,為了表現(xiàn)推薦預(yù)測(cè)數(shù)據(jù)準(zhǔn)確度。文章首先定義性能評(píng)估函數(shù)來描述本文提出的數(shù)據(jù)推薦算法的性能,即平均絕對(duì)誤差fMAD以及均方根誤差fRMSE。fMAD主要體現(xiàn)數(shù)據(jù)推薦算法的推薦數(shù)據(jù)與實(shí)際使用過程中的真實(shí)數(shù)據(jù)兩者之間的匹配程度。平均絕對(duì)誤差fMAD的計(jì)算公式如式(8)所示。均方根誤差fRMSE如式(9)所示。
(8)
(9)
由式(8),(9)可以發(fā)現(xiàn),當(dāng)fMAD以及fRMSE的數(shù)值越小時(shí),既可以說明推薦算法得到的推薦數(shù)據(jù)與真實(shí)數(shù)據(jù)之間匹配程度較高,同時(shí)進(jìn)一步說明數(shù)據(jù)推薦算法的性能越好。
不同模型下在不同迭代次數(shù)下的預(yù)測(cè)值誤差如表2所示。
表1 動(dòng)態(tài)采樣下不同模型預(yù)測(cè)值誤差
如表1可以看出,首先在進(jìn)行動(dòng)態(tài)采樣的過程中MA-DCRBM模型的推薦預(yù)測(cè)均方誤差和平均誤差相對(duì)較優(yōu);于此同時(shí)可以看出隨著迭代次數(shù)的增加,不同模型下的動(dòng)態(tài)采樣模型算法推薦誤差相對(duì)都開始降低。這一點(diǎn)更說明在動(dòng)態(tài)采樣的條件下,模型數(shù)據(jù)推薦相對(duì)較好。
為了進(jìn)一步驗(yàn)證動(dòng)態(tài)采樣方法是否隨著迭代采樣次數(shù)的進(jìn)一步關(guān)系,文章分別對(duì)兩種方法進(jìn)行高次數(shù)迭代仿真,仿真結(jié)果如圖3-4所示。
圖3 動(dòng)態(tài)采樣DCRBM模型推薦預(yù)測(cè)誤差
圖4 動(dòng)態(tài)采樣MA-DCRBM模型推薦預(yù)測(cè)誤差
如圖3所示,可以看出基于動(dòng)態(tài)采樣的DCRBM模型在隨著迭代采樣次數(shù)不斷增加的情況下,模型的推薦預(yù)測(cè)的MAE和RMAE誤差呈現(xiàn)下降的趨勢(shì),尤其在前1000次左右。另外可以看出在增加到1000次以上之后推薦預(yù)測(cè)的誤差變化相對(duì)比較緩慢,分析數(shù)據(jù)看出,導(dǎo)致這種情況的主要原因在于數(shù)據(jù)量相對(duì)較少。
如圖4所示,可以看出基于動(dòng)態(tài)采樣的MA-DCRBM模型在隨著迭代采樣次數(shù)不斷增加的情況下,模型的推薦預(yù)測(cè)的MAE和RMAE誤差呈現(xiàn)下降的趨勢(shì),尤其在前1000次左右。另外可以看出在增加到1000次以上之后推薦預(yù)測(cè)的誤差變化相對(duì)比較緩慢,但是降低速率依然比DCRBM模型下降率大。
對(duì)比圖3和圖4可以看出,兩種動(dòng)態(tài)迭代采樣模型雖然都隨著迭代次數(shù)的增加,推薦預(yù)測(cè)誤差都在降低,但是從最終的推薦誤差大小可以看出,在迭代次數(shù)1000以后MA-DCRBM模型算法的又是更加明顯。
本文提出一種動(dòng)態(tài)迭代采樣的異質(zhì)信息網(wǎng)絡(luò)推薦算法,文章首先介紹了相關(guān)的異質(zhì)信息網(wǎng)絡(luò)的相關(guān)內(nèi)容,然后論文以文獻(xiàn)檢索與數(shù)據(jù)推薦異質(zhì)信息網(wǎng)絡(luò)為例建立了基于迭代采樣的信息網(wǎng)絡(luò)模型。該模型通過對(duì)連接關(guān)系模型作為反饋信息,建立對(duì)應(yīng)的自適應(yīng)動(dòng)態(tài)迭代采樣反饋函數(shù),不斷動(dòng)態(tài)優(yōu)化對(duì)應(yīng)隱藏層之間的數(shù)據(jù)權(quán)值,在不斷的迭代過程中對(duì)象節(jié)點(diǎn)之間的連接關(guān)系得到不斷的優(yōu)化,從而得到更精確的節(jié)點(diǎn)鏈接關(guān)系以達(dá)到更精確的數(shù)據(jù)推薦。為了驗(yàn)證本文提出方法的有效性,文章給出了對(duì)應(yīng)的數(shù)字仿真驗(yàn)證,通過仿真分析可以看出本文提出的算法在文獻(xiàn)檢索與數(shù)據(jù)領(lǐng)域有很好的有效性,并且可以獲得更好的推薦結(jié)果.