王斯鋒,朱玉佳,祝永志
(曲阜師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 日照 276826)
由于信息超載問題的增加,在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的時(shí)代,推薦系統(tǒng)正變得越來(lái)越重要,推薦系統(tǒng)已經(jīng)成為向用戶提供有用的選定信息的重要機(jī)制。它可以有效地幫助用戶作出決定,例如購(gòu)買產(chǎn)品、選擇觀看電影或做任何其他需要作出選擇或決定的在線活動(dòng)等。
推薦系統(tǒng)可以在線的用于某些類型的商業(yè)活動(dòng),例如電子商務(wù)(例如,Amazon 1,圖書推薦系統(tǒng))、在線新聞聚合器(例如,Digg 2)和在線視頻共享(例如,YouTube 3)等等。這是因?yàn)榛ヂ?lián)網(wǎng)提供了可能對(duì)潛在購(gòu)買者或消費(fèi)者有用的大量信息(如在線新聞,書籍,文章,音樂,電影和其他產(chǎn)品)。
推薦系統(tǒng)中最成功的技術(shù)之一是協(xié)同過濾(Collaborative Filtering,CF),其基于志同道合的用戶(稱為鄰居)對(duì)項(xiàng)目/產(chǎn)品的明確評(píng)級(jí)反饋,許多在線公司和商業(yè)系統(tǒng)(例如Netflix.com的電影推薦,Amazon.com中的圖書推薦,Last.fm 5中的音樂推薦等)都適用于CF來(lái)為其客戶提供建議。CF推薦算法,為用戶提供了最好的結(jié)果和準(zhǔn)確的建議,即使它具有簡(jiǎn)單的算法。
但是,與用戶項(xiàng)目矩陣中的大量用戶和項(xiàng)目相比,用戶對(duì)項(xiàng)目的評(píng)級(jí)比較稀疏,CF會(huì)導(dǎo)致了差的推薦(數(shù)據(jù)稀疏性問題)。在項(xiàng)目缺乏用戶評(píng)級(jí)的情況下,隱式數(shù)據(jù)可用于分析用戶的項(xiàng)目偏好。隱性數(shù)據(jù)可以根據(jù)用戶行為的觀察提供更多的證據(jù)和信息來(lái)指示用戶的偏好。此外,諸如聚類的數(shù)據(jù)挖掘技術(shù)、分類、奇異值分解(Singular Value Decomposition,SVD)、關(guān)聯(lián)規(guī)則挖掘已被應(yīng)用于推薦系統(tǒng)作為數(shù)據(jù)稀疏問題的解決方案,在用戶和項(xiàng)目基于明確檢索(用戶評(píng)級(jí))或暗示用戶偏好,并獲得最有效的結(jié)果的基礎(chǔ)上以提供可能的連接。然而,很少有研究考慮通過關(guān)聯(lián)規(guī)則挖掘來(lái)開發(fā)推薦系統(tǒng)。關(guān)聯(lián)規(guī)則挖掘仍然存在一些需要根據(jù)新興推薦系統(tǒng)來(lái)解決的問題。此外,大多數(shù)基于聚類的CF技術(shù)在聚類過程中僅利用歷史評(píng)級(jí)信息,而忽略推薦系統(tǒng)中的其他數(shù)據(jù)資源,例如用戶之間的社交關(guān)系交互(標(biāo)簽或用戶的收聽行為)以及項(xiàng)目之間的相關(guān)性。第2節(jié)(相關(guān)工作提供關(guān)于稀疏問題的不同解決方案的更多細(xì)節(jié),并分析仍然存在過去的研究中未解決或被忽視的問題。
為了解決數(shù)據(jù)稀疏問題,文章將項(xiàng)目之間的相關(guān)性與用戶數(shù)據(jù)之間的相關(guān)性結(jié)合到關(guān)聯(lián)規(guī)則挖掘和聚類技術(shù)。提出了一種通過探索和利用由隱式用戶反饋創(chuàng)建的用戶簡(jiǎn)檔來(lái)改進(jìn)個(gè)性化推薦的CF技術(shù)??梢圆榭淳垲惣夹g(shù)(分層結(jié)構(gòu)),以便有效地從歌曲的播放記錄中分析用戶的項(xiàng)目偏好以及作為規(guī)則挖掘部分的數(shù)據(jù)維度削減。更重要的是,文章中提出的技術(shù)主要集中在交易中使用關(guān)聯(lián)規(guī)則挖掘技術(shù)(Apriori算法)與項(xiàng)目重復(fù)(每個(gè)用戶經(jīng)常播放/收聽一組項(xiàng)目),這可以增加CF的改進(jìn)機(jī)會(huì)。在基于它們的特征來(lái)提出建議時(shí),這種技術(shù)涉及項(xiàng)目之間的相似性計(jì)算。
研究的主要貢獻(xiàn)可以概括如下:
(1)首先,本研究的新穎性是在隱式數(shù)據(jù)技術(shù)中通過應(yīng)用聚類和關(guān)聯(lián)規(guī)則挖掘來(lái)提高稀疏數(shù)據(jù)中協(xié)同過濾建議的準(zhǔn)確性。這是第一個(gè)在關(guān)聯(lián)規(guī)則(計(jì)數(shù)問題)中捕獲每個(gè)交易多次購(gòu)買的學(xué)術(shù)研究,而不僅僅是計(jì)算生成總的購(gòu)買量。為此,實(shí)施使用事務(wù)中的項(xiàng)目重復(fù)分布作為關(guān)聯(lián)規(guī)則挖掘的輸入的修改的預(yù)處理以發(fā)現(xiàn)類似的興趣用戶之間的模式。
(2)本項(xiàng)研究的另一個(gè)獨(dú)特之處在于通過關(guān)聯(lián)規(guī)則挖掘有效地處理海量數(shù)據(jù)以模擬用戶的行為。為了實(shí)現(xiàn)這一能力,聚類技術(shù)可以被視為關(guān)聯(lián)規(guī)則挖掘部分的數(shù)據(jù)維數(shù)降低。
CF技術(shù)可以分為用戶和項(xiàng)目類型。在基于用戶的CF中,用戶將根據(jù)志同道合的用戶的興趣受到建議。在基于項(xiàng)目的CF中,用戶將通過考慮對(duì)用戶/項(xiàng)目矩陣中的兩個(gè)項(xiàng)目進(jìn)行評(píng)級(jí)的用戶,基于比較項(xiàng)目之間的相似度來(lái)接受建議。CF技術(shù)通過明確要求用戶對(duì)滑動(dòng)尺度的項(xiàng)目進(jìn)行評(píng)估來(lái)構(gòu)建用戶項(xiàng)目評(píng)級(jí)矩陣。然后,CF使用相似度測(cè)量方法根據(jù)用戶的評(píng)分分?jǐn)?shù)來(lái)計(jì)算用戶或項(xiàng)目之間的相似度,以便對(duì)矩陣的空單元進(jìn)行預(yù)測(cè)。在大多數(shù)推薦系統(tǒng)中,通過增加項(xiàng)目數(shù)量,每個(gè)用戶無(wú)法在所有可用項(xiàng)目上說明自己的偏好,并且無(wú)法對(duì)數(shù)百萬(wàn)個(gè)項(xiàng)目進(jìn)行評(píng)估。因此,用戶項(xiàng)目矩陣的大部分單元都是空的。 這種情況下,確定類似的用戶或項(xiàng)目(鄰里形成)成為一個(gè)挑戰(zhàn)。這是因?yàn)閮蓚€(gè)用戶或項(xiàng)目之間的相似性無(wú)法計(jì)算,因?yàn)闆]有足夠的關(guān)于用戶評(píng)級(jí)的信息,因此推薦準(zhǔn)確性變得非常低。
為了克服這個(gè)缺點(diǎn),一些研究人員已經(jīng)開發(fā)了數(shù)據(jù)挖掘算法,用于過濾不可見項(xiàng)目或采用純?cè)u(píng)級(jí)數(shù)據(jù)進(jìn)行預(yù)測(cè),如聚類CF模型,維數(shù)降低技術(shù),貝葉斯信念網(wǎng)(BN)CF模型,鏈路分析,模式挖掘方法和潛在語(yǔ)義CF模型。特別地,解決CF中數(shù)據(jù)稀疏的解決方案之一是奇異值分解(SVD)方法通常用于降低CF技術(shù)中用戶項(xiàng)目評(píng)級(jí)矩陣的維度。SVD可以減少用戶項(xiàng)目矩陣中的空間,并通過從用戶項(xiàng)目矩陣中找到隱藏關(guān)系來(lái)提高評(píng)級(jí)密度并找到更多的評(píng)級(jí)。Zhou等提出了一種基于SVD的增量方法,每次重復(fù)計(jì)算原始矩陣的奇異值分解,以解決稀疏問題和用戶興趣的動(dòng)態(tài)。
Zahra等(2015)提到[1],聚類技術(shù)用于降低稀疏評(píng)級(jí)矩陣的維數(shù)。這種技術(shù)是基于一個(gè)概念,即在一個(gè)小的子區(qū)域內(nèi),用戶往往比整個(gè)領(lǐng)域更好地相互聯(lián)系。由于聚類子矩陣可能比原始大矩陣更密集,預(yù)期可以找到更好的相關(guān)性,通過利用用戶/項(xiàng)目矩陣聚類的最大評(píng)級(jí)數(shù)的用戶來(lái)改進(jìn)推薦過程,并找出最相似的質(zhì)心作為活躍用戶的鄰居。
除了聚類技術(shù)之外,關(guān)聯(lián)規(guī)則挖掘技術(shù)也被應(yīng)用于表示用戶在各個(gè)領(lǐng)域的興趣以提供推薦模型。這是因?yàn)樗軌驍U(kuò)展到大數(shù)據(jù)集并實(shí)現(xiàn)高精度。因此,使用關(guān)聯(lián)規(guī)則挖掘?qū)嵤〤F研究將是進(jìn)一步研究的一個(gè)有趣的領(lǐng)域。此外,以前的研究論文都沒有考慮如何通過采用關(guān)聯(lián)規(guī)則挖掘來(lái)有效地處理大量數(shù)據(jù)從而預(yù)測(cè)用戶未來(lái)的行為。在本研究中,我們采用聚類技術(shù),有效地處理海量數(shù)據(jù),通過采用關(guān)聯(lián)規(guī)則挖掘來(lái)識(shí)別同一組歌曲中用戶之間的相似聽力歷史,并預(yù)測(cè)用戶的未知偏好。
除了傳統(tǒng)的強(qiáng)調(diào)應(yīng)用算法來(lái)改善CF的鄰域形成階段,利用超越用戶/項(xiàng)目矩陣的附加信息源一直是研究人員的重要考慮因素。在用戶和項(xiàng)目之間的交互方面,推薦系統(tǒng)依賴不同類型的輸入數(shù)據(jù)來(lái)提出建議。使用最方便的交互是高質(zhì)量的明確反饋,其中包括用戶對(duì)產(chǎn)品感興趣的明確輸入。例如,Netflix 6收集電影和TiVo用戶的星級(jí),通過按向上/向下按鈕指示電視節(jié)目的喜好。然而,明確的反饋并不總是可用。 因此,推薦者可以通過豐富的隱含反饋來(lái)推斷用戶的偏好,通過觀察用戶的行為間接反映意見。在隱含反饋的情況下,用戶行為隱含的信息被視為偏好指標(biāo),用戶聽,訪問,查看或購(gòu)買了什么。在這項(xiàng)工作中,我們的數(shù)據(jù)集包含用戶的音樂聆聽信息和標(biāo)簽活動(dòng)等隱含信息,以及歌曲的功能,如標(biāo)題,藝術(shù)家,發(fā)行,年份,持續(xù)時(shí)間等,以獲得用戶對(duì)歌曲功能的興趣。
一般來(lái)說,根據(jù)Nakatsuji和Fujiwara(2014年)的研究,可以更容易地得到“喜歡”或“不喜歡”形式的輔助數(shù)據(jù),克服數(shù)字評(píng)級(jí)中CF的數(shù)據(jù)稀疏性,如喜好/不喜歡數(shù)據(jù)在Moviepilot以及Last.fm中的愛/禁止數(shù)據(jù)以及Flixster中的“想看到”/“不感興趣”的數(shù)據(jù)。用戶更方便地表達(dá)這種偏好,而不是數(shù)字評(píng)級(jí)。以前有研究應(yīng)用這些輔助數(shù)據(jù),“是否評(píng)級(jí)”(Shinde&Kulkarni,2012)或“是否購(gòu)買”(Cheng&Wang,2014)或“點(diǎn)擊流數(shù)據(jù)”(Choi et al 2012),以提高推薦準(zhǔn)確度。Cheng和Wang(2014)也將模擬采購(gòu)的隱含數(shù)據(jù)作為表示品牌忠誠(chéng)度的用戶側(cè)元數(shù)據(jù)和“購(gòu)買”用戶項(xiàng)目矩陣,將用戶品牌矩陣的隱含數(shù)據(jù)做了更改(Cheng&Wang,2014)[2]。
數(shù)據(jù)挖掘技術(shù)已被用于解決稀疏問題,因?yàn)樗鼈兡軌蚍治鲇脩糍?gòu)買行為并發(fā)現(xiàn)項(xiàng)目和用戶之間的隱藏關(guān)系。因此,有必要采用數(shù)據(jù)挖掘技術(shù)作為稀疏問題的解決方案。此外,預(yù)計(jì)將分析過去研究中仍未解決或忽視的問題,以開發(fā)新的推薦技術(shù)。
要注意的是,基于對(duì)CF研究的學(xué)術(shù)研究論文和問題的回顧,很明顯,即使在CF中進(jìn)行的研究在不同的應(yīng)用領(lǐng)域取得了很大的發(fā)展,音樂,書籍,玩笑和 需要進(jìn)一步研究的文件推薦系統(tǒng),特別是新出現(xiàn)的推薦系統(tǒng)應(yīng)用。因此,為了填補(bǔ)這一空白,音樂,書籍,笑話和文件需要更多的研究。MovieLens數(shù)據(jù)集已經(jīng)受到CF的重大研究,因?yàn)檫@個(gè)數(shù)據(jù)集被稱為常見用戶和使用中最著名的例子的數(shù)據(jù)集,并且很容易。因此,為了填補(bǔ)這個(gè)空白,需要更多的研究人員在其他應(yīng)用領(lǐng)域而不是電影中使用數(shù)據(jù)集。此外,使用實(shí)用解決方案的研究工作每年都在增加用戶對(duì)其隱含行為的興趣。不幸的是,很少有研究工作已經(jīng)被發(fā)布,用于從社交網(wǎng)絡(luò)活動(dòng)中吸引用戶的興趣,例如用戶的標(biāo)簽和音樂聽力信息,以推動(dòng)推薦。因此,研究人員被驅(qū)使開發(fā)有效的技術(shù)來(lái)處理這些隱含的數(shù)據(jù)。
本節(jié)將簡(jiǎn)要介紹CF技術(shù)的重要概念。接下來(lái),由于所提出的技術(shù)的核心是基于關(guān)聯(lián)規(guī)則挖掘技術(shù),以基于用戶的交互活動(dòng)(例如(“歌曲”活動(dòng)))來(lái)識(shí)別用戶之間的類似興趣模式,將介紹這種技術(shù)的簡(jiǎn)要說明。
基本的CF系統(tǒng)可以分為三個(gè)步驟:建立用戶評(píng)級(jí)矩陣,開發(fā)鄰里基礎(chǔ)和評(píng)級(jí)預(yù)測(cè)(使用鄰居預(yù)測(cè)未分類的項(xiàng)目并生成建議)
CF使用用戶評(píng)價(jià)數(shù)據(jù)來(lái)計(jì)算用戶項(xiàng)目矩陣的實(shí)體之間的相似度,即用戶或項(xiàng)目。用戶和項(xiàng)目之間的相關(guān)性是預(yù)測(cè)用戶對(duì)他/她之前沒有看到的特定項(xiàng)目的評(píng)級(jí)的決定性因素之一。因此,通過CF設(shè)計(jì)推薦系統(tǒng)的中心方面是計(jì)算用戶或項(xiàng)目之間的相似度,重點(diǎn)是用戶或項(xiàng)目對(duì)之間的相關(guān)性。將這些類似的用戶或項(xiàng)目稱為最近鄰居,CF預(yù)測(cè)活動(dòng)用戶的通過僅使用這樣的社區(qū)的評(píng)級(jí),而不是整個(gè)現(xiàn)有的用戶評(píng)級(jí),對(duì)未評(píng)級(jí)項(xiàng)目進(jìn)行評(píng)級(jí)。因此,在成功選擇最近鄰居用戶時(shí),CF的準(zhǔn)確性受到強(qiáng)烈的影響。
CF中最常見的計(jì)算相似度是皮爾遜相關(guān)系數(shù)(PCC)( 式(1))(Gogna&Majumdar,2015)或余弦矢量相似性(CVS)(式(2))(Acilar & Arslan,2009)[3]。
其中,rxi和ryi是項(xiàng)目i上的用戶x和y的評(píng)級(jí)。該記號(hào)n表示用戶x和y已經(jīng)評(píng)分的所有項(xiàng)目。
當(dāng)有活躍用戶的類似用戶被選中時(shí),式(1)和式(2),計(jì)算預(yù)測(cè)活躍用戶的偏好未分類的項(xiàng)目。例如,方程(3),predxj是按所有人給出的項(xiàng)目j的評(píng)分的加權(quán)平均數(shù),計(jì)算在活躍用戶附近的用戶,如下所示:
其中,k表示被識(shí)別為的用戶集合活動(dòng)用戶的鄰域和predxj是預(yù)測(cè)的用戶u對(duì)物品j的加權(quán)數(shù)[4]。
雖然這兩個(gè)相似性度量即Pearson和余弦度量(式(1)和式(2))在識(shí)別最近鄰居用戶方面是成功的,但他們?cè)谔幚硐∈钄?shù)據(jù)時(shí)可能會(huì)遇到挑戰(zhàn):
(1)大量的項(xiàng)目遠(yuǎn)遠(yuǎn)超出用戶對(duì)其中一小部分進(jìn)行評(píng)分的能力;(2)用戶不喜歡評(píng)估查看/購(gòu)買的項(xiàng)目。當(dāng)與大量的用戶和項(xiàng)目相比用戶偏好非常稀疏時(shí),基于皮爾遜和余弦度量的用戶或項(xiàng)目之間的相似性,可能僅從少量的普通評(píng)級(jí)計(jì)算,并且可能最終導(dǎo)致不可靠的鄰域,降低推薦系統(tǒng)的準(zhǔn) 確性。
文章介紹了一種技術(shù),通過克服數(shù)據(jù)集的稀疏性來(lái)提高媒體項(xiàng)目推薦系統(tǒng)中為用戶生成的推薦的準(zhǔn)確性。所提出的技術(shù)的核心基于關(guān)聯(lián)規(guī)則挖掘技術(shù),其通過提取關(guān)于包括用戶已經(jīng)玩過的標(biāo)簽和歌曲持續(xù)時(shí)間的歌曲特征的規(guī)則,來(lái)擴(kuò)展用戶的簡(jiǎn)檔并且從隱式數(shù)據(jù)中識(shí)別用戶的偏好。這是因?yàn)镸SD中的歌曲數(shù)據(jù)集非常大,以至于無(wú)法通過應(yīng)用有效且準(zhǔn)確地處理這些海量數(shù)據(jù),關(guān)聯(lián)規(guī)則挖掘在正常的臺(tái)式機(jī)上。因此,對(duì)具有不同基數(shù)的歌曲進(jìn)行分組的過程取決于預(yù)定義最佳數(shù)量的聚類。它是基于歌曲特征的。
關(guān)聯(lián)規(guī)則挖掘技術(shù)已被廣泛應(yīng)用于改進(jìn)建議并代表用戶的興趣的很多推薦系統(tǒng),如Tyagi和Bharadwaj (2013)和Lucas,Segrera和Moreno(2012)[5]。這 種技術(shù)的目的是發(fā)現(xiàn)有趣的關(guān)系,根據(jù)描述重新記錄的數(shù)據(jù)載入大量數(shù)據(jù)中,典型的過去用戶的導(dǎo)航路徑之間的關(guān)系。
一般來(lái)說,用戶的興趣可以通過關(guān)聯(lián)規(guī)則來(lái)識(shí)別以'A->B'形式進(jìn)行采礦(A和B是用戶的利益或利益)項(xiàng)目),這意味著對(duì)'A'感興趣的用戶可能是對(duì)'B'感興趣或換句話說,發(fā)生項(xiàng)目A(規(guī)則的先行一側(cè))導(dǎo)致項(xiàng)目B的發(fā)生(規(guī)則的后續(xù)部分)基于數(shù)據(jù)的用戶事務(wù)組。例如,在營(yíng)銷分析中,一個(gè)關(guān)聯(lián)規(guī)則'啤酒,水,尿布"表示購(gòu)買啤酒和水的顧客都傾向于購(gòu)買尿布。又如"當(dāng)顧客購(gòu)買產(chǎn)品時(shí),X也可能購(gòu)買產(chǎn)品Y,或者'喜歡產(chǎn)品X的用戶也喜歡產(chǎn)品y"可以被發(fā)現(xiàn)(Park等,2012)。
關(guān)聯(lián)規(guī)則中有兩個(gè)重要的概念采礦技術(shù),支持和規(guī)則的信心措施,用這些措施進(jìn)行評(píng)估。一個(gè)人的支持和信心關(guān)聯(lián)規(guī)則X->Y由等式(4)和(5)導(dǎo)出,只有具有以下支持和信心值的規(guī)則是被選為有用的規(guī)則(Kardan&Ebrahimi,2013;Tyagi&Bharadwaj,2013)[6]:
在推薦人中應(yīng)用關(guān)聯(lián)規(guī)則的動(dòng)機(jī)系統(tǒng),這種技術(shù)背后的想法是基于項(xiàng)目或用戶之間的數(shù)據(jù)關(guān)聯(lián),將活動(dòng)用戶的數(shù)據(jù)與其他用戶的數(shù)據(jù)或關(guān)聯(lián)數(shù)據(jù)進(jìn)行比較,活躍用戶對(duì)其他項(xiàng)目的數(shù)據(jù)感興趣的項(xiàng)目在系統(tǒng)上可用。事實(shí)上,關(guān)聯(lián)規(guī)則挖掘描述可追蹤對(duì)象之間關(guān)聯(lián)的概率(用戶或項(xiàng)目)在數(shù)據(jù)庫(kù)中。通過關(guān)聯(lián)規(guī)則生成的規(guī)則很容易解釋,因此可以很容易地應(yīng)用于實(shí)踐。
這個(gè)階段的目標(biāo)是改進(jìn)CF中的預(yù)測(cè)過程并克服與CVS和PCC度量有關(guān)的問題,在稀疏情況下只有評(píng)級(jí)數(shù)據(jù)用于計(jì)算類似用戶之間的偏好和預(yù)測(cè)用戶的興趣(Bobadilla,Ortega,Hernando,&Bernal,2012)。為了解決數(shù)據(jù)稀疏性問題,我們的技術(shù)涉及聽用戶的歷史記錄,并且基于將歌曲特征(群集)匹配到用戶信息來(lái)擴(kuò)展用戶的信息,因?yàn)楦枨膶傩钥梢詫?duì)用戶的重要性加權(quán)。一旦通過跟蹤用戶收聽習(xí)慣獲得用戶簡(jiǎn)檔,就表示用戶播放計(jì)數(shù)的比率,作為用戶對(duì)特定類別歌曲感興趣的提示。然后,根據(jù)具有相似偏好(鄰居)的用戶組的過去交易,使用關(guān)聯(lián)規(guī)則挖掘技術(shù)提取歌曲類別之間的關(guān)聯(lián)規(guī)則。換句話說,我們的技術(shù)通過參考用戶的類似聆聽模式,根據(jù)他們聽到的音樂的重疊情況,為活動(dòng)用戶預(yù)測(cè)群集集合。
在預(yù)測(cè)某個(gè)類別的歌曲的活躍用戶的未知偏好之后,現(xiàn)在是為活躍用戶提供推薦給特定歌曲列表的時(shí)間。在這個(gè)階段,我們的技術(shù)使用關(guān)于歌曲特征的信息來(lái)計(jì)算歌曲之間的相似度,所述歌曲的特征是藝術(shù)家,年份,標(biāo)題,發(fā)行版,歌曲--熱度,藝術(shù)家--熟悉度,持續(xù)時(shí)間和標(biāo)簽,以找到與已經(jīng)存在的項(xiàng)目相似的一組項(xiàng)目在用戶配置文件中。
改進(jìn)技術(shù)基于這個(gè)邏輯計(jì)算項(xiàng)目對(duì)之間的相似性,如果兩個(gè)項(xiàng)目彼此具有緊密特征,則兩個(gè)項(xiàng)目是相似的。活躍用戶收到與他或她喜歡的歌曲類似的歌曲的推薦。以往,計(jì)算歌曲之間的相似度的想法是在生成推薦時(shí)將用戶簡(jiǎn)檔(用戶的收聽歷史)與歌曲特征進(jìn)行匹配。這個(gè)想法背后的邏輯是,用戶喜歡接收關(guān)于他們?cè)谶^去基于歌曲特征選擇的項(xiàng)目(歌曲)的推薦。
CF根據(jù)志趣相投的用戶(鄰居用戶)過去的評(píng)級(jí)記錄向活躍用戶推薦項(xiàng)目。由于當(dāng)用戶提供的評(píng)級(jí)為真時(shí),CF無(wú)法準(zhǔn)確找到相似的鄰居,因此用戶的參考預(yù)測(cè)準(zhǔn)確度會(huì)較低。因此,導(dǎo)致低質(zhì)量的建議。在這項(xiàng)研究中,為了克服用戶體驗(yàn)矩陣的數(shù)據(jù)稀疏性,我們提出了一種新穎的基于隱式用戶反饋創(chuàng)建的用戶配置文件的建議技術(shù),該技術(shù)非常適合具有數(shù)據(jù)稀疏性的CF。這項(xiàng)研究的目標(biāo)是通過有效地分析用戶的項(xiàng)目來(lái)提高建議的準(zhǔn)確性,以來(lái)自用戶的收聽活動(dòng)的偏好以及與項(xiàng)目相關(guān)聯(lián)的標(biāo)簽以及在同一類別的歌曲上標(biāo)識(shí)類似的偏好。為了克服數(shù)據(jù)稀疏性問題,我們采用關(guān)聯(lián)規(guī)則挖掘技術(shù)來(lái)發(fā)現(xiàn)用戶之間來(lái)自隱式信息的相似興趣模式,而不是明確的信息。近年來(lái),已經(jīng)證明單個(gè)算法通常不能克服使用基本CF的缺點(diǎn)并優(yōu)化推薦準(zhǔn)確性。因此,我們提出的技術(shù)通過使用聚類分析技術(shù)來(lái)減小數(shù)據(jù)的大小,并且通過使用關(guān)聯(lián)規(guī)則挖掘技術(shù)來(lái)發(fā)現(xiàn)用戶之間的相似興趣模式,從而提高了建議的有效性。
作為未來(lái)的工作,我們打算在關(guān)聯(lián)規(guī)則挖掘過程中利用更多的隱式用戶反饋來(lái)通過識(shí)別相似用戶的活動(dòng)來(lái)生成推薦。因此,提供的建議的準(zhǔn)確性和質(zhì)量將是通過使用從關(guān)聯(lián)規(guī)則中提取的更多隱式數(shù)據(jù)來(lái)改進(jìn)。此外,我們計(jì)劃仔細(xì)閱讀用戶的人口統(tǒng)計(jì)數(shù)據(jù)等其他數(shù)據(jù)源,以便將它們與隱式數(shù)據(jù)結(jié)合使用,以便根據(jù)有關(guān)用戶及其與項(xiàng)目的交互的有用信息提取更可靠和更準(zhǔn)確的規(guī)則。所進(jìn)行的實(shí)驗(yàn)涉及一個(gè)名為MSD的數(shù)據(jù)集,其包含關(guān)于用戶的收聽歷史的隱含數(shù)據(jù)并且可以鏈接到其他同胞數(shù)據(jù)集(音樂推薦數(shù)據(jù)集),以提供關(guān)于用戶的收聽歷史的更多信息和歌曲。此外,還建議在圖像,書籍和電視節(jié)目等其他領(lǐng)域繼續(xù)進(jìn)行實(shí)驗(yàn)評(píng)估。