李 艷
(蘭州財(cái)經(jīng)大學(xué) 長(zhǎng)青學(xué)院,蘭州 730000)
近年來(lái),互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)和人工智能等技術(shù)的迅猛發(fā)展和廣泛應(yīng)用導(dǎo)致全球網(wǎng)絡(luò)數(shù)據(jù)爆炸性地增長(zhǎng)。一方面推動(dòng)了全球政治、經(jīng)濟(jì)、文化和科技等方面的信息交流和資源共享;另一方面也引發(fā)了“信息過(guò)載”問(wèn)題。據(jù)伙伴產(chǎn)業(yè)研究院(PAISI)研究統(tǒng)計(jì),2018年全球數(shù)據(jù)總量達(dá)19.4ZB,并且未來(lái)幾年全球數(shù)據(jù)的增長(zhǎng)速度在每年25%以上,到2020年,全球數(shù)據(jù)總量將達(dá)到30ZB。數(shù)據(jù)量的急劇增長(zhǎng)為人們?nèi)婧蜕钊氲乩斫鈫?wèn)題提供了更多的可能性。面對(duì)如此紛繁復(fù)雜的網(wǎng)絡(luò)大數(shù)據(jù),如何從中獲取到有價(jià)值的數(shù)據(jù)成了人們新的困擾。20世紀(jì)中期,人們開(kāi)始了關(guān)于數(shù)據(jù)處理技術(shù)的研究和應(yīng)用,例如數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)。但是隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,積累的數(shù)據(jù)量不斷增長(zhǎng),急需更有效的方法應(yīng)對(duì)數(shù)據(jù)處理中的新問(wèn)題。近年來(lái),人工智能和機(jī)器學(xué)習(xí)技術(shù)成了海量數(shù)據(jù)處理不可或缺的助力。
個(gè)性化推薦系統(tǒng)是互聯(lián)網(wǎng)大數(shù)據(jù)和海量數(shù)據(jù)處理技術(shù)相結(jié)合的應(yīng)用最廣泛的領(lǐng)域之一,也是解決“信息過(guò)載”問(wèn)題的重要手段。該系統(tǒng)應(yīng)用的最為人熟知的領(lǐng)域非亞馬遜莫屬。亞馬遜公司的推薦引擎負(fù)責(zé)為瀏覽亞馬遜網(wǎng)站的用戶提供個(gè)性化的內(nèi)容。據(jù)統(tǒng)計(jì)由亞馬遜推薦系統(tǒng)所賣出的商品每秒達(dá)72.9件,推薦的轉(zhuǎn)化率高達(dá)60%,推薦系統(tǒng)對(duì)亞馬遜銷售額的貢獻(xiàn)率達(dá)30%。推薦系統(tǒng)的發(fā)源,要追溯到20世紀(jì)90年代,1992年Xerox公司為了解決信息負(fù)載的問(wèn)題,第一次提出協(xié)同過(guò)濾算法,同時(shí)Goldberg等人將協(xié)同過(guò)濾算法引入了內(nèi)部新聞組文檔推薦系統(tǒng)Tapestry,此后又陸續(xù)推出了Ringo系統(tǒng)對(duì)音樂(lè)進(jìn)行協(xié)同過(guò)濾推薦,以及貝爾視頻推薦系統(tǒng)用于電影推薦[1]。直到1997年,推薦系統(tǒng)這一概念才被第一次提出[2]。90年代末,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,推薦系統(tǒng)被廣泛應(yīng)用到了電子商務(wù)領(lǐng)域,1998年亞馬遜將基于物品的協(xié)同過(guò)濾算法應(yīng)用到圖書(shū)推薦中,2003年Google將推薦技術(shù)應(yīng)用到了AdWards廣告服務(wù)中,通過(guò)分析用戶搜索的關(guān)鍵詞和用戶近期的搜索歷史記錄了解用戶的喜好和需求,從而更精準(zhǔn)地為用戶呈現(xiàn)個(gè)性化的廣告內(nèi)容。2006年,美國(guó)一家提供在線視頻流媒體服務(wù)和DVD租賃業(yè)務(wù)的公司Nexflix啟動(dòng)了Netflix Prize,這是一個(gè)有關(guān)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的比賽,他們公開(kāi)了其網(wǎng)站中的一部分真實(shí)數(shù)據(jù)供參賽者使用[3],旨在解決電影評(píng)分預(yù)測(cè)問(wèn)題,以此發(fā)現(xiàn)更好的方法來(lái)向用戶推薦影視產(chǎn)品。Netflix Prize競(jìng)賽中提出了很多有效的算法,同時(shí)推動(dòng)了學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)推薦算法的研究。最近幾年,隨著社會(huì)化網(wǎng)絡(luò)的發(fā)展,推薦系統(tǒng)在各行業(yè)廣泛應(yīng)用并且取得了顯著進(jìn)步。除了傳統(tǒng)的電子商務(wù)網(wǎng)站,如Amazon和淘寶網(wǎng)的電子商務(wù)推薦系統(tǒng)之外,還包括Youtube的視頻推薦系統(tǒng)、網(wǎng)易音樂(lè)推薦系統(tǒng)、Facebook和Twitter的好友推薦系統(tǒng)。經(jīng)過(guò)近二十年的發(fā)展,個(gè)性化推薦系統(tǒng)不僅在應(yīng)用領(lǐng)域上得到了迅速擴(kuò)張,而且還結(jié)合目前的網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境和機(jī)器學(xué)習(xí)算法在應(yīng)用深度上有了長(zhǎng)足進(jìn)步[4]。
近年來(lái),“人工智能”這一概念得到了廣泛的關(guān)注,同時(shí)“機(jī)器學(xué)習(xí)”一詞也深入人心,它是人工智能研究中所使用的主要方法。這種方法的核心目的是使機(jī)器能從大量數(shù)據(jù)中尋找學(xué)習(xí)規(guī)律,并將獲得的學(xué)習(xí)規(guī)律應(yīng)用到其他的同類數(shù)據(jù)中。因此,近年來(lái)這一方法也被應(yīng)用到了個(gè)性化推薦系統(tǒng)的研究中。目前,應(yīng)用在個(gè)性化推薦系統(tǒng)中的機(jī)器學(xué)習(xí)算法主要有以下幾類:
(1)有監(jiān)督的學(xué)習(xí)(Supervised Learning)
有監(jiān)督的學(xué)習(xí)主要是用來(lái)建立預(yù)測(cè)模型。所謂的預(yù)測(cè)模型是指利用數(shù)據(jù)集中的其他數(shù)值來(lái)預(yù)測(cè)另一個(gè)值,因此有監(jiān)督的學(xué)習(xí)所需要的數(shù)據(jù)由兩部分構(gòu)成:一部分是用于訓(xùn)練推薦系統(tǒng)的特征(feature)數(shù)據(jù)集;另一部分是標(biāo)簽(label)數(shù)據(jù)集,通過(guò)機(jī)器學(xué)習(xí)方法尋找特征和標(biāo)簽之間的聯(lián)系,然后將其應(yīng)用在只有特征而沒(méi)有標(biāo)簽數(shù)據(jù)的數(shù)據(jù)集上,發(fā)現(xiàn)并建立特征與待預(yù)測(cè)的目標(biāo)特征(待預(yù)測(cè)標(biāo)簽)之間的關(guān)系。這種算法就如同訓(xùn)練計(jì)算機(jī)學(xué)習(xí)如何做練習(xí)題,在計(jì)算機(jī)學(xué)會(huì)完成那些沒(méi)有答案的練習(xí)題之前,先在有正確答案的練習(xí)題上進(jìn)行學(xué)習(xí),這里練習(xí)題就是特征數(shù)據(jù)集,答案就是標(biāo)簽數(shù)據(jù)集。計(jì)算機(jī)在這樣的數(shù)據(jù)集上自行建立題目含義、題目已知條件以及其他特征與答案之間的關(guān)系,然后將所學(xué)應(yīng)用到其他題目上。在有監(jiān)督的學(xué)習(xí)中,“監(jiān)督”一詞并不是指人為干預(yù),而是用標(biāo)簽數(shù)據(jù)集來(lái)?yè)?dān)任監(jiān)督的角色,讓它來(lái)控制學(xué)習(xí)的效果。此外,雖然有監(jiān)督的學(xué)習(xí)是用來(lái)建立預(yù)測(cè)模型的,但是這里的“預(yù)測(cè)”并不一定只預(yù)測(cè)未來(lái),也可以用來(lái)“預(yù)測(cè)”過(guò)去的事情。有監(jiān)督的學(xué)習(xí)常用的算法包括:進(jìn)行分類的最近鄰、樸素貝葉斯和決策樹(shù)算法;進(jìn)行數(shù)值預(yù)測(cè)的線性回歸、回歸樹(shù)和模型樹(shù)算法;既可以分類又可以進(jìn)行數(shù)值預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法等。
(2)無(wú)監(jiān)督的學(xué)習(xí)(Unsupervised Learning)
與有監(jiān)督的學(xué)習(xí)相對(duì)應(yīng)的便是無(wú)監(jiān)督的學(xué)習(xí),它主要用來(lái)建立描述型模型。在無(wú)監(jiān)督的學(xué)習(xí)中,只有特征數(shù)據(jù)集,沒(méi)有標(biāo)簽數(shù)據(jù)集,因此訓(xùn)練或?qū)W習(xí)這類數(shù)據(jù)時(shí),計(jì)算機(jī)無(wú)法準(zhǔn)確地知道哪些特征或特征組合能代表或者能反映哪些標(biāo)簽,只能憑借算法自身的解析能力和計(jì)算機(jī)強(qiáng)大的計(jì)算能力來(lái)分析這些數(shù)據(jù)特征,從而演算出一定的代表結(jié)果的標(biāo)簽數(shù)據(jù)集。這類算法的主要目標(biāo)就是從不包含標(biāo)簽的數(shù)據(jù)中,由計(jì)算機(jī)依據(jù)數(shù)據(jù)的屬性的相似性對(duì)數(shù)據(jù)進(jìn)行聚類或者關(guān)聯(lián)分析。無(wú)監(jiān)督的學(xué)習(xí)中,具有代表性的兩個(gè)算法分別是關(guān)聯(lián)規(guī)則和K-means聚類算法,前者的主要任務(wù)是進(jìn)行模式識(shí)別,后者的主要任務(wù)就是聚類。模式識(shí)別用來(lái)描述數(shù)據(jù)之間聯(lián)系的緊密型。例如,典型的購(gòu)物籃分析問(wèn)題便是通過(guò)關(guān)聯(lián)規(guī)則來(lái)識(shí)別那些經(jīng)常在一個(gè)訂單中被一起購(gòu)買的商品。其中,最著名的案例便是啤酒-尿不濕的關(guān)聯(lián),即通過(guò)關(guān)聯(lián)規(guī)則,商場(chǎng)發(fā)現(xiàn)啤酒和尿不濕是經(jīng)常會(huì)被消費(fèi)者購(gòu)買的商品,因此商家就將這兩個(gè)商品擺放在一起銷售,或者將兩者進(jìn)行捆綁做促銷,這樣便可以提高銷售量。不難發(fā)現(xiàn),關(guān)聯(lián)規(guī)則這種無(wú)監(jiān)督學(xué)習(xí)幫助商場(chǎng)改進(jìn)了其銷售策略。聚類用來(lái)將數(shù)據(jù)集按照相同類型進(jìn)行分組,當(dāng)無(wú)法利用標(biāo)簽對(duì)某個(gè)數(shù)據(jù)集進(jìn)行分類的時(shí)候,聚類算法就是用來(lái)應(yīng)對(duì)這類問(wèn)題最好的方法。雖然計(jì)算機(jī)可以利用聚類算法對(duì)數(shù)據(jù)進(jìn)行分類,但是由于缺乏標(biāo)簽,分類的結(jié)果還需人工根據(jù)數(shù)據(jù)集的特征進(jìn)行解釋。
(3)半監(jiān)督的學(xué)習(xí)(Semi-Supervised Learning)
處在監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間的便是半監(jiān)督的學(xué)習(xí)。在半監(jiān)督的學(xué)習(xí)中,用于訓(xùn)練計(jì)算機(jī)的數(shù)據(jù),有一部分是有標(biāo)簽的;另一部分是沒(méi)有標(biāo)簽的。沒(méi)有標(biāo)簽的數(shù)據(jù)的數(shù)量往往遠(yuǎn)遠(yuǎn)大于有標(biāo)簽的數(shù)據(jù)數(shù)量。半監(jiān)督的學(xué)習(xí)的基本原理:首先從無(wú)標(biāo)簽的數(shù)據(jù)入手,利用聚類等無(wú)監(jiān)督的學(xué)習(xí)算法創(chuàng)建分類標(biāo)簽;然后應(yīng)用一個(gè)有監(jiān)督的學(xué)習(xí)算法(例如決策樹(shù))來(lái)尋找這些類中最重要的預(yù)測(cè)目標(biāo)。由于用于學(xué)習(xí)的數(shù)據(jù)集的分布并非完全隨機(jī),因此通過(guò)一些有標(biāo)簽的數(shù)據(jù)的局部特征和更多沒(méi)有標(biāo)簽的數(shù)據(jù)的整體分布,就可以獲得較好的分類結(jié)果。相比于有監(jiān)督的學(xué)習(xí),半監(jiān)督學(xué)習(xí)可以在相對(duì)低的成本下達(dá)到較高的準(zhǔn)確度。近幾年來(lái)半監(jiān)督學(xué)習(xí)得到了很好的應(yīng)用和發(fā)展。
(4)強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
強(qiáng)化學(xué)習(xí)又被稱為再勵(lì)學(xué)習(xí)或評(píng)價(jià)學(xué)習(xí),是一種非常重要的機(jī)器學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)使用的是無(wú)標(biāo)簽數(shù)據(jù),它通過(guò)特征數(shù)據(jù)集與周圍環(huán)境的交互來(lái)不斷逼近正確的結(jié)果,當(dāng)然在這個(gè)過(guò)程中,學(xué)習(xí)的結(jié)果也有可能遠(yuǎn)離正確的結(jié)果,那么如何去判斷學(xué)習(xí)的結(jié)果與正確答案之間的距離是越來(lái)越近還是越來(lái)越遠(yuǎn)呢,這就需要用到獎(jiǎng)懲函數(shù)(reward function)。當(dāng)計(jì)算機(jī)面對(duì)無(wú)標(biāo)簽數(shù)據(jù)時(shí),先根據(jù)現(xiàn)有的特征得到一種結(jié)果;然后依據(jù)獎(jiǎng)懲函數(shù)來(lái)反饋該結(jié)果是對(duì)還是錯(cuò),并指導(dǎo)計(jì)算機(jī)對(duì)學(xué)習(xí)過(guò)程進(jìn)行調(diào)整;最后經(jīng)過(guò)多次嘗試和調(diào)整,計(jì)算機(jī)就可以學(xué)習(xí)到利用什么樣的特征數(shù)據(jù),在什么樣的條件下可以獲得最好的結(jié)果。強(qiáng)化學(xué)習(xí)目前面臨的最困難的問(wèn)題就是延遲獎(jiǎng)勵(lì),即在計(jì)算機(jī)獲得好的結(jié)果之前需要完成大量探索工作,才能得到一個(gè)延遲的反饋。與有監(jiān)督的學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)面對(duì)的學(xué)習(xí)過(guò)程總是處在動(dòng)態(tài)變化之中,因?yàn)槠渥鞒龅拿恳粋€(gè)決定,獲得的每一個(gè)結(jié)果都會(huì)影響到下一次學(xué)習(xí)過(guò)程中數(shù)據(jù)的輸入內(nèi)容和方式。而在有監(jiān)督的學(xué)習(xí)過(guò)程中,學(xué)習(xí)的目的是明確的,學(xué)習(xí)完成后是可以立即獲得反饋的。與無(wú)監(jiān)督的學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)更關(guān)注經(jīng)過(guò)學(xué)習(xí)后所獲得的反饋,然后根據(jù)反饋信息再完成更好的學(xué)習(xí),經(jīng)過(guò)多次訓(xùn)練歸納出理想的學(xué)習(xí)結(jié)果,而無(wú)監(jiān)督的學(xué)習(xí)僅僅是去建立學(xué)習(xí)模式,不涉及反饋問(wèn)題。
20世紀(jì)90年代末,隨著互聯(lián)網(wǎng)技術(shù)的不斷普及,衍生出電子商務(wù)這一商務(wù)活動(dòng),并迅速擴(kuò)張,經(jīng)過(guò)近二十年的發(fā)展,逐漸成了互聯(lián)網(wǎng)技術(shù)重要的應(yīng)用領(lǐng)域。便利是網(wǎng)絡(luò)購(gòu)物最大的優(yōu)點(diǎn),因此不斷吸引著越來(lái)越多的用戶,據(jù)CNNIC報(bào)告(42次)截至2018年6月,我國(guó)網(wǎng)民規(guī)模為8.02億,網(wǎng)絡(luò)購(gòu)物用戶規(guī)模達(dá)到5.69億。正是這數(shù)以萬(wàn)計(jì)的用戶不斷推動(dòng)著電子商務(wù)的迅速發(fā)展,同時(shí)在網(wǎng)絡(luò)中留下了數(shù)以萬(wàn)計(jì)的信息數(shù)據(jù)。在這海量的信息空間中,用戶往往會(huì)迷失自己,不得不為尋找到自己心儀的東西而花費(fèi)大量的時(shí)間和精力,這便是信息過(guò)載問(wèn)題。目前,亞馬遜、淘寶和京東等電子商務(wù)網(wǎng)站均通過(guò)建立推薦系統(tǒng)來(lái)應(yīng)對(duì)此問(wèn)題,因此電子商務(wù)領(lǐng)域是個(gè)性化推薦系統(tǒng)應(yīng)用最廣泛的領(lǐng)域。除了傳統(tǒng)的基于協(xié)同過(guò)濾算法及其改進(jìn)算法之外,眾多研究者也提出了關(guān)于提高電子商務(wù)推薦系統(tǒng)準(zhǔn)確性和正面體驗(yàn)的很多新的想法。陳梅梅等人[5]將馬斯洛需求層次理論引入電子商務(wù)推薦系統(tǒng)中,從用戶的需求角度出發(fā),構(gòu)建了基于電子商務(wù)特點(diǎn)的用戶體驗(yàn)需求層次模型,使用回歸分析獲取影響用戶體驗(yàn)的需求因素,從而發(fā)現(xiàn)了影響推薦系統(tǒng)體驗(yàn)優(yōu)劣的若干因素。將Web日志數(shù)據(jù)與個(gè)性化推薦技術(shù)相結(jié)合對(duì)提高推薦系統(tǒng)準(zhǔn)確性有一定的作用。馬勇等人[6]提出了一種改進(jìn)方法,即將Web日志挖掘和相關(guān)性度量結(jié)合在一起并根據(jù)用戶偏好來(lái)提高推薦的準(zhǔn)確性。建立用戶興趣模型是電子商務(wù)推薦系統(tǒng)的關(guān)鍵,但是,用戶在電子商務(wù)活動(dòng)中留下的數(shù)據(jù)往往有限,無(wú)法全面反映用戶的興趣傾向,為解決該問(wèn)題,趙虎等人[7]在推薦系統(tǒng)中引入了用戶隱形行為數(shù)據(jù)。這些用戶隱形行為知識(shí)是通過(guò)對(duì)用戶的原型行為數(shù)據(jù)加以分析獲得的。該方法在一定程度上提高了個(gè)性化推薦系統(tǒng)的親和力。
新聞推薦是近年來(lái)個(gè)性化推薦的一個(gè)重要的應(yīng)用領(lǐng)域。據(jù)統(tǒng)計(jì),截至2018年6月,我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模為6.63億,手機(jī)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)到6.31億,可見(jiàn)個(gè)性化推薦在新聞推薦領(lǐng)域有著廣闊的應(yīng)用前景。與電子商務(wù)推薦所不同的是新聞推薦中不但要處理數(shù)據(jù)量大且結(jié)構(gòu)復(fù)雜的問(wèn)題,還會(huì)遇到另一個(gè)棘手的情況,就是用戶興趣漂移問(wèn)題?;桎h等人[8]從基于用戶位置標(biāo)簽的基礎(chǔ)上提出了面向位置的新聞推薦算法,即首先使用聚類算法對(duì)用戶的位置標(biāo)簽數(shù)據(jù)聚類,然后再使用基于LDA算法的協(xié)同過(guò)濾技術(shù)為每個(gè)聚類位置建立偏好模型。從而實(shí)現(xiàn)利用用戶位置信息來(lái)提高推薦準(zhǔn)確度的目標(biāo)。新聞推薦還有一個(gè)難點(diǎn)就是大多數(shù)用戶在瀏覽新聞時(shí)目的性不強(qiáng),容易受其他因素的干擾和影響,從而導(dǎo)致其瀏覽行為難以預(yù)測(cè)。張驍逸等人[9]提出了根據(jù)用戶過(guò)往瀏覽日志中留下的上下文相關(guān)特征來(lái)建立Logistic回歸模型對(duì)用戶未來(lái)可能感興趣的新聞進(jìn)行預(yù)測(cè),結(jié)果表明用戶的瀏覽行為的確與其上下文信息相關(guān),同時(shí),在預(yù)測(cè)模型中加入上下文數(shù)據(jù)提高了推薦效果。
機(jī)器學(xué)習(xí)算法在娛樂(lè)推薦中最經(jīng)常使用的就是音樂(lè)和視頻的推薦。音樂(lè)推薦與電商推薦相比,在音樂(lè)產(chǎn)品特征的提取上更困難。章宗杰等人[10]提出了一種基于標(biāo)簽擴(kuò)展的協(xié)同過(guò)濾算法,也就是將音樂(lè)作品的社會(huì)化標(biāo)簽作為其特征,基于這樣的標(biāo)簽內(nèi)容利用協(xié)同過(guò)濾算法為用戶提供推薦列表,從而改善推薦結(jié)果的準(zhǔn)確性。對(duì)于推薦準(zhǔn)確性的提高,一直以來(lái)都是推薦系統(tǒng)始終追求的目標(biāo),譚斌等人[11]提出了基于狀態(tài)轉(zhuǎn)移的獎(jiǎng)勵(lì)值算法,即為了提高推薦準(zhǔn)確性,根據(jù)用戶喜好數(shù)據(jù)集提取出了音樂(lè)流行度和用戶從眾度兩個(gè)重要特征數(shù)據(jù),同時(shí)在推薦算法中加入了獎(jiǎng)勵(lì)函數(shù),該函數(shù)是根據(jù)用戶喜好、音樂(lè)流行度以及狀態(tài)轉(zhuǎn)移概率而提出的,從而大大提高了推薦的效果。蘭艷等人[12]提出了一種時(shí)間加權(quán)協(xié)同過(guò)濾算法用來(lái)解決電影推薦中經(jīng)常遇到的信息過(guò)期問(wèn)題,即在推薦模型建立和預(yù)測(cè)評(píng)分過(guò)程中加入時(shí)間權(quán)重,在一定程度上提高了預(yù)測(cè)推薦的準(zhǔn)確性。
廣告在我們的日常生活中無(wú)處不在,無(wú)論是在報(bào)紙、廣播和電視等傳統(tǒng)媒體中,還是在基于互聯(lián)網(wǎng)的新型媒體中,廣告幾乎無(wú)時(shí)無(wú)刻不出現(xiàn)在我們的面前。在傳媒領(lǐng)域、電商領(lǐng)域、文化產(chǎn)業(yè)領(lǐng)域中,都會(huì)涉及各種各樣的廣告投放。傳統(tǒng)媒體中,一方面媒體投放廣告沒(méi)有針對(duì)性;另一方面用戶對(duì)于廣告的接受都是被動(dòng)的。在基于互聯(lián)網(wǎng)的新媒體中,無(wú)論從廣告的投放方式還是用戶的接受方式上都有了新的變化。而這些變化的根本原因就是互聯(lián)網(wǎng)大數(shù)據(jù)的影響?;ヂ?lián)網(wǎng)廣告的出現(xiàn)主要是為了產(chǎn)生流量?;ヂ?lián)網(wǎng)的內(nèi)容采取的都是免費(fèi)模式,需要流量變現(xiàn)維持運(yùn)營(yíng),而廣告正是最佳的變現(xiàn)途徑。因此廣告投放的精準(zhǔn)性直接決定了互聯(lián)網(wǎng)公司的收益,朱志北等人[13]廣告數(shù)據(jù)稀疏性的算法,通過(guò)建立廣告相似性網(wǎng)絡(luò)來(lái)獲取廣告的相似性關(guān)系,并對(duì)該相似性矩陣進(jìn)行分解,從而獲得已知廣告數(shù)據(jù)的相似鄰居,以此來(lái)彌補(bǔ)數(shù)據(jù)稀疏性造成的推薦疏漏。陸濟(jì)湘等人[14]在傳統(tǒng)的基于關(guān)鍵詞的推薦算法中,提出了一種結(jié)合用戶應(yīng)用環(huán)境和用戶情感分析的多維廣告推薦算法。所謂情感分析是指從用戶的其他社交媒體中提取與用戶態(tài)度相關(guān)的文本數(shù)據(jù)進(jìn)行分析,并將分析結(jié)果加入推薦算法中,從而達(dá)到更精確的推薦。
在傳統(tǒng)的基于協(xié)同過(guò)濾算法的推薦系統(tǒng)中,用戶對(duì)某種物品的喜好程度主要是通過(guò)評(píng)分來(lái)體現(xiàn)的。雖然這種獲得用戶興趣度的方法簡(jiǎn)單直接,可以很方便地應(yīng)用到推薦系統(tǒng)中,但是在實(shí)際的互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境中,除了評(píng)分之外,用戶往往還通過(guò)其他隱性的形式來(lái)表達(dá)他們的喜好程度。例如,用戶的評(píng)論文字、用戶停留在某種物品上的瀏覽時(shí)間、以及用戶瀏覽或購(gòu)買物品的頻率等都間接反映了他們對(duì)物品的興趣度,這些隱性的喜好都可以應(yīng)用到推薦系統(tǒng)的建立和使用中。推薦系統(tǒng)可以通過(guò)自然語(yǔ)言處理的方法從用戶的評(píng)論中獲取用戶對(duì)物品的興趣度,或者根據(jù)用戶瀏覽物品的時(shí)間長(zhǎng)度以及瀏覽或購(gòu)買物品的頻率等數(shù)據(jù),使用聚類或者關(guān)聯(lián)等算法挖掘用戶的消費(fèi)行為,利用這些消費(fèi)行為數(shù)據(jù)獲得用戶的隱形喜好。
稀疏數(shù)據(jù)是指在數(shù)據(jù)集中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù)。稀疏數(shù)據(jù)絕對(duì)不是無(wú)用數(shù)據(jù),只是信息不完全,通過(guò)適當(dāng)?shù)氖侄慰梢酝诰虺龃罅坑杏眯畔?。基于協(xié)同過(guò)濾算法的推薦系統(tǒng)的準(zhǔn)確性主要取決于用戶數(shù)據(jù)的數(shù)量。一般來(lái)說(shuō),某種物品獲得的評(píng)分?jǐn)?shù)據(jù)越多,推薦系統(tǒng)就能越準(zhǔn)確地預(yù)測(cè)出哪些用戶喜歡它;同樣,用戶留下的對(duì)物品的評(píng)分?jǐn)?shù)據(jù)越多,推薦系統(tǒng)也能越準(zhǔn)確地為其推薦感興趣的物品。然而,目前影響推薦系統(tǒng)推薦準(zhǔn)確性的主要問(wèn)題便是數(shù)據(jù)的稀疏,即使是在這樣一個(gè)大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)稀疏問(wèn)題依然存在。例如,Google、 Yahoo、 Netflix、 Amazon等大型互聯(lián)網(wǎng)和電子商務(wù)企業(yè),它們每天都擁有很多的數(shù)據(jù),但是依然不夠多。
冷啟動(dòng)問(wèn)題是困擾推薦系統(tǒng)準(zhǔn)確性的另外一個(gè)因素,它是數(shù)據(jù)稀疏問(wèn)題的一種特殊現(xiàn)象。根據(jù)推薦對(duì)象的不同,冷啟動(dòng)問(wèn)題可以分為兩種:用戶冷啟動(dòng)和物品冷啟動(dòng)。用戶冷啟動(dòng)是指當(dāng)一個(gè)網(wǎng)絡(luò)系統(tǒng)中進(jìn)入一個(gè)新的用戶時(shí),由于沒(méi)有該用戶的歷史記錄等相關(guān)數(shù)據(jù),推薦系統(tǒng)對(duì)其興趣點(diǎn)一無(wú)所知,因此推薦系統(tǒng)無(wú)法給該用戶提供準(zhǔn)確的推薦。在這種情況下,通常的做法是向該用戶推薦那些系統(tǒng)中最受歡迎的物品,也就是大多數(shù)用戶感興趣和普遍反映良好的物品。物品冷啟動(dòng)問(wèn)題是指當(dāng)一個(gè)新的物品進(jìn)入到一個(gè)網(wǎng)絡(luò)系統(tǒng)后,由于沒(méi)有和該物品相關(guān)的歷史記錄數(shù)據(jù),例如購(gòu)買、評(píng)價(jià)等,推薦系統(tǒng)無(wú)法將其推薦給可能對(duì)其感興趣的用戶。通常遇到這種情況時(shí),推薦系統(tǒng)往往是根據(jù)該物品和系統(tǒng)中已存在的其他物品的相似程度來(lái)推薦適合的用戶。除了協(xié)同過(guò)濾方法外,目前解決冷啟動(dòng)問(wèn)題還包括一些混合方法。例如,在推薦系統(tǒng)中加入用戶或物品的特征標(biāo)簽數(shù)據(jù);提取用戶的社群信息;將關(guān)聯(lián)規(guī)則、聚類方法等數(shù)據(jù)挖掘技術(shù)引入到協(xié)同過(guò)濾方法中等。
推薦系統(tǒng)完成之后,要解決實(shí)際問(wèn)題依然存在諸多困難。從數(shù)據(jù)量的角度來(lái)講,大多數(shù)推薦系統(tǒng)通常都是在小規(guī)模數(shù)據(jù)上搭建起來(lái)的,它們的推薦表現(xiàn)良好,但是當(dāng)這些系統(tǒng)應(yīng)用到大規(guī)模數(shù)據(jù)集上時(shí),表現(xiàn)并不理想;從數(shù)據(jù)組成結(jié)構(gòu)的角度來(lái)講,實(shí)際問(wèn)題所涉及的數(shù)據(jù)結(jié)構(gòu)往往是處在動(dòng)態(tài)變化中的,例如新用戶、新評(píng)論、新購(gòu)買情況等,造成了推薦系統(tǒng)應(yīng)用到動(dòng)態(tài)變化數(shù)據(jù)時(shí),表現(xiàn)差強(qiáng)人意。
互聯(lián)網(wǎng)的發(fā)展不僅改變了社會(huì)也改變了人們的生活方式,同時(shí)也將人類帶入了大數(shù)據(jù)時(shí)代。機(jī)器學(xué)習(xí)在個(gè)性化推薦系統(tǒng)中的應(yīng)用在解決“信息過(guò)載”問(wèn)題的同時(shí),也滿足了人們對(duì)于個(gè)性化服務(wù)的強(qiáng)烈需求。隨著機(jī)器學(xué)習(xí)算法研究的深入和個(gè)性化推薦系統(tǒng)應(yīng)用范圍的擴(kuò)展,在不斷暴露出各種問(wèn)題的同時(shí)也開(kāi)拓了未來(lái)的發(fā)展方向。例如,結(jié)合云計(jì)算技術(shù)的并行推薦可以大大提高推薦系統(tǒng)運(yùn)行速度、多推薦系統(tǒng)的交互以提高推薦準(zhǔn)確性,以及在保證推薦精確性的同時(shí)加入推薦的多樣性和新穎性等。
長(zhǎng)春大學(xué)學(xué)報(bào)2019年6期