• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種電影推薦系統(tǒng)的設(shè)計與實現(xiàn)

      2019-11-19 06:24:42張博李昂松尹琛湖北大學(xué)
      數(shù)碼世界 2019年11期
      關(guān)鍵詞:皮爾森物品數(shù)量

      張博 李昂松 尹琛 湖北大學(xué)

      1 問題背景與提出

      隨著網(wǎng)絡(luò)的發(fā)展及移動端的普及,越來越多的人們接觸到了網(wǎng)絡(luò),截至2018 年6 月,我國網(wǎng)民人數(shù)已破8 億。用戶在海量的數(shù)據(jù)中想要查找到所需信息越來越難,推薦系統(tǒng)應(yīng)運(yùn)而生。它通過分析用戶的歷史行為, 向用戶推薦能夠滿足他們興趣和需求的信息, 建立平臺與用戶之間的密切關(guān)系, 提高用戶的滿意度。

      本文現(xiàn)根據(jù)600 個用戶對9000 部電影的10000 項評價,包括電影信息、用戶對電影的評分等數(shù)據(jù),建立數(shù)學(xué)模型解決以下問題:

      (1)建立數(shù)學(xué)模型,實現(xiàn)電影推薦系統(tǒng),以便對用戶進(jìn)行電影推薦。

      (2)建立合理的指標(biāo)體系評價你所建立的推薦系統(tǒng)。

      2 模型的建立與求解

      在求解前,為了合理簡化模型,現(xiàn)做出假設(shè):

      (1)每個用戶的評分可以反映電影的優(yōu)劣程度,保證用戶評分的合理性;

      (2)用戶的喜好在一定時間范圍內(nèi)是不變的,此假設(shè)保證模型的可信性;

      2.1 問題一

      2.1.1 簡單數(shù)據(jù)分析

      已有數(shù)據(jù)中包含評分電影年份和評分提交時間等信息,本文從評分的出現(xiàn)頻數(shù)、電影發(fā)行情況與時間的關(guān)系以及評論時間的關(guān)系入手進(jìn)行簡單分析.

      (1)電影數(shù)量與時間的關(guān)系

      利用EXCEL 統(tǒng)計出自1902 年開始到2018 年每一年的電影數(shù)量,并對統(tǒng)計結(jié)果做透視分析。結(jié)果表明,全球電影數(shù)量自1973 年(65部)開始增速加快,數(shù)量增長趨勢成指數(shù)型,到2002 年時達(dá)到最大值,為324 部,此后增速放緩且每年電影數(shù)量整體上有下降的態(tài)勢但仍舊能夠保持每年160 部及以上的電影數(shù)量。

      (2)電影評價與年份的關(guān)系

      利用EXCEL 軟件,統(tǒng)計出自1970 年開始到2018 年每一年的評價數(shù)量,并對統(tǒng)計結(jié)果做透視分析。結(jié)果表明,全球用戶對電影的評論數(shù)量由1980 年(879 條)開始出現(xiàn)顯著增加,每年評論數(shù)量呈現(xiàn)指數(shù)式增長,這與上世紀(jì)八十年代開始互聯(lián)網(wǎng)的普及與個人電腦PC 進(jìn)入尋常百姓家中有很大的關(guān)系;評論數(shù)量在1995 年達(dá)到最大值(6012條),此后開始急劇跌落。結(jié)合兩次分析的結(jié)果可以發(fā)現(xiàn),1994 年至2015 年間電影數(shù)量相差不會很大。但在這21 年中,1994 年到2004年間的電影評論數(shù)遠(yuǎn)高于其他年份,說明在這20 年間人們對電影的關(guān)注度非常高,且1994~1995 年可以視為電影的鼎盛時期,這與電影的“黃金年代”的時間大致符合。

      圖 年份-電影數(shù)量統(tǒng)計直方圖

      2.1.2 構(gòu)建基于協(xié)同過濾的電影推薦系統(tǒng)

      2.1.2.1 建立基于物品的協(xié)同過濾算法

      (1)協(xié)同過濾算法

      協(xié)同過濾算法分為基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。

      基于用戶的協(xié)同過濾算法(簡稱UserCF),通過不同用戶對同一物品的評分來體現(xiàn)用戶之間的相似性。該算法適用于用戶較少的情況,其特征在于推薦的時那些和目標(biāo)用戶有共同興趣的其他用戶喜歡的物品,適合時效性強(qiáng)、社會化、用戶個性化興趣不太明顯的領(lǐng)域,如新聞推薦、微博話題等。

      基于物品的協(xié)同過濾算法(簡稱ItemCF),它通過同一用戶對不同物品的評分來反映物品之間的相似性。該算法適用于物品數(shù)明顯小于用戶數(shù)的場合,其特征在于推薦那些和目標(biāo)用戶之前喜歡的物品類似的其他物品,適合個性化需求強(qiáng)烈的領(lǐng)域,如電子商務(wù)、電影等

      (2)模型的設(shè)計

      本文決定選用基于物品的協(xié)同過濾算法(ItemCF)來構(gòu)建電影推薦模型。該算法主要包括兩步:

      a.計算物品之間的相似度。本文選用相似度算法的皮爾森系數(shù)計算物品之間的相似度,皮爾森相似度計算公式如下所示。

      式中,U 表示用戶所有對i 和j 共同評估評級的用戶組成的組合;表示對i 和j 共同評估評級的用戶,他們對i 的評級的平均值。

      b.計算推薦評分。根據(jù)物品的相似度矩陣和用戶的歷史行為信息,求解推薦評分,然后根據(jù)推薦評分給用戶生成推薦列表。推薦評分公式如下圖所示。

      根據(jù)各電影平均分和評分人數(shù)情況,得到最高平均分電影,選該電影為例來運(yùn)行ItemCF 算法模型,得出推薦的另外5 部電影。

      (3) 模型的求解

      依據(jù)上述流程,得到電影Forrest Gump(1994)為典例電影,而后對該電影與其他電影間進(jìn)行皮爾森關(guān)聯(lián)度計算,并對其進(jìn)行奇異值分解,最后計算結(jié)果進(jìn)行降序排列。推薦電影分別為:Shawshank Redemption, The(1994)、Schindler's List(1993)、Silence of the Lambs, The(1991)、Apollo 13(1995)、Braveheart(1995)。

      2.2 問題二

      2.2.1 評價指標(biāo)的選擇與體系建立

      本文選用精確率,召回率,覆蓋率和新穎度作為測評指標(biāo)。精確率描述最終的推薦列表中有多少比例是發(fā)生過的用戶;召回率描述有多少比例的用戶;覆蓋率反映了推薦算法發(fā)掘長尾的能力;新穎度反映了推薦列表中物品的平均流行度。

      2.2.2 評價推薦模型

      對用戶 推薦N 個物品,記為R(u),令用戶u 在測試集中喜歡的物品集為T(u),那么各指標(biāo)公式如下,

      上述三式為問題二評價推薦模型。評估模型的方式是對每個用戶進(jìn)行推薦,最后使用評估指標(biāo)進(jìn)行評測。經(jīng)過測評計算,精確率0.3767,召回率0.0759,覆蓋率0.3175,總體來看該模型效果良好。

      猜你喜歡
      皮爾森物品數(shù)量
      稱物品
      “雙十一”,你搶到了想要的物品嗎?
      誰動了凡·高的物品
      統(tǒng)一數(shù)量再比較
      頭發(fā)的數(shù)量
      找物品
      我國博物館數(shù)量達(dá)4510家
      數(shù)字翹楚皮爾森:忍過100多次整形的女軍人
      有夢的青春不易“殘”
      尉犁县| 扶余县| 鄂州市| 湘西| 桐庐县| 湘乡市| 阳泉市| 远安县| 丹巴县| 当阳市| 临清市| 沙田区| 南和县| 开阳县| 金溪县| 兰坪| 柳江县| 葫芦岛市| 温泉县| 普兰店市| 平安县| 普定县| 济阳县| 松江区| 济南市| 安岳县| 漯河市| 襄城县| 高雄市| 宜城市| 玉树县| 滁州市| 南召县| 育儿| 内江市| 潍坊市| 庄浪县| 隆子县| 如东县| 亚东县| 裕民县|