孫雨生 李亞奇 朱金宏
(1.湖北工業(yè)大學(xué)經(jīng)濟與管理學(xué)院 武漢 430068)(2.湖北工業(yè)大學(xué)職業(yè)技術(shù)師范學(xué)院 武漢 430068)
伴隨移動互聯(lián)網(wǎng)、社會化媒體、云計算、物聯(lián)網(wǎng)等技術(shù)發(fā)展和應(yīng)用深化,人類全面進入大數(shù)據(jù)時代,海量、分布、異構(gòu)信息資源與有限用戶認(rèn)知能力間矛盾凸顯,信息過載、用戶個性化信息需求難發(fā)現(xiàn)、難真正滿足問題日益嚴(yán)重。作為主流信息服務(wù)方式與工具,傳統(tǒng)信息推薦系統(tǒng)基于單機節(jié)點高性能計算機、集中式單塊架構(gòu)(易構(gòu)建、測試、部署、橫向伸縮但系統(tǒng)調(diào)用復(fù)雜、職責(zé)不清、持續(xù)交付周期長、技術(shù)選型及維護成本高)提供信息推薦解決方案(基于屬性、行為數(shù)據(jù)進行用戶(需求、興趣)、推薦項目建模以提取用戶、項目特征,經(jīng)推薦算法處理并過濾、調(diào)整推薦結(jié)果后推薦),雖部分滿足用戶個性化信息需求、實現(xiàn)信息資源合理配置及利用效率提升但難適應(yīng)海量異構(gòu)、增長迅速、分布稀疏、關(guān)聯(lián)復(fù)雜、應(yīng)用多樣化的大數(shù)據(jù)環(huán)境及其對系統(tǒng)架構(gòu)的更高要求,致使大數(shù)據(jù)采集、存儲、管理、計算、分析成本和難度劇增且推薦效率不高,面臨應(yīng)用頻繁演進、架構(gòu)日趨復(fù)雜、負(fù)載動態(tài)均衡、資源分布協(xié)同等挑戰(zhàn),急需改造、重構(gòu)傳統(tǒng)信息推薦系統(tǒng)架構(gòu)體系以基于分布式架構(gòu)模式并整合云計算、大數(shù)據(jù)(涉及分布式并行計算、負(fù)載均衡、分布式緩存、分布式文件系統(tǒng)及數(shù)據(jù)庫等)等技術(shù)和方法優(yōu)勢滿足大數(shù)據(jù)環(huán)境下信息推薦系統(tǒng)核心功能需求(涉及推薦個性化、動態(tài)化,功能、代碼及數(shù)據(jù)處理分散化,跨進程高效協(xié)同等)及關(guān)鍵非功能性需求(涉及高效并發(fā)、動態(tài)I/O、安全可靠、按需擴展、健壯容錯、易維護、低成本、高性能等),在實現(xiàn)推薦系統(tǒng)業(yè)務(wù)功能、整合技術(shù)及數(shù)據(jù)資源、集成信息基礎(chǔ)設(shè)施同時支持迭代式并行開發(fā)、分布式協(xié)作并保障信息推薦系統(tǒng)架構(gòu)規(guī)范性(涉及描述、約束、設(shè)計、質(zhì)量等)、可復(fù)用性、易維護性,最終提升信息服務(wù)質(zhì)量、性能及用戶體驗,提高信息資源及信息基礎(chǔ)設(shè)施利用率,因此,研究基于大數(shù)據(jù)的信息推薦架構(gòu)體系問題有重要意義。
本文先以知網(wǎng)、萬方的學(xué)位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“大數(shù)據(jù)”和“推薦”為關(guān)鍵詞組合在題名中檢索相關(guān)文獻(xiàn)(截止2020年8月1日,從知網(wǎng)獲碩博論文55篇、期刊論文183篇,從萬方獲期刊論文114篇(新發(fā)現(xiàn)14篇)、碩博論文48篇(新發(fā)現(xiàn)9篇),從維普獲期刊論文176篇(新發(fā)現(xiàn)19篇),共268篇文獻(xiàn)有效);其次,詳讀文獻(xiàn)歸納基于大數(shù)據(jù)的信息推薦架構(gòu)體系并根據(jù)提及頻次、內(nèi)容質(zhì)量詳細(xì)標(biāo)注,本著最大限度反映國內(nèi)基于大數(shù)據(jù)的信息推薦架構(gòu)體系研究進展重要文獻(xiàn)、優(yōu)中選優(yōu)(剔除標(biāo)注次數(shù)少、與其他標(biāo)注文獻(xiàn)內(nèi)容重復(fù)文獻(xiàn))原則選出42篇參考文獻(xiàn)(內(nèi)容覆蓋280篇文獻(xiàn));最后從體系結(jié)構(gòu)、功能模塊、推薦機理三方面闡述國內(nèi)基于大數(shù)據(jù)的信息推薦架構(gòu)體系研究進展。
基于大數(shù)據(jù)的信息推薦系統(tǒng)架構(gòu)體系基于系統(tǒng)結(jié)構(gòu)(涉及元素及其關(guān)系、元素外部可見性)構(gòu)建,旨在基于架構(gòu)實現(xiàn)多角色(用戶、系統(tǒng)分析師、軟件工程師、系統(tǒng)管理員等)協(xié)同溝通、決策的規(guī)范和機制以高層次、系統(tǒng)化解決信息推薦系統(tǒng)設(shè)計、復(fù)用、質(zhì)量保障和維護等問題,指導(dǎo)信息推薦系統(tǒng)規(guī)劃、設(shè)計、實現(xiàn),深刻影響推薦系統(tǒng)的業(yè)務(wù)場景實現(xiàn)、(新)技術(shù)運用和未來拓展(適應(yīng)新應(yīng)用需求),主要研究架構(gòu)描述、設(shè)計、風(fēng)格(如B/S、微服務(wù)、分布式架構(gòu)等)、評價和構(gòu)建方法等,涵蓋軟硬件架構(gòu)并受功能、非功能性需求及條件約束,常按生命周期分概念設(shè)計(涉及頂層組件及其關(guān)系)、詳細(xì)設(shè)計(基于靜態(tài)視圖(涉及邏輯視圖、開發(fā)視圖)、動態(tài)視圖(涉及運行視圖、物理視圖)、數(shù)據(jù)視圖全面系統(tǒng)細(xì)化概念架構(gòu))和開發(fā)實現(xiàn)(涉及詳細(xì)設(shè)計架構(gòu)、編程實現(xiàn)架構(gòu))。本文基于分層思想實現(xiàn)推薦業(yè)務(wù)專業(yè)化、推薦功能分模塊封裝、推薦機制按應(yīng)用場景描述策略,分別闡述基于大數(shù)據(jù)的信息推薦系統(tǒng)體系結(jié)構(gòu)(概念架構(gòu),旨在識別子系統(tǒng)、構(gòu)建系統(tǒng)體系結(jié)構(gòu)并基于體系結(jié)構(gòu)定義組件及模塊間通信機制、系統(tǒng)網(wǎng)絡(luò)拓?fù)?、系統(tǒng)軟硬件方案)、功能模塊、推薦機理,進而劃分信息推薦系統(tǒng)構(gòu)成部分以遵循業(yè)務(wù)邏輯,按應(yīng)用場景組織、協(xié)同功能模塊、信息推薦技術(shù)、信息資源、信息基礎(chǔ)設(shè)施提供基于大數(shù)據(jù)的信息推薦服務(wù)。
基于大數(shù)據(jù)的信息推薦系統(tǒng)?;贐/S模式、分布式架構(gòu)構(gòu)建,多分界面表示層(即終端應(yīng)用層[1],支持實時可視化交互[2](注冊、登錄[3~4]、瀏覽[3,5]、檢索、評價、交流[5]、反饋[2,6~7]),結(jié)果展示[5,8~12](熱點排名[6~7])、分類及管理[4,6~7])、服務(wù)提供層(基于推薦(算法)引擎離線、實時計算)、業(yè)務(wù)邏輯層(支持業(yè)務(wù)邏輯控制,涉及業(yè)務(wù)校驗、資源調(diào)用等[6~7])、數(shù)據(jù)訪問層(支持?jǐn)?shù)據(jù)預(yù)處理[4]、檢索、更新、持久化[4])、數(shù)據(jù)資源層(支持分布式數(shù)據(jù)采集、存儲、管理)、基礎(chǔ)設(shè)施層(基于軟硬件、通信設(shè)施的分布式集群與云平臺),基于功能模塊、應(yīng)用接口實現(xiàn)層間、模塊間通信。
陳玉兆[1]、鄧玉林[4]提出基于B/S架構(gòu)推薦系統(tǒng)分推薦終端(含移動、PC、電視端)和終端應(yīng)用(界面表示)層[1]、業(yè)務(wù)層(涉及推薦后臺、推薦引擎,用基于Mahout協(xié)同過濾、基于內(nèi)容推薦算法等處理離線數(shù)據(jù)并將結(jié)果存入數(shù)據(jù)庫(常結(jié)合用戶行為并輔以基于文本相似度熱點推薦算法、自定義算法在線推薦);分應(yīng)用功能層(支持檢索、推薦及其管理、數(shù)據(jù)采集、用戶興趣分析)、公共服務(wù)提供層、數(shù)據(jù)訪問層[4])[1]、數(shù)據(jù)資源層(基于HDFS或NoSQL存儲,基于Hive、Pig-Latin等ETL處理、管理用戶及商品[4]數(shù)據(jù)等)、基礎(chǔ)設(shè)施層(分基于Hadoop協(xié)同過濾集群、基于內(nèi)容計算集群,基于MapReduce分布式應(yīng)用架構(gòu)橫向擴展集群);葛曉偉[13]提出分界面層、推薦層、邏輯層(分推薦處理(基于改進算法)個性化推薦,基于熱點排名非個性化推薦,支持用戶管理、注冊)、數(shù)據(jù)層(持久化數(shù)據(jù),基于Sqoop遷移數(shù)據(jù))、基于Hadoop的云平臺層;陳澤[14]、岑凱倫[15]提出基于Hadoop、Lamp架構(gòu)推薦系統(tǒng)體系包括在線Web服務(wù)系統(tǒng)(含推薦請求解析、賬戶認(rèn)證管理、工程(推薦算法、數(shù)據(jù)、模型集)管理模塊(企業(yè)用戶交互接口,通過新建工程、添加數(shù)據(jù)、配置算法、離線建模后供推薦請求模塊調(diào)用))、實時計算系統(tǒng)(基于Storm計算用戶實時行為、離線結(jié)果以推薦[14])、離線計算系統(tǒng)(訓(xùn)練推薦模型[15],響應(yīng)前端請求,存儲計算結(jié)果)、存儲服務(wù)器(采集、收發(fā)日志、清洗數(shù)據(jù)、均衡負(fù)載[15])。
陳陽雪[6]、金志福[7]提出B/S架構(gòu)、MVC模式教育資源[7]、MOOC平臺課程[6]推薦分界面層、事件響應(yīng)層(記錄用戶行為、默認(rèn)評分,生成推薦)、推薦引擎層(基于內(nèi)容、基于項目、基于矩陣分解模型推薦)、業(yè)務(wù)邏輯層、數(shù)據(jù)層(存儲、計算、統(tǒng)計評分)、數(shù)據(jù)采集層并支持系統(tǒng)各層管理[6](涉及場景配置、冗余備份、系統(tǒng)監(jiān)控、數(shù)據(jù)維護);張進良[2]提出基于學(xué)習(xí)資源智能推薦模型分用戶層、服務(wù)層(支持基于學(xué)習(xí)者模型的個性化界面、檢索、學(xué)習(xí)路徑生成及干預(yù)、評價方式,學(xué)習(xí)資源自適應(yīng)推薦及報告可視化等)、分析層(分析學(xué)習(xí)者、資源數(shù)據(jù)并基于Agent檢索、匹配、管理、推薦)、數(shù)據(jù)層(采集并挖掘系統(tǒng)數(shù)據(jù),涉及云資源、交互、考評、檔案管理、數(shù)據(jù)感知(源自傳感器、RFID、GPS等)等);于凱[16]提出分效用評價層、推薦生成層(基于矩陣、隱式反饋、社會化情境、群組特征推薦)、數(shù)據(jù)預(yù)處理層(采集用戶興趣、上下文信息構(gòu)建社會化網(wǎng)絡(luò))、源數(shù)據(jù)層(采集顯隱式反饋、社會化網(wǎng)絡(luò)數(shù)據(jù)、人口統(tǒng)計學(xué)特征)。
李梅珍[5]提出基于高校圖書館科研數(shù)據(jù)知識庫推薦系統(tǒng)分智能服務(wù)層、數(shù)據(jù)處理層(采集、清洗數(shù)據(jù),聚類用戶,挖掘并推薦)、基礎(chǔ)數(shù)據(jù)層(涉及用戶信息庫、館藏資源庫)。
沈杰[8]、房璐璐[9]、郭博林[10]、劉敏[11]、周夢蒲[12]提出基于Hadoop、MVC模式[9]電影[12]、音樂[10]推薦系統(tǒng)分應(yīng)用(視圖[9])層、推薦算法層(生成推薦候選集、管理反饋[10])、業(yè)務(wù)(控制[9])層(支持用戶興趣建模、項目數(shù)據(jù)分析)、數(shù)據(jù)(模型[9])層(采集、預(yù)處理數(shù)據(jù))、資源監(jiān)控統(tǒng)計分析層[11](展示集群計算狀態(tài)[8]);張?。?7]提出有線電視推薦系統(tǒng)技術(shù)架構(gòu)分業(yè)務(wù)接口層(支持推薦位(直播、點播及其他系統(tǒng))管理、人工存儲、元數(shù)據(jù)封裝、結(jié)果訪問)、數(shù)據(jù)分析層(基于推薦算法)、計算處理層(基于Hadoop分布式計算、實時流處理)、數(shù)據(jù)預(yù)處理層(ETL處理)、數(shù)據(jù)存儲層(基于SQL、NoSQL)、數(shù)據(jù)源層(涉及用戶行為、媒體資源、網(wǎng)絡(luò)爬蟲數(shù)據(jù)、實時操作數(shù)據(jù)、推薦日志)。
張興旺[18]提出移動推薦服務(wù)分可視化交互層(基于Web門戶)、應(yīng)用層(支持單主體、多主體協(xié)同進行單領(lǐng)域、跨領(lǐng)域(終端)移動推薦,移動端、PC端、專用端、門戶、物聯(lián)感知端、生物體驗端、隱形終端交互)、核心服務(wù)層(涉及服務(wù)部署、注冊、檢索、匹配、組合、優(yōu)化、調(diào)度、運行、負(fù)載均衡、容錯處理、監(jiān)控、評估、交易、協(xié)作)、中間件層(涉及資源虛擬化、服務(wù)化、協(xié)作化,數(shù)據(jù)感知、采集、傳輸、存儲、分析、預(yù)測)、大數(shù)據(jù)資源層(涉及服務(wù)數(shù)據(jù)[18]、設(shè)計、管理、仿真、集成、試驗、計算、存儲、網(wǎng)絡(luò)等資源及信息);王俞翔[3]提出推薦系統(tǒng)分用戶交互層、推薦引擎層(分用戶數(shù)據(jù)采集及預(yù)處理、離線推薦、用戶檢索及請求處理三模塊,提供閾值檢測、數(shù)據(jù)集分割、任務(wù)提交服務(wù))、計算存儲層(基于Hbase、MapReduce、HDFS、MySQL);胡蓉[19]提出服務(wù)推薦系統(tǒng)分服務(wù)推薦層(基于用戶協(xié)同過濾、服務(wù)聚類)、大數(shù)據(jù)存儲層、大數(shù)據(jù)采集層(涉及服務(wù)描述、請求、評分、日志);尹培培[20]提出基于主題特征的地理大數(shù)據(jù)挖掘與推薦系統(tǒng)分地理數(shù)據(jù)分析層、數(shù)據(jù)挖掘算法層(含數(shù)據(jù)挖掘(基于地理大數(shù)據(jù)屬性(主題特征)聚類分析)、推薦算法)、數(shù)據(jù)存儲中心層(基于HDFS、ETL工具存儲、管理(經(jīng)清洗、集成、選擇和加載將數(shù)據(jù)轉(zhuǎn)換為易處理格式)數(shù)據(jù)(空間、非空間))、云計算平臺層。
基于大數(shù)據(jù)的信息推薦功能模塊常針對大數(shù)據(jù)環(huán)境下復(fù)雜分布式推薦系統(tǒng)特點,基于深度優(yōu)先迭代開發(fā)(縱向迭代完整功能后持續(xù)集成再交付)、分治思想劃分功能集,核心是用戶交互界面(展示結(jié)果并管理[4](排序及可視化、監(jiān)控等[21])、采集用戶注冊登錄[22~23]、行為及反饋[6,24]信息)[6,21,25]、模型管理(支持用戶、推薦項目建模)模塊、推薦引擎(算法)模塊(離線計算并在線推薦[23]以響應(yīng)請求,存儲、檢索、優(yōu)化推薦算法[25])、大數(shù)據(jù)存儲模塊[26](存儲數(shù)據(jù)庫及其操作信息[25]、日志信息[6],涉及用戶興趣[6,10,14,21](注冊[6])、行為[6,10,21](收藏、點擊[25]、評價[8,22]與反饋[14]、交易[1,14,25]等)信息及項目特征信息[8,10,14,25]、情境信息[10,26]及推薦結(jié)果[9])、大數(shù)據(jù)采集[6,26]模塊,通過模塊并行開發(fā)、單元及集成測試后推薦。
陳玉兆[1]、鄧玉林[4]、胡一[25]、賈利娟[27]提出電子商務(wù)推薦系統(tǒng)分渠道[27]管理、輸出(涉及商品、用戶評價(評分及其均值)、E-mail、編輯推薦[25])、在線推薦(基于HDFS需求按日期、行為次序分類數(shù)據(jù)并計算用戶興趣度[1,4,27],基于日志分析用戶行為構(gòu)建興趣相似群[1],基于協(xié)同推薦[4]、用戶瀏覽商品特征優(yōu)化老用戶推薦列表[1],基于內(nèi)容[1,4,27]向新用戶推薦[1])、離線計算(預(yù)處理[4,27](ETL處理[1],基于TF-IDF向量化用戶、項目特征[4]),基于規(guī)則庫并集成分類器、雙層關(guān)聯(lián)規(guī)則進行分類、Web挖掘[27])、輸(接[27])入[25](從Web服務(wù)器采集[4]用戶(群)歷史、實時興趣及行為、商品特征并更新[25])模塊,此外,陳玉兆[1]認(rèn)為離線計算模塊包括混合協(xié)同推薦與內(nèi)容推薦向老用戶推薦、基于文本相似度向新用戶推薦熱點,分計算層(推薦)、數(shù)據(jù)層,由腳本程序控制運行、推薦程序基于MapReduce分布式處理HDFS中數(shù)據(jù)(ApplicationMaster節(jié)點監(jiān)督程序運行狀況并定時反饋給主節(jié)點、重啟失敗節(jié)點任務(wù),在Reduce階段匯總推薦項目形成原始推薦列表)并將結(jié)果存入關(guān)系數(shù)據(jù)庫;胡一[25]認(rèn)為包括用戶交互(界面)、推薦引擎、推薦模型、數(shù)據(jù)操作庫、數(shù)據(jù)庫模塊;陳澤[14]認(rèn)為分企業(yè)用戶(管理賬戶、構(gòu)建推薦工程及配置算法、評估推薦效果)、Web服務(wù)接口(推薦)、(非)個性化推薦算法及模型庫(含內(nèi)容模型、用戶行為模型、用戶興趣模型,存儲離線計算系統(tǒng)處理原始數(shù)據(jù)后形成、服務(wù)實時計算系統(tǒng)的模型數(shù)據(jù))、基礎(chǔ)數(shù)據(jù)庫模塊;此外,金偉晟[28]認(rèn)為分用戶登錄注冊(涉及信息安全、信息提?。⒎?wù)推薦(基于MapReduce、可信社團算法)、Web服務(wù)組合優(yōu)化(基于改進量子粒子群優(yōu)化算法)、數(shù)據(jù)壓縮策略選擇(基于HBase數(shù)據(jù)分類冷熱數(shù)據(jù)進而選擇)、基于目的用戶訪問控制(結(jié)合隱私偏好增強、基于目的訪問控制模型)、海量Web信息抽取(基于DOM樹節(jié)點屬性與視覺特征抽?。┠K;嚴(yán)克文[29]提出物流推薦系統(tǒng)分推薦算法、用戶興趣模型管理(基于用戶相異度矩陣構(gòu)建、局部進化)、用戶行為記錄(采集、檢索、更新、標(biāo)記)模塊。
陳陽雪[6]提出基于MOOC平臺課程推薦系統(tǒng)分?jǐn)?shù)據(jù)用戶交互、推薦結(jié)果篩選及微調(diào)(過濾已訂閱課程)、推薦引擎(基于混合推薦)、數(shù)據(jù)存儲、數(shù)據(jù)采集、系統(tǒng)管理(主要是系統(tǒng)狀態(tài)監(jiān)控調(diào)整)模塊;張進良[2]提出基于學(xué)習(xí)資源智能推薦模型分個性化服務(wù)、學(xué)習(xí)者分析(涉及用戶統(tǒng)計、特征挖掘、可視化、預(yù)測)、學(xué)習(xí)資源分析(涉及資源的描述、標(biāo)注、用戶分析、關(guān)聯(lián)及聚合、效能分析、進化)、智能推薦引擎(基于Agent)、數(shù)據(jù)源(感知、挖掘、轉(zhuǎn)換并分類存儲數(shù)據(jù))模塊;金志福[7]提出教育資源推薦Web子系統(tǒng)分熱點排名(普適推薦)、資源評價、資源推薦(基于用戶搜索、瀏覽內(nèi)容)、資源檢索模塊。
劉海鷗[26]提出圖書館知識服務(wù)情境化推薦系統(tǒng)分基于情境的用戶興趣本體建模、推薦引擎、并行推薦(基于并行處理、情境化協(xié)同推薦)、大數(shù)據(jù)采集與存儲模塊;劉海鷗[30]提出移動圖書館推薦系統(tǒng)分大數(shù)據(jù)服務(wù)應(yīng)用融合(基于情境感知、大數(shù)據(jù)挖掘技術(shù)推薦)、大數(shù)據(jù)融合(基于大數(shù)據(jù)采集與預(yù)處理、云計算并行處理、分布式存儲、可視化技術(shù)聚類、挖掘、重組并統(tǒng)一表示、協(xié)同管理、可視化資源)、大數(shù)據(jù)采集模塊。
房璐璐[9]、沈杰[8]、王娜[24]提出電影推薦系統(tǒng)分應(yīng)用接口(分參數(shù)接收、數(shù)據(jù)輸出(支持推薦查詢[9])、數(shù)據(jù)采集(基于Flume[8])[24]接口)、業(yè)務(wù)與用戶交互[24](含應(yīng)用場景(推薦渠道、時機、內(nèi)容))、推薦處理(基于Hadoop、MapReduce、Spark[9,24]、協(xié)同過濾、隱語義模型、個性化算法[24])、數(shù)據(jù)存儲(外部采集、反饋、爬取的信息[24])、系統(tǒng)監(jiān)控[24](監(jiān)控系統(tǒng)CPU、內(nèi)存、I/O負(fù)載)模塊;郭博林[10]提出音樂推薦系統(tǒng)分推薦展示及反饋、個性化推薦(基于聚類構(gòu)建動態(tài)用戶興趣模型并推薦)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)采集(基于數(shù)據(jù)庫、日志系統(tǒng)、網(wǎng)絡(luò)接口、傳感器)、系統(tǒng)管理(管理用戶、音樂作品)模塊。
陳軍[21]提出學(xué)生就業(yè)推薦平臺分用戶交互、個性化推薦(基于Mahout結(jié)合實時、歷史數(shù)據(jù)進行在線、離線推薦,涉及興趣相似用戶計算、推薦引擎,結(jié)合歐式距離推薦并基于反饋信息優(yōu)化)、數(shù)據(jù)處理(構(gòu)建學(xué)生日志、簡歷數(shù)據(jù)庫,預(yù)處理數(shù)據(jù)(基于Hadoop、數(shù)據(jù)挖掘引擎標(biāo)簽化數(shù)據(jù)),構(gòu)建企業(yè)、學(xué)生動態(tài)多維畫像)、數(shù)據(jù)采集模塊;高娟[23]提出勘探生產(chǎn)門戶信息推薦系統(tǒng)分UI用戶交互、推薦結(jié)果處理(過濾、排序、解釋)、推薦引擎(基于Hadoop)、爬蟲(基于Flume采集門戶網(wǎng)站數(shù)據(jù)、用戶網(wǎng)站行為日志)模塊;楊清智[31]提出手機應(yīng)用推薦系統(tǒng)分用戶標(biāo)簽(支持多維分析、可視化統(tǒng)計)、推薦系統(tǒng)(計算近鄰及安裝概率)、數(shù)據(jù)倉庫(支持?jǐn)?shù)據(jù)清洗、轉(zhuǎn)換、IP解析)、網(wǎng)絡(luò)爬蟲模塊;江澄[32]提出基于QoS歷史記錄的服務(wù)組合推薦系統(tǒng)分結(jié)果解釋、服務(wù)組合(按用戶請求基于DCAH、CBSC法組合推薦服務(wù))、大數(shù)據(jù)集成、服務(wù)大數(shù)據(jù)采集模塊;肖敏[22]提出問診推薦系統(tǒng)分用戶交互、醫(yī)生推薦(基于Hadoop、協(xié)同過濾算法離線構(gòu)建用戶-用戶、醫(yī)患相似矩陣結(jié)合Web服務(wù)器在線增量計算并推薦)、疾病診斷(基于BP神經(jīng)網(wǎng)絡(luò)模型結(jié)合用戶病癥診斷)模塊,涉及Nutch服務(wù)器(爬取醫(yī)療網(wǎng)站形成實驗數(shù)據(jù)集);王嘯[33]提出基于移動互聯(lián)網(wǎng)推薦系統(tǒng)分結(jié)果推薦(隨機向新用戶推薦,基于用戶協(xié)同過濾、興趣群組向老用戶推薦)、用戶興趣群組構(gòu)建(向量表示用戶興趣,基于Canopy算法發(fā)現(xiàn))、網(wǎng)頁采集與分類(基于Venus采集并構(gòu)建規(guī)則庫、集成分類器分類)模塊。
基于大數(shù)據(jù)的信息推薦機理旨在設(shè)計推薦系統(tǒng)實現(xiàn)預(yù)期目標(biāo)的協(xié)作方式和流程,主要涉及分布式數(shù)據(jù)采集、預(yù)處理(抽取、分類[34]、過濾[5,32,35]、清洗[10,21,23,32,34,36~37](重復(fù)訪問記錄、登錄提示/錯誤、編輯(上載新聞)頁面、特定后綴網(wǎng)址等[23])、去重[5]、補充[10](擴展[4])、標(biāo)準(zhǔn)化[4,10,34~35]、融合[10,34,36]、變換[4,36](歸并中間記錄網(wǎng)址、分類網(wǎng)址[23])、歸約[36](按需提取、刪除屬性[23])等)、存儲(緩存)、特征提取、用戶及項目建模、推薦算法處理和推薦結(jié)果展示。
鄧玉林[4]、嚴(yán)克文[29]提出電子商務(wù)[4]、物流[29]推薦流程:采集用戶數(shù)據(jù)(檢索[4]、評分[29]、偏好)并存于數(shù)據(jù)庫,預(yù)處理后基于潛在語義分析、分片聚類分別分析用戶長期、短期興趣[4],基于相異度矩陣構(gòu)建用戶興趣模型[29]并結(jié)合推薦算法推薦,基于用戶選擇評價增量、局部進化用戶興趣模型[29];賈利娟[27]提出基于運營商大數(shù)據(jù)產(chǎn)品推薦流程:采集、預(yù)處理運營商數(shù)據(jù),基于兩步聚類挖掘用戶目標(biāo)特征集,基于時序關(guān)聯(lián)規(guī)則挖掘生成集合進而預(yù)測用戶行為集并去重后生成推薦列表;金石[38]提出基于運營商管道大數(shù)據(jù)電子商務(wù)推薦流程:采集運營商管道家庭寬帶用戶流量數(shù)據(jù),基于深度包解析技術(shù)提取用戶特征,基于用戶行為提取標(biāo)簽、構(gòu)建家庭畫像,基于用戶標(biāo)簽結(jié)合改進GBDT算法預(yù)測值、改進SVD算法預(yù)測值加權(quán)融合推薦。
陳陽雪[6]提出基于MOOC的課程推薦流程:采集用戶、日志、行為及課程數(shù)據(jù)并存儲,基于MOOC隱式評分模型改進傳統(tǒng)偏置矩陣分解算法、基于項目協(xié)同過濾算法過濾并排序后推薦。
劉海鷗[30]提出移動圖書館推薦流程:基于移動圖書館、移動終端、社交網(wǎng)絡(luò)、WiFi、RFID采集用戶、行為、情境數(shù)據(jù),構(gòu)建用戶情境興趣模型(基于大數(shù)據(jù)處理法構(gòu)建用戶-項目評分矩陣、結(jié)合情境修正相似度算式并計算相似度)并通過相似度預(yù)測未評分項目進行情境化推薦;馬曉亭[35]提出圖書館個性化閱讀推薦流程:基于圖書館大數(shù)據(jù)資源(文件、音視頻、圖像),預(yù)處理后匹配、挖掘、提取價值并整合成個性化閱讀服務(wù)支持大數(shù)據(jù),基于大數(shù)據(jù)分析(相關(guān)性分析、關(guān)鍵讀者發(fā)現(xiàn)與ID匹配)預(yù)測讀者需求,定制(基于閱讀方式、喜好、情緒預(yù)測需求)、精準(zhǔn)實時推送(基于閱讀方式、服務(wù)安全性管理、質(zhì)量監(jiān)控)個性化服務(wù),基于QoS評估(服務(wù)總收益率)控制、優(yōu)化讀者需求發(fā)現(xiàn)過程;柳益君[34]提出高校圖書館個性化推薦流程:全面采集并格式化用戶歷史行為的顯隱式反饋,構(gòu)建用戶行為本體模型(基于云平臺存儲用戶行為大數(shù)據(jù)并存儲、檢索、應(yīng)用RDFS/OWL本體模型,預(yù)處理成格式一致、結(jié)構(gòu)清晰、易擴展基礎(chǔ)數(shù)據(jù)以整合用戶行為大數(shù)據(jù)),構(gòu)建并存儲用戶興趣本體(提取多樣隱性本體(基于神經(jīng)網(wǎng)絡(luò)建模預(yù)測用戶環(huán)境情境興趣,基于聚類結(jié)合協(xié)同過濾、關(guān)聯(lián)規(guī)則算法挖掘用戶情境興趣,基于JGraphx、大規(guī)模網(wǎng)絡(luò)深度分析發(fā)現(xiàn)主題興趣)、顯性本體(基于行為日志統(tǒng)計分析)并以RDFS/OWL本體模型表示),基于用戶興趣模型推薦;劉芷茵[37]提出圖書推薦流程:采集(基于圖書館系統(tǒng))并清洗圖書數(shù)據(jù)后存儲,基于并行計算、協(xié)同過濾算法離線計算用戶相似度以發(fā)現(xiàn)并緩存近鄰,基于Kafka、Flume實時采集結(jié)合Storm增量運算(提高近鄰精確性)、離線計算結(jié)果實時推薦;劉海鷗[39]提出基于用戶畫像圖書館知識服務(wù)情境化推薦流程:采集用戶(基于注冊、門禁、檢索、門戶網(wǎng)站)、情境(基于GPS、RFID、WiFi、基站、傳感器)信息并預(yù)處理、存儲,構(gòu)建多維標(biāo)簽?zāi)P蛶?、用戶畫像模型,基于并行計算、情境建模發(fā)現(xiàn)相似資源并結(jié)合協(xié)同過濾算法匹配用戶與資源推薦。
沈杰[8]、房璐璐[9]、周夢蒲[12]提出電影推薦流程:基于數(shù)據(jù)接口[8~9]、Flume[8]采集用戶行為(評分、日志)、項目數(shù)據(jù)并儲存,經(jīng)抽取、清洗、離線計算(基于用戶、項目協(xié)同過濾、Slope One、LPTA算法[8])生成離線推薦結(jié)果并存儲[8],結(jié)合在線推薦部分推薦;郭博林[10]提出音樂推薦流程:采集音樂系統(tǒng)數(shù)據(jù)(涉及用戶信息、音樂作品、用戶日志(行為及其靜態(tài)上下文(主要是用戶基本信息)、動態(tài)上下文(基于日志系統(tǒng)、上下文感知技術(shù)獲取聽歌時用戶位置、時間、播放次數(shù)、評分等動態(tài)信息)信息))、傳感器(獲取原始信息(常含混、不準(zhǔn)甚至矛盾)并在感知層預(yù)處理以分離上下文獲取與應(yīng)用)和網(wǎng)絡(luò)接口數(shù)據(jù)并預(yù)處理,聚類(K-Means++)用戶興趣,結(jié)合因子分解機計算影響因子(興趣變化及地域化、作品生命周期、區(qū)域環(huán)境、季節(jié))權(quán)值動態(tài)建模用戶興趣,基于內(nèi)容推薦生成候選集并結(jié)合作品熱度推薦。
崔金棟[40]提出基于大數(shù)據(jù)和微本體的微博信息推薦流程:基于爬蟲采集微博信息,存儲并預(yù)處理構(gòu)建微博信息微本體(基于ICTCLA分詞、標(biāo)注詞性、降噪后基于TF-IDF挖掘微博熱點詞匯、話題抽取領(lǐng)域概念層次后聚類并以三元組文件存儲,基于Jena結(jié)構(gòu)化OWL本體后導(dǎo)入Protégé)、主題微本體(提取并預(yù)處理標(biāo)簽、確定詞間關(guān)系、標(biāo)簽聚類(K-Means)建模、微博主題本體化并儲存),基于圖匹配算法匹配微本體及主題本體進行推薦;陳軍[21]提出就業(yè)推薦流程:爬取第三方平臺就業(yè)數(shù)據(jù)并預(yù)處理、存儲,構(gòu)建事實標(biāo)簽(經(jīng)文本無格式化、切詞、詞匯過濾(無意義、停用、缺失詞)、詞頻統(tǒng)計、中心性計算以確定高頻關(guān)鍵詞并基于TF-IDF賦權(quán),結(jié)合LDA主題模型聚類高頻關(guān)鍵詞主題),構(gòu)建標(biāo)簽?zāi)P停ɑ贙-Means法聚類事實標(biāo)簽),計算聚類相似度并據(jù)此推薦用戶畫像標(biāo)簽(相似學(xué)生、學(xué)生群、企業(yè)群屬性),結(jié)合用戶歷史信息(基于學(xué)生與企業(yè)性質(zhì)及招聘等信息聚類企業(yè)和學(xué)生)、在線行為(涉及搜索、轉(zhuǎn)發(fā)、下載、瀏覽等,基于協(xié)同過濾算法推薦學(xué)生近鄰、合適工作)、社交網(wǎng)絡(luò)關(guān)系(混合基于內(nèi)容、協(xié)同過濾推薦算法及在線相似度測試進行推薦)推薦職位并構(gòu)建反饋機制進行優(yōu)化;周浩[41]提出微博好友推薦流程:爬取并存儲微博文本,預(yù)處理(分詞、標(biāo)注詞性、去停用詞)數(shù)據(jù)并用模型(布爾、向量空間)表示(基于文檔頻率法、信息增益法、互信息法選擇特征,基于布爾權(quán)值、詞頻法、TF-IDF計算權(quán)值)后基于K近鄰、支持向量機算法分類微博文本,基于信任度和局部隨機游走算法計算用戶相似度,構(gòu)建推薦候選集并結(jié)合時間衰減興趣分類算法推薦;江澄[32]提出基于QoS歷史記錄的服務(wù)組合推薦流程:采集(基于傳感器、網(wǎng)頁點擊、移動設(shè)備應(yīng)用服務(wù)、RFID等)歷史服務(wù)數(shù)據(jù)并記錄(選擇元數(shù)據(jù)構(gòu)建后續(xù)所需數(shù)據(jù)結(jié)構(gòu))、預(yù)處理后存儲,基于DCAH(基于分解全局約束和取歷史記錄均值策略的服務(wù)組合推薦法提高推薦時效性)、CBSC(基于CLARA聚類的服務(wù)組合推薦法提高推薦精度)法推薦最佳服務(wù)組合;胡蓉[19]提出服務(wù)推薦流程:采集(用戶使用、服務(wù)描述)數(shù)據(jù),聚類用戶(預(yù)處理用戶日志,構(gòu)建用戶興趣模型進而聚類)、服務(wù)(提取、預(yù)處理服務(wù)標(biāo)簽、功能,計算特征相似度進而聚類)進而基于用戶聚類結(jié)果過濾用戶(提取用戶使用服務(wù)上下文(影響用戶選擇和評分服務(wù)),過濾生成上下文一致用戶集),結(jié)合用戶評分、上下文一致用戶集、目標(biāo)服務(wù)所在蔟,計算評分相似度并基于閾值選擇近鄰以協(xié)同過濾推薦目標(biāo)服務(wù);張興旺[18]提出移動推薦服務(wù)流程:采集用戶、歷史行為信息并提取用戶特征進而檢索、生成推薦信息集,基于機器學(xué)習(xí)算法優(yōu)化移動推薦指標(biāo)(如點擊率、評分)生成移動推薦服務(wù)模型,分別計算用戶對推薦集、推薦集中各信息認(rèn)可度后按推薦指標(biāo)排序推薦;董小妹[36]提出技術(shù)創(chuàng)新平臺技術(shù)推薦流程:采集Web內(nèi)容、使用、結(jié)構(gòu)數(shù)據(jù)及用戶信息,預(yù)處理后挖掘(構(gòu)建模型(表示為用戶-項目評價矩陣、主題關(guān)鍵詞列表、加權(quán)關(guān)鍵詞向量)、發(fā)現(xiàn)模式及知識規(guī)則)并同步至推薦系統(tǒng),通過基于本體協(xié)同過濾算法在線推薦;段文彬[42]提出基于大數(shù)據(jù)聯(lián)盟數(shù)據(jù)資源推薦流程:檢索、分析、整理Web資源信息生成RSS文檔并聚類、基于集結(jié)器整合信息內(nèi)容并結(jié)合用戶興趣庫基于RSS feed匯總推薦。
綜上,本文從體系結(jié)構(gòu)、功能模塊、推薦機理三方面闡述了國內(nèi)基于大數(shù)據(jù)的信息推薦架構(gòu)體系研究進展:基于大數(shù)據(jù)的信息推薦架構(gòu)體系遵循請求分散化、推薦離線化、業(yè)務(wù)專業(yè)化、存儲分布化、計算并行化、開發(fā)迭代化原則[3],以應(yīng)用場景為導(dǎo)向、信息推薦功能及關(guān)鍵技術(shù)為核心、依托大數(shù)據(jù)資源及信息基礎(chǔ)設(shè)施,通過體系結(jié)構(gòu)組織的功能模塊(可動態(tài)調(diào)整、低耦合高內(nèi)聚)、面向應(yīng)用場景的推薦機理有效構(gòu)建領(lǐng)域性基于大數(shù)據(jù)的信息推薦分布式架構(gòu)體系:體系結(jié)構(gòu)常分用戶交互層、服務(wù)提供層(含推薦引擎)、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層、數(shù)據(jù)資源層、基礎(chǔ)設(shè)施層;核心功能模塊包括用戶交互界面、模型管理(支持用戶興趣、推薦項目建模)、推薦引擎、大數(shù)據(jù)存儲、大數(shù)據(jù)采集模塊;推薦機理關(guān)鍵在于大數(shù)據(jù)采集、預(yù)處理、分布式存儲、特征提取,用戶及項目建模、推薦算法處理和推薦結(jié)果展示。
接下來,筆者將按信息推薦系統(tǒng)處理流程分析大數(shù)據(jù)采集、組織、挖掘與分析、展示等關(guān)鍵技術(shù)研究成果,揭示國內(nèi)基于大數(shù)據(jù)的信息推薦關(guān)鍵技術(shù)研究進展。