孫雨生??于凡 孫肖妹 郝麗靜
〔摘要〕本文用內容分析法歸納了197篇文獻內容,揭示了基于大數(shù)據(jù)的個性化服務內涵、核心內容及研究框架,并從架構體系、關鍵技術兩方面闡述了國內基于大數(shù)據(jù)的個性化服務研究進展:架構體系包括體系結構、功能模塊和運行機理;關鍵技術包括信息推薦、搜索引擎、大數(shù)據(jù)等。
〔關鍵詞〕大數(shù)據(jù);個性化服務;數(shù)據(jù)可視化;信息推薦;數(shù)據(jù)挖掘
DOI:10.3969/j.issn.1008-0821.2018.02.026
〔中圖分類號〕TP399;G202〔文獻標識碼〕A〔文章編號〕1008-0821(2018)02-0171-07
Research Development of Personalized Service Based on Big Data in China
——Architecture System and Key Technology
Sun Yusheng1,2Yu Fan1Sun Xiaomei1Hao Lijing1
(1.School of Economics and Management,Hubei University of Technology,Wuhan 430068,China;
2.Information Technology Support Center,Institute of Scientific & Technical Information of China,
Beijing 100038,China)
〔Abstract〕Using the content analysis method,the paper summed up the contents of the 197 articles,revealed the connotation,core content and research framework of personalized service based on big data,and expounded its research development in China from two aspects of architecture system and key technology.The architecture system included architecture,function module and operation mechanism.The key technologies included information recommendation,search engine,big data,and so on.
〔Key words〕big data;personalized service;data visualization;information recommendation;data mining
伴隨大數(shù)據(jù)時代到來,海量、異構、動態(tài)信息資源與有限用戶信息認知能力間矛盾致使信息過載、迷航問題凸顯[1],如何基于用戶需求、興趣及行為模式提供其感興趣信息成為亟待解決問題。傳統(tǒng)個性化服務類型豐富度、內容準確度、服務差異化均無法滿足大數(shù)據(jù)環(huán)境下用戶個性化[2]、知識化、專業(yè)化、智能化信息需求,甚至引起其厭煩[3]。因此,研究大數(shù)據(jù)環(huán)境下個性化服務問題有重要意義。
本文首先以知網(wǎng)、萬方的學位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“大數(shù)據(jù)”和“個性化”為關鍵詞組合在題名中檢索相關文獻(截至2017年8月19日,從知網(wǎng)獲碩博論文10篇、期刊論文159篇;從萬方獲碩博論文12篇(新發(fā)現(xiàn)3篇)、期刊論文172篇(新發(fā)現(xiàn)23篇)、從維普獲期刊論文186篇(新發(fā)現(xiàn)2篇);合計197篇);其次,詳讀197篇文獻歸納出基于大數(shù)據(jù)的個性化服務內涵、核心內容及研究框架、架構體系及關鍵技術并根據(jù)提及頻次、內容質量詳細標注,本著最大限度反映國內基于大數(shù)據(jù)的個性化服務架構體系、關鍵技術研究進展重要文獻、優(yōu)中選優(yōu)(剔除標注次數(shù)少、與其他標注文獻內容重復文獻)原則選出45篇參考文獻(內容覆蓋197篇文獻);最后從架構體系、關鍵技術兩方面闡述國內基于大數(shù)據(jù)的個性化服務研究進展。
2018年2月第38卷第2期現(xiàn)代情報Journal of Modern InformationFeb.,2018Vol38No2
2018年2月第38卷第2期國內基于大數(shù)據(jù)的個性化服務研究進展
Feb.,2018Vol38No2
1基于大數(shù)據(jù)的個性化服務簡介
11定義及內涵
楊亮等[4]、馬曉亭[5]認為基于大數(shù)據(jù)的個性化服務面向大數(shù)據(jù)環(huán)境,以用戶為中心[4,6],按需求相似性分類用戶[7],在滿足共性需求前提下基于用戶特征與個性需求、興趣或行為模式構建并進化用戶興趣模型,動態(tài)匹配信息并個性化主動提供服務[1],實現(xiàn)服務時空、方式、內容個性化[1,4,5,8],服務資源配置、效率與收益[2,6,7,9]、用戶體驗最優(yōu)化,成本最低化、模式最簡化,以高效協(xié)同用戶、資源、服務并形成數(shù)據(jù)集成、價值挖掘、分析決策完整生命周期[6],呈現(xiàn)重視用戶交互、服務方式多樣且安全可控等特點[1],與傳統(tǒng)個性化服務對比見表1。此外,陳臣[9]、潘玉辰[10]認為基于大數(shù)據(jù)的個性化服務是通過統(tǒng)一封裝、配置、管理、調用服務資源、知識、技術、能力、過程,個性化完成服務交付、共享、使用、交易的知識服務模式。
12核心內容與研究框架
分析現(xiàn)有文獻,筆者認為基于大數(shù)據(jù)個性化服務核心研究用戶興趣建模、服務模式、信息資源管理、關鍵技術等,研究框架見圖1。
2基于大數(shù)據(jù)的個性化服務研究進展
縱觀現(xiàn)有研究成果,國內基于大數(shù)據(jù)的個性化服務研究整體處起步階段但發(fā)展迅猛,相關文獻最早是湯銘2012年發(fā)表的《大數(shù)據(jù)需要個性化營銷》。現(xiàn)有學術研究集中在用戶興趣建模[2]、服務模式、信息資源管理[4,6,15]、用戶隱私與數(shù)據(jù)安全[11,18]等方面[3],應用領域涉及圖書館[4-6,9,12,14,19-20]、教育[21-22]、電子商務[3,8]、醫(yī)療[9]等。
21架構體系
211體系結構
1)基于大數(shù)據(jù)的圖書館個性化服務系統(tǒng)
陳臣[7,9]、秦帥[23]提出圖書館個性化[9]智慧[7,23]服務體系,分平臺層(涉及應用與管理平臺[7,23]、智慧化服務平臺、數(shù)據(jù)基礎平臺[23]、數(shù)據(jù)中心等[7],包含應用層[7,23](分決策層(服務提供、系統(tǒng)管理、決策)、分析層(數(shù)據(jù)挖掘、統(tǒng)計分析)[9,23]、組織層(處理并描述數(shù)據(jù)結構特征)[9])、存儲層[9]等)、傳輸層(涉及光纖、無線、網(wǎng)絡傳輸?shù)萚7],傳輸感知層所采集數(shù)據(jù)到數(shù)據(jù)中心[23])、感知層(涉及(系統(tǒng)、網(wǎng)絡[23])監(jiān)控器、傳感器[7]、RFID[7,23]等);陳臣[11]提出圖書館個性化服務安全體系,分安全大數(shù)據(jù)挖掘分析層(明確安全需求、事件影響力、策略可用性)、安全大數(shù)據(jù)采集存儲層、安全大數(shù)據(jù)互聯(lián)平臺層(互聯(lián)圖書館安全管理系統(tǒng))、系統(tǒng)平臺安全管理層(基于數(shù)據(jù)流安全管理應用系統(tǒng))、大數(shù)據(jù)資源安全管理層(數(shù)據(jù)采集、提取、存儲)、硬件設備安全防護層(機房環(huán)境、硬件、數(shù)據(jù)傳輸);李艷等[20]提出高校圖書館大數(shù)據(jù)挖掘體系:輔助決策層(用數(shù)據(jù)挖掘技術采集、融合、挖掘、分析數(shù)據(jù)并呈現(xiàn)為動態(tài)多維報表、圖形以便決策)、大數(shù)據(jù)分析層(基于Hadoop虛擬化技術離線批量、實時流式完成樣例分析、建模、多維數(shù)據(jù)抽取、規(guī)則庫定義和遞歸優(yōu)化)、大數(shù)據(jù)存儲交換層(基于業(yè)務間公共數(shù)據(jù)池、數(shù)據(jù)字典、數(shù)據(jù)接口、分布式流式Hadoop)、外部數(shù)據(jù)挖掘層(粗獲取、清洗、人工審核并實時檢索、語義分析、智能挖掘Web信息)。
2)基于大數(shù)據(jù)的教育個性化服務系統(tǒng)
于凱等[16]基于顯式、隱式用戶反饋構建個性化教學推薦體系,分效用評價層(實時精確、多樣新穎)、推薦生成層(基于隱式反饋)、數(shù)據(jù)預處理層(獲取用戶興趣)、源數(shù)據(jù)采集層;楊雪等[22]、高艷艷[24]、馬相春等[25]提出個性化自適應[25]學習[22,25]、中小學生輔導[24]體系,分用戶層(家長、學生、家教、管理者)[24]、支撐層(微信,前后臺交互界面[24],呈現(xiàn)學習內容、工具、情景、策略[25])、應用服務層[22]、信息層(涉及平臺信息庫[22],學生基本、行為、情感信息庫,規(guī)則庫[25])、(基礎[22])數(shù)據(jù)層(存儲感知層所獲結構化、半結構化原始學習數(shù)據(jù))、感知層(涉及應用終端、采集硬件、物聯(lián)設備)[25],其中,應用服務層[22]又稱控制層[25],基于學生特征、領域模型提供個性化學習服務(教輔資源、輔導[24]),基于服務評價更新引擎規(guī)則[25],分個性化服務層[24]、業(yè)務應用層[24-25](診斷學習問題[24],分統(tǒng)計描述層(挖掘學習數(shù)據(jù))、教育測評層[22]);周進[26]提出大數(shù)據(jù)時代高校個性化教育支持框架由監(jiān)測預警系統(tǒng)(通過儀表盤、可視化報告動態(tài)呈現(xiàn)監(jiān)測過程,基于評估結果干預行為、改進效果)、數(shù)據(jù)分析系統(tǒng)(基于數(shù)據(jù)挖掘工具)、服務支持系統(tǒng)(基于共性、個性需求設計課程體系)、目標支持系統(tǒng)(診斷人才培養(yǎng)、個性化教育目標)、數(shù)據(jù)倉儲系統(tǒng)(統(tǒng)一并基于數(shù)據(jù)標準構建數(shù)據(jù)倉庫且注重信息管理)。
3)基于大數(shù)據(jù)的電子商務個性化服務系統(tǒng)
陳玉兆[27]、鄧玉林[28]提出基于Hadoop、B/S架構個性化推薦系統(tǒng)體系,分推薦終端(含移動端、PC端、電視)和終端應用(界面表示層,方便用戶交互,結果展示、分類、管理,用戶注冊、登錄[28])層[27]、業(yè)務層(涉及推薦后臺、推薦引擎,用基于Mahout協(xié)同過濾、基于內容推薦算法等處理離線數(shù)據(jù)并將結果存入數(shù)據(jù)庫(常結合用戶行為在線推薦),輔以基于文本相似度熱點推薦算法、自定義算法;分應用功能層(支持檢索、推薦及其管理、數(shù)據(jù)采集、用戶興趣分析)、公共服務提供層、數(shù)據(jù)訪問層(預處理并持久化數(shù)據(jù))[28])[27]、數(shù)據(jù)資源層(基于HDFS或NoSQL存儲,基于Hive、Pig-Latin等ETL、管理用戶及商品[28]數(shù)據(jù)等)、基礎設施層(分基于Hadoop協(xié)同過濾集群、基于內容計算集群,基于MapReduce分布式應用架構橫向擴展集群)。
此外,潘玉辰[10]提出大數(shù)據(jù)環(huán)境下戰(zhàn)略新興產(chǎn)業(yè)個性化服務體系,分應用層(包括個性化定制、導航、推送、檢索、社區(qū)服務)、平臺層(提供統(tǒng)一服務接口、空間,處理用戶需求,涉及人員、技術、資源、服務、流程要素)、資源存儲層(組織處理(清洗、轉換、加載)資源、用戶基于API按需使用)、基礎技術架構層(網(wǎng)絡、云計算、大數(shù)據(jù)等技術及相應管理機制);孫笑宇[29]提出基于大數(shù)據(jù)車聯(lián)網(wǎng)個性化服務平臺分車輛接入平臺、服務平臺(分服務訪問層、集成層、管理層、服務總線模塊)、服務后臺。
212功能模塊
1)基于大數(shù)據(jù)的圖書館個性化服務系統(tǒng)
夏秀雙[1]、欒旭倫[2]認為分10模塊:用戶接口、用戶評價(優(yōu)化用戶興趣模型、數(shù)據(jù)挖掘算法[1])、信息推送(用Agent進行基于跟蹤挖掘動態(tài)推薦、基于定制推送)、信息匹配(二次匹配用戶需求與過濾結果)、信息過濾(過濾檢索結果[1])、信息檢索(用Agent檢索館藏,若匹配則輸出,否則匹配Web信息并保存結果到本地再反饋)、數(shù)據(jù)分析(結構化數(shù)據(jù)(識別用戶相似性、不同時段行為差異性)、日志(獲取實時需求、預測潛在需求)、特殊信息分析(基于其他用戶獲取信息,構建用戶興趣模型[2]))、數(shù)據(jù)集成(邏輯集成用戶行為數(shù)據(jù)[2])、數(shù)據(jù)規(guī)范化(合成、規(guī)約、優(yōu)化、轉換)、用戶信息庫[1]。
2)基于大數(shù)據(jù)的教育個性化服務系統(tǒng)
牟智佳[30]認為個性化學生評價系統(tǒng)分可視化反饋(基于Weka、Gephi、Google Chart、R語言等)、個性化評價(基于個性化學習評價模型、層次塔評價學習過程、結果)、數(shù)據(jù)分析處理(清洗、提取、加工、挖掘)、信息采集(基于云存儲池中數(shù)據(jù)庫采集鍵擊層、回答層、學生層數(shù)據(jù))模塊并通過云管理層調控教育云服務、云計算、云存儲平臺;周清清等[31]認為個性化學習平臺分個性化評價、干預、答疑咨詢、個性化預測,個性化學習計劃制定、測評、實時反饋,數(shù)據(jù)庫(涉及學生模型庫、答疑庫、知識庫、課程庫、資源庫、試題庫)等模塊;高艷艷[24]提出個性化輔導平臺分交互(學生與平臺、家教、心理師)、干預(可視化診斷結果給家長、家教、管理者并個性化推送資源)、診斷(基于注意力、情緒情感、學習方法、知識漏洞建模)、學習資源模塊;孟楊[32]提出個性化錯題推薦系統(tǒng)分用戶登錄、學習報表(反映學生知識點掌握度及班級排名)、錯題分析、錯題個性化推薦、錯題本(記錄并排序錯題)模塊。
3)基于大數(shù)據(jù)的電子商務個性化服務系統(tǒng)
嚴克文[33]提出物流個性化推薦系統(tǒng)分用戶行為記錄(更新、查詢、標記)、用戶興趣模型管理(基于用戶相異度矩陣構建、局部進化)、推薦算法模塊;陳玉兆[27]、鄧玉林[28]、賈利娟[34]、陳玉[35]提出個性化推薦系統(tǒng)分渠道[34]管理、輸出[35](結果展示及管理[28])、在線推薦[35](基于HDFS需求按日期、行為次序分類數(shù)據(jù)并計算用戶商品興趣度[27]以分析其興趣[28]偏好[34],基于日志分析用戶行為構建興趣相似群組[27],基于協(xié)同推薦[28]、用戶瀏覽商品特征優(yōu)化老用戶推薦列表[27],基于內容[27-28,34]向新用戶推薦[27])、離線計算[35](預處理[28,34](數(shù)據(jù)標準化、有效化(基于ETL)[27]、擴展,計算用戶、項目TF-IDF以構建特征向量[28]),基于規(guī)則庫、集成分類器、雙層關聯(lián)規(guī)則分類并Web挖掘[34])、輸(接[34])入[35](采集[28]用戶行為(點擊、收藏、購物車、購買[27])、商品特征)模塊,此外,陳玉兆[27]認為離線計算模塊包括混合協(xié)同推薦與內容推薦向老用戶推薦、基于文本相似度向新用戶推薦熱點,分計算層(選取推薦算法進行推薦)、數(shù)據(jù)層,由腳本程序控制運行、推薦程序基于MapReduce分布式處理HDFS中數(shù)據(jù)(Application Master節(jié)點監(jiān)督程序運行狀況并定時反饋給主節(jié)點、重啟(提交)失敗節(jié)點任務,在Reduce階段匯總推薦項目形成原始推薦列表)并將結果存入關系數(shù)據(jù)庫。
此外,劉譯璟等[36]提出百分點推薦引擎由場景引擎(計算用戶意圖)、展示引擎、規(guī)則引擎(根據(jù)用戶意圖向算法引擎請求推薦數(shù)據(jù),向展示引擎請求展示方式)、算法引擎構成;康海燕[18]提出基于大數(shù)據(jù)、用戶興趣個性化檢索模型分用戶興趣模型、檢索代理(預處理、整合用戶請求(分詞、調整、反饋等)并返回結果)、搜索引擎模塊。
213運行機理
1)基于大數(shù)據(jù)的圖書館個性化服務系統(tǒng)
馬曉亭[5]提出圖書館個性化閱讀推薦流程:基于圖書館大數(shù)據(jù)資源庫(涉及文件、音視頻、圖像),經(jīng)噪聲過濾、標準化與匹配、挖掘、價值提取、整合等處理形成個性化閱讀決策支持大數(shù)據(jù),基于大數(shù)據(jù)分析決策(數(shù)據(jù)相關性分析、關鍵讀者發(fā)現(xiàn)與ID匹配)、服務質量評估反饋發(fā)現(xiàn)讀者個性閱讀需求(含閱讀情緒),智能匹配資源并定制個性化閱讀服務內容、方式、模式且智能精準、實時安全推薦,基于質量智能評估(QoS評估、服務總收益率)、用戶反饋智能優(yōu)化讀者需求發(fā)現(xiàn)過程、個性化閱讀推薦流程;陳臣[17]提出基于HDFS、Hbase圖書館大數(shù)據(jù)檢索流程:以網(wǎng)絡、第三方數(shù)據(jù)庫、大數(shù)據(jù)平臺、論壇博客、APP應用為數(shù)據(jù)源,經(jīng)爬取、過濾、索引、摘要、分類等提供導航、搜索、索引、定制、價值提取等服務。
2)基于大數(shù)據(jù)的教育個性化服務系統(tǒng)
余小高[21]、尤海浪等[37]提出相似個性化微課[21]、游戲[37]推薦流程:數(shù)據(jù)獲取存儲、數(shù)據(jù)清洗挖掘(用Hadoop計算資源相似度矩陣并存入Redis)、服務提供(客戶端接受并發(fā)送用戶請求至后臺,基于資源相似度矩陣、用戶相似度矩陣、當前訪問資源ID、歷史訪問資源ID(根據(jù)用戶ID獲?。┯猛扑]算法進行Top-N推薦);周清清[31]、裴瑩[38]提出個性化學習流程:基于學習數(shù)據(jù)庫收集學習軌跡(測試[31])數(shù)據(jù)傳給分析系統(tǒng)(大數(shù)據(jù)技術預處理、分析數(shù)據(jù))生成可視化學習行為分析報告,自適應系統(tǒng)修改報告、評估學習過程發(fā)現(xiàn)潛在問題并智能干預(引導學生適應性修正學習內容),教師整合基礎數(shù)據(jù)、教學經(jīng)驗和分析系統(tǒng)所得結論并通過干預系統(tǒng)人為干預學習路徑、優(yōu)化教學方案、個性化[31]預測未來學習情況(模式)以個性化教育(推薦資源并接收反饋[31])。
3)基于大數(shù)據(jù)的電子商務個性化服務系統(tǒng)
嚴克文[33]、鄧玉林[28]提出電子商務[28]、物流[33]個性化推薦流程:采集用戶數(shù)據(jù)(檢索日志[28]、服務評分[33])并存于數(shù)據(jù)庫,預處理(標準化、擴展)數(shù)據(jù)后基于潛在語義分析、分片聚類分別分析用戶長期、短期興趣[28],基于相異度矩陣構建用戶興趣模型[33]并結合推薦算法推薦,基于用戶選擇評價以增量更新局部進化用戶興趣模型[33]。
此外,潘玉辰[10]提出戰(zhàn)略性新興產(chǎn)業(yè)個性化檢索流程:加工處理、采集分析信息資源并構建索引,基于關鍵詞、主題詞形成索引數(shù)據(jù)庫,與用戶請求匹配并以個性化定制、智能代理、垂直門戶和智能導航方式提供檢索服務。
22關鍵技術
基于大數(shù)據(jù)的個性化服務涉及多種技術[4,19],核心是信息推薦(適合需求不明確用戶,基于用戶興趣、行為)[39]、搜索引擎、大數(shù)據(jù),此外,還涉及用戶興趣建模、RSS[8]、社會網(wǎng)絡、云計算(實現(xiàn)大數(shù)據(jù)統(tǒng)一管理、高效流通、實時分析[15])、云存儲(多用NoSQL[14])、Web數(shù)據(jù)庫、Agent、本體、虛擬化[14]、物聯(lián)網(wǎng)(解決平臺支撐薄弱、服務水平低等問題)等。
221信息推薦
1)簡介
陳澤[39]、鄭杰輝[40]提出推薦引擎以黑盒方式接受用戶基本、交互信息(顯式(評分、評論)、隱式(項目偏好))、源項目數(shù)據(jù)(項目元數(shù)據(jù)(名稱、ID))進行推薦[39],面臨實時性、新穎性(推薦流行、得分高項目最保險但用戶體驗不一定好(可能已知))、增量計算(基于增量數(shù)據(jù)運算已計算推薦模型并實時反饋,部分基于隱式反饋數(shù)據(jù)算法系統(tǒng)架構和開發(fā)約束更大)、大數(shù)據(jù)(數(shù)據(jù)利用不充分(數(shù)據(jù)積累、針對性、結構化、共享性差,無法二次挖掘[41]))挑戰(zhàn)。
2)推薦算法
陳澤[39]、陳玉兆[27]認為基于數(shù)據(jù)挖掘個性化推薦包括學習(又稱數(shù)據(jù)預處理,挖掘原始結構化、非結構化數(shù)據(jù)并構建推薦模型)、使用(基于用戶行為、推薦算法生成推薦并實時導向用戶)兩階段,常用算法有協(xié)同推薦[14,21,27,37,39](基于項目(如Slope One(易計算但不精確))、基于用戶)、基于內容推薦[27]、SVD(奇異值分解,提取龐大稀疏矩陣特征值并分析主成分因子以降維提速但需較大空間)、組合算法[27](含加權混合(加權多種算法結果后排序)、變換混合(按推薦場景選擇算法)、分區(qū)混合(多種算法結果各取前幾個)、分層混合(前一算法推薦結果傳給下一算法篩選)[8,21,37,39])等。此外,還包括基于關聯(lián)規(guī)則推薦[27]、基于模型協(xié)同推薦(用數(shù)據(jù)挖掘算法基于用戶歷史交互信息構建推薦模型,按用戶請求預測推薦、挖掘潛在興趣)[39];嚴克文[33]提出基于增量更新用戶協(xié)同推薦算法、基于增量更新用戶相異度的Slope One算法以基于用戶相異度矩陣模型選擇最近鄰(相異度小、同現(xiàn)次數(shù)多)進行用戶協(xié)同推薦;陳玉[35]基于FCM(模糊C-均值聚類)改進基于用戶協(xié)同推薦算法;賈利娟[34]提出基于偏好雙層關聯(lián)規(guī)則內容推薦算法(包括用戶偏好分析(基于DPI表所含用戶訪問內容、行為信息(訪問量、流量、活躍度))、雙層關聯(lián)規(guī)則挖掘流程(預處理用戶日志、平臺訪問數(shù)據(jù)并基于基礎內容、內容類型兩層挖掘關聯(lián)規(guī)則)、主流程(基于用戶偏好類型關聯(lián)、內容規(guī)則匹配并推薦));陳澤[39]提出基于加權兩層圖推薦算法(用項目類別、用戶評分矩陣基于內容、協(xié)同過濾計算并優(yōu)化項目間相似度,構建基于用戶項目的加權兩層圖并考慮其全局關系、結合隨機游走算法推薦);馬相春等[25]提出基于多種群選擇的學習路徑推薦算法(基于蟻群算法、學生所屬群體同伴評分及其權值進行推薦)。
3)其他
丁然[42]基于云計算分布式并行處理大數(shù)據(jù)集、推薦計算以個性化推薦;尤海浪等[37]、余小高[21]提出相似度改進算法(依次為基本計算、余弦相似度計算、余弦相似度a計算、改進余弦相似度計算、改進余弦相似度歸一化)、算法評價指標(涉及精度(召回率/準確度)、覆蓋率(推薦列表中包含項目比例)、多樣性(推薦列表中項目間相異性))。
222搜索引擎
基于大數(shù)據(jù)的個性化搜索用大數(shù)據(jù)技術[17]提高搜索(匹配模型、排序算法等)準確率、個性化[1,10]、安全性(保護用戶隱私[3])、功能擴展性、經(jīng)濟性[3]、實時性[1]、智能性[1,3]、兼容性(支持大數(shù)據(jù)平臺、容錯性高、數(shù)據(jù)接口開放并向下兼容)、交互性[1,10]、靈活性[10]、可用性(易操作維護),改善用戶體驗。具體結合搜索需求、大數(shù)據(jù)環(huán)境,通過技術革新(核心是智能信息技術(如聚合搜索、時效搜索、框計算[6]、云計算[14]等)、SOA架構[3])定制搜索引擎參數(shù)、與第三方服務商聯(lián)盟[3,17]進行即時深度個性化搜索(智能分析大數(shù)據(jù)蘊涵[6]用戶特征、服務需求、行為[1],預測判斷用戶搜索步驟、內容、需求和情緒特征并在系統(tǒng)空閑時預搜、分析、整合、存儲數(shù)據(jù)[19])。
223大數(shù)據(jù)
大數(shù)據(jù)技術是以數(shù)據(jù)為研究方法、工具,通過數(shù)學算法發(fā)現(xiàn)知識、挖掘價值、預測趨勢、提升智能、創(chuàng)造價值[11,15,40,42],以大數(shù)據(jù)應用和服務為核心實現(xiàn)產(chǎn)品即服務、技術即服務、意識即服務的個性化智慧服務理念[7],以啟發(fā)或激勵行為(形成更多待挖掘數(shù)據(jù)),為資源層提供技術支持[10]。究其內涵,葉娟[15]、陳玉兆[27]、牟智佳[30]、馬曉亭[43]、潘玉辰[10]認為包括數(shù)據(jù)顯示(仿真及可視化[10]輸出)和應用[30]、數(shù)據(jù)分析與挖掘[1,10,27](關聯(lián)規(guī)則學習、分類與聚類、情感分析、合成學習、基因算法、異常探測、預測建模[15])、分布緩存與計算(涉及Hadoop[29]、Mahout(實現(xiàn)擴展性良好機器學習算法且可擴展到云中)、云計算等)[1,27]、數(shù)據(jù)存儲[1,27,30](索引、存儲、分享、歸檔)[30]與管理(基于數(shù)據(jù)庫)[10]、數(shù)據(jù)處理(自然語言處理、模式識別、A/B測試[15]、機器學習、數(shù)據(jù)聚合[10,15])、數(shù)據(jù)預處理(辨析、抽取、清洗)、數(shù)據(jù)感知采集[1,10,27];夏秀雙[1]、陳玉兆[27]認為涵蓋可視化分析、預測分析(核心價值)、語義引擎、數(shù)據(jù)質量和數(shù)據(jù)管理(核心是數(shù)據(jù)存儲)等主題;胡一[8]、孫笑宇[29]認為包括MPP(并行處理機)、MapReduce(計算海量數(shù)據(jù)[29])、NoSQL;此外,陳玉兆[27]提出大數(shù)據(jù)處理與傳統(tǒng)數(shù)據(jù)處理區(qū)別:基于全數(shù)據(jù)集分析、效率高、挖掘相關性;董燕[44]以大數(shù)據(jù)為數(shù)據(jù)收集方法。
1)數(shù)據(jù)可視化
通過API耦合相關系統(tǒng),依據(jù)分析對象數(shù)據(jù)總量、類型和決策需求,通過關聯(lián)分析、時序分析、列表分析、路徑分析和群組分析等方法,結合大數(shù)據(jù)統(tǒng)計、計算機圖形學及仿真學等技術,有效組織、分析發(fā)現(xiàn)并直觀呈現(xiàn)[44]大數(shù)據(jù)價值和數(shù)據(jù)間隱藏關系,降低應用難度,如過程與結果聯(lián)系、數(shù)據(jù)庫分布、模塊間聯(lián)系、領域動向,常見技術有基于集合可視化、基于圖標、圖像可視化[8];楊雪等[22]提出標簽云、歷史流、空間信息流等技術;董燕[44]認為數(shù)據(jù)可視化須用統(tǒng)一數(shù)據(jù)平臺、規(guī)范化接口保證數(shù)據(jù)來源真實、快捷、規(guī)范,據(jù)實確定數(shù)據(jù)處理方法(企業(yè)多用多維業(yè)態(tài)模式)。
2)大數(shù)據(jù)分析平臺
大數(shù)據(jù)分析平臺基于用戶行為分析生命周期規(guī)律,保證其在數(shù)據(jù)采集、存儲、組織、整合、計算、分析[43]、知識發(fā)現(xiàn)、決策方面可擴展性、動態(tài)性[3-4]。鄧玉林[28]提出此類開源平臺代表為Hadoop(基于HDFS可靠共享存儲、MapReduce處理數(shù)據(jù)機制及Hive數(shù)據(jù)倉庫工具等處理海量非結構化數(shù)據(jù));馬曉亭[43]認為應加強平臺架構科學性、開放性、透明性、異構性、智能性(最優(yōu)配置資源),優(yōu)化數(shù)據(jù)存儲與傳輸效率、數(shù)據(jù)分析(影響算法有效性與可擴展性、過程可視化、整體優(yōu)化)、智能計算(計算資源管理與分配、機器學習,根據(jù)分析對象、內容變化智能調整與優(yōu)化算法和過程)、低碳運營、安全穩(wěn)定,此外,還應構建有序、動態(tài)、系統(tǒng)運行管理機制,設立標準保證平臺實用。
3)數(shù)據(jù)挖掘
又稱知識發(fā)現(xiàn)[32]。通過算法(主要有NaiveBayes、K-Means、SVM)、工具(Mahout等[1,27])計算數(shù)據(jù),基于項目、用戶、歷史訪問挖掘信息間、用戶間關聯(lián)、用戶興趣模式,從大數(shù)據(jù)中提取有效數(shù)據(jù)發(fā)現(xiàn)隱含、有意義知識,支持個性化服務[8,13-14,42],關鍵是結合業(yè)務流程、促進挖掘者和用戶間通信[40],分數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示三階段[14],前沿是基于本體、個性化推薦的語義Web挖掘。李雪芳等[13]、孟楊[32]認為包括問題定義[13]、數(shù)據(jù)準備(數(shù)據(jù)清洗(除噪聲、臟數(shù)據(jù))、集成、選擇(提取、分析)、變換(匯聚以統(tǒng)一成適合挖掘形式)[32])、模型構造[13]、數(shù)據(jù)挖掘(智能提取數(shù)據(jù)模式[32])、評估優(yōu)化(興趣度量、模式評估[32])、知識應用(表示)(結果可視化[32]),過程包括將數(shù)據(jù)分份,主控程序分配Map(過濾數(shù)據(jù),由工作機讀取數(shù)據(jù)分片并分配)、Reduce任務(聚集數(shù)據(jù),按方式分類排列數(shù)據(jù));鄧玉林[28]認為包括數(shù)據(jù)再利用(挖掘用戶數(shù)據(jù))、重組、擴展、廢氣利用(錯誤數(shù)據(jù))、開放(用戶數(shù)據(jù))。丁然[42]認為相關技術包括自動預測趨勢和行為、關聯(lián)分析、聚類分類[8,14,45]分析(基于Hadoop的Mahout利用MapReduce分布式協(xié)同過濾機制[45])、概念描述(旨在得出共同特征,分特征描述、區(qū)別描述(有遺傳算法、決策樹法))、偏差檢測(尋找參照值與觀測結果間有意義區(qū)別,包括不滿足規(guī)則特例、分類中反常實例、量值隨時間變化、觀測結果與模型預測值偏差);胡一[8]、韓翠峰等[14]認為還包括回歸分析、Web挖掘(分內容、結構、使用挖掘[8])及神經(jīng)網(wǎng)絡。
3結束語
本文揭示了基于大數(shù)據(jù)的個性化服務內涵、核心內容及研究框架,并從架構體系、關鍵技術兩方面闡述了國內基于大數(shù)據(jù)的個性化服務研究進展:架構體系包括體系結構、功能模塊、運行機理;關鍵技術包括信息推薦、搜索引擎、大數(shù)據(jù)等。
參考文獻
[1]夏秀雙.大數(shù)據(jù)環(huán)境下高校圖書館個性化信息服務研究[D].曲阜:曲阜師范大學,2015.
[2]欒旭倫.大數(shù)據(jù)環(huán)境下高校圖書館個性化信息服務系統(tǒng)研究[J].圖書館學刊,2014,(8):118-121.
[3]王茜,錢力.大數(shù)據(jù)環(huán)境下電子商務個性化推薦服務發(fā)展動向探析[J].商業(yè)研究,2014,(8):150-154.
[4]楊亮,雷智雁.大數(shù)據(jù)環(huán)境下圖書館個性化服務研究[J].現(xiàn)代情報,2014,34(4):74-77.
[5]馬曉亭.基于情景大數(shù)據(jù)的圖書館個性化服務推薦系統(tǒng)研究[J].現(xiàn)代情報,2016,36(4):90-94.
[6]馬曉亭.基于可信大數(shù)據(jù)的圖書館個性化服務平臺構建[J].圖書館理論與實踐,2015,(1):85-88.
[7]陳臣.基于大數(shù)據(jù)的圖書館個性化智慧服務體系構建[J].情報資料工作,2013,(6):75-79.
[8]胡一.基于大數(shù)據(jù)的電子商務個性化信息推薦服務模式研究[D].長春:吉林大學,2015.
[9]陳臣.大數(shù)據(jù)時代一種基于用戶行為分析的圖書館個性化智慧服務模式[J].圖書館理論與實踐,2015,(2):96-99.
[10]潘玉辰.基于大數(shù)據(jù)下戰(zhàn)略性新興產(chǎn)業(yè)個性化信息資源服務模式研究[J].開發(fā)研究,2016,(3):20-25.
[11]陳臣.基于大數(shù)據(jù)的圖書館個性化服務安全體系構建研究[J].新世紀圖書館,2014,(11):47-51.
[12]黃志鵬,余慶,劉捷.大數(shù)據(jù)時代的圖書館個性化信息服務探討[J].青春歲月,2015,(6):551-551.
[13]李雪芳,陳希文.大學生個性化職業(yè)指導大數(shù)據(jù)挖掘模型[J].亞太教育,2016,(10):231-232.
[14]韓翠峰,韓禮紅.大數(shù)據(jù)思維下多技術融合的圖書館個性化信息服務平臺研究[J].社科縱橫,2015,30(8):92-94.
[15]葉娟.探析大數(shù)據(jù)在高職教育中的個性化應用[J].網(wǎng)絡安全技術與應用,2014,(3):91-92.
[16]于凱,吳蕾.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)在個性化教學中的應用研究[J].福建電腦,2015,(8):46-47,75.
[17]陳臣.大數(shù)據(jù)時代基于個性化服務的數(shù)字圖書館數(shù)據(jù)搜索引擎設計[J].圖書館理論與實踐,2015,(4):91-94.
[18]康海燕,XIONG Li.面向大數(shù)據(jù)的個性化檢索中用戶匿名化方法[J].西安電子科技大學學報,2014,41(5):148-154,160.
[19]陳臣.一種大數(shù)據(jù)時代基于讀者體驗視角的數(shù)字圖書館個性化搜索引擎[J].四川圖書館學報,2013,(6):27-30.
[20]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016,(2):60-68.
[21]余小高.大數(shù)據(jù)環(huán)境下管理信息系統(tǒng)個性化學習研究[J].軟件導刊,2015,14(5):17-20.
[22]楊雪,姜強,趙蔚.大數(shù)據(jù)學習分析支持個性化學習研究——技術回歸教育本質[J].現(xiàn)代遠距離教育,2016,(4):71-78.
[23]秦帥.基于大數(shù)據(jù)的圖書館個性化智慧服務體系構建探討[J].佳木斯職業(yè)學院學報,2017,(6):472-472.
[24]高艷艷.基于大數(shù)據(jù)分析的中小學生個性化學習診斷模型研究[D].石家莊:河北師范大學,2016.
[25]馬相春,鐘紹春,徐妲.大數(shù)據(jù)視角下個性化自適應學習系統(tǒng)支撐模型及實現(xiàn)機制研究[J].中國電化教育,2017,(4):97-102.
[26]周進.大數(shù)據(jù)時代的高校個性化教育:一種過程支持框架[J].高教探索,2016,(5):11-15,20.
[27]陳玉兆.大數(shù)據(jù)下的個性化推薦研究與實現(xiàn)[D].西安:西安電子科技大學,2014.
[28]鄧玉林.基于Hadoop大數(shù)據(jù)框架的個性化推薦系統(tǒng)研究與實現(xiàn)[D].成都:電子科技大學,2016.
[29]孫笑宇.大數(shù)據(jù)環(huán)境下車聯(lián)網(wǎng)個性化信息服務模式研究[D].長春:吉林大學,2016.
[30]牟智佳.電子書包中基于教育大數(shù)據(jù)的個性化學習評價模型與系統(tǒng)設計[J].遠程教育雜志,2014,(5):90-96.
[31]周清清,佘航,平萍.基于大數(shù)據(jù)評價的個性化學習平臺模式構建研究[J].中國教育信息化,2016,(15):13-15.
[32]孟楊.基于大數(shù)據(jù)的個性化學習推薦服務研究[D].新鄉(xiāng):河南師范大學,2016.
[33]嚴克文.大數(shù)據(jù)環(huán)境下電子商務個性化推薦算法應用研究[D].合肥:合肥工業(yè)大學,2016.
[34]賈利娟.一種基于運營商大數(shù)據(jù)的內容個性化推薦模型[J].信息技術,2017,41(3):147-150.
[35]陳玉.大數(shù)據(jù)背景下電商用戶需求挖掘的個性化推薦方法研究[J].信息與電腦,2016,(17):88-89.
[36]劉譯璟,張函.百分點大數(shù)據(jù)與個性化實踐[J].程序員,2013,(2):52-56.
[37]尤海浪,錢鋒,黃祥為,等.基于大數(shù)據(jù)挖掘構建游戲平臺個性化推薦系統(tǒng)的研究與實踐[J].電信科學,2014,30(10):27-32.
[38]裴瑩.基于教育大數(shù)據(jù)的個性化學習模式分析[J].教學與管理,2016,(27):101-103.
[39]陳澤.個性化推薦算法研究及“大數(shù)據(jù)”下的系統(tǒng)開發(fā)[D].重慶:重慶郵電大學,2013.
[40]鄭杰輝.大數(shù)據(jù)環(huán)境下個性化服務實現(xiàn)的案例分析[J].網(wǎng)絡安全技術與應用,2015,(3):51-51,53.
[41]朱星華.大數(shù)據(jù)時代的個性化醫(yī)療——政府科研管理改革的國外經(jīng)驗與思考[J].中國科技財富,2015,(2):86-88.
[42]丁然.大數(shù)據(jù)時代電子商務個性化推薦發(fā)展趨勢[J].電子商務,2015,(4):5,7.
[43]馬曉亭.基于個性化服務需求的圖書館大數(shù)據(jù)分析平臺構建研究[J].新世紀圖書館,2014,(6):20-23.
[44]董燕,高健飛.大數(shù)據(jù)時代下如何打造個性化的商務智能實踐[J].科技資訊,2015,(27):18-19.
[45]李建新,唐小燕.基于大數(shù)據(jù)的高職學生個性化培養(yǎng)應用研究[J].科教文匯,2015,(33):77-78.
(責任編輯:郭沫含)