孫雨生 徐 鑫
(1.湖北工業(yè)大學(xué)經(jīng)濟與管理學(xué)院 武漢 430068)(2.湖北工業(yè)大學(xué)職業(yè)技術(shù)師范學(xué)院 武漢 430068)(3.湖北工業(yè)大學(xué)湖北農(nóng)村社會管理創(chuàng)新研究中心 武漢 430068)
伴隨Web2.0、Web3.0 時代到來、社會化媒體發(fā)展[1~3],用戶不再滿足機器挖掘信息,而更多通過參與網(wǎng)絡(luò)信息構(gòu)建(產(chǎn)生、組織、分享、發(fā)布[4])彰顯個性,實現(xiàn)用戶共建、共治、共享的開放網(wǎng)絡(luò)平臺,致使用戶生成內(nèi)容、社會化標注資源日益增多[5],信息過載、知識迷航、信息品質(zhì)低下、搜索負荷過重等問題日益嚴重。在此形勢下,如何優(yōu)化傳統(tǒng)信息推薦機制以更好基于用戶信息需求、興趣、行為、情境模式[2~3,5~7]等主動推薦符合其需求的信息成為亟待解決問題。作為維護成本低、自帶語義性[8]的用戶生成元數(shù)據(jù),社會化標簽有組織、共享、檢索和發(fā)現(xiàn)作用[9],可從語義角度挖掘用戶信息[5],從用戶角度表達其興趣及認知偏好、揭示信息資源特征[10]及與用戶間關(guān)系[1,3~4,6~8,11~12],可優(yōu)化用戶興趣、信息資源建模[8]從而提高推薦精度、奇異發(fā)現(xiàn)能力及用戶體驗,因此研究基于社會化標簽的信息推薦問題有重要意義。
本文先以知網(wǎng)、萬方的學(xué)位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“社會化標簽”和“推薦”為關(guān)鍵詞組合在題名中檢索(截至2023年1月27日),共得期刊論文38篇、碩博論文25篇;再用同樣方法排列組合標簽類關(guān)鍵詞(社會化標注、社會標注、社會標簽、大眾標簽、大眾標注)與推薦類關(guān)鍵詞(推薦、推送)進行相關(guān)主題檢索以獲取相關(guān)文獻,經(jīng)剔重整合共得期刊論文63 篇、碩博論文46 篇。然后詳讀全部109 篇文獻歸納基于社會化標簽的信息推薦內(nèi)涵、研究框架,分析該主題的架構(gòu)體系、應(yīng)用及評價研究進展并根據(jù)提及頻次、內(nèi)容質(zhì)量詳細標注,本著最大限度揭示該主題研究進展重要文獻、覆蓋全部內(nèi)容、優(yōu)中選優(yōu)原則,剔除標注次數(shù)少、與其他標注文獻內(nèi)容重復(fù)文獻后選出44 篇參考文獻,最后從架構(gòu)體系、應(yīng)用與實踐、效果評價三方面闡述國內(nèi)基于社會化標簽的信息推薦研究進展。
基于社會化標簽的信息推薦挖掘網(wǎng)絡(luò)信息資源內(nèi)容、用戶標注歷史、顯隱式關(guān)系[13]來精準描述、組織信息資源、用戶特征[12]及兩者關(guān)系[7,10],并基于標簽(反映用戶對信息資源內(nèi)容理解、興趣[1,3~4,6~8,11~12,14~15])頻率、時間、共現(xiàn)、權(quán)重[16]等構(gòu)建用戶興趣模型[17](多為加權(quán)標簽向量)以量化、預(yù)測用戶興趣[17],用基于聚類、矩陣、圖結(jié)構(gòu)、數(shù)據(jù)挖掘、本體等技術(shù)[1,5,12,16]個性化推薦標簽[11,14]、資源[11,17]、相似用戶[11],最終實現(xiàn)信息、產(chǎn)品和服務(wù)的時空、方式及內(nèi)容個性化[7,10],與傳統(tǒng)信息推薦對比見表1。此外,孫智超[18]認為基于受控詞表的標簽推薦用受控詞表的分類關(guān)聯(lián)標簽、用戶、資源(用戶選擇偏好類并據(jù)此構(gòu)建標簽與主題詞映射關(guān)系聚類標簽集,以形成該類下的標簽推薦列表)。
表1 基于社會化標簽的信息推薦與傳統(tǒng)信息推薦對比
推薦機制信息資源管理基于協(xié)同過濾基于內(nèi)容混合推薦數(shù)據(jù)采集數(shù)據(jù)挖掘數(shù)據(jù)存儲用標簽信息發(fā)現(xiàn)相似用戶和資源并由協(xié)同過濾得到的標簽對目標資源進行推薦;解決興趣模型單一問題,縮小評分矩陣規(guī)模,提高計算效率,挖掘用戶潛在興趣以針對性推薦根據(jù)用戶標簽評價資源相似度,對比用戶興趣和資源相似度進行推薦將各算法輸出轉(zhuǎn)為表明用戶、資源和標簽標注可能性的四元組形式并以評分立方形式組織和存儲,通過統(tǒng)一框架同時推薦資源、標簽和用戶顯性采集,隱性挖掘,顯隱式混合基于分類、聚類、關(guān)聯(lián)規(guī)則、時間序列分析及Web挖掘在線存儲,數(shù)據(jù)倉庫分析用戶歷史評分,基于用戶和資源相似性個性化推薦;常評分矩陣稀疏,冷啟動,易受攻擊,用戶興趣模型單一分析用戶以往感興趣資源與待推薦資源相似性進而推薦;常挖掘信息不全、推薦內(nèi)容有限綜合各推薦算法優(yōu)勢進行推薦,分整體式、并行式、流水線式三種基于網(wǎng)絡(luò)爬蟲、顯式采集基于聚類、分類、貝葉斯網(wǎng)絡(luò)數(shù)據(jù)庫,本體庫項目 基于社會化標簽的信息推薦 傳統(tǒng)信息推薦
縱觀現(xiàn)有文獻,國內(nèi)相關(guān)研究成果最早是田瑩穎2010 年發(fā)表的《基于社會化標簽系統(tǒng)的個性化信息推薦探討》,目前國內(nèi)研究整體處起步階段[5,16]但發(fā)展迅速[7],學(xué)術(shù)研究集中于架構(gòu)體系[1,5,8,10~12,19]、用戶興趣建模[8,10,12]、推薦機制[4~5,8,10,12,15,19]、效果評價[4]等方面[2~3,7,16],應(yīng)用研究集中于圖書[4~5]及書簽[16]、電 影[4~5,12,16,19]、圖 片[12,16]、音樂[5]、鏈 接[4]、網(wǎng)頁、E-mail、新聞等領(lǐng)域[1,7]。基于社會化標簽的信息推薦研究框架見圖1。
圖1 基于社會化標簽的信息推薦研究框架
國內(nèi)基于社會化標簽的信息推薦遵循系統(tǒng)化、體系化原則并以推薦模型為驅(qū)動、體系結(jié)構(gòu)為支撐、功能模塊為內(nèi)生動力、運行機理為主線從整體出發(fā)構(gòu)建架構(gòu)體系。
按社會化標簽系統(tǒng)中用戶、資源、標簽組織方式分為基于圖論、基于張量和基于主題三類。基于圖論和基于張量模型描述用戶、資源和標簽間關(guān)系很大程度解決推薦系統(tǒng)冷啟動和數(shù)據(jù)稀疏問題,基于主題模型從語義角度深層次挖掘標簽涵義使推薦內(nèi)容更符合用戶需求,三者各有優(yōu)缺點。
3.1.1 基于圖論模型
從復(fù)雜網(wǎng)絡(luò)角度用二維向量表示用戶、資源、標簽兩兩間關(guān)系并從整體出發(fā)基于超圖揭示標簽系統(tǒng)中網(wǎng)絡(luò)結(jié)構(gòu)以提高推薦效率[5]。武慧娟[5]根據(jù)系統(tǒng)動力學(xué)理論提出基于社會化標簽的信息推薦系統(tǒng)構(gòu)成要素涉及核心要素(用戶)、動力要素(知識共享、用戶信任機制)、基礎(chǔ)要素(資源、標簽)、自復(fù)制要素(超循環(huán)、耗散機制)、傳輸要素(用戶關(guān)系網(wǎng)絡(luò))、轉(zhuǎn)換要素(發(fā)現(xiàn)、推薦機制);提出靜態(tài)推薦模型以核心要素和基礎(chǔ)要素為主體,在動力要素作用下隨知識共享和用戶信任機制提高標注資源效率,通過自復(fù)制要素形成用戶關(guān)系網(wǎng)絡(luò),挖掘用戶關(guān)系網(wǎng)絡(luò)將所發(fā)現(xiàn)群內(nèi)和群際個性化信息推薦給用戶實現(xiàn)信息轉(zhuǎn)換;基于推薦過程構(gòu)建動態(tài)模型,分為一層動態(tài)模型(以用戶、資源、標簽為核心構(gòu)建標注系統(tǒng),用社會化網(wǎng)絡(luò)分析理論動態(tài)聚合知識形成用戶關(guān)系網(wǎng)絡(luò),通過知識發(fā)現(xiàn)動態(tài)產(chǎn)生個性化信息進行群內(nèi)、群際推薦)和二層動態(tài)模型(包括基于社會網(wǎng)絡(luò)分析動態(tài)聚合知識、發(fā)現(xiàn)個性化信息、個性化推薦模塊)。蘄延安[9]采用隱含話題模型提取標簽空間隱含話題,基于標簽共現(xiàn)關(guān)系、話題分布構(gòu)建話題標簽超圖進而推薦;陳平華[20]結(jié)合用戶LBS、用戶標簽和社會關(guān)系網(wǎng)絡(luò)構(gòu)建融合標簽網(wǎng)絡(luò)、社會關(guān)系網(wǎng)絡(luò)的雙層網(wǎng)絡(luò)推薦模型;安志偉[14]針對傳統(tǒng)三部圖分解推薦算法缺陷提出基于張量模型的新三部圖分解算法,用低階張量分解高階稀疏數(shù)據(jù)進而推薦;史云飛[21]基于推薦系統(tǒng)中對象及對象間關(guān)系構(gòu)建圖結(jié)構(gòu)模型進而推薦;周歡[22]根據(jù)二部圖關(guān)聯(lián)網(wǎng)絡(luò)生成用戶、電影、標簽完全三部圖,基于此構(gòu)建圖神經(jīng)網(wǎng)絡(luò)獲取標簽可重疊社區(qū)(某些標簽隸屬多個標簽社區(qū))進而提高推薦效果。
3.1.2 基于張量模型
基于加權(quán)標簽向量,引入張量構(gòu)建統(tǒng)一框架模型描述用戶、資源和標簽關(guān)系,生成3 階張量并基于Tucker(塔克)、CP(平行因子)、HOSVD(高階奇異值)等[5]算法降維分解,常用貝葉斯算法最優(yōu)排序標簽、資源并推薦[5]。孫玲芳[23]基于K-Means 聚類相似標簽特征,用高階奇異值分解構(gòu)建多維張量模型,以部分解決稀疏性問題進而個性化推薦資源;張浩[24]加權(quán)系統(tǒng)中元素權(quán)值、用戶評分等級并作為張量元素構(gòu)建新加權(quán)張量模型進而推薦;叢維強[17]構(gòu)建基于數(shù)據(jù)倉庫多維數(shù)據(jù)集技術(shù)的社會化標簽推薦模型以充分利用用戶、資源和標簽間關(guān)系,構(gòu)建基于加權(quán)元組潛在語義分析的三維張量模型(引入社會網(wǎng)絡(luò)分析法量化加權(quán)相關(guān)元組構(gòu)建加權(quán)三維張量結(jié)構(gòu)模型,并通過元組潛在語義分析得到體現(xiàn)用戶興趣度的加權(quán)元組集)并據(jù)此推薦;王曉芳[25]構(gòu)建基于四元語義分析的Flickr 組推薦模型,采用四階張量分解算法挖掘用戶、標簽、圖片和資源群組間潛在語義關(guān)系為用戶推薦圖片組。
3.1.3 基于主題模型
從標簽系統(tǒng)語義出發(fā),深度挖掘標簽所含語義信息以提高推薦針對性(在標簽與用戶或資源關(guān)系中引入主題因素降高維數(shù)據(jù)到低維主題以推薦資源、標簽[26]),常引入概率潛在語義分析模型(PLSA)統(tǒng)一標簽系統(tǒng)中用戶-資源和資源-標簽共現(xiàn)以提高推薦效率[5],其發(fā)展歷經(jīng)向量空間模型、潛在語義分析模型(LSA)、基于概率潛在語義分析、潛在狄利克雷分配模型(LDA)等階段[4,27]。常引入LDA 主題模型構(gòu)建社會化標簽推薦系統(tǒng),張彬彬[28]構(gòu)建基于主題模型的社會化標簽推薦模型LTR,綜合考慮用戶、標簽、資源語義信息,從話題語義層挖掘內(nèi)在聯(lián)系,推導(dǎo)模型聯(lián)合概率和轉(zhuǎn)移概率分布,最后根據(jù)模型輸出概率參數(shù)推薦標簽;王曉耘[29]融合社會關(guān)系構(gòu)建用戶加權(quán)LDA 標簽主題模型,涉及用戶社會關(guān)系建模(鏈接互聯(lián)的用戶加入“用戶-標簽”二元模型)、“用戶-標簽”關(guān)系矩陣構(gòu)建(基于用戶標注行為分解)、LDA 建模分析;竇燕[30]基于LDA 主題模型改進基于內(nèi)容、相似資源和相似用戶的標簽推薦,構(gòu)建標簽混合推薦模型;李培植[31]引入LDA 主題模型和信任機制構(gòu)建多源混合標簽推薦模型挖掘資源潛在語義信息提高推薦結(jié)果全面準確性。
此外,張引[32]構(gòu)建基于異構(gòu)對象融合的標簽推薦模型(擴展LDA 主題模型構(gòu)建用戶、標簽、資源間關(guān)系及其與額外類型對象間關(guān)系生成的模型,用主題關(guān)聯(lián)性(概率)揭示異構(gòu)對象間關(guān)系),建模標簽、用戶及資源間關(guān)系并融入用戶對資源興趣、標簽使用習(xí)慣等自主意識以構(gòu)建面向用戶自主意識的標簽推薦模型;丁玲[33]改進LDA 模型挖掘潛在標簽主題,結(jié)合“先優(yōu)化后服務(wù)”思想提出集成主題優(yōu)化的協(xié)同推薦方法:線下基于標簽主題優(yōu)化對象構(gòu)建用戶多興趣主題推薦模型,線上基于目標用戶興趣主題和用戶興趣主題模型匹配計算并生成推薦列表;孫甲申[34]針對社會化標簽自由性特點,引入標簽粒度和噪聲構(gòu)建新主題模型,為未標注文檔推薦標簽;叢維強[17]構(gòu)建基于加權(quán)元組潛在語義分析的標簽推薦模型,使數(shù)據(jù)倉庫更好體現(xiàn)用戶、資源和標簽間語義關(guān)系。
基于社會化標簽的信息推薦系統(tǒng)常分功能應(yīng)用層(支持用戶注冊/登錄,瀏覽、聚合、標注、發(fā)布資源)、數(shù)據(jù)分析層(支持資源及其標簽發(fā)現(xiàn)與分析,相同資源、標簽歸納與推薦)、資源管理層(添加資源標簽及其他信息)[1,11];基于社會化標簽的信息推薦框架遵循客觀、全面、系統(tǒng)、多層次原則確定標簽、資源、用戶間關(guān)系[5]。李欣[19]提出B/S模式基于社會化標簽的推薦引擎系統(tǒng)結(jié)構(gòu)(用MVC 模式降低耦合度),改進推薦體系結(jié)構(gòu)為應(yīng)用層、推薦層、網(wǎng)絡(luò)層和數(shù)據(jù)層;白雪[1]整合社會化標注網(wǎng)站中基于標簽的資源管理與推薦機制、E-learning 平臺構(gòu)建基于標簽的教育資源(含學(xué)習(xí)伙伴)管理與推薦體系,分為功能應(yīng)用、可視化表示、數(shù)據(jù)分析、資源管理四層。
此外,易明[15]提出社會化標簽系統(tǒng)中基于混合策略的個性化知識推薦系統(tǒng)體系結(jié)構(gòu);蘇巧[7]提出基于標簽的分布式、可擴展、可插拔混合(資源、標簽、用戶)個性化推薦框架,統(tǒng)一數(shù)據(jù)適配器分別為基于圖論、張量和主題推薦算法輸入數(shù)據(jù),新增算法只需分布式實現(xiàn),混合推薦算法提供常用修改器將算法輸出整入評分立方,索引構(gòu)建器只需在首次推薦或評分立方更新時(推薦算法周期運行、算法權(quán)重更新、推薦算法增刪)訪問評分立方并構(gòu)建索引,后續(xù)推薦直接運行索引,分在線(數(shù)據(jù)適配、推薦算法并行計算、修改器插值)、離線部分(索引構(gòu)建、推薦生成);姚陶鈞[35]提出基于社會化標簽、概率化矩陣分解推薦算法(Tag-PMF)的推薦系統(tǒng)框架,線上(數(shù)據(jù)采集和預(yù)處理)、線下(結(jié)果推薦)混合,分析老年人對項目(資訊、視頻等)歷史評分,結(jié)合項目標簽,考慮項目隱含因子和標簽相似項目預(yù)測用戶需求并推薦。
基于社會化標簽的信息推薦系統(tǒng)常包含人機交互(用戶與標簽、項目交互,推薦結(jié)果顯示)、業(yè)務(wù)(含用戶興趣建模、推薦(分協(xié)調(diào)控制(用戶操作分析,按情況觸發(fā)功能事件,用戶自選推薦算法)、推薦算法模塊))和系統(tǒng)數(shù)據(jù)庫(含用戶標簽數(shù)據(jù)庫、用戶興趣模型庫、項目評分庫)三模塊[12]。
此外,劉珊珊[2]提出音樂推薦系統(tǒng)包含用戶接口(支持分類導(dǎo)航、檢索、列表推薦、歌曲關(guān)聯(lián)可視化、評分等)、推薦算法和資源模塊(含歌曲數(shù)據(jù)庫、特征數(shù)據(jù)庫、用戶信息及其他Web 資源);趙艷[8]提出基于社會化標簽的P2P 個性化推薦系統(tǒng)包含普通節(jié)點(涉及用戶興趣管理、個性化推薦、本地資源管理、資源標注模塊)和社區(qū)管理節(jié)點(增加社區(qū)節(jié)點信息管理模塊);姚陶鈞[35]提出基于Tag-PMF 的推薦系統(tǒng)包含線上模塊(包含人機交互、數(shù)據(jù)預(yù)處理和推薦增量更新模塊)、線下模塊(包含結(jié)果推薦、算法訓(xùn)練及測試、數(shù)據(jù)存儲、相似項目集采集模塊);王戰(zhàn)平[36]提出基于社會化標簽挖掘的微博內(nèi)容個性化推薦包含微博用戶標簽擴充模塊(以微博內(nèi)容為數(shù)據(jù)源,基于TextRank 和Word2vec 擴充用戶標簽)、標簽語義計算模塊(將標簽映射到HowNet知識庫計算語義相關(guān)性以構(gòu)建標簽語義相似度矩陣,進而提高用戶標簽相似度計算準確性)、社會化標簽挖掘模塊(挖掘社會化標簽獲取深層次用戶偏好,為構(gòu)建用戶興趣偏好表示模型提供語義知識)、微博內(nèi)容個性化推薦模塊(根據(jù)用戶興趣偏好表示模型構(gòu)造排序函數(shù)以個性化推薦微博內(nèi)容);賈偉[37]融合用戶智能標簽與社會化標簽設(shè)計圖書推薦系統(tǒng)模型,包含數(shù)據(jù)采集模塊(獲取圖書標簽書和用戶數(shù)據(jù))、數(shù)據(jù)預(yù)處理模塊(去噪并基于標簽主題建模深層次挖掘語義信息)、推薦模塊。
基于社會化標簽的信息推薦通過描述資源特征構(gòu)建資源模型,采集用戶標注標簽及反饋獲取其特征構(gòu)建并進化用戶興趣模型,用推薦技術(shù)匹配用戶興趣模型、資源特征模型以按相似度排序后推薦[8,10]。張靈菡[38]提出基于用戶興趣模型的個性化推薦流程為近鄰用戶發(fā)現(xiàn)、資源集確定與特征表示、個性化推薦生成;田瑩穎[10]提出基于社會化標簽的個性化推薦流程為采集并向量表示用戶興趣得出相似用戶集,形成并向量表示內(nèi)部資源集,比較用戶興趣、資源向量以按相似度進行Top-N 推薦;熊回香[39]提出基于社會化標注系統(tǒng)的個性化推薦流程為數(shù)據(jù)采集及預(yù)處理、資源-標簽-用戶聚類、推薦模型構(gòu)建和個性化推薦;李燁朋[16]提出通過K-Means聚類在離線狀態(tài)下初步聚類數(shù)據(jù),再對用戶-標簽-項目數(shù)據(jù)組構(gòu)建空間向量模型,經(jīng)高階奇異值分解運算向量并個性化推薦。
此外,姚誼[40]提出基于社會化標簽音樂推薦流程為采集用戶數(shù)據(jù)集,通過用戶日志和顯式反饋分析其聽歌習(xí)慣,按用戶興趣模型選擇、排名歌曲并推薦靠前歌曲;劉珊珊[2]提出結(jié)合音頻特征、社會標簽的音樂推薦流程為音樂特征采集處理、特征降維及推薦結(jié)果可視化;李海英[27]提出基于標簽主題特征擴展的圖書館書目推薦流程:數(shù)據(jù)采集及預(yù)處理、圖書標簽主題建模、書目特征選擇與擴展、書目相似度計算、推薦結(jié)果生成;趙艷[8]提出P2P 環(huán)境下基于社會化標簽的個性化推薦流程為本地節(jié)點計算、用戶標簽偏好向量更新并提交至社區(qū)節(jié)點以共享、發(fā)現(xiàn)社區(qū)內(nèi)用戶近鄰并獲取其所收藏資源,過濾本地用戶已標注資源并計算剩余資源與用戶興趣相似度、排序后為其進行Top-N 推薦;陳俊鵬[41]經(jīng)數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、聯(lián)合加權(quán)矩陣分解(將社會化標簽系統(tǒng)與圖書館館藏資源語義融合)為非圖書館用戶推薦館藏資源以提升其利用率;潘淑如[42]將本體引入社會化標簽系統(tǒng)構(gòu)建基于本體的個性化信息推薦模型,首先基于本體描述標簽語義,然后基于標簽構(gòu)建用戶興趣本體(基于領(lǐng)域本體的用戶模型),最后基于本體提供的語義和個性化標簽集推薦符合用戶興趣的信息。
基于社會化標簽的信息推薦應(yīng)用領(lǐng)域伴隨推薦技術(shù)成熟逐步拓展,涉及圖書[4~5]及書簽[16]、電影[4~5,12,17,19]、圖片[12,16]、音樂[5]、網(wǎng)頁、鏈接[4]、E-mail、新聞等[1,7],典型應(yīng)用見表2。
表2 基于社會化標簽的信息推薦應(yīng)用
白雪[1]基于社會化網(wǎng)絡(luò)、E-learning 平臺實現(xiàn)基于標簽、任務(wù)學(xué)習(xí)的跨平臺海量資源管理,學(xué)習(xí)資源及學(xué)習(xí)伙伴推薦,知識點可視化導(dǎo)航;孫智超[18]以《中國分類主題詞表》醫(yī)學(xué)類主題詞表、豆丁網(wǎng)資源、標簽為數(shù)據(jù)源,實現(xiàn)基于受控詞表的醫(yī)學(xué)資源社會化標簽推薦系統(tǒng),結(jié)合標簽與資源、用戶與類目構(gòu)建標簽與受控詞表映射關(guān)系并聚類標簽擴展標簽集,以優(yōu)化標簽推薦和層次瀏覽機制;姚陶鈞[35]構(gòu)建基于智能終端、云端技術(shù)、中西醫(yī)健康體征采集設(shè)備、動態(tài)監(jiān)控,由健康服務(wù)總線、健康數(shù)據(jù)中心和健康服務(wù)庫構(gòu)成的老人健康個性化服務(wù)平臺,整合相關(guān)產(chǎn)業(yè)數(shù)據(jù)和服務(wù)、管理老年人相關(guān)服務(wù)和數(shù)據(jù)以關(guān)聯(lián)老人與政府、企業(yè)、社區(qū)、機構(gòu)、親人和社會工作者,提供資訊閱讀(基于用戶興趣和反饋定制或推薦欄目、頻道、展示風(fēng)格等)、視頻資源、健康應(yīng)用(基于用戶健康狀況按疾病類型展示藥品名稱、成分、適應(yīng)癥、用量、用藥指南、注意事項等,基于用戶評價、位置等推薦藥店、醫(yī)院)、生活服務(wù)(基于用戶需求、反饋個性化推薦、分類展示健康活動)等個性化定制、推薦服務(wù)并接受用戶評分、標注反饋等;劉珊珊[2]構(gòu)建含用戶接口、推薦算法和資源模塊的音樂推薦系統(tǒng);郭雪梅[43]依托數(shù)字圖書館信息資源構(gòu)建面向社會公眾的醫(yī)學(xué)健康知識服務(wù)平臺,基于標簽使用頻率描述用戶偏好,結(jié)合標簽使用時間因素動態(tài)更新用戶偏好,為其提供健康知識推薦服務(wù)。
5.1.1 數(shù)據(jù)來源與采集
現(xiàn)有研究常根據(jù)評測問題在社會化標簽系統(tǒng)中選擇數(shù)據(jù)集驗證推薦算法效果、系統(tǒng)性能,常用網(wǎng)頁解析工具和網(wǎng)站自帶API采集Delicious[4,6,11~12,16]、Bibsonomy[12]、CiteULike[38]、Amazon[3]、MovieLens[3~4,12]、Netflix[3]、Flickr[4,7]、Last.fm[40]及博客標簽數(shù)據(jù)集等。
5.1.2 數(shù)據(jù)預(yù)處理
為滿足應(yīng)用對數(shù)據(jù)準確性、完整性、一致性、時效性、可信性及可解釋性要求,常只考慮數(shù)據(jù)集中用戶、標簽、資源間關(guān)系(忽略時間標簽)并預(yù)處理(涉及數(shù)據(jù)清洗、集成、變換、規(guī)約和離散化[28],刪除異常標簽及亂碼)后存入數(shù)據(jù)庫:趙艷[8]、田瑩穎[9]、孔祥迎[4]剔除無意義標簽、合并相似標簽、刪除標簽數(shù)較少的資源及用戶。此外,李巖[3]從每個數(shù)據(jù)集(涉及用戶、標簽、資源數(shù)據(jù))中取10%數(shù)據(jù),用十層驗證法將用戶集分為10 份并依次單獨作為測試集,剩余數(shù)據(jù)作為訓(xùn)練集,隨機去除測試集中用戶標記過的一項資源后進行評價;張彬彬[28]過濾詞項剔除停用詞,再用TF-IDF法刪減數(shù)據(jù)集,篩選排名前8000 詞語作為后續(xù)實驗詞庫并存儲,最后據(jù)此提取文獻特征以便評價;竇燕[30]用中科院分詞系統(tǒng)NLPIR 對圖書內(nèi)容簡介及不規(guī)范標簽進行分詞,并基于停用詞表刪除特殊符號和無用詞。
5.2.1 評價指標構(gòu)建
推薦算法評價常用指標有準確度、多樣性和新奇性[4,7],內(nèi)涵詳見表3;推薦系統(tǒng)評價標準主要分統(tǒng)計精度(常用平均絕對偏差MAE,計算目標用戶預(yù)測和實際評分間偏差,值越小越好)和決策支持精度(常用受試者操作特性曲線(ROC)分析法)兩類[3]。李巖[3]、孔祥迎[4]、李爍朋[16]、李欣[19]、李海英[27]等用MAE、推薦命中率(HR,推薦項目中命中項目所占比例)和命中排序(ARHR,評估命中項目在推薦排序集中位置)[12]、平均均方誤差(RMSE)[4,16,35]等指標評價預(yù)測評分準確度;同時部分學(xué)者改良MAE 法提出平均絕對誤差法(NMAE,規(guī)范化MAE 以消除評分范圍影響)、平均絕對用戶誤差法(MAUE,消除MAE評估時用戶差異性)。
表3 推薦算法評價指標
此外,叢維強[17]用支持度(標簽被多少資源使用過)、概率(同時被特定標簽和推薦標簽標注過的概率)、調(diào)整概率(即置信度,綜合標簽支持度及在標簽數(shù)據(jù)集中出現(xiàn)次數(shù)算出,揭示標簽在標簽集中獲得推薦的概率)等指標評價所推薦標簽質(zhì)量;劉志麗[44]用平均準確率、多級制相關(guān)性評價法(計算推薦結(jié)果與待標注文檔相關(guān)度)等多維評價標簽推薦效果;史云飛[21]用相似度和網(wǎng)絡(luò)密度指標評價標簽、資源及用戶推薦有效性;趙艷[8]用推薦準確率評價資源推薦準確度(對目標用戶的推薦正確數(shù)與推薦總數(shù)之比);孔祥迎[4]、姚誼[40]用覆蓋率表示算法為所服務(wù)用戶推薦商品占所有商品比例(越低推薦給用戶商品數(shù)越少,反之亦然)。
5.2.2 評價過程
分為統(tǒng)計精度度量法和決策支持精度度量法兩類[3],常將數(shù)據(jù)集分為訓(xùn)練集(用于用戶興趣建模)、測試集(推薦精確度和效率計算、支持推薦與評價),推薦系統(tǒng)按給定的用戶-資源對返回推薦標簽集并在候選集中評價[13],對比改進后和現(xiàn)有推薦方法以衡量推薦系統(tǒng)性能、算法效率。此外,蘇巧[7]從Flicker選擇測試數(shù)據(jù)集進行多維評價:以系統(tǒng)為中心評價推薦算法預(yù)測準確率,以網(wǎng)絡(luò)為中心評價項目或用戶網(wǎng)絡(luò)拓撲結(jié)構(gòu)相似性,以用戶為中心評價推薦用戶接受度和可用性;王海雷[6]分析正規(guī)化參數(shù)、學(xué)習(xí)率、用戶-資源矩陣、資源-標簽矩陣因子等變量敏感度以評價協(xié)同矩陣分解有效性;王曉耘[29]設(shè)計用戶興趣模型及模型更新方法驗證、個性化推薦算法驗證(與傳統(tǒng)標簽推薦算法對比取算術(shù)平均值為最終評價結(jié)果)兩部分實驗評價推薦有效性。
綜上,本文闡述了基于社會化標簽的信息推薦內(nèi)涵及研究框架,并從架構(gòu)體系、應(yīng)用與實踐、效果評價三方面闡述了國內(nèi)基于社會化標簽的信息推薦研究進展:架構(gòu)體系包括推薦模型、體系結(jié)構(gòu)、功能模塊及運行機理;應(yīng)用集中于圖書及書簽、電影、圖片、音樂、網(wǎng)頁等領(lǐng)域,實踐集中于教育、醫(yī)療、健康等領(lǐng)域;效果評價研究評價基礎(chǔ)、方法,前者涉及數(shù)據(jù)來源及采集、數(shù)據(jù)預(yù)處理,后者包括評價指標構(gòu)建和評價過程。
下一步,筆者將從用戶興趣建模、推薦機制、信息資源管理三方面分析國內(nèi)基于社會化標簽的信息推薦核心內(nèi)容研究進展,供相關(guān)研究參考。