夏立新 胡畔 劉坤華 翟姍姍
Web2.0時代為在線健康社區(qū)用戶帶來了全新的、自由的、互動的社交體驗,但在用戶無拘束表達自我的同時卻受到諸多問題的困擾。一方面,健康社區(qū)相對于普通社區(qū)具有特殊性,這主要是由醫(yī)療健康問題的復雜性及專業(yè)性所決定的?;颊哂脩敉ǔ2痪邆淝逦磉_以及快速定位自身所需信息并進行鑒別的能力,在健康社區(qū)搜索、瀏覽的過程中被海量無關信息裹挾會使得用戶對于自身疾病的困惑情緒難以排遣,極易產生對于社區(qū)的不信任感,進而使其社區(qū)參與感難以得到保障。另一方面,我國在線醫(yī)療用戶規(guī)模不斷增加,加速了在線健康社區(qū)服務場景范圍的擴大以及服務場景深度的進一步細化,傳統導航、關鍵詞檢索等信息服務模式已難以全面滿足醫(yī)學健康領域用戶的實時信息需求。在此情形下,信息推薦作為一種具有高度交互性的數字化信息服務,隨著相關算法的逐步成熟越來越受到各行業(yè)信息服務研究者們的重視。
憑借對象聚焦化、需求精準化、特征標簽化等優(yōu)勢,用戶畫像為該系列問題提供了新的解決途徑:從用戶群體中抽象出典型用戶需求,在某種特定的情境下抽取出真實用戶行為數據,形成描述用戶需求與行為的標簽集合,刻畫細粒度、多維度的活躍用戶畫像,從而為用戶提供更加個性化、多樣化的信息推薦等服務?;诖?,本文以信息推薦服務為導向,融入信息推薦場景要素,豐富用戶畫像的標簽體系,從而更為全面地刻畫在線健康社區(qū)用戶。
用戶畫像即用戶信息標簽化,采用一定的技術方法將用戶的自然屬性、社會屬性、行為習慣等維度的特征提煉成標簽,形成較為完善的用戶標簽體系。用戶畫像作為描述目標用戶、提高決策效率的有效工具,一經提出便被廣泛應用到電子商務領域[1]。當前,國內外已有較多領域開展了有關用戶畫像的理論與應用研究。相關學者結合當前的環(huán)境和用戶畫像理論基礎,通過內容分析、主題挖掘、社會關系網絡、聚類、可視化等方法,對圖書情報、旅游、教育、醫(yī)療等行業(yè)進行應用研究,揭示了多個領域下用戶的需求與行為特征規(guī)律[2-5]。
在“健康中國”的戰(zhàn)略下,全民健康意識大幅提升,用戶健康信息需求個性化、多樣化特征愈發(fā)顯著,用戶畫像在健康醫(yī)療方面的應用也越來越廣泛,涉及多種應用模式。如個人信息管理方面,健康醫(yī)療用戶畫像聚焦于用戶健康信息資源管理,Wang等人提出并研發(fā)的用戶個性化健康信息管理系統[6];劉莉等人從患者個性化需求的角度出發(fā),基于慢性疾病患者健康畫像開發(fā)了健康管理系統[7]。在精準服務方面,唐暉嵐等人通過采集書簽數據構建了網絡健康信息精準服務模式[8];郭順利等人采用用戶群體畫像為高校大學生提供精準化服務[9];張海濤等人利用概念格進行在線健康社區(qū)用戶群體聚類以實現精準服務[10];王凱等人基于模糊概念格建立多粒度用戶細分模型,精準化定位用戶的需求[11]。在個性化推薦方面,Abidi等人根據用戶的談話內容進行健康信息的推薦[12],Lerouge等人研發(fā)了面向老年用戶的健康信息推薦系統[13],翟姍姍等人基于用戶病情畫像與用戶興趣構建了個性化信息推薦模型[14]。由此可知,用戶畫像在個人信息管理、精準服務、個性化推薦等多個方面都有一定研究成果,在健康醫(yī)療領域具有良好的應用前景。
在線健康社區(qū)內,用戶行為所包含的信息量巨大,是構建與完善醫(yī)學用戶畫像重要的參考維度。在線健康信息行為是指用戶利用互聯網尋求、獲取、評價、分類和利用健康信息以滿足個體的健康信息意識和需求的一系列信息行為。目前國外與國內在線健康信息行為方面的研究方向存在一定區(qū)別,但均已取得顯著成果。國外用戶在線健康信息行為研究主要包括4個研究方向,分別是在線健康信息搜尋行為、在線健康信息素養(yǎng)教育、在線健康信息服務使用行為和在線健康信息交流行為;國內在線健康社區(qū)用戶健康信息行為的研究涉及信息披露行為、信息獲取與搜尋行為、信息共享行為、信息服務使用及持續(xù)使用行為、社會支持行為等多種行為類型。由此可見,從傳統的信息科學角度而言,用戶在線健康信息行為主要包括健康信息瀏覽行為、信息搜尋行為、信息共享行為和信息利用行為。
近年來,一些學者在前人研究成果的基礎上,借鑒相關理論或方法對用戶在線健康信息行為進一步探索。如張鑫通過案例研究方法將在線健康社區(qū)的用戶參與行為類型劃分為求助類、提問類、描述類、情感表達類、經歷記述類、知識分享類、社交類、質疑類、廣告類以及無關行為共十大類參與行為[15];翟羽佳等人采用社會網絡分析方法按照長短期和活躍度劃分用戶,對用戶的社交支持需求進行深入分析[16];楊夢晴和朱慶華采用K-Means聚類方法將在線健康社區(qū)中個人健康管理行為界定為健康信息發(fā)現、健康信息互動和健康信息分享行為[17]。在線健康領域用戶信息行為的研究方興未艾,探索用戶參與在線健康行為的特征和內在機制,有助于把握用戶需求及其演化規(guī)律,為在線健康信息服務提供有益的參考和目標導向。
在線健康社區(qū)信息服務的方式是由社區(qū)運營的首要功能和服務內容所決定的。如美國權威醫(yī)患交流論壇MedHelp,主要提供用戶個人健康管理和專家問答服務,用戶可以通過網站導航、檢索框和信息推薦的方式獲取健康信息;PatientsLikeMe作為綜合疾病的病友交流社區(qū),聚焦于個人病歷管理、相似病理展示以及疾病自查等服務內容,社區(qū)為用戶提供導航、檢索等基本服務的同時也為其推送有類似健康狀況的病友信息。國內健康網站“好大夫在線”為用戶提供就診、問診咨詢搜索服務及疾病、藥品、保健知識的推送服務;“甜蜜家園”通過主題帖分享的形式為用戶提供糖尿病問答、疾病自查及知識科普推薦等服務。通過上述國內外典型的在線健康社區(qū)服務與運行模式可知,市場上已有的在線健康社區(qū)信息服務方式,按照健康用戶需求可大致分為個人健康信息管理服務、健康信息搜索服務、健康信息咨詢服務和健康信息推送服務,其信息服務方式較為多樣。然而,對尚未明確病情的用戶而言,傳統的網站導航和搜索功能難以滿足其實時需求,易出現重復查詢、返回無關網頁等問題。其中,信息推薦服務模式充分利用了用戶個人數據、行為數據、社會關系數據和UGC等各類數據,能夠更好地為用戶提供個性化的健康信息[18]。
綜上所述,目前已有的在線健康社區(qū)信息服務方式具有交互性強、多樣化等特點,但滿意度卻普遍不高。而用戶畫像已在多領域、多研究情境中取得相對成熟的應用成果,在醫(yī)學領域中也顯現出極大的發(fā)展?jié)摿Γ軌蚪璐税l(fā)現在線健康社區(qū)用戶群體特征、挖掘用戶核心健康需求從而提升用戶滿意度。然而,用戶畫像起源于電子商務領域,大多是以企業(yè)或平臺的利益為主要目標,而不是以用戶需求為主要目標,因此并非完全適用于在線健康社區(qū)的信息服務。此外,常見的用戶畫像構建標簽體系維度較為單一,局限于用戶自然屬性與領域屬性,未充分考慮健康社區(qū)信息服務的場景屬性、病情屬性等維度,難以適應個性化、多樣化的用戶健康信息需求特征?;诖?,本文以精準投放、場景化推薦等信息服務方式為導向,充分利用用戶信息行為數據,以刻畫出更為細致完善的用戶全貌。
用戶“井噴式”的健康信息需求使得用戶信息行為產生大幅差異,其在在線健康社區(qū)內的活動場景也愈加豐富,因此在社區(qū)場景布局上便要充分考慮信息推薦的多維度場景及各場景中的代表性要素。故本文以用戶信息需求為準則,在劃分在線健康社區(qū)信息推薦場景的基礎上,歸納信息推薦的場景要素,為在線健康社區(qū)用戶畫像建模與實證提供理論支持。
不同類型的用戶信息行為能夠一定程度上體現用戶的心理狀況和信息需求。本文通過調研在線健康社區(qū)“甜蜜家園”帖子標題的方式,采集兒童糖尿病板塊下2020年1月至2021年1月用戶發(fā)布和回復的主題帖標題文本,參考在線健康社區(qū)已有研究中對用戶興趣偏好、參與內容和行為類型的分類結果[15-17],結合用戶信息需求特質進行用戶行為類型的劃分。
(1)搜索類用戶需求
在線健康社區(qū)搜索類用戶行為包含求助、提問類行為和社交擴展類行為。發(fā)生求助類行為的用戶傾向于在發(fā)布主題帖時使用強情緒類詞匯,如“真心”“(著)急”等,十分需要情感上的支持;發(fā)生提問類行為的用戶對相關病情認知較淺,因而容易產生觀望的心態(tài)難以決斷;發(fā)生社交擴展類行為的用戶社交能力較強,發(fā)帖內容中包含較強互動需求。發(fā)生搜索類行為的用戶共同特征表現在對知識、社交等新事物強烈而迫切的探求心理。
(2)分享類用戶需求
在線健康社區(qū)分享類用戶行為包含知識分享和醫(yī)療廣告類信息行為,該類型用戶具有較強的創(chuàng)作能力。發(fā)生知識分享類行為的用戶包括專家和普通用戶兩類,發(fā)帖內容主要是專家提供專業(yè)信息咨詢服務,以及普通知識分享類用戶搬運專業(yè)人士生產知識;醫(yī)療廣告類行為是指在在線健康社區(qū)中發(fā)布以治療方案、藥物、治療儀器等廣告以及求購信息等主題帖。對于發(fā)生分享類行為的用戶,應關注其社交方面與自我展示方面的需求。
(3)提供類用戶需求
在線健康社區(qū)提供類用戶行為包含記敘描述類行為和情感互動類行為,該類用戶行為的動機一般包括記錄生活、尋求認同或即時的感受。如記敘描述類信息行為敘述了用戶自身或患病親屬的患病、治療等相關情況或經歷;情感互動類用戶并不展示具體的問題等,而僅為了抒發(fā)當前心理狀況及情緒情感。該類行為體現用戶個性化需求、創(chuàng)作需求、社交需求以及即時需求。
通過上文對在線健康社區(qū)用戶信息需求與信息行為的深入分析,本文采用網頁定位的策略劃分場景,將在線健康社區(qū)信息推薦場景劃分為社區(qū)首頁、個人主頁、信息詳情頁、用戶發(fā)帖頁四類[14],并初步建立在線健康社區(qū)網頁定位與用戶行為間的聯系,再結合不同場景下用戶對信息推送內容的實時需求,關聯場景與用戶需求,最終確定以“網頁位置-行為-需求”為依據的在線健康社區(qū)信息推薦場景劃分策略,如表1所示。
表1 在線健康社區(qū)信息推薦場景劃分標準Table1 Classification Criteria for Online Health Community Information Recommendation Scenarios
社區(qū)首頁場景下,用戶一般有較強的欲望探索新的主題信息,其信息行為以瀏覽、搜索為主;個人主頁場景下則側重于與用戶自身興趣、偏好相關的信息,部分用戶易產生社交需求,發(fā)生社交擴展類信息行為;信息詳情頁場景下則常常更需要與當前信息相關的內容,用戶易被當前主題觸發(fā)情感互動和記敘描述類提供行為;發(fā)布頁面下用戶具有較強的表達欲和求知欲,易發(fā)生分享和提供類信息行為。
基于此,本文綜合網頁位置、用戶需求和用戶行為特征,最終將在線健康社區(qū)信息推薦場景劃分為四類,即:基于獵奇心理的社區(qū)首頁場景、基于用戶自我意識的個人主頁場景、基于當前主題的詳情頁場景、基于用戶內容生產能力的發(fā)布頁場景。
學者們關于場景要素的研究已有精辟的論述,具有代表性的觀點包括羅伯特和謝爾提出的場景五力理論[19],彭蘭提出的移動時代場景四要素等[20]。然而,這些場景要素并不都是面向信息推薦服務的,甚至不都是面向信息服務的。目前面向信息推薦服務的場景要素研究主要集中于圖書館、電子商務等領域。圖書館領域有關場景劃分或構造策略的研究成果較為豐富,例如,針對高校移動圖書館資源推薦的用戶、興趣、時間、位置、設備五類場景要素的理念[21],以及從“場景-情境-用戶”三個維度實現的移動圖書館場景化服務要素配置的策略[22]。電子商務領域場景要素的分類主要傾向于用戶個性化,有學者將移動電商環(huán)境下的場景推薦要素歸納為用戶、位置、時間、環(huán)境、設備五類[23];還有學者將傳統場景五力要素嵌入創(chuàng)新商業(yè)服務模式中,促使推薦服務效用由“千人一面”向“千人千面”轉變[24]。
因此,本文綜合已有的場景要素相關研究,著重考慮各場景要素對信息推薦服務的支撐能力,并結合實體物理環(huán)境和虛擬網絡環(huán)境,將在線健康社區(qū)場景要素歸納綜合為四類,即用戶要素、興趣要素、時空要素和設備要素。如圖1所示。在線健康社區(qū)信息推薦的場景要素歸類需要充分考量在線健康社區(qū)的特有性,并對于其中各類要素信息進行合理的取舍,如刪除難以體現用戶健康特質的職業(yè)、婚姻狀況等冗余信息,增加病情、居住地等信息的精準獲取。對場景進行精準化處理,能夠增強后續(xù)構建用戶畫像模型過程中對用戶標簽進行取舍與分類的合理性與科學性,以提升用戶畫像模型在信息推薦服務中的可用性。
圖1 面向信息推薦服務的在線健康社區(qū)場景要素Fig.1 Scenarios Elements of Online Health Community Oriented to Information Recommendation Services
上文基于用戶需求劃分了信息推薦的四類基本場景,并明確了面向在線健康社區(qū)信息推薦服務的四大場景要素?;诖?,本文通過建立信息推薦場景要素與用戶畫像標簽的關聯關系,識別不同信息推薦場景下的要素標簽,構建在線健康社區(qū)用戶標簽體系,并基于形式概念分析實現用戶畫像建模。
用戶畫像是實現信息推薦的重要參考體系,不同場景下用戶的需求具有明顯的差異,這種差異也體現在用戶畫像的標簽識別上,各場景下用戶需求特征屬性標簽識別的過程也是場景與標簽建立連接的過程。
本文對四種網頁位置中用戶的需求-行為特征展開分析,并將用戶畫像標簽與其適應的場景關聯,以識別不同信息推薦場景下的要素標簽,如表2所示。
表2 四類信息推薦場景下的要素標簽分布Table 2 Distribution of Element Labels in Four Types of Information Recommendation Scenarios
社區(qū)首頁的任務是捕獲用戶興趣點,來源于用戶瀏覽首頁時尋求新奇事物的獵奇心理。因此,該場景與用戶的當前情境聯系緊密,在社區(qū)首頁,用戶常常沒有明確的需求傾向,對推薦信息的類型、主題具有較強的包容性。因而,用戶傾向于獲得熱門信息和最新信息的推送,時空要素和設備要素所包含的標簽內容更能體現用戶在該場景下的動態(tài)需求。
在基于用戶自我意識的個人主頁的場景下,用戶顯然希望獲取能夠滿足其個性化需求的信息,既包括需求內容的個性化,也包括其信息閱覽、交互中的偏好信息,如不喜歡視頻類資源。因而,對其進行信息推薦時可以綜合利用用戶要素、興趣要素、時空要素和設備要素所包含的各類標簽,使用個性化推薦策略滿足其多維度需求。該場景下用戶的需求仍然是以搜索行為為主,部分用戶易萌生社交類需求。
用戶進入詳情頁后,即提供了一個捕獲用戶即時需求和獵奇心理的獨特場景,進入這一場景的用戶是受到某主題的吸引,更易對相似的主題或該主題帖作者所生產的其他內容產生興趣。因而,用戶傾向于獲得與當前主題相似的信息推送,但推送結果需融合主題語義和用戶病情雙重特征,用戶要素和興趣要素所包含的標簽便不可忽視。在該場景下,用戶更愿意表達自己對該主題的見解,發(fā)生描述記敘或情感分享的提供類信息行為。
在線健康社區(qū)的帖子發(fā)布頁面較為特殊,一般平臺的發(fā)布頁面只有當前熱門話題的推薦,而在線健康社區(qū)用戶發(fā)帖時往往是需要解決病情上的困惑。因此在在線健康社區(qū)用戶帖子發(fā)布頁面的場景下,需要調動用戶要素、興趣要素、設備要素為其進行推薦,此時的用戶兼具求知欲與創(chuàng)作欲,其分享類和提供類信息行為特征明顯。
本文所構建的用戶標簽體系以用戶場景化需求為出發(fā)點,基于上文識別的信息推薦場景要素標簽,將用戶特征屬性劃分為以下幾個維度。(1)用戶基本信息屬性維度,包括用戶自然屬性和用戶病情屬性,屬于用戶要素的范疇。其中,用戶的病情屬性是在線健康社區(qū)中最具有代表性的一類特征。(2)用戶信息行為屬性維度和用戶能力屬性維度,屬于用戶興趣的范疇,相對于用戶信息行為屬性中各類行為數據的量化,設置用戶能力屬性則傾向于采用二值判斷的方式直觀反映用戶能力的強弱。(3)情境屬性維度中的特征標簽分別對應兩個范疇的要素標簽,即時空要素和設備要素,收集各類標簽主要用于滿足用戶的即時需求,以及用于判斷用戶是否具有明顯的個性化特征。
由此可知,不同用戶屬性維度包含的特征標簽內容有所差異,與其所屬的信息推薦場景要素范疇具有一定的映射規(guī)則,具體如表3所示。
表3 信息推薦場景要素標簽范疇與畫像維度映射表Table 3 Mapping Table of Label Categories of Information Recommendation Scenario Elements and Portrait Dimensions
一般而言,用戶標簽體系的構建信息維度越完善,屬性描述越詳細,則越可能挖掘更多的用戶特征與關聯規(guī)則。然而,在構建用戶標簽體系時,還需要參考業(yè)務流程及服務目標對各級標簽進行合理取舍,使其能夠適應系統服務的目標。基于上述的要素標簽映射規(guī)則,綜合不同信息推薦場景下的用戶需求構建在線健康社區(qū)用戶標簽體系,如圖2所示。
圖2 基于要素標簽的在線健康社區(qū)用戶畫像標簽體系Fig.2 User Portrait Label System of Online Health Community Based on Element Labels
形式概念分析又叫概念格(concept lattice),是一個以概念為元素的偏序集,它可以通過Hasse圖可視化,其中每個節(jié)點是一個形式概念,實際意義是揭示每個節(jié)點或者說屬性特征間的關系。其工作原理是通過對頻繁項集的挖掘,建立形式概念背景模型,從而找到用戶需求的特征和關聯,進一步實現相同需求用戶的聚類和不同需求用戶的區(qū)分。因此,基于形式概念構建在線健康社區(qū)用戶畫像模型,其實現流程主要包括用戶特征標簽化、概念格構建和關聯規(guī)則生成。
(1)用戶定位與特征細分
該步驟即用戶特征標簽化的過程,借助于結構化信息處理的思想實現自然語言處理以便計算機理解和應用。用戶信息包括結構化數據與非結構化數據,對于結構化數據,例如發(fā)帖量、好友數可以直接用于標簽的生成處理,而大量的用戶標簽需要通過對非結構化文本的分析才能獲取。因此,可以采用對整體文本切分詞的方式統計詞頻,保留有實際意義的中高頻詞,即可用于判斷用戶需求、劃分用戶類別以及確定用戶屬性的詞。以糖尿病為例,通過構建用戶畫像標簽體系細分模型維度,將用戶特征屬性標簽與各維度一一映射,形成更加全面的用戶特征標簽集,如圖3所示。
圖3 在線健康社區(qū)用戶定位與特征細分Fig.3 User Orientation and Feature Segmentation of Online Health Community
基于形式概念的用戶標簽體系構建需對各屬性數據進行標準化。以本文在線健康社區(qū)用戶畫像中最為典型的病情特征標簽為例,就患病類型、癥狀及治療方案等屬性而言,相對于數值型數據形式,文本型屬性特征更能代表用戶的健康特征,且在健康社區(qū)內容中出現頻率更高,因而以糖尿病為例,在對主題文本進行語義抽取后,采取文本標簽分類的形式進行處理,如表4所示。
表4 用戶病情屬性標簽分類表Table.4 Tags Classification of User State of Illness
(2)構建概念格
概念格的出發(fā)點是布爾型數據,因而本文研究中存在的大量數值型、文本型數據需要經過處理才能生成Lattice形式。
就概念格對象而言,其對應指標屬性只有“空白”(不存在)和“X”(存在)兩種可能,為降低概念形式分解后的高維稀疏數據矩陣的消極影響,需采用RFM模型對用戶進行精細化篩選。該模型是通過三個指標,即消費時間間隔(recency)、消費頻率(frequency)和消費金額(monetary)將用戶劃分為8個類別,從而能夠幫助企業(yè)為每個類別的客戶推送不同的服務。其后再對典型用戶群體實現概念格聚類,就概念格屬性而言,概念格的呈現需要嚴格控制屬性的數量,過多的屬性會導致最終可視化圖形效果不佳,所以在編輯形式概念背景時,盡可能保留最能體現用戶特征和偏好的屬性標簽,而對其他屬性標簽采取刪減、合并等方式進行整合,形成形式概念背景(context)。
(3)關聯規(guī)則生成
概念格聚類統計的結果是每種標簽出現的頻率,以及各標簽屬性之間的聯系,這種關系可以通過各頻繁項集的推理從而實現關聯規(guī)則挖掘。利用屬性聯系可以實現各頻繁項集的推理,挖掘其中的關聯規(guī)則。對于大量Lattice生成的規(guī)則,可以通過對最小支持度和置信度的設置進行規(guī)則篩選,從而得出符合推薦和應用場景的用戶類型,通過Hasse圖中標簽屬性之間的關系可以實現用戶畫像聚類。
基于關聯規(guī)則的分析旨在搜尋屬性兩兩之間的關系,置信度和支持度作為關聯規(guī)則中兩個評價指標,通常用來判斷關聯規(guī)則的可靠性和重要性。其中,支持度是指規(guī)則中某屬性出現的頻率,若是屬性集合D有s%的屬性包含XY,則稱在D中關聯規(guī)則XY的支持度為s%,實際上,可以表示為概率P(XY),即Support(X,Y)=P(XY),如公式(1)所示。
置信度指規(guī)則的強度,含義是集合D中c%的屬性包含X的同時包含XY ?如果說X支持度是Suppor(tX),那么規(guī)則的置信度則表示為:Support(XY)/Support(X),此時為條件概率P(Y|X),即Confidence(XY)=P(Y|X),如公式(2)所示。
本文獲取典型在線健康社區(qū)用戶數據,采用RFM模型對用戶進行篩選,定位目標用戶群體;再對用戶特征進行標簽化處理;最后對典型用戶群體實現概念格聚類。
傳統以醫(yī)生為中心的垂直型社區(qū)中信息并不能集中呈現,而是散落分布于各個疾病板塊中,而以糖尿病這一單一疾病為背景的綜合類在線健康社區(qū)具有極高的專指度,用戶需求相對集中,信息資源特征更為突出。因此,本文選取糖尿病論壇“甜蜜家園”作為在線健康社區(qū)實證的數據來源,使用python爬取其“兒童糖尿病論壇”相關數據(爬取時間為2021年1月25日),總樣本為2020年1月至2021年1月有回復的主題共150個,主題下的評論帖2,328條,涉及用戶1,097名。獲取的用戶屬性僅包含用戶昵稱、用戶性別、年齡、關注主題、發(fā)表主題貼及評論帖、注冊時長、在線時長、患病類型、癥狀和治療方案。
以上的用戶數據兼具文本、布爾、數值類型,與概念格構建的出發(fā)點相去甚遠,因此結合用戶篩選模型,并對照用戶畫像概念模型細分模型維度。本文采用的用戶篩選模型是RFM模型,指標映射規(guī)則如圖4所示。
圖4 RFM 指標映射Fig.4 The RFM Indicator Mapping
因此,首先篩選出一年內有回復的主題帖發(fā)表者和最近一年內發(fā)布評論的用戶,去除身份重復,保留用戶共103人;其次對103名用戶RFM三項指標的數值取均值進行比較;最后按每項高于平均值或低于均值分為八類,每種類型選擇2名用戶,共計16名典型用戶,為保護用戶隱私,對其昵稱進行處理,如表5所示。
表5 RFM 典型用戶Table 5 Typical RFM Users
定位RFM模型篩選出的目標用戶群體,并采用畫像標簽對其進行概念格聚類,其實現過程分為以下幾個步驟。
(1)編輯context
利用Conexp工具構建概念格,構建對象即RFM模型的16名典型用戶,構建標簽包括男、女、成年人、未成年人、I型糖尿病、II型糖尿病、妊娠型糖尿病、其他、酮癥酸中毒、血糖異常、感冒發(fā)燒、嘔吐腹瀉、體型異常、無特殊癥狀、預防、手術治療、藥物治療、日常護理、社交型、非社交型、內容生產能力強、內容生產能力弱、搜索行為>Avg、搜索行為≤Avg、提供行為>Avg、提供行為≤Avg、分享行為>Avg、分享行為≤Avg,共28個維度,如表6所示。其中“X”格代表1,即用戶有該標簽,空白格代表0,即用戶沒有該標簽,某列越稀疏則意味著具備該屬性的對象數量越少。
表6 context 標簽編輯(部分)Table 6 Context Label Editing(Partial)
(2)Lattice用戶畫像生成
對構建好的概念形式標簽生成Lattice,得到整體Hasse圖,如圖5所示。其中每個圓形節(jié)點代表一個概念,連線表示超概念與其子概念間隱含的關聯關系,每個節(jié)點上的數字標簽表示該概念具有的對象數量及其概率??梢钥吹?,Hasse圖中共包含四類圓形節(jié)點,綠白色節(jié)點表示該概念包含一個屬性,白黑色節(jié)點表示該概念含有一個對象,綠黑色節(jié)點即代表該概念有一個屬性且有一個對象,而白色的節(jié)點則是潛在概念,圓形節(jié)點越大則說明能支持該概念成立的對象越多。概念包含的屬性名稱用灰色矩形標識,隨著層次的增加,該層概念具有的屬性逐漸增多,具有這些概念的對象數量逐漸減少。
(3)用戶畫像聚類
由Lattice進行用戶畫像聚類后的屬性標簽可以揭示社區(qū)內用戶群體的主要特征,并借助屬性出現的頻率完成用戶特征等級的排序。以對象所含標簽數量降序排列,聚類得到特征最為突出的四類用戶群體,即“觀望型用戶群體”“宣傳型用戶群體”“高產型用戶群體”和“經驗型用戶群體”。這四類用戶群體所具有的屬性及其數量,以及含有該屬性對象數量、占比如表7所示。
表7 用戶類別及其屬性-對象Table 7 User Categories and Their Attributes-Objects
通過用戶畫像聚類得出上述四類典型用戶群體,均為“甜蜜家園”中具有代表性的用戶群體,屬性標簽數量越多,對于該用戶群體的描述便越精細,基于這部分標簽構建的畫像準確性就更強。此外,對用戶進行信息推薦的前提是確定用戶的具體類型,本文通過比較用戶標簽與具體用戶類型屬性標簽的重合數量來明確用戶類型。當某用戶標簽與多個類別的用戶屬性標簽重合數量相同時,說明該用戶隸屬于多個類別,則采用混合推薦的方式,即綜合不同類型用戶群體的推薦方案進行推薦。不同類型的用戶群體具體分析與健康信息推薦方案如下。
(1)觀望型用戶群體
該類群體聚集了81%的典型用戶樣本量,是維持社區(qū)運行最重要的基數,主要圍繞患病類型、治療手段和相關癥狀的病情問題進行提問和討論,其Hasse圖生成結果如圖6所示,圖中節(jié)點與連線內涵同圖5。以觀望型用戶群體Hasse圖中所含概念標簽及對象占比生成用戶群體畫像,如圖7所示。該類型用戶在社區(qū)內傾向于潛水、觀望,在社區(qū)中也缺乏互相關注的好友。同時,該類用戶的注冊和發(fā)帖時間較早,但用戶活躍度不高、等級較低。其中,用戶A注冊時長1,040天,好友數仍為0,總發(fā)帖量僅有7篇,帖子的評論回復總數共20條,是“觀望型”用戶的典型代表。
圖6 “觀望型”用戶群體概念格Hasse 圖(部分)Fig.6 Hasse Diagram of Concept Lattice of "Wait-and-See" User Group(Partial)
圖7 “觀望型”用戶群體畫像Fig.7 Portraits of "Wait-and-See" User Group
該類型用戶個人信息普遍不夠完善,對其進行信息推薦的重點是在社區(qū)首頁場景下,結合當前日歷以及用戶IP地址推薦最新信息以及熱門社區(qū)活動,充分調動用戶對于各類健康信息的好奇心理與社區(qū)參與度,從而增加發(fā)文、交友、評論回復等行為。因此,針對該類型用戶,“甜蜜家園”需要提高其忠誠度,使其對社區(qū)產生信任的同時增加發(fā)文量。
(2)宣傳型用戶群體
該類群體聚集了75%的典型用戶樣本量,傾向于科普預防知識、分享較為權威的健康信息,不常發(fā)生記錄日?;蚴鞘惆l(fā)情緒的提供類信息行為。這類用戶發(fā)帖頻率較為穩(wěn)定,發(fā)文也是圍繞糖尿病病情展開探討,但由于其中部分用戶頻繁發(fā)布醫(yī)療廣告信息,活躍度過高,在社區(qū)內獲得的好友關注反而較少。其中,用戶B注冊時長611天,在線時長423小時,發(fā)布的1,264篇主題帖的評論回復數量僅有26條,且多數為自評或廣告宣傳,提供自身情況類的信息行為發(fā)生0次,是“宣傳型”用戶代表。
該類型用戶提供類信息行為不足,其他用戶對其信任度不高,因而對其進行信息推薦的重點是在帖子發(fā)布頁面場景下,為其推薦能夠引起其他用戶關注和共鳴的主題標簽信息,從而增加該類型用戶的內容影響力。因此,針對該類型用戶,“甜蜜家園”應該重視其內容生產能力,但需要加強對其發(fā)布內容的審核以保障患者類用戶的權益與健康需求。
(3)高產型用戶群體
該類群體聚集了69%的典型用戶樣本量,在社區(qū)內影響力較高,普遍關注病情癥狀和治療手段等主題。該類型用戶的內容生產能力、分享與提供行為均高于平均水平,且受好友關注程度較高,可推測其文章質量也高。高產型用戶群體一般自身無特殊癥狀或疾病,用戶角色主要為專業(yè)知識較為豐富的用戶。例如,用戶C注冊時長5,285天,在線時長9,709小時,發(fā)帖總量為357篇,提供自身情況的信息行為發(fā)生126次,分享類信息行為發(fā)生223次,發(fā)帖內容較為權威,如“[原創(chuàng)] [2011更新]我們反對什么樣的干細胞移植手術&常見誤解辨析...”,且所發(fā)主題帖的評論回復達17,464條,是“高產型”用戶群體中的典型代表。
該類型用戶內容影響力高,為其進行信息推薦的重點是在信息詳情頁和個人詳情頁場景。一方面通過用戶歷史參與主題構建興趣模型,為用戶推薦興趣內容相似度高的信息列表以激發(fā)其創(chuàng)作熱情;另一方面,依據用戶的社交能力,為其推薦好友圈用戶參與或發(fā)布的主題,從而激活社區(qū)內互動行為。因此,針對該類用戶,可以增設活動日歷,帶動社區(qū)話題討論氛圍,以新穎應季的活動主題擴大其影響力,可以考慮為其開設專欄,從而提高信息傳播效率。
(4)經驗型用戶群體
該類群體聚集了69%的典型用戶樣本量,患病類型主要是I型糖尿病,患該類型糖尿病的兒童通常是遺傳性獲得。這部分用戶包含兒童患者的監(jiān)護人以及兒童時期患病的成年人,已養(yǎng)成在社區(qū)發(fā)布病情相關的主題帖和評論帖的習慣,各類病理知識儲備豐富,屬于資深糖友,平臺黏性高。其中,用戶D平臺注冊時長5,558天,在線時長13,172小時,發(fā)帖總量300篇,主題帖評論回復15,317次,提供自身情況類信息行為發(fā)生139次,好友數高達118,是“經驗型”用戶群體中的典型代表。
該類型用戶個人信息完善,發(fā)布信息行為成熟,推薦重點是在個人詳情頁和帖子發(fā)布頁面。在個人詳情頁需要更加關注經驗值、好友互動等信息管理,為其提供個性化推薦服務以及增值服務;此外,該類型用戶發(fā)帖數量高,在帖子發(fā)布頁面除了為其提供與病情相關的主題短語式標簽選項,還需推薦搜索熱度高、專業(yè)化程度高的標簽以增強其發(fā)布內容的閱讀權重。因此,針對該類型用戶,平臺可以考慮將其設置為管理員,輔助論壇開展后續(xù)活動交流,鼓勵其推送更為專業(yè)化的內容,并設置考核激勵制度。
本文聚焦于在線健康社區(qū)信息推薦場景劃分和用戶畫像構建整個環(huán)節(jié),通過構建社區(qū)內用戶畫像以支持在線健康社區(qū)信息推薦服務新模式,以對傳統的網站導航和關鍵詞檢索的信息獲取方式進行補充?;诖?,本文在充分考慮到在線健康社區(qū)自身特殊性的基礎上,首先,采用文本分析方法,對在線健康社區(qū)用戶信息需求與信息行為進行分解與歸類;其次,基于用戶需求劃分在線健康社區(qū)信息推薦的四類場景,并明確了面向在線健康社區(qū)信息推薦服務的場景要素;再次,建立信息推薦場景要素與用戶畫像標簽的關聯關系,識別不同信息推薦場景下的要素標簽;然后,構建在線健康社區(qū)用戶標簽體系,并基于形式概念分析實現用戶畫像建模。最后以糖尿病為例進行實證研究,構建了針對信息推薦服務模式的在線健康社區(qū)用戶畫像并通過聚類得到四類核心用戶群體,便于平臺針對各類群體特征屬性的標簽表現,為用戶推薦符合其真實需求的健康類信息資源。
作者貢獻說明
夏立新:提出研究思路,設計研究方案;
胡畔:論文起草與修訂;
劉坤華:數據采集與處理分析;
翟姍姍:提出修訂意見。
支撐數據
支撐數據由作者自存儲, E-mail:1160708724@qq.com。
1.胡畔,劉坤華.Users.xlsx.用戶數據及聚類結果數據.