謝君臣,李 濤,黃 甫,常 遠(yuǎn)
(武漢科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065)
截至2020年12月,在線醫(yī)療用戶規(guī)模為2.15億,占比為21.7%[1]。隨著互聯(lián)網(wǎng)的普及不斷擴(kuò)大,醫(yī)療行業(yè)的數(shù)據(jù)也呈現(xiàn)指數(shù)型增長,大數(shù)據(jù)的時代早已到來,并時刻影響著人們的思維和生活方式,這也使得大數(shù)據(jù)的分析、應(yīng)用與發(fā)展成為社會關(guān)注的焦點(diǎn)[2]。醫(yī)療行業(yè)的大數(shù)據(jù)化,使得傳統(tǒng)就醫(yī)模式發(fā)生了逆轉(zhuǎn),用戶不在拘泥于傳統(tǒng)的掛號問診方式,主動式的健康搜索查詢成了解決日常健康問題的途徑之一。與此同時,帶來的是“信息冗余”、“信息過載”,用戶很難從眾多紛雜的藥品中選出有效的藥品,而企業(yè)也希望能夠全面地了解用戶,針對海量的用戶進(jìn)行活動促銷、挖掘出更多優(yōu)質(zhì)用戶,同時想從眾多同質(zhì)化的藥店中提升用戶體驗等一系列的難題。隨著用戶畫像[3]這一概念的提出,立即在各大領(lǐng)域得到了廣泛的應(yīng)用。
用戶畫像是通過數(shù)據(jù)標(biāo)簽化的方式對用戶進(jìn)行數(shù)據(jù)化的刻畫,為服務(wù)方快速了解用戶、分析用戶,進(jìn)行用戶行為預(yù)測、用戶預(yù)警等數(shù)據(jù)分析提供一種解決方案。用戶畫像已在電商、金融、醫(yī)療、教育等領(lǐng)域有了相關(guān)的研究及應(yīng)用,基于用戶的行為數(shù)據(jù)和大數(shù)據(jù)下用戶行為的相似性,對用戶進(jìn)行個性化、精準(zhǔn)化的推薦,儼然成為21世紀(jì)信息時代的熱點(diǎn)技術(shù)。
傳統(tǒng)的用戶畫像的構(gòu)建通常是從采集數(shù)據(jù)、畫像建模和畫像更新三個方面進(jìn)行相關(guān)的工作,針對不同應(yīng)用場景、不同數(shù)據(jù)來源和建模方法得到的用戶畫像存在很大的差異,很難確保用戶畫像在推薦中的精確性。因此,為了解決現(xiàn)階段藥店會員畫像構(gòu)建方法存在數(shù)據(jù)收集模式單一,對數(shù)據(jù)分析力度不夠和對知識的融合較差導(dǎo)致構(gòu)建的用戶畫像維度單一、精準(zhǔn)度較低等問題,該文提出了一種基于多視角、多維度的用戶畫像構(gòu)建方法。在融合現(xiàn)有的數(shù)據(jù)特征基礎(chǔ)上,更加深層次地對用戶的行為偏好、用戶群的行為相似性、用戶群的消費(fèi)區(qū)域性以及疾病爆發(fā)在時間與空間的維度上發(fā)病規(guī)律性等方面進(jìn)行深度挖掘,綜合眾多有效的特征數(shù)據(jù)構(gòu)建藥店用戶畫像,為用戶提供精準(zhǔn)化、個性化的服務(wù)。
用戶畫像是對用戶信息進(jìn)行全貌的特征抽取,構(gòu)建能夠刻畫、分析用戶行為的標(biāo)簽,從而進(jìn)一步實(shí)現(xiàn)對用戶行為的感知預(yù)測。用戶畫像的概念最早由Cooper[4]提出,關(guān)于用戶畫像的構(gòu)建流程,國內(nèi)已有不少學(xué)者進(jìn)行了大量的研究[5-6]。例如,Travis、梁榮賢等一些研究者分別對用戶畫像的特性、迭代等提出非常深刻的觀點(diǎn)[7-8],對后續(xù)的用戶畫像研究提供了充實(shí)的理論基礎(chǔ)和構(gòu)建的方向。
該文主要研究是用戶畫像在醫(yī)療行業(yè)構(gòu)建的問題,國內(nèi)外已有許多學(xué)者對用戶畫像進(jìn)行了大量的研究。從構(gòu)建用戶畫像的角度出發(fā),國外代表性的研究方法有:Lerouge等[9]通過老年慢性病數(shù)據(jù)構(gòu)建用戶畫像,并在此基礎(chǔ)上應(yīng)用程序和健康信息推薦系統(tǒng);Prantik等[10]通過關(guān)鍵字與評價構(gòu)建用戶的數(shù)據(jù)畫像;Paula等[11]構(gòu)建了用戶群體知識本體的用戶畫像。國內(nèi)代表性的研究方法有:唐暉嵐等[12]通過書簽數(shù)據(jù)構(gòu)建的用戶行為特征數(shù)據(jù)構(gòu)建用戶畫像,并對用戶的行為進(jìn)行預(yù)測;馬費(fèi)成等[13]通過嘗試醫(yī)療的語義分析來構(gòu)建用戶畫像,應(yīng)用在健康畫像系統(tǒng)中;張海濤等[14]通過關(guān)聯(lián)規(guī)則挖取用戶群體行為相似度或差異度構(gòu)建健康社區(qū)用戶畫像。
另一方面從應(yīng)用的角度出發(fā),建立用戶畫像只是解決了標(biāo)簽維度的稀疏性問題,但用戶畫像最終的目的是為用戶提供個性化服務(wù)。因此解決畫像的精確性,就必須構(gòu)建更多的細(xì)粒度的特征標(biāo)簽。例如:采用數(shù)據(jù)挖掘構(gòu)建多層級的用戶畫像模型,最終能對數(shù)據(jù)進(jìn)行高效聚類,產(chǎn)生更為全面的用戶畫像[15]。張壯等[16]基于數(shù)據(jù)層次和特征層次對學(xué)生的多源數(shù)據(jù)進(jìn)行集成,然后通過模型疊加構(gòu)建用戶肖像模型。郭娜等[17]針對網(wǎng)絡(luò)安全風(fēng)險檢測中對用戶行為異常特征提取的時間長、檢測精度低的問題,提出基于用戶畫像的大數(shù)據(jù)環(huán)境中的異常特征提取方法,利用收集系統(tǒng)自動獲取網(wǎng)絡(luò)服務(wù)器日志中的用戶行為數(shù)據(jù)。
目前,針對線下醫(yī)藥零售領(lǐng)域的用戶畫像研究還比較少,大多都是針對線上互聯(lián)網(wǎng)領(lǐng)域及其相關(guān)行業(yè)。主要原因有以下幾點(diǎn):一是線下零售藥店收集數(shù)據(jù)較為單一,構(gòu)建用戶特征維度單??;二是線下藥店很難收集到用戶的反饋信息,對用戶的偏好無法感知;三是數(shù)據(jù)龐大、雜亂,很難對用戶行為進(jìn)行持續(xù)追蹤;四是日益激增的用戶量使得推薦效率降低。針對以上問題,該文提出一種基于多視角、多維度的用戶畫像構(gòu)建方法,通過構(gòu)建細(xì)粒度特征的用戶畫像,解決用戶畫像維度單一、精確度較低等問題,同時采用離線計算,優(yōu)化線上計算的時間;基于數(shù)據(jù)統(tǒng)計下的用藥周期獲得用戶的偏好矩陣和在高維視角下分析的藥品與疾病關(guān)聯(lián)性和規(guī)律性、以及用戶消費(fèi)習(xí)慣的規(guī)律性,提取標(biāo)簽特征豐富用戶畫像的特征維度,同時構(gòu)建信息熵分析模型對特征進(jìn)行選擇而構(gòu)建多維度、多視角的用戶畫像。并將用戶畫像的特征帶入推薦算法的模型中,對該方法的效果進(jìn)行驗證。
用戶畫像即用戶角色,實(shí)際上是用戶的標(biāo)簽化。主要是從數(shù)據(jù)中提取信息,如年齡、性別、喜好、歷史購買記錄等,利用大數(shù)據(jù)的統(tǒng)計分析、機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法,對數(shù)據(jù)進(jìn)行統(tǒng)計、降維、分類、聚類、預(yù)測,再結(jié)合應(yīng)用場景,構(gòu)建不同維度的用戶標(biāo)簽體系,進(jìn)一步構(gòu)建精準(zhǔn)的用戶畫像。該文在參考其他領(lǐng)域[18]標(biāo)簽體系設(shè)計的基礎(chǔ)上,總結(jié)了面向藥店會員的標(biāo)簽體系的多維的用戶畫像結(jié)構(gòu)方法。主要從傳統(tǒng)視角和醫(yī)藥視角兩個視角、六個維度進(jìn)行用戶的特征值提取,構(gòu)建藥店會員用戶畫像,最終匯總?cè)绫?所示。
2.1.1 傳統(tǒng)視角的用戶畫像特征提取
傳統(tǒng)視角的用戶特征標(biāo)簽獲取比較直接,通常通過對原始的數(shù)據(jù)庫或者健康檔案中已有的基礎(chǔ)屬性和消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計、分析,來構(gòu)建用戶畫像。如:性別、年齡、注冊時間、城市、門店位置、購買品類數(shù)、月平均消費(fèi)、年消費(fèi)次數(shù)、平均消費(fèi)間隔等,在此基礎(chǔ)上對用戶進(jìn)行一步的劃分,如:根據(jù)價值對用戶進(jìn)行分層。
表1 多視角、多維度用戶畫像特征分析
傳統(tǒng)的用戶分層是通過累計算用戶消費(fèi)數(shù)據(jù),不能精確刻畫當(dāng)下的用戶價值。因此,該文采用RFM模型根據(jù)用戶活躍程度、交易金額和貢獻(xiàn),進(jìn)行用戶價值細(xì)分的一種方法,指標(biāo)x1(數(shù)量),x2(售價),x3(積分)均為正態(tài)模糊集,計算待識別會員A1(x)、A2(x)、A3(x)的取值,按最大隸屬原則,就可以確定會員價值類別進(jìn)行用戶價值分層,公式如下:
(1)
(2)
或,
(3)
2.1.2 醫(yī)藥視角的用戶畫像特征構(gòu)建
藥品是有別于傳統(tǒng)商品的特殊商品,因為相同的疾病有著相似的用藥關(guān)系,所以藥品選擇是根據(jù)疾病選擇同屬性或相同功效的藥品。因此,根據(jù)用戶與藥品的交互關(guān)系,挖掘用戶醫(yī)藥相關(guān)的特征,更能夠提高用戶畫像的精準(zhǔn)度。
(1)用戶醫(yī)藥生命周期特征標(biāo)簽提取。
為了挖掘更加細(xì)粒度的用戶醫(yī)藥生命周期屬性特征標(biāo)簽,該文采取構(gòu)建用藥周期分析模型。通過大數(shù)據(jù)統(tǒng)計分析某一大類藥品的購藥周期,基于購藥將用戶劃分成不同的用藥時序。在不同的時序中,用戶會和部分藥品產(chǎn)生交互關(guān)系。因此,利用用戶-藥品的交互信息,結(jié)合用戶在不同用藥周期的持續(xù)購藥行為,得出用戶的賴藥性特征、偏好性特征。
某一用戶在不同的購藥期Ti與藥品Ix,y,z的關(guān)系如圖1所示。用戶的購藥概率會隨著用藥周期進(jìn)行衰減,在不同的周期構(gòu)建衰減系數(shù)?,計算用戶對藥品的偏好Pu,i,計算藥品偏好的公式如下:
(5)
其中,τ是常數(shù)系數(shù),ti為用戶u在藥品i上購買的時間,LTu,ti為用戶u在藥品i臨近的購買時間差,IT是一個較大的常數(shù),調(diào)節(jié)因子δ在[0,1]之間取值,通過公式(5)計算用戶對藥品的偏好值,得到用戶的偏好矩陣,完善用戶的消費(fèi)習(xí)慣特征。
(2)用戶醫(yī)藥特征標(biāo)簽提取。
會員醫(yī)藥屬性維度中的疾病標(biāo)簽和購買藥品組合標(biāo)簽與會員畫像中的基本屬性和消費(fèi)屬性標(biāo)簽不同,購買藥品標(biāo)簽由于是多種藥品的組合,所以該標(biāo)簽在建模時需要以向量形式表現(xiàn),而疾病標(biāo)簽則基于消費(fèi)行為所提取出的會員購買藥品向量,和常用藥品所屬病類標(biāo)簽所形成的藥品-病類矩陣計算而生成。
MT=MP*T=
(6)
會員用戶的所有病類標(biāo)簽向量MT可表示為公式(6),其中mi表示會員是否購買過藥品i,若購買過則mi為1,否則為0。矩陣T中tij表示藥品i是否對應(yīng)病類j。若二者對應(yīng),則tij=1,否則tij=0。
疾病標(biāo)簽僅僅是對用戶的一種標(biāo)識,更重要的是挖掘每種疾病的深層特征。通過對大量患者監(jiān)測數(shù)據(jù)的挖掘,發(fā)現(xiàn)疾病發(fā)展、變化的一般性規(guī)律[19-20],在針對用戶的個體差異性上進(jìn)一步調(diào)整參數(shù),從而形成個性化的用戶醫(yī)藥特征。以藥品為例,某些藥品對時間比較敏感,因此部分藥品的需求也會隨著季節(jié)性變化。有些疾病會在某個時段普遍爆發(fā),若從已知的數(shù)據(jù)中分析藥品與疾病在時間和空間維度上的特征,不僅有利于商業(yè)營銷,而且還可以給用戶一些提醒和警示作用。圖2展示了2019年藥名含有“感冒”字樣的藥品銷售與時間的分布,圖3展示了隨機(jī)5位用戶的感冒購藥與時間分布(數(shù)據(jù)來源于大型連鎖藥店會員消費(fèi)數(shù)據(jù))。
圖2為2019年整年的“感冒”字樣的藥品銷售,明顯呈現(xiàn)出在春、秋、冬季節(jié)銷售較高,剛好符合現(xiàn)實(shí)情況。圖3為部分用戶購藥與時間的分布。如:u1、u2用戶是全年普發(fā)性感冒,秋冬季感冒換季感冒高發(fā)。u3、u4用戶有明顯相似的變化趨勢,在春夏交替時感冒次數(shù)較多,呈現(xiàn)春夏換季節(jié)性感冒。u5用戶也是全年普發(fā)性感冒,但冬夏較為明顯。因此需要將藥品按照社會屬性(流行度、季節(jié)性)、疾病屬性(主治功能、治愈性、復(fù)發(fā)性、傳播性、周期性)和營銷屬性(價值、利潤、品牌)等三個方面多個維度構(gòu)建藥品特征矩陣,用戶購買相應(yīng)的藥品就獲得相應(yīng)的標(biāo)簽。
為了緩解數(shù)據(jù)收集模式單一、對數(shù)據(jù)分析力度不夠和對知識的融合較差等問題,該文提出了基于多視角、多維度的用戶畫像構(gòu)建方法。然而,隨著特征維度的不斷豐富,不加區(qū)分的特征信息必然會帶來“維度災(zāi)難”。因此,該文采取構(gòu)建信息熵的數(shù)據(jù)關(guān)聯(lián)分析模型對數(shù)字?jǐn)?shù)據(jù)和文本數(shù)據(jù)進(jìn)行處理,從而構(gòu)建多視角、多維度的用戶畫像。
信息增益(IG)是一種基于熵的方法[21],在信息論中,樣本的信息增益越大,它包含的信息量就越大。該思想用于特征選擇則是衡量每個特征與類別間的信息增益,信息增益越大該特征所包含的分類信息就越大,即信息增益算法可以描述特征區(qū)分樣本的能力,故選擇信息增益算法作為下一步特征選擇的方法。用X表示特征,Y表示用戶是否為目標(biāo)會員,信息增益公式如下:
(7)
通過卡方檢驗與信息增益算法對特征進(jìn)行選擇與評價,在特征選擇實(shí)驗時,對設(shè)計的消費(fèi)會員特征庫中的特征進(jìn)行去冗余操作,將篩選過后的特征按照信息增益值大小進(jìn)行排序,提取信息增益較大的特征。
該文從多角度、多維度構(gòu)建用戶畫像,在實(shí)際的營銷策略中,需要針對不同價值的會員、不同價格的藥品進(jìn)行組合推薦,以達(dá)到提升利潤、鞏固會員、激活會員的目的。因此,通過基于用戶畫像計算藥店會員的相似度(UBCF)與目標(biāo)用戶和目標(biāo)藥品的相似度(IBCF)加權(quán)求和混合相似度(H-CF)計算排序進(jìn)行推薦。根據(jù)公式(8)計算用戶畫像與目標(biāo)用戶的相似度,根據(jù)公式(9)計算用戶畫像對目標(biāo)藥品的評分(或預(yù)測評分),篩選出評分較高的用戶。
sim(u,v)=×sim(u,v)+(1-)×PR(v)
(8)
(9)
其中,sim(u,v)表示用戶u與用戶v的用戶畫像相似度,表示標(biāo)簽相似度權(quán)重,p(u,i) 表示已知用戶u對商品i的評分矩陣,p′表示藥品關(guān)聯(lián)度矩陣,P(u)表示最終對所有藥品的評分。i∈(ui)表示用戶u對商品i有交互關(guān)系,否則通過用戶已有評分的藥品的評分矩陣與藥品關(guān)聯(lián)度矩陣p′計算對未知藥品的預(yù)測評分,最終輸出相似度高和評分高的用戶。推薦算法流程如下:
基于用戶畫像的推薦算法流程:
輸入:
用戶畫像
評分矩陣
藥品銷售數(shù)據(jù)
目標(biāo)用戶
目標(biāo)商品
輸出:
會員top排序
過程:
1.根據(jù)公式(8)計算與目標(biāo)的相似度
2.根據(jù)藥品銷售數(shù)據(jù),計算關(guān)聯(lián)度矩陣p′
3.根據(jù)公式(9)計算與商品的評分
4.輸出目標(biāo)用戶top排序
實(shí)驗采用的數(shù)據(jù)集為某連鎖藥店提供的線下2019年全年連鎖藥店真實(shí)消費(fèi)數(shù)據(jù)構(gòu)建的數(shù)據(jù)集。數(shù)據(jù)集是該連鎖藥店多個門店中最大門店的主營藥品的銷售數(shù)據(jù)、藥品信息數(shù)據(jù)、會員健康檔案信息和店鋪營銷活動數(shù)據(jù);藥品涵蓋了兒童類、感冒類、計生類、慢性病類、保健類、中醫(yī)養(yǎng)生類等藥品。藥品信息包括藥品名、劑量單位、分類信息、主治功能描述信息等。會員健康檔案信息包括會員ID,年齡,性別,積分,注冊時間,近30天、60天、90天、180天等基礎(chǔ)消費(fèi)信息。連鎖藥店近一年的會員所購買的藥品的消費(fèi)數(shù)據(jù)(2 729 941條),所參加活動的推送數(shù)據(jù)以及會員的基本個人信息(178 637條),從中分離出常用的64大類共計9 080種藥品。
實(shí)驗運(yùn)行環(huán)境:Windows 10系統(tǒng),32G內(nèi)存,3.5 GHz 8核心處理器,實(shí)驗軟件為Python 3.8。
為了模擬用戶畫像在實(shí)際生產(chǎn)環(huán)境中不同規(guī)模藥店的推薦效果,調(diào)整樣本比例30%、50%、70%來構(gòu)建用戶畫像,通過對比精確率、召回率、F1值和推薦耗時來比較推薦效果。
(1)精確率Precision的定義如式(10)所示:
(10)
(2)召回率Recall的定義如式(11)所示:
(11)
(3)調(diào)和平均值F1的定義如式(12)所示:
(12)
其中,TP表示目標(biāo)用戶預(yù)測正確,F(xiàn)P表示目標(biāo)用戶預(yù)測錯誤。
(4)推薦模型在適應(yīng)推薦需求的情況下,推薦的效率也是一個重要的衡量指標(biāo)。因此,提出構(gòu)建耗時的性能指標(biāo)。
該文旨在解決現(xiàn)階段藥店會員畫像存在維度單一、精準(zhǔn)度較低的問題,提出了基于多視角、多維度的用戶畫像構(gòu)建方法。將用戶畫像的特征應(yīng)用于推薦模型中,驗證提出的用戶畫像構(gòu)建方法的有效性,并通過構(gòu)建對比實(shí)驗來評估用戶畫像的精確性。方法一為基于傳統(tǒng)消費(fèi)視角構(gòu)建的特征進(jìn)行推薦;方法二為基于醫(yī)藥視角構(gòu)建的特征進(jìn)行推薦。分別對推薦結(jié)果的召回率、綜合評價指標(biāo)F1值和精確率進(jìn)行計算,得到的算法結(jié)果如表2所示。
表2 對比實(shí)驗效果
耗時分析采取產(chǎn)生固定個數(shù)的推薦結(jié)果,對比推薦的計算耗時時間。為了消除實(shí)驗誤差,采取多次重復(fù)實(shí)驗,計算平均時間作為推薦的效率,在實(shí)驗環(huán)境中的耗時結(jié)果如表3所示。
表3 推薦耗時結(jié)果
通過三種方法構(gòu)建的特征在不同的推薦算法中產(chǎn)生的推薦進(jìn)行對比,實(shí)驗證明該文提出的基于多視角、多維度的用戶畫像構(gòu)建方法,無論在小樣本的數(shù)據(jù)集上還是大數(shù)據(jù)集上的推薦效果都有一定程度的提升。特別是在大數(shù)據(jù)集上,通過基于多視角、多維度構(gòu)建的特征,在協(xié)同過濾算法進(jìn)行推薦比直接采用傳統(tǒng)視角特征的方法構(gòu)建特征精確率提升約15.41 %,在召回率、F1值上也有相應(yīng)提高。
實(shí)驗證明,提出的改進(jìn)的構(gòu)建用戶畫像方法,在刻畫用戶時更據(jù)有說服力,用戶畫像的精準(zhǔn)度更高。此外,基于用戶畫像的推薦在保證推薦精確度的前提下推薦耗時也優(yōu)于其他的推薦方式,證明了該方法的有效性。
該研究主要是藥店會員用戶畫像的構(gòu)建,目的是解決藥店會員用戶畫像的維度單一和精度較低的問題。通過構(gòu)建多視角、多維度的特征挖掘方法,解決用戶畫像維度單一的問題,通過特征進(jìn)一步挖掘解決用戶畫像精度較低的問題,通過離線計算用戶畫像特征方法,降低了在線推薦用戶時的計算時間,提高了推薦的效率。