王 斐,吳清烈
(東南大學(xué) 經(jīng)濟(jì)管理學(xué)院,江蘇 南京 211189)
近年來,隨著經(jīng)濟(jì)的飛速發(fā)展,人們的生活水平和消費能力不斷提升,消費者對于大規(guī)模生產(chǎn)的無差異化商品興趣逐漸降低,紛紛追求可以反映自身興趣偏好的個性化定制產(chǎn)品。然而,完全定制會耗費大量的時間、人力、物力等,成本高昂。如何有效解決完全定制的昂貴與消費者追求個性化差異化產(chǎn)品的矛盾,成為眾多企業(yè)特別是制造企業(yè)的難題。在此情境下,大規(guī)模定制應(yīng)運而生。
大規(guī)模定制的基本思路是通過提供給用戶不斷增長的產(chǎn)品種類以及個性化產(chǎn)品來更好地實現(xiàn)消費者需求,滿足其個性化特征,與此同時還能夠保留原有大規(guī)模生產(chǎn)的效率和成本優(yōu)勢[1-2]。近年來,無論是企業(yè)界還是學(xué)術(shù)界,對大規(guī)模定制的研究不斷增多,但多側(cè)重于大規(guī)模定制的定義、特征、定制模式、客戶需求的獲取以及供應(yīng)鏈管理和營銷方面[3-5],對于在大規(guī)模定制中,如何幫助用戶從大量數(shù)據(jù)中快速高效地尋找符合自身偏好的產(chǎn)品定制方案相關(guān)推薦算法研究并不多。目前人們已進(jìn)入大數(shù)據(jù)時代,大數(shù)據(jù)時代的重要特征之一便是數(shù)據(jù)量巨大,信息超載已成為不得不面對的客觀存在現(xiàn)象,對于想要定制滿足自身興趣偏好產(chǎn)品的客戶來說,面對大量的產(chǎn)品配置信息,如何快速形成自己的個性化定制方案已是當(dāng)務(wù)之急,而推薦系統(tǒng)的出現(xiàn)便高效地解決了這個難題。
目前國內(nèi)已有一些面向大規(guī)模定制的個性化推薦研究成果。李杰等[6]在全面分析大規(guī)模定制個性化推薦具體特征基礎(chǔ)上提出基于關(guān)聯(lián)規(guī)則挖掘的用戶個性化推薦模型,并鑒于在關(guān)聯(lián)規(guī)則的研究和應(yīng)用中存在知識冗余與規(guī)則過多的問題,在文中創(chuàng)新性地提出最強(qiáng)關(guān)聯(lián)規(guī)則的概念并應(yīng)用于大規(guī)模定制的個性化推薦。但關(guān)聯(lián)規(guī)則需要說明用戶的個人特征與產(chǎn)品屬性值之間的關(guān)系,因此需要利用數(shù)據(jù)挖掘技術(shù)挖掘與分析用戶特征,但用戶特征提取存在一定的難度,并且基于關(guān)聯(lián)規(guī)則的推薦無法根據(jù)用戶對屬性值的選擇而動態(tài)調(diào)整對于下一模塊屬性值的推薦,動態(tài)響應(yīng)性不強(qiáng)。喬迅[7]以大規(guī)模定制的個性化推薦特征為依據(jù),提出適用于大規(guī)模定制的動態(tài)與靜態(tài)相結(jié)合的個性化推薦策略,以案例推理思想為基礎(chǔ),提出基于案例推理的面向大規(guī)模定制的推薦算法。張強(qiáng)等[8]在產(chǎn)品定制環(huán)節(jié)中,運用協(xié)同過濾推薦算法改進(jìn)傳統(tǒng)智能推薦系統(tǒng),根據(jù)用戶以往的產(chǎn)品定制記錄,預(yù)測滿足用戶偏好的產(chǎn)品模塊值并為其推薦潛在興趣產(chǎn)品。劉暢等[9]結(jié)合大規(guī)模定制的獨有特征,對傳統(tǒng)商品推薦算法進(jìn)行適當(dāng)改進(jìn)后,提出新的基于協(xié)同過濾的大規(guī)模定制推薦算法,將定制方案作為物品進(jìn)行推薦并且提出根據(jù)用戶需求動態(tài)調(diào)整定制方案推薦。馬婧等[10]在以往研究的大規(guī)模定制推薦策略基礎(chǔ)上,創(chuàng)造性地提出分步式協(xié)同過濾推薦策略,在產(chǎn)品定制過程中,分屬性值逐步推薦,輔助用戶進(jìn)行決策。
在上述面向大規(guī)模定制的個性化推薦研究中,有的是將協(xié)同過濾算法引入大規(guī)模定制中,但并沒有給出具體的實踐方法;有的沒有考慮大規(guī)模定制的具體特點與以往的整體商品推薦的不同,特別是沒有考慮用戶需求的變化,導(dǎo)致定制方案需動態(tài)調(diào)整的問題;還有的沒有考慮企業(yè)在大規(guī)模定制中所起到的作用。此外,上述研究基本都是基于傳統(tǒng)背景,沒有考慮大數(shù)據(jù)時代背景。基于此,本文研究在大數(shù)據(jù)環(huán)境下如何基于用戶畫像改進(jìn)定制方案推薦算法,提高定制方案推薦的精準(zhǔn)性。
目前在各個領(lǐng)域推薦系統(tǒng)中應(yīng)用最為廣泛的是協(xié)同過濾推薦算法,特別是在工業(yè)領(lǐng)域,協(xié)同過濾已成為推薦系統(tǒng)的最流行算法之一[11]。本文在以往學(xué)者研究基礎(chǔ)上,結(jié)合大規(guī)模定制行業(yè)自身所具有的特征,選取基于物品相似度的協(xié)同過濾算法作為定制方案推薦的基礎(chǔ)算法,并在此基礎(chǔ)上對其進(jìn)行研究改進(jìn)。針對傳統(tǒng)Item-based協(xié)同過濾推薦算法應(yīng)用于定制方案推薦中所存在的顯式評分?jǐn)?shù)據(jù)難以獲取與易忽視用戶自身興趣偏好特征等問題,提出以下兩個方面的改進(jìn)策略。
1) 改變傳統(tǒng)的協(xié)同過濾推薦算法采用顯式評分?jǐn)?shù)據(jù)的規(guī)則,采用隱式反饋數(shù)據(jù)度量用戶興趣度。算法模型中輸入的數(shù)據(jù)類型主要分為顯式反饋數(shù)據(jù)和隱式反饋數(shù)據(jù)。顯式反饋數(shù)據(jù)主要包括可以直接反映用戶興趣傾向的數(shù)據(jù),如評分?jǐn)?shù)據(jù)、評級數(shù)據(jù)等。而隱式反饋數(shù)據(jù)主要包括不能直接表現(xiàn)用戶傾向的歷史數(shù)據(jù),比如瀏覽數(shù)據(jù)、點擊數(shù)據(jù)、收藏數(shù)據(jù)等。面向大規(guī)模定制的推薦主要是輔助用戶做出產(chǎn)品定制決策,且最終推薦結(jié)果是由一系列模塊及其屬性值所構(gòu)成的產(chǎn)品定制方案,顯式評分?jǐn)?shù)據(jù)不容易獲取。因此,需要采用隱式反饋數(shù)據(jù)表示用戶興趣度。
2) 在協(xié)同過濾推薦算法基礎(chǔ)上融合用戶畫像技術(shù),以改進(jìn)基礎(chǔ)算法不能充分考慮用戶自身特性而導(dǎo)致推薦精準(zhǔn)性不足的問題。進(jìn)入大數(shù)據(jù)時代,信息量、數(shù)據(jù)量呈井噴式增長。一方面,海量的數(shù)據(jù)確實給用戶帶來選擇的難題;另一方面,企業(yè)可以借助海量的數(shù)據(jù)為用戶建模,擁有的數(shù)據(jù)量越多,用戶畫像就越豐滿,這為企業(yè)充分了解用戶需求,進(jìn)行符合用戶需求的生產(chǎn)經(jīng)營活動提供幫助。在大規(guī)模定制行業(yè),對用戶的定制方案推薦一般都是以協(xié)同過濾推薦算法作為基礎(chǔ)進(jìn)行的,然而,協(xié)同過濾算法自身較多關(guān)注相似度,是通過類似于社交的方式進(jìn)行推薦,忽視用戶自身的興趣偏好,用戶畫像方法結(jié)合協(xié)同過濾推薦算法,將會使推薦結(jié)果更為精準(zhǔn),更加符合用戶的個性化特征。
在大規(guī)模定制中,用戶畫像數(shù)據(jù)主要來源于兩個方面:用戶基本屬性數(shù)據(jù)與用戶歷史行為數(shù)據(jù)。其中,用戶基本屬性數(shù)據(jù)可以從用戶注冊信息中獲取,用戶歷史行為數(shù)據(jù)可以從定制平臺日志系統(tǒng)中得到。大規(guī)模定制用戶畫像數(shù)據(jù)構(gòu)成如圖1所示。
圖1 大規(guī)模定制用戶畫像數(shù)據(jù)構(gòu)成Figure 1 Composition chart of user profile data in mass customization
根據(jù)大規(guī)模定制的獨特特征,本文將數(shù)據(jù)庫中的大量定制記錄進(jìn)行提取,作為用戶畫像建模的關(guān)鍵數(shù)據(jù)。由于大規(guī)模定制中的推薦結(jié)果為產(chǎn)品定制方案,而定制方案由模塊及其屬性值組合而成,因此可以根據(jù)大量定制記錄統(tǒng)計分析建立用戶特征向量,以此來表示用戶興趣偏好,建立用戶畫像模型。本文結(jié)合前人的研究成果,以(屬性值,權(quán)重)的形式來表示模塊相應(yīng)屬性值及其所占權(quán)重,即U={(u1,W1), (u2,W2), ···, (un,Wn)}來表示用戶特征向量[12]。其中,各屬性值權(quán)重根據(jù)用戶定制記錄得出。此方法可以充分展現(xiàn)出用戶在該大規(guī)模定制平臺所具備的特征及偏好,繼而可以幫助企業(yè)實施精準(zhǔn)的個性化推薦。
本文所提出的融合用戶畫像的定制方案推薦算法流程如圖2所示。
圖2 定制方案推薦算法流程Figure 2 Flow chart of recommendation algorithm for customization
基于用戶畫像的定制方案推薦算法步驟如下。
1) 收集用戶定制記錄。協(xié)同過濾推薦算法是根據(jù)以往的用戶行為信息產(chǎn)生的推薦結(jié)果。在大規(guī)模定制平臺上,用戶每成功定制一次產(chǎn)品,就會留下相應(yīng)的產(chǎn)品定制記錄信息。本文用Mi表示某個產(chǎn)品的第i個模塊,用Mij表 示該產(chǎn)品第i個 模塊的第j個屬性值,那么一種產(chǎn)品定制方案可以表示為Pn=(m1j,m2j,m3j, ···,mi j)。在基于用戶畫像的定制方案推薦算法中,將完整的產(chǎn)品定制方案作為協(xié)同過濾推薦算法中的物品進(jìn)行推薦。
2) 計算物品相似度。由于大規(guī)模定制的獨特性,本文選用基于物品的協(xié)同過濾算法作為基礎(chǔ)推薦算法。Item-based協(xié)同過濾推薦算法為用戶推薦與其之前定制物品相似的物品。這種推薦算法并非利用物品自身的內(nèi)容特征計算物品之間的相似度,而是通過分析用戶的歷史行為數(shù)據(jù)記錄從而計算物品之間的相似度。ItemCF算法認(rèn)為,物品A和B非常相似的緣由是喜歡物品A的用戶大部分也都喜歡物品B?;诖耍梢杂檬?(1) 計算物品之間的相似度[13]。
其中, |N(i)|、 |N(j)|分 別為定制物品i、 物品j的用戶個數(shù);|N(i)∩N(j)|為 既定制物品i又 定制物品j的用戶個數(shù)。由于協(xié)同過濾推薦算法本身所固有的數(shù)據(jù)稀疏性,為提高計算效率,減少因|N(i)∩N(j)|=0所產(chǎn)生的不必要的計算量,建立物品?用戶倒排表,然后將其導(dǎo)入編寫的物品相似度計算python代碼中,得到物品(產(chǎn)品定制方案)相似度矩陣。
3) 預(yù)測用戶對物品的興趣偏好。在計算出物品相似度的基礎(chǔ)上,基于物品的協(xié)同過濾推薦算法一般采用式 (2) 預(yù)測用戶u對 物品i的興趣偏好。
其中,N(u)為 用戶定制過的物品集合;W(i,k)為與物品i最 相似的k個物品集合;Sij為物品i與物品j之間的相似度數(shù)值,可以根據(jù)物品相似度矩陣求出;Ru j為用戶u對 物品j的興趣偏好。由于大規(guī)模定制行業(yè)不容易獲得用戶顯式反饋數(shù)據(jù),所以本文采用隱式反饋數(shù)據(jù),即如果用戶u對 物品j產(chǎn)生過行為,則令Ru j=1, 否則Ruj=0[13]。
4) 生成初步推薦結(jié)果。將根據(jù)式(2)計算得到的目標(biāo)用戶對物品的興趣偏好度進(jìn)行降序排列,得到Top-2N推薦結(jié)果列表。
5) 用戶畫像建模與物品畫像建模。構(gòu)建用戶在大規(guī)模定制平臺的畫像模型,收集用戶的注冊數(shù)據(jù)、社交數(shù)據(jù)以及以往的產(chǎn)品定制數(shù)據(jù),將目標(biāo)用戶以特征向量集合的形式表示,形成用戶畫像模型。將步驟(4)中生成的Top-2N個推薦物品依次以特征向量集合的形式表示出來,用于下一步驟的計算過程。
6) 計算用戶畫像與物品畫像相似度。提取集合Top-2N中的物品向量與目標(biāo)用戶畫像模型向量,采用式(3)計算兩者之間的相似度[14]。
其中,U={(u1,W1), (u2,W2), ···, (un,Wn)},表示目標(biāo)用戶畫像的特征向量;G={(g1,w1), (g2,w2), ···,(gn,wn)}, 表示物品提取的特征向量;W(i)、w(i)分別表示對應(yīng)屬性值及其所占權(quán)重的數(shù)值大小。
7) 產(chǎn)生最終推薦Top-N輔助產(chǎn)品定制。根據(jù)計算出的用戶畫像模型向量與物品畫像模型向量之間的相似度數(shù)值,對之前生成的初步推薦結(jié)果進(jìn)行二次篩選,生成最終的Top-N推薦結(jié)果,輔助用戶完成產(chǎn)品定制過程。
由于本文是對定制方案的推薦研究,為用戶推薦的方案是以往用戶定制過的成型方案,因此存在可定制性,模塊之間不存在互斥的情形。
本文以手機(jī)定制平臺為例,驗證基于用戶畫像的定制方案推薦算法改進(jìn)后的可行性與有效性。為簡化相應(yīng)過程,選取手機(jī)外殼顏色、處理器、屏幕尺寸、內(nèi)存以及后攝主攝像素5個方面作為待定制模塊。假設(shè)可供選擇的外殼顏色有黑色、白色、金色、藍(lán)色等40種;處理器有驍龍400、驍龍410等15種;屏幕尺寸有6.89英寸、6.67英寸等20種;內(nèi)存有2 GB、3 GB等6種;后攝主攝像素有800 W、1 200 W等8種。
為表述方便,本文用Mi表示第i個 模塊,用Mij表示第i個模塊的第j個屬性值。其中,i=1時,j=1, 2, ···, 40;i=2時,j=1, 2, ···, 15;i=3時,j=1,2, ···, 20;i=4時,j=1, 2, ···, 6;i=5時,j=1, 2, ···,8。假設(shè)有1 000名用戶定制該手機(jī),Ui(i=1, 2, ···,1 000)表 示第i名 用戶。產(chǎn)品定制方案為Pn=(m1j,m2j,m3j,m4j,m5j)。假定該定制平臺共提供50種定制方案。利用RAND函數(shù)隨機(jī)生成k(k=10 000)條用戶產(chǎn)品定制記錄,如表1所示。
表1 產(chǎn)品方案用戶定制記錄Table 1 User customized record of product scheme
選取U668作為本次定制方案推薦算法應(yīng)用舉例的目標(biāo)用戶,對其進(jìn)行定制方案推薦。
1) 計算物品相似度。在獲得用戶產(chǎn)品定制數(shù)據(jù)后,根據(jù)定制記錄計算各產(chǎn)品定制方案之間的相似度數(shù)值,并形成定制方案相似度矩陣。
2) 預(yù)測用戶對物品的興趣偏好,生成初步推薦結(jié)果。在得到定制方案相似度矩陣基礎(chǔ)上,利用式(2)度量用戶對待推薦產(chǎn)品定制方案的興趣偏好數(shù)值,產(chǎn)生初步的Top-2N推薦。假定k=3,即選取與U668以往定制過的相似度最高的3種產(chǎn)品方案進(jìn)行計算,過程如圖3所示。
圖3 定制方案用戶興趣度計算Figure 3 Calculation of user interest for customized solutions
根據(jù)圖3結(jié)果,對各用戶興趣度數(shù)值降序排列,得出目標(biāo)用戶U668對待推薦產(chǎn)品定制方案興趣度前2N(N=3)的結(jié)果如表2所示。
表2 U668定制方案初步推薦列表Table 2 Preliminary recommendation list of customization scheme for U668
3) 用戶畫像建模,生成用戶特征向量。
在大規(guī)模定制行業(yè),由于推薦對象為由模塊屬性值組合而成的產(chǎn)品定制方案,企業(yè)可以根據(jù)大量的產(chǎn)品定制記錄,統(tǒng)計分析出每個用戶對每個模塊屬性值的偏好權(quán)重(即用戶所選屬性值出現(xiàn)的頻率),建立用戶特征向量,特征向量的準(zhǔn)確性會隨著數(shù)據(jù)的積累而逐漸增加。在此基礎(chǔ)上,根據(jù)實際情況對用戶特征向量動態(tài)調(diào)整,確保其有效性與實時性。根據(jù)用戶U668以往的定制記錄,經(jīng)分析得到部分用戶偏好屬性值權(quán)重如表3所示。
表3 部分用戶偏好屬性值權(quán)重Table 3 Partial user preference attribute value weight
在獲得用戶偏好屬性值權(quán)重后,便可以建立類似于{(M11, 0.082), ···, (M41, 0.182), (M42, 0.091), ···, (M58,0.182)}格式的用戶特征向量,用于后續(xù)的相似度計算。
4) 計算用戶畫像與物品畫像相似度。根據(jù)已有的初步推薦列表,提取Top-2N物品特征向量,將用戶U668選擇的定制方案中的屬性按照向量結(jié)構(gòu)列出。根據(jù)式(3)計算用戶U668畫像與Top-2N物品畫像相似度,結(jié)果如表4所示。
表4 U668用戶畫像與物品畫像相似度結(jié)果Table 4 Similarity results of user portrait and object portrait for U668
5) 生成最終Top-N推薦結(jié)果輔助用戶定制。根據(jù)表4結(jié)果,對目標(biāo)用戶U668畫像與物品畫像之間的相似度數(shù)值進(jìn)行降序排列,生成最終的Top-N推薦結(jié)果,如表5所示。
表5 U668產(chǎn)品定制方案最終推薦結(jié)果Table 5 Final recommendation result of product customization scheme for U668
目標(biāo)用戶U668根據(jù)系統(tǒng)給出的推薦結(jié)果并結(jié)合自身喜好,選取一種滿足自我需求的產(chǎn)品定制方案如P28進(jìn)入企業(yè)的生產(chǎn)環(huán)節(jié)。同時,該用戶相應(yīng)的產(chǎn)品定制記錄也會保存在數(shù)據(jù)庫中,用以更新物品相似度數(shù)值及用戶畫像模型,以便為用戶產(chǎn)生更加精準(zhǔn)的推薦。
為了更好地服務(wù)大規(guī)模定制中的用戶群體,本文在分析用戶實際需求的基礎(chǔ)上,對面向大規(guī)模定制的傳統(tǒng)推薦算法進(jìn)行改進(jìn),提出基于用戶畫像的定制方案智能推薦新算法,并對算法的運行原理做比較詳細(xì)的說明。最后,通過手機(jī)定制案例,討論改進(jìn)算法應(yīng)用過程。最終推薦結(jié)果表明,在大數(shù)據(jù)環(huán)境下,融合用戶畫像方法的協(xié)同過濾推薦算法能夠利用用戶興趣偏好,使得定制推薦結(jié)果更加符合用戶需求,在很大程度上提升用戶的滿意度與定制效率,從而驗證算法的有效性與可行性。