劉潔
(重慶市煙草專賣局(公司)信息中心 重慶市 400023)
基于大數(shù)據(jù)的推薦系統(tǒng)是一種利用用戶地理位置、歷史購物習(xí)慣、社交圈子等信息對用戶進(jìn)行個性化推薦商品的系統(tǒng)。這種系統(tǒng)的核心在于如何利用算法分析用戶對于商品的潛在需求?,F(xiàn)階段,大數(shù)據(jù)推薦系統(tǒng)已經(jīng)在音樂、電影、閱讀、社交等領(lǐng)域擁有了較為廣泛的應(yīng)用。
所謂關(guān)聯(lián)規(guī)則推薦算法,主要是指以關(guān)聯(lián)規(guī)則為基礎(chǔ)的推薦算法,該算法的使用前提是用戶已購買某個商品,之后通過參考該用戶購買的商品類別和其他商品之間的相關(guān)性進(jìn)行推薦。在建立關(guān)聯(lián)規(guī)則時,采用的方式為概率統(tǒng)計,進(jìn)而對兩種或兩種以上商品之間的相關(guān)性做出精準(zhǔn)判斷。此類推薦算法能夠操作和實(shí)現(xiàn)較為簡單,且具有較好通用性,能夠很好滿足零售業(yè)潛在消費(fèi)者推薦等工作需求。但是,由于關(guān)聯(lián)規(guī)則推薦算法建立在消費(fèi)者已購買產(chǎn)品的記錄、內(nèi)容以及時間等要素上,所以,關(guān)聯(lián)規(guī)則的建立較為容易受到隱含因素影響,導(dǎo)致最終的相關(guān)性計算結(jié)果出現(xiàn)偏差,甚至與消費(fèi)者實(shí)際相關(guān)需求完全相反,因此,在使用該算法開展電商大數(shù)據(jù)推薦相關(guān)工作時,要使用實(shí)際結(jié)果對關(guān)聯(lián)規(guī)則有效性進(jìn)行校驗,從而保證最終結(jié)果的準(zhǔn)確性和有效性。從當(dāng)前現(xiàn)狀來看,使用關(guān)聯(lián)規(guī)則推薦算法時,主要借助兩個指標(biāo)對產(chǎn)品之間的關(guān)聯(lián)程度進(jìn)行評價,一是信任度,指標(biāo)公式為:confident(x,y)=Records containing(x,y)/Records containing x;二是支持度,指標(biāo)公式為:support(x,y)=Records containing(x,y)/Total number of records。
所謂協(xié)同過濾推薦算法,主要以最近鄰算法為基礎(chǔ),即利用與目標(biāo)群體有相似偏好的用戶集合進(jìn)行商品推薦,進(jìn)而得到目標(biāo)消費(fèi)者對商品的喜好程度,并使用協(xié)同機(jī)制對信息進(jìn)行過濾,實(shí)現(xiàn)針對性推薦?!皡f(xié)同”,主要是指的是與目標(biāo)群體喜好較為類似的群體,通過記錄兩位消費(fèi)者對同個商品的評價,尋找評價相同或類似用戶,那么這兩位消費(fèi)者就滿足相同喜好這一原則,之后以相似人群為基礎(chǔ)生產(chǎn)推薦信息。其中,協(xié)同過濾推薦以最近鄰算法為基礎(chǔ),該算法主要分為三種,即基于用戶、基于物品以及基于模型,相較于其他推薦算法,協(xié)同過濾推薦算法在較大數(shù)據(jù)量下仍能夠提供優(yōu)秀的結(jié)果,正因如此,該算法在電商大數(shù)據(jù)推薦相關(guān)中應(yīng)用較為廣泛。但是,該算法同樣具有相應(yīng)的缺點(diǎn),即若是數(shù)據(jù)較為稀疏,則算法應(yīng)用效果相對較低,外加其具有較大性能開銷,所以,協(xié)同過濾推薦算法更適用于密集數(shù)據(jù)的處理,例如Item-based 協(xié)同過濾或是User-based 協(xié)同過濾的實(shí)現(xiàn)。User-based 算法是以用戶特征為基礎(chǔ),主要用于線上社交投票平臺推薦問題的解決,相較于電影等傳統(tǒng)推薦項目,社交投票依托于社交連接進(jìn)行傳播,這意味著用戶參與投票活動概率較大,通過掌握真實(shí)的投票軌跡,能夠有效提高投票推薦最終整理結(jié)果的準(zhǔn)確性。該算法具有兩個突出優(yōu)點(diǎn),一是不需要開展嚴(yán)格的用戶模型和推薦對象模型構(gòu)建,對物品特征表達(dá)的要求較低,有效降低該系統(tǒng)構(gòu)建難度;二是能夠發(fā)現(xiàn)目前群體潛在喜好,最終得到的計算推薦結(jié)果具有較強(qiáng)新穎性。
所謂邏輯回歸推薦算法,主要是指一種分類模型,屬于機(jī)械學(xué)習(xí),相較于其他推薦算法,該算法更為簡單和高效,且具有較高穩(wěn)定性,結(jié)果也容易解釋,因此,該算法在回歸任務(wù)、分類中得到廣泛應(yīng)用。邏輯回歸推薦算法的核心思想建立在線性回歸上,為有效解決其量綱敏感問題,可以將線性回歸Logistic 函數(shù)相結(jié)合,函數(shù)為:g(z)=1/(1+ez)。套用該函數(shù)后,該算法的中心思想為:當(dāng)線性回歸結(jié)果輸出為連續(xù)值時,其范圍無法限定,為此,將該輸出結(jié)果映射為(0,1)上的概率值,從而判斷最終結(jié)果。而為了改善線性回歸的魯棒性,提高回歸模型在訓(xùn)練集上的表現(xiàn),可以引入Sigmoid 函數(shù),從而提高算法使用效果。通過利用二維空間直觀的理解邏輯回歸,能夠讓閾值映射為一條判定邊界,隨著特征復(fù)雜程度的提高,平面的判定邊界具有多種樣貌,但是仍能夠分隔開兩類樣本點(diǎn),從而實(shí)現(xiàn)分類問題的有效解決。但是,即便邏輯回歸推薦算法整體較為簡單,也支持在線學(xué)習(xí),但該算法需要大量人工設(shè)計特征,當(dāng)該算法面對的數(shù)據(jù)量較大時,其工作量隨之提高,其效率難以得到保證。
傳統(tǒng)的各類算法一般是通過采用關(guān)聯(lián)規(guī)則或過濾等條件作為個性化推薦的依據(jù),而邏輯回歸算法則不同。邏輯回歸算法在本質(zhì)上屬于一個線性結(jié)構(gòu),研究者在使用邏輯回歸算法的同時,應(yīng)當(dāng)利用用戶的各類特征對算法進(jìn)行訓(xùn)練,用戶的各類特征組合是邏輯回歸算法判斷潛在用戶和購物欲望的關(guān)鍵。
邏輯回歸算法在進(jìn)行判斷的過程當(dāng)中,能夠減少預(yù)測值范圍,電商大數(shù)據(jù)推薦在本質(zhì)上來說屬于二分類問題,在這種問題當(dāng)中,用戶只存在是否購買的兩種狀態(tài)。在選定數(shù)據(jù)樣本之后,算法系統(tǒng)會自動采集數(shù)據(jù)樣本當(dāng)中用戶的特征信息并進(jìn)行分析,通過數(shù)據(jù)解析出用戶的不同行為特征和歷史購物意向,并完成用戶特征的存儲工作,判斷用戶是否會進(jìn)行購買[1]。
邏輯回歸算法具有判斷簡單,使用效果好,支持機(jī)器學(xué)習(xí),可以基于大數(shù)據(jù)和用戶特征進(jìn)行自我訓(xùn)練等優(yōu)點(diǎn),但邏輯回歸需要的數(shù)據(jù)基數(shù)過大,人工設(shè)計數(shù)據(jù)篩選條件的工作量也過大,所以在實(shí)際操作過程當(dāng)中也可以使用其他算法予以配合。
在電子商務(wù)領(lǐng)域,每天都有海量的用戶進(jìn)行下單或復(fù)購操作,通過邏輯回歸算法,可以根據(jù)用戶過去半年在電商平臺上的行為操作,對該用戶能否在一個月的時間內(nèi)實(shí)現(xiàn)復(fù)購進(jìn)行預(yù)測。由于要獲取較高的精確率和召回率,因此不能為每位用戶都生成個性化的推薦購買列表,而應(yīng)當(dāng)生成該批用戶最有可能的購買列表。這與傳統(tǒng)的電商推薦算法截然不同。
由于要根據(jù)用戶過去半年的行為對用戶是否能夠復(fù)購商品做出預(yù)測,研究者應(yīng)當(dāng)根據(jù)用戶半年以來對電商平臺的操作歷史、瀏覽歷史、購買歷史等信息通過算法訓(xùn)練來得到推薦目標(biāo),再將推薦目標(biāo)錄入到具體的算法當(dāng)中,這樣才能得到最終的精確率與召回率指標(biāo)。首先,研究人員應(yīng)當(dāng)對收集到的用戶歷史數(shù)據(jù)進(jìn)行分析,并將其均勻地分為兩份,一份為訓(xùn)練數(shù)據(jù),這部分?jǐn)?shù)據(jù)能夠錄入算法進(jìn)行機(jī)器學(xué)習(xí),使算法得到推薦模型。而另一部分用來評價算法推薦成果,避免算法出現(xiàn)誤差。通過研究人員不斷改進(jìn)用戶特征的準(zhǔn)確度與篩選規(guī)則,算法能夠逐漸改善推薦的效率與準(zhǔn)確性,逐漸獲得進(jìn)步。
由于在機(jī)器學(xué)習(xí)領(lǐng)域,算法能達(dá)到的效果一般取決于數(shù)據(jù)與特征的準(zhǔn)確性與數(shù)量,因此有研究人員曾經(jīng)說過:“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只能逐漸逼近這個上限[2]?!庇纱丝梢钥闯鲇脩魯?shù)據(jù)和用戶特征在機(jī)器學(xué)習(xí)當(dāng)中的重要意義。
在進(jìn)行機(jī)器學(xué)習(xí)的過程當(dāng)中,算法應(yīng)當(dāng)收集用戶在平臺上的各類歷史信息,其中包括用戶歷史操作行為、點(diǎn)擊、收藏、關(guān)注等,還包括商品信息,如商品名稱、發(fā)布時間、商品價格、商品評價和店鋪評價等信息。針對算法數(shù)據(jù)的信息,系統(tǒng)應(yīng)主要存儲三個類別的信息。
2.3.1 用戶屬性信息集合
用戶屬性信息集合當(dāng)中儲存了包括所有用戶屬性的相關(guān)數(shù)據(jù)信息,其中主要包括:用戶信息屬性(比如用戶年齡、學(xué)歷、性別、主要居住地等等)、用戶使用數(shù)據(jù)(包括用戶的商品收藏、用戶的付費(fèi)購買能力、用戶的其他興趣商品、用戶的關(guān)注店鋪等)、用戶的標(biāo)志屬性(包括用戶名、昵稱等)、最后還包括用戶本身的手機(jī)型號、電腦型號、運(yùn)營商、操作系統(tǒng)等信息。其中,用戶的使用數(shù)據(jù)信息依賴于電商網(wǎng)站構(gòu)建的用戶畫像系統(tǒng),該系統(tǒng)可以通過用戶平時的使用操作習(xí)慣,例如用戶對于電商購物軟件的使用時間等信息對用戶進(jìn)行繪制畫像。
2.3.2 商品屬性信息集合
商品屬性信息集合當(dāng)中儲存了商品屬性的相關(guān)數(shù)據(jù),其中主要包括:商品的標(biāo)志屬性(如廠商、商品名稱等)、商品的固定屬性(商品價格、上架時間等)還包括商品的可變屬性(如被購買的總次數(shù)、評論區(qū)顧客的留言與評價、商品的輪換時間等)。
2.3.3 用戶-商品交叉屬性信息集合
用戶-商品交叉屬性信息集合當(dāng)中存儲了用戶與商品屬性具有相關(guān)特征的數(shù)據(jù)信息,最主要的用戶-商品交叉特征信息包括:用戶性別與商品種類的交叉、用戶年齡信息與商品種類的交叉、用戶的愛好與商品種類的交叉、用戶已經(jīng)購買或收藏的商品種類與系統(tǒng)所推薦的商品種類的交叉等等。例如:用戶A 已將商品一與商品二添加至收藏當(dāng)中,之后又將商品三添加至收藏,系統(tǒng)就可以記錄商品一、商品二、商品三之間具有交叉屬性[3]。如果算法系統(tǒng)將用戶數(shù)據(jù)與商品數(shù)據(jù)進(jìn)行相對獨(dú)立的分析與訓(xùn)練,則只會影響商品在每一個用戶推薦列表當(dāng)中的存留,不會影響不同用戶的不同個性化推薦。利用用戶-商品交叉屬性集合實(shí)現(xiàn)對忠實(shí)用戶的普遍挑選,對算法推薦結(jié)果進(jìn)行大幅度優(yōu)化,使每個用戶的商品推薦結(jié)果實(shí)現(xiàn)差異化,最終使不同的人成為不同商品的忠實(shí)用戶。
通過邏輯回歸算法進(jìn)行備選商品和潛在客戶的挑選需要首先實(shí)現(xiàn)基于大數(shù)據(jù)的模型訓(xùn)練。訓(xùn)練數(shù)據(jù)由用戶特征、該類用戶特征的權(quán)重、流水號等數(shù)據(jù)構(gòu)成,通過數(shù)據(jù)訓(xùn)練生成備選商品需要經(jīng)過三個步驟。
2.4.1 模擬曝光步驟
曝光的含義是用戶在瀏覽電商網(wǎng)站時看到了哪些商品信息,也就是系統(tǒng)將哪些商品推薦在潛在客戶面前。系統(tǒng)將推薦的商品列表曝光在用戶面前,對于這類推薦當(dāng)中的商品,假如用戶進(jìn)行了收藏操作或點(diǎn)擊關(guān)注店鋪,則這種商品被稱為正向樣本,與此同時,如果用戶繼續(xù)瀏覽并沒有進(jìn)行收藏或關(guān)注的操作,則這類商品被稱為反向樣本,由于推薦系統(tǒng)當(dāng)中往往只能識別正向樣本,無法識別反向樣本,降低了推薦系統(tǒng)的靈敏度和可靠性,于是研究者應(yīng)當(dāng)采用規(guī)則完善等方式進(jìn)行解決,在算法給出的商品推薦列表當(dāng)中,假如用戶收藏了某個商品或關(guān)注了某個店鋪,則同樣對該商品之前的5個商品進(jìn)行曝光,通過這種方式,算法系統(tǒng)能夠有效識別和儲存反向樣本,對增加算法系統(tǒng)的可靠性和準(zhǔn)確度具有積極影響。
2.4.2 統(tǒng)計點(diǎn)擊通過率
點(diǎn)擊通過率即用戶對商品的實(shí)際點(diǎn)擊次數(shù)除以商品的總瀏覽量,在算法推薦系統(tǒng)當(dāng)中采用的點(diǎn)擊通過率統(tǒng)計法有很多種,使用較多的有以下幾種,如:性別統(tǒng)計通過率,不同性別的電商用戶對商品的需求有著很大差異,如女性用戶收藏美妝產(chǎn)品、護(hù)膚產(chǎn)品的比例遠(yuǎn)高于男性用戶,而男性用戶收藏電子產(chǎn)品、五金工具的比例也遠(yuǎn)高于女性用戶,這類有著明顯差別的特征可以有效用于用戶樣本的分辨,從而得到準(zhǔn)確度更高,敏感度更好的算法模型。不同種類的商品特征差別很大,研究人員需要注意是否因為曝光不足或其他原因?qū)е曼c(diǎn)擊通過率過高或過低產(chǎn)生的推薦系統(tǒng)準(zhǔn)確率降低問題,為了解決這一問題,研究人員可以用一級分類的點(diǎn)擊通過率替代二級分類的點(diǎn)擊通過率,從而增加推薦系統(tǒng)的推薦準(zhǔn)確性。此外,通過交叉特征統(tǒng)計點(diǎn)擊通過率也是推薦算法經(jīng)常使用的一種方式,研究人員可以將任何不同的用戶特征或商品特征進(jìn)行交叉,例如用戶年齡、性別、商品類型,可以顯示出不同年齡性別的用戶對不同商品的需求差異[4]。
綜上所述,邏輯回歸算法在電商大數(shù)據(jù)推薦系統(tǒng)當(dāng)中的應(yīng)用越來越廣泛,不僅能夠根據(jù)用戶的行為進(jìn)行分析,有效預(yù)測消費(fèi)者的購物需求,還能向潛在客戶實(shí)現(xiàn)精準(zhǔn)推送??茖W(xué)利用邏輯回歸算法進(jìn)行商品推薦有效提升了用戶粘性,打造個性化的優(yōu)質(zhì)推薦服務(wù)。