李雪茹 高洋
基金項目:2016年西安外國語大學研究生科研基金項目(syjs201656)
中圖分類號:F724 文獻標識碼:A
內容摘要:消費偏好一直是營銷管理研究與實踐的熱點問題。“互聯(lián)網+”的實施與自媒體平臺的普及,使得消費者需求與偏好在傳統(tǒng)研究模式下變得難以預測。本文首先對現(xiàn)有研究進行梳理與總結,重點從顧客識別模型構建與消費偏好研究兩個方面進行;其次,利用數(shù)據挖掘技術獲取顧客的在線社交數(shù)據,從而構建顧客識別模型;再次,在顧客識別模型的基礎上,提出運用文本特征提取方法、抗噪聲聚類算法及語義分析法挖掘數(shù)據并對偏好進行識別與分析的思路;最后,對本文進行總結,并提出對未來進一步研究的展望。
關鍵詞:在線社交數(shù)據 數(shù)據挖掘 消費偏好 顧客識別模型
引言
大數(shù)據時代的今天,通過數(shù)據挖掘技術獲取線上用戶的行為數(shù)據并進行分類整合,同時結合用戶信息,便可得到更具體的顧客形象,這樣的全樣本不僅可以客觀反映其消費行為特點,在一定程度上還可關聯(lián)推測其消費行為傾向。
基于此,本文利用數(shù)據挖掘技術對顧客自媒體平臺中的社交數(shù)據進行挖掘、整合并構建顧客識別模型,進而對消費偏好進行挖掘與識別,并提出利用文本特征提取方法、抗噪聲聚類算法及語義分析法等對消費偏好進行歸類總結并探究其變化規(guī)律的研究思路與建議。
顧客識別模型構建相關研究
構建顧客識別模型的關鍵就是數(shù)據選擇,最客觀的數(shù)據才能構建出識別能力最強的模型。目前構建顧客識別模型的研究中數(shù)據來源分為兩類:問卷數(shù)據與數(shù)據庫數(shù)據。通過問卷獲取數(shù)據的研究是一種較為傳統(tǒng)的方式且研究年限較早,在顧客價值識別研究方面較多,如:利用調查問卷和上市公司數(shù)據,構建基于BP神經網絡的顧客價值識別模型,進而分析顧客價值同企業(yè)利潤之間的關系(金代志、王春霞、石春生,2009)。通過問卷調查的方式對目標市場顧客需求進行識別并構建模型(劉書慶、蘇秦、王志強,2011)。近年來利用數(shù)據庫數(shù)據進行研究的文獻逐漸增多,多是使用數(shù)據挖掘技術從以往生產、經營、銷售等環(huán)節(jié)構成的數(shù)據庫中挖掘顧客需求數(shù)據,并建立解決實際問題的識別模型。如:采用決策樹和Logistic算法對移動飛信業(yè)務顧客數(shù)據庫進行挖掘并建立客戶預測模型(孔勤,2009)。通過數(shù)據挖掘技術挖掘超市顧客數(shù)據庫,建立忠誠度-盈利性顧客細分模型,識別不同類型的顧客群,預測顧客價值變化規(guī)律(肖生苓、牟娌娜等,2011)。以三槍集團營銷數(shù)據為對象,利用“用戶畫像”數(shù)據庫挖掘建立精準營銷細分模型,重構消費者需求、精準識別并定位消費者群體(劉海、盧慧等,2015)。
此類數(shù)據改進了問卷數(shù)據較為主觀以及樣本量不足的缺點,但此類數(shù)據仍有局限,顧客產生消費行為的驅動因素多樣,主觀因素與客觀因素并存,確定顧客屬性時選用由顧客主觀能動因素導致的消費行為數(shù)據為最佳,從而準確分析顧客屬性,因此僅通過既定的消費行為反推顧客屬性是不客觀的,無法全面掌握顧客真實屬性。因此,本文采用數(shù)據挖掘技術,挖掘個體線上自媒體平臺中的社交數(shù)據,從個體無意識的社交語言中挖掘其個人屬性及偏好。
消費偏好識別與分析相關研究
隨著各種信息采集終端的出現(xiàn),線上和線下交易所產生的海量數(shù)據被保存在企業(yè)數(shù)據庫中,作為對消費者偏好進行分析的源數(shù)據。由于數(shù)據量巨大,因此數(shù)據挖掘成為基于數(shù)據庫數(shù)據提取對消費者偏好進行識別與分析的主要方法(劉軍,2012)。從數(shù)據挖掘的角度,方法分為兩類:有監(jiān)督的數(shù)據挖掘方法和無監(jiān)督的數(shù)據挖掘方法。
(一)有監(jiān)督的數(shù)據挖掘方法
常見的有監(jiān)督的數(shù)據挖掘方法有Logit分析方法與決策樹分析方法。標準Logit模型和混合Logit模型的區(qū)別在于前者的假設前提忽略了消費者之間的差異,后者利用系數(shù)隨機誤差表示個體間偏好差異,利用消費者的決策行為進行建模,用系數(shù)體現(xiàn)消費者偏好(楊勇攀等,2009)。決策樹分析法對離散型數(shù)據有更好的處理效果(Micheline,2010),吳留平(2011)基于ID3的決策樹分類算法構建了服裝款式偏好模型,將客戶款式偏好問題轉化為決策樹的歸納問題。
(二)無監(jiān)督的數(shù)據挖掘方法
常見的無監(jiān)督的數(shù)據挖掘方法有關聯(lián)規(guī)則與聚類。前者是最基本的分析方法,傳統(tǒng)的關聯(lián)規(guī)則的前提是消費者偏好固定不變,研究主體是商品,因此以消費者為主體的雙向關聯(lián)規(guī)則方法被提出(曾令明等,2005;Du,2010)。該方法雖然提高了準確度,但數(shù)據未考慮購買行為以外的數(shù)據,此類數(shù)據只能通過GPS、紅外感應器等構成的電商物聯(lián)網智能,對購前、購買、購后三個過程的所有信息進行獲?。▌⒚渡彽?,2013),因此雙向關聯(lián)規(guī)則更適合分析基于電商數(shù)據的消費者偏好情況。聚類分析最能體現(xiàn)數(shù)據挖掘中無監(jiān)督方法的特點,可以從消費者數(shù)據庫中區(qū)分出不同消費群體,并概括出每一類消費者的消費模式或習慣偏好(劉遠超,2005),但也存在很多不足,特別是對現(xiàn)實數(shù)據的分析中,難以確定輸入的參數(shù)值(王縱虎,2012;祁小麗,2009;劉鑫朝,2006),參數(shù)值的細微變化導致消費者偏好的聚類結果變動幅度過大,只依靠全局參數(shù)的聚類算法無法很好地刻畫真實的消費者偏好結構。
綜上所述,在大數(shù)據背景下利用數(shù)據挖掘技術識別和分析消費偏好已成為主流,對全樣本進行研究已是現(xiàn)代營銷研究的趨勢,而數(shù)據挖掘技術正是獲得全樣本的方法,引入數(shù)據挖掘技術既能創(chuàng)新研究形式,又能優(yōu)化研究結果。目前消費者偏好研究都集中在對各種偏好表現(xiàn)形式的描述和分類上,并以認為顧客會在一定時期內保持和帶有這種偏好特征進行消費活動為前提,很少關注偏好自身的屬性和變化規(guī)律。因此,本文考慮到新興電子商務市場在線顧客偏好的多變性,選用數(shù)據挖掘技術對顧客日常無意識狀態(tài)下在自媒體平臺上的社交數(shù)據進行收集處理,從日常行為入手挖掘顧客屬性,還原顧客形象,用數(shù)據描述顧客,并進行消費偏好的研究。這類數(shù)據是動態(tài)、全面、實時的,因此所構建的顧客識別模型是動態(tài)的,研究也更全面,避免了既定數(shù)據庫所帶來的局限性。同時,結合互聯(lián)網特征,在對消費偏好進行研究時會重點結合網絡輿情相關內容,總結影響消費行為偏好的因素,并提出依此對消費行為偏好進行研究的思路。
基于數(shù)據挖掘技術的消費偏好識別與分析
(一)構建顧客識別模型
本文所構建的顧客偏好識別模型是利用數(shù)據挖掘技術對自媒體平臺上顧客基本信息以及在線行為數(shù)據進行搜集、整理和分析,從而根據消費特征等指標對顧客進行識別與鎖定。
個體顧客識別數(shù)據庫構建。構架顧客識別模型時,首要步驟就是對個體顧客(原始目標)行為特征數(shù)據進行挖掘,形成基礎標簽,即構建個體顧客識別數(shù)據庫。通過對前期學者研究的學習和整理,本文參考了趙曙光(2014)在對高轉化率的社交媒體進行畫像時提出的五個維度與劉海等(2015)在研究精準營銷時構建的“消費者圖譜”,在“4C”理論的基礎上,結合本文所使用的數(shù)據特征,提出個體顧客識別數(shù)據庫構建的框架,主要包含顧客基本信息與線上行為數(shù)據兩個方面,如圖1所示。
社群研究。社群研究是在個體顧客識別數(shù)據庫構建的基礎上進行的,以確定的個體為基點進行橫向、縱向的社群研究。該步驟使顧客識別模型更加全面,通過個體顧客輻射其朋友、家人、同事等,以每一位個體顧客作為圓心構成一個社群,多個社群相交便能夠獲得使個體更加全面的標簽。
橫向研究是對與原始目標相關聯(lián)的人員(如頻繁互動的個體、有明確分組的用戶)進行鎖定并挖掘其自媒體平臺上的社交數(shù)據,豐富原始目標的基礎標簽,從不同緯度、粒度進行描述;隨著社交軟件的普及,個體對于社交軟件的使用已多樣化,為了區(qū)分工作與生活,會在同一個社交軟件上申請多個賬戶,因此縱向研究就是針對原始目標不同社交賬號的數(shù)據進行挖掘,包括同一平臺上的不同賬號和不同平臺上的賬號(默認個體在不同自媒體平臺上最多只有兩個賬號),可以依據登錄設備或登錄IP進行綜合識別。
上文中引入社會網絡分析法,該方法是一種定量方法,對社會網絡進行形式化描述。社會網絡由多個節(jié)點和多個連線的集合構成,每一個節(jié)點表示一個個體(原始目標),連線表明關系,可以是親戚、朋友、同事,甚至是具有相同商品喜好的陌生人,個體通過關系相連接最終形成社會網絡,彼此標簽共享互相參考,便形成每一個立體的用戶。原始目標就居于該社會網絡的核心位置,相比較其他顧客有更多聯(lián)系,在線活躍度越高的用戶,其所處的社會網絡就越大、越復雜,從而獲得的顧客信息就會越全面。社會網絡結構如圖2所示。
通過以上由點及面、橫縱結合的研究便形成了立體全面的顧客識別模型,具體模型如圖3所示。
(二)識別與分析偏好
在顧客識別模型的基礎上挖掘與消費偏好相關的數(shù)據,對消費偏好進行識別與分析研究,步驟及方法如下:
第一,基于在線社交數(shù)據的顧客消費興趣挖掘。對于顧客興趣的發(fā)現(xiàn),在網絡顧客參與信息傳播的過程中,在不同的時間將呈現(xiàn)出不同的興趣關注內容,這種現(xiàn)象可稱為興趣的動態(tài)遷移。首先分析作為顧客興趣的特征項在動態(tài)遷移過程中的特點,提出文本特征提取方法,在此基礎上采用有限混合概率模型,研究顧客興趣的識別方法以及對新出現(xiàn)興趣內容的歸并方法。
網絡顧客是信息傳播的主體,具有較大中心性的顧客在信息傳播中起著至關重要的作用。前期預研發(fā)現(xiàn)在線社會網絡中具有較大連接度的顧客節(jié)點有助于將信息傳播給更多顧客,具有較大介數(shù)的顧客節(jié)點有助于擴大信息傳播范圍,具有較大聚集性的顧客節(jié)點有助于信息的局部傳播,節(jié)點連接的正負屬性可影響信息傳播路徑的選擇?;谶@些結構屬性,可挑選出具有不同中心性的重要顧客節(jié)點,從而為建立特定類型顧客行為模型提供重要的顧客屬性。
第二,基于在線社交數(shù)據的顧客消費行為模式挖掘。在線社會網絡中,由于特定類型顧客節(jié)點的角色、關注興趣等因素相似,使得一些顧客節(jié)點子集的行為模式具有一定趨同性。因此在大規(guī)模顧客節(jié)點行為數(shù)據的基礎上,基于顧客節(jié)點行為模式的趨同性和行為特征的相似性,采用抗噪聲聚類算法分析顧客節(jié)點全集,得到若干具有相似行為模式的顧客節(jié)點子集,進一步選取頻繁項關聯(lián)規(guī)則挖掘算法分析某顧客節(jié)點子集,可得到子集顧客的主要行為模式。
第三,基于顧客消費行為模式的顧客偏好識別與分析。通過語義分析將在線社交媒體中獲得的顧客興趣與行為數(shù)據,以及其他類型數(shù)據源中獲得的顧客消費行為傾向數(shù)據,按照時間順序將不同類型消費行為變化發(fā)展過程記錄并構成一個時間序列,基于空間重構,將測量值構造成為一組多維動態(tài)向量。時間序列中差異較大的部分意味著在原始數(shù)據中所包含的消費行為傾向變化較大,因此通過此分析能夠識別消費行為傾向的遷移,并且由于引入了在線社會網絡等新型數(shù)據,一些基于傳統(tǒng)問卷調查發(fā)布的消費行為數(shù)據所體現(xiàn)不出的變化也能夠被識別,從而使得識別結果更為準確、完善。為了從各類消費行為傾向因素中篩選得到對消費行為造成最大影響的主因素,采取多元逐步回歸方法進行因素選擇。由于多維動態(tài)向量中差異較大的部分對應的消費行為傾向變化也較大,因此基于多維動態(tài)向量可提出消費行為傾向的遷移識別方法。
結論與展望
基于現(xiàn)有研究與理論,本文首先提出利用自媒體平臺上顧客社交行為數(shù)據構建顧客識別模型的步驟:一是構建個體顧客識別數(shù)據庫,建立個體顧客基礎標簽;二是以個體顧客為基點從橫縱兩方向構建社群,通過社群研究擴充顧客標簽;三是提出基于以上的識別模型,用數(shù)據挖掘進行消費偏好識別與分析的思路,引入文本特征提取方法、抗噪聲聚類算法、語義分析法等。
目前本文只是提出了基于數(shù)據挖掘對偏好識別模型進行構建的方案,以及利用該技術識別與分析消費偏好的相關建議。在后續(xù)研究中,可針對具體企業(yè)或產品,利用計算機科學領域的數(shù)據挖掘技術,獲取相關在線社交數(shù)據,完成實證研究,將模型量化、驗證。
參考文獻:
1.金代志,王春霞,石春生.基于BP神經網絡的顧客價值識別研究[J].中國軟科學,2009
2.劉書慶,蘇秦等.科技成果產業(yè)化目標市場顧客需求識別與評審模型研究[J].科技進步與對策,2011
3.孔勤.數(shù)據挖掘技術在移動增值業(yè)務中的應用[D].北京交通大學,2009
4.肖生苓,牟娌娜等.基于數(shù)據挖掘技術的超市顧客群研究[J].資源開發(fā)與市場,2011
5.劉軍.數(shù)據挖掘在讀者閱讀需求偏好研究中的應用[J].圖書館論壇,2012(3)
6.楊勇攀等.基于混合Logit模型的消費者偏好測量研究[J].生產力研究,2009(2)
7.吳留平.服裝款式定制輔助系統(tǒng)研究[D].西安工程大學,2011
8.曾令明等.雙向關聯(lián)規(guī)則挖掘及其相關性分析[J].計算機工程與設計,2005,26(10)
9.劉枚蓮等.基于雙向關聯(lián)規(guī)則的網絡消費者偏好挖掘研究[J].微電子學與計算機,2013(3)
10.劉遠超等.基于聚類分析策略的用戶偏好挖掘[J].計算機應用研究,2005(12)
11.王縱虎.聚類分析優(yōu)化關鍵技術研究[D].西安電子科技大學,2012
12.祁小麗.一種改進的快速聚類算法及并行化研究[D].蘭州大學,2009
13.劉鑫朝.聚類算法的研究及應用[D].長沙理工大學,2006
14.趙曙光.高轉化率的社交媒體用戶畫像:基于500用戶的深訪研究[J].新媒體研究,2014
15.劉海,盧慧等.“用戶畫像”挖掘的精準營銷細分模型研究[J].絲綢,2015