馮玥 蘇正洋
1.南京銀行博士后科研工作站,南京大學(xué)博士后流動站;2.中國電信股份有限公司江蘇分公司
行為特征識別形成的綜合指標(biāo)定位客戶類型,有效地杜絕了客戶具體信息泄露的問題。
在大數(shù)據(jù)實(shí)踐中,企業(yè)挖掘客戶數(shù)據(jù)資源的目標(biāo)是為了更好地了解客戶,將有限的營銷資源投放到目標(biāo)客戶群,進(jìn)而更好地服務(wù)客戶及拓展業(yè)務(wù),開展精準(zhǔn)營銷(precise marketing),而實(shí)現(xiàn)客戶特征識別和分類,準(zhǔn)確地識別潛在客戶,是實(shí)現(xiàn)精準(zhǔn)營銷在技術(shù)層面的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)分析難度伴隨數(shù)據(jù)維度的增長而遞增,如何在高維稀疏的數(shù)據(jù)中找到規(guī)律和共性是數(shù)據(jù)挖掘的重點(diǎn),而機(jī)器學(xué)習(xí)和人工智能算法為大數(shù)據(jù)分析提供了技術(shù)基礎(chǔ)。本文試圖在高維海量數(shù)據(jù)中構(gòu)建統(tǒng)一的分析框架,結(jié)合最先進(jìn)的機(jī)器學(xué)習(xí)算法,來分析客戶行為模式規(guī)律,進(jìn)而實(shí)現(xiàn)以精準(zhǔn)營銷為代表的一系列基于大數(shù)據(jù)的行業(yè)應(yīng)用。從隱私保護(hù)角度來看,本文通過群體
企業(yè)所積累的客戶相關(guān)數(shù)據(jù)包括三大類:客戶基礎(chǔ)屬性數(shù)據(jù)、業(yè)務(wù)相關(guān)數(shù)據(jù)及行業(yè)衍生數(shù)據(jù)??蛻艋A(chǔ)屬性數(shù)據(jù)是最基本的客戶分類指標(biāo),如性別、年齡、地址、工作等。業(yè)務(wù)相關(guān)數(shù)據(jù)反映了客戶與企業(yè)現(xiàn)階段的直接業(yè)務(wù)關(guān)系,如電信運(yùn)營商與個人客戶的移動套餐交易,商業(yè)銀行與個人客戶的金融產(chǎn)品交易等。行業(yè)衍生數(shù)據(jù)是企業(yè)所屬行業(yè)獨(dú)特的數(shù)據(jù)資產(chǎn)。例如,電信運(yùn)營商所掌握的客戶活動軌跡數(shù)據(jù),及商業(yè)銀行所擁有的客戶交易流水?dāng)?shù)據(jù)等。如表1所示。
表1 客戶數(shù)據(jù)分類
目前基于大數(shù)據(jù)的精準(zhǔn)營銷領(lǐng)域研究多集中在對基礎(chǔ)屬性數(shù)據(jù)及業(yè)務(wù)數(shù)據(jù)的挖掘, 而這兩類數(shù)據(jù)提供的大數(shù)據(jù)分析維度有限,無法全面刻畫客戶特征。衍生數(shù)據(jù)涉及客戶的行為屬性,為客戶行為分析提供了全方位的視角。運(yùn)營商所獨(dú)有的移動軌跡數(shù)據(jù)能夠反映個人的活動區(qū)域、工作區(qū)域、生活場所等。金融機(jī)構(gòu)所獨(dú)有的客戶交易流水?dāng)?shù)據(jù)反映了客戶交易行為特征、消費(fèi)能力、消費(fèi)偏好等。生活工作區(qū)域類似的群體或消費(fèi)對象類似的群體在行為特征上更容易存在趨同性。對這些衍生數(shù)據(jù)的分析,將有助企業(yè)全面深入地挖掘客戶行為模式和偏好,進(jìn)而對其開展針對性營銷。所以,對衍生數(shù)據(jù)的挖掘是區(qū)分企業(yè)大數(shù)據(jù)應(yīng)用能力的關(guān)鍵之一。
衍生數(shù)據(jù)的分析難度在于對象的復(fù)雜性以及數(shù)據(jù)的稀疏性,例如,通過銀行渠道的交易流水記錄,涉及交易對象、交易金額、交易時間、交易頻率等多維度信息;通過移動基站實(shí)時反饋記錄的個人行動軌跡存在隨機(jī)性,很難從實(shí)時更新的數(shù)據(jù)層面有效挖掘群體特性。如何設(shè)計研究框架,將一定時間內(nèi)積累的大量復(fù)雜行為數(shù)據(jù)投射到低維空間,形成個人行為模式的表征,是本文試圖解決的技術(shù)難題。本文創(chuàng)新地從網(wǎng)絡(luò)視角重新構(gòu)建數(shù)據(jù),通過構(gòu)建網(wǎng)絡(luò)的方式,將收集到的軌跡數(shù)據(jù)網(wǎng)絡(luò)化之后,通過最先進(jìn)的網(wǎng)絡(luò)表示機(jī)器學(xué)習(xí)算法應(yīng)用于客戶行為研究之中,全面刻畫客戶特征。
具有網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)可以自然地表達(dá)微觀主體之間的關(guān)聯(lián),在日?;顒又袩o處不在,例如,移動定位數(shù)據(jù)反映個人與地點(diǎn)之間的位置關(guān)系,金融交易數(shù)據(jù)反映個人與交易對象之間的交易關(guān)系,個人屬性數(shù)據(jù)反映了個人與其標(biāo)簽的從屬關(guān)系?;陉P(guān)聯(lián)關(guān)系所搭建的網(wǎng)絡(luò),不僅可以直觀地反映對象間的直接關(guān)聯(lián)關(guān)系,也具備進(jìn)一步探索間接關(guān)聯(lián)關(guān)系及多重關(guān)聯(lián)關(guān)系的潛力,易于洞察節(jié)點(diǎn)間關(guān)聯(lián)關(guān)系的層次性。通過構(gòu)建合適的網(wǎng)絡(luò)學(xué)習(xí)框架,我們能將復(fù)雜關(guān)系中的多重群體特征通過對微觀主體組成的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)剝離出來,進(jìn)而對微觀主體的特征進(jìn)行分類,通過數(shù)據(jù)挖掘?qū)崿F(xiàn)各種現(xiàn)實(shí)目標(biāo)。
圖1簡單地描述了網(wǎng)絡(luò)學(xué)習(xí)的示意圖。首先,構(gòu)造具備網(wǎng)絡(luò)結(jié)構(gòu)的主體。第二步,按照固定規(guī)則提取軌跡樣本,進(jìn)而通過網(wǎng)絡(luò)表示學(xué)習(xí)算法獲得每一個節(jié)點(diǎn)對應(yīng)的嵌入向量,將結(jié)果帶入一系列學(xué)習(xí)任務(wù)中,完成應(yīng)用目標(biāo)。本文的內(nèi)容包括三部分,首先討論了基于網(wǎng)絡(luò)視角的數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)理論方法和步驟,第二部分從移動運(yùn)營商、金融機(jī)構(gòu)及兩者結(jié)合的角度討論了應(yīng)用方法,最后對金融行業(yè)進(jìn)行了案例分析。
圖1 網(wǎng)絡(luò)學(xué)習(xí)流程示意圖
網(wǎng)絡(luò)是由各類別頂點(diǎn)及通過某些關(guān)系構(gòu)成連接邊所組成的結(jié)構(gòu)。原始網(wǎng)絡(luò)G:={,φ}是由頂點(diǎn)集合V,邊集合E,頂點(diǎn)類別A,邊類別R,頂點(diǎn)類別映射:V→A,以及邊類別映射φ:E→R組成的集合。其中,對任意的邊e∈E,存在頂點(diǎn)v1,v2∈V,滿足(v1,v2)=e,且(v1 ),(v2 )∈A,φ(e)∈R。
根據(jù)不同的目標(biāo)設(shè)定,網(wǎng)絡(luò)可基于原始網(wǎng)絡(luò)或重構(gòu)網(wǎng)絡(luò)。如果研究側(cè)重于網(wǎng)絡(luò)結(jié)構(gòu)本身,則沿用原始網(wǎng)絡(luò),例如社交網(wǎng)絡(luò)的結(jié)構(gòu)識別和判定。若研究的目標(biāo)是利用網(wǎng)絡(luò)結(jié)構(gòu)的便利,去挖掘深層次的關(guān)聯(lián)關(guān)系,則需在原始數(shù)據(jù)基礎(chǔ)之上重新設(shè)計節(jié)點(diǎn)規(guī)則。本文需根據(jù)具體衍生數(shù)據(jù)某些統(tǒng)計指標(biāo)的結(jié)果對頂點(diǎn)設(shè)置進(jìn)行進(jìn)一步細(xì)分。節(jié)點(diǎn)的設(shè)置也可通過經(jīng)驗判斷。對于移動軌跡數(shù)據(jù),在網(wǎng)絡(luò)構(gòu)建的時候?qū)竟?jié)點(diǎn)的周平均時長進(jìn)行統(tǒng)計,通過這個維度的統(tǒng)計指標(biāo)聚類結(jié)果對節(jié)點(diǎn)進(jìn)行細(xì)分。對于金融交易數(shù)據(jù),從消費(fèi)金額和頻率對交易對象節(jié)點(diǎn)進(jìn)行統(tǒng)計,通過聚類結(jié)果對節(jié)點(diǎn)進(jìn)行細(xì)分。
案例一:移動網(wǎng)絡(luò)構(gòu)建
移動軌跡數(shù)據(jù)表示為手機(jī)用戶途徑基站的時間序列數(shù)據(jù),以及每個基站的地理坐標(biāo)信息。每條記錄的屬性包括手機(jī)用戶、基站編號、經(jīng)過時間、所屬區(qū)域等維度。網(wǎng)絡(luò)構(gòu)建基于移動軌跡樣本(手機(jī)用戶,基站編號,軌跡細(xì)節(jié))。由手機(jī)用戶節(jié)點(diǎn),接收基站節(jié)點(diǎn)及連接邊構(gòu)成,具體構(gòu)成規(guī)則如下:
首先,根據(jù)移動軌跡樣本數(shù)據(jù)確定手機(jī)用戶點(diǎn)集。手機(jī)用戶節(jié)點(diǎn)一一對應(yīng)于數(shù)據(jù)集中所有手機(jī)用戶,通過手機(jī)號唯一識別。其次,根據(jù)軌跡中樣本的統(tǒng)計結(jié)果,構(gòu)建接收基站點(diǎn)集?;谠紨?shù)據(jù)的重構(gòu)移動網(wǎng)絡(luò)應(yīng)能全面地反映用戶移動行為特征,因此網(wǎng)絡(luò)中節(jié)點(diǎn)的定義應(yīng)包含一定移動信息。但網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計不能過度稀疏或過度稠密。過于稀疏的網(wǎng)絡(luò)結(jié)構(gòu),意味著網(wǎng)絡(luò)結(jié)構(gòu)中公共節(jié)點(diǎn)很少,無法很好地識別群體特征。過于稠密的網(wǎng)絡(luò)結(jié)構(gòu)意味著大量節(jié)點(diǎn)擁有公共節(jié)點(diǎn),無法很好地區(qū)別個體特征。因此,需對網(wǎng)絡(luò)結(jié)構(gòu)中基站對象的細(xì)分程度進(jìn)行取舍。接收基站對象節(jié)點(diǎn)的設(shè)置依照以下規(guī)則,首先依照基站對應(yīng)的區(qū)域?qū)邮栈竟?jié)點(diǎn)進(jìn)行初步分類。 其次,獲得所有與該基站有過定位記錄的手機(jī)用戶集。根據(jù)統(tǒng)計期內(nèi)移動用戶集中所有客戶對于該對象的周平均時長屬性特征的密度分布,對該對象節(jié)點(diǎn)進(jìn)一步細(xì)分。對于涉及工作日上班時間、晚間、及周末等與工作生活區(qū)域關(guān)系較大的基站節(jié)點(diǎn)進(jìn)一步細(xì)分到對應(yīng)基站標(biāo)簽。因此,重構(gòu)網(wǎng)絡(luò)交易對象節(jié)點(diǎn)是基于移動軌跡數(shù)據(jù)分布特征分布獲得的分類結(jié)果,并不是原始的交易對象的簡單復(fù)制。 最后,根據(jù)移動用戶對應(yīng)的交易軌跡樣本,構(gòu)成連接用戶節(jié)點(diǎn)和基站對象節(jié)點(diǎn)的公共邊。最終形成的重構(gòu)交易網(wǎng)絡(luò)由用戶節(jié)點(diǎn),基站節(jié)點(diǎn),及兩點(diǎn)間的連接邊構(gòu)成。
案例二:金融交易網(wǎng)絡(luò)
金融交易流水信息表示為卡號(card_no)、金額(tran_amt)、交易時間(tran_date)、行業(yè)分類(merch_type)、商戶名稱(merch_name)組成的五維坐標(biāo)。網(wǎng)絡(luò)構(gòu)建基于交易軌跡樣本(交易發(fā)起方,交易對象,交易細(xì)節(jié)),由交易發(fā)起節(jié)點(diǎn),交易對象節(jié)點(diǎn)及連接邊構(gòu)成,具體構(gòu)成規(guī)則如下:
首先,根據(jù)交易軌跡樣本數(shù)據(jù)確定交易發(fā)起節(jié)點(diǎn)集。交易發(fā)起節(jié)點(diǎn)一一對應(yīng)于數(shù)據(jù)集中所有客戶。其次,根據(jù)交易細(xì)節(jié)的統(tǒng)計結(jié)果,構(gòu)建交易對象點(diǎn)集。交易對象節(jié)點(diǎn)的設(shè)置依照以下規(guī)則,首先依照交易對象對應(yīng)的行業(yè)分類對交易對象節(jié)點(diǎn)進(jìn)行初步分類。 其次,獲得所有與該行業(yè)分類有過交易歷史的客戶集。根據(jù)統(tǒng)計期內(nèi)客戶集中所有客戶對于該對象的平均交易金額及交易頻率兩個維度屬性特征的密度分布,對該對象節(jié)點(diǎn)進(jìn)一步細(xì)分。對于涉及商場、金融產(chǎn)品和服務(wù)、房地產(chǎn)、物業(yè)、保險、珠寶、信用卡還款等與消費(fèi)能力關(guān)系較大的對象節(jié)點(diǎn)進(jìn)一步細(xì)分到對應(yīng)商戶名稱標(biāo)簽。其中,金融產(chǎn)品和服務(wù)對應(yīng)的細(xì)節(jié)標(biāo)簽包括:理財、結(jié)構(gòu)性存款、大額存單、定期存款、貴金屬、普通基金等。因此,重構(gòu)網(wǎng)絡(luò)交易對象節(jié)點(diǎn)是基于交易數(shù)據(jù)分布特征獲得的分類結(jié)果,并不是原始的交易對象的簡單復(fù)制。 最后,根據(jù)交易發(fā)起點(diǎn)對應(yīng)的交易軌跡樣本,構(gòu)成連接交易發(fā)起節(jié)點(diǎn)和交易對象節(jié)點(diǎn)的公共邊。如圖2所示。
圖2 客戶交易網(wǎng)絡(luò)示意圖
圖中,粉色為客戶節(jié)點(diǎn),藍(lán)色為交易對象節(jié)點(diǎn),隨交易對象節(jié)點(diǎn)進(jìn)一步細(xì)分,由左至右,重構(gòu)網(wǎng)絡(luò)的稠密程度降低。
案例三:綜合異構(gòu)網(wǎng)絡(luò)
將移動子網(wǎng)和金融交易子網(wǎng)通過客戶節(jié)點(diǎn)相連,構(gòu)成具備兩種特質(zhì)的重構(gòu)網(wǎng)絡(luò)。在重構(gòu)網(wǎng)絡(luò)的基礎(chǔ)上,在網(wǎng)絡(luò)中加入了客戶基本屬性分類節(jié)點(diǎn)。如圖3所示,節(jié)點(diǎn)類型a代表客戶屬性分類,c代表客戶節(jié)點(diǎn),d代表交易對象節(jié)點(diǎn),t代表接收基站節(jié)點(diǎn)分類。圖中黃色子網(wǎng)絡(luò)為金融重構(gòu)網(wǎng)絡(luò),紅色子網(wǎng)絡(luò)為客戶屬性子網(wǎng),藍(lán)色子網(wǎng)絡(luò)為移動子網(wǎng)。本質(zhì)上,異構(gòu)網(wǎng)絡(luò)將更多的外界屬性分類指標(biāo)加入到原始網(wǎng)絡(luò)結(jié)構(gòu)中,形成綜合網(wǎng)絡(luò)結(jié)構(gòu)框架。將客戶節(jié)點(diǎn)對應(yīng)的客戶基礎(chǔ)屬性節(jié)點(diǎn)(按年齡、性別兩個維度進(jìn)行分類)加入網(wǎng)絡(luò)結(jié)構(gòu)中,構(gòu)成客戶屬性分類子網(wǎng)。
圖3 異構(gòu)綜合網(wǎng)絡(luò)
基于同構(gòu)交易網(wǎng)絡(luò)的研究框架屬于網(wǎng)絡(luò)表示學(xué)習(xí)范疇。本文為網(wǎng)絡(luò)表示學(xué)習(xí)中的節(jié)點(diǎn)表示學(xué)習(xí)算法在客戶信息網(wǎng)絡(luò)中的應(yīng)用。這個領(lǐng)域在近幾年得到了深度學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域?qū)W者的廣泛關(guān)注。目前該領(lǐng)域技術(shù)主要包括三大類:基于矩陣分解、基于生成模型和基于深度學(xué)習(xí)算法。對10種最通用的網(wǎng)絡(luò)表示算法在8個網(wǎng)絡(luò)上進(jìn)行的多標(biāo)簽分類實(shí)驗結(jié)果表明,Deepwalk及Node2vec這兩種深度學(xué)習(xí)算法在各種類型的同構(gòu)網(wǎng)絡(luò)中均具有較為突出且穩(wěn)定的效果。Bryan Perozzi(2014)從自然語言處理領(lǐng)域的深度學(xué)習(xí)算法技術(shù)word2vec受到啟發(fā),將簡單隨機(jī)游走生成的網(wǎng)絡(luò)路徑類比于文本語料,得到每個節(jié)點(diǎn)的向量表示算法Deepwalk,獲得了很好的結(jié)果。Node2vec算法(2016)則在Deepwalk基礎(chǔ)之上,改進(jìn)了其隨機(jī)游走策略,提高了隨機(jī)游走路徑的質(zhì)量,并利用負(fù)采樣技術(shù)獲得節(jié)點(diǎn)表示。Deepwalk和Node2vec等常見網(wǎng)絡(luò)學(xué)習(xí)算法是針對同構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的網(wǎng)絡(luò)表示學(xué)習(xí)算法,并不適用于具有更多節(jié)點(diǎn)類別和邊類別的異構(gòu)網(wǎng)絡(luò)。本文采用metapath2vec算法(Yu Xiaodong,2017)對異構(gòu)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)表示學(xué)習(xí)。該算法基于元路徑構(gòu)建采樣機(jī)制,在挖掘不同類型節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系方面在多類公開數(shù)據(jù)集上的表現(xiàn)優(yōu)于Deepwalk及Node2vec等同構(gòu)網(wǎng)絡(luò)表示算法。
對于本研究而言,重構(gòu)交易網(wǎng)絡(luò)具備基本的網(wǎng)絡(luò)結(jié)構(gòu)。交易發(fā)起節(jié)點(diǎn)及交易接收節(jié)點(diǎn)組成了網(wǎng)絡(luò)中的頂點(diǎn)集合。邊的構(gòu)成方式依據(jù)邊存在交易即存在連接邊的原則?;谏疃葘W(xué)習(xí)的模型目標(biāo)是找到一組映射f:V→R d,使得該映射最大化地保留網(wǎng)絡(luò)中每一個節(jié)點(diǎn)出現(xiàn)在其領(lǐng)域的概率如公式(1):
理論上來說,交易行為類似的客戶節(jié)點(diǎn)連接的公共交易對象節(jié)點(diǎn)集也十分類似,則其成為彼此鄰域的概率更高。有效的網(wǎng)絡(luò)表示算法應(yīng)能保證客戶節(jié)點(diǎn)對應(yīng)的嵌入表示坐標(biāo)更加接近。網(wǎng)絡(luò)學(xué)習(xí)算法的核心是將網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為節(jié)點(diǎn)序列帶入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。每一個節(jié)點(diǎn)對應(yīng)領(lǐng)域的樣本采樣方式十分關(guān)鍵。Deepwalk采用的是簡單隨機(jī)游走機(jī)制,Node2vec采用的是可以調(diào)節(jié)的隨機(jī)游走機(jī)制,而Metapath2vec則采用元路徑限制下的采樣方式。得到采樣數(shù)據(jù)后,三個方法采用類似的訓(xùn)練步驟,將采樣軌跡作為skip-gram模型的數(shù)據(jù)源,獲得每一個頂點(diǎn)的嵌入表征,并通過negative sampling進(jìn)行參數(shù)迭代更新。
Deepwalk網(wǎng)絡(luò)學(xué)習(xí)框架通過簡單隨機(jī)游走機(jī)制,將網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為節(jié)點(diǎn)序列。Node2vec在Deepwalk基礎(chǔ)之上,在軌跡采樣方式上考慮了網(wǎng)絡(luò)結(jié)構(gòu)的差異。假設(shè)路徑中已獲得(c0,…,ci-1, ci的采樣服從以下概率分布:
其中p和q為調(diào)整采樣節(jié)點(diǎn)遍歷網(wǎng)絡(luò)的深度和廣度的超參數(shù)。
異構(gòu)網(wǎng)絡(luò)學(xué)習(xí)框架在Node2vec的基礎(chǔ)之上,考慮了節(jié)點(diǎn)類別的差異,采取了基于元路徑的隨機(jī)采樣方式。對于異構(gòu)網(wǎng)絡(luò)G=(V,E,T)以及長度為l的元路徑方案的采樣服從以下概率分布:
本文提出了基于大數(shù)據(jù)的精準(zhǔn)營銷機(jī)器學(xué)習(xí)框架(見圖4)。通過客戶基礎(chǔ)屬性數(shù)據(jù)及行業(yè)衍生數(shù)據(jù)搭建異構(gòu)網(wǎng)絡(luò),進(jìn)行異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí),模型輸出為每一個客戶節(jié)點(diǎn)所對應(yīng)的客戶綜合屬性表征。將客戶綜合屬性作為模型輸入,對具有價值分類標(biāo)簽的客戶數(shù)據(jù)進(jìn)行分類模型訓(xùn)練。
圖4 精準(zhǔn)營銷機(jī)器學(xué)習(xí)框架
本研究通過一組可視化導(dǎo)圖(見圖5),闡釋了網(wǎng)絡(luò)學(xué)習(xí)框架。左上為一個原始網(wǎng)絡(luò),這個網(wǎng)絡(luò)結(jié)構(gòu)包含52個頂點(diǎn)及隨機(jī)產(chǎn)生的連接邊。右上圖指出,這組網(wǎng)絡(luò)結(jié)構(gòu)具備明顯的4個聚集結(jié)構(gòu)(clusters)。有效的網(wǎng)絡(luò)學(xué)習(xí)算法應(yīng)具備識別聚集的能力,即為每一個節(jié)點(diǎn)分配對應(yīng)的向量化表達(dá),進(jìn)而識別網(wǎng)絡(luò)中的聚集結(jié)構(gòu)。通過node2vec算法,獲得的網(wǎng)絡(luò)節(jié)點(diǎn)對應(yīng)的向量化坐標(biāo),左下方圖為對應(yīng)頂點(diǎn)坐標(biāo)降維后投射在二維坐標(biāo)系中的結(jié)果。將這組坐標(biāo)通過聚類算法進(jìn)行聚類,結(jié)果被分為四類。將這四類與對應(yīng)的頂點(diǎn)匹配,可以從網(wǎng)絡(luò)結(jié)構(gòu)圖(右下圖)看出,網(wǎng)絡(luò)識別算法的結(jié)果可以很好地識別網(wǎng)絡(luò)聚集結(jié)構(gòu)。
圖5 網(wǎng)絡(luò)分析示意圖
基于前述中闡述的研究方法和框架,本研究通過真實(shí)數(shù)據(jù)集驗證方法的有效性。研究數(shù)據(jù)來自一家中資中等規(guī)模的城市商業(yè)銀行2019年(2019年1月1日至2019年12月31日)的客戶借記卡銀聯(lián)交易流水表單。選取的客戶標(biāo)準(zhǔn)是活躍客戶,即每月銀聯(lián)交易均超過5筆的客戶。從滿足條件的活躍客戶集中隨機(jī)選取的8000名客戶。根據(jù)8000名客戶在銀行客戶管理系統(tǒng)所對應(yīng)的客戶分類價值標(biāo)簽,客戶集被分為高價值客戶(金融資產(chǎn)大于50萬),價值客戶(金融資產(chǎn)大于20萬),普通客戶(在實(shí)驗期內(nèi)有過金融產(chǎn)品購買但未晉升至價值客戶),未知客戶(并未有金融產(chǎn)品購買記錄)。其中,高價值客戶共1645戶,價值客戶2292戶,普通客戶2387戶,未知客戶1676戶。
根據(jù)金融交易網(wǎng)絡(luò)的重構(gòu)規(guī)則,通過對交易軌跡樣本對應(yīng)信息的分布統(tǒng)計確定網(wǎng)絡(luò)對應(yīng)的交易對象節(jié)點(diǎn)。依照交易軌跡樣本,構(gòu)成連接交易發(fā)起節(jié)點(diǎn)和交易對象節(jié)點(diǎn)的公共邊。最終形成的重構(gòu)交易網(wǎng)絡(luò)由交易發(fā)起節(jié)點(diǎn),交易對象節(jié)點(diǎn),及兩點(diǎn)間的連接邊構(gòu)成。網(wǎng)絡(luò)由8478個節(jié)點(diǎn),179691條邊組成,網(wǎng)絡(luò)的密度為0.005。
本實(shí)驗匯報了在不同算法下,由不同時間段數(shù)據(jù)集構(gòu)成的,具備不同屬性的子網(wǎng)絡(luò)結(jié)構(gòu),對于客戶節(jié)點(diǎn)表征在分類任務(wù)中的效率結(jié)果。首先,從網(wǎng)絡(luò)構(gòu)成角度考慮了網(wǎng)絡(luò)研究的有效性。除了完整網(wǎng)絡(luò)結(jié)構(gòu)之外,本文考慮了基礎(chǔ)信息子網(wǎng)及金融交易子網(wǎng)及這兩個子網(wǎng)絡(luò)所對應(yīng)的網(wǎng)絡(luò)學(xué)習(xí)結(jié)果對于分類效率的影響。其次,從數(shù)據(jù)角度考慮基于不同數(shù)據(jù)采集時間段構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)與基于全年數(shù)據(jù)的完整網(wǎng)絡(luò),在客戶行為識別方面的差異。我們在一年數(shù)據(jù)的基礎(chǔ)之上,也考慮了上半年和下半年數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)。最后,本實(shí)驗進(jìn)一步測試了不同網(wǎng)絡(luò)識別算法在不同網(wǎng)絡(luò)結(jié)構(gòu)下的結(jié)果對應(yīng)的分類效率。采用Deepwalk及Node2vec算法分別對同構(gòu)網(wǎng)絡(luò)(基礎(chǔ)信息子網(wǎng)及金融交易子網(wǎng))進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí),采用Metapath2vec,Node2vec及Deepwalk分別對于異構(gòu)網(wǎng)絡(luò)(綜合信息網(wǎng)絡(luò))進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)。
對Deepwalk進(jìn)行以下設(shè)置:節(jié)點(diǎn)表示的維度為128,每個節(jié)點(diǎn)開始的路徑數(shù)為10,路徑長度為100,窗口大小為5。Node2vec在Deepwalk基礎(chǔ)之上基礎(chǔ)上添加兩個參數(shù)p、q的設(shè)置,根據(jù)網(wǎng)格搜索的結(jié)果從{0.25,0.5,1,2,4}中選擇最優(yōu)結(jié)果。將Metapath2vec的元路徑為“ACDCTCDCA”,其余參數(shù)與Deepwalk一致。實(shí)驗采用的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)比為0.7,分類器使用L2正則技術(shù)的one-vs-rest的邏輯回歸分類器,對具
有有效標(biāo)簽的客戶節(jié)點(diǎn)數(shù)據(jù),重復(fù)實(shí)驗10次,并報告10次結(jié)果的平均微觀F1值。如表2所示。
表2 實(shí)驗分類效果:平均微觀F1值
實(shí)驗結(jié)果表明:首先,基于完整網(wǎng)絡(luò)結(jié)構(gòu)(綜合信息網(wǎng)絡(luò))的網(wǎng)絡(luò)學(xué)習(xí)結(jié)果對應(yīng)的分類效率,要明顯高于基礎(chǔ)信息子網(wǎng)及金融交易子網(wǎng)的分類結(jié)果。結(jié)果說明,具備多維度信息的異構(gòu)網(wǎng)絡(luò)相對于具備單一信息的網(wǎng)絡(luò)結(jié)構(gòu),能夠突出各類群體間的行為特征差異。其次,基于全年數(shù)據(jù)搭建的網(wǎng)絡(luò)表示結(jié)果相對于半年數(shù)據(jù),更能反應(yīng)客戶的行為屬性特征,進(jìn)而對客戶價值分類的判斷更有幫助。第三,通過使用針對異構(gòu)網(wǎng)絡(luò)設(shè)計的算法Metapath2vec得到的嵌入坐標(biāo)的分類效果明顯優(yōu)于在Deepwalk及Node2vec學(xué)習(xí)框架下結(jié)果。這說明針對異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的算法更適用于異構(gòu)網(wǎng)絡(luò)。結(jié)果說明了基于客戶基礎(chǔ)屬性和交易屬性異構(gòu)網(wǎng)絡(luò)及異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)算法的學(xué)習(xí)框架,能更好地識別客戶行為及基礎(chǔ)屬性上的異同,將不同價值分類的客戶區(qū)分開來。結(jié)合網(wǎng)絡(luò)表示學(xué)習(xí)的獲得的客戶屬性指標(biāo)能顯著增強(qiáng)了分類任務(wù)效率。
企業(yè)在日益激烈的市場競爭中若想立于不敗,需要準(zhǔn)確定位價值客戶并將有限的營銷資源向這一部分客群傾斜。在大數(shù)據(jù)的背景下,企業(yè)也積累了大量客戶數(shù)據(jù)資源,包括客戶屬性數(shù)據(jù)、業(yè)務(wù)相關(guān)數(shù)據(jù)及行業(yè)衍生數(shù)據(jù)。本研究為大數(shù)據(jù)挖掘技術(shù)在企業(yè)精準(zhǔn)營銷領(lǐng)域的應(yīng)用探索,并從移動運(yùn)營商及商業(yè)銀行角度做了具體分析。在方法方面,本研究創(chuàng)新地將客戶行為模式的研究轉(zhuǎn)化為網(wǎng)絡(luò)結(jié)構(gòu)的識別,基于客戶移動軌跡數(shù)據(jù)及日常交易流水?dāng)?shù)據(jù)搭建重構(gòu)交易網(wǎng)絡(luò),并借助網(wǎng)絡(luò)表示學(xué)習(xí)算法,將對應(yīng)節(jié)點(diǎn)的網(wǎng)絡(luò)表示結(jié)果作為交易行為屬性指標(biāo)納入客戶價值分類模型,從而解決了直接運(yùn)用軌跡數(shù)據(jù)帶來的數(shù)據(jù)維度高且稀疏的問題。
通過針對實(shí)驗分析證明,將客戶基礎(chǔ)屬性和交易行為屬性放入統(tǒng)一的研究框架之下并利用異構(gòu)網(wǎng)絡(luò)學(xué)習(xí)算法獲得的價值客戶分類效率最高。各類具備大規(guī)??蛻粞苌鷶?shù)據(jù)的企業(yè)在實(shí)際業(yè)務(wù)中均可以采用本研究提供的研究框架,構(gòu)建基于客戶數(shù)據(jù)的網(wǎng)絡(luò),將未知客戶的對應(yīng)嵌入坐標(biāo)導(dǎo)入分類器,獲得相應(yīng)客戶分類,為營銷團(tuán)隊實(shí)施營銷策略提供了極大便利。本文采用的方法可以用于第三方支付公司、電信企業(yè)、政府部門等具備構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)的實(shí)體,進(jìn)行基于網(wǎng)絡(luò)的個人行為研究。未來的研究方向包括:優(yōu)化網(wǎng)絡(luò)構(gòu)建方式;針對不同規(guī)模數(shù)據(jù)集可能產(chǎn)生的研究結(jié)果差異進(jìn)行進(jìn)一步分析論證;加強(qiáng)異構(gòu)網(wǎng)絡(luò)分類任務(wù)研究框架的理論機(jī)制研究等。