蘇 燕,王 猛,苗潤生
(1.哈爾濱鐵路局 信息技術(shù)所, 哈爾濱 150008;2.哈爾濱鐵路局 客運(yùn)處,哈爾濱 150008)
一種智能學(xué)習(xí)的動態(tài)客戶標(biāo)簽方法的研究
蘇 燕1,王 猛2,苗潤生1
(1.哈爾濱鐵路局 信息技術(shù)所, 哈爾濱 150008;2.哈爾濱鐵路局 客運(yùn)處,哈爾濱 150008)
研究客戶標(biāo)簽的生成機(jī)制,構(gòu)建一種動態(tài)的客戶標(biāo)簽更新方法,結(jié)合One-Class分類和支持向量機(jī)算法智能模擬人類的學(xué)習(xí)行為,能夠在模型的復(fù)雜性和學(xué)習(xí)能力之間衡量并不斷自我優(yōu)化,僅通過典型有限的小樣本訓(xùn)練集,即可建立客戶標(biāo)簽?zāi)P?,又由于小樣本可有效提高運(yùn)行效率,實現(xiàn)客戶標(biāo)簽的動態(tài)更新。
客戶標(biāo)簽;向量機(jī);One-Class;動態(tài)
隨著鐵路信息化的飛速發(fā)展,客票數(shù)據(jù)以其豐富的類型和龐大的數(shù)據(jù)量成為鐵路信息化數(shù)據(jù)中具有強(qiáng)大潛在價值的數(shù)據(jù)之一。結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行客戶行為分析,構(gòu)建屬性標(biāo)簽體系兩層面客戶需求分析,建立客戶識別模型,實現(xiàn)精準(zhǔn)營銷,是鐵路在傳統(tǒng)運(yùn)輸業(yè)激烈競爭中取勝的關(guān)鍵??蛻魳?biāo)簽就是基于所獲取到的客戶屬性和客戶特征,基于業(yè)務(wù)特征規(guī)則和客戶標(biāo)簽規(guī)則,采用一種類自然語言方式對客戶特性進(jìn)行重新的描述,并在相應(yīng)的主動營銷過程中基于客戶標(biāo)簽進(jìn)行精確營銷。目前,主要運(yùn)用分類和聚類方法,利用客戶屬性和行為對客戶進(jìn)行標(biāo)簽。
分類方法是一種有指導(dǎo)學(xué)習(xí)方法,在明確假設(shè)或者客觀結(jié)果前提下,對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)建立分類分析模型,以盡可能正確地對訓(xùn)練樣本之外的示例的標(biāo)記進(jìn)行預(yù)測,即對客戶進(jìn)行分類標(biāo)簽,訓(xùn)練例的標(biāo)記都是已知的,因此訓(xùn)練樣本的歧義性最低。目前主流的分類算法有神經(jīng)網(wǎng)絡(luò)分類算法、貝葉斯分類算法。
神經(jīng)網(wǎng)絡(luò)分類算法,通過模擬動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。盡管神經(jīng)網(wǎng)絡(luò)方法具有較高的分類精度,但是由于難于提取其所隱藏分類規(guī)則、局部極小值等缺陷影響了其發(fā)展推廣。貝葉斯算法,是利用概率統(tǒng)計知識進(jìn)行分類的算法,適用于大規(guī)模數(shù)據(jù)。算法訓(xùn)練樣本的必須假定樣本屬性相互獨(dú)立,不存在依賴關(guān)系,而實際中客戶屬性和行為間不可能完全相互獨(dú)立。
聚類分析計算方法在客戶標(biāo)簽?zāi)P椭袘?yīng)用的方法,主要有層次聚類分析和K-MEANS聚類分析。層次聚類分析通過迭代合并對給定的數(shù)據(jù)集進(jìn)行層次似的分解,直到所有的樣本組成一個分組或者某個條件滿足為止,更適合于有潛在層次結(jié)構(gòu)的數(shù)據(jù),例如客戶的消費(fèi)行為數(shù)據(jù)。K-MEANS聚類分析是一個迭代過程,直至滿足某個閥值退出,該算法的前提必須要輸入聚類數(shù)量K,在未知的情況下則需要從K=1開始進(jìn)行測試,當(dāng)k達(dá)到一定大的時候,就可以取到了最佳的k值,完成聚類。
針對傳統(tǒng)分類方法的弊端,構(gòu)建一種動態(tài)的客戶標(biāo)簽更新方法,結(jié)合One-Class分類和支持向量機(jī)算法智能模擬人類的學(xué)習(xí)行為,能夠在模型的復(fù)雜性和學(xué)習(xí)能力之間衡量并不斷自我優(yōu)化,僅通過典型有限的小樣本訓(xùn)練集,則可自動分析獲得規(guī)律,建立客戶標(biāo)簽?zāi)P停钟捎谛颖究捎行У靥岣哌\(yùn)行效率,實現(xiàn)客戶標(biāo)簽的動態(tài)更新。除此之外,通過引入One-Class分類思想,僅需選取目標(biāo)數(shù)據(jù)樣本則可完成模型的訓(xùn)練和建立,既降低了樣本選取的難度和工作量,又排除了假樣本數(shù)據(jù)對于訓(xùn)練效果的影響,因此結(jié)合One-Class支持向量機(jī)算法,更符合鐵路業(yè)務(wù)大數(shù)據(jù)分析的需求,主要分為以下3個階段。
2.1 確定特征向量
特征向量的準(zhǔn)確選取是建立數(shù)據(jù)挖掘模型的關(guān)鍵因素。對于不同的標(biāo)簽?zāi)P鸵⒉煌奶卣飨蛄考?,隨著業(yè)務(wù)的不斷發(fā)展變化,特征向量集也要隨之更新。特征向量集是建立在客戶特征基礎(chǔ)上??蛻籼卣鳎蛻魧傩蕴卣骱涂蛻粜袨樘卣鲀煞矫?。屬性特征即客戶的外在屬性,如性別、出生日期,團(tuán)體企業(yè)性質(zhì)等客戶基本信息,此類信息很少甚至不會變化,在本方法中定義為靜態(tài)特征。行為特征則是客戶的個人行為屬性,例如列車等級選擇行為、席別選擇行為、訂購渠道行為等等,行為特征隨著外界因素的影響而變化,穩(wěn)定性較差,將此類信息定義為動態(tài)特征。通過對樣本數(shù)據(jù)客戶特征的分析和學(xué)習(xí)建立分析模型,挖掘出客戶旅程選擇、乘車類型、訂票渠道等特征。
(1)特征向量的選取
客戶標(biāo)簽的建立,基于行為特征規(guī)則和客戶屬性規(guī)則。為了保證模型的全面性和準(zhǔn)確性,在客戶屬性特征的基礎(chǔ)上,使用多維度的客戶行為特征共同作為訓(xùn)練樣本的特征向量集。
對于不同的標(biāo)簽定義,要采取不同的特征向量集。以內(nèi)容偏好模型為例,客戶特征向量集包含靜態(tài)特征如性別、年齡等用戶基本特征,動態(tài)特征則要通過匯總旅客的購票和實名制數(shù)據(jù),如旅客購票的車次、發(fā)站、到站,席別,列車等級等數(shù)據(jù),以及旅客所居區(qū)域信息,按所需多種統(tǒng)計口徑,匯總旅客的購票行為信息,對于模型的特征向量選定后,便可對原始選取的樣本數(shù)據(jù)進(jìn)行特征向量提取,作為訓(xùn)練模型的輸入。
(2)特征向量編碼和歸一化處理
支持向量機(jī)的輸入要求每個數(shù)據(jù)樣本都要以實數(shù)向量的形式出現(xiàn),因此,對于非數(shù)字特征數(shù)據(jù),首先需要將其數(shù)據(jù)化。在旅客屬性和行為數(shù)據(jù)中除了少數(shù)漢字信息和字母外,都有對應(yīng)的數(shù)字代碼,因此作為樣本數(shù)據(jù)直接輸入訓(xùn)練。
對于客戶特征中包含漢字的信息,除地址信息外其他相對價值很小,可以剔除掉,而地址信息除了用戶基本特征中的歸屬地等粗略的區(qū)縣級別的信息有對應(yīng)的數(shù)字代碼外,更細(xì)級別的地址類信息則可以選用經(jīng)緯度數(shù)據(jù)標(biāo)示。對于字母的處理,針對26個字母大小寫分別配置對應(yīng)的數(shù)字代碼,則完成所有有價值信息的統(tǒng)一數(shù)字編碼。
2.2 選取標(biāo)簽樣本訓(xùn)練集,建立客戶標(biāo)簽?zāi)P?/p>
(1)One_class支持向量機(jī)算法
SVM方法是基于小樣本的智能機(jī)器學(xué)習(xí)方法,其基本原理可以簡單的理解為將非線性向量映射到一個更高維的空間中,如圖1所示。
圖1 輸入空間到特征空間的映射
將輸入空間中線性不可分的數(shù)據(jù)集映射后變換為線性可分,然后在這個高維空間里建立一個使兩個超平面的距離最大的最大間隔超平面,如圖2所示。即通過小規(guī)模訓(xùn)練樣本的學(xué)習(xí)過程,形成最優(yōu)分類規(guī)則。
傳統(tǒng)的機(jī)器學(xué)習(xí)一般都是需要正負(fù)2類訓(xùn)練樣本,而對于客戶標(biāo)簽?zāi)P头谴思幢?,且假設(shè)的負(fù)樣本中也可能是潛在的正樣本數(shù)據(jù),為了避免假負(fù)樣本影響訓(xùn)練結(jié)果,引入One-Class SVM,即訓(xùn)練樣本只有一類,標(biāo)簽為1或者-1,用一種訓(xùn)練樣本訓(xùn)練分類器,再用分類器去測試標(biāo)簽為1和-1的測試樣本。One-Class分類問題,就是一個two-class分類問題,負(fù)樣本中的唯一元素就是原點(diǎn),而所有的訓(xùn)練數(shù)據(jù)都是正樣本。One-Class分類問題返回一個函數(shù),函數(shù)值為1的是最小半徑的球體包含最多的數(shù)據(jù)點(diǎn),如圖3所示,其他的則為-1。
圖2 最優(yōu)分類超平面
圖3 One-Class SVM
One-Class 支持向量機(jī)已被成功應(yīng)用到許多領(lǐng)域,特別是存在數(shù)據(jù)不平衡的文件分類、預(yù)測等領(lǐng)域。
(2)獲取訓(xùn)練樣本,建立客戶標(biāo)簽?zāi)P?/p>
由于支持向量機(jī)是指導(dǎo)學(xué)習(xí)算法,因此需要有已知的樣本集用于訓(xùn)練建立模型,每一類標(biāo)簽用戶需要一個訓(xùn)練樣本。標(biāo)簽用戶樣本的獲取可以從現(xiàn)有的標(biāo)簽用戶中抽取小量數(shù)據(jù)作為訓(xùn)練樣本,或者從聚類結(jié)果中尋找目標(biāo)標(biāo)簽用戶的分類,從中選取小量樣本,不同類型的標(biāo)簽選擇不同的樣本選取方式。樣本的規(guī)模直接影響建模的效率,因此只需選定具有典型特征的樣本。
以文中舉例的內(nèi)容偏好模型為例,在模型的特征向量選取完成后,則需確定訓(xùn)練樣本進(jìn)入模型學(xué)習(xí)階段。對于已有分類的業(yè)務(wù)(如互聯(lián)網(wǎng)購票,電話訂票等),則可直接采用包含業(yè)務(wù)標(biāo)簽信息及具體內(nèi)容的樣本數(shù)據(jù);對于沒有具體分類業(yè)務(wù)(如POS結(jié)算等),既可利用簡單規(guī)則匹配來進(jìn)行內(nèi)容分類,目標(biāo)是用盡可能少的規(guī)則,覆蓋80%的客戶,也可利用挖掘方法對業(yè)務(wù)內(nèi)容進(jìn)行解釋分類,然后根據(jù)分類結(jié)果選取樣本數(shù)據(jù)。
將樣本數(shù)據(jù)按照選取的特征向量集的規(guī)則進(jìn)行處理后,作為訓(xùn)練模型的輸入。模型的輸入主要分為用戶靜態(tài)特征、內(nèi)容分類規(guī)則、旅途規(guī)劃等。模型經(jīng)過訓(xùn)練后,形成黑盒子分類規(guī)則,即完成了內(nèi)容偏好模型的建立。
2.3 動態(tài)更新客戶標(biāo)簽
支持向量機(jī)是基于小樣本的統(tǒng)計學(xué)習(xí)理論,基于結(jié)構(gòu)風(fēng)險最小化,是目前針對小樣本分類等問題的最佳方法。在求解大規(guī)模數(shù)據(jù)分類需要較大內(nèi)存來存儲向量矩陣,而矩陣的大小則依賴于樣本數(shù),只要選取有限的少量具有典型特征的樣本,則可在保證分類精度的同時,有效降低空間開銷,提高效率。相對于原有的客戶標(biāo)簽算法而言,大大降低了分類時間,為實現(xiàn)客戶標(biāo)簽的動態(tài)更新提供了可能。隨著客戶行為特征的不斷變化,及時更新客戶分類標(biāo)簽,為市場的精準(zhǔn)營銷提供有力的支撐。
本文結(jié)合One_class分類思想和支持向量機(jī)的智能學(xué)習(xí)算法,僅通過有限少量的目標(biāo)標(biāo)簽客戶樣本即可構(gòu)建標(biāo)簽用戶分類模型,實現(xiàn)動態(tài)更新客戶標(biāo)簽。通過One_class支持向量機(jī)訓(xùn)練樣本只有一類,在本文應(yīng)用中,選取目標(biāo)標(biāo)簽客戶作為訓(xùn)練集,即正樣本,既降低了樣本的規(guī)模,又避免了假負(fù)樣本對于模型的影響;基于支持向量機(jī)的標(biāo)簽客戶模型是一種更智能的符合人類自然行為方式的數(shù)據(jù)分析模型,僅需有限的典型小樣本即可構(gòu)建具有自我改善性能的客戶標(biāo)簽分類模型,有效地降低了樣本選取的難度。而影響支持向量機(jī)分類效率的主要因素是特征的規(guī)模,標(biāo)簽的建立基于客戶有限的特征,因此通過精準(zhǔn)的特征集選取,可以有效地提高分類效率和分類效果。
目前,鐵路客運(yùn)營銷多是對車流信息、票務(wù)信息的分析預(yù)測,還沒有一個完善的基于對客戶行為分析預(yù)測的軟件和方法。對于某些管內(nèi)短途車,上座率比較低的車次,以及鐵路在傳統(tǒng)運(yùn)輸業(yè)的長遠(yuǎn)競爭,可以通過分析客戶標(biāo)簽數(shù)據(jù),搶占客流,提高鐵路旅客發(fā)送人數(shù)。
[1] 王 偉,鄭東良.支持向量機(jī)的分類機(jī)理研究[C]. 信號與信息處理技術(shù)第三屆信號與信息處理全國聯(lián)合學(xué)術(shù)會議論文集,2004.
[2] 魯 培. 一種改進(jìn)的基于項目聚類的協(xié)同過濾推薦算法[J]. 科技傳播,2011(1).
責(zé)任編輯 方 圓
Dynamic customer label method of intelligent learning
SU Yan1, WANG Meng2, MIAO Runsheng1
( 1. Institute of Information Technology, Haerbin Railway Administration, Haerbin 150008, China; 2. Department of Passenger Transport, Haerbin Railway Administration, Haerbin 150008, China )
This article mainly studied on the mechanism of the customer label, built a dynamic customer label update method, combined with One-Class classif i cation and support vector machine (SVM) algorithm to simulate human learning behavior intelligently, was able to measure between the model's complexity and learning ability and be constant self optimization. The customer label model could be built by typical limited small sample training set. The small sample could effectively improve the operation eff i ciency, implement a dynamic update of customer labels.
customer label; vector machine; One-Class; dynamics
U293.2∶TP39
A
1005-8451(2014)08-0016-04
2014-02-19
蘇 燕,工程師;王 猛,高級工程師。