唐向紅 彭超 陸見光
摘要: 隨著金融大數(shù)據(jù)的出現(xiàn)和發(fā)展,各種理財產(chǎn)品和貸款項目的種類和數(shù)量都爆炸式的增長。如何有效地針對客戶推薦提高推薦成功率成了關(guān)鍵問題。針對這一問題,文章提取代表客戶興趣、相應(yīng)組群和相關(guān)項目的特征,然后利用神經(jīng)網(wǎng)絡(luò)進行預(yù)測,從而達到了個性化推薦的目的。實驗結(jié)果表明:所建模型能有效地進行個性化推薦。
Abstract: With the advent and development of financial big data, the types and quantities of all types of wealth management products and loan projects have exploded. How to effectively recommend for customers to improve the success rate of the recommendation has become a key issue. To solve the problem,we extract features which represent customers interests, corresponding groups and related items,and ultilize the neural net to predict to achieve the goal of personalized recommendation. The experiment result shows that the model can effectively acomplish the personalized recommendation.
關(guān)鍵詞: 金融大數(shù)據(jù);個性化推薦;數(shù)據(jù)
Key words: financial big data;personalized recommendation;data
中圖分類號:TP391 文獻標識碼:A 文章編號:1006-4311(2018)20-0203-03
0 引言
隨著大數(shù)據(jù)時代的到來,各行各業(yè)的運營模式發(fā)生了巨大的變化。在大數(shù)據(jù)時代,金融業(yè)也隨著時代產(chǎn)生了一些根本性的變化,人們可以更好、更多地利用數(shù)據(jù)對信息進行管理,對管理方式進行創(chuàng)新。金融平臺正進行著一場數(shù)據(jù)服務(wù)的變革,其中最凸顯的一項技術(shù)服務(wù)就是個性化推薦技術(shù)。針對不同的消費者的不同屬性,提供相對應(yīng)的個性化服務(wù)[1]。這解決了客戶對于琳瑯滿目的商品難以選擇的問題,增加了用戶對金融平臺產(chǎn)品的興趣度,使金融平臺有了更多的機會提高產(chǎn)品的成交量,吸引了更多的用戶群體,也減少了平臺的運營成本[2]。
根據(jù)個性化推薦模型的特點來說,個性化推薦方法通常分為基于規(guī)則的推薦、基于內(nèi)容的推薦、基于協(xié)同過濾的推薦三種基本的方法[3]。 基于規(guī)則的推薦以關(guān)聯(lián)規(guī)則挖掘方法為核心,通過從大量的客戶購買商到客戶的購買模式,結(jié)合客戶的歷史購買行為,產(chǎn)生對目標客戶的推薦列表?;趦?nèi)容的推薦通過分析客戶已購買產(chǎn)品或已評價對象的特征獲取相應(yīng)客戶的興趣描述,通過比較客戶與產(chǎn)品或?qū)ο笾g的相似性實現(xiàn)推薦?;趨f(xié)同過濾推薦是尋找與目標客戶相似的客戶集的購買產(chǎn)品或評分情況來預(yù)測目標客戶對產(chǎn)品的購買興趣或評分,以此來進行推薦?;谝?guī)則的、基于內(nèi)容的以及基于協(xié)同過濾的推薦算法由于自身算法的特點,在實際應(yīng)用中都存在相應(yīng)的缺陷,所以對于如今的個性化推薦系統(tǒng)一般都是由這三種推薦方法混合而成的推薦模型。
通過了解,大多數(shù)個性化推薦系統(tǒng)中所用到的數(shù)據(jù)都是通過個性化信息服務(wù)應(yīng)用的相關(guān)技術(shù)來提取得到的[4],其中提取的方法和推薦模型的建立都是比較復(fù)雜耗時的。針對這點文章提出了一種更為可靠高效的推薦模型。其中對數(shù)據(jù)和特征的選擇和提取更為方便。我們使用MySQL數(shù)據(jù)庫進行數(shù)據(jù)的篩選,得到我們想要的數(shù)據(jù);再從新的數(shù)據(jù)鏈表中提取我們所需要的特征;最后通過調(diào)試神經(jīng)網(wǎng)絡(luò)的參數(shù),訓(xùn)練并建立好預(yù)測模型。通過實驗數(shù)據(jù)的表明,新生產(chǎn)的個性化推薦模型的推薦質(zhì)量有更好的表現(xiàn)。
1 個性化推薦模型的建立
1.1 個性化推薦模型特征的提取
相對于大多數(shù)基于大數(shù)據(jù)的個性化服務(wù)應(yīng)用的主要技術(shù),如數(shù)據(jù)挖掘技術(shù)、協(xié)同過濾技術(shù)等都需從客戶對項目的瀏覽情況、對項目的評分或其他可代表客戶對項目興趣的數(shù)據(jù)用來分析[5],作為特征建模。這些數(shù)據(jù)的收集、處理一般都是比較復(fù)雜和耗時的。針對這個問題本次實驗選用的特征是比較方便收集和表示的。
1.1.1 用戶類型特征的選取
平臺對于所有用戶一般有一個分類的管理。分類的方法一般是平臺按某種算法對用戶進行分類,或者是用戶自己選擇自己適合的類型。這些類型數(shù)據(jù)經(jīng)過分析可以反應(yīng)出用戶的某種購買特征,對于個性化推薦是十分重要的。
1.1.2 用戶購買特征的選取
參考用戶以往的購買記錄也是對個性化推薦系統(tǒng)十分有價值的。用戶以往的購買記錄往往包含著用戶一直以來的購買習慣和興趣項目,所以對用戶購買項目的數(shù)據(jù)進行提取和分析,將得到很多重要的信息。通過對比其他個性化推薦方法,也涉及用到這類數(shù)據(jù)進行特征的提取。
1.2 預(yù)測模型的選擇
鑒于本次實驗所需預(yù)測的關(guān)系比較直觀,該個性化推薦方案使用BP神經(jīng)網(wǎng)絡(luò)來進行興趣項目的預(yù)測。
BP神經(jīng)網(wǎng)絡(luò)模型[6]:
BP神經(jīng)網(wǎng)絡(luò)是當前功能強大、理論體系完善的一種機器學(xué)習算法,也是人工神經(jīng)網(wǎng)絡(luò)中使用最廣泛的神經(jīng)網(wǎng)絡(luò)模型。
BP神經(jīng)網(wǎng)絡(luò)一般層數(shù)較少、網(wǎng)絡(luò)結(jié)構(gòu)較為簡單。其中每個(除輸出層的神經(jīng)元)神經(jīng)元可以連接多個神經(jīng)元,每個連接通道都對應(yīng)著連接權(quán)系數(shù)wij和偏置參數(shù)bij。通過對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,也即是對wij和bij的調(diào)整來使神經(jīng)網(wǎng)絡(luò)的輸出能達到預(yù)期的目標值[7]。
2 實驗方法和過程
本次實驗使用Prosper貸款平臺數(shù)據(jù)進行研究分析,找出用戶感興趣的項目類型,以此作為依據(jù)給用戶推薦。其中涉及數(shù)據(jù)的選擇與提取、特征的提取、訓(xùn)練和預(yù)測及實驗等環(huán)節(jié)。
2.1 數(shù)據(jù)的選擇與提取
我們拿到的Prosper貸款平臺的數(shù)據(jù)①是xml格式的大文件,不方便讀取和操作;所以我們使用MySQL數(shù)據(jù)庫對原始數(shù)據(jù)進行讀取和數(shù)據(jù)的拆分。原始數(shù)據(jù)的讀取得到的信息非常雜亂,而對于本次個性化推薦方案,我們只需從數(shù)據(jù)中選擇能代表用戶興趣的原始數(shù)據(jù)來做分析。最后提取了5個數(shù)據(jù)鏈表用于后續(xù)實驗。
5個數(shù)據(jù)鏈表如表1。
2.2 特征的提取
對已提取的數(shù)據(jù)進行特征的提取,為后面預(yù)測模型的輸入做準備。
其中篩選出具有200個項目以上(更具代表性)的用戶作為樣本,樣本特征的提取主要是從5個已提取的數(shù)據(jù)鏈表中提取,得到3個特征。其中的3個特征分別是:
2.2.1 用戶所在組的類別特征
客戶一般會在平臺新建用戶的時候,選擇自己感興趣的組(一個組一般有一個或者多個感興趣的類別),所以組的信息中有代表用戶興趣的特征。
該特征的表現(xiàn)形式是(9,1)的向量,因為組里包含的類別信息最多9個。
2.2.2 用戶參與項目的類別特征
這一特征的信息包含的是用戶以往參與平臺各個類型項目的數(shù)據(jù)統(tǒng)計。
項目類別總共有20個,所以以(20,1)的向量表示該特征。
2.2.3 用戶感興趣項目類別;(選擇了用戶參加項目數(shù)量前三名的類別作為用戶感興趣的的項目類別,其余的為不感興趣的類別)。
預(yù)測模型主要針對這一特征進行判斷,判斷用戶是否對該項目有興趣。
該特征表示的是20個項目類別的其中一個,采用(1,1)的向量表示。
2.3 實驗結(jié)果與分析
本次實驗的目的是使用購買項目多的用戶數(shù)據(jù)進行訓(xùn)練,來預(yù)測項目少的用戶的興趣類型。
通過MySQL數(shù)據(jù)庫對數(shù)據(jù)的整理,得到的可訓(xùn)練樣共3000個,抽取2400個作為訓(xùn)練樣本,600個作為測試樣本,實驗每次100個樣本輸入模型,預(yù)計訓(xùn)練2000次(查準率趨于穩(wěn)定,自動結(jié)束本次訓(xùn)練)。使用交叉驗證的方式進行實驗。
根據(jù)個性化推薦方案模型預(yù)測的結(jié)果,分析該推薦系統(tǒng)的推薦質(zhì)量。
選用的分析指標有:
2.3.1 查準率[8]
該指標表明預(yù)測模型對客戶的個性化推薦與客戶興趣的相關(guān)性。
2.3.2 迭代時間
該指標表明模型訓(xùn)練所耗時間。(主要針對客戶數(shù)據(jù)更新時,模型的重新建立所需消耗資源的體現(xiàn))
本文主要以查準率和迭代時間表示個性化推薦系統(tǒng)的推薦質(zhì)量,并使用了交叉驗證保證其可靠性。
通過圖3、圖4,我們可以計算出:
5次模型訓(xùn)練的查準率 =[0.96173042,0.96333331,
0.96333331,0.96333331,0.96327209]
5次模型訓(xùn)練的(達到最高查準率的)迭代時間= [2.7099998,8.81200004,
9.95000005,3.18400002,6.27800012]
5次模型訓(xùn)練的平均查準率=0.96300,平均訓(xùn)練時間=6.186800,平均迭代次數(shù)=149.600。
其中考慮到神經(jīng)網(wǎng)絡(luò)訓(xùn)練中加入了dropout函數(shù),其函數(shù)的隨機性對訓(xùn)練影響,我們選用了多次模型訓(xùn)練中耗時最長的一次實驗作為參考,根據(jù)數(shù)據(jù)分析,可以看到個性化推薦模型的推薦質(zhì)量較為理想,其查準率高達96.3%,訓(xùn)練時間最長也不超過10s。較短的訓(xùn)練時長對于個性化推薦系統(tǒng)以后的模型更新也是非常方便的。
本次實驗由于選擇了更具代表性的特征進行訓(xùn)練,通過不斷調(diào)參的神經(jīng)網(wǎng)絡(luò),訓(xùn)練出的預(yù)測模型在查準率和迭代時間兩個指標上更為良好。
3 結(jié)語
隨著大數(shù)據(jù)時代的到臨,各行各業(yè)信息過載將越來越凸顯。如何根據(jù)用戶個人習慣來找出用戶的興趣特征進行個性化推薦是一個重要的研究領(lǐng)域。本文是針對Prosper貸款平臺數(shù)據(jù)的個性化推薦方案,解決購買項目少、興趣特征不明顯的用戶的個性化推薦問題;并且還具有模型訓(xùn)練快速,推薦質(zhì)量高的特點。
還需要說明的是,該方案僅是依據(jù)實驗中所提的3個特征,對于用戶而言還有其他數(shù)據(jù)中隱含著代表用戶興趣特征的數(shù)據(jù)可供使用。利用更多類型的數(shù)據(jù)有可能會提高個性化推薦質(zhì)量,這可以在日后工作中進行鉆研和完善。
注釋:
①原始數(shù)據(jù)參考網(wǎng)址:https://www.prosper.com/Downloads/Services/Documentation/ProsperDataExport_Details.html。
參考文獻:
[1]喬嵐.基于大數(shù)據(jù)技術(shù)的個性化推薦系統(tǒng)的設(shè)計與實現(xiàn)[J].信息與電腦(理論版),2017(21):70-72.
[2]胡一.基于大數(shù)據(jù)的電子商務(wù)個性化信息推薦服務(wù)模式研究[D].吉林大學(xué),2015.
[3]葉紅云.面向金融營銷問題的個性化推薦方法研究[D].合肥工業(yè)大學(xué),2011.
[4]韓莉.大數(shù)據(jù)時代的個性化推薦技術(shù)分析[J].晉中學(xué)院學(xué)報,2016,33(03):74-77.
[5]馬相春,鐘紹春,徐妲.大數(shù)據(jù)視角下個性化自適應(yīng)學(xué)習系統(tǒng)支撐模型及實現(xiàn)機制研究[J].中國電化教育,2017(04):97-102.
[6]周志華.機器學(xué)習[M].北京:清華大學(xué)出版社,2016:97.
[7]戚德虎,康繼昌.BP神經(jīng)網(wǎng)絡(luò)的設(shè)計[J].計算機工程與設(shè)計,1998(02):47-49.
[8]余力,劉魯.電子商務(wù)個性化推薦研究[J].計算機集成制造系統(tǒng),2004(10):1306-1313.