俞 楓苑 博趙文瑜馮必成侯 秦
基于BIRCH大數(shù)據(jù)聚類(lèi)方法在證券業(yè)的個(gè)性化服務(wù)
俞 楓1苑 博2趙文瑜3馮必成4侯 秦5
本文以客戶(hù)細(xì)分、客戶(hù)聚類(lèi)為切入點(diǎn),為證券企業(yè)對(duì)客戶(hù)適當(dāng)性服務(wù)與分類(lèi)管理提供技術(shù)支持。第一,本文提出了一種適用于大數(shù)據(jù)集的組合聚類(lèi)方法:BIRCH方法。其通過(guò)構(gòu)建CF(聚類(lèi)特征)樹(shù)層次,實(shí)現(xiàn)對(duì)數(shù)據(jù)的壓縮。第二,本文針對(duì)證券交易記錄數(shù)據(jù),從年度換手率,年度持倉(cāng)率,年度持股時(shí)長(zhǎng)等的特征提取算法。通過(guò)記錄證券交易數(shù)據(jù)提取出可多方面描述客戶(hù)狀態(tài)的動(dòng)態(tài)屬性,可增加證券企業(yè)對(duì)客戶(hù)的識(shí)別。并根據(jù)這些動(dòng)態(tài)屬性進(jìn)行聚類(lèi),其結(jié)果可為證券企業(yè)探求不同客戶(hù)的、最具偏好的針對(duì)性需求作支撐。
BIRCH方法;大數(shù)據(jù);特征提??;證券交易
(一)背景分析
金融體制在中共“十八大”提出,將作為未來(lái)十年發(fā)展改革的重點(diǎn)?!吨袊?guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(shū)(2013)》于2013年,中國(guó)計(jì)算機(jī)學(xué)會(huì)發(fā)布,其指出:“未來(lái)中國(guó)的金融企業(yè)將構(gòu)建智慧型、智能型的數(shù)據(jù)分析體系,充分挖掘其中的規(guī)律,從而支持業(yè)務(wù)創(chuàng)新與服務(wù)創(chuàng)新?!蔽覈?guó)各金融企業(yè)如今都制定了“十二五”發(fā)展規(guī)劃,其中,最核心的指導(dǎo)思想和目標(biāo)是以科技引領(lǐng)創(chuàng)新。未來(lái)幾年,我國(guó)的金融行業(yè)在“大數(shù)據(jù)”時(shí)代下的轉(zhuǎn)型主要集中在三大方面:(1)、根據(jù)巴塞爾協(xié)議和第二代償付能力等的要求,建立全面的風(fēng)險(xiǎn)管理體制,向嚴(yán)監(jiān)管轉(zhuǎn)型,“大數(shù)據(jù)”能夠加強(qiáng)風(fēng)險(xiǎn)的可審性和管理力度;(2)、企業(yè)管理模式從粗放式向精細(xì)化、集約化轉(zhuǎn)型,并且將信息化重點(diǎn)從業(yè)務(wù)信息化向管理信息化轉(zhuǎn)變。“大數(shù)據(jù)”能夠支持精細(xì)化管理;(3)、企業(yè)工作中心從“以利潤(rùn)為中心”和“以保單為中心”向“以客戶(hù)為中心”轉(zhuǎn)型,“大數(shù)據(jù)”為服務(wù)創(chuàng)新提供“原料”支持,通過(guò)數(shù)據(jù)挖掘等技術(shù)可以更好地實(shí)現(xiàn)“以客戶(hù)為中心”理念,通過(guò)對(duì)客戶(hù)消費(fèi)的行為模式進(jìn)行分析,提高客戶(hù)轉(zhuǎn)化率,針對(duì)不同用戶(hù)開(kāi)發(fā)不同的、與之匹配的產(chǎn)品,以滿(mǎn)足客戶(hù)個(gè)性化市場(chǎng)需求,從而實(shí)現(xiàn)差異化競(jìng)爭(zhēng)。我國(guó)金融三大支柱產(chǎn)業(yè)中,證券行業(yè)是與“大數(shù)據(jù)”粘合度最高的支柱產(chǎn)業(yè),憑借其較高的信息化起點(diǎn)和較快的業(yè)務(wù)發(fā)展速度,其現(xiàn)已實(shí)現(xiàn)了交易撮合、價(jià)格生成發(fā)布的自動(dòng)化和集中化。隨著信息科技、互聯(lián)網(wǎng)等技術(shù)的發(fā)展,證券行業(yè)的信息系統(tǒng)在發(fā)布、交易、結(jié)算、信息披露、技術(shù)監(jiān)控、信息咨詢(xún)與服務(wù)等方面已經(jīng)逐漸完善。在“大數(shù)據(jù)”時(shí)代,互聯(lián)網(wǎng)金融模式不僅可以大幅度削減交易的成本,還可以降低信息挖掘處理的成本。此外,證券企業(yè)的客戶(hù)信息將逐漸成為新的資產(chǎn)和為客戶(hù)提供個(gè)性化服務(wù)的原材料。
(二)問(wèn)題提出
如今,我國(guó)證券行業(yè),正由規(guī)模、傭金等兩方面的競(jìng)爭(zhēng),逐步轉(zhuǎn)向以資訊、產(chǎn)品、交易渠道等三方面的服務(wù)競(jìng)爭(zhēng),這勢(shì)必將成為證券行業(yè)發(fā)展的大趨勢(shì)。并且,這對(duì)我國(guó)證券行業(yè)的競(jìng)爭(zhēng)格局產(chǎn)生較為深遠(yuǎn)的影響。這無(wú)疑對(duì)現(xiàn)有證券企業(yè)的管理體制是一次從頭到腳的顛覆式改革??蛻?hù)對(duì)證券企業(yè)的需求提升主要在信息資訊和投資咨詢(xún)兩方面體現(xiàn)。部分證券企業(yè)開(kāi)始推出點(diǎn)對(duì)點(diǎn)服務(wù)、定期股評(píng)報(bào)告會(huì)等服務(wù)。但大多數(shù)證券企業(yè)推出新服務(wù)時(shí),是以交易量為服務(wù)推出的動(dòng)力源。
現(xiàn)在,證券行業(yè)已從傳統(tǒng)的新增客戶(hù)競(jìng)爭(zhēng),轉(zhuǎn)向定量客戶(hù)的鞏固和持續(xù)。盡管傭金仍成為客戶(hù)選擇證券企業(yè)的關(guān)鍵因素,但越來(lái)越多的客戶(hù)開(kāi)始關(guān)注證券企業(yè)的個(gè)性化服務(wù)。
(三)本文主要研究?jī)?nèi)容及意義
第一,從“大數(shù)據(jù)時(shí)代”到來(lái)的關(guān)鍵要素的視角,闡述“證券業(yè)大數(shù)據(jù)”的由來(lái),展示了業(yè)界和學(xué)術(shù)界內(nèi)較為突出的“證券業(yè)大數(shù)據(jù)”研究成果和應(yīng)用。并介紹“證券業(yè)大數(shù)據(jù)”的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)特點(diǎn)。本文在聚類(lèi)分析方法方面的主要研究對(duì)象是BIRCH方法。BIRCH方法是由Zhang、Ramakrishnan、Linvy提出的組合(多階段)層次聚類(lèi)方法。BIRCH方法通過(guò)CF(聚類(lèi)特征)來(lái)刻畫(huà)、概括一個(gè)簇,形成CF樹(shù)。CF樹(shù)可以在信息量沒(méi)有較多損失的前提下,“壓縮”聚類(lèi)的層次結(jié)構(gòu)。其次,再通過(guò)其它各類(lèi)聚類(lèi)方法對(duì)CF樹(shù)的葉結(jié)點(diǎn)進(jìn)行聚類(lèi),把稀疏的簇當(dāng)做異常點(diǎn)剔除,把稠密的簇合并成更大的簇。并將第二階段(宏聚類(lèi)階段)的聚類(lèi)結(jié)果還原到第一階段(微聚類(lèi)階段)的輸入數(shù)據(jù)對(duì)象(觀測(cè))上,從而實(shí)現(xiàn)完成的聚類(lèi)分析。該方法具有伸縮性強(qiáng)、儲(chǔ)存空間小、抗異常數(shù)據(jù)干擾能力強(qiáng)等特點(diǎn),且其在大數(shù)據(jù)集仍保持優(yōu)良的有效性。在Zhang、Ramakrishnan、Linvy的基礎(chǔ)上,大多數(shù)學(xué)者對(duì)BIRCH方法的衍生研究主要集中于BIRCH微聚類(lèi)階段:(1)閾值動(dòng)態(tài)更新機(jī)制;(2)CF樹(shù)結(jié)點(diǎn)分裂技術(shù)(3)混合型屬性數(shù)據(jù)集處理。
(一)Birch算法的主要思想
Birch算法通過(guò)掃描數(shù)據(jù)庫(kù),建立一個(gè)初始存放于內(nèi)存中的聚類(lèi)特征樹(shù),然后對(duì)聚類(lèi)特征樹(shù)的葉結(jié)點(diǎn)進(jìn)行聚類(lèi)。它的核心是聚類(lèi)特征(CF)和聚類(lèi)特征樹(shù)(CFTree)。CF是指三元組CF=(N,LS,SS),用來(lái)概括子簇信息,而不是存儲(chǔ)所有的數(shù)據(jù)點(diǎn)。其中:N:簇中D維點(diǎn)的數(shù)目;LS:N個(gè)點(diǎn)的線(xiàn)性和;SS:N個(gè)點(diǎn)的平方和。
在BIRCH算法中用到了兩個(gè)重要的知識(shí):聚類(lèi)特征(CF)和CF-Tree聚類(lèi)特征CF是一個(gè)三元組,其中N表示子集內(nèi)點(diǎn)的數(shù)目;和是與數(shù)據(jù)點(diǎn)同維度的向量,是線(xiàn)性和,是平方和。
(二)BIRCH算法的過(guò)程
把待分類(lèi)的數(shù)據(jù)插入一棵樹(shù)中,并且原始數(shù)據(jù)都在葉子節(jié)點(diǎn)上。這棵樹(shù)看起來(lái)是這個(gè)樣子:
在這棵樹(shù)中有3種類(lèi)型的節(jié)點(diǎn):Nonleaf、Leaf、MinCluster,Root可能是一種Nonleaf,也可能是一種Leaf。所有的Leaf放入一個(gè)雙向鏈表中。每一個(gè)節(jié)點(diǎn)都包含一個(gè)CF值,CF是一個(gè)三元組是與數(shù)據(jù)點(diǎn)同維度的向量,是線(xiàn)性和,是平方和。
之后是插入過(guò)程,插入是從CF-Tree根節(jié)點(diǎn)開(kāi)始的
(1)從數(shù)據(jù)庫(kù)中讀取第一條數(shù)據(jù),用這條數(shù)據(jù)構(gòu)造一個(gè)葉子節(jié)點(diǎn)和一個(gè)子簇,子簇就包含在葉子節(jié)點(diǎn)中
(2)當(dāng)讀到后面的第2,第3條數(shù)據(jù)時(shí),需要加入判斷,這個(gè)時(shí)候就要用到關(guān)鍵的參數(shù)B和T,如果新插入的這條數(shù)據(jù)符合已經(jīng)存在的葉子節(jié)點(diǎn),則將他封裝為一個(gè)簇,加入到該葉子節(jié)點(diǎn)中,這里判斷符合不符合的標(biāo)準(zhǔn)就是根據(jù)閾值T判斷的,如果加入該葉子節(jié)點(diǎn)使得半徑超過(guò)T,則需要新建簇作為該節(jié)點(diǎn)的兄弟節(jié)點(diǎn),如果作為兄弟節(jié)點(diǎn),其葉子節(jié)點(diǎn)的孩子節(jié)點(diǎn)超過(guò)B,則需要對(duì)葉子節(jié)點(diǎn)進(jìn)行分裂,分裂的規(guī)則是選出簇間距離最大的二個(gè)孩子,分別作為二個(gè)葉子,然后其他的孩子按照就近分配。非葉子節(jié)點(diǎn)的分裂規(guī)則同上。
(3)最終的構(gòu)造模樣大致如此:
簇中心、簇半徑、簇直徑以及兩簇之間的距離D0到D3都可以由CF來(lái)計(jì)算:
這里的N,LS和SS是指兩簇合并后大簇的N,LS和SS。所謂兩簇合并只需要兩個(gè)對(duì)應(yīng)的CF相加那可
CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)
每個(gè)節(jié)點(diǎn)的CF值就是其所有孩子節(jié)點(diǎn)CF值之和,以每個(gè)節(jié)點(diǎn)為根節(jié)點(diǎn)的子樹(shù)都可以看成是一個(gè)簇。
Nonleaf、Leaf、MinCluster都是有大小限制的,Nonleaf的孩子節(jié)點(diǎn)不能超過(guò)B個(gè),Leaf最多只能有L個(gè)MinCluster,而一個(gè)MinCluster的直徑不能超過(guò)T。
(三)算法流程
BIRCH算法流程分為四個(gè)階段,如下圖所示:
基于BIRCH算法的證券客戶(hù)細(xì)分,在我國(guó)證券行業(yè)發(fā)展的初期,證券市場(chǎng)一直是個(gè)“買(mǎi)方’市場(chǎng)。這意味著客戶(hù)主動(dòng)找證券企業(yè)來(lái)尋求投資,而不需要證券企業(yè)去挖掘客戶(hù)。這是造成證券企業(yè)不重視客戶(hù)服務(wù)的原因之一。隨著我國(guó)證券市場(chǎng)的發(fā)展,證券企業(yè)不斷涌現(xiàn),導(dǎo)致了證券企業(yè)之間相互競(jìng)爭(zhēng)客戶(hù)資源的現(xiàn)象。而我國(guó)證券市場(chǎng)也逐步由一個(gè)“買(mǎi)方”市場(chǎng)逐步轉(zhuǎn)入到了一個(gè)“賣(mài)方”市場(chǎng),這意味著證券行業(yè)在與證券市場(chǎng)協(xié)調(diào)發(fā)展的同時(shí),隨著證券市場(chǎng)不斷規(guī)范和成熟,逐漸從粗放式管理向精細(xì)化、集約化管理轉(zhuǎn)變。此外,證券企業(yè)間的競(jìng)爭(zhēng)程度也受市場(chǎng)行情影響。
本文主要討論客戶(hù)年度換手率,客戶(hù)年度持倉(cāng)率,客戶(hù)年度持股時(shí)長(zhǎng),客戶(hù)年度資金流動(dòng)率。
(一)客戶(hù)年度換手率的特征提取
客戶(hù)年度換手率是指客戶(hù)在該年度進(jìn)行股票投資時(shí)交易金額占可支配金額的平均比例。本文用中位數(shù)作為集中趨勢(shì)的代表,避免了異常數(shù)據(jù)的干擾。具體算法思路如下:算法:年度換手率輸入:D:(各個(gè)對(duì)象、數(shù)據(jù)集)。輸出:各個(gè)對(duì)象的年度換手率。方法:(1)將D按客戶(hù)編號(hào)排序,將客戶(hù)編號(hào)一致的對(duì)象提取出,并合成子集D;(2)REPEAT;(3)在第i個(gè)子集中,將交易日期先后順序排序,在同一日期的對(duì)象里,再按交易序號(hào)先后排序;(4)根據(jù)交易類(lèi)型,選出交易類(lèi)型是買(mǎi)入股票的對(duì)象;(5)計(jì)算所選出的每個(gè)對(duì)象換手率=買(mǎi)入金額/(買(mǎi)入股票+后資金額);(6)在所選出的每個(gè)對(duì)象的換手率中,取換手率的中位數(shù)作為年度換手率。
(二)客戶(hù)年度持倉(cāng)率的特征提取
客戶(hù)年度持倉(cāng)率是指客戶(hù)在該年度月末平均持倉(cāng)率。其中,月末平均持倉(cāng)率為月末持有股票資產(chǎn)占月末總資產(chǎn)的比例。本文用中位數(shù)作為集中趨勢(shì)的代表,避免了異常數(shù)據(jù)的干擾。具體算法思路如下:算法:年度持倉(cāng)率輸入:D:(各個(gè)對(duì)象、數(shù)據(jù)集)。輸出:各個(gè)對(duì)象的年度換手率。方法:(1)將D按客戶(hù)編號(hào)排序,將客戶(hù)編號(hào)一致的對(duì)象提取出,并合成子集D;(2)REPEAT;(3)在第i個(gè)子集中,將交易日期先后順序排序,在同一日期的對(duì)象里,再按交易序號(hào)先后排序;(4)按交易日期,對(duì)象提取出來(lái),并生成第k個(gè)子子集;(5)REPEAT;(6)按交易日期,生成第i個(gè)子子子集DIKi(i=1,2,…,12);(7)根據(jù)交易類(lèi)型,選出交易類(lèi)型是買(mǎi)入的對(duì)象;(8)計(jì)算交易類(lèi)型是買(mǎi)入的所有對(duì)象的股數(shù)A的∑A。
(三)客戶(hù)年度持股時(shí)長(zhǎng)的特征提取
客戶(hù)年度持股時(shí)長(zhǎng)是指客戶(hù)在該年度所賣(mài)出的股票的平均持有時(shí)間長(zhǎng)度。本文用中位數(shù)作為集中趨勢(shì)的代表,避免了異常數(shù)據(jù)的干擾。具體算法思路如下:算法:年度持股時(shí)長(zhǎng)輸入:D:(各個(gè)對(duì)象、數(shù)據(jù)集)。輸出:各個(gè)對(duì)象的年度換手率。方法:(1)將D按客戶(hù)編號(hào)排序,將客戶(hù)編號(hào)一致的對(duì)象提取出,并合成子集d;(2)REPEAT;(3)在第i個(gè)子集中,將交易日期先后順序排序,在同一日期的對(duì)象里,再按交易序號(hào)先后排序;(4)按交易日期,對(duì)象提取出來(lái),并生成第j個(gè)子子集DIK(j=1,2,…,9);(5)根據(jù)交易類(lèi)型,選出交易類(lèi)型是買(mǎi)的對(duì)象;(6)客戶(hù)的年度持股時(shí)長(zhǎng)為各證券編號(hào)股票上的持股時(shí)長(zhǎng)的中位數(shù);(7)UNTIL所有年份的子子集計(jì)算結(jié)束;(8)UNTIL所有客戶(hù)子集計(jì)算結(jié)束。
(四)客戶(hù)年度資金流動(dòng)率的特征提取
客戶(hù)年度資金流動(dòng)率是指客戶(hù)在該年度資金流入、流出次數(shù)之和占交易總次數(shù)的比例。具體算法思路如下:算法:年度資金流動(dòng)率輸入:D:(各個(gè)對(duì)象、數(shù)據(jù)集)。輸出:各個(gè)對(duì)象的年度換手率。方法:(1)將D按客戶(hù)編號(hào)排序,將客戶(hù)編號(hào)一致的對(duì)象提取出,并合成子集D;(2)REPEAT;(3)在第i個(gè)子集中,將交易日期先后順序排序,在同一日期的對(duì)象里,再按交易序號(hào)先后排序;(4)計(jì)算對(duì)象個(gè)數(shù)n1;(5)根據(jù)交易類(lèi)型,選出交易類(lèi)型是資金流入的對(duì)象;(6)計(jì)算交易類(lèi)型是資金流入的對(duì)象個(gè)數(shù)n2;(7)IF n2=0,THEN該年度資金流動(dòng)率直接輸入0;(8)根據(jù)交易類(lèi)型,選出交易類(lèi)型是資金流出的對(duì)象;(9)計(jì)算交易類(lèi)型是資金流入的對(duì)象個(gè)數(shù)n3;(10)年度資金流動(dòng)率=(n2+n3)/n1;(11)REPEAT所有年份子子集計(jì)算結(jié)束;(12)REPEAT所有客戶(hù)子集計(jì)算結(jié)束。
[1]曾曉迪.一種基于 K-mediods 改進(jìn) BIRCH 的大數(shù)據(jù)聚類(lèi)方法 2015.學(xué)位論文
[2]曾曉迪,石磊,李興奇.基于非結(jié)構(gòu)化數(shù)據(jù)的金融大數(shù)據(jù)分析方法介紹[J].泛亞金融.2014 年 11 月(創(chuàng)刊號(hào)):91-99.
[3]曾曉迪.基于灰色理論的區(qū)域宜居性模糊綜合評(píng)價(jià):以上海市交通便捷和區(qū)域宜居分析為例[J].云南財(cái)經(jīng)大學(xué)研究生學(xué)刊,2014年第 1 期:91-109.
[4]王園.證券業(yè)客戶(hù)細(xì)分模型構(gòu)建及實(shí)證研究[J].上海管理科學(xué),2012,34(2):30-35.
[5]劉靜.基于數(shù)據(jù)挖掘的證券公司客戶(hù)細(xì)分及其應(yīng)用研究[D].同濟(jì)大學(xué),2008.
[6]李君鋒.數(shù)據(jù)挖掘在證券業(yè) CRM 中的應(yīng)用研究[D].西安電子科技大學(xué),2009.
[7]張效嚴(yán),齊春瑩.基于數(shù)據(jù)挖掘技術(shù)的證券客戶(hù)分析系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2008,28,369-375.
[8]陳農(nóng)心,張效嚴(yán).數(shù)據(jù)掘技術(shù)在證券分析系統(tǒng)的應(yīng)用研究[J].計(jì)算機(jī)仿真,2010,27(10),301-305.
[9]熊淑華.數(shù)據(jù)挖掘技術(shù)在證券業(yè) CRM 中的應(yīng)用研究[D].南昌大學(xué),2008.
[10]王圣明.數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用[D].浙江工商大學(xué),2008.
俞楓 男,1969年出生,上海國(guó)泰君安信息技術(shù)部經(jīng)理,教授級(jí)高級(jí)工程師
苑博 男,1982年出生,上海國(guó)泰君安信息技術(shù)部大數(shù)據(jù)平臺(tái)總監(jiān)
趙文瑜 男,1966年出生,上海華東理工大學(xué)金融大數(shù)據(jù)聯(lián)合研究中心
馮必成 男,1976年出生,上海華騰軟件系統(tǒng)有限公司技術(shù)研發(fā)總監(jiān),高級(jí)工程師
侯秦 女,1969年出生,上海華騰軟件系統(tǒng)有限公司市場(chǎng)主管,工程師