• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于海量銀行卡的數(shù)據(jù)挖掘推薦系統(tǒng)研究與應(yīng)用

      2022-11-21 09:49:56田甜蔡雅雅李爽
      關(guān)鍵詞:銀行卡數(shù)據(jù)挖掘

      田甜 蔡雅雅 李爽

      關(guān)鍵詞:銀行卡;數(shù)據(jù)挖掘;實(shí)時(shí)推薦

      1引言

      傳統(tǒng)的顧客推薦系統(tǒng)根據(jù)用戶的過去行為做出推薦,或者應(yīng)用傳統(tǒng)的關(guān)聯(lián)規(guī)則模型的APRIORI算法[1],計(jì)算出所有的頻繁集,根據(jù)預(yù)設(shè)的支持度和置信度,計(jì)算出不同的事物間的關(guān)聯(lián)度。但是,這種方法具有相對局限性,截至2019年年末,中國銀行卡累計(jì)發(fā)卡量達(dá)85.3億張,持卡人超過10億,我國境內(nèi)受理商戶累計(jì)2363萬戶,由此每天產(chǎn)生了海量的交易數(shù)據(jù)。推薦算法在人類生活中很早就已經(jīng)得到了應(yīng)用,如向朋友推薦可能感興趣的人、可能感興趣的書籍、可能喜歡吃的食物。而隨著互聯(lián)網(wǎng)昀普及,這種推薦方式逐漸從人們的生活經(jīng)驗(yàn)中轉(zhuǎn)移到了大型的數(shù)據(jù)中心和研究中心,使用數(shù)學(xué)公式和現(xiàn)代化的分析工具進(jìn)行分析。從最開始的各類熱點(diǎn)排行榜[2],到之后的各類網(wǎng)站推出的“猜你喜歡”[3],再到根據(jù)用戶行為數(shù)據(jù)分析得到有效數(shù)據(jù)的各種個(gè)性化推薦系統(tǒng)。應(yīng)用傳統(tǒng)的方法在數(shù)據(jù)集合中挖掘消費(fèi)行為,不僅效率低下,而且需要大量手工分析,不利于實(shí)現(xiàn)系統(tǒng)的實(shí)時(shí)性和有效性。本文介紹了一種基于海量銀行卡的數(shù)據(jù)挖掘推薦系統(tǒng),無須借助商業(yè)挖掘工具,就能實(shí)現(xiàn)實(shí)時(shí)和非實(shí)時(shí)推薦。

      2數(shù)據(jù)挖掘簡介

      2.1確定對象

      數(shù)據(jù)挖掘先要確定目標(biāo),然后對現(xiàn)有資源進(jìn)行評估,再確定問題是否能通過數(shù)據(jù)挖掘來解決。挖掘的最后結(jié)果是不可預(yù)測的,但要探索的問題應(yīng)該有預(yù)見性和目標(biāo)性。一般而言,數(shù)據(jù)挖掘側(cè)重解決四類問題,即分類、聚類、關(guān)聯(lián)、預(yù)測[4]。

      2.2分類問題

      分類問題屬于預(yù)測性問題,與預(yù)測問題的區(qū)別在于其預(yù)測結(jié)果是類別(如A,B,C三類),而不是一個(gè)具體的數(shù)值(如100、1000)[5]。在商業(yè)應(yīng)用中,分類問題實(shí)踐中使用最多,如預(yù)測哪些客戶會(huì)參與某個(gè)促銷活動(dòng),預(yù)測哪些客戶在未來一段時(shí)間是否會(huì)停止使用銀行卡。解決這一類問題的前提是通過歷史數(shù)據(jù)的收集,明確某些用戶的分類結(jié)果,確認(rèn)分類成功的前提是要有明確的樣本集。

      2.3聚類問題

      聚類主要解決的是把一群對象劃分成若干個(gè)組的問題,其主要特征是需要明確的數(shù)據(jù)支持,僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息將數(shù)據(jù)分組。目標(biāo)是組內(nèi)的對象相互之間是相似的,而不同組中的對象是不同的。例如,需要選擇的若干個(gè)指標(biāo)項(xiàng)(如渠道、商戶類型、交易金額等),對已有的用戶群進(jìn)行劃分,特征相似的用戶聚為一類,特征不同的用戶分屬于不同的類。

      2.4關(guān)聯(lián)問題

      關(guān)聯(lián)問題主要是解決世界上萬事萬物間千絲萬縷的聯(lián)系的問題。關(guān)聯(lián)分析可從大量數(shù)據(jù)中發(fā)現(xiàn)事物、特征或者數(shù)據(jù)之間頻繁出現(xiàn)的相互依賴關(guān)系和關(guān)聯(lián)關(guān)系。這些關(guān)聯(lián)并不總是事先知道的,而是通過集中數(shù)據(jù)的關(guān)聯(lián)分析獲得的。例如,一群持卡人去了多種商戶類型的商戶,哪些同時(shí)去的商戶類型的概率比較高:去了A商戶的同時(shí),接下來去哪些商戶的概率比較高。

      2.5預(yù)測問題

      預(yù)測主要指的是預(yù)測變量的取值為連續(xù)數(shù)值型的情況。預(yù)測的目的是利用過去已有的知識(shí)和發(fā)生過的事情來更好地了解未來,以及做出合理的期望。例如,預(yù)測下一年度的GDP增長率以及銀聯(lián)卡產(chǎn)業(yè)下一年度的新增持卡人數(shù)等。預(yù)測問題的解決更多的是采用統(tǒng)計(jì)學(xué)的技術(shù),如回歸分析和時(shí)間序列分析。

      2.6實(shí)時(shí)推薦系統(tǒng)

      本文介紹的實(shí)時(shí)推薦系統(tǒng)分為三個(gè)部分,即數(shù)據(jù)ETL流程、行為數(shù)據(jù)挖掘和營銷實(shí)施(圖1)。

      (1)數(shù)據(jù)ETL流程:數(shù)據(jù)抽取、轉(zhuǎn)換、加載、集成的實(shí)時(shí)性。

      (2)行為數(shù)據(jù)挖掘:通過數(shù)據(jù)挖掘,以產(chǎn)生決策支持的實(shí)時(shí)性。

      (3)營銷實(shí)施:將決策支持付諸于實(shí)施的實(shí)時(shí)性。

      3數(shù)據(jù)準(zhǔn)備

      根據(jù)不同的業(yè)務(wù)問題,選取不同的、相關(guān)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。下文以營銷“麻辣風(fēng)暴”為例,數(shù)據(jù)的篩選分為兩個(gè)方面,即數(shù)據(jù)口徑和樣品集范圍。

      3.1數(shù)據(jù)口徑

      根據(jù)營銷的目標(biāo)導(dǎo)向,旨在發(fā)掘商戶間的關(guān)聯(lián)信息進(jìn)行針對性營銷,挖掘相關(guān)聯(lián)的商戶間的持卡人的線下消費(fèi)交易行為,所以數(shù)據(jù)口徑確定為:數(shù)據(jù)的度量口徑為交易金額、交易筆數(shù)、活動(dòng)持卡人數(shù)等;由于營銷的主要渠道是線下到店商戶交易,因此消費(fèi)的渠道為銀行銀商POS或其他線下消費(fèi)。

      3.2樣品集合

      3.2.1時(shí)間

      營銷時(shí)間的篩選。首先,不同商戶間商戶類型的關(guān)聯(lián)性會(huì)隨著刷卡時(shí)間的不同出現(xiàn)差異。其次,對于營銷的響應(yīng)度而言,樣品時(shí)間越長營銷響應(yīng)度越低。因此,確定了營銷的投送時(shí)間,也就確定了數(shù)據(jù)的篩選時(shí)間。最后,節(jié)假日的不同也會(huì)影響商戶間的關(guān)聯(lián)行為。例如,“火鍋類餐飲”商戶在冬季消費(fèi)的關(guān)聯(lián)性與在夏季消費(fèi)的關(guān)聯(lián)性可能會(huì)出現(xiàn)不同。原因一是,樣品集合在冬季較多。原因二是,樣品集在夏季消費(fèi)的商戶與在冬季消費(fèi)的商戶對比會(huì)各有側(cè)重。另外,營銷時(shí)間的篩選基準(zhǔn)為“一個(gè)月”,可以根據(jù)營銷目標(biāo)的月份進(jìn)行針對性篩選。例如,在12月對“麻辣風(fēng)暴”進(jìn)行營銷,數(shù)據(jù)的樣品集可以選擇上一年12月的同比數(shù)據(jù),或者是同年10月的環(huán)比數(shù)據(jù)。篩選的時(shí)間范圍可以按照“季度”調(diào)整。以季度篩選,可以提高關(guān)聯(lián)性的精確度,但卻影響了結(jié)果的響應(yīng)度。篩選的時(shí)間范圍也可以按照“年度”調(diào)整,以“年度”調(diào)整一般用于研究報(bào)告,周期比較長,運(yùn)行的時(shí)間也較長。

      3.2.2卡數(shù)量

      此項(xiàng)主要針對的是卡樣品集的篩選。由于不同商戶間商戶受理的銀行卡張數(shù)不同,需要篩選的卡的樣品集合也不一樣??紤]到樣品集合的運(yùn)行效率和樣品集合的準(zhǔn)確度,選擇以最大10萬為準(zhǔn),依次為5萬或者1萬以下。由此可以綜合考慮商戶的規(guī)模集。

      3.2.3地區(qū)

      針對商戶的受理地區(qū)的選擇,根據(jù)商戶類型的不同,進(jìn)行針對篩選。如果是本地餐飲類,可以考慮篩選受理地區(qū)為“本地”的關(guān)聯(lián)餐飲商戶,如“麻辣風(fēng)暴”“點(diǎn)都德”“海底撈火鍋”。如果是旅游業(yè)態(tài)為主的商戶,如“迪斯尼度假區(qū)”“歡樂谷”“世博園”,則需要關(guān)注全國各地的關(guān)聯(lián)商戶。

      4數(shù)據(jù)清洗及預(yù)處理

      由研究數(shù)據(jù)的質(zhì)量、應(yīng)用異常值分析模塊、進(jìn)行相關(guān)性分析、選擇相關(guān)因子、排除相關(guān)數(shù)據(jù)、進(jìn)行數(shù)據(jù)的清理轉(zhuǎn)換、建立相關(guān)的匯總寬表、調(diào)整數(shù)據(jù)結(jié)構(gòu)等模塊組成,為進(jìn)一步的分析做準(zhǔn)備,并確定將要進(jìn)行的挖掘操作的各個(gè)字段的類型。

      (1)異常值分析模塊:應(yīng)用到所有的挖掘模型,用來確定異常的數(shù)據(jù),適用于大多數(shù)的模型。

      (2)數(shù)據(jù)審查模塊:檢查數(shù)據(jù)的分布情況。

      (3)相關(guān)性分析模塊:適用于因子較多的模型,用來篩選合適的因子經(jīng)過數(shù)據(jù)審查的模塊。

      如果發(fā)現(xiàn)具有大量的金額值小于5元的測試數(shù)據(jù),就會(huì)影響關(guān)聯(lián)的效果。因此,在數(shù)據(jù)的清洗過程中,還要清除交易金額值小于5元的測試數(shù)據(jù)。經(jīng)過數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)轉(zhuǎn)換成一張分析表,這張分析表是針對關(guān)聯(lián)算法而建立的。

      5數(shù)據(jù)算法流程

      關(guān)聯(lián)算法的模型分為兩大步驟,即挖掘出關(guān)聯(lián)商戶、挖掘出相關(guān)人群。

      算法的開始確認(rèn)5個(gè)主要參數(shù):I,J,K,L和S。I代表的是樣品的時(shí)間參數(shù):J代表的是樣品的卡張數(shù):K代表的是關(guān)聯(lián)商戶的名單:L代表的是目標(biāo)人群的卡量;S代表的是持卡人RFM評分結(jié)果。經(jīng)過兩個(gè)流程的梳理,再挖掘出營銷關(guān)聯(lián)強(qiáng)商戶和營銷的目標(biāo)人群。

      算法:Generate_P romotion_List。

      輸入:商戶消費(fèi)信息庫,記作M;個(gè)人消費(fèi)庫,記作D;商戶類別庫,記作L。

      輸出:營銷人群列表L

      方法:(1)掃描商戶消費(fèi)信息庫M-次,收集目標(biāo)營銷商戶C集合的人群列表;(2)掃描個(gè)人消費(fèi)信息庫D-次,收集目標(biāo)C的所有商戶消費(fèi)記錄B;(3)調(diào)用confidence_ calc來計(jì)算關(guān)聯(lián)關(guān)系。該執(zhí)行過程如下,如果B中商戶消費(fèi)中,消費(fèi)記錄則消費(fèi)N的計(jì)數(shù)增加l,對N按照置信度計(jì)數(shù);(4)掃描商戶消費(fèi)信息庫M,篩選關(guān)聯(lián)度緊密用戶自定義的商戶類別(餐飲、百貨、大型倉儲(chǔ)式超級市場),選擇指定商戶篩選出人群列表L;(5)IF M.card_no=L.card_no then收集該卡的交易行為;(6)對個(gè)人RFM評分S;(7)根據(jù)分值S返回營銷列表L。

      6結(jié)果分析

      通過大量數(shù)據(jù)分析實(shí)驗(yàn),結(jié)果表明,川菜的代表“麻辣風(fēng)暴”人群和粵菜的代表“天天漁港”人群關(guān)聯(lián)商戶有明顯差異。例如,去過“麻辣風(fēng)暴”的入群比較喜歡去“歡樂谷”和“科技館”:去過“天天漁港”的人群比較喜歡去“植物園”和“海洋水族館”。以下是部分輸出結(jié)果展示。

      如上輸出結(jié)果所示,比較“麻辣風(fēng)暴”和“天天漁港”主題挖掘結(jié)果:在每家商戶中,均有不同的關(guān)聯(lián)度最高的商戶。在商戶中,有相同的商戶地點(diǎn),也有不同的商戶地點(diǎn)。結(jié)果顯示,在同餐飲商戶類別中,不同商戶的關(guān)聯(lián)結(jié)果是不一致的,證明了結(jié)果的差異性和有效性。

      7結(jié)束語

      在“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)量異常龐大,以不同類型的結(jié)構(gòu)加速數(shù)據(jù)生產(chǎn),支持龐大的數(shù)據(jù)分析規(guī)模是一項(xiàng)非常有意義的工作。本文介紹了一種數(shù)據(jù)挖掘量化的方法和系統(tǒng),該過程描述了從粗放式營銷到活動(dòng)卡營銷,再到區(qū)域性營銷,最后到精準(zhǔn)營銷的數(shù)據(jù)量的變化過程,進(jìn)一步說明應(yīng)用該方法不僅增加了營銷的準(zhǔn)確性,而且增加了營銷的有效性。其中,粗放式營銷是指對已經(jīng)發(fā)卡的卡片進(jìn)行大規(guī)模營銷:活動(dòng)卡營銷是指針對全國活動(dòng)的卡片進(jìn)行營銷:區(qū)域性營銷是指針對特定地區(qū)的所有卡片進(jìn)行大面積營銷:精準(zhǔn)營銷是根據(jù)挖掘后驗(yàn)證的關(guān)聯(lián)結(jié)果進(jìn)行的針對性營銷。系統(tǒng)對大量數(shù)據(jù)進(jìn)行分析,并對大數(shù)據(jù)集合進(jìn)行了大數(shù)據(jù)集的查詢和推薦實(shí)驗(yàn),通過數(shù)據(jù)及效果驗(yàn)證,營銷的效果更好,成本也得到了有效控制,極大地增加了營銷的精準(zhǔn)性和有效性。

      猜你喜歡
      銀行卡數(shù)據(jù)挖掘
      復(fù)雜背景下銀行卡號識(shí)別方法研究
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      銀行卡被同學(xué)擅自透支,欠款誰償還?
      公民與法治(2020年3期)2020-05-30 12:29:58
      誰劃走了銀行卡里的款
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      銀行卡清算市場6月全面開放
      關(guān)于審稿專家及作者提供銀行卡號的啟事
      淺談銀行卡用戶驗(yàn)收測試
      社旗县| 邵东县| 汕头市| 军事| 兰州市| 鄂尔多斯市| 龙陵县| 桐柏县| 商丘市| 长春市| 新野县| 兴安盟| 青铜峡市| 大连市| 阿合奇县| 耿马| 秦皇岛市| 雅安市| 绥德县| 宣汉县| 金山区| 南康市| 威远县| 馆陶县| 建始县| 泽普县| 五峰| 缙云县| 宁明县| 平安县| 洞口县| 西昌市| 夹江县| 吴旗县| 通山县| 乌鲁木齐市| 香格里拉县| 杭州市| 体育| 黄骅市| 四子王旗|