張愛華
摘 要:本文提出一卡通數(shù)據(jù)挖掘的功能需求,并建立了一卡通數(shù)據(jù)挖掘架構(gòu)。采用數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)對一卡通數(shù)據(jù)進行深度處理,為學(xué)校圖書采購、獎學(xué)金發(fā)放、補助發(fā)放以及各項政策制度的制定等提供數(shù)據(jù)支撐。以適應(yīng)學(xué)校信息化發(fā)展,方便師生日常學(xué)習(xí)生活。
關(guān)鍵詞:校園一卡通;數(shù)據(jù)分析;數(shù)據(jù)挖掘
1 現(xiàn)狀分析
目前學(xué)校一卡通系統(tǒng)數(shù)據(jù)量大,因此要使用數(shù)據(jù)挖掘技術(shù)發(fā)掘各個子系統(tǒng)中數(shù)據(jù)的相互關(guān)系,形成有價值的數(shù)據(jù)。校園一卡通數(shù)據(jù)的挖掘分析研究目前主要是兩個方面,一是側(cè)重于理論研究的,主要討論數(shù)據(jù)挖掘技術(shù)在一卡通系統(tǒng)中的可行性;二是則側(cè)重于實證,通過對具體的一卡通數(shù)據(jù)挖掘分析,得出實際的結(jié)論。本文根據(jù)一卡通數(shù)據(jù)挖掘的需求,結(jié)合理論研究和數(shù)據(jù)分析對一卡通數(shù)據(jù)進行了預(yù)處理,構(gòu)建了數(shù)據(jù)挖掘的一卡通數(shù)據(jù)集,為學(xué)校提供數(shù)據(jù)支撐。
2 源數(shù)據(jù)準備
數(shù)據(jù)預(yù)處理又稱為 ETL(Extraction-Transformation-Loading),ETL 最主要包括以下四個方面的數(shù)據(jù)處理:第一步是數(shù)據(jù)清洗:冗余數(shù)據(jù)的刪除,臟數(shù)據(jù)、不一致數(shù)據(jù)的清理。第二是數(shù)據(jù)集成:將各個子系統(tǒng)數(shù)據(jù)整合,打通阻礙,實現(xiàn)數(shù)據(jù)流轉(zhuǎn)。第三是數(shù)據(jù)的選擇:從整合好的數(shù)據(jù)中抽取需要挖掘分析的那一部分,最后是數(shù)據(jù)的變換:通過數(shù)據(jù)轉(zhuǎn)換,把數(shù)據(jù)統(tǒng)一成適合數(shù)據(jù)挖掘的模型與算法的形式,簡單來說數(shù)據(jù)預(yù)處理就是數(shù)據(jù)源的提取、轉(zhuǎn)換、加載!
要對一卡通數(shù)據(jù)進行預(yù)處理,就要了解一卡通的幾類基本數(shù)據(jù),主要包括三大類:身份類數(shù)據(jù)(大類):英文標(biāo)識identity,簡稱id;帳務(wù)類數(shù)據(jù)(大類):英文標(biāo)識accounts,簡稱ac;業(yè)務(wù)類數(shù)據(jù)(大類):英文標(biāo)識operation,簡稱op。數(shù)據(jù)表命名規(guī)則:大類簡稱_數(shù)據(jù)表。
卡戶數(shù)據(jù)示例:卡戶信息表(id_AccountsInfo):卡戶帳號AccNum,卡序列號CardID,卡內(nèi)編號CardCode,卡戶狀態(tài)AccStatus,卡戶類型AccType,交易密碼PayPWD,個人編號PerCode,卡戶姓名AccName,卡戶部門DepNum,卡戶身份ClsNum,證件號碼CertCode,配卡日期PostDate,失效日期LostDate,撤戶日期DelDate等。
流水?dāng)?shù)據(jù)示例:交易流水表(ac_PaymentBooks):交易站點StaNum,卡內(nèi)編號CardCode,卡戶帳號AccNum,交易類型FeeNum,交易金額MonDeal,卡余額MonCard,庫余額MonDBCurr,商戶帳號DealerNum,交易時間DealTime,到帳時間RecTime等。
商戶數(shù)據(jù)示例:商戶信息表(ac_Dealer):商戶帳號DealerNum,商戶名稱DealerName,營業(yè)分組DealGroupNum,卡序列號CardID,結(jié)算人姓名BalanceMan,部門編號DepNum,交易密碼PayPWD等。
從上我們可以看到有很多數(shù)據(jù)是相互關(guān)聯(lián)的,例如:用戶信息表中的AccNum字段與交易流水表中的AccNum字段關(guān)聯(lián);交易流水中的DealerNum字段與商戶信息表的DealerNum字段關(guān)聯(lián)。我們需要從以上這些相互關(guān)聯(lián)的信息中提取轉(zhuǎn)換出我們需要的數(shù)據(jù)。
3 數(shù)據(jù)分析
本文以2018年一年的流水1035.49萬條數(shù)據(jù)為原始數(shù)據(jù),通過數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換等處理提取需要的數(shù)據(jù)。
原始數(shù)據(jù)主要是流水?dāng)?shù)據(jù)和身份信息類數(shù)據(jù),流水?dāng)?shù)據(jù)包括正常的消費流水,充值流水,圈存流水等,其中充值包括銀行轉(zhuǎn)帳充值(目前學(xué)校只支持建行轉(zhuǎn)賬)和充值點現(xiàn)金充值兩種方式。下表給出了2018年一年之中不同充值方式所占的比例。
從上表可以看出銀行轉(zhuǎn)帳已經(jīng)成為學(xué)校一卡通主流的充值方式,占到總額的69.2%,隨著時間的推移和學(xué)校信息化發(fā)展的推進(如統(tǒng)一支付平臺的推進建立等),非現(xiàn)金充值方式所占的比例會越來越高。而使用現(xiàn)金充值使用這種方式充值的主要是退休教職工以及部分無法正常綁定銀行卡的學(xué)生,比如,短期學(xué)校培訓(xùn)人員,技能學(xué)歷班級,假期培訓(xùn)班等。
銀行轉(zhuǎn)帳又包括:圈存機自助轉(zhuǎn)賬、建行微信公眾號轉(zhuǎn)賬和手機APP 轉(zhuǎn)賬。
從以上數(shù)據(jù)分析可以得出現(xiàn)金充值場所可以適當(dāng)減少,充值人員安排可以重新部署,銀行轉(zhuǎn)賬服務(wù)器可以適當(dāng)加強配置以滿足越來越多的轉(zhuǎn)賬需求,自助轉(zhuǎn)賬機設(shè)備可以適當(dāng)裁撤減少設(shè)備支出。
4 數(shù)據(jù)挖掘
本文采用數(shù)據(jù)挖掘中的K-mean 算法,以2018年一年的流水?dāng)?shù)據(jù)為原始數(shù)據(jù)進行聚類分析,從性別、學(xué)歷、身份等各個方面,可以得到以下聚類結(jié)果:
(1)從學(xué)生的消費數(shù)據(jù)和宿舍門禁數(shù)據(jù)聚類分析,這一類的學(xué)生生活規(guī)律、數(shù)據(jù)量多,女生比例高于男生,反應(yīng)了學(xué)校大多數(shù)學(xué)生的學(xué)習(xí)生活習(xí)慣;
(2)從圖書館借閱信息數(shù)據(jù)和圖書館門禁數(shù)據(jù)聚類分析,這一類的女生研究生占比最高,在圖書館預(yù)約座位很規(guī)律,可能是學(xué)校中的學(xué)霸一類,另外從宿舍門禁數(shù)據(jù)可以推測這一聚類人群生活規(guī)律,早出晚歸時間都類似,而且發(fā)現(xiàn)研究生比本科生更規(guī)律;
(3)這一聚類以在校教職工數(shù)據(jù)為主,女教工消費更為頻繁。
另外校園一卡通數(shù)據(jù)量大,除了以上的聚類分析,還可以從商戶營業(yè)狀況聚類分析為商戶的選擇和工作提供指導(dǎo)意見,優(yōu)化POS機的資源配置,使之更好的服務(wù)于學(xué)生,還能對繁冗的圖書借閱信息進行挖掘,聚類分析出學(xué)生感興趣的圖書,進而為學(xué)校圖書的采購與管理提供意見。
參考文獻:
[1]劉文學(xué),劉汝元.基于校園一卡通平臺的數(shù)據(jù)挖掘應(yīng)用分析[J].信息系統(tǒng)工程,2015(5):73.
[2]劉珍蘭,袁新輝,宋強.校園一卡通數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[J].華中師范大學(xué)學(xué)報(自科版),2017(s1):74-77.
基金項目:湖州師范學(xué)院校級科研項目成果(編號KX37009)