摘 要:基于SAS軟件,文章針對(duì)校園一卡通消費(fèi)數(shù)據(jù)進(jìn)行了數(shù)據(jù)挖掘。文章首先對(duì)于此問(wèn)題的總體目標(biāo)及設(shè)計(jì)方案進(jìn)行了統(tǒng)籌規(guī)劃;對(duì)于原始數(shù)據(jù)進(jìn)行了初步處理;采用k均值算法對(duì)消費(fèi)數(shù)據(jù)進(jìn)行聚類分析,對(duì)學(xué)生消費(fèi)情況進(jìn)行分類,從而掌握學(xué)生消費(fèi)情況,了解學(xué)生的消費(fèi)趨勢(shì)。
關(guān)鍵詞:數(shù)據(jù)挖掘;SAS;k均值算法;校園一卡通;消費(fèi)分析
數(shù)據(jù)挖掘使用一定的算法從實(shí)際應(yīng)用數(shù)據(jù)中挖掘出未知、有價(jià)值的模式或規(guī)律等知識(shí),整個(gè)過(guò)程由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、模式評(píng)估、結(jié)果分析和運(yùn)用知識(shí)等步驟組成[1]。隨著信息化技術(shù)發(fā)展,校園一卡通系統(tǒng)中使用過(guò)程中產(chǎn)生了大量數(shù)據(jù),但系統(tǒng)缺少相應(yīng)的分析工具,無(wú)法從海量數(shù)據(jù)中獲取有用的知識(shí)。因此,使用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析,可以了解學(xué)生消費(fèi)情況和消費(fèi)行為,了解學(xué)生之間消費(fèi)的差異性,為學(xué)校制定各種獎(jiǎng)勵(lì)政策提供依據(jù)。
1 目標(biāo)與設(shè)計(jì)方案
1.1 設(shè)計(jì)目標(biāo)
文章以山東某高校2014年4月校園一卡通消費(fèi)數(shù)據(jù)為基礎(chǔ),利用SAS軟件,采用聚類分析,對(duì)學(xué)生消費(fèi)情況進(jìn)行分析。
文章目標(biāo)為通過(guò)對(duì)消費(fèi)數(shù)據(jù)的聚類分析,學(xué)習(xí)學(xué)生的月消費(fèi)金額、消費(fèi)次數(shù),掌握學(xué)生消費(fèi)規(guī)律,了解學(xué)生之間消費(fèi)的共性和差異性,總結(jié)學(xué)生的高、中、低消費(fèi)情況,為學(xué)校制定各類政策提供依據(jù)。
1.2 k均值算法
根據(jù)給定的n個(gè)對(duì)象或者元組的數(shù)據(jù)集,構(gòu)建k個(gè)劃分聚類的方法。每個(gè)劃分即為一個(gè)聚簇。該方法將數(shù)據(jù)劃分為k個(gè)組,每個(gè)組至少包括一個(gè)對(duì)象,每個(gè)對(duì)象必須屬于且只屬于一個(gè)組[2]。
k均值算法[2]如下:
(1)將所有對(duì)象隨機(jī)分配到 k個(gè)非空的簇中。
(2)計(jì)算每個(gè)簇的平均值,并用該平均值代表相應(yīng)的值。
(3)根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離,分配給最近的簇。
(4)轉(zhuǎn)到2,重新計(jì)算每個(gè)簇的平均值。
這個(gè)過(guò)程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)或者終止條件。終止條件可以是以下任何一個(gè):沒(méi)有(或者最小數(shù)目)數(shù)據(jù)點(diǎn)被重新分配給不同的聚類;沒(méi)有(或者最小數(shù)目)聚類中心再發(fā)生變化;誤差平方和(SSE)局部最小。
1.3 方案設(shè)計(jì)
文章設(shè)計(jì)方案分為數(shù)據(jù)處理、數(shù)據(jù)挖掘、結(jié)果分析三部分。其中數(shù)據(jù)處理包括數(shù)據(jù)獲取、數(shù)據(jù)探索、數(shù)據(jù)填缺。
2 數(shù)據(jù)處理
數(shù)據(jù)獲取:
原始數(shù)據(jù)來(lái)自于校園一卡通2014年4月份數(shù)據(jù)。定義10:30之前為早餐時(shí)間,10:30-14:30為午餐時(shí)間,14:30以后為晚餐時(shí)間,在以上時(shí)間段內(nèi)的消費(fèi)行為視為1次消費(fèi),文章共獲取35196條數(shù)據(jù)。數(shù)據(jù)屬性包括:姓名、性別、學(xué)生所在院系、月消費(fèi)總額、月消費(fèi)次數(shù)、月消費(fèi)平均額度、早餐消費(fèi)總額、早餐消費(fèi)次數(shù)、早餐平均消費(fèi)額、午餐消費(fèi)總額、午餐消費(fèi)次數(shù)、午餐平均消費(fèi)額、晚餐消費(fèi)總額、晚餐消費(fèi)次數(shù)、晚餐平均消費(fèi)額,如表1所示。
3 數(shù)據(jù)探索
文章中用于聚類分析的消費(fèi)屬性包括:月消費(fèi)總額、月消費(fèi)次數(shù)、月消費(fèi)平均額度、早餐消費(fèi)總額、早餐消費(fèi)次數(shù)、早餐平均消費(fèi)額、午餐消費(fèi)總額、午餐消費(fèi)次數(shù)、午餐平均消費(fèi)額、晚餐消費(fèi)總額、晚餐消費(fèi)次數(shù)、晚餐平均消費(fèi)額,以上屬性均屬于連續(xù)變量。數(shù)據(jù)探索包括變量壓縮、數(shù)據(jù)標(biāo)準(zhǔn)化。變量壓縮是通過(guò)主成分分析法解決變量的共線性問(wèn)題,數(shù)據(jù)標(biāo)準(zhǔn)化將花費(fèi)等屬性進(jìn)行標(biāo)準(zhǔn)化,從而保證聚類過(guò)程的準(zhǔn)確性。
3.1 變量壓縮
變量壓縮是通過(guò)主成分分析法解決變量的共線性問(wèn)題,變量壓縮結(jié)果如圖1所示。
經(jīng)過(guò)分析后,系統(tǒng)最終將變量分為5類,在每組中,我們使用1-R?鄢?鄢2Ration屬性最小的值所對(duì)應(yīng)的變量,所以最終決定使用午餐消費(fèi)次數(shù)、午餐平均消費(fèi)額、晚餐消費(fèi)總額、早餐平均消費(fèi)額、午餐平均消費(fèi)額變量作為聚類屬性。
3.2 數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)標(biāo)準(zhǔn)化是解決變量之間不同單位、不同變異程度的問(wèn)題,在文章中午餐消費(fèi)次數(shù)單位為次數(shù),午餐平均消費(fèi)額、晚餐消費(fèi)總額、早餐平均消費(fèi)額、午餐平均消費(fèi)額單位為元,所以在SAS軟件中采用極差方法對(duì)午餐消費(fèi)次數(shù)、午餐平均消費(fèi)額、晚餐消費(fèi)總額、早餐平均消費(fèi)額、午餐平均消費(fèi)額進(jìn)行標(biāo)準(zhǔn)化。
4 聚類
采用SAS中兩步聚類過(guò)程,首先采用快速聚類將數(shù)據(jù)聚類成50類,然后對(duì)50類進(jìn)行聚類分析。根據(jù)業(yè)務(wù)分析,最終確定取聚類個(gè)數(shù)為5類。
5 結(jié)果分析
聚類結(jié)果后共將分為5類,圖2為聚類后的各項(xiàng)數(shù)據(jù)指標(biāo),包括各個(gè)聚類的人數(shù)、均值花費(fèi)、最大花費(fèi)、最小花費(fèi)等。從聚類中分析,人員主要集中在兩類中,可以看到以下結(jié)論:
第一類聚類包括18650人,早餐、午餐、晚餐平均消費(fèi)16、22、22次,平均消費(fèi)5-6元。此聚類中人數(shù)占總?cè)藬?shù)的53%,消費(fèi)情況適中,此類人員多在校內(nèi)就餐,因此食堂在日常運(yùn)營(yíng)中保持目前的操作情況即可,另外可以推出5-6元套餐用來(lái)提高銷售額;
第二類聚類包括512人,早餐、午餐、晚餐平均消費(fèi)19、15、11次,平均消費(fèi)7-8元。由于此類人員午餐晚餐消費(fèi)次數(shù)較低,但平均消費(fèi)額度較高,因此可以判斷此類人員多數(shù)在校外就餐,因此食堂在日常運(yùn)營(yíng)中可以推出7-8元的套餐,提高食物質(zhì)量,以吸引這部分學(xué)生;
第三類聚類包括16029人,早餐、午餐、晚餐平均消費(fèi)7、10、7次,平均消費(fèi)6-7元。此聚類中人員占45.5%,由于此類人員午餐晚餐消費(fèi)次數(shù)較低,但平均消費(fèi)額度較高,因此可以判斷此類人員多數(shù)在校外就餐,因此食堂在日常運(yùn)營(yíng)中可以推出6-7元的套餐,提高食物質(zhì)量,以吸引這部分學(xué)生;
第二、三類人員多在校外就餐,但第三類人數(shù)占有率較高,因此應(yīng)針對(duì)這部分學(xué)生制定相關(guān)策略,提高校園內(nèi)就餐率。
通過(guò)聚類發(fā)現(xiàn)學(xué)生的平均消費(fèi)額度在5-7元之間,消費(fèi)低于此額度的學(xué)生可視為低消費(fèi)人員,學(xué)??梢葬槍?duì)此情況制定補(bǔ)助政策。
6 結(jié)束語(yǔ)
通過(guò)對(duì)學(xué)生的月消費(fèi)信息進(jìn)行聚類分析,我們可以了解學(xué)生的消費(fèi)習(xí)慣、消費(fèi)行為以及學(xué)生之間的消費(fèi)差異,商戶可以針對(duì)學(xué)生的消費(fèi)額度制定相應(yīng)的消費(fèi)策略,為學(xué)校制定各種政策提供相應(yīng)依據(jù)。
參考文獻(xiàn)
[1]張佳.數(shù)據(jù)挖掘技術(shù)在校園一卡通系統(tǒng)中的應(yīng)用研究[D].蘇州大學(xué),2013.
[2]黃雯.數(shù)據(jù)挖掘算法及其應(yīng)用研究[D].南京郵電大學(xué),2013.
[3]歐陽(yáng)烽.基于SAS的Web使用日志用戶聚類分析[J].電腦知識(shí)與技術(shù),2013.
[4]王哲.數(shù)據(jù)挖掘技術(shù)在高校圖書館個(gè)性化服務(wù)中的應(yīng)用研究[D].重慶大學(xué),2012.
[5]烏文波.應(yīng)用Apriori關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)挖掘技術(shù)挖掘電子商務(wù)潛在客戶[D].浙江工業(yè)大學(xué),2012.
作者簡(jiǎn)介:仲曉芳(1984-),女,山東省濟(jì)南市,山東女子學(xué)院,助教,碩士研究生,數(shù)據(jù)挖掘研究與應(yīng)用。
張義(1983-),女,山東省淄博市,山東理工大學(xué),在校研究生,數(shù)據(jù)管理與數(shù)據(jù)安全。
龐勝楠(1987-),女,山東省濟(jì)南市,山東女子學(xué)院,助教,碩士研究生,電視媒體與社交媒體互動(dòng)研究。
韓士元(1985-),男,山東省濟(jì)南市,濟(jì)南大學(xué),講師,博士研究生,智能計(jì)算理論與應(yīng)用。
王棟(1983-),男,山東省濟(jì)南市,濟(jì)南大學(xué),講師,博士研究生,智能計(jì)算理論與應(yīng)用。