葛昆,武丁杰,鄒德龍,向琴,宋夏芝
(中國民用航空飛行學(xué)院,廣漢618300)
隨著互聯(lián)網(wǎng)的發(fā)展與成熟,“智慧校園”一詞成為高校未來建設(shè)的重要一環(huán)。智慧校園需要互聯(lián)網(wǎng)校園中心的建立,實現(xiàn)互聯(lián)互通和解決計算存儲問題。高校在實現(xiàn)數(shù)據(jù)存儲情況已經(jīng)基本完成,由各個學(xué)校的校園卡作為載體進行數(shù)據(jù)的轉(zhuǎn)載。但是,各個信息作為單獨的個體獨立存儲,距離真正的智慧校園還是有一定的差距。如何拉動各個系統(tǒng)之間的數(shù)據(jù)實現(xiàn)跨系統(tǒng)的聯(lián)動是未來工作的重中之重。目前,以中國民用航空飛行學(xué)院的校園卡為例,學(xué)生的在校行為是處于被記錄狀態(tài),學(xué)生日常在校的消費時間、消費記錄都可以很好地被保存下來,學(xué)生眾多的日常行為都可以通過數(shù)據(jù)反應(yīng)出來。
本文基于中國民用航空飛行學(xué)院的校園卡的數(shù)據(jù),對學(xué)生在校的日常行為進行分析。每年國家提供給家庭困難的大學(xué)生許多經(jīng)濟援助,但是我們常常發(fā)現(xiàn)由于需要判定的條件很多,以及認證環(huán)節(jié)存在的不規(guī)范現(xiàn)象,僅僅通過一紙認定會造成偏差。本文通過對校園數(shù)據(jù)的挖掘,整理分析基于校園卡的學(xué)生在校數(shù)據(jù),對學(xué)生在校的消費記錄進行整理和分析,從而反應(yīng)個體或者群體在校的整體情況,為今后校園食堂的整改、貧困學(xué)生的認證提供有效的數(shù)據(jù)支持,為今后貧困學(xué)生的認定提供一個有效手段。
用戶畫像是一種工具,它可以將用戶的行為數(shù)據(jù)和用戶屬性結(jié)合起來,根據(jù)用戶的消費、習(xí)慣、社交等給用戶貼上不同的標簽。如圖1所示是構(gòu)建用戶數(shù)字畫像的基本流程。
圖1 構(gòu)建用戶數(shù)字畫像流程
中國民用航空飛行學(xué)院的學(xué)生卡記錄了學(xué)生的校園生活消費的地點,間接記錄了一個學(xué)生在校運動的軌跡,包含了餐廳消費的金額、餐廳消費的時間、洗澡時間等等,搜集這些數(shù)據(jù)抽象化構(gòu)建學(xué)生的虛擬形象,學(xué)生在校的行為分析如圖2所示。
圖2 學(xué)生在校行為分析
由于學(xué)生在校流水數(shù)據(jù)眾多,這些數(shù)據(jù)都存儲在數(shù)據(jù)庫中,本實驗僅僅研究學(xué)生在校的消費情況,由于人員操作失誤或者因為機器本身的影響,我們拿到的數(shù)據(jù)會存在一些錯誤、丟失或者內(nèi)容重復(fù)等問題。為了使后續(xù)實驗進展順利,我們需要對數(shù)據(jù)進行清洗。
數(shù)據(jù)清洗就是將我們獲得的雜亂無序、錯誤、重復(fù)、不符合規(guī)則的“臟數(shù)據(jù)”修正為可以直接帶入模型的“干凈數(shù)據(jù)”的過程。數(shù)據(jù)的預(yù)處理主要是去除缺失值,處理異常值,對文本字符串進行簡單處理等。
進行預(yù)處理之后的數(shù)據(jù)為了便于進行數(shù)據(jù)挖掘我們需要對多種不同類型的數(shù)據(jù)進行集成操作。由于在實際存儲過程中會面臨著由于數(shù)據(jù)類型不一致的問題、因此我們需要根據(jù)具體情況對不同數(shù)據(jù)進行集成使得最后輸入的數(shù)據(jù)符合要求。
數(shù)據(jù)變換主要是針對不同形式的數(shù)據(jù)化為統(tǒng)一的形式。本文主要研究學(xué)生消費情況,將變換后具有一致性的數(shù)據(jù)進行聚集、泛化等操作對數(shù)據(jù)進行離散化操作。離散化的數(shù)據(jù)具有穩(wěn)定性強的特點,能夠使得擬合風險減小。
大量數(shù)據(jù)的挖掘不利于效率的提高,為此我們需要對數(shù)據(jù)進行壓縮。數(shù)據(jù)的規(guī)約就是通過變換在保證數(shù)據(jù)原來樣子的情況下對數(shù)據(jù)進行壓縮處理,常見有維規(guī)約、數(shù)量規(guī)約以及數(shù)據(jù)壓縮等方式。由于存儲中的數(shù)據(jù)和本文沒有直接聯(lián)系,我們可以使用數(shù)據(jù)規(guī)約減少需要處理的數(shù)據(jù)量。表1、表2為校園卡消費數(shù)據(jù)進行刪除數(shù)據(jù)規(guī)約的比較。
表1 原始學(xué)生校園卡消費數(shù)據(jù)
表2 數(shù)據(jù)規(guī)約后學(xué)生校園卡消費數(shù)據(jù)
K-means算法是無監(jiān)督學(xué)習(xí)中一個非常典型的例子??梢杂靡粋€比較好理解的例子來解釋:大學(xué)開學(xué)迎來了一大批新生,喜歡音樂的同學(xué)加入到了音樂社,喜歡動漫的同學(xué)加入到了動漫社,喜歡計算機的同學(xué)加入到了計算機社,雖然天南地北不認識的人借著這個機會相互認識形成一個個小團體,小團體在更多同學(xué)的加入下逐漸壯大,最終形成規(guī)模,也就是社團。歸屬感使得相似的人走到一起,不相關(guān)的人漸行漸遠,就形成了物以類聚,人以群分。
機器學(xué)習(xí)中的數(shù)據(jù)樣本也是如此。相似的樣本歸為一類,用這幾個樣本的中心位置表示這個類別,方便其他相似樣本的加入,每當類別中有新的相似樣本的加入,就更新類別的中心位置,方便新樣本適應(yīng)類別,這就是K-means算法的主要邏輯。
在數(shù)學(xué)上我們使用兩點在歐式空間中的距離定義相似度,即兩個點在歐式空間的距離。距離越近表示兩個點越相似,反之兩個點越不相似。為了表示相似的點屬于一類,我們引入了“clus?ter”概念,即屬于一個cluster的樣本都是相似的,也就是一類。為了表述cluster準確信息,還需要定義cluster坐標位置也就是centroid評估離哪個cluster更相似,每個centroid的坐標就是所有cluster的中心也就是均值。
K-means算法思想:假設(shè)存在X1=(0,2),X2=(0,0),X3=(1.5,0),X4=(5,0),X5=(5,2),K=2,即將X1~X5這5個點集分為2類,由于X4與X5距離較近X1,X2,X3距離較近,所以將C1=(X1,X2,X3)分為一類,將C2=(X4,X5)分為另一類,算出兩個分類的重心M1={(0+0+1.5)/3,(2+0+0)/3}={0.5,2/3},M2={(5+5)/2,(2+0)/2}={5,1}。求出幾個點到M1、M2的距離d(Xn,Mn),發(fā)現(xiàn)X1,X2,X3到M1距離近,X4、X5到M2距離近,證明分類合理。
(1)給定N個集合;
(2)將不同簇的中心初始化;
(3)計算樣本到各個中心點距離,選擇距離最近的為該點屬于的簇;
(4)知道更新上限,重新計算中心點;
(5)直到不再變化為止。
由于目前學(xué)生申請國家補助存在一紙評定的問題,各項信息停留在主觀評判,材料申請的客觀性難以評判,導(dǎo)致一些學(xué)生之間存在著虛假信息的上報,使得有限的資源不能給到需要的同學(xué),造成資源的浪費。根據(jù)調(diào)查,學(xué)生在校消費行為主要分為三個部分,一是主要在各個食堂的刷卡消費,這是主要的:其二是利用校園卡在校園商店購買包括日常生活用品、學(xué)習(xí)工具、零食、飲料等費用,這兩點是我們可以記錄并保存下來的。其三是學(xué)生點外賣,由于疫情期間,學(xué)校禁止外賣入內(nèi),這部分我們可以忽略不計。在此大環(huán)境下,學(xué)生的日?;顒雍拖M都集中在校內(nèi),也就是說,校園一卡通承載了學(xué)生在學(xué)校幾乎所有的消費,可以保證我們的研究相對準確,從學(xué)生的校園卡消費可以間接反應(yīng)學(xué)生的消費水平,從而看出學(xué)生的家庭經(jīng)濟情況。為了公平,防止有學(xué)生存在僥幸心理,我們可以將校園消費作為評判學(xué)生是否具有評選資格的重要條件,目前已知有部分高校會每個月在校園卡消費較低的同學(xué)卡中給予一定的資金援助,這種行為值得推廣,并且可以優(yōu)先給予這部分學(xué)生校內(nèi)兼職的機會。所以,我們針對學(xué)生在校校園卡的研究,對解決實際問題具有一定的實際意義。
圖3 利用K-means算法對學(xué)生在校月消費金額進行聚類分析。根據(jù)實際情況,利用K-means算法將學(xué)生的月平均消費情況分為三個層次,即高額水平消費、中等水平消費,以及低水平消費。將聚類中心個數(shù)K的值設(shè)計為3,此時得到的聚類中心為425.6,637.5,821.2,結(jié)果如圖3所示。
圖3 月均消費聚類結(jié)果
根據(jù)K-means聚類得到的結(jié)果如圖4所示。
圖4 月均消費人數(shù)比例分布
根據(jù)分析可得所有的樣本分為3個簇,樣本分別為55%、26%和19%,分別表示有55%的學(xué)生月平均消費在637.5元左右,有26%的學(xué)生月平均消費在425.6元左右,有19%的學(xué)生月平均消費在821.2元左右。如表3所示。
表3 聚簇結(jié)果
通過對學(xué)生校園卡消費情況進行分析,有26%左右數(shù)量的學(xué)生在校消費水平處于較低位置。針對這些學(xué)生的消費情況,學(xué)校負責相關(guān)事宜的老師可以主動去進一步了解這些學(xué)生目前的生活和學(xué)習(xí)情況,針對提交家庭困難學(xué)生申請報告且處于低水平消費一欄的學(xué)生給予勤工助學(xué)的幫助,對于申請貧困生報告但是月平均消費水平為高的學(xué)生應(yīng)該再進行走訪調(diào)查。在大數(shù)據(jù)的支持下,獎學(xué)金、助學(xué)金的發(fā)放將更加透明。
本文完成了中國民用航空飛行學(xué)院部分學(xué)生的校園數(shù)據(jù)卡消費數(shù)據(jù)的挖掘和探索,首先對初始“臟數(shù)據(jù)”進行清洗、集成變換和規(guī)約等操作,然后利用聚類算法對學(xué)生在校消費情況進行分析,得出表面數(shù)據(jù)下深層次的規(guī)律,為學(xué)校對家庭困難學(xué)生的認定提供了有效的技術(shù)手段。