吳勝男
(上海外國語大學(xué) 國際工商管理學(xué)院,上海 200083)
高校與商業(yè)界和公共管理界具有天然的不同。商業(yè)界的構(gòu)成主要為各類企業(yè)及從業(yè)人員,企業(yè)以長期利潤為其終極目標(biāo)。又由于在經(jīng)營活動中產(chǎn)生的海量數(shù)據(jù)的潛在收益迫使業(yè)界無法忽視對潛在信息的挖掘,因此企業(yè)中的大數(shù)據(jù)分析嘗試也建立在有助于企業(yè)的長存和利潤的獲取的基礎(chǔ)之上,共同的目標(biāo)有助于獲得相關(guān)業(yè)務(wù)部門的高度配合,而務(wù)實(shí)的目的(經(jīng)濟(jì)回報(bào))往往催生出實(shí)用性較高的成果。豐厚的研發(fā)資金和自身業(yè)務(wù)積累的大量數(shù)據(jù)又使得成果的轉(zhuǎn)化成為可能,從而形成一種良好的生態(tài)循環(huán)。而公共管理部門的特征在于以政府為核心,集合各個社會部門的力量,運(yùn)用政治經(jīng)濟(jì)及文化的一系列手段,提升政府的績效和公共服務(wù)品質(zhì)。其以政府為中心的特征決定著不必過于在乎前期龐大的開發(fā)費(fèi)用,加上在社會公共服務(wù)和管理業(yè)務(wù)中,由于涉及方面的廣闊和服務(wù)人數(shù)的巨大,必然產(chǎn)生大量種類各異的數(shù)據(jù),為大數(shù)據(jù)分析的發(fā)展提供了良好的機(jī)遇。而高校一端聯(lián)系著社會,一端聯(lián)系著公共服務(wù)。作為社會公共服務(wù)機(jī)構(gòu)的重要一環(huán),高校人口中學(xué)生和教職工占據(jù)絕大多數(shù),因此它的核心在于培育更加優(yōu)秀的學(xué)生,為教職工團(tuán)隊(duì)在科研和個人發(fā)展方面提供支持和良好的管理,而不是經(jīng)濟(jì)利潤的最大化,對于新技術(shù)的轉(zhuǎn)化和花費(fèi)比較大的科研項(xiàng)目,都需要政府或者企業(yè)的資助。從高校的業(yè)務(wù)來看,由于業(yè)務(wù)種類和涉及的結(jié)構(gòu)都相對簡單,產(chǎn)生的數(shù)據(jù)不可避免地體量更輕、結(jié)構(gòu)更加單一,因此從前期投入來源和數(shù)據(jù)的結(jié)構(gòu)來看,都不具有明顯優(yōu)勢。而在高校的大數(shù)據(jù)分析嘗試中,信息部門通常獨(dú)擔(dān)重任,雖然在高校信息化的過程中發(fā)揮著日益重要的作用,信息部門在日常管理和運(yùn)作中并不占據(jù)核心地位,因此在數(shù)據(jù)完整性和數(shù)據(jù)治理上比商業(yè)界和公共管理界略遜一籌,難度更高。
高校的服務(wù)性質(zhì)決定著其進(jìn)行大數(shù)據(jù)分析的目的和側(cè)重點(diǎn)也不一樣,更強(qiáng)調(diào)是否能為學(xué)生和教職工更好地服務(wù),人文關(guān)懷性和科研性更重,不過于強(qiáng)調(diào)經(jīng)濟(jì)效益。因此,目前高校的大數(shù)據(jù)分析嘗試中,大多與學(xué)生的經(jīng)濟(jì)狀況和行為模式挖掘有關(guān),一則由于數(shù)據(jù)來源相對容易,二則由于與高校嘗試大數(shù)據(jù)分析的初衷最為相符。而由于學(xué)生和教職工的活動范圍主要集中在校內(nèi),校園一卡通的使用率很高,其中既包含消費(fèi)行為所產(chǎn)生的經(jīng)濟(jì)數(shù)據(jù),又包含日?;顒?,如圖書館打卡、借閱等產(chǎn)生的應(yīng)用數(shù)據(jù),且數(shù)據(jù)格式整齊、質(zhì)量較高,為高校大數(shù)據(jù)分析提供了良好的數(shù)據(jù)基礎(chǔ),成為一種常用的數(shù)據(jù)來源。
從主題的角度分類,目前基于高校一卡通數(shù)據(jù)的大數(shù)據(jù)分析主要在以下三個方面:
對學(xué)生經(jīng)濟(jì)狀況的挖掘。主要目的在于通過學(xué)生的一卡通消費(fèi)數(shù)據(jù)以及學(xué)生的行為數(shù)據(jù)推測學(xué)生的經(jīng)濟(jì)情況和在校學(xué)習(xí)狀況,找出符合特定經(jīng)濟(jì)標(biāo)準(zhǔn)的學(xué)生。一般應(yīng)用于高校貧困生的認(rèn)定額資助工作以及獎學(xué)金的評定。它的出現(xiàn)是為了避免在此類評定中評定人主觀因素對于資助精確度與效果的影響,以及避免評定過程中的違規(guī)操作。
對學(xué)生學(xué)業(yè)狀況的挖掘。主要目的在于通過學(xué)生以往的行為數(shù)據(jù)和學(xué)業(yè)成果相關(guān)數(shù)據(jù),如績點(diǎn)、科研成就、就業(yè)情況等,挖掘出二者的相關(guān)關(guān)系,從而預(yù)測其他學(xué)生的學(xué)業(yè)成就情況,并且對于有學(xué)業(yè)風(fēng)險(xiǎn)的學(xué)生進(jìn)行干預(yù)。這有利于發(fā)現(xiàn)在教育中應(yīng)該重點(diǎn)關(guān)注的學(xué)生中潛在的科研人才、市場精英以及需要幫助的學(xué)生,提高高校的教學(xué)質(zhì)量。
對后勤服務(wù)及管理狀況的挖掘。這一類的研究應(yīng)用通常與“智慧校園”主題相關(guān),也與“物聯(lián)網(wǎng)”概念相似。此類研究通常關(guān)注高校后勤服務(wù)產(chǎn)生的數(shù)據(jù),如寢室門禁數(shù)據(jù)、食堂就餐人數(shù)和開水消耗數(shù)量等,找出這些數(shù)據(jù)的規(guī)律,可提高后勤服務(wù)質(zhì)量,減少浪費(fèi)縮減成本。
按照主題相關(guān)性和典型性,本文共選取26篇文獻(xiàn)進(jìn)行分析和梳理,其中期刊文章18篇,碩士畢業(yè)論文4篇,會議論文集收錄的文章4篇。由于本文主要梳理大數(shù)據(jù)分析在中國高校的應(yīng)用,因此基本不涉及國外的研究,文章來源為中文論文最權(quán)威的來源——中國知網(wǎng),檢索方法為按照三類主題在中國知網(wǎng)上分別進(jìn)行高級模式下的跨庫檢索,跨庫選擇為期刊、國內(nèi)會議、國際會議、碩士論文、博士論文和報(bào)紙。
按照三類主題,本應(yīng)當(dāng)為每一類主題應(yīng)用不同的關(guān)鍵詞進(jìn)行檢索,然而實(shí)際操作后發(fā)現(xiàn)即使主題相同,不同的學(xué)者在措辭及題目選取上會有一定范圍的差異,比如用大數(shù)據(jù)方法發(fā)現(xiàn)貧困生的研究可以叫做“學(xué)生經(jīng)濟(jì)狀況挖掘”也可以叫做“貧困生發(fā)現(xiàn)”,因此為每一類研究各指定一組關(guān)鍵詞進(jìn)行檢索非常容易發(fā)生漏誤的狀況,因此本文在檢索中采用先使用“一卡通”和“數(shù)據(jù)挖掘”為關(guān)鍵詞,檢索出絕大部分符合要求的文獻(xiàn),再根據(jù)三類主題的特點(diǎn),以“數(shù)據(jù)挖掘”“成績預(yù)測”為關(guān)鍵字進(jìn)行檢索,在檢索出的文獻(xiàn)中選取和高校相關(guān)并且基于一卡通數(shù)據(jù)的文章,補(bǔ)充出遺漏的第二類主題相關(guān)文章。同理,以“智慧校園”為關(guān)鍵字進(jìn)行檢索補(bǔ)充出遺漏的第三類主題相關(guān)文章。
以“一卡通”“數(shù)據(jù)挖掘”為關(guān)鍵字進(jìn)行檢索,共有文獻(xiàn)29篇,時間跨度為11年。按照時間進(jìn)行排列,2016—2014年每年各5篇,2013—2011年每年各1篇,2010—2008年每年各3篇,2007年成果為1篇,2003年1篇,學(xué)科主要集中在計(jì)算機(jī)軟件和計(jì)算機(jī)應(yīng)用、高等教育、互聯(lián)網(wǎng)技術(shù)和無線電電子學(xué)。研究層次主要集中在自科下的工程技術(shù)。其中SCI,CSSCI,EI來源期刊文章數(shù)量為1,按照主題的相關(guān)性,共選取21篇進(jìn)行分析。
以“數(shù)據(jù)挖掘”“成績預(yù)測”為關(guān)鍵字進(jìn)行檢索,共有文獻(xiàn)44篇,時間跨度為13年,大多和高校領(lǐng)域的研究不相關(guān)。其中,SCI,CSSCI,EI來源期刊文章數(shù)量為4,與高校領(lǐng)域的研究均不相關(guān)。按照主題相關(guān)性和典型性,共選取3篇作為補(bǔ)充。
以“高校”“智慧校園”為關(guān)鍵字進(jìn)行檢索,共有文獻(xiàn)466篇,時間跨度為6年。其中,SCI,CSSCI,EI來源期刊文章數(shù)量為29,按照主題相關(guān)性和典型性,共選取2篇作為補(bǔ)充。
本文所選取26篇文章的時間跨度和涉及領(lǐng)域如圖1、2所示。
圖1 按照時間對文獻(xiàn)進(jìn)行分類
圖2 按照領(lǐng)域?qū)ξ墨I(xiàn)進(jìn)行分類
由于在檢索時使用了先查找出所有符合“一卡通”“數(shù)據(jù)挖掘”關(guān)鍵字的文章,再檢索遺漏補(bǔ)充的策略,跨庫選擇也較為全面,并且在第一次檢索出的文章中除掉了幾篇和高校應(yīng)用場景無關(guān)的文章后全部選中進(jìn)行分析,因此這26篇文章可以客觀反映出這一領(lǐng)域的大數(shù)據(jù)應(yīng)用的發(fā)展?fàn)顩r。從統(tǒng)計(jì)圖可知,文獻(xiàn)數(shù)量具有明顯的隨著時間而增長的趨勢,呈現(xiàn)出蓬勃發(fā)展之態(tài)。從來源上分析,碩士論文占有一定比例,證明越來越多的年輕研究人員開始對這一領(lǐng)域感興趣,顯示了一定的發(fā)展?jié)摿?。這些研究主要屬于傳統(tǒng)的計(jì)算機(jī)技術(shù)及應(yīng)用領(lǐng)域,學(xué)科交叉領(lǐng)域的成果較少,學(xué)科之間的滲透不夠深入,還有巨大的研究空間和研究價值。在期刊來源的文章中,SCI,CSSCI,EI來源期刊文章所占比例極低,此領(lǐng)域的研究還不夠成熟,仍然處于起步階段。
大數(shù)據(jù)分析成為一個研究熱點(diǎn)以后,許多研究者也將目光投向了校園平臺數(shù)據(jù)的大數(shù)據(jù)分析。校園平臺數(shù)據(jù)可分為師生日常活動產(chǎn)生的數(shù)據(jù)和教務(wù)數(shù)據(jù)兩類,而前者載體多為一卡通,因此逐漸形成了以一卡通數(shù)據(jù)和教務(wù)數(shù)據(jù)為主、后勤數(shù)據(jù)為輔、著重研究學(xué)生經(jīng)濟(jì)狀況和學(xué)業(yè)狀況的特點(diǎn)。以下,將按照前文所分的三個類別分別進(jìn)行梳理。
在對學(xué)生經(jīng)濟(jì)狀況的挖掘中,因?yàn)橄M(fèi)金額是消費(fèi)能力的直接體現(xiàn),所以大多從學(xué)生的一卡通消費(fèi)金額入手。而一卡通所記錄的消費(fèi)數(shù)據(jù)并不是學(xué)生全部的消費(fèi)數(shù)據(jù),更多的消費(fèi)發(fā)生在校外,因此在此類分析中,為了提高準(zhǔn)確率,往往還要加上對學(xué)生行為的分析。
徐劍[1]對學(xué)生的消費(fèi)水平進(jìn)行了聚類,旨在探尋學(xué)生的消費(fèi)模式與成績之間的相關(guān)關(guān)系,為學(xué)校有關(guān)部門的科學(xué)決策提供一定的依據(jù)。他重點(diǎn)研究了關(guān)聯(lián)規(guī)則挖掘算法,并將經(jīng)典算法發(fā)展為基于布爾稀疏矩陣的算法,提高了效率。首先,使用K-MEANS算法,將每人每月的食堂消費(fèi)額分成高、中、低三檔(聚類時,每一檔的初始值為最高消費(fèi)、平均消費(fèi)和最低消費(fèi))。再將每個月吃早餐的次數(shù)按照十五次為界,劃分為生活規(guī)律和不生活規(guī)律兩類。最后,把學(xué)生成績按照不及格、及格、中等、良好、優(yōu)秀分成五檔,并且將學(xué)生的這三個指標(biāo)轉(zhuǎn)成高維矩陣,運(yùn)行Apriori算法,尋找其中的相關(guān)關(guān)系。其先聚類、后進(jìn)行相關(guān)分析的處理思路及模型對之后的研究產(chǎn)生了較為深遠(yuǎn)的影響,后人在其基礎(chǔ)上改進(jìn),產(chǎn)生了新的模型。
同年,陳建兵[2]也對貧困生的消費(fèi)狀況進(jìn)行了挖掘,主要研究算法,與徐劍直接尋找相關(guān)關(guān)系不同,研究從貧困生和非貧困生的消費(fèi)狀況差異的角度進(jìn)行。在對數(shù)據(jù)進(jìn)行了簡單的規(guī)約之后,使用Apriori算法和FP-Growth算法進(jìn)行相關(guān)分析,用SQL語句統(tǒng)計(jì)了每個學(xué)生每頓飯的平均價格和平均次數(shù),然后把學(xué)校貧困生的數(shù)據(jù)也做相同處理,兩個結(jié)果對比,找出偏離點(diǎn)。
張佳[3]主要研究了鑒別貧困生和對熱水需求量最大的時間段,以及分析了學(xué)校內(nèi)商鋪的營業(yè)狀況。他借鑒了徐劍對于消費(fèi)金額進(jìn)行聚類的思想,具體操作中使用不同的算法。在貧困生分析中,使用Microsoft ID3智能決策樹算法,將學(xué)生的消費(fèi)額分為高、中、低三個檔次,并且使用相同的算法,將學(xué)生在食堂的消費(fèi)次數(shù)分為高、中、低三個檔次,再在消費(fèi)額處于低檔的同學(xué)中除去消費(fèi)次數(shù)也處于低檔的同學(xué),剩下的自動設(shè)立為貧困生備選名單。該模型對徐劍的模型進(jìn)一步發(fā)展,考慮了消費(fèi)的頻次和穩(wěn)定性,本質(zhì)上是計(jì)算平均消費(fèi)金額。而在熱水消費(fèi)分析和商戶的營業(yè)狀況中,使用Excel對消費(fèi)數(shù)據(jù)進(jìn)行加總和統(tǒng)計(jì),得出消費(fèi)熱水多的時段和商戶的營業(yè)狀況。該文章雖使用了經(jīng)典的數(shù)據(jù)挖掘算法,但由于模型的限制,主要實(shí)現(xiàn)的功能仍然集中在傳統(tǒng)數(shù)據(jù)分析領(lǐng)域。
張林紅、劉紅梅[4]在徐劍的基礎(chǔ)上,改善了原文章的模型,用早餐時間、早餐次數(shù)、早餐時間標(biāo)準(zhǔn)差三個維度共同度量生活習(xí)慣的規(guī)律與否,提高了在相關(guān)分析中的準(zhǔn)確性和模型的實(shí)用性。
費(fèi)小丹、董新科、張暉[5]沿用了張佳統(tǒng)計(jì)消費(fèi)頻率的思想并且進(jìn)一步驗(yàn)證和發(fā)展了張佳的模型。因?yàn)樾?nèi)消費(fèi)的價格相比校外更低,作者首先提出了貧困生在校內(nèi)的消費(fèi)頻率更高的假設(shè)。作者將所有學(xué)生的數(shù)據(jù)按照消費(fèi)總金額、總次數(shù)、每次平均金額、日均總金額進(jìn)行聚類,發(fā)現(xiàn)貧困程度和消費(fèi)次數(shù)成正比,和消費(fèi)總金額、日均消費(fèi)總金額、每次平均金額成反比。因此,提出了貧困指數(shù)的公式,幫助貧困生的認(rèn)定工作。作者的核心思維是均次消費(fèi)金額的比較,有一定的參考價值,然而模型假設(shè)和簡單的平均消費(fèi)統(tǒng)計(jì)基本相同。
董新科、張暉[6]研究的重點(diǎn)在于挖掘算法的比較。該研究比較和分析了幾種聚類算法在一卡通數(shù)據(jù)分析中的作用,主要目的在于得出最適合挖掘該類數(shù)據(jù)的算法。測試任務(wù)為對每個學(xué)生的消費(fèi)記錄按照消費(fèi)總額、消費(fèi)次數(shù)、人均消費(fèi)金額、次均消費(fèi)金額進(jìn)行聚類,評價標(biāo)準(zhǔn)為簡單易用性和有效性。最后測試結(jié)果為K-MEANS最適合對校園卡數(shù)據(jù)進(jìn)行聚類,為其后的校園數(shù)據(jù)挖掘采用合適的方法提供了一定指導(dǎo)和依據(jù)。
薛黎明、欒維新、李志淮、樊鐵成[7]分別從時間、地點(diǎn)、消費(fèi)金額等幾個維度對校園卡的消費(fèi)數(shù)據(jù)進(jìn)行了分析,旨在挖掘出學(xué)生消費(fèi)的高峰時間、地點(diǎn)和消費(fèi)層次。研究中大量應(yīng)用聚類算法,不存在具體的模型,是以聚類算法代替單純統(tǒng)計(jì),將經(jīng)典數(shù)據(jù)挖掘算法引入傳統(tǒng)數(shù)據(jù)分析的一次嘗試。按照時間、對消費(fèi)記錄進(jìn)行等距離離散化,統(tǒng)計(jì)出了幾個消費(fèi)時間峰值。再加入學(xué)生性別一項(xiàng)進(jìn)行交叉分析,分析性別對消費(fèi)的影響。按照消費(fèi)地點(diǎn)對消費(fèi)記錄進(jìn)行統(tǒng)計(jì),可得每個消費(fèi)地點(diǎn)的記錄總數(shù),分析出每個地點(diǎn)受歡迎的程度。加入學(xué)生類別一項(xiàng)進(jìn)行交叉分析,可得每類學(xué)生對每個消費(fèi)地點(diǎn)的偏好程度。按照消費(fèi)金額對消費(fèi)記錄進(jìn)行分析,首先用等距離散化和kohonen神經(jīng)網(wǎng)絡(luò)聚類,然后使用決策樹算法進(jìn)行分析,得出每個類別的消費(fèi)者所屬的消費(fèi)金額層次,是使用神經(jīng)網(wǎng)絡(luò)進(jìn)行校園數(shù)據(jù)分析的一次探索性實(shí)踐。
姜楠、許維勝[8]基本沿用了徐劍的思路,但從提高聚類準(zhǔn)確度的角度改善了其模型。主要用迭代、選取方差之和最小的一組的方式尋找K-MEANS最佳聚類中心值,優(yōu)化了聚類的結(jié)果。然后,按照食堂平均消費(fèi)金額、超市消費(fèi)金額、用卡次數(shù)和常去地點(diǎn)對學(xué)生的消費(fèi)模式進(jìn)行聚類。并用同樣的方法對學(xué)生以獎學(xué)金為代表的學(xué)習(xí)成績模式進(jìn)行聚類,對以圖書館借書次數(shù)為代表的學(xué)習(xí)習(xí)慣模式進(jìn)行聚類。最后,采用基于稀疏矩陣的Apriori算法進(jìn)行相關(guān)分析,探討其中的相關(guān)關(guān)系,有利于從學(xué)生的生活習(xí)慣中探究影響學(xué)業(yè)成就的因素。
樊搏、姜玉國[9]繼承徐劍對消費(fèi)金額聚類的思路,運(yùn)用K-MEANS算法以及支持向量機(jī)的算法,將學(xué)生的食堂消費(fèi)金額分為五個檔:貧困、較差、中等、較好、優(yōu)越,自動區(qū)分出貧困生。該模型優(yōu)勢在于兩種算法可互相檢驗(yàn)分類結(jié)果,但文章主要使用食堂消費(fèi)數(shù)據(jù),可以納入更多的學(xué)生消費(fèi)數(shù)據(jù),進(jìn)一步提升模型準(zhǔn)確度。
樊搏、呂艷芝[10]在前人主要依據(jù)消費(fèi)金額的模型基礎(chǔ)上,從心理學(xué)入手,將圈存數(shù)量和早餐次數(shù)納入貧困生挖掘模型。該研究介紹了目前高校信息化建設(shè)和貧困生認(rèn)定工作的現(xiàn)狀,并且在該作者《基于數(shù)據(jù)挖掘的貧困生認(rèn)定輔助系統(tǒng)設(shè)計(jì)》一文的基礎(chǔ)上得到了進(jìn)一步的發(fā)展。該文章把僅從食堂消費(fèi)平均金額的額度判斷標(biāo)準(zhǔn)發(fā)展為消費(fèi)狀況、早餐狀況和圈存狀況的多方面的模型。作者認(rèn)為,貧困生的食堂平均消費(fèi)更低,并且大多更加勤勉,因此,早餐時間更早也更加規(guī)律(就餐時間穩(wěn)定),并且由于心理的不安全感,圈存時一般小額多次。因此這幾個方面可以輔助學(xué)校進(jìn)行貧困生的識別工作,幫助校方進(jìn)行科學(xué)決策。
Chu Gu等[11]極大地發(fā)展了現(xiàn)有的學(xué)生經(jīng)濟(jì)狀況挖掘模型,打破了過于依賴食堂消費(fèi)金額的現(xiàn)狀,利用高校一卡通數(shù)據(jù)和校園平臺上的其他數(shù)據(jù)建立起了綜合的模型,對貧困生進(jìn)行自動的識別。模型的搭建主要圍繞一卡通數(shù)據(jù)、校園網(wǎng)絡(luò)的使用情況和學(xué)生在校園內(nèi)的軌跡畫像三個方面進(jìn)行。模型的建立上,在一卡通數(shù)據(jù)方面主要考察消費(fèi)額度變化、消費(fèi)行為的規(guī)律性和消費(fèi)的沉默期;在校園網(wǎng)絡(luò)的使用方面,主要考察上網(wǎng)時長與費(fèi)用、上網(wǎng)周期與站點(diǎn)記錄、上網(wǎng)流量序列;校園內(nèi)軌跡畫像方面,主要針對學(xué)生的行為模式挖掘和時空感知屬性。本文的基本假設(shè)在于行為模式相似的學(xué)生往往具有相似的經(jīng)濟(jì)條件,因此獲得相似的獎學(xué)金額度。文章創(chuàng)立dis-HARD學(xué)習(xí)算法,計(jì)算學(xué)生特征與獎學(xué)金的相關(guān)性(路徑越短則特征越相合,相關(guān)性越高)并對比了其他數(shù)據(jù)挖掘算法(SVM, MKL, multi-label LSI,TODMIS),證明了HARD學(xué)習(xí)算法的優(yōu)越性,該算法在電子科技大學(xué)已經(jīng)有了成功的應(yīng)用。
高校作為服務(wù)于全社會的教育部門,十分重視學(xué)生的學(xué)業(yè)發(fā)展?fàn)顩r,學(xué)業(yè)發(fā)展?fàn)顩r最為直觀的指標(biāo)是學(xué)生的課程成績。在對學(xué)生學(xué)業(yè)狀況的挖掘中,主要集中在對于學(xué)生成績的預(yù)測,其中途徑之一是用以往的成績預(yù)測未來的成績情況或排名情況,途徑之二是用學(xué)生的日常學(xué)習(xí)及生活相關(guān)數(shù)據(jù)預(yù)測其成績情況或排名情況,二者聯(lián)合使用的情況也存在。由于學(xué)生的成績是具有趨勢性的,以往排名靠前的學(xué)生極有可能此次也排名靠前,因此第一種途徑過于顯然,第二種途徑就成為了研究的熱點(diǎn)。從所使用的模型來看,與學(xué)生經(jīng)濟(jì)狀況的挖掘呈現(xiàn)出的明顯脈絡(luò)和繼承發(fā)展關(guān)系不同,模型和方法多樣化、關(guān)注點(diǎn)和切入角度各不相同是其特點(diǎn)。
武彤、王秀坤[12]旨在預(yù)測單門課程學(xué)生的通過狀況,并發(fā)現(xiàn)影響學(xué)生通過單門考試的因素有哪些.應(yīng)用C4.5決策樹算法,通過學(xué)生性別、對基礎(chǔ)知識的掌握程度和上機(jī)時間來預(yù)測學(xué)生考試的通過率。共抓取了五百組學(xué)生數(shù)據(jù),其中三分之二作為訓(xùn)練集,三分之一作為檢驗(yàn)集。最后結(jié)果顯示,預(yù)測的準(zhǔn)確率高達(dá)87.5%。該研究是采用自動化的方法對學(xué)生成績進(jìn)行預(yù)測的一次嘗試,為以后的研究提供了一定程度的參考。
羅永國[13]使用改進(jìn)的遺傳算法與BP神經(jīng)網(wǎng)絡(luò),從學(xué)生到課率、歷年排名狀況、平時作業(yè)成績、小測驗(yàn)成績幾個方面來構(gòu)建模型,預(yù)測學(xué)生最近一學(xué)期的期末排名,并和其最近一學(xué)期的期末排名對比。共抽取了5000名學(xué)生的數(shù)據(jù),其中4500組用作訓(xùn)練集,500組作為測試集。預(yù)測的效果十分優(yōu)秀,誤差不超過5%。這是從學(xué)生學(xué)習(xí)狀態(tài)來對學(xué)業(yè)成就進(jìn)行預(yù)測的實(shí)踐之一,為之后的研究提供了參考。
劉志嫵[14]應(yīng)用C4.5決策樹算法,用學(xué)生所有科目的成績數(shù)據(jù)構(gòu)建決策樹,找出其中的關(guān)鍵節(jié)點(diǎn),以此來探究學(xué)生各科成績之間相互依賴、相互影響的狀況。從思維上來說,以決策樹為工具對學(xué)生的學(xué)習(xí)狀況做出預(yù)測,將決策樹應(yīng)用到傳統(tǒng)的相關(guān)關(guān)系分析里,有利于對其后的研究在方法上的創(chuàng)新提供參考。
黃建明[15]與劉志嫵[14]的思路相通,切入角度較為相似,但把同期的數(shù)據(jù)擴(kuò)展為不同時期的數(shù)據(jù),因此得以研究先導(dǎo)對后續(xù)的影響。選取了五屆學(xué)生七門主要課程的成績,離散化后,通過貝葉斯網(wǎng)絡(luò)構(gòu)建出貝葉斯圖,通過節(jié)點(diǎn)之間的鏈接來顯示相關(guān)關(guān)系的有無,通過權(quán)值來顯示概率和強(qiáng)弱,從而挖掘出七門課程中先導(dǎo)課程對后續(xù)課程的影響及程度,也能在已知一部分成績的情況下預(yù)測其他科目的成績,是對貝葉斯網(wǎng)絡(luò)應(yīng)用于學(xué)業(yè)表現(xiàn)上的一次應(yīng)用。但它關(guān)注的重點(diǎn)在于課程之間的互相影響,而不是預(yù)測學(xué)生全面的學(xué)業(yè)表現(xiàn)。
呂紅胤、連德富、聶敏、夏虎、周濤[16]利用校園平臺上的一卡通數(shù)據(jù)對高校學(xué)生的學(xué)業(yè)成就進(jìn)行預(yù)測。模型的設(shè)計(jì)較為合理,圍繞努力程度和學(xué)生生活的規(guī)律性進(jìn)行,參考了徐劍對于生活規(guī)律性的度量,并從就餐的規(guī)律性擴(kuò)展到了全面的生活的規(guī)律性。具體而言,努力程度由自習(xí)次數(shù)和上課次數(shù)反映,生活規(guī)律性由出入宿舍的規(guī)律性、就餐的規(guī)律性、洗澡洗衣服的規(guī)律性、購物的規(guī)律性反映。研究證明努力程度和學(xué)生的成績呈正相關(guān),并且一個學(xué)生的成績往往與其朋友的學(xué)習(xí)成績相關(guān)。本文采集學(xué)生六個學(xué)期內(nèi)的上述數(shù)據(jù),前五個學(xué)期的數(shù)據(jù)作為訓(xùn)練集,提取關(guān)聯(lián)規(guī)則,第六學(xué)期的成績作為預(yù)測內(nèi)容,研究證明該模型的預(yù)測效率達(dá)百分之九十以上。該研究成為了該團(tuán)隊(duì)其后推出的一系列校園大數(shù)據(jù)分析的先導(dǎo)。文中表示,為了保護(hù)學(xué)生的隱私,所以把成績換成排名,并進(jìn)行歸一化。歸一化只是為了取消各個學(xué)院之間評分標(biāo)準(zhǔn)和課程的差異造成的成績差異,沒有這一步就無法進(jìn)行客觀的比較。成績和排名的轉(zhuǎn)換脫敏效果十分有限。大數(shù)據(jù)背景下,數(shù)據(jù)的脫敏一直都是一個問題,因?yàn)閿?shù)據(jù)量的龐大,互相對照會使得脫敏失效。
謝星宇和張穎璐[17]從自動分類的角度切入,將涉及心理學(xué)、教育學(xué)和管理學(xué)的成績預(yù)測問題轉(zhuǎn)化為純粹的算法問題。將學(xué)生前兩個學(xué)期的成績數(shù)據(jù)、一卡通數(shù)據(jù)以及圖書館借閱數(shù)據(jù)作為訓(xùn)練集,挖掘出其中的相關(guān)關(guān)系。此研究的主要貢獻(xiàn)在于改進(jìn)了TrAdaboost算法,并用改進(jìn)后的TrAdaboost算法對學(xué)生第三學(xué)期的成績作出預(yù)測。
蔡興雨等[18]利用問卷的方法收集數(shù)據(jù),然后利用粗糙集理論的屬性約減算法和屬性提取算法挖掘出影響高校學(xué)生成績的關(guān)鍵因素以及這些因素和學(xué)生成績之間的依賴關(guān)系,有利于改善教師的教學(xué)方法及學(xué)生的學(xué)習(xí)方法,提高學(xué)生成績。數(shù)據(jù)約減后,一共保留了十四個項(xiàng)目。提取其中的有效規(guī)則后發(fā)現(xiàn),學(xué)生的成績與主觀的學(xué)習(xí)態(tài)度以及客觀的家庭環(huán)境都有關(guān)系。意外發(fā)現(xiàn)女性學(xué)生的成績普遍高于男性學(xué)生,同時還發(fā)現(xiàn)母親的職業(yè)比父親的職業(yè)對于孩子成績的影響更大。該研究的獨(dú)特之處在于并不預(yù)先設(shè)立一個預(yù)測模型,而是圍繞數(shù)據(jù),進(jìn)行開放式的探究活動使得研究不局限于初始的假設(shè),可以挖掘出讓人意想不到的結(jié)論,比如本研究的意外發(fā)現(xiàn)。
李彤彤等[19]認(rèn)為學(xué)習(xí)干預(yù)對于學(xué)生的發(fā)展十分重要,然而學(xué)界對于此的關(guān)注并不太多。作者圍繞干預(yù)引擎,從學(xué)習(xí)者狀態(tài)識別、干預(yù)策略匹配計(jì)算、干預(yù)策略實(shí)施、干預(yù)效果分析四個方面搭建了自己的學(xué)習(xí)干預(yù)模型。學(xué)習(xí)者的狀態(tài)識別主要包括學(xué)習(xí)風(fēng)格、學(xué)習(xí)進(jìn)度、學(xué)習(xí)互動水平與學(xué)業(yè)成就四個方面。數(shù)據(jù)來源分為量表采集和線上教育平臺數(shù)據(jù)。主要的分析方法為聚類,首先建立干預(yù)庫,然后根據(jù)學(xué)生狀況的不同,經(jīng)過計(jì)算給予干預(yù)庫中最優(yōu)的方法,干預(yù)效果由系統(tǒng)和教育者共同追蹤。這是校園平臺大數(shù)據(jù)在學(xué)習(xí)干預(yù)中的一次重要嘗試,可以納入具體的實(shí)踐方法,使文章具有更多的實(shí)踐意義。
高校在承擔(dān)教學(xué)任務(wù)以外,大量的后勤工作也不容小視,后勤服務(wù)效率與質(zhì)量的提高可以極大地提高高校的整體服務(wù)質(zhì)量。近年來,通過數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法對高校后勤及各項(xiàng)事務(wù)進(jìn)行分析,以期對其進(jìn)行流程的改造及重組的研究興起。這類分析的主題集中在學(xué)校的設(shè)施服務(wù)情況和后勤服務(wù),如食堂和澡堂等。由于此類研究常和實(shí)際的需求及實(shí)踐活動(建設(shè)統(tǒng)一化的平臺,改善經(jīng)營績效)聯(lián)系在一起,實(shí)用性高于科研性,因此挖掘的深度并沒有特別深入,在數(shù)據(jù)分析的方法上主要使用統(tǒng)計(jì)方法,但是應(yīng)用大數(shù)據(jù)的分析方法也已經(jīng)成為了新的趨勢。
張兵兵等[20]采用了sql server 中自帶的數(shù)據(jù)挖掘算法,主要采用了Microsoft決策樹算法和Microsoft關(guān)聯(lián)規(guī)則算法,分析了學(xué)生的哪些特征和丟卡次數(shù)密切相關(guān),最后得出結(jié)論學(xué)院是最強(qiáng)的因素。研究生院和國際教育學(xué)院的學(xué)生最愛丟卡。從得出的結(jié)論中分析其原因,有可能模型的設(shè)計(jì)中未能直接定義到影響丟卡次數(shù)的主要因素,而學(xué)院又和這個因素有強(qiáng)烈的相關(guān)關(guān)系(比如同一個學(xué)院的學(xué)生表現(xiàn)出相似的行為模式,而這個行為模式和丟卡與否相關(guān))。
許華虎等通過決策樹算法分析一卡通中記載的學(xué)生體育鍛煉數(shù)據(jù),為學(xué)生的體育鍛煉情況做出分級。作者從常規(guī)的分類方法中受到啟發(fā),選取學(xué)生的活動強(qiáng)度、性別、年齡、體質(zhì)因素,應(yīng)用ID3算法生成決策樹,以此對學(xué)生的體育鍛煉情況做出分級評價。這是使用大數(shù)據(jù)分析方法進(jìn)行校園事務(wù)分析的一項(xiàng)有意義的嘗試,盡管思路與常規(guī)的分類比較相似,但在使用的方法上有一定程度的創(chuàng)新。
許彩娥等旨在建立一個以校園一卡通為介質(zhì)的校園綜合門禁管理平臺,切入的角度為數(shù)據(jù)治理,為其后的數(shù)據(jù)集中分析打下了基礎(chǔ)。針對目前高校門禁系統(tǒng)存在的介質(zhì)不統(tǒng)一,流水?dāng)?shù)據(jù)分散,認(rèn)證數(shù)據(jù)重復(fù)存放的問題,設(shè)計(jì)出了一套以校園卡為唯一介質(zhì),流水?dāng)?shù)據(jù)集中存放、統(tǒng)一管理、刷卡即回傳數(shù)據(jù)的綜合門禁管理平臺,克服了目前存在的問題,對門禁數(shù)據(jù)的統(tǒng)一管理、提升校園后勤服務(wù)質(zhì)量和后期對于門禁數(shù)據(jù)的分析具有重要意義。
石飛飛設(shè)計(jì)并且實(shí)現(xiàn)了一個智慧校園挖掘平臺,嘗試了三類數(shù)據(jù)挖掘和分析:對后勤服務(wù)的挖掘、對于學(xué)生的挖掘以及對于教務(wù)信息的挖掘。對后勤服務(wù)的挖掘中,主要使用了直方圖和散點(diǎn)圖,并未涉及經(jīng)典的數(shù)據(jù)挖掘算法。在對學(xué)生信息的挖掘中,主要使用C4.5算法,將學(xué)生按照消費(fèi)金額和消費(fèi)次數(shù)聚類。然后,利用Apriori算法分析學(xué)生的在網(wǎng)時長、消費(fèi)水平、圖書館借閱、出勤信息、門禁情況和成績是否有相關(guān)關(guān)系。在對教務(wù)信息的挖掘中,使用K-MEANS算法對各類數(shù)據(jù)進(jìn)行聚類。該研究是一次比較綜合的校園平臺數(shù)據(jù)挖掘?qū)嵺`,方法上大數(shù)據(jù)分析方法和傳統(tǒng)的統(tǒng)計(jì)方法兼具。在對學(xué)生信息的挖掘中,模型綜合性較強(qiáng),具有一定的參考價值。
陳鋒通過一卡通記載的學(xué)生就餐記錄統(tǒng)計(jì)出了學(xué)生集中就餐的峰值時間段以及峰值就餐人數(shù),為食堂提供了安全及營業(yè)時間方面的建議。同時,作者還按照正常行課時間與節(jié)假日時間,分別統(tǒng)計(jì)了學(xué)生的消費(fèi)金額、用餐時間和刷卡消費(fèi)次數(shù),根據(jù)學(xué)生在不同時間的消費(fèi)行為模式,為校內(nèi)商戶提供經(jīng)營的建議。在數(shù)據(jù)分析方法上主要為簡單的統(tǒng)計(jì)分析,屬于傳統(tǒng)數(shù)據(jù)分析領(lǐng)域。
馬秀麟、衷克定、劉立超用量化的手段判斷學(xué)生的評教數(shù)據(jù)是否具有有效性。首先,使用克朗巴哈阿爾法系數(shù)法,判斷學(xué)生的評教數(shù)據(jù)是否具有內(nèi)部一致性(是否具有信度),然后使用學(xué)生每年的評教數(shù)據(jù)與督教的評教數(shù)據(jù)進(jìn)行相關(guān)性分析,看是否具有一致性,從而證明學(xué)生的評教數(shù)據(jù)是否具有有效性。最后,對于那些評教分?jǐn)?shù)比較低的老師,用相關(guān)性分析來分析到底哪一方面對于評教得分最有影響,從而對教師的教學(xué)工作提出建議。本研究是分析評教結(jié)果的主要相關(guān)因素,用量化的方法代替了人為的主觀評估,結(jié)果更加客觀。
金培莉、王曉震通過實(shí)例探尋了校園卡數(shù)據(jù)對于學(xué)校決策支持幫助的可能。作者應(yīng)用了食堂就餐數(shù)據(jù)分析、教師就餐補(bǔ)貼分析、熱水洗浴分析三個實(shí)例。就方法而言,屬于簡單的數(shù)據(jù)加總和平均數(shù)分類,處于傳統(tǒng)的統(tǒng)計(jì)分析領(lǐng)域。
在后勤及其他事務(wù)的數(shù)據(jù)挖掘與分析中,從數(shù)據(jù)的分析方法來看,大數(shù)據(jù)的分析方法已經(jīng)成為主流,特別是分類方法。K-means和C4.5已經(jīng)成為最常用的方法,但仍有一部分研究使用平均數(shù)等簡單的統(tǒng)計(jì)方法。大數(shù)據(jù)方法并不天然比統(tǒng)計(jì)方法更加高級,它們有各自不同的應(yīng)用場景,然而在上述文章中,使用統(tǒng)計(jì)分析方法的研究很大一部分并沒有充分發(fā)掘出數(shù)據(jù)的潛在價值,而是簡單的數(shù)據(jù)加總和分類,而使用大數(shù)據(jù)分析方法的研究中也存在著模型效果不佳等問題。從目前的狀況看來,這類研究并不成熟,還有進(jìn)一步研究的必要和空間。
通過對以上三類主題的文章進(jìn)行分析和梳理可以發(fā)現(xiàn),學(xué)者們應(yīng)用大數(shù)據(jù)的分析方法對于校園平臺上的數(shù)據(jù)進(jìn)行分析嘗試,并且隨著時間的推移,模型呈現(xiàn)出越來越成熟、方法也越來越智能化的趨勢,為校園事務(wù)的決策提供了支持,也為后續(xù)的分析嘗試提供了重要的參考和寶貴的經(jīng)驗(yàn)。然而,由于領(lǐng)域的不成熟和客觀條件的限制,仍然能發(fā)現(xiàn)以下三個問題:
分析的數(shù)據(jù)種類和來源過于單一。以上大部分分析的模型都嚴(yán)重依賴學(xué)生的一卡通消費(fèi)數(shù)據(jù),在對學(xué)生的學(xué)習(xí)行為進(jìn)行分析時,又嚴(yán)重依賴圖書館的自習(xí)和借閱數(shù)據(jù)??傮w而言,數(shù)據(jù)種類較少、來源單一。大數(shù)據(jù)分析的魅力之一在于利用多元異構(gòu)化的數(shù)據(jù)建立全面的模型,從行為入手,達(dá)到準(zhǔn)確的分析和預(yù)測效果。數(shù)據(jù)來源的單一性直接導(dǎo)致對被分析對象的行為掌握不全面,因此影響分析和預(yù)測的準(zhǔn)確度。目前,對于一卡通消費(fèi)數(shù)據(jù)和圖書館自習(xí)及借閱數(shù)據(jù)的依賴有其客觀原因:進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)的可得性。由于一卡通涉及消費(fèi)、賬戶安全問題,通常受到校方的高度重視,要求進(jìn)行統(tǒng)一的信息化管理,而圖書館借閱每日龐大的流水?dāng)?shù)據(jù)量也促使校方對于該業(yè)務(wù)迅速進(jìn)行電子化和信息化,一卡通消費(fèi)數(shù)據(jù)與圖書館借閱數(shù)據(jù)通常是校園數(shù)據(jù)中數(shù)據(jù)治理程度最好、質(zhì)量最高、取得最為容易的,因此最便于進(jìn)行數(shù)據(jù)分析的研究。而其他方面的數(shù)據(jù),若要取得并進(jìn)行研究,還依賴于整個校園事務(wù)進(jìn)行信息化和信息治理的程度,而這個程度通常低于前兩項(xiàng)數(shù)據(jù)的程度,給研究造成一定不便。因此在設(shè)計(jì)模型時,會傾向于對于其他質(zhì)量不高的數(shù)據(jù)進(jìn)行避免,因此形成了這樣的依賴現(xiàn)狀。而在前面章節(jié)的梳理中,也可以發(fā)現(xiàn),對于學(xué)生經(jīng)濟(jì)狀況的挖掘、貧困生的發(fā)現(xiàn)的研究數(shù)量比其他兩類稍多,其中的原因之一也在于數(shù)據(jù)的來源。一卡通消費(fèi)數(shù)據(jù)可以作為可以獲得的、反映學(xué)生經(jīng)濟(jì)變量的重要指標(biāo)。隨著數(shù)據(jù)治理的開展,這樣的情況會有所改善。
模型單薄。從以上章節(jié)的分析梳理中可以發(fā)現(xiàn),對于學(xué)生經(jīng)濟(jì)狀況的挖掘,無論采用什么方法進(jìn)行,核心思想基本在于統(tǒng)計(jì)學(xué)生食堂就餐次數(shù)和總消費(fèi),如關(guān)于貧困生發(fā)現(xiàn)的研究,即篩選出消費(fèi)總金額低而消費(fèi)次數(shù)高的學(xué)生。這樣的模型本質(zhì)在于篩選出平均單次消費(fèi)金額低的學(xué)生,符合貧困生的消費(fèi)模式。然而,符合這一模型的,除了貧困生以外,還有在校外就餐,僅在學(xué)校購買一些小點(diǎn)心的學(xué)生,甚至還有一些處在節(jié)食減肥階段的學(xué)生。后兩類學(xué)生的行為并不是經(jīng)濟(jì)狀況導(dǎo)致的,對模型的準(zhǔn)確率造成很大的影響。僅從消費(fèi)數(shù)據(jù)上考慮的單薄模型并不利于識別的準(zhǔn)確率,綜合學(xué)生的行為模式一起分析,建立更加全面的模型會有更好的效果。在對學(xué)生學(xué)業(yè)狀況的挖掘和其他校園事務(wù)的挖掘中,建立的模型和對結(jié)果的分析通常只局限在自己研究的小問題內(nèi),學(xué)科之間的交叉不夠深入,也限制了模型的準(zhǔn)確度和對研究結(jié)果的進(jìn)一步解讀。早在1984年,Astin就在院系影響力理論的基礎(chǔ)上提出了經(jīng)典的IEO模型。他認(rèn)為,學(xué)生的學(xué)業(yè)成就受投入和院系環(huán)境的雙重影響。其中,成就部分不單指學(xué)生的學(xué)習(xí)成績,個性及價值觀也包含在內(nèi)。而學(xué)生的投入包含學(xué)生入學(xué)前的經(jīng)歷、家庭背景等。院系環(huán)境還包括院系氛圍和文化、教學(xué)設(shè)施及風(fēng)格等等。而Astin后來的一系列文章又深化了該理論,使其成為教育學(xué)領(lǐng)域的基礎(chǔ)。把學(xué)業(yè)成就簡單等同于成績必然對分析結(jié)果的準(zhǔn)確性和實(shí)際應(yīng)用產(chǎn)生影響。
方法和模型之間不匹配。從目前研究所使用的分析方法來看,大數(shù)據(jù)的分析方法逐漸成為主流趨勢,最常使用的為聚類和相關(guān)分析,傳統(tǒng)的統(tǒng)計(jì)分析方法正逐漸被大數(shù)據(jù)分析方法取代。然而從目前的文獻(xiàn)看來,大數(shù)據(jù)的分析方法并沒有發(fā)揮出其優(yōu)勢,只是作為傳統(tǒng)統(tǒng)計(jì)方法的替代,如在學(xué)生經(jīng)濟(jì)狀況挖掘中普遍存在的用聚類方法統(tǒng)計(jì)平均消費(fèi)的做法,而如果應(yīng)用統(tǒng)計(jì)方法按照平均數(shù)過濾,效果相當(dāng)而成本遠(yuǎn)遠(yuǎn)更小。傳統(tǒng)的統(tǒng)計(jì)分析和現(xiàn)在的大數(shù)據(jù)分析方法并沒有優(yōu)劣之分,只有各自更加適應(yīng)的應(yīng)用場景,沒有必要在不適合的地方,特別是傳統(tǒng)統(tǒng)計(jì)方法已經(jīng)有成熟和便利的處理方式的場景下盲目使用大數(shù)據(jù)分析方法。大數(shù)據(jù)的分析方法對于研究特殊性,而不是共性有著非常獨(dú)到的優(yōu)勢,而目前這種趨勢在一定程度上浪費(fèi)了數(shù)據(jù)中信息的豐富性。
根據(jù)以上三個問題,可以針對性地進(jìn)行改進(jìn)。首先,對校園平臺數(shù)據(jù)進(jìn)行數(shù)據(jù)治理。從以上分析可知,數(shù)據(jù)來源和數(shù)據(jù)質(zhì)量對研究的可行性和質(zhì)量有著重要的影響。良好的數(shù)據(jù)治理程度、豐富的數(shù)據(jù)來源和數(shù)據(jù)的可得性、便利的數(shù)據(jù)提取接口是進(jìn)行數(shù)據(jù)分析的基礎(chǔ)。進(jìn)行數(shù)據(jù)治理后,除已經(jīng)大量使用的一卡通消費(fèi)數(shù)據(jù)和圖書館借閱數(shù)據(jù)以外,其他學(xué)生的行為數(shù)據(jù)也能夠進(jìn)行分析,有利于模型的綜合化,改進(jìn)對現(xiàn)有數(shù)據(jù)的過度依賴,提高研究質(zhì)量。許彩娥團(tuán)隊(duì)的數(shù)據(jù)治理嘗試就是一個示例。
而針對模型單薄的問題,可以考慮引入行為模式分析,建立更加綜合性的分析模型,分析模型的搭建不應(yīng)該被研究主題的領(lǐng)域完全限制。大數(shù)據(jù)的魅力在于從雜亂中尋找相關(guān)關(guān)系,而這種相關(guān)關(guān)系在很多時候都是出乎意料的,一個經(jīng)濟(jì)問題的表現(xiàn)也是方方面面的,而不局限于經(jīng)濟(jì)領(lǐng)域。因此,在搭建模型的時候要全面考慮,從行為模式入手,綜合分析。并且,各學(xué)科的合作會使得模型的搭建更加合理。
針對方法和模型不適配的問題,統(tǒng)計(jì)分析方法在提取共性方面已經(jīng)十分成熟,在前期數(shù)據(jù)的清洗和特征的合并方面具有十分重要的作用,可以為后期的大數(shù)據(jù)分析打下良好的基礎(chǔ)。二者可以考慮聯(lián)合使用,它們并不是互相排斥的,不需要為了追求高技術(shù)含量而在統(tǒng)計(jì)方法可以處理的場景使用大數(shù)據(jù)分析方法。通常,分析效果不佳都與常見問題的解決有著重要的關(guān)聯(lián),因此要注意細(xì)節(jié),而不是只要使用了最新的方法就能達(dá)到最好的效果。
針對目前的研究現(xiàn)狀和存在的問題,在接下來的研究中,可以考慮這樣的研究思路:在數(shù)據(jù)的清洗和特征合并等前期工作中使用傳統(tǒng)的統(tǒng)計(jì)方法,提高效率。在模型的構(gòu)建中引入行為模式的分析,可借鑒商業(yè)上已經(jīng)應(yīng)用成熟的用戶畫像系統(tǒng),從行為模式入手,建立更加綜合的模型。最后,在分析結(jié)果的解讀中,可聯(lián)系其心理學(xué)的依據(jù),進(jìn)行更加全面和更有深度的解釋,使得研究具有更加明確的現(xiàn)實(shí)意義。
[ 1 ] 徐劍. 基于一卡通數(shù)據(jù)的消費(fèi)行為與成績的關(guān)聯(lián)性研究分析[D].南昌:南昌大學(xué),2010.
[ 2 ] 陳建兵. 利用校園一卡通數(shù)據(jù)優(yōu)化高校貧困生認(rèn)定系統(tǒng)[D].成都:電子科技大學(xué),2012.
[ 3 ] 張佳. 數(shù)據(jù)挖掘技術(shù)在校園一卡通系統(tǒng)中的應(yīng)用研究[D].蘇州:蘇州大學(xué),2013.
[ 4 ] 張林紅,劉紅梅. 基于一卡通數(shù)據(jù)分析的學(xué)生早餐習(xí)慣與成績關(guān)聯(lián)規(guī)則挖掘[J]. 阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2014(4):92-95+105.
[ 5 ] 費(fèi)小丹,董新科,張暉. 基于校園一卡通消費(fèi)數(shù)據(jù)的高校貧困生分析[J]. 電腦知識與技術(shù),2014(20):4934-4936.
[ 6 ] 董新科,張暉. 基于校園一卡通消費(fèi)數(shù)據(jù)的幾種聚類算法的分析比較[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2014(1):158-161+183.
[ 7 ] 薛黎明,欒維新,李志淮,等. 數(shù)據(jù)挖掘在校園一卡通消費(fèi)數(shù)據(jù)分析中的應(yīng)用[A]. 中國高等教育學(xué)會教育信息化分會.中國高等教育學(xué)會教育信息化分會第十二次學(xué)術(shù)年會論文集[C].中國高等教育學(xué)會教育信息化分會,2014:8.
[ 8 ] 姜楠,許維勝. 基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)及學(xué)習(xí)行為分析[J]. 微型電腦應(yīng)用,2015(2):35-38.
[ 9 ] 樊搏,姜玉國. 基于數(shù)據(jù)挖掘的貧困生認(rèn)定輔助系統(tǒng)設(shè)計(jì)[J]. 軟件導(dǎo)刊,2015(12):134-135.
[10] 樊搏,呂艷芝. 基于一卡通數(shù)據(jù)中心的貧困生輔助認(rèn)定分析[J]. 科教文匯(上旬刊),2015(11):122-123.
[11] GUAN C, LU X J, LI X L, et al. Discovery of college students in financial hardship. 16th IEEE International Conference on Data Mining (ICDM 2016)
[12] 武彤,王秀坤. 決策樹算法在學(xué)生成績預(yù)測分析中的應(yīng)用[J]. 微計(jì)算機(jī)信息,2010(3):209-211.
[13] 羅永國. 基于改進(jìn)的遺傳算法的學(xué)生成績預(yù)測模型[J]. 科技通報(bào),2012(10):223-225.
[14] 劉志嫵. 基于決策樹算法的學(xué)生成績的預(yù)測分析[J]. 計(jì)算機(jī)應(yīng)用與軟件,2012(11):312-314+330.
[15] 黃建明. 貝葉斯網(wǎng)絡(luò)在學(xué)生成績預(yù)測中的應(yīng)用[J]. 計(jì)算機(jī)科學(xué),2012(S3):280-282.
[16] 呂紅胤,連德富,聶敏,等. 大數(shù)據(jù)引領(lǐng)教育未來:從成績預(yù)測談起[J]. 大數(shù)據(jù),2015(4):118-121.
[17] 謝星宇,張穎璐. 基于改進(jìn)的TrAdaboost算法的學(xué)生成績排名預(yù)測[J]. 計(jì)算機(jī)與現(xiàn)代化,2016(2):122-126.
[18] 蔡興雨,徐怡,程智煒. 基于粗糙集理論的影響高校學(xué)生成績因素研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2016(11):1-5.
[19] 李彤彤,黃洛穎,鄒蕊,等. 基于教育大數(shù)據(jù)的學(xué)習(xí)干預(yù)模型構(gòu)建[J]. 中國電化教育,2016(6):16-20.
[20] 張兵兵,王建,張建威,等. 數(shù)據(jù)挖掘在校園一卡通系統(tǒng)中的應(yīng)用初探[J]. 數(shù)理醫(yī)藥學(xué)雜志,2009(5):572-575.