程香 程長(zhǎng)征
摘 ?要:大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析是數(shù)據(jù)價(jià)值發(fā)掘的重要過程,合理的數(shù)據(jù)分析方案對(duì)數(shù)據(jù)分析過程和成效至關(guān)重要,提出一個(gè)大數(shù)據(jù)分析流程方案設(shè)計(jì)方法。該方案詳細(xì)給出了分析流程應(yīng)包括的內(nèi)容,以及每個(gè)階段的主要任務(wù)和結(jié)果形式,從而能有效指導(dǎo)數(shù)據(jù)分析項(xiàng)目的執(zhí)行。該方法成功地應(yīng)用于在線學(xué)習(xí)課程成績(jī)預(yù)測(cè)分析項(xiàng)目中,對(duì)其他數(shù)據(jù)分析項(xiàng)目也具有通用性。
關(guān)鍵詞:大數(shù)據(jù)分析;分析方案;分析需求
中圖分類號(hào):TP39 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Data analysis is an important process for data value discovery in big data environment.A reasonable data analysis solution is crucial to the data analysis process and effectiveness.A method of big data analysis process scheme is proposed in this paper.The content that should be included in the analysis process,as well as the main tasks and results of each stage,are displayed in detail by the scheme,so as to guide the implementation of big data analysis projects effectively.This method was successfully applied to academic record prediction analysis project of some online learning courses with a public data set.It is also versatile for other data analysis projects.
Keywords:big data analysis;analysis scheme;analysis requirement
1 ? 引言(Introduction)
在大數(shù)據(jù)背景下,海量數(shù)據(jù)的應(yīng)用價(jià)值已經(jīng)顯現(xiàn)出來,進(jìn)行數(shù)據(jù)分析與挖掘的研究與應(yīng)用,對(duì)各行業(yè)都具有重要的戰(zhàn)略意義。隨著信息化程度的不斷提升,教育行業(yè)內(nèi)部信息的不斷完善[1],在線學(xué)習(xí)數(shù)據(jù)分析必然要上升到大規(guī)模級(jí)別。在線學(xué)習(xí)數(shù)據(jù)分析將成為解學(xué)習(xí)者過去和現(xiàn)在的學(xué)習(xí)狀態(tài),以及預(yù)測(cè)未來學(xué)習(xí)結(jié)果的一個(gè)重要手段[2]。雖然眾多研究表明通過分析在線學(xué)習(xí)數(shù)據(jù),向?qū)W習(xí)者和教師提供反饋建議,能夠正向影響學(xué)習(xí)者行為和學(xué)習(xí)成績(jī)[3],但是對(duì)數(shù)據(jù)分析的實(shí)施過程關(guān)注較少。如何有效地進(jìn)行在線學(xué)習(xí)相關(guān)數(shù)據(jù)分析和預(yù)測(cè),已成為在線學(xué)習(xí)數(shù)據(jù)價(jià)值發(fā)掘的關(guān)鍵問題之一。
電子閱讀材料有助提升學(xué)習(xí)者對(duì)認(rèn)知概念的理解,在線測(cè)試能夠?qū)崿F(xiàn)學(xué)習(xí)者成績(jī)自動(dòng)化評(píng)估,因而在線學(xué)習(xí)頗受青睞。但由于在線學(xué)習(xí)是由學(xué)習(xí)材料、評(píng)估任務(wù)和通信媒介共同支撐,因此,待分析的數(shù)據(jù)不但來源廣而且容量大,導(dǎo)致數(shù)據(jù)結(jié)構(gòu)類型多[4],數(shù)據(jù)分析難度提升。目前在線學(xué)習(xí)的研究集中于學(xué)習(xí)效果的各種影響因素,某種特殊行為及風(fēng)險(xiǎn)預(yù)測(cè)[5,6]方面,而這些研究實(shí)施過程的可操作性和分析結(jié)論的準(zhǔn)確性,有賴于合理組織數(shù)據(jù)分析流程,詳細(xì)規(guī)定各個(gè)階段的主要任務(wù),制定出盡量科學(xué)規(guī)范的大數(shù)據(jù)分析方案。本文結(jié)合在線學(xué)習(xí)課程公開數(shù)據(jù)集的學(xué)習(xí)成績(jī)預(yù)測(cè)分析項(xiàng)目,詳細(xì)介紹數(shù)據(jù)分析方案制定方法和過程,并且給出數(shù)據(jù)分析可視化結(jié)果。
2 ?大數(shù)據(jù)分析流程的方案(The scheme of the big data analysis process)
數(shù)據(jù)分析本質(zhì)是在數(shù)據(jù)資料采集和整理基礎(chǔ)上,運(yùn)用統(tǒng)計(jì)和挖掘等科學(xué)分析方法,從數(shù)據(jù)中尋找客觀事物發(fā)展特征和規(guī)律,從而得出有指導(dǎo)意義的結(jié)論以預(yù)測(cè)指導(dǎo)未來實(shí)踐。
數(shù)據(jù)分析一般是對(duì)特定的領(lǐng)域問題展開研究,本文數(shù)據(jù)分析方案涵蓋以下方面內(nèi)容:首先要對(duì)其背景進(jìn)行全面了解,從而更好地把握分析目標(biāo)和方向;分析和思考用戶需求,確定數(shù)據(jù)源的出處和所有可能的數(shù)據(jù)類型;擬定分析問題的難易程度及結(jié)果可能的呈現(xiàn)方式,搭建分析環(huán)境選擇分析平臺(tái);根據(jù)分析目的確定算法建立模型,選擇模型參數(shù);評(píng)估分析結(jié)果判斷模型是否需要改進(jìn),擇優(yōu)選用;其他數(shù)據(jù)分析應(yīng)當(dāng)考慮的內(nèi)容。
3 ?分析方案詳細(xì)制定過程(Detailed analysis of scheme-making process)
3.1 ? 問題定義
數(shù)據(jù)分析是利用數(shù)據(jù)統(tǒng)計(jì)和挖掘原理,從數(shù)據(jù)中獲取知識(shí)和信息。第一步要進(jìn)行領(lǐng)域和問題定義,盡可能詳盡地了解所要分析項(xiàng)目的領(lǐng)域背景和挖掘目標(biāo),明確項(xiàng)目分析所要解決的問題。
edX是一個(gè)提供大規(guī)模開放在線課程的平臺(tái),旨在加強(qiáng)校園教育,推進(jìn)教育研究,并增加全球在線學(xué)習(xí)機(jī)會(huì)。隨著平臺(tái)上課程持續(xù)上線,學(xué)習(xí)者數(shù)量不斷增加,但課程低通過率和高退出率的狀況令人堪憂。針對(duì)通過率問題,本文以學(xué)習(xí)者在線學(xué)習(xí)成績(jī)預(yù)測(cè)為分析目標(biāo),識(shí)別處于成績(jī)合格邊緣的學(xué)習(xí)者,以便給予干預(yù)和支持。
3.2 ? 分析工具選擇
目前用于數(shù)據(jù)分析的軟件眾多,從價(jià)格、界面友好性和編程難易程度方面來衡量,R不失為一個(gè)很好的選擇。R是開源軟件包,也是一種編程語言,具有強(qiáng)大的數(shù)據(jù)分析和可視化能力[7]。
Hadoop采用并行計(jì)算且節(jié)點(diǎn)易擴(kuò)展,可以提高算法執(zhí)行的時(shí)間效率,并且能夠解決內(nèi)存等系統(tǒng)資源限制問題。對(duì)于涉及數(shù)據(jù)量大的分析項(xiàng)目,集成R和Hadoop作為數(shù)據(jù)分析平臺(tái),可以借助R豐富的組件庫,擁有強(qiáng)大的數(shù)據(jù)統(tǒng)計(jì)分析能力,并且可以發(fā)揮Hadoop在分布式存儲(chǔ)和計(jì)算方面的優(yōu)勢(shì),進(jìn)行全量數(shù)據(jù)分析。
3.3 ? 數(shù)據(jù)的獲取與處理
3.3.1 ? 設(shè)計(jì)數(shù)據(jù)需求
為了對(duì)特定問題進(jìn)行分析,需要相關(guān)領(lǐng)域的數(shù)據(jù)。
(1)數(shù)據(jù)源確定。在確定領(lǐng)域和即將分析的問題后,數(shù)據(jù)的來源就能夠確定。根據(jù)挖掘分析問題的目標(biāo)確定是否需要從Excel、其他統(tǒng)計(jì)軟件、數(shù)據(jù)庫、網(wǎng)頁等載體中獲得原始數(shù)據(jù)。
(2)數(shù)據(jù)獲取。數(shù)據(jù)分析一般需要加載外部數(shù)據(jù)源,根據(jù)具體需求決定加載何種結(jié)構(gòu)的數(shù)據(jù)源。對(duì)于CSV、TXT、Excel數(shù)據(jù)和網(wǎng)頁中的數(shù)據(jù),以及SPSS、SAS、Stata等統(tǒng)計(jì)軟件中的數(shù)據(jù),R均可使用其相應(yīng)包中的函數(shù)讀取;對(duì)于各種數(shù)據(jù)庫中的數(shù)據(jù),可以用自定義的函數(shù)連接到數(shù)據(jù)庫,也可使用CRAN中多個(gè)連接數(shù)據(jù)庫的R包,將各種系統(tǒng)中的數(shù)據(jù)載入R中。
案例從edx在線學(xué)習(xí)平臺(tái)公開數(shù)據(jù)集獲取分析數(shù)據(jù),該數(shù)據(jù)集是2013學(xué)年上線的16門課程的學(xué)習(xí)者學(xué)習(xí)記錄,共60多萬條。本文通過函數(shù)加載學(xué)習(xí)者數(shù)據(jù),為后續(xù)探查和處理數(shù)據(jù),學(xué)習(xí)行為數(shù)據(jù)建模等數(shù)據(jù)分析過程準(zhǔn)備數(shù)據(jù)。
3.3.2 ? 探索性分析
對(duì)數(shù)據(jù)特征和規(guī)律進(jìn)行初步探查研究,有助于后續(xù)分析過程決定采用何種預(yù)處理方式,以及選擇何種算法和模型。對(duì)數(shù)據(jù)進(jìn)行探索性分析可以從以下方式入手:
(1)數(shù)值指標(biāo)。使用相關(guān)函數(shù)得到數(shù)據(jù)集的數(shù)字指標(biāo),了解數(shù)據(jù)的整體結(jié)構(gòu)、變量情況、分布指標(biāo)、缺失值等情況。該方法可以給出各項(xiàng)統(tǒng)計(jì)指標(biāo)的確切值,有助于制作和觀察圖形、設(shè)定算法參數(shù)。
(2)可視化視圖。圖形顯示數(shù)據(jù)將比數(shù)字化統(tǒng)計(jì)方法表現(xiàn)得更加形象生動(dòng)和直觀。對(duì)描述性和預(yù)測(cè)性分析數(shù)據(jù)結(jié)果,用R可將原始模型表達(dá)成豐富多彩的圖形和可視化視圖。
利用上述原理,案例分析項(xiàng)目結(jié)合數(shù)字化指標(biāo)與可視化圖形,對(duì)學(xué)習(xí)者行為樣本數(shù)據(jù)進(jìn)行探索性分析,以下給出部分探索性分析結(jié)果。
①分布情況。通過各行為變量的直方圖可以了解相關(guān)變量的大致分布情況,案例數(shù)據(jù)集觀測(cè)值的大多變量分布在最小的分組段,說明學(xué)習(xí)者數(shù)量雖然可觀,但多數(shù)人學(xué)習(xí)投入程度不高。其中變量nchapters取值主要集中在0至2和2至4組段,可見多數(shù)人學(xué)習(xí)課程不足5個(gè)章節(jié)。
②缺失值。抽取學(xué)習(xí)者的基本信息、成績(jī)和幾項(xiàng)學(xué)習(xí)行為特征數(shù)據(jù)共11個(gè)屬性,分析缺失值在數(shù)據(jù)集中的分布情況,發(fā)現(xiàn)涵蓋所抽取屬性的完整記錄共有132751條,其余記錄均存在1至8個(gè)不等的缺失值。
③相關(guān)性。對(duì)抽取的學(xué)習(xí)者學(xué)習(xí)行為特征向量進(jìn)行相關(guān)性分析,結(jié)果如圖1所示。從圖中可見成績(jī)與nevents、ndays_act、nchapters的相關(guān)性都比較高。
3.3.3 ? 數(shù)據(jù)預(yù)處理
為了改善數(shù)據(jù)質(zhì)量,在將數(shù)據(jù)提交給算法和工具之前,需要對(duì)數(shù)據(jù)進(jìn)行清洗、聚合、去噪、整理和格式化等一系列操作,并處理成適合進(jìn)行挖掘分析的形式。采用何種預(yù)處理取決于數(shù)據(jù)探索性分析階段了解的信息,這些信息包括相關(guān)變量的取值范圍、缺失值情況、有無偏差及偏差程度等。
案例進(jìn)行的數(shù)據(jù)預(yù)處理主要包括:在數(shù)據(jù)清洗階段,去除內(nèi)部不一致數(shù)據(jù)記錄,并刪除有缺失屬性的記錄。在數(shù)據(jù)歸約階段,對(duì)樣本數(shù)據(jù)進(jìn)行屬性歸約,選擇影響學(xué)習(xí)成績(jī)的學(xué)習(xí)特征行為向量作為學(xué)習(xí)者學(xué)習(xí)行為特征數(shù)據(jù)。在數(shù)據(jù)變換階段,構(gòu)造年齡屬性,以便對(duì)不同年齡段的學(xué)習(xí)行為和成績(jī)進(jìn)行分組分析;此外還對(duì)成績(jī)屬性進(jìn)行了離散化,將處于子區(qū)間[0,0.5]、(0.5,0.7]、(0.7,1]的成績(jī)分別映射到1、2、3三個(gè)值;最后對(duì)特征向量進(jìn)行標(biāo)準(zhǔn)化用于后續(xù)建模。
3.4 ? 模型構(gòu)建與評(píng)估
3.4.1 ? 模型選擇與構(gòu)建
(1)模型選擇
大數(shù)據(jù)分析需借助模型和算法進(jìn)行挖掘操作,從數(shù)據(jù)集中發(fā)現(xiàn)有用的知識(shí)或模式。目前大數(shù)據(jù)分析采用比較多的挖掘算法是關(guān)聯(lián)分析、聚類分析、決策樹、分類與預(yù)測(cè)等[8],對(duì)具體分析業(yè)務(wù)顯然不可能使用固定的算法和參數(shù)來建立模型。并且算法模型應(yīng)在機(jī)器學(xué)習(xí)的各階段進(jìn)行持續(xù)評(píng)估和改善,產(chǎn)生更好的分析效果。
對(duì)于算法和模型的選擇,首先要確定使用何種算法及相應(yīng)參數(shù)的大概取值范圍。算法的選擇主要由建模在數(shù)據(jù)挖掘應(yīng)用中歸屬何種類別決定。對(duì)于參數(shù)范圍的選擇,采用試探法或者從數(shù)據(jù)探索性分析的結(jié)果來確定大致的范圍。案例采用CART決策樹和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)學(xué)習(xí)者成績(jī),并從中選擇預(yù)測(cè)效果最好的模型。
(2)模型構(gòu)建
構(gòu)建神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Networks,ANNs)和CART決策樹(Classification and Regression Tree,CART)時(shí)將采用公共數(shù)據(jù)集中反映學(xué)生學(xué)習(xí)行為的5個(gè)屬性作為自變量。隨機(jī)選擇3/4作為訓(xùn)練樣本,剩下的作為測(cè)試樣本。
對(duì)于神經(jīng)網(wǎng)絡(luò)模型,設(shè)定神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)為5,輸出節(jié)點(diǎn)數(shù)為1,隱藏層中的節(jié)點(diǎn)個(gè)數(shù)為6,權(quán)重值的衰減精度為0.0005。采用訓(xùn)練樣本建模的分類正確率為95.14%,其混淆矩陣如表1所示。對(duì)于CART決策樹模型,表1顯示了利用訓(xùn)練樣本建立的CART決策樹模型混淆矩陣,該模型分類正確率為95.13%。
(3)模型評(píng)估與使用
對(duì)模型進(jìn)行評(píng)估目的是判斷每個(gè)模型的預(yù)測(cè)能力,從而在多個(gè)模型中選擇一個(gè)最優(yōu)模型??刹捎枚喾N方法對(duì)模型的各方面進(jìn)行測(cè)評(píng),這些方法有:a.采用模型的混淆矩陣,討論模型的預(yù)測(cè)結(jié)果和真實(shí)結(jié)果之間的差距;b.利用風(fēng)險(xiǎn)圖,對(duì)模型的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的差別進(jìn)行比較分析;c.通過繪制ROC圖像進(jìn)行模型評(píng)估;d.得分?jǐn)?shù)據(jù)集。
案例利用測(cè)試樣本對(duì)兩個(gè)模型進(jìn)行評(píng)價(jià),評(píng)估模型的預(yù)測(cè)性能。表2為兩種模型在測(cè)試樣本下的混淆矩陣,模型預(yù)測(cè)的準(zhǔn)確率分別為94.92%和94.95%。盡管兩類模型的分類準(zhǔn)確率都很高,但是預(yù)測(cè)值為2的類別的召回率TP/(TP+FN)顯然均為0,無法正確標(biāo)記出成績(jī)處于及格邊緣的學(xué)生類別。
分析源數(shù)據(jù)集得知,我們感興趣的成績(jī)處于及格邊緣的學(xué)習(xí)者元組數(shù)據(jù)非常少,數(shù)據(jù)集存在類失衡的問題,必須對(duì)算法模型進(jìn)行改善,以提高分類準(zhǔn)確性。鑒于多類任務(wù)的類不平衡問題采用過抽樣和欠抽樣效果不明顯,我們將成績(jī)泛化成兩類,即分?jǐn)?shù)(grade)在0.5至0.7的學(xué)生者為成績(jī)合格邊緣學(xué)習(xí)者,其余的學(xué)習(xí)者為非邊緣學(xué)習(xí)者,再對(duì)模型的輸入數(shù)據(jù)進(jìn)行過抽樣處理。重新構(gòu)建模型,得到兩種模型在測(cè)試樣本下的混淆矩陣如表3所示。
計(jì)算得到神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的準(zhǔn)確率為91.11%,預(yù)測(cè)值為1的類(成績(jī)合格邊緣學(xué)習(xí)者)的召回率為96.70%;采用CART決策樹模型預(yù)測(cè)的準(zhǔn)確率為90.50%,預(yù)測(cè)成績(jī)處于合格邊緣學(xué)習(xí)者所屬類的召回率為95.94%??梢娚窠?jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能更好,選擇該模型用于學(xué)習(xí)者成績(jī)預(yù)測(cè)更適合。
4 ? 結(jié)論(Conclusion)
在線學(xué)習(xí)數(shù)據(jù)分析流程的研究對(duì)數(shù)據(jù)價(jià)值發(fā)掘意義匪淺。要發(fā)掘在線學(xué)習(xí)數(shù)據(jù)的潛在價(jià)值,滿足在線學(xué)習(xí)數(shù)據(jù)分析需求,必須制定一個(gè)盡量完善的大數(shù)據(jù)分析方案,用來指導(dǎo)整個(gè)數(shù)據(jù)分析項(xiàng)目流程的執(zhí)行。本文研究了數(shù)據(jù)分析前必須了解的分析對(duì)象相關(guān)信息,分析方案的詳細(xì)制定過程及各個(gè)階段的主要任務(wù)和方法,并且結(jié)合案例給出各個(gè)階段的結(jié)果形式,對(duì)其他類似學(xué)習(xí)系統(tǒng)也具有推廣與應(yīng)用價(jià)值。然而,在本文的研究中還存在不足,本文為了簡(jiǎn)化預(yù)處理,缺失值采用了刪除法,在具體的數(shù)據(jù)分析方案中需要研究采用刪除法是否會(huì)影響數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),對(duì)此有待于今后更進(jìn)一步理論和實(shí)驗(yàn)研究。
參考文獻(xiàn)(References)
[1] 余鵬,李艷.大數(shù)據(jù)視域下高校數(shù)據(jù)治理方案研究[J].現(xiàn)代教育技術(shù),2018,28(06):60-66.
[2] 羅達(dá)雄,葉俊民,郭霄宇,等.ARPDF:基于對(duì)話流的學(xué)習(xí)者成績(jī)等級(jí)預(yù)測(cè)算法[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(02):267-274.
[3] Jennifer M,Johanna F,Olaf K.Expectancy value interactions and academic achievement:Differential relationships with achievement measures[J].Contemporary Educational Psychology,2019,58:58-74.
[4] Wassan J T.Discovering Big Data Modelling for Educational World[J].Procedia-Social and Behavioral Sciences,2015,176:642-649.
[5] Ritanjali P,Ranjan S P,Dheeraj S.Online learning: Adoption,continuance,and learning outcome-A review of literature[J].International Journal of Information Management,2018,43:1-14.
[6] Prior D D,Mazanov J,Meacheam D,et al.Attitude,digital literacy and self-efficacy:Flow-on effects for online learning behavior[J].The Internet and Higher Education,2016,29:91-97.
[7] What is R?[EB/OL].https://cran.r-project.org/manuals.html.2019-04- 23.
[8] 高志鵬,牛琨,劉杰.面向大數(shù)據(jù)的分析技術(shù)[J].北京郵電大學(xué)學(xué)報(bào),2015,38(03):1-12.
作者簡(jiǎn)介:
程 ?香(1982-),女,碩士,高級(jí)工程師.研究領(lǐng)域:信息管理,數(shù)據(jù)分析研究.
程長(zhǎng)征(1979-),男,博士,教授.研究領(lǐng)域:計(jì)算固體力學(xué).