黃 劍
摘要本文根據(jù)數(shù)據(jù)分析課程自身特點(diǎn),針對(duì)本科階段教學(xué),改變教學(xué)模式,促進(jìn)教學(xué)效果。以數(shù)據(jù)分析方法綜合應(yīng)用為重點(diǎn),輔助介紹理論及背景。采用合作式教學(xué)模式,利用討論帶動(dòng)積極性,使學(xué)生在利用軟件解決實(shí)際問(wèn)題的過(guò)程中加深對(duì)方法的認(rèn)識(shí)。
關(guān)鍵詞數(shù)據(jù)挖掘 教學(xué)模式 合作式教學(xué)
中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A
數(shù)據(jù)是無(wú)處不在的。當(dāng)飛速增長(zhǎng)的數(shù)據(jù)給我們帶來(lái)方便和便捷的同時(shí),也將我們推入浩瀚的數(shù)據(jù)海洋。廣泛用于商業(yè)和科學(xué)領(lǐng)域中的自動(dòng)數(shù)據(jù)收集設(shè)備每小時(shí)能夠產(chǎn)生幾TB規(guī)模的數(shù)據(jù),人們面臨的問(wèn)題已經(jīng)不再是沒(méi)有充分的信息可選擇,而是如何有效利用如此龐大的數(shù)據(jù),并且找到蘊(yùn)含于這些信息之中的有價(jià)值的知識(shí)。由于數(shù)據(jù)分析師的匱乏,導(dǎo)致了很多領(lǐng)域出現(xiàn)了“數(shù)據(jù)豐富而知識(shí)匱乏”的現(xiàn)象,因而在信息計(jì)算科學(xué)、統(tǒng)計(jì)學(xué)等本科專業(yè)中開設(shè)數(shù)據(jù)分析課程是非常有必要的。
數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論和方法,從數(shù)據(jù)中獲得有用的信息,其內(nèi)容豐富,方法眾多,最大的特點(diǎn)就是“讓數(shù)據(jù)說(shuō)話”。該課程設(shè)計(jì)的分析方法眾多,如:方差分析、非參數(shù)統(tǒng)計(jì)、多元統(tǒng)計(jì)分析、判別聚類分析、時(shí)間序列分析等。由于計(jì)算機(jī)編程的復(fù)雜及數(shù)據(jù)的難以采集,這些分析方法在課程中大多處于理論教學(xué),使得本科階段的學(xué)生很難接受。隨著計(jì)算機(jī)及統(tǒng)計(jì)軟件(如SAS,SPSS)的普及,大大的減少了對(duì)程序能力的要求,隨著大量數(shù)據(jù)被數(shù)據(jù)采集者開放(如金融數(shù)據(jù)庫(kù)),使學(xué)生有可研究的對(duì)象,從而使得我們?cè)诖髮W(xué)本科階段開設(shè)數(shù)據(jù)分析課程成為可能,但需要合適的教學(xué)模式以適應(yīng)本科階段的教學(xué)。
由于數(shù)據(jù)分析的方法眾多,對(duì)不同學(xué)科的數(shù)據(jù)又會(huì)有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的。基于學(xué)生的數(shù)學(xué)和計(jì)算機(jī)基礎(chǔ),從實(shí)際問(wèn)題出發(fā),介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應(yīng)用為主,理論為輔,運(yùn)用SAS軟件來(lái)實(shí)現(xiàn)。在教學(xué)過(guò)程中采用了以下幾個(gè)模式,并達(dá)到了較好的教學(xué)效果。
1 選用SAS軟件為課程配套工具軟件
在數(shù)據(jù)分析課程的教學(xué)中,算法實(shí)現(xiàn)對(duì)于本科生來(lái)說(shuō)難度太大,該階段的學(xué)生只學(xué)過(guò)C語(yǔ)言,很多分析方法如果用C語(yǔ)言來(lái)編程完成,難度將無(wú)法想象。我們要培養(yǎng)數(shù)據(jù)分析師,而不是高級(jí)程序員。隨著統(tǒng)計(jì)軟件在全球的流行,我們選取了SAS軟件作為工具,結(jié)合數(shù)據(jù)分析課程的教學(xué)。通過(guò)簡(jiǎn)單的編程即可實(shí)現(xiàn)所有數(shù)據(jù)分析方法,并且應(yīng)用多樣化,功能強(qiáng)大。但由于SAS入手較難,為了不影響數(shù)據(jù)挖掘可能的教學(xué)時(shí)間,我們?yōu)樵搶I(yè)學(xué)生準(zhǔn)備了兩周實(shí)踐課程,專門進(jìn)行SAS的教學(xué),取得了很好的效果。在數(shù)據(jù)分析課程中,每一種方法只需介紹基本思想,簡(jiǎn)單原理,計(jì)算步驟及SAS系統(tǒng)中對(duì)應(yīng)的模塊和程序說(shuō)明。例如在介紹方差分析時(shí),同時(shí)介紹SAS系統(tǒng)中ANOVA和GLM過(guò)程,利用SAS軟件可迅速得到各種統(tǒng)計(jì)量,學(xué)生只需通過(guò)結(jié)果做相關(guān)的分析結(jié)論,簡(jiǎn)化繁瑣計(jì)算,節(jié)省課時(shí),提高了學(xué)生的學(xué)習(xí)興趣。
2 引入合作式教學(xué),加入討論課模式
數(shù)據(jù)分析課程當(dāng)中,理論知識(shí)的傳授和應(yīng)用能力的培養(yǎng)歸根結(jié)底是為了解決實(shí)際問(wèn)題。各種分析算法,軟件都是幫助解決問(wèn)題的一個(gè)工具。如何讓學(xué)生去面臨實(shí)際問(wèn)題,并通過(guò)收集數(shù)據(jù),建立模型,求解模型從而解決問(wèn)題,這才是我們希望學(xué)生真正得到的能力。所以,我們引入的合作式教學(xué)模式。每次討論課給定特定的專題,學(xué)生以組為單位收集相關(guān)資料數(shù)據(jù),并進(jìn)行問(wèn)題分析,選定數(shù)據(jù)分析方法并建模求解,對(duì)得到的結(jié)果進(jìn)行相關(guān)的解釋,最后進(jìn)行合理性分析。如對(duì)某產(chǎn)品在各個(gè)超市的銷售量的分析,判斷地區(qū)是否對(duì)銷售量有影響。整個(gè)過(guò)程從灌輸式的教學(xué)模式轉(zhuǎn)變?yōu)橐龑?dǎo)式的教學(xué)模式,學(xué)生在討論課當(dāng)中占據(jù)主導(dǎo)地位。在分析問(wèn)題得到結(jié)論后,以小組為單位進(jìn)行總結(jié)匯報(bào),由組外同學(xué)進(jìn)行點(diǎn)評(píng)討論,教師只做啟發(fā),指導(dǎo)工作。這種教學(xué)模式,不僅大大提高了學(xué)生的主動(dòng)性,調(diào)動(dòng)的學(xué)生思維,提高解決問(wèn)題的實(shí)際能力,表達(dá)、溝通及團(tuán)隊(duì)合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發(fā)現(xiàn)問(wèn)題,糾正錯(cuò)誤。
3 適當(dāng)介紹方法產(chǎn)生的背景、原理、重點(diǎn)介紹方法的綜合應(yīng)用
適當(dāng)介紹方法產(chǎn)生背景和原理,可加深學(xué)生對(duì)分析方法的理解,深入了解方法的適用領(lǐng)域,所能解決的問(wèn)題,與實(shí)際相結(jié)合,從而提高學(xué)生的學(xué)習(xí)興趣。但我們更應(yīng)該把分析方法綜合應(yīng)用作為首要教授的方面,即如何讓學(xué)生把所學(xué)的數(shù)據(jù)方法正確的應(yīng)用到實(shí)際問(wèn)題當(dāng)中。我們應(yīng)該從以下幾個(gè)方面入手:
(1)介紹分析方法的基本背景和原理,講清應(yīng)用范圍。教學(xué)中,我們可簡(jiǎn)單介紹分析方法的基本思想和計(jì)算方法,但其具體能解決何種問(wèn)題必須講清。如:聚類分析和判別分析兩類問(wèn)題,都是用于事物的分類,但兩者的本質(zhì)是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過(guò)一組已經(jīng)分類的樣本),根據(jù)已知的知識(shí)對(duì)現(xiàn)有未知的樣本進(jìn)行分類。而聚類分析則體現(xiàn)的是“物以類聚”的思想,將相似性強(qiáng)的樣本歸為一類,其中類別的特點(diǎn),數(shù)量在聚類完成前是完全不知道的。如醫(yī)生看病判斷病情屬于分類問(wèn)題,而對(duì)新的疫情進(jìn)行類別區(qū)別則是屬于聚類問(wèn)題。利用實(shí)例使學(xué)生區(qū)分兩種方法所能解決的問(wèn)題以及兩種方法所處理的數(shù)據(jù)的區(qū)別。
(2)融入數(shù)學(xué)建模思想,加強(qiáng)分析方法的應(yīng)用。每個(gè)分析方法從理論到實(shí)際應(yīng)用都需要一個(gè)過(guò)程。如果將一個(gè)實(shí)際問(wèn)題轉(zhuǎn)變?yōu)橐粋€(gè)數(shù)學(xué)能解決的問(wèn)題,就需要運(yùn)用數(shù)學(xué)建模的思想,建立數(shù)學(xué)模型解決實(shí)際的問(wèn)題。如:一個(gè)城市的安全程度往往可以通過(guò)這個(gè)城市的犯罪率來(lái)體現(xiàn),但是犯罪種類之多使得我們無(wú)法通過(guò)某種犯罪次數(shù)來(lái)得出結(jié)論。這就使得我們要建立主成分分析模型,運(yùn)用主成份分析方法,將現(xiàn)有的多種犯罪數(shù)據(jù)進(jìn)行線性組合,得到幾個(gè)主要的犯罪指標(biāo)——總體犯罪率,重度犯罪比例等等。利用少量的指標(biāo)去體現(xiàn)原來(lái)多個(gè)指標(biāo)所體現(xiàn)的大部分信息,達(dá)到反應(yīng)總體狀況的效果。通過(guò)簡(jiǎn)單的、學(xué)生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過(guò)各個(gè)主成分依次求出,其反應(yīng)出的總體信息不斷加大,還可引入貢獻(xiàn)率和累計(jì)貢獻(xiàn)率得概念,使學(xué)生明確如何合理選擇主成分。比如當(dāng)前m個(gè)主成份的累計(jì)貢獻(xiàn)率達(dá)到85%的時(shí)候,就可認(rèn)為這m個(gè)主成份能夠反應(yīng)總體的絕大部分信息。重點(diǎn)介紹各個(gè)統(tǒng)計(jì)量在當(dāng)前模型中的含義,作用及對(duì)應(yīng)關(guān)系,使得學(xué)生能夠使用分析方法在實(shí)際中加以應(yīng)用。
(3)加強(qiáng)介紹方法的步驟、軟件實(shí)現(xiàn)及結(jié)果解釋。建立模型后如何利用軟件解決模型是學(xué)生必須掌握的技術(shù)。任何數(shù)據(jù)分析算法,都不太可能利用人工計(jì)算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數(shù)學(xué)模型后,都會(huì)給出相關(guān)實(shí)現(xiàn)的步驟。SAS編程相對(duì)簡(jiǎn)單,分析過(guò)程大多是PROC步完成,其針對(duì)每種分析方法都會(huì)有相關(guān)的過(guò)程函數(shù),并且會(huì)有與算法對(duì)應(yīng)的輸入?yún)?shù)。學(xué)生只要模仿調(diào)用相關(guān)過(guò)程,并對(duì)結(jié)果進(jìn)行相關(guān)解釋即可實(shí)現(xiàn)相應(yīng)分析方法的應(yīng)用。比如利用SAS程序進(jìn)行回歸分析簡(jiǎn)單例子:
proc regdata= study.bclass;
modelweight = height /r clm cli dw;
run;
其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計(jì)模型來(lái)計(jì)算的預(yù)測(cè)值、殘差值、標(biāo)準(zhǔn)誤差、學(xué)生化殘差、COOKD統(tǒng)計(jì)量等。通過(guò)計(jì)算可得到各個(gè)相關(guān)統(tǒng)計(jì)量的值,學(xué)生無(wú)需涉及計(jì)算過(guò)程,只需知道計(jì)算得到的各個(gè)統(tǒng)計(jì)量所代表的含義,并會(huì)對(duì)結(jié)果進(jìn)行解釋。只有學(xué)會(huì)對(duì)結(jié)果的解釋分析,才能解決真正的實(shí)際問(wèn)題。
通過(guò)教學(xué)實(shí)踐,我認(rèn)為將統(tǒng)計(jì)軟件作為配套工具和數(shù)據(jù)分析方法結(jié)合教學(xué),可以起到相輔相成的作用,加入合作式教學(xué)模式,開展討論課不僅學(xué)生綜合能力得到了提高,而且學(xué)生團(tuán)隊(duì)合作意識(shí)得到了加強(qiáng)。同時(shí),教師必須擔(dān)任好自己的角色,要精心設(shè)計(jì)教學(xué)中的每個(gè)細(xì)節(jié),如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學(xué)效果。
注釋
紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M]. 機(jī)械工業(yè)出版社,2009.
數(shù)據(jù)分析方法和SAS系統(tǒng) [M]. 上海財(cái)經(jīng)大學(xué)出版社,2006.
羅冬梅.數(shù)據(jù)分析課程教學(xué)中的幾個(gè)關(guān)鍵問(wèn)題[J].安徽工業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2007(7):101~102.