王 洪 洪 鈴
(中南大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,湖南 長沙 410083)
《數(shù)據(jù)挖掘理論》是我校面向數(shù)學(xué)、統(tǒng)計、應(yīng)用統(tǒng)計類研究生專業(yè)普遍開設(shè)的課程,也是全國大部分高校研究生階段的核心或選修課程?;ヂ?lián)網(wǎng)和計算機(jī)領(lǐng)域的快速發(fā)展帶來了各行業(yè)數(shù)據(jù)的指數(shù)式增長,聯(lián)合國2012年發(fā)布了大數(shù)據(jù)白皮書“Big Data for Development:Challenges & Opportunities”并指出,大數(shù)據(jù)時代已經(jīng)到來,大數(shù)據(jù)的出現(xiàn)將會對社會各個領(lǐng)域產(chǎn)生深刻影響。因此,對于長期與大數(shù)據(jù)打交道的研究生來說,數(shù)據(jù)挖掘課程的學(xué)習(xí)尤為重要。其不僅為其他課程的學(xué)習(xí)提供了引導(dǎo),也會影響學(xué)生對研究生階段的其它專業(yè)課的學(xué)習(xí)熱情,甚至?xí)苯佑绊憣W(xué)生畢業(yè)設(shè)計的選題。項賢明指出教師應(yīng)當(dāng)通過具體的案例分析,在新的情境中根據(jù)實際情況進(jìn)行教育創(chuàng)新,而不是照搬別人的經(jīng)驗和方法。只有這樣,才能抓住教育創(chuàng)新與改革的精神和靈魂。筆者在借鑒近年來教育改革的成功經(jīng)驗的基礎(chǔ)上,根據(jù)自己講授《數(shù)據(jù)挖掘理論》課程的教學(xué)實踐總結(jié),結(jié)合數(shù)據(jù)挖掘課程的特點以及大數(shù)據(jù)的時代背景,對數(shù)據(jù)挖掘理課程的教學(xué)進(jìn)行了思考與探究,以期望能夠提高教學(xué)水平和質(zhì)量,促進(jìn)教育改革與教育創(chuàng)新,并培養(yǎng)出更多優(yōu)秀的數(shù)據(jù)挖掘人才。
要對《數(shù)據(jù)挖掘理論》等數(shù)據(jù)挖掘課程進(jìn)行教學(xué)改革以提高教學(xué)質(zhì)量,首先得了解數(shù)據(jù)挖掘課程的特點,才能對癥下藥。
數(shù)據(jù)挖掘具有以下幾個特點:
(1)新穎性。大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘在各行業(yè)、各領(lǐng)域受到廣泛應(yīng)用,國內(nèi)外關(guān)于數(shù)據(jù)挖掘技術(shù)的研究不斷增加、成果越來越豐富。
(2)覆蓋內(nèi)容廣。數(shù)據(jù)挖掘的任務(wù)包括分類、回歸、聚類和關(guān)聯(lián)規(guī)則挖掘等多方面的內(nèi)容,每部分內(nèi)容都有特定的數(shù)據(jù)挖掘技術(shù)與算法。所以在教學(xué)實踐中,應(yīng)該有所選擇和側(cè)重地講授。
(3)交叉性。數(shù)據(jù)挖掘是一門交叉性學(xué)科,其融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)可視化等多個領(lǐng)域的理論和技術(shù)。
(4)難度大。其新穎性、覆蓋內(nèi)容廣、交叉性等特點就決定了其有較大的難度,所以該課程要求學(xué)生必須具備扎實的數(shù)學(xué)分析、代數(shù)、概率論及統(tǒng)計學(xué)基礎(chǔ)知識,這也是為什么選擇面向研究生開設(shè)本課程的原因。
筆者根據(jù)自己的《數(shù)據(jù)挖掘理論》課程的教學(xué)實踐以及有關(guān)調(diào)研資料,總結(jié)了目前教學(xué)實踐中存在的問題,具體內(nèi)容如下:
(1) 教材種類、內(nèi)容繁多。
市面上數(shù)據(jù)挖掘課程教材種類繁多,包括外文翻譯來的和國內(nèi)學(xué)者寫的,但是有相當(dāng)一部分內(nèi)容比較空泛。有些外文翻譯的教材存在句子不通順、邏輯性不強(qiáng)、專業(yè)術(shù)語缺乏解釋等問題,影響學(xué)生對內(nèi)容的準(zhǔn)確理解。許多教材內(nèi)容覆蓋面廣、章節(jié)繁多,甚至寫成了百科全書,涉及到數(shù)據(jù)可視化、統(tǒng)計學(xué)、算法等多學(xué)科內(nèi)容,大部分內(nèi)容只是簡單介紹原理,并不提供具體的例子與操作,像神經(jīng)網(wǎng)絡(luò)等較難知識點寫的晦澀難懂,許多學(xué)生反映無法清晰的掌握數(shù)據(jù)挖掘的知識框架。
(2) 教學(xué)形式單一。
目前,大部分高校采取傳統(tǒng)的老師教、學(xué)生學(xué)的單向“滿堂灌”教學(xué)模式,單一而呆板,學(xué)生被動的接受知識,缺乏廣泛參與,獨(dú)立思考的能力得不到鍛煉,學(xué)習(xí)積極性得不到提高,所學(xué)內(nèi)容不能得到很好的消化與應(yīng)用。
(3) 理論與實踐脫節(jié)。
數(shù)據(jù)挖掘是一門具有較強(qiáng)理論性和實踐性的學(xué)科,理論知識與計算機(jī)操作聯(lián)系緊密。任何一門信息類課程都應(yīng)以改變學(xué)生的學(xué)習(xí)思維,即將人的思維轉(zhuǎn)變?yōu)橛嬎銠C(jī)的思維,為主要目的。但大部分高校教師都偏重理論知識的教學(xué),很少談及到算法設(shè)計、程序編寫等內(nèi)容,教學(xué)枯燥而無味,學(xué)生既無法集中精力學(xué)習(xí)理論,也不能將所學(xué)到的知識應(yīng)用于實際,達(dá)不到課程開設(shè)的初衷。
數(shù)據(jù)挖掘作為面向數(shù)學(xué)、統(tǒng)計、應(yīng)用統(tǒng)計類研究生專業(yè)開設(shè)的課程,更應(yīng)該著重培養(yǎng)研究生運(yùn)用知識解決實際問題的能力。因此,其教學(xué)目標(biāo)是:使學(xué)生樹立數(shù)據(jù)挖掘的思維體系,掌握基本的挖掘技術(shù),熟練運(yùn)用至少一類數(shù)據(jù)挖掘軟件,如R、SAS、Matlab、python等;能夠根據(jù)實際問題,制定一個合理、完整的數(shù)據(jù)挖掘計劃,通過建立模型、進(jìn)行評估以及可視化結(jié)果,達(dá)到解決問題的目的。根據(jù)該教學(xué)目標(biāo),我們從教學(xué)內(nèi)容、教學(xué)方式以及考核方式三個方面進(jìn)行改革與探究。
首先,授課教師要構(gòu)建數(shù)據(jù)挖掘課程相對完整的知識體系,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘方法(分類、回歸、聚類、關(guān)聯(lián)分析等)、數(shù)據(jù)挖掘軟件平臺及工具、數(shù)據(jù)挖掘的支撐技術(shù)、復(fù)雜結(jié)構(gòu)數(shù)據(jù)挖掘與數(shù)據(jù)流挖掘、數(shù)據(jù)挖掘的應(yīng)用、數(shù)據(jù)挖掘領(lǐng)域的前沿和發(fā)展趨勢(云計算、并行計算、深度學(xué)習(xí)等),彌補(bǔ)現(xiàn)有教材的不足,讓學(xué)生對該課程有一個宏觀概念,充分了解該課程的實用性,激起學(xué)生的學(xué)習(xí)熱情和興趣。
錢峰認(rèn)為軟件是數(shù)據(jù)挖掘的必備工具。數(shù)據(jù)挖掘課程是一門理論與實踐相結(jié)合的課程,又加上理論部分晦澀難懂,很多算法對于沒有計算機(jī)基礎(chǔ)的學(xué)生來說掌握起來比較困難,目前國內(nèi)數(shù)據(jù)挖掘工具可非分:基于DOS的軟件工具、基于Windows的軟件工具、基于Linux的軟件工具和基于Solaris的軟件工具。所以教師應(yīng)在課堂上選定一種界面友好、易于掌握的數(shù)據(jù)挖掘軟件(如R、python等),結(jié)合案例教學(xué)法針對具體的數(shù)據(jù)集進(jìn)行現(xiàn)場編程并不斷調(diào)試,讓學(xué)生眼見為實,明白數(shù)據(jù)挖掘是一門實用性課程及其對數(shù)據(jù)處理的意義,提高學(xué)生對該課程的興趣。
鑒于數(shù)據(jù)挖掘內(nèi)容繁多,僅在一個學(xué)期的時間內(nèi)無法要求學(xué)生掌握全部知識,所以重點介紹比較常用、計算機(jī)能夠操作的方法,比如,數(shù)據(jù)可視化、決策樹、隨機(jī)森林、支持向量機(jī)、K近鄰、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則分析等。此外,不僅要對現(xiàn)有陳舊內(nèi)容進(jìn)行更新,還要增加和大數(shù)據(jù)有關(guān)的內(nèi)容,使學(xué)生掌握系統(tǒng)知識的同時,了解國際上最新的研究動態(tài)與研究成果,明確數(shù)據(jù)挖掘的未來發(fā)展前景和趨勢。例如,在課堂最后增加了如“大數(shù)據(jù)挖掘之MapReduce”、專門用于解決未標(biāo)記數(shù)據(jù)的“半監(jiān)督學(xué)習(xí)”、“深度學(xué)習(xí)”等現(xiàn)行教材中均未出現(xiàn)的內(nèi)容。此外,筆者邀請所在單位多名優(yōu)秀博士生在課堂上介紹自己的最新成果,這些都引起學(xué)生的高度興趣,并引導(dǎo)學(xué)生向優(yōu)秀的師哥師姐學(xué)習(xí)。授課教師要向?qū)W生傳輸這樣的信息:世界在不斷進(jìn)步,數(shù)據(jù)挖掘也在不斷發(fā)展,涉及的領(lǐng)域不斷拓展;課堂傳授的知識只是數(shù)據(jù)挖掘的一部分內(nèi)容。同時,授課教師要鼓勵學(xué)生自主學(xué)習(xí)課外知識。
在課堂教學(xué)方式上,大部分高校的數(shù)據(jù)挖掘課程普遍存在傳統(tǒng)的老師教、學(xué)生學(xué)的單向“滿堂灌”教學(xué)模式,單一而呆板,教學(xué)過程中學(xué)生與老師發(fā)生脫節(jié),缺乏充分的討論與交流。針對這些問題,筆者提出了“參與型”、“辯論型”教學(xué)與基于MOOC的教學(xué)方式。
4.2.1 進(jìn)行“參與型”、“辯論型”教學(xué)
為了更好的鼓勵學(xué)生學(xué)習(xí)課外知識,在課堂教學(xué)方式方面,我們進(jìn)行了“參與型”、“辯論型”教學(xué)嘗試。授課教師引導(dǎo)學(xué)生在課后對自己或?qū)煾信d趣的某一個專題或方法進(jìn)行文獻(xiàn)搜集,資料整理,并在課堂上開展學(xué)術(shù)講座,讓學(xué)生進(jìn)行匯報,時間每人不少于30分鐘。這種方式使學(xué)生更多地參與到教學(xué)活動中,培養(yǎng)了學(xué)生主動學(xué)習(xí)、獨(dú)立思考、大膽創(chuàng)新、準(zhǔn)確表達(dá)、有效溝通的能力。參與本課程學(xué)習(xí)的大部分學(xué)生表示:自己的分析能力、創(chuàng)新能力和研究能力、合作與溝通能力得到了很好的提高。
4.2.2 基于MOOC的教學(xué)方式
唐漢衛(wèi)提出多樣化、個性化已成為近年來教育改革的重要趨勢。為了完善研討型教學(xué)方式,更好地滿足學(xué)生的個性化學(xué)習(xí)需求,筆者建議在條件允許的前提下增加MOOC教學(xué)方式(大型開放式網(wǎng)絡(luò)課程)。在借鑒其他學(xué)者基于MOOC的翻轉(zhuǎn)課堂研究和MOOC學(xué)習(xí)者個性化模型構(gòu)建的基礎(chǔ)上,結(jié)合學(xué)生實際情況制定具有自身特色的MOOC教學(xué)方式。
考慮到MOOC課程資源可能與所在高校開設(shè)課程內(nèi)容不一致、學(xué)生外語水平參差不齊、國內(nèi)外文化差異等種種因素,筆者將每節(jié)課的學(xué)習(xí)過程分為課前、課中、課后三個階段。授課教師在每次講課三天前將MOOC課程資源提供給學(xué)生,保證他們課前有充足的時間自主學(xué)習(xí)該內(nèi)容,對于某些MOOC課程里沒有涉及到的知識點由授課教師自己制作視頻并將資源提供給學(xué)生;課中,授課教師首先針對學(xué)生觀看MOOC視頻自主學(xué)習(xí)后的反饋,采取課堂討論的方式,交流并解決學(xué)生在觀看視頻過程中遇到的疑問,然后結(jié)合課本對知識點進(jìn)行系統(tǒng)性地講解,一方面能夠讓學(xué)生重溫自學(xué)內(nèi)容,另一方面能夠讓學(xué)生清晰的知道自己在觀看視頻的過程中忽略了哪些知識點以及自學(xué)過程中存在的問題,以便在接下來的自主學(xué)習(xí)不斷提高學(xué)習(xí)質(zhì)量;課后,學(xué)生按照授課教師布置的學(xué)習(xí)任務(wù),結(jié)合自己的學(xué)習(xí)進(jìn)度和學(xué)習(xí)方式自主學(xué)習(xí)。
這樣的創(chuàng)新授課方式不僅讓學(xué)生能夠獨(dú)立地思考,而且能夠主動地參與到“教”與“學(xué)”的過程中,提高學(xué)習(xí)積極性和學(xué)習(xí)效率。同時,授課教師也可以通過自制的視頻不斷進(jìn)行教學(xué)反思,從而提升教學(xué)效果,促進(jìn)自身科研的進(jìn)步。
為了更好地注重研究生平時學(xué)習(xí)能力的培養(yǎng)和創(chuàng)新能力的培養(yǎng),采用多層次的考核方式,將課堂出勤、個人學(xué)術(shù)講座和期末課程設(shè)計等進(jìn)行綜合評定,給出研究生的最終課程成績。如在本單位數(shù)據(jù)挖掘課程開始之初,筆者就公布了如下考核方式:出勤率占20%、個人學(xué)術(shù)講座或匯報占40%,期末課程設(shè)計占40%。傳統(tǒng)的考核方式一般只看期末考試的卷面成績,片面而又單一,不能對學(xué)生進(jìn)行全面的考核。筆者所采用的多層次考核方式能夠克服傳統(tǒng)考核方式的不足,對學(xué)生多方面的能力進(jìn)行綜合評價,更加公正、公平,深受學(xué)生的歡迎。
很多同學(xué)為學(xué)術(shù)講座進(jìn)行了精心準(zhǔn)備,甚至還有同學(xué)自帶設(shè)備增強(qiáng)講座的效果,同學(xué)們的《單層神經(jīng)網(wǎng)絡(luò)》、《Extreme Learning Machine》、《高斯型過程》等報告等引起了同學(xué)們的高度關(guān)注;很多同學(xué)的課程設(shè)計,如《SVM分類器的擴(kuò)展》、《影響耐用消費(fèi)品的因素地理位置統(tǒng)計分析》等稍加整理就是一篇比較好的學(xué)術(shù)論文。實踐表明,多層次考核方式不僅對學(xué)生的動手能力進(jìn)行了考核,也對學(xué)生的專業(yè)素質(zhì)進(jìn)行考核,同時,還能增強(qiáng)學(xué)生進(jìn)行科研創(chuàng)作的能力。
隨著大數(shù)據(jù)的迅速延伸,數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域不斷擴(kuò)展,尤其在電子商務(wù)、生物醫(yī)學(xué)、物聯(lián)網(wǎng)、體育等領(lǐng)域的應(yīng)用越來越多。所以,必須加快數(shù)據(jù)挖掘課程教學(xué)改革使其能夠跟上數(shù)據(jù)挖掘技術(shù)快速發(fā)展的步伐。本文在分析數(shù)據(jù)挖掘?qū)W科特點的基礎(chǔ)上,結(jié)合當(dāng)前數(shù)據(jù)挖掘教學(xué)存在的問題,有針對性的從教學(xué)內(nèi)容、教學(xué)方式、考核方式等方面進(jìn)行改革,創(chuàng)造性地提出了基于MOOC的教學(xué)方式、多層次的考核方式等。教學(xué)實踐結(jié)果證明,不僅提高學(xué)生的學(xué)習(xí)積極性,還鍛煉其自主學(xué)習(xí)與獨(dú)立思考的能力,軟件操作與科研創(chuàng)作的能力也得到了很大的提升。總之,高校教師應(yīng)該不斷總結(jié)經(jīng)驗、調(diào)整教學(xué)方式,培養(yǎng)出更多優(yōu)秀的數(shù)據(jù)挖掘人才。
[1] Big Data for Development:Challenges & Opportunities [DB/OL].http://www.unglobalpulse.org/sites/default/files/Big-DataforDevelopment-UNGlobalpulseJune2012.pdf,2012-05-01.
[2] 項賢明.論教育創(chuàng)新與教育改革[J].高等教育研究,2007,(12):1-7.
[3] 孫綿濤.當(dāng)代中國教育改革的基本經(jīng)驗[J].現(xiàn)代教育管理,2015,(04):1-10.
[4] 詹少強(qiáng).大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新探[J].長春教育學(xué)院學(xué)報,2014,30(22):81-82.
[5] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(自然科學(xué)版),2004,(02):246-252.
[6] 黃嵐.數(shù)據(jù)挖掘課程實踐教學(xué)資源庫建設(shè)[J].計算機(jī)教育, 2014,(12):89-92.
[7] 杜卓明.《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》課程教學(xué)實踐與教學(xué)改革探索[J].科技視界,2014,(28):86+135.
[8] 劉云霞.統(tǒng)計學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報,2010,26(06):20-22.
[9] 安璐,歐孟花,李綱.數(shù)據(jù)挖掘課程的知識體系構(gòu)建[J].圖書情報知識,2016,(05):4-12.
[10]錢峰.國內(nèi)數(shù)據(jù)挖掘工具研究綜述[J].情報雜志,2008,(10):11-13.
[11]周森鑫,盛鵬飛,王夫芹.數(shù)據(jù)挖掘課程案例教學(xué)研究[J].計算機(jī)技術(shù)與發(fā)展,2012,22(11):183-186.
[12]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2000,(06):41-44.
[13]宋杰,孫宗哲,毛克明,鮑玉斌,于戈.MapReduce大數(shù)據(jù)處理平臺與算法研究進(jìn)展[J].軟件學(xué)報,2017,28(03):514-543.
[14]黃斌,許舒人,蒲衛(wèi).基于MapReduce的數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn)[J].計算機(jī)工程與設(shè)計,2013,34(02):495-501.
[15]唐漢衛(wèi).論教育改革的邏輯[J].教育研究,2011,32(10):11-15.
[16]曾明星,周清平,蔡國民,王曉波,陳生萍,黃云,董堅峰.基于MOOC的翻轉(zhuǎn)課堂教學(xué)模式研究[J].中國電化育,2015,(04):102-108.
[17]楊玉芹.MOOC學(xué)習(xí)者個性化學(xué)習(xí)模型建構(gòu)[J].中國電化教育,2014,(06):6-10+68.
[18]魏順平,韓艷輝,王麗娜.基于學(xué)習(xí)過程數(shù)據(jù)挖掘與分析的在線教學(xué)反思研究[J].現(xiàn)代教育技術(shù),2015,25(06):89-95.
[19]張冬青.數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用問題研究[J].現(xiàn)代情報,2005,(09):23-25.
[20]龔著琳,陳瑛,蘇懿,劉雅琴,徐立鈞.數(shù)據(jù)挖掘在生物醫(yī)學(xué)數(shù)據(jù)分析中的應(yīng)用[J].上海交通大學(xué)學(xué)報(醫(yī)學(xué)版),2010,30(11):1420-1423.
[21]何清.物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J].智能系統(tǒng)學(xué)報,2012,7(03):189-194.
[22]徐赟,張輝.數(shù)據(jù)挖掘在體育領(lǐng)域中的應(yīng)用[J].武漢體育學(xué)院學(xué)報,2012,46(11):27-30.