摘 要:文章通過對(duì)目前“數(shù)據(jù)挖掘”課程教學(xué)中存在問題的調(diào)研,結(jié)合實(shí)際工作中的見聞與思考,并匯總相關(guān)文獻(xiàn)的研究結(jié)論,提出解決教學(xué)中所存在問題的整體方案。該方案可歸結(jié)為以“理論”、“數(shù)據(jù)”、“代碼”為核心的TDC教學(xué)模式,從而提出一種大學(xué)數(shù)據(jù)挖掘課程的新式教學(xué)方法。
關(guān)鍵詞:數(shù)據(jù)挖掘 任務(wù)驅(qū)動(dòng)法 TDC教學(xué)模式
中圖分類號(hào):F222 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-4914(2015)05-253-02
一、引言
數(shù)據(jù)挖掘作為一門新興的學(xué)科,是高等數(shù)學(xué)、統(tǒng)計(jì)學(xué)以及數(shù)據(jù)庫技術(shù)等交叉發(fā)展的產(chǎn)物,它廣泛應(yīng)用于商業(yè)、工程、醫(yī)學(xué)、農(nóng)學(xué)等諸多領(lǐng)域。隨著我國社會(huì)經(jīng)濟(jì)的發(fā)展,各行業(yè)信息化程度不斷提升,產(chǎn)生了可供分析挖掘的海量數(shù)據(jù)。因此,如何充分利用這些數(shù)據(jù)并從中提煉有價(jià)值的信息,成為學(xué)術(shù)界日益關(guān)注的焦點(diǎn)問題。近年來,為緊跟社會(huì)發(fā)展的步伐,國內(nèi)外高校紛紛開設(shè)數(shù)據(jù)挖掘課程,該課程具有鮮明的時(shí)代特點(diǎn)和較強(qiáng)的實(shí)用性,受到了學(xué)生們的廣泛歡迎,但又由于課程內(nèi)容復(fù)雜、模型眾多、理論較抽象、對(duì)數(shù)學(xué)基礎(chǔ)要求較高,在教學(xué)過程中也暴露出一些問題,主要表現(xiàn)為:
一是課程理論部分內(nèi)容特別豐富,且呈不斷膨脹趨勢(shì),如果不適時(shí)地改革傳統(tǒng)教學(xué)方式,新內(nèi)容將使學(xué)習(xí)者應(yīng)接不暇,對(duì)授課教師也形成不小的壓力。
二是適合于課堂教學(xué)并且生動(dòng)有趣的實(shí)例數(shù)據(jù)相對(duì)較少。由于有價(jià)值的數(shù)據(jù)資源大多存在于金融、電信、保險(xiǎn)等行業(yè),而這些數(shù)據(jù)往往涉及行業(yè)機(jī)密,因此,尋找合適的數(shù)據(jù)資源以供課堂教學(xué)使用并非易事。
三是適合于課堂教學(xué)使用的示例程序相對(duì)較少。目前可以呈現(xiàn)數(shù)據(jù)挖掘效果的軟件有不少,可方便地從輸入數(shù)據(jù)中挖掘出結(jié)果,適合于商業(yè)使用,但對(duì)于以學(xué)習(xí)原理為目的的學(xué)生而言并無補(bǔ)益。
針對(duì)上述諸多問題,一些教學(xué)研究者從不同的角度提出了改革建議,如:覃義(2012)提出數(shù)據(jù)挖掘的教學(xué)應(yīng)與實(shí)驗(yàn)相結(jié)合,并且應(yīng)與驗(yàn)證式的實(shí)驗(yàn)形成區(qū)別,避免給學(xué)生提供數(shù)據(jù)而讓學(xué)生按照步驟進(jìn)行挖掘的方式,以培養(yǎng)學(xué)生的實(shí)踐能力;王麗麗(2013)提出以CDIO(構(gòu)思、設(shè)計(jì)、實(shí)施、運(yùn)作,Conceive, Design, Implement,Operate)理念為指導(dǎo),以CDIO過程為主導(dǎo),以項(xiàng)目驅(qū)動(dòng)法為方法,改革課程教學(xué)方式,對(duì)教學(xué)目標(biāo)、教學(xué)內(nèi)容、教學(xué)方式進(jìn)行重設(shè),增加項(xiàng)目教學(xué),實(shí)踐證明,上述改革舉措能有效培養(yǎng)學(xué)生思考和主動(dòng)學(xué)習(xí)的能力、提升工程實(shí)踐和團(tuán)隊(duì)合作能力。而黃嵐(2014)從教學(xué)資源的角度出發(fā),提出通過構(gòu)建三大類挖掘資源庫以輔助教學(xué)的模式。但這些新的改革方案都是從某一特定角度出發(fā),解決了當(dāng)前數(shù)據(jù)挖掘教學(xué)中存在的某些具體問題,具有局限性,正如李衛(wèi)華(2014)指出,項(xiàng)目驅(qū)動(dòng)法僅適用于小班化教學(xué),當(dāng)班級(jí)人數(shù)超過50時(shí),該方法無法順利開展,其局限性顯而易見。
為了對(duì)數(shù)據(jù)挖掘課程的整個(gè)教學(xué)模式進(jìn)行根本性、徹底性的變革,筆者經(jīng)過反復(fù)思考,結(jié)合與授課同學(xué)交流的體會(huì),提出一種T(理論,Theory)、D(數(shù)據(jù),Data)、C(代碼,Code)相結(jié)合的新式教學(xué)方法。T為大綱規(guī)定的理論性內(nèi)容,D為精心準(zhǔn)備的各行業(yè)案例數(shù)據(jù),C為實(shí)現(xiàn)具體算法的程序代碼。該教學(xué)法讓同學(xué)們?cè)诰幊虒?shí)戰(zhàn)中學(xué)會(huì)并掌握數(shù)據(jù)挖掘的基本理論,同時(shí)還初步掌握1~2門編程語言。整套改革方案包括如下相互聯(lián)系的幾個(gè)組成部分。
二、重設(shè)課程教學(xué)大綱
當(dāng)前,數(shù)據(jù)挖掘課程教育界有一套公認(rèn)為標(biāo)準(zhǔn)的教學(xué)大綱,是2006年由美國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)挖掘?qū)iT興趣小組(ACM SIGKDD)擬定的。SIGKDD的大綱從數(shù)據(jù)庫、數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)推理等8個(gè)方面入手,將課程教學(xué)內(nèi)容分為基礎(chǔ)和高級(jí)兩個(gè)專題。其中,基礎(chǔ)部分包括:導(dǎo)論、數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫與OLAP、關(guān)聯(lián)規(guī)則與頻繁模式挖掘、分類、聚類與孤立點(diǎn)分析、時(shí)間序列與序列模式、文本與Web挖掘、數(shù)據(jù)挖掘的可視化、數(shù)據(jù)挖掘應(yīng)用10章;高級(jí)部分包含基礎(chǔ)部分后9章的全部內(nèi)容,另外還引入了更復(fù)雜的算法及數(shù)據(jù)流挖掘、時(shí)空與多媒體數(shù)據(jù)挖掘等內(nèi)容。
可見,大綱規(guī)定的內(nèi)容,特別是高級(jí)專題部分,具有隨社會(huì)發(fā)展不斷膨脹的特點(diǎn),而本文所提出的教學(xué)改革方案,是以不增加課堂教學(xué)總學(xué)時(shí)為前提的。不僅如此,還將考慮增加程序設(shè)計(jì)部分的講授內(nèi)容,由此要求對(duì)“標(biāo)準(zhǔn)版”大綱的內(nèi)容實(shí)施裁減,新的大綱以“讓學(xué)生掌握基本的數(shù)據(jù)挖掘理論”為前提,適當(dāng)刪減理論部分的內(nèi)容,增加課程實(shí)踐部分的學(xué)時(shí)。例如,在決策樹分類算法部分,介紹ID3算法這一典型即可,對(duì)其變種C4.5可交給同學(xué)自學(xué),綜合而言,對(duì)標(biāo)準(zhǔn)版大綱的重新組織方案可參看表1。
按照這種方案對(duì)教學(xué)內(nèi)容刪減之后,并不會(huì)削弱同學(xué)們對(duì)數(shù)據(jù)挖掘基本理論的理解,這是由于這些算法中,所保留的基本算法或原型算法往往能體現(xiàn)某一大類算法的本質(zhì)特點(diǎn),而所刪減部分的內(nèi)容只是在細(xì)節(jié)問題上和原型算法有一些差異,無關(guān)算法的核心內(nèi)容,這就解決了Theory部分的教學(xué)問題,而利用所節(jié)余的時(shí)間,輔以程序?qū)崿F(xiàn)(Code)的教學(xué),反過來還能進(jìn)一步夯實(shí)所學(xué)的理論,加深理解。
三、全方位多角度改革教學(xué)方式
(一)搜集有價(jià)值的案例數(shù)據(jù)
數(shù)據(jù)在數(shù)據(jù)挖掘課程中的重要性也許是所有課程中最重要的,2014年,學(xué)者黃嵐專門研究了課程數(shù)據(jù)資源庫的建立之于課堂教學(xué)的重要意義。為取得良好的教學(xué)效果,激發(fā)學(xué)習(xí)熱情,須要精心選擇一批好的案例,搜集一批具有一定規(guī)模的數(shù)據(jù),避免紙上談兵。例如,用于頻繁模式發(fā)現(xiàn)的數(shù)據(jù),其事務(wù)條數(shù)至少應(yīng)達(dá)到上百或以上規(guī)模,才能體現(xiàn)本課程的價(jià)值。當(dāng)然,這些實(shí)例數(shù)據(jù)的來源應(yīng)當(dāng)真實(shí)可靠,有說服力,并且和社會(huì)普遍關(guān)注的問題有一定相關(guān)性,這樣才能更好地抓住受眾的眼球。例如在講授時(shí)間序列分析時(shí),可采集一批股票或期貨市場(chǎng)的價(jià)格數(shù)據(jù)。為做好數(shù)據(jù)準(zhǔn)備工作,任課教師團(tuán)隊(duì)須要投入一定的時(shí)間精力與學(xué)術(shù)界、企業(yè)界交流,爭取他們?cè)跀?shù)據(jù)上對(duì)大學(xué)教學(xué)工作的支持。
(二)選擇合適的輔助學(xué)習(xí)軟件
傳統(tǒng)的教學(xué)方式側(cè)重于講授理論,為加深對(duì)理論的理解,會(huì)有一些書面練習(xí),但是數(shù)據(jù)挖掘課程的特點(diǎn)決定了其數(shù)據(jù)規(guī)模往往較龐大,因此通過計(jì)算器和草稿紙的傳統(tǒng)演算方式來完成計(jì)算任務(wù)并不切實(shí)際,因而亟待引入專門的計(jì)算軟件輔助挖掘工作的開展。
目前能勝任數(shù)據(jù)挖掘任務(wù)的程序并不少見,如馬守東(2013)所推薦采用的SAS軟件,以及曾垂?。?014)在教學(xué)中使用的Clementine軟件。但是,這些軟件設(shè)計(jì)的初衷是為了解決工業(yè)上的數(shù)據(jù)挖掘?qū)嶋H問題,而非為了輔助教學(xué),對(duì)教學(xué)而言,這些軟件的弊端是過于“重量級(jí)”。另一方面,其工作方式往往是,經(jīng)過簡單的參數(shù)配置,同時(shí)確保輸入數(shù)據(jù)格式符合要求,即可在短時(shí)間內(nèi)輸出挖掘結(jié)果。如此過程對(duì)于學(xué)生而言無異于黑箱操作,學(xué)習(xí)者無法深入領(lǐng)會(huì)挖掘算法的原理、來龍去脈,因而無助于培養(yǎng)動(dòng)手實(shí)踐能力,副作用很明顯。
另一種可能考慮的方案是選擇諸如Java、C、C++之類的主流程序設(shè)計(jì)語言,但是如果選擇它們,同樣會(huì)有一些問題,如:上述高級(jí)語言的學(xué)習(xí)本身即是一個(gè)復(fù)雜的過程,如果在課堂上講解語言本身,可能會(huì)沖淡課程的主題,顧此失彼。而如果不講,則對(duì)于沒有經(jīng)過有效訓(xùn)練的同學(xué),難以在短時(shí)間內(nèi)掌握,徒增對(duì)課程的畏懼心理;課程學(xué)習(xí)對(duì)象未必是接受過專門訓(xùn)練的計(jì)算機(jī)專業(yè)同學(xué),甚至并不具備程序設(shè)計(jì)基礎(chǔ),因此受眾的軟件開發(fā)能力可能參差不齊,由此會(huì)帶來教學(xué)效果的大打折扣。
例如,對(duì)于經(jīng)管類專業(yè)本科生而言,數(shù)據(jù)挖掘的教學(xué)內(nèi)容對(duì)他們有著較強(qiáng)的吸引力,但相對(duì)薄弱的計(jì)算機(jī)編程基礎(chǔ)卻使他們對(duì)課程望而卻步,因此選擇一款合適的軟件開發(fā)工具很有必要,這樣的工具既能有效地體現(xiàn)算法的內(nèi)涵,展現(xiàn)整個(gè)算法實(shí)現(xiàn)過程的全貌,又能相對(duì)比較直觀,不需要具備底層的計(jì)算機(jī)知識(shí)即可快速上手,易學(xué)易用。筆者在教學(xué)實(shí)踐中發(fā)現(xiàn),由MathWorks公司推出的科學(xué)計(jì)算軟件matlab符合上述要求,使用matlab輔助課程教學(xué),效果良好。近年來,一款和matlab有著類似風(fēng)格的統(tǒng)計(jì)工具軟件R語言逐漸風(fēng)靡起來,并且在數(shù)據(jù)挖掘界也受到好評(píng),又由于它相對(duì)matlab更輕量級(jí)且開源、免費(fèi),因此可以預(yù)料R同樣能夠勝任數(shù)據(jù)挖掘的輔助教學(xué)任務(wù)。
(三)引入豐富的現(xiàn)代教學(xué)方式
數(shù)據(jù)挖掘?qū)儆谛屡d的信息技術(shù)類課程,目前,優(yōu)質(zhì)教師資源匱乏,適合本科生使用的優(yōu)秀參考書也不多見,并且課程的鮮明特點(diǎn)是:西方發(fā)達(dá)國家的數(shù)據(jù)挖掘技術(shù)領(lǐng)先于我們,其教學(xué)工作也比我國更有成效。為此,可充分利用網(wǎng)絡(luò)資源,將分散在互聯(lián)網(wǎng)上的優(yōu)秀材料匯集起來,引薦給同學(xué),包括原版的電子教材、課件甚至教學(xué)視頻;還可以開通微信公共號(hào)或群,在公共平臺(tái)上一方面可以推送反映數(shù)據(jù)挖掘技術(shù)最新進(jìn)展的科技短文,激發(fā)同學(xué)興趣和學(xué)習(xí)熱情,還可以利用平臺(tái)開展課程答疑,增強(qiáng)同學(xué)們對(duì)課程的認(rèn)同感、向心力;為彌補(bǔ)課堂教學(xué)學(xué)時(shí)的不足,可利用提供翻轉(zhuǎn)教學(xué)的MOOC平臺(tái),將某些知識(shí)點(diǎn)翻轉(zhuǎn)到課前講授、在課中僅作答疑或?qū)嵺`。
(四)改革課程考核方式
課程的考核須要體現(xiàn)學(xué)生對(duì)基本原理、基本理論的了解掌握程度和應(yīng)用能力,因此,對(duì)本課程而言,如果將考卷設(shè)計(jì)成記憶概念、代入公式這樣的風(fēng)格,并不合適;同樣,基于數(shù)據(jù)規(guī)模的考慮,傳統(tǒng)的集中考查方式也無法勝任,一道題的計(jì)算工作量可能耗費(fèi)數(shù)小時(shí)。在一些類似課程中,教師們往往采用“大作業(yè)”或“完成某具體任務(wù)”的方式來檢查學(xué)生掌握知識(shí)的水平,但這種開放式的檢查方式難以防范舞弊行為,會(huì)帶來不公平。因此,如何科學(xué)地評(píng)判同學(xué)接受知識(shí)的真實(shí)水平成為一個(gè)難題,一個(gè)初步設(shè)想是,考慮設(shè)計(jì)出基于數(shù)據(jù)挖掘的課程考評(píng)系統(tǒng),利用同學(xué)們上機(jī)時(shí)所采集的信息,如點(diǎn)擊、停留時(shí)間等,結(jié)合平時(shí)測(cè)驗(yàn)成績建立模型,最終獲得每個(gè)同學(xué)的合理分?jǐn)?shù)。當(dāng)然,這項(xiàng)工作目前還處于設(shè)想階段,其可行性如何有待進(jìn)一步論證。
四、結(jié)束語
為解決數(shù)據(jù)挖掘課程教學(xué)中遇到的一系列問題,本文提出一種基于TDC模式的教學(xué)新方法。但數(shù)據(jù)挖掘畢竟是一門新興課程,本文所提的方法其效果究竟如何,還有待實(shí)踐的檢驗(yàn)。注意到高校課程表中存在這樣一些課程,如“運(yùn)籌學(xué)”、“人工智能”、“模式識(shí)別”等,雖然與“數(shù)據(jù)挖掘”內(nèi)容不同,但其共同點(diǎn)是理論性強(qiáng)、內(nèi)容抽象、需要案例展現(xiàn)、需要程序?qū)崿F(xiàn)。因此了解和借鑒這些課程相關(guān)專家教授的先進(jìn)經(jīng)驗(yàn),為我所用,不失為提高教學(xué)效果的可行方法。
本文提出的TDC模式中,一個(gè)值得注意的細(xì)節(jié)問題是T和 C的比例分配問題。如果過多強(qiáng)調(diào)程序設(shè)計(jì)的語法、方法、技巧會(huì)喧賓奪主,而少了又達(dá)不到應(yīng)有的效果。因此,如何科學(xué)地規(guī)劃理論授課和編程實(shí)踐的比例,才能獲得最佳的教學(xué)效果,這是一個(gè)值得進(jìn)一步深入研究的問題。
參考文獻(xiàn):
[1] 覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體舍與創(chuàng)新.科技信息,2012(10)
[2] 王麗麗.CDIO視角下項(xiàng)目驅(qū)動(dòng)法在“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”教學(xué)中的應(yīng)用.電子商務(wù),2013(9)
[3] 黃嵐.數(shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫建設(shè).計(jì)算機(jī)教育,2014(12)
[4] 李衛(wèi)華.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫教學(xué)改革探討.惠州學(xué)院學(xué)報(bào), 2014(12)
[5] SIGKDD.Data Mining Curriculum:A Proposal.2006; Available from:http://www.sigkdd.org/curriculum/index.html.
[6] 馬守東,龔永峰.關(guān)于數(shù)據(jù)挖掘課程教學(xué)探索.電腦編程技巧與維護(hù),2013(24)
[7] 曾垂省.生物信息學(xué)專業(yè)之?dāng)?shù)據(jù)挖掘教學(xué)實(shí)踐與思考.廣東化工, 2014(7)
(作者單位:浙江財(cái)經(jīng)大學(xué)信息學(xué)院 浙江杭州 310018)
(作者簡介:石向榮,工學(xué)博士,講師,研究方向:數(shù)據(jù)挖掘和分析。)
(責(zé)編:賈偉)