黃浩 余琍 劉樹波
摘要:針對(duì)高校計(jì)算機(jī)專業(yè)數(shù)據(jù)挖掘課程教學(xué)存在的問題,探討以實(shí)踐和創(chuàng)新能力培養(yǎng)為導(dǎo)向的數(shù)據(jù)挖掘課程教學(xué)方法,綜合采用案例穿透教學(xué)、能力拓展比賽等方法,逐步深化學(xué)生對(duì)具體數(shù)據(jù)挖掘算法所包含的數(shù)學(xué)原理或啟發(fā)式智慧的認(rèn)識(shí),提升學(xué)生將所學(xué)知識(shí)合理、創(chuàng)新地應(yīng)用于具體問題的能力。
關(guān)鍵詞:數(shù)據(jù)挖掘;課程教學(xué);實(shí)踐能力;創(chuàng)新能力
中圖分類號(hào):G642.0? ? ?文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1674-9324(2019)49-0130-03
一、引言
隨著計(jì)算機(jī)科學(xué)的發(fā)展,世界已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)也逐漸成為重要的資源。如何從數(shù)據(jù)中挖掘有意義、有價(jià)值的信息也變得愈加重要。目前,國(guó)內(nèi)外高校的計(jì)算機(jī)專業(yè)大都開設(shè)了數(shù)據(jù)挖掘相關(guān)課程,旨在培養(yǎng)符合時(shí)代要求的數(shù)據(jù)挖掘研究人才和應(yīng)用人才。文獻(xiàn)[1]探討了數(shù)據(jù)挖掘課程的教學(xué)方法,為此課程的教學(xué)改革與創(chuàng)新提供了一些指導(dǎo)與借鑒意義。文獻(xiàn)[2]分析了數(shù)據(jù)挖掘課程存在的弊端,并著重講述了以實(shí)例為主線貫穿教學(xué)過程的思路。文獻(xiàn)[3]提出了基于案例和懸念的教學(xué)模式激發(fā)學(xué)生的積極性,以提高教學(xué)效果。文獻(xiàn)[4]探索了數(shù)據(jù)挖掘課程教學(xué)的改革,并給出了一些教學(xué)改革的意見。然而,由于數(shù)據(jù)挖掘教學(xué)任務(wù)重,以及該領(lǐng)域教師多年養(yǎng)成的科研習(xí)慣、教學(xué)習(xí)慣等原因,教師在數(shù)據(jù)挖掘教學(xué)過程中更注重講解,特別是理論知識(shí)的講解,且傾向于模式化的訓(xùn)練,從而在一定程度上使該課程的教學(xué)存在著缺乏交互性、缺乏感性認(rèn)識(shí)、缺乏趣味性和缺乏拓展性等問題,導(dǎo)致教學(xué)效果不理想。因此,為了進(jìn)一步提高數(shù)據(jù)挖掘教學(xué)質(zhì)量,我們要改進(jìn)現(xiàn)有的教學(xué)方法,真正讓學(xué)生參與進(jìn)來,提高學(xué)生的學(xué)習(xí)興趣,讓學(xué)生透徹理解并靈活應(yīng)用相關(guān)數(shù)據(jù)挖掘知識(shí),最終達(dá)到培養(yǎng)學(xué)生實(shí)踐能力和創(chuàng)新能力的目標(biāo)。
本文旨在探討以實(shí)踐和創(chuàng)新能力培養(yǎng)為導(dǎo)向的數(shù)據(jù)挖掘課程教學(xué)方法。為此,本文接下來首先討論數(shù)據(jù)挖掘課程教學(xué)中的常見問題,然后針對(duì)這些問題介紹如何綜合使用:(1)案例穿透教學(xué);(2)能力拓展比賽等教學(xué)方法提升學(xué)生的數(shù)據(jù)挖掘?qū)嵺`和創(chuàng)新能力。
二、數(shù)據(jù)挖掘課程教學(xué)中的常見問題
在現(xiàn)有的數(shù)據(jù)挖掘課程教學(xué)中,通常學(xué)生都是被動(dòng)學(xué)習(xí),自己動(dòng)手實(shí)踐的機(jī)會(huì)較少,存在缺乏交互性、缺乏感性認(rèn)識(shí)、缺乏趣味性以及缺乏拓展性等問題,難以使學(xué)生透徹理解并靈活應(yīng)用相關(guān)數(shù)據(jù)挖掘知識(shí)。
(一)缺乏交流互動(dòng)
在數(shù)據(jù)挖掘教學(xué)過程中,師生之間的交流互動(dòng)尤為重要。這是因?yàn)閿?shù)據(jù)挖掘算法涉及眾多細(xì)節(jié),教師只有通過與學(xué)生的交流互動(dòng),才能實(shí)時(shí)了解學(xué)生對(duì)各知識(shí)點(diǎn)的掌握情況,并據(jù)此合理調(diào)整教學(xué)內(nèi)容。然而,由于數(shù)據(jù)挖掘教學(xué)內(nèi)容多、任務(wù)重,教師為了跟上教學(xué)進(jìn)度,往往更重視講解而忽略交互。學(xué)生在交互較少的課堂氛圍下,也往往傾向于被動(dòng)式地聽講,從而使課堂交流互動(dòng)進(jìn)一步缺失。因此,需要設(shè)計(jì)一種更加適合師生交流互動(dòng)的數(shù)據(jù)挖掘教學(xué)模式。
(二)缺乏感性認(rèn)識(shí)
在數(shù)據(jù)挖掘課程學(xué)習(xí)中,感性地認(rèn)識(shí)相關(guān)算所包含的數(shù)學(xué)原理、啟發(fā)式智慧、適用條件、優(yōu)缺點(diǎn)等具有積極的作用和重要的意義。相較于傳統(tǒng)理性認(rèn)知,感性認(rèn)知提升了學(xué)生對(duì)數(shù)據(jù)挖掘知識(shí)的總體把控能力,可以有效促進(jìn)學(xué)生在實(shí)踐中運(yùn)用這些知識(shí)的熟練度、靈活度。感性認(rèn)識(shí)的缺乏將使學(xué)生對(duì)數(shù)據(jù)挖掘知識(shí)的掌握失去“活性”,變得抽象、孤立,導(dǎo)致難以做到真正的融會(huì)貫通。然而,由于教師長(zhǎng)期科學(xué)訓(xùn)練、科學(xué)研究養(yǎng)成的習(xí)慣,著力于對(duì)數(shù)據(jù)挖掘知識(shí)點(diǎn)進(jìn)行理論講解、猶如公式推導(dǎo)般地介紹相關(guān)算法目前仍然是數(shù)據(jù)挖掘教學(xué)方式、方法的主流,從而使感性認(rèn)識(shí)在數(shù)據(jù)挖掘教學(xué)過程中無意地被弱化。因此,亟須優(yōu)化傳統(tǒng)的教學(xué)方法,進(jìn)行靈活有效地課堂知識(shí)滲透,結(jié)合形象化的講述方式和針對(duì)具體問題的系統(tǒng)討論,為學(xué)生搭建感性認(rèn)識(shí)的橋梁,增強(qiáng)數(shù)據(jù)挖掘教學(xué)的“活性”。
(三)缺乏趣味性
一般來說,趣味性高的教學(xué)方式有助于提升學(xué)生在學(xué)習(xí)過程中的主觀能動(dòng)性,加深學(xué)生對(duì)相關(guān)知識(shí)的理解、吸收。但是數(shù)據(jù)挖掘課程教學(xué)理論性較強(qiáng)、學(xué)習(xí)內(nèi)容略顯枯燥,這使課程的趣味性相對(duì)缺乏。因此,如何提升趣味性,增強(qiáng)學(xué)生學(xué)習(xí)過程中的主觀能動(dòng)性,是實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)挖掘課程教學(xué)亟須考慮的現(xiàn)實(shí)問題。
(四)缺乏拓展性
練習(xí)與運(yùn)用是鞏固所學(xué)知識(shí)、訓(xùn)練實(shí)踐能力和創(chuàng)新能力的有效手段。在數(shù)據(jù)挖掘教學(xué)中,為了對(duì)學(xué)生的練習(xí)和運(yùn)用結(jié)果量化打分,常見的做法是各類型知識(shí)點(diǎn)獨(dú)立命題、統(tǒng)一要求,對(duì)學(xué)生進(jìn)行模式化的訓(xùn)練。雖然這種方式可以達(dá)到細(xì)化訓(xùn)練目標(biāo)、公平公正打分的目的,卻一定程度上失去了對(duì)學(xué)生綜合分析問題、解決問題的能力的培養(yǎng),犧牲了進(jìn)一步拓展學(xué)生實(shí)踐能力和創(chuàng)新能力的可能性。因此,如何設(shè)計(jì)更加合理的練習(xí)和運(yùn)用場(chǎng)景,有效鞏固和拓展學(xué)生對(duì)所學(xué)數(shù)據(jù)挖掘知識(shí)的理解和認(rèn)識(shí),對(duì)升華數(shù)據(jù)挖掘課程教學(xué)質(zhì)量具有積極、重要的作用。
三、案例穿透教學(xué)
為了加強(qiáng)師生的交流互動(dòng),提高學(xué)生的感性認(rèn)知,同時(shí)也提升課堂的趣味性,結(jié)合數(shù)據(jù)挖掘課程教學(xué)特點(diǎn),我們提出一種更具“穿透力”的教學(xué)模式——案例穿透教學(xué),即通過精心設(shè)計(jì)、環(huán)環(huán)相扣的案例,采取師生一起討論、一起發(fā)現(xiàn)的方法,貫穿算法的全流程使用細(xì)節(jié),覆蓋算法的全方位運(yùn)用方式,在有限的課堂教學(xué)時(shí)間內(nèi),讓學(xué)生對(duì)算法的精髓原理、不同條件下可變化的使用方式以及與其他方法的互補(bǔ)聯(lián)用等知識(shí)點(diǎn)的認(rèn)識(shí)得到快速提升。
下面我們以數(shù)據(jù)挖掘中聚類算法教學(xué)為例,介紹案例穿透教學(xué),內(nèi)容包括:(1)參數(shù)初始化策略,(2)使用細(xì)節(jié)合理化調(diào)整,(3)與其他方法的搭配與聯(lián)用。
(一)參數(shù)初始化策略
對(duì)于許多數(shù)據(jù)挖掘算法,其參數(shù)的初始化對(duì)算法的最終結(jié)果有一定影響。例如在K-均值聚類算法中,如何選擇K(即聚類中心的個(gè)數(shù))以及K個(gè)初始聚類中心會(huì)一定程度上影響該算法的最終聚類結(jié)果。
首先,為了讓學(xué)生認(rèn)識(shí)這種影響的存在,可以使用二維數(shù)據(jù)樣本集合(使用二維數(shù)據(jù)樣本為了更好地支持?jǐn)?shù)據(jù)的可視化表達(dá)),引導(dǎo)學(xué)生討論、預(yù)測(cè)初始聚類中心的個(gè)數(shù)和分布對(duì)K-均值算法聚類結(jié)果的可能影響。繼而,實(shí)時(shí)運(yùn)行采用不同初始聚類中心的K-均值算法,給出聚類結(jié)果的可視化表達(dá)(如沒有實(shí)時(shí)運(yùn)行的條件,亦可事先準(zhǔn)備多種不同參數(shù)初始化情況的算法結(jié)果),并向?qū)W生解釋造成這些聚類結(jié)果的原因,從而使學(xué)生對(duì)K-均值算法參數(shù)影響形成一定的感性認(rèn)識(shí)。
在這種感性認(rèn)識(shí)的基礎(chǔ)上,進(jìn)一步對(duì)K-均值算法參數(shù)初始化要考慮的實(shí)際情況,例如待處理的數(shù)據(jù)集中各類數(shù)據(jù)樣本分布是否呈凸形狀或任意形狀、在各類中數(shù)據(jù)樣本數(shù)目分布是否相對(duì)均勻或差異巨大等進(jìn)行總結(jié)歸納,并針對(duì)不同實(shí)際情況,啟發(fā)式地將對(duì)應(yīng)的參數(shù)初始化策略傳授給學(xué)生。該啟發(fā)式教學(xué)的要點(diǎn)為對(duì)錯(cuò)并舉,即一次舉出包括正確和不正確的初始化策略的多種方法供學(xué)生討論、預(yù)測(cè),并由教師記性驗(yàn)證、分析。
(二)使用細(xì)節(jié)合理化調(diào)整
除了參數(shù)的初始化,在算法使用過程中,對(duì)算法細(xì)節(jié)的合理調(diào)整也可以使算法產(chǎn)生不同的效果,從而有效地應(yīng)對(duì)不同的使用目標(biāo)、使用條件。
首先,為了開拓學(xué)生的思維,讓學(xué)生對(duì)算法使用細(xì)節(jié)的合理化調(diào)整產(chǎn)生一定的感性認(rèn)識(shí),需要教師給出少量難度適宜的案例,方便學(xué)生理解哪些細(xì)節(jié)的調(diào)整可能產(chǎn)生哪些對(duì)應(yīng)的效果,從而應(yīng)對(duì)不同的使用目標(biāo)、使用條件。例如,當(dāng)使用K-均值算法來找出一維非負(fù)數(shù)據(jù)樣本集合中數(shù)值接近于0的數(shù)據(jù)樣本時(shí),可以設(shè)定K=2(即聚類個(gè)數(shù)設(shè)為2),并且在K-均值算法運(yùn)行過程中始終固定2個(gè)聚類中心,其中一個(gè)固定在0,這樣當(dāng)K-均值運(yùn)行收斂后,即可獲得一個(gè)數(shù)據(jù)值明顯大于0和一個(gè)數(shù)據(jù)值接近0的兩個(gè)數(shù)據(jù)樣本聚類;而當(dāng)待處理的數(shù)據(jù)類型不是傳統(tǒng)的數(shù)值型數(shù)據(jù),而是屬性數(shù)據(jù)時(shí),通??梢詫-均值算法修改為K-眾數(shù)算法,并且使用余弦相似度代替?zhèn)鹘y(tǒng)的歐式距離衡量?jī)蓛蓴?shù)據(jù)樣本之間的接近程度。
然后,在教師對(duì)以上案例進(jìn)行基本講解之后,可以進(jìn)行舉一反三,由教師引導(dǎo),讓學(xué)生一起進(jìn)一步討論、深挖針對(duì)以上使用目標(biāo)、使用條件的其他可行的合理化調(diào)整方法。當(dāng)達(dá)到舉一反三的目的之后,學(xué)生對(duì)算法細(xì)節(jié)合理化調(diào)整便有了一定的了解,這時(shí)再由教師提出新的使用目標(biāo)、使用條件,繼續(xù)引導(dǎo)學(xué)生進(jìn)行開放式討論、分析,讓學(xué)生將這類問題的學(xué)習(xí)由模仿上升到創(chuàng)造。由于一個(gè)數(shù)據(jù)挖掘算法往往涉及較多細(xì)節(jié),為了避免細(xì)節(jié)調(diào)整效果的混雜,要注意對(duì)算法各個(gè)細(xì)節(jié)的效用分門別類,一一討論、分析。
(三)與其他方法的搭配與聯(lián)用
由于各個(gè)數(shù)據(jù)挖掘算法通常各具優(yōu)缺點(diǎn),相比單獨(dú)使用各個(gè)算法,合理的搭配和聯(lián)用多個(gè)算法往往能使相關(guān)算法優(yōu)勢(shì)互補(bǔ),獲得更好的使用效果。
首先,教師要復(fù)習(xí)、總結(jié)相關(guān)算法的優(yōu)缺點(diǎn),在此基礎(chǔ)上給出少量相對(duì)簡(jiǎn)單的搭配聯(lián)用案例,讓學(xué)生快速了解搭配聯(lián)用的效果和意義。例如,K-均值算法的優(yōu)點(diǎn)在計(jì)算代價(jià)小,但是不太適合識(shí)別具有任意形狀的聚類;相反,層次聚類在處理任意形狀聚類時(shí)有一定優(yōu)勢(shì),但是計(jì)算代價(jià)過大。為了使這兩個(gè)算法優(yōu)勢(shì)互補(bǔ),可以先用有效率優(yōu)勢(shì)的K-均值算法將數(shù)據(jù)凸分解為一系列大小相近的眾多小聚類,再以各聚類中心點(diǎn)為代表點(diǎn)(代表點(diǎn)數(shù)量遠(yuǎn)小于原始數(shù)據(jù)樣本數(shù)量),繼而在代表點(diǎn)上運(yùn)行有性能優(yōu)勢(shì)的層次聚類算法,則可既快速又相對(duì)準(zhǔn)確地完成對(duì)任意形狀聚類的識(shí)別。
在了解算法搭配聯(lián)用的效果和意義的基礎(chǔ)上,教師需要總結(jié)常見的算法搭配和聯(lián)用的方法,并給予一定的點(diǎn)評(píng),加深學(xué)生對(duì)其中優(yōu)勢(shì)互補(bǔ)原理的理解。然后,再由教師采用“對(duì)錯(cuò)并舉”的方法,舉例新的搭配聯(lián)用的方法供學(xué)生討論、預(yù)測(cè),最后由教師進(jìn)行驗(yàn)證、分析,從而進(jìn)一步加強(qiáng)學(xué)生對(duì)算法搭配聯(lián)用的理解和領(lǐng)悟。
綜上所述,雖然案例穿透教學(xué)需要教師精心準(zhǔn)備大量環(huán)環(huán)相扣的案例,無形間增加了教師的工作量,但是這種課堂教學(xué)方法的交互性強(qiáng),有助于提升學(xué)生的感性認(rèn)識(shí),幫助他們更透徹地理解、更扎實(shí)地掌握相關(guān)數(shù)據(jù)挖掘知識(shí),從而為其靈活運(yùn)用、創(chuàng)新應(yīng)用這些知識(shí)奠定良好基礎(chǔ)。
四、能力拓展比賽
為了充分利用課余時(shí)間進(jìn)一步提高學(xué)生的實(shí)踐能力和創(chuàng)新能力,結(jié)合數(shù)據(jù)挖掘?qū)W科特點(diǎn),我們提出了一種更加有趣、也更具“拓展性”的課后練習(xí)模式——能力拓展比賽,即結(jié)合課程內(nèi)容和進(jìn)度設(shè)計(jì)實(shí)際的數(shù)據(jù)挖掘問題場(chǎng)景,讓學(xué)生以匿名比賽的方式,在相對(duì)充足的時(shí)間內(nèi)加深自己對(duì)相關(guān)問題的分析與思考,改進(jìn)自己的數(shù)據(jù)挖掘解決方案。
下面我們以聚類問題的課后練習(xí)為例,介紹能力拓展比賽,包括:(1)比賽機(jī)制;(2)激勵(lì)機(jī)制。
(一)比賽機(jī)制
比賽開始前,教師給出問題描述和原始數(shù)據(jù)集,但不提供真實(shí)的結(jié)果標(biāo)記(Ground Truth),例如,在聚類問題中,教師提供待聚類的數(shù)據(jù)樣本,但不提供數(shù)據(jù)樣本的真實(shí)類別標(biāo)簽;教師規(guī)定解決方案的評(píng)價(jià)指標(biāo),例如,在聚類問題中,評(píng)價(jià)指標(biāo)可以選用NMI(標(biāo)準(zhǔn)化互信息)用于衡量解決方案得出的聚類結(jié)果和真實(shí)聚類結(jié)果之間的一致性;教師規(guī)定最終解決方案的提交截止日期;學(xué)生向教師報(bào)告自己的參賽昵稱。
比賽過程中,每位學(xué)生每日可以有限次地提交當(dāng)前解決方案或解決方案得到的結(jié)果,并根據(jù)昵稱查看自己當(dāng)前結(jié)果在評(píng)價(jià)指標(biāo)上的得分(例如NMI值等)以及當(dāng)前結(jié)果得分排名等信息。這種匿名結(jié)果驗(yàn)證方式,既一定程度上保持了比賽的趣味性,又可以防止過度調(diào)參行為,還可以讓學(xué)生根據(jù)得到的當(dāng)前得分和排名信息做出合理推斷或驗(yàn)證之前的推斷,從而改進(jìn)解決方案,調(diào)整比賽策略,以期最終獲得更好的得分和排名。
(二)激勵(lì)機(jī)制
在比賽過程中,為了鼓勵(lì)學(xué)生最大限度地分析研究問題和數(shù)據(jù)集,改進(jìn)解決方案的效果,也同時(shí)保護(hù)部分學(xué)生的參賽積極性,教師在定期更新比賽排名時(shí),只需報(bào)告前幾名(例如前十名)的昵稱、得分、排名;同時(shí),在比賽結(jié)束后,給最終排在前幾名的學(xué)生相對(duì)更高的平時(shí)成績(jī)激勵(lì)。
此外,在創(chuàng)新性方面,也要給予額外的平時(shí)成績(jī)激勵(lì),特別是所提解決方案采用了課堂教學(xué)中未討論過的參數(shù)初始化策略、細(xì)節(jié)調(diào)整方法、多算法搭配聯(lián)用技巧等。同時(shí),對(duì)于創(chuàng)新性高、潛力大的想法和思路,教師應(yīng)當(dāng)繼續(xù)鼓勵(lì)并指導(dǎo)相關(guān)學(xué)生深入研究,完成相關(guān)研究論文或發(fā)明專利,從而進(jìn)一步提升學(xué)生的積極性、成就感,提升教學(xué)成果。
綜上所述,雖然能力拓展比賽需要教師花費(fèi)較多精力設(shè)計(jì)比賽場(chǎng)景、搭建比賽環(huán)境,但是這種課后練習(xí)方法的趣味性較強(qiáng),也更有利于學(xué)生在相對(duì)真實(shí)的環(huán)境中磨煉、提升數(shù)據(jù)挖掘能力。
五、結(jié)語(yǔ)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘課程教學(xué)和數(shù)據(jù)挖掘人才培養(yǎng)具有重要的現(xiàn)實(shí)意義。本文圍繞以實(shí)踐和創(chuàng)新能力培養(yǎng)為導(dǎo)向的數(shù)據(jù)挖掘課程教學(xué)方法展開探討,首先分析了當(dāng)前數(shù)據(jù)挖掘課程教學(xué)中的常見問題,繼而提出了綜合使用案例穿透教學(xué)、能力拓展比賽等教學(xué)方法,在逐步加深學(xué)生對(duì)相關(guān)算法的理解深度、提高算法運(yùn)用水平的過程中,培養(yǎng)其解決數(shù)據(jù)挖掘相關(guān)問題的實(shí)踐能力、創(chuàng)新能力,從而更好地達(dá)到數(shù)據(jù)挖掘課程教學(xué)和人才培養(yǎng)的最終目的。
參考文獻(xiàn):
[1]陳燕.數(shù)據(jù)挖掘課程教學(xué)方法探討[J].教育教學(xué)論壇,2018,(13).
[2]譚征,孫紅霞,王立宏,等.基于實(shí)例的本科數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)教育,2013,(9):67-70.
[3]鄧娜,林松,熊才權(quán),等.基于案例和懸念的數(shù)據(jù)挖掘教學(xué)模式設(shè)計(jì)[J].計(jì)算機(jī)教育,2018,(11):97-99.
[4]來鵬.數(shù)據(jù)挖掘課程教學(xué)改革探索[J].科技創(chuàng)新導(dǎo)報(bào),2018,15(12):232-234.