陳朝焰,許洪云,劉攀
(上海商學(xué)院商務(wù)信息學(xué)院,上海201400)
大數(shù)據(jù)時代,數(shù)據(jù)挖掘成為數(shù)據(jù)科學(xué)領(lǐng)域的核心關(guān)鍵技術(shù)。越來越多的高校開設(shè)數(shù)據(jù)科學(xué)類本科專業(yè),開展數(shù)據(jù)挖掘課程建設(shè)成為數(shù)據(jù)科學(xué)人才培養(yǎng)和學(xué)科建設(shè)的重要組成部分。針對本科生的特點,對本科數(shù)據(jù)挖掘課程的理論和實踐教學(xué)內(nèi)容進(jìn)行結(jié)構(gòu)化設(shè)計,在實踐教學(xué)部分按照項目開發(fā)流程,將理論知識的教學(xué)融入實踐教學(xué)的結(jié)構(gòu)化框架,起到鞏固理論知識和加深算法理解的作用。教學(xué)實踐表明,這種結(jié)構(gòu)化設(shè)計有助于加深學(xué)生對教學(xué)內(nèi)容的理解,能更好地開展實踐教學(xué),提高學(xué)生學(xué)習(xí)的積極性,進(jìn)而提高教學(xué)質(zhì)量。
結(jié)構(gòu)化設(shè)計;數(shù)據(jù)挖掘;本科教學(xué);教學(xué)內(nèi)容
0 引言
隨著計算技術(shù)的進(jìn)步和物聯(lián)網(wǎng)的廣泛應(yīng)用,“人-機-物”三元世界深度融合,數(shù)據(jù)的采集、存儲與傳播的成本大大降低,人們生成或獲取數(shù)據(jù)越來越便捷,導(dǎo)致數(shù)據(jù)呈爆炸式增長,迎來了大數(shù)據(jù)時代。如今,數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和各個領(lǐng)域,成為重要的生產(chǎn)資料。數(shù)據(jù)已經(jīng)成為企業(yè)和國家競爭力的源泉,圍繞這些數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)分析,對個人的消費行為,企業(yè)商品的生產(chǎn)、流通和分配,社會的運作方式,甚至國家的治理方略等都會產(chǎn)生深遠(yuǎn)影響。
數(shù)據(jù)已經(jīng)成為國家基礎(chǔ)性戰(zhàn)略資源。2012年聯(lián)合國發(fā)布Big Data for Development:Challenges&Opportunities[1]詳細(xì)闡明了數(shù)據(jù)生態(tài)系統(tǒng),并分析了各國在運用大數(shù)據(jù)時所面臨的機遇和挑戰(zhàn)。為迎接大數(shù)據(jù)時代帶來的重大機遇與挑戰(zhàn),我國制定了一系列的發(fā)展規(guī)劃。2015年國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,明確指出全面推進(jìn)我國大數(shù)據(jù)發(fā)展和應(yīng)用,并提出加快建設(shè)數(shù)據(jù)強國。2016年發(fā)布的《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》中提出:“把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進(jìn)大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新”。工業(yè)和信息化部也制定了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,明確指出要加快建設(shè)數(shù)據(jù)強國,為實現(xiàn)制造強國和網(wǎng)絡(luò)強國提供強大的產(chǎn)業(yè)支撐。近年來,國內(nèi)許多高校和科研院所也在積極響應(yīng)國家的大數(shù)據(jù)戰(zhàn)略,開設(shè)大數(shù)據(jù)相關(guān)專業(yè),加大對大數(shù)據(jù)相關(guān)人才的培養(yǎng)力度。據(jù)南方都市報報道[2],截止到2020年,開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)”本科專業(yè)的院校已達(dá)612所。
數(shù)據(jù)科學(xué)類專業(yè)的廣泛開設(shè)使得數(shù)據(jù)挖掘課程處于核心地位。數(shù)據(jù)的快速增長,導(dǎo)致數(shù)據(jù)的體量大、種類繁多且變化頻繁,為數(shù)據(jù)分析帶來了挑戰(zhàn),超越了經(jīng)典數(shù)據(jù)庫軟件工具的處理能力,人們對于海量數(shù)據(jù)的挖掘需求越來越迫切。數(shù)據(jù)挖掘?qū)鹘y(tǒng)的數(shù)據(jù)分析方法與大數(shù)據(jù)處理方法進(jìn)行有機結(jié)合,已經(jīng)成為大數(shù)據(jù)領(lǐng)域的核心技術(shù),而數(shù)據(jù)挖掘課程也成為了數(shù)據(jù)科學(xué)專業(yè)方向的骨干課程。然而,一部分高校的數(shù)據(jù)挖掘課程建設(shè)的研究成果主要集中在研究生層次[3-5],專門針對本科數(shù)據(jù)挖掘課程的教學(xué)研究相對偏少[6-7]。因此,在大數(shù)據(jù)類本科專業(yè)呈井噴式增長的條件下,迫切需要結(jié)合大數(shù)據(jù)的時代背景,針對本科生的數(shù)據(jù)挖掘課程教學(xué)開展研究。
本文在筆者課程教學(xué)改革經(jīng)驗的基礎(chǔ)上,結(jié)合在上海商學(xué)院講授《數(shù)據(jù)挖掘及應(yīng)用》課程的教學(xué)實踐,針對大數(shù)據(jù)時代背景下開展本科數(shù)據(jù)挖掘課程的教學(xué)進(jìn)行探討,對本科數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容進(jìn)行梳理和結(jié)構(gòu)化設(shè)計,并對教學(xué)方法進(jìn)行總結(jié),以期在提高教學(xué)質(zhì)量的同時,進(jìn)一步提升學(xué)生的綜合實踐能力,從而更好地培養(yǎng)數(shù)據(jù)挖掘人才。
根據(jù)維基百科的定義,大數(shù)據(jù)通常指規(guī)模龐大、結(jié)構(gòu)復(fù)雜,難以通過現(xiàn)有技術(shù)在有效的時間內(nèi)獲取和處理的數(shù)據(jù)集。大數(shù)據(jù)具有規(guī)模巨大(Volume)、種類繁多(Volume)、變化速度快(Velocity)和價值密度低(Value)的4V特點。雖然大數(shù)據(jù)價值密度低,但其中卻蘊含著巨大的價值,如何從原始數(shù)據(jù)中提取有用的模式或知識,據(jù)此對未來做出合理的預(yù)測,并對未來做出有價值的判斷,是數(shù)據(jù)挖掘需要解決的重點問題。大數(shù)據(jù)時代急需經(jīng)過專業(yè)訓(xùn)練的數(shù)據(jù)挖掘人才,這需要寬泛的知識和技能,需圍繞這些知識和技能研究數(shù)據(jù)挖掘課程的特點,并據(jù)此開展面向本科生的教學(xué)內(nèi)容設(shè)計和教學(xué)方法改革。
數(shù)據(jù)挖掘課程具有如下特點:
(1)多學(xué)科領(lǐng)域交叉。數(shù)據(jù)挖掘交叉融合了多個學(xué)科領(lǐng)域的知識,如概率論與數(shù)理統(tǒng)計中的抽樣、參數(shù)估計、假設(shè)檢驗、方差分析和回歸分析,數(shù)據(jù)庫與數(shù)據(jù)倉庫中數(shù)據(jù)的存儲、索引和查詢技術(shù),機器學(xué)習(xí)與模式識別中的搜索算法與統(tǒng)計學(xué)習(xí)理論,可視化技術(shù)中的數(shù)據(jù)整理與展示等。同時,數(shù)據(jù)挖掘還吸納了來自工程優(yōu)化、進(jìn)化計算、信息論、信號處理和信息檢索等領(lǐng)域的思想,并將其用于解決大數(shù)據(jù)所帶來的挑戰(zhàn)。
(2)強調(diào)數(shù)據(jù)思維。Mayer-Schonberger等人指出了大數(shù)據(jù)時代的思維變革[8]:
●更多:不是隨機樣本,而是全體數(shù)據(jù)。小數(shù)據(jù)時代,應(yīng)用場景通常較為單一,通常采用隨機采樣的統(tǒng)計方法獲取數(shù)據(jù),希望用盡可能少的數(shù)據(jù)獲得盡可能多的信息。然而,在大數(shù)據(jù)時代,數(shù)據(jù)的類型多且來源豐富,需利用網(wǎng)絡(luò)爬蟲、系統(tǒng)日志甚至是多傳感器技術(shù),盡可能收集全面而完整的數(shù)據(jù),即全數(shù)據(jù)模式;
●更雜:不是精確性,而是混雜性。大數(shù)據(jù)時代允許不精確,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效;
●更好:不是因果關(guān)系,而是相關(guān)關(guān)系。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。
(3)理論性、工程性和實踐性較強。一方面,數(shù)據(jù)挖掘的專業(yè)性較強,一些算法的數(shù)學(xué)原理比較抽象,具有較強的理論性;另一方面,各種數(shù)據(jù)挖掘算法的實現(xiàn)需要借助編程語言或軟件工具,具有很強的工程性;再者,數(shù)據(jù)挖掘在科學(xué)與工程、零售、電信服務(wù)和金融數(shù)據(jù)分析等諸多領(lǐng)域均有廣泛應(yīng)用,具有很強的實踐性。
(4)挖掘算法種類繁多。2006年在香港舉辦的數(shù)據(jù)挖掘國際會議(IEEEInternational Conference on Data Mining,ICDM)評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法[9]:C4.5算法、K-means算法、SVM算法、Apriori算法、EM算法、PageRank算法、AdaBoost算法、KNN算法、Naive Bayes算法和CART算法等。除了這10種外,還有相當(dāng)一部分算法未列出,而且隨著時間的推移,越來越多新算法被提出。
(5)內(nèi)容更新快速。一方面,人工智能領(lǐng)域的發(fā)展,尤其是深度學(xué)習(xí)領(lǐng)域的突破,為數(shù)據(jù)挖掘注入了新鮮血液,深度學(xué)習(xí)領(lǐng)域的算法和框架可以直接用來解決數(shù)據(jù)挖掘中的分類等問題;另一方面,大數(shù)據(jù)和云計算技術(shù)的進(jìn)步,并行處理和分布式處理成為主流,為數(shù)據(jù)挖掘帶來了眾多的工具和框架,這些工具和框架不僅種類繁多而且更新?lián)Q代快。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程[10]。數(shù)據(jù)挖掘課程教學(xué)內(nèi)容主要圍繞如何從數(shù)據(jù)中發(fā)現(xiàn)有用的知識或挖掘有用的模式。通過課程的學(xué)習(xí),學(xué)生應(yīng)能對從各種不同類型數(shù)據(jù)中挖掘有用模式與知識的過程有清晰和全面的認(rèn)識,如數(shù)據(jù)采集、數(shù)據(jù)清洗整理與探索、數(shù)據(jù)庫與數(shù)據(jù)倉庫的管理與維護(hù)、通過機器學(xué)習(xí)算法進(jìn)行模式提取、處理結(jié)果的可視化,等等。按照是否對數(shù)據(jù)類別標(biāo)簽進(jìn)行標(biāo)注,可將數(shù)據(jù)挖掘技術(shù)劃分成兩大類:有監(jiān)督的方法和無監(jiān)督的方法。有監(jiān)督的方法包括分類(最近鄰分類、樸素貝葉斯分類、決策樹、支持向量機、人工神經(jīng)網(wǎng)絡(luò)等)和回歸(線性回歸和非線性回歸),其中分類用于離散類型目標(biāo)變量的預(yù)測,而回歸則用于連續(xù)類型目標(biāo)變量的預(yù)測;而無監(jiān)督的方法主要有聚類分析和關(guān)聯(lián)規(guī)則分析等。
圖1 數(shù)據(jù)挖掘原理知識點的結(jié)構(gòu)化框架
早在2006年,國際計算機協(xié)會(Association for Computing Machinery,ACM)承辦的SIGKDD頂級會議成立了專門的課程委員會,制定了數(shù)據(jù)挖掘課程大綱[11]。然而,隨著大數(shù)據(jù)時代的到來,ACM的大綱內(nèi)容已略顯陳舊,需結(jié)合大數(shù)據(jù)時代數(shù)據(jù)挖掘的新特點和新內(nèi)容進(jìn)行教學(xué)內(nèi)容設(shè)計。圖1從課程教學(xué)的角度給出了數(shù)據(jù)挖掘原理的結(jié)構(gòu)化知識點。
(1)模塊1:緒論
講授數(shù)據(jù)、大數(shù)據(jù)和數(shù)據(jù)挖掘的基本概念,知識發(fā)現(xiàn)的過程,可以挖掘的數(shù)據(jù)類型,可以發(fā)現(xiàn)的知識種類,如何對挖掘的知識進(jìn)行評估,以及數(shù)據(jù)挖掘的應(yīng)用等。
(2)模塊2:數(shù)據(jù)預(yù)處理
講授數(shù)據(jù)對象與屬性類型,數(shù)據(jù)的統(tǒng)計描述與概要性描述,數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)降維等。
(3)模塊3:數(shù)據(jù)管理
講授關(guān)系數(shù)據(jù)庫與結(jié)構(gòu)化查詢語言、NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫等。另外,可進(jìn)一步講授存儲和處理大數(shù)據(jù)集的分布式框架Hadoop、MapReduce和Spark等。
(4)模塊4:分類技術(shù)
分類技術(shù)內(nèi)容較多,可選講部分內(nèi)容。常見的分類技術(shù)有最近鄰、樸素貝葉斯、決策樹、基于規(guī)則的分類器和支持向量機等。本模塊重點講授分類器的訓(xùn)練過程,如何挑選模型,如何利用訓(xùn)練樣本對模型進(jìn)行訓(xùn)練,如何利用測試樣本對模型進(jìn)行測試。此外,還可以對集成的方法進(jìn)行講解。
(5)模塊5:人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)
人工神經(jīng)網(wǎng)絡(luò)是一種典型的非線性分類技術(shù),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)變得越來越重要,故單獨作為一個教學(xué)模塊。此部分可先介紹感知機的概念,由多層感知機過渡到人工神經(jīng)網(wǎng)絡(luò),再過渡到深度神經(jīng)網(wǎng)絡(luò)。重點講授人工神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、激活函數(shù)、輸入層、輸出層和隱藏層等概念。同時,強調(diào)反向傳播、損失函數(shù)、梯度消失問題和正則化技術(shù)等。
(6)模塊6:回歸分析
從時間序列的視角,重點講授經(jīng)典的回歸分析方法,如線性回歸、非線性回歸、邏輯回歸和嶺回歸等。需特別強調(diào)邏輯回歸用于解決分類問題,可看作是線性回歸在概率預(yù)測問題中的推廣。
(7)模塊7:關(guān)聯(lián)分析
講授頻繁項集與關(guān)聯(lián)規(guī)則的基本概念,頻繁模式挖掘算法(Apriori算法、FP-Growth算法),關(guān)聯(lián)規(guī)則的生成過程。
(8)模塊8:聚類分析
講授聚類分析的基本概念,基于劃分的方法(Kmeans、K-medoids、K-median和K-center等),基于層次的方法(BIRCH方法、CURE方法、ROCK方法和CHEMALOEN方法等),基于密度的方法(DBSCAN方法、OPTICS方法和DENCLUE方法等),基于網(wǎng)格的方法(STING方法和CLIQUE方法等),基于模型的方法(基于概率模型的方法和基于神經(jīng)網(wǎng)絡(luò)模型的方法)等。
(9)模塊9:文本挖掘與網(wǎng)絡(luò)挖掘
文本挖掘是數(shù)據(jù)挖掘的一個分支。文本挖掘的對象是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本,主要完成短語提取、概念提取和可視化展示等任務(wù),可進(jìn)一步進(jìn)行關(guān)聯(lián)分析、文本分類或文本聚類等;網(wǎng)絡(luò)挖掘是數(shù)據(jù)挖掘的另一個分支。網(wǎng)絡(luò)挖掘?qū)W(wǎng)頁內(nèi)容及后臺交易數(shù)據(jù)進(jìn)行挖掘,提取感興趣的模式或有用的知識。由于網(wǎng)頁上的內(nèi)容多為文本信息,故諸如文本分類、文本聚類和關(guān)聯(lián)規(guī)則等文本挖掘的內(nèi)容亦可用于網(wǎng)絡(luò)挖掘。
(10)模塊10:數(shù)據(jù)可視化
介紹常用可視化圖表類型,高維數(shù)據(jù)可視化,文本數(shù)據(jù)可視化,網(wǎng)絡(luò)數(shù)據(jù)可視化,時空數(shù)據(jù)可視化,層次結(jié)構(gòu)數(shù)據(jù)可視化。
(11)模塊11:應(yīng)用
講授數(shù)據(jù)挖掘在科學(xué)與工程、金融數(shù)據(jù)分析、商品零售數(shù)據(jù)分析、電信用戶行為分析與電商商品推薦、電商產(chǎn)品評論情感分析等的應(yīng)用。
授課教師可針對不同專業(yè)學(xué)生的學(xué)科知識結(jié)構(gòu)特點,有針對性地選擇上述各教學(xué)模塊,進(jìn)行數(shù)據(jù)挖掘原理部分的教學(xué)。
早期數(shù)據(jù)挖掘課程主要面向研究生開設(shè),重點講授數(shù)據(jù)挖掘算法的基本原理,并輔以一定的課程實驗。近年來,數(shù)據(jù)科學(xué)成為研究熱點,數(shù)據(jù)挖掘技術(shù)獲得了更為廣泛的應(yīng)用,面向本科生開設(shè)數(shù)據(jù)挖掘課程的需求越來越強烈。經(jīng)典的數(shù)據(jù)挖掘教材[10-12]內(nèi)容涵蓋了非常寬廣的數(shù)據(jù)挖掘知識,各算法均給出了數(shù)學(xué)背景知識和算法設(shè)計過程,具有一定的廣度和深度,比較適合于研究生層次的教學(xué)。然而本科生可能很難深入理解算法背后的數(shù)學(xué)理論,會進(jìn)入惡性循環(huán)產(chǎn)生厭學(xué)情緒,需再原有原理性內(nèi)容基礎(chǔ)上增加工程實踐環(huán)節(jié)。
針對本科生數(shù)據(jù)挖掘課程的實踐教學(xué),本文建議按照項目開發(fā)過程開展結(jié)構(gòu)化教學(xué)。第一種情況,當(dāng)課程學(xué)時非常充足時,例如64個學(xué)時,則可32個學(xué)時用于上一小節(jié)中數(shù)據(jù)挖掘原理知識的教學(xué),另外32個學(xué)時用于數(shù)據(jù)挖掘技術(shù)的項目編程實踐教學(xué);第二種情況,當(dāng)課時很有限時,例如只有32個學(xué)時,則應(yīng)采用弱化數(shù)據(jù)挖掘算法理論知識,強化算法的工程實現(xiàn),并按照項目開發(fā)的模式開展實踐教學(xué)。
結(jié)合數(shù)據(jù)挖掘項目的開發(fā)流程,對數(shù)據(jù)挖掘處理過程進(jìn)行結(jié)構(gòu)化設(shè)計,在項目開發(fā)過程中穿插進(jìn)行理論知識的教學(xué),實現(xiàn)理論和實踐的交叉融合,讓學(xué)生在項目開發(fā)實踐中理解算法基本原理。圖2給出了數(shù)據(jù)挖掘項目開發(fā)的過程,其遵循科學(xué)研究的基本邏輯,按照從發(fā)現(xiàn)問題,到分析問題,再到解決問題的基本過程,將數(shù)據(jù)挖掘項目的開發(fā)過程分解為5個步驟。
圖2 數(shù)據(jù)挖掘項目開發(fā)流程的結(jié)構(gòu)化框架
下面給出這五個步驟的詳細(xì)解釋:
步驟1:設(shè)置目標(biāo)。根據(jù)特定的目標(biāo)場景需求,明確數(shù)據(jù)挖掘項目的目標(biāo)任務(wù)及其對應(yīng)的考核指標(biāo);
步驟2:獲取數(shù)據(jù)。搜集能用于解決上述問題的數(shù)據(jù)集,獲取數(shù)據(jù)有多重途徑,可實時采集數(shù)據(jù),當(dāng)條件不具備時,可利用計算機軟件進(jìn)行仿真生成數(shù)據(jù),亦可購買數(shù)據(jù)或直接采用已公開的數(shù)據(jù)集等;
步驟3:數(shù)據(jù)預(yù)處理。該部分是關(guān)鍵環(huán)節(jié),內(nèi)容繁多,需學(xué)生有足夠的耐心認(rèn)真完成。首先,進(jìn)行數(shù)據(jù)整理,對獲得的數(shù)據(jù)進(jìn)行適當(dāng)整理,轉(zhuǎn)化為更加適合處理的格式。同時對來自數(shù)據(jù)輸入的錯誤、缺失值、異常值或其他各種錯誤進(jìn)行處理,完成數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)整合等任務(wù);其次,對數(shù)據(jù)進(jìn)行探索性分析,將數(shù)據(jù)中的顯著模式進(jìn)行可視化;再次,進(jìn)行特征提取,獲得數(shù)據(jù)中的隱藏模式,進(jìn)而抽象出所需的目標(biāo)變量;最后,如果數(shù)據(jù)的維數(shù)比較多,還需進(jìn)行降維處理;
步驟4:數(shù)據(jù)建模。該部分是重點和難點,可穿插進(jìn)行理論知識的教學(xué)。依據(jù)獲得的特征及目標(biāo)變量類型,抽象出數(shù)學(xué)模型,并建立相應(yīng)的數(shù)據(jù)挖掘任務(wù)。常見的數(shù)據(jù)挖掘任務(wù)可以分為五類:分類、回歸、聚類分析、關(guān)聯(lián)分析和異常檢測。將數(shù)據(jù)集劃分成訓(xùn)練集、驗證集和測試集,對模型進(jìn)行訓(xùn)練、驗證和測試,并對模型進(jìn)行評估;
步驟5:結(jié)果展示。利用可視化技術(shù)對挖掘到的知識進(jìn)行表示,并發(fā)布決策結(jié)果。由于面向的用戶類型多樣,可以是領(lǐng)域?qū)<摇⒐こ處?、企業(yè)決策者或業(yè)務(wù)分析師等,這些用戶具有不同的領(lǐng)域知識,關(guān)注的焦點也不同,需結(jié)合用戶的反饋意見進(jìn)行持續(xù)改進(jìn)。
圍繞上述數(shù)據(jù)挖掘的五個步驟,教師可在進(jìn)行實踐教學(xué)的同時,在步驟4穿插進(jìn)行相關(guān)理論知識點的教學(xué),例如挑選十大數(shù)據(jù)挖掘算法中的一種,作為數(shù)據(jù)建模的基本模型,講解基本的數(shù)學(xué)原理、算法思想和算法設(shè)計流程等,然后讓學(xué)生編程實現(xiàn)(計算機類和數(shù)據(jù)科學(xué)類專業(yè)的學(xué)生)或用軟件工具實現(xiàn)(信管類或應(yīng)用統(tǒng)計類專業(yè)的學(xué)生)。這樣可以做到熟悉數(shù)據(jù)挖掘流程的同時,獲得理論知識的應(yīng)用經(jīng)驗。真正做到理論和實踐的交叉融合。
大數(shù)據(jù)時代,數(shù)據(jù)挖掘是核心關(guān)鍵技術(shù),已經(jīng)有越來越多的高校為本科生開設(shè)數(shù)據(jù)挖掘課程。本科數(shù)據(jù)挖掘課程的教學(xué)重在算法的應(yīng)用實踐,筆者通過多年的實踐教學(xué),提出對數(shù)據(jù)挖掘課程教學(xué)內(nèi)容進(jìn)行結(jié)構(gòu)化設(shè)計的思想:在理論教學(xué)內(nèi)容部分按照課程理論知識點的前后聯(lián)系構(gòu)建結(jié)構(gòu)化框架,供教師選擇性使用;在實踐教學(xué)內(nèi)容中,結(jié)合數(shù)據(jù)挖掘項目開發(fā)流程構(gòu)建結(jié)構(gòu)化框架。并針對不同的學(xué)時,給出了面向本科生的教學(xué)建議。筆者的課程開設(shè)教學(xué)實踐證明,通過結(jié)構(gòu)化設(shè)計,學(xué)生運用數(shù)據(jù)挖掘算法解決工程實踐問題的能力明顯提高,能在項目開發(fā)實踐中鞏固加深對理論知識的理解。同時,教師也可在結(jié)構(gòu)化設(shè)計中不斷完善自身的知識結(jié)構(gòu),進(jìn)而提高自身教學(xué)水平。